JP7326596B2 - 音声データ作成装置 - Google Patents

音声データ作成装置 Download PDF

Info

Publication number
JP7326596B2
JP7326596B2 JP2022517014A JP2022517014A JP7326596B2 JP 7326596 B2 JP7326596 B2 JP 7326596B2 JP 2022517014 A JP2022517014 A JP 2022517014A JP 2022517014 A JP2022517014 A JP 2022517014A JP 7326596 B2 JP7326596 B2 JP 7326596B2
Authority
JP
Japan
Prior art keywords
sentence example
sentence
speech
text corpus
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022517014A
Other languages
English (en)
Other versions
JPWO2021215352A1 (ja
Inventor
拓 加藤
悠輔 中島
太一 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JPWO2021215352A1 publication Critical patent/JPWO2021215352A1/ja
Application granted granted Critical
Publication of JP7326596B2 publication Critical patent/JP7326596B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声データ作成装置に関する。
音声を認識してテキストを出力する音声認識システムでは、ある単語を認識対象とさせるために、当該単語に対応する音声データが必要である。音声認識システムは、音声データを参照したり、学習したりすることにより、その単語を精度良く認識することが可能となる。音声認識システムにおける学習に用いることができる学習データを作成する技術が知られている(例えば、特許文献1参照)。この技術では、データベース中の少なくとも一人の話者の発話データを標準話者データとし、その他の発話データを学習話者データとして、標準話者データ空間から学習話者データ空間への変換関数を作成し、新たな単語について標準話者が発話したデータを、作成した変換関数を用いて学習話者データ空間にデータ変換することで学習データを作成する。
特開平10-274992号公報
音声認識システムに認識対象として追加させるための追加単語のみが発話された音声は、文脈の情報を含まないため、単語のみの音声データを学習させても、十分な認識精度を得ることができない。また、人が追加単語を発生することにより音声データを生成する場合には、非常にコスト及び手間が嵩む。
そこで、本発明は、上記問題点に鑑みてなされたものであり、音声認識システムにおける認識対象として追加させる追加単語に関する音声データであって、当該単語が出現する文脈の情報が適切に含まれた音声データを低コストで取得することを目的とする。
上記課題を解決するために、本発明の一形態に係る音声データ作成装置は、音声認識システムにおける認識対象に追加させる単語である追加単語を含む音声データを作成する音声データ作成装置であって、複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群から、追加単語を含む1以上のテキストコーパスを抽出する文例抽出部と、文例抽出部により抽出されたテキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、追加単語に対する最適文例として選択する文例選択部と、所定の音声合成システムにより生成された最適文例の合成音声を、追加単語に対応する音声データとして出力する音声作成部と、を備える。
上記の形態によれば、追加単語を含み、文として生起しやすいテキストコーパスが最適文例として選択される。従って、選択されたテキストコーパスは、追加単語の文脈の情報を含む。また、音声合成システムにより生成された最適文例の合成音声が、音声データとして出力されるので、音声データの作成に係るコストが低減される。
音声認識システムにおける認識対象として追加させる追加単語に関する音声データであって、当該単語が出現する文脈の情報が適切に含まれた音声データを低コストで取得することが可能な音声データ作成装置が実現される。
本実施形態の音声データ作成装置の機能的構成を示すブロック図である。 音声データ作成装置及び判定装置のハードブロック図である。 追加単語記憶部に記憶されている追加単語リストの例を示す図である。 テキストコーパス群から抽出された、追加単語を含むテキストコーパスの例を示す図である。 追加単語記憶部に記憶されている追加単語リストの英語の例を示す図である。 テキストコーパス群から抽出された、追加単語を含むテキストコーパスの英語の例を示す図である。 最適文例を選択する文例選択処理の処理内容を示すフローチャートである。 各追加単語に対して選択された最適文例の例を示す図である。 各追加単語に対して選択された最適文例の英語の例を示す図である。 文例ひな形生成処理の処理内容を示すフローチャートである。 追加単語に対応付けられたカテゴリを示す図である。 カテゴリ辞書記憶部に記憶されているカテゴリ辞書の例を示す図である。 追加単語に対応付けられたカテゴリの英語の例を示す図である。 カテゴリ辞書記憶部に記憶されているカテゴリ辞書の英語の例を示す図である。 生成された文例ひな形の一例を示す図である。 生成された文例ひな形の英語の例を示す図である。 文例ひな形に基づいて生成された最適文例の一例を示す図である。 文例ひな形に基づいて生成された最適文例の英語の例を示す図である。 音声データ作成装置における音声データ作成方法の処理内容を示すフローチャートである。 音声データ作成プログラムの構成を示す図である。
本発明に係る音声データ作成装置の実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
音声を認識してテキストを出力する音声認識システムでは、ある単語を認識対象とさせるために、当該単語に対応する音声データが必要である。本実施形態の音声データ作成装置は、音声認識システムにおける認識対象に追加させる単語である追加単語を含む音声データを作成する装置である。音声認識システムは、作成された音声データを学習に用いたり、参照したりすることにより、音声認識を実施する。
図1は、本実施形態に係る音声データ作成装置の機能的構成を示す図である。音声データ作成装置10は、図1に示すように、機能的には、文例抽出部11、文例選択部12、合成音声選択部13、音声作成部14、文例ひな形生成部15及び文例生成部16を備える。これらの各機能部11~16は、一つの装置に構成されてもよいし、複数の装置に分散されて構成されてもよい。
また、音声データ作成装置10は、追加単語記憶部21、テキストコーパス記憶部22及びカテゴリ辞書記憶部23といったコンピュータ読み取り可能な記録媒体にアクセス可能に構成されている。追加単語記憶部21、テキストコーパス記憶部22及びカテゴリ辞書記憶部23は、音声データ作成装置10内に構成されてもよいし、図1に示されるように、音声データ作成装置10の外部に別の装置として構成されてもよい。
追加単語記憶部21は、例えば音声認識システムにおける認識対象に追加させる単語である追加単語を含む追加単語リストを記憶している記憶媒体である。テキストコーパス記憶部22は、複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群を記憶している記憶媒体である。テキストコーパス群は、予め設定された特定の事項に関連するテキストコーパスである関連コーパスからなる関連コーパス群を含んでもよい。カテゴリ辞書記憶部23は、単語と当該単語が属するカテゴリとを関連付けたカテゴリ辞書を記憶している記憶媒体である。
なお、図1に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
例えば、本発明の一実施の形態における音声データ作成装置10は、コンピュータとして機能してもよい。図2は、本実施形態に係る音声データ作成装置10のハードウェア構成の一例を示す図である。音声データ作成装置10はそれぞれ、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。音声データ作成装置10のハードウェア構成は、図2に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
音声データ作成装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、図1に示した各機能部11~16などは、プロセッサ1001で実現されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、音声データ作成装置10及びの各機能部11~16は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る音声データ作成方法及び判定方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
また、音声データ作成装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
次に、音声データ作成装置10の各機能部について説明する。文例抽出部11は、複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群から、追加単語を含む1以上のテキストコーパスを抽出する。
本実施形態では、文例抽出部11は、追加単語記憶部21に記憶されている追加単語リストから追加単語を取得する。図3は、追加単語記憶部21に記憶されている追加単語リストの例を示す図である。追加単語リストは、追加単語の表記及び読みを関連付けて含んでいる。図3に例示されるように、追加単語リストは、表記「D社」及び読み「ディーシャ」からなる追加単語を含む。また、追加単語リストは、表記「千代田区」及び読み「チヨダク」からなる追加単語並びに表記「N社」及び読み「エヌシャ」からなる追加単語を含む。
文例抽出部11は、テキストコーパス記憶部22を参照して、追加単語を含むテキストコーパスをテキストコーパス群から抽出する。図4は、テキストコーパス群から抽出された、追加単語を含むテキストコーパスの例を示す図である。図4に示されるように、文例抽出部11は、追加単語「D社」を取得した場合には、その表記「D社」を含む「今後はD社で実施していきます。」及び「本日はD社より紹介いたします。」等のテキストコーパスをテキストコーパス群から抽出する。また、文例抽出部11は、追加単語「千代田区」を取得した場合には、その表記「千代田区」を含む「東京都千代田区に所属しております。」及び「千代田区は東京23区の一つである。」等のテキストコーパスをテキストコーパス群から抽出する。
なお、文例抽出部11は、テキストコーパス群に含まれるテキストコーパスから、追加単語を含むテキストコーパスの全てを抽出してもよい。また、文例抽出部11は、テキストコーパス群に含まれるテキストコーパスから、予め設定された所定数の、追加単語を含むテキストコーパスを抽出してもよい。
図5は、追加単語記憶部21に記憶されている追加単語リストの英語の例を示す図である。追加単語リストは、追加単語の表記(Word)及び読み(Reading)を関連付けて含んでいる。図5に例示されるように、追加単語リストは、Word ”Company D”及びReading ”k vu m p vu n i d i”からなる追加単語を含む。また、追加単語リストは、Word ”Chiyoda-ku”及びReading ”t_su i j o uu d au k u”からなる追加単語並びにWord ”Shinjuku-ku”及びReading ”s i n j u k u k u”からなる追加単語を含む。
図6は、テキストコーパス群から抽出された、追加単語を含むテキストコーパスの英語の例を示す図である。図6に示されるように、文例抽出部11は、追加単語”Company D”を取得した場合には、その表記”Company D”を含む”This is the result of research at Company D.”及び”I am an employee of Company D.”等のテキストコーパスをテキストコーパス群から抽出する。また、文例抽出部11は、追加単語”Chiyoda-ku”を取得した場合には、その表記”Chiyoda-ku”を含む”It is located in Chiyoda-ku, Tokyo.”及び”Have you ever been to Chiyoda-ku?”等のテキストコーパスをテキストコーパス群から抽出する。
文例選択部12は、文例抽出部11により抽出されたテキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、当該追加単語に対する最適文例として選択する。具体的には、文例選択部12は、言語モデルを用いて、文例抽出部11により抽出された各テキストコーパスの尺度を算出してもよい。言語モデルは、文における単語の配列に基づいて各単語の生起確率を出力する確率モデルである。文に含まれる各単語の生起確率を集計(加算及び積算等)することにより、文としての生起しやすさの尺度が算出できる。
本実施形態で用いられる言語モデルには、各種の周知のモデルを適用してもよいが、その一例として、n-gram言語モデルであってもよい。n-gram言語モデルは、確率の計算対象の単語の直前に現れた(n-1)個の単語に基づいて、計算対象の単語の出現確率を計算する確率モデルである。音声認識の分野では、3-gram言語モデル及び4-gram言語モデルが用いられる場合が多い。
以下に、3-gram言語モデルによる、文「音声認識の紹介です」の生起確率の算出の例を説明する。以下の説明において、Pを確率、<s>を文頭記号、</s>を文末記号とすると、文「音声認識の紹介です」の生起確率は、以下のように表される。
P(<s> 音声 認識 の 紹介 です </s>)
=P(音声|<s>)P(認識│<s> 音声)P(の│音声 認識)P(紹介│認識 の)P(です│の 紹介)P(</s>|紹介 です)
なお、n-gram言語モデルの学習には、既知の如何なる手法が用いられてもよいが、例えば、最尤推定法及び線形補間等の手法であってもよい。
また、3-gram言語モデルによる、英語の文”Have you ever been to Chiyoda-ku ?”の生起確率は、以下のように表される。
P (<s>Have you ever been to Chiyoda-ku ? </s> )
= P (Have|<s>) P (you | <s> Have) P (ever | Have you) P (been | you ever) P (to | ever been) P (Chiyoda-ku | been to) P (? | to Chiyoda-ku)
このように、言語モデルを用いることにより、テキストコーパスの文としての生起しやすさを示す尺度が容易に算出される。
文例選択部12は、言語モデルを用いて、文例抽出部11により抽出された各テキストコーパスの文としての生起し難さを示すパープレキシティを算出し、算出されたパープレキシティが最も低いテキストコーパスを、当該追加単語に対する最適文例として選択してもよい。
パープレキシティは、言語モデルに基づいて、ある文が選択される難しさを表す尺度であって、パープレキシティの値が小さいほど、文と言語モデルとが適合していることを表す。言語モデルMに基づく文sのパープレキシティは、式(1)により表される。
Figure 0007326596000001
M:言語モデル、
s:単語数がNである入力文、
:入力文sにおいてi番目の単語、
P(w|M):言語モデルMにおける単語wの生起確率
文例選択部12は、尺度が所定の閾値より大きく、且つ、尺度が最も高いテキストコーパスを最適文例として選択してもよい。尺度が所定の閾値より大きいテキストコーパスが最適文例として選択されることにより、追加単語の文脈の情報が一定程度以上に含まれるテキストコーパスを最適文例として選択することが可能となる。また、尺度が所定の閾値を超えるテキストコーパスが、文例抽出部11により抽出されたテキストコーパスに存在しなければ、最適文例が選択されないので、音声データの品質が一定程度以上に維持される。
なお、文としての生起しやすさを示す尺度がパープレキシティである場合には、文例選択部12は、パープレキシティが所定の閾値より小さく、且つ、パープレキシティが最も小さいテキストコーパスを最適文例として選択する。
図7は、最適文例を選択する文例選択処理の処理内容を示すフローチャートである。図7に示されるフローチャートは、一つの追加単語に対して行われる最適文例の選択処理である。
ステップS11において、文例選択部12は、文例抽出部11により、追加単語を含むテキストコーパスが抽出されたか否かを判定する。追加単語を含むテキストコーパスが抽出されたと判定された場合には、処理はステップS12に進む。一方、追加単語を含むテキストコーパスが抽出されたと判定されなかった場合には、処理はステップS16に進む。
ステップS12において、文例選択部12は、各テキストコーパスのパープレキシティ(PPL)を算出する。そして、ステップS13において、文例選択部12は、最も低いPPLを有するテキストコーパスsを選択する。
ステップS14において、文例選択部12は、テキストコーパスsのパープレキシティPPL(s)が所定の閾値Tより小さいか否かを判定する。PPL(s)が所定の閾値Tより小さいと判定された場合には、処理はステップS15に進む。一方、PPL(s)が所定の閾値Tより小さいと判定されなかった場合には、処理はステップS16に進む。
ステップS15において、文例選択部12は、テキストコーパスsを最適文例として出力する。一方、ステップS16において、文例選択部12は、空の文字列を当該追加単語の最適文例として出力する。
図8は、各追加単語に対して選択された最適文例の例を示す図である。図8に示されるように、文例選択部12は、追加単語「D社」に対する最適文例「本日はD社より紹介いたします。」を出力する。なお、文例選択部12は、算出されたパープレキシティ「120」を併せて出力してもよい。
また、文例選択部12は、追加単語「千代田区」に対する最適文例「東京都千代田区に所属しております。」及びそのパープレキシティ「230」を出力する。また、文例選択部12は、追加単語「N社」に対する最適文例「この商品はN社から発売されます。」及びそのパープレキシティ「130」を出力する。
図9は、各追加単語に対して選択された最適文例の英語の例を示す図である。図9に示されるように、文例選択部12は、追加単語”Company D”に対する最適文例”This is the result of research at Company D.”を出力する。なお、文例選択部12は、算出されたパープレキシティ「120」を併せて出力してもよい。
また、文例選択部12は、追加単語”Chiyoda-ku”に対する最適文例”It is located in Chiyoda-ku, Tokyo.”及びそのパープレキシティ「230」を出力する。また、文例選択部12は、追加単語”Company N”に対する最適文例”He founded Company N.”及びそのパープレキシティ「130」を出力する。
テキストコーパス記憶部22に記憶されているテキストコーパス群が、予め設定された特定の事項に関連するテキストコーパスである関連コーパスからなる関連コーパス群を含む場合には、文例抽出部11は、テキストコーパス群のうちの、少なくとも関連コーパス群から、追加単語を含むテキストコーパスを抽出してもよい。
即ち、音声認識システムが適用される分野に関連するテキストコーパスを関連コーパスとして、文例抽出部11が関連コーパス群からテキストコーパスを抽出することにより、当該分野において取得された音声の認識に適した音声認識システムを構成するための音声データを取得できる。
例えば、ある会議の音声を認識するための音声認識システムに、本実施形態の音声データ作成装置により作成された音声データを適用する場合には、過去の会議の議事録及び説明資料等に基づいて関連コーパス群を構成することとしてもよい。
また、特定の事項に関連する関連コーパス群からのテキストコーパスの抽出が行われる場合に、文例選択部12は、関連コーパスに基づいて生成(学習)された言語モデルを用いて、最適文例の選択を実施してもよい。音声認識システムが適用される分野に関連する関連コーパスを用いて生成された言語モデルが用いられることにより、当該適用分野において文として生起しやすいテキストコーパスを最適文例として選択できる。
合成音声選択部13は、合成音声の生成のための少なくとも1以上のパラメタについて、複数のパラメタ値のそれぞれにより生成された合成音声のうち、所定の音声認識処理の結果の精度が最も高い合成音声のパラメタ値を、音声合成システムにおける合成音声の生成のためのパラメタ値として選択する。
具体的には、合成音声選択部13は、文例選択部12により選択された最適文例に対する合成音声を、音声合成システムにより、合成音声の生成のためのパラメタを異ならせて複数生成する。例えば、あるパラメタが、連続値のうちの一の値により設定されるものである場合には、合成音声選択部13は、予め設定された値の幅で、予め設定された数のパターンの全てのパラメタ値のそれぞれにより、合成音声を生成してもよい。例えば、あるパラメタが「1.0」を中心値とする連続値により設定されるものであり、幅0.2で5パターンの合成音声を生成することが予め設定されている場合には、合成音声選択部13は、そのパラメタのパラメタ値を「0.6,0.8,1.0,1.2,1.4」のそれぞれに設定して、5パターンの合成音声を生成する。なお、設定されるパラメタが複数である場合には、合成音声選択部13は、各パラメタの設定パターンの全ての組み合わせについての合成音声を生成する。なお、パラメタは、例えば、話速及び話者であるが、限定されない。
合成音声選択部13は、生成された各パターンの合成音声を音声認識システムにより認識させ、合成に用いた最適文例と各パターンの認識結果とを比較して、各パターンの認識精度を算出する。認識精度の算出は、文字認識精度及び単語認識精度等のいずれに基づいてもよい。そして、合成音声選択部13は、最も認識精度が高いパラメタ値のパターンを、音声合成システムにおける合成音声の生成のためのパラメタ値として選択する。
このようにパラメタ値の選択が行われることにより、音声認識処理においてより認識しやすい合成音声を出力可能なパラメタ値により、最適文例の合成音声からなる音声データが作成される。従って、音声認識システムにおける学習に供するのに好適な音声データが得られる。
音声作成部14は、所定の音声合成システムにより生成された最適文例の合成音声を、追加単語に対応する音声データとして出力する。音声合成システムは、テキストからなる文字列の入力を受けて、音声を出力するシステムであって、例えば統計的音声合成等の一般的なアルゴリズムを含んで構成されてもよい。音声合成システムのパラメタは、一般的に、話者及び話速などである。統計的音声合成では、テキストを音素、品詞及び単語に変換し、音声合成用の音響モデルを用いて、音声波形が生成される。
図3及び図5に例示された追加単語は、それぞれ一つの読みに関連付けられているが、追加単語が、複数の読みに関連付けられていてもよい。かかる場合には、音声作成部14は、追加単語の全ての読みのそれぞれを用いた最適文例の合成音声を、読みごとに生成してもよい。例えば、追加単語「5G」に対して、文例選択部12により、最適文例「本日は5Gの紹介です。」が選択され、追加単語リストにおいて、表記「5G」に対して読み「ファイブジー、ゴジー」が関連付けられていた場合には、音声作成部14は、テキスト「本日はファイブジーの紹介です」及びテキスト「本日はゴジーの紹介です」のそれぞれの合成音声を生成して、追加単語「5G」に対応する音声データとして出力する。
音声作成部14は、いかなる態様で音声データを出力してもよいが、例えば、音声データを記憶させるための所定の記憶媒体に音声データ追加単語と関連付けて記憶させてもよい。
また、音声作成部14は、合成音声選択部13により選択されたパラメタ値を音声合成システムに適用して、最適文例の合成音声を生成する。
前述のとおり、文例選択部12は、文としての生起しやすさを示す尺度が所定の閾値より大きいテキストコーパスが文例抽出部11により抽出されたテキストコーパスの中に存在しない場合には、最適文例としてのテキストコーパスを選択しなくてもよい。本実施形態の音声データ作成装置10では、最適文例としてのテキストコーパスが選択されなかった追加単語のために、追加単語を挿入する部分がブランクとされた文例からなる文例ひな形が生成されてもよい。
文例ひな形生成部15は、単語のカテゴリごとに文例ひな形を生成する。図10は、文例ひな形の生成対象の一のカテゴリについての、文例ひな形の生成処理の処理内容を示すフローチャートである。
ステップS21において、文例ひな形生成部15は、各追加単語にカテゴリを関連付ける。なお、文例ひな形生成部15は、カテゴリ辞書を参照して追加単語に対するカテゴリの関連付けを実施してもよい。カテゴリ辞書は、単語とカテゴリとを関連付けた辞書である。図11は、カテゴリが関連付けられた追加単語の例を示す図である。図12は、カテゴリ辞書記憶部23に記憶されているカテゴリ辞書の例を示す図である。
図12に示されるように、カテゴリ辞書は、カテゴリがそれぞれ関連付けられた単語を含んでいる。文例ひな形生成部15は、カテゴリ辞書を参照して、追加単語「D社」のカテゴリ「企業名」を取得し、図11に示すように、追加単語「D社」にカテゴリ「企業名」を関連付ける。同様に、文例ひな形生成部15は、追加単語「千代田区」にカテゴリ「地名」を関連付け、追加単語「N社」にカテゴリ「企業名」を関連付ける。
なお、追加単語がカテゴリ辞書に含まれていない場合には、文例ひな形生成部15は、当該追加単語に関連付けるべきカテゴリとしてユーザにより入力されたカテゴリを取得し、取得したカテゴリを当該追加単語に関連付けてもよい。
図13は、カテゴリが関連付けられた追加単語の英語の例を示す図である。図14は、カテゴリ辞書記憶部23に記憶されているカテゴリ辞書の英語の例を示す図である。図14に示されるように、カテゴリ辞書は、カテゴリがそれぞれ関連付けられた単語を含んでいる。文例ひな形生成部15は、カテゴリ辞書を参照して、追加単語”Company D”のカテゴリ”Company”を取得し、図13に示すように、追加単語”Company D”にカテゴリ”Company”を関連付ける。同様に、文例ひな形生成部15は、追加単語”Chiyoda-ku”にカテゴリ”Place”を関連付け、追加単語”Company N”にカテゴリ”Company”を関連付ける。
ステップS22において、文例ひな形生成部15は、文例ひな形の生成対象のカテゴリに含まれるいずれかの追加単語に対して、少なくとも一つの最適文例の文例選択部12による関連付けはあるか否かを判定する。なお、以下において、文例ひな形の生成対象のカテゴリが、カテゴリ「企業名」である例を説明する。具体的には、文例ひな形生成部15は、図8及び図9に例示される追加単語に対する最適文例の関連付けを参照して、最適文例が関連付けられた、カテゴリが「企業名」(Company)である追加単語が存在するか否かを判定する。最適文例の関連付けがあると判定された場合には、処理はステップS23に進む。一方、最適文例の関連付けがあると判定されなかった場合には、処理はステップS25に進む。
ステップS23において、文例ひな形生成部15は、文例ひな形の生成対象のカテゴリに含まれる追加単語に関連付けられた最適文例のうち、最も低いパープレキシティを有する文例を選択する。図8に示す例では、文例ひな形生成部15は、カテゴリが「企業名」である追加単語「D社」及び「N社」のそれぞれに関連付けられた最適文例のうち、パープレキシティが最も低い文例「本日はD社より紹介いたします。」を選択する。
また、図9に示す例では、文例ひな形生成部15は、カテゴリが”Company”である追加単語”Company D”及び”Company N”のそれぞれに関連付けられた最適文例のうち、パープレキシティが最も低い文例”This is the result of research at Company D.”を選択する。
ステップS24において、文例ひな形生成部15は、ステップS23において選択した文例から、追加単語の部分を除いてブランクとした文例ひな形を生成する。図15は、生成された文例ひな形の一例を示す図である。図15に示されるように、文例ひな形生成部15は、カテゴリが「企業名」である追加単語「D社」に対して選択された文例「本日はD社より紹介いたします。」から、追加単語「D社」の部分を除いてブランクとした文例ひな形「本日は<>より紹介いたします。」を生成する。
図16は、生成された文例ひな形の英語の例を示す図である。図16に示されるように、文例ひな形生成部15は、カテゴリが”Company”である追加単語”Company D”に対して選択された文例”This is the result of research at Company D.”から、追加単語”Company D”の部分を除いてブランクとした文例ひな形”This is the result of research at < >.”を生成する。
一方、文例ひな形の生成対象のカテゴリの追加単語に対して最適文例の関連付けがない場合には(S22)、ステップS25において、文例ひな形生成部15は、カテゴリ辞書を参照して、文例ひな形の生成対象のカテゴリの他の単語を選択する。
ステップS26において、文例ひな形生成部15は、ステップS25において選択した単語を含むテキストコーパスを、テキストコーパス群から抽出する。
ステップS27において、文例ひな形生成部15は、ステップS26において抽出したテキストコーパスのパープレキシティが所定の閾値T未満であるか否かを判定する。パープレキシティが閾値T未満であると判定された場合には、処理はステップS28に進む。一方、パープレキシティが閾値T未満であると判定されなかった場合には、処理はステップS29に進む。
ステップS28において、文例ひな形生成部15は、ステップS26において抽出したテキストコーパスから、ステップS25において選択した単語の部分を除いてブランクとした文例ひな形を生成する。
ステップS29において、文例ひな形生成部15は、ステップS25において選択した単語を含むテキストコーパスのテキストコーパス群からの更なる抽出を試みる。テキストコーパス群を更に抽出可能である場合には、処理はステップS26に戻り、文例ひな形生成部15は、テキストコーパスを抽出する。一方、テキストコーパス群を更に抽出可能ではない場合には、処理はステップS30に進む。
ステップS30において、文例ひな形生成部15は、カテゴリ辞書を参照して、ステップS25において選択した単語とは異なる同カテゴリの他の単語の更なる選択を試みる。他の単語を更に選択可能である場合には、処理はステップS25に戻り、文例ひな形生成部15は、他の単語を選択する。他の単語を更に選択可能ではない場合には、処理はステップS31に進む。
ステップS31において、文例ひな形生成部15は、ステップS26において抽出されたテキストコーパスの中で最もパープレキシティが低いテキストコーパスから、ステップS25において選択した単語の部分を除いてブランクとした文例ひな形を生成する。
ステップS32において、文例ひな形生成部15は、ステップS24,S28,S31のいずれかにおいて生成した文例ひな形を出力する。具体的には、文例ひな形生成部15は、文例生成部16に生成した文例ひな形を送出してもよい。また、文例ひな形生成部15は、文例ひな形を記憶させるための所定の記憶媒体に、生成した文例ひな形を記憶させてもよい。
文例生成部16は、文例選択部12により最適文例が選択されなかった追加単語を、当該追加単語が属するカテゴリについて生成された文例ひな形のブランクに挿入して、当該追加単語に対する最適文例を生成する。図17は、文例ひな形に基づいて生成された最適文例の一例を示す図である。図17に示される例では、カテゴリが「企業名」である追加単語「Z社」に対して、文例選択部12により最適文例が選択されなかったこととする。かかる場合には、文例生成部16は、カテゴリ「企業名」に対して生成された文例ひな形「本日は<>より紹介いたします。」を取得し(図15参照)、追加単語「Z社」を文例ひな形のブランク「<>」に挿入して、追加単語「Z社」に対する最適文例「本日はZ社より紹介いたします。」を生成する。
図18は、文例ひな形に基づいて生成された最適文例の英語の例を示す図である。図18に示される例では、カテゴリが”Company”である追加単語”Company Z”に対して、文例選択部12により最適文例が選択されなかったこととする。かかる場合には、文例生成部16は、カテゴリ”Company”に対して生成された文例ひな形”This is the result of research at < >.”を取得し(図16参照)、追加単語”Company Z”を文例ひな形のブランク”< >”に挿入して、追加単語”Company Z”に対する最適文例”This is the result of research at Company Z.”を生成する。
図10を参照して説明した文例ひな形の生成によれば、同一のカテゴリに属する各追加単語に対して最適文例として選択されたテキストコーパスの中から、尺度が最も高いテキストコーパスに基づいて文例ひな形が生成されるので、当該カテゴリに属する他の単語をブランクに挿入することにより、文として生起しやすい文例を生成できる。そして、このように生成された文例ひな形を用いることにより、最適文例が選択されなかった追加単語に対しても、最適文例を生成することが可能となる。
図19は、音声データ作成装置10における音声データ作成方法の処理内容を示すフローチャートである。
ステップS1において、文例抽出部11は、テキストコーパス群から追加単語を含むテキストコーパスを全て抽出する。
ステップS2において、文例選択部12は、文例抽出部11により抽出されたテキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、当該追加単語に対する最適文例として選択する。本実施形態では、文例選択部12は、パープレキシティが最も低いテキストコーパスを最適文例として選択する。
ステップS3において、合成音声選択部13は、合成音声の出力のためのパラメタ値を選択する。なお、ステップS3の処理は、本実施形態の音声データ作成方法において必須ではない。
ステップS4において、音声作成部14は、音声合成システムにより合成された最適文例の合成音声を、追加単語に対応する音声データとして出力する。
次に、図20を参照して、コンピュータを、本実施形態の音声データ作成装置10として機能させるための音声データ作成プログラムについて説明する。
音声データ作成プログラムP1は、音声データ作成装置10における音声データ作成処理を統括的に制御するメインモジュールm10、文例抽出モジュールm11、文例選択モジュールm12、合成音声選択モジュールm13、音声作成モジュールm14、文例ひな形生成モジュールm15及び文例生成モジュールm16を備えて構成される。そして、各モジュールm11~m16により、文例抽出部11、文例選択部12、合成音声選択部13、音声作成部14、文例ひな形生成部15及び文例生成部16のための各機能が実現される。
なお、音声データ作成プログラムP1は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図20に示されるように、記録媒体M1に記憶される態様であってもよい。
以上説明した本実施形態の音声データ作成装置10、音声データ作成方法、音声データ作成プログラムP1によれば、追加単語を含み、文として生起しやすいテキストコーパスが最適文例として選択される。従って、選択されたテキストコーパスは、追加単語の文脈の情報を含む。また、音声合成システムにより生成された最適文例の合成音声が、音声データとして出力されるので、音声データの作成に係るコストが低減される。
また、別の形態に係る音声データ作成装置では、文例選択部は、文における単語の配列に基づいて各単語の生起確率を出力する言語モデルを用いて、文例抽出部により抽出された各テキストコーパスの尺度を算出してもよい。
上記の形態によれば、テキストコーパスの文としての生起しやすさを示す尺度が容易に算出される。
また、別の形態に係る音声データ作成装置では、文例選択部は、言語モデルを用いて、文例抽出部により抽出された各テキストコーパスの、文としての生起し難さを示すパープレキシティを算出し、算出されたパープレキシティが最も低いテキストコーパスを、追加単語に対する最適文例として選択してもよい。
上記の形態によれば、言語モデルを用いて算出されたパープレキシティが最も低いテキストコーパスが最適文例として選択される。従って、追加単語を含むと共に文として生起しやすいテキストコーパスが選択される。
また、別の形態に係る音声データ作成装置では、テキストコーパス群は、予め設定された特定の事項に関連するテキストコーパスである関連コーパスからなる関連コーパス群を含み、文例抽出部は、テキストコーパス群のうちの、少なくとも関連コーパス群から、追加単語を含むテキストコーパスを抽出し、文例選択部は、関連コーパスに基づいて生成された言語モデルを用いて最適文例を選択してもよい。
上記の形態によれば、関連コーパスを、例えば音声認識システムが適用される分野に関連するテキストコーパスにより構成することにより、適用分野に適したテキストコーパスが抽出される。また、適用分野に関連するテキストコーパスを用いて生成された言語モデルが用いられるので、当該適用分野において文として生起しやすいテキストコーパスを最適文例として選択できる。
また、別の形態に係る音声データ作成装置は、合成音声の生成のための少なくとも1以上のパラメタについて、複数のパラメタ値のそれぞれにより生成された合成音声のうち、音声認識システムによる音声認識処理の結果の精度が最も高い合成音声のパラメタ値を、音声合成システムにおける合成音声の生成のためのパラメタ値として選択する合成音声選択部を更に備えてもよい。
上記の形態によれば、音声認識処理においてより認識しやすい合成音声を出力可能なパラメタ値により、最適文例の合成音声からなる音声データが作成される。従って、音声認識システムにおける学習に供するのに好適な音声データが得られる。
また、別の形態に係る音声データ作成装置では、文例選択部は、尺度が所定の閾値より大きく、且つ、最も高いテキストコーパスを最適文例として選択してもよい。
上記の形態によれば、尺度が所定の閾値より大きいテキストコーパスが最適文例として選択されるので、追加単語の文脈の情報が一定程度以上に含まれるテキストコーパスを最適文例として選択することが可能となる。また、尺度が所定の閾値を超えるテキストコーパスが、抽出されたテキストコーパスに存在しなければ、最適文例が選択されないので、音声データの品質が一定程度以上に維持される。
また、別の形態に係る音声データ作成装置では、各追加単語は、当該単語が属するカテゴリに関連付けられており、音声データ作成装置は、文例選択部により最適文例が選択された追加単語及び当該最適文例としてのテキストコーパスのうち、同一のカテゴリに属する各追加単語に対して最適文例として選択されたテキストコーパスの尺度が最も高い追加単語及びテキストコーパスを取得し、取得したテキストコーパスに基づいて、追加単語の部分をブランクとした文例ひな形を、カテゴリごとに生成する、文例ひな形生成部と、文例選択部により最適文例が選択されなかった追加単語を、当該追加単語が属するカテゴリについて生成された文例ひな形のブランクに挿入して、当該追加単語に対する最適文例を生成する、文例生成部、を更に備えてもよい。
上記の形態によれば、同一のカテゴリに属する各追加単語に対して最適文例として選択されたテキストコーパスの中から、尺度が最も高いテキストコーパスに基づいて文例ひな形が生成されるので、当該カテゴリに属する他の単語をブランクに挿入することにより、文として生起しやすい文例を生成できる。そして、このように生成された文例ひな形を用いることにより、最適文例が選択されなかった追加単語に対しても、最適文例を生成することが可能となる。
また、別の形態に係る音声データ作成装置では、各追加単語は、当該単語の1以上の読みに関連付けられており、音声作成部は、追加単語の全ての読みのそれぞれを用いた最適文例の合成音声を、読みごとに生成してもよい。
上記の形態によれば、追加単語に複数の読みが想定される場合には、複数の読みの全ていついての音声データを網羅的に生成できる。
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本開示において説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。
また、本明細書で説明した情報、パラメタなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
本開示で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。
本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
10…音声データ作成装置、11…文例抽出部、12…文例選択部、13…合成音声選択部、14…音声作成部、15…文例ひな形生成部、16…文例生成部、21…追加単語記憶部、22…テキストコーパス記憶部、23…カテゴリ辞書記憶部、23…カテゴリ辞書記憶部、M1…記録媒体、m10…メインモジュール、m11…文例抽出モジュール、m12…文例選択モジュール、m13…合成音声選択モジュール、m14…音声作成モジュール、m15…文例ひな形生成モジュール、m16…文例生成モジュール、P1…音声データ作成プログラム。

Claims (8)

  1. 音声認識システムにおける認識対象に追加させる単語である追加単語を含む音声データを作成する音声データ作成装置であって、
    複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群から、前記追加単語を含む1以上のテキストコーパスを抽出する文例抽出部と、
    前記文例抽出部により抽出された前記テキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、前記追加単語に対する最適文例として選択する文例選択部と、
    所定の音声合成システムにより生成された前記最適文例の合成音声を、前記追加単語に対応する音声データとして出力する音声作成部と、
    を備える音声データ作成装置。
  2. 前記文例選択部は、文における単語の配列に基づいて各単語の生起確率を出力する言語モデルを用いて、前記文例抽出部により抽出された各テキストコーパスの前記尺度を算出する、
    請求項1に記載の音声データ作成装置。
  3. 前記文例選択部は、前記言語モデルを用いて、前記文例抽出部により抽出された各テキストコーパスの、文としての生起し難さを示すパープレキシティを算出し、算出されたパープレキシティが最も低いテキストコーパスを、前記追加単語に対する最適文例として選択する、
    請求項2に記載の音声データ作成装置。
  4. 前記テキストコーパス群は、予め設定された特定の事項に関連するテキストコーパスである関連コーパスからなる関連コーパス群を含み、
    前記文例抽出部は、前記テキストコーパス群のうちの、少なくとも前記関連コーパス群から、前記追加単語を含むテキストコーパスを抽出し、
    前記文例選択部は、前記関連コーパスに基づいて生成された前記言語モデルを用いて前記最適文例を選択する、
    請求項2または3に記載の音声データ作成装置。
  5. 前記合成音声の生成のための少なくとも1以上のパラメタについて、複数のパラメタ値のそれぞれにより生成された合成音声のうち、前記音声認識システムによる音声認識処理の結果の精度が最も高い合成音声のパラメタ値を、前記音声合成システムにおける合成音声の生成のためのパラメタ値として選択する合成音声選択部、を更に備える、
    請求項1~4のいずれか一項に記載の音声データ作成装置。
  6. 前記文例選択部は、前記尺度が所定の閾値より大きく、且つ、最も高いテキストコーパスを最適文例として選択する、
    請求項1~5のいずれか一項に記載の音声データ作成装置。
  7. 各追加単語は、当該単語が属するカテゴリに関連付けられており、
    前記音声データ作成装置は、
    前記文例選択部により最適文例が選択された前記追加単語及び当該最適文例としての前記テキストコーパスのうち、同一のカテゴリに属する各追加単語に対して最適文例として選択された前記テキストコーパスの前記尺度が最も高い前記追加単語及び前記テキストコーパスを取得し、取得した前記テキストコーパスに基づいて、前記追加単語の部分をブランクとした文例ひな形を、前記カテゴリごとに生成する、文例ひな形生成部と、
    前記文例選択部により前記最適文例が選択されなかった前記追加単語を、当該追加単語が属するカテゴリについて生成された前記文例ひな形の前記ブランクに挿入して、当該追加単語に対する前記最適文例を生成する、文例生成部、
    を更に備える、
    請求項6に記載の音声データ作成装置。
  8. 各追加単語は、当該単語の1以上の読みに関連付けられており、
    前記音声作成部は、前記追加単語の全ての読みのそれぞれを用いた前記最適文例の合成音声を、前記読みごとに生成する、
    請求項1~7のいずれか一項に記載の音声データ作成装置。
JP2022517014A 2020-04-21 2021-04-15 音声データ作成装置 Active JP7326596B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020075414 2020-04-21
JP2020075414 2020-04-21
PCT/JP2021/015637 WO2021215352A1 (ja) 2020-04-21 2021-04-15 音声データ作成装置

Publications (2)

Publication Number Publication Date
JPWO2021215352A1 JPWO2021215352A1 (ja) 2021-10-28
JP7326596B2 true JP7326596B2 (ja) 2023-08-15

Family

ID=78269282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022517014A Active JP7326596B2 (ja) 2020-04-21 2021-04-15 音声データ作成装置

Country Status (3)

Country Link
US (1) US20230223005A1 (ja)
JP (1) JP7326596B2 (ja)
WO (1) WO2021215352A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024009890A1 (ja) * 2022-07-04 2024-01-11 日本電気株式会社 学習データ生成装置、音声認識モデル生成装置、学習データ生成方法、音声認識モデル生成方法、および記録媒体

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003029776A (ja) 2001-07-12 2003-01-31 Matsushita Electric Ind Co Ltd 音声認識装置
JP2011248001A (ja) 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル学習用ラベル作成装置、その方法及びプログラム
JP2012037619A (ja) 2010-08-04 2012-02-23 Nec Corp 話者適応化装置、話者適応化方法および話者適応化用プログラム
JP2014235345A (ja) 2013-06-03 2014-12-15 株式会社東芝 音声処理装置、方法およびプログラム
WO2017061027A1 (ja) 2015-10-09 2017-04-13 三菱電機株式会社 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム
JP2019120841A (ja) 2018-01-09 2019-07-22 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003029776A (ja) 2001-07-12 2003-01-31 Matsushita Electric Ind Co Ltd 音声認識装置
JP2011248001A (ja) 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル学習用ラベル作成装置、その方法及びプログラム
JP2012037619A (ja) 2010-08-04 2012-02-23 Nec Corp 話者適応化装置、話者適応化方法および話者適応化用プログラム
JP2014235345A (ja) 2013-06-03 2014-12-15 株式会社東芝 音声処理装置、方法およびプログラム
WO2017061027A1 (ja) 2015-10-09 2017-04-13 三菱電機株式会社 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム
JP2019120841A (ja) 2018-01-09 2019-07-22 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法

Also Published As

Publication number Publication date
JPWO2021215352A1 (ja) 2021-10-28
WO2021215352A1 (ja) 2021-10-28
US20230223005A1 (en) 2023-07-13

Similar Documents

Publication Publication Date Title
CN108091328B (zh) 基于人工智能的语音识别纠错方法、装置及可读介质
US11727917B1 (en) Silent phonemes for tracking end of speech
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
KR101004560B1 (ko) 음성 인식 시스템 모델링 방법 및 컴퓨터 판독가능 기록 매체
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
KR20190002812A (ko) 음성 인식 방법 및 그 장치
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US20110208507A1 (en) Speech Correction for Typed Input
JP2012063536A (ja) 端末装置、音声認識方法および音声認識プログラム
US20140244255A1 (en) Speech recognition device and method, and semiconductor integrated circuit device
JP2004362584A (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
US20130317822A1 (en) Model adaptation device, model adaptation method, and program for model adaptation
CN110019741B (zh) 问答系统答案匹配方法、装置、设备及可读存储介质
CN104464734A (zh) 声音同时处理装置、方法及程序
JP7058574B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP7326596B2 (ja) 音声データ作成装置
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP7096199B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6674876B2 (ja) 補正装置、補正方法及び補正プログラム
US20230223017A1 (en) Punctuation mark delete model training device, punctuation mark delete model, and determination device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230802

R150 Certificate of patent or registration of utility model

Ref document number: 7326596

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150