JP5980101B2 - 音響モデル学習用テキスト作成装置とその方法とプログラム - Google Patents

音響モデル学習用テキスト作成装置とその方法とプログラム Download PDF

Info

Publication number
JP5980101B2
JP5980101B2 JP2012253587A JP2012253587A JP5980101B2 JP 5980101 B2 JP5980101 B2 JP 5980101B2 JP 2012253587 A JP2012253587 A JP 2012253587A JP 2012253587 A JP2012253587 A JP 2012253587A JP 5980101 B2 JP5980101 B2 JP 5980101B2
Authority
JP
Japan
Prior art keywords
phoneme
text
acoustic model
model learning
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012253587A
Other languages
English (en)
Other versions
JP2014102345A (ja
Inventor
済央 野本
済央 野本
哲 小橋川
哲 小橋川
裕司 青野
裕司 青野
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012253587A priority Critical patent/JP5980101B2/ja
Publication of JP2014102345A publication Critical patent/JP2014102345A/ja
Application granted granted Critical
Publication of JP5980101B2 publication Critical patent/JP5980101B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音響モデル学習に用いる学習用テキストを作成する音響モデル学習用テキスト作成装置とその方法とプログラムに関する。
近年における音声認識システムでは、音響モデルと言語モデルが利用される。音響モデルは、/a/や/k/などの各音素が持つ音響的特徴を有した辞書であり、入力音声がどのような音素列かを推測するのに用いる。
音響モデルの学習には、音声とそれに対応するテキスト(音声データベース)が必要となる。精度の良い音響モデルを統計的に学習するには、大規模な音声データベースの構築が必要とされる。大量の音声とそれに対応するテキストを収集するには、高いコスト(時間や労力)を要する。
そこで、従来から音響モデルの学習効率を向上させるためのテキスト作成方法が検討されて来ている。図10に、特許文献1に開示された音響モデル学習用ラベル作成装置900の機能構成を示して、その動作を簡単に説明する。音響モデル学習用ラベル作成装置900は、第1音素環境頻度計算部923と、第2音素環境頻度計算部933と、格納部934と、新出音素環境抽出部935と、テキスト選択部936と、蓄積部937などを具備する。
第1音素環境頻度計算部923は、音素変換部922から入力される音素系列をもとに、音素環境毎に出現頻度をカウントし、既存音声DB910の音素環境頻度を計算して出力する。第2音素環境頻度計算部933は、音素変換部932から入力される音素系列をもとに、音素環境毎に出現頻度をカウントし、元テキストDB930の音素環境頻度を計算して出力する。
第1と第2音素環境頻度計算部923,933からそれぞれ出力される既存音声DB音素環境頻度及び元テキストDB音素環境頻度は新出音素環境抽出部935に入力される。新出音素環境抽出部935は入力された既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DB910に含まれず、元テキストDB930に含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する。
新出音素環境抽出部935から出力された追加収録音素環境はテキスト選択部936に入力される。テキスト選択部936は読み、音素系列と組とされて格納部934に格納されている元テキストDB930のテキストの中から追加収録音素環境を含むテキストを選択する。テキストの選択は、テキスト毎に追加収録音素環境が含まれているか否かを判定することによって行われる。このようにして選択されたテキストは追加収録用ラベルセットとして出力される。
特開2011−248001号公報
従来技術では、読み上げ対象となるテキストの音素数や既存音声DB910に含まれる音素数など、音素環境ガバレッジ(音素カバー率)の情報を用いる。つまり、学習量として頻度的に少ない音素を含むテキストを重点的に選択するといったものである。しかし、学習量が少ない音素を含む音声を大量に集めれば当該音素の認識精度が向上するとは限らない。学習量は少ないが認識性能としては十分に高い性能を示す音素のケースも考えられる。同様に、学習量としては十分に足りているが認識性能としてはまだ改善の余地があるという音素のケースも考えられる。このように、音素環境ガバレッジだけでは「学習すべき音素」を正確に抽出することが出来ない課題がある。
本発明は、この課題に鑑みてなされたものであり、「学習すべき音素」を正確に抽出することが出来る音響モデル学習用テキスト作成装置とその方法とプログラムを提供することを目的とする。
本発明の音響モデル学習用テキスト作成装置は、音声認識処理部と、認識結果集計部と、苦手音素抽出部と、追加候補テキストコーパスと、苦手音素包含テキスト選択部と、を具備する。音声認識処理部は、外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキストと音素系列情報とを出力する。認識結果集計部は、音素系列情報と開発用音声データの正解テキストとから音素認識率を計算する。苦手音素抽出部は、音素認識率が閾値以下の音素を苦手音素として抽出して苦手音素リストを生成する。追加候補テキストコーパスは、音響モデル学習用テキスト候補であるテキストを大量に記憶する。苦手音素包含テキスト選択部は、苦手音素リストを参照して追加候補テキストコーパスから苦手音素を含むテキストを選択して音響モデル学習用テキストとして出力する。
本発明の音響モデル学習用テキスト作成装置によれば、既存音声データベースを用いて学習した既存音響モデルを用いて、評価用音声データを音声認識し、認識性能が低い苦手音素を含むテキストを選択して出力するので、「学習すべき音素」を含む音響モデル学習用テキストを抽出することが出来る。
この発明の音響モデル学習用テキスト作成装置100の機能構成例を示す図。 音響モデル学習用テキスト作成装置100の動作フローを示す図。 正解音素系列情報と認識結果の音素系列情報の例を示す図。 この発明の音響モデル学習用テキスト作成装置200の機能構成例を示す図。 音響モデル学習用テキスト作成装置200の動作フローを示す図。 音素包含マトリックスの例を示す図。 テキスト選択部230の動作フローを示す図。 この発明の音響モデル学習用テキスト作成装置300の機能構成例を示す図。 この発明の音響モデル学習用テキスト作成装置400の機能構成例を示す図。 特許文献1に開示された音響モデル学習用ラベル作成装置900の機能構成を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の音響モデル学習用テキスト作成装置100の機構構成例を示す。その動作フローを図2に示す。音響モデル学習用テキスト作成装置100は、音声認識処理部10と、認識結果集計部40と、苦手音素抽出部50と、苦手音素包含テキスト選択部60と、追加候補テキストコーパス70と、制御部80と、を具備する。音響モデル学習用テキスト作成装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。
音声認識処理部10は、外部から入力される開発用音声データを、言語モデル20と既存音響モデル30を参照して音声認識し、認識結果テキストと音素系列情報とを出力する(ステップS10)。言語モデル20は、言語の特徴を統計的手法によりモデル化したデータを格納し、連続音声認識の実行時に音声認識結果候補に対して言語的な尤もらしさを与えるものである。既存音響モデル30は、既存の音声データベースを用いて音素が持つ音響特性を学習した音響モデルを大量に格納している。音響モデルは、混合正規分布を出力確率とした隠れマルコフモデル(HMM)が良く用いられ、音素の三組からなるトライフォンで表現されるものである。例えば「会社(/k/a/i/sh/a/)」をトライフォンで表現すると「/*-k+a/k−a+i/a−i+sh/i―sh+a/a−sh+*/」の5個の音素によって、音響モデルが構成される。開発用音声データは、既存音声データベースとは異なる音声データの集合であり、既存音響モデル30を評価するためのものである。開発用音声データは、既存音声データベースよりも少ないデータ量でも良い。
音声認識処理部10は、開発用音声データに含まれる各音声について、言語モデル20と既存音響モデル30とを用いて音声認識処理を行い認識結果テキストと音素系列情報とを出力する。認識結果テキストを例えば「会社」とした場合、その音素系列情報は「/*-k+a/k−a+i/a−i+sh/i―sh+a/a−sh+*/」である。音声認識処理部10と言語モデル20と既存音響モデル30とによる音声認識処理は、一般的な音声認識処理と同じである。
認識結果集計部40は、音声認識処理部10で音声認識した結果の音素系列情報と開発用音声データの正解テキストとから音素認識率を計算する(ステップS40)。例えば、図3に示すように正解テキストを「会社」とした場合の認識結果が「外車」であったと仮定する。正解音素系列情報である音素列「/*-k+a/k−a+i/a−i+sh/i―sh+a/a−sh+*/」に対して、認識結果の音素列「/*-g+a/k−a+i/a−i+sh/i―sh+a/a−sh+*/」が対応する。
正解音素「/*-k+a/」に対して認識音素「/*-g+a/」が不一致(×)であり、音素「/*-k+a/」の音素認識率は、音素データがこれだけだとすると0%として計算される。その他の音素の音素認識率は100%として計算される。同様の処理を開発音声データに含まれる音素データの数だけ実施し、その結果を集計したものが各音素の音素認識率として計算される。
ここで、音素の表現を音素の三つ組からなる音素環境依存のトライフォンを用いて説明したが、周辺音素に依存しない音素環境独立のモノフォンを用いても良い。また、中心音素が合っていれば正解としても良い。
苦手音素抽出部50は、音素認識率が閾値以下の音素を苦手音素として抽出して苦手音素リストを生成する(ステップS50)。閾値は、0〜1の範囲の任意の値である。閾値が0に近いほど苦手音素と判定する認識精度が低くなる。また、1に近い値にすると苦手音素を抽出し難くなる。閾値は、全音素の音素認識率の平均値を用いても良い。又は、音声認識率の低い下位から所定の順位の音素を苦手音素として抽出して苦手音素リストを生成するようにしても良い。
苦手音素包含テキスト選択部60は、苦手音素抽出部50で生成した苦手音素リストをを参照して音響モデル学習用テキスト候補であるテキストとその音素系列情報とを大量に記憶した追加候補テキストコーパスから苦手音素を含むテキストを所定数以上選択して音響モデル学習用テキストとして出力する(ステップS60)。ここで所定数は、予め苦手音素包含テキスト選択部60に定数として与えておいても良い。又は、外部から与えても良い。その所定数は、例えば既存音響モデル30の学習データのテキスト量の10%程度のテキスト量となる値とする。
このステップS60の処理は、苦手音素リストの全ての音素について終了するまで繰り返される。この繰り返し動作の制御は、制御部80が行う。制御部80は、音響モデル学習用テキスト作成装置100の各部の時系列的な動作を制御する。
以上説明したようにこの発明の音響モデル学習用テキスト作成装置100によれば、既存音響モデル30を用いて開発用音声データを音声認識して音素認識率が低い音素をリストアップし、音素認識率の低い音素を含むテキストを追加候補テキストコーパス70から音響モデル学習用テキストとして選択して出力する。したがって、「学習すべき音素」を含むテキストを抽出することが出来る。
図4に、この発明の音響モデル学習用テキスト作成装置200の機能構成例を示す。その動作フローを図5に示す。音響モデル学習用テキスト作成装置200は、音響モデル学習用テキスト作成装置100の苦手音素抽出部50に代えて音素抽出率算出部210を備える点と、苦手音素包含テキスト選択部60に代えてテキスト選択部230を備える点と、音素包含マトリックス生成部220を備える点で異なる。音響モデル学習用テキスト作成装置100と異なる点のみを説明する。
音素抽出率算出部210は、認識結果集計部40で計算した音素毎の音素認識率を元に、どの音素を含むテキストをどれだけ選択するべきかを表す「音素テキスト抽出割合rat_p」を計算して出力する。rat_pは例えば式(1)で計算する(ステップS210)。
Figure 0005980101
ここでcor_pは音素pの音素認識率である。「p」はある任意の音素を意味する。音素テキスト抽出割合rat_pは、音素認識率の値が低い音素ほど大きな値を示す。音素テキスト抽出割合rat_pを大きい順番にリスト化し、その音素テキスト抽出割合リストを降順にソートすることで、音素認識率の値が低い順番に音素とその音素テキスト抽出割合の値を得ることが出来る。音素テキスト抽出割合リストは、音素pとその音素pの音素認識率との組のリストである。
音素包含マトリックス生成部220は、追加候補テキストコーパス70に蓄えられた各テキストにどのような音素が出現しているかをまとめた音素包含マトリックスを生成する(ステップS220)。なお、図5では、ステップS220を、音素抽出率算出過程(ステップS210)と並列で表記しているが、音素包含マトリックスはテキスト選択過程の前の段階で出来ていれば良い。音素包含マトリックスは予め生成済みであっても良い。
図6に音素包含マトリックスの例を示す。図6の1列目はテキスト、2列目以降は音素である。テキストと音素が交差する部分の数値は、当該音素の出現回数を表す。テキスト「会社」の音素列「/*-k+a/k−a+i/a−i+sh/i―sh+a/a−sh+*/」の各音素に対応する部分に1が設定され、「会社」に含まれない音素の部分には0が設定されている。音素包含マトリックスは、音素抽出率算出部210で算出した音素テキスト抽出割合rat_pを参照して、例えばその値の降順にテキストを配列したマトリックスにしても良い。
テキスト選択部230は、音素抽出率算出部210で算出した音素テキスト抽出割合rat_pの値に応じて音素pを選択し、音素包含マトリックスを参照して選択した音素pを含むテキストを選択する。
図7に、テキスト選択部230の動作フローを示してその動作を説明する。テキスト選択部230は、音素テキスト抽出割合リストを参照して音素pを選択する(ステップS231)。テキスト選択部230は、音素抽出率算出部210で計算した音素テキスト抽出割合rat_pの値が大きい順番に配列された音素テキスト抽出割合リストから、例えば降順に音素pを選択する。
次に、選択した音素pの出現回数の多いテキストを音素包含マトリックスを参照して、テキストを選択する(ステップS232)。選択したテキストは音響モデル学習用テキストとして外部に出力する(ステップS233)。そして、選択したテキストは音素包含マトリックスから削除する(ステップS234)と共に、選択したテキスト数ext_pをインクリメントする(ステップS235)。
以上の動作は、選択したテキスト数ext_pがテキストの選択数num_pに等しくなるまで繰り返される(ステップS236のNo)。テキストの選択数num_pは外部から与えても良いし、テキスト選択部230に予め定数として設定しておいても良い。
ステップS231〜S236までの処理は、音素テキスト抽出割合リストの所定の順位の音素pについて終了するまで繰り返される(ステップS237のNo)。この所定の順位の情報についても、テキストの選択数num_pと同様に外部から与えても良いし、定数として予め設定しておいても良い。
以上説明したように音響モデル学習用テキスト作成装置200によれば、音素認識率の悪い音素の順に、且つ、その音素を多く含むテキストを音響モデル学習用テキストとして採用することが出来る。その結果、既存音響モデルの学習効率を向上させることが出来る。
音素認識率だけでは無く音素頻度情報と組み合わせて音響モデル学習用テキストを選択するようにしても良い。音素認識率が低い音素には「学習データ量としては十分だが、認識精度が低い」という場合もある。つまり、そもそも認識が難しい音素が存在することも考えられる。
その場合は、いくらデータ量を増やしたとしてもそれに見合った性能改善を期待することができない。そこで、既存音声データベースを元に作成された既存音響モデルの音素頻度情報と、音素認識率とを併せて用いることで、より効率的に音響モデル学習用テキストを選択するようにした音響モデル学習用テキスト作成装置300が考えられる。
図8に、音響モデル学習用テキスト作成装置300の機能構成例を示す。音響モデル学習用テキスト作成装置300は、音響モデル学習用テキスト作成装置100の苦手音素抽出部50が、苦手音素抽出部350に置き代わった点のみが異なる。
苦手音素抽出部350は、認識結果集計部40で計算した音素認識率が閾値以下の音素を苦手音素として抽出する際に、音素頻度情報も参照して苦手音素リストを生成する。音素頻度情報は、既存音声データベースに含まれる各音素の出現回数と各音素の組からなる情報である。
苦手音素抽出部350は、音素認識率が低く出現回数の少ない音素を苦手音素として抽出するに当たって、音素頻度情報が頻度閾値よりも小さい音素を苦手音素リストとして出力する。音響モデル学習用テキスト作成装置300によれば、学習データ量が足りていない音素を含むテキストを優先的に音響モデル学習用テキストとして選択することが出来る。
なお、音素頻度情報は外部から与えても良いし、音響モデル学習用テキスト作成装置300の内部に音素頻度算出部390を備えて、既存音声データベースに含まれる各音素の出現回数と各音素の組からなる音素頻度情報を生成するようにしても良い。
音響モデル学習用テキスト作成装置200についても、実施例3と同様に音素頻度情報を用いた実施例が考えられる。図9に、音素頻度情報も用いるようにした音響モデル学習用テキスト作成装置400の機能構成例を示す。
音響モデル学習用テキスト作成装置400は、音響モデル学習用テキスト作成装置200の音素抽出率算出部210が、音素抽出率算出部410に置き代わった点のみが異なる。音素抽出率算出部410は、認識結果集計部40で計算した音素毎の音素認識率を元に、どの音素を含むテキストをどれだけ選択するべきかを表す「音素テキスト抽出割合rat_pを、式(2)に基づいて計算して出力する。
Figure 0005980101
ここでocc_pは音素pの出現頻度である。音素頻度情報は外部から与えても良いし、音響モデル学習用テキスト作成装置300の内部に音素頻度算出部390を備え、既存音声データベースに含まれる各音素の出現回数と各音素の組からなる音素頻度情報を生成するようにしても良い。
音響モデル学習用テキスト作成装置400によれば、音素認識率の悪い音素の順に、且つ、学習データ量が足りていない音素を含むテキストを音響モデル学習用テキストとして採用することが出来る。その結果、既存音響モデルの学習効率を向上させることが出来る。
以上説明したようにこの発明の音響モデル学習用テキスト作成装置によれば、既存音声データベースを用いて学習した既存音響モデルを用いて、評価用音声データを音声認識し、認識性能が低い苦手音素を含むテキストを追加候補テキストコーパス70から選択して出力するので、「学習すべき音素」を含む音響モデル学習用テキストを正確に抽出することが出来る。よって、限られた量の音響モデル学習用テキストでも誤認識し易い音素を効率的に減らすことが出来る効果を奏する。
また、音素頻度情報も用いるこの発明の音響モデル学習用テキスト作成装置300,400によれば、学習量は少ないが認識性能は十分に高い音素を含まないテキストを選択することが出来る。また、学習量は多いが認識性能が低い音素を含むテキストを選択することも可能である。
なお、音素テキスト抽出割合rat_pを求める式は、式(1)と式(2)に限定されない。音素認識率の値が低いほど、音素テキスト抽出割合rat_pの値が高くなるものであればどのような関数であっても良い。また、音素テキスト抽出割合rat_pは尤度値に基づく値としても良い。それぞれの式の分母は省略しても良い。分母をつけることによりrat_pの値を正規化することができるため、その値の範囲を限定することが可能である。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることが出来る。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキストと音素系列情報とを出力する音声認識処理部と、
    上記音素系列情報と上記開発用音声データの正解テキストとから音素認識率を計算する認識結果集計部と、
    音素毎の上記音素認識率を元に、どの音素を含むテキストをどれだけ選択するべきかを表す音素テキスト抽出割合rat_pを計算して出力する音素抽出率算出部と、
    音響モデル学習用テキスト候補であるテキストを大量に記憶した追加候補テキストコーパスと、
    上記追加候補テキストコーパスに蓄えられた各テキストにどのような音素が出現しているかをまとめた音素包含マトリックスを生成する音素包含マトリックス生成部と、
    上記音素テキスト抽出割合rat_pの値にしたがって音素を選択し、音素包含マトリックスを参照して選択した音素を含むテキストを選択するテキスト選択部と、
    を具備する音響モデル学習用テキスト作成装置。
  2. 請求項に記載した音響モデル学習用テキスト作成装置において、
    上記音素抽出率算出部は、
    外部から入力される各音素と当該音素の出現回数情報とからなる音素頻度情報と、上記音素認識率とを入力として、どの音素を含むテキストをどれだけ選択するかを表す音素テキスト抽出割合rat_pを計算して出力するものであることを特徴とする音響モデル学習用テキスト作成装置。
  3. 請求項1又は2に記載した音響モデル学習用テキスト作成装置において、
    上記音素テキスト抽出割合rat_pは、上記音素認識率の値が低いほど高くなるよう計算されることを特徴とする音響モデル学習用テキスト作成装置。
  4. 外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキストと音素系列情報とを出力する音声認識処理過程と、
    上記音素系列情報と上記開発用音声データの正解テキストとから音素認識率を計算する認識結果集計過程と、
    音素毎の上記音素認識率を元に、どの音素を含むテキストをどれだけ選択するかを表す音素テキスト抽出割合rat_pを計算して出力する音素抽出率算出過程と、
    音響モデル学習用テキスト候補であるテキストを大量に記憶した追加候補テキストコーパスに蓄えられた各テキストにどのような音素が出現しているかをまとめた音素包含マトリックスを生成する音素包含マトリックス生成過程と、
    上記音素テキスト抽出割合rat_pの値にしたがって音素を選択し、音素包含マトリックスを参照して選択した音素を含むテキストを選択するテキスト選択過程と、
    を備える音響モデル学習用テキスト作成方法。
  5. 請求項1乃至の何れかに記載した音響モデル学習用テキスト作成装置としてコンピュータを機能させるためのプログラム。
JP2012253587A 2012-11-19 2012-11-19 音響モデル学習用テキスト作成装置とその方法とプログラム Expired - Fee Related JP5980101B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012253587A JP5980101B2 (ja) 2012-11-19 2012-11-19 音響モデル学習用テキスト作成装置とその方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012253587A JP5980101B2 (ja) 2012-11-19 2012-11-19 音響モデル学習用テキスト作成装置とその方法とプログラム

Publications (2)

Publication Number Publication Date
JP2014102345A JP2014102345A (ja) 2014-06-05
JP5980101B2 true JP5980101B2 (ja) 2016-08-31

Family

ID=51024915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012253587A Expired - Fee Related JP5980101B2 (ja) 2012-11-19 2012-11-19 音響モデル学習用テキスト作成装置とその方法とプログラム

Country Status (1)

Country Link
JP (1) JP5980101B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6903613B2 (ja) * 2018-09-10 2021-07-14 株式会社東芝 音声認識装置、音声認識方法及びプログラム
CN112259100B (zh) * 2020-09-15 2024-04-09 科大讯飞华南人工智能研究院(广州)有限公司 语音识别方法及相关模型的训练方法和相关设备、装置
KR20220131098A (ko) * 2021-03-19 2022-09-27 삼성전자주식회사 개인화 tts 모듈을 포함하는 전자 장치 및 이의 제어 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4004716B2 (ja) * 2000-05-31 2007-11-07 三菱電機株式会社 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3981640B2 (ja) * 2003-02-20 2007-09-26 日本電信電話株式会社 音素モデル学習用文リスト生成装置、および生成プログラム
JP5522393B2 (ja) * 2010-02-26 2014-06-18 独立行政法人情報通信研究機構 音響モデル構築装置、音声認識装置、音響モデル構築方法、およびプログラム
JP5391150B2 (ja) * 2010-05-25 2014-01-15 日本電信電話株式会社 音響モデル学習用ラベル作成装置、その方法及びプログラム
JP5688761B2 (ja) * 2011-02-28 2015-03-25 独立行政法人情報通信研究機構 音響モデル学習装置、および音響モデル学習方法

Also Published As

Publication number Publication date
JP2014102345A (ja) 2014-06-05

Similar Documents

Publication Publication Date Title
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
US8301450B2 (en) Apparatus, method, and medium for dialogue speech recognition using topic domain detection
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
JP6370749B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
US8738378B2 (en) Speech recognizer, speech recognition method, and speech recognition program
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
US9905224B2 (en) System and method for automatic language model generation
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP6556381B2 (ja) モデル学習装置及びモデル学習方法
JP5980101B2 (ja) 音響モデル学習用テキスト作成装置とその方法とプログラム
JP2007248730A (ja) 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
US8751236B1 (en) Devices and methods for speech unit reduction in text-to-speech synthesis systems
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2011028638A (ja) 要約文作成装置、要約文作成方法、プログラム
JP2008129527A (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP2014092750A (ja) 音響モデル生成装置とその方法とプログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
JP4417892B2 (ja) 音声情報処理装置、音声情報処理方法および音声情報処理プログラム
JP6002598B2 (ja) 強調位置予測装置、その方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160726

R150 Certificate of patent or registration of utility model

Ref document number: 5980101

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees