JP5982265B2 - 音声認識装置、音声認識方法、およびプログラム - Google Patents

音声認識装置、音声認識方法、およびプログラム Download PDF

Info

Publication number
JP5982265B2
JP5982265B2 JP2012251894A JP2012251894A JP5982265B2 JP 5982265 B2 JP5982265 B2 JP 5982265B2 JP 2012251894 A JP2012251894 A JP 2012251894A JP 2012251894 A JP2012251894 A JP 2012251894A JP 5982265 B2 JP5982265 B2 JP 5982265B2
Authority
JP
Japan
Prior art keywords
likelihood
acoustic
phoneme
model
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012251894A
Other languages
English (en)
Other versions
JP2014098874A (ja
Inventor
祥子 山畠
祥子 山畠
哲 小橋川
哲 小橋川
太一 浅見
太一 浅見
裕司 青野
裕司 青野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012251894A priority Critical patent/JP5982265B2/ja
Publication of JP2014098874A publication Critical patent/JP2014098874A/ja
Application granted granted Critical
Publication of JP5982265B2 publication Critical patent/JP5982265B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

この発明は、音声認識技術に関し、特に、複数の音響モデルの中から認識対象の音声データに最適な音響モデルを選択する技術に関する。
複数の音響モデルから認識対象の音声データに最適な音響モデルを選択する技術の例として、非特許文献1や特許文献1に記載された方法が挙げられる。非特許文献1には、複数の音響モデルを混合し、音声データ群と各音声データに対する正解音素ラベル群からなる開発データセットに対して最も高い音声認識精度を与える音響モデルを選択する方法が記載されている。特許文献1には、認識仮説の音素ラベルに対する音響尤度が閾値以下の音響モデルを除外する方法が記載されている。
非特許文献1に記載された音響モデルの選択方法をより詳しく説明する。非特許文献1では、複数の音響モデルを用意し、様々な重みを与えて複数パターンの混合音響モデルを作成する。そして、作成された混合音響モデルを用いて音声認識を行い、最も認識精度の高い音響モデルを最良音響モデルとして選択する。
特許文献1に記載された音響モデルの選択方法をより詳しく説明する。特許文献1では、入力音声に対して複数の音響モデルを用いて認識したときに、各音響モデルが作成する認識仮説の音素ラベルに対する音響尤度の値を用いて音響モデルの選択を行う。認識仮説の音素ラベルに対する音響尤度が閾値より低くなる音響モデルを、認識で用いるものから除外する。
特開2005−345772号公報
堤怜介他, "講演音声認識のための音響・言語モデルの検討", 電子情報通信学会技術研究報告.NLC, No.102, pp.117-122, 2002.
非特許文献1では、開発データセットに対する認識精度を用いて音響モデルの選択を行う。しかし、認識精度は言語モデルの影響も受けるため、純粋に音響モデル単独での性能評価がなされていない可能性がある。また、認識精度で音響モデル間に大きな差が出ない場合、開発データセットにとっては最良の音響モデルであっても、実際の適用先の音声データにとっては他の音響モデルの方がよい認識精度を出す可能性もある。さらに、開発データセットの正解音素ラベルに対する認識率のみで評価を行った場合には、N-bestの2位以下の認識結果に対しても1位と大差ないスコアを与えているなど、誤りを起こしやすい音響モデルであるにも関わらず、1-bestの結果が開発データセットの正解と一致することにより、その音響モデルが選択されてしまう可能性がある。
特許文献1では、音響モデルの音響尤度のみを用いることで言語モデルのスコアの影響を排除している。しかし、認識仮説の音素ラベルに対する音響尤度を用いており、認識仮説に誤りが含まれる場合には、正解音素ラベルに対する音響尤度とは異なる値が計算されてしまうおそれがある。このように、正解音素と異なる音素に対する音響尤度が用いられることで、音響モデルの選択を誤る可能性がある。
この発明はこのような点に鑑み、認識精度で音響モデル間に大きな差がでない場合に、言語モデルの影響を排除しながら、音素識別性能の高い音響モデルを選択することができる音声認識技術を提供することを目的とする。
上記の課題を解決するために、この発明の音声認識装置は、複数の音響モデルと言語モデルと複数の開発音声データと開発音声データに対応する正解音素ラベルとを入力とし、音響モデル毎に開発音声データを音声認識して得られた認識音素ラベルの音響尤度である認識音素尤度を求め、音響モデル毎に正解音素ラベルの音響尤度である正解音素尤度を求める音響尤度算出部と、正解音素尤度と認識音素尤度とに基づいて、複数の音響モデルから最良音響モデルを選択するモデル選択部と、を含む。
この発明の音声認識技術によれば、音響尤度を用いることで、音響モデルのみの認識性能を比較することができるほか、認識精度に大きな差が出ないような場合でも音響モデル間のより詳細な比較が可能である。また、正解データの音素ラベルと認識仮説の音素ラベルとを比較することで、正解の音素と不正解の音素を最も区別できる音響モデル、つまり音素識別性能の高い音響モデルを選択することができる。したがって、音素認識精度が向上する。
音声認識装置の機能構成を例示する図。 第一実施形態の音声認識装置の処理フローを例示する図。 第二実施形態の音声認識装置の処理フローを例示する図。 第三実施形態の音声認識装置の処理フローを例示する図。 第四実施形態の音声認識装置の処理フローを例示する図。 第五実施形態の音声認識装置の処理フローを例示する図。 第六実施形態の音声認識装置の処理フローを例示する図。
実施形態の説明に先立ち、この発明の概要について説明する。
この発明は、複数の音響モデルが用意されているが認識対象の音声データにとっていずれの音響モデルが最適か不明であるときに、音声認識デコーダと対象音声データの開発データセットとを用いて最適な音響モデルを自動選択する技術である。開発データセットは、開発音声データ群と各開発音声データに対する正解音素ラベル群とからなる。正解音素ラベルは開発音声データの書き起し文などから得ることができる。
この発明では、各音響モデルで開発音声データを認識したときの音響尤度の値を用いて最良音響モデルを決定する。音響尤度を用いて音響モデルを選択することで、開発データセットの文字認識率や単語認識率の差が小さく、認識率だけではどの音響モデルが実運用で最も精度が高くなるか判断がつかない場合に、より詳細に音響モデルの精度を評価することができる。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
第一実施形態の音声認識装置は、ある開発データセットに対して、正解データの音素ラベルと、各音響モデルが出力する認識仮説の音素ラベルの両方を用いて、それぞれの音素ラベルに対する音響尤度を算出する。そして、正解データの音素ラベルの音響尤度が認識仮説の音素ラベルの音響尤度以上となる音声データ数が最も多い音響モデルを最良音響モデルとして選択する。
図1を参照して、この実施形態の音声認識装置1の構成例を説明する。音声認識装置1は、音響尤度算出部10、モデル選択部20、音声認識部30、音響モデル記憶部50、言語モデル記憶部52、開発音声データ記憶部54、正解音素ラベル記憶部56、認識音素ラベル尤度記憶部58、正解音素ラベル尤度記憶部60、最良音響モデル記憶部62、対象音声データ記憶部64、認識結果記憶部66を備える。音響モデル記憶部50は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリなどの半導体メモリ素子により構成される補助記憶装置、リレーショナルデータベースやキーバリューストアなどのミドルウェア、などにより構成することができる。言語モデル記憶部52、開発音声データ記憶部54、正解音素ラベル記憶部56、認識音素ラベル尤度記憶部58、正解音素ラベル尤度記憶部60、最良音響モデル記憶部62、対象音声データ記憶部64、認識結果記憶部66は、音響モデル記憶部50と同様に構成することができる。
図2を参照して、この実施形態の音声認識装置1の動作例を説明する。
音響モデル記憶部50には、N(≧2)個の音響モデルAM1,…,AMNが記憶されている。言語モデル記憶部52には、言語モデルLMが記憶されている。開発音声データ記憶部54には、K(≧2)個の開発音声データs1,…,sKが記憶されている。開発音声データは、音声認識装置1の適用先となる対象音声データに含まれ得る音素および声質が網羅されていることが望ましい。具体的には、話者一人につき1時間程度の音声データがあるとよい。正解音素ラベル記憶部56には、開発音声データ記憶部54に記憶されている開発音声データs1,…,sKそれぞれに対応する正解音素ラベルが記憶されている。正解音素ラベルは、開発音声データの発音情報、すなわちどの音素をどの順番で発音しているかを記したテキストデータである。正解音素ラベルは、開発音声データの書き起こし平文から読みの情報を取得して生成してもよい。対象音声データ記憶部66には、音声認識装置1を適用する対象音声データが記憶されている。
音響モデル記憶部50に記憶されているN個の音響モデルAM1,…,AMNと、言語モデル記憶部52に記憶されている言語モデルLMと、開発音声データ記憶部54に記憶されているK個の開発音声データs1,…,sKと、正解音素ラベル記憶部56に記憶されている正解音素ラベルとが、音響尤度算出部10へ入力される(ステップS101)。音響尤度算出部10は、n番目の音響モデルAMn(1≦n≦N)に対して、開発音声データsk(1≦k≦K)毎の正解音素ラベルに対する音響尤度である正解音素尤度Lc(AMn,sk)を算出する(ステップS102)。開発音声データskの処理単位は音声データの1ファイル毎としてもよいし、1ファイル内に複数の発話が含まれる場合には1発話毎としてもよい。算出した正解音素尤度Lc(AMn,sk)は正解音素ラベル尤度記憶部58に記憶される。また、音響尤度算出部10は、n番目の音響モデルAMnに対して、開発音声データsk毎の認識音素ラベルに対する音響尤度である認識音素尤度Lr(AMn,sk)を算出する(ステップS103)。認識音素ラベルは、音響モデルAMnと言語モデルLMを用いて開発音声データskを音声認識して得られた認識結果の音素列である。算出した認識音素尤度Lr(AMn,sk)は認識音素ラベル尤度記憶部60に記憶される。
モデル選択部20は、正解音素ラベル尤度記憶部58に記憶されている正解音素尤度Lc(AMn,sk)と認識音素ラベル尤度記憶部60に記憶されている認識音素尤度Lr(AMn,sk)とを用いて最良音響モデルを選択する。音響モデルAMn毎に正解音素尤度Lc(AMn,sk)と認識音素尤度Lr(AMn,sk)とを比較して、Lc(AMn,sk)≧Lr(AMn,sk)となる開発音声データskの数cnを集計する(ステップS201)。そして、音声データ数cnが最大である音響モデルAMnを最良音響モデルAMmaxとして選択する(ステップS202)。選択した最良音響モデルAMmaxは、最良音響モデル記憶部62に記憶される。
音声認識部30は、最良音響モデル記憶部62に記憶されている最良音響モデルAMmaxと言語モデル記憶部52に記憶されている言語モデルLMを用いて、対象音声データ記憶部64に記憶されている対象音声データの音声認識を行う(ステップS301)。得られた認識結果は認識結果記憶部66に記憶される(ステップS302)。
このように第一実施形態の音声認識装置1は、正解音素ラベルの音響尤度と認識音素ラベルの音響尤度を用いることで、認識精度に大きな差がない場合でも詳細に音響モデル間の比較を行うことができる。また、正解音素ラベルと認識音素ラベルを比較することで、音素識別性能の高い音響モデルを選択することができる。したがって、音素認識精度が向上する。
[第二実施形態]
開発音声データsk毎に正解音素尤度Lc(AMn,sk)と認識音素尤度Lr(AMn,sk)の差分は異なる。また、正解音素尤度Lc(AMn,sk)と認識音素尤度Lr(AMn,sk)の差分Lc(AMn,sk)-Lr(AMn,sk)の値が大きい方が、音素識別性能が高くより良い音響モデルであると言える。第一実施形態では音声データ数cnにより最良音響モデルAMmaxを判定したが、差分の大きさに関係なく音響モデルを選択するため、性能の高い音響モデルを正しく選択できない可能性があった。そこで、第二実施形態ではLc(AMn,sk)≧Lr(AMn,sk)である音声データ数cnではなく、音響尤度の差分Lc(AMn,sk)-Lr(AMn,sk)に基づいて最良音響モデルを選択する。
図3を参照して、この実施形態の音声認識装置2の動作例を説明する。モデル選択部の処理以外は第一実施形態と同様であるので説明は省略する。この実施形態のモデル選択部はモデル選択部21である。
この実施形態のモデル選択部21は、音響モデルAMn毎に音声データsk毎の正解音素尤度Lc(AMn,sk)と認識音素尤度Lr(AMn,sk)との差分の和Snk{Lc(AMn,sk)-Lr(AMn,sk)}を算出する(ステップS211)。そして、差分の和Snが最大である音響モデルAMnを最良音響モデルAMmaxとして選択する(ステップS212)。
このように第二実施形態の音声認識装置2は、正解音素ラベルの音響尤度が認識音素ラベルの音響尤度に対して最も高い値を出力する音響モデルを選択することができ、より適した最良音響モデルを選択することができる。
[第三実施形態]
選択対象の音響モデルAM1,…,AMNで状態数や混合数などが異なっていると、出力する音響尤度のオーダーが異なる場合がある。この場合、オーダーの大きい音響モデルほど、正解音素尤度Lc(AMn,sk)と認識音素尤度Lr(AMn,sk)の差分Lc(AMn,sk)-Lr(AMn,sk)が大きくなる。第二実施形態では差分の値だけを考慮して音響モデルを選択するため、実際は最適な音響モデルではないにも関わらず、状態数や混合数の大きい音響モデルが常に選択されてしまう可能性があった。そこで第三実施形態では、正解音素尤度Lc(AMn,sk)および認識音素尤度Lr(AMn,sk)の値そのものではなく、各音素ラベルの事後確率の値を用いて比較を行う。
図4を参照して、この実施形態の音声認識装置3の動作例を説明する。音響尤度算出部以外の処理は第二実施形態と同様であるので説明は省略する。この実施形態の音響尤度算出部は音響尤度算出部11である。
この実施形態の音響尤度算出部11は、n番目の音響モデルAMnと開発音声データskに対して、正解音素ラベルの事後確率の平均値pc(AMn,sk)を求める(ステップS112)。算出した事後確率の平均値pc(AMn,sk)は正解音素ラベル尤度記憶部58に記憶される。また、音響尤度算出部11は、n番目の音響モデルAMnと開発音声データskに対して、認識音素ラベルの事後確率の平均値pr(AMn,sk)を求める(ステップS113)。算出した事後確率の平均値pr(AMn,sk)は認識音素ラベル尤度記憶部60に記憶される。音素ラベルから事後確率を求める方法は、例えば「李晃伸, 河原達也, 鹿野清宏, “2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法”, 情報処理学会研究報告, Vol.103, No.518, pp.35-40, 2003.」に開示されている方法を適用することができる。
このように第三実施形態の音声認識装置3は、正解音素ラベルと認識音素ラベルの事後確率の平均値を用いて比較を行うことで、音響モデル毎の状態数や混合数などの違いによらず、より適した最良音響モデルを選択することが可能となる。
[第四実施形態]
「正解音素ラベルの音響尤度<認識音素ラベルの音響尤度」となる正解音素の種類数、つまりその音響モデルが誤りを起こす音素の種類が多岐に渡るものは、より多くの音素で誤りを起こす可能性があり、性能の低い音響モデルであると考えられる。そこで第四実施形態では、誤りを起こす音素の種類数を利用し、音響モデル選択を行う。これにより、Lc(AMn,sk)≧Lr(AMn,sk)となる音声データ数や音響尤度の差分が、複数の音響モデル間で類似した値をとり、音響モデルの差別化が困難な場合に、より適した最良音響モデルを選択することができる。
図5を参照して、この実施形態の音声認識装置4の動作例を説明する。モデル選択部以外の処理は第一実施形態と同様であるので説明は省略する。この実施形態のモデル選択部はモデル選択部22である。モデル選択部22は、第二実施形態と第三実施形態の音声認識装置2〜3にも適用することが可能である。
この実施形態のモデル選択部22は、閾値θ(c)があらかじめ定められている。閾値θ(c)は、例えば開発音声データs1,…,sKの総数Kの1〜1.5%程度として定められる。モデル選択部22は、第一実施形態と同様に、音響モデルAMn毎に正解音素尤度Lc(AMn,sk)≧認識音素尤度Lr(AMn,sk)となる音声データ数Cnを求める(ステップS201)。次に、正解音素尤度Lc(AMn,sk)≧認識音素尤度Lr(AMn,sk)となる音声データ数cnの最大値cmaxをとる音響モデルAMmaxと、音声データ数cnがcmax-θ(c)以内となる音響モデルAMnとを、明確な差分がない音響モデル群として最良音響モデル候補とする(ステップS221)。次に、最良音響モデル候補毎に正解音素尤度Lc(AMn,sk)<認識音素尤度Lr(AMn,sk)となる正解音素の種類数vnを求める(ステップS222)。そして、種類数vnが最も小さい音響モデルAMnを最良音響モデルとして出力する(ステップS223)。
モデル選択部22を第二実施形態の音声認識装置2へ適用する場合には、以下のように構成すればよい。モデル選択部22は、閾値θ(S)があらかじめ定められているものとする。閾値θ(S)は、例えば差分の差Snの最大値Smaxの10%の値として定められる。モデル選択部22は、第二実施形態と同様に、音響モデルAMn毎に音声データsk毎の正解音素尤度Lc(AMn,sk)と認識音素尤度Lr(AMn,sk)との差分の和Snk{Lc(AMn,sk)-Lr(AMn,sk)}を算出する(ステップS211)。差分の和Snの最大値Smaxをとる音響モデルAMmaxと、差分の和SnがSmax-θ(S)以内となる音響モデルAMnを、明確な差分がない音響モデル群として最良音響モデル候補とする(ステップS221)。次に、最良音響モデル候補毎に正解音素尤度Lc(AMn,sk)<認識音素尤度Lr(AMn,sk)となる正解音素の種類数vnを求める(ステップS222)。そして、種類数vnが最も小さい音響モデルAMnを最良音響モデルとして出力する(ステップS223)。
このように第四実施形態の音声認識装置4は、音声データ数や音響尤度の差分が複数の音響モデル間で類似した値をとり、複数の音響モデル間での差分が明確でない場合に、誤りやすい音素の種類数が少ないものを選択することで、より性能の高い音響モデルを最良音響モデルとして選択することができる。
[第五実施形態]
認識音素ラベルは音声認識結果から生成するが、この音声認識結果は音響モデルAMnと言語モデルLMの両方の影響を受ける。そのため、1位の認識結果候補として出力される認識結果が、必ずしも最も音響尤度の高い認識結果ではなく、ほかの認識結果候補の中に1位の認識結果よりも音響尤度が高い認識結果候補が含まれている可能性がある。認識音素ラベルは、音声データに対して音響尤度が最大となる音素列であることが望ましいため、1位の認識結果のみ用いてしまうと、音響尤度が最大となる音素列が用いられないおそれがある。そこで第五実施形態では、認識結果候補のn-best中で音響尤度が最大になるものを、認識音素尤度Lr(AMn,sk)の算出に用いる認識結果とする。
図6を参照して、この実施形態の音声認識装置5の動作例を説明する。音響尤度算出部以外の処理は第一実施形態と同様であるので説明は省略する。この実施形態の音響尤度算出部は音響尤度算出部12である。音響尤度算出部12は、第二〜四実施形態の音声認識装置2〜4のいずれにも適用することができる。
この実施形態の音響尤度算出部12は、第一実施形態と同様に、正解音素尤度Lc(AMn,sk)を算出する(ステップS101)。次に、音響尤度算出部12は、音響モデルAMn毎に音声skのn-best認識結果候補を取得する(ステップS102)。そして、n-best認識結果候補それぞれについて音素ラベルを生成し音響尤度を算出する。n-best認識結果候補から算出した音響尤度が最大となる認識結果候補から生成した音素ラベルを認識音素ラベルとし、この音響尤度を認識音素尤度Lr(AMn,sk)とする(ステップS121)。
このように第五実施形態の音声認識装置5は、言語モデルの重みの影響をより少なくして認識音素ラベルを生成することができ、正解音素ラベルと認識音素ラベルの音響尤度の比較を適切に行うことができる。
[第六実施形態]
開発音声データの中には、音質が悪く、正解音素尤度および認識音素尤度の値の信頼性が低いものが混在しているおそれがある。このような開発音声データを音響モデルの選出に用いるとノイズとなってしまい、本来は最適であるよいモデルを最良音響モデルとして選出できない可能性がある。そこで第六実施形態では、開発音声データの音質をあらかじめ判定しておき、音質が閾値以上であると判断された音声のみを、以降の処理で用いる。
図7を参照して、この実施形態の音声認識装置6の動作例を説明する。音響尤度算出部以外の処理は第一実施形態と同様であるので説明は省略する。この実施形態の音響尤度算出部は音響尤度算出部13である。この実施形態の音響尤度算出部は、第二〜五実施形態の音声認識装置2〜5のいずれにも適用することができる。
この実施形態の音響尤度算出部13は、入力された開発音声データそれぞれに対してSN比の算出を行う(ステップS131)。SN比の算出は、音声区間検出を行い、音声区間と非音声区間の入力信号のパワー比に基づいて算出することができる。音声区間検出は、入力信号が閾値以上のパワーをもつ部分を音声区間とし、それ以外を非音声区間とするような、一般的に用いられる方法を適用してもよい。また例えば「石塚健太郎他, “音声区間検出技術の最近の研究動向”, 日本音響学会誌, Vol.65, No.10, 2009.」に記載された方法を適用してもよい。そして、音響尤度算出部13は、あらかじめ定められた閾値θを用いて、算出したSN比が下位θ%の音声は不適切な音声データとして破棄し、以降の処理では用いないものとする(ステップS132)。閾値θは、例えば10%などの値を用いればよい。
このように第六実施形態の音声認識装置6は、SN比が低く音質が悪い音声データを音響モデルの選択に用いないため、ノイズの影響で最良音響モデルを誤選択する可能性を抑えることができる。
[プログラム、記録媒体]
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1−6 音声認識装置
10−13 音響尤度算出部
20−22 モデル選択部
30 音声認識部
50 音響モデル記憶部
52 言語モデル記憶部
54 開発音声データ記憶部
56 正解音素ラベル記憶部
58 認識音素ラベル尤度記憶部
60 正解音素ラベル裕度記憶部
62 最良音響モデル記憶部
64 対象音声データ記憶部
66 認識結果記憶部

Claims (9)

  1. 複数の音響モデルと言語モデルと複数の開発音声データと前記開発音声データに対応する正解音素ラベルとを入力とし、音響モデル毎に当該音響モデルと前記言語モデルを用いて前記開発音声データを音声認識して得られた認識音素ラベルの音響尤度である認識音素尤度を求め、音響モデル毎に前記正解音素ラベルの音響尤度である正解音素尤度を求める音響尤度算出部と、
    前記正解音素尤度と前記認識音素尤度とに基づいて、前記複数の音響モデルから最良音響モデルを選択するモデル選択部と、
    を含む音声認識装置。
  2. 請求項1に記載の音声認識装置であって、
    前記モデル選択部は、前記開発音声データ毎に前記正解音素尤度と前記認識音素尤度とを比較し、前記正解音素尤度が前記認識音素尤度以上である音声データ数が最大である音響モデルを前記最良音響モデルとして選択する
    ことを特徴とする音声認識装置。
  3. 請求項1に記載の音声認識装置であって、
    前記モデル選択部は、前記開発音声データ毎に前記正解音素尤度と前記認識音素尤度との差分を計算し、前記差分の和が最大である音響モデルを前記最良音響モデルとして選択する
    ことを特徴とする音声認識装置。
  4. 請求項3に記載の音声認識装置であって、
    前記音響尤度算出部は、前記認識音素ラベルの事後確率の平均値を前記認識音素尤度として求め、前記正解音素ラベルの事後確率の平均値を前記正解音素尤度として求める
    ことを特徴とする音声認識装置。
  5. 請求項1から4のいずれかに記載の音声認識装置であって、
    前記モデル選択部は、前記正解音素尤度と前記認識音素尤度とあらかじめ定めた閾値とを用いて前記音響モデルから最良音響モデル候補を選択し、前記最良音響モデル候補毎に正解音素尤度が認識音素尤度未満である音素ラベルの種類を集計し、前記音素ラベルの種類の数が最小である音響モデルを前記最良音響モデルとして選択する
    ことを特徴とする音声認識装置。
  6. 請求項1から5のいずれかに記載の音声認識装置であって、
    前記音響尤度算出部は、前記開発音声データを音声認識して得られた複数の認識結果候補に対する音響尤度のうち最大の音響尤度を前記認識音素尤度とする
    ことを特徴とする音声認識装置。
  7. 請求項1から6のいずれかに記載の音声認識装置であって、
    前記音響尤度算出部は、前記開発音声データそれぞれのSN比を算出し、前記SN比があらかじめ定めた閾値以下である開発音声データを破棄する
    ことを特徴とする音声認識装置。
  8. 音響尤度算出部が、複数の音響モデルと言語モデルと複数の開発音声データと前記開発音声データに対応する正解音素ラベルとを入力とし、音響モデル毎に当該音響モデルと前記言語モデルを用いて前記開発音声データを音声認識して得られた認識音素ラベルの音響尤度である認識音素尤度を求め、音響モデル毎に前記正解音素ラベルの音響尤度である正解音素尤度を求める音響尤度算出ステップと、
    モデル選択部が、前記正解音素尤度と前記認識音素尤度とに基づいて、前記複数の音響モデルから最良音響モデルを選択するモデル選択ステップと、
    を含む音声認識方法。
  9. 請求項1から7のいずれかに記載の音声認識装置としてコンピュータを機能させるためのプログラム。
JP2012251894A 2012-11-16 2012-11-16 音声認識装置、音声認識方法、およびプログラム Expired - Fee Related JP5982265B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012251894A JP5982265B2 (ja) 2012-11-16 2012-11-16 音声認識装置、音声認識方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012251894A JP5982265B2 (ja) 2012-11-16 2012-11-16 音声認識装置、音声認識方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2014098874A JP2014098874A (ja) 2014-05-29
JP5982265B2 true JP5982265B2 (ja) 2016-08-31

Family

ID=50940906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012251894A Expired - Fee Related JP5982265B2 (ja) 2012-11-16 2012-11-16 音声認識装置、音声認識方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5982265B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6006674B2 (ja) * 2013-04-30 2016-10-12 日本電信電話株式会社 音響モデル選択装置とその方法とプログラム
KR102492318B1 (ko) 2015-09-18 2023-01-26 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4295675B2 (ja) * 2004-06-03 2009-07-15 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP2006139185A (ja) * 2004-11-15 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体

Also Published As

Publication number Publication date
JP2014098874A (ja) 2014-05-29

Similar Documents

Publication Publication Date Title
US11664020B2 (en) Speech recognition method and apparatus
EP3770903B1 (en) Scalable dynamic class language modeling
CN114097026A (zh) 语音识别的上下文偏置
US8965763B1 (en) Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US20110218805A1 (en) Spoken term detection apparatus, method, program, and storage medium
US9905224B2 (en) System and method for automatic language model generation
WO2020166322A1 (ja) 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム
CN112825249A (zh) 语音处理方法和设备
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
CN112259084A (zh) 语音识别方法、装置和存储介质
Zhang et al. Towards end-to-end speaker diarization with generalized neural speaker clustering
JP5982265B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP6716513B2 (ja) 音声区間検出装置、その方法、及びプログラム
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
JP7348447B2 (ja) テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム
KR20200102309A (ko) 단어 유사도를 이용한 음성 인식 시스템 및 그 방법
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
Qiu et al. Context-aware neural confidence estimation for rare word speech recognition
JP2018132678A (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
JP6006674B2 (ja) 音響モデル選択装置とその方法とプログラム
JP2017211513A (ja) 音声認識装置、その方法、及びプログラム
US12125474B2 (en) Learning apparatus, estimation apparatus, methods and programs for the same
JP4801107B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
CN111816164B (en) Method and apparatus for speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160801

R150 Certificate of patent or registration of utility model

Ref document number: 5982265

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees