JP5104732B2 - 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム - Google Patents

拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム Download PDF

Info

Publication number
JP5104732B2
JP5104732B2 JP2008292132A JP2008292132A JP5104732B2 JP 5104732 B2 JP5104732 B2 JP 5104732B2 JP 2008292132 A JP2008292132 A JP 2008292132A JP 2008292132 A JP2008292132 A JP 2008292132A JP 5104732 B2 JP5104732 B2 JP 5104732B2
Authority
JP
Japan
Prior art keywords
utterance
deformation
recognition dictionary
speech
extended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008292132A
Other languages
English (en)
Other versions
JP2010117651A (ja
Inventor
祥史 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008292132A priority Critical patent/JP5104732B2/ja
Publication of JP2010117651A publication Critical patent/JP2010117651A/ja
Application granted granted Critical
Publication of JP5104732B2 publication Critical patent/JP5104732B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、拡張認識辞書学習装置と音声認識システムに関し、特に発声変形を含む音声に対し、認識辞書を拡張するための拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラムに関する。
本発明に関連する音声認識システムの一例が、非特許文献1に記載されている。この音声認識システムを図5のブロック図を参照して説明する。
図5に示すように、この関連技術の音声認識システムは、音声入力部510と、発声ラベル入力部511と、音響モデル記憶部512と、認識辞書記憶部513と、音声認識部514と、発声変形データ算出部515と、発声変形データ記憶部516と、発声変形データ分類部517と、認識辞書拡張部518と、拡張認識辞書記憶部519と、音声入力部512と、音声認識部522と、認識結果出力部523とを有する。
このような構成を有する関連技術の音声認識システムはつぎのように動作する。
まず、音声入力部510に学習音声が入力される。次に、音響モデル記憶部512が保持している音響モデルと、認識辞書記憶部513が保持している認識辞書と、を用いて音声認識部514が音声認識をする。
そして、発声変形データ算出部515が、上述の認識結果の音素列と、発声ラベル入力部511に入力された発声ラベル(学習音声に対する正解の音素列を並べた発声ラベル)と、を比較して正解音素列と認識結果音素列の対応を算出する。算出した結果は、発声変形データとして発声変形データ記憶部516が記憶する。
次に、発声変形データ分類部517で、記憶した発声変形データにおいて、学習音声に対し広く出現する発声変形と、学習音声に対し偏って出現する発声変形を分類し、それらの発声変形を組み合わせて発声変形集合とする。そして、認識辞書拡張部518が、この発声変形集合を用いて、認識辞書記憶部513が保持している認識辞書に含まれる単語の標準音素列を、発声変形の音素列で置き換え、複数の音素列を含んだ拡張認識辞書を、発声変形集合ごとに生成する。生成された拡張認識辞書は、拡張認識辞書記憶部519にて記憶される。
これにより、学習音声に広く出現する発声変形および偏って出現する発声変形を組み合わせた、発声変形集合ごとの拡張認識辞書を学習される。なお、発声変形音声認識装置の関連技術が特許文献1に記載されている。
そして、実際に音声認識を行う際は、新たな話者の音声に対して、システムが保持している音響モデルと、前述の学習した発声変形集合ごとの拡張認識辞書を用いて認識し、新たな話者の音声に適した認識結果をROVER法により選択することにより認識結果を出力する。ROVER法については非特許文献2にその詳細が記載されている。そしてこのように学習された拡張認識辞書を利用することにより話者性を考慮した音声認識を行うことができ、認識率の向上を図ることができる。
特開平08−211887号公報 「認識誤りの話者性を考慮した発声変形抽出と認識辞書拡張」、大西祥史、日本音響学会春季研究発表会講演論文集、2007年3月、3-9-1、pp. 65-66. Jonathan G. Fiscus, "A Post-Processing System to Yield Reduced Word Error Rates: Recognizer Output Voting Error Reduction (ROVER)", Proc. IEEE ASRU Workshop pp.437-352, 1997 Aizawa, A., "An information-theoretic perspective of tf-idf measures",Information Processing and Management, vol. 39, pp. 45-65, 2003.
もっとも、上述した関連技術には問題点があった。その問題点は、学習された複数の拡張認識辞書を利用する際に、演算量が大きくなることである。
その理由は、それぞれの拡張認識辞書を用いて複数の音声認識を実行し、認識結果を選択しているため、辞書の数だけ音声認識が必要となり演算量が大きくなるためである。
そこで、本発明は新たな話者に対して適した拡張認識辞書による認識結果を少ない演算量で得ることが可能な拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラムを提供することを目的とする。
本発明の第1の観点によれば、入力された学習用音声の音声認識結果から出力される音響モデル系列と、入力された正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出手段と、算出された前記発声変形データにおいて、広く出現する発声変形、及び、偏って出現する発声変形を分類する発声変形データ分類手段と、分類された前記広く出現する発声変形及び前記偏って出現する発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、前記発声変形集合ごとに認識辞書を拡張する認識辞書拡張手段と、特に、前記発声変形集合のそれぞれを判別するのに有効な発声変形要素、及び、当該発声変形要素と前記発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する発声変形集合判別情報抽出手段と、を有することを特徴とする拡張認識辞書学習装置が提供される。
本発明の第2の観点によれば、本発明の第1の観点により提供される拡張認識辞書学習装置を利用する、拡張認識辞書利用装置において、入力された音声認識対象音声の音声認識結果に対し、前記発声変形集合判別情報抽出手段により抽出された前記発声変形集合判別情報を適用して、発声変形仮説を生成し、生成した当該発声変形仮説と、前記音声認識結果との間の音響尤度比較を行い、発声変形仮説における音響尤度のほうが上回るものをもって、その話者に対し適した発声変形要素として抽出し、抽出された当該発声変形要素と、前記発声変形集合判別情報に含まれる確率加重情報量を用いて、その話者に対する各発声変形集合の重みを算出する、発声変形集合重み推定手段と、前記各発声変形集合に対応する前記拡張認識辞書を、前記算出された重みの重み付け和により統合することにより、適応認識辞書を生成する、認識辞書適応統合手段と、を備えることを特徴とする拡張認識辞書利用装置が提供される。
本発明の第3の観点によれば、入力された学習用音声の音声認識結果から出力される音響モデル系列と、入力された正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出ステップと、算出された前記発声変形データにおいて、広く出現する発声変形、及び、偏って出現する発声変形を分類する発声変形データ分類ステップと、分類された前記広く出現する発声変形及び前記偏って出現する発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、前記発声変形集合ごとに認識辞書を拡張する認識辞書拡張ステップと、特に、前記発声変形集合のそれぞれを判別するのに有効な発声変形要素、及び、当該発声変形要素と前記発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する発声変形集合判別情報抽出ステップと、を有することを特徴とする拡張認識辞書利用方法が提供される。
本発明の第4の観点によれば、入力された学習用音声の音声認識結果から出力される音響モデル系列と、入力された正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出手段と、算出された前記発声変形データにおいて、広く出現する発声変形、及び、偏って出現する発声変形を分類する発声変形データ分類手段と、分類された前記広く出現する発声変形及び前記偏って出現する発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、前記発声変形集合ごとに認識辞書を拡張する認識辞書拡張手段と、特に、前記発声変形集合のそれぞれを判別するのに有効な発声変形要素、及び、当該発声変形要素と前記発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する発声変形集合判別情報抽出手段と、を有する拡張認識辞書利用装置としてコンピュータを機能させるための拡張認識辞書利用プログラムが提供される。
本発明によれば、新たな話者に対して適した拡張認識辞書による認識結果を少ない演算量で得ることが可能となる。その理由は、学習しておいた拡張認識辞書の重み付けにより、新たな話者に適応された適応認識辞書を算出し用いることから、拡張認識辞書学習装置において学習した拡張認識辞書すべてについて音声認識を行う必要がなくなるためである。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
図1は、本発明の実施形態の全体構成の一例を示すブロック図である。
本発明の実施形態は拡張認識辞書学習を行う拡張認識辞書学習装置100及び拡張認識辞書の適応を行う音声認識装置120を有する。
拡張認識辞書学習装置100は、ハードウェア、ソフトウェア又はこれらの組合せにより実現することができる。具体的には、拡張認識辞書学習装置100は、パーソナルコンピュータ等である。
そして、拡張認識辞書学習装置100は、音声入力部110と、発声ラベル入力部111と、音響モデル記憶部112と、認識辞書記憶部113と、音声認識部114と、発声変形データ算出部115と、発声変形データ記憶部116と、発声変形データ分類部117と、認識辞書拡張部118と、拡張認識辞書記憶部119と、発声変形集合判別情報抽出部151と、発声変形集合判別情報記憶部152を有する。
また、音声認識装置120も上述の拡張認識辞書学習装置100と同様に、ハードウェア、ソフトウェア又はこれらの組合せにより実現することができる。具体的には、音声認識装置120は、パーソナルコンピュータ等である。
そして、音声認識装置120は、音声入力部121と、音響モデル記憶部112と、認識辞書記憶部113と、拡張認識辞書記憶部119と、音声認識部122と、発声変形集合判別情報記憶部152と、認識辞書適応部153と認識結果出力部123とを有する。
なお、図1では、音響モデル記憶部112、認識辞書記憶部113、拡張認識辞書記憶部119及び発声変形集合判別情報記憶部152を拡張認識辞書学習装置100及び音声認識装置120が有するという構成を示しているが、これら各記憶部を外部の装置が有するようにしてもよい。この場合は、外部記憶装置と、拡張認識辞書学習装置100及び音声認識装置120が相互にデータをやり取りすることにより本発明の実施形態として機能する。
音声入力部110は、学習音声の入力を受け付ける部分である。例えば、自身のコンピュータ、あるいは他のコンピュータからネットワークを通じて、音声データを受け取る。
発声ラベル入力部111は、学習音声に対応する発声ラベルの入力を受け付ける部分である。上述の音声入力部110と同様に、例えば、自身のコンピュータ、あるいは他のコンピュータからネットワークを通じて、発声ラベルデータを受け取る。ここで、発声ラベル入力部111が受け取る発声ラベルデータとは、学習音声に対する正解の音素列を並べた発声ラベルデータのことである。
音響モデル記憶部112は、例えばハードディスク装置やメモリなどである。音響モデル記憶部112には、音声認識に用いる音響モデルが記憶されている。
認識辞書記憶部113は、上述の音響モデル記憶部112と同様に、例えばハードディスク装置やメモリなどである。認識辞書記憶部113には、音声認識に用いる認識辞書が記憶されている。
音声認識部114は、入力された学習音声を、音響モデル記憶部112に記憶されている音響モデルと、認識辞書記憶部113に記憶されている認識辞書を用い、音声認識を行い、認識結果を出力する。
発声変形データ算出部115は、音声認識部114で出力された上述の認識結果と、入力された学習音声に対応する発声ラベルとを比較して、それらの対応を算出し、発声変形データ記憶部116に記憶する。
発声変形データ記憶部116は、上述の他の記憶部同様に、例えばハードディスク装置やメモリなどである。発声変形データ記憶部116は、前述の発声変形データ算出部115によって算出された、発声変形データを記憶する。
次に、発声変形データを、話者性に着目し、また近年の音声認識システムで一般的に用いられている音響モデルの単位である、三つ組み環境依存音素、すなわちトライフォンで算出する場合の例を説明する。
今回の例では、入力される学習音声としてN人の話者の発声を用いる。
最初に、拡張認識辞書学習装置100の動作を図3のフローチャートを参照して説明する。
まず、音声入力部110に学習音声が入力される(ステップS201)。
次に、音響モデル記憶部112が保持している音響モデルと、認識辞書記憶部113が保持している認識辞書と、を用いて音声認識部114が音声認識をする。そして、音声認識部114で、入力される学習音声の各フレーム毎にトライフォンの系列を発声変形データ算出部115に対して出力する(ステップS203)。
発声ラベル入力部111が、受け付けた発声ラベルを発声変形データ算出部115に出力する。ここで、発声ラベルとは、前記学習発声に対応した正解トライフォン系列のことである(ステップS205)。
発声変形データ算出部115において、発声ラベル入力部111から受け付けた正解のトライフォン系列と、音声認識部114から受け付けた認識結果のトライフォン系列を、学習音声のフレームごとに並べて比較することにより、それぞれの対応をとる。そして、発声変形データ算出部115は、標準形と変形の各パターンについて出現フレーム数をカウントして、話者ごとに発声変形データとして、発声変形データ記憶部116に記憶する(ステップS207)。
発声変形データ分類部117は、前記発声変形データ記憶部116に記憶された、発声変形データから、学習音声に対し広く出現する発声変形と、学習音声に対し偏って出現する発声変形を分類する(ステップS209)。
認識辞書拡張部118は、認識辞書記憶部113に記憶されている認識辞書を、発声変形データ分類部117において分類した発声変形を組み合わせた発声変形集合ごとに、発声変形で置き換える。それにより、認識辞書拡張部118は、複数の音素列を含んだ拡張認識辞書を発声変形集合ごとに生成し、拡張認識辞書記憶部119に記憶する(ステップS211)。
発声変形の分類は話者ごとに発声変形のidf値およびtfidf値を算出し、idf値がある所定値より小さい発声変形要素を話者によらず広く出現する発声変形とし、tfidf値に基づき発声変形の話者クラスタリングを行い、各クラスタ中心ベクトルにおいてidf値が或る所定値より大きな要素を、話者に偏って出現する発声変形とすることにより算出する。この一連の処理の詳細は、公知文献である非特許文献1に記載されており、いわゆる当業者に知られているものである。
認識辞書拡張部118は、認識辞書記憶部113に記憶された認識辞書に含まれる単語の標準音素列を、発声変形集合ごとに、発声変形の音素列で置き換えることにより、複数の音素列を含んだ拡張認識辞書を生成する(ステップS213)。ここで、発声変形集合とは、上述の発声変形データ分類部117で分類された、学習音声に対し広く出現する発声変形と偏って出現する発声変形を組み合わせた集合のことである。
発声変形データをトライフォンで算出した場合の詳細についても非特許文献1に記載されている。
発声変形集合判別情報抽出部151は、前記発声変形データ分類部117において算出された、発声変形集合らを判別するのに有効な発声変形要素および、その発声変形要素と発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する(ステップS215)。
発声変形集合判別情報抽出部151はステップS215において次のように動作する。
発声変形分類部117において得られた発声変形集合らDに含まれる発声変形集合dと、発声変形要素wの確率値および条件付確率値を用いて算出される、下記の式(数1)で定義されるXの値が大きいR個の発声変形要素vを抽出する。
Figure 0005104732
抽出されたvと、下記の式(数2)で定義される確率加重情報量δIを発声変形判別情報として、発声変形集合判別情報記憶部152に記憶する。
Figure 0005104732
ここで上記発声変形集合判別情報抽出の手順の意味合いについて説明する。
発声変形分類部117において得られた発声変形集合らDと発声変形らWとの相互情報量Iは下記の式(数3)で表現される。
Figure 0005104732
このため、数1で表されるXの値が大きい発声変形の要素は、発声変形集合との相互情報量に大きな寄与をするものとなる。即ち、Xの値が大きい発声変形の要素は発声変形集合らを判別するのに有効な発声変形要素であることがわかる。
確率加重情報量(PWI:probability weighted amount of information)、および相互情報量の詳細は非特許文献3に詳細が記載されている。
最後に、発声変形集合判別情報抽出部151において抽出された発声変形集合判別情報を発声変形集合判別情報記憶部152に記憶する(ステップS217)。ここで、発声変形集合判別情報記憶部152はたとえばハードディスク装置やメモリなどである。
次に、音声認識装置1220が、拡張認識辞書を用いて音声認識を行う動作について図4のフローチャートを参照して説明する。
音声入力部121は、認識対象となる音声を受け付ける(ステップS301)。
音声認識部122は、音声入力部121に入力された音声を、音響モデル記憶部112に記憶されている音響モデルと、認識辞書記憶部113に記憶されている認識辞書とを用いて、音声認識を行う(ステップS303)。
認識辞書適応部153は、前記音声認識結果に対し、発声変形集合判別情報記憶部152に記憶された発声変形を適用して発声変形の仮説を生成し、これら認識結果と発声変形仮説との間の音響尤度比較を行う。そして、認識辞書適応部153は、発声変形仮説における音響尤度のほうが上回るものをもって、その話者に対し適した発声変形要素として抽出する。次に、抽出された発声変形要素と、発声変形集合判別情報にある確率加重情報量をもちいて、その話者に対する各発声変形集合の重みを算出する。そして、各発声変形集合に対応する拡張認識辞書を前期算出された重みを用いた重み付け和により、拡張認識辞書を統合して、適応認識辞書を生成する(ステップS305)。
認識辞書適応部153は、以上の処理を具体的には次のように実施する。図2を用いて詳細に説明する。
音声認識部122によって出力された音声認識結果音素列153−1に対し、前述の発声変形集合判別情報記憶部152に記憶されたR個の発声変形vを適用して発声変形仮説を生成する。発声変形集合重み推定部153−2は、これら認識結果と発声変形仮説との間の音響尤度比較を行い、発声変形仮説における音響尤度のほうが上回るものをもって、その話者に対し適した発声変形要素として抽出する。
更に、発声変形集合重み推定部153−2は、抽出された発声変形らをYとし、それに含まれる発声変形規則をvとし、前述の発声変形集合判別情報記憶部152に記憶された確率加重情報量δIを用いて下記の式(数4)により各発声変形集合に対する重みを算出する。
Figure 0005104732
ここで、数4の分母は、gの和が1となるように正規化することを意味する。
次に、拡張認識辞書統合部153−3が、算出された重みgを用いて重み付け和により、各発声変形集合に対応する拡張認識辞書を統合して、新話者に適応した拡張辞書である適応認識辞書153−4を生成する。
ここで、拡張認識辞書の重み付け和は、同一表記における、発音エントリの出現確率を重み付け和により算出することにより実施する。
なお、この算出を行う際に、発音エントリの出現確率値が或る所定値より小さくなった場合に、辞書から削除する工程を含め、辞書のサイズを小さくするようにしてもよい。
音声認識部122は、入力された音声に対して、認識辞書適応部153において算出された適応認識辞書153−4を用いて、再度音声認識を行う(ステップS307)。あるいはまた、1発声または数発声ごとに認識辞書適応部153で適応された適応認識辞書に逐次更新しながら、音声認識を行うようにしてもよい。
本実施の形態によれば、拡張認識辞書すべてについて音声認識を行う必要はなく、拡張認識辞書学習装置において学習した拡張認識辞書を統合し、新たな話者に対して適した適応認識辞書を生成し利用して音声認識が行えるため、少ない演算量で認識結果を得ることが出来る。
さらにまた、事前に学習される拡張認識辞書の数が多くとも実施可能となるため、事前に多数の拡張認識辞書を学習しておき利用することにより、話者の多様性に対応することが可能となり、音声認識性能が向上する。
本発明は、例えば、発声変形を含む音声に対し、認識辞書を拡張し性能を向上できる音声認識システムや、音声認識システムをコンピュータに実現するためのプログラムといった用途に好適である。
本発明の実施形態の拡張認識辞書学習装置および音声認識装置の基本的構成を表す図である。 本発明の実施形態における、認識辞書適応手段の基本的構成を表す図である。 本発明の実施形態の拡張認識辞書学習装置の基本的動作を表すフローチャートである。 本発明の実施形態の音声認識装置の基本的動作を表すフローチャートである。 本発明の関連技術の拡張認識辞書学習装置および音声認識装置の基本的構成を表す図である。
符号の説明
100、500 拡張認識辞書学習装置
110、510 音声入力部
111、511 発声ラベル入力部
112、512 音響モデル記憶部
113、513 認識辞書記憶部
114、514 音声認識部
115、515 発声変形データ算出部
116、516 発声変形データ記憶部
117、517 発声変形データ分類部
118、518 認識辞書拡張部
119、519 拡張認識辞書記憶部
119−1、519−1 拡張認識辞書D1
119−M、519−M 拡張認識辞書DM
120、520 音声認識装置
121、521 音声入力部
122、522 音声認識部
123、523 認識結果出力部
151 発声変形集合判別情報抽出部
152 発声変形集合判別情報記憶部
153 認識辞書適応部
153−1 認識結果音素列
153−2 発声変形集合重み推定部
153−3 拡張認識辞書統合部
153−4 適応認識辞書

Claims (15)

  1. 入力された学習用音声の音声認識結果から出力される音響モデル系列と、入力された正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出手段と、
    算出された前記発声変形データにおいて、広く出現する発声変形、及び、偏って出現する発声変形を分類する発声変形データ分類手段と、
    分類された前記広く出現する発声変形及び前記偏って出現する発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、前記発声変形集合ごとに認識辞書を拡張する認識辞書拡張手段と、
    特に、前記発声変形集合のそれぞれを判別するのに有効な発声変形要素、及び、当該発声変形要素と前記発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する発声変形集合判別情報抽出手段と、
    を有することを特徴とする拡張認識辞書学習装置。
  2. 請求項1に記載の拡張認識辞書学習装置において、前記発声変形集合判別情報抽出手段は、
    発声変形集合のそれぞれを判別するのに有効な発声変形要素として、発声変形集合らDに含まれる発声変形集合dと、発声変形要素wの確率値および条件付確率値を用いて算出される、
    Figure 0005104732
    により定義されるXの値が大きいR個の発声変形要素vを抽出し、
    確率加重情報量として
    Figure 0005104732
    で定義されるδIを算出することを特徴とする拡張認識辞書学習装置。
  3. 請求項1又は2に記載の拡張認識辞書学習装置を利用する、拡張認識辞書利用装置において、
    入力された音声認識対象音声の音声認識結果に対し、前記発声変形集合判別情報抽出手段により抽出された前記発声変形集合判別情報を適用して、発声変形仮説を生成し、生成した当該発声変形仮説と、前記音声認識結果との間の音響尤度比較を行い、発声変形仮説における音響尤度のほうが上回るものをもって、その話者に対し適した発声変形要素として抽出し、抽出された当該発声変形要素と、前記発声変形集合判別情報に含まれる確率加重情報量を用いて、その話者に対する各発声変形集合の重みを算出する、発声変形集合重み推定手段と、
    前記各発声変形集合に対応する前記拡張認識辞書を、前記算出された重みの重み付け和により統合することにより、適応認識辞書を生成する、認識辞書適応統合手段と、
    を備えることを特徴とする拡張認識辞書利用装置。
  4. 請求項3に記載の拡張認識辞書利用装置において、
    前記発声変形集合重み推定手段は、前記抽出された発声変形要素らをYとし、当該発声変形要素らYに含まれる発声変形規則をvyとしたとき、
    Figure 0005104732
    により前記各発声変形集合に対する重みを算出することを特徴とする拡張認識辞書利用装置。
  5. 請求項3又は4に記載の拡張認識辞書利用装置において、
    前記認識辞書適応統合手段の生成した前記適応認識辞書を用いて音声認識を行うことを特徴とする拡張認識辞書利用装置。
  6. 入力された学習用音声の音声認識結果から出力される音響モデル系列と、入力された正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出ステップと、
    算出された前記発声変形データにおいて、広く出現する発声変形、及び、偏って出現する発声変形を分類する発声変形データ分類ステップと、
    分類された前記広く出現する発声変形及び前記偏って出現する発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、前記発声変形集合ごとに認識辞書を拡張する認識辞書拡張ステップと、
    特に、前記発声変形集合のそれぞれを判別するのに有効な発声変形要素、及び、当該発声変形要素と前記発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する発声変形集合判別情報抽出ステップと、
    を有することを特徴とする拡張認識辞書利用方法。
  7. 請求項6に記載の拡張認識辞書利用方法において、前記発声変形集合判別情報抽出ステップにおいて、
    発声変形集合のそれぞれを判別するのに有効な発声変形要素として、発声変形集合らDに含まれる発声変形集合dと、発声変形要素wの確率値および条件付確率値を用いて算出される、
    Figure 0005104732
    により定義されるXの値が大きいR個の発声変形要素vを抽出し、
    確率加重情報量として
    Figure 0005104732
    で定義されるδIを算出することを特徴とする拡張認識辞書利用方法。
  8. 請求項6又は7に記載の拡張認識辞書利用方法において、
    入力された音声認識対象音声の音声認識結果に対し、前記発声変形集合判別情報抽出ステップにより抽出された前記発声変形集合判別情報を適用して、発声変形仮説を生成し、生成した当該発声変形仮説と、前記音声認識結果との間の音響尤度比較を行い、発声変形仮説における音響尤度のほうが上回るものをもって、その話者に対し適した発声変形要素として抽出し、抽出された当該発声変形要素と、前記発声変形集合判別情報に含まれる確率加重情報量を用いて、その話者に対する各発声変形集合の重みを算出する、発声変形集合重み推定ステップと、
    前記各発声変形集合に対応する前記拡張認識辞書を、前記算出された重みの重み付け和により統合することにより、適応認識辞書を生成する、認識辞書適応統合ステップと、
    を備えることを特徴とする音声認識辞書利用方法。
  9. 請求項8に記載の音声認識辞書利用方法において、
    前記発声変形集合重み推定ステップにおいて、前記抽出された発声変形要素らをYとし、当該発声変形要素らYに含まれる発声変形規則をvyとしたとき、
    Figure 0005104732
    により前記各発声変形集合に対する重みを算出することを特徴とする音声認識辞書利用方法。
  10. 請求項8又は9に記載の音声認識辞書利用方法において、
    前記認識辞書適応統合ステップにおいて生成した前記適応認識辞書を用いて音声認識を行うことを特徴とする音声認識辞書利用方法。
  11. 入力された学習用音声の音声認識結果から出力される音響モデル系列と、入力された正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出手段と、
    算出された前記発声変形データにおいて、広く出現する発声変形、及び、偏って出現する発声変形を分類する発声変形データ分類手段と、
    分類された前記広く出現する発声変形及び前記偏って出現する発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、前記発声変形集合ごとに認識辞書を拡張する認識辞書拡張手段と、
    特に、前記発声変形集合のそれぞれを判別するのに有効な発声変形要素、及び、当該発声変形要素と前記発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する発声変形集合判別情報抽出手段と、
    を有する拡張認識辞書利用装置としてコンピュータを機能させるための拡張認識辞書利用プログラム。
  12. 請求項11に記載の拡張認識辞書利用プログラムにおいて、前記発声変形集合判別情報抽出手段は、
    発声変形集合のそれぞれを判別するのに有効な発声変形要素として、発声変形集合らDに含まれる発声変形集合djと、発声変形要素wiの確率値および条件付確率値を用いて算出される、
    Figure 0005104732
    により定義されるXの値が大きいR個の発声変形要素vkを抽出し、
    確率加重情報量として
    Figure 0005104732
    で定義されるδIを算出することを特徴とする拡張認識辞書利用プログラム。
  13. 請求項11又は12に記載の拡張認識辞書利用プログラムにおいて、前記拡張認識辞書利用装置は、
    入力された音声認識対象音声の音声認識結果に対し、前記発声変形集合判別情報抽出手段により抽出された前記発声変形集合判別情報を適用して、発声変形仮説を生成し、生成した当該発声変形仮説と、前記音声認識結果との間の音響尤度比較を行い、発声変形仮説における音響尤度のほうが上回るものをもって、その話者に対し適した発声変形要素として抽出し、抽出された当該発声変形要素と、前記発声変形集合判別情報に含まれる確率加重情報量を用いて、その話者に対する各発声変形集合の重みを算出する、発声変形集合重み推定手段と、
    前記各発声変形集合に対応する前記拡張認識辞書を、前記算出された重みの重み付け和により統合することにより、適応認識辞書を生成する、認識辞書適応統合手段と、
    を備えることを特徴とする拡張認識辞書利用プログラム。
  14. 請求項13に記載の拡張認識辞書利用プログラムにおいて、
    前記発声変形集合重み推定手段は、前記抽出された発声変形要素らをYとし、当該発声変形要素らYに含まれる発声変形規則をvyとしたとき、
    Figure 0005104732
    により前記各発声変形集合に対する重みを算出することを特徴とする拡張認識辞書利用プログラム。
  15. 請求項13又は14に記載の拡張認識辞書利用プログラムにおいて、
    前記認識辞書適応統合手段の生成した前記適応認識辞書を用いて音声認識を行うことを特徴とする拡張認識辞書利用プログラム。
JP2008292132A 2008-11-14 2008-11-14 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム Active JP5104732B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008292132A JP5104732B2 (ja) 2008-11-14 2008-11-14 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008292132A JP5104732B2 (ja) 2008-11-14 2008-11-14 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2010117651A JP2010117651A (ja) 2010-05-27
JP5104732B2 true JP5104732B2 (ja) 2012-12-19

Family

ID=42305347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008292132A Active JP5104732B2 (ja) 2008-11-14 2008-11-14 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP5104732B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107924679A (zh) * 2015-07-13 2018-04-17 微软技术许可有限责任公司 输入理解处理期间在响应选择中的延迟绑定

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112141837A (zh) * 2020-09-08 2020-12-29 金陵科技学院 一种基于多层字典学习的智能语音电梯系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5240457B2 (ja) * 2007-01-16 2013-07-17 日本電気株式会社 拡張認識辞書学習装置と音声認識システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107924679A (zh) * 2015-07-13 2018-04-17 微软技术许可有限责任公司 输入理解处理期间在响应选择中的延迟绑定
CN107924679B (zh) * 2015-07-13 2021-11-05 微软技术许可有限责任公司 计算机实施的方法、输入理解系统和计算机可读存储设备

Also Published As

Publication number Publication date
JP2010117651A (ja) 2010-05-27

Similar Documents

Publication Publication Date Title
JP5240457B2 (ja) 拡張認識辞書学習装置と音声認識システム
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
CN107615376B (zh) 声音识别装置及计算机程序记录介质
US8515758B2 (en) Speech recognition including removal of irrelevant information
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
US20050256706A1 (en) Removing noise from feature vectors
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
CN107093422B (zh) 一种语音识别方法和语音识别系统
JP5249967B2 (ja) 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
JP2010181884A (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
JP2002342323A (ja) 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP2007078943A (ja) 音響スコア計算プログラム
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2006201265A (ja) 音声認識装置
JP2011033879A (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP5749186B2 (ja) 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
WO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム記録媒体
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100721

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110831

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120917

R150 Certificate of patent or registration of utility model

Ref document number: 5104732

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3