JP3583299B2

JP3583299B2 - 連続音声認識用の探索装置および連続音声認識用の探索方法

Info

Publication number: JP3583299B2
Application number: JP26859098A
Authority: JP
Inventors: 芳春阿部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1998-09-22
Filing date: 1998-09-22
Publication date: 2004-11-04
Anticipated expiration: 2018-09-22
Also published as: JP2000099089A

Description

【０００１】
【発明の属する技術分野】
この発明は、大語彙からなる連続音声を認識して正解の単語列侯補を求めることができる連続音声認識用の探索装置および探索方法に関するものである。
【０００２】
【従来の技術】
大語彙からなる連続音声を認識して単語列の侯補を求める連続音声認識において、単語列の侯補を求める探索方法として、１段で探索する方法、および、多段で探索する方法があり、１段で探索する方法としてはビーム探索法がある。また、多段で探索する方法としては、１段目で単語グラフを作成し、２段目で単語グラフの中で単語列侯補を求める方法がある。
【０００３】
ビーム探索法は、単語列侯補の部分列を表す仮説として空の単語列の仮説から出発して、入力フレームと同期して、仮説の展開処理を行い単語列を成長させる方法であり、このビーム探索法では、入力フレームの進行と共に、可能な単語の組合わせが増え、単語列の侯補数が増大するので、音響モデルの尤度と言語モデルの尤度を用いて尤度の低い仮説について枝刈処理が行われる。枝刈処理により、仮説を一定数に押さえて、正解の単語列が単語列侯補の中から脱落しないようにして探索を進める。なお、尤度とは、標準音節列が最適音節列に対応づけられる確率の対数値である。
【０００４】
一方、単語グラフを用いる方法は、２段階で探索を進めるものである。まず、１段目の探索で単語の候補を残すが、例えば、直前の１単語から派生する単語の侯補のみを残すことで行う。次の２段目の探索では、１段目で作成された単語の侯補を組合わせて、単語列の侯補を作成する。この際、音響モデルの尤度と言語モデルの尤度を加えて、尤度の大きい単語列侯補を探索する。２段目の探索では、スタックデコーダを用いた探索が用いられる。
【０００５】
また、多段階で探索する探索方法としては、１段目で最適解を求め、１段目の最適解の変形により２段目の探索を行うものがあり、特開平５−１８１４９８号公報に開示されている。この発明では、１段目で、荒い精度で動的計画法（以下、ＤＰ：ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ法という）を用いて最適単語を高速に求め、２段目で１段目で選択された複数の侯補パターンデータの中からＤＰ法で認識結果を求めるものである。この方法では、最適単語列は必ずしも正解単語列と一致しないが、正解単語列とかなり類似している。しかし、１段目で正解単語列のパターンデータが見いだされなければ、２段目でも、正解単語列を求めることはできない。
【０００６】
【発明が解決しようとする課題】
従来の連続音声認識用の探索装置および連続音声認識用の探索方法は以上のように構成されているので、１段目の探索で単語侯補の中に正解が残らない場合、２段目で正解を求めることができないなどの課題があった。
また、１段目で正解を残そうとすると、単語侯補の数が増大し、２段目の処理で考慮すべき単語の組み合わせが増大し探索空間が増大するなどの課題があった。
さらに、音響的に類似した単語列侯補が探索されるため認識精度が低下するなどの課題があった。
【０００７】
この発明は上記のような課題を解決するためになされたもので、１段目の探索では最適な単語列が脱落することを防止し、２段目の探索では探索空間を増大させずに単語列の侯補を探索することができる連続音声認識用の探索装置および連続音声認識用の探索方法を得ることを目的とする。
【００１１】
【課題を解決するための手段】
この発明に係る連続音声認識用の探索装置は、差分モデルにおいて、最適な音節列の部分音節列と正解の音節列の部分音節列とこれらの対応する尤度を記述した音節列間変換尤度テーブルと、最適な音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は音節列間変換尤度テーブルと単語音節長変換尤度テーブルとに記述された尤度に基づいて単語列の侯補を探索するようにしたものである。
【００１２】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適な音節列を最適解取得手段により求め、最適解取得手段が求めた最適な音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、最適解取得手段が求めた最適音節列を入力し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【００１３】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適音節列を最適解取得手段により求め、最適音節列を入力し、最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適音節列を変形してグラフを差分モデル適用音節グラフ作成手段により作成し、差分モデル適用音節グラフ作成手段が作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【００１５】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なＮ個の音節からなる音節列をＮベスト解取得手段により求め、Ｎベスト解取得手段が求めた最適なＮ個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、Ｎベスト解取得手段が求めた最適音節列を入力し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【００１６】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なＮ個の音節からなる音節列をＮベスト解取得手段により求め、この最適な音節列を入力し、Ｎベスト解取得手段が求めた最適なＮ個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なＮ個の音節からなる音節列を変形してグラフを差分モデル適用音節グラフ作成手段により作成し、差分モデル適用音節グラフ作成手段が作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【００１７】
この発明に係る連続音声認識用の探索装置は、差分モデルにおいて、最適な音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は、単語音節長変換尤度テーブルの尤度に基づいて単語列の侯補を探索するようにしたものである。
【００１８】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御され最適な単語列を最適解取得手段により求め、最適解取得手段が求めた最適な単語列を音節列変換手段により音節列に変換し、音節列変換手段が求めた最適音節列を入力し、音節列変換手段が求めた音節列が正解の音節列に対応する尤度と、音節列の長さと単語辞書の音節列の長さの尤度とを記述した差分モデルと単語の標準的な音節列とその長さを記述した単語辞書とを参照し、単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【００１９】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御され最適な単語列を最適解取得手段により求め、最適解取得手段が求めた最適単語列を入力し、最適解取得手段が求めた最適な単語列が正解の単語列に対応する尤度と、単語辞書の単語と対応する最適な単語列の長さとその尤度とを記述した差分モデルと、単語を記述した単語辞書とを参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【００２３】
この発明に係る連続音声認識用の探索方法は、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適な音節列を求め、この最適な音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書とを参照し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し単語列の侯補を出力するようにしたものである。
【００２４】
この発明に係る連続音声認識用の探索方法は、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適な音節列を求め、この最適な音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適な音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を出力するようにしたものである。
【００２６】
この発明に係る連続音声認識用の探索方法は、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なＮ個の音節からなる音節列を求め、この最適音節列を入力し、この最適なＮ個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、この単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフとを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し、単語列の侯補を出力するようにしたものである。
【００２７】
この発明に係る連続音声認識用の探索方法は、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なＮ個の音節からなる音節列を求め、この最適なＮ個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なＮ個の音節からなる音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を出力するようにしたものである。
【００３０】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１はこの発明の実施の形態１による連続音声認識用の探索装置を示す構成図であり、図において、１０１は入力音声、１０２は入力音声１０１を分析して特徴ベクトル時系列１０３に変換する音声分析手段、２は特徴ベクトル時系列１０３を入力し音節ネットワーク３に従った最適音節列４を得る最適解取得手段、５は最適音節列４を入力し差分モデル６と単語辞書７を参照し単語列侯補８を探索する単語列探索手段である。
【００３１】
図２はこの発明の実施の形態１による連続音声認識用の探索装置において、音節ネットワークを示す説明図、図３はこの発明の実施の形態１による連続音声認識用の探索装置において、基本ＨＭＭを示す説明図である。
音節ネットワーク３は音節（一般に単語あるいはサブワード）の接続をネットワーク表現したものであり、図２のように音節間を接続するためのノードと音節を表すアークから構成される。音節のアークは図３のような基本ＨＭＭの連鎖によって表される。音節内あるいは音節間の調音結合の影響を考慮するため、基本ＨＭＭとして音素環境依存の音素モデルを用いる。
【００３２】
図４はこの発明の実施の形態１による連続音声認識用の探索装置において、オートマトン制御を示すアルゴリズム、図５はこの発明の実施の形態１による連続音声認識用の探索装置において、単語辞書の例を示す説明図である。最適解取得手段２は、図４に示すオートマトン制御１パスＤＰアルゴリズムに基づいて特徴ベクトル時系列１０３に対応する最適な音節列を取得し、最適音節列４として出力する。単語列探索手段５は最適音節列４が入力されると単語列の侯補を単語辞書７を参照して探索する。単語辞書７は図５のように単語の表記と標準的な音節列の記述から構成される。
【００３３】
図６はこの発明の実施の形態１による連続音声認識用の探索装置において、差分モデルを示す構成図、図７はこの発明の実施の形態１による連続音声認識用の探索装置において、音節列間変換尤度テーブルの例を示す表図である。差分モデル６は図６のように音節列間変換尤度テーブル６０１から構成される。音節列間変換尤度テーブル６０１には、図７のように、標準音節列と対応する最適音節列、および、標準音節列が最適音節列に変換される尤度が記述されている。この尤度は、標準音節列が最適音節列に対応づけられる確率の対数値としてある。標準音節列及び最適音節列の長さは０以上の任意の値でよい。図では、標準音節列は長さ１、最適音節列は長さ１〜２の範囲にある。
【００３４】
図８はこの発明の実施の形態１による連続音声認識用の探索装置において、差分モデルの学習手段の例を示す構成図である。差分モデルは図８に示すような構成の学習手段で学習される。音声データベース１０から入力音声１０１を得て、音声分析手段１０２で特徴ベクトル時系列１０３に変換する。最適解取得手段２は特徴ベクトル時系列１０３に対して、音節ネットワーク３を参照し最適音節列４を出力する。最適音節列４は音声データベース１０から得られる正解単語列１１と正解音節列１２とともに、差分モデル学習手段９に入力される。差分モデル学習手段９は最適音節列４と正解音節列１２との間でＤＰマッチングを行い、両者の時間軸上の対応づけを求める。これを音声データベース１０のすべての音声について行うことで、最適音節列４の部分音節列１２が正解音節列の部分音節列と対応する尤度を求め、差分モデル６を出力する。
【００３５】
次に動作について説明する。
図９はこの発明の実施の形態１による連続音声認識用の探索装置において、単語列探索手段の動作手順を示すフローチャートである。探索はスタックデコーダに基づいて、図９に示すフローチャートに沿って行われる。このスタックデコーダでは、最適音節列４の始端から単語の検索を始めて、単語辞書７の単語を順次結合し、最適音節列４の始端から終端までをカバーする単語列の侯補を求める。ここでは、最適音節列４の始端から途中までをカバーする単語列侯補を仮説とする。一つの仮説は、属性として、単語列、終端時刻、評価値を有する。終端時刻はその仮説の単語列がカバーしている最適音節列４の長さであり、最適音節列４の全体の長さをＴとすると、終端時刻は０〜Ｔの範囲の整数値である。
【００３６】
例えば、最適音節列４が「おんせえにんしきそおち」であった場合、最適音節列４全体をカバーする仮説の単語列は「音声（おんせえ）認識（にんしき）装置（そおち）」であり、その終端時刻は１１である。また、仮説の単語列が「音声（おんせえ）認識（にんしき）」であった場合、この仮説の終端時刻は８である。
【００３７】
つぎに、本実施の形態１で用いたスタックデコーダの動作を説明する。
まず、空の単語列からなる仮説を作成し、スタックに格納し（ステップＳＴ１０１）、スタックが空か否かを判断し（ステップＳＴ１０２）、スタックが空となった時点で処理を終了する（ステップＳＴ１０３）。次に、ステップＳＴ１０２の判断でスタックが空でない場合には、スタックの中から評価値が最大の仮説Ｈ０を取り出し（ステップＳＴ１０４）、仮説Ｈ０の終端時刻をＴ０とする。次に、仮説Ｈ０の終端時刻Ｔ０が最適音節長Ｔと等しいか否かを判断し（ステップＳＴ１１１）、最適音節長Ｔと等しいならば、その仮説の単語列を単語列侯補８の一つとして出力した後（ステップＳＴ１１２）、ステップＳＴ１０４に戻る。一方、ステップＳＴ１１１で仮説Ｈ０の終端時刻Ｔ０が最適音節長Ｔと等しくない場合には、単語辞書７から単語を一つ取り出しその単語をｎとする（ステップＳＴ１０５）。以下ステップＳＴ１０６〜ＳＴ１１０までの処理を単語辞書の任意の単語ｎについて行う。
【００３８】
ステップＳＴ１０６では、Ｔ０＋１を始端時刻として終端Ｔまでの範囲を終端時刻Ｔ１（Ｔ１：Ｔ０＋１〜Ｔ）として最適音節列と単語ｎの標準音節列との照合を行う。この照合では部分最適音節列Ｗ１と単語ｎの標準音節列Ｗ２との間で、標準音節列と最適音節列とが対応する尤度から照合尤度を求める。
【００３９】
Ｗ１＝Ｘ（Ｔ０＋１）、Ｘ（Ｔ０＋２）〜Ｘ（Ｔ１）・・・（１）
Ｗ２＝Ｙ（１）、Ｙ（２）〜Ｙ（Ｊ（ｎ））・・・（２）
Ｔ１：Ｔ０〜Ｔの範囲の整数
Ｊ（ｎ）：単語ｎの標準音節列長
【００４０】
次に、最適音節列と単語ｎの標準音節列との照合は図１０のフローチャートに基づいて行う。図１０はこの発明の実施の形態１による連続音声認識用の探索装置において、最適音節列と単語ｎの標準音節列との照合手順を示すフローチャートである。まず、最適音節列および単語ｎの標準音節列を与え（ステップＳＴ２０１）、それぞれについて、標準音節列および最適音節列を状態と遷移からなるグラフＧ１およびＧ２に変換する（ステップＳＴ２０２，ＳＴ２０３）。次に、差分モデルの適用対象が最適音節列か標準音節列かを判断し（ステップＳＴ２０４）、差分モデルの適用対象を最適音節列とした場合、グラフＧ１に差分モデル６を適用し、変更後のグラフＧ１’を求める（ステップＳＴ２０５）。一方、ステップＳＴ２０４の判断の結果、差分モデルの適用対象を標準音節列とした場合、グラフＧ２に差分モデル６を適用し、変更後のグラフＧ２’を求める（ステップＳＴ２０７）。
【００４１】
ここで、図１１を用いてステップＳＴ２０２〜ＳＴ２０８の動作を具体例を示して説明する。
図１１はこの発明の実施の形態１による連続音声認識用の探索装置において、照合動作を示す説明図である。図１１では最適音節列が「おんせにんひそおち」であり、そのうち音節列「にんひ」の部分と標準音節列「にんしき」との間で照合するときを示す。このとき、ステップＳＴ２０２によって最適音節列のグラフはＧ１に、また、ステップＳＴ２０３によって標準音節列のグラフはＧ２となる。また、差分モデル６としての音節列間変換尤度テーブル６０１には、「しき／ひ［−２．３］」、「しき／しき［−０．１］」、「ひ／ひ［−０．１］」、その他の音節（Ｘとする）については、「Ｘ／Ｘ［０．０］」という記述があったとする。ステップＳＴ２０４で差分モデル６の適用対象を最適音節列とした場合、ステップＳＴ２０５でグラフＧ１は差分モデル６により、Ｇ１’「にん（ひ［−０．１］−しき［−２．３］）」と変形される。この結果、グラフＧ２の「にんしき」と最適音節列の照合が可能となり、単語列侯補として正解の単語「認識（にんしき）」を含む単語列を探索できるようになる。
【００４２】
また、ステップＳＴ２０４で差分モデル６の適用対象を標準音節列とした場合にも、ステップＳＴ２０７でグラフＧ２は差分モデルにより、Ｇ２’「にん（しき［−０．１］）−ひ［−２．３］」と変形される。この結果、グラフＧ２の「にんしき」と最適音節列の照合が可能となり、単語列侯補として正解の単語「認識（にんしき）」を含む単語列を探索できるようになる。ステップＳＴ２０６あるいはステップＳＴ２０８で変更後のグラフの間（Ｇ１’とＧ２あるいはＧ１とＧ２’）で、次の漸化式を計算することで照合尤度Ｄ（Ｗ１，Ｗ２）を求める。
【００４３】
Ｇ（ｊ，ｎ）＝０、（ｊ，ｎ）∈｛初期ノードの組｝・・・（３）
Ｇ（ｊ，ｎ）＝−∞、（ｊ，ｎ）∈｛初期ノードの組以外｝・・・（４）
Ｇ（ｊ，ｎ）＝ｍａｘＧ（ｉ，ｍ）＋ｇ（ｉ→ｊ）＋ｇ（ｍ→ｎ）＋
ｅ（ｉ→ｊ，ｍ→ｎ）、（ｉ，ｍ）∈｛ノード（ｊ，ｎ）に可能
な遷移｝・・・（５）
Ｄ（Ｗ１，Ｗ２）＝ｍａｘＧ（ｊ，ｎ）、（ｊ，ｎ）∈｛最終ノードの組｝・・・（６）
ここで、ｉ，ｊは最適音節列側のグラフの状態、
ｍ，ｎは標準音節列側のグラフの状態、
ｇ（ｉ→ｊ）及びｇ（ｍ→ｎ）はそれぞれ、状態遷移ｉ→ｊ及び状態
遷移ｍ→ｎの対数尤度、
ｅ（ｉ→ｊ，ｍ→ｎ）は状態遷移ｉ→ｊ及び状態遷移ｍ→ｎに関連づけられた最適音節列側の音節Ｘ（ｉ→ｊ）及び標準音節列側の音節Ｙ（ｍ→ｎ）の一致度を表し、ここでは、一致したとき０を、不一致の時−∞としている。
【００４４】
図９のフローチャートにおいて、照合尤度Ｄ（Ｗ１，Ｗ２）が閾値より高いか否かを判断し（ステップＳＴ１０７）、照合尤度Ｄ（Ｗ１，Ｗ２）が閾値より高くない場合は、ステップＳＴ１０８〜ステップＳＴ１１０の処理は行わない。一方、ステップＳＴ１０７の判断の結果、照合尤度Ｄ（Ｗ１，Ｗ２）が閾値より高い場合は、ステップＳＴ１０８〜ステップＳＴ１１０の処理を行う。ステップＳＴ１０８では仮説Ｈ０をコピーして仮説Ｈ１を作成し、仮説Ｈ１の終端時刻を更新してＴ１とし（ステップＳＴ１０９）、仮説Ｈ１の単語列に単語ｎを加えて単語列を１単語分成長させる。また、仮説Ｈ１の評価値を照合尤度Ｄ（Ｗ１、Ｗ２）分だけ増加する。次に、仮説Ｈ１をスタックに格納する（ステップＳＴ１１０）。
なお、仮説Ｈ１の評価値には、照合尤度と共に、単語列の言語モデルの尤度を計算して加える。この場合、言語モデルの尤度は、単語列に対するＮグラムモデルを用いて計算する。
【００４５】
以上のように、この実施の形態１によれば、探索の１段目の最適解取得手段で求めた最適解から差分モデルを適用して、探索の２段目で、１段目の最適解を入力し、差分モデルと単語を記述した単語辞書を参照し単語列の侯補を探索する単語列探索手段とを備えたため、１段目で最適解の脱落を防止できるとともに、２段目で、正解の脱落を少なくすることができるなどの効果が得られる。
【００４６】
実施の形態２．
図１２はこの発明の実施の形態２による連続音声認識用の探索装置において、単語辞書を示す説明図、図１３はこの発明の実施の形態２による連続音声認識用の探索装置において、差分モデルを示す構成図、図１４はこの発明の実施の形態２による連続音声認識用の探索装置において、単語音節長変換尤度テーブルの例を示す表図であり、図において、実施の形態１と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態２の単語辞書７は図１２のように単語ｎを構成する標準音節列の長さＪ（ｎ）を含んでいる。また、この実施の形態２の差分モデル６は図１３のように音節列間変換尤度テーブル６０１と単語音節長変換尤度テーブル６０２を備える。単語音節長変換尤度テーブル６０２は、図１４のような単語を構成する標準音節列の長さと最適音節列の長さに対応づけられる尤度が記述されている。
【００４７】
次に動作について説明する。
図９のステップＳＴ１０６の照合において、部分最適音節列Ｗ１と単語ｎの標準音節列Ｗ２との照合の尤度には、実施の形態１で説明した方法で求めた照合尤度Ｄ（Ｗ１、Ｗ２）に加えて、単語音節長の尤度を加える。この単語音節長の尤度は、現在照合中の最適の音節長（これは、Ｔ１−Ｔ０である）と単語ｎを構成する標準音節列の長さ（これはＪ（ｎ）であり、単語辞書７から得られる）とから、単語音節長変換尤度テーブル６０２を引いて尤度を求める。これにより、最適音節長が単語標準音節長と大きく異って照合する場合、尤度は小さくなり、図９のステップＳＴ１０７の照合尤度と閾値との判定処理により、ステップＳＴ１０８〜ＳＴ１１０の処理がされないことになる。
【００４８】
以上のように、この実施の形態２によれば、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量が減少するなどの効果が得られる。
【００４９】
実施の形態３．
図１５はこの発明の実施の形態３による連続音声認識用の探索装置を示す構成図であり、図において実施の形態１および実施の形態２と同一の符号については同一または相当部分を示すので説明を省略する。単語列探索手段５での認識処理に先だって、差分モデル適用単語辞書作成手段１４は、単語辞書７の標準音節列をグラフに変換して差分モデル適用単語辞書１３として記憶する。次に、単語列探索手段５の処理において、実施の形態１の図９のステップＳＴ１０６における仮説Ｈ０の終端時刻Ｔ０より後に単語ｎを追加するとき、照合尤度の計算は図１０のステップＳＴ２０３及びＳＴ２０７の標準音節列をグラフに変換する処理を省略できる。
【００５０】
以上のように、この実施の形態３によれば、単語標準音節列を予めグラフに変換した結果をすべての単語について記憶しておくので、メモリ量が増加するが、単語列探索手段５の処理において、動的な変換の演算を省略できるため、演算処理が高速化されるなどの効果が得られる。
【００５１】
実施の形態４．
図１６はこの発明の実施の形態４による連続音声認識用の探索装置を示す構成図であり、図において、実施の形態１から実施の形態３と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態４では、差分モデル適用音節グラフ作成手段１５を備え、最適音節列４に対して、差分モデル６を適用して差分モデル適用入力音節グラフ１６を作成するものである。単語列探索手段５は差分モデル適用入力音節グラフ１６を入力として単語辞書７を参照して、単語列侯補８を出力する。したがって、最適音節列に対して差分モデル６を適用するので、１つの最適音声について、１回だけ差分モデル６を適用するだけで済む。
【００５２】
以上のように、この実施の形態４によれば、実施の形態１のように、単語列探索の中で、単語ｎごとに最適音節列あるいは単語ｎの標準音節列に対して差分モデル６を適用する処理が必要がないため、演算処理を高速化することができるなどの効果が得られる。
【００５３】
実施の形態５．
図１７はこの発明の実施の形態５による連続音声認識用の探索装置を示す構成図であり、図において実施の形態１と同一の符号については同一または相当部分を示すので説明を省略する。実施の形態１では最適な音節列に差分モデル６を適用して、最適な音節列の変形で正解を求めるものであるが、可能性としては、正解を求めることができないケースがあった。しかし、この実施の形態５は、実施の形態１の最適解取得手段２の代りにＮベスト解取得手段２１を用いて、音節のＮベスト侯補を求めＮベスト音節グラフ２２を出力するものである。
【００５４】
以上のように、この実施の形態５によれば、最適音節のＮベスト侯補を求めて、これをＮベスト音節グラフ２２として、差分モデル６を用いた単語列侯補８の探索を行うので、正解が求められないケースが減少し、認識率を向上させることができるなどの効果が得られる。
【００５５】
実施の形態６．
図１８はこの発明の実施の形態６による連続音声認識用の探索装置を示す構成図であり、図において実施の形態１から実施の形態５と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態６では、実施の形態３の最適解取得手段２の代りにＮベスト侯補を含むＮベスト音節グラフ２２を出力するＮベスト解取得手段２１を設けたものである。実施の形態３では、単語辞書７の単語の標準音節列に差分モデル６を適用して予め作成した差分モデル適用単語辞書１３を用いて、最適な音節列から単語列侯補の探索を行うため、最適音節列は１種類であった。このため、可能性としては差分モデル適用単語辞書１３では、正解の単語列を探索できないことがあった。しかし、この実施の形態６によれば、最適音節のＮベスト侯補を求めて、これを曖昧性を許した最適音節グラフとして、差分モデル適用単語辞書１３を用いて単語列侯補の探索を行うものである。
【００５６】
以上のように、この実施の形態６によれば、正解の単語列が求められないケースを減少させ、認識率を向上させるという効果が得られるとともに、同じＮベスト解取得手段２１を用いる実施の形態５に比べて、辞書側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができるなどの効果が得られる。
【００５７】
実施の形態７．
図１９はこの発明の実施の形態７による連続音声認識用の探索装置を示す構成図であり、図において実施の形態１から実施の形態６と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態７は、実施の形態４の最適解取得手段２の代りにＮベスト解取得手段２１として、音節のＮベスト侯補を求めＮベスト音節グラフ２２を出力するものである。実施の形態４では最適解取得手段２で得られる１通りの最適音節列４に差分モデル６を適用して、差分モデル適用入力音節グラフ１６を作成し、これを最適として単語列侯補８の探索を行っていた。このため、可能性としては差分モデル６適用の単語辞書７では、正解の単語列を探索できないことがあった。しかし、実施の形態７においては、最適音節のＮベスト侯補を求め、これに基づいてＮベスト音節グラフ２２を作成し、さらに、差分モデル６を適用した上で単語列侯補８の探索を行うものである。
【００５８】
以上のように、この実施の形態７によれば、正解の単語列が求められないケースを減少させ、認識率を向上させるとともに、同じＮベスト解取得手段２１を用いる実施の形態６に比べて、最適側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができるなどの効果が得られる。
【００５９】
実施の形態８．
図２０はこの発明の実施の形態８による連続音声認識用の探索装置を示す構成図であり、図において実施の形態１から実施の形態７と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態８では、最適解取得手段２が、単語ネットワーク１７を用いて、最適単語列１８を求め、音節列変換手段１９によってこれを音節列に戻して、最適音節列４を求め、単語列探索手段５の入力とするものである。したがって、最適解取得手段２は参照するネットワークとして、音節の代りに音響的により長い単位である単語を用いるため、調音結合の影響を受けることが少ない最適単語列１８を求めることができる。
【００６０】
以上のように、この実施の形態８によれば、調音結合の影響を受けることが少ない最適単語列１８を最適音節列４に戻すため、正解を求める可能性が増大するなどの効果が得られる。
【００６１】
実施の形態９．
図２１はこの発明の実施の形態９による連続音声認識用の探索装置を示す構成図、図２２はこの発明の実施の形態９による連続音声認識用の探索装置において、差分モデルを示す構成図、図２３はこの発明の実施の形態９による連続音声認識用の探索装置において、単語列単語間変換テーブルを示す表図であり、図において、実施の形態１から実施の形態８と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態９では、最適解取得手段２が、単語ネットワーク１７を用いて、最適単語列１８を求め、これを単語列探索手段５の入力とするものであり、単語列探索手段５は差分モデル６と単語辞書７を参照して単語列侯補８を探索するものである。
【００６２】
この実施の形態９では、差分モデル６は図２２のように単語列単語間変換尤度テーブル６０３から構成され、図２３のように最適単語列１８の部分単語列の欄と対応する正解の単語の欄と尤度が記述されている。最適単語列１８の部分単語列が単語とともに与えられるとこのテーブルを検索することで尤度が得られる。
【００６３】
次に動作について説明する。
図２４はこの発明の実施の形態９による連続音声認識用の探索装置において、単語列探索手段の単語列探索手順を示すフローチャート、図２５はこの発明の実施の形態９による連続音声認識用の探索装置において、単語と最適単語列の部分単語列と照合手順を示すフローチャートである。単語列探索手段５における単語列探索は図２４のフローチャートに基づいて行われる。ステップＳＴ３０１では図２５のフローチャートに基づいて行われる。まず、最適単語列１８と単語ｎとが与えられて（ステップＳＴ４０１）、単語ｎと最適単語列１８の部分単語列と照合を行い、照合の尤度を求める。照合の尤度は、最適単語列１８の部分が単語ｎに対応する尤度を差分モデル６の単語列単語間変換尤度テーブル６０３を引いて求める（ステップＳＴ４０２）。
【００６４】
以上のように、この実施の形態９によれば、単語列探索手段５における単語ｎと最適単語列１８の部分単語列との照合がテーブル検索で実現されるため、単語列侯補８の探索が容易になるなどの効果が得られる。
【００６８】
【発明の効果】
この発明によれば、差分モデルにおいて、最適音節列の部分音節列と正解の音節列の部分音節列とこれらの対応する尤度を記述した音節列間変換尤度テーブルと、最適音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は音節列間変換尤度テーブルと単語音節長変換尤度テーブルとに記述された尤度に基づいて単語列侯補を探索するように構成したので、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量を減少させることができる効果がある。
【００６９】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を最適解取得手段により求め、最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、最適解取得手段が求めた最適音節列を入力し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し、単語列侯補を単語列探索手段から出力するように構成したので、メモリ量が増加するが、単語列探索手段の処理において、動的な変換の演算を省略できるため、演算処理を高速化することができる効果がある。
【００７０】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を最適解取得手段により求め、最適音節列を入力し、最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適音節列を変形してグラフを差分モデル適用音節グラフ作成手段により作成し、差分モデル適用音節グラフ作成手段が作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し、単語列の侯補を探索し、単語列の侯補を単語列探索手段から出力するように構成したので、演算処理を高速化することができる効果がある。
【００７２】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なＮ個の音節からなる音節列をＮベスト解取得手段により求め、Ｎベスト解取得手段が求めた最適なＮ個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、Ｎベスト解取得手段が求めた最適音節列を入力し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するように構成したので、正解の単語列が求められないケースを減少させ、認識率を向上させるという効果が得られるとともに、辞書側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができる効果がある。
【００７３】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なＮ個の音節からなる音節列をＮベスト解取得手段により求め、この最適な音節列を入力し、Ｎベスト解取得手段が求めた最適なＮ個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なＮ個の音節からなる音節列を変形してグラフを差分モデル適用音節グラフ作成手段により作成し、差分モデル適用音節グラフ作成手段が作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するように構成したので、正解の単語列が求められないケースを減少させ、認識率を向上させるとともに、最適側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができるなどの効果が得られる。
【００７４】
この発明によれば、差分モデルにおいて、最適な音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は、単語音節長変換尤度テーブルの尤度に基づいて単語列の侯補を探索するように構成したので、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量を減少させることができる効果がある。
【００７５】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御され最適な単語列を最適解取得手段により求め、最適解取得手段が求めた最適な単語列を音節列変換手段により音節列に変換し、音節列変換手段が求めた最適音節列を入力し、音節列変換手段が求めた音節列が正解の音節列に対応する尤度と、音節列の長さと単語辞書の音節列の長さの尤度とを記述した差分モデルと単語の標準的な音節列とその長さを記述した単語辞書とを参照し、単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するように構成したので、調音結合の影響を受けることが少ない最適単語列を最適音節列に戻すため、正解を求める可能性が増大することができる効果がある。また、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量を減少させることができる効果がある。
【００７６】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御され最適な単語列を最適解取得手段により求め、最適解取得手段が求めた最適単語列を入力し、最適解取得手段が求めた最適な単語列が正解の単語列に対応する尤度と、単語辞書の単語と対応する最適な単語列の長さとその尤度とを記述した差分モデルと、単語を記述した単語辞書とを参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するように構成したので、単語列侯補の探索を容易にすることができる効果がある。また、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量を減少させることができる効果がある。
【００８０】
この発明によれば、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適な音節列を求め、この最適な音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書とを参照し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し単語列の侯補を出力するように構成したので、メモリ量が増加するが、単語列探索手段の処理において、動的な変換の演算を省略できるため、演算処理を高速化することができる効果がある。
【００８１】
この発明によれば、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適な音節列を求め、この最適な音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適な音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を出力するように構成したので、演算処理を高速化することができる効果がある。
【００８３】
この発明によれば、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なＮ個の音節からなる音節列を求め、この最適音節列を入力し、この最適なＮ個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、この単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフとを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し、単語列の侯補を出力するように構成したので、正解の単語列が求められないケースを減少させ、認識率を向上させるという効果が得られるとともに、辞書側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができる効果がある。
【００８４】
この発明によれば、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なＮ個の音節からなる音節列を求め、この最適なＮ個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なＮ個の音節からなる音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を出力するように構成したので、正解の単語列が求められないケースを減少させ、認識率を向上させるとともに、最適側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができるなどの効果が得られる。
【図面の簡単な説明】
【図１】この発明の実施の形態１による連続音声認識用の探索装置を示す構成図である。
【図２】この発明の実施の形態１による連続音声認識用の探索装置において、音節ネットワークを示す説明図である。
【図３】この発明の実施の形態１による連続音声認識用の探索装置において、基本ＨＭＭを示す説明図である。
【図４】この発明の実施の形態１による連続音声認識用の探索装置において、オートマトン制御を示すアルゴリズムである。
【図５】この発明の実施の形態１による連続音声認識用の探索装置において、単語辞書の例を示す説明図である。
【図６】この発明の実施の形態１による連続音声認識用の探索装置において、差分モデルを示す構成図である。
【図７】この発明の実施の形態１による連続音声認識用の探索装置において、音節列間変換尤度テーブルの例を示す表図である。
【図８】この発明の実施の形態１による連続音声認識用の探索装置において、差分モデルの学習手段の例を示す構成図である。
【図９】この発明の実施の形態１による連続音声認識用の探索装置において、単語列探索手段の動作手順を示すフローチャートである。
【図１０】この発明の実施の形態１による連続音声認識用の探索装置において、最適音節列と単語ｎの標準音節列との照合手順を示すフローチャートである。
【図１１】この発明の実施の形態１による連続音声認識用の探索装置において、照合動作を示す説明図である。
【図１２】この発明の実施の形態２による連続音声認識用の探索装置において、単語辞書を示す説明図である。
【図１３】この発明の実施の形態２による連続音声認識用の探索装置において、差分モデルを示す構成図である。
【図１４】この発明の実施の形態２による連続音声認識用の探索装置において、単語音節長変換尤度テーブルの例を示す表図である。
【図１５】この発明の実施の形態３による連続音声認識用の探索装置を示す構成図である。
【図１６】この発明の実施の形態４による連続音声認識用の探索装置を示す構成図である。
【図１７】この発明の実施の形態５による連続音声認識用の探索装置を示す構成図である。
【図１８】この発明の実施の形態６による連続音声認識用の探索装置を示す構成図である。
【図１９】この発明の実施の形態７による連続音声認識用の探索装置を示す構成図である。
【図２０】この発明の実施の形態８による連続音声認識用の探索装置を示す構成図である。
【図２１】この発明の実施の形態９による連続音声認識用の探索装置を示す構成図である。
【図２２】この発明の実施の形態９による連続音声認識用の探索装置において、差分モデルを示す構成図である。
【図２３】この発明の実施の形態９による連続音声認識用の探索装置において、単語列単語間変換テーブルを示す表図である。
【図２４】この発明の実施の形態９による連続音声認識用の探索装置において、単語列探索手段の単語列探索手順を示すフローチャートである。
【図２５】この発明の実施の形態９による連続音声認識用の探索装置において、単語と最適単語列の部分単語列と照合手順を示すフローチャートである。
【符号の説明】
２最適解取得手段、４最適音節列、５単語列探索手段、６差分モデル、７単語辞書、８単語列侯補、１３差分モデル適用単語辞書、１５差分モデル適用音節グラフ作成手段、２１Ｎベスト解取得手段、１０１入力音声、１０２音声分析手段、６０１音節列間変換尤度テーブル、６０２単語音節長変換尤度テーブル。

Claims

入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を求める最適解取得手段と、
単語の標準的な音節列と当該音節列の長さを記述した単語辞書と、
上記最適音節列の部分音節列と正解の音節列の部分音節列とこれらの対応する尤度を記述した音節列間変換尤度テーブルと、最適音節列の長さと上記単語辞書の音節列長とこれらが対応する尤度を記述した単語音節長変換尤度テーブルとを有する差分モデルと、
上記最適解取得手段が求めた最適音節列を入力し、上記差分モデルに記述された尤度と上記単語辞書とを参照し、単語列の侯補を探索し、単語列の侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。
入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を求める最適解取得手段と、
上記最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルと、
単語の標準的な音節列を記述した単語辞書と、
上記単語辞書の各単語について、単語と差分モデルの記述に基づいて上記標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書と、
上記最適解取得手段が求めた最適音節列を入力し、上記差分モデル適用単語辞書を参照し、単語列の侯補を探索し、単語列の侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。
入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を求める最適解取得手段と、
上記最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルと、
上記最適音節列を入力し上記差分モデルの記述に基づいて上記最適音節列を変形してグラフを作成する差分モデル適用音節グラフ作成手段と、
単語の標準的な音節列を記述した単語辞書と、
上記差分モデル適用音節グラフ作成手段が作成したグラフを入力して、上記単語辞書を参照し、単語列侯補を探索し、単語列の侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。
入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適なＮ個の音節からなる音節列を求めるＮベスト解取得手段と、
上記Ｎベスト解取得手段が求めた最適なＮ個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと、
単語の標準的な音節列を記述した単語辞書と、
上記単語辞書の各単語について、単語と差分モデルの記述に基づいて上記標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書と、
上記Ｎベスト解取得手段が求めた最適音節列を入力し、上記差分モデル適用単語辞書を参照し、単語列侯補を探索し、単語列侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。
入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なＮ個の音節からなる音節列を求めるＮベスト解取得手段と、
上記Ｎベスト解取得手段が求めた最適なＮ個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと、
上記最適なＮ個の音節からなる音節列を入力し、上記差分モデルの記述に基づいて上記最適なＮ個の音節からなる音節列を変形してグラフを作成する差分モデル適用音節グラフ作成手段と、
単語の標準的な音節列を記述した単語辞書と、
上記差分モデル適用音節グラフ作成手段が作成したグラフを入力して、上記単語辞書を参照し、単語列侯補を探索し、単語列侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。
差分モデルとして、最適音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は、上記単語音節長変換尤度テーブルの尤度に基づいて単語列侯補を探索することを特徴とする請求項２から請求項５のうちのいずれか１項記載の連続音声認識用の探索装置。
入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御された最適単語列を求める最適解取得手段と、
上記最適解取得手段が求めた最適単語列を音節列に変換する音節列変換手段と、
単語の標準的な音節列と当該音節列の長さを記述した単語辞書と、
上記音節列変換手段が求めた音節列が正解の音節列に対応する尤度と、上記音節列変換手段が求めた音節列の長さと上記単語辞書の音節列の長さとこれらが対応する尤度とを記述した差分モデルと、
上記音節列変換手段が求めた音節列を入力し、上記差分モデルに記述された尤度と上記単語辞書とを参照し、単語列侯補を探索し、単語列侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。
入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御された最適単語列を求める最適解取得手段と、
単語を記述した単語辞書と、
上記最適解取得手段が求めた最適単語列が正解の単語列に対応する尤度と、上記単語辞書の単語と対応する最適な単語列の長さとその尤度とを記述した差分モデルと、
上記最適解取得手段が求めた最適単語列を入力し、上記差分モデルに記述された尤度と上記単語辞書とを参照し、単語列の侯補を探索し、単語列の侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。
入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を求め、この最適音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書とを参照し、上記単語辞書の各単語について、単語と上記差分モデルの記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し、単語列侯補を探索し、単語列侯補を出力することを特徴とする連続音声認識用の探索方法。
入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を求め、この最適音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて、上記最適音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し、単語列侯補を探索し、単語列侯補を出力することを特徴とする連続音声認識用の探索方法。
入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なＮ個の音節からなる音節列を求め、この最適音節列を入力し、この最適なＮ個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、この単語辞書の各単語について、単語と上記差分モデルの記述に基づいて上記単語辞書の標準的な音節列を変形した音節グラフとを記述した差分モデル適用単語辞書を参照し、単語列侯補を探索し、単語列侯補を出力することを特徴とする連続音声認識用の探索方法。
入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なＮ個の音節からなる音節列を求め、この最適なＮ個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なＮ個の音節からなる音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し、単語列侯補を探索し、単語列侯補を出力することを特徴とする連続音声認識用の探索方法。