JP3583299B2 - 連続音声認識用の探索装置および連続音声認識用の探索方法 - Google Patents
連続音声認識用の探索装置および連続音声認識用の探索方法 Download PDFInfo
- Publication number
- JP3583299B2 JP3583299B2 JP26859098A JP26859098A JP3583299B2 JP 3583299 B2 JP3583299 B2 JP 3583299B2 JP 26859098 A JP26859098 A JP 26859098A JP 26859098 A JP26859098 A JP 26859098A JP 3583299 B2 JP3583299 B2 JP 3583299B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- syllable
- string
- optimal
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
この発明は、大語彙からなる連続音声を認識して正解の単語列侯補を求めることができる連続音声認識用の探索装置および探索方法に関するものである。
【0002】
【従来の技術】
大語彙からなる連続音声を認識して単語列の侯補を求める連続音声認識において、単語列の侯補を求める探索方法として、1段で探索する方法、および、多段で探索する方法があり、1段で探索する方法としてはビーム探索法がある。また、多段で探索する方法としては、1段目で単語グラフを作成し、2段目で単語グラフの中で単語列侯補を求める方法がある。
【0003】
ビーム探索法は、単語列侯補の部分列を表す仮説として空の単語列の仮説から出発して、入力フレームと同期して、仮説の展開処理を行い単語列を成長させる方法であり、このビーム探索法では、入力フレームの進行と共に、可能な単語の組合わせが増え、単語列の侯補数が増大するので、音響モデルの尤度と言語モデルの尤度を用いて尤度の低い仮説について枝刈処理が行われる。枝刈処理により、仮説を一定数に押さえて、正解の単語列が単語列侯補の中から脱落しないようにして探索を進める。なお、尤度とは、標準音節列が最適音節列に対応づけられる確率の対数値である。
【0004】
一方、単語グラフを用いる方法は、2段階で探索を進めるものである。まず、1段目の探索で単語の候補を残すが、例えば、直前の1単語から派生する単語の侯補のみを残すことで行う。次の2段目の探索では、1段目で作成された単語の侯補を組合わせて、単語列の侯補を作成する。この際、音響モデルの尤度と言語モデルの尤度を加えて、尤度の大きい単語列侯補を探索する。2段目の探索では、スタックデコーダを用いた探索が用いられる。
【0005】
また、多段階で探索する探索方法としては、1段目で最適解を求め、1段目の最適解の変形により2段目の探索を行うものがあり、特開平5−181498号公報に開示されている。この発明では、1段目で、荒い精度で動的計画法(以下、DP:Dynamic Programming法という)を用いて最適単語を高速に求め、2段目で1段目で選択された複数の侯補パターンデータの中からDP法で認識結果を求めるものである。この方法では、最適単語列は必ずしも正解単語列と一致しないが、正解単語列とかなり類似している。しかし、1段目で正解単語列のパターンデータが見いだされなければ、2段目でも、正解単語列を求めることはできない。
【0006】
【発明が解決しようとする課題】
従来の連続音声認識用の探索装置および連続音声認識用の探索方法は以上のように構成されているので、1段目の探索で単語侯補の中に正解が残らない場合、2段目で正解を求めることができないなどの課題があった。
また、1段目で正解を残そうとすると、単語侯補の数が増大し、2段目の処理で考慮すべき単語の組み合わせが増大し探索空間が増大するなどの課題があった。
さらに、音響的に類似した単語列侯補が探索されるため認識精度が低下するなどの課題があった。
【0007】
この発明は上記のような課題を解決するためになされたもので、1段目の探索では最適な単語列が脱落することを防止し、2段目の探索では探索空間を増大させずに単語列の侯補を探索することができる連続音声認識用の探索装置および連続音声認識用の探索方法を得ることを目的とする。
【0011】
【課題を解決するための手段】
この発明に係る連続音声認識用の探索装置は、差分モデルにおいて、最適な音節列の部分音節列と正解の音節列の部分音節列とこれらの対応する尤度を記述した音節列間変換尤度テーブルと、最適な音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は音節列間変換尤度テーブルと単語音節長変換尤度テーブルとに記述された尤度に基づいて単語列の侯補を探索するようにしたものである。
【0012】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適な音節列を最適解取得手段により求め、最適解取得手段が求めた最適な音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、最適解取得手段が求めた最適音節列を入力し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【0013】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適音節列を最適解取得手段により求め、最適音節列を入力し、最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適音節列を変形してグラフを差分モデル適用音節グラフ作成手段により作成し、差分モデル適用音節グラフ作成手段が作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【0015】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列をNベスト解取得手段により求め、Nベスト解取得手段が求めた最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、Nベスト解取得手段が求めた最適音節列を入力し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【0016】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列をNベスト解取得手段により求め、この最適な音節列を入力し、Nベスト解取得手段が求めた最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なN個の音節からなる音節列を変形してグラフを差分モデル適用音節グラフ作成手段により作成し、差分モデル適用音節グラフ作成手段が作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【0017】
この発明に係る連続音声認識用の探索装置は、差分モデルにおいて、最適な音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は、単語音節長変換尤度テーブルの尤度に基づいて単語列の侯補を探索するようにしたものである。
【0018】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御され最適な単語列を最適解取得手段により求め、最適解取得手段が求めた最適な単語列を音節列変換手段により音節列に変換し、音節列変換手段が求めた最適音節列を入力し、音節列変換手段が求めた音節列が正解の音節列に対応する尤度と、音節列の長さと単語辞書の音節列の長さの尤度とを記述した差分モデルと単語の標準的な音節列とその長さを記述した単語辞書とを参照し、単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【0019】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御され最適な単語列を最適解取得手段により求め、最適解取得手段が求めた最適単語列を入力し、最適解取得手段が求めた最適な単語列が正解の単語列に対応する尤度と、単語辞書の単語と対応する最適な単語列の長さとその尤度とを記述した差分モデルと、単語を記述した単語辞書とを参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【0023】
この発明に係る連続音声認識用の探索方法は、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適な音節列を求め、この最適な音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書とを参照し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し単語列の侯補を出力するようにしたものである。
【0024】
この発明に係る連続音声認識用の探索方法は、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適な音節列を求め、この最適な音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適な音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を出力するようにしたものである。
【0026】
この発明に係る連続音声認識用の探索方法は、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列を求め、この最適音節列を入力し、この最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、この単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフとを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し、単語列の侯補を出力するようにしたものである。
【0027】
この発明に係る連続音声認識用の探索方法は、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列を求め、この最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なN個の音節からなる音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を出力するようにしたものである。
【0030】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による連続音声認識用の探索装置を示す構成図であり、図において、101は入力音声、102は入力音声101を分析して特徴ベクトル時系列103に変換する音声分析手段、2は特徴ベクトル時系列103を入力し音節ネットワーク3に従った最適音節列4を得る最適解取得手段、5は最適音節列4を入力し差分モデル6と単語辞書7を参照し単語列侯補8を探索する単語列探索手段である。
【0031】
図2はこの発明の実施の形態1による連続音声認識用の探索装置において、音節ネットワークを示す説明図、図3はこの発明の実施の形態1による連続音声認識用の探索装置において、基本HMMを示す説明図である。
音節ネットワーク3は音節(一般に単語あるいはサブワード)の接続をネットワーク表現したものであり、図2のように音節間を接続するためのノードと音節を表すアークから構成される。音節のアークは図3のような基本HMMの連鎖によって表される。音節内あるいは音節間の調音結合の影響を考慮するため、基本HMMとして音素環境依存の音素モデルを用いる。
【0032】
図4はこの発明の実施の形態1による連続音声認識用の探索装置において、オートマトン制御を示すアルゴリズム、図5はこの発明の実施の形態1による連続音声認識用の探索装置において、単語辞書の例を示す説明図である。最適解取得手段2は、図4に示すオートマトン制御1パスDPアルゴリズムに基づいて特徴ベクトル時系列103に対応する最適な音節列を取得し、最適音節列4として出力する。単語列探索手段5は最適音節列4が入力されると単語列の侯補を単語辞書7を参照して探索する。単語辞書7は図5のように単語の表記と標準的な音節列の記述から構成される。
【0033】
図6はこの発明の実施の形態1による連続音声認識用の探索装置において、差分モデルを示す構成図、図7はこの発明の実施の形態1による連続音声認識用の探索装置において、音節列間変換尤度テーブルの例を示す表図である。差分モデル6は図6のように音節列間変換尤度テーブル601から構成される。音節列間変換尤度テーブル601には、図7のように、標準音節列と対応する最適音節列、および、標準音節列が最適音節列に変換される尤度が記述されている。この尤度は、標準音節列が最適音節列に対応づけられる確率の対数値としてある。標準音節列及び最適音節列の長さは0以上の任意の値でよい。図では、標準音節列は長さ1、最適音節列は長さ1〜2の範囲にある。
【0034】
図8はこの発明の実施の形態1による連続音声認識用の探索装置において、差分モデルの学習手段の例を示す構成図である。差分モデルは図8に示すような構成の学習手段で学習される。音声データベース10から入力音声101を得て、音声分析手段102で特徴ベクトル時系列103に変換する。最適解取得手段2は特徴ベクトル時系列103に対して、音節ネットワーク3を参照し最適音節列4を出力する。最適音節列4は音声データベース10から得られる正解単語列11と正解音節列12とともに、差分モデル学習手段9に入力される。差分モデル学習手段9は最適音節列4と正解音節列12との間でDPマッチングを行い、両者の時間軸上の対応づけを求める。これを音声データベース10のすべての音声について行うことで、最適音節列4の部分音節列12が正解音節列の部分音節列と対応する尤度を求め、差分モデル6を出力する。
【0035】
次に動作について説明する。
図9はこの発明の実施の形態1による連続音声認識用の探索装置において、単語列探索手段の動作手順を示すフローチャートである。探索はスタックデコーダに基づいて、図9に示すフローチャートに沿って行われる。このスタックデコーダでは、最適音節列4の始端から単語の検索を始めて、単語辞書7の単語を順次結合し、最適音節列4の始端から終端までをカバーする単語列の侯補を求める。ここでは、最適音節列4の始端から途中までをカバーする単語列侯補を仮説とする。一つの仮説は、属性として、単語列、終端時刻、評価値を有する。終端時刻はその仮説の単語列がカバーしている最適音節列4の長さであり、最適音節列4の全体の長さをTとすると、終端時刻は0〜Tの範囲の整数値である。
【0036】
例えば、最適音節列4が「おんせえにんしきそおち」であった場合、最適音節列4全体をカバーする仮説の単語列は「音声(おんせえ)認識(にんしき)装置(そおち)」であり、その終端時刻は11である。また、仮説の単語列が「音声(おんせえ)認識(にんしき)」であった場合、この仮説の終端時刻は8である。
【0037】
つぎに、本実施の形態1で用いたスタックデコーダの動作を説明する。
まず、空の単語列からなる仮説を作成し、スタックに格納し(ステップST101)、スタックが空か否かを判断し(ステップST102)、スタックが空となった時点で処理を終了する(ステップST103)。次に、ステップST102の判断でスタックが空でない場合には、スタックの中から評価値が最大の仮説H0を取り出し(ステップST104)、仮説H0の終端時刻をT0とする。次に、仮説H0の終端時刻T0が最適音節長Tと等しいか否かを判断し(ステップST111)、最適音節長Tと等しいならば、その仮説の単語列を単語列侯補8の一つとして出力した後(ステップST112)、ステップST104に戻る。一方、ステップST111で仮説H0の終端時刻T0が最適音節長Tと等しくない場合には、単語辞書7から単語を一つ取り出しその単語をnとする(ステップST105)。以下ステップST106〜ST110までの処理を単語辞書の任意の単語nについて行う。
【0038】
ステップST106では、T0+1を始端時刻として終端Tまでの範囲を終端時刻T1(T1:T0+1〜T)として最適音節列と単語nの標準音節列との照合を行う。この照合では部分最適音節列W1と単語nの標準音節列W2との間で、標準音節列と最適音節列とが対応する尤度から照合尤度を求める。
【0039】
W1=X(T0+1)、X(T0+2)〜X(T1) ・・・(1)
W2=Y(1)、Y(2)〜Y(J(n)) ・・・(2)
T1:T0〜Tの範囲の整数
J(n):単語nの標準音節列長
【0040】
次に、最適音節列と単語nの標準音節列との照合は図10のフローチャートに基づいて行う。図10はこの発明の実施の形態1による連続音声認識用の探索装置において、最適音節列と単語nの標準音節列との照合手順を示すフローチャートである。まず、最適音節列および単語nの標準音節列を与え(ステップST201)、それぞれについて、標準音節列および最適音節列を状態と遷移からなるグラフG1およびG2に変換する(ステップST202,ST203)。次に、差分モデルの適用対象が最適音節列か標準音節列かを判断し(ステップST204)、差分モデルの適用対象を最適音節列とした場合、グラフG1に差分モデル6を適用し、変更後のグラフG1’を求める(ステップST205)。一方、ステップST204の判断の結果、差分モデルの適用対象を標準音節列とした場合、グラフG2に差分モデル6を適用し、変更後のグラフG2’を求める(ステップST207)。
【0041】
ここで、図11を用いてステップST202〜ST208の動作を具体例を示して説明する。
図11はこの発明の実施の形態1による連続音声認識用の探索装置において、照合動作を示す説明図である。図11では最適音節列が「おんせにんひそおち」であり、そのうち音節列「にんひ」の部分と標準音節列「にんしき」との間で照合するときを示す。このとき、ステップST202によって最適音節列のグラフはG1に、また、ステップST203によって標準音節列のグラフはG2となる。また、差分モデル6としての音節列間変換尤度テーブル601には、「しき/ひ[−2.3]」、「しき/しき[−0.1]」、「ひ/ひ[−0.1]」、その他の音節(Xとする)については、「X/X[0.0]」という記述があったとする。ステップST204で差分モデル6の適用対象を最適音節列とした場合、ステップST205でグラフG1は差分モデル6により、G1’「にん(ひ[−0.1]−しき[−2.3])」と変形される。この結果、グラフG2の「にんしき」と最適音節列の照合が可能となり、単語列侯補として正解の単語「認識(にんしき)」を含む単語列を探索できるようになる。
【0042】
また、ステップST204で差分モデル6の適用対象を標準音節列とした場合にも、ステップST207でグラフG2は差分モデルにより、G2’「にん(しき[−0.1])−ひ[−2.3]」と変形される。この結果、グラフG2の「にんしき」と最適音節列の照合が可能となり、単語列侯補として正解の単語「認識(にんしき)」を含む単語列を探索できるようになる。ステップST206あるいはステップST208で変更後のグラフの間(G1’とG2あるいはG1とG2’)で、次の漸化式を計算することで照合尤度D(W1,W2)を求める。
【0043】
G(j,n)=0、(j,n)∈{初期ノードの組} ・・・(3)
G(j,n)=−∞、(j,n)∈{初期ノードの組以外} ・・・(4)
G(j,n)=max G(i,m)+g(i→j)+g(m→n)+
e(i→j,m→n)、(i,m)∈{ノード(j,n)に可能
な遷移} ・・・(5)
D(W1,W2)=max G(j,n)、(j,n)∈{最終ノードの組}・・・(6)
ここで、i,jは最適音節列側のグラフの状態、
m,nは標準音節列側のグラフの状態、
g(i→j)及びg(m→n)はそれぞれ、状態遷移i→j及び状態
遷移m→nの対数尤度、
e(i→j,m→n)は状態遷移i→j及び状態遷移m→nに関連づけられた最適音節列側の音節X(i→j)及び標準音節列側の音節Y(m→n)の一致度を表し、ここでは、一致したとき0を、不一致の時−∞としている。
【0044】
図9のフローチャートにおいて、照合尤度D(W1,W2)が閾値より高いか否かを判断し(ステップST107)、照合尤度D(W1,W2)が閾値より高くない場合は、ステップST108〜ステップST110の処理は行わない。一方、ステップST107の判断の結果、照合尤度D(W1,W2)が閾値より高い場合は、ステップST108〜ステップST110の処理を行う。ステップST108では仮説H0をコピーして仮説H1を作成し、仮説H1の終端時刻を更新してT1とし(ステップST109)、仮説H1の単語列に単語nを加えて単語列を1単語分成長させる。また、仮説H1の評価値を照合尤度D(W1、W2)分だけ増加する。次に、仮説H1をスタックに格納する(ステップST110)。
なお、仮説H1の評価値には、照合尤度と共に、単語列の言語モデルの尤度を計算して加える。この場合、言語モデルの尤度は、単語列に対するNグラムモデルを用いて計算する。
【0045】
以上のように、この実施の形態1によれば、探索の1段目の最適解取得手段で求めた最適解から差分モデルを適用して、探索の2段目で、1段目の最適解を入力し、差分モデルと単語を記述した単語辞書を参照し単語列の侯補を探索する単語列探索手段とを備えたため、1段目で最適解の脱落を防止できるとともに、2段目で、正解の脱落を少なくすることができるなどの効果が得られる。
【0046】
実施の形態2.
図12はこの発明の実施の形態2による連続音声認識用の探索装置において、単語辞書を示す説明図、図13はこの発明の実施の形態2による連続音声認識用の探索装置において、差分モデルを示す構成図、図14はこの発明の実施の形態2による連続音声認識用の探索装置において、単語音節長変換尤度テーブルの例を示す表図であり、図において、実施の形態1と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態2の単語辞書7は図12のように単語nを構成する標準音節列の長さJ(n)を含んでいる。また、この実施の形態2の差分モデル6は図13のように音節列間変換尤度テーブル601と単語音節長変換尤度テーブル602を備える。単語音節長変換尤度テーブル602は、図14のような単語を構成する標準音節列の長さと最適音節列の長さに対応づけられる尤度が記述されている。
【0047】
次に動作について説明する。
図9のステップST106の照合において、部分最適音節列W1と単語nの標準音節列W2との照合の尤度には、実施の形態1で説明した方法で求めた照合尤度D(W1、W2)に加えて、単語音節長の尤度を加える。この単語音節長の尤度は、現在照合中の最適の音節長(これは、T1−T0である)と単語nを構成する標準音節列の長さ(これはJ(n)であり、単語辞書7から得られる)とから、単語音節長変換尤度テーブル602を引いて尤度を求める。これにより、最適音節長が単語標準音節長と大きく異って照合する場合、尤度は小さくなり、図9のステップST107の照合尤度と閾値との判定処理により、ステップST108〜ST110の処理がされないことになる。
【0048】
以上のように、この実施の形態2によれば、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量が減少するなどの効果が得られる。
【0049】
実施の形態3.
図15はこの発明の実施の形態3による連続音声認識用の探索装置を示す構成図であり、図において実施の形態1および実施の形態2と同一の符号については同一または相当部分を示すので説明を省略する。単語列探索手段5での認識処理に先だって、差分モデル適用単語辞書作成手段14は、単語辞書7の標準音節列をグラフに変換して差分モデル適用単語辞書13として記憶する。次に、単語列探索手段5の処理において、実施の形態1の図9のステップST106における仮説H0の終端時刻T0より後に単語nを追加するとき、照合尤度の計算は図10のステップST203及びST207の標準音節列をグラフに変換する処理を省略できる。
【0050】
以上のように、この実施の形態3によれば、単語標準音節列を予めグラフに変換した結果をすべての単語について記憶しておくので、メモリ量が増加するが、単語列探索手段5の処理において、動的な変換の演算を省略できるため、演算処理が高速化されるなどの効果が得られる。
【0051】
実施の形態4.
図16はこの発明の実施の形態4による連続音声認識用の探索装置を示す構成図であり、図において、実施の形態1から実施の形態3と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態4では、差分モデル適用音節グラフ作成手段15を備え、最適音節列4に対して、差分モデル6を適用して差分モデル適用入力音節グラフ16を作成するものである。単語列探索手段5は差分モデル適用入力音節グラフ16を入力として単語辞書7を参照して、単語列侯補8を出力する。したがって、最適音節列に対して差分モデル6を適用するので、1つの最適音声について、1回だけ差分モデル6を適用するだけで済む。
【0052】
以上のように、この実施の形態4によれば、実施の形態1のように、単語列探索の中で、単語nごとに最適音節列あるいは単語nの標準音節列に対して差分モデル6を適用する処理が必要がないため、演算処理を高速化することができるなどの効果が得られる。
【0053】
実施の形態5.
図17はこの発明の実施の形態5による連続音声認識用の探索装置を示す構成図であり、図において実施の形態1と同一の符号については同一または相当部分を示すので説明を省略する。実施の形態1では最適な音節列に差分モデル6を適用して、最適な音節列の変形で正解を求めるものであるが、可能性としては、正解を求めることができないケースがあった。しかし、この実施の形態5は、実施の形態1の最適解取得手段2の代りにNベスト解取得手段21を用いて、音節のNベスト侯補を求めNベスト音節グラフ22を出力するものである。
【0054】
以上のように、この実施の形態5によれば、最適音節のNベスト侯補を求めて、これをNベスト音節グラフ22として、差分モデル6を用いた単語列侯補8の探索を行うので、正解が求められないケースが減少し、認識率を向上させることができるなどの効果が得られる。
【0055】
実施の形態6.
図18はこの発明の実施の形態6による連続音声認識用の探索装置を示す構成図であり、図において実施の形態1から実施の形態5と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態6では、実施の形態3の最適解取得手段2の代りにNベスト侯補を含むNベスト音節グラフ22を出力するNベスト解取得手段21を設けたものである。実施の形態3では、単語辞書7の単語の標準音節列に差分モデル6を適用して予め作成した差分モデル適用単語辞書13を用いて、最適な音節列から単語列侯補の探索を行うため、最適音節列は1種類であった。このため、可能性としては差分モデル適用単語辞書13では、正解の単語列を探索できないことがあった。しかし、この実施の形態6によれば、最適音節のNベスト侯補を求めて、これを曖昧性を許した最適音節グラフとして、差分モデル適用単語辞書13を用いて単語列侯補の探索を行うものである。
【0056】
以上のように、この実施の形態6によれば、正解の単語列が求められないケースを減少させ、認識率を向上させるという効果が得られるとともに、同じNベスト解取得手段21を用いる実施の形態5に比べて、辞書側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができるなどの効果が得られる。
【0057】
実施の形態7.
図19はこの発明の実施の形態7による連続音声認識用の探索装置を示す構成図であり、図において実施の形態1から実施の形態6と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態7は、実施の形態4の最適解取得手段2の代りにNベスト解取得手段21として、音節のNベスト侯補を求めNベスト音節グラフ22を出力するものである。実施の形態4では最適解取得手段2で得られる1通りの最適音節列4に差分モデル6を適用して、差分モデル適用入力音節グラフ16を作成し、これを最適として単語列侯補8の探索を行っていた。このため、可能性としては差分モデル6適用の単語辞書7では、正解の単語列を探索できないことがあった。しかし、実施の形態7においては、最適音節のNベスト侯補を求め、これに基づいてNベスト音節グラフ22を作成し、さらに、差分モデル6を適用した上で単語列侯補8の探索を行うものである。
【0058】
以上のように、この実施の形態7によれば、正解の単語列が求められないケースを減少させ、認識率を向上させるとともに、同じNベスト解取得手段21を用いる実施の形態6に比べて、最適側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができるなどの効果が得られる。
【0059】
実施の形態8.
図20はこの発明の実施の形態8による連続音声認識用の探索装置を示す構成図であり、図において実施の形態1から実施の形態7と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態8では、最適解取得手段2が、単語ネットワーク17を用いて、最適単語列18を求め、音節列変換手段19によってこれを音節列に戻して、最適音節列4を求め、単語列探索手段5の入力とするものである。したがって、最適解取得手段2は参照するネットワークとして、音節の代りに音響的により長い単位である単語を用いるため、調音結合の影響を受けることが少ない最適単語列18を求めることができる。
【0060】
以上のように、この実施の形態8によれば、調音結合の影響を受けることが少ない最適単語列18を最適音節列4に戻すため、正解を求める可能性が増大するなどの効果が得られる。
【0061】
実施の形態9.
図21はこの発明の実施の形態9による連続音声認識用の探索装置を示す構成図、図22はこの発明の実施の形態9による連続音声認識用の探索装置において、差分モデルを示す構成図、図23はこの発明の実施の形態9による連続音声認識用の探索装置において、単語列単語間変換テーブルを示す表図であり、図において、実施の形態1から実施の形態8と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態9では、最適解取得手段2が、単語ネットワーク17を用いて、最適単語列18を求め、これを単語列探索手段5の入力とするものであり、単語列探索手段5は差分モデル6と単語辞書7を参照して単語列侯補8を探索するものである。
【0062】
この実施の形態9では、差分モデル6は図22のように単語列単語間変換尤度テーブル603から構成され、図23のように最適単語列18の部分単語列の欄と対応する正解の単語の欄と尤度が記述されている。最適単語列18の部分単語列が単語とともに与えられるとこのテーブルを検索することで尤度が得られる。
【0063】
次に動作について説明する。
図24はこの発明の実施の形態9による連続音声認識用の探索装置において、単語列探索手段の単語列探索手順を示すフローチャート、図25はこの発明の実施の形態9による連続音声認識用の探索装置において、単語と最適単語列の部分単語列と照合手順を示すフローチャートである。単語列探索手段5における単語列探索は図24のフローチャートに基づいて行われる。ステップST301では図25のフローチャートに基づいて行われる。まず、最適単語列18と単語nとが与えられて(ステップST401)、単語nと最適単語列18の部分単語列と照合を行い、照合の尤度を求める。照合の尤度は、最適単語列18の部分が単語nに対応する尤度を差分モデル6の単語列単語間変換尤度テーブル603を引いて求める(ステップST402)。
【0064】
以上のように、この実施の形態9によれば、単語列探索手段5における単語nと最適単語列18の部分単語列との照合がテーブル検索で実現されるため、単語列侯補8の探索が容易になるなどの効果が得られる。
【0068】
【発明の効果】
この発明によれば、差分モデルにおいて、最適音節列の部分音節列と正解の音節列の部分音節列とこれらの対応する尤度を記述した音節列間変換尤度テーブルと、最適音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は音節列間変換尤度テーブルと単語音節長変換尤度テーブルとに記述された尤度に基づいて単語列侯補を探索するように構成したので、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量を減少させることができる効果がある。
【0069】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を最適解取得手段により求め、最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、最適解取得手段が求めた最適音節列を入力し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し、単語列侯補を単語列探索手段から出力するように構成したので、メモリ量が増加するが、単語列探索手段の処理において、動的な変換の演算を省略できるため、演算処理を高速化することができる効果がある。
【0070】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を最適解取得手段により求め、最適音節列を入力し、最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適音節列を変形してグラフを差分モデル適用音節グラフ作成手段により作成し、差分モデル適用音節グラフ作成手段が作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し、単語列の侯補を探索し、単語列の侯補を単語列探索手段から出力するように構成したので、演算処理を高速化することができる効果がある。
【0072】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列をNベスト解取得手段により求め、Nベスト解取得手段が求めた最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、Nベスト解取得手段が求めた最適音節列を入力し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するように構成したので、正解の単語列が求められないケースを減少させ、認識率を向上させるという効果が得られるとともに、辞書側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができる効果がある。
【0073】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列をNベスト解取得手段により求め、この最適な音節列を入力し、Nベスト解取得手段が求めた最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なN個の音節からなる音節列を変形してグラフを差分モデル適用音節グラフ作成手段により作成し、差分モデル適用音節グラフ作成手段が作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するように構成したので、正解の単語列が求められないケースを減少させ、認識率を向上させるとともに、最適側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができるなどの効果が得られる。
【0074】
この発明によれば、差分モデルにおいて、最適な音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は、単語音節長変換尤度テーブルの尤度に基づいて単語列の侯補を探索するように構成したので、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量を減少させることができる効果がある。
【0075】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御され最適な単語列を最適解取得手段により求め、最適解取得手段が求めた最適な単語列を音節列変換手段により音節列に変換し、音節列変換手段が求めた最適音節列を入力し、音節列変換手段が求めた音節列が正解の音節列に対応する尤度と、音節列の長さと単語辞書の音節列の長さの尤度とを記述した差分モデルと単語の標準的な音節列とその長さを記述した単語辞書とを参照し、単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するように構成したので、調音結合の影響を受けることが少ない最適単語列を最適音節列に戻すため、正解を求める可能性が増大することができる効果がある。また、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量を減少させることができる効果がある。
【0076】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御され最適な単語列を最適解取得手段により求め、最適解取得手段が求めた最適単語列を入力し、最適解取得手段が求めた最適な単語列が正解の単語列に対応する尤度と、単語辞書の単語と対応する最適な単語列の長さとその尤度とを記述した差分モデルと、単語を記述した単語辞書とを参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するように構成したので、単語列侯補の探索を容易にすることができる効果がある。また、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量を減少させることができる効果がある。
【0080】
この発明によれば、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適な音節列を求め、この最適な音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書とを参照し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し単語列の侯補を出力するように構成したので、メモリ量が増加するが、単語列探索手段の処理において、動的な変換の演算を省略できるため、演算処理を高速化することができる効果がある。
【0081】
この発明によれば、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適な音節列を求め、この最適な音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適な音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を出力するように構成したので、演算処理を高速化することができる効果がある。
【0083】
この発明によれば、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列を求め、この最適音節列を入力し、この最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、この単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフとを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し、単語列の侯補を出力するように構成したので、正解の単語列が求められないケースを減少させ、認識率を向上させるという効果が得られるとともに、辞書側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができる効果がある。
【0084】
この発明によれば、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列を求め、この最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なN個の音節からなる音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を出力するように構成したので、正解の単語列が求められないケースを減少させ、認識率を向上させるとともに、最適側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができるなどの効果が得られる。
【図面の簡単な説明】
【図1】この発明の実施の形態1による連続音声認識用の探索装置を示す構成図である。
【図2】この発明の実施の形態1による連続音声認識用の探索装置において、音節ネットワークを示す説明図である。
【図3】この発明の実施の形態1による連続音声認識用の探索装置において、基本HMMを示す説明図である。
【図4】この発明の実施の形態1による連続音声認識用の探索装置において、オートマトン制御を示すアルゴリズムである。
【図5】この発明の実施の形態1による連続音声認識用の探索装置において、単語辞書の例を示す説明図である。
【図6】この発明の実施の形態1による連続音声認識用の探索装置において、差分モデルを示す構成図である。
【図7】この発明の実施の形態1による連続音声認識用の探索装置において、音節列間変換尤度テーブルの例を示す表図である。
【図8】この発明の実施の形態1による連続音声認識用の探索装置において、差分モデルの学習手段の例を示す構成図である。
【図9】この発明の実施の形態1による連続音声認識用の探索装置において、単語列探索手段の動作手順を示すフローチャートである。
【図10】この発明の実施の形態1による連続音声認識用の探索装置において、最適音節列と単語nの標準音節列との照合手順を示すフローチャートである。
【図11】この発明の実施の形態1による連続音声認識用の探索装置において、照合動作を示す説明図である。
【図12】この発明の実施の形態2による連続音声認識用の探索装置において、単語辞書を示す説明図である。
【図13】この発明の実施の形態2による連続音声認識用の探索装置において、差分モデルを示す構成図である。
【図14】この発明の実施の形態2による連続音声認識用の探索装置において、単語音節長変換尤度テーブルの例を示す表図である。
【図15】この発明の実施の形態3による連続音声認識用の探索装置を示す構成図である。
【図16】この発明の実施の形態4による連続音声認識用の探索装置を示す構成図である。
【図17】この発明の実施の形態5による連続音声認識用の探索装置を示す構成図である。
【図18】この発明の実施の形態6による連続音声認識用の探索装置を示す構成図である。
【図19】この発明の実施の形態7による連続音声認識用の探索装置を示す構成図である。
【図20】この発明の実施の形態8による連続音声認識用の探索装置を示す構成図である。
【図21】この発明の実施の形態9による連続音声認識用の探索装置を示す構成図である。
【図22】この発明の実施の形態9による連続音声認識用の探索装置において、差分モデルを示す構成図である。
【図23】この発明の実施の形態9による連続音声認識用の探索装置において、単語列単語間変換テーブルを示す表図である。
【図24】この発明の実施の形態9による連続音声認識用の探索装置において、単語列探索手段の単語列探索手順を示すフローチャートである。
【図25】この発明の実施の形態9による連続音声認識用の探索装置において、単語と最適単語列の部分単語列と照合手順を示すフローチャートである。
【符号の説明】
2 最適解取得手段、4 最適音節列、5 単語列探索手段、6 差分モデル、7 単語辞書、8 単語列侯補、13 差分モデル適用単語辞書、15 差分モデル適用音節グラフ作成手段、21 Nベスト解取得手段、101 入力音声、102 音声分析手段、601 音節列間変換尤度テーブル、602 単語音節長変換尤度テーブル。
【発明の属する技術分野】
この発明は、大語彙からなる連続音声を認識して正解の単語列侯補を求めることができる連続音声認識用の探索装置および探索方法に関するものである。
【0002】
【従来の技術】
大語彙からなる連続音声を認識して単語列の侯補を求める連続音声認識において、単語列の侯補を求める探索方法として、1段で探索する方法、および、多段で探索する方法があり、1段で探索する方法としてはビーム探索法がある。また、多段で探索する方法としては、1段目で単語グラフを作成し、2段目で単語グラフの中で単語列侯補を求める方法がある。
【0003】
ビーム探索法は、単語列侯補の部分列を表す仮説として空の単語列の仮説から出発して、入力フレームと同期して、仮説の展開処理を行い単語列を成長させる方法であり、このビーム探索法では、入力フレームの進行と共に、可能な単語の組合わせが増え、単語列の侯補数が増大するので、音響モデルの尤度と言語モデルの尤度を用いて尤度の低い仮説について枝刈処理が行われる。枝刈処理により、仮説を一定数に押さえて、正解の単語列が単語列侯補の中から脱落しないようにして探索を進める。なお、尤度とは、標準音節列が最適音節列に対応づけられる確率の対数値である。
【0004】
一方、単語グラフを用いる方法は、2段階で探索を進めるものである。まず、1段目の探索で単語の候補を残すが、例えば、直前の1単語から派生する単語の侯補のみを残すことで行う。次の2段目の探索では、1段目で作成された単語の侯補を組合わせて、単語列の侯補を作成する。この際、音響モデルの尤度と言語モデルの尤度を加えて、尤度の大きい単語列侯補を探索する。2段目の探索では、スタックデコーダを用いた探索が用いられる。
【0005】
また、多段階で探索する探索方法としては、1段目で最適解を求め、1段目の最適解の変形により2段目の探索を行うものがあり、特開平5−181498号公報に開示されている。この発明では、1段目で、荒い精度で動的計画法(以下、DP:Dynamic Programming法という)を用いて最適単語を高速に求め、2段目で1段目で選択された複数の侯補パターンデータの中からDP法で認識結果を求めるものである。この方法では、最適単語列は必ずしも正解単語列と一致しないが、正解単語列とかなり類似している。しかし、1段目で正解単語列のパターンデータが見いだされなければ、2段目でも、正解単語列を求めることはできない。
【0006】
【発明が解決しようとする課題】
従来の連続音声認識用の探索装置および連続音声認識用の探索方法は以上のように構成されているので、1段目の探索で単語侯補の中に正解が残らない場合、2段目で正解を求めることができないなどの課題があった。
また、1段目で正解を残そうとすると、単語侯補の数が増大し、2段目の処理で考慮すべき単語の組み合わせが増大し探索空間が増大するなどの課題があった。
さらに、音響的に類似した単語列侯補が探索されるため認識精度が低下するなどの課題があった。
【0007】
この発明は上記のような課題を解決するためになされたもので、1段目の探索では最適な単語列が脱落することを防止し、2段目の探索では探索空間を増大させずに単語列の侯補を探索することができる連続音声認識用の探索装置および連続音声認識用の探索方法を得ることを目的とする。
【0011】
【課題を解決するための手段】
この発明に係る連続音声認識用の探索装置は、差分モデルにおいて、最適な音節列の部分音節列と正解の音節列の部分音節列とこれらの対応する尤度を記述した音節列間変換尤度テーブルと、最適な音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は音節列間変換尤度テーブルと単語音節長変換尤度テーブルとに記述された尤度に基づいて単語列の侯補を探索するようにしたものである。
【0012】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適な音節列を最適解取得手段により求め、最適解取得手段が求めた最適な音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、最適解取得手段が求めた最適音節列を入力し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【0013】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適音節列を最適解取得手段により求め、最適音節列を入力し、最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適音節列を変形してグラフを差分モデル適用音節グラフ作成手段により作成し、差分モデル適用音節グラフ作成手段が作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【0015】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列をNベスト解取得手段により求め、Nベスト解取得手段が求めた最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、Nベスト解取得手段が求めた最適音節列を入力し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【0016】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列をNベスト解取得手段により求め、この最適な音節列を入力し、Nベスト解取得手段が求めた最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なN個の音節からなる音節列を変形してグラフを差分モデル適用音節グラフ作成手段により作成し、差分モデル適用音節グラフ作成手段が作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【0017】
この発明に係る連続音声認識用の探索装置は、差分モデルにおいて、最適な音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は、単語音節長変換尤度テーブルの尤度に基づいて単語列の侯補を探索するようにしたものである。
【0018】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御され最適な単語列を最適解取得手段により求め、最適解取得手段が求めた最適な単語列を音節列変換手段により音節列に変換し、音節列変換手段が求めた最適音節列を入力し、音節列変換手段が求めた音節列が正解の音節列に対応する尤度と、音節列の長さと単語辞書の音節列の長さの尤度とを記述した差分モデルと単語の標準的な音節列とその長さを記述した単語辞書とを参照し、単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【0019】
この発明に係る連続音声認識用の探索装置は、入力音声を分析する音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御され最適な単語列を最適解取得手段により求め、最適解取得手段が求めた最適単語列を入力し、最適解取得手段が求めた最適な単語列が正解の単語列に対応する尤度と、単語辞書の単語と対応する最適な単語列の長さとその尤度とを記述した差分モデルと、単語を記述した単語辞書とを参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するようにしたものである。
【0023】
この発明に係る連続音声認識用の探索方法は、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適な音節列を求め、この最適な音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書とを参照し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し単語列の侯補を出力するようにしたものである。
【0024】
この発明に係る連続音声認識用の探索方法は、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適な音節列を求め、この最適な音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適な音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を出力するようにしたものである。
【0026】
この発明に係る連続音声認識用の探索方法は、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列を求め、この最適音節列を入力し、この最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、この単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフとを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し、単語列の侯補を出力するようにしたものである。
【0027】
この発明に係る連続音声認識用の探索方法は、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列を求め、この最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なN個の音節からなる音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を出力するようにしたものである。
【0030】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による連続音声認識用の探索装置を示す構成図であり、図において、101は入力音声、102は入力音声101を分析して特徴ベクトル時系列103に変換する音声分析手段、2は特徴ベクトル時系列103を入力し音節ネットワーク3に従った最適音節列4を得る最適解取得手段、5は最適音節列4を入力し差分モデル6と単語辞書7を参照し単語列侯補8を探索する単語列探索手段である。
【0031】
図2はこの発明の実施の形態1による連続音声認識用の探索装置において、音節ネットワークを示す説明図、図3はこの発明の実施の形態1による連続音声認識用の探索装置において、基本HMMを示す説明図である。
音節ネットワーク3は音節(一般に単語あるいはサブワード)の接続をネットワーク表現したものであり、図2のように音節間を接続するためのノードと音節を表すアークから構成される。音節のアークは図3のような基本HMMの連鎖によって表される。音節内あるいは音節間の調音結合の影響を考慮するため、基本HMMとして音素環境依存の音素モデルを用いる。
【0032】
図4はこの発明の実施の形態1による連続音声認識用の探索装置において、オートマトン制御を示すアルゴリズム、図5はこの発明の実施の形態1による連続音声認識用の探索装置において、単語辞書の例を示す説明図である。最適解取得手段2は、図4に示すオートマトン制御1パスDPアルゴリズムに基づいて特徴ベクトル時系列103に対応する最適な音節列を取得し、最適音節列4として出力する。単語列探索手段5は最適音節列4が入力されると単語列の侯補を単語辞書7を参照して探索する。単語辞書7は図5のように単語の表記と標準的な音節列の記述から構成される。
【0033】
図6はこの発明の実施の形態1による連続音声認識用の探索装置において、差分モデルを示す構成図、図7はこの発明の実施の形態1による連続音声認識用の探索装置において、音節列間変換尤度テーブルの例を示す表図である。差分モデル6は図6のように音節列間変換尤度テーブル601から構成される。音節列間変換尤度テーブル601には、図7のように、標準音節列と対応する最適音節列、および、標準音節列が最適音節列に変換される尤度が記述されている。この尤度は、標準音節列が最適音節列に対応づけられる確率の対数値としてある。標準音節列及び最適音節列の長さは0以上の任意の値でよい。図では、標準音節列は長さ1、最適音節列は長さ1〜2の範囲にある。
【0034】
図8はこの発明の実施の形態1による連続音声認識用の探索装置において、差分モデルの学習手段の例を示す構成図である。差分モデルは図8に示すような構成の学習手段で学習される。音声データベース10から入力音声101を得て、音声分析手段102で特徴ベクトル時系列103に変換する。最適解取得手段2は特徴ベクトル時系列103に対して、音節ネットワーク3を参照し最適音節列4を出力する。最適音節列4は音声データベース10から得られる正解単語列11と正解音節列12とともに、差分モデル学習手段9に入力される。差分モデル学習手段9は最適音節列4と正解音節列12との間でDPマッチングを行い、両者の時間軸上の対応づけを求める。これを音声データベース10のすべての音声について行うことで、最適音節列4の部分音節列12が正解音節列の部分音節列と対応する尤度を求め、差分モデル6を出力する。
【0035】
次に動作について説明する。
図9はこの発明の実施の形態1による連続音声認識用の探索装置において、単語列探索手段の動作手順を示すフローチャートである。探索はスタックデコーダに基づいて、図9に示すフローチャートに沿って行われる。このスタックデコーダでは、最適音節列4の始端から単語の検索を始めて、単語辞書7の単語を順次結合し、最適音節列4の始端から終端までをカバーする単語列の侯補を求める。ここでは、最適音節列4の始端から途中までをカバーする単語列侯補を仮説とする。一つの仮説は、属性として、単語列、終端時刻、評価値を有する。終端時刻はその仮説の単語列がカバーしている最適音節列4の長さであり、最適音節列4の全体の長さをTとすると、終端時刻は0〜Tの範囲の整数値である。
【0036】
例えば、最適音節列4が「おんせえにんしきそおち」であった場合、最適音節列4全体をカバーする仮説の単語列は「音声(おんせえ)認識(にんしき)装置(そおち)」であり、その終端時刻は11である。また、仮説の単語列が「音声(おんせえ)認識(にんしき)」であった場合、この仮説の終端時刻は8である。
【0037】
つぎに、本実施の形態1で用いたスタックデコーダの動作を説明する。
まず、空の単語列からなる仮説を作成し、スタックに格納し(ステップST101)、スタックが空か否かを判断し(ステップST102)、スタックが空となった時点で処理を終了する(ステップST103)。次に、ステップST102の判断でスタックが空でない場合には、スタックの中から評価値が最大の仮説H0を取り出し(ステップST104)、仮説H0の終端時刻をT0とする。次に、仮説H0の終端時刻T0が最適音節長Tと等しいか否かを判断し(ステップST111)、最適音節長Tと等しいならば、その仮説の単語列を単語列侯補8の一つとして出力した後(ステップST112)、ステップST104に戻る。一方、ステップST111で仮説H0の終端時刻T0が最適音節長Tと等しくない場合には、単語辞書7から単語を一つ取り出しその単語をnとする(ステップST105)。以下ステップST106〜ST110までの処理を単語辞書の任意の単語nについて行う。
【0038】
ステップST106では、T0+1を始端時刻として終端Tまでの範囲を終端時刻T1(T1:T0+1〜T)として最適音節列と単語nの標準音節列との照合を行う。この照合では部分最適音節列W1と単語nの標準音節列W2との間で、標準音節列と最適音節列とが対応する尤度から照合尤度を求める。
【0039】
W1=X(T0+1)、X(T0+2)〜X(T1) ・・・(1)
W2=Y(1)、Y(2)〜Y(J(n)) ・・・(2)
T1:T0〜Tの範囲の整数
J(n):単語nの標準音節列長
【0040】
次に、最適音節列と単語nの標準音節列との照合は図10のフローチャートに基づいて行う。図10はこの発明の実施の形態1による連続音声認識用の探索装置において、最適音節列と単語nの標準音節列との照合手順を示すフローチャートである。まず、最適音節列および単語nの標準音節列を与え(ステップST201)、それぞれについて、標準音節列および最適音節列を状態と遷移からなるグラフG1およびG2に変換する(ステップST202,ST203)。次に、差分モデルの適用対象が最適音節列か標準音節列かを判断し(ステップST204)、差分モデルの適用対象を最適音節列とした場合、グラフG1に差分モデル6を適用し、変更後のグラフG1’を求める(ステップST205)。一方、ステップST204の判断の結果、差分モデルの適用対象を標準音節列とした場合、グラフG2に差分モデル6を適用し、変更後のグラフG2’を求める(ステップST207)。
【0041】
ここで、図11を用いてステップST202〜ST208の動作を具体例を示して説明する。
図11はこの発明の実施の形態1による連続音声認識用の探索装置において、照合動作を示す説明図である。図11では最適音節列が「おんせにんひそおち」であり、そのうち音節列「にんひ」の部分と標準音節列「にんしき」との間で照合するときを示す。このとき、ステップST202によって最適音節列のグラフはG1に、また、ステップST203によって標準音節列のグラフはG2となる。また、差分モデル6としての音節列間変換尤度テーブル601には、「しき/ひ[−2.3]」、「しき/しき[−0.1]」、「ひ/ひ[−0.1]」、その他の音節(Xとする)については、「X/X[0.0]」という記述があったとする。ステップST204で差分モデル6の適用対象を最適音節列とした場合、ステップST205でグラフG1は差分モデル6により、G1’「にん(ひ[−0.1]−しき[−2.3])」と変形される。この結果、グラフG2の「にんしき」と最適音節列の照合が可能となり、単語列侯補として正解の単語「認識(にんしき)」を含む単語列を探索できるようになる。
【0042】
また、ステップST204で差分モデル6の適用対象を標準音節列とした場合にも、ステップST207でグラフG2は差分モデルにより、G2’「にん(しき[−0.1])−ひ[−2.3]」と変形される。この結果、グラフG2の「にんしき」と最適音節列の照合が可能となり、単語列侯補として正解の単語「認識(にんしき)」を含む単語列を探索できるようになる。ステップST206あるいはステップST208で変更後のグラフの間(G1’とG2あるいはG1とG2’)で、次の漸化式を計算することで照合尤度D(W1,W2)を求める。
【0043】
G(j,n)=0、(j,n)∈{初期ノードの組} ・・・(3)
G(j,n)=−∞、(j,n)∈{初期ノードの組以外} ・・・(4)
G(j,n)=max G(i,m)+g(i→j)+g(m→n)+
e(i→j,m→n)、(i,m)∈{ノード(j,n)に可能
な遷移} ・・・(5)
D(W1,W2)=max G(j,n)、(j,n)∈{最終ノードの組}・・・(6)
ここで、i,jは最適音節列側のグラフの状態、
m,nは標準音節列側のグラフの状態、
g(i→j)及びg(m→n)はそれぞれ、状態遷移i→j及び状態
遷移m→nの対数尤度、
e(i→j,m→n)は状態遷移i→j及び状態遷移m→nに関連づけられた最適音節列側の音節X(i→j)及び標準音節列側の音節Y(m→n)の一致度を表し、ここでは、一致したとき0を、不一致の時−∞としている。
【0044】
図9のフローチャートにおいて、照合尤度D(W1,W2)が閾値より高いか否かを判断し(ステップST107)、照合尤度D(W1,W2)が閾値より高くない場合は、ステップST108〜ステップST110の処理は行わない。一方、ステップST107の判断の結果、照合尤度D(W1,W2)が閾値より高い場合は、ステップST108〜ステップST110の処理を行う。ステップST108では仮説H0をコピーして仮説H1を作成し、仮説H1の終端時刻を更新してT1とし(ステップST109)、仮説H1の単語列に単語nを加えて単語列を1単語分成長させる。また、仮説H1の評価値を照合尤度D(W1、W2)分だけ増加する。次に、仮説H1をスタックに格納する(ステップST110)。
なお、仮説H1の評価値には、照合尤度と共に、単語列の言語モデルの尤度を計算して加える。この場合、言語モデルの尤度は、単語列に対するNグラムモデルを用いて計算する。
【0045】
以上のように、この実施の形態1によれば、探索の1段目の最適解取得手段で求めた最適解から差分モデルを適用して、探索の2段目で、1段目の最適解を入力し、差分モデルと単語を記述した単語辞書を参照し単語列の侯補を探索する単語列探索手段とを備えたため、1段目で最適解の脱落を防止できるとともに、2段目で、正解の脱落を少なくすることができるなどの効果が得られる。
【0046】
実施の形態2.
図12はこの発明の実施の形態2による連続音声認識用の探索装置において、単語辞書を示す説明図、図13はこの発明の実施の形態2による連続音声認識用の探索装置において、差分モデルを示す構成図、図14はこの発明の実施の形態2による連続音声認識用の探索装置において、単語音節長変換尤度テーブルの例を示す表図であり、図において、実施の形態1と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態2の単語辞書7は図12のように単語nを構成する標準音節列の長さJ(n)を含んでいる。また、この実施の形態2の差分モデル6は図13のように音節列間変換尤度テーブル601と単語音節長変換尤度テーブル602を備える。単語音節長変換尤度テーブル602は、図14のような単語を構成する標準音節列の長さと最適音節列の長さに対応づけられる尤度が記述されている。
【0047】
次に動作について説明する。
図9のステップST106の照合において、部分最適音節列W1と単語nの標準音節列W2との照合の尤度には、実施の形態1で説明した方法で求めた照合尤度D(W1、W2)に加えて、単語音節長の尤度を加える。この単語音節長の尤度は、現在照合中の最適の音節長(これは、T1−T0である)と単語nを構成する標準音節列の長さ(これはJ(n)であり、単語辞書7から得られる)とから、単語音節長変換尤度テーブル602を引いて尤度を求める。これにより、最適音節長が単語標準音節長と大きく異って照合する場合、尤度は小さくなり、図9のステップST107の照合尤度と閾値との判定処理により、ステップST108〜ST110の処理がされないことになる。
【0048】
以上のように、この実施の形態2によれば、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量が減少するなどの効果が得られる。
【0049】
実施の形態3.
図15はこの発明の実施の形態3による連続音声認識用の探索装置を示す構成図であり、図において実施の形態1および実施の形態2と同一の符号については同一または相当部分を示すので説明を省略する。単語列探索手段5での認識処理に先だって、差分モデル適用単語辞書作成手段14は、単語辞書7の標準音節列をグラフに変換して差分モデル適用単語辞書13として記憶する。次に、単語列探索手段5の処理において、実施の形態1の図9のステップST106における仮説H0の終端時刻T0より後に単語nを追加するとき、照合尤度の計算は図10のステップST203及びST207の標準音節列をグラフに変換する処理を省略できる。
【0050】
以上のように、この実施の形態3によれば、単語標準音節列を予めグラフに変換した結果をすべての単語について記憶しておくので、メモリ量が増加するが、単語列探索手段5の処理において、動的な変換の演算を省略できるため、演算処理が高速化されるなどの効果が得られる。
【0051】
実施の形態4.
図16はこの発明の実施の形態4による連続音声認識用の探索装置を示す構成図であり、図において、実施の形態1から実施の形態3と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態4では、差分モデル適用音節グラフ作成手段15を備え、最適音節列4に対して、差分モデル6を適用して差分モデル適用入力音節グラフ16を作成するものである。単語列探索手段5は差分モデル適用入力音節グラフ16を入力として単語辞書7を参照して、単語列侯補8を出力する。したがって、最適音節列に対して差分モデル6を適用するので、1つの最適音声について、1回だけ差分モデル6を適用するだけで済む。
【0052】
以上のように、この実施の形態4によれば、実施の形態1のように、単語列探索の中で、単語nごとに最適音節列あるいは単語nの標準音節列に対して差分モデル6を適用する処理が必要がないため、演算処理を高速化することができるなどの効果が得られる。
【0053】
実施の形態5.
図17はこの発明の実施の形態5による連続音声認識用の探索装置を示す構成図であり、図において実施の形態1と同一の符号については同一または相当部分を示すので説明を省略する。実施の形態1では最適な音節列に差分モデル6を適用して、最適な音節列の変形で正解を求めるものであるが、可能性としては、正解を求めることができないケースがあった。しかし、この実施の形態5は、実施の形態1の最適解取得手段2の代りにNベスト解取得手段21を用いて、音節のNベスト侯補を求めNベスト音節グラフ22を出力するものである。
【0054】
以上のように、この実施の形態5によれば、最適音節のNベスト侯補を求めて、これをNベスト音節グラフ22として、差分モデル6を用いた単語列侯補8の探索を行うので、正解が求められないケースが減少し、認識率を向上させることができるなどの効果が得られる。
【0055】
実施の形態6.
図18はこの発明の実施の形態6による連続音声認識用の探索装置を示す構成図であり、図において実施の形態1から実施の形態5と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態6では、実施の形態3の最適解取得手段2の代りにNベスト侯補を含むNベスト音節グラフ22を出力するNベスト解取得手段21を設けたものである。実施の形態3では、単語辞書7の単語の標準音節列に差分モデル6を適用して予め作成した差分モデル適用単語辞書13を用いて、最適な音節列から単語列侯補の探索を行うため、最適音節列は1種類であった。このため、可能性としては差分モデル適用単語辞書13では、正解の単語列を探索できないことがあった。しかし、この実施の形態6によれば、最適音節のNベスト侯補を求めて、これを曖昧性を許した最適音節グラフとして、差分モデル適用単語辞書13を用いて単語列侯補の探索を行うものである。
【0056】
以上のように、この実施の形態6によれば、正解の単語列が求められないケースを減少させ、認識率を向上させるという効果が得られるとともに、同じNベスト解取得手段21を用いる実施の形態5に比べて、辞書側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができるなどの効果が得られる。
【0057】
実施の形態7.
図19はこの発明の実施の形態7による連続音声認識用の探索装置を示す構成図であり、図において実施の形態1から実施の形態6と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態7は、実施の形態4の最適解取得手段2の代りにNベスト解取得手段21として、音節のNベスト侯補を求めNベスト音節グラフ22を出力するものである。実施の形態4では最適解取得手段2で得られる1通りの最適音節列4に差分モデル6を適用して、差分モデル適用入力音節グラフ16を作成し、これを最適として単語列侯補8の探索を行っていた。このため、可能性としては差分モデル6適用の単語辞書7では、正解の単語列を探索できないことがあった。しかし、実施の形態7においては、最適音節のNベスト侯補を求め、これに基づいてNベスト音節グラフ22を作成し、さらに、差分モデル6を適用した上で単語列侯補8の探索を行うものである。
【0058】
以上のように、この実施の形態7によれば、正解の単語列が求められないケースを減少させ、認識率を向上させるとともに、同じNベスト解取得手段21を用いる実施の形態6に比べて、最適側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができるなどの効果が得られる。
【0059】
実施の形態8.
図20はこの発明の実施の形態8による連続音声認識用の探索装置を示す構成図であり、図において実施の形態1から実施の形態7と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態8では、最適解取得手段2が、単語ネットワーク17を用いて、最適単語列18を求め、音節列変換手段19によってこれを音節列に戻して、最適音節列4を求め、単語列探索手段5の入力とするものである。したがって、最適解取得手段2は参照するネットワークとして、音節の代りに音響的により長い単位である単語を用いるため、調音結合の影響を受けることが少ない最適単語列18を求めることができる。
【0060】
以上のように、この実施の形態8によれば、調音結合の影響を受けることが少ない最適単語列18を最適音節列4に戻すため、正解を求める可能性が増大するなどの効果が得られる。
【0061】
実施の形態9.
図21はこの発明の実施の形態9による連続音声認識用の探索装置を示す構成図、図22はこの発明の実施の形態9による連続音声認識用の探索装置において、差分モデルを示す構成図、図23はこの発明の実施の形態9による連続音声認識用の探索装置において、単語列単語間変換テーブルを示す表図であり、図において、実施の形態1から実施の形態8と同一の符号については同一または相当部分を示すので説明を省略する。この実施の形態9では、最適解取得手段2が、単語ネットワーク17を用いて、最適単語列18を求め、これを単語列探索手段5の入力とするものであり、単語列探索手段5は差分モデル6と単語辞書7を参照して単語列侯補8を探索するものである。
【0062】
この実施の形態9では、差分モデル6は図22のように単語列単語間変換尤度テーブル603から構成され、図23のように最適単語列18の部分単語列の欄と対応する正解の単語の欄と尤度が記述されている。最適単語列18の部分単語列が単語とともに与えられるとこのテーブルを検索することで尤度が得られる。
【0063】
次に動作について説明する。
図24はこの発明の実施の形態9による連続音声認識用の探索装置において、単語列探索手段の単語列探索手順を示すフローチャート、図25はこの発明の実施の形態9による連続音声認識用の探索装置において、単語と最適単語列の部分単語列と照合手順を示すフローチャートである。単語列探索手段5における単語列探索は図24のフローチャートに基づいて行われる。ステップST301では図25のフローチャートに基づいて行われる。まず、最適単語列18と単語nとが与えられて(ステップST401)、単語nと最適単語列18の部分単語列と照合を行い、照合の尤度を求める。照合の尤度は、最適単語列18の部分が単語nに対応する尤度を差分モデル6の単語列単語間変換尤度テーブル603を引いて求める(ステップST402)。
【0064】
以上のように、この実施の形態9によれば、単語列探索手段5における単語nと最適単語列18の部分単語列との照合がテーブル検索で実現されるため、単語列侯補8の探索が容易になるなどの効果が得られる。
【0068】
【発明の効果】
この発明によれば、差分モデルにおいて、最適音節列の部分音節列と正解の音節列の部分音節列とこれらの対応する尤度を記述した音節列間変換尤度テーブルと、最適音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は音節列間変換尤度テーブルと単語音節長変換尤度テーブルとに記述された尤度に基づいて単語列侯補を探索するように構成したので、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量を減少させることができる効果がある。
【0069】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を最適解取得手段により求め、最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、最適解取得手段が求めた最適音節列を入力し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し、単語列侯補を単語列探索手段から出力するように構成したので、メモリ量が増加するが、単語列探索手段の処理において、動的な変換の演算を省略できるため、演算処理を高速化することができる効果がある。
【0070】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を最適解取得手段により求め、最適音節列を入力し、最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適音節列を変形してグラフを差分モデル適用音節グラフ作成手段により作成し、差分モデル適用音節グラフ作成手段が作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し、単語列の侯補を探索し、単語列の侯補を単語列探索手段から出力するように構成したので、演算処理を高速化することができる効果がある。
【0072】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列をNベスト解取得手段により求め、Nベスト解取得手段が求めた最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、Nベスト解取得手段が求めた最適音節列を入力し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するように構成したので、正解の単語列が求められないケースを減少させ、認識率を向上させるという効果が得られるとともに、辞書側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができる効果がある。
【0073】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列をNベスト解取得手段により求め、この最適な音節列を入力し、Nベスト解取得手段が求めた最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なN個の音節からなる音節列を変形してグラフを差分モデル適用音節グラフ作成手段により作成し、差分モデル適用音節グラフ作成手段が作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するように構成したので、正解の単語列が求められないケースを減少させ、認識率を向上させるとともに、最適側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができるなどの効果が得られる。
【0074】
この発明によれば、差分モデルにおいて、最適な音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は、単語音節長変換尤度テーブルの尤度に基づいて単語列の侯補を探索するように構成したので、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量を減少させることができる効果がある。
【0075】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御され最適な単語列を最適解取得手段により求め、最適解取得手段が求めた最適な単語列を音節列変換手段により音節列に変換し、音節列変換手段が求めた最適音節列を入力し、音節列変換手段が求めた音節列が正解の音節列に対応する尤度と、音節列の長さと単語辞書の音節列の長さの尤度とを記述した差分モデルと単語の標準的な音節列とその長さを記述した単語辞書とを参照し、単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するように構成したので、調音結合の影響を受けることが少ない最適単語列を最適音節列に戻すため、正解を求める可能性が増大することができる効果がある。また、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量を減少させることができる効果がある。
【0076】
この発明によれば、入力音声を分析する音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御され最適な単語列を最適解取得手段により求め、最適解取得手段が求めた最適単語列を入力し、最適解取得手段が求めた最適な単語列が正解の単語列に対応する尤度と、単語辞書の単語と対応する最適な単語列の長さとその尤度とを記述した差分モデルと、単語を記述した単語辞書とを参照し単語列の侯補を探索し単語列の侯補を単語列探索手段により出力するように構成したので、単語列侯補の探索を容易にすることができる効果がある。また、極端な照合を防ぐことができ、無駄な仮説の生成が削減され、探索処理の量を減少させることができる効果がある。
【0080】
この発明によれば、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適な音節列を求め、この最適な音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書とを参照し、単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し単語列の侯補を出力するように構成したので、メモリ量が増加するが、単語列探索手段の処理において、動的な変換の演算を省略できるため、演算処理を高速化することができる効果がある。
【0081】
この発明によれば、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適な音節列を求め、この最適な音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適な音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を出力するように構成したので、演算処理を高速化することができる効果がある。
【0083】
この発明によれば、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列を求め、この最適音節列を入力し、この最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、この単語辞書の各単語について、単語と差分モデルに記述に基づいて単語辞書の標準的な音節列を変形した音節グラフとを記述した差分モデル適用単語辞書を参照し、単語列の侯補を探索し、単語列の侯補を出力するように構成したので、正解の単語列が求められないケースを減少させ、認識率を向上させるという効果が得られるとともに、辞書側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができる効果がある。
【0084】
この発明によれば、入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列を求め、この最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なN個の音節からなる音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し単語列の侯補を探索し単語列の侯補を出力するように構成したので、正解の単語列が求められないケースを減少させ、認識率を向上させるとともに、最適側の音節系列を変形する点が異なり、傾向の異なる認識結果を得ることができるなどの効果が得られる。
【図面の簡単な説明】
【図1】この発明の実施の形態1による連続音声認識用の探索装置を示す構成図である。
【図2】この発明の実施の形態1による連続音声認識用の探索装置において、音節ネットワークを示す説明図である。
【図3】この発明の実施の形態1による連続音声認識用の探索装置において、基本HMMを示す説明図である。
【図4】この発明の実施の形態1による連続音声認識用の探索装置において、オートマトン制御を示すアルゴリズムである。
【図5】この発明の実施の形態1による連続音声認識用の探索装置において、単語辞書の例を示す説明図である。
【図6】この発明の実施の形態1による連続音声認識用の探索装置において、差分モデルを示す構成図である。
【図7】この発明の実施の形態1による連続音声認識用の探索装置において、音節列間変換尤度テーブルの例を示す表図である。
【図8】この発明の実施の形態1による連続音声認識用の探索装置において、差分モデルの学習手段の例を示す構成図である。
【図9】この発明の実施の形態1による連続音声認識用の探索装置において、単語列探索手段の動作手順を示すフローチャートである。
【図10】この発明の実施の形態1による連続音声認識用の探索装置において、最適音節列と単語nの標準音節列との照合手順を示すフローチャートである。
【図11】この発明の実施の形態1による連続音声認識用の探索装置において、照合動作を示す説明図である。
【図12】この発明の実施の形態2による連続音声認識用の探索装置において、単語辞書を示す説明図である。
【図13】この発明の実施の形態2による連続音声認識用の探索装置において、差分モデルを示す構成図である。
【図14】この発明の実施の形態2による連続音声認識用の探索装置において、単語音節長変換尤度テーブルの例を示す表図である。
【図15】この発明の実施の形態3による連続音声認識用の探索装置を示す構成図である。
【図16】この発明の実施の形態4による連続音声認識用の探索装置を示す構成図である。
【図17】この発明の実施の形態5による連続音声認識用の探索装置を示す構成図である。
【図18】この発明の実施の形態6による連続音声認識用の探索装置を示す構成図である。
【図19】この発明の実施の形態7による連続音声認識用の探索装置を示す構成図である。
【図20】この発明の実施の形態8による連続音声認識用の探索装置を示す構成図である。
【図21】この発明の実施の形態9による連続音声認識用の探索装置を示す構成図である。
【図22】この発明の実施の形態9による連続音声認識用の探索装置において、差分モデルを示す構成図である。
【図23】この発明の実施の形態9による連続音声認識用の探索装置において、単語列単語間変換テーブルを示す表図である。
【図24】この発明の実施の形態9による連続音声認識用の探索装置において、単語列探索手段の単語列探索手順を示すフローチャートである。
【図25】この発明の実施の形態9による連続音声認識用の探索装置において、単語と最適単語列の部分単語列と照合手順を示すフローチャートである。
【符号の説明】
2 最適解取得手段、4 最適音節列、5 単語列探索手段、6 差分モデル、7 単語辞書、8 単語列侯補、13 差分モデル適用単語辞書、15 差分モデル適用音節グラフ作成手段、21 Nベスト解取得手段、101 入力音声、102 音声分析手段、601 音節列間変換尤度テーブル、602 単語音節長変換尤度テーブル。
Claims (12)
- 入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を求める最適解取得手段と、
単語の標準的な音節列と当該音節列の長さを記述した単語辞書と、
上記最適音節列の部分音節列と正解の音節列の部分音節列とこれらの対応する尤度を記述した音節列間変換尤度テーブルと、最適音節列の長さと上記単語辞書の音節列長とこれらが対応する尤度を記述した単語音節長変換尤度テーブルとを有する差分モデルと、
上記最適解取得手段が求めた最適音節列を入力し、上記差分モデルに記述された尤度と上記単語辞書とを参照し、単語列の侯補を探索し、単語列の侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。 - 入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を求める最適解取得手段と、
上記最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルと、
単語の標準的な音節列を記述した単語辞書と、
上記単語辞書の各単語について、単語と差分モデルの記述に基づいて上記標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書と、
上記最適解取得手段が求めた最適音節列を入力し、上記差分モデル適用単語辞書を参照し、単語列の侯補を探索し、単語列の侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。 - 入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を求める最適解取得手段と、
上記最適解取得手段が求めた最適音節列が正解の音節列に対応する尤度を記述した差分モデルと、
上記最適音節列を入力し上記差分モデルの記述に基づいて上記最適音節列を変形してグラフを作成する差分モデル適用音節グラフ作成手段と、
単語の標準的な音節列を記述した単語辞書と、
上記差分モデル適用音節グラフ作成手段が作成したグラフを入力して、上記単語辞書を参照し、単語列侯補を探索し、単語列の侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。 - 入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御された最適なN個の音節からなる音節列を求めるNベスト解取得手段と、
上記Nベスト解取得手段が求めた最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと、
単語の標準的な音節列を記述した単語辞書と、
上記単語辞書の各単語について、単語と差分モデルの記述に基づいて上記標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書と、
上記Nベスト解取得手段が求めた最適音節列を入力し、上記差分モデル適用単語辞書を参照し、単語列侯補を探索し、単語列侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。 - 入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列を求めるNベスト解取得手段と、
上記Nベスト解取得手段が求めた最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと、
上記最適なN個の音節からなる音節列を入力し、上記差分モデルの記述に基づいて上記最適なN個の音節からなる音節列を変形してグラフを作成する差分モデル適用音節グラフ作成手段と、
単語の標準的な音節列を記述した単語辞書と、
上記差分モデル適用音節グラフ作成手段が作成したグラフを入力して、上記単語辞書を参照し、単語列侯補を探索し、単語列侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。 - 差分モデルとして、最適音節列の長さと単語辞書の音節列の長さとこれらが対応する尤度を記述した単語音節長変換尤度テーブルを備え、単語列探索手段は、上記単語音節長変換尤度テーブルの尤度に基づいて単語列侯補を探索することを特徴とする請求項2から請求項5のうちのいずれか1項記載の連続音声認識用の探索装置。
- 入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御された最適単語列を求める最適解取得手段と、
上記最適解取得手段が求めた最適単語列を音節列に変換する音節列変換手段と、
単語の標準的な音節列と当該音節列の長さを記述した単語辞書と、
上記音節列変換手段が求めた音節列が正解の音節列に対応する尤度と、上記音節列変換手段が求めた音節列の長さと上記単語辞書の音節列の長さとこれらが対応する尤度とを記述した差分モデルと、
上記音節列変換手段が求めた音節列を入力し、上記差分モデルに記述された尤度と上記単語辞書とを参照し、単語列侯補を探索し、単語列侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。 - 入力音声を分析する音声分析手段と、
上記音声分析手段の作成した分析結果を入力し、単語間の接続を表すオートマトンで制御された最適単語列を求める最適解取得手段と、
単語を記述した単語辞書と、
上記最適解取得手段が求めた最適単語列が正解の単語列に対応する尤度と、上記単語辞書の単語と対応する最適な単語列の長さとその尤度とを記述した差分モデルと、
上記最適解取得手段が求めた最適単語列を入力し、上記差分モデルに記述された尤度と上記単語辞書とを参照し、単語列の侯補を探索し、単語列の侯補を出力する単語列探索手段とを備えた連続音声認識用の探索装置。 - 入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を求め、この最適音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書とを参照し、上記単語辞書の各単語について、単語と上記差分モデルの記述に基づいて単語辞書の標準的な音節列を変形した音節グラフを記述した差分モデル適用単語辞書を参照し、単語列侯補を探索し、単語列侯補を出力することを特徴とする連続音声認識用の探索方法。
- 入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御された最適音節列を求め、この最適音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて、上記最適音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し、単語列侯補を探索し、単語列侯補を出力することを特徴とする連続音声認識用の探索方法。
- 入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列を求め、この最適音節列を入力し、この最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルと単語の標準的な音節列を記述した単語辞書を参照し、この単語辞書の各単語について、単語と上記差分モデルの記述に基づいて上記単語辞書の標準的な音節列を変形した音節グラフとを記述した差分モデル適用単語辞書を参照し、単語列侯補を探索し、単語列侯補を出力することを特徴とする連続音声認識用の探索方法。
- 入力音声の分析結果を入力し、音節間の接続を表すオートマトンで制御され最適なN個の音節からなる音節列を求め、この最適なN個の音節からなる音節列が正解の音節列に対応する尤度を記述した差分モデルの記述に基づいて最適なN個の音節からなる音節列を変形してグラフを作成し、この作成したグラフを入力して、単語の標準的な音節列を記述した単語辞書を参照し、単語列侯補を探索し、単語列侯補を出力することを特徴とする連続音声認識用の探索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26859098A JP3583299B2 (ja) | 1998-09-22 | 1998-09-22 | 連続音声認識用の探索装置および連続音声認識用の探索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26859098A JP3583299B2 (ja) | 1998-09-22 | 1998-09-22 | 連続音声認識用の探索装置および連続音声認識用の探索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000099089A JP2000099089A (ja) | 2000-04-07 |
JP3583299B2 true JP3583299B2 (ja) | 2004-11-04 |
Family
ID=17460655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26859098A Expired - Fee Related JP3583299B2 (ja) | 1998-09-22 | 1998-09-22 | 連続音声認識用の探索装置および連続音声認識用の探索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3583299B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4175093B2 (ja) * | 2002-11-06 | 2008-11-05 | 日本電信電話株式会社 | トピック境界決定方法及び装置及びトピック境界決定プログラム |
JP6176055B2 (ja) | 2013-10-21 | 2017-08-09 | 富士通株式会社 | 音声検索装置及び音声検索方法 |
CN112233664B (zh) | 2020-10-15 | 2021-11-09 | 北京百度网讯科技有限公司 | 语义预测网络的训练方法、装置、设备以及存储介质 |
-
1998
- 1998-09-22 JP JP26859098A patent/JP3583299B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000099089A (ja) | 2000-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
US5983177A (en) | Method and apparatus for obtaining transcriptions from multiple training utterances | |
JP4465564B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
US5787396A (en) | Speech recognition method | |
US5765133A (en) | System for building a language model network for speech recognition | |
WO2001065541A1 (fr) | Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement | |
US5680509A (en) | Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree | |
US20020091520A1 (en) | Method and apparatus for text input utilizing speech recognition | |
JP3092491B2 (ja) | 記述長最小基準を用いたパターン適応化方式 | |
JP2000293191A (ja) | 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法 | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
Kim et al. | Accelerating rnn transducer inference via one-step constrained beam search | |
JP3583299B2 (ja) | 連続音声認識用の探索装置および連続音声認識用の探索方法 | |
JP3589044B2 (ja) | 話者適応化装置 | |
JPH10509526A (ja) | ヒドンマルコフモデルを使用して設計された決定木分類子 | |
JP3914709B2 (ja) | 音声認識方法およびシステム | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
JP3315565B2 (ja) | 音声認識装置 | |
JPH07104780A (ja) | 不特定話者連続音声認識方法 | |
JP2976795B2 (ja) | 話者適応化方式 | |
US7818172B2 (en) | Voice recognition method and system based on the contexual modeling of voice units | |
JPH08248975A (ja) | 標準パターン学習装置およびこの装置を使用した音声認識装置 | |
JP3368989B2 (ja) | 音声認識方法 | |
CN113012690B (zh) | 一种支持领域定制语言模型的解码方法及装置 | |
JPH0981182A (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040629 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040728 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070806 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080806 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |