JP4689497B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP4689497B2 JP4689497B2 JP2006053453A JP2006053453A JP4689497B2 JP 4689497 B2 JP4689497 B2 JP 4689497B2 JP 2006053453 A JP2006053453 A JP 2006053453A JP 2006053453 A JP2006053453 A JP 2006053453A JP 4689497 B2 JP4689497 B2 JP 4689497B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- bigram
- maximum
- group
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 claims description 81
- 239000013598 vector Substances 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 description 27
- 230000005236 sound signal Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 241001446467 Mama Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000012907 honey Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
Images
Description
N=2であるバイグラムや、N=3であるトライグラムが用いられることが多い。
ただし、最初からトライグラムを用いると、演算量とメモリ量が大きくなるため、最初にバイグラムを用いて粗い音声認識を行う認識方式が多い(例えば、非特許文献1を参照)。
即ち、単語バイグラムのパラメータ値を計算して、そのパラメータ値を単語バイグラムテーブルに保存する。なお、単語バイグラムのパラメータ値の計算は、例えば、以下の非特許文献2に開示されている方法を使用する。
木構造辞書を構成する各ノードには1個以上の単語が属するが、ノードに属する単語が複数個である場合、当該ノードでの単語が未確定になり、言語モデル(バイグラム:単語Aと単語Bの連鎖確率)の尤度を付与することができず、音声認識処理におけるビームサーチが非効率になる。
これを避けるため、音声認識処理における照合処理では、当該ノードに属する全ての単語の言語尤度を計算し、全ての単語の言語尤度を比較して最も大きい言語尤度を当該ノードの言語スコアとして与えるようにしている。
P(Gj|Gi)=MAX(m=1,M,n=1,N)p(wjn|wim) (1)
因みに、先行単語グループGiに属する単語の個数が3個、後続単語グループGjに属する単語の個数が4個であれば、3×4=12通りの単語の組み合わせ中から、最大の単語バイグラムの選択を行うことになる。
しかし、先行単語の木構造辞書を構成している全てのノードに対応する先行単語グループGiと、後続単語の木構造辞書を構成している全てのノードに対応する後続単語グループGjとの全組み合わせについて、単語グループ間バイグラムP(Gj|Gi)を計算して、その単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブルに保存するようにすると、テーブルサイズが膨大になるため、従来の音声認識装置では、保存対象の単語グループ間バイグラムP(Gj|Gi)を制限するようにしている。
一方、後続単語グループGjになり得る単語グループは、後続単語の木構造辞書を構成している全てのノードに対応する単語グループであるが、テーブルサイズを制限するため、計算対象の後続単語グループGjを木構造辞書の語頭の数音素に対応するノードの単語グループに制限している。
図1はこの発明の実施の形態1による音声認識装置を示す構成図であり、図において、学習データメモリ1は言語モデルの学習データ(例えば、形態素解析されたテキストデータ)を記憶しているメモリである。
単語バイグラム算出部2は学習データメモリ1に記憶されている学習データを用いて、統計言語モデルである単語バイグラムを学習し、その単語バイグラムのパラメータ値を単語バイグラムテーブル3に保存する処理を実施する。なお、単語バイグラム算出部2は学習手段を構成している。
単語バイグラムテーブル3は単語バイグラム算出部2により学習された単語バイグラムのパラメータ値を保存するメモリである。
木構造辞書メモリ5は木構造辞書作成部4により作成された木構造辞書を保存するメモリである。
単語グループ統計量算出部6は単語グループ間バイグラム算出部7、最大ユニグラム特定部8及び最大バックオフ係数特定部9から構成されている。
即ち、単語グループ間バイグラム算出部7は単語バイグラムテーブル3に保存されている単語バイグラムに適合する単語の組み合わせが存在する場合、単語の組み合わせに対応する単語バイグラムの中で最大の単語バイグラムを単語グループ間バイグラムとして単語グループ間バイグラムテーブル10に格納する。なお、単語グループ間バイグラム算出部7は単語群間バイグラム算出手段を構成している。
単語グループ統計量算出部6の最大バックオフ係数特定部9は木構造辞書メモリ5に保存されている木構造辞書を構成している終端ノード毎に、当該終端ノードに属する1個以上の単語のバックオフ係数を比較して最大のバックオフ係数を特定し、その最大のバックオフ係数を単語グループ内最大バックオフ係数テーブル12に保存する処理を実施する。なお、最大バックオフ係数特定部9は最大バックオフ係数特定手段を構成している。
音響モデルメモリ23は例えば音素単位のHMM(Hidden Markov Model)などの音響モデルを記憶しているメモリである。
照合処理部25は音響モデルメモリ23に記憶されている音響モデルや言語スコア算出部24により算出された言語スコアを用いて、照合スコアを算出する処理を実施する。
なお、言語スコア算出部24及び照合処理部25から照合手段が構成されている。
また、図4は先行単語及び後続単語の木構造辞書を示す説明図である。
音声認識装置は、音声認識処理を実施するに先立って、単語グループ間バイグラム等の算出処理を実施する。
単語バイグラム算出部2は、学習データメモリ1に記憶されている学習データを用いて、統計言語モデルである単語バイグラムを学習し、その単語バイグラムのパラメータ値を単語バイグラムテーブル3に保存する。
単語バイグラムのパラメータ値は、例えば、上記の非特許文献2に開示されている方法を使用して計算するが、単語バイグラムのパラメータ値として、単語wiと単語wjの連鎖確率である単語バイグラムp(wj|wi)と、単語wjの出現確率である単語ユニグラムp(wj)と、単語連鎖wi,wjの出現確率が0である場合に若干の出現確率を単語wiに与えるバックオフ係数b(wi)を計算する。
図4は木構造辞書の作成例であるが、図中の“○”は、木構造辞書を構成しているノードを表しており、ノードとノードを結ぶ実線をアークと称し、アークには音素が対応付けられている。
また、木構造辞書を構成しているノードに属する単語の集合を単語グループと称する。
このように、ノードに属する単語が複数個である場合、当該ノードでの単語が未確定になるため、言語モデル(バイグラム:単語Aと単語Bの連鎖確率)の尤度を付与することができず、後述する照合処理部25におけるビームサーチが非効率になる。
これを避けるためには、当該ノードに属する全ての単語の言語尤度を計算し、全ての単語の言語尤度を比較して最も大きい言語尤度を当該ノードの言語スコアとして与えればよい。
P(Gj|Gi)=MAX(m=1,M,n=1,N)p(wjn|wim) (2)
因みに、先行単語グループGiに属する単語の個数が3個、後続単語グループGjに属する単語の個数が4個であれば、3×4=12通りの単語の組み合わせ中から、最大の単語バイグラムの選択を行うことになる。
しかし、単語グループ統計量算出部6の単語グループ間バイグラム算出部7が、先行単語の木構造辞書を構成している全てのノードに対応する先行単語グループGiと、後続単語の木構造辞書を構成している全てのノードに対応する後続単語グループGjとの全組み合わせについて、単語グループ間バイグラムP(Gj|Gi)を計算して、その単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するようにすると、テーブルサイズが膨大になる。
そこで、この実施の形態1では、単語グループ間バイグラム算出部7が保存対象の単語グループ間バイグラムP(Gj|Gi)を次のように制限している。
一方、後続単語グループGjについては、後続単語グループGjになり得る単語グループが、後続単語の木構造辞書を構成している全てのノードに対応する単語グループであるが、単語バイグラムが単語バイグラムテーブル3にエントリされていない単語だけが属している単語グループについては、計算対象の後続単語グループGjに含めても意味がないため(このような単語グループに係る単語グループ間バイグラムP(Gj|Gi)は0になり、連鎖確率をバックオフしなければ、以降、この単語グループに属する単語を音声認識に使用することができなくなる)、単語バイグラムが単語バイグラムテーブル3にエントリされている単語を1つ以上含んでいる単語グループに制限している。
同様に、計算対象の先行単語グループGiについても、単語バイグラムが単語バイグラムテーブル3にエントリされている単語を1つ以上含んでいる単語グループに制限している。
単語グループ間バイグラムP(Gj|Gi)は、上記の式(2)を計算することにより求めるが、式(2)の右辺における単語バイグラムp(wjn|wim)の計算において、単語wim又は単語wjnの単語バイグラムが単語バイグラムテーブル3にエントリされていない場合、下記の式(3)に示すように、単語wjnの単語ユニグラムp(wjn)を単語wimのバックオフ係数b(wim)でバックオフすることにより、単語バイグラムp(wjn|wim)を算出する。
p(wjn|wim)=b(wim)×p(wjn) (3)
P(Gj|Gi)=MAX(m=1,M)b(wim)×MAX(n=1,N)p(wjn)
(4)
このように、単語グループ毎に、単語グループ内の最大ユニグラムPmax(j)と最大バックオフ係数bmax(i)を保存しておけば、最大ユニグラムPmax(j)と最大バックオフ係数bmax(i)から単語グループ間バイグラムP(Gj|Gi)を算出することができるので、単語wim又は単語wjnの単語バイグラムが単語バイグラムテーブル3にエントリされていない単語グループ間の単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラム10に保存しておく必要がない。
因みに、単語グループ内の最大ユニグラムPmax(j)と最大バックオフ係数bmax(i)を保存する場合のエントリ数は、高々、単語グループ数の2倍であるため、メモリの消費量は僅かである。
単語グループ統計量算出部6の最大ユニグラム特定部8は、木構造辞書メモリ5に保存されている木構造辞書を構成しているノード毎に、当該ノードに属する1個以上の単語のユニグラムを比較して最大のユニグラムを特定する。
即ち、最大ユニグラム特定部8は、単語wjの単語ユニグラムp(wj)が単語バイグラムテーブル3に格納されているので、単語バイグラムテーブル3から当該ノードに属している単語の単語ユニグラムを取得し、それらの単語ユニグラムの中で最大の単語ユニグラムを特定する。
最大ユニグラム特定部8は、最大のユニグラムを特定すると、最大のユニグラムを単語グループ内最大ユニグラムテーブル11に保存する(ステップST1)。
即ち、最大バックオフ係数特定部9は、単語wiのバックオフ係数b(wi)が単語バイグラムテーブル3に格納されているので、単語バイグラムテーブル3から当該単語終端ノードに属している単語のバックオフ係数を取得し、それらのバックオフ係数の中で最大のバックオフ係数を単語グループ内最大バックオフ係数テーブル12に保存する(ステップST2)。
単語グループ間バイグラム算出部7は、単語wimと単語wjnの組み合わせにおいて、1つでも単語バイグラムp(wjn|wim)が単語バイグラムテーブル3にエントリされていれば(ステップST4)、上記の式(2)を計算することにより、単語グループ間バイグラムP(Gj|Gi)を算出する(ステップST5)。
単語グループ統計量算出部6は、全ての単語グループの組み合わせについて、ステップST4〜ST6の処理を繰り返し実施する(ステップST7)。
特徴ベクトル抽出部22は、入力端子21から入力された音声信号をA/D変換し、A/D変換後のデジタルの音声信号をフレームと呼ばれる短い時間区間毎に分割する。
特徴ベクトル抽出部22は、音声信号をフレーム単位に分割すると、例えば、LPC(Linear Predicitive Coding)法を用いて、フレーム毎に音響分析することにより、各フレームの特徴ベクトルX(t)を抽出する。
ただし、t=1,2,3,・・・,Tである。
言語スコア算出部24は、照合処理部25から先行単語グループGiのID番号「i」と後続単語グループGjのID番号「j」を受けると、先行単語グループGiのID番号「i」と後続単語グループGjのID番号「j」に対応する単語グループ間バイグラムP(Gj|Gi)が単語グループ間バイグラムテーブル10にエントリされているか否かを調査する(ステップST21)。
一方、先行単語グループGiのID番号「i」と後続単語グループGjのID番号「j」に対応する単語グループ間バイグラムP(Gj|Gi)が単語グループ間バイグラムテーブル10にエントリされていない場合(ステップST22)、単語グループ内最大ユニグラムテーブル11から後続単語グループGjの最大ユニグラムPmax(j)を取得し、最大バックオフ係数テーブル12から先行単語グループGiの最大バックオフ係数bmax(i)を取得する。
p(wjn|wim)MAX=bmax(i)×Pmax(j) (5)
言語スコア算出部24は、単語バイグラムp(wjn|wim)MAXを算出すると、下記の式(6)に示すように(式(6)は上記の式(4)に相当する)、単語バイグラムp(wjn|wim)MAXを単語グループ間バイグラムP(Gj|Gi)に割り当て、その単語グループ間バイグラムP(Gj|Gi)の対数値を言語スコアSl(j)として照合処理部25に出力する(ステップST24)。
P(Gj|Gi)=p(wjn|wim)MAX (6)
S(t,j)=Sa(t,j)+W×Sl(j) (7)
ここで、Wは予め実験的に定めた定数である。また、Sa(t,j)はノードjにおける音響スコアであり、音響スコアSa(t,j)は音響モデルを用いて、音声信号の特徴ベクトルX(t)と木構造辞書との間で、例えば、ビタビアルゴリムを実施してパターンマッチングを行うことにより得ることができる。
照合処理部25は、単語終端のノードがアクティブノードとなっている場合には、当該単語のID番号と先行単語履歴に対するポインタなどを単語履歴として保存する。
照合処理部25は、音声信号の入力が開始されてから、音声信号の終了フレームTまで、上記の音声認識処理を繰り返し実施すると、アクティブノード中で、照合スコアS(j,t)が最良の単語終端ノードから単語履歴をトレースバックすることによって単語ID番号列を取得し、その単語ID番号列を認識結果として出力する。
上記実施の形態1では、単語バイグラムテーブル3に保存されている単語バイグラムに適合する単語の組み合わせが存在する場合、単語グループ間バイグラム算出部7が単語グループ間バイグラムP(Gj|Gi)を算出して、その単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するものについて示したが、単語グループ間バイグラム算出部7が最大ユニグラム特定部8により特定された最大のユニグラムと最大バックオフ係数特定部9により特定された最大のバックオフ係数との積P2(Gj|Gi)が、単語グループ間バイグラムP(Gj|Gi)と異なる場合に限り、単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するようにしてもよい。
図5はこの発明の実施の形態2による音声認識装置の単語グループ間バイグラム等の算出処理を示すフローチャートである。
即ち、最大ユニグラム特定部8は、単語wjの単語ユニグラムp(wj)が単語バイグラムテーブル3に格納されているので、単語バイグラムテーブル3から当該ノードに属している単語の単語ユニグラムを取得し、それらの単語ユニグラムの中で最大の単語ユニグラムを特定する。
最大ユニグラム特定部8は、最大のユニグラムを特定すると、最大のユニグラムを単語グループ内最大ユニグラムテーブル11に保存する(ステップST1)。
即ち、最大バックオフ係数特定部9は、単語wiのバックオフ係数b(wi)が単語バイグラムテーブル3に格納されているので、単語バイグラムテーブル3から当該単語終端ノードに属している単語のバックオフ係数を取得し、それらのバックオフ係数の中で最大のバックオフ係数を単語グループ内最大バックオフ係数テーブル12に保存する(ステップST2)。
また、単語グループ間バイグラム算出部7は、下記の式(8)に示すように、最大ユニグラム特定部8により特定された最大のユニグラムp(wjn)と最大バックオフ係数特定部9により特定された最大のバックオフ係数b(wim)の積(以下、単語グループ間バイグラムP2(Gj|Gi)と称する)を算出する(ステップST11)。
P2(Gj|Gi)=MAX(m=1,M)b(wim)×MAX(n=1,N)p(wjn)
(8)
単語グループ統計量算出部6は、全ての単語グループの組み合わせについて、ステップST5〜ST6の処理を繰り返し実施する(ステップST7)。
bc(wjm1)×p(win1)≧p2max
かつ
単語列wim1,win1の単語バイグラムが存在しない
m1=ArgMAX(m=1,M)b(wim)
n1=ArgMAX(n=1,N)p(win)
また、p2maxは、単語バイグラムが存在する単語の組み合わせの中で、単語バイグラムの最大値である。
したがって、この実施の形態2における音声認識装置では、上記実施の形態1の音声認識装置における単語グループ間バイグラムテーブル10のサイズ削減効果を包括している。
さらに、先行単語グループGiと後続単語グループGj内の幾つかの単語の組み合わせで、単語バイグラムが存在する場合でも、上記の条件が成立する場合があり得る。
したがって、この実施の形態2の音声認識装置では、何ら近似を行うことなく、さらに単語グループ間バイグラムテーブル10のテーブルサイズを削減することができる効果を奏する。
上記実施の形態2では、単語グループ間バイグラム算出部7が最大ユニグラム特定部8により特定された最大のユニグラムと最大バックオフ係数特定部9により特定された最大のバックオフ係数との積P2(Gj|Gi)が、単語グループ間バイグラムP(Gj|Gi)と異なる場合に限り、単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するものについて示したが、最大ユニグラム特定部8により特定された最大のユニグラムと最大バックオフ係数特定部9により特定された最大のバックオフ係数との積P2(Gj|Gi)の対数値と、単語グループ間バイグラムP(Gj|Gi)の対数値との差の絶対値D(j,i)が所定の閾値以上である場合に限り、単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するようにしてもよい。
図6はこの発明の実施の形態3による音声認識装置の単語グループ間バイグラム等の算出処理を示すフローチャートである。
単語グループ統計量算出部6の最大バックオフ係数特定部9は、上記実施の形態1,2と同様にして、単語グループ内のバックオフ係数b(wim)の中で最大のバックオフ係数b(wim)を特定し、最大のバックオフ係数b(wim)を単語グループ内最大バックオフ係数テーブル12に保存する(ステップST2)。
また、単語グループ間バイグラム算出部7は、上記実施の形態2と同様にして、上記の式(8)を計算することにより、最大ユニグラム特定部8により特定された最大のユニグラムp(wjn)と最大バックオフ係数特定部9により特定された最大のバックオフ係数b(wim)の積である単語グループ間バイグラムP2(Gj|Gi)を算出する(ステップST11)。
D(j,i)
=ABS{log(P(Gj|Gi))−log(P2(Gj|Gi))} (9)
単語グループ統計量算出部6は、全ての単語グループの組み合わせについて、ステップST5〜ST22の処理を繰り返し実施する(ステップST7)。
なお、この実施の形態3では、式(2)で計算される正確な単語グループ間バイグラムの値を式(8)式で計算される単語グループ間バイグラムの値で代用することになるが、上述した通り、式(2)と式(8)の差が所定の閾値未満のものだけを代用するので、認識性能に及ぼす影響を小さく抑えることができる。
上記実施の形態3では、最大ユニグラム特定部8により特定された最大のユニグラムと最大バックオフ係数特定部9により特定された最大のバックオフ係数との積P2(Gj|Gi)の対数値と、単語グループ間バイグラムP(Gj|Gi)の対数値との差の絶対値D(j,i)が所定の閾値以上である場合に限り、単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するものについて示したが、最大ユニグラム特定部8により特定された最大のユニグラムと最大バックオフ係数特定部9により特定された最大のバックオフ係数との積P2(Gj|Gi)の対数値と、単語グループ間バイグラムP(Gj|Gi)の対数値との差の絶対値D(j,i)が大きい上位N個の単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するようにしてもよい。
図7はこの発明の実施の形態4による音声認識装置の単語グループ間バイグラム等の算出処理を示すフローチャートである。
そして、単語グループ間バイグラム算出部7は、差の絶対値D(j,i)が大きい上位N個のエントリを特定し、中間ワークエリアから上位N個のエントリ(先行単語グループGiのID番号「i」、後続単語グループGjのID番号「j」、単語グループ間バイグラムP(Gj|Gi))のみを取得して、上位N個のエントリを単語グループ間バイグラムテーブル10に保存する(ステップST31)。
なお、この実施の形態4では、式(2)で計算される正確な単語グループ間バイグラムの値を式(8)式で計算される単語グループ間バイグラムの値で代用することになるが、上述した通り、式(2)と式(8)の差が大きい上位N個のエントリは、式(2)で計算される正確な単語グループ間バイグラムの値を用いるので、認識性能に及ぼす影響を小さく抑えることができる。
Claims (4)
- 学習用データを用いて統計言語モデルである単語バイグラムを学習する学習手段と、認識対象の単語が木構造で表現されている木構造辞書と、先行単語の木構造辞書を構成している終端ノードと後続単語の木構造辞書を構成しているノードに属する単語の組み合わせの中に、上記学習手段により学習された単語バイグラムに適合する単語の組み合わせが存在すれば、先行単語の木構造辞書を構成している終端ノードに属する単語群と後続単語の木構造辞書を構成しているノードに属する単語群との単語群間バイグラムを算出する単語群間バイグラム算出手段と、音声信号をフレーム単位で音響分析して、各フレームの特徴ベクトルを抽出する特徴ベクトル抽出手段と、上記単語群間バイグラム算出手段により算出された単語群間バイグラムを用いて言語スコアを算出し、その言語スコアと上記特徴ベクトル抽出手段により抽出された特徴ベクトルから照合スコアを算出する照合手段とを備え、
上記単語群間バイグラム算出手段は、上記学習手段により学習された単語バイグラムに適合する単語の組み合わせが存在する場合、単語の組み合わせに対応する単語バイグラムの中で最大の単語バイグラムを単語群間バイグラムとして単語群間バイグラムテーブルに保存すると共に、
木構造辞書を構成しているノード毎に、当該ノードに属する1個以上の単語のユニグラムを比較して最大のユニグラムを特定する最大ユニグラム特定手段と、上記木構造辞書を構成している終端ノード毎に、当該終端ノードに属する1個以上の単語のバックオフ係数を比較して最大のバックオフ係数を特定する最大バックオフ係数特定手段とを設け、先行単語の木構造辞書を構成している終端ノードに属する単語群と後続単語の木構造辞書を構成しているノードに属する単語群との単語群間バイグラムが単語群間バイグラムテーブルに保存されていない場合、照合手段が上記最大ユニグラム特定手段により特定された最大のユニグラムと上記最大バックオフ係数特定手段により特定された最大のバックオフ係数から単語群間バイグラムを算出することを特徴とする音声認識装置。 - 単語群間バイグラム算出手段は、最大ユニグラム特定手段により特定された最大のユニグラムと最大バックオフ係数特定手段により特定された最大のバックオフ係数との積が、単語の組み合わせに対応する単語バイグラムの中の最大の単語バイグラムと異なる場合に限り、最大の単語バイグラムを単語群間バイグラムとして単語群間バイグラムテーブルに保存することを特徴とする請求項1記載の音声認識装置。
- 単語群間バイグラム算出手段は、最大ユニグラム特定手段により特定された最大のユニグラムと最大バックオフ係数特定手段により特定された最大のバックオフ係数との積の対数値と、単語の組み合わせに対応する単語バイグラムの中の最大の単語バイグラムの対数値との差の絶対値が所定の閾値以上である場合に限り、最大の単語バイグラムを単語群間バイグラムとして単語群間バイグラムテーブルに保存することを特徴とする請求項1記載の音声認識装置。
- 単語群間バイグラム算出手段は、最大ユニグラム特定手段により特定された最大のユニグラムと最大バックオフ係数特定手段により特定された最大のバックオフ係数との積の対数値と、単語の組み合わせに対応する単語バイグラムの中の最大の単語バイグラムの対数値との差の絶対値が大きい上位数個の最大の単語バイグラムを単語群間バイグラムとして単語群間バイグラムテーブルに保存することを特徴とする請求項1記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006053453A JP4689497B2 (ja) | 2006-02-28 | 2006-02-28 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006053453A JP4689497B2 (ja) | 2006-02-28 | 2006-02-28 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007232967A JP2007232967A (ja) | 2007-09-13 |
JP4689497B2 true JP4689497B2 (ja) | 2011-05-25 |
Family
ID=38553637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006053453A Active JP4689497B2 (ja) | 2006-02-28 | 2006-02-28 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4689497B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2453366B (en) * | 2007-10-04 | 2011-04-06 | Toshiba Res Europ Ltd | Automatic speech recognition method and apparatus |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002358097A (ja) * | 2001-06-01 | 2002-12-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2005265967A (ja) * | 2004-03-16 | 2005-09-29 | Advanced Telecommunication Research Institute International | 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム |
JP2006053203A (ja) * | 2004-08-10 | 2006-02-23 | Sony Corp | 音声処理装置および方法、記録媒体、並びにプログラム |
-
2006
- 2006-02-28 JP JP2006053453A patent/JP4689497B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002358097A (ja) * | 2001-06-01 | 2002-12-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2005265967A (ja) * | 2004-03-16 | 2005-09-29 | Advanced Telecommunication Research Institute International | 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム |
JP2006053203A (ja) * | 2004-08-10 | 2006-02-23 | Sony Corp | 音声処理装置および方法、記録媒体、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2007232967A (ja) | 2007-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
JP2001242884A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
JPH01167898A (ja) | 音声認識装置 | |
JP2001249684A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
US20110224985A1 (en) | Model adaptation device, method thereof, and program thereof | |
Kipyatkova et al. | Recurrent neural network-based language modeling for an automatic Russian speech recognition system | |
JP3444108B2 (ja) | 音声認識装置 | |
JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2886121B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP4689497B2 (ja) | 音声認識装置 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP4987530B2 (ja) | 音声認識辞書作成装置および音声認識装置 | |
JP2965529B2 (ja) | 音声認識装置 | |
Smaïli et al. | An hybrid language model for a continuous dictation prototype. | |
JP2968792B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Puurula et al. | Vocabulary decomposition for Estonian open vocabulary speech recognition | |
Taguchi et al. | Learning lexicons from spoken utterances based on statistical model selection | |
JP3894419B2 (ja) | 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH10254480A (ja) | 音声認識方法 | |
Sawada et al. | Re-Ranking Approach of Spoken Term Detection Using Conditional Random Fields-Based Triphone Detection | |
JP2000250583A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Wang et al. | Handling OOVWords in Mandarin Spoken Term Detection with an Hierarchical n‐Gram Language Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070926 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080627 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080925 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4689497 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140225 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |