JP6078435B2 - 記号列変換方法、音声認識方法、それらの装置及びプログラム - Google Patents
記号列変換方法、音声認識方法、それらの装置及びプログラム Download PDFInfo
- Publication number
- JP6078435B2 JP6078435B2 JP2013170114A JP2013170114A JP6078435B2 JP 6078435 B2 JP6078435 B2 JP 6078435B2 JP 2013170114 A JP2013170114 A JP 2013170114A JP 2013170114 A JP2013170114 A JP 2013170114A JP 6078435 B2 JP6078435 B2 JP 6078435B2
- Authority
- JP
- Japan
- Prior art keywords
- symbol string
- hypothesis
- state
- probability
- symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
記号列モデルを表すバックオフNグラムモデルのWFSTは事前に構築せず、入力記号列が与えられ、その記号列変換を行う過程で、必要な状態番号や状態遷移を必要な時にバックオフNグラムモデルからWFSTに変換して取り出す。
第一実施形態について説明する前に、その前提となる知識について説明する。
WFSTは、(1)状態と、(2)状態から状態へと遷移できることを表す状態遷移、(3)状態遷移において受理される入力記号、(4)その際に出力される出力記号、及び、(5)その状態遷移の重みの集合によって定義される。WFSTは、ある入力記号列が与えられたときに、初期状態からその入力記号列の記号を順に受理する状態遷移に従って出力記号を出力しながら状態遷移を繰り返し、終了状態に達すると終了するモデルである。形式的にはWFSTは次の8つの組(Q,Σ,△,i,F,E,λ,ρ)によって定義される。
1.Qは有限の状態の集合。
2.Σは入力記号の有限の集合。
3.△は出力記号の有限の集合。
4.i∈Qは初期状態。
5.F∈Qは終了状態の集合。
6.E∈Q×Σ×△×Qは、現状態から入力記号により、出力記号を出力して次状態に遷移する状態遷移の集合。
7.λは初期重み。
8.ρ(q)は終了状態qの終了重み。q∈F。
図1において、10は、マル(“○”)で表された状態を示しており、そのマルの中の数字はその状態の番号を表している。11は、二重マル(“◎”)で表された終了状態を示しており、その二重マルの中の数字は、その終了状態の番号と状態遷移が終了して最後に累積される終了重みが“(状態番号)/(終了重み)”のように表されている。以後、状態の番号を用いて状態を指し示す場合は、単に状態とその番号を用いて“状態0”や“状態3”のように称す。12は、各状態を結ぶ矢印(“→”)で表された状態遷移を示しており、各々の状態遷移に付与された記号や数字は、その状態遷移に関連付けられた入力記号、出力記号、重みを“(入力記号):(出力記号)/(重み)”のように表したものである。
まず、本明細書において、“仮説”とは、ある記号列を構成する記号が順に入力され(読み込まれ)、現時点までに読み込まれた入力記号列に対して、WFSTにおいて初期状態からその入力記号列によって状態遷移を繰り返した場合の可能性のある一つの状態遷移過程を表すものとする。
まず、WFSTのある状態遷移をeと表すとき、n[e]を遷移先の状態(次状態)、i[e]を入力記号、o[e]を出力記号、w[e]を重みと定義する。また、ある仮説をhと表わすとき、s[h]をその状態遷移過程において到達している状態、W[h]をその状態遷移過程における累積重み、O[h]をその状態遷移過程において出力されている記号列とする。
以下、WFSTを用いる記号列変換の例(図3)の各部がどのような手順で処理を行うか、図4を用いて説明する。
ステップS110では、仮説リストH=φ(すべての仮説を展開済み)であればS111に進む。そうでなければS106に戻り、次の仮説hを展開する。
ステップS111では、新たに生成された仮説リストH’の要素を、すでに空となった仮説リストHにすべて移し、S112に進む。
ステップS113では、仮説リストHの中で終了状態に到達している仮説の累積重みにその終了状態の終了重みを加えた後で、その終了状態に到達している仮説の中から累積重み(W[h])が最小となる仮説hを選び、その出力記号列O[h]を記号列変換結果として、記号列出力部106が出力する。
ステップS114にてWFSTを用いる記号列変換手順を終了する。
この記号列変換手順に従って、図1のWFSTに入力記号列a,a,b,cが与えられた場合の出力記号列を求める過程を順を追って説明する。但し、ここでは、現状態番号s、出力記号列O、累積重みWの仮説がある場合、その仮説を(s,O,W)のように表すものとする。また、WFSTのある状態遷移(現状態番号s、次状態番号n、入力記号x、出力記号y、重みw)を<s→n,x:y/w>と表すものとする。また、この例では、累積重みが最小の状態遷移過程に対応する出力記号列を記号列変換結果として選択するものとする。
S103により仮説リストHの中の仮説(0,φ,0)を挿入する。
S104で記号aを読み込みxと置く。S105において仮説リストHから仮説(0,φ,0)を取り出す。この仮説の現状態0から入力記号がaに等しい状態遷移<0→0,a:d/0.5>を含む状態遷移リストEを作る(図1参照)。
S106で状態遷移リストE=φではないのでS107に進み、状態遷移<0→0,a:d/0.5>を取り出し、S108で新たな仮説(0,d,0.5)を生成し、S109で仮説リストH’に挿入する。
S106に戻り、状態遷移リストE=φであるためS110に進み、仮説リストH=φであるためS111に進む。仮説リストH’の要素(0,d,0.5)を仮説リストHに移し、S112で次の入力記号が存在するのでS104に戻る。
S106でE=φではないのでS107に進み、状態遷移リストEから状態遷移<0→0,a:d/0.5>を取り出す。S108で新たな仮説(0,dd,1)を生成し、S109で仮説リストH’に挿入する。
S106に戻り、状態遷移リストE=φであるためS110に進み、仮説リストH=φであるためS111に進む。仮説リストH’の要素(0,dd,1)を仮説リストHに移し、S112で次の入力記号が存在するのでS104に戻る。
続いて、S104で記号bを読み込みxと置く。S105において仮説リストHから仮説(0,dd,1)を取り出す。この仮説の現状態0から入力記号がbに等しい状態遷移<0→1,b:c/0.3>と<0→2,b:b/1>とを含む状態遷移リストEを作る。
S106で状態遷移リストE=φではないのでS107に進み、状態遷移リストEから、一つ目の状態遷移<0→1,b:c/0.3>を取り出す。S108で新たな仮説(1,ddc,1.3)を生成し、S109で仮説リストH’に挿入する。
S106に戻り、状態遷移リストE=φではないのでS107に進み、状態遷移リストEから二つ目の状態遷移<0→2,b:b/1>を取り出す。S108で新たな仮説(2,ddb,2)を生成して、S109で仮説リストH’に挿入する。
S106に戻り状態遷移リストE=φであるためS110に進み、仮説リストH=φであるためS111に進み、仮説リストH’の要素(1,ddc,1.3)と(2,ddb,2)とは仮説リストHに移され、S112で次の入力記号が存在するのでS104に戻る。
続いて、S104で記号cを読み込みxと置く。S105において仮説リストHから一つ目の仮説(1,ddc,1.3)を取り出す。この仮説の現状態1から入力記号がcに等しい状態遷移<1→3,c:b/1>を含む状態遷移リストEを作る。
S106でE=φではないのでS107に進み、状態遷移リストEから状態遷移<1→3,c:b/1>を取り出す。S108で新たな仮説(1,ddcb,2.3)を生成し、S109で仮説リストH’に挿入する。
S106で状態遷移リストE=φではないのでS107に進み、状態遷移リストEから状態遷移<2→3,c:a/0.6>を取り出す。S108で新たな仮説(3,ddba,2.6)を生成し、S109で仮説リストH’に挿入する。このとき、仮説リストH’の中には既に仮説(3,ddcb,2.3)が含まれており、仮説(3,ddba,2.6)は同じ状態3に到達しているので、累積重みの小さい仮説(3,ddcb,2.3)を残し、仮説(3,ddba,2.6)は仮説リストH’から削除する。
S113で、仮説リストH内の仮説(3,ddcb,2.3)の到達状態3は終了状態であるため、終了重みを加えて(3,ddcb,2.8)とし、この仮説が終了状態に到達した唯一の仮説であり、累積重みが最小となるので、その出力記号列ddcbを変換結果として出力し、S114で記号列変換処理を終了する。
一方、記号列のN個連鎖確率を計算するNグラムモデルをWFSTに変換して、それを記号列変換に利用する方法がある。
まず、記号列w1,w2,…,wLがあるときにこれをw1 Lと表すものとする。またj番目からk番目までの記号列wj,…,wkをwj kと表し、特にj=kのときはwj k=wj=wk、j>kのときはwj k=εとする。なお、εは存在しないこと、何もないことを表す記号である。
個々のNグラム確率を推定するには、まず大量の記号列データ(例えば新聞記事コーパスなど)を用意し、それから記号列の連鎖統計を取ることで予め求めておくことができる。
そこで、Nグラム確率がゼロにならないよう、N個の記号からなる記号列のNグラム確率が0になってしまう場合は、N-1グラム確率を用い、さらに、N-1グラム確率が0になってしまう場合は、N-2グラム確率、というようにバックオフ(後退)する方法が用いられる。このようなNグラムモデルはバックオフNグラムモデルと呼ばれている。ただし、記号列の頻度が0でなくても、極端に小さい場合(例えば、10,0003通りの記号列に対して、頻度が1や2の場合)は(4)式で推定される確率値の信頼性が低下することから、記号列の頻度をあえて0と見なし(これをカットオフと言う)、強制的にバックオフさせる場合もある。
ここで、P*(wi│wi-N+1 i-1)は、式(4)のように頻度から推定されるNグラム確率を少し小さくした値である。このように確率を小さく見積もることをディスカウントと呼ぶ。本来、確率が0であるNグラムに対してバックオフによるN-1グラム確率を割り当てると、確率の総和が1を超えてしまう。そこで、確率の総和を1にするため、Nグラム確率をディスカウントし、ディスカウントによって生じた確率の残りをバックオフ用に割り当てる。そして、α(wi-N+1 i-1)はバックオフする際にN-1グラム確率に掛けるバックオフ係数である。ディスカウントされた確率とバックオフ係数を求める方法として、Good-Turing法、Witten-Bell法、Kneser-Ney法などが知られている。
次に、バックオフNグラムモデルをWFSTに変換する方法を示す。
基本的にはバックオフNグラムモデルが保持するN-1個の記号からなる順列の各々をWFSTの一つの状態に割り当て、各状態遷移にはN-1個の記号からなる順列の次に生起する可能性のある記号を入力記号および出力記号とし、そのNグラム確率(の対数の負値)を重みとして、対応する遷移先の状態に接続する。例えば、トライグラムモデルにおいて記号列abに対応する状態から記号列bcに対応する状態への状態遷移は、入力記号および出力記号がc、重みが-logP*(c│ab)となる(図5参照)。
ステップ1:記号εに対応する状態S(ε)を作り、i=S(ε)とし、状態集合Q、終了状態集合Fに加える。
ステップ2:n=1,…,N-1について、ステップ3を繰り返す。
ステップ3:登録されたnグラム確率P(wn│w1 n-1)の各々について、ステップ3.1〜3.3
を繰り返す。
ステップ3.2:状態遷移<S(w1 n-1)→S(w1 n),wn:wn/-logP(wn│w1 n-1)>を作る。
ステップ3.3:バックオフ用の状態遷移<S(w1 n)→S(w2 n),ε:ε/-logα(w1 n)>を作る。
ステップ4:登録されたNグラム確率P(wN│w1 N-1)の各々について、状態遷移<S(w1 N-1)→S(w2 N),wN:wN/-logP(wN│w1 N-1)>を作る。
但し、S(x)は記号列xを対応する状態番号に写像する関数である。
この手順で構築されたWFSTを用いれば、図4の手順に従って記号列を変換することができる。
〔第一実施形態〕
図8は第一実施形態に係る記号列変換装置100の機能ブロック図を示す。
記号列モデル格納部807には、Lグラム確率と、各記号列w1 L'に対するバックオフ係数α(w1 L')とが対応付けて記憶されている。ただし、L=1,2,…,N、L'=1,2,…,N-1である。各記号列w1 L'は、L'グラム確率に対応するものである。例えば、N=3のとき、トライグラム確率P(wi│wi-2 i-1)、バイグラム確率P(wi│wi-1)及びユニグラム確率P(wi)と、バイグラム確率P(wi│wi-1)に対応するバックオフ係数α(wwi-2 i-1)及びユニグラム確率P(wi)に対応するバックオフ係数α(wi)とが記憶されている。Lグラム確率は、N個(Nは正整数)以下の記号からなる記号列w1 L(1≦L≦N)の出現確率P(w1 L)を用いて式(4)により計算することができる(ただし、式(4)において出現回数に代えて出現確率を用いる)。また、バックオフ係数α(w1 L')は、式(6)により求めることができる。例えば、図12のようなテーブル形式で記憶されているものとする。図12については後で詳述する。なお、図12では、記号列wi-L+1 i-1に依存して記号wiが生起する確率P(wi│wi-L+1 i-1)を少し小さくした(補正した)値P*(wi│wi-L+1 i-1)が格納されているが、P*(wi│wi-L+1 i-1)の代わりにP(wi│wi-L+1 i-1)が記憶されていてもよい。P(wi│wi-L+1 i-1)及びP*(wi│wi-L+1 i-1)を、遷移元の状態qに対応する記号列wi-L+1 i-1に依存して入力された記号wiが生起する確率に対応する第1確率ともいう。
仮説展開部804は、記号列取得部103から記号xを受け取り、状態遷移集合取得部で取得した遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮設を更新し、その累積重みとともに仮説絞込み部105に出力する。
初期状態取得手段808は、仮説展開部804の求めに応じてWFSTの初期状態を生成し、仮説展開部804に出力する。これは、図4のS103における初期状態の要求s[h]=iに対応する処理であり、一つの状態番号(例えばi=0)を返す。そして、生成した初期状態の状態番号s[h]を仮説展開部804に送る。また、記号列wを状態番号qに一意に写像する関数q=S(w)およびその逆関数w=S-1(q)を用意し、S(ε)=0およびS-1(0)=εとする。なお、この関数S及びS-1は予め外部から与えられていてもよい。関数の例は後述する。
状態遷移集合取得手段809は、入力された状態番号qと入力記号xと受け取り、これらの値を用いて、状態番号qから入力記号xで遷移可能な状態遷移の集合Eを図9の手順に従って求める。
終了状態判定手段810は、仮説展開部804で生成された仮説リスト(仮説の集合)Hを受け取り、仮説の集合Hの中の個々の仮説hが到達した状態s[h]が終了状態か否か、すなわちs[h]∈Fか否かを判定する。例えば状態S(ε)=0が唯一の終了状態とするなら、s[h]=0なら終了状態、s[h]≠0なら終了状態ではない、という判定をしても良い。これは、図4のS113の処理に相当する。終了状態判定手段810は、判定結果を仮説展開部804に出力する。
仮説絞込み部105は、仮説展開部804で生成された仮説の集合を受け取り、同じ状態に到達している仮説の中で累積重みが最小または最大となる仮説から所定数の仮説以外の仮説を削除することにより仮説を絞り込む。そして、入力記号列が最後まで読み込まれていれば、その終了状態に到達している仮説の中から累積重み(W[h])が最小または最大となる仮説hを選び、その出力記号列O[h]を記号列変換結果として、記号列出力部106に送る。入力記号列が最後まで読み込まれていない場合には、絞り込み後の仮説の集合を仮説展開部804へ送る。
記号列出力部106では、仮説絞込み部105から受け取った出力記号列を記号列変換結果として出力する。
次に、記号列w1 kに対応する状態S(w1 k)を効率的に求める方法を説明する。例えば、記号列モデルの個々の確率が図12(バックオフトライグラムの場合)のようにコンピュータのメモリ上に配置されていると仮定する。ここで、ユニグラム確率のテーブルには、M個の記号vm(m=1〜M)が登録されており、その各エントリには、記号のid番号m、ユニグラム確率P(vm)、バックオフ係数α(vm)および後に続くバイグラムが格納されたエントリの先頭を指すポインタnextが含まれている。図12の例では、ユニグラムの各ポインタは矢印で後に続くバイグラムが格納されたエントリの先頭を指している。またバイグラムのテーブルには同様に、記号のid番号n、バイグラム確率P(vn|vm)、バックオフ係数α(vmvn)および後に続くトライグラムが格納されたエントリの先頭を指すポインタnextが含まれている。但し、後に続く記号がない場合は、nextにnullを代入する。これは図12では矢印のないエントリはこの場合に相当する。更に、トライグラムのテーブルには、記号のid番号rとトライグラム確率P(vr|vmvn)が含まれている。従って、任意の3つの記号のid番号m,n,rの順列が与えられた場合は、ユニグラムのm番目のエントリからそのnextが指すバイグラムテーブルのエントリからm+1番目のユニグラムエントリのnextが指すバイグラムテーブルのエントリの手前まで、id番号nに一致するバイグラムエントリを探す。id番号nに一致するバイグラムエントリが見つかれば、そのnextが指すトライグラムテーブルのエントリからn+1番目のバイグラムエントリのnextが指すトライグラムテーブルのエントリの手前まで、id番号rに一致するトライグラムエントリを探す。もしユニグラムから順に辿る過程で一致するid番号が見つからない場合は、3つのid番号m,n,rからなる順列(m,n,r)を2つのid番号からなる順列(n,r)にして、ユニグラムテーブルのエントリからid番号nに一致するユニグラムエントリのnextが指すバイグラムテーブルのエントリからid番号nに一致するユニグラムエントリの次のユニグラムエントリのnextが指すバイグラムテーブルのエントリの手前まで、id番号rに一致するバイグラムエントリを探す。見つかればその確率に累積バックオフ係数を掛けた値をトライグラム確率として返す。見つからなければ、2つのid番号からなる順列(n,r)を1つのid番号からなる順列(r)にして、ユニグラムエントリテーブルからid番号rに一致するユニグラムエントリを探索し、その確率に累積バックオフ係数を掛けた値をトライグラム確率として返す。
状態番号=(見つかったエントリのアドレス − ユニグラムの最初のエントリのアドレス)
÷(N-1グラムまでのエントリ1個分のメモリサイズ) +1
・・・(1)
として求めることができる。これが関数Sの例である。逆に、状態番号に対応するエントリは、エントリのアドレス=(状態番号−1)
×(N-1グラムまでのエントリ1個分のメモリサイズ)
+ユニグラムの最初のエントリのアドレス
・・・(2)
で求められる。これにより、任意の状態番号qに対応する記号列S-1(q)も効率的に求めることができる。
記号列モデル格納部807には、Lグラム確率に代えて記号列の出現確率(生起確率)を記憶しておいてもよい。Lグラム確率を必要とする各部は、記号列の出現確率を用いて、式(4)により、Lグラム確率を計算すればよい。
第二実施形態では、本発明を音声認識に適用する例を説明する。
記号列モデルはバックオフトライグラム言語モデルとし、図12に示すようなデータ構造でメモリに格納される。
音声を入力する音声信号入力部1303から送られた音声信号はその音声の短時間音響パターンの時系列を記号列として抽出する音声特徴記号列抽出部1304において音響特徴記号列に変換し、その音響特徴記号列を入力として記号列変換を行う記号列変換部1305に送る。
記号列変換部1305は、仮説展開部1306、仮説補正部1311及び仮説絞込み部1312を含む。
MFCCと呼ばれる)、デルタMFCC、LPCケプストラム、対数パワーなどがある。
仮説展開部1306は、音響特徴記号列抽出部1304から送られた音響特徴記号列の記号を一つずつ読み込む。次に、仮説展開部1306は、単語辞書WFSTを用いて、現在の仮説の集合の各々に新しい状態遷移を追加する。
仮説補正部1311は、新しい状態遷移を追加された仮説の集合を受け取る。仮説補正部1311は、バックオフトライグラム言語モデル格納部1307のバックオフトライグラム言語モデルを参照しながら、初期状態取得手段1308、状態遷移集合取得手段1309、終了状態取得手段1310によって、仮説展開部1306から受け取った個々の仮説の累積重みを補正する。
仮説絞込み部1312は、仮説補正部1311で生成された仮説の集合を受け取り、同じ状態に到達している仮説の中で累積重みが最小または最大となる仮説から所定数の仮説以外の仮説を削除することにより仮説を絞り込む。そして、入力記号列が最後まで読み込まれていれば、その終了状態に到達している仮説の中から累積重みが最小または最大となる仮説を選び、その出力記号列を記号列変換結果として、記号列出力部1313に送る。入力記号列が最後まで読み込まれていない場合には、累積重みの大きい所定数の仮説を削除して、絞り込んだ後、残った仮説の集合を仮説展開部1306へ送る。
最後の音声特徴記号を読み込んだ後に、仮説絞込み部1312において累積重み最小の仮説とその出力記号列を求め、記号列出力部1313に送る。
記号列出力部1313は、受け取った出力記号列を音声認識結果として出力する。
このような構成により、本発明を音声認識に利用することができる。
第一実施形態の状態遷移集合取得手段809において確率値P(x│wj k)を計算する際に、現在の話題に依存したユニグラム確率分布PT(x)を導入し、この確率分布に基づいて例えば、
P^'(x│wj k)=λPT(x)+(1-λ)P(x│wj k) (7)
のように確率値を現在の話題に応じて動的に更新してもよい。例えば、最近話された単語の頻度からユニグラム確率分布PT(x)を推定しても良い。ここで、λは、話題に依存したユニグラム確率と話題に依存しないNグラム確率のバランスを取る係数であり、0≦λ≦1とする。
図13に示す形態で音声認識システムを構築した。音響モデルには、43種類の音素に対するHMMを用意し、各音素ごとに3つの状態があり、各状態にはその音素のコンテキスト(前にある音素は何か、後ろに続く音素は何か)に応じて3011種類ある音響パターンの確率密度分布の内の一つが割り当てられている。これら確率密度分布のId番号を音声固定単位とした。
PT(wi)=Pcache(wi│w1 (i-1))=(CK(wi))/K (8)
(参考文献1)R. Kuhn and R. De Mori著, “A cache-based natural language model for speech recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 12, no.6, pp. 570-583, 1990
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (8)
- 入力記号列を出力記号列に変換する記号列変換方法であって、
前記入力記号列の先頭から順に1つずつ記号を取得する記号列取得ステップと、
前記記号列取得ステップで取得した記号と現在の仮説の集合の各仮説が到達している状態を特定する情報である状態情報とを入力として、1つ以上の記号からなる記号列の生起確率または連鎖確率が記号列モデルとして記憶されている記号列モデル格納部を参照して、前記現在の仮説が到達している状態を遷移元として、当該遷移元から遷移可能な状態遷移およびその状態遷移確率を取得する状態遷移集合取得ステップと、
前記状態遷移集合取得ステップで取得した前記遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮説を更新する仮説展開ステップと、
前記仮説展開ステップで更新した仮説の集合のうち同じ状態に到達している仮説の中で累積重みが最大または最小となるものから所定数の仮説以外の仮説を削除することにより仮説を絞り込み、前記記号列取得ステップにおいて前記入力記号列が最後まで読み込まれていれば、終了状態に到達している仮説の中から前記累積重みが最大または最小となる仮説を前記出力記号列として求める仮説絞り込みステップと、
を含む記号列変換方法。 - 請求項1記載の記号列変換方法であって、
前記連鎖確率は、ある記号が生起する確率、及び、1以上の記号からなる記号列に依存してある記号が生起する確率であり、
前記記号列モデル格納部には、前記連鎖確率に加えて、各連鎖確率に対応する記号列のバックオフ係数が対応付けて記憶されており、
前記状態遷移集合取得ステップは、
累積バックオフ係数の初期値を設定する初期値設定ステップと、
前記遷移元の状態に対応する記号列に依存して前記入力された記号が生起する確率に対応する第1確率が前記記号列モデル格納部に存在する場合に、その第一確率を取得する第1確率取得ステップと、
前記第1確率が存在しない場合、または、所定の閾値より小さい場合に、前記遷移元の状態に対応する記号列のバックオフ係数を前記記号列モデル格納部から取得し、取得したバックオフ係数を前記累積バックオフ係数に乗じることにより、前記累積バックオフ係数を更新する累積バックオフ係数更新ステップと、
前記第1確率が存在する場合、または、所定の閾値以上の場合に、前記第1確率と前記累積バックオフ係数との積に対応する値である第2確率を、前記現在の仮説の集合の各仮説が到達している状態から前記入力された記号へ遷移する状態遷移の状態遷移確率として設定する状態遷移確率設定ステップと、
を含む、記号列変換方法。 - 請求項1または2記載の記号列変換方法において、
前記記号列モデル格納部に含まれる全ての記号列の情報とその連鎖確率をコンピュータのメモリ上に連続させて格納されており、
各記号列のメモリアドレス番号から任意の起点となるアドレス番号を差し引いた相対アドレス番号に比例する値をもって前記状態情報とする、
記号列変換方法。 - 請求項1乃至3の何れかに記載の記号列変換方法において、
前記記号列モデルに対応するWFSTとは別の一つ以上のWFSTを用いて前記入力記号列とは別の入力記号列である第2入力記号列を変換することにより得た仮説の集合に含まれるいずれかの仮説の状態遷移過程から出力される記号列が、前記記号列モデルに対する入力記号列である、
記号列変換方法。 - 音声から得られる音響特徴記号列を音声認識結果に変換する音声認識方法であって、
前記音響特徴記号列の先頭から順に1つずつ記号を取得する記号列取得ステップと、
音響モデルによって計算される音響特徴記号のスコアを、重みとして用いる単語辞書WFSTを参照して、現在の仮説の集合の各々に新しい状態遷移を追加する仮説展開ステップと、
前記仮説展開ステップで状態遷移を追加された仮説の集合の各々の状態遷移過程から出力される記号列と、現在の仮説の集合の各仮説が到達している状態を特定する情報である状態情報とを入力として、1つ以上の記号からなる記号列の生起確率または連鎖確率が記号列モデルとして記憶されている言語モデル格納部を参照して、前記現在の仮説が到達している状態を遷移元として、当該遷移元から遷移可能な状態遷移およびその状態遷移確率を取得する状態遷移集合取得ステップと、
前記状態遷移集合取得ステップで取得した前記遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮説を更新する仮説補正ステップと、
前記仮説展開ステップで更新した仮説の集合のうち同じ状態に到達している仮説の中で累積重みが最大または最小となるものから所定数の仮説以外の仮説を削除することにより仮説を絞り込み、前記記号列取得ステップにおいて前記音響特徴記号列が最後まで読み込まれていれば、終了状態に到達している仮説の中から前記累積重みが最大または最小となる仮説を前記音声認識結果として求める仮説絞り込みステップと、
を含む音声認識方法。 - 入力記号列を出力記号列に変換する記号列変換装置であって、
前記入力記号列の先頭から順に1つずつ記号を取得する記号列取得部と、
前記記号列取得部で取得した記号と現在の仮説の集合の各仮説が到達している状態を特定する情報である状態情報とを入力として、1つ以上の記号からなる記号列の生起確率または連鎖確率が記号列モデルとして記憶されている記号列モデル格納部を参照して、前記現在の仮説が到達している状態を遷移元として、当該遷移元から遷移可能な状態遷移およびその状態遷移確率を取得する状態遷移集合取得部と、
前記状態遷移集合取得部で取得した前記遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮説を更新する仮説展開部と、
前記仮説展開部で更新した仮説の集合のうち同じ状態に到達している仮説の中で累積重みが最大または最小となるものから所定数の仮説以外の仮説を削除することにより仮説を絞り込み、前記記号列取得部において前記入力記号列が最後まで読み込まれていれば、終了状態に到達している仮説の中から前記累積重みが最大または最小となる仮説を前記出力記号列として求める仮説絞り込み部と、
を含む記号列変換装置。 - 音声から得られる音響特徴記号列を音声認識結果に変換する音声認識装置であって、
前記音響特徴記号列の先頭から順に1つずつ記号を取得する記号列取得部と、
音響モデルによって計算される音響特徴記号のスコアを、重みとして用いる単語辞書WFSTを参照して、現在の仮説の集合の各々に新しい状態遷移を追加する仮説展開部と、
前記仮説展開部で状態遷移を追加された仮説の集合の各々の状態遷移過程から出力される記号列と、現在の仮説の集合の各仮説が到達している状態を特定する情報である状態情報とを入力として、1つ以上の記号からなる記号列の生起確率または連鎖確率が記号列モデルとして記憶されている言語モデル格納部を参照して、前記現在の仮説が到達している状態を遷移元として、当該遷移元から遷移可能な状態遷移およびその状態遷移確率を取得する状態遷移集合取得部と、
前記状態遷移集合取得部で取得した前記遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮説を更新する仮説補正部と、
前記仮説展開部で更新した仮説の集合のうち同じ状態に到達している仮説の中で累積重みが最大または最小となるものから所定数の仮説以外の仮説を削除することにより仮説を絞り込み、前記記号列取得部において前記音響特徴記号列が最後まで読み込まれていれば、終了状態に到達している仮説の中から前記累積重みが最大または最小となる仮説を前記音声認識結果として求める仮説絞り込み部と、
を含む音声認識装置。 - 請求項1乃至4の何れか記載の記号列変換方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013170114A JP6078435B2 (ja) | 2013-08-20 | 2013-08-20 | 記号列変換方法、音声認識方法、それらの装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013170114A JP6078435B2 (ja) | 2013-08-20 | 2013-08-20 | 記号列変換方法、音声認識方法、それらの装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015040864A JP2015040864A (ja) | 2015-03-02 |
JP6078435B2 true JP6078435B2 (ja) | 2017-02-08 |
Family
ID=52695089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013170114A Active JP6078435B2 (ja) | 2013-08-20 | 2013-08-20 | 記号列変換方法、音声認識方法、それらの装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6078435B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6235922B2 (ja) * | 2014-02-12 | 2017-11-22 | 日本電信電話株式会社 | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム |
JP6280649B2 (ja) * | 2014-07-17 | 2018-02-14 | パナソニック株式会社 | 静電式ステアリングホイール把持検出装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4478088B2 (ja) * | 2005-09-02 | 2010-06-09 | 日本電信電話株式会社 | 記号列変換方法、音声認識方法、記号列変換装置とプログラム、記録媒体 |
-
2013
- 2013-08-20 JP JP2013170114A patent/JP6078435B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015040864A (ja) | 2015-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR101780760B1 (ko) | 가변길이 문맥을 이용한 음성인식 | |
JP5331801B2 (ja) | 言語モデル先読み確率を計算する方法および装置 | |
US9293137B2 (en) | Apparatus and method for speech recognition | |
KR102375115B1 (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
JP6095588B2 (ja) | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム | |
JPWO2014136222A1 (ja) | 音声認識装置および音声認識方法 | |
JP2020042257A (ja) | 音声認識方法及び装置 | |
JP2019012095A (ja) | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム | |
JP5319141B2 (ja) | 言語モデルの枝刈り方法及び装置 | |
JP6078435B2 (ja) | 記号列変換方法、音声認識方法、それらの装置及びプログラム | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP6235922B2 (ja) | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム | |
JP5124012B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
JP2006031278A (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP2002091484A (ja) | 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Lei et al. | Data-driven lexicon expansion for Mandarin broadcast news and conversation speech recognition | |
JP2938865B1 (ja) | 音声認識装置 | |
Kang et al. | Lattice based transcription loss for end-to-end speech recognition | |
JP2003271188A (ja) | 言語処理装置および方法 | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP3969079B2 (ja) | 音声認識装置および方法、記録媒体、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160719 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6078435 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |