JP4689497B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4689497B2
JP4689497B2 JP2006053453A JP2006053453A JP4689497B2 JP 4689497 B2 JP4689497 B2 JP 4689497B2 JP 2006053453 A JP2006053453 A JP 2006053453A JP 2006053453 A JP2006053453 A JP 2006053453A JP 4689497 B2 JP4689497 B2 JP 4689497B2
Authority
JP
Japan
Prior art keywords
word
bigram
maximum
group
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006053453A
Other languages
English (en)
Other versions
JP2007232967A (ja
Inventor
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2006053453A priority Critical patent/JP4689497B2/ja
Publication of JP2007232967A publication Critical patent/JP2007232967A/ja
Application granted granted Critical
Publication of JP4689497B2 publication Critical patent/JP4689497B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、統計言語モデルを用いて、音声を連続的に認識する音声認識装置に関するものである。
大語彙の連続音声認識装置では、認識対象とする語彙(例えば、単語)間の接続を規定する制約として、統計言語モデルであるN−gram言語モデルを用いる場合が一般的である。
N=2であるバイグラムや、N=3であるトライグラムが用いられることが多い。
ただし、最初からトライグラムを用いると、演算量とメモリ量が大きくなるため、最初にバイグラムを用いて粗い音声認識を行う認識方式が多い(例えば、非特許文献1を参照)。
非特許文献1に開示されている従来の音声認識装置では、音声認識処理の実施に先立って、言語モデルの学習データ(例えば、形態素解析されたテキストデータ)を用いて、統計言語モデルである単語バイグラムを学習し、その単語バイグラムを単語バイグラムテーブルに保存する。
即ち、単語バイグラムのパラメータ値を計算して、そのパラメータ値を単語バイグラムテーブルに保存する。なお、単語バイグラムのパラメータ値の計算は、例えば、以下の非特許文献2に開示されている方法を使用する。
また、従来の音声認識装置は、音声認識処理における照合処理の演算量を削減するために、言語モデルの学習データに含まれる単語を音素単位に分割し、単語の語頭部分の音素を束ねた木構造辞書を作成する。
木構造辞書を構成する各ノードには1個以上の単語が属するが、ノードに属する単語が複数個である場合、当該ノードでの単語が未確定になり、言語モデル(バイグラム:単語Aと単語Bの連鎖確率)の尤度を付与することができず、音声認識処理におけるビームサーチが非効率になる。
これを避けるため、音声認識処理における照合処理では、当該ノードに属する全ての単語の言語尤度を計算し、全ての単語の言語尤度を比較して最も大きい言語尤度を当該ノードの言語スコアとして与えるようにしている。
具体的には、先行単語の木構造辞書を構成しているノードに属する単語のグループをGi={wi1,wi2,・・・,wiM}、後続単語の木構造辞書を構成しているノードに属する単語のグループをGj={wj1,wj2,・・・,wjN}とすると、先行単語グループGiと後続単語グループGj間の単語グループ間バイグラムP(Gj|Gi)は、下記の式(1)に示すように、先行単語グループGiに属する単語と後続単語グループGjに属する単語間の単語バイグラムp(wjn|wim)を全ての単語の組み合わせについて求め、全ての単語の組み合わせの単語バイグラムの中から最大の単語バイグラムを選択することにより得られる。
P(Gj|Gi)=MAX(m=1,M,n=1,N)p(wjn|wim) (1)
因みに、先行単語グループGiに属する単語の個数が3個、後続単語グループGjに属する単語の個数が4個であれば、3×4=12通りの単語の組み合わせ中から、最大の単語バイグラムの選択を行うことになる。
ただし、式(1)の計算を音声認識処理の照合処理時に逐一行うようにすると、多くの処理時間を要するため、従来の音声認識装置では、音声認識処理を実施する前に計算して、その計算結果である単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブルに保存するようにしている。
しかし、先行単語の木構造辞書を構成している全てのノードに対応する先行単語グループGiと、後続単語の木構造辞書を構成している全てのノードに対応する後続単語グループGjとの全組み合わせについて、単語グループ間バイグラムP(Gj|Gi)を計算して、その単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブルに保存するようにすると、テーブルサイズが膨大になるため、従来の音声認識装置では、保存対象の単語グループ間バイグラムP(Gj|Gi)を制限するようにしている。
即ち、先行単語グループGiになり得る単語グループは、先行単語の木構造辞書を構成している全てのノードに対応する単語グループではなく、単語終端ノードに対応する単語グループに限られるため、計算対象の先行単語グループGiを単語終端ノードに対応する単語グループに制限している。
一方、後続単語グループGjになり得る単語グループは、後続単語の木構造辞書を構成している全てのノードに対応する単語グループであるが、テーブルサイズを制限するため、計算対象の後続単語グループGjを木構造辞書の語頭の数音素に対応するノードの単語グループに制限している。
今井他、"ニュース番組自動字幕化のための音声認識システム"、ヒューマンインタフェース音声言語情報処理研究会報告、23−11、(1998年10月17日) 北研二著:"確率的言語モデル"、東京大学出版会 pp.57−70
従来の音声認識装置は以上のように構成されているので、単語グループ間バイグラムP(Gj|Gi)を計算する対象の後続単語グループGjを木構造辞書の語頭の数音素に対応するノードの単語グループに制限して、単語グループ間バイグラムテーブルのテーブルサイズの削減を図っている(この場合でも、数100Mbyte規模の単語グループ間バイグラムテーブルを要する)。しかし、木構造辞書の語頭の数音素に対応するノードには、単語バイグラムがエントリされていない単語だけが属している場合もあり、このようなノードに対応する単語グループを計算対象の後続単語グループGjに含めても意味がなく(このような単語グループに係る単語グループ間バイグラムP(Gj|Gi)は0になり、連鎖確率をバックオフしなければ、以降、この単語グループに属する単語を音声認識に使用することができなくなる)、単語グループ間バイグラムテーブルを無駄に使用しているなどの課題があった。
この発明は上記のような課題を解決するためになされたもので、単語グループ間バイグラムテーブルのテーブルサイズを削減することができる音声認識装置を得ることを目的とする。
この発明に係る音声認識装置は、学習用データを用いて統計言語モデルである単語バイグラムを学習する学習手段と、認識対象の単語が木構造で表現されている木構造辞書と、先行単語の木構造辞書を構成している終端ノードと後続単語の木構造辞書を構成しているノードに属する単語の組み合わせの中に、上記学習手段により学習された単語バイグラムに適合する単語の組み合わせが存在すれば、先行単語の木構造辞書を構成している終端ノードに属する単語群と後続単語の木構造辞書を構成しているノードに属する単語群との単語群間バイグラムを算出する単語群間バイグラム算出手段と、音声信号をフレーム単位で音響分析して、各フレームの特徴ベクトルを抽出する特徴ベクトル抽出手段と、上記単語群間バイグラム算出手段により算出された単語群間バイグラムを用いて言語スコアを算出し、その言語スコアと上記特徴ベクトル抽出手段により抽出された特徴ベクトルから照合スコアを算出する照合手段とを備え、上記単語群間バイグラム算出手段は、上記学習手段により学習された単語バイグラムに適合する単語の組み合わせが存在する場合、単語の組み合わせに対応する単語バイグラムの中で最大の単語バイグラムを単語群間バイグラムとして単語群間バイグラムテーブルに保存すると共に、木構造辞書を構成しているノード毎に、当該ノードに属する1個以上の単語のユニグラムを比較して最大のユニグラムを特定する最大ユニグラム特定手段と、上記木構造辞書を構成している終端ノード毎に、当該終端ノードに属する1個以上の単語のバックオフ係数を比較して最大のバックオフ係数を特定する最大バックオフ係数特定手段とを設け、先行単語の木構造辞書を構成している終端ノードに属する単語群と後続単語の木構造辞書を構成しているノードに属する単語群との単語群間バイグラムが単語群間バイグラムテーブルに保存されていない場合、照合手段が上記最大ユニグラム特定手段により特定された最大のユニグラムと上記最大バックオフ係数特定手段により特定された最大のバックオフ係数から単語群間バイグラムを算出するようにしたものである。
この発明によれば、学習用データを用いて統計言語モデルである単語バイグラムを学習する学習手段と、認識対象の単語が木構造で表現されている木構造辞書と、先行単語の木構造辞書を構成している終端ノードと後続単語の木構造辞書を構成しているノードに属する単語の組み合わせの中に、上記学習手段により学習された単語バイグラムに適合する単語の組み合わせが存在すれば、先行単語の木構造辞書を構成している終端ノードに属する単語群と後続単語の木構造辞書を構成しているノードに属する単語群との単語群間バイグラムを算出する単語群間バイグラム算出手段と、音声信号をフレーム単位で音響分析して、各フレームの特徴ベクトルを抽出する特徴ベクトル抽出手段と、上記単語群間バイグラム算出手段により算出された単語群間バイグラムを用いて言語スコアを算出し、その言語スコアと上記特徴ベクトル抽出手段により抽出された特徴ベクトルから照合スコアを算出する照合手段とを備え、上記単語群間バイグラム算出手段は、上記学習手段により学習された単語バイグラムに適合する単語の組み合わせが存在する場合、単語の組み合わせに対応する単語バイグラムの中で最大の単語バイグラムを単語群間バイグラムとして単語群間バイグラムテーブルに保存すると共に、木構造辞書を構成しているノード毎に、当該ノードに属する1個以上の単語のユニグラムを比較して最大のユニグラムを特定する最大ユニグラム特定手段と、上記木構造辞書を構成している終端ノード毎に、当該終端ノードに属する1個以上の単語のバックオフ係数を比較して最大のバックオフ係数を特定する最大バックオフ係数特定手段とを設け、先行単語の木構造辞書を構成している終端ノードに属する単語群と後続単語の木構造辞書を構成しているノードに属する単語群との単語群間バイグラムが単語群間バイグラムテーブルに保存されていない場合、照合手段が上記最大ユニグラム特定手段により特定された最大のユニグラムと上記最大バックオフ係数特定手段により特定された最大のバックオフ係数から単語群間バイグラムを算出するに構成したので、単語群間バイグラムテーブルのテーブルサイズを削減することができる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による音声認識装置を示す構成図であり、図において、学習データメモリ1は言語モデルの学習データ(例えば、形態素解析されたテキストデータ)を記憶しているメモリである。
単語バイグラム算出部2は学習データメモリ1に記憶されている学習データを用いて、統計言語モデルである単語バイグラムを学習し、その単語バイグラムのパラメータ値を単語バイグラムテーブル3に保存する処理を実施する。なお、単語バイグラム算出部2は学習手段を構成している。
単語バイグラムテーブル3は単語バイグラム算出部2により学習された単語バイグラムのパラメータ値を保存するメモリである。
木構造辞書作成部4は学習データメモリ1に記憶されている学習データに含まれる単語を音素単位に分割し、単語の語頭部分の音素を束ねた木構造辞書(認識対象の単語が木構造で表現されている木構造辞書)を作成する処理を実施する。
木構造辞書メモリ5は木構造辞書作成部4により作成された木構造辞書を保存するメモリである。
単語グループ統計量算出部6は単語グループ間バイグラム算出部7、最大ユニグラム特定部8及び最大バックオフ係数特定部9から構成されている。
単語グループ統計量算出部6の単語グループ間バイグラム算出部7は先行単語の木構造辞書を構成している終端ノードと後続単語の木構造辞書を構成しているノードに属する単語の組み合わせの中に、単語バイグラムテーブル3に保存されている単語バイグラムに適合する単語の組み合わせが存在すれば、先行単語の木構造辞書を構成している終端ノードに属する先行単語グループ(単語群)と後続単語の木構造辞書を構成しているノードに属する後続単語グループ(単語群)との単語グループ間バイグラム(単語群間バイグラム)を算出し、その単語グループ間バイグラムを単語グループ間バイグラムテーブル10に保存する処理を実施する。
即ち、単語グループ間バイグラム算出部7は単語バイグラムテーブル3に保存されている単語バイグラムに適合する単語の組み合わせが存在する場合、単語の組み合わせに対応する単語バイグラムの中で最大の単語バイグラムを単語グループ間バイグラムとして単語グループ間バイグラムテーブル10に格納する。なお、単語グループ間バイグラム算出部7は単語群間バイグラム算出手段を構成している。
単語グループ統計量算出部6の最大ユニグラム特定部8は木構造辞書メモリ5に保存されている木構造辞書を構成しているノード毎に、当該ノードに属する1個以上の単語のユニグラムを比較して最大のユニグラムを特定し、その最大のユニグラムを単語グループ内最大ユニグラムテーブル11に保存する処理を実施する。なお、最大ユニグラム特定部8は最大ユニグラム特定手段を構成している。
単語グループ統計量算出部6の最大バックオフ係数特定部9は木構造辞書メモリ5に保存されている木構造辞書を構成している終端ノード毎に、当該終端ノードに属する1個以上の単語のバックオフ係数を比較して最大のバックオフ係数を特定し、その最大のバックオフ係数を単語グループ内最大バックオフ係数テーブル12に保存する処理を実施する。なお、最大バックオフ係数特定部9は最大バックオフ係数特定手段を構成している。
特徴ベクトル抽出部22は入力端子21から入力された音声信号をフレーム単位で音響分析して、各フレームの特徴ベクトルを抽出する処理を実施する。なお、特徴ベクトル抽出部22は特徴ベクトル抽出手段を構成している。
音響モデルメモリ23は例えば音素単位のHMM(Hidden Markov Model)などの音響モデルを記憶しているメモリである。
言語スコア算出部24は先行単語グループと後続単語グループに対応する単語グループ間バイグラムが単語グループ間バイグラムテーブル10に保存されていれば、その単語グループ間バイグラムの対数値を言語スコア(言語尤度)として算出し、先行単語グループと後続単語グループに対応する単語グループ間バイグラムが単語グループ間バイグラムテーブル10に保存されていない場合、単語グループ内最大ユニグラムテーブル11に格納されている最大ユニグラムと単語グループ内最大バックオフ係数テーブル12に格納されている最大バックオフ係数から単語グループ間バイグラムを算出し、その単語グループ間バイグラムの対数値を言語スコア(言語尤度)として算出する処理を実施する。
照合処理部25は音響モデルメモリ23に記憶されている音響モデルや言語スコア算出部24により算出された言語スコアを用いて、照合スコアを算出する処理を実施する。
なお、言語スコア算出部24及び照合処理部25から照合手段が構成されている。
図2はこの発明の実施の形態1による音声認識装置の単語グループ間バイグラム等の算出処理を示すフローチャートであり、図3はこの発明の実施の形態1による音声認識装置の言語スコア算出処理を示すフローチャートである。
また、図4は先行単語及び後続単語の木構造辞書を示す説明図である。
次に動作について説明する。
音声認識装置は、音声認識処理を実施するに先立って、単語グループ間バイグラム等の算出処理を実施する。
単語バイグラム算出部2は、学習データメモリ1に記憶されている学習データを用いて、統計言語モデルである単語バイグラムを学習し、その単語バイグラムのパラメータ値を単語バイグラムテーブル3に保存する。
単語バイグラムのパラメータ値は、例えば、上記の非特許文献2に開示されている方法を使用して計算するが、単語バイグラムのパラメータ値として、単語wiと単語wjの連鎖確率である単語バイグラムp(wj|wi)と、単語wjの出現確率である単語ユニグラムp(wj)と、単語連鎖wi,wjの出現確率が0である場合に若干の出現確率を単語wiに与えるバックオフ係数b(wi)を計算する。
木構造辞書作成部4は、後述する照合処理部25における照合処理の演算量を削減するために、学習データメモリ1に記憶されている学習データに含まれる単語を音素単位に分割し、単語の語頭部分の音素を束ねた木構造辞書を作成する。
図4は木構造辞書の作成例であるが、図中の“○”は、木構造辞書を構成しているノードを表しており、ノードとノードを結ぶ実線をアークと称し、アークには音素が対応付けられている。
また、木構造辞書を構成しているノードに属する単語の集合を単語グループと称する。
木構造辞書を構成する各ノードには複数個の単語が属することが多く、例えば、図4のノードjには、「ママ(mama)」、「豆(mame)」、「道(mici)」、「蜜(micu)」の4単語が属している。
このように、ノードに属する単語が複数個である場合、当該ノードでの単語が未確定になるため、言語モデル(バイグラム:単語Aと単語Bの連鎖確率)の尤度を付与することができず、後述する照合処理部25におけるビームサーチが非効率になる。
これを避けるためには、当該ノードに属する全ての単語の言語尤度を計算し、全ての単語の言語尤度を比較して最も大きい言語尤度を当該ノードの言語スコアとして与えればよい。
具体的には、先行単語の木構造辞書を構成しているノードに属する単語のグループをGi={wi1,wi2,・・・,wiM}、後続単語の木構造辞書を構成しているノードに属する単語のグループをGj={wj1,wj2,・・・,wjN}とすると、先行単語グループGiと後続単語グループGj間の単語グループ間バイグラムP(Gj|Gi)は、下記の式(2)に示すように、先行単語グループGiに属する単語と後続単語グループGjに属する単語間の単語バイグラムp(wjn|wim)を全ての単語の組み合わせについて求め、全ての単語の組み合わせの単語バイグラムの中から最大の単語バイグラムを選択することにより得られる。
P(Gj|Gi)=MAX(m=1,M,n=1,N)p(wjn|wim) (2)
因みに、先行単語グループGiに属する単語の個数が3個、後続単語グループGjに属する単語の個数が4個であれば、3×4=12通りの単語の組み合わせ中から、最大の単語バイグラムの選択を行うことになる。
ただし、式(2)の計算を音声認識処理における照合処理時に逐一行うようにすると、多くの処理時間を要するため、言語スコア算出部24が言語スコアの算出を開始する前に、単語グループ統計量算出部6の単語グループ間バイグラム算出部7が単語グループ間バイグラムP(Gj|Gi)を計算して、その単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するようにしている。
しかし、単語グループ統計量算出部6の単語グループ間バイグラム算出部7が、先行単語の木構造辞書を構成している全てのノードに対応する先行単語グループGiと、後続単語の木構造辞書を構成している全てのノードに対応する後続単語グループGjとの全組み合わせについて、単語グループ間バイグラムP(Gj|Gi)を計算して、その単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するようにすると、テーブルサイズが膨大になる。
そこで、この実施の形態1では、単語グループ間バイグラム算出部7が保存対象の単語グループ間バイグラムP(Gj|Gi)を次のように制限している。
即ち、単語グループ間バイグラム算出部7は、先行単語グループGiについては、先行単語グループGiになり得る単語グループが、先行単語の木構造辞書を構成している全てのノードに対応する単語グループではなく、単語終端ノードに対応する単語グループに限られるため、計算対象の先行単語グループGiを単語終端ノードに対応する単語グループに制限している。
一方、後続単語グループGjについては、後続単語グループGjになり得る単語グループが、後続単語の木構造辞書を構成している全てのノードに対応する単語グループであるが、単語バイグラムが単語バイグラムテーブル3にエントリされていない単語だけが属している単語グループについては、計算対象の後続単語グループGjに含めても意味がないため(このような単語グループに係る単語グループ間バイグラムP(Gj|Gi)は0になり、連鎖確率をバックオフしなければ、以降、この単語グループに属する単語を音声認識に使用することができなくなる)、単語バイグラムが単語バイグラムテーブル3にエントリされている単語を1つ以上含んでいる単語グループに制限している。
同様に、計算対象の先行単語グループGiについても、単語バイグラムが単語バイグラムテーブル3にエントリされている単語を1つ以上含んでいる単語グループに制限している。
ここで、上記のように保存対象の単語グループ間バイグラムP(Gj|Gi)を制限できる仕組みについて説明する。
単語グループ間バイグラムP(Gj|Gi)は、上記の式(2)を計算することにより求めるが、式(2)の右辺における単語バイグラムp(wjn|wim)の計算において、単語wim又は単語wjnの単語バイグラムが単語バイグラムテーブル3にエントリされていない場合、下記の式(3)に示すように、単語wjnの単語ユニグラムp(wjn)を単語wimのバックオフ係数b(wim)でバックオフすることにより、単語バイグラムp(wjn|wim)を算出する。
p(wjn|wim)=b(wim)×p(wjn) (3)
先行単語グループGi={wi1,wi2・・・,wiM}と後続単語グループGj={wj1,wj2・・・,wjN}間の全単語の組み合わせで、単語バイグラムが単語バイグラムテーブル3にエントリされていない場合には、(2)式右辺の計算は、全て(3)式を用いて行うことになる。この場合、(2)式は下記(4)式のように変形することができる。
P(Gj|Gi)=MAX(m=1,M)b(wim)×MAX(n=1,N)p(wjn
(4)
以後簡単のため、MAX(m=1,M)b(wim)をbmax(i)と略記する。またMAX(n=1,N)p(wjn)をPmax(j)と略記する。
このように、単語グループ毎に、単語グループ内の最大ユニグラムPmax(j)と最大バックオフ係数bmax(i)を保存しておけば、最大ユニグラムPmax(j)と最大バックオフ係数bmax(i)から単語グループ間バイグラムP(Gj|Gi)を算出することができるので、単語wim又は単語wjnの単語バイグラムが単語バイグラムテーブル3にエントリされていない単語グループ間の単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラム10に保存しておく必要がない。
因みに、単語グループ内の最大ユニグラムPmax(j)と最大バックオフ係数bmax(i)を保存する場合のエントリ数は、高々、単語グループ数の2倍であるため、メモリの消費量は僅かである。
以下、単語グループ統計量算出部6の処理内容を具体的に説明する。
単語グループ統計量算出部6の最大ユニグラム特定部8は、木構造辞書メモリ5に保存されている木構造辞書を構成しているノード毎に、当該ノードに属する1個以上の単語のユニグラムを比較して最大のユニグラムを特定する。
即ち、最大ユニグラム特定部8は、単語wjの単語ユニグラムp(wj)が単語バイグラムテーブル3に格納されているので、単語バイグラムテーブル3から当該ノードに属している単語の単語ユニグラムを取得し、それらの単語ユニグラムの中で最大の単語ユニグラムを特定する。
最大ユニグラム特定部8は、最大のユニグラムを特定すると、最大のユニグラムを単語グループ内最大ユニグラムテーブル11に保存する(ステップST1)。
単語グループ統計量算出部6の最大バックオフ係数特定部9は、木構造辞書メモリ5に保存されている木構造辞書を構成している単語終端ノード毎に、当該単語終端ノードに属する1個以上の単語のバックオフ係数を比較して最大のバックオフ係数を特定する。
即ち、最大バックオフ係数特定部9は、単語wiのバックオフ係数b(wi)が単語バイグラムテーブル3に格納されているので、単語バイグラムテーブル3から当該単語終端ノードに属している単語のバックオフ係数を取得し、それらのバックオフ係数の中で最大のバックオフ係数を単語グループ内最大バックオフ係数テーブル12に保存する(ステップST2)。
単語グループ統計量算出部6の単語グループ間バイグラム算出部7は、先行単語グループGiに属する単語wimと、後続単語グループGjに属する単語wjnとの組み合わせにおいて、単語wimと単語wjnの単語バイグラムが単語バイグラムテーブル3にエントリされているか否かを調査する(ステップST3)。
単語グループ間バイグラム算出部7は、単語wimと単語wjnの組み合わせにおいて、1つでも単語バイグラムp(wjn|wim)が単語バイグラムテーブル3にエントリされていれば(ステップST4)、上記の式(2)を計算することにより、単語グループ間バイグラムP(Gj|Gi)を算出する(ステップST5)。
単語グループ間バイグラム算出部7は、単語グループ間バイグラムP(Gj|Gi)を算出すると、先行単語グループGiのID番号「i」と、後続単語グループGjのID番号「j」と、単語グループ間バイグラムP(Gj|Gi)とを単語グループ間バイグラムテーブル10に保存する(ステップST6)。
単語グループ統計量算出部6は、全ての単語グループの組み合わせについて、ステップST4〜ST6の処理を繰り返し実施する(ステップST7)。
次に、音声認識時の処理内容について説明する。
特徴ベクトル抽出部22は、入力端子21から入力された音声信号をA/D変換し、A/D変換後のデジタルの音声信号をフレームと呼ばれる短い時間区間毎に分割する。
特徴ベクトル抽出部22は、音声信号をフレーム単位に分割すると、例えば、LPC(Linear Predicitive Coding)法を用いて、フレーム毎に音響分析することにより、各フレームの特徴ベクトルX(t)を抽出する。
ただし、t=1,2,3,・・・,Tである。
照合処理部25は、特徴ベクトル抽出部22が各フレームの特徴ベクトルX(t)を抽出すると、木構造辞書メモリ5に保存されている先行単語の木構造辞書と後続単語の木構造辞書を参照して、先行単語グループGiのID番号「i」と後続単語グループGjのID番号「j」を言語スコア算出部24に出力する。
言語スコア算出部24は、照合処理部25から先行単語グループGiのID番号「i」と後続単語グループGjのID番号「j」を受けると、先行単語グループGiのID番号「i」と後続単語グループGjのID番号「j」に対応する単語グループ間バイグラムP(Gj|Gi)が単語グループ間バイグラムテーブル10にエントリされているか否かを調査する(ステップST21)。
言語スコア算出部24は、先行単語グループGiのID番号「i」と後続単語グループGjのID番号「j」に対応する単語グループ間バイグラムP(Gj|Gi)が単語グループ間バイグラムテーブル10にエントリされている場合(ステップST22)、その単語グループ間バイグラムP(Gj|Gi)の対数値が言語尤度に相当するので、その言語尤度を言語スコアSl(j)として照合処理部25に出力する(ステップST23)。
一方、先行単語グループGiのID番号「i」と後続単語グループGjのID番号「j」に対応する単語グループ間バイグラムP(Gj|Gi)が単語グループ間バイグラムテーブル10にエントリされていない場合(ステップST22)、単語グループ内最大ユニグラムテーブル11から後続単語グループGjの最大ユニグラムPmax(j)を取得し、最大バックオフ係数テーブル12から先行単語グループGiの最大バックオフ係数bmax(i)を取得する。
言語スコア算出部24は、最大ユニグラムPmax(j)と最大バックオフ係数bmax(i)を取得すると、下記の式(5)に示すように(式(5)は上記の式(3)に相当する)、最大ユニグラムPmax(j)を最大バックオフ係数bmax(i)でバックオフすることにより、単語バイグラムp(wjn|wimMAXを算出する。
p(wjn|wimMAX=bmax(i)×Pmax(j) (5)
言語スコア算出部24は、単語バイグラムp(wjn|wimMAXを算出すると、下記の式(6)に示すように(式(6)は上記の式(4)に相当する)、単語バイグラムp(wjn|wimMAXを単語グループ間バイグラムP(Gj|Gi)に割り当て、その単語グループ間バイグラムP(Gj|Gi)の対数値を言語スコアSl(j)として照合処理部25に出力する(ステップST24)。
P(Gj|Gi)=p(wjn|wimMAX (6)
照合処理部25は、言語スコア算出部24から言語スコアSl(j)を受けると、下記の式(7)に示すように、その言語スコアSl(j)と音響モデルメモリ23に記憶されている音響モデルを用いて、照合スコアS(j,t)を算出する。
S(t,j)=Sa(t,j)+W×Sl(j) (7)
ここで、Wは予め実験的に定めた定数である。また、Sa(t,j)はノードjにおける音響スコアであり、音響スコアSa(t,j)は音響モデルを用いて、音声信号の特徴ベクトルX(t)と木構造辞書との間で、例えば、ビタビアルゴリムを実施してパターンマッチングを行うことにより得ることができる。
また、照合処理部25は、上記のようにして、照合スコアS(j,t)を算出すると、次のフレームにおける照合対象のノードを減らすために、その照合スコアS(j,t)を所定の閾値と比較し、その照合スコアS(j,t)が閾値以上のノードのみをアクティブノードとして残すビームサーチを行う。
照合処理部25は、単語終端のノードがアクティブノードとなっている場合には、当該単語のID番号と先行単語履歴に対するポインタなどを単語履歴として保存する。
照合処理部25は、音声信号の入力が開始されてから、音声信号の終了フレームTまで、上記の音声認識処理を繰り返し実施すると、アクティブノード中で、照合スコアS(j,t)が最良の単語終端ノードから単語履歴をトレースバックすることによって単語ID番号列を取得し、その単語ID番号列を認識結果として出力する。
以上で明らかなように、この実施の形態1によれば、先行単語グループに属する単語と後続単語グループに属する単語の組み合わせの中に、単語バイグラムテーブル3に保存されている単語バイグラムに適合する単語の組み合わせが存在すれば、先行単語グループと後続単語グループ間の単語グループ間バイグラムを算出するように構成したので、単語グループ間バイグラムテーブル10のテーブルサイズを削減することができる効果を奏する。
また、この実施の形態1によれば、単語バイグラムテーブル3に保存されている単語バイグラムに適合する単語の組み合わせが存在する場合、単語の組み合わせに対応する単語バイグラムの中で最大の単語バイグラムを単語グループ間バイグラムとして単語グループ間バイグラムテーブル10に保存するように構成したので、言語スコアの算出精度を高めることができる効果を奏する。
さらに、この実施の形態1によれば、先行単語グループに属する単語と後続単語グループに属する単語の組み合わせの中に、単語バイグラムテーブル3に保存されている単語バイグラムに適合する単語の組み合わせが存在しない場合、グループ内で最大の単語ユニグラムと最大のバックオフ係数から言語スコアを算出するように構成したので、算出精度の劣化を招くことなく、速やかに言語スコアを算出することができる効果を奏する。
実施の形態2.
上記実施の形態1では、単語バイグラムテーブル3に保存されている単語バイグラムに適合する単語の組み合わせが存在する場合、単語グループ間バイグラム算出部7が単語グループ間バイグラムP(Gj|Gi)を算出して、その単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するものについて示したが、単語グループ間バイグラム算出部7が最大ユニグラム特定部8により特定された最大のユニグラムと最大バックオフ係数特定部9により特定された最大のバックオフ係数との積P2(Gj|Gi)が、単語グループ間バイグラムP(Gj|Gi)と異なる場合に限り、単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するようにしてもよい。
図5はこの発明の実施の形態2による音声認識装置の単語グループ間バイグラム等の算出処理を示すフローチャートである。
単語グループ統計量算出部6の最大ユニグラム特定部8は、上記実施の形態1と同様にして、木構造辞書メモリ5に保存されている木構造辞書を構成しているノード毎に、当該ノードに属する1個以上の単語のユニグラムを比較して最大のユニグラムを特定する。
即ち、最大ユニグラム特定部8は、単語wjの単語ユニグラムp(wj)が単語バイグラムテーブル3に格納されているので、単語バイグラムテーブル3から当該ノードに属している単語の単語ユニグラムを取得し、それらの単語ユニグラムの中で最大の単語ユニグラムを特定する。
最大ユニグラム特定部8は、最大のユニグラムを特定すると、最大のユニグラムを単語グループ内最大ユニグラムテーブル11に保存する(ステップST1)。
単語グループ統計量算出部6の最大バックオフ係数特定部9は、上記実施の形態1と同様にして、木構造辞書メモリ5に保存されている木構造辞書を構成している単語終端ノード毎に、当該単語終端ノードに属する1個以上の単語のバックオフ係数を比較して最大のバックオフ係数を特定する。
即ち、最大バックオフ係数特定部9は、単語wiのバックオフ係数b(wi)が単語バイグラムテーブル3に格納されているので、単語バイグラムテーブル3から当該単語終端ノードに属している単語のバックオフ係数を取得し、それらのバックオフ係数の中で最大のバックオフ係数を単語グループ内最大バックオフ係数テーブル12に保存する(ステップST2)。
単語グループ統計量算出部6の単語グループ間バイグラム算出部7は、先行単語グループGiに属する単語wimと、後続単語グループGjに属する単語wjnとの組み合わせにおいて、上記の式(2)を計算することにより、単語グループ間バイグラムP(Gj|Gi)を算出する(ステップST5)。
また、単語グループ間バイグラム算出部7は、下記の式(8)に示すように、最大ユニグラム特定部8により特定された最大のユニグラムp(wjn)と最大バックオフ係数特定部9により特定された最大のバックオフ係数b(wim)の積(以下、単語グループ間バイグラムP2(Gj|Gi)と称する)を算出する(ステップST11)。
P2(Gj|Gi)=MAX(m=1,M)b(wim)×MAX(n=1,N)p(wjn
(8)
次に、単語グループ間バイグラム算出部7は、単語グループ間バイグラムP(Gj|Gi)と単語グループ間バイグラムP2(Gj|Gi)を比較し、両者が異なる場合には(ステップST12)、先行単語グループGiのID番号「i」と、後続単語グループGjのID番号「j」と、単語グループ間バイグラムP(Gj|Gi)とを単語グループ間バイグラムテーブル10に保存する(ステップST6)。
単語グループ統計量算出部6は、全ての単語グループの組み合わせについて、ステップST5〜ST6の処理を繰り返し実施する(ステップST7)。
ここで、ステップST12において、単語グループ間バイグラムP(Gj|Gi)と単語グループ間バイグラムP2(Gj|Gi)が等しくなるのは、下記の条件が成立するときである。
bc(wjm1)×p(win1)≧p2max
かつ
単語列wim1,win1の単語バイグラムが存在しない
ただし、m1は式(4)における右辺第1項の単語グループ内最大バックオフ係数を与える単語のID番号、n1は式(4)における右辺第2項の単語グループ内最大ユニグラムを与える単語のID番号である。
m1=ArgMAX(m=1,M)b(wim
n1=ArgMAX(n=1,N)p(win
また、p2maxは、単語バイグラムが存在する単語の組み合わせの中で、単語バイグラムの最大値である。
上記条件は、先行単語グループGiと後続単語グループGj内の全ての単語の組み合わせで、単語バイグラムが存在しない場合には、上記のp2maxは算出できず、−∞を与えることになるため自動的に成立している。
したがって、この実施の形態2における音声認識装置では、上記実施の形態1の音声認識装置における単語グループ間バイグラムテーブル10のサイズ削減効果を包括している。
さらに、先行単語グループGiと後続単語グループGj内の幾つかの単語の組み合わせで、単語バイグラムが存在する場合でも、上記の条件が成立する場合があり得る。
したがって、この実施の形態2の音声認識装置では、何ら近似を行うことなく、さらに単語グループ間バイグラムテーブル10のテーブルサイズを削減することができる効果を奏する。
実施の形態3.
上記実施の形態2では、単語グループ間バイグラム算出部7が最大ユニグラム特定部8により特定された最大のユニグラムと最大バックオフ係数特定部9により特定された最大のバックオフ係数との積P2(Gj|Gi)が、単語グループ間バイグラムP(Gj|Gi)と異なる場合に限り、単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するものについて示したが、最大ユニグラム特定部8により特定された最大のユニグラムと最大バックオフ係数特定部9により特定された最大のバックオフ係数との積P2(Gj|Gi)の対数値と、単語グループ間バイグラムP(Gj|Gi)の対数値との差の絶対値D(j,i)が所定の閾値以上である場合に限り、単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するようにしてもよい。
図6はこの発明の実施の形態3による音声認識装置の単語グループ間バイグラム等の算出処理を示すフローチャートである。
単語グループ統計量算出部6の最大ユニグラム特定部8は、上記実施の形態1,2と同様にして、単語グループ内の単語ユニグラムp(wjn)の中で最大の単語ユニグラムp(wjn)を特定し、最大のユニグラムp(wjn)を単語グループ内最大ユニグラムテーブル11に保存する(ステップST1)。
単語グループ統計量算出部6の最大バックオフ係数特定部9は、上記実施の形態1,2と同様にして、単語グループ内のバックオフ係数b(wim)の中で最大のバックオフ係数b(wim)を特定し、最大のバックオフ係数b(wim)を単語グループ内最大バックオフ係数テーブル12に保存する(ステップST2)。
単語グループ統計量算出部6の単語グループ間バイグラム算出部7は、上記実施の形態1,2と同様にして、上記の式(2)を計算することにより、単語グループ間バイグラムP(Gj|Gi)を算出する(ステップST5)。
また、単語グループ間バイグラム算出部7は、上記実施の形態2と同様にして、上記の式(8)を計算することにより、最大ユニグラム特定部8により特定された最大のユニグラムp(wjn)と最大バックオフ係数特定部9により特定された最大のバックオフ係数b(wim)の積である単語グループ間バイグラムP2(Gj|Gi)を算出する(ステップST11)。
次に、単語グループ間バイグラム算出部7は、下記の式(9)に示すように、単語グループ間バイグラムP(Gj|Gi)の対数値と単語グループ間バイグラムP2(Gj|Gi)の対数値との差の絶対値D(j,i)を求める(ステップST21)。
D(j,i)
=ABS{log(P(Gj|Gi))−log(P2(Gj|Gi))} (9)
単語グループ間バイグラム算出部7は、差の絶対値D(j,i)を求めると、先行単語グループGiのID番号「i」と、後続単語グループGjのID番号「j」と、単語グループ間バイグラムP(Gj|Gi)と、差の絶対値D(j,i)とを中間ワークエリアに保存する(ステップST22)。
単語グループ統計量算出部6は、全ての単語グループの組み合わせについて、ステップST5〜ST22の処理を繰り返し実施する(ステップST7)。
単語グループ間バイグラム算出部7は、中間ワークエリアに保存されている全ての差の絶対値D(j,i)を所定の閾値と比較し、所定の閾値より大きい差の絶対値D(j,i)に係るエントリ(先行単語グループGiのID番号「i」、後続単語グループGjのID番号「j」、単語グループ間バイグラムP(Gj|Gi))のみを中間ワークエリアから取得して、単語グループ間バイグラムテーブル10に保存する(ステップST23)。
以上で明らかなように、この実施の形態3によれば、最大ユニグラム特定部8により特定された最大のユニグラムと最大バックオフ係数特定部9により特定された最大のバックオフ係数との積P2(Gj|Gi)の対数値と、単語グループ間バイグラムP(Gj|Gi)の対数値との差の絶対値D(j,i)が所定の閾値以上である場合に限り、単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するように構成したので、更に、単語グループ間バイグラムテーブル10のテーブルサイズを削減することができる効果を奏する。
なお、この実施の形態3では、式(2)で計算される正確な単語グループ間バイグラムの値を式(8)式で計算される単語グループ間バイグラムの値で代用することになるが、上述した通り、式(2)と式(8)の差が所定の閾値未満のものだけを代用するので、認識性能に及ぼす影響を小さく抑えることができる。
実施の形態4.
上記実施の形態3では、最大ユニグラム特定部8により特定された最大のユニグラムと最大バックオフ係数特定部9により特定された最大のバックオフ係数との積P2(Gj|Gi)の対数値と、単語グループ間バイグラムP(Gj|Gi)の対数値との差の絶対値D(j,i)が所定の閾値以上である場合に限り、単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するものについて示したが、最大ユニグラム特定部8により特定された最大のユニグラムと最大バックオフ係数特定部9により特定された最大のバックオフ係数との積P2(Gj|Gi)の対数値と、単語グループ間バイグラムP(Gj|Gi)の対数値との差の絶対値D(j,i)が大きい上位N個の単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するようにしてもよい。
図7はこの発明の実施の形態4による音声認識装置の単語グループ間バイグラム等の算出処理を示すフローチャートである。
即ち、この実施の形態4では、単語グループ間バイグラム算出部7が中間ワークエリアに保存されている全ての差の絶対値D(j,i)を相互に比較する。
そして、単語グループ間バイグラム算出部7は、差の絶対値D(j,i)が大きい上位N個のエントリを特定し、中間ワークエリアから上位N個のエントリ(先行単語グループGiのID番号「i」、後続単語グループGjのID番号「j」、単語グループ間バイグラムP(Gj|Gi))のみを取得して、上位N個のエントリを単語グループ間バイグラムテーブル10に保存する(ステップST31)。
以上で明らかなように、この実施の形態4によれば、最大ユニグラム特定部8により特定された最大のユニグラムと最大バックオフ係数特定部9により特定された最大のバックオフ係数との積P2(Gj|Gi)の対数値と、単語グループ間バイグラムP(Gj|Gi)の対数値との差の絶対値D(j,i)が大きい上位N個の単語グループ間バイグラムP(Gj|Gi)を単語グループ間バイグラムテーブル10に保存するように構成したので、更に、単語グループ間バイグラムテーブル10のテーブルサイズを削減することができる効果を奏する。
なお、この実施の形態4では、式(2)で計算される正確な単語グループ間バイグラムの値を式(8)式で計算される単語グループ間バイグラムの値で代用することになるが、上述した通り、式(2)と式(8)の差が大きい上位N個のエントリは、式(2)で計算される正確な単語グループ間バイグラムの値を用いるので、認識性能に及ぼす影響を小さく抑えることができる。
この発明の実施の形態1による音声認識装置を示す構成図である。 この発明の実施の形態1による音声認識装置の単語グループ間バイグラム等の算出処理を示すフローチャートである。 この発明の実施の形態1による音声認識装置の言語スコア算出処理を示すフローチャートである。 先行単語及び後続単語の木構造辞書を示す説明図である。 この発明の実施の形態2による音声認識装置の単語グループ間バイグラム等の算出処理を示すフローチャートである。 この発明の実施の形態3による音声認識装置の単語グループ間バイグラム等の算出処理を示すフローチャートである。 この発明の実施の形態4による音声認識装置の単語グループ間バイグラム等の算出処理を示すフローチャートである。
符号の説明
1 学習データメモリ、2 単語バイグラム算出部(学習手段)、3 単語バイグラムテーブル、4 木構造辞書作成部、5 木構造辞書メモリ、6 単語グループ統計量算出部、7 単語グループ間バイグラム算出部(単語群間バイグラム算出手段)、8 最大ユニグラム特定部(最大ユニグラム特定部)、9 最大バックオフ係数特定部(最大バックオフ係数特定手段)、21 入力端子、22 特徴ベクトル抽出部(特徴ベクトル抽出手段)、23 音響モデルメモリ、24 言語スコア算出部(照合手段)、25 照合処理部(照合手段)。

Claims (4)

  1. 学習用データを用いて統計言語モデルである単語バイグラムを学習する学習手段と、認識対象の単語が木構造で表現されている木構造辞書と、先行単語の木構造辞書を構成している終端ノードと後続単語の木構造辞書を構成しているノードに属する単語の組み合わせの中に、上記学習手段により学習された単語バイグラムに適合する単語の組み合わせが存在すれば、先行単語の木構造辞書を構成している終端ノードに属する単語群と後続単語の木構造辞書を構成しているノードに属する単語群との単語群間バイグラムを算出する単語群間バイグラム算出手段と、音声信号をフレーム単位で音響分析して、各フレームの特徴ベクトルを抽出する特徴ベクトル抽出手段と、上記単語群間バイグラム算出手段により算出された単語群間バイグラムを用いて言語スコアを算出し、その言語スコアと上記特徴ベクトル抽出手段により抽出された特徴ベクトルから照合スコアを算出する照合手段とを備え
    上記単語群間バイグラム算出手段は、上記学習手段により学習された単語バイグラムに適合する単語の組み合わせが存在する場合、単語の組み合わせに対応する単語バイグラムの中で最大の単語バイグラムを単語群間バイグラムとして単語群間バイグラムテーブルに保存すると共に、
    木構造辞書を構成しているノード毎に、当該ノードに属する1個以上の単語のユニグラムを比較して最大のユニグラムを特定する最大ユニグラム特定手段と、上記木構造辞書を構成している終端ノード毎に、当該終端ノードに属する1個以上の単語のバックオフ係数を比較して最大のバックオフ係数を特定する最大バックオフ係数特定手段とを設け、先行単語の木構造辞書を構成している終端ノードに属する単語群と後続単語の木構造辞書を構成しているノードに属する単語群との単語群間バイグラムが単語群間バイグラムテーブルに保存されていない場合、照合手段が上記最大ユニグラム特定手段により特定された最大のユニグラムと上記最大バックオフ係数特定手段により特定された最大のバックオフ係数から単語群間バイグラムを算出することを特徴とする音声認識装置。
  2. 単語群間バイグラム算出手段は、最大ユニグラム特定手段により特定された最大のユニグラムと最大バックオフ係数特定手段により特定された最大のバックオフ係数との積が、単語の組み合わせに対応する単語バイグラムの中の最大の単語バイグラムと異なる場合に限り、最大の単語バイグラムを単語群間バイグラムとして単語群間バイグラムテーブルに保存することを特徴とする請求項記載の音声認識装置。
  3. 単語群間バイグラム算出手段は、最大ユニグラム特定手段により特定された最大のユニグラムと最大バックオフ係数特定手段により特定された最大のバックオフ係数との積の対数値と、単語の組み合わせに対応する単語バイグラムの中の最大の単語バイグラムの対数値との差の絶対値が所定の閾値以上である場合に限り、最大の単語バイグラムを単語群間バイグラムとして単語群間バイグラムテーブルに保存することを特徴とする請求項記載の音声認識装置。
  4. 単語群間バイグラム算出手段は、最大ユニグラム特定手段により特定された最大のユニグラムと最大バックオフ係数特定手段により特定された最大のバックオフ係数との積の対数値と、単語の組み合わせに対応する単語バイグラムの中の最大の単語バイグラムの対数値との差の絶対値が大きい上位数個の最大の単語バイグラムを単語群間バイグラムとして単語群間バイグラムテーブルに保存することを特徴とする請求項記載の音声認識装置。
JP2006053453A 2006-02-28 2006-02-28 音声認識装置 Active JP4689497B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006053453A JP4689497B2 (ja) 2006-02-28 2006-02-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006053453A JP4689497B2 (ja) 2006-02-28 2006-02-28 音声認識装置

Publications (2)

Publication Number Publication Date
JP2007232967A JP2007232967A (ja) 2007-09-13
JP4689497B2 true JP4689497B2 (ja) 2011-05-25

Family

ID=38553637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006053453A Active JP4689497B2 (ja) 2006-02-28 2006-02-28 音声認識装置

Country Status (1)

Country Link
JP (1) JP4689497B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358097A (ja) * 2001-06-01 2002-12-13 Mitsubishi Electric Corp 音声認識装置
JP2005265967A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム
JP2006053203A (ja) * 2004-08-10 2006-02-23 Sony Corp 音声処理装置および方法、記録媒体、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358097A (ja) * 2001-06-01 2002-12-13 Mitsubishi Electric Corp 音声認識装置
JP2005265967A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム
JP2006053203A (ja) * 2004-08-10 2006-02-23 Sony Corp 音声処理装置および方法、記録媒体、並びにプログラム

Also Published As

Publication number Publication date
JP2007232967A (ja) 2007-09-13

Similar Documents

Publication Publication Date Title
JP6188831B2 (ja) 音声検索装置および音声検索方法
JP2001242884A (ja) 音声認識装置および音声認識方法、並びに記録媒体
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
JPH01167898A (ja) 音声認識装置
JP2001249684A (ja) 音声認識装置および音声認識方法、並びに記録媒体
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
Kipyatkova et al. Recurrent neural network-based language modeling for an automatic Russian speech recognition system
JP3444108B2 (ja) 音声認識装置
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP4689497B2 (ja) 音声認識装置
JP2938865B1 (ja) 音声認識装置
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP2965529B2 (ja) 音声認識装置
Smaïli et al. An hybrid language model for a continuous dictation prototype.
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Puurula et al. Vocabulary decomposition for Estonian open vocabulary speech recognition
Taguchi et al. Learning lexicons from spoken utterances based on statistical model selection
JP3894419B2 (ja) 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10254480A (ja) 音声認識方法
Sawada et al. Re-Ranking Approach of Spoken Term Detection Using Conditional Random Fields-Based Triphone Detection
JP2000250583A (ja) 統計的言語モデル生成装置及び音声認識装置
Wang et al. Handling OOVWords in Mandarin Spoken Term Detection with an Hierarchical n‐Gram Language Model

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070926

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110208

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110216

R150 Certificate of patent or registration of utility model

Ref document number: 4689497

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140225

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250