JP4727330B2 - 音声認識装置及び音声認識プログラム - Google Patents

音声認識装置及び音声認識プログラム Download PDF

Info

Publication number
JP4727330B2
JP4727330B2 JP2005207526A JP2005207526A JP4727330B2 JP 4727330 B2 JP4727330 B2 JP 4727330B2 JP 2005207526 A JP2005207526 A JP 2005207526A JP 2005207526 A JP2005207526 A JP 2005207526A JP 4727330 B2 JP4727330 B2 JP 4727330B2
Authority
JP
Japan
Prior art keywords
word
sequence
likelihood
phrase
word sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005207526A
Other languages
English (en)
Other versions
JP2007025279A (ja
Inventor
啓恭 伍井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2005207526A priority Critical patent/JP4727330B2/ja
Publication of JP2007025279A publication Critical patent/JP2007025279A/ja
Application granted granted Critical
Publication of JP4727330B2 publication Critical patent/JP4727330B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声を認識して、その音声に対応する単語系列を出力する音声認識装置及び音声認識プログラムに関するものである。
言葉をテキスト化する技術は有用であり、例えば、医療や法律分野の書き起こしや、放送字幕の作成など、多くの分野で書き起こしに対する効率向上が望まれている。
しかし、実際の使用時には、ユーザが入力を希望する音声と、入力を希望しない音声があり、これらの音声を弁別するには大きな技術的課題がある。
無意味語の照合によって認識単語をリジェクトすることにより、上記の技術的な課題を解決している音声認識装置が、以下の特許文献1に開示されている。
また、冗長語を含むモデルと、冗長語が除かれているモデルを用いることにより、音声の認識精度を高めている音声認識装置が、以下の特許文献2に開示されている。
ただし、この音声認識装置では、発声内の冗長語に特化した処理ではなく、発声単位に入力したい句であるか否かを弁別可能とするものである。
以下、この明細書で用いる専門用語は、以下の非特許文献1,2に開示されている用語である。
従来の音声認識装置では、入力音声を精度よく認識することができるようにするため、言語モデルとしてn−gramを用いる方式を採用しており、マイク、音響処理装置、単語予測装置、RAM、3−gram表及び出力装置から構成されている。
以下、この音声認識装置の処理内容を説明する。
音声認識装置のマイクは、ユーザが声を発すると、その音声を取り込み、その音声信号を電気信号に変換して出力する。
音響処理装置は、マイクから電気信号を受けると、その電気信号をA/D変換し、ディジタル信号である電気信号を量子化する。
そして、音響処理装置は、その量子化信号をスペクトル分析して、その量子化信号を音節単位に分離する認識処理を実施する。
そして、音響処理装置は、音節単位の認識結果を連接して音韻列候補を生成し、その音韻列候補をRAMに記憶する。
単語予測装置は、上記のようにして、音響処理装置が音韻列候補をRAMに記憶すると、そのRAMから音韻列候補を1つ取り出し、先頭単語列の初期化を実施する。
また、単語予測装置は、3−gram表から検索キーに対応する3−gram情報を検索し、その3−gram情報に基づいて単語3連鎖の確率値を計算する。
単語予測装置は、単語3連鎖の確率値を計算すると、その単語3連鎖の確率値を参照して、RAMに記憶されている音韻列候補に対して最も確率の高い単語列を特定し、その単語列をRAMに記憶する。
単語予測装置は、RAMに記憶されている全ての音韻列候補に対して、最も確率の高い単語列の特定処理を実施し、最も確率の高い単語列Wと音韻列候補を選択する。
出力装置は、単語予測装置が単語列Wと音韻列候補を選択すると、その単語列Wから表記を取り出し、その表記を出力する。
これにより、ユーザの音声に類似している確率が高い単語列が提示される。
ここで、音韻列候補に対して最も確率の高い単語列の特定処理について説明する。
単語列候補の生成は、単語列の確率P(W|Y)を最大にする単語列Wを算出することで得られる。単語列の確率は次式から得られる。
Figure 0004727330
式(1)において、Wは発話された単語列であり、Yは音韻列である。
式(1)では、P(W|Y)を最大にするWを求めればよく、右辺の中で単語列Wに共通なP(Y)については省略することができるため、P(Y|W)P(W)を最大にするWを求めればよい。
P(Y|W)は単語列Wが与えられたときの音韻列の出現確率であり、P(W)は単語列の出現確率である。
時刻t=1,2,…,Lにおいて、単語列Wに対応する音韻列が下記の式(2)で決定される場合、下記の式(3)に示すように、P(W|Y)は音韻確率から算出することができる。
Y=Y1,Y2,・・・,YL (2)
Figure 0004727330
また、単語列の出現確率P(W)は、m語の単語列Wが下記の式(4)で決定される場合、音韻確率とは独立に、下記の式(5)に示す単語3−gramの確率から近似することができる。
W=w1,w2,・・・,wm (4)
Figure 0004727330
上記の計算により、音韻列候補のうち、3−gramインデックスに単語の列が存在するものについて、単語列確率P(W|Y)を最大にする単語列Wを算出する。
各単語の出現確率は、単語の3−gram表に記憶されている頻度値を参照して算出する。
これにより、音声認識装置の音声認識精度が高められるが、ユーザの音声が、入力を希望する音声であるのか、入力を希望しない音声であるのかの弁別は、次のようにしている。
即ち、音声認識装置は、入力単語と非入力単語を単語辞書に登録する手法を採用して、弁別を行っている。
例えば、入力単語として「泣こう」、非入力単語として「鳴こう」を単語辞書に登録することにより、ユーザの音声が「なこう」であるとき、音声認識結果として「泣こう」を出力し、「鳴こう」を出力しないようにしている。
これにより、「泣こう」と「鳴こう」の単語を弁別することができるが、次のような句は、句の全体を1単語として単語辞書に登録しない限り、弁別することができない。
例えば、「子供が泣く」と「鳥が鳴く」が入力句で、「子供が鳴く」と「鳥が泣く」が非入力句であることは弁別することができない。言語現象は実際にはさらに複雑であり「子供が鳴く鳥をさがす」などのように単語の組み合わせは無数に存在するため正しい句として予め登録するには困難がある。
特開昭61−52698号公報(第7頁から第13頁、図1) 特開2002−278584号公報(段落番号[0047]から[0060]、図1) 鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著:「音声認識システム」株式会社オーム社,平成13年5月15日 北研二著,「確率的言語モデル」,東京大学出版会、1999年11月25日
従来の音声認識装置は以上のように構成されているので、入力単語と非入力単語を単語辞書に登録すれば、単語を弁別することができるが、ユーザの音声が句である場合、句の全体を1単語として単語辞書に登録しない限り、弁別することができない。換言すると、句の全体を1単語として単語辞書に登録すれば、句の弁別も可能になるが、句の全体を1単語として単語辞書に登録するには、膨大な記憶メモリが必要になり、現実的には対応が困難である課題があった。
この発明は上記のような課題を解決するためになされたもので、句の全体を1単語として単語辞書に登録することなく、精度よく句単位のユーザの音声を弁別することができる音声認識装置を得ることを目的とする。
この発明に係る音声認識装置は、入力対象分野の単語n−gramを参照して、音響系列変換手段により変換された音響系列と最も尤度が高い句単位の単語系列を特定する第1の単語系列特定手段と、入力不要分野の単語n−gramを参照して、音響系列変換手段により変換された音響系列と最も尤度が高い句単位の単語系列を特定する第2の単語系列特定手段とを設け、第1の単語系列特定手段により特定された句単位の単語系列の尤度と第2の単語系列特定手段により特定された句単位の単語系列の尤度を比較し、第1の単語系列特定手段により特定された句単位の単語系列の尤度の方が高ければ、その句単位の単語系列を出力するようにしたものである。
この発明によれば、入力対象分野の単語n−gramを参照して、音響系列変換手段により変換された音響系列と最も尤度が高い句単位の単語系列を特定する第1の単語系列特定手段と、入力不要分野の単語n−gramを参照して、音響系列変換手段により変換された音響系列と最も尤度が高い句単位の単語系列を特定する第2の単語系列特定手段とを設け、第1の単語系列特定手段により特定された句単位の単語系列の尤度と第2の単語系列特定手段により特定された句単位の単語系列の尤度を比較し、第1の単語系列特定手段により特定された句単位の単語系列の尤度の方が高ければ、その句単位の単語系列を出力するように構成したので、句の全体を1単語として単語辞書に登録することなく、ユーザの音声が入力対象分野の音響系列である場合に限り、その音響系列に対応している句単位の単語系列を出力することができる効果がある。

実施の形態1.
図1はこの発明の実施の形態1による音声認識装置を示す構成図であり、図において、マイク1はユーザが声を発すると、その音声を取り込んで、その音声信号を電気信号に変換して出力する処理を実施する。なお、マイク1は音声取込手段を構成している。
音響処理装置2はマイク1から出力された電気信号をA/D変換して、ディジタル信号である電気信号を量子化し、その量子化信号をスペクトル分析して、その量子化信号を音節単位に分離することにより、音節単位の認識結果を連接して音韻列候補(音響系列)を生成し、その音韻列候補をRAM3に記憶する処理を実施する。RAM3は音響処理装置2により生成された音韻列候補を格納するメモリである。
なお、音響処理装置2から音響系列変換手段が構成されている。
対象単語n−gram4は音響系列に対応する単語系列の出現確率が記憶されている入力対象分野(例えば、医療業務の分野)のn−gramモデルである。
不要単語n−gram5は音響系列に対応する単語系列の出現確率が記憶されている入力不要分野(例えば、日常一般的に使用する言葉がモデル化された入力不要の分野)のn−gramモデルである。
対象単語n−gram4及び不要単語n−gram5のn−gramモデルは十分な規模のコーパスから生成されて事前に記録されており、例えば、2−gram(単語2連鎖)と1−gramから構成されている。
なお、先頭の音韻列が検索キーになっており、2−gramでは、検索キーに対して前接形態素、後接形態素及び確率が記録されている。2−gramに記録されている確率は、前接形態素の次に後接形態素が接続する確率であり、2−gramの生起確率に相当する。
1−gramでは、直接、次に連接する形態素の情報と確率が記録されている。1−gramに記録されている確率は、その形態素自身の生起確率である。なお、形態素は表記、音素表記、見出し読み及び品詞の組で表されている。
言語処理装置6は前処理部6aと単語系列特定部6bと単語系列特定部6cから構成されている。
言語処理装置6の前処理部6aは所定の初期化処理等を実施する。
言語処理装置6の単語系列特定部6bは対象単語n−gram4を参照して、RAM3に格納されている音韻列候補と最も尤度が高い単語系列を特定する処理を実施する。
言語処理装置6の単語系列特定部6cは不要単語n−gram5を参照して、RAM3に格納されている音韻列候補と最も尤度が高い単語系列を特定する処理を実施する。
なお、単語系列特定部6bは第1の単語系列特定手段を構成し、単語系列特定部6cは第2の単語系列特定手段を構成している。
リジェクト装置7は言語処理装置6の単語系列特定部6bにより特定された単語系列の尤度と単語系列特定部6cにより特定された単語系列の尤度を比較し、単語系列特定部6cにより特定された単語系列の尤度の方が高ければ、音声認識結果である単語系列の出力を行わず、単語系列特定部6bにより特定された単語系列の尤度の方が高ければ、その単語系列を出力する処理を実施する。
出力装置8はリジェクト装置7から単語系列を受けると、その単語系列から表記を取り出し、その表記を出力する処理を実施する。なお、リジェクト装置7及び出力装置8からリジェクト手段が構成されている。
図2はこの発明の実施の形態1による音声認識装置の処理内容を示すフローチャートである。
なお、図1の例では、音声認識装置の構成要素である音響処理装置2、言語処理装置6、リジェクト装置7及び出力装置8が個々のハードウェア(例えば、MPUなどのLSIを実装している半導体集積回路基板)で構成されていることを想定しているが、音声認識装置がコンピュータで構成されている場合、音響処理装置2、言語処理装置6、リジェクト装置7及び出力装置8の処理内容が記述されているプログラムをコンピュータのメモリに格納し、コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにしてもよい。
次に動作について説明する。
マイク1は、ユーザが声を発すると、その音声を取り込んで(ステップST1)、その音声信号を電気信号に変換して、その電気信号を音響処理装置2に出力する(ステップST2)。
ここでは、図3に示すように、“aQkasitaseNeN”の音声が取り込まれたものとして説明する。
音響処理装置2は、マイク1から電気信号を受けると、その電気信号をA/D変換して、ディジタル信号である電気信号を量子化する。
音響処理装置2は、その電気信号を量子化すると、その量子化信号をスペクトル分析して、その量子化信号を音節単位に分離することにより、音節単位の認識結果を連接して音韻列候補(音響系列)を生成し、その音韻列候補をRAM3に記憶する(ステップST3)。
なお、量子化信号をスペクトル分析して、その量子化信号を音節単位に分離する手法は、例えば、上記の非特許文献1に開示されている。
ここで、音韻列候補は、マイク1により取り込まれた音声信号であるアナログデータに対応する各音韻の確からしさが確率値で表現されたものであり、音響処理装置2から音韻列候補として、連鎖している音韻連鎖と、その連鎖の音響尤度とが出力されて、RAM3に記憶される。
この実施の形態1では、説明の簡単化のため、音響系列を1ベストの音韻列候補音韻連鎖として、以下に示す音韻連鎖と音響尤度が出力されるものとする。
#aQkasitaseNeN# 0.9
この例では、音響尤度として確率“0.9”を出力しているが、上記の非特許文献1と同様に、確率ではなく、対数確率を出力するようにしてもよい。また、音韻連鎖については、ラティス等の効率的な記憶方式を用いてもよい。
言語処理装置6の前処理部6aは、音響処理装置2が音韻列候補をRAM3に記憶すると、RAM3から音韻列候補を1つ取り出すとともに、所定の初期化処理を実施する(ステップST4)。
所定の初期化処理としては、例えば、先行単語列候補として、ヌル単語「{# # # 文頭}」をRAM3に記憶するとともに、その先行単語列候補の初期言語尤度値として、確率値「1」をRAM3に記憶する処理を実施する。
言語処理装置6の前処理部6aは、上記のようにして、所定の初期化処理を実施すると、RAM3に記憶されている全ての先行単語列候補が音韻列候補における末端の音韻と対応しているかをチェックする(ステップST5)。
全ての先行単語列候補が音韻列候補における末端の音韻と対応していれば、ステップST10の処理に移行するが、この段階では、まだ対応していないので、ステップST6の処理に移行する。
言語処理装置6の前処理部6aは、まだ対応していない場合、RAM3から先行単語列候補を1つ取り出す処理を実施する(ステップST6)。
この段階では、上述したように、先行単語列候補として、ヌル単語「{# # # 文頭}」がRAM3に記憶されているので、ヌル単語「{# # # 文頭}」が先行単語列候補として取り出される。
言語処理装置6の単語系列特定部6bは、前処理部6aが先行単語列候補を取り出すと、対象単語n−gram4に記憶されている音韻列の中に、ステップST4で取り出されている音韻列候補と前方一致する音韻列が記憶されているか否かを判別する(ステップST7)。
図4は対象単語n−gram4の記憶内容を示す説明図である。
この実施の形態1では、“aQkasitaseNeN”の音声が取り込まれているので、対象単語n−gram4の2−gramには、音韻列「aQkasitaseNeN」と前方一致する音韻列が記憶されていないが、対象単語n−gram4の1−gramには、音韻列「aQkasitaseNeN」と前方一致する音韻列「aQkasita」が記憶されているので、その音韻列の後接続形態素「悪化した aQkasita あっかした 動詞」を後方単語の候補として、対象単語n−gram4の1−gramから抽出するとともに、対象単語n−gram4の1−gramから当該音韻列の確率“0.001”を抽出する。
言語処理装置6の単語系列特定部6bは、後方単語の候補として、音韻列の後接続形態素「悪化した aQkasita あっかした 動詞」を抽出すると、前処理部6aにより取り出された先行単語列候補(現在の先行単語列候補)に、その後接続形態素「悪化した aQkasita あっかした 動詞」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をRAM3に記憶する。
また、単語系列特定部6bは、新たな先行単語列候補の言語尤度を下記のように計算する(ステップST8)。
新たな先行単語列候補の言語尤度
=現在の先行単語列候補の確率×後接続形態素の確率
=1×0.001
=0.001
言語処理装置6の単語系列特定部6bは、上記のようにして、新たな先行単語列候補を生成して、新たな先行単語列候補の言語尤度を計算しても、ステップST4で取り出されている音韻列候補「aQkasitaseNeN」の中に未だ前方一致していない音韻列「seNeN」が残されているので、対象単語n−gram4に記憶されている音韻列の中に、その音韻列「seNeN」と前方一致する音韻列が記憶されているか否かを判別する。
この場合、対象単語n−gram4の1−gramには、音韻列「seNeN」と前方一致する音韻列「seN」が記憶されているので、その音韻列の後接続形態素「腺 seN せん 接尾語」を後方単語の候補として、対象単語n−gram4の1−gramから抽出するとともに、対象単語n−gram4の1−gramから当該音韻列の確率“0.003”を抽出する。
言語処理装置6の単語系列特定部6bは、後方単語の候補として、音韻列の後接続形態素「腺 seN せん 接尾語」を抽出すると、先に生成した新たな先行単語列候補(現在の先行単語列候補)に、その後接続形態素「腺 seN せん 接尾語」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をRAM3に記憶する。
また、単語系列特定部6bは、新たな先行単語列候補の言語尤度を下記のように再計算する。
新たな先行単語列候補の言語尤度
=現在の先行単語列候補の確率×後接続形態素の確率
=0.001×0.003
=0.000003
また、言語処理装置6の単語系列特定部6bは、新たな先行単語列候補を生成して、新たな先行単語列候補の言語尤度を計算しても、ステップST4で取り出されている音韻列候補「aQkasitaseNeN」の中に未だ前方一致していない音韻列「eN」が残されているので、対象単語n−gram4に記憶されている音韻列の中に、その音韻列「eN」と前方一致する音韻列が記憶されているか否かを判別する。
この場合、対象単語n−gram4の1−gramには、音韻列「eN」と前方一致する音韻列「eN」が記憶されているので、その音韻列の後接続形態素「炎 eN えん 接尾語」を後方単語の候補として、対象単語n−gram4の1−gramから抽出するとともに、対象単語n−gram4の1−gramから当該音韻列の確率“0.002”を抽出する。
言語処理装置6の単語系列特定部6bは、後方単語の候補として、音韻列の後接続形態素「炎 eN えん 接尾語」を抽出すると、先に生成した新たな先行単語列候補(現在の先行単語列候補)に、その後接続形態素「炎 eN えん 接尾語」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をRAM3に記憶する。
また、単語系列特定部6bは、新たな先行単語列候補の言語尤度を下記のように再計算する。
新たな先行単語列候補の言語尤度
=現在の先行単語列候補の確率×後接続形態素の確率
=0.000003×0.002
=0.000000006
=6.0×10-9
言語処理装置6の単語系列特定部6bは、ステップST4で取り出されている音韻列候補「aQkasitaseNeN」の中に前方一致していない音韻列がなくなると、下記に示すように、入力対象分野における新たな先行単語列候補の尤度を計算し、新たな先行単語列候補の尤度をRAM3に記憶する(ステップST9)。
新たな先行単語列候補の尤度
=新たな先行単語列候補の言語尤度×音響尤度
=6.0×10-9×0.9
=5.4×10-9
言語処理装置6の単語系列特定部6cは、前処理部6aが先行単語列候補を取り出すと、不要単語n−gram5に記憶されている音韻列の中に、ステップST4で取り出されている音韻列候補と前方一致する音韻列が記憶されているか否かを判別する(ステップST7)。
図5は不要単語n−gram5の記憶内容を示す説明図である。
この実施の形態1では、“aQkasitaseNeN”の音声が取り込まれており、不要単語n−gram5の2−gramには、音韻列「aQkasitaseNeN」と前方一致する音韻列「aQ」が記憶されているので、その音韻列の後接続形態素「あっ aQ あっ 感動詞」を後方単語の候補として、不要単語n−gram5の2−gramから抽出するとともに、不要単語n−gram5の2−gramから当該音韻列の確率“0.01”を抽出する。
言語処理装置6の単語系列特定部6cは、後方単語の候補として、音韻列の後接続形態素「あっ aQ あっ 感動詞」を抽出すると、前処理部6aにより取り出された先行単語列候補(現在の先行単語列候補)に、その後接続形態素「あっ aQ あっ 感動詞」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をRAM3に記憶する。
また、単語系列特定部6cは、新たな先行単語列候補の言語尤度を下記のように計算する(ステップST8)。
新たな先行単語列候補の言語尤度
=現在の先行単語列候補の確率×後接続形態素の確率
=1×0.01
=0.01
言語処理装置6の単語系列特定部6cは、上記のようにして、新たな先行単語列候補を生成して、新たな先行単語列候補の言語尤度を計算しても、ステップST4で取り出されている音韻列候補「aQkasitaseNeN」中に未だ前方一致していない音韻列「kasitaseNeN」が残されているので、不要単語n−gram5に記憶されている音韻列の中に、RAM3に記憶されている「あっ aQ あっ 感動詞」が前接続形態素で、かつ残りの音韻列「kasitaseNeN」と後接続形態素の部分音韻列が前方一致する音韻列が記憶されているか否かを判別する。
この場合、不要単語n−gram5の2−gramには、音韻列「aQkasitaseNeN」と前方一致する音韻列「aQkasita」が記憶されているので、その音韻列の後接続形態素「貸した kasita かした 動詞」を後方単語の候補として、不要単語n−gram5の2−gramから抽出するとともに、不要単語n−gram5の2−gramから当該音韻列の確率“0.02”を抽出する。
言語処理装置6の単語系列特定部6cは、後方単語の候補として、音韻列の後接続形態素「貸した kasita かした 動詞」を抽出すると、先に生成した新たな先行単語列候補(現在の先行単語列候補)に、その後接続形態素「貸した kasita かした 動詞」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をRAM3に記憶する。
また、単語系列特定部6cは、新たな先行単語列候補の言語尤度を下記のように再計算する。
新たな先行単語列候補の言語尤度
=現在の先行単語列候補の確率×音韻列の確率
=0.01×0.02
=0.0002
また、言語処理装置6の単語系列特定部6cは、新たな先行単語列候補を生成して、新たな先行単語列候補の言語尤度を計算しても、ステップST4で取り出されている音韻列候補「aQkasitaseNeN」の中に未だ前方一致していない音韻列「seNeN」が残されているので、不要単語n−gram5に記憶されている音韻列の中に、RAM3に記憶されている「貸した kasita かした 動詞」が前接続形態素で、かつ残りの音韻列「seNeN」と後接続形態素の部分音韻列が前方一致する音韻列が記憶されているか否かを判別する。
この場合、不要単語n−gram5の2−gramには、音韻列「kasitaseNeN」と前方一致する音韻列「kasitaseN」が記憶されているので、その音韻列の後接続形態素「千 seN せん 数字」を後方単語の候補として、不要単語n−gram5の2−gramから抽出するとともに、不要単語n−gram5の2−gramから当該音韻列の確率“0.03”を抽出する。
言語処理装置6の単語系列特定部6cは、後方単語の候補として、音韻列の後接続形態素「千 seN せん 数字」を抽出すると、先に生成した新たな先行単語列候補(現在の先行単語列候補)に、その後接続形態素「千 seN せん 数字」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をRAM3に記憶する。
また、単語系列特定部6cは、新たな先行単語列候補の言語尤度を下記のように再計算する。
新たな先行単語列候補の言語尤度
=現在の先行単語列候補の確率×音韻列の確率
=0.0002×0.03
=0.00006
=6×10-5
また、言語処理装置6の単語系列特定部6cは、新たな先行単語列候補を生成して、新たな先行単語列候補の言語尤度を計算しても、ステップST4で取り出されている音韻列候補「aQkasitaseNeN」の中に未だ前方一致していない音韻列「eN」が残されているので、不要単語n−gram5に記憶されている音韻列の中に、RAM3に記憶されている「千 seN せん 数字」が前接続形態素で、かつ残りの音韻列「eN」と後接続形態素の部分音韻列が前方一致する音韻列が記憶されているか否かを判別する。
この場合、不要単語n−gram5の2−gramには、音韻列「seNeN」と前方一致する音韻列「seNeN」が記憶されているので、その音韻列の後接続形態素「円 eN えん 接尾語」を後方単語の候補として、不要単語n−gram5の2−gramから抽出するとともに、不要単語n−gram5の2−gramから当該音韻列の確率“0.03”を抽出する。
言語処理装置6の単語系列特定部6cは、後方単語の候補として、音韻列の後接続形態素「円 eN えん 接尾語」を抽出すると、先に生成した新たな先行単語列候補(現在の先行単語列候補)に、その後接続形態素「円 eN えん 接尾語」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をRAM3に記憶する。
また、単語系列特定部6cは、新たな先行単語列候補の言語尤度を下記のように再計算する。
新たな先行単語列候補の言語尤度
=現在の先行単語列候補の確率×音韻列の確率
=0.00006×0.03
=0.00000018
=1.8×10-7
言語処理装置6の単語系列特定部6cは、ステップST4で取り出されている音韻列候補「aQkasitaseNeN」の中に前方一致していない音韻列がなくなると、下記に示すように、入力不要分野における新たな先行単語列候補の尤度を計算し、新たな先行単語列候補の尤度をRAM3に記憶する(ステップST9)。
新たな先行単語列候補の尤度
=新たな先行単語列候補の言語尤度×音響尤度
=1.8×10-7×0.9
=1.62×10-7
なお、図6は単語系列特定部6b,6cにより生成された新たな先行単語列候補の形態素列と、新たな先行単語列候補の尤度を示している。
なお、この実施の形態1では、説明の簡単化のため、単語系列特定部6b,6cが前方一致する音韻列を検索するものについて示したが、これに限るものではなく、上記の非特許文献1に開示されている曖昧な音韻連鎖との照合処理の手法や、文献「阿部他,“認識誤り傾向の確率モデルを用いた2段階探索法による大語彙連続音声認識”,電子情報通信学会論文誌,Vol J−83−DI No12,2000.12」に開示されている手法を用いて音韻列を検索するようにしてもよい。
言語処理装置6の前処理部aは、上記のようにして、単語系列特定部6b,6cが新たな先行単語列候補の尤度をRAM3に記憶すると、未だ取り出していない音韻列候補がRAM3に記憶されているか否かを判定し(ステップST10)、未だ取り出していない音韻列候補があれば、ステップST4の処理に戻り、ステップST4〜ST9の処理を繰り返し実施する。全ての音韻列候補を取り出していれば、ステップST11の処理に移行する。
リジェクト装置7は、RAM3から単語系列特定部6b,6cにより生成された新たな先行単語列候補の尤度を取り出し、単語系列特定部6bにより生成された新たな先行単語列候補の尤度と、単語系列特定部6cにより生成された新たな先行単語列候補の尤度とを比較する(ステップST11)。
リジェクト装置7は、単語系列特定部6cにより生成された新たな先行単語列候補の尤度が、単語系列特定部6bにより生成された新たな先行単語列候補の尤度より高い場合、入力を希望しない音声がユーザから発せられた可能性が高いので、単語系列特定部6cにより生成された新たな先行単語列候補は出力しない。
一方、単語系列特定部6bにより生成された新たな先行単語列候補の尤度が、単語系列特定部6cにより生成された新たな先行単語列候補の尤度より高い場合、あるいは、両者の尤度が等しい場合、入力を希望する音声がユーザから発せられた可能性が高いので、RAM3から単語系列特定部6bにより生成された新たな先行単語列候補を読み出し、その先行単語列候補を出力装置8に出力する(ステップST12)。
出力装置8はリジェクト装置7から先行単語列候補を受けると、その先行単語列候補から表記を取り出し、その表記を音声認識結果として外部に出力する(ステップST13)。
これにより、「腺炎」、「千円」などの同音語が存在する場合でも、不要音声である「あっ貸した千円」についてはリジェクトされるようになる。
以上で明らかなように、この実施の形態1によれば、対象単語n−gram4を参照して、音響処理装置2により生成された音響系列候補と最も尤度が高い単語列候補を生成する単語系列特定部6bと、不要単語n−gram5を参照して、音響処理装置2により生成された音響系列候補と最も尤度が高い単語列候補を生成する単語系列特定部6cとを設け、単語系列特定部6bにより生成された単語列候補の尤度と単語系列特定部6cにより生成された単語列候補の尤度を比較し、単語系列特定部6bにより特定された単語列候補の尤度の方が高ければ、その単語列候補の表記を出力するように構成したので、句の全体を1単語として単語辞書に登録することなく、ユーザの音声が入力対象分野の音響系列である場合に限り、その音響系列に対応している単語系列を出力することができる効果を奏する。
また、この実施の形態1によれば、単語系列特定部6cにより特定された単語列候補の尤度の方が高ければ、音声認識結果である単語系列の出力を行わないように構成したので、不要音声をリジェクトして、精度よく句単位のユーザの音声を弁別することができる効果を奏する。
なお、この実施の形態1では、対象単語n−gram4及び不要単語n−gram5が、2−gramと1−gramから構成されているものについて示したが、これに限るものではなく、例えば、1−gramと2−gramと3−gramなどから構成されていてもよい。
実施の形態2.
図7はこの発明の実施の形態2による音声認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
重み付きリジェクト装置11は図1のリジェクト装置7と同様に、単語系列特定部6bにより生成された単語列候補の尤度と単語系列特定部6cにより生成された単語列候補の尤度を比較し、単語系列特定部6bにより生成された単語列候補の尤度の方が高ければ、その単語列候補を出力するが、尤度の比較処理を実施する前に、単語系列特定部6bにより生成された単語列候補の尤度に入力対象分野の重み係数9を乗算するとともに、単語系列特定部6cにより生成された単語列候補の尤度に入力不要分野の重み係数10を乗算し、重み係数乗算後の単語列候補の尤度同士を比較するようにしている。なお、重み付きリジェクト装置11はリジェクト手段を構成している。
図8はこの発明の実施の形態2による音声認識装置の処理内容を示すフローチャートである。
次に動作について説明する。
上記実施の形態1では、リジェクト装置7が単語系列特定部6bにより生成された単語列候補の尤度と単語系列特定部6cにより生成された単語列候補の尤度を比較し、単語系列特定部6bにより特定された単語列候補の尤度の方が高ければ、その単語列候補を出力するものについて示したが、重み付きリジェクト装置11が、単語系列特定部6bにより生成された単語列候補の尤度に入力対象分野の重み係数9を乗算するとともに、単語系列特定部6cにより生成された単語列候補の尤度に入力不要分野の重み係数10を乗算することにより、それらの単語列候補の尤度を補正してから単語列候補の尤度同士を比較するようにしてもよい。
具体的には、以下の通りである。
上記実施の形態1では、対象単語n−gram4が十分な規模のコーパスから作成されているものとして説明したが、現実的には十分な規模のコーパスが得られない場合や、入力対象を絞りたい場合がある。
図9の対象単語n−gram4は、コーパスが「リンパ腺炎悪化した」という1文しかないと仮定した場合の記憶例である。
この場合、対象単語n−gram4の2−gramは、全ての音韻列の確率が“1”、1−gramは全ての音韻列の確率が“0.2”という大きな値にある(図9と図4を比較参照)。
上記実施の形態1と同様に、“aQkasitaseNeN”の音声が取り込まれた場合、言語処理装置6の単語系列特定部6bが、上記実施の形態1と同様の先行単語列候補({# # # 文頭}{悪化した aQkasita あっかした 動詞}{腺 seN せん 接尾語}{炎 eN えん 接尾語})を生成することになるが、先行単語列候補の尤度は以下のように計算される。
先行単語列候補の尤度
=1×1×1×1
=1
図10の不要単語n−gram5の記憶内容は、図5の不要単語n−gram5の記憶内容と同じであるため、言語処理装置6の単語系列特定部6cは、上記実施の形態1と同様の先行単語列候補({# # # 文頭}{あっ aQ あっ 感動詞}{貸した kasita かした 動詞}{千 seN せん 数字}{円 eN えん 接尾語}を生成するとともに、先行単語列候補の尤度を計算する。
先行単語列候補の尤度
=1×0.01×0.02×0.03×0.03
=1.8×10-7
このように、対象単語n−gram4が十分な規模のコーパスから作成されていない場合、入力を希望しない音声であるにも拘わらず、単語系列特定部6bにより生成された単語列候補の尤度“1”が、単語系列特定部6cにより生成された単語列候補の尤度“1.8×10-7”より大きくなることがある。
そこで、この実施の形態2では、重み付きリジェクト装置11が、n−gramのコーパス量の偏りの影響を回避するため、単語系列特定部6bにより生成された単語列候補の尤度“1”に入力対象分野の重み係数9(例えば、“10-7”)を乗算するとともに、単語系列特定部6cにより生成された単語列候補の尤度“1.8×10-7”に入力不要分野の重み係数10(例えば、“1”)を乗算する(ステップST21)。
これにより、単語系列特定部6bにより生成された単語列候補の尤度は“1.0×10-7”、単語系列特定部6cにより生成された単語列候補の尤度は“1.8×10-7”に補正される。
重み付きリジェクト装置11は、補正後の単語列候補の尤度同士を比較するが、上記の補正を実施したことにより、単語系列特定部6cにより生成された単語列候補の尤度の方が大きくなるため、対象単語n−gram4が十分な規模のコーパスから作成されている場合と同様に、不要音声である「あっ貸した千円」についてはリジェクトすることができるようになる。
以上で明らかなように、この実施の形態2によれば、単語系列特定部6bにより生成された単語列候補の尤度に入力対象分野の重み係数9を乗算するとともに、単語系列特定部6cにより生成された単語列候補の尤度に入力不要分野の重み係数10を乗算し、重み係数乗算後の単語列候補の尤度同士を比較するように構成したので、対象単語n−gram4と不要単語n−gram5のコーパス量に偏りがある場合でも、不要音声をリジェクトして、精度よく句単位のユーザの音声を弁別することができる効果を奏する。
実施の形態3.
図11はこの発明の実施の形態3による音声認識装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
形態変更リジェクト装置12は単語系列特定部6bにより生成された単語列候補の尤度と単語系列特定部6cにより生成された単語列候補の尤度を比較し、単語系列特定部6bにより生成された単語列候補の尤度の方が高ければ、図1のリジェクト装置7と同様に、その単語列候補を出力するが、単語系列特定部6cにより生成された単語列候補の尤度の方が高ければ、その単語列候補の表記を所定の形態(例えば、「*」)に変換して出力する処理を実施する。なお、形態変更リジェクト装置12はリジェクト手段を構成している。
図12はこの発明の実施の形態3による音声認識装置の処理内容を示すフローチャートである。
次に動作について説明する。
形態変更リジェクト装置12は、単語系列特定部6b,6cが新たな先行単語列候補の尤度をRAM3に記憶すると、図1のリジェクト装置7と同様に、RAM3から単語系列特定部6b,6cにより生成された新たな先行単語列候補の尤度を取り出し、単語系列特定部6bにより生成された新たな先行単語列候補の尤度と、単語系列特定部6cにより生成された新たな先行単語列候補の尤度とを比較する(ステップST11)。
図1のリジェクト装置7では、単語系列特定部6cにより生成された新たな先行単語列候補の尤度が、単語系列特定部6bにより生成された新たな先行単語列候補の尤度より高い場合、単語系列特定部6cにより生成された新たな先行単語列候補を出力しないようにしているが、この場合、ユーザが、自分の音声が取り込まれずに音声認識結果が出力されないのか、リジェクトされて音声認識結果が出力されないのかを判別することができず、不便さを伴うことがある。
そこで、形態変更リジェクト装置12は、不要な音声が取り込まれた旨を明示するため、単語系列特定部6cにより生成された新たな先行単語列候補の尤度が、単語系列特定部6bにより生成された新たな先行単語列候補の尤度より高い場合、単語系列特定部6cにより生成された新たな先行単語列候補の表記を「*」に変換し、変換後の先行単語列候補をRAM3に記憶する(ステップST31)。
形態変更リジェクト装置12は、単語系列特定部6bにより生成された新たな先行単語列候補の尤度が、単語系列特定部6cにより生成された新たな先行単語列候補の尤度より高い場合、あるいは、両者の尤度が等しい場合、入力を希望する音声がユーザから発せられた可能性が高いので、図1のリジェクト装置7と同様に、RAM3から単語系列特定部6bにより生成された新たな先行単語列候補を読み出して、その先行単語列候補を出力装置8に出力する。
一方、単語系列特定部6cにより生成された新たな先行単語列候補の尤度が、単語系列特定部6bにより生成された新たな先行単語列候補の尤度より高い場合、RAM3から先に表記を「*」に変換した先行単語列候補を読み出して、その先行単語列候補を出力装置8に出力する(ステップST32)。
出力装置8はリジェクト装置7から先行単語列候補を受けると、その先行単語列候補から表記を取り出し、その表記を音声認識結果として外部に出力する(ステップST13)。
これにより、不要音声である「あっ貸した千円」が取り込まれた場合には、「*******」が表示されるようになる。
以上で明らかなように、この実施の形態3によれば、単語系列特定部6bにより生成された単語列候補の尤度と単語系列特定部6cにより生成された単語列候補の尤度を比較し、単語系列特定部6cにより生成された単語列候補の尤度の方が高ければ、その単語列候補の表記を「*」に変換して出力するように構成したので、不要な音声が取り込まれた旨を明示することができる効果を奏する。
この発明の実施の形態1による音声認識装置を示す構成図である。 この発明の実施の形態1による音声認識装置の処理内容を示すフローチャートである。 入力音声を示す説明図である。 対象単語n−gramの記憶内容を示す説明図である。 不要単語n−gramの記憶内容を示す説明図である。 単語系列特定部により生成された新たな先行単語列候補の形態素列と、新たな先行単語列候補の尤度を示す説明図である。 この発明の実施の形態2による音声認識装置を示す構成図である。 この発明の実施の形態2による音声認識装置の処理内容を示すフローチャートである。 対象単語n−gramの記憶内容を示す説明図である。 不要単語n−gramの記憶内容を示す説明図である。 この発明の実施の形態3による音声認識装置を示す構成図である。 この発明の実施の形態3による音声認識装置の処理内容を示すフローチャートである。
符号の説明
1 マイク(音声取込手段)、2 音響処理装置(音響系列変換手段)、3 RAM、4 対象単語n−gram、5 不要単語n−gram、6 言語処理装置、6a 前処理部、6b 単語系列特定部(第1の単語系列特定手段)、6c 単語系列特定部(第2の単語系列特定手段)、7 リジェクト装置(リジェクト手段)、8 出力装置(リジェクト手段)、 9 入力対象分野の重み係数、10 入力不要分野の重み係数、11 重み付きリジェクト装置(リジェクト手段)、 12 形態変更リジェクト装置(リジェクト手段)。

Claims (6)

  1. 音声を取り込んで、その音声信号を出力する音声取込手段と、上記音声取込手段から出力された音声信号を音響系列に変換する音響系列変換手段と、音響系列に対応する単語系列の出現確率が記憶されている入力対象分野の複数の単語連鎖を示す単語n−gramと、音響系列に対応する単語系列の出現確率が記憶されている入力不要分野の複数の単語連鎖を示す単語n−gramと、入力対象分野の単語n−gramを参照して、上記音響系列変換手段により変換された音響系列と最も尤度が高い句単位の単語系列を特定する第1の単語系列特定手段と、入力不要分野の単語n−gramを参照して、上記音響系列変換手段により変換された音響系列と最も尤度が高い句単位の単語系列を特定する第2の単語系列特定手段と、上記第1の単語系列特定手段により入力対象分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度と上記第2の単語系列特定手段により入力不要分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度を比較し、上記第1の単語系列特定手段により特定された句単位の単語系列の尤度の方が高ければ、その句単位の単語系列を出力するリジェクト手段とを備えた音声認識装置。
  2. リジェクト手段は、第2の単語系列特定手段により入力不要分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度の方が高ければ、音声認識結果である句単位の単語系列の出力を行わないことを特徴とする請求項1記載の音声認識装置。
  3. リジェクト手段は、第1の単語系列特定手段により入力対象分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度に入力対象分野の重み係数を乗算するとともに、第2の単語系列特定手段により入力不要分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度に入力不要分野の重み係数を乗算し、重み係数乗算後の句単位の単語系列の尤度同士を比較することを特徴とする請求項1記載の音声認識装置。
  4. リジェクト手段は、第2の単語系列特定手段により入力不要分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度の方が高ければ、その句単位の単語系列の表記を所定の形態に変換することを特徴とする請求項1または請求項3記載の音声認識装置。
  5. マイクにより音声が取り込まれて、そのマイクから音声信号が出力されると、その音声信号を音響系列に変換する処理を実施する音響系列変換処理手順と、音響系列に対応する単語系列の出現確率が記憶されている入力対象分野の複数の単語連鎖を示す単語n−gramを参照して、上記音響系列変換処理手順により変換された音響系列と最も尤度が高い句単位の単語系列を特定する処理を実施する第1の単語系列特定処理手順と、音響系列に対応する単語系列の出現確率が記憶されている入力不要分野の複数の単語連鎖を示す単語n−gramを参照して、上記音響系列変換処理手順により変換された音響系列と最も尤度が高い句単位の単語系列を特定する処理を実施する第2の単語系列特定処理手順と、上記第1の単語系列特定処理手順により入力対象分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度と上記第2の単語系列特定処理手順により入力不要分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度を比較し、上記第1の単語系列特定処理手順により特定された句単位の単語系列の尤度の方が高ければ、その句単位の単語系列を出力する処理を実施するリジェクト処理手順とをコンピュータに実行させるための音声認識プログラム。
  6. リジェクト処理手順は、第2の単語系列特定処理手順により入力不要分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度の方が高ければ、音声認識結果である句単位の単語系列の出力を行わないことを特徴とする請求項5記載の音声認識プログラム。
JP2005207526A 2005-07-15 2005-07-15 音声認識装置及び音声認識プログラム Expired - Fee Related JP4727330B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005207526A JP4727330B2 (ja) 2005-07-15 2005-07-15 音声認識装置及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005207526A JP4727330B2 (ja) 2005-07-15 2005-07-15 音声認識装置及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2007025279A JP2007025279A (ja) 2007-02-01
JP4727330B2 true JP4727330B2 (ja) 2011-07-20

Family

ID=37786131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005207526A Expired - Fee Related JP4727330B2 (ja) 2005-07-15 2005-07-15 音声認識装置及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP4727330B2 (ja)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01158498A (ja) * 1987-12-16 1989-06-21 Hitachi Ltd 音声認識方式
JPH0695684A (ja) * 1992-09-17 1994-04-08 Meidensha Corp 音声認識システム
JPH08211892A (ja) * 1995-02-01 1996-08-20 Toyota Motor Corp 音声認識装置
JPH10171488A (ja) * 1996-12-11 1998-06-26 Canon Inc 音声認識方法及び装置及び記憶媒体
JP2000132549A (ja) * 1998-10-26 2000-05-12 Sony Corp 自然言語処理装置及び方法
JP2001242886A (ja) * 2000-02-28 2001-09-07 Mitsubishi Electric Corp 音声認識装置、形態素解析装置、仮名漢字変換装置、およびその方法、ならびにそのプログラムを記録した記録媒体
JP2002140094A (ja) * 2000-11-01 2002-05-17 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2002221985A (ja) * 2001-01-25 2002-08-09 Mitsubishi Electric Corp 音声認識装置、形態素解析装置、仮名漢字変換装置、およびその方法ならびにそのプログラムを記録した記録媒体
JP2003308091A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム
JP2004046388A (ja) * 2002-07-10 2004-02-12 Hitachi Ltd 情報処理システムおよび文字修正方法
JP2005049655A (ja) * 2003-07-29 2005-02-24 Nippon Hoso Kyokai <Nhk> 文字データ修正装置、文字データ修正方法および文字データ修正プログラム

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01158498A (ja) * 1987-12-16 1989-06-21 Hitachi Ltd 音声認識方式
JPH0695684A (ja) * 1992-09-17 1994-04-08 Meidensha Corp 音声認識システム
JPH08211892A (ja) * 1995-02-01 1996-08-20 Toyota Motor Corp 音声認識装置
JPH10171488A (ja) * 1996-12-11 1998-06-26 Canon Inc 音声認識方法及び装置及び記憶媒体
JP2000132549A (ja) * 1998-10-26 2000-05-12 Sony Corp 自然言語処理装置及び方法
JP2001242886A (ja) * 2000-02-28 2001-09-07 Mitsubishi Electric Corp 音声認識装置、形態素解析装置、仮名漢字変換装置、およびその方法、ならびにそのプログラムを記録した記録媒体
JP2002140094A (ja) * 2000-11-01 2002-05-17 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2002221985A (ja) * 2001-01-25 2002-08-09 Mitsubishi Electric Corp 音声認識装置、形態素解析装置、仮名漢字変換装置、およびその方法ならびにそのプログラムを記録した記録媒体
JP2003308091A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム
JP2004046388A (ja) * 2002-07-10 2004-02-12 Hitachi Ltd 情報処理システムおよび文字修正方法
JP2005049655A (ja) * 2003-07-29 2005-02-24 Nippon Hoso Kyokai <Nhk> 文字データ修正装置、文字データ修正方法および文字データ修正プログラム

Also Published As

Publication number Publication date
JP2007025279A (ja) 2007-02-01

Similar Documents

Publication Publication Date Title
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
US8831947B2 (en) Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US11721329B2 (en) Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus
EP4018437B1 (en) Optimizing a keyword spotting system
JP2017513047A (ja) 音声認識における発音予測
Wong et al. Methods to improve Gaussian mixture model based language identification system
WO2000058943A1 (fr) Systeme et procede de synthese de la parole
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP7295839B2 (ja) 音節に基づく自動音声認識
WO2007034478A2 (en) System and method for correcting speech
Mantena et al. Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios
Lounnas et al. CLIASR: a combined automatic speech recognition and language identification system
JP2955297B2 (ja) 音声認識システム
Patel et al. Development of Large Vocabulary Speech Recognition System with Keyword Search for Manipuri.
US20040006469A1 (en) Apparatus and method for updating lexicon
Mohanty et al. Speaker identification using SVM during Oriya speech recognition
JP5436307B2 (ja) 類似文書検索装置
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
Tetariy et al. Cross-language phoneme mapping for phonetic search keyword spotting in continuous speech of under-resourced languages.
Manjunath et al. Development of multilingual phone recognition system for Indian languages
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071004

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080609

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110413

R150 Certificate of patent or registration of utility model

Ref document number: 4727330

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees