JP4890518B2 - 複数言語モデルによる統合音声認識装置 - Google Patents
複数言語モデルによる統合音声認識装置 Download PDFInfo
- Publication number
- JP4890518B2 JP4890518B2 JP2008222593A JP2008222593A JP4890518B2 JP 4890518 B2 JP4890518 B2 JP 4890518B2 JP 2008222593 A JP2008222593 A JP 2008222593A JP 2008222593 A JP2008222593 A JP 2008222593A JP 4890518 B2 JP4890518 B2 JP 4890518B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition
- model
- utterance
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 claims abstract description 61
- 230000001419 dependent effect Effects 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000007476 Maximum Likelihood Methods 0.000 claims description 9
- 238000002474 experimental method Methods 0.000 description 25
- 238000012795 verification Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000010354 integration Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 101100257682 Homo sapiens SRARP gene Proteins 0.000 description 2
- 102100029291 Steroid receptor-associated and regulated protein Human genes 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 241001061260 Emmelichthys struhsakeri Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
Images
Description
従来、音声情報への内容索引の付与に関し、音声認識結果として出力される候補文字列を用いる音声情報検索装置等が知られている(特許文献1)。これによれば、データベースから抽出した索引文字列を用いて、音声認識の出力を利用者が選択できるとしている。
また、複数の話題に対応する音声認識方式として、汎用言語モデルを用いてデコードした結果から、話題混合比率を推定して言語モデルを話題適応化する方式が知られている(非特許文献1〜5)。これらの技法においては、音声認識に先だって話題判定を行い、音声認識の段階においては1つの言語モデルを用いている。
本発明に係る音声認識装置が有するモデル依存音声認識部は、少なくとも1つの言語モデル又は音響モデルを用いて、入力された発話に対する音声認識を実施しうる。この言語モデル又は音響モデルは、当業者に公知の任意の言語モデル又は音響モデルを用いうる。言語モデルは、含まれる単語、単語の頻出度、特定の語句の用法、接続の前後関係等の情報等を任意に含んでもよく、また音響モデルは発話区間の長さ、周波数帯域、音圧、特定の発話区間内の周波数変化等の情報を任意に含んでもよい。言語モデル又は音響モデルは、モデル依存音声認識部と独立して相互に接続可能なコンピュータ装置等に記憶されてもよく、モデル依存音声認識部に含まれてもよく、適宜設定しうる。音響モデルを用いる場合に、例えば4つのモデル依存音声認識部を用意し、それぞれ別個に成人男性用、成人女性用、子供用、高齢者用としてもよい。あるいは標準語、方言−1、方言−2等の音響モデルをそれぞれ独立したモデル依存音声認識部に別個に接続してもよい。
少なくとも2つのモデル依存音声認識部が生成する複数モデル依存認識結果は、典型的には入力された発話の数と、モデル依存音声認識部の数との積で表される、音声認識された結果を含みうる。例えば、入力された発話の数が5個であり、これを3つのモデル依存音声認識部に入力する場合には、複数モデル依存認識結果として15個の音声認識された結果が生成される。本発明に係る認識結果選択部は、このようにして得られる発話数とモデル依存音声認識部の数との積で表される結果から、最適な認識結果を選択しうる。また、本発明に係る認識結果選択部により選択される認識結果の数は、入力された発話の数と同一でありうる。前述の例においては、入力された発話の数である5個と同一の個数であって時間的順序が対応する5個の認識結果が、認識結果選択部において選択されうる。
別の実施形態において、本発明に係る音声認識装置は、並列動作する複数のモデル依存音声認識部A、同B、…、同Zを含み、それぞれに独立して言語モデルA、同B、…、同Zを接続し、一連の発話の入力を適宜分割し、分割した発話に発話1、発話2、…、発話N等の順序を割り当て、この順番で並列動作する複数のモデル依存音声認識部に入力しうる。例えば、第3番目の発話に対する言語モデルAの認識結果に「銀行」という単語が含まれ、第7番目の発話に対する言語モデルBの認識結果にも「銀行」という単語が含まれているときには、単語の相関に基づいて、第3番目の発話に対しては言語モデルAが、第7番目の発話に対しては言語モデルBの結果が選ばれやすくなりうる。このように、本発明においては、発話ごとに複数の認識結果があり、各発話に対して1つの結果を選択するときに、同じ単語の出現回数が高まるような選択を好むような処理を実施しうる。また、例えば、前述のように第3番目の発話で言語モデルA、第7番目の発話で言語モデルBに高い相関を有する単語が含まれる場合に、第15番目の発話に対して言語モデルEを選ぶと「銀行」が3回出現するならば、そのように言語モデルを選択することが本発明に係る発話間相関評価部の好適な動作(認識結果)でありうる。
さらに別の実施形態において、前述のように第3番目の発話の言語モデルAの認識結果に単語「銀行」が含まれ、第7番目の発話の言語モデルBの認識結果に単語「預金」が含まれている場合に、本発明に係る発話間相関評価部はこれらの単語の共起性が高いことに基づいて、第7番目の発話が第3番目の発話と高い相関を有するという情報を生成しうる。これにより、本発明に係る音声認識装置の第7番目の発話の認識結果には言語モデルBに基づく認識結果が含まれやすくなりうる。
このようにして、種々の言語モデル又は音響モデルを知識源として用いて発話間相関評価部を動作させることにより、発話に含まれる単語又は単語列の共起性、音響モデルの特徴量の相関の高さ等を、認識結果と関連付けることが可能になる。
一実施形態において、単語連鎖妥当性判定部は、複数モデル依存認識結果に含まれる内容語連鎖等の単語列をクエリとして、インターネット検索サービスを利用しうる。インターネット検索サービスは公知の検索サービスを任意に利用してもよい。検索サービスの結果が得られない場合に、単語連鎖妥当性判定部は、複数モデル依存認識結果に含まれる当該単語列が日本語としての妥当性の低い誤認識であると判定してもよい。さらに、このような誤認識の場合に、単語連鎖妥当性判定部は、当該単語列にペナルティスコアを付与してもよい。このペナルティスコアは、認識結果選択部における音声認識の結果の選択のために用いてもよい。
このようにして、言語モデル又は音響モデル以外にも、インターネット検索サービス等の知識源を用いて、本発明に係る音声認識装置は認識結果の妥当性を判定するための情報を生成しうる。
具体的には、発話間相関評価部の計算値は、認識結果選択部がより共起性の高い認識結果を優先して選択するために用いうる。単語連鎖妥当性判定部のペナルティスコア等の計算値は、認識結果選択部がより妥当性の高い認識結果を選択するために用いうる。
このようにして、発話間相関評価部及び単語連鎖妥当性判定部と協動することにより、認識結果選択部は認識結果の正解精度を高めうる。
一実施形態において、1つの発話にはそれ自身の範囲内において共起性を計算可能な単語を含み、発話間相関評価部は当該1つの発話内の共起性を計算しうる。本発明に係る音声認識装置の発話間相関評価部は、さらに、一連の発話における単語の共起性を計算しうる。例えば、1つの講演に含まれる複数の単語の共起性が計算される。この一連の発話は、分割された発話でもよい。すなわち、本発明に係る音声認識装置に入力された発話が、1つの発話の範囲内において共起性を計算可能な単語を含む条件の下で適宜分割され、当該分割された一連の発話に対して、発話間相関評価部が共起性を計算してもよい。
一実施形態において、発話間相関評価部は、発言者の異なる一連の発話において単語の共起性を評価しうる。別の実施形態において、発話間相関評価部は、同一の発言者の発話が適宜分割された後に、分割された一連の発話において単語の共起性を評価しうる。これらの動作により、同一の発言者又は複数の異なる発言者の発話に対して、一連の発話に含まれる単語の共起性が計算されうる。後続の認識結果選択部は、認識結果に含まれる単語の共起性の大きさを用いて、認識結果を選択しうる。すなわち、共起性の大きな認識結果を用いるほど正解精度は高くなりうる。
このようにして、本発明に係る音声認識装置の発話間相関評価部は、一連の複数の発話に対して共起性を計算することにより、音声認識の結果の正解精度を高めるための情報を生成しうる。
(非特許文献6)Kuhn et al., IEEE Trans. PAMI, vol.12, no.6, pp.570-583, 1990.
[1]認識対象の発話に対して、少なくとも1つの言語モデル又は音響モデルごとに独立したキャッシュを用いる態様;
[2]認識対象の発話に対して、少なくとも1つの言語モデル又は音響モデルの全てに基づく最尤仮説のみをキャッシュに含めて用いる態様;又は、
[3]認識対象の発話に対して、少なくとも1つの言語モデル又は音響モデルの全てのキャッシュを用いる態様。
予め用意したテキストコーパスは、当業者に公知の大規模テキストコーパス等を任意に用いうる。例えば、ネットワーク資源に記憶され一般公開されたテキストコーパス、特定の分野における文書を蓄積したテキストコーパス、自然言語又は形式言語等の特定の言語形態を蓄積したテキストコーパス等を、任意に用いうる。
一実施形態において、単語連鎖妥当性判定部は、同一の発言者の1つの発話に対して単語の連鎖の妥当性を評価しうる。別の実施形態において、単語連鎖妥当性判定部は、異なる発言者の発話を時間の順序に従って連結して連結した1つの発話とし、当該連結した1つの発話に対して単語の連鎖の妥当性を評価しうる。
単語連鎖妥当性判定部における単語の連鎖の妥当性の判定は、前述のようにインターネット検索サービス等を利用する、日本語としての妥当性等に基づいてもよく、言語モデル又は音響モデルに限定せず、これら以外の知識源を用いて実施してもよい。妥当性の判定は、1つの発話に含まれる単語のいずれか又は全て、あるいは当該1つの発話に対するペナルティスコアとして関連付けられてもよい。このペナルティスコアは、認識結果選択部における音声認識の結果の選択のために用いてもよい。
このようにして、本発明に係る音声認識装置は認識結果の妥当性を判定するための情報を生成しうる。
一実施形態において、単語連鎖妥当性判定部は、認識結果に含まれる単語の連鎖をクエリとしてインターネット検索サービス等に入力し、当該連鎖のヒットの高さ、当該連鎖に含まれる単語単位でのヒットの高さ、あるいは結果が得られないこと等に基づいて、当該単語の連鎖の妥当性を判定しうる。さらに、単語連鎖妥当性判定部は、当該判定に基づいてペナルティスコア等のスコアを付与してもよい。これらのスコアは、認識結果選択部における音声認識の結果の選択のために用いてもよい。
このようにして、ネットワーク資源に記憶されたテキストコーパスを用いて、本発明に係る音声認識装置は認識結果の妥当性を判定するための情報を生成しうる。
モデル依存音声認識ステップを少なくとも2回動作させることは、例えばマルチタスク環境を備えるパーソナルコンピュータ装置等を用いて、モデル依存音声認識ステップを実施するためのプログラムを、実質的に同時に少なくとも2つ実行することにより実現してもよい。あるいは複数のコンピュータ装置等を並列動作させ、1つの発話の入力に対してモデル依存音声認識ステップを少なくとも2つ動作させてもよい。これらに限らず、コンピュータ装置等の構成は適宜設定しうる。
また、本発明においては、言語モデルの選択結果において発話間の相関を利用し、発話内の単語列の妥当性を評価しうることにより、さらに高い音声認識の精度を得られるという効果がある。
さらに、本発明によれば、新しい話題言語モデルの追加が容易であり、さらにこの言語モデルの追加が全体の他の構成部分には波及することなく、複数の発話にまたがる知識を用いて分散計算機への適合性(スケーラビリティ)を高く確保できるという効果がある。
図1は、本発明の一実施形態に係る、音声認識装置10の構成を例示する図である。音声認識装置10は、音声認識部20、発話受付部30、認識結果保持部40、認識結果選択部50、認識結果出力部60、発話間相関評価部70、単語連鎖妥当性判定部80等を適宜含む。
図1には、音声認識部20からの出力を認識結果保持部40に保持し、当該保持された認識結果290から認識結果選択部50が選択した出力を発話認識結果300として出力する一形態を示す。
一実施形態において、個々の発話−1(201)等は少なくとも2個の単語を含み、個々の発話−1(201)等のそれ自体の範囲内に含まれる1組の単語ごとに共起性を算出しうる。別の実施形態において、個々の発話−1(201)等は1個の単語を含み、当該単語は特定の意味を有する独立語等でありうる。
発話受付部30は、受け付けた個々の発話−1(201)等に対して、他の個別の発話−2(202)等との識別のために識別子等を付与してもよい。
発話間相関評価部70は、前段の認識結果保持部40が保持する1つの認識結果290に含まれる認識結果、すなわちモデル依存音声認識結果(音声認識の仮説)から、最適な音声認識の結果を選択するためのスコアを算出しうる。具体的には当該スコアは、発話間の単語相関であり、当業者に公知の共起頻度、Jaccard係数、Simpson係数、コサイン距離等の計算手法を用いて共起性を計算してもよく、キャッシュモデルを用いてスコアリングを実施してもよい。以下、キャッシュモデルによる音声認識の仮説に対するスコアリングについて説明する。
第z番目の言語モデルLMzによる仮説hzのリスコアリングに用いる言語モデルLM’zを次式で表す。
本発明に係る音声認識装置の単語連鎖妥当性判定部80は、音声認識の仮説の選択前に、各候補仮説の日本語としての妥当性を、言語モデル以外の知識源を用いて検証しうる。一実施形態において、音声認識の仮説中の内容語連鎖等の単語列をクエリとしてWeb検索を行い、検索結果が得られない場合は、誤認識の可能性が高いと考えて仮説スコアにペナルティを加えてもよい。仮説選択時にはこのペナルティを含めたスコアを使用してもよい。
本発明に係る音声認識装置の認識結果選択部50は、上述の発話間相関評価部70による共起性の計算(例えば最良仮説キャッシュモデル)と、単語連鎖妥当性判定部80によるペナルティスコアとを統合し、最適な音声認識の結果を選択しうる。
一実施形態において、最適な音声認識の結果の選択は、講演等の一連の発話に対する最尤仮説キャッシュモデル(Cbest)によるリスコアリングと、ペナルティスコアによる仮説検証との統合により実施される。
最尤仮説キャッシュモデル(Cbest)によるリスコアリングと、仮説検証を統合して適用する方法としては、例えば次式の評価関数を最小化することにより実施しうる。
図2は、本発明の一実施形態に係る、音声認識部の構成を示す図である。図2においては認識部−1(210)を示すが、他の認識部についても同様に構成することが可能である。なお、図1における発話間相関評価部70の機能は図2におけるリスコアリング手段−1(414)に置き換え可能であり、図1における単語連鎖妥当性判定部80は図2における仮説検証手段−1(416)に置き換え可能である。このように、本発明においては、音声認識の最適な結果の選択は、図1のように音声認識部20と独立した手段として設けてもよく、図2のように音声認識部20の内部に取り入れてもよい。
以下、音声認識の最適な結果の選択手段を取り入れた認識部−1(210)の動作について説明する。入力は、図1と同様に、発話受付部30により受け付けられた発話200に含まれる1つの発話の単位である発話−1(201)、発話−2(202)又は発話−3(203)等でありうる。
リスコアリング手段−1(414)及び仮説検証手段−1(416)の動作は、図1に発話間相関評価部70及び単語連鎖妥当性判定部80として示したように、並列動作として、リスコアリング手段−1(414)が生成する出力仮説−1(415)と、仮説検証手段−1(416)が生成する出力候補−1(417)とを、後続の認識結果保持部40への入力としてもよい。また、上述のように直列的に、リスコアリング手段−1(414)を実施して生成される出力仮説−1(415)を仮説検証手段−1(416)に入力して出力候補−1(417)を生成してもよい。
出力仮説−1(415)及び出力候補−1(417)は、認識された単語であってもよく、認識された単語に付随する数値情報等でもよい。本発明に係る音声認識装置の認識結果保持部40は、認識された単語の形態である音声認識の仮説(413)、数値情報等である出力仮説−1(415)及び出力候補−1(417)の全体を保持しうる。
図3は、本発明の一実施形態に係る、音声認識方法のフロー図である。
発話受付ステップ(S10)は、受け付けた発話200を適宜分割してもよい。当該分割は、分割後の発話のそれぞれにおいて、それ自体に含まれる単語又は複数の単語の間に共起性を計算できればよい。当該共起性の計算には当業者に公知の共起頻度、Jaccard係数、Simpson係数、コサイン距離等を適宜用いうる。
図4は、本発明の一実施形態に係る、音声認識装置10のハードウェア構成を示す図である。音声認識装置10は好適には市販入手可能なサーバ装置等でありうるが、パーソナルコンピュータ等を音声認識装置10として用いる場合においても基本的には同様である。
本発明に係る音声認識方法の評価実験には、日本語話し言葉コーパス(CSJ)(非特許文献7)を用いた。テストセットには模擬講演(男女各10名、テストセットA)(非特許文献8)及び学会講演(男女各10名、テストセットB)を用いた。音響モデルは2496講演(486時間)から学習した16混合3000状態の性別非依存トライフォンHMM(非特許文献8)を用い、デコーダはJulius3.5.3(非特許文献9)を使用した。
(非特許文献7)Kikuo Maekawa, "CORPUS OF SPONTANEOUS JAPANESE: ITS DESIGN AND EVALUATION", MM02, SSPR, 2003
(非特許文献8)Tatsuya Kawahara, Hiroaki Nanjo, Takahiro Shinozaki, Sadaoki Furui, "BENCHMARK TEST FOR SPEECH RECOGNITION USING THE CORPUS OF SPONTANEOUS JAPANESE", TM04, SSPR, 2003
(非特許文献9)Akinobu Lee, Tatsuya Kawahara, Kiyohiro Shikano, "Julius− an Open Source Real-Time Large Vocabulary Recognition Engine", Eurospeech 2001 - Scandinavia ICSLP, pp.1691-1694, 2001
表1に、各話題のコーパスサイズ(単位はM単語、Mは10の6乗)を示す。これらのコーパスから話題ごとに言語モデル(trigram、語彙数30000)を作成した。比較用に全コーパスを混合した汎用言語モデルも作成した。
表2に、本発明に係る音声認識方法の評価実験の結果を示す。各実験のパラメータはテストセットAにおいて最良に調節した。表2は、実験IDが1から8までの実験結果を含み、実験IDが1及び2の実験においては従来技術に係る汎用言語モデルを用い、実験IDが3の実験においては従来技術に係るCSJ言語モデルを用いた。実験IDが4から8の実験においては、本発明に係る音声認識の方法を用いた。
実験2は、汎用言語モデルによる10位までの仮説を、話者全体の認識結果を含めたキャッシュモデルでリスコアリングした結果である。
実験3は、CSJ書き起こしテキストから作成した言語モデルによる認識結果で、テストセットにマッチした言語モデルを用いた場合の参考結果である。
実験4は、14個の話題言語モデルを用いてデコードした結果から、話者単位に尤度最大の話題を選んだ場合の結果である。
実験5は、発話ごとに全仮説をROVER法(非特許文献10)を用いて統合した結果である。
実験6は、発話ごとに尤度最大の話題を選んだ場合の結果である。
実験7は、実験6に発話ごとのキャッシュモデル(Call)によるリスコアリングを加えた結果である。
実験8は、さらに仮説検証を加えて2.3節の方法で話題選択した結果である。
(非特許文献10)J.G.Fiscus, "A POST-PROCESSING SYSTEM TO YIELD REDUCED WORD ERROR RATES: RECOGNIZER OUTPUT VOTING ERROR REDUCTION", ASRU, pp.347-352, 1997
20 音声認識部
30 発話受付部
40 認識結果保持部
50 認識結果選択部
60 認識結果出力部
70 発話間相関評価部
80 単語連鎖妥当性判定部
200 発話
300 発話認識結果
412 デコーダ−1
413 音声認識の仮説
414 リスコアリング手段−1
416 仮説検証手段−1
418 話題言語モデル−1
419 ネットワーク資源−1
Claims (9)
- 連続する発話を音声認識するための音声認識装置であって、
特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識部を少なくとも2つ備え、入力された連続する発話の各々について当該モデル依存音声認識部による認識結果を生成する音声認識部を含み、
前記モデル依存音声認識部のそれぞれは、他のモデル依存音声認識部と言語モデル又は音響モデルのいずれかが異なるものであり、
前記連続する発話間で、前記音声認識部が生成した認識結果に含まれる単語の共起性を計算する発話間相関評価部と、
前記発話間相関評価部の計算結果を用いて、前記共起性が前記連続する発話全体として最も高くなるように、前記発話毎に前記認識結果に含まれる単語を選択する認識結果選択部とを更に含む音声認識装置。 - 前記発話間相関評価部が実行する前記共起性の計算は、認識対象の発話に対して、それぞれの前記モデル依存音声認識部ごとに独立したキャッシュを用いて実行する、請求項1に記載の音声認識装置。
- 前記発話間相関評価部は、認識対象の発話に対して、前記少なくとも1つの言語モデル又は音響モデルの全てに基づく最尤仮説のみをキャッシュに含めて用いる、請求項1または2に記載の音声認識装置。
- 前記発話間相関評価部は、認識対象の発話ごとに全てのモデル依存音声認識部から出力される複数の認識結果候補を用い、前記認識結果候補は全てのモデル依存音声認識部に対して用意される共通のキャッシュに格納される、請求項1に記載の音声認識装置。
- さらに、前記モデル依存音声認識部による認識結果に含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定部を含み、
前記認識結果選択部は、前記単語連鎖妥当性判定部の計算結果を用いて、前記発話毎に前記認識結果に含まれる単語を選択する、
請求項1から4のいずれかに記載の音声認識装置。 - 前記単語連鎖妥当性判定部は、前記入力された連続する発話に含まれる1つの発話内の単語の連鎖により構成される単語列の妥当性を、予め用意したテキストコーパスにおける、当該単語列の出現頻度を用いて判定する、請求項5に記載の音声認識装置。
- 前記予め用意したテキストコーパスはネットワーク資源に記憶される、請求項6に記載の音声認識装置。
- 連続する発話を音声認識するための音声認識システムであって、
特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識手段を少なくとも2つ備え、入力された連続する発話の各々について当該モデル依存音声認識手段による認識結果を生成する音声認識手段を含み、
前記モデル依存音声認識手段のそれぞれは、他のモデル依存音声認識手段と言語モデル又は音響モデルのいずれかが異なるものであり、
前記モデル依存音声認識手段による認識結果に含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定手段と、
前記連続する発話間で、前記音声認識手段が生成した認識結果に含まれる単語の共起性を計算する発話間相関評価手段と、
前記発話間相関評価手段及び前記単語連鎖妥当性判定手段の計算結果を用いて、前記共起性が前記連続する発話全体として最も高くなるように、前記発話毎に前記認識結果に含まれる単語を選択する認識結果選択手段とを更に含む音声認識システム。 - コンピュータを用いて連続する発話を音声認識するための音声認識プログラムであって、前記コンピュータに、
特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識ステップを少なくとも2つ動作させて、入力された連続する発話の各々について当該モデル依存音声認識ステップにおける認識結果を生成する音声認識ステップを実行させ、
前記モデル依存音声認識ステップにおけるそれぞれの処理は、言語モデル又は音響モデルのいずれかが異なるものであり、
前記コンピュータに、前記モデル依存音声認識ステップにおける認識結果に含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定ステップと、
前記連続する発話間で、前記音声認識ステップにおいて生成した認識結果に含まれる単語の共起性を計算する発話間相関評価ステップと、
前記発話間相関評価ステップ及び前記単語連鎖妥当性判定ステップにおける計算結果を用いて、前記共起性が前記連続する発話全体として最も高くなるように、前記発話毎に前記認識結果に含まれる単語を選択する認識結果選択ステップとを実行させる音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008222593A JP4890518B2 (ja) | 2008-08-29 | 2008-08-29 | 複数言語モデルによる統合音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008222593A JP4890518B2 (ja) | 2008-08-29 | 2008-08-29 | 複数言語モデルによる統合音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010055020A JP2010055020A (ja) | 2010-03-11 |
JP4890518B2 true JP4890518B2 (ja) | 2012-03-07 |
Family
ID=42070973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008222593A Active JP4890518B2 (ja) | 2008-08-29 | 2008-08-29 | 複数言語モデルによる統合音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4890518B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5673239B2 (ja) * | 2011-03-10 | 2015-02-18 | 富士通株式会社 | 音声認識装置、音声認識方法、および音声認識プログラム |
JP6155592B2 (ja) * | 2012-10-02 | 2017-07-05 | 株式会社デンソー | 音声認識システム |
JP6441203B2 (ja) * | 2015-11-12 | 2018-12-19 | 日本電信電話株式会社 | 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム |
JP7124358B2 (ja) | 2018-03-13 | 2022-08-24 | 富士通株式会社 | 出力プログラム、情報処理装置及び出力制御方法 |
JP6689421B1 (ja) | 2019-01-25 | 2020-04-28 | 株式会社インタラクティブソリューションズ | 音声解析システム |
CN110534095B (zh) * | 2019-08-22 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
JP6771251B1 (ja) * | 2020-04-24 | 2020-10-21 | 株式会社インタラクティブソリューションズ | 音声解析システム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08202388A (ja) * | 1995-01-24 | 1996-08-09 | Omron Corp | 音声認識装置及び音声認識方法 |
JP3660512B2 (ja) * | 1998-12-07 | 2005-06-15 | 日本電信電話株式会社 | 音声認識方法、その装置及びプログラム記録媒体 |
JP2004198597A (ja) * | 2002-12-17 | 2004-07-15 | Advanced Telecommunication Research Institute International | 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体 |
JP2006107353A (ja) * | 2004-10-08 | 2006-04-20 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP4826719B2 (ja) * | 2005-07-25 | 2011-11-30 | 日本電気株式会社 | 音声認識システム、音声認識方法、および音声認識プログラム |
WO2008096582A1 (ja) * | 2007-02-06 | 2008-08-14 | Nec Corporation | 認識器重み学習装置および音声認識装置、ならびに、システム |
-
2008
- 2008-08-29 JP JP2008222593A patent/JP4890518B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010055020A (ja) | 2010-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
Athanaselis et al. | ASR for emotional speech: clarifying the issues and enhancing performance | |
US9361879B2 (en) | Word spotting false alarm phrases | |
JP4890518B2 (ja) | 複数言語モデルによる統合音声認識装置 | |
JP2005165272A (ja) | 多数の音声特徴を利用する音声認識 | |
US11030999B1 (en) | Word embeddings for natural language processing | |
Cui et al. | Developing speech recognition systems for corpus indexing under the IARPA Babel program | |
Chia et al. | Statistical lattice-based spoken document retrieval | |
Liao et al. | Uncertainty decoding for noise robust speech recognition | |
Hansen et al. | Unsupervised accent classification for deep data fusion of accent and language information | |
Chen et al. | Lightly supervised and data-driven approaches to mandarin broadcast news transcription | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP5326169B2 (ja) | 音声データ検索システム及び音声データ検索方法 | |
Koumpis et al. | Automatic summarization of voicemail messages using lexical and prosodic features | |
Furui et al. | Analysis and recognition of spontaneous speech using Corpus of Spontaneous Japanese | |
Cooper et al. | Utterance selection for optimizing intelligibility of tts voices trained on asr data | |
Moyal et al. | Phonetic search methods for large speech databases | |
Walker et al. | Semi-supervised model training for unbounded conversational speech recognition | |
US8639510B1 (en) | Acoustic scoring unit implemented on a single FPGA or ASIC | |
Wang et al. | Stochastic pronunciation modeling for out-of-vocabulary spoken term detection | |
Li et al. | Discriminative data selection for lightly supervised training of acoustic model using closed caption texts | |
Chung et al. | Unsupervised discovery of structured acoustic tokens with applications to spoken term detection | |
US11551666B1 (en) | Natural language processing | |
US11328713B1 (en) | On-device contextual understanding | |
Wang | Mandarin spoken document retrieval based on syllable lattice matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111129 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4890518 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141222 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |