JP4890518B2

JP4890518B2 - 複数言語モデルによる統合音声認識装置

Info

Publication number: JP4890518B2
Application number: JP2008222593A
Authority: JP
Inventors: 健一磯
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2008-08-29
Filing date: 2008-08-29
Publication date: 2012-03-07
Anticipated expiration: 2028-08-29
Also published as: JP2010055020A

Description

本発明は音声認識装置に関し、特に、複数の言語モデルを並列処理して最適な結果を統合する音声認識装置に関する。

近年、インターネット等のコンピュータネットワークを介する情報処理技術分野において、ネットワーク資源に記憶された各種の音声情報に内容索引を付与し、膨大化する音声情報の資源管理及び利用者のアクセスを効率化することが求められている。
従来、音声情報への内容索引の付与に関し、音声認識結果として出力される候補文字列を用いる音声情報検索装置等が知られている（特許文献１）。これによれば、データベースから抽出した索引文字列を用いて、音声認識の出力を利用者が選択できるとしている。
また、複数の話題に対応する音声認識方式として、汎用言語モデルを用いてデコードした結果から、話題混合比率を推定して言語モデルを話題適応化する方式が知られている（非特許文献１〜５）。これらの技法においては、音声認識に先だって話題判定を行い、音声認識の段階においては１つの言語モデルを用いている。
特開平１０−４９１８７号公報 R.M.Iyer and M.Ostendorf, "Modeling Long Distance Dependence in Language：Topic Mixtures Versus Dynamic Cache Models", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 7, NO. 1, JANUARY 1999 Langzhou Chen, Jean-Luc Gauvain, Lori Lamel, Gilles Adda and Martine Adda, "USING INFORMATION RETRIEVAL METHODS FOR LANGUAGE MODEL ADAPTATION", EuroSpeech, pp.255-258, 2001 Daniel Gildea and Thomas Hofmann, "TOPIC-BASED LANGUAGE MODELS USING EM", EuroSpeech, pp.2167-2170, 1999. 秋田、河原、「話題と話者に関するＰＬＳＡに基づく言語モデル適応」、（社）情報処理学会研究報告、ｐｐ６７−７２、２００３年１２月１８日 Aaron Heidel, Hung-an Chang, and Lin-shan Lee, "Language Model Adaptation Using Latent Dirichlet Allocation and an Efficient Topic Inference Algorithm", pp2361-2364, INTERSPEECH 2007

しかし、従来技術及び従来技術の組み合わせでは、汎用言語モデルを用いることにより多様な音声情報に対する音声認識の精度が十分ではなく、さらに分散計算機への適合性（スケーラビリティ）を確保しにくかった。また、従来技術及び従来技術の組み合わせでは、発話ごとに最適な単語列の選択が可能であっても、発話間の相関を考慮しないため、音声認識の精度に限界があった。

本発明は、１つの講演等に対して複数の話題言語モデルを用意して同時並列に音声認識を実施し、音声認識の後に言語モデルを選択することにより、発話単位で最適な音声認識結果を選択し、高い精度で音声認識を実施可能な音声認識の方法を提供することを目的とする。また、本発明においては、このような構成を用いることにより、言語モデルの選択結果において、１つの講演内での発話間の相関を利用し、発話内の単語列の妥当性を評価しうることにより、さらに高い音声認識の精度を得られることを目的とする。

本発明では、以下のような解決手段を提供する。

（１）連続する発話を音声認識するための音声認識装置であって、入力された発話から特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識部を少なくとも２つ備えて複数モデル依存認識結果を生成する音声認識部と、前記複数モデル依存認識結果から、前記入力された発話に対応する最適な認識結果を選択する認識結果選択部とを含み、前記モデル依存音声認識部のそれぞれは、他のモデル依存音声認識部と言語モデル又は音響モデルのいずれかが異なる、音声認識装置。

本発明に係る音声認識装置は、特定の言語モデル又は音響モデルに基づいて音声認識を実施するモデル依存音声認識部を少なくとも２つ備え、これらのモデル依存音声認識部は互いに話題の異なる言語モデル又は特徴量の異なる音響モデル等を有し、同じ発話から同時に並列して個別に異なる認識結果を生成しうる。すなわち、１つの発話に対してこれらの少なくとも２つのモデル依存音声認識部が生成する複数モデル依存認識結果から、最適な音声認識結果を選択しうることが本発明の特徴でありうる。
本発明に係る音声認識装置が有するモデル依存音声認識部は、少なくとも１つの言語モデル又は音響モデルを用いて、入力された発話に対する音声認識を実施しうる。この言語モデル又は音響モデルは、当業者に公知の任意の言語モデル又は音響モデルを用いうる。言語モデルは、含まれる単語、単語の頻出度、特定の語句の用法、接続の前後関係等の情報等を任意に含んでもよく、また音響モデルは発話区間の長さ、周波数帯域、音圧、特定の発話区間内の周波数変化等の情報を任意に含んでもよい。言語モデル又は音響モデルは、モデル依存音声認識部と独立して相互に接続可能なコンピュータ装置等に記憶されてもよく、モデル依存音声認識部に含まれてもよく、適宜設定しうる。音響モデルを用いる場合に、例えば４つのモデル依存音声認識部を用意し、それぞれ別個に成人男性用、成人女性用、子供用、高齢者用としてもよい。あるいは標準語、方言−１、方言−２等の音響モデルをそれぞれ独立したモデル依存音声認識部に別個に接続してもよい。
少なくとも２つのモデル依存音声認識部が生成する複数モデル依存認識結果は、典型的には入力された発話の数と、モデル依存音声認識部の数との積で表される、音声認識された結果を含みうる。例えば、入力された発話の数が５個であり、これを３つのモデル依存音声認識部に入力する場合には、複数モデル依存認識結果として１５個の音声認識された結果が生成される。本発明に係る認識結果選択部は、このようにして得られる発話数とモデル依存音声認識部の数との積で表される結果から、最適な認識結果を選択しうる。また、本発明に係る認識結果選択部により選択される認識結果の数は、入力された発話の数と同一でありうる。前述の例においては、入力された発話の数である５個と同一の個数であって時間的順序が対応する５個の認識結果が、認識結果選択部において選択されうる。

一実施形態において、少なくとも２つのモデル依存音声認識部のそれぞれは独立して言語モデルと接続し、これらの言語モデルの言語は国語及び任意の外国語から選ばれてもよい。あるいは、これらの言語モデルの言語は互いに地域の異なる特定の方言等でもよい。

本発明に係る音声認識装置に入力される発話においては、１つの発話又は複数の発話に含まれる単語又は複数の単語の間に共起性を計算しうる。当該共起性としては当業者に公知の共起頻度、Ｊａｃｃａｒｄ係数、Ｓｉｍｐｓｏｎ係数、コサイン距離等を任意に用いうる。発話は適宜分割してもよく、分割された発話ごとに、当該分割された発話に共起性が計算可能な単語又は複数の単語が含まれればよい。当該分割は、独立語を１つの発話として実施してもよい。

このように構成することにより、本発明に係る音声認識装置においては、１つの発話に対して得られる少なくとも２つの認識結果、すなわち複数モデル依存認識結果をいったん得た後に、これらの中から入力された発話に対応する最適な認識結果を選択しうる。従って、１つの言語モデル又は音響モデルに基づいて音声認識を実施する従来の技法と比較して、高い正解精度を有する認識結果を提供することが可能になる。

（２）さらに、前記複数モデル依存認識結果に対して、発話に対する認識結果のあいだの相関を計算する発話間相関評価部と、前記複数モデル依存認識結果に対して、含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定部とを含み、前記認識結果選択部は、前記発話間相関評価部及び単語連鎖妥当性判定部の計算結果を用いて、前記複数モデル依存認識結果から、前記入力された発話に対応する最適な発話認識結果を選択する、（１）に記載の音声認識装置。

発話間相関評価部においては、複数モデル依存認識結果に含まれる発話に対する認識結果のあいだの相関が計算されうる。本発明に係る発話間相関は、言語モデルや音響モデルの構成要素とは独立して計算されてもよい。すなわち発話間の相関の計算は、言語モデルにおける単語、音響モデルにおける発話の長さ、周波数変化等に限定せず、例えば、音素単位や単語列（フレーズ）単位でも実施しうる。あるいはこれらの構成要素を任意に組み合わせて相関を評価してもよい。相関を計算する単語は隣接でも遠隔でもよい。

一実施形態において、本発明に係る音声認識装置は複数モデル依存認識結果から単語又は単語列の相関を計算し、この相関は発話に含まれるキーワードの共起性等でありうる。すなわち、それぞれのモデル依存音声認識部ごとに音声認識された結果に対して、発話間相関評価は当該結果に含まれる複数の単語の相関を計算しうる。また、必ずしも同じ単語でなくても、一連の発話の中に共起性の高い単語が見出される場合に、本発明に係る発話間相関評価部は共起性に基づいてそのような単語の組が認識結果となるように動作しうる。
別の実施形態において、本発明に係る音声認識装置は、並列動作する複数のモデル依存音声認識部Ａ、同Ｂ、…、同Ｚを含み、それぞれに独立して言語モデルＡ、同Ｂ、…、同Ｚを接続し、一連の発話の入力を適宜分割し、分割した発話に発話１、発話２、…、発話Ｎ等の順序を割り当て、この順番で並列動作する複数のモデル依存音声認識部に入力しうる。例えば、第３番目の発話に対する言語モデルＡの認識結果に「銀行」という単語が含まれ、第７番目の発話に対する言語モデルＢの認識結果にも「銀行」という単語が含まれているときには、単語の相関に基づいて、第３番目の発話に対しては言語モデルＡが、第７番目の発話に対しては言語モデルＢの結果が選ばれやすくなりうる。このように、本発明においては、発話ごとに複数の認識結果があり、各発話に対して１つの結果を選択するときに、同じ単語の出現回数が高まるような選択を好むような処理を実施しうる。また、例えば、前述のように第３番目の発話で言語モデルＡ、第７番目の発話で言語モデルＢに高い相関を有する単語が含まれる場合に、第１５番目の発話に対して言語モデルＥを選ぶと「銀行」が３回出現するならば、そのように言語モデルを選択することが本発明に係る発話間相関評価部の好適な動作（認識結果）でありうる。
さらに別の実施形態において、前述のように第３番目の発話の言語モデルＡの認識結果に単語「銀行」が含まれ、第７番目の発話の言語モデルＢの認識結果に単語「預金」が含まれている場合に、本発明に係る発話間相関評価部はこれらの単語の共起性が高いことに基づいて、第７番目の発話が第３番目の発話と高い相関を有するという情報を生成しうる。これにより、本発明に係る音声認識装置の第７番目の発話の認識結果には言語モデルＢに基づく認識結果が含まれやすくなりうる。

複数モデル依存認識結果に含まれる音響モデルの特徴量についても、入力された発話に対して音響モデルの特徴量の相関を評価しうる。例えば、連続する発話の入力に対して、成人男性用、成人女性用、子供、高齢者用の音響モデル等を個別にモデル依存音声認識部Ａ、同Ｂ、…、同Ｚ等に接続し、それぞれの認識結果に含まれる音響モデルの特徴量の間の相関を評価しうる。例えば、入力音声の途中で話者が交代する場合、本発明に係る発話間相関評価部の動作においては、隣接する発話に対しては同じ種類の音響モデルに基づく認識結果が相互に高い相関を有しうるが、話者交代が発生する前後の発話に対してはこれよりも相関の評価は低くなりうる。従って、本発明に係る音声認識装置の認識結果は、隣接する発話に対しては同じ種類の音響モデルに基づく認識結果を含み、話者交代が発生する前後の発話に対しては異なる音響モデルに基づく認識結果を含みうる。
このようにして、種々の言語モデル又は音響モデルを知識源として用いて発話間相関評価部を動作させることにより、発話に含まれる単語又は単語列の共起性、音響モデルの特徴量の相関の高さ等を、認識結果と関連付けることが可能になる。

単語連鎖妥当性判定部においては、複数モデル依存認識結果に含まれる単語の連鎖の妥当性が計算されうる。この連鎖の妥当性は、認識結果の日本語としての妥当性等でありうる。単語連鎖妥当性判定部における判定は、言語モデル又は音響モデルに限定せず、これら以外の知識源を用いて実施してもよい。
一実施形態において、単語連鎖妥当性判定部は、複数モデル依存認識結果に含まれる内容語連鎖等の単語列をクエリとして、インターネット検索サービスを利用しうる。インターネット検索サービスは公知の検索サービスを任意に利用してもよい。検索サービスの結果が得られない場合に、単語連鎖妥当性判定部は、複数モデル依存認識結果に含まれる当該単語列が日本語としての妥当性の低い誤認識であると判定してもよい。さらに、このような誤認識の場合に、単語連鎖妥当性判定部は、当該単語列にペナルティスコアを付与してもよい。このペナルティスコアは、認識結果選択部における音声認識の結果の選択のために用いてもよい。
このようにして、言語モデル又は音響モデル以外にも、インターネット検索サービス等の知識源を用いて、本発明に係る音声認識装置は認識結果の妥当性を判定するための情報を生成しうる。

認識結果選択部の動作は、前述のように最適な認識結果を選択することでありうる。本発明に係る音声認識装置においては、認識結果選択部は、さらに発話間相関評価部及び単語連鎖妥当性判定部がそれぞれ生成した情報を用いて、認識結果の正解精度を高めうる。
具体的には、発話間相関評価部の計算値は、認識結果選択部がより共起性の高い認識結果を優先して選択するために用いうる。単語連鎖妥当性判定部のペナルティスコア等の計算値は、認識結果選択部がより妥当性の高い認識結果を選択するために用いうる。
このようにして、発話間相関評価部及び単語連鎖妥当性判定部と協動することにより、認識結果選択部は認識結果の正解精度を高めうる。

（３）前記発話間相関評価部は、さらに認識結果の共起性を評価する、（２）に記載の音声認識装置。

本発明に係る音声認識装置の発話間相関評価部においては、前述のように発話に対する認識結果のあいだの相関が計算され、さらに認識結果の共起性が評価されうる。当該認識結果は、言語モデルに基づく単語又は単語列（フレーズ）等を含みうる。
一実施形態において、１つの発話にはそれ自身の範囲内において共起性を計算可能な単語を含み、発話間相関評価部は当該１つの発話内の共起性を計算しうる。本発明に係る音声認識装置の発話間相関評価部は、さらに、一連の発話における単語の共起性を計算しうる。例えば、１つの講演に含まれる複数の単語の共起性が計算される。この一連の発話は、分割された発話でもよい。すなわち、本発明に係る音声認識装置に入力された発話が、１つの発話の範囲内において共起性を計算可能な単語を含む条件の下で適宜分割され、当該分割された一連の発話に対して、発話間相関評価部が共起性を計算してもよい。
一実施形態において、発話間相関評価部は、発言者の異なる一連の発話において単語の共起性を評価しうる。別の実施形態において、発話間相関評価部は、同一の発言者の発話が適宜分割された後に、分割された一連の発話において単語の共起性を評価しうる。これらの動作により、同一の発言者又は複数の異なる発言者の発話に対して、一連の発話に含まれる単語の共起性が計算されうる。後続の認識結果選択部は、認識結果に含まれる単語の共起性の大きさを用いて、認識結果を選択しうる。すなわち、共起性の大きな認識結果を用いるほど正解精度は高くなりうる。
このようにして、本発明に係る音声認識装置の発話間相関評価部は、一連の複数の発話に対して共起性を計算することにより、音声認識の結果の正解精度を高めるための情報を生成しうる。

（４）前記発話間相関評価部が計算する前記相関は、認識対象の発話に対して、それぞれの前記モデル依存音声認識部ごとに独立したキャッシュを用いる、（２）に記載の音声認識装置。

（５）前記発話間相関評価部が計算する前記相関は、認識対象の発話に対して、前記少なくとも１つの言語モデル又は音響モデルの全てに基づく最尤仮説のみをキャッシュに含めて用いる、（２）に記載の音声認識装置。

（６）前記発話間相関評価部が計算する前記相関は、認識対象の発話ごとに全てのモデル依存音声認識部から出力される複数の認識結果候補を用い、前記認識結果候補は全てのモデル依存音声認識部に対して用意される共通のキャッシュに格納される、（２）に記載の音声認識装置。

本発明に係る音声認識装置においては、発話間相関評価部は、特定の言語モデル又は音響モデルを用いて認識した結果（音声認識の仮説）から、最適な音声認識の結果を選択するためのスコアを算出しうる。具体的には当該スコアは、発話間の単語相関等であり、当業者に公知の共起頻度、Ｊａｃｃａｒｄ係数、Ｓｉｍｐｓｏｎ係数、コサイン距離等の計算手法を用いて共起性を計算してもよく、キャッシュモデル（非特許文献６）を用いてスコアリングを実施してもよい。
（非特許文献６）Kuhn et al., IEEE Trans. PAMI, vol.12, no.6, pp.570-583, 1990.

特定の実施形態において、キャッシュモデルによる音声認識の仮説に対するスコアリングにおいては、第ｚ番目の言語モデルＬＭ_ｚによる仮説ｈ_ｚのリスコアリングに用いる言語モデルＬＭ’_ｚを次式で表しうる。

式中、Ｐ_Ｃ（ｗ_ｉ）はキャッシュＣ中の単語ｗ_ｉの出現確率、λは内挿パラメータである。キャッシュには認識対象音声中の一連の発話（ｔ＝１〜Ｔ：ｔは発話の時間的順序、Ｔは最終の発話）の仮説を含めうる。このキャッシュは、次の態様を含む：
［１］認識対象の発話に対して、少なくとも１つの言語モデル又は音響モデルごとに独立したキャッシュを用いる態様；
［２］認識対象の発話に対して、少なくとも１つの言語モデル又は音響モデルの全てに基づく最尤仮説のみをキャッシュに含めて用いる態様；又は、
［３］認識対象の発話に対して、少なくとも１つの言語モデル又は音響モデルの全てのキャッシュを用いる態様。

認識部ごとに独立したキャッシュを用いる場合は、次式を用いうる。

全ての認識部で共通のキャッシュを用いる場合には、各発話に対して最尤仮説のみをキャッシュに含めるよう、次式を用いてもよい。

式中、ｚｚ_ｔは、評価関数を最小にする話題列である。さらに、各発話に対する全話題の仮説を含める方法として、次式を用いてもよい。

このように、本発明に係る音声認識装置においては複数のキャッシュから選択して、又は組み合わせて、最適な音声認識の結果を選択するために用いうる。

（７）前記単語連鎖妥当性判定部は、前記入力された発話に含まれる１つの発話内の単語の連鎖の妥当性を、予め用意したテキストコーパスにおける前記単語の出現頻度を用いて判定する、（２）から（６）のいずれかに記載の音声認識装置。

本発明に係る音声認識装置においては、１つの発話は共起性を計算可能な単語を含めばよく、単語の数はいくつでもよい。この発話は、１つの独立語を含む発話でもよく、少なくとも２つの単語を含む発話でもよく、複数の発話を時間の順序に従って連結した発話でもよい。すなわち、本発明に係る音声認識装置に入力された複数の発話が、時間の順序に従って適宜連結され、当該連結された発話に対して、単語連鎖妥当性判定部が単語の連鎖の妥当性を評価してもよい。
予め用意したテキストコーパスは、当業者に公知の大規模テキストコーパス等を任意に用いうる。例えば、ネットワーク資源に記憶され一般公開されたテキストコーパス、特定の分野における文書を蓄積したテキストコーパス、自然言語又は形式言語等の特定の言語形態を蓄積したテキストコーパス等を、任意に用いうる。
一実施形態において、単語連鎖妥当性判定部は、同一の発言者の１つの発話に対して単語の連鎖の妥当性を評価しうる。別の実施形態において、単語連鎖妥当性判定部は、異なる発言者の発話を時間の順序に従って連結して連結した１つの発話とし、当該連結した１つの発話に対して単語の連鎖の妥当性を評価しうる。
単語連鎖妥当性判定部における単語の連鎖の妥当性の判定は、前述のようにインターネット検索サービス等を利用する、日本語としての妥当性等に基づいてもよく、言語モデル又は音響モデルに限定せず、これら以外の知識源を用いて実施してもよい。妥当性の判定は、１つの発話に含まれる単語のいずれか又は全て、あるいは当該１つの発話に対するペナルティスコアとして関連付けられてもよい。このペナルティスコアは、認識結果選択部における音声認識の結果の選択のために用いてもよい。
このようにして、本発明に係る音声認識装置は認識結果の妥当性を判定するための情報を生成しうる。

（８）前記予め用意したテキストコーパスはネットワーク資源に記憶される、（７）に記載の音声認識装置。

本発明に係る音声認識装置の単語連鎖妥当性判定部は、ネットワーク資源に記憶されたテキストコーパスを用いて、認識結果に含まれる単語の連鎖の妥当性を判定しうる。ネットワーク資源に記憶されたテキストコーパスの態様は何でもよく、インターネット検索サービス等でもよい。
一実施形態において、単語連鎖妥当性判定部は、認識結果に含まれる単語の連鎖をクエリとしてインターネット検索サービス等に入力し、当該連鎖のヒットの高さ、当該連鎖に含まれる単語単位でのヒットの高さ、あるいは結果が得られないこと等に基づいて、当該単語の連鎖の妥当性を判定しうる。さらに、単語連鎖妥当性判定部は、当該判定に基づいてペナルティスコア等のスコアを付与してもよい。これらのスコアは、認識結果選択部における音声認識の結果の選択のために用いてもよい。
このようにして、ネットワーク資源に記憶されたテキストコーパスを用いて、本発明に係る音声認識装置は認識結果の妥当性を判定するための情報を生成しうる。

（９）連続する発話を音声認識するための音声認識システムであって、入力された発話から特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識手段を少なくとも２つ備えて複数モデル依存認識結果を生成する音声認識手段と、前記複数モデル依存認識結果に対して、発話に対する認識結果のあいだの相関を計算する発話間相関評価手段と、前記複数モデル依存認識結果に対して、含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定手段と、前記発話間相関評価手段及び単語連鎖妥当性判定手段の計算結果を用いて、前記複数モデル依存認識結果から、前記入力された発話に対応する最適な発話認識結果を選択する認識結果選択手段と、を含み、前記モデル依存音声認識手段のそれぞれは、他のモデル依存音声認識手段と言語モデル又は音響モデルのいずれかが異なる、音声認識システム。

本発明に係る音声認識システムに含まれるそれぞれの手段は、１つの共通の筐体に内蔵してもよく、任意の一部をコンピュータネットワーク等を介して相互に接続するものでもよい。例えば、公知の言語モデル又は音響モデルを記憶するサーバ装置等をモデル依存音声認識手段にネットワーク接続して、本発明に係る音声認識システムを構成してもよい。少なくとも２つのモデル依存音声認識手段は、１つのコンピュータ装置等を用いて複数のプロセスを動作させるものでもよく、複数のコンピュータ装置等を並列動作させるものでもよく、適宜設定しうる。他の手段についても同様であり、それぞれに手段に任意にコンピュータ装置等を割り当ててもよく、全体を１つのコンピュータ装置等により実現してもよい。

（１０）コンピュータを用いて連続する発話を音声認識するための音声認識プログラムであって、入力された発話から特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識ステップを少なくとも２つ動作させて複数モデル依存認識結果を生成する音声認識ステップと、複数モデル依存認識結果に対して、発話に対する認識結果のあいだの相関を計算する発話間相関評価ステップと、複数モデル依存認識結果に対して、含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定ステップと、前記発話間相関評価ステップ及び単語連鎖妥当性判定ステップの計算結果を用いて、複数モデル依存認識結果から、前記入力された発話に対応する最適な発話認識結果を選択する認識結果選択ステップと、を含み、前記モデル依存音声認識ステップは、前記少なくとも２つの動作において言語モデル又は音響モデルのいずれかが他の動作と異なる、音声認識プログラム。

このようにすることにより、本発明に係る音声認識の諸段階はコンピュータプログラムとして提供しうる。本発明に係る音声認識の諸段階に係るコンピュータプログラムは、任意のコンピュータ可読媒体に記憶されたプログラム、ＦＰＧＡ（現場でプログラム可能なゲートアレイ）又はＡＳＩＣ（特定用途向け集積回路）等のハードウェアロジック素子に記憶されたプログラム等、任意の形態を含む。
モデル依存音声認識ステップを少なくとも２回動作させることは、例えばマルチタスク環境を備えるパーソナルコンピュータ装置等を用いて、モデル依存音声認識ステップを実施するためのプログラムを、実質的に同時に少なくとも２つ実行することにより実現してもよい。あるいは複数のコンピュータ装置等を並列動作させ、１つの発話の入力に対してモデル依存音声認識ステップを少なくとも２つ動作させてもよい。これらに限らず、コンピュータ装置等の構成は適宜設定しうる。

本発明によれば、複数の話題言語モデルを用意して同時並列に音声認識を実施し、音声認識の後に言語モデルを選択することにより、発話単位で最適な音声認識結果を選択し、高い精度で音声認識を実施可能な音声認識の方法を提供できるという効果がある。
また、本発明においては、言語モデルの選択結果において発話間の相関を利用し、発話内の単語列の妥当性を評価しうることにより、さらに高い音声認識の精度を得られるという効果がある。
さらに、本発明によれば、新しい話題言語モデルの追加が容易であり、さらにこの言語モデルの追加が全体の他の構成部分には波及することなく、複数の発話にまたがる知識を用いて分散計算機への適合性（スケーラビリティ）を高く確保できるという効果がある。

以下、本発明の実施形態について説明する。

［音声認識装置の構成］
図１は、本発明の一実施形態に係る、音声認識装置１０の構成を例示する図である。音声認識装置１０は、音声認識部２０、発話受付部３０、認識結果保持部４０、認識結果選択部５０、認識結果出力部６０、発話間相関評価部７０、単語連鎖妥当性判定部８０等を適宜含む。
図１には、音声認識部２０からの出力を認識結果保持部４０に保持し、当該保持された認識結果２９０から認識結果選択部５０が選択した出力を発話認識結果３００として出力する一形態を示す。

発話受付部３０は、音声認識の対象である発話２００を受け付ける。このとき発話受付部３０は、発話２００を個々の発話−１（２０１）、発話−２（２０２）、発話−３（２０３）等に分割してもよい。当該分割は、個々の発話−１（２０１）等のそれぞれにおいて、共起性を算出しうる単語又は複数の単語を含めばよい。当該共起性には当業者に公知の共起頻度、Ｊａｃｃａｒｄ係数、Ｓｉｍｐｓｏｎ係数、コサイン距離等を適宜用いうる。あるいは、当該分割は、独立語を１つの発話−１（２０１）等として実施してもよい。
一実施形態において、個々の発話−１（２０１）等は少なくとも２個の単語を含み、個々の発話−１（２０１）等のそれ自体の範囲内に含まれる１組の単語ごとに共起性を算出しうる。別の実施形態において、個々の発話−１（２０１）等は１個の単語を含み、当該単語は特定の意味を有する独立語等でありうる。
発話受付部３０は、受け付けた個々の発話−１（２０１）等に対して、他の個別の発話−２（２０２）等との識別のために識別子等を付与してもよい。

音声認識部２０は、発話受付部３０が受け付けた発話に対して音声認識を実施しうる。本発明に係る音声認識部２０においては、発話受付部３０が受け付けた１つの発話に対して、複数の認識部が並列して音声認識を実施しうる。具体的には、音声認識部２０は、認識部−１（２１０）、認識部−２（２２０）、…、認識部−Ｎ（２８０）等の複数の音声認識手段を含み、これらはそれぞれ言語モデル−１（２１）、言語モデル−２（２２）、…、言語モデル−Ｎ（２８）と接続して、独立に音声認識を実施しうる。これらの言語モデルは任意に音響モデルでもよい。例えば、認識部−１（２１０）はこれと接続する言語モデル−１（２１）を用いて音声認識を実施し、発話２００に含まれる発話−１（２０１）、発話−２（２０２）、発話−３（２０３）等のそれぞれに対して、認識結果−１ａ（２１１）、認識結果−１ｂ（２１２）、認識結果１−ｃ（２１３）等を生成しうる。他の認識部−２（２２０）、認識部−Ｎ（２８０）等についても同様であり、個々の認識部−１（２１０）等が生成する認識結果−１ａ（２１１）等は、接続した言語モデル又は音響モデルに依存する、モデル依存音声認識結果でありうる。これらは、本発明においては、、後続の評価又は判定を実施する前の段階における音声認識の仮説でもありうる。認識部の個数はいくつでもよく、適宜設定しうる。

認識結果保持部４０は、音声認識部２０に含まれる個々の認識部が生成した認識結果を、全体として１つの認識結果として保持しうる。当該保持は適宜記憶媒体（図示せず）を用いる情報の記憶を含む。具体的には、認識結果保持部４０は、音声認識部２０が生成した認識結果に含まれる：認識部−１（２１０）が生成した認識結果−１ａ（２１１）、認識結果−１ｂ（２１２）、認識結果１−ｃ（２１３）；認識部−２（２２０）が生成した認識結果−２ａ（２２１）、認識結果−２ｂ（２２２）、認識結果２−ｃ（２２３）；認識部−Ｎ（２８０）が生成した認識結果−Ｎａ（２８１）、認識結果−Ｎｂ（２８２）、認識結果−Ｎｃ（２８３）等を、１つの認識結果２９０として保持しうる。認識結果保持部４０は、認識結果２９０を発話２００と関連付けて保持してもよい。

認識結果選択部５０は、前段の認識結果保持部４０が保持する１つの認識結果２９０に含まれる認識結果から、文字正解精度を最大化しうる認識結果の組み合わせを選択しうる。具体的には、発話２００に含まれる発話−１（２０１）に対して、認識部−１が生成した認識結果−１ａ（２１１）、認識部−２が生成した認識結果−２ａ（２２１）、認識部−Ｎ（２８０）が生成した認識結果−Ｎａ（２８１）等から、文字正解精度を最大化しうる認識結果を選択する。当該選択のために、認識結果選択部５０は、発話間相関評価部７０及び単語連鎖妥当性判定部８０を用い、それぞれの認識部の認識結果ごとにスコアを計算しうる。当該スコアは、例えば発話間相関評価部７０においては共起性に基づき、単語連鎖妥当性判定部８０においてはペナルティスコアに基づきうる。

（共起性）
発話間相関評価部７０は、前段の認識結果保持部４０が保持する１つの認識結果２９０に含まれる認識結果、すなわちモデル依存音声認識結果（音声認識の仮説）から、最適な音声認識の結果を選択するためのスコアを算出しうる。具体的には当該スコアは、発話間の単語相関であり、当業者に公知の共起頻度、Ｊａｃｃａｒｄ係数、Ｓｉｍｐｓｏｎ係数、コサイン距離等の計算手法を用いて共起性を計算してもよく、キャッシュモデルを用いてスコアリングを実施してもよい。以下、キャッシュモデルによる音声認識の仮説に対するスコアリングについて説明する。

（最良仮説キャッシュモデル）
第ｚ番目の言語モデルＬＭ_ｚによる仮説ｈ_ｚのリスコアリングに用いる言語モデルＬＭ’_ｚを次式で表す。

式中、Ｐ_Ｃ（ｗ_ｉ）はキャッシュＣ中の単語ｗ_ｉの出現確率、λは内挿パラメータである。キャッシュには認識対象音声中の一連の発話（ｔ＝１〜Ｔ：ｔは発話の時間的順序、Ｔは最終の発話）の仮説を含めることができる。認識部ごとに独立したキャッシュを用いる場合は、次式を用いる。

（ペナルティスコアを用いる仮説検証）
本発明に係る音声認識装置の単語連鎖妥当性判定部８０は、音声認識の仮説の選択前に、各候補仮説の日本語としての妥当性を、言語モデル以外の知識源を用いて検証しうる。一実施形態において、音声認識の仮説中の内容語連鎖等の単語列をクエリとしてＷｅｂ検索を行い、検索結果が得られない場合は、誤認識の可能性が高いと考えて仮説スコアにペナルティを加えてもよい。仮説選択時にはこのペナルティを含めたスコアを使用してもよい。

（最良仮説キャッシュモデルと仮説検証の統合）
本発明に係る音声認識装置の認識結果選択部５０は、上述の発話間相関評価部７０による共起性の計算（例えば最良仮説キャッシュモデル）と、単語連鎖妥当性判定部８０によるペナルティスコアとを統合し、最適な音声認識の結果を選択しうる。
一実施形態において、最適な音声認識の結果の選択は、講演等の一連の発話に対する最尤仮説キャッシュモデル（Ｃ_ｂｅｓｔ）によるリスコアリングと、ペナルティスコアによる仮説検証との統合により実施される。
最尤仮説キャッシュモデル（Ｃ_ｂｅｓｔ）によるリスコアリングと、仮説検証を統合して適用する方法としては、例えば次式の評価関数を最小化することにより実施しうる。

式中、ｚ_ｔは第ｔ番目の発話の話題、Ｔは発話総数、右辺第１項はデコーダによる対数尤度、第２項は第ｔ番目の発話に対する仮説ｈ_ｚｔ中の単語ｗと、第ｔ’番目の発話に対する仮説ｈ_ｚｔ’中の単語ｗ’の間の共起スコアである（キャッシュモデルに対応する）。第３項は各発話に対する仮説ｈ_ｚｔの検証ペナルティである。この評価関数を最小にする話題列をｚｚ_１・・・ｚｚ_Ｔとおくときに、最終認識結果ｈ_ｚｚ１・・・ｈ_ｚｚＴが決定されうる。この最小化は、例えば確率を近似的に求める手法に含まれる公知のＭｅｔｒｏｐｏｌｉｓ法による繰り返し計算等を用いて近似的に実行できる。

このように、認識結果選択部５０が、前段の認識結果保持部４０が保持する１つの認識結果２９０に含まれる認識結果から、評価関数を最小化するように音声認識の仮説を選択することにより、文字正解精度を最大化しうる認識結果の組み合わせが選択されうる。

認識結果出力部６０は、前段の認識結果選択部５０が選択した認識結果の組み合わせを、１つの発話認識結果３００として出力しうる。出力された発話認識結果３００は、本発明に係る音声認識装置１０のユーザに対して任意の形態を用いて提供されうる。

［認識部の構成の例］
図２は、本発明の一実施形態に係る、音声認識部の構成を示す図である。図２においては認識部−１（２１０）を示すが、他の認識部についても同様に構成することが可能である。なお、図１における発話間相関評価部７０の機能は図２におけるリスコアリング手段−１（４１４）に置き換え可能であり、図１における単語連鎖妥当性判定部８０は図２における仮説検証手段−１（４１６）に置き換え可能である。このように、本発明においては、音声認識の最適な結果の選択は、図１のように音声認識部２０と独立した手段として設けてもよく、図２のように音声認識部２０の内部に取り入れてもよい。
以下、音声認識の最適な結果の選択手段を取り入れた認識部−１（２１０）の動作について説明する。入力は、図１と同様に、発話受付部３０により受け付けられた発話２００に含まれる１つの発話の単位である発話−１（２０１）、発話−２（２０２）又は発話−３（２０３）等でありうる。

一実施形態において、認識部−１（２１０）は、言語モデル−１（２１）と接続するデコーダ−１（４１２）、話題言語モデル−１（４１８）と接続するリスコアリング手段−１（４１４）、ネットワーク資源−１（４１９）と接続する仮説検証手段−１（４１６）等を適宜含む。

デコーダ−１（４１２）は、前述のように発話受付部３０が受け付けた発話２００に対して、言語モデル−１（２１）を用いて音声認識を実施しうる。当該言語モデルは音響モデルでもよい。この音声認識により、音声認識の仮説（４１３）が生成される。音声認識の仮説（４１３）は、図１における認識結果−１ａ（２１１）、認識結果−１ｂ（２１２）、認識結果１−ｃ（２１３）等と同等である。

次いで、リスコアリング手段−１（４１４）は、前述の音声認識の仮説（４１３）に対して、キャッシュモデルを用いて発話間の単語相関を評価しうる。当該キャッシュモデルのために、例えば言語モデル−１（４１８）がリスコアリング手段−１（４１４）に接続されうる。このリスコアリング手段−１（４１４）からの出力は、例えば、出力仮説−１（４１５）として後続の仮説検証手段−１（４１６）に用いられる。リスコアリング手段−１（４１４）は、認識部−１（２１０）等の特定の認識部に接続してもよく、複数の認識部に接続してもよい。

次いで、仮説検証手段−１（４１６）は、出力仮説−１（４１５）を入力として、言語モデル以外の知識源を用いて音声認識の妥当性を検証しうる。例えば、出力仮説−１（４１５）に含まれる音声認識の結果の日本語としての妥当性を検証するために、仮説検証手段−１（４１６）をネットワーク資源（４１９）に接続し、出力仮説−１（４１５）に含まれる単語列をクエリとしてＷｅｂ検索を行いうる。検索結果が得られない場合は、誤認識の可能性が高いと考えて仮説スコアにペナルティを加えてもよい。これにより、単語の連鎖の妥当性を判定するための情報が生成されうる。後続の音声認識結果の選択において、このペナルティを含めたスコアが使用されてもよい。仮説検証手段−１（４１６）からの出力は、例えば、出力候補−１（４１７）として、後続の認識結果保持部４０に用いられる。ネットワーク資源（４１９）の接続は、認識部−１（２１０）の仮説検証手段−１（４１６）に限らず、任意の認識部から接続してもよい。

（直列動作及び並列動作）
リスコアリング手段−１（４１４）及び仮説検証手段−１（４１６）の動作は、図１に発話間相関評価部７０及び単語連鎖妥当性判定部８０として示したように、並列動作として、リスコアリング手段−１（４１４）が生成する出力仮説−１（４１５）と、仮説検証手段−１（４１６）が生成する出力候補−１（４１７）とを、後続の認識結果保持部４０への入力としてもよい。また、上述のように直列的に、リスコアリング手段−１（４１４）を実施して生成される出力仮説−１（４１５）を仮説検証手段−１（４１６）に入力して出力候補−１（４１７）を生成してもよい。
出力仮説−１（４１５）及び出力候補−１（４１７）は、認識された単語であってもよく、認識された単語に付随する数値情報等でもよい。本発明に係る音声認識装置の認識結果保持部４０は、認識された単語の形態である音声認識の仮説（４１３）、数値情報等である出力仮説−１（４１５）及び出力候補−１（４１７）の全体を保持しうる。

このように、図２に示した構成の音声認識部２０は、図１の発話間相関評価部７０及び単語連鎖妥当性判定部８０を取り入れることにより、発話間の単語相関を評価するための情報と、単語の連鎖の妥当性を判定するための情報とが付与された音声認識の結果を、後続の認識結果保持部４０への入力としうる。図１に示したように、認識結果保持部４０のさらに後続の認識結果選択部５０においては、図２の構成の音声認識部２０が生成したこれらの情報を用いて、上述のように最適な音声認識の結果を選択しうる。

［音声認識方法のフロー図］
図３は、本発明の一実施形態に係る、音声認識方法のフロー図である。

本発明に係る音声認識方法においては、発話受付ステップ（Ｓ１０）において、音声認識の処理対象である発話を受け付ける。一実施形態において、個々の発話は少なくとも２個の単語を含み、個々の発話自体の範囲内に含まれる１組の単語ごとに共起性を算出しうる。別の実施形態において、個々の発話は１の単語を含み、当該単語は特定の意味を有する独立語等でありうる。
発話受付ステップ（Ｓ１０）は、受け付けた発話２００を適宜分割してもよい。当該分割は、分割後の発話のそれぞれにおいて、それ自体に含まれる単語又は複数の単語の間に共起性を計算できればよい。当該共起性の計算には当業者に公知の共起頻度、Ｊａｃｃａｒｄ係数、Ｓｉｍｐｓｏｎ係数、コサイン距離等を適宜用いうる。

次いで、各デコーダによる音声認識ステップ（Ｓ１２）は、発話受付ステップ（Ｓ１０）において受け付けた１つの発話に対して、少なくとも２つのデコーダを時間的に並列して独立して動作させ、それぞれのデコーダによる音声認識を実施しうる。従って、入力された１つの発話から、デコーダの数の認識仮説（検証前の認識結果）が生成されうる。例えば、３つの時間的に連続する発話が入力され、４つのデコーダが音声認識のために用いられる場合には、１２個の認識仮説が出力されうる。デコーダの数はいくつでもよく、適宜設定しうる。

次いで、キャッシュモデルによるリスコアリングステップ（Ｓ１４）は、認識仮説から、最適な音声認識の結果を選択するためのスコアを算出しうる。具体的には当該スコアは、キャッシュモデルを用いるスコア等でもよく、当業者に公知の共起頻度、Ｊａｃｃａｒｄ係数、Ｓｉｍｐｓｏｎ係数、コサイン距離等の計算手法を用いて計算される共起性でもよい。これにより、認識仮説に含まれる発話間の単語相関を評価するための情報が生成されうる。

次いで、仮説の検証ステップ（Ｓ１６）は、認識仮説から、各候補仮説の日本語としての妥当性を検証しうる情報を生成する。具体的には、認識仮説の内容語連鎖等の単語列をクエリとしてＷｅｂ検索を行いうる。検索結果が得られない場合は、誤認識の可能性が高いと考えて仮説スコアにペナルティを加えてもよい。仮説選択時にはこのペナルティを含めたスコアを使用してもよい。これにより、認識仮説に含まれる単語連鎖の妥当性を判定するための情報が生成されうる。

次いで、キャッシュモデルと仮説検証の統合ステップ（Ｓ１８）は、前述のリスコアリングステップ（Ｓ１４）により生成した発話間の単語相関を評価するための情報と、仮説の検証ステップ（Ｓ１６）により生成した単語連鎖の妥当性を判定するための情報とを統合する。この統合は、例えば、図１を用いて示した評価関数を最小化することにより実施しうる。

このようにすることで、本発明に係る音声認識方法においては、複数の言語モデルを用意して同時並列に音声認識を実施し、音声認識の後に言語モデルを選択することにより、発話単位で最適な音声認識結果を選択し、高い精度で音声認識を実施可能な音声認識の方法を提供しうる。また、本発明においては、言語モデルの選択結果において発話間の相関を利用し、発話内の単語列の妥当性を評価しうることにより、さらに高い音声認識の精度を得られる。

［音声認識装置１０のハードウェア構成］
図４は、本発明の一実施形態に係る、音声認識装置１０のハードウェア構成を示す図である。音声認識装置１０は好適には市販入手可能なサーバ装置等でありうるが、パーソナルコンピュータ等を音声認識装置１０として用いる場合においても基本的には同様である。

音声認識装置１０は、制御部１０８を構成するＣＰＵ１１０（マルチプロセッサ構成ではＣＰＵ１２０等複数のＣＰＵが追加されてもよい）、バスライン１０７、通信Ｉ／Ｆ１４０、メインメモリ１５０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）１６０、ＵＳＢポート１９０、Ｉ／Ｏコントローラ１７０、並びにキーボード及びマウス１８０等の入力手段や表示装置１２２を備える。Ｉ／Ｏコントローラ１７０には、テープドライブ１７２、ハードディスク１７４、光ディスクドライブ１７６、半導体メモリ１７８、等の記憶部１０９を接続しうる。ＢＩＯＳ１６０は、サーバの起動時にＣＰＵ１１０が実行するブートプログラムや、サーバのハードウェアに依存するプログラム等を格納する。ハードディスク１７４は、サーバとして機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶する。光ディスクドライブ１７６としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ、ＣＤ−ＲＡＭドライブ等を使用しうる。この場合は各ドライブに対応した光ディスク１７７を使用する。光ディスク１７７から光ディスクドライブ１７６によりプログラム又はデータを読み取り、Ｉ／Ｏコントローラ１７０を介してメインメモリ１５０又はハードディスク１７４に提供しうる。また、同様にテープドライブ１７２に対応したテープメディア１７１を主としてバックアップのために使用しうる。

サーバに提供されるプログラムは、ハードディスク１７４、光ディスク１７７、又はメモリカード等の記録媒体に格納されて提供される。このプログラムは、Ｉ／Ｏコントローラ１７０を介して、記録媒体から読み出され、又は通信Ｉ／Ｆ１４０を介してダウンロードされることによって、サーバにインストールされ実行されてもよい。

上述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、磁気記録媒体、光磁気記録媒体、光学記録媒体、電子媒体を含むが、これらに限定されない。前記磁気記録媒体には、磁気テープ、フロッピー（登録商標）ディスク、ハードディスク１７４、磁気ランダムアクセスメモリ（ＭＲＡＭ）等を含み、光磁気記録媒体には光磁気ディスク（ＭＯ及びＭＤ）等を含み、光学記録媒体には追記型コンパクトディスク（ＣＤ）、追記型デジタル多目的ディスク（ＤＶＤ）、追記型ブルーレイディスク、追記型ホログラフィック・ディスク等を含み、電子媒体には電気書き込み可能読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ、シリコン・ストレージ・ディスク等を含む。また、専用通信回線やインターネット等の通信回線に接続されたサーバシステムに設けたハードディスク１７４又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをサーバに提供してもよい。

ここで、表示装置１２２は、サーバ管理者によるデータの入力を受け付ける画面を表示したり、演算処理結果の画面を表示したりするものであり、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置を含む。入力手段は、ユーザによる入力の受け付けを行うものであり、キーボード及びマウス１８０等により構成してもよい。通信Ｉ／Ｆ１４０は、サーバを専用ネットワーク又は公共ネットワークを介して端末と接続しうるようにするためのネットワーク・アダプタである。通信Ｉ／Ｆ１４０は、モデム、ケーブル・モデム及びイーサネット（登録商標）・アダプタを含んでよい。

以上の例は、音声認識装置１０のハードウェア構成について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータを音声認識装置１０として動作させることにより上記で説明した機能を実現しうる。従って、本発明において一実施形態として説明した音声認識装置１０により実現される機能は、上述の方法を前記コンピュータにより実行することにより、あるいは、上述のプログラムを前記コンピュータに導入して実行することによっても実現可能である。

（音声認識の評価実験）
本発明に係る音声認識方法の評価実験には、日本語話し言葉コーパス（ＣＳＪ）（非特許文献７）を用いた。テストセットには模擬講演（男女各１０名、テストセットＡ）（非特許文献８）及び学会講演（男女各１０名、テストセットＢ）を用いた。音響モデルは２４９６講演（４８６時間）から学習した１６混合３０００状態の性別非依存トライフォンＨＭＭ（非特許文献８）を用い、デコーダはＪｕｌｉｕｓ３．５．３（非特許文献９）を使用した。
（非特許文献７）Kikuo Maekawa, "CORPUS OF SPONTANEOUS JAPANESE: ITS DESIGN AND EVALUATION", MM02, SSPR, 2003
（非特許文献８）Tatsuya Kawahara, Hiroaki Nanjo, Takahiro Shinozaki, Sadaoki Furui, "BENCHMARK TEST FOR SPEECH RECOGNITION USING THE CORPUS OF SPONTANEOUS JAPANESE", TM04, SSPR, 2003
（非特許文献９）Akinobu Lee, Tatsuya Kawahara, Kiyohiro Shikano, "Julius− an Open Source Real-Time Large Vocabulary Recognition Engine", Eurospeech 2001 - Scandinavia ICSLP, pp.1691-1694, 2001

話題言語モデルを作成するためのテキストコーパスとしては、Ｗｅｂ上のディレクトリ（Ｙａｈｏｏ！カテゴリ、http://dir.yahoo.co.jp）及びブログ（Ｙａｈｏｏ！ブログ、http://blogs.yahoo.co.jp、２００８年４月分）を用いた。前者のディレクトリ最上位の分類（１３個）を話題として利用した。ＣＳＪ書き起こしテキスト（テストセットは除く）も１つの話題として追加した。
表１に、各話題のコーパスサイズ（単位はＭ単語、Ｍは１０の６乗）を示す。これらのコーパスから話題ごとに言語モデル（ｔｒｉｇｒａｍ、語彙数３００００）を作成した。比較用に全コーパスを混合した汎用言語モデルも作成した。

（実験結果）
表２に、本発明に係る音声認識方法の評価実験の結果を示す。各実験のパラメータはテストセットＡにおいて最良に調節した。表２は、実験ＩＤが１から８までの実験結果を含み、実験ＩＤが１及び２の実験においては従来技術に係る汎用言語モデルを用い、実験ＩＤが３の実験においては従来技術に係るＣＳＪ言語モデルを用いた。実験ＩＤが４から８の実験においては、本発明に係る音声認識の方法を用いた。

実験１は、従来技術に係る汎用言語モデルを１つ用いる場合の認識結果の例である。
実験２は、汎用言語モデルによる１０位までの仮説を、話者全体の認識結果を含めたキャッシュモデルでリスコアリングした結果である。
実験３は、ＣＳＪ書き起こしテキストから作成した言語モデルによる認識結果で、テストセットにマッチした言語モデルを用いた場合の参考結果である。
実験４は、１４個の話題言語モデルを用いてデコードした結果から、話者単位に尤度最大の話題を選んだ場合の結果である。
実験５は、発話ごとに全仮説をＲＯＶＥＲ法（非特許文献１０）を用いて統合した結果である。
実験６は、発話ごとに尤度最大の話題を選んだ場合の結果である。
実験７は、実験６に発話ごとのキャッシュモデル（Ｃａｌｌ）によるリスコアリングを加えた結果である。
実験８は、さらに仮説検証を加えて２．３節の方法で話題選択した結果である。
（非特許文献１０）J.G.Fiscus, "A POST-PROCESSING SYSTEM TO YIELD REDUCED WORD ERROR RATES: RECOGNIZER OUTPUT VOTING ERROR REDUCTION", ASRU, pp.347-352, 1997

表２に示すように、従来技術に係る実験１〜３の結果においても、言語モデルの選択及び内挿パラメータλの最適化等の調節により、音声認識結果の正解精度は向上しうる。しかし、本発明に係る音声認識方法を用いる実験４〜８の結果においては、いずれも従来技術を上回る正解精度が得られた。特に、実験７においてキャッシュモデルを用いる単語相関評価を使用することにより、及び実験８においてさらに単語連鎖妥当性判定を使用して評価関数を最小化する条件で認識結果を選択することにより、音声認識の正解精度をさらに高めることが可能であった。

本発明に係る音声認識方法においては、複数の話題言語モデルを用いて独立に発話をデコードし、発話単位に最良スコアの仮説を事後選択しうる。これにより、本発明に係る音声認識の方法は、従来技術に係る単一の汎用言語モデルや話題言語モデルを用いるよりも高い認識精度を得られる。また複数の話題仮説を含めたキャッシュモデルや、Ｗｅｂ検索による内容語連鎖の妥当性検証も有効であり、本発明に係る音声認識方法による音声認識の正解精度をさらに高めることが可能である。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。

本発明の一実施形態に係る、音声認識装置１０の構成を例示する図である。本発明の一実施形態に係る、音声認識装置１０の構成を例示する図である。本発明の一実施形態に係る、音声認識部のフロー図である。本発明の一実施形態に係る、音声認識装置１０のハードウェア構成を示す図である。

符号の説明

１０音声認識装置
２０音声認識部
３０発話受付部
４０認識結果保持部
５０認識結果選択部
６０認識結果出力部
７０発話間相関評価部
８０単語連鎖妥当性判定部
２００発話
３００発話認識結果
４１２デコーダ−１
４１３音声認識の仮説
４１４リスコアリング手段−１
４１６仮説検証手段−１
４１８話題言語モデル−１
４１９ネットワーク資源−１

Claims

連続する発話を音声認識するための音声認識装置であって、
特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識部を少なくとも２つ備え、入力された連続する発話の各々について当該モデル依存音声認識部による認識結果を生成する音声認識部を含み、
前記モデル依存音声認識部のそれぞれは、他のモデル依存音声認識部と言語モデル又は音響モデルのいずれかが異なるものであり、
前記連続する発話間で、前記音声認識部が生成した認識結果に含まれる単語の共起性を計算する発話間相関評価部と、
前記発話間相関評価部の計算結果を用いて、前記共起性が前記連続する発話全体として最も高くなるように、前記発話毎に前記認識結果に含まれる単語を選択する認識結果選択部とを更に含む音声認識装置。
前記発話間相関評価部が実行する前記共起性の計算は、認識対象の発話に対して、それぞれの前記モデル依存音声認識部ごとに独立したキャッシュを用いて実行する、請求項１に記載の音声認識装置。
前記発話間相関評価部は、認識対象の発話に対して、前記少なくとも１つの言語モデル又は音響モデルの全てに基づく最尤仮説のみをキャッシュに含めて用いる、請求項１または２に記載の音声認識装置。
前記発話間相関評価部は、認識対象の発話ごとに全てのモデル依存音声認識部から出力される複数の認識結果候補を用い、前記認識結果候補は全てのモデル依存音声認識部に対して用意される共通のキャッシュに格納される、請求項１に記載の音声認識装置。
さらに、前記モデル依存音声認識部による認識結果に含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定部を含み、
前記認識結果選択部は、前記単語連鎖妥当性判定部の計算結果を用いて、前記発話毎に前記認識結果に含まれる単語を選択する、
請求項１から４のいずれかに記載の音声認識装置。
前記単語連鎖妥当性判定部は、前記入力された連続する発話に含まれる１つの発話内の単語の連鎖により構成される単語列の妥当性を、予め用意したテキストコーパスにおける、当該単語列の出現頻度を用いて判定する、請求項５に記載の音声認識装置。
前記予め用意したテキストコーパスはネットワーク資源に記憶される、請求項６に記載の音声認識装置。
連続する発話を音声認識するための音声認識システムであって、
特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識手段を少なくとも２つ備え、入力された連続する発話の各々について当該モデル依存音声認識手段による認識結果を生成する音声認識手段を含み、
前記モデル依存音声認識手段のそれぞれは、他のモデル依存音声認識手段と言語モデル又は音響モデルのいずれかが異なるものであり、
前記モデル依存音声認識手段による認識結果に含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定手段と、
前記連続する発話間で、前記音声認識手段が生成した認識結果に含まれる単語の共起性を計算する発話間相関評価手段と、
前記発話間相関評価手段及び前記単語連鎖妥当性判定手段の計算結果を用いて、前記共起性が前記連続する発話全体として最も高くなるように、前記発話毎に前記認識結果に含まれる単語を選択する認識結果選択手段とを更に含む音声認識システム。
コンピュータを用いて連続する発話を音声認識するための音声認識プログラムであって、前記コンピュータに、
特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識ステップを少なくとも２つ動作させて、入力された連続する発話の各々について当該モデル依存音声認識ステップにおける認識結果を生成する音声認識ステップを実行させ、
前記モデル依存音声認識ステップにおけるそれぞれの処理は、言語モデル又は音響モデルのいずれかが異なるものであり、
前記コンピュータに、前記モデル依存音声認識ステップにおける認識結果に含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定ステップと、
前記連続する発話間で、前記音声認識ステップにおいて生成した認識結果に含まれる単語の共起性を計算する発話間相関評価ステップと、
前記発話間相関評価ステップ及び前記単語連鎖妥当性判定ステップにおける計算結果を用いて、前記共起性が前記連続する発話全体として最も高くなるように、前記発話毎に前記認識結果に含まれる単語を選択する認識結果選択ステップとを実行させる音声認識プログラム。