JP2014035361A

JP2014035361A - 音声認識装置とその方法とプログラム

Info

Publication number: JP2014035361A
Application number: JP2012174949A
Authority: JP
Inventors: Taichi Asami; 太一浅見; Hirokazu Masataki; 浩和政瀧; Osamu Yoshioka; 理吉岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-08-07
Filing date: 2012-08-07
Publication date: 2014-02-24
Anticipated expiration: 2032-08-07
Also published as: JP5749230B2

Abstract

【課題】ラベル付き音声認識結果を用いることなく正確な単語信頼度を求めることができる音声認識装置を提供する。
【解決手段】音声データを入力として、音声認識処理を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する音声認識部１１０と、単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、単語信頼度付き音声認識結果データベース１３０を参照して当該音声認識結果データベースに記憶された補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、補正対象単語の単語信頼度として出力する単語信頼度補正部１４０と、を具備する。
【選択図】図１

Description

この発明は、音声認識装置と、その装置で用いる音声認識方法とプログラムに関し、特に、入力音声信号に対する音声認識処理により得られる認識結果に付随して、認識結果の信頼度を出力する音声認識装置と、その方法とプログラムに関する。

大量の音声データとその音声認識結果をデータベースに蓄積し、音声認識結果に対して検索やテキストマイニングなどの技術を適用して情報抽出を行うシステムにおいて、音声認識結果に含まれる認識誤り単語が情報抽出に悪影響を与えることはよく知られている。具体的には、検索クエリが認識誤り単語にヒットすることにより利用者の意図しない検索結果が出力される、また、ある単語の出現頻度をカウントした際に、認識誤りとして現れているケースもカウントしてしまうことにより、その単語が実際に音声データ中で発声された回数と、音声認識結果に出現した回数とに異なりが生じる。このように、認識誤り単語によって情報抽出の結果が乱されることにより、利用者が所望の情報を得られない、システムの出力する情報が信頼できない、という問題が発生し、システムの利便性が低下する。

この問題への対処方法としては、音声認識結果に含まれる認識誤り単語を検出し、認識誤り単語を排除するアプローチが有望である。音声認識結果に含まれる各単語に対して認識結果の確からしさを表す認識信頼度（以下、「単語信頼度」と称す）を付与し、単語信頼度が所定の閾値以下となっている単語を認識誤りとして検出/排除した誤り単語の少ない音声認識結果をデータベースに蓄積しておくことで、以後の検索処理やテキストマイニング処理での情報抽出の正確性を向上させることができる。

例えば、特許文献１に開示されている単語信頼度を算出/付与する方法は、音声認識処理の探索結果の上位Ｎ位までのＮベスト候補のスコア１位の単語Ｗ_１の単語信頼度を、単語Ｗ_１のスコアと、スコア２位以下で単語Ｗ_１と異なる単語Ｗ_２とのスコア差を、単語Ｗ_１の継続時間長で正規化した値とする考えである。

また、非特許文献１には、処理対象の単語に付与された単語信頼度と、当該単語の周辺単語の情報にもとづいて、当該単語が正解である確率を計算し、改めて単語信頼度として付与する単語の正誤を確率的に識別する方法が開示されている。

特開２００５−１４８３４２号公報

松本ほか、「複数の言語情報を用いたＣＲＦによる音声認識誤りの検出」日本音響学会講演論文集,pp.227-228,2009年3月.

特許文献１の方法は、Ｎベスト候補のみから単語信頼度を計算するため、事前の学習などの手間が不要であるメリットはある。しかし、単語信頼度の誤差が大きく、正解単語なのに単語信頼度が低くなるケースや、誤り単語であるのに単語信頼度が高くなるケースがあり、誤り単語の検出性能が低い課題がある。つまり、誤りを多く検出できるように厳しい閾値を設定した場合には正解単語を多数排除してしまい、逆に正解を排除しないように緩い閾値を設定した場合には排除されずに残る誤り単語の数が多くなってしまう。

また、非特許文献１の方法は、単純な単語信頼度のみを使う特許文献１などの方法に比べて誤り単語の検出性能が高いメリットがある。しかし、正解/誤りを識別するモデルを事前に学習する必要がある。学習には、実際にシステムを利用する場面で発声された音声データを音声認識した音声認識結果の各単語に対して正解であるか誤りであるかのラベルを付与したラベル付き音声認識結果を用いる。ラベルを付与する方法としては、音声データを人が聞きながら音声認識結果に１単語ずつ正解/誤りのラベルを付与する方法や、音声データを人が聞いて書き起こした正解テキストと音声認識結果とでマッチングを取り、正解テキストとマッチした単語に正解ラベル、マッチしなかった単語に誤りラベルを付与する方法などがある。何れの方法も人が音声を聞く作業が必須であり、ラベル付き音声認識結果の作成には大きなコストが必要である。

この発明は、このような課題に鑑みてなされたものであり、大きなコストが必要なラベル付き音声認識結果を用いずに誤り単語の検出性能を向上させることができる音声認識装置と、その方法とプログラムを提供することを目的とする。

この発明の音声認識装置は、音声認識部と、単語信頼度付き音声認識結果データベース（以降、データベースをＤＢと表記する）と、単語信頼度補正部と、を具備する。音声認識部は、音声データを入力として、音声認識と単語信頼度の計算を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する。単語信頼度付き音声認識結果ＤＢは、単語信頼度付き音声認識結果を記憶する。単語信頼度補正部は、単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、単語信頼度付き音声認識結果データベースを参照してその単語信頼度付き音声認識結果データベースに記憶された補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、補正対象単語の単語信頼度として出力する。

この発明の音声認識装置によれば、ラベル付き音声認識結果を用いることなく正確な単語信頼度を求めることができる。正確な単語信頼度を付与することで、音声認識結果に対するテキストマイニングなどの情報抽出の正確性が向上し、音声認識結果を用いるシステムの利便性を高めることができる。また、多数の異なる導入先にシステムを展開する際に、導入先ごとにラベル付き音声認識結果を作成する必要がなくなるので、システムの展開が容易となり、より多くの場面で、音声認識装置を用いたシステムの利用を可能にする。

また、システム導入後の運用フェーズにおいても、この発明の音声認識装置によれば、ラベル付き音声認識結果を用意する必要がないので、新語などを新たに追加するシステムメンテナンスを、低コストで且つ容易に行うことができる。

この発明の音声認識装置１００の機能構成例を示す図。音声認識装置１００の動作フローを示す図。単語信頼度補正部１４０の機能構成例を示す図。対象文脈抽出手段１４１の動作フローを示す図。対象文脈抽出手段１４１の動作フローを示す図。補正対象単語Ｗ_ｉと対象文脈の関係の例を示す図。補正対象単語Ｗ_ｉと補正対象単語事例Ｗ_ｊとの関係例を示す図。音声認識結果出力手段１４４の動作フローを示す図。誤り単語検出性能の評価実験結果を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

〔発明の考え〕
実施例の説明の前に、この発明の音声認識装置における単語信頼度の補正方法に関する考え方を説明する。音声認識において、認識した個々の単語の単語信頼度の値のバラツキは大きい。正解単語であるのに単語信頼度が低くなる場合もあれば、誤り単語であるのに単語信頼度が高くなる場合もある。そのため、ある単語の単語信頼度を一つだけを評価して誤り単語か否かを判定するのは困難である。

一方、多数の正解単語の単語信頼度の平均値は、多数の誤り単語の単語信頼度の平均値よりも明確に高くなる傾向にある。この発明は、この点に着目して単語信頼度の値を補正する考えである。

音声認識結果に同じ単語が同じような文脈で何度か現れているとき、それらは「全て正解」か「全て誤り」かの何れかだと考えられる。例えば、Ａの単語の並びが１０回、Ｂの単語の並びも１０回、音声認識結果に現れていたと仮定する。「/」は単語区切りを表す。
Ａ：週/の/終わり/は/高気圧/に/覆われ/て/晴れる/日/も/ある/でしょう/
Ｂ：梅雨前線/や/湿った/高気圧/の/影響/で/雲/が/広がり/やす/く/

Ａの「高気圧」は１０回全て正解であり、Ｂの「高気圧」は１０回全て認識誤りである。このとき、Ａの場合の１０回の「高気圧」の単語信頼度の平均値は、Ｂの場合の１０回の「高気圧」の単語信頼度の平均値よりも高くなる。つまり、個々の「高気圧」の単語信頼度はＡの場合に低いこともあり、Ｂの場合に高くなることもあるが、平均値で見ればその間に違いが現れる。

そこで、Ａの場合の各「高気圧」の単語信頼度を、Ａの場合の１０回の「高気圧」の平均値で補正する。そして、Ｂの場合の各「高気圧」の単語信頼度を、Ｂの場合の１０回の「高気圧」の平均値に補正し、補正後の両方の単語信頼度に対して閾値処理をすることで、Ａの「高気圧」を１０回全て正解と判定し、Ｂの「高気圧」を１０回全て誤りと判定できるようにする。このように、この発明では、音声認識結果中のある単語（補正対象単語）の単語信頼度を、同じ単語が別の音声認識結果で出現したときの単語信頼度を参照して補正する。このとき、似た文脈で同じ単語が現れている場合の単語信頼度を重視する。文脈とは、補正対象単語の前後に出現している単語の集合のことである。参照するのは別の音声認識結果と単語信頼度のみ（何れも自動生成される）であり、人手で作成するラベル付き音声認識結果を用いることなく、コストをかけずに単語信頼度を正しく補正することができる。

図１に、この発明の音声認識装置１００の機能構成例を示す。その動作フローを図２に示す。音声認識装置１００は、音声認識部１１０と、単語信頼度付き音声認識結果データベース１３０と、単語信頼度補正部１４０と、制御部１５０と、を具備する。音声認識装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

音声認識部１１０は、音声データを入力として、音声認識と単語信頼度の計算を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する（ステップＳ１１０）。音声認識には、例えば参考文献１（政瀧ほか、“顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」”ＮＴＴ技術ジャーナル,Vol.18,No.11,pp.15-18,2006.）に記載された既存技術を用いる。また、単語信頼度の算出/付与には、例えば上記した特許文献１や参考文献２（F. Wessel et al., “Confidence Measures for Large Vocabulary Continuous Speech Recognition,” IEEE trans. On Speech and Audio Processing,9(3),pp.288-298,2001.）に記載された既存技術を用いる。

単語信頼度付き音声認識結果ＤＢ１３０は、上記した既存技術で音声データを音声認識した結果の単語信頼度付き音声認識結果を大量に記憶する。ここで大量とは、例えば１０００時間程度に及ぶ音声データに対応した音声認識結果である。なお、破線で音声認識結果ＤＢ登録部１２０を示すように、音声認識部１１０の出力する単語信頼度付き音声認識結果を逐次、単語信頼度付き音声認識結果ＤＢ１３０に記憶するようにしても良い。

単語信頼度補正部１４０は、音声認識部１１０が出力する単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、単語信頼度付き音声認識結果ＤＢを参照して当該音声認識結果データベースに記憶された上記補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、上記補正対象単語の単語信頼度として出力する（ステップＳ１４０）。このとき、予め作成した補正対象外とする単語を列挙したストップリストを参照して、例えば「えーと」、「あのー」などの穴埋め語（フィラー）や助詞などを、補正対象外単語として分類しても良い。

制御部１５０は、全ての音声認識結果についての単語信頼度の補正が終わるまでステップＳ１１０〜Ｓ１４０の処理を繰り返すように、各部の動作を制御する（ステップＳ１５０）。

音声認識装置１００によれば、対象文脈と文脈事例との類似度から求めた補正単語信頼度を、補正対象単語の単語信頼度として出力するので、従来技術で必要としたラベル付き音声認識結果を用いることなく正確な単語信頼度を求めることができる。この発明の主要部である単語信頼度補正部１４０のより具体的な機能構成例を示して更に詳しく説明する。

〔単語信頼度補正部〕
図３に、単語信頼度補正部１４０のより具体的な機能構成例を示す。単語信頼度補正部１４０は、対象文脈抽出手段１４１と、文脈事例抽出手段１４２と、補正単語信頼度計算手段１４３と、音声認識結果出力手段１４４と、を備える。

〔対象文脈抽出手段〕
対象文脈抽出手段１４１は、音声認識部１１０が出力する単語信頼度付き音声認識結果を入力として、補正対象単語を特定しその補正対象単語の前後複数単語の範囲を対象文脈として抽出し、補正対象単語とその単語信頼度と対象文脈との組みと、補正対象外とする補正対象外単語とその単語信頼度との組みと、を出力する。

図４と５に、対象文脈抽出手段１４１の動作フローを示す。対象文脈抽出手段１４１は、動作を開始すると音声認識結果の単語列を構成する各単語を特定する変数ｉをｉ＝１に初期化する（ステップＳ１４１００）。まず初めに、音声認識結果の単語列の先頭の単語Ｗ_１を特定する（ステップＳ１４１０１）。単語Ｗ_１が、ストップリストにリストアップされていた場合（ステップＳ１４１０４のＹｅｓ）、対象文脈抽出手段１４１は単語Ｗ_１とその単語信頼度を、そのまま補正対象外単語Ｗ_ｉとその単語信頼度との組みとして音声認識結果出力手段１４４に出力する（ステップＳ１４１０２）。そして、変数ｉをインクリメントして２番目の単語Ｗ_２を特定する（ステップＳ１４１０１）。ストップリストとは、上記したように穴埋め語等を補正対象外に分類するための単語の一覧表である。

単語Ｗ_１が、ストップリストに無かった場合（ステップＳ１４１０４のＮｏ）、単語Ｗ_１を補正対象単語Ｗ_１として確定する（ステップＳ１４１０５）。そして、補正対象単語Ｗ_１の前方の対象文脈の範囲を特定する変数ｓをｓ＝１に、対象文脈として抽出した単語の数を表す変数ｎをｎ＝０に初期化する（ステップＳ１４１０６）。次に、単語Ｗ_１−ｓの単語が存在するか否かを判断する。ここでは、単語Ｗ_１が音声認識結果の先頭の単語であるので単語Ｗ_１の前には単語Ｗ_１−ｓが存在しない（ステップＳ１４１０７のＮｏ）。そこで対象文脈抽出手段１４１は、結合子αで結合する図５に示された補正対象単語の後方の対象文脈を抽出する処理を行う。ステップＳ１４１０７のＹｅｓの場合の処理は後述する。

対象文脈抽出手段１４１は、補正対象単語Ｗ_１の後方の対象文脈の範囲を特定する変数ｔをｔ＝１に、対象文脈として抽出した単語の数を表す変数ｍをｍ＝０に初期化する（ステップＳ１４１１３）。そして、単語Ｗ_１＋ｔの単語の存在を確認する。ここでは、音声認識結果の２番目の単語である単語Ｗ_２は存在するので、単語Ｗ_２がストップリストにリストアップされている場合は、変数ｔをインクリメント（ステップＳ１４１１６）し、ストップリストに単語Ｗ_２がない場合は、単語Ｗ_２を後方の対象文脈として抽出する（ステップＳ１４１１７）。そして、変数ｍをインクリメント（ｍ＝１）して、変数ｍが、後方の対象文脈の範囲の幅を決定する変数Ｑ（例えばＱ＝４）以上になるまでステップＳ１４１１４〜Ｓ１４１１９の処理を繰り返す。この例では、４個の単語（ｍ＝４）から成る後方の対象文脈が抽出された後に、単語Ｗ_ｉが音声認識結果の単語列の文末に当たらない場合（ステップＳ１４１２０のＮｏ）、変数ｉがインクリメントされて結合子βで結合する前方の対象文脈を抽出する処理を行う。

変数ｉがｉ＝２で、補正対象単語Ｗ_２の前に単語が存在する場合（ステップＳ１４１０７のＹｅｓ）、単語Ｗ_１（ｉ−ｓ＝１）の単語がストップリストに在ると変数ｓをインクリメント（ステップＳ１４１１０）して更に１個前方の単語について処理を行う。単語Ｗ_１の単語がストップリストに無い場合は単語Ｗ_１を前方の対象文脈として出力する（ステップＳ１４１０９）。そして、変数ｎをインクリメントしてｎが、前方の対象文脈の幅を決定する変数Ｐ（例えばＰ＝４）以上になるまで、この例では、４個の単語（ｎ＝４）から成る前方の対象文脈が抽出されるまで、または、前方の単語が存在しなくなるまでステップＳ１４１０７〜Ｓ１４１１１の処理を繰り返す。以上のようにして補正対象単語Ｗ_ｉと対象文脈との組を抽出する。

図６に、抽出した補正対象単語Ｗ_ｉと対象文脈との組の例を示す。１行目は音声認識結果の単語列、２行目は上記した処理で抽出された最初の補正対象単語Ｗ_１とその後方の対象文脈である。最初の補正対象単語Ｗ_１の前には単語が存在しないので前方の対象文脈は無いが、変数ｉがインクリメントされて対象とする単語Ｗ_ｉが更新されることで前方の対象文脈は逐次増加し、前方の対象文脈の範囲の幅を決定する変数Ｐを例えばＰ＝４とすることで、最大で４個の単語が前方の対象文脈として抽出される。ＰとＱは異なる値としても良い。ＰとＱは、対象文脈の範囲の幅、つまり文脈窓幅を決定する変数であり、大きくし過ぎた場合は関係性の低い単語が混入し、小さくし過ぎた場合は文脈類似度を測るのに十分な数の単語が含まれなくなる。よって、その値は通常３〜１０程度に設定する。なお、不要単語を除外するストップリストは用いなくても良い。

図６に示す例では、補正対象単語Ｗ_５以降、補正対象単語★を中心に前方と後方に４個の単語から成る対象文脈が抽出される。音声認識結果の単語列の終端部では、図６に示した例とは異なり後方の対象文脈の幅が逐次減少するようにして補正対象単語と前後の対象文脈とが抽出される。なお、図６は、単語Ｗ_１〜Ｗ_１２の範囲の単語がストップリストにリストアップされていない場合の例である。例えば、補正対象単語Ｗ_６の場合に単語Ｗ_４が補正対象外単語であると仮定した場合、前方の対象文脈は単語Ｗ_１，Ｗ_２，Ｗ_３，Ｗ_５の４個の単語で構成されるようになる。

〔文脈事例抽出手段〕
文脈事例抽出手段１４２は、対象文脈抽出手段１４１が出力する補正対象単語Ｗ_ｉを入力として、単語信頼度付き音声認識結果ＤＢ１３０を参照し、単語信頼度付き音声認識結果ＤＢ１３０に記憶されている単語信頼度付き音声認識結果に出現する補正対象単語Ｗ_ｉと同じ単語を補正対象単語事例Ｗ_ｊとして複数個特定し、その補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、補正対象単語事例Ｗ_ｊとその単語信頼度と文脈事例との組を複数個出力する。

補正対象単語事例Ｗ_ｊとその単語信頼度と文脈事例との組みを抽出する処理は、抽出する対象が単語信頼度付き音声認識結果ＤＢ１３０に記憶された文書である点のみが異なるだけで、上記した対象文脈抽出手段１４１と同じである。また、ストップリストを用いて補正対象外単語とする不要単語を除外する点も同じである。よって、動作フローを参照した説明は省略する。

〔補正単語信頼度計算手段〕
補正単語信頼度計算手段１４３は、対象文脈抽出手段１４１が出力する補正対象単語Ｗ_ｉとその単語信頼度と対象文脈との組と、文脈事例抽出手段１４２が出力する補正対象単語事例Ｗ_ｊとその単語信頼度と文脈事例との組み群と、を入力として対象文脈と文脈事例との類似度を求め、その類似度を用いて補正対象単語事例Ｗ_ｊの単語信頼度を補正した補正単語信頼度に置換して出力する。

図７に、補正対象単語Ｗ_ｉとその単語信頼度と対象文脈との組と、補正対象単語事例Ｗ_ｊとその単語信頼度と文脈事例との組み群と、を例示する。図７は、補正対象単語Ｗ_ｉを例えば「高気圧」とした場合の例である。

１行目は補正対象単語Ｗ_ｉとその単語信頼度と対象文脈との組であり、２行目以降は補正対象単語事例Ｗ_ｊとその単語信頼度と文脈事例との組み群である。補正対象単語Ｗ_ｉと補正対象単語事例Ｗ_ｊの横の数値は、それぞれの単語信頼度である。

図７を参照して補正単語信頼度計算手段１４３の動作を説明する。補正単語信頼度計算手段１４３は、対象文脈Ｔと文脈事例Ｔ_ｋとのコサイン類似度Ｓ（Ｔ_ｋ，Ｔ）を次式で計算する。ｋは文脈事例の数に対応する変数である。

ここでＭ_ｋは、対象文脈Ｔと文脈事例Ｔ_ｋに共通して現れる単語の個数であり、Ｗ_ｋは文脈事例Ｔ_ｋの単語数であり、Ｗは対象文脈Ｔの単語数である。

図７に示すＳ（Ｔ_１，Ｔ）＝０.１は、対象文脈○と１個目の文脈事例△とのコサイン類似度を表す。Ｓ（Ｔ_２，Ｔ）＝０.８は、対象文脈○と２個目の文脈事例□とのコサイン類似度、Ｓ（Ｔ_Ｋ，Ｔ）＝０.９は、対象文脈○とＫ個目の文脈事例◇とのコサイン類似度を表す。このようにして補正単語信頼度計算手段１４３は、対象文脈と複数の文脈事例との間のコサイン類似度を計算する。

そして、コサイン類似度の値が、類似度閾値θ以上となる補正対象単語事例Ｗ_ｊの単語信頼度と補正対象単語Ｗ_ｉの単語信頼度の平均値を求め、補正対象単語事例Ｗ_ｊの単語信頼度を、その平均値である補正単語信頼度に置換して出力する。類似度閾値θを例えばθ＝０．５とすると、２番目とＫ番目の単語信頼度０．８と０．９及び補正対象単語Ｗ_ｉの単語信頼度０.５の平均値が補正単語信頼度となり、補正対象単語事例Ｗ_ｊ「高気圧」の単語信頼度は０．７３の補正単語信頼度に置換されて単語信頼度補正部１４０に出力される。

ここでは、３個の単語信頼度の平均値を補正単語信頼度とする説明を行った。しかし、実際には、図７に「…」で補正対象単語事例Ｗ_ｊとその単語信頼度と文脈事例との組み群を省略して表記しているように、平均値を計算する対象は数十〜百程度の単語信頼度の値を用いて補正単語信頼度の値を求める。

類似度閾値θは、類似度がどの程度あれば似た文脈と見做すかを指定するパラメータ（０以上１以下の実数）であり、θ＝１に設定すると完全に単語列が一致する文脈のみを似ていると見做し、θ＝０に設定すると全く一致しない（共通単語が１個もない）文脈も似ていると見做す。類似度閾値θを大きく設定すれば単語信頼度の補正に利用される文脈事例の数が少なくなり、逆に小さく設定すれば補正に利用される文脈事例の数が多くなる関係になる。通常、類似度閾値θは、θ＝０．５程度に設定する。

また、類似度閾値θを用いないで補正単語信頼度を求める方法も考えられる。各文脈事例との類似度Ｓ（Ｔ_ｋ，Ｔ）を重みとし、Ｃを補正対象単語Ｗ_ｉの単語信頼度、Ｃ_ｋを補正対象単語事例Ｗ_ｊの単語信頼度として次式で、補正単語信頼度Ｃ^＊を求めても良い。

式（２）では、類似度Ｓ（Ｔ_ｋ，Ｔ）を重みとして補正対象単語事例Ｗ_ｊの単語信頼度Ｃ_ｋの加重平均を取る際に、補正対象単語Ｗ_ｉの単語信頼度Ｃを重み１として追加している。この方法によれば、パラメータの類似度閾値θは不要である。

〔音声認識結果出力手段〕
音声認識結果出力手段１４４は、対象文脈抽出手段１４１が出力する補正対象外単語Ｗ_ｉとその単語信頼度との組みと上記補正対象単語Ｗ_ｉとその単語信頼度との組みと、補正単語信頼度計算手段１４３が出力する補正対象単語事例Ｗ_ｊと補正単語信頼度と、を入力として、上記補正対象単語Ｗ_ｉの単語信頼度を上記補正単語信頼度に置換し、上記音声認識結果の単語列の順番に、上記補正対象外単語とその単語信頼度との組みと上記補正対象単語と補正単語信頼度との組みを出力する。

図８に、音声認識結果出力手段１４４の動作フローを示す。音声認識結果出力手段１４４は、音声認識結果の単語列を構成する各単語を特定する変数ｉで一致する（ｉ＝ｊ）補正対象単語Ｗ_ｉの単語信頼度を、補正対象単語事例Ｗ_ｊ（ｊ＝ｉ）の補正単語信頼度に置き換える（ステップＳ１４４０）。そして、変数ｉの順番で、補正対象単語Ｗｉとその補正単語信頼度との組みと、補正対象外単語Ｗ_ｉとその単語信頼度との組みと、を出力する（ステップＳ１４４１）。

以上の処理により単語信頼度補正部１４０（音声認識結果出力手段１４４）が出力する音声認識結果には、音声認識部１１０が出力した単語信頼度よりも正確な補正単語信頼度が付与されることになる。正確な単語信頼度が付与されることで、音声認識結果に対するテキストマイニングなどの情報抽出の正確性が向上し、音声認識結果を用いるシステムの利便性を高めることができる。

〔評価実験の結果〕
この発明の単語信頼度の補正方法の効果を確認する目的で、評価実験を行った。評価セットとしては、コールセンタでの電話会話音声の295通話を用いた。音声認識にはVoiceRex（上記した参考文献１）を用いた。評価セットの認識結果のうち、本発明による信頼度補正の対象となる内容語は94165単語あり、そのうち正解が79419単語、誤りが14746単語であった。

評価実験では、認識結果の各単語に付与された信頼度が閾値以下であれば誤り単語として検出した。そして各手法の単語信頼度で閾値を動かして誤り単語検出を行い、適合率−再現率曲線で検出性能を評価した。再現率とは、誤り単語のうち正しく誤りとして検出できた割合である。適合率とは、誤りとして検出した単語のうち本当に誤りだった単語の割合である。

図９に、誤り単語検出性能の評価実験の結果を示す。図９の横軸は再現率[％]、縦軸は適合率[％]である。図中の破線が、評価セットと同じドメインの学習セットを用いた状況を評価セットでの４分割交差検定で模擬し、従来法（上記した非特許文献１）を行った結果である。一点鎖線が、評価セットと異なるドメインの学習セットを用いた従来法による誤り単語検出性能である。細い実線が音声認識した結果の単語信頼度による誤り単語検出性能、太い実線が本発明によって補正した単語信頼度によるそれぞれの誤り単語検出性能を示す。補正対象単語の前後の文脈事例として検出する単語数は５個（Ｐ＝Ｑ＝５）とした。

評価セットと同じドメインの学習データを用いた従来法（破線）は高い性能を示したが、同じドメインの学習データが入手できない場合（一点鎖線）は大きく性能を落とす結果となる。本発明の方法（太い実線）では、全ての再現率において従来法の誤り単語検出性能を上回る適合率が得られた。

このように本発明の類似事例を活用した方法によれば、ラベル付き音声認識結果を用いることなく、また、人手を用いることもなく、つまり学習することなく良好な誤り単語検出性能を示す補正単語信頼度を音声認識結果に付与することができる。なお、破線で音声認識結果ＤＢ登録部１２０を示すように、音声認識部１１０の出力する単語信頼度付き音声認識結果を、単語信頼度付き音声認識結果ＤＢ１３０に逐次記憶するようにしても良い。そのように構成することで、音声データが入力される度に単語信頼度の補正に用いる単語信頼度付き音声認識結果ＤＢが拡充されるため、新たに出現する単語の信頼度も、誤り単語検出性能の高い値に補正することが可能である。

また、上記した実施例では類似度をコサイン類似度とする例で説明を行ったが、類似度は、単語集合間の類似度が得られれば、他の類似度を用いても良い。例えば、ジャッカード係数等を用いることもできる。また、この発明の方法及び装置は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−
Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音声データを入力として、音声認識と単語信頼度の計算を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する音声認識部と、
上記単語信頼度付き音声認識結果を記憶する単語信頼度付き音声認識結果データベースと、
上記単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、上記単語信頼度付き音声認識結果データベースを参照して該単語信頼度付き音声認識結果データベースに記憶された上記補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、上記補正対象単語の単語信頼度として出力する単語信頼度補正部と、
を具備する音声認識装置。
請求項１に記載した音声認識装置において、
上記単語信頼度補正部は、
単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、上記補正対象単語とその単語信頼度と上記対象文脈との組みと、補正対象外とする補正対象外単語とその単語信頼度との組みと、を出力する対象文脈抽出手段と、
上記補正対象単語を入力として、単語信頼度付き音声認識結果データベースを参照し、当該音声認識結果データベースに記憶された補正対象単語を補正対象単語事例として複数個特定し、その補正対象単語事例の前後複数単語の範囲を文脈事例として抽出し、補正対象単語事例とその単語信頼度と文脈事例との組を複数個出力する文脈事例抽出手段と、
上記補正対象単語とその単語信頼度と対象文脈との組と、上記補正対象単語事例とその単語信頼度と文脈事例との組み群と、を入力として対象文脈と文脈事例との類似度を求め、上記補正対象単語事例の単語信頼度を、上記類似度を用いて求めた補正単語信頼度に置換して出力する補正単語信頼度計算手段と、
上記補正対象外単語とその単語信頼度との組みと、上記補正対象単語とその単語信頼度との組みと、上記補正対象単語事例と補正単語信頼度と、を入力として、上記補正対象単語の単語信頼度を上記補正単語信頼度に置換し、上記音声認識結果の単語列の順番に、上記補正対象外単語とその単語信頼度との組みと上記補正対象単語と補正単語信頼度との組みを出力する音声認識結果出力手段と、
を備えることを特徴とする音声認識装置。
請求項２に記載した音声認識装置において、
上記補正単語信頼度計算手段は、
複数の上記文脈事例Ｔ_ｋと上記対象文脈Ｔとの類似度Ｓ（Ｔ_ｋ，Ｔ）を次式で計算し、

ここで、Ｍ_ｋは文脈事例Ｔ_ｋと対象文脈Ｔとに共通して現れる単語の数、Ｗ_ｋは文脈事例Ｔ_ｋの単語数、Ｗは対象文脈Ｔの単語数であり、
上記補正単語信頼度は、上記類似度Ｓ（Ｔ_ｋ，Ｔ）が類似度閾値θ以上となる上記補正対象単語事例の単語信頼度及び上記補正対象単語の単語信頼度の平均値であることを特徴とする音声認識装置。
請求項２に記載した音声認識装置において、
上記補正単語信頼度計算手段は、
複数の上記文脈事例Ｔ_ｋと上記対象文脈Ｔとの類似度Ｓ（Ｔ_ｋ，Ｔ）を次式で計算し、

ここで、Ｍ_ｋは文脈事例Ｔ_ｋと対象文脈Ｔとに共通して現れる単語の数、Ｗ_ｋは文脈事例Ｔ_ｋの単語数、Ｗは対象文脈Ｔの単語数であり、
上記補正単語信頼度Ｃ^＊は、上記類似度Ｓ（Ｔ_ｋ，Ｔ）を重みとし、Ｃを補正対象単語の単語信頼度、Ｃ_ｋを上記補正対象単語事例の単語信頼度として次式で計算した値である

ことを特徴とする音声認識装置。
音声データを入力として、音声認識と単語信頼度の計算を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する音声認識過程と、
上記単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、単語信頼度付き音声認識結果データベースを参照して該単語信頼度付き音声認識結果データベースに記憶された上記補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、上記補正対象単語の単語信頼度として出力する単語信頼度補正過程と、
を含む音声認識方法。
請求項１乃至４の何れかに記載した音声認識装置としてコンピュータを機能させるためのプログラム。