JP2011248107A

JP2011248107A - 音声認識結果検索方法とその装置とプログラム

Info

Publication number: JP2011248107A
Application number: JP2010121413A
Authority: JP
Inventors: Taichi Asami; 太一浅見; Satoru Kobashigawa; 哲小橋川; Tsubasa Shinozaki; 翼篠崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-05-27
Filing date: 2010-05-27
Publication date: 2011-12-08

Abstract

【課題】音声ファイル毎に信頼度を付与することで品質の悪い音声認識結果を検索対象から除外する。
【解決手段】この発明の音声認識結果検索方法は、音声認識過程と、音声文書認識信頼度計算過程と、文書ＤＢ登録過程と、文書検索過程と、文書出力過程とを備え、音声文書認識信頼度計算過程で、単語毎の単語認識信頼度から音声ファイル全体の文書認識信頼度を計算し、文書ＤＢ登録過程は、音声ファイル単位の音声認識結果と文書認識信頼度とを組として文書ＤＢに登録する。そして、文書検索過程で、音声認識結果と文書認識信頼度に基づいて文書ＤＢを検索した音声認識結果を文書出力部に出力する。文書出力過程は、文書検索過程で検索した音声認識結果を外部に出力する。
【選択図】図２

Description

この発明は、複数の音声ファイルを音声認識した複数のテキスト文書から、特定のテキストを検索する音声認識結果検索方法と、その装置とプログラムに関する。

従来、複数の音声ファイルを音声認識したテキストから所望の文書を検索するものとしては、特許文献１に開示された音声文書検索装置９００が知られている（図１１）。図１１を参照して、従来の音声文書検索装置９００の動作を簡単に説明する。

音声文書検索装置９００は、音声認識部２、単語対応付け部３、単語対格納部４、単語候補拡張部５、単語対テーブル６、文書ベクトル生成部７、クエリ入力部８、クエリベクトル生成部９、類似度計算部１０、出力部１１、を具備する。

単語対応付け部３は、音声認識部２で音声認識した音声認識結果の単語と、音声から書き起こしたテキストの単語（テキスト対応単語）との対応関係を抽出する。単語対格納部４は、音声認識単語と、それに対応するテキスト対応単語の対が単語対テーブル６に格納済みである場合はその出現頻度を更新し、そうでない場合には新たに当該音声認識単語に対応するテキスト対応単語の対を単語対テーブル６に格納する。

単語候補拡張部５は、単語対テーブル６に格納されているテキスト対応単語を抽出し、それらのテキスト対応単語を音声文書の音声認識正解単語候補に追加する。文書ベクトル生成部７は、その音声認識正解単語候補の集合に基づいて文書ベクトルを作成する。

クエリベクトル生成部９は、クエリ（query）入力部８に入力されるユーザの検索質問に基づいてクエリベクトルを生成する。類似度計算部１０は、クエリベクトルと文書ベクトルとの類似度を計算する。出力部１１は、類似度の高い順に文書ベクトルが指し示す音声文書名を検索結果として出力する。

このように音声文書検索装置９００は、音声認識誤りに対する正解を事前に求め、音声文書の音声認識結果に対する全文検索時、認識誤りに対する正解で音声文書を拡張してクエリとの類似度を高めるものである。

特開２００４−３４８５５２号公報

音声認識処理においては、音声の収録環境や話者の違いにより、各々の音声文書の音声認識精度は大きく異なり、音声認識結果の品質が変動する。大量に蓄積されたその音声認識結果を文書検索する際に、音声認識誤りによって湧き出した誤認識単語が、検索ワードに該当してしまう場合がある。その場合、従来の方法では誤認識単語に適切な正解を対応付けることが難しくなり、所望の正しい文書が検索できなくなる課題がある。

この発明は、このような課題に鑑みてなされたものであり、誤認識単語が検索ワードに該当する確率を減らした音声認識結果検索方法と、その装置とプログラムを提供することを目的とする。

この発明の音声認識結果検索方法は、音声認識過程と、音声文書認識信頼度計算過程と、文書ＤＢ登録過程と、文書検索過程と、文書出力過程と、を備える。音声認識過程は、入力される音声ファイルを音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する。音声文書認識信頼度計算過程は、単語毎の単語認識信頼度から音声ファイル全体の文書認識信頼度を計算する。文書ＤＢ登録過程は、音声ファイル単位の音声認識結果と文書認識信頼度とを組として文書ＤＢに登録する。文書検索過程は、外部から入力される音声認識結果の検索ワードと文書認識信頼度の検索条件に基づいて文書ＤＢを検索した音声認識結果を文書出力部に出力する。文書出力過程は、文書検索過程で検索した音声認識結果を外部に出力する。

この発明の音声認識結果検索方法は、音声ファイルを音声認識した音声認識結果毎に文書認識信頼度を付与する。そして、その文書認識信頼度の値に応じて音声認識結果を検索することで、品質の悪い音声認識結果を検索対象から除外することができる。その結果、誤認識単語が検索ワードに該当する確率を減少させることができる。

この発明の音声認識結果検索装置１００の機能構成例を示す図。音声認識結果検索装置１００の動作フローを示す図。Ｎベスト候補と単語認識信頼度について説明する図。音声文書認識信頼度計算部３０の機能構成例を示す図。音声文書認識信頼度計算部３０の動作フローを示す図。音声認識部２０が出力する単語w_n、単語認識信頼度C(w_n)の例を示す図。この発明の音声認識結果検索装置２００の機能構成例を示す図。音声認識結果検索装置２００の動作フローを示す図。この発明の音声認識結果検索装置３００の機能構成例を示す図。音声認識結果検索装置３００の動作フローを示す図。特許文献１に開示された音声文書検索装置９００の機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の音声認識結果検索装置１００の機能構成例を示す。その動作フローを図２に示す。音声認識結果検索装置１００は、音声認識部２０と、音声文書認識信頼度計算部３０と、文書ＤＢ登録部４０と、文書ＤＢ５０と、文書検索部６０と、文書出力部７０と、制御部８０と、を具備する。音声認識結果検索装置１００の各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

音声認識部２０は、入力される音声ファイルを音声認識した単語毎に単語認識信頼度を付与した音声認識結果を出力する（ステップＳ２０）。音声認識部２０は、図示しない内部の音響分析部によって、音声ファイルを、数十msecのフレームと呼ばれる単位でＬＰＣケプストラム、ＭＦＣＣ、その他の音響特徴パラメータ系列に分析する。そして、辞書と言語モデルを用いて入力音声に対する認識結果候補の探索を、音響特徴パラメータ系列について行う。探索の結果、上位Ｎ位までのＮベスト候補が、単語認識信頼度と共に音声認識結果として出力される。

ここで、図３を参照してＮベスト候補と単語認識信頼度について説明する。なお、Ｎベスト候補と単語認識信頼度については従来技術である。単語認識信頼度については、例えば、参考文献１（“顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」”政瀧浩和他、NTT技術ジャーナル 2006.11）に記載されている。

図３の横軸は、経過時間でありフレームで表す。縦軸は、フレーム単位で探索された単語列候補を、スコアの高い順番に並べたＮベスト候補である。スコアとは探索時の尤度のことである。

単語認識信頼度は、フレームt_*において単語w_**(*は任意の整数)と異なる単語がＮベスト候補中に存在する場合、単語w_**のフレームt_*におけるスコアと対立候補単語のフレームt_*における次の順位のスコアとの間のスコア差によって与えられる。図３に示す例では、フレームt₁〜t₄の音響特徴パラメータ系列で探索された第１位候補の単語w₁₁（11は第１候補の１番目の単語であることを表す）の単語認識信頼度は、対向する単語が第３位候補の単語w₃₁と第２位候補の単語w₂₁であるので、それぞれのスコア差（●）の合計をフレーム数で除した値が単語認識信頼度となる。対立候補が存在しない単語w₁₃については、予め決められた固定値（○）が用いられて単語認識信頼度となる。この単語認識信頼度が候補毎に累積されて単語列の認識信頼度となる。

音声文書認識信頼度計算部３０は、単語毎の単語認識信頼度及び単語列の認識信頼度から音声ファイル単位の音声認識結果と文書認識信頼度を計算する（ステップＳ３０）。文書認識信頼度について詳しくは後述する。

文書ＤＢ登録部４０は、音声認識結果と文書認識信頼度とを組として文書ＤＢ５０に登録する（ステップＳ４０）。音声文書認識信頼度計算部３０は、破線で示すように音声認識結果と文書認識信頼度との組みを、文書出力部７０に出力するようにしても良い。文書出力部７０は、表示手段、印刷手段、或いは取り外しが可能な記録媒体の何れでも良い。

文書検索部６０は、外部から入力される音声認識結果の検索ワードと文書認識信頼度の検索条件に基づいて文書ＤＢを検索した音声認識結果を文書出力部に出力する。（ステップＳ６０）。文書出力部７０は、文書検索部６０が検索した音声認識結果を外部に出力する（ステップＳ７０）。制御部８０は、上記した各部が全体として音声認識結果検索装置１００として動作するように制御する。

音声認識結果検索装置１００は、音声ファイル毎の音声認識結果に文書認識信頼度を付与する。そして、文書認識信頼度に基づいて音声認識結果を検索するので、品質の悪い音声認識結果を検索対象から除外することができ、誤認識単語が検索ワードに該当する確率を減少させることが可能になる。

図４に音声文書認識信頼度計算部３０の機能構成を示して更に詳しく動作を説明する。その動作フローを図５に示す。音声文書認識信頼度計算部３０は、単語時間長取得手段３１と、正規化解除手段３２と、音声文書総時間長計算手段３３と、信頼度累積手段３４と、音声文書認識信頼度算出手段３５と、を備える。

単語時間長取得手段３１は、音声認識部２０が出力する単語の単語時間長を求める（ステップＳ３１）。単語時間長を求める前に、単語時間長取得手段３１は、音声ファイルの信頼度合計値C(W)と音声ファイルの総時間長WDを０に初期化する（ステップＳ８０）。ステップＳ８０〜Ｓ８２は、図１に示した制御部８０が処理する。

図６に、音声認識部２０が出力する単語w_n、単語認識信頼度C(w_n)の例を示す。ここでは、音声ファイルが１個のＮベスト候補から成る例で説明する。つまり添え字は一桁で説明する。例えば、単語w₁は名詞「本日」であり、単語認識信頼度C(w_n)は９８９１であり、その始端時刻（wd_nsFn）と終端時刻(wd_neFn)は０．００−０.９８[秒]である。単語認識信頼度C(w_n)の値は、マイナスの値もあり得る。図６の例では、「おいたわしい」がそれに該当する。第１位候補の単語のスコアが、下位の候補の単語のスコアよりも小さい場合に単語認識信頼度C(w_n)はマイナスとなる。この場合、第１位候補のその単語の信頼度は相当低いことを意味する。

単語時間長取得手段３１は、単語w₁の終端時刻から始端時刻を引いたその単語時間長wd₁を、０．９８[秒]若しくは、フレーム時間を例えば１０msecとした場合、９８フレームとして取得する（ステップＳ３１）。

正規化解除手段３２は、単語認識信頼度C(w₁)＝９８９１に単語時間長wd₁を乗じた単語信頼度wcを計算する（ステップＳ３２）。正規化解除手段３２は、フレーム数で正規化されていた単語認識信頼度の正規化を解除する働きをする。

信頼度累積手段３４は、正規化が解除された単語信頼度wcを累積した単語信頼度累積値C(W)を求める（ステップS３４）音声文書総時間長計算手段３３は、単語時間長取得手段３１で取得した単語時間長wd_*を音声ファイル全体で累積した音声文書総時間長WDを計算する（ステップS３３）。上記したステップＳ３１〜Ｓ３３の処理は、音声ファイルの全ての単語w_nについて処理されるまで、単語を更新（ステップＳ８２）しながら繰り返される（ステップＳ８１のno）。

音声文書認識信頼度算出手段３５は、単語信頼度累積値C(W)を音声文書総時間長WDで除した音声ファイルの文書認識信頼度docCを算出する（ステップＳ３５）。音声文書認識信頼度算出手段３５は、音声ファイルのフレーム当たりの認識信頼度を求めることになる。この文書認識信頼度docCは、音声ファイルの音声認識結果の品質を表す指標となる。

文書ＤＢ登録部４０は、その文書認識信頼度docCと音声認識結果とを組として文書ＤＢ５０に登録する。文書検索部６０は、外部から入力される音声認識結果の検索ワードと文書認識信頼度の検索条件に該当する音声認識結果を検索して文書出力部７０に出力する。

検索条件を、例えば、文書認識信頼度docCの下位５０％を除去するように設定すれば、文書ＤＢ５０に登録された音声認識結果の半分が、文書出力部７０に出力されなくなる。また、外部から与える検索条件は、文書認識信頼度docCの値を閾値として与えるようにしても良い。その場合の文書検索部６０′は、外部から入力される文書認識信頼度docCの値を閾値として、その閾値以下の音声認識結果を検索文書の対象外とする。そして、その閾値以上の音声認識結果の中から検索条件に合う音声認識結果を文書出力部７０に出力する。

図７に、この発明の音声認識結果検索装置２００の機能構成例を示す。その動作フローを図８に示す。音声認識結果検索装置２００は、音声認識結果検索装置１００の文書検索部６０に代えて文書定期検索部６５を具備する点で異なる。

文書定期検索部６５は、外部から入力される音声認識結果の検索ワードと文書認識信頼度とによる検索条件に従って、定期的に文書ＤＢを検索して検索条件に合う音声認識結果を文書出力部６０に出力する（ステップＳ６５）。定期的とは、一時間〜数時間、午前、午後、一日や一週間といった期間である。

音声認識結果検索装置２００は、例えば、コールセンター等に音声認識結果検索装置２００を設けた場合に、所定の期間内の特定の話題に関する所定以上の品質の音声認識結果を、自動的に収集するのに有効である。

図９に、この発明の音声認識結果検索装置３００の機能構成例を示す。その動作フローを図１０に示す。音声認識結果検索装置３００は、音声チャネル分割部９１と、音声認識部９２と、音声文書認識信頼度計算部９３と、音声認識結果マージ部９４と、文書ＤＢ登録部９５と、文書ＤＢ４０と、文書検索部９６と、文書出力部７０と、制御部９７と、を具備する。文書ＤＢ４０と文書出力部７０とは、音声認識結果検索装置１００と同じものである。

音声チャネル分割部９１は、複数チャネルから成る音声ファイルを入力として、その音声ファイルを音声チャネル毎に分割する（ステップＳ９１）。音声チャネルとは、例えば、送話チャネルや受話チャネル、ステレオの右チャネルや左チャネル等のことである。

音声認識部９２は、音声チャネル毎の音声ファイルを入力として、単語毎に単語認識信頼度を付与した音声認識結果を音声チャネル毎に出力する（ステップＳ９２）。音声文書認識信頼度計算部９３は、単語認識信頼度から音声ファイル全体の音声チャネル毎の文書認識信頼度を計算する（ステップＳ９３）。

音声認識結果マージ部９４は、音声認識部９２が出力する音声チャネル毎の音声認識結果を併合して一つの音声認識結果にする（ステップＳ９４）。文書ＤＢ登録部９５は、一つに併合された音声認識結果と、それ対応する音声チャネル毎の文書認識信頼度とを組として文書ＤＢに登録する（ステップＳ９５）。

文書検索部９６は、外部から入力される音声認識結果の検索ワードと文書認識信頼度との検索条件に従って、音声チャネル毎の文書認識信頼度を評価し、その両方の認識信頼度の値が検索条件に合致する音声認識結果を文書出力部７０に出力する（ステップＳ９６）。つまり、文書検索部９６は音声チャネル毎の文書認識信頼度を評価するので、検索された音声認識結果は、何れのチャネルも品質は高いものになる。また、文書検索部９６は、一方のチャネルの文書認識信頼度の値が検索条件を満たさなければ、他方のチャネルの文書認識信頼度を評価することをしないので、文書検索を省力化することもできる。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力される音声ファイルを音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識過程と、
上記単語毎の単語認識信頼度から音声ファイル全体の文書認識信頼度を計算する音声文書認識信頼度計算過程と、
音声ファイル単位の上記音声認識結果と上記文書認識信頼度とを組として文書ＤＢに登録する文書ＤＢ登録過程と、
上記音声認識結果の検索ワードと上記文書認識信頼度の検索条件に基づいて上記文書ＤＢを検索した音声認識結果を文書出力部に出力する文書検索過程と、
文書検索過程で検索した上記音声認識結果を外部に出力する文書出力過程と、
を備える音声認識結果検索方法。
請求項１に記載した音声認識結果検索方法において、
上記音声文書認識信頼度計算過程は、
単語時間長取得手段が、上記音声認識部が出力する単語の時間長である単語時間長を求める単語時間長取得ステップと、
正規化解除手段が、上記単語認識信頼度に上記単語時間長を乗じた単語信頼度を計算する正規化解除ステップと、
信頼度累積手段が、上記単語信頼度を累積した単語信頼度累積値を求める信頼度累積ステップと、
音声文書総時間長計算手段が、音声ファイル全体の上記単語時間長を累積した音声文書総時間長を計算する音声文書総時間長計算ステップと、
音声文書認識信頼度算出手段が、上記単語信頼度累積値を上記音声文書総時間長で除した音声文書の認識信頼度を算出する音声文書認識信頼度算出ステップと、
を含むことを特徴とする音声認識結果検索方法。
請求項１又は２に記載した音声認識結果検索方法において、
上記文書検索過程は、
外部から入力される文書認識信頼度閾値を基準として、その文書認識信頼度閾値以下の音声認識結果を除去する過程であることを特徴とする音声認識結果検索方法。
入力される音声ファイルを音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識過程と、
上記単語毎の単語認識信頼度から音声ファイル全体の文書認識信頼度を計算する音声文書認識信頼度計算過程と、
音声ファイル単位の音声認識結果と文書認識信頼度とを組として文書ＤＢに登録する文書ＤＢ登録過程と、
外部から入力される検索条件に従って定期的に文書ＤＢを検索した音声認識結果を文書出力部に出力する文書定期検索過程と、
上記検索した音声認識結果を外部に出力する文書出力過程と、
を備える音声認識結果検索方法。
音声チャネル分割部が、複数チャネルから成る音声ファイルを入力として、その音声文書を音声チャネル毎に分割する音声チャネル分割過程と、
音声認識部が、上記音声チャネル毎の音声文書を入力として、単語毎に単語認識信頼度を付与した音声認識結果を音声チャネル毎に出力する音声認識過程と、
音声文書認識信頼度計算部が、上記単語認識信頼度から音声ファイル全体の音声チャネル毎の音声文書認識信頼度を計算する音声文書認識信頼度計算過程と、
音声認識結果マージ部が、上記音声認識部が出力する音声チャネル毎の音声認識結果を併合して一つの音声認識結果にする音声認識結果マージ過程と、
音声文書ＤＢ登録部が、上記音声チャネル毎の音声文書認識信頼度と対応する上記音声認識結果とを組として音声文書ＤＢに登録する文書ＤＢ登録過程と、
文書検索部が、外部から入力される検索条件に従って、上記音声チャネル毎の音声文書認識信頼度を評価し、その両方の音声文書認識信頼度の値が上記検索条件に合致する音声認識結果を検索して文書出力部に出力する文書検索過程と、
文書出力部が、その音声認識結果を外部に出力する文書出力過程と、
を備える音声認識結果検索方法。
入力される音声ファイルを音声認識処理した単語毎に単語認識信頼度が付与された音声認識結果を出力する音声認識部と、
上記単語毎の単語認識信頼度から上記音声ファイル全体の文書認識信頼度を計算する音声文書認識信頼度計算部と、
上記音声ファイル単位の音声認識結果と上記文書認識信頼度とを組として文書ＤＢに登録する文書ＤＢ登録部と、
上記音声認識結果の検索ワードと文書認識信頼度の検索条件に基づいて上記文書ＤＢを検索した音声認識結果を文書出力部に出力する文書検索部と、
上記検索した音声認識結果を外部に出力する文書出力部と、
を具備する音声認識結果検索装置。
請求項１乃至５の何れかに記載した音声認識結果検索方法を、コンピュータに実行させるための音声認識結果検索方法プログラム。