JP2004184535A

JP2004184535A - 音声認識装置及び方法

Info

Publication number: JP2004184535A
Application number: JP2002348759A
Authority: JP
Inventors: Nobuyuki Washio; 信之鷲尾; Shigeru Sasaki; 繁佐々木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-11-29
Filing date: 2002-11-29
Publication date: 2004-07-02
Anticipated expiration: 2022-11-29
Also published as: JP4340056B2

Abstract

【課題】信頼度算出のための情報を必要最小限とし、受信データに基づいて認識精度を向上することができる音声認識装置及び方法を提供する。
【解決手段】ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信し、受信された時点における音声データの、音声データがユーザの口から発声された時点における音声データに対する再現率を示す信頼度を判定し、受信された音声データを認識する音声認識方法であって、受信された音声データの信頼度を音声データの付加情報に基づいて評価し、当該評価に基づいて信頼度の低い認識結果を無視、あるいは修正する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声を用いた音声対話システム等に用いる音声認識装置及び方法に関する。
【０００２】
【従来の技術】
近年、ボイスポータル等に代表されるＡＳＲ（ＡｕｔｏＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）システムを用いた音声対話システムが、各種のアプリケーションとして徐々に普及してきている。また、インターネットの普及、あるいはブロードバンド化の進行に伴って、ＶｏＩＰ（ＶｏｉｃｅＯｖｅｒＩＰ）技術やＶｏＰ（ＶｏｉｃｅｏｖｅｒＰａｃｋｅｔ）技術を用いたインターネット電話等も普及し始めている。
【０００３】
かかるアプリケーションにおいて、入力された音声データの認識精度を向上させるためには、入力される音声データが連続しているということが重要な要素となる。すなわち、入力される音声データが途中で途切れていたりすると、それによって誤認識される可能性が高まるからである。
【０００４】
しかしながら、一般的なＶｏＩＰ技術においては、伝送経路の伝送途上において、現実問題として音声データパケットが落ちる、すなわち音声データの一部が消失するという可能性を排除することは、技術的に不可能である。したがって、ＶｏＩＰ技術を用いた場合には、ユーザにより入力された音声データを音声認識システムで処理すると、認識精度の低下が生じやすいという問題点があった。
【０００５】
また、かかる音声認識システムが音声対話システムに適用される場合においては、レスポンスがあまり遅れると使いにくいものとなるため、音声データパケットの伝送が一定時間以上遅れる場合には、これを無視して無音状態とすることもある。かかる処理についても、入力された音声データとしては消失したことになることから、認識精度の低下につながることになる。
【０００６】
このような入力される音声データが不連続になることに起因する音声認識性能の劣化問題は、ＶｏＩＰ技術を適用した場合の音声入力に限定されるものではなく、例えば携帯電話等の無線系において途中で通信が途切れる場合等にも共通の問題点として生じうるものである。
【０００７】
さらに、ユーザにより入力された音声データが伝送されてくる伝送系中におけるＣＯＤＥＣ（Ｃｏｄｅｒ−Ｄｅｃｏｄｅｒ）処理において、消失されたデータを修復することも考えられる。しかし、完全に修復されているという保証がないことから、これも認識精度低下の一因となるものと考えられる。
【０００８】
かかる問題点を解消するために、例えば（特許文献１）においては、認識するべき標準パターンを用意しておき、標準パターンとの音響的距離を算出することによって、認識結果の信頼度を求める方法が開示されている。かかる方法を用いることで、信頼度の高い認識結果を採用することができ、認識精度の向上を図ることができる。
【０００９】
また、（特許文献２）においては、通常の音声認識を行う主認識部と、雑音等を認識する副認識部とを設け、両者の認識結果を照合することによって主認識部における音声認識結果の信頼度の高低を判断できる技術が開示されている。
【００１０】
【特許文献１】
特開昭６２−０８３７９９号公報
【００１１】
【特許文献２】
特開平８−２１１８９２号公報
【００１２】
【発明が解決しようとする課題】
しかし、（特許文献１）に開示されている技術では、標準パターンを事前に準備しておく必要があり、標準パターンの質及び量によって認識精度が左右されてしまうという問題点、及び認識精度を向上させるためには大量の標準パターンが必要となることから、物理的制約のある場合には実質的に使用することができないという問題点があった。
【００１３】
また、（特許文献２）に開示されている技術では、副認識部における認識対象についてあらかじめ辞書に登録しておく必要があり、一般のユーザが利用する環境の多様化には対応できないおそれがあるという問題点があった。また、副認識部用の辞書が必要になることから、認識精度を高めようとするほど計算機資源を消費することになり、物理的制約のある場合には実質的に使用することができないという問題点があった。
【００１４】
本発明は、上記問題点を解決するために、信頼度算出のための情報を必要最小限とし、受信データに基づいて認識精度を向上することができる音声認識装置及び方法を提供することを目的とする。
【００１５】
【課題を解決するための手段】
上記目的を達成するために本発明にかかる音声認識装置は、ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信する音声データ受信部と、受信された時点における音声データの、音声データがユーザの口から発声された時点における音声データに対する再現率を示す信頼度を判定するデータ信頼度判定部と、受信された音声データを認識する音声認識部を含む音声認識装置であって、受信された音声データの信頼度に基づいて、音声認識部における認識結果を評価して対応する処理を行う認識結果評価処理部を含むことを特徴とする。
【００１６】
かかる構成により、受信された音声データが元データをどの程度まで再現できているか否かを指標として信頼度の高低を判断でき、信頼度が低いと判断された場合に適切な処理を行うことによって全体の音声認識精度を高めることが可能となる。
【００１７】
また、本発明にかかる音声認識装置は、認識結果評価処理部において、受信された音声データの信頼度に基づいて、信頼度が所定のしきい値よりも低い場合には、認識結果に警告フラグを付加することが好ましい。警告フラグの有無によって、信頼度の低い部分を的確に把握することができ、信頼度の低い部分に対して適切な処理を行うことで認識精度を高めることができるからである。
【００１８】
また、本発明にかかる音声認識装置は、認識結果評価処理部において、認識結果に受信された音声データの信頼度を付加することが好ましい。信頼度の高低を明確に把握することができ、信頼度の低い部分に対して適切な処理を行うことで認識精度を高めることができるからである。
【００１９】
また、本発明にかかる音声認識装置は、認識結果評価処理部において、受信された音声データの信頼度に基づいて、信頼度が所定のしきい値よりも低い場合には認識結果の出力を停止する、もしくは認識結果が存在しない旨を示す信号を出力することが好ましい。信頼度が低い部分を出力しないことで、置換誤りや挿入誤りを回避することができ、誤った解釈に起因する誤った処理を防止できるとともに、困難な訂正作業を軽減することができるからである。
【００２０】
また、本発明にかかる音声認識装置は、データ信頼度判定部において、受信された音声データの信頼度を所定の部分単位に判定し、認識結果評価処理部において、受信された音声データの所定の部分単位に判定された信頼度に基づいて、所定の部分単位に音声認識部における認識結果を評価して、所定の部分単位に対応する処理を行うことが好ましい。送信されてくるデータパケット単位等で判断することで、伝送途上におけるデータ消失等を正確に把握できるからである。
【００２１】
また、本発明にかかる音声認識装置は、所定の部分単位に対応する処理が、受信された音声データの所定の部分単位に判定された信頼度に基づいて、所定の部分単位に認識結果を再評価する処理であることが好ましい。信頼度の大小に応じて認識結果を更新することができるからである。
【００２２】
また、本発明にかかる音声認識装置は、所定の部分単位に対応する処理が、受信された音声データの所定の部分単位に判定された信頼度に基づいて、信頼度が所定のしきい値よりも低い場合には、音声データの該当する所定の部分については音声認識部における認識処理を行わない処理であることも好ましい。信頼度の低い音声データ部分について音声認識処理を行わないようにすることで、全体の計算機処理負荷を軽減することができるからである。
【００２３】
また、本発明にかかる音声認識装置は、データ信頼度判定部において、所定の部分単位の認識結果に対応する受信された音声データの信頼度に基づいて、認識結果全体の受信された音声データの信頼度を算出することが好ましい。認識結果として採用するか否かの判断基準になりうるからである。
【００２４】
また、本発明にかかる音声認識装置は、データ信頼度判定部において、受信された音声データの信頼度を、受信された音声データが失われた割合に基づいて逆算することが好ましい。あるいは、受信された音声データの信頼度を、受信された音声データが修復された割合に基づいて逆算することが好ましい。
【００２５】
また、本発明にかかる音声認識装置は、音声データ受信部において、音声データの伝送過程におけるデータ消失に関する情報あるいはデータ修復に関する情報も音声データと同時に受信することが好ましい。伝送途上においてパケット分割間隔等が相違していることから、伝送途上の情報を得る手段が必要だからである。
【００２６】
また、本発明にかかる音声認識装置は、音声データを受信するのに用いた回線品質レベルを検知し、回線品質レベルが所定のしきい値よりも低い場合、回線品質レベルが低い旨を示す信号をユーザに通知する対話制御部を含むことが好ましい。認識精度の低さが回線品質レベルの低さに起因することをユーザに明示することができ、音声認識装置自体へのユーザの信頼度を維持することができるからである。
【００２７】
また、本発明は、上記のような音声認識装置の機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、少なくとも受信手段と、演算手段とを含むコンピュータで用い、受信手段において、ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信する工程と、演算手段において、受信された時点における音声データの、音声データがユーザの口から発声された時点における音声データに対する再現率を示す信頼度を判定する工程と、演算手段において、受信された音声データを認識する工程を含む音声認識方法であって、演算手段において、受信された音声データの信頼度に基づいて、音声データを認識する工程における認識結果を評価して対応する処理を行う工程を含む音声認識方法並びにそのような工程を具現化するコンピュータ実行可能なプログラムであることを特徴とする。
【００２８】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、受信された音声データが元データをどの程度まで再現できているか否かを指標として信頼度の高低を判断でき、信頼度が低いと判断された場合に適切な処理を行うことによって全体の音声認識精度を高めることができる音声認識装置を実現することが可能となる。
【００２９】
【発明の実施の形態】
（実施の形態１）
以下、本発明の実施の形態１にかかる音声認識装置について、図面を参照しながら説明する。図１は本発明の実施の形態１にかかる音声認識装置の構成図である。本実施の形態１においては、音声データ送信プロトコルとしてＲＴＰ（Ｒｅａｌ−ｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ，ＲＦＣ１８８９）を用いるＶｏＩＰシステムを採用した連続単語認識システムを例に挙げて説明する。もちろん、これに限定されるものではなく、他の送信プロトコルやＶｏＩＰ以外の入力系を用いるものであっても良い。
【００３０】
図１において、１は音声データ受信部を示しており、ＶｏＩＰシステムから入力されて伝送されてくる、ユーザによって発声された音声データを受信する部分である。音声データ受信部１で受信された音声データは、本実施の形態１においては、図２に示すようなＲＴＰパケットで送信されてくるものとする。
【００３１】
また、図３は本発明の実施の形態１にかかる音声認識装置における音声データ受信部１の構成図である。図３に示すように、ユーザによって発声された音声データは音声データパケット受信部１１で受信され、受信したＲＴＰヘッダを含む音声データパケットの中から、ＲＴＰヘッダを含むヘッダ部を取り除いた音声データ部分と、ＲＴＰヘッダ中のパケットを区別するためのシーケンス番号とを一対のデータとして、音声データバッファ１２に蓄積することになる。
【００３２】
そして、音声データ受信部１は、音声データバッファ１２に蓄積された一対のデータを、一定間隔で音声認識部３に送信する。
【００３３】
次に、２はデータ信頼度判定部を示しており、受信した音声データの信頼度を判定する部分である。すなわちデータ信頼度判定部２においては、受信される音声データを常時監視し、音声データにおけるパケット消失等の信頼度低下要因を検知し、検知された情報に基づいて受信された音声データの信頼度を算出することになる。
【００３４】
受信される音声データの信頼度の判定方法としては、ざまざまな方法が考えられる。例えば、受信された音声データにおけるパケット消失の有無を判定の基準として使用する方法が考えられる。
【００３５】
図４に、この場合のデータ信頼度判定部２の構成図を示す。図４において、データパケット消失検知部２１は、音声データパケット受信部１１において受信されたパケット中におけるＲＴＰヘッダのシーケンス番号を常時監視し、シーケンス番号が連続性を欠いていることを検知した場合にパケット落ち、すなわちデータが消失しているものと判定することになる。
【００３６】
なお、データパケットの消失を検知する方法としては、上述したようなＲＴＰヘッダのシーケンス番号の連続性の破綻を検知する方法に限定されるものではなく、例えば受信された音声波形データのパワーやスペクトルの遷移／相関や、スペクトルの平坦度等を用いて消失区間を推定する方法であっても良い。したがって、電話においても同様の処理を行うことができる。
【００３７】
次に、３は音声認識部を示しており、受信された音声データに基づいて音声認識を行う部分である。音声認識部３は、音声認識処理を行うに当たって、データ信頼度判定部２に対して、データの消失の有無やデータ消失時間を問い合わせ、例えばデータパケットが消失している場合等には、その旨を認識結果評価処理部４へ通知することによって既定の対処をとることになる。ここで、認識結果評価処理部４における「既定の対処」としては、今回受信された音声データに対する認識結果が存在したとしても「認識結果無し」として回答する、あるいはデータ消失区間の認識結果を無視して、その部分は無音や非音声、あるいは不要語に上書きして結果出力する、等の処理が考えられる。
【００３８】
すなわち、脱落誤りを生じる可能性は高まるものの、置換誤りや挿入誤りを生じやすいデータパケットの消失部分を無視することで、置換誤りや挿入誤り自体を回避することができ、誤った解釈に起因する誤った処理を防止できるとともに、困難な訂正作業を軽減することができ、認識語の処理の精度を高めることを意図するものである。
【００３９】
なお、音声認識方法は特に限定されるものではなく、最近主流のＨＭＭを用いても良いし、あるいは伝統的なＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチングを用いても良い。
【００４０】
本質的には、音響辞書と入力された特徴量データに基づいて、フレーム単位に認識単位別の音響スコアが算出される。例えば認識単位が音節である場合、認識対象となる単語は音節並びの制約条件であり、単語としての音響スコアは、単語に対応する音節並びの音響スコアの累計で求まる。そして、求まった音響スコアを単語辞書中の全単語で比較することによって最も音響スコアの高い単語を認識結果として出力することになる。
【００４１】
なお、上述したような処理は連続単語認識に限定されるものではなく、例えば孤立単語認識システムであっても良いし、連続単語認識の精度を上げるために有限オートマトン文法や統計的言語モデル（Ｎ−ｇｒａｍ）、あるいは単語の共起確率等の言語情報を用いても良い。
【００４２】
図５に、本発明の実施の形態１にかかる音声認識装置における音声認識部３の構成図を示す。図５において、音響処理部３１は、一定のフレーム間隔ごとに音声データ受信部１より入力された音声データを音声の特徴を表す特徴量データに変換する。同時に、対応するシーケンス番号を特徴量と一対のデータとして照合部３２に送信する。
【００４３】
照合部３２は、認識語彙情報を有する単語辞書３３、仮名や音素といった認識単位別の音響的特徴を有する音響辞書３４、及び音響処理部３１からの出力である特徴量データを用いて、ユーザにより発声された音声データを認識し、単語列を認識結果として出力するものである。そして、当該認識結果と、認識結果中の単語に対応するシーケンス番号範囲に関する情報を一対のデータとして、結果送信部３５に送ることになる。
【００４４】
結果送信部３５は、照合部３２から送られてきた認識結果中における各単語に対応する範囲が、データが消失していた区間か否か、及び消失している場合には、消失しているのはどの区間であるか、等に関する情報をデータ信頼度判定部２に確認して、認識結果評価処理部４に通知する。
【００４５】
そして、認識結果評価処理部４において、データパケットが消失している単語については、データ消失していた区間に対応するフラグ“ＤＡＴＡＬＯＳＴ＿ＦＬＡＧ”を付加すると共に、単語に対応する区間中何％のデータが消失していているかを表す消失率Ｒ（％）を算出し、受信データの信頼度Ｃ＝（１００−Ｒ）（％）を付加して、認識結果として出力する。
【００４６】
なお、信頼度Ｃが既定のしきい値以下である場合には、信頼度が低いものと判断され、認識結果である単語を破棄したり、データ消失ＩＤ“ＤＡＴＡＬＯＳＴ＿ＩＤ”に変換したりする構成も考えられる。あるいは、信頼度が高い／中程度／低いといったレベルに応じてフラグを変更する構成も考えられる。
【００４７】
また、信頼度が低いデータに対応する認識結果を出力しないようにすること、あるいは信頼度が低い部分に対応する認識結果を無視することにより、置換誤りや挿入誤り自体を回避することができ、誤った解釈に起因する誤った処理を防止できるとともに、困難な訂正作業を軽減することが可能となる。
【００４８】
なお、本実施の形態１においては、シーケンス番号を伝播させて時間同期する場合について説明しているが、特にこの方法に限定されるものではなく、シーケンス番号を時間単位に換算しても良いし、フレーム番号に換算して同期をとる方法であっても良い。あるいは、音声認識部は入力データの最初と最後のシーケンス番号のみ保存し、後はフレーム番号から逆算する等の方法を用いる方法であっても良い。
【００４９】
次に、本発明の実施の形態にかかる音声認識装置を実現するプログラムの処理の流れについて説明する。図６に本発明の実施の形態にかかる音声認識装置を実現するプログラムの処理の流れ図を示す。
【００５０】
図６において、まずユーザによって発声された音声データを受信する（ステップＳ６０１）。そして、ヘッダ部を抽出・解析して（ステップＳ６０２）、受信されたデータパケットのシーケンス番号を抽出する（ステップＳ６０３）。
【００５１】
次に、抽出されたシーケンス番号が連続しているか否かを判定し（ステップＳ６０４）、シーケンス番号が連続している場合にはデータが消失していないものと判定され（ステップＳ６０５）、そのまま認識結果として出力する（ステップＳ６０６）。シーケンス番号が連続していない場合には、データが消失しているものと判定され（ステップＳ６０７）、置換誤りや挿入誤りを生じやすいデータの消失部分を無視することになる（ステップＳ６０８）。
【００５２】
次に、実施の形態１にかかる音声認識装置を音声対話システムに適用した実施例について説明する。本実施例にかかる音声対話システムの構成図を図７に示す。
【００５３】
図７において、対話制御部７１は、ユーザにより入力された音声データを音声音声認識部３からの認識結果として受け取り、応答すべき対話内容を決定するものである。そして、ユーザへの応答・問いかけ等については、応答部７２において合成音声として生成され、応答音声送信部７３に送られる。応答音声送信部７３は、送信されてきた合成音声データを音声対話システムにおけるユーザへの応答として、ＲＴＰに従ってユーザ側に送信することになる。
【００５４】
対話制御部７１は、音声認識部３における認識結果に受信された音声データが消失していることを示すフラグ“ＤＡＴＡＬＯＳＴ＿ＦＬＡＧ”が付加されていた場合、該当区間前後の認識結果を用いて該当区間における再入力（言い直し）をユーザに要求する指示を応答部７２へ出す。
【００５５】
例えば、認識結果が「今日の新幹線ひかり１０号（ＤＡＴＡＬＯＳＴ＿ＦＬＡＧ、Ｃ＝３０％）の切符を１枚」である場合、単語「１０号」には該当する区間の受信データ消失フラグ“ＤＡＴＡＬＯＳＴ＿ＦＬＡＧ”と、受信された音声データの信頼度Ｃが３０％であるという情報が付加されている。この場合、単語「１０号」の信頼度が低いと判断できることから、「すみません。通信状態が悪く、一部音声が届きませんでした。今日のひかり何号でしょうか？」と応答するように、応答部７２に指示を出すことになる。
【００５６】
このように、付加されている情報によって、ユーザは言い直すべき箇所が明確になるとともに、その他の認識結果を確認することもできる。また、データの消失が原因であって、音声認識装置自体の性能によって認識精度が低下しているのではないという事実をユーザに伝達することができ、ユーザの音声認識装置に対する信頼感を保持することが可能となる。
【００５７】
また、受信された音声データの信頼度Ｃが所定のしきい値以下であるか否かによって応答を変更することも可能である。例えば、しきい値が４０％の場合、上述した例においては、Ｃ＝３０％であることからしきい値以下となる。したがって、「今日の新幹線ひかり１０号の切符を１枚、でよろしいでしょうか？」という通常の応答をすれば足りる。あるいは、しきい値をＴｈ１、Ｔｈ２（Ｔｈ１＜Ｔｈ２）の２つ用意しておき、Ｃ＞Ｔｈ２の場合、信頼度が高いと判断できることから、そのまま認識結果を採用する。
【００５８】
また、Ｔｈ１≦Ｃ≦Ｔｈ２である場合には、言語情報を利用して認識結果を補正し、Ｃ＜Ｔｈ１の場合には信頼度が低いと判断できることから、ユーザに該当区間の再入力を要求することも可能である。
【００５９】
あるいは、消失したデータを補完することも考えられる。すなわち、あらゆる単語の３連鎖の生起確率（ｔｒｉ−ｇｒａｍ）を統計的に求めた言語統計データを用いて、データの消失が検知された場合、認識結果補完部（図示せず）において、単語継続時間長モデルに基づいて補完する単語並び候補を制限する。そして、残ったすべての単語並びについて、該当区間の認識結果と入れ替えた場合の確率を算出する。具体的には、補完該当区間前の認識結果２単語に続いて、補完される単語列が入り、補完該当区間後の認識結果２単語が続く確率を３連鎖の生起確率（ｔｒｉ−ｇｒａｍ）に基づいて算出することになる。そして、最も確率の高い単語列を選択して該当区間の認識結果を入れ替えることになる。
【００６０】
このようにすることで、データの消失に対して脆弱な音声認識装置を使用する場合であっても、データの消失による置換誤りや挿入誤りの危険性を抑制することができる。
【００６１】
なお、補完されるべき単語列候補の確率が、所定のしきい値以下である場合には、補完することなく該当部分の認識結果をそのままにしておくことも考えられる。あるいは、補完されるべき単語列候補の確率を用いて、受信される音声データの信頼度Ｃを補正して、改めてしきい値Ｔｈ３と比較することによって、ユーザに再入力を要求するか否かを判定することも考えられる。
【００６２】
さらに、通話全体の統計をとり、回線品質レベルをチェックし、回線品質レベルが低すぎる場合には、ユーザに対して満足できるサービスを提供することができないものと判断して対話を終了、あるいは別回線でのやり直しを薦めることも考えられる。
【００６３】
この場合、対話制御部７１は、データの消失が生じていると判定されると、入力された音声データに基づいて、例えば回線品質レベルの判断指標として最近の一分間のデータ消失率を算出し、当該消失率が所定のしきい値を超えた場合に、回線品質レベルが低下したものと判断する。そして、対話制御部７１は、ユーザに対して回線品質レベルが低い旨を通知することによって、別回線でのやり直しを推奨して対話を終えるように処理を移行させることになる。
【００６４】
このようにすることによって、回線品質レベルが低く、音声認識率が低下している音声対話システムに対して、ユーザが無駄な時間を消費することを回避することが可能となる。また、当該音声認識装置自体に対するユーザの信頼度を維持することも可能となる。
【００６５】
なお、データの消失区間の長短は音声認識結果の精度に影響する。また、消失区間が同じ時間長である場合であっても、データ消失区間が音声データの定常部であるか否かによっても、音声データの再現率が相違する。したがって、データ消失区間長やデータ消失区間前後の自己相関値等の情報を用いることによって、補完するか否かを切り替える方法であっても同様の効果が期待できる。
【００６６】
（実施の形態２）
以下、本発明の実施の形態２にかかる音声認識装置について、図面を参照しながら説明する。図８は、本発明の実施の形態２にかかる音声認識装置における音声認識部３の構成図である。本実施の形態２においては、音声認識部３において言語情報を用いてデータ消失区間に該当する単語の認識精度を高めるために、音響スコアを音声データの信頼度に基づいて更新する点に特徴を有している。
【００６７】
図８に示すように、照合部８１において、まず各単語ごとに、どの区間内に当該単語がある場合に音響スコアがいくつになるのかについて、入力された特徴量データと音響辞書３４に基づいて算出し、音響スコアが上位の単語を候補単語として保存しておく。
【００６８】
次に、入力された音声データ全体における単語並びを比較するために、音響スコアが最高である候補単語を除いた残りの候補単語を、それぞれフレームが重ならないように連結し、当該単語並び全体についての音響スコアを算出する。
【００６９】
そして、当該音声データに対応する単語列に含まれる各単語について、データの消失区間に対応するか否かをデータ信頼度判定部２に問い合わせ、消失区間である場合、すなわち受信された音声データの信頼度Ｃ＜１００％である場合には、最初に音響スコアが最高であるとして選択された候補単語が信頼できないものとして、言語統計モデルを用いて当該単語の音響スコアを補正することになる。
【００７０】
具体的には、言語統計モデルは、単語並びの統計的確率モデル（単語Ｎ−ｇｒａｍ）と、各音節の継続時間長モデルで構成されている。そして、当初選択されている単語について、対応する時間長で生じる尤度Ｌｔを継続時間長モデルから、前後の単語と並べた単語並びで生じる尤度Ｌｗを統計的確率モデルからそれぞれ求め、当該単語の音響スコアＳを既定の変換式Ｓ’＝Ｆ（Ｓ、Ｌｔ、Ｌｗ）により補正する。そして、保存されている他の候補単語の音響スコアと比較することによって、より音響スコアの高い単語を認識結果として出力することになる。
【００７１】
このようにすることで、より信頼度の高い認識結果が認識結果評価処理部４に送られ、実施の形態１に比べて脱落誤りが減少することになる。したがって、ユーザに対する聞き返し等の応答回数が減少し、ユーザにおける負担を軽減することが可能となる。
【００７２】
なお、修正後の音響スコアＳ’に基づいて候補単語を再選択するのではなく、修正後の音響スコアＳ’を該当する認識結果に付加するだけであっても良い。また、変換後の音響スコア、あるいは変換により生じた音響スコアの変化量を加味して、受信されたデータの信頼度Ｃを補正することによっても同様の効果が期待できる。
【００７３】
（実施の形態３）
以下、本発明の実施の形態３にかかる音声認識装置について、図面を参照しながら説明する。図９は、本発明の実施の形態３にかかる音声認識装置における入力される音声データの伝送系の例示図である。本実施の形態３においては、実施の形態１における音声認識装置における信頼度判定の判断材料として、ユーザにより入力された音声データの伝送系におけるデータ補正情報を利用する点に特徴を有している。
【００７４】
ユーザが入力した音声データは、ユーザの手元に存在する音声送信機９１、例えばＩＰ電話機等から伝送系９２を通り、例えばゲートウェイ９３に送られる。ゲートウェイ９３では、伝送系９２で採用されているＣＯＤＥＣから伝送系９４で採用されているＣＯＤＥＣにデータを変換して伝送系９４へデータを送信し、音声データ受信部１に音声データが到着することになる。ＣＯＤＥＣ変換例としては、Ｈ．３２３→ＧＷ→ＳＩＰ、Ｈ．３２３→ＧＷ→ＡＴＭ、あるいはＨ．３２３→ＧＷ→ＰＳＴＮ等が考えられる。本実施の形態３においては、ＶｏＩＰからデータを受信する音声認識装置を想定していることから、伝送系９４はＶｏＩＰのＨ．３２３やＳＩＰプロトコルを使用しているものとする。
【００７５】
通常、音声データパケット受信部１では伝送系９４におけるデータ消失／データ修復の情報しか判断できない。伝送系９２で採用されているＣＯＤＥＣと伝送系９４で採用されているＣＯＤＥＣとでは、パケット分割の単位等が異なるからである。したがって、音声データパケット受信部１で受信したデータにおいてはシーケンス番号が連続していても、伝送系９２ですでにデータが消失／修復されている可能性もある。
【００７６】
そこで、ゲートウェイ９３において、伝送系で起こったデータ消失情報／データ修復情報を伝送系９４に流す音声データに付加して、音声データ受信部１に送信する。具体的には、伝送系９４において音声パケットのヘッダに情報を追記する。あるいは、ゲートウェイ９３と音声データ受信部１の間に、音声データ通信経路と別にリンクを張って、情報を別送することも考えられる。
【００７７】
さらに、音声送信機９１においてＶＡＤ機能やＶＯＸ機能が動作しており、音声データの消失が起こる場合には、音声送信機９１はＶＡＤ／ＶＯＸ機能に関する動作情報をゲートウェイ９３に送信し、ゲートウェイ９３は上述した方法と同様、伝送系９４を経て、当該情報を音声データ受信部１に送信する。なお、ＶＡＤ／ＶＯＸ機能とは、接続ラインの音声信号をモニタし、特定のレベル以上の信号が検知されている区間を音声区間とみなして、この区間の音声データのみを送信したり、録音したりすることによって、伝送量の削減やバッテリー消費量の削減、あるいはメモリ使用量の削減等を図る機能を意味する。
【００７８】
このような構成にすることで、音声データパケット受信部１は、ユーザにより入力された音声データが通過する全伝送系におけるデータ消失／修復情報を得ることが可能となる。
【００７９】
すなわち、データ信頼度判定部２において、全伝送系におけるデータ消失／修復の有無を検知できる。また、伝送系の途中で一旦消失しても、修復されているのであれば、当該情報を加味して信頼度を算出することができる。
【００８０】
さらに、ゲートウェイ９３は、伝送系９２を経て届いたＶＡＤ／ＶＯＸ機能に関する動作情報と、伝送系９２におけるデータ消失／補完情報に基づいてデータ信頼度を算出して、算出された信頼度を音声データと共に伝送系９４に送信するという構成も考えられる。このようにすることで、伝送系が多段階接続されている場合であっても伝送データが増加することを防ぐことができるとともに、受信データに関する信頼度の判定が容易になる。
【００８１】
なお、本発明の実施の形態にかかる音声認識装置を実現するプログラムは、図１０に示すように、ＣＤ−ＲＯＭ１０２−１やフレキシブルディスク１０２−２等の可搬型記録媒体１０２だけでなく、通信回線の先に備えられた他の記憶装置１０１や、コンピュータ１０３のハードディスクやＲＡＭ等の記録媒体１０４のいずれに記憶されるものであっても良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【００８２】
また、本発明の実施の形態にかかる音声認識装置により用いられる単語辞書や音響辞書等についても、図１０に示すように、ＣＤ−ＲＯＭ１０２−１やフレキシブルディスク１０２−２等の可搬型記録媒体１０２だけでなく、通信回線の先に備えられた他の記憶装置１０１や、コンピュータ１０３のハードディスクやＲＡＭ等の記録媒体１０４のいずれに記憶されるものであっても良く、例えば本発明にかかる音声認識装置を利用する際にコンピュータ１０３により読み取られる。
【００８３】
（付記１）ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信する音声データ受信部と、
受信された時点における前記音声データの、前記音声データが前記ユーザの口から発声された時点における前記音声データに対する再現率を示す信頼度を判定するデータ信頼度判定部と、
受信された前記音声データを認識する音声認識部を含む音声認識装置であって、
受信された前記音声データの信頼度に基づいて、前記音声認識部における認識結果を評価して対応する処理を行う認識結果評価処理部を含むことを特徴とする音声認識装置。
【００８４】
（付記２）前記認識結果評価処理部において、受信された前記音声データの信頼度に基づいて、前記信頼度が所定のしきい値よりも低い場合には、前記認識結果に警告フラグを付加する付記１に記載の音声認識装置。
【００８５】
（付記３）前記認識結果評価処理部において、前記認識結果に受信された前記音声データの信頼度を付加する付記１に記載の音声認識装置。
【００８６】
（付記４）前記認識結果評価処理部において、受信された前記音声データの信頼度に基づいて、前記信頼度が所定のしきい値よりも低い場合には前記認識結果の出力を停止する、もしくは前記認識結果が存在しない旨を示す信号を出力する付記１に記載の音声認識装置。
【００８７】
（付記５）前記データ信頼度判定部において、受信された前記音声データの信頼度を所定の部分単位に判定し、
前記認識結果評価処理部において、受信された前記音声データの所定の部分単位に判定された前記信頼度に基づいて、所定の部分単位に前記音声認識部における認識結果を評価して、所定の部分単位に対応する処理を行う付記１に記載の音声認識装置。
【００８８】
（付記６）前記所定の部分単位に対応する処理が、受信された前記音声データの所定の部分単位に判定された前記信頼度に基づいて、所定の部分単位に前記認識結果を再評価する処理である付記５に記載の音声認識装置。
【００８９】
（付記７）前記所定の部分単位に対応する処理が、受信された前記音声データの所定の部分単位に判定された前記信頼度に基づいて、前記信頼度が所定のしきい値よりも低い場合には、前記音声データの該当する所定の部分については前記音声認識部における認識処理を行わない処理である付記５に記載の音声認識装置。
【００９０】
（付記８）前記データ信頼度判定部において、所定の部分単位の前記認識結果に対応する受信された前記音声データの信頼度に基づいて、認識結果全体の受信された前記音声データの信頼度を算出する付記５に記載の音声認識装置。
【００９１】
（付記９）前記データ信頼度判定部において、受信された前記音声データの信頼度を、受信された前記音声データが失われた割合に基づいて逆算する付記１から８のいずれか一項に記載の音声認識装置。
【００９２】
（付記１０）前記データ信頼度判定部において、受信された前記音声データの信頼度を、受信された前記音声データが修復された割合に基づいて逆算する付記１から８のいずれか一項に記載の音声認識装置。
【００９３】
（付記１１）前記音声データ受信部において、前記音声データの伝送過程におけるデータ消失に関する情報も前記音声データと同時に受信する付記１から８のいずれか一項に記載の音声認識装置。
【００９４】
（付記１２）前記音声データ受信部において、前記音声データの伝送過程におけるデータ修復に関する情報も前記音声データと同時に受信する付記１から８のいずれか一項に記載の音声認識装置。
【００９５】
（付記１３）前記音声データを受信するのに用いた回線品質レベルを検知し、前記回線品質レベルが所定のしきい値よりも低い場合、前記回線品質レベルが低い旨を示す信号を前記ユーザに通知する対話制御部を含む付記１から８のいずれか一項に記載の音声認識装置。
【００９６】
（付記１４）少なくとも受信手段と、演算手段とを含むコンピュータで用い、
前記受信手段において、ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信する工程と、
前記演算手段において、受信された時点における前記音声データの、前記音声データが前記ユーザの口から発声された時点における前記音声データに対する再現率を示す信頼度を判定する工程と、
前記演算手段において、受信された前記音声データを認識する工程を含む音声認識方法であって、
前記演算手段において、受信された前記音声データの信頼度に基づいて、前記音声データを認識する工程における認識結果を評価して対応する処理を行う工程を含むことを特徴とする音声認識方法。
【００９７】
（付記１５）少なくとも受信手段と、演算手段とを含むコンピュータで用い、
前記受信手段において、ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信するステップと、
前記演算手段において、受信された時点における前記音声データの、前記音声データが前記ユーザの口から発声された時点における前記音声データに対する再現率を示す信頼度を判定するステップと、
前記演算手段において、受信された前記音声データを認識するステップを含む音声認識方法を具現化するコンピュータ実行可能なプログラムであって、
前記演算手段において、受信された前記音声データの信頼度に基づいて、前記音声データを認識するステップにおける認識結果を評価して対応する処理を行うステップを含むことを特徴とするコンピュータ実行可能なプログラム。
【００９８】
【発明の効果】
以上のように本発明にかかる音声認識装置によれば、受信された音声データが元データをどの程度まで再現できているか否かを指標として信頼度の高低を判断でき、信頼度が低いと判断された場合に適切な処理を行うことによって伝送途上における音声データの消失に伴う置換誤りあるいは挿入誤りの危険性を低減することができ、全体の音声認識精度を高めることが可能となる。
【図面の簡単な説明】
【図１】本発明の実施の形態１にかかる音声認識装置の構成図
【図２】本発明の実施の形態１にかかる音声認識装置における音声データ受信部で受信された音声データの構成例示図
【図３】本発明の実施の形態１にかかる音声認識装置における音声データ受信部の構成図
【図４】本発明の実施の形態１にかかる音声認識装置におけるデータ信頼度判定部の構成図
【図５】本発明の実施の形態１にかかる音声認識装置における音声認識部の構成図
【図６】本発明の実施の形態１にかかる音声認識装置における処理の流れ図
【図７】本発明の実施例にかかる音声認識装置を用いる音声対話システムの構成図
【図８】本発明の実施の形態２にかかる音声認識装置における音声認識部の構成図
【図９】本発明の実施の形態３にかかる音声認識装置における入力される音声データの伝送系の例示図
【図１０】コンピュータ環境の例示図
【符号の説明】
１音声データ受信部
２データ信頼度判定部
３音声認識部
４認識結果評価処理部
１１音声データパケット受信部
１２音声データバッファ
２１データパケット消失検知部
３１音響処理部
３２、８１照合部
３３単語辞書
３４音響辞書
３５結果送信部
７１対話制御部
７２応答部
７３応答音声送信部
８２言語統計モデル
９１音声送信機
９２、９４伝送系
９３ゲートウェイ
１０１回線先の記憶装置
１０２ＣＤ−ＲＯＭやフレキシブルディスク等の可搬型記録媒体
１０２−１ＣＤ−ＲＯＭ
１０２−２フレキシブルディスク
１０３コンピュータ
１０４コンピュータ上のＲＡＭ／ハードディスク等の記録媒体

Claims

ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信する音声データ受信部と、
受信された時点における前記音声データの、前記音声データが前記ユーザの口から発声された時点における前記音声データに対する再現率を示す信頼度を判定するデータ信頼度判定部と、
受信された前記音声データを認識する音声認識部を含む音声認識装置であって、
受信された前記音声データの信頼度に基づいて、前記音声認識部における認識結果を評価して対応する処理を行う認識結果評価処理部を含むことを特徴とする音声認識装置。
前記認識結果評価処理部において、受信された前記音声データの信頼度に基づいて、前記信頼度が所定のしきい値よりも低い場合には、前記認識結果に警告フラグを付加する請求項１に記載の音声認識装置。
前記認識結果評価処理部において、前記認識結果に受信された前記音声データの信頼度を付加する請求項１に記載の音声認識装置。
前記認識結果評価処理部において、受信された前記音声データの信頼度に基づいて、前記信頼度が所定のしきい値よりも低い場合には前記認識結果の出力を停止する、もしくは前記認識結果が存在しない旨を示す信号を出力する請求項１に記載の音声認識装置。
前記データ信頼度判定部において、受信された前記音声データの信頼度を所定の部分単位に判定し、
前記認識結果評価処理部において、受信された前記音声データの所定の部分単位に判定された前記信頼度に基づいて、所定の部分単位に前記音声認識部における認識結果を評価して、所定の部分単位に対応する処理を行う請求項１に記載の音声認識装置。
前記所定の部分単位に対応する処理が、受信された前記音声データの所定の部分単位に判定された前記信頼度に基づいて、所定の部分単位に前記認識結果を再評価する処理である請求項５に記載の音声認識装置。
前記データ信頼度判定部において、受信された前記音声データの信頼度を、受信された前記音声データが失われた割合に基づいて逆算する請求項１から６のいずれか一項に記載の音声認識装置。
前記データ信頼度判定部において、受信された前記音声データの信頼度を、受信された前記音声データが修復された割合に基づいて逆算する請求項１から６のいずれか一項に記載の音声認識装置。
少なくとも受信手段と、演算手段とを含むコンピュータで用い、
前記受信手段において、ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信する工程と、
前記演算手段において、受信された時点における前記音声データの、前記音声データが前記ユーザの口から発声された時点における前記音声データに対する再現率を示す信頼度を判定する工程と、
前記演算手段において、受信された前記音声データを認識する工程を含む音声認識方法であって、
前記演算手段において、受信された前記音声データの信頼度に基づいて、前記音声データを認識する工程における認識結果を評価して対応する処理を行う工程を含むことを特徴とする音声認識方法。
少なくとも受信手段と、演算手段とを含むコンピュータで用い、
前記受信手段において、ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信するステップと、
前記演算手段において、受信された時点における前記音声データの、前記音声データが前記ユーザの口から発声された時点における前記音声データに対する再現率を示す信頼度を判定するステップと、
前記演算手段において、受信された前記音声データを認識するステップを含む音声認識方法を具現化するコンピュータ実行可能なプログラムであって、
前記演算手段において、受信された前記音声データの信頼度に基づいて、前記音声データを認識するステップにおける認識結果を評価して対応する処理を行うステップを含むことを特徴とするコンピュータ実行可能なプログラム。