JP2004184535A - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法 Download PDF

Info

Publication number
JP2004184535A
JP2004184535A JP2002348759A JP2002348759A JP2004184535A JP 2004184535 A JP2004184535 A JP 2004184535A JP 2002348759 A JP2002348759 A JP 2002348759A JP 2002348759 A JP2002348759 A JP 2002348759A JP 2004184535 A JP2004184535 A JP 2004184535A
Authority
JP
Japan
Prior art keywords
data
reliability
voice
recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002348759A
Other languages
English (en)
Other versions
JP4340056B2 (ja
Inventor
Nobuyuki Washio
信之 鷲尾
Shigeru Sasaki
繁 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002348759A priority Critical patent/JP4340056B2/ja
Publication of JP2004184535A publication Critical patent/JP2004184535A/ja
Application granted granted Critical
Publication of JP4340056B2 publication Critical patent/JP4340056B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】信頼度算出のための情報を必要最小限とし、受信データに基づいて認識精度を向上することができる音声認識装置及び方法を提供する。
【解決手段】ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信し、受信された時点における音声データの、音声データがユーザの口から発声された時点における音声データに対する再現率を示す信頼度を判定し、受信された音声データを認識する音声認識方法であって、受信された音声データの信頼度を音声データの付加情報に基づいて評価し、当該評価に基づいて信頼度の低い認識結果を無視、あるいは修正する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声を用いた音声対話システム等に用いる音声認識装置及び方法に関する。
【0002】
【従来の技術】
近年、ボイスポータル等に代表されるASR(Auto Speech Recognition)システムを用いた音声対話システムが、各種のアプリケーションとして徐々に普及してきている。また、インターネットの普及、あるいはブロードバンド化の進行に伴って、VoIP(Voice Over IP)技術やVoP(Voice over Packet)技術を用いたインターネット電話等も普及し始めている。
【0003】
かかるアプリケーションにおいて、入力された音声データの認識精度を向上させるためには、入力される音声データが連続しているということが重要な要素となる。すなわち、入力される音声データが途中で途切れていたりすると、それによって誤認識される可能性が高まるからである。
【0004】
しかしながら、一般的なVoIP技術においては、伝送経路の伝送途上において、現実問題として音声データパケットが落ちる、すなわち音声データの一部が消失するという可能性を排除することは、技術的に不可能である。したがって、VoIP技術を用いた場合には、ユーザにより入力された音声データを音声認識システムで処理すると、認識精度の低下が生じやすいという問題点があった。
【0005】
また、かかる音声認識システムが音声対話システムに適用される場合においては、レスポンスがあまり遅れると使いにくいものとなるため、音声データパケットの伝送が一定時間以上遅れる場合には、これを無視して無音状態とすることもある。かかる処理についても、入力された音声データとしては消失したことになることから、認識精度の低下につながることになる。
【0006】
このような入力される音声データが不連続になることに起因する音声認識性能の劣化問題は、VoIP技術を適用した場合の音声入力に限定されるものではなく、例えば携帯電話等の無線系において途中で通信が途切れる場合等にも共通の問題点として生じうるものである。
【0007】
さらに、ユーザにより入力された音声データが伝送されてくる伝送系中におけるCODEC(Coder−Decoder)処理において、消失されたデータを修復することも考えられる。しかし、完全に修復されているという保証がないことから、これも認識精度低下の一因となるものと考えられる。
【0008】
かかる問題点を解消するために、例えば(特許文献1)においては、認識するべき標準パターンを用意しておき、標準パターンとの音響的距離を算出することによって、認識結果の信頼度を求める方法が開示されている。かかる方法を用いることで、信頼度の高い認識結果を採用することができ、認識精度の向上を図ることができる。
【0009】
また、(特許文献2)においては、通常の音声認識を行う主認識部と、雑音等を認識する副認識部とを設け、両者の認識結果を照合することによって主認識部における音声認識結果の信頼度の高低を判断できる技術が開示されている。
【0010】
【特許文献1】
特開昭62−083799号公報
【0011】
【特許文献2】
特開平8−211892号公報
【0012】
【発明が解決しようとする課題】
しかし、(特許文献1)に開示されている技術では、標準パターンを事前に準備しておく必要があり、標準パターンの質及び量によって認識精度が左右されてしまうという問題点、及び認識精度を向上させるためには大量の標準パターンが必要となることから、物理的制約のある場合には実質的に使用することができないという問題点があった。
【0013】
また、(特許文献2)に開示されている技術では、副認識部における認識対象についてあらかじめ辞書に登録しておく必要があり、一般のユーザが利用する環境の多様化には対応できないおそれがあるという問題点があった。また、副認識部用の辞書が必要になることから、認識精度を高めようとするほど計算機資源を消費することになり、物理的制約のある場合には実質的に使用することができないという問題点があった。
【0014】
本発明は、上記問題点を解決するために、信頼度算出のための情報を必要最小限とし、受信データに基づいて認識精度を向上することができる音声認識装置及び方法を提供することを目的とする。
【0015】
【課題を解決するための手段】
上記目的を達成するために本発明にかかる音声認識装置は、ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信する音声データ受信部と、受信された時点における音声データの、音声データがユーザの口から発声された時点における音声データに対する再現率を示す信頼度を判定するデータ信頼度判定部と、受信された音声データを認識する音声認識部を含む音声認識装置であって、受信された音声データの信頼度に基づいて、音声認識部における認識結果を評価して対応する処理を行う認識結果評価処理部を含むことを特徴とする。
【0016】
かかる構成により、受信された音声データが元データをどの程度まで再現できているか否かを指標として信頼度の高低を判断でき、信頼度が低いと判断された場合に適切な処理を行うことによって全体の音声認識精度を高めることが可能となる。
【0017】
また、本発明にかかる音声認識装置は、認識結果評価処理部において、受信された音声データの信頼度に基づいて、信頼度が所定のしきい値よりも低い場合には、認識結果に警告フラグを付加することが好ましい。警告フラグの有無によって、信頼度の低い部分を的確に把握することができ、信頼度の低い部分に対して適切な処理を行うことで認識精度を高めることができるからである。
【0018】
また、本発明にかかる音声認識装置は、認識結果評価処理部において、認識結果に受信された音声データの信頼度を付加することが好ましい。信頼度の高低を明確に把握することができ、信頼度の低い部分に対して適切な処理を行うことで認識精度を高めることができるからである。
【0019】
また、本発明にかかる音声認識装置は、認識結果評価処理部において、受信された音声データの信頼度に基づいて、信頼度が所定のしきい値よりも低い場合には認識結果の出力を停止する、もしくは認識結果が存在しない旨を示す信号を出力することが好ましい。信頼度が低い部分を出力しないことで、置換誤りや挿入誤りを回避することができ、誤った解釈に起因する誤った処理を防止できるとともに、困難な訂正作業を軽減することができるからである。
【0020】
また、本発明にかかる音声認識装置は、データ信頼度判定部において、受信された音声データの信頼度を所定の部分単位に判定し、認識結果評価処理部において、受信された音声データの所定の部分単位に判定された信頼度に基づいて、所定の部分単位に音声認識部における認識結果を評価して、所定の部分単位に対応する処理を行うことが好ましい。送信されてくるデータパケット単位等で判断することで、伝送途上におけるデータ消失等を正確に把握できるからである。
【0021】
また、本発明にかかる音声認識装置は、所定の部分単位に対応する処理が、受信された音声データの所定の部分単位に判定された信頼度に基づいて、所定の部分単位に認識結果を再評価する処理であることが好ましい。信頼度の大小に応じて認識結果を更新することができるからである。
【0022】
また、本発明にかかる音声認識装置は、所定の部分単位に対応する処理が、受信された音声データの所定の部分単位に判定された信頼度に基づいて、信頼度が所定のしきい値よりも低い場合には、音声データの該当する所定の部分については音声認識部における認識処理を行わない処理であることも好ましい。信頼度の低い音声データ部分について音声認識処理を行わないようにすることで、全体の計算機処理負荷を軽減することができるからである。
【0023】
また、本発明にかかる音声認識装置は、データ信頼度判定部において、所定の部分単位の認識結果に対応する受信された音声データの信頼度に基づいて、認識結果全体の受信された音声データの信頼度を算出することが好ましい。認識結果として採用するか否かの判断基準になりうるからである。
【0024】
また、本発明にかかる音声認識装置は、データ信頼度判定部において、受信された音声データの信頼度を、受信された音声データが失われた割合に基づいて逆算することが好ましい。あるいは、受信された音声データの信頼度を、受信された音声データが修復された割合に基づいて逆算することが好ましい。
【0025】
また、本発明にかかる音声認識装置は、音声データ受信部において、音声データの伝送過程におけるデータ消失に関する情報あるいはデータ修復に関する情報も音声データと同時に受信することが好ましい。伝送途上においてパケット分割間隔等が相違していることから、伝送途上の情報を得る手段が必要だからである。
【0026】
また、本発明にかかる音声認識装置は、音声データを受信するのに用いた回線品質レベルを検知し、回線品質レベルが所定のしきい値よりも低い場合、回線品質レベルが低い旨を示す信号をユーザに通知する対話制御部を含むことが好ましい。認識精度の低さが回線品質レベルの低さに起因することをユーザに明示することができ、音声認識装置自体へのユーザの信頼度を維持することができるからである。
【0027】
また、本発明は、上記のような音声認識装置の機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、少なくとも受信手段と、演算手段とを含むコンピュータで用い、受信手段において、ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信する工程と、演算手段において、受信された時点における音声データの、音声データがユーザの口から発声された時点における音声データに対する再現率を示す信頼度を判定する工程と、演算手段において、受信された音声データを認識する工程を含む音声認識方法であって、演算手段において、受信された音声データの信頼度に基づいて、音声データを認識する工程における認識結果を評価して対応する処理を行う工程を含む音声認識方法並びにそのような工程を具現化するコンピュータ実行可能なプログラムであることを特徴とする。
【0028】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、受信された音声データが元データをどの程度まで再現できているか否かを指標として信頼度の高低を判断でき、信頼度が低いと判断された場合に適切な処理を行うことによって全体の音声認識精度を高めることができる音声認識装置を実現することが可能となる。
【0029】
【発明の実施の形態】
(実施の形態1)
以下、本発明の実施の形態1にかかる音声認識装置について、図面を参照しながら説明する。図1は本発明の実施の形態1にかかる音声認識装置の構成図である。本実施の形態1においては、音声データ送信プロトコルとしてRTP(Real−time Transport Protocol, RFC 1889)を用いるVoIPシステムを採用した連続単語認識システムを例に挙げて説明する。もちろん、これに限定されるものではなく、他の送信プロトコルやVoIP以外の入力系を用いるものであっても良い。
【0030】
図1において、1は音声データ受信部を示しており、VoIPシステムから入力されて伝送されてくる、ユーザによって発声された音声データを受信する部分である。音声データ受信部1で受信された音声データは、本実施の形態1においては、図2に示すようなRTPパケットで送信されてくるものとする。
【0031】
また、図3は本発明の実施の形態1にかかる音声認識装置における音声データ受信部1の構成図である。図3に示すように、ユーザによって発声された音声データは音声データパケット受信部11で受信され、受信したRTPヘッダを含む音声データパケットの中から、RTPヘッダを含むヘッダ部を取り除いた音声データ部分と、RTPヘッダ中のパケットを区別するためのシーケンス番号とを一対のデータとして、音声データバッファ12に蓄積することになる。
【0032】
そして、音声データ受信部1は、音声データバッファ12に蓄積された一対のデータを、一定間隔で音声認識部3に送信する。
【0033】
次に、2はデータ信頼度判定部を示しており、受信した音声データの信頼度を判定する部分である。すなわちデータ信頼度判定部2においては、受信される音声データを常時監視し、音声データにおけるパケット消失等の信頼度低下要因を検知し、検知された情報に基づいて受信された音声データの信頼度を算出することになる。
【0034】
受信される音声データの信頼度の判定方法としては、ざまざまな方法が考えられる。例えば、受信された音声データにおけるパケット消失の有無を判定の基準として使用する方法が考えられる。
【0035】
図4に、この場合のデータ信頼度判定部2の構成図を示す。図4において、データパケット消失検知部21は、音声データパケット受信部11において受信されたパケット中におけるRTPヘッダのシーケンス番号を常時監視し、シーケンス番号が連続性を欠いていることを検知した場合にパケット落ち、すなわちデータが消失しているものと判定することになる。
【0036】
なお、データパケットの消失を検知する方法としては、上述したようなRTPヘッダのシーケンス番号の連続性の破綻を検知する方法に限定されるものではなく、例えば受信された音声波形データのパワーやスペクトルの遷移/相関や、スペクトルの平坦度等を用いて消失区間を推定する方法であっても良い。したがって、電話においても同様の処理を行うことができる。
【0037】
次に、3は音声認識部を示しており、受信された音声データに基づいて音声認識を行う部分である。音声認識部3は、音声認識処理を行うに当たって、データ信頼度判定部2に対して、データの消失の有無やデータ消失時間を問い合わせ、例えばデータパケットが消失している場合等には、その旨を認識結果評価処理部4へ通知することによって既定の対処をとることになる。ここで、認識結果評価処理部4における「既定の対処」としては、今回受信された音声データに対する認識結果が存在したとしても「認識結果無し」として回答する、あるいはデータ消失区間の認識結果を無視して、その部分は無音や非音声、あるいは不要語に上書きして結果出力する、等の処理が考えられる。
【0038】
すなわち、脱落誤りを生じる可能性は高まるものの、置換誤りや挿入誤りを生じやすいデータパケットの消失部分を無視することで、置換誤りや挿入誤り自体を回避することができ、誤った解釈に起因する誤った処理を防止できるとともに、困難な訂正作業を軽減することができ、認識語の処理の精度を高めることを意図するものである。
【0039】
なお、音声認識方法は特に限定されるものではなく、最近主流のHMMを用いても良いし、あるいは伝統的なDP(Dynamic Programming)マッチングを用いても良い。
【0040】
本質的には、音響辞書と入力された特徴量データに基づいて、フレーム単位に認識単位別の音響スコアが算出される。例えば認識単位が音節である場合、認識対象となる単語は音節並びの制約条件であり、単語としての音響スコアは、単語に対応する音節並びの音響スコアの累計で求まる。そして、求まった音響スコアを単語辞書中の全単語で比較することによって最も音響スコアの高い単語を認識結果として出力することになる。
【0041】
なお、上述したような処理は連続単語認識に限定されるものではなく、例えば孤立単語認識システムであっても良いし、連続単語認識の精度を上げるために有限オートマトン文法や統計的言語モデル(N−gram)、あるいは単語の共起確率等の言語情報を用いても良い。
【0042】
図5に、本発明の実施の形態1にかかる音声認識装置における音声認識部3の構成図を示す。図5において、音響処理部31は、一定のフレーム間隔ごとに音声データ受信部1より入力された音声データを音声の特徴を表す特徴量データに変換する。同時に、対応するシーケンス番号を特徴量と一対のデータとして照合部32に送信する。
【0043】
照合部32は、認識語彙情報を有する単語辞書33、仮名や音素といった認識単位別の音響的特徴を有する音響辞書34、及び音響処理部31からの出力である特徴量データを用いて、ユーザにより発声された音声データを認識し、単語列を認識結果として出力するものである。そして、当該認識結果と、認識結果中の単語に対応するシーケンス番号範囲に関する情報を一対のデータとして、結果送信部35に送ることになる。
【0044】
結果送信部35は、照合部32から送られてきた認識結果中における各単語に対応する範囲が、データが消失していた区間か否か、及び消失している場合には、消失しているのはどの区間であるか、等に関する情報をデータ信頼度判定部2に確認して、認識結果評価処理部4に通知する。
【0045】
そして、認識結果評価処理部4において、データパケットが消失している単語については、データ消失していた区間に対応するフラグ“DATALOST_FLAG”を付加すると共に、単語に対応する区間中何%のデータが消失していているかを表す消失率R(%)を算出し、受信データの信頼度C=(100−R)(%)を付加して、認識結果として出力する。
【0046】
なお、信頼度Cが既定のしきい値以下である場合には、信頼度が低いものと判断され、認識結果である単語を破棄したり、データ消失ID“DATALOST_ID”に変換したりする構成も考えられる。あるいは、信頼度が高い/中程度/低いといったレベルに応じてフラグを変更する構成も考えられる。
【0047】
また、信頼度が低いデータに対応する認識結果を出力しないようにすること、あるいは信頼度が低い部分に対応する認識結果を無視することにより、置換誤りや挿入誤り自体を回避することができ、誤った解釈に起因する誤った処理を防止できるとともに、困難な訂正作業を軽減することが可能となる。
【0048】
なお、本実施の形態1においては、シーケンス番号を伝播させて時間同期する場合について説明しているが、特にこの方法に限定されるものではなく、シーケンス番号を時間単位に換算しても良いし、フレーム番号に換算して同期をとる方法であっても良い。あるいは、音声認識部は入力データの最初と最後のシーケンス番号のみ保存し、後はフレーム番号から逆算する等の方法を用いる方法であっても良い。
【0049】
次に、本発明の実施の形態にかかる音声認識装置を実現するプログラムの処理の流れについて説明する。図6に本発明の実施の形態にかかる音声認識装置を実現するプログラムの処理の流れ図を示す。
【0050】
図6において、まずユーザによって発声された音声データを受信する(ステップS601)。そして、ヘッダ部を抽出・解析して(ステップS602)、受信されたデータパケットのシーケンス番号を抽出する(ステップS603)。
【0051】
次に、抽出されたシーケンス番号が連続しているか否かを判定し(ステップS604)、シーケンス番号が連続している場合にはデータが消失していないものと判定され(ステップS605)、そのまま認識結果として出力する(ステップS606)。シーケンス番号が連続していない場合には、データが消失しているものと判定され(ステップS607)、置換誤りや挿入誤りを生じやすいデータの消失部分を無視することになる(ステップS608)。
【0052】
次に、実施の形態1にかかる音声認識装置を音声対話システムに適用した実施例について説明する。本実施例にかかる音声対話システムの構成図を図7に示す。
【0053】
図7において、対話制御部71は、ユーザにより入力された音声データを音声音声認識部3からの認識結果として受け取り、応答すべき対話内容を決定するものである。そして、ユーザへの応答・問いかけ等については、応答部72において合成音声として生成され、応答音声送信部73に送られる。応答音声送信部73は、送信されてきた合成音声データを音声対話システムにおけるユーザへの応答として、RTPに従ってユーザ側に送信することになる。
【0054】
対話制御部71は、音声認識部3における認識結果に受信された音声データが消失していることを示すフラグ“DATALOST_FLAG”が付加されていた場合、該当区間前後の認識結果を用いて該当区間における再入力(言い直し)をユーザに要求する指示を応答部72へ出す。
【0055】
例えば、認識結果が「今日の新幹線ひかり10号(DATALOST_FLAG、C=30%)の切符を1枚」である場合、単語「10号」には該当する区間の受信データ消失フラグ“DATALOST_FLAG”と、受信された音声データの信頼度Cが30%であるという情報が付加されている。この場合、単語「10号」の信頼度が低いと判断できることから、「すみません。通信状態が悪く、一部音声が届きませんでした。今日のひかり何号でしょうか?」と応答するように、応答部72に指示を出すことになる。
【0056】
このように、付加されている情報によって、ユーザは言い直すべき箇所が明確になるとともに、その他の認識結果を確認することもできる。また、データの消失が原因であって、音声認識装置自体の性能によって認識精度が低下しているのではないという事実をユーザに伝達することができ、ユーザの音声認識装置に対する信頼感を保持することが可能となる。
【0057】
また、受信された音声データの信頼度Cが所定のしきい値以下であるか否かによって応答を変更することも可能である。例えば、しきい値が40%の場合、上述した例においては、C=30%であることからしきい値以下となる。したがって、「今日の新幹線ひかり10号の切符を1枚、でよろしいでしょうか?」という通常の応答をすれば足りる。あるいは、しきい値をTh1、Th2(Th1<Th2)の2つ用意しておき、C>Th2の場合、信頼度が高いと判断できることから、そのまま認識結果を採用する。
【0058】
また、Th1≦C≦Th2である場合には、言語情報を利用して認識結果を補正し、C<Th1の場合には信頼度が低いと判断できることから、ユーザに該当区間の再入力を要求することも可能である。
【0059】
あるいは、消失したデータを補完することも考えられる。すなわち、あらゆる単語の3連鎖の生起確率(tri−gram)を統計的に求めた言語統計データを用いて、データの消失が検知された場合、認識結果補完部(図示せず)において、単語継続時間長モデルに基づいて補完する単語並び候補を制限する。そして、残ったすべての単語並びについて、該当区間の認識結果と入れ替えた場合の確率を算出する。具体的には、補完該当区間前の認識結果2単語に続いて、補完される単語列が入り、補完該当区間後の認識結果2単語が続く確率を3連鎖の生起確率(tri−gram)に基づいて算出することになる。そして、最も確率の高い単語列を選択して該当区間の認識結果を入れ替えることになる。
【0060】
このようにすることで、データの消失に対して脆弱な音声認識装置を使用する場合であっても、データの消失による置換誤りや挿入誤りの危険性を抑制することができる。
【0061】
なお、補完されるべき単語列候補の確率が、所定のしきい値以下である場合には、補完することなく該当部分の認識結果をそのままにしておくことも考えられる。あるいは、補完されるべき単語列候補の確率を用いて、受信される音声データの信頼度Cを補正して、改めてしきい値Th3と比較することによって、ユーザに再入力を要求するか否かを判定することも考えられる。
【0062】
さらに、通話全体の統計をとり、回線品質レベルをチェックし、回線品質レベルが低すぎる場合には、ユーザに対して満足できるサービスを提供することができないものと判断して対話を終了、あるいは別回線でのやり直しを薦めることも考えられる。
【0063】
この場合、対話制御部71は、データの消失が生じていると判定されると、入力された音声データに基づいて、例えば回線品質レベルの判断指標として最近の一分間のデータ消失率を算出し、当該消失率が所定のしきい値を超えた場合に、回線品質レベルが低下したものと判断する。そして、対話制御部71は、ユーザに対して回線品質レベルが低い旨を通知することによって、別回線でのやり直しを推奨して対話を終えるように処理を移行させることになる。
【0064】
このようにすることによって、回線品質レベルが低く、音声認識率が低下している音声対話システムに対して、ユーザが無駄な時間を消費することを回避することが可能となる。また、当該音声認識装置自体に対するユーザの信頼度を維持することも可能となる。
【0065】
なお、データの消失区間の長短は音声認識結果の精度に影響する。また、消失区間が同じ時間長である場合であっても、データ消失区間が音声データの定常部であるか否かによっても、音声データの再現率が相違する。したがって、データ消失区間長やデータ消失区間前後の自己相関値等の情報を用いることによって、補完するか否かを切り替える方法であっても同様の効果が期待できる。
【0066】
(実施の形態2)
以下、本発明の実施の形態2にかかる音声認識装置について、図面を参照しながら説明する。図8は、本発明の実施の形態2にかかる音声認識装置における音声認識部3の構成図である。本実施の形態2においては、音声認識部3において言語情報を用いてデータ消失区間に該当する単語の認識精度を高めるために、音響スコアを音声データの信頼度に基づいて更新する点に特徴を有している。
【0067】
図8に示すように、照合部81において、まず各単語ごとに、どの区間内に当該単語がある場合に音響スコアがいくつになるのかについて、入力された特徴量データと音響辞書34に基づいて算出し、音響スコアが上位の単語を候補単語として保存しておく。
【0068】
次に、入力された音声データ全体における単語並びを比較するために、音響スコアが最高である候補単語を除いた残りの候補単語を、それぞれフレームが重ならないように連結し、当該単語並び全体についての音響スコアを算出する。
【0069】
そして、当該音声データに対応する単語列に含まれる各単語について、データの消失区間に対応するか否かをデータ信頼度判定部2に問い合わせ、消失区間である場合、すなわち受信された音声データの信頼度C<100%である場合には、最初に音響スコアが最高であるとして選択された候補単語が信頼できないものとして、言語統計モデルを用いて当該単語の音響スコアを補正することになる。
【0070】
具体的には、言語統計モデルは、単語並びの統計的確率モデル(単語N−gram)と、各音節の継続時間長モデルで構成されている。そして、当初選択されている単語について、対応する時間長で生じる尤度Ltを継続時間長モデルから、前後の単語と並べた単語並びで生じる尤度Lwを統計的確率モデルからそれぞれ求め、当該単語の音響スコアSを既定の変換式S’=F(S、Lt、Lw)により補正する。そして、保存されている他の候補単語の音響スコアと比較することによって、より音響スコアの高い単語を認識結果として出力することになる。
【0071】
このようにすることで、より信頼度の高い認識結果が認識結果評価処理部4に送られ、実施の形態1に比べて脱落誤りが減少することになる。したがって、ユーザに対する聞き返し等の応答回数が減少し、ユーザにおける負担を軽減することが可能となる。
【0072】
なお、修正後の音響スコアS’に基づいて候補単語を再選択するのではなく、修正後の音響スコアS’を該当する認識結果に付加するだけであっても良い。また、変換後の音響スコア、あるいは変換により生じた音響スコアの変化量を加味して、受信されたデータの信頼度Cを補正することによっても同様の効果が期待できる。
【0073】
(実施の形態3)
以下、本発明の実施の形態3にかかる音声認識装置について、図面を参照しながら説明する。図9は、本発明の実施の形態3にかかる音声認識装置における入力される音声データの伝送系の例示図である。本実施の形態3においては、実施の形態1における音声認識装置における信頼度判定の判断材料として、ユーザにより入力された音声データの伝送系におけるデータ補正情報を利用する点に特徴を有している。
【0074】
ユーザが入力した音声データは、ユーザの手元に存在する音声送信機91、例えばIP電話機等から伝送系92を通り、例えばゲートウェイ93に送られる。ゲートウェイ93では、伝送系92で採用されているCODECから伝送系94で採用されているCODECにデータを変換して伝送系94へデータを送信し、音声データ受信部1に音声データが到着することになる。CODEC変換例としては、H.323→GW→SIP、H.323→GW→ATM、あるいはH.323→GW→PSTN等が考えられる。本実施の形態3においては、VoIPからデータを受信する音声認識装置を想定していることから、伝送系94はVoIPのH.323やSIPプロトコルを使用しているものとする。
【0075】
通常、音声データパケット受信部1では伝送系94におけるデータ消失/データ修復の情報しか判断できない。伝送系92で採用されているCODECと伝送系94で採用されているCODECとでは、パケット分割の単位等が異なるからである。したがって、音声データパケット受信部1で受信したデータにおいてはシーケンス番号が連続していても、伝送系92ですでにデータが消失/修復されている可能性もある。
【0076】
そこで、ゲートウェイ93において、伝送系で起こったデータ消失情報/データ修復情報を伝送系94に流す音声データに付加して、音声データ受信部1に送信する。具体的には、伝送系94において音声パケットのヘッダに情報を追記する。あるいは、ゲートウェイ93と音声データ受信部1の間に、音声データ通信経路と別にリンクを張って、情報を別送することも考えられる。
【0077】
さらに、音声送信機91においてVAD機能やVOX機能が動作しており、音声データの消失が起こる場合には、音声送信機91はVAD/VOX機能に関する動作情報をゲートウェイ93に送信し、ゲートウェイ93は上述した方法と同様、伝送系94を経て、当該情報を音声データ受信部1に送信する。なお、VAD/VOX機能とは、接続ラインの音声信号をモニタし、特定のレベル以上の信号が検知されている区間を音声区間とみなして、この区間の音声データのみを送信したり、録音したりすることによって、伝送量の削減やバッテリー消費量の削減、あるいはメモリ使用量の削減等を図る機能を意味する。
【0078】
このような構成にすることで、音声データパケット受信部1は、ユーザにより入力された音声データが通過する全伝送系におけるデータ消失/修復情報を得ることが可能となる。
【0079】
すなわち、データ信頼度判定部2において、全伝送系におけるデータ消失/修復の有無を検知できる。また、伝送系の途中で一旦消失しても、修復されているのであれば、当該情報を加味して信頼度を算出することができる。
【0080】
さらに、ゲートウェイ93は、伝送系92を経て届いたVAD/VOX機能に関する動作情報と、伝送系92におけるデータ消失/補完情報に基づいてデータ信頼度を算出して、算出された信頼度を音声データと共に伝送系94に送信するという構成も考えられる。このようにすることで、伝送系が多段階接続されている場合であっても伝送データが増加することを防ぐことができるとともに、受信データに関する信頼度の判定が容易になる。
【0081】
なお、本発明の実施の形態にかかる音声認識装置を実現するプログラムは、図10に示すように、CD−ROM102−1やフレキシブルディスク102−2等の可搬型記録媒体102だけでなく、通信回線の先に備えられた他の記憶装置101や、コンピュータ103のハードディスクやRAM等の記録媒体104のいずれに記憶されるものであっても良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【0082】
また、本発明の実施の形態にかかる音声認識装置により用いられる単語辞書や音響辞書等についても、図10に示すように、CD−ROM102−1やフレキシブルディスク102−2等の可搬型記録媒体102だけでなく、通信回線の先に備えられた他の記憶装置101や、コンピュータ103のハードディスクやRAM等の記録媒体104のいずれに記憶されるものであっても良く、例えば本発明にかかる音声認識装置を利用する際にコンピュータ103により読み取られる。
【0083】
(付記1) ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信する音声データ受信部と、
受信された時点における前記音声データの、前記音声データが前記ユーザの口から発声された時点における前記音声データに対する再現率を示す信頼度を判定するデータ信頼度判定部と、
受信された前記音声データを認識する音声認識部を含む音声認識装置であって、
受信された前記音声データの信頼度に基づいて、前記音声認識部における認識結果を評価して対応する処理を行う認識結果評価処理部を含むことを特徴とする音声認識装置。
【0084】
(付記2) 前記認識結果評価処理部において、受信された前記音声データの信頼度に基づいて、前記信頼度が所定のしきい値よりも低い場合には、前記認識結果に警告フラグを付加する付記1に記載の音声認識装置。
【0085】
(付記3) 前記認識結果評価処理部において、前記認識結果に受信された前記音声データの信頼度を付加する付記1に記載の音声認識装置。
【0086】
(付記4) 前記認識結果評価処理部において、受信された前記音声データの信頼度に基づいて、前記信頼度が所定のしきい値よりも低い場合には前記認識結果の出力を停止する、もしくは前記認識結果が存在しない旨を示す信号を出力する付記1に記載の音声認識装置。
【0087】
(付記5) 前記データ信頼度判定部において、受信された前記音声データの信頼度を所定の部分単位に判定し、
前記認識結果評価処理部において、受信された前記音声データの所定の部分単位に判定された前記信頼度に基づいて、所定の部分単位に前記音声認識部における認識結果を評価して、所定の部分単位に対応する処理を行う付記1に記載の音声認識装置。
【0088】
(付記6) 前記所定の部分単位に対応する処理が、受信された前記音声データの所定の部分単位に判定された前記信頼度に基づいて、所定の部分単位に前記認識結果を再評価する処理である付記5に記載の音声認識装置。
【0089】
(付記7) 前記所定の部分単位に対応する処理が、受信された前記音声データの所定の部分単位に判定された前記信頼度に基づいて、前記信頼度が所定のしきい値よりも低い場合には、前記音声データの該当する所定の部分については前記音声認識部における認識処理を行わない処理である付記5に記載の音声認識装置。
【0090】
(付記8) 前記データ信頼度判定部において、所定の部分単位の前記認識結果に対応する受信された前記音声データの信頼度に基づいて、認識結果全体の受信された前記音声データの信頼度を算出する付記5に記載の音声認識装置。
【0091】
(付記9) 前記データ信頼度判定部において、受信された前記音声データの信頼度を、受信された前記音声データが失われた割合に基づいて逆算する付記1から8のいずれか一項に記載の音声認識装置。
【0092】
(付記10) 前記データ信頼度判定部において、受信された前記音声データの信頼度を、受信された前記音声データが修復された割合に基づいて逆算する付記1から8のいずれか一項に記載の音声認識装置。
【0093】
(付記11) 前記音声データ受信部において、前記音声データの伝送過程におけるデータ消失に関する情報も前記音声データと同時に受信する付記1から8のいずれか一項に記載の音声認識装置。
【0094】
(付記12) 前記音声データ受信部において、前記音声データの伝送過程におけるデータ修復に関する情報も前記音声データと同時に受信する付記1から8のいずれか一項に記載の音声認識装置。
【0095】
(付記13) 前記音声データを受信するのに用いた回線品質レベルを検知し、前記回線品質レベルが所定のしきい値よりも低い場合、前記回線品質レベルが低い旨を示す信号を前記ユーザに通知する対話制御部を含む付記1から8のいずれか一項に記載の音声認識装置。
【0096】
(付記14) 少なくとも受信手段と、演算手段とを含むコンピュータで用い、
前記受信手段において、ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信する工程と、
前記演算手段において、受信された時点における前記音声データの、前記音声データが前記ユーザの口から発声された時点における前記音声データに対する再現率を示す信頼度を判定する工程と、
前記演算手段において、受信された前記音声データを認識する工程を含む音声認識方法であって、
前記演算手段において、受信された前記音声データの信頼度に基づいて、前記音声データを認識する工程における認識結果を評価して対応する処理を行う工程を含むことを特徴とする音声認識方法。
【0097】
(付記15) 少なくとも受信手段と、演算手段とを含むコンピュータで用い、
前記受信手段において、ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信するステップと、
前記演算手段において、受信された時点における前記音声データの、前記音声データが前記ユーザの口から発声された時点における前記音声データに対する再現率を示す信頼度を判定するステップと、
前記演算手段において、受信された前記音声データを認識するステップを含む音声認識方法を具現化するコンピュータ実行可能なプログラムであって、
前記演算手段において、受信された前記音声データの信頼度に基づいて、前記音声データを認識するステップにおける認識結果を評価して対応する処理を行うステップを含むことを特徴とするコンピュータ実行可能なプログラム。
【0098】
【発明の効果】
以上のように本発明にかかる音声認識装置によれば、受信された音声データが元データをどの程度まで再現できているか否かを指標として信頼度の高低を判断でき、信頼度が低いと判断された場合に適切な処理を行うことによって伝送途上における音声データの消失に伴う置換誤りあるいは挿入誤りの危険性を低減することができ、全体の音声認識精度を高めることが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態1にかかる音声認識装置の構成図
【図2】本発明の実施の形態1にかかる音声認識装置における音声データ受信部で受信された音声データの構成例示図
【図3】本発明の実施の形態1にかかる音声認識装置における音声データ受信部の構成図
【図4】本発明の実施の形態1にかかる音声認識装置におけるデータ信頼度判定部の構成図
【図5】本発明の実施の形態1にかかる音声認識装置における音声認識部の構成図
【図6】本発明の実施の形態1にかかる音声認識装置における処理の流れ図
【図7】本発明の実施例にかかる音声認識装置を用いる音声対話システムの構成図
【図8】本発明の実施の形態2にかかる音声認識装置における音声認識部の構成図
【図9】本発明の実施の形態3にかかる音声認識装置における入力される音声データの伝送系の例示図
【図10】コンピュータ環境の例示図
【符号の説明】
1 音声データ受信部
2 データ信頼度判定部
3 音声認識部
4 認識結果評価処理部
11 音声データパケット受信部
12 音声データバッファ
21 データパケット消失検知部
31 音響処理部
32、81 照合部
33 単語辞書
34 音響辞書
35結果送信部
71 対話制御部
72 応答部
73 応答音声送信部
82 言語統計モデル
91 音声送信機
92、94 伝送系
93 ゲートウェイ
101 回線先の記憶装置
102 CD−ROMやフレキシブルディスク等の可搬型記録媒体
102−1 CD−ROM
102−2 フレキシブルディスク
103 コンピュータ
104 コンピュータ上のRAM/ハードディスク等の記録媒体

Claims (10)

  1. ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信する音声データ受信部と、
    受信された時点における前記音声データの、前記音声データが前記ユーザの口から発声された時点における前記音声データに対する再現率を示す信頼度を判定するデータ信頼度判定部と、
    受信された前記音声データを認識する音声認識部を含む音声認識装置であって、
    受信された前記音声データの信頼度に基づいて、前記音声認識部における認識結果を評価して対応する処理を行う認識結果評価処理部を含むことを特徴とする音声認識装置。
  2. 前記認識結果評価処理部において、受信された前記音声データの信頼度に基づいて、前記信頼度が所定のしきい値よりも低い場合には、前記認識結果に警告フラグを付加する請求項1に記載の音声認識装置。
  3. 前記認識結果評価処理部において、前記認識結果に受信された前記音声データの信頼度を付加する請求項1に記載の音声認識装置。
  4. 前記認識結果評価処理部において、受信された前記音声データの信頼度に基づいて、前記信頼度が所定のしきい値よりも低い場合には前記認識結果の出力を停止する、もしくは前記認識結果が存在しない旨を示す信号を出力する請求項1に記載の音声認識装置。
  5. 前記データ信頼度判定部において、受信された前記音声データの信頼度を所定の部分単位に判定し、
    前記認識結果評価処理部において、受信された前記音声データの所定の部分単位に判定された前記信頼度に基づいて、所定の部分単位に前記音声認識部における認識結果を評価して、所定の部分単位に対応する処理を行う請求項1に記載の音声認識装置。
  6. 前記所定の部分単位に対応する処理が、受信された前記音声データの所定の部分単位に判定された前記信頼度に基づいて、所定の部分単位に前記認識結果を再評価する処理である請求項5に記載の音声認識装置。
  7. 前記データ信頼度判定部において、受信された前記音声データの信頼度を、受信された前記音声データが失われた割合に基づいて逆算する請求項1から6のいずれか一項に記載の音声認識装置。
  8. 前記データ信頼度判定部において、受信された前記音声データの信頼度を、受信された前記音声データが修復された割合に基づいて逆算する請求項1から6のいずれか一項に記載の音声認識装置。
  9. 少なくとも受信手段と、演算手段とを含むコンピュータで用い、
    前記受信手段において、ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信する工程と、
    前記演算手段において、受信された時点における前記音声データの、前記音声データが前記ユーザの口から発声された時点における前記音声データに対する再現率を示す信頼度を判定する工程と、
    前記演算手段において、受信された前記音声データを認識する工程を含む音声認識方法であって、
    前記演算手段において、受信された前記音声データの信頼度に基づいて、前記音声データを認識する工程における認識結果を評価して対応する処理を行う工程を含むことを特徴とする音声認識方法。
  10. 少なくとも受信手段と、演算手段とを含むコンピュータで用い、
    前記受信手段において、ユーザにより発声された音声データを、音声波形又は対応する特徴量として受信するステップと、
    前記演算手段において、受信された時点における前記音声データの、前記音声データが前記ユーザの口から発声された時点における前記音声データに対する再現率を示す信頼度を判定するステップと、
    前記演算手段において、受信された前記音声データを認識するステップを含む音声認識方法を具現化するコンピュータ実行可能なプログラムであって、
    前記演算手段において、受信された前記音声データの信頼度に基づいて、前記音声データを認識するステップにおける認識結果を評価して対応する処理を行うステップを含むことを特徴とするコンピュータ実行可能なプログラム。
JP2002348759A 2002-11-29 2002-11-29 音声認識装置及び方法 Expired - Fee Related JP4340056B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002348759A JP4340056B2 (ja) 2002-11-29 2002-11-29 音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002348759A JP4340056B2 (ja) 2002-11-29 2002-11-29 音声認識装置及び方法

Publications (2)

Publication Number Publication Date
JP2004184535A true JP2004184535A (ja) 2004-07-02
JP4340056B2 JP4340056B2 (ja) 2009-10-07

Family

ID=32751586

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002348759A Expired - Fee Related JP4340056B2 (ja) 2002-11-29 2002-11-29 音声認識装置及び方法

Country Status (1)

Country Link
JP (1) JP4340056B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005223595A (ja) * 2004-02-05 2005-08-18 Toppan Forms Co Ltd 音声認識システムおよびそのプログラム
JP2008309966A (ja) * 2007-06-13 2008-12-25 Fujitsu Ten Ltd 音声入力処理装置および音声入力処理方法
JP2012078650A (ja) * 2010-10-04 2012-04-19 Nec Corp 音声入力支援装置
CN113539253A (zh) * 2020-09-18 2021-10-22 厦门市和家健脑智能科技有限公司 一种基于认知评估的音频数据处理方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005223595A (ja) * 2004-02-05 2005-08-18 Toppan Forms Co Ltd 音声認識システムおよびそのプログラム
JP4509590B2 (ja) * 2004-02-05 2010-07-21 トッパン・フォームズ株式会社 音声認識システムおよびそのプログラム
JP2008309966A (ja) * 2007-06-13 2008-12-25 Fujitsu Ten Ltd 音声入力処理装置および音声入力処理方法
JP2012078650A (ja) * 2010-10-04 2012-04-19 Nec Corp 音声入力支援装置
CN113539253A (zh) * 2020-09-18 2021-10-22 厦门市和家健脑智能科技有限公司 一种基于认知评估的音频数据处理方法和装置
CN113539253B (zh) * 2020-09-18 2024-05-14 厦门市和家健脑智能科技有限公司 一种基于认知评估的音频数据处理方法和装置

Also Published As

Publication number Publication date
JP4340056B2 (ja) 2009-10-07

Similar Documents

Publication Publication Date Title
US8214242B2 (en) Signaling correspondence between a meeting agenda and a meeting discussion
US9773497B2 (en) System and method for handling missing speech data
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
US10242669B1 (en) Enhanced transcription of audio data with punctuation markings based on silence durations
JP4838351B2 (ja) キーワード抽出装置
JP3004883B2 (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
US7848314B2 (en) VOIP barge-in support for half-duplex DSR client on a full-duplex network
US8099277B2 (en) Speech-duration detector and computer program product therefor
US9558744B2 (en) Audio processing apparatus and audio processing method
US10832679B2 (en) Method and system for correcting speech-to-text auto-transcription using local context of talk
JP4960596B2 (ja) 音声認識の方法およびシステム
JPH10210075A (ja) 有音検知装置および方法
KR20140067512A (ko) 신호 처리 장치 및 그 신호 처리 방법
CN105825869B (zh) 语音处理装置和语音处理方法
Chang et al. Turn-taking prediction for natural conversational speech
CN108074587A (zh) 检测通话断续的方法和装置
JP4340056B2 (ja) 音声認識装置及び方法
CN115346517A (zh) 一种流式语音识别方法、装置、设备及存储介质
JP2002358097A (ja) 音声認識装置
KR101368464B1 (ko) 음성 데이터 전사용 음성 인식 장치 및 방법
CN115101088A (zh) 音频信号恢复方法、装置、电子设备及介质
CN111105815B (zh) 一种基于语音活动检测的辅助检测方法、装置及存储介质
CN113345423A (zh) 语音端点检测方法、装置、电子设备和存储介质
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070625

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071121

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071203

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090604

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090703

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130710

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees