JP2009025579A - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP2009025579A JP2009025579A JP2007188997A JP2007188997A JP2009025579A JP 2009025579 A JP2009025579 A JP 2009025579A JP 2007188997 A JP2007188997 A JP 2007188997A JP 2007188997 A JP2007188997 A JP 2007188997A JP 2009025579 A JP2009025579 A JP 2009025579A
- Authority
- JP
- Japan
- Prior art keywords
- barge
- voice
- recognition
- function
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させることで、認識性能の低下を抑制できる音声認識装置および音声認識方法を提供することにある。
【解決手段】
本発明の音声認識装置は、利用者に発話開始を促すためのシステムプロンプトの出力を行い、システムプロンプトの出力中に音声信号の取得を始め、取得した音声信号に重畳されるシステムプロンプトの影響を削除して、利用者の発話した音声を認識可能とするバージイン機能を有する。更に、システムプロンプトの出力中もしくは出力後に取得した音声信号の特徴に基づいて、バージイン機能の動作の要否を決定し、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させるバージイン制御部107を備えている。
【選択図】図1
【解決手段】
本発明の音声認識装置は、利用者に発話開始を促すためのシステムプロンプトの出力を行い、システムプロンプトの出力中に音声信号の取得を始め、取得した音声信号に重畳されるシステムプロンプトの影響を削除して、利用者の発話した音声を認識可能とするバージイン機能を有する。更に、システムプロンプトの出力中もしくは出力後に取得した音声信号の特徴に基づいて、バージイン機能の動作の要否を決定し、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させるバージイン制御部107を備えている。
【選択図】図1
Description
本発明は、音声自動応答装置などに使用される音声認識装置および音声認識方法に関する。
近年、利用者の発話を音声認識技術によって認識し、該認識結果に応じて機器操作を行うような音声インタフェースが普及している。例えば、自動車のナビゲーションシステムや電話応答システムであるIVR(Interactive Voice Response:音声自動応答装置)等に適用されている。こうしたシステムにおいて、システム側から利用者の発話開始を促す応答(以下、システムプロンプトとする。)の出力の終了を待たずに、利用者が発話してしまう、いわゆる「割り込み発話」がある。利用者の利便性の向上を目的として、「割り込み発話」に対応する方法として、「バージイン機能」が知られている(特許文献1参照)。当該バージイン機能は、システムプロンプト出力中から音声信号の取得を開始し、当該音声信号からシステムプロンプト信号をキャンセルして、利用者の音声のみを認識対象とするものである。これにより、利用者がシステムプロンプトに対して割り込み発話を行っても、正しく認識することが可能になる。
特開平9−252268号公報
しかしながら、従来のバージイン機能を用いた音声認識装置では、システムプロンプトの出力中から利用者の音声終了までを音声認識区間としているため、システムプロンプトの出力中に生じた非定常な環境雑音を誤検出する場合があった。当該誤検出する結果、認識結果を誤る可能性が増大するといった問題があった。これより、認識性能の低下を招来するといった問題があった。
本発明は、こうした問題に鑑みてなされたものであり、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させることで、認識性能の低下を抑制できる音声認識装置および音声認識方法を提供することを目的とする。
上記目的達成のため、本発明に係る音声認識装置では、利用者に発話開始を促すための音声出力の実施中もしくは実施後に取得した音声信号の特徴に基づいて、バージイン機能の動作の要否を決定し、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させるバージイン制御手段を備えることを特徴としている。
本発明により、バージイン機能の動作の要否を決定し、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させることで、認識性能の低下を抑制できる。
以下に、本発明の第1乃至第2の実施形態に係る音声認識装置、音声認識方法について、図1乃至図11を参照して説明する。第1乃至第2の実施形態に係る音声認識装置は、自動車のナビゲーションシステムや電話応答システムである音声自動応答装置などに使用されている。従って、音声自動応答装置以外の音声認識装置においても同様の効果が期待できる。
(第1の実施形態)
第1の実施形態では、発話開始を利用者に促す音声出力(ガイダンス音声や応答メッセージなどの応答)であるシステムプロンプトの終了直後から利用者の音声信号終了までの区間について、一旦第1の音声認識処理を行う。当該認識結果に基づいて、バージイン機能の動作の要否を決定する。更に、バージイン機能の動作が必要と決定した場合、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間について、第2の音声認識処理を行うものである。
第1の実施形態では、発話開始を利用者に促す音声出力(ガイダンス音声や応答メッセージなどの応答)であるシステムプロンプトの終了直後から利用者の音声信号終了までの区間について、一旦第1の音声認識処理を行う。当該認識結果に基づいて、バージイン機能の動作の要否を決定する。更に、バージイン機能の動作が必要と決定した場合、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間について、第2の音声認識処理を行うものである。
第1の実施形態の基本的な構成を図1に示す。図1は、本発明の第1の実施形態に係る音声認識装置の基本的構成を示すブロック図である。ここで、図1の矢印(a)は利用者の発話音声を示し、矢印(b)はシステムからの出力音声を示している。図1に示すように、第1の実施形態の音声認識装置は、Push To Talkスイッチ(以下、PTTスイッチとする。)101、音声入力部102、音声出力部103を備えている。更に、音声バッファ104、音声認識手段である音声認識部105、認識辞書106、バージイン制御手段であるバージイン制御部107を備えている。
<基本機能と実現手段>
ここで、各部の基本的な機能および具体的な実現手段について、図2を用いて説明する。図2は、図1に示す音声認識装置の実現手段を示すブロック図である。PTTスイッチ101は、利用者が音声入力を開始する際に押下するスイッチであり、図2のスイッチ201で実現される。スイッチ201としては、通常の押下式スイッチ、トグルスイッチ、ダイヤルスイッチ、タッチパネル等をも用いることができる。なお、PTTスイッチ101を押下している期間に限って音声入力を受け付ける仕組みを持つ音声入力方法もある。しかし、本発明では、スイッチ201の押下は音声操作の開始をシステムに通知する役割のみを持つものとし、押下後の音声区間の検出等はシステム側が判断するものとする。また、音声入力部102は、利用者の発話音声(図1の矢印(a)参照)を取得する。例えば、図2のマイクロフォン202とAD変換部203を組み合わせることで実現される。
ここで、各部の基本的な機能および具体的な実現手段について、図2を用いて説明する。図2は、図1に示す音声認識装置の実現手段を示すブロック図である。PTTスイッチ101は、利用者が音声入力を開始する際に押下するスイッチであり、図2のスイッチ201で実現される。スイッチ201としては、通常の押下式スイッチ、トグルスイッチ、ダイヤルスイッチ、タッチパネル等をも用いることができる。なお、PTTスイッチ101を押下している期間に限って音声入力を受け付ける仕組みを持つ音声入力方法もある。しかし、本発明では、スイッチ201の押下は音声操作の開始をシステムに通知する役割のみを持つものとし、押下後の音声区間の検出等はシステム側が判断するものとする。また、音声入力部102は、利用者の発話音声(図1の矢印(a)参照)を取得する。例えば、図2のマイクロフォン202とAD変換部203を組み合わせることで実現される。
音声出力部103は、システム側から利用者に向けて音声情報を提示するものであり、例えば、図2のDA変換部206およびスピーカ207を組み合わせることで実現できる。音声出力部103は、音声により、システム側から利用者に発話を促す音声出力、すなわち、システムプロンプトを出力したり、利用者によるシステムの操作の結果をフィードバックしたりする。システムプロンプトとしては、音声メッセージ(例えば、「コマンドをどうぞ」、「ピッとなったらお話しください」等)と報知音(「ポン」や「ピッ」といったビープ音)が組み合わされたものや、何れか片方のみのものがある。当該システムプロンプトの出力により、利用者にとって発話開始のタイミングがつかみ易くなる。第1の実施形態のシステムプロンプトとして、後述する図3に示すように、「コマンドをどうぞ+ポーン(報知音)」を出力している。
音声バッファ104は、利用者の発話音声を含む音声信号を取得し、一時的に蓄積するものであり、演算装置204および記憶装置205を組み合わせることで実現される。第1の実施形態では、利用者がPTTスイッチ101を押下した直後から、利用者の発話音声の終端を検出するまでの期間を蓄積区間として記憶する。従って,音声バッファ104は、少なくとも、システムプロンプトの出力時間に、後述する認識辞書106に記憶された語彙の平均発話時間等を考慮して決定した音声待ち受け時間を加えた時間、記憶する必要がある。これから、当該時間に渡る音声信号を記憶するサイズが必要となる。また、後述する音声認識部105の機能である音声アクティビティ検出(Voice Activity Detection:VAD)機能(以下、VAD機能とする。)を用いることで、音声認識部105は無音区間を排除した音声信号の始端検出を行うことも可能である。また、音声認識部105はVAD機能により、一旦音声信号を検出してから所定長以上の無音区間を検出した場合に、当該無音区間の始端を音声信号の終端と予測することも可能である。これから、音声バッファ104は、利用者の発話音声のみの音声信号(以下、利用者の音声信号とする。)を記憶することも可能である。
音声バッファ104が音声信号を取得する区間について、図3を用いて説明する。図3は、図1に示す音声バッファ104の音声取得区間および音声認識対象区間を示す図である。ここで、図3(a)はシステムプロンプトの出力「コマンドをどうぞ+ポーン(報知音)」の波形を時間軸プロットしている。図3(b)は利用者の音声信号の例「行き先を探す」の波形を時間軸プロットしている。図3に示す時刻Ta0は、利用者がPTTスイッチ101を押下した時刻であり、押下直後にシステムプロンプトの出力を開始する。第1の実施形態では、音声バッファ104の記憶可能な時刻である最大時刻Ta2は、システムプロンプト終了時刻Ta1および利用者によって発話される可能性ある語彙の発話長に基づいて、決定される。当該発話長は、上述した音声待ち受け時間の長さより長くなっている。あるいは、最大時刻Ta2は、VAD機能によって利用者の音声信号の終端時刻Tb2が予測される場合に、上記検出された所定長以上の無音区間の終端時刻から決定される。これにより、音声バッファ104は、PTTスイッチ押下時刻Ta0から最大時刻Ta2を最大音声取得区間として、音声信号の取得を行うことができる。
音声認識部105は、音声信号から特徴量を抽出し、該特徴を認識辞書106とマッチングすることにより、少なくとも一つ以上の尤もらしい語彙を認識結果として抽出し、認識スコアを算出するものである。音声認識部105は、演算装置204および記憶装置205を組み合わせることで実現される。なお、第1の実施形態に係る音声認識部105は、システムプロンプトの出力の終了を待たずに、利用者がする発話(以下、割り込み発話とする。)に対応するため、バージイン機能を備えている。ここで、バージイン機能とは、システムプロンプトに重畳された利用者の発話音声を含む音声信号からシステムプロンプトの信号をキャンセルし、利用者の音声信号のみを分離抽出する機能である。システムプロンプトの信号をキャンセルする手法としては、公知のスペクトルサブトラクション法等のエコーキャンセル技術を利用すればよい。
また、認識スコアとは、一般に、音声認識装置が認識候補として抽出した語彙に対する確信度合いを示す指標である。認識スコアが高い候補ほど、正解の可能性が高い語彙といえる。認識スコアとしては、例えば「信頼度」が利用できる。信頼度の算出方法としては、一般的な音声認識装置の出力する尤度(音響尤度や言語尤度)を用いるものがある。また、競合単語(同時に出力された候補語彙)間の尤度差や尤度比に着目した正規化尤度、あるいは当該競合単語を出力しうる全ての単語パスに着目した単語事後確率を用いるもの等がある。例えば、Rong Zhang他 “Word Label Confidence Annotation using Combinations of Features”,Eurospeech2001,Proceedings of Eurospeech, pp2105-2108が詳しい。また、李 晃伸他 「2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」電子情報通信学会 技術報告 NLC2003−97, SP2003−160(2003−12)も詳しい。
以降の説明では、認識スコアとして、信頼度を用いる。また、音声認識部105による音声認識処理にあたり音声認識対象区間の検出が重要となる。当該検出には、一般的な音声エネルギーの変化等に基づく音声アクティビティ検出(Voice Activity Detection:VAD)機能を用いることができる。図3に示した利用者の音声信号の例「行き先を探す」において、音声認識部105は、バージイン機能を動作させずに、VAD機能を用いて、無音区間を排除した利用者の音声信号の始端時刻Tb1の検出を行う。その後、所定長以上の無音区間を検出し、当該無音区間の始端時刻を、利用者の音声信号の終端時刻Tb2と予測する。音声認識部105は、Tb1〜Tb2の区間を音声認識対象区間として検出する。音声認識部105は、後述するバージイン制御部107に基づいて、第1の音声認識処理を行う。バージイン制御部107は、第1の音声認識処理の認識結果に基づいて、割り込み発話の発生の可能性を判定する。すなわち、バージイン機能の動作の要否を決定する。割り込み発話が発生したと判定した場合、利用者の音声信号の始端時刻Tb1は、システムプロンプト終了時刻Ta1に等しくなる。よって、割り込み発話が発生したと判定した場合、すなわち、バージイン機能の動作が必要と決定した場合、第1の音声認識処理の音声認識対象区間は、システムプロンプト終了直後から利用者の音声信号終了までの区間となる。また、バージイン制御部107が割り込み発話が発生したと判定した場合、すなわち、バージイン機能の動作が必要と決定した場合、音声認識部105は第2の音声認識処理を行う。ここで、第2の音声認識処理の音声認識対象区間は、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間を合わせた区間である。なお、バージイン機能の動作が不要と決定した場合、第1の音声認識処理における最大検出可能な音声認識対象区間は、システムプロンプト終了時刻Ta1〜最大時刻Ta2の区間となる。
認識辞書106は、音声認識部105における音声信号の特徴とのマッチングを行う語彙を記憶するものであり、記憶装置205により実現される。なお、第1の実施形態では、一般的な音声認識手法を用いることとする。一般的な音声認識手法とは、音声の音響的特徴量をその出現確率および連接確率としてモデル化する音響モデルと、単語の連接関係をモデル化した言語モデルを組み合わせて認識スコアを算出する方法である。なお、言語モデルの表記法としては、単語の連接関係をネットワークモデルとして表記する方法と、大量の文書を解析して連接関係を確率モデルとして表記する統計的言語モデル等が知られている。
第1の実施形態では、ネットワークモデルを用いる。認識辞書106の構成例を図4に示す。図4は、図1に示す認識辞書106の構成を示す図である。図4に示すように、認識辞書106では、各ノードの接続関係として語彙が記憶されている。なお、図4に示した左右端の○印は便宜上設けた始端および終端のノードである。また、語彙と同様に記憶されている「Garbage」は、ガベージモデルと呼ばれ、認識辞書106に記憶された語彙外の語彙等を適宜吸収するモデルである。第1の実施形態では、後述するバージイン制御部107が割り込み発話の発生の可能性を判定できるように、すなわち、バージイン機能の動作の要否を決定できるように、認識辞書106に特徴を持たせている。当該特徴は、図4(a)および(b)に示すように、認識辞書106に記憶された語彙を、語頭(図4(a)参照)と語尾(図4(b)参照)の位置に分けてモデル化している点である。図4に示した構成例では、例えば「行き先−探す」、「ラジオ−聴く」といった語彙が認識可能である。また、図4(a)および(b)の間に、例えば、間投詞「を」、「に」等を吸収する新たなガベージモデルを挿入することで、「行き先(を)探す」等が認識可能になる。
認識辞書106は、語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長を、当該語尾に対応付けて、記憶する構成となっている。なお、全語頭の語彙の予測発話長を予め計算している。図4では、「探す」について接続する可能性のある語彙、例えば「行き先」、「コンビニ」の予測発話長を予め計算し、Amin〜Amax[msec]のように範囲値として記憶している(語尾の語彙自体の発話長ではなく、接続する可能性のある語頭の語彙についての予測発話長の範囲であることに注意されたい。)。上記の範囲値は、接続する可能性のある語頭の語彙の音素列長の長短と、利用者の発話速度の偏差を考慮して、最大値Amax[msec]、最小値Amin[msec]として定義する。同様にして、「聴く」についても、認識辞書106は範囲値Bmin〜Bmax[msec]を記憶する。また、当該語頭の語彙に関する大量の音声データ(音声コーパス)を取得し、当該音声データの発話長の分析結果に基づいて、上記予測発話長を決定しても良い。上記予測発話長の記憶により、後述のバージイン制御部107における割り込み発話の発生の可能性の判定、すなわち、バージイン機能の動作の要否の決定が可能となる。更に、バージイン機能を動作させた場合の音声認識対象区間の決定が可能になる。
バージイン制御部107は、音声認識部105に第1の音声認識処理を行わせる。また、バージイン制御部107は、第1の音声認識処理の認識結果に基づいて、割り込み発話の発生の可能性を判定する。すなわち、バージイン機能の動作の要否を決定する。更に、バージイン制御部107は、バージイン機能の動作が必要と決定した場合に、音声認識部105に第2の音声認識処理を行わせる。また、バージイン制御部107は、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間を合わせた区間を、第2の音声認識処理の音声認識対象区間として決定する。バージイン制御部107は、演算装置204および記憶装置205を組み合わせることで実現される。上記のように、第1の実施形態の音声認識部105では、入力された音声信号から利用者の音声信号を検出し、一旦バージイン機能を動作させない通常の音声認識処理、すなわち、第1の音声認識処理を行う。第1の音声認識処理の認識結果に基づいて、バージイン制御部107はバージイン機能の動作が必要と決定した場合に、音声認識部105のバージイン機能を動作させる。更に、バージイン制御部107は、バージイン機能を動作させた音声認識処理、すなわち、第2の音声認識処理を音声認識部105に行わせる。
次に、バージイン制御部107における割り込み発話の発生の可能性を判定する方法、すなわち、バージイン機能の動作の要否を決定する方法について、図5を用いて説明する。図5は、図1に示すバージイン制御部107による割り込み発話の判定方法を示す図である。ここで、図5は、図3同様、システムプロンプトの出力(図5(a)参照)の波形、利用者の音声信号(図5(b)、(c)、(d)、(e)参照)の波形を時間軸プロットしたものである。音声信号(b)、(c)、(d)、(e)は、発話開始時刻が異なるのみで、発話内容は同一である。音声信号(b)は、システムプロンプト終了時刻Ta1後に、利用者が発話を開始した場合を示している。音声信号(b)において、音声認識部105は、バージイン機能を動作させずに、利用者の音声信号の始端(図3のTb1相当)〜終端(図3のTb2相当)の区間について、第1の音声認識処理を行う。バージイン制御部107は、第1の音声認識処理の認識結果として、「行き先−探す」を検出している。語頭および語尾の語彙を共に検出しており、認識スコア(第1の実施形態では、最大値を1として0〜1で表記する。)も高い。そこで、バージイン制御部107は、割り込み発話の発生の可能性は少ないと判定する。すなわち、バージイン機能の動作は不要と決定する。その後、バージイン制御部107は、第1の音声認識処理の認識結果に基づいて、後段処理(例えば、機器の操作や認識結果の音声・表示による利用者へのフィードバック)へと移行する。すなわち、バージイン制御部107は、バージイン機能を動作させた第2の音声認識処理を音声認識部105に行わせない。
一方、音声信号(c)、(d)、(e)は、システムプロンプト終了時刻Ta1前に、利用者が発話を開始している場合を示している。音声信号(c)では、バージイン制御部107は、第1の音声認識処理の認識結果として、語尾の語彙「探す」のみを検出している。これから、バージイン制御部107は、語頭の語彙について、割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。また、音声信号(d)では、バージイン制御部107は、第1の音声認識処理の認識結果として、語頭、語尾双方の語彙を検出している。しかし、語頭の語彙は所定以下の認識スコアで検出されている。そこで、バージイン制御部107は、音声信号(c)同様、語頭の語彙について、割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。
ここで、バージイン制御部107は、予め、認識スコアに所定の閾値を設定する。語頭の語彙の認識スコアが当該閾値を下回る場合に、バージイン制御部107は、割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。当該閾値の設定の仕方は、予め音声信号群(コーパスデータ)を用意し、該音声信号群を通常通り認識した場合の認識スコアと、語頭部分を数パターンの長さで切り落とした音声信号群を認識した場合の認識スコアから統計的に求める事が望ましい。このとき、語頭の語彙の認識スコアの変化量のみに着目して閾値を設けてもよい。この場合、認識率が所定の値を下回る時の認識スコアを統計的に求め、当該認識スコアを閾値として設定する。語頭の語彙の認識スコアが該閾値を下回った場合に割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。また、語頭部分を数パターンの長さで切り落とした音声信号群を認識した場合において、語頭の語彙の認識スコアと語尾の語彙の認識スコアを同時に着目し、語頭の語彙の認識スコアと語尾の語彙の認識スコアの相対スコア差に基づいて、閾値を設定してもよい。この場合も、同様に認識性能が所定の値を下回る時の語頭、語尾の認識スコアの相対スコア差を統計的に求め、当該相対スコア差を差分閾値として設定する。該差分閾値を越える相対スコア差を検出した場合に割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。
一方、音声信号(e)では、音声信号(c)、(d)と異なり、語頭の語彙の音声区間長に着目する。バージイン制御部107は、第1の音声認識処理の認識結果として、語尾の語彙「探す」を検出している。バージイン制御部107は、語尾の語彙「探す」について、当該語尾の語彙の音声区間の始端時刻(以下、語尾語彙始端とする。)Tb3と終端時刻(以下、語尾語彙終端とする。)Tb4をマッチング処理の過程から推定することが可能である。第1の音声認識処理の音声認識対象区間は、Ta1〜Tb4の区間に等しい。これから、語頭の語彙の音声区間は、当該音声認識対象区間から、語尾の語彙「探す」の区間(Tb3〜Tb4の区間)を除いた区間、すなわち、Ta1〜Tb3の区間と推定される。図5において、当該語頭の語彙の音声区間は、観測長θで表されている。上述したように、図4に示した認識辞書106は、語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長の範囲値Amin〜Amax[msec]を、語尾の語彙に対応付けて記憶している。そこで、バージイン制御部107は、予測発話長の範囲値Amin〜Amax[msec]を参照する。特に、最小値Amin[msec]に着目する。バージイン制御部107は、最小値Amin[msec]と観測長θを比較し、Amin>θの場合に、割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン制御部107は、語頭の語彙の音声区間θを所定Amin[msec]より短く検出した場合、バージイン機能の動作が必要と決定する。
次に、バージイン制御部107による音声区間の再設定方法について、図6を用いて説明する。図6は、図1に示すバージイン制御部107による音声区間再設定方法を示す図である。上記の方法で割り込み発話の発生の可能性が高いと判定した場合、すなわち、バージイン機能の動作が必要と決定した場合、バージイン制御部107は、新たに音声認識対象区間を決定する。新たに決定された音声認識対象区間について、バージイン機能を動作させた第2の音声認識処理を音声認識部105に行わせる。上記の通り、音声バッファ104は、PTTスイッチ押下直後から利用者の発話音声の取得を開始しているため、時間を遡って音声区間を再設定し、認識させることが可能である。ここで、遡る音声区間は、図5の音声信号(e)の場合と同様、予測発話長の範囲値Amin〜Amax[msec]を利用する。図6に示すように、第1の音声認識処理の音声認識対象区間は、区間(A)となる。すなわち、バージイン制御部107がバージイン機能の動作が必要と決定した場合、音声認識部105のVAD機能を用いて検出した利用者の音声信号の始端時刻Tb1は、システムプロンプト終了時刻Ta1と同時刻(Ta1=Tb1)になる。
バージイン制御部107は、第1の音声認識処理の認識結果として、語尾の語彙「探す」を検出する。上述したバージイン機能の動作の要否を決定した結果、バージイン制御部107がバージイン機能の動作が必要と決定した場合、バージイン制御部107は、語尾の語彙「探す」の語尾語彙始端Tb3および語尾語彙終端Tb4を推定する。更に、バージイン制御部107は、語尾の語彙「探す」に接続する可能性のある全語頭の語彙の予測発話長の範囲値Amin〜Amax[msec]を参照する。特に、ここでは、予測発話長の最大値Amax[msec]と語尾語彙始端Tb3に着目し、語尾語彙始端Tb3から予測発話長の最大値Amax[msec]分遡った時刻、すなわち、Tb0を利用者の音声信号の新たな始端時刻(以下、新規音声始端とする。)として再設定する。これから、バージイン制御部107は、語尾語彙始端Tb3および語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長の最大値Amax[msec]に基づいて、システムプロンプト終了直後から遡った所定区間Tb0〜Ta1を決定する。更に、バージイン制御部107は、システムプロンプト終了直後から遡った所定区間Tb0〜Ta1およびシステムプロンプト終了直後から利用者の音声信号終了までの区間Ta1〜Tb4を合わせた区間Tb0〜Tb4を、第2の音声認識処理の音声認識対象区間と決定する。よって、バージイン制御部107は、上記の音声認識対象区間Tb0〜Tb4について、第2の音声認識処理を音声認識部105に行わせる。
なお、上記の音声認識対象区間Tb0〜Tb4について、更に、音声認識部105のVAD機能を用いて、新規音声始端Tb0aを検出しても良い。この場合、図6に示すように、バージイン制御部107は、区間Tb0a〜Tb4を第2の音声認識処理の音声認識対象区間と決定する。バージイン制御部107は、上記の音声認識対象区間Tb0a〜Tb4について、第2の音声認識処理を音声認識部105に行わせる。また、システム状態(利用者とシステムとの対話状態)によって、認識辞書を切り替えて用いる音声認識手法では、認識辞書毎に予測発話長を記憶し、テーブル化しておくことで対応できる。
<上記構成を用いた具体的な制御処理の流れ>
ここで、上記構成を用いた第1の実施形態に係る音声認識装置の具体的な制御処理の流れを図7を用いて説明する。図7は、図1に示す音声認識装置の制御処理の流れを示すフローチャートである。まず、音声入力部102は、利用者のPTTスイッチ101の押下があるか否か判断する(ステップS101)。音声入力部102がPTTスイッチ101の押下が無いと判断した場合(ステップS101:No)、PTTスイッチ101の押下があるまで待機する。一方、音声入力部102がPTTスイッチ101の押下を検出した場合(ステップS101:Yes)、バージイン制御部107は、音声入力部102の上記のPTTスイッチ押下検出信号に基づいて、PTTスイッチ押下時刻をタイムスタンプTa0として、音声バッファ104に記録する。その後、バージイン制御部107は、システムプロンプトの出力を開始する(ステップS102)。第1の実施形態のシステムプロンプトとして、「コマンドをどうぞ+ポーン(報知音)」を出力している。また、バージイン制御部107は,音声入力部102の上記PTTスイッチ押下検出信号に基づいて、利用者の発話音声を含む音声信号の取得を音声バッファ104に開始させる(ステップS103)。
ここで、上記構成を用いた第1の実施形態に係る音声認識装置の具体的な制御処理の流れを図7を用いて説明する。図7は、図1に示す音声認識装置の制御処理の流れを示すフローチャートである。まず、音声入力部102は、利用者のPTTスイッチ101の押下があるか否か判断する(ステップS101)。音声入力部102がPTTスイッチ101の押下が無いと判断した場合(ステップS101:No)、PTTスイッチ101の押下があるまで待機する。一方、音声入力部102がPTTスイッチ101の押下を検出した場合(ステップS101:Yes)、バージイン制御部107は、音声入力部102の上記のPTTスイッチ押下検出信号に基づいて、PTTスイッチ押下時刻をタイムスタンプTa0として、音声バッファ104に記録する。その後、バージイン制御部107は、システムプロンプトの出力を開始する(ステップS102)。第1の実施形態のシステムプロンプトとして、「コマンドをどうぞ+ポーン(報知音)」を出力している。また、バージイン制御部107は,音声入力部102の上記PTTスイッチ押下検出信号に基づいて、利用者の発話音声を含む音声信号の取得を音声バッファ104に開始させる(ステップS103)。
次に、バージイン制御部107は、システムプロンプトの出力が終了したか否か判断する(ステップS104)。ここで、上記システムプロンプトは、規定の音声メッセージ「コマンドをどうぞ」+報知音「ポーン」から構成されているため、出力内容および出力時間は既知となる。よって、PTTスイッチ押下時刻Ta0から計時することにより、バージイン制御部107は、システムプロンプトの出力の終了を容易に判断可能である。システムプロンプトの出力が終了していないと判断した場合(ステップS104:No)、バージイン制御部107はシステムプロンプトの出力が終了するまで待機する。一方、システムプロンプトの出力が終了したと判断した場合(ステップS104:Yes)、バージイン制御部107は、システムプロンプト終了時刻をタイムスタンプTa1として、音声バッファ104に記録する(ステップS105)。
次に、バージイン制御部107は、利用者の音声信号の始端を音声認識部105が検出したか否か判断する(ステップS106)。上記のように、音声認識部105は、VAD機能を用いて、利用者の音声信号の始端を検出する。音声認識部105が利用者の音声信号の始端を検出していないとバージイン制御部107が判断した場合(ステップS106:No)、バージイン制御部107は、音声認識部105が検出するまで待機する。一方、音声認識部105が利用者の音声信号の始端を検出したとバージイン制御部107が判断した場合(ステップS106:Yes)、バージイン制御部107は、利用者の音声信号の始端時刻をタイムスタンプTb1として、音声バッファ104に記録する(ステップS107)。なお、割り込み発話が発生している場合、利用者の音声信号の始端時刻Tb1とシステムプロンプト終了時刻Ta1とは、同時刻となる。
次に、バージイン制御部107は、音声認識部105に第1の音声認識処理を行わせる(ステップS108)。すなわち、音声認識部105は、順次取得される音声信号から特徴量を抽出し、該特徴を認識辞書106とマッチングすることにより、少なくとも一つ以上の尤もらしい語彙を認識結果として抽出し、認識スコアを算出する。バージイン制御部107は、利用者の音声信号の終端時刻Tb2を音声認識部105が検出したか否か判断する(ステップS109)。音声認識部105が利用者の音声信号の終端時刻Tb2を検出していないとバージイン制御部107が判断した場合(ステップS109:No)、バージイン制御部107は、音声認識部105が検出するまで、ステップS108およびS109の制御処理を継続する。一方、音声認識部105が利用者の音声信号の終端時刻Tb2を検出したとバージイン制御部107が判断した場合(ステップS109:Yes)、バージイン制御部107は、音声認識部105における第1の音声認識処理を終了させる。更に、バージイン制御部107は、音声バッファ104における音声信号の取得を終了させる。
次に、バージイン制御部107は、第1の音声認識処理の認識結果があるか否か、すなわち、音声認識部105から上記認識結果を取得できたか否か判断する(ステップS110)。音声認識部105から上記認識結果を取得できない場合(ステップS110:No)、第1の音声認識処理の音声認識対象区間について認識したにもかかわらず、認識結果が無いこととなり、利用者が語彙外の発話を行ったか、雑音による認識不能状態と考えられる。よって、利用者に対し、認識できなかったことをフィードバックした上、再入力等を求めるのが望ましい。これから、本制御処理を終了する。一方、音声認識部105から上記認識結果を取得できた場合(ステップS110:Yes)、バージイン制御部107は、第1の音声認識処理の認識結果に基づいて、割り込み発話の発生の可能性を判定する(ステップS111)。すなわち、バージイン機能の動作の要否を決定する。バージイン制御部107は、上述したように、語尾の語彙のみ検出された場合(図5(c)参照)または語頭の語彙の認識スコアが所定以下の場合(図5(d)参照)、バージイン機能の動作が必要と決定する。または、バージイン制御部107は、語頭の語彙の認識スコアと語尾の語彙の認識スコアの差が所定以下の場合、バージイン機能の動作が必要と決定する。または、語頭の語彙の音声区間である観測長θが所定、すなわち、最小値Amin[msec]より短い場合(図5(e)参照)、バージイン機能の動作が必要と決定する。更に、バージイン制御部107は、語尾語彙始端Tb3および語尾語彙終端Tb4を音声バッファ104に記録する(ステップS111)。
次に、バージイン制御部107は、ステップS111に示した制御処理の結果、割り込み発話があるか否か、すなわち、バージイン機能の動作が必要と決定したか否か判断する(ステップS112)。バージイン機能の動作が不要と決定したと判断した場合(ステップS112:No)、バージイン制御部107は、本制御処理を終了し、第1の音声認識処理の認識結果に基づいて、後段処理へと移行する。ここで、後段処理とは、例えば、機器の操作や認識結果の音声・表示による利用者へのフィードバック等である。一方、バージイン機能の動作が必要と決定したと判断した場合(ステップS112:Yes)、バージイン制御部107は、認識辞書106を参照する(ステップS113)。すなわち、認識結果である語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長の最大値Amax[msec]を認識辞書106から参照し、取得する。
次に、バージイン制御部107は、ステップS113の制御処理で取得した予測発話長の最大値Amax[msec]および語尾語彙始端Tb3に基づいて、新規音声始端Tb0を再設定し(ステップS114)、第2の音声認識処理の音声認識対象区間Tb0〜Tb4を決定する。新規音声始端Tb0は語尾語彙始端Tb3から予測発話長の最大値Amax[msec]遡った時刻となる。次に、バージイン制御部107は、第2の音声認識処理の音声認識対象区間Tb0〜Tb4について、バージイン機能を動作させた第2の音声認識処理を音声認識部105に行わせる(ステップS115)。その後、バージイン制御部107は、第2の音声認識処理の認識結果を取得し、本制御処理を終了する(ステップS116)。更に、上記認識結果に基づいて、上記の後段処理へと移行する。
以上より、第1の実施形態に係る音声認識装置、音声認識方法では、バージイン機能の動作の要否を決定し、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させるバージイン制御部107を備えることで、認識性能の低下を抑制できる。よって、常時、バージイン機能を有効にする場合と比較して、非定常雑音の重畳による認識性能低下を抑制しつつ、割り込み発話の発生時の認識性能を確保できる。また、発話開始を利用者に促すシステムプロンプトの出力中もしくは出力後に取得した利用者の音声信号の特徴に基づいて、バージイン機能の動作の要否を決定することで、バージイン制御部107を実現できる。また、第1の実施形態では、バージイン制御部107は、システムプロンプト終了直後から利用者の音声信号終了までの区間Ta1〜Tb4について、第1の音声認識処理を音声認識部105に行わせるので、バージイン機能の動作の要否を決定できる。
また、第1の実施形態のバージイン制御部107は、バージイン機能の動作が必要と決定した場合のみ、システムプロンプト終了直後から遡った所定区間Tb0〜Ta1およびシステムプロンプト終了直後から利用者の音声信号終了までの区間Ta1〜Tb4を、音声認識対象区間とする。更に、当該音声認識対象区間Tb0〜Tb4について、第2の音声認識処理を音声認識部105に行わせるので、割り込み発話を確実に認識対象とすることができる。
また、第1の実施形態のバージイン制御部107は、第1の音声認識処理の認識結果として、認識辞書106の語尾の語彙のみを検出した場合に、バージイン機能の動作が必要と決定する。これから、バージイン機能の動作を最小限とすることができ、認識性能の低下を抑制できる。また、第1の実施形態のバージイン制御部107は、上記認識結果として、認識辞書106の語頭の語彙が所定以下の認識スコアで検出した場合に、バージイン機能の動作が必要と決定する。これから、バージイン機能の動作を最小限とすることができ、認識性能の低下を抑制できる。
また、第1の実施形態のバージイン制御部107は、上記認識結果として、認識辞書106の語頭の語彙の認識スコアと語尾の語彙の認識スコアとの差を所定以上で検出した場合に、バージイン機能の動作が必要と決定する。これから、バージイン機能の動作を最小限とすることができ、認識性能の低下を抑制できる。また、第1の実施形態のバージイン制御部107は、上記認識結果として得られた語頭の語彙の音声区間である観測長θを所定、すなわち、最小値Amin[msec]より短く検出した場合に、バージイン機能の動作が必要と決定する。これから、バージイン機能の動作を最小限とすることができ、認識性能の低下を抑制できる。
また、第1の実施形態のバージイン制御部107は、上記認識結果として得られた語尾の語彙の音声区間の始端時刻である語尾語彙始端Tb3および予測発話長の最大値Amax[msec]に基づいて、システムプロンプト終了直後から遡った所定区間Tb0〜Ta1を決定する。これから、バージイン機能を動作させた第2の音声認識処理の音声認識対象区間を最小限とすることができ、認識性能の低下をより抑制できる。
(第2の実施形態)
第2の実施形態では、後述する音声エネルギー量検出区間に入力された音声信号の音声エネルギー量に基づいて、バージイン機能の動作の要否を決定する。更に、バージイン機能の動作が必要と決定した場合、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間について、音声認識処理を行うものである。
第2の実施形態では、後述する音声エネルギー量検出区間に入力された音声信号の音声エネルギー量に基づいて、バージイン機能の動作の要否を決定する。更に、バージイン機能の動作が必要と決定した場合、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間について、音声認識処理を行うものである。
以下、第2の実施形態に係る音声認識装置、音声認識方法について、第1の実施形態に係る音声認識装置、音声認識方法と異なる点を中心に説明する。また、第2の実施形態に係る音声認識装置について、第1の実施形態に係る音声認識装置と同様の構造には同じ番号を付し、説明を省略する。図8は、本発明の第2の実施形態に係る音声認識装置の基本的構成を示すブロック図である。図8に示すように、第2の実施形態に係る音声認識装置の構成は、基本的には、第1の実施形態に係る音声認識装置の構成と同じである。第1の実施形態と異なるのは、認識辞書116およびバージイン制御部117だけである。よって、認識辞書116およびバージイン制御部117のみ説明する。第1の実施形態における認識辞書106は、記憶した語彙を語頭と語尾の位置に分けてモデル化しているが、第2の実施形態における認識辞書116は、記憶した語彙を語頭と語尾の位置に分けてモデル化していない。また、認識辞書106は、語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長を、当該語尾に対応付けて、記憶している。しかし、認識辞書116は上記の予測発話長を記憶していない。上記の相違点以外、認識辞書116は、認識辞書106と同じ構造となっている。
第2の実施形態におけるバージイン制御部117は、第1の実施形態におけるバージイン制御部107と異なり、後述する音声エネルギー量検出区間に入力された音声信号の音声エネルギー量に基づいて、バージイン機能の動作の要否を決定する。また、バージイン制御部117は、バージイン制御部107と同様に、バージイン機能の動作が必要と決定した場合、バージイン機能を動作させた音声認識処理を音声認識部105に行わせる。上記の場合、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間を音声認識対象区間と決定する。
次に、バージイン制御部117における割り込み発話の発生の可能性を判定する方法、すなわち、バージイン機能の動作の要否を決定する方法について、図9を用いて説明する。図9は、図8に示すバージイン制御部117による割り込み発話の判定方法を示す図である。ここで、図9は、図3同様、システムプロンプトの出力(図9(a)参照)の波形、利用者の音声信号(図9(b)、(c)参照)の波形を時間軸プロットしたものである。音声信号(b)、(c)は、発話開始時刻が異なるのみで、発話内容は同一である。第2の実施形態における判定方法は、システムプロンプトの終了直後の音声信号の状態に着目する。音声信号(b)は、システムプロンプト終了時刻Ta1後に、利用者が発話を開始した場合を示している。
第2の実施形態におけるバージイン制御部117は、後述する音声エネルギー量検出区間に入力された音声信号の音声エネルギー量を検出し、該音声エネルギー量が所定以上検出された場合に、割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。なお、上記音声エネルギー量が所定以上検出された場合、利用者の音声信号があると判断する。上記音声エネルギー量が所定以上検出されない場合、利用者の音声信号が無い、すなわち、無音であると判断する。第2の実施形態では、上記の音声エネルギー量検出区間は、システムプロンプト終了時刻Ta1から所定の区間、すなわち、システムプロンプト終了時刻Ta1から最短無音区間長閾値Th_pause_min離れた時刻までの区間である。これから、バージイン制御部117は、上記の区間について、利用者の音声信号があるか否か判断することで、割り込み発話の発生の可能性を判定できる。すなわち、バージイン機能の動作の要否を決定できる。
音声信号(b)において、システムプロンプト終了時刻Ta1から利用者の音声信号の始端時刻Tb1までの無音区間長である観測無音区間長αは、最短無音区間長閾値Th_pause_minより大きい。よって、バージイン制御部117は、割り込み発話の発生の可能性が低いと判定する。すなわち、バージイン機能の動作は不要と決定する。なお、最短無音区間長閾値Th_pause_minは、通常の発話で発生する無音区間として、例えば、250〜300msecとする。一方、音声信号(c)において、利用者の音声信号は、システムプロンプト終了時刻Ta1より先に開始された割り込み発話となっている。同様に、観測無音区間長αを計算すると、0に近い値となる。これから、α<Th_pause_minとなるので、バージイン制御部117は、割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。なお、割り込み発話が発生した可能性が高いと判定した場合、バージイン機能を動作させない場合の利用者の音声信号の始端時刻Tb1は、システムプロンプト終了時刻Ta1と同時刻(Ta1=Tb1)になる。
次に、バージイン制御部117における音声区間の再設定方法について、図10を用いて説明する。図10は、図8に示すバージイン制御部117による音声区間再設定方法を示す図である。上記の方法で割り込み発話の発生の可能性が高いと判定した場合、すなわち、バージイン機能の動作が必要と決定した場合、バージイン制御部117は、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間を音声認識対象区間と決定する。第2の実施形態では、図10(g)に示すように、バージイン制御部117は、利用者の音声信号の終端時刻Tb2から予測音声区間を予測する機能を備えている。更に、バージイン制御部117は、上記予測音声区間を、上記システムプロンプト終了直後から遡った所定区間と決定する。具体的には、予め決定した予測発話長Lおよび利用者の音声信号の終端時刻Tb2に基づき、バージイン制御部117は、音声認識対象開始時刻Tg0を決定する。更に、上記予測音声区間Tg0〜Ta1を、上記システムプロンプト終了直後から遡った所定区間と決定する。よって、バージイン制御部117は、Tg0〜Tb2の区間を音声認識対象区間と決定する。
ここで、予測発話長Lは、例えば、認識辞書116を用いて音声認識処理を行う場合、認識辞書116に含まれる全ての語彙の組み合せから、当該語彙の組み合せを発話する時間の平均値を求め、当該平均値を予測発話長Lと決定する。バージイン制御部117は、予め予測発話長Lを決定し、メモリに記録している。なお、第2の実施形態でも、第1実施形態と同様に、上記の音声認識対象区間Tg0〜Tb2について、音声認識部105のVAD機能を用いて、音声認識対象開始時刻Tg0aを検出しても良い。この場合、図10(g)に示すように、バージイン制御部117は、区間Tg0a〜Tb2を音声認識対象区間と決定する。バージイン制御部117は、上記の音声認識対象区間Tg0a〜Tb2について、音声認識処理を音声認識部105に行わせる。
上記の再設定方法は非常に単純であるが、有効に働くと期待できる。すなわち、カーナビゲーション等の機器操作のための音声認識については、利用者の利便性を考慮すると、長いコマンドは適切でないため、2〜3フレーズの発話となるように構成する事が多い。従って、発話長の偏差は比較的少なく、大半の語彙が特定の時間内に含まれる。よって、認識辞書116に記憶された語彙を知っている利用者であれば、予め決定した予測発話長Lに収まると考えられる。逆に、認識辞書116に記憶された語彙を利用者が熟知してない場合には、不当に長いコマンドを発話する可能性もあり、有効に働かない可能性を示唆されるかもしれない。しかし、不当に長いコマンドによる発話は、認識辞書116に定義されていない発話である可能性が高い。故に割り込み発話の発生の有無とは関わりなく、音声認識に失敗する可能性が高いと考えられ、上記の再設定方法の有効性を削ぐものではないといえる。
<上記構成を用いた具体的な制御処理の流れ>
ここで、上記構成を用いた第2の実施形態に係る音声認識装置の具体的な制御処理の流れを図11を用いて説明する。図11は、図8に示す音声認識装置の制御処理の流れを示すフローチャートである。なお、図11に示すフローチャートのステップS201〜S205は、図7に示したフローチャートのステップS101〜S105と同様である。ステップS205の制御処理の後、バージイン制御部117は、利用者の音声信号の始端を検出したか否か判断する(ステップS206)。具体的には、バージイン制御部117は、利用者の音声信号の音声エネルギー量を検出し、当該音声エネルギー量が所定以上検出された時刻を利用者の音声信号の始端時刻とし、当該利用者の音声信号の始端を検出したと判断する。なお、第1の実施形態と同様に、一般的な音声区間検出機能であるVAD機能を利用しても良い。バージイン制御部117が利用者の音声信号の始端を検出していないと判断した場合(ステップS206:No)、バージイン制御部117は、利用者の音声信号の始端を検出するまで待機する。一方、バージイン制御部117が利用者の音声信号の始端を検出したと判断した場合(ステップS206:Yes)、バージイン制御部117は、利用者の音声信号の始端時刻をタイムスタンプTb1として、音声バッファ104に記録する(ステップS207)。なお、割り込み発話が発生している場合、利用者の音声信号の始端時刻Tb1とシステムプロンプト終了時刻Ta1とは、同時刻(Ta1=Tb1)になる。
ここで、上記構成を用いた第2の実施形態に係る音声認識装置の具体的な制御処理の流れを図11を用いて説明する。図11は、図8に示す音声認識装置の制御処理の流れを示すフローチャートである。なお、図11に示すフローチャートのステップS201〜S205は、図7に示したフローチャートのステップS101〜S105と同様である。ステップS205の制御処理の後、バージイン制御部117は、利用者の音声信号の始端を検出したか否か判断する(ステップS206)。具体的には、バージイン制御部117は、利用者の音声信号の音声エネルギー量を検出し、当該音声エネルギー量が所定以上検出された時刻を利用者の音声信号の始端時刻とし、当該利用者の音声信号の始端を検出したと判断する。なお、第1の実施形態と同様に、一般的な音声区間検出機能であるVAD機能を利用しても良い。バージイン制御部117が利用者の音声信号の始端を検出していないと判断した場合(ステップS206:No)、バージイン制御部117は、利用者の音声信号の始端を検出するまで待機する。一方、バージイン制御部117が利用者の音声信号の始端を検出したと判断した場合(ステップS206:Yes)、バージイン制御部117は、利用者の音声信号の始端時刻をタイムスタンプTb1として、音声バッファ104に記録する(ステップS207)。なお、割り込み発話が発生している場合、利用者の音声信号の始端時刻Tb1とシステムプロンプト終了時刻Ta1とは、同時刻(Ta1=Tb1)になる。
次に、バージイン制御部117は、利用者の音声信号の終端を検出したか否か判断する(ステップS208)。バージイン制御部117が利用者の音声信号の終端を検出していないと判断した場合(ステップS208:No)、バージイン制御部117は、利用者の音声信号の終端を検出するまで待機する。一方、バージイン制御部117が利用者の音声信号の終端を検出したと判断した場合(ステップS208:Yes)、バージイン制御部117は、利用者の音声信号の終端時刻をタイムスタンプTb2として、音声バッファ104に記録する(ステップS209)。更に、バージイン制御部117は、音声バッファ104における音声信号の取得を終了させる。次に、バージイン制御部117は、システムプロンプト終了時刻Ta1から利用者の音声信号の始端時刻Tb1までの無音区間、すなわち、観測無音区間長αに基づいて、割り込み発話の発生の可能性を判定する(ステップS210)。すなわち、バージイン機能の動作の要否を決定する。バージイン制御部117は、上述したように、α<Th_pause_minの場合、バージイン機能の動作が必要と決定する。
次に、バージイン制御部117は、ステップS210に示した制御処理の結果、割り込み発話があるか否か、すなわち、バージイン機能の動作が必要と決定したか否か判断する(ステップS211)。バージイン機能の動作が不要と決定したと判断した場合(ステップS211:No)、バージイン制御部117は、利用者の音声信号の始端時刻Tb1から終端時刻Tb2までの区間を音声認識対象区間と決定する。更に、バージイン制御部117は、後述するように、当該音声認識対象区間について、音声認識部105に音声認識処理を行わせる(ステップS215)。一方、バージイン機能の動作が必要と決定したと判断した場合(ステップS211:Yes)、バージイン制御部117は、予め決定した予測発話長Lを取得する(ステップS212)。次に、バージイン制御部117は、予測発話長Lおよび利用者の音声信号の終端時刻Tb2に基づき、音声認識対象開始時刻Tg0を決定する(ステップS213)。すなわち、音声認識対象開始時刻Tg0は、利用者の音声信号の終端時刻Tb2から予測発話長L分遡った時刻となる。これから、バージイン制御部117は、区間Tg0〜Tb2を音声認識対象区間と決定する。
次に、バージイン制御部117は、バージイン機能を動作させた音声認識処理を音声認識部105に行わせるため、音声認識部105に、バージイン機能の有効化を指示する(ステップS214)。次に、バージイン機能の動作が不要と決定したと判断していた場合(ステップS211:No)、バージイン制御部117は、区間Tb1〜Tb2について、音声認識部105に音声認識処理を行わせる(ステップS215)。一方、バージイン機能の動作が必要と決定したと判断していた場合(ステップS211:Yes)、バージイン制御部117は、区間Tg0〜Tb2について、音声認識部105に音声認識処理を行わせる(ステップS215)。その後、バージイン制御部117は、音声認識処理の認識結果を取得し、本制御処理を終了する(ステップS216)。更に、上記認識結果に基づいて、後段処理へと移行する。ここで、後段処理とは、例えば、機器の操作や認識結果の音声・表示による利用者へのフィードバック等である。
以上より、第2の実施形態に係る音声認識装置、音声認識方法でも、バージイン機能の動作の要否を決定し、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させるバージイン制御部117を備えているので、認識性能の低下を抑制できる。よって、常時、バージイン機能を有効にする場合と比較して、非定常雑音の重畳による認識性能低下を抑制しつつ、割り込み発話の発生時の認識性能を確保できる。また、発話開始を利用者に促すシステムプロンプトの出力中もしくは出力後に取得した利用者の音声信号の特徴に基づいて、バージイン機能の動作の要否を決定することで、バージイン制御部117を実現できる。
また、第2の実施形態のバージイン制御部117は、バージイン機能の動作が必要と決定した場合のみ、システムプロンプト終了直後から遡った所定区間Tg0〜Ta1およびシステムプロンプト終了直後から利用者の音声信号終了までの区間Ta1〜Tb2を、音声認識対象区間とする。更に、当該音声認識対象区間Tg0〜Tb2について、音声認識処理を音声認識部105に行わせる。これから、割り込み発話を確実に認識対象とすることができる。
また、第2の実施形態のバージイン制御部117は、音声エネルギー量検出区間に入力された音声信号の音声エネルギー量を検出し、該音声エネルギー量を所定以上検出した場合に、バージイン機能の動作が必要と決定する。更に、上記音声エネルギー量検出区間は、システムプロンプト終了直後の所定の区間、すなわち、システムプロンプト終了時刻Ta1から最短無音区間長閾値Th_pause_min離れた時刻までの区間とする。これから、バージイン機能の動作を最小限とすることができ、認識性能の低下を抑制できる。
また、第2の実施形態のバージイン制御部117は、利用者の音声信号の終端時刻Tb2から予測音声区間Tg0〜Ta1を予測する機能を備えている。また、予測音声区間Tg0〜Ta1を、システムプロンプト終了直後から遡った所定区間と決定する。これから、バージイン機能を動作させた音声認識処理の音声認識対象区間Tg0〜Tb2を最小限とすることができ、認識性能の低下をより抑制できる。
なお、以上に述べた実施形態は、本発明の実施の一例であり、本発明の範囲はこれらに限定されるものでなく、特許請求の範囲に記載した範囲内で、他の様々な実施形態に適用可能である。例えば、第1の実施形態に係る音声認識装置の認識辞書106は、語頭を名詞と、語尾を動詞とした構成を備えているが、特にこれに限定されるものでなく、語彙を部分的に認識可能で、かつ、その認識位置(先頭部分なのか末尾部分なのか)が判別可能な構成であれば、同様の効果を取得できる。
また、第1の実施形態に係る音声認識装置では、利用者の音声信号の始端時刻Tb1〜終端時刻Tb2の区間について、第1の音声認識処理を行っているが、特にこれに限定されるものでなく、システムプロンプト終了時刻Ta1〜最大時刻Ta2の区間について、行っても良い。
また、第1の実施形態に係る音声認識装置では、認識辞書106に予測発話長の最小値Amin[msec]を記憶しているが、特にこれに限定されるものでなく、最小値Amin[msec]を記憶しなくても良い。この場合、バージイン制御部107は、予め設定した所定値と観測長θを比較して、バージイン機能の動作の要否を決定すれば良い。
また、第1の実施形態に係る音声認識装置では、認識辞書106に予測発話長の最大値Amax[msec]を記憶しているが、特にこれに限定されるものでなく、最大値Amax[msec]を記憶しなくても良い。この場合、システムプロンプト終了直後から遡った所定区間を、PTTスイッチ押下時刻Ta0からシステムプロンプト終了時刻Ta1までの区間とすれば良い。しかし、認識辞書106に最大値Amax[msec]を記憶し、最大値Amax[msec]に基づいて、新規音声始端Tb0を決定した方が、精度良く音声認識できる。
また、第1の実施形態では、バージイン制御部107は、最大値Amax[msec]に基づいて、新規音声始端Tb0を決定しているが、特にこれに限定されるものでなく、予め決定した所定値に基づいて決定しても良い。
また、第2の実施形態に係る音声認識装置では、バージイン制御部117は、利用者の音声信号の終端時刻Tb2と予測発話長Lから予測音声区間Tg0〜Ta1を予測する機能を備えているが、特にこれに限定されるものでなく、当該機能は無くても良い。この場合、システムプロンプト終了直後から遡った所定区間を、PTTスイッチ押下時刻Ta0からシステムプロンプト終了時刻Ta1までの区間とすれば良い。しかし、利用者の音声信号の終端時刻Tb2と予測発話長Lから予測音声区間Tg0〜Ta1を予測した方が、精度良く音声認識できる。
また、第2の実施形態では、バージイン制御部117は、予め決定した予測発話長Lに基づいて、音声認識対象開始時刻Tg0を決定しているが、特にこれに限定されるものでなく、予め決定した所定値に基づいて決定しても良い。
また、第2の実施形態では、バージイン制御部117が利用者の音声信号の終端時刻Tb2を検出した後、割り込み発話の発生の可能性を判定するが、特にこれに限定されるものでなく、利用者の音声信号の始端時刻Tb1を検出した後、判定しても良い。このようにすれば、バージイン制御部117は、利用者の音声信号の終端時刻Tb2を検出する間に、割り込み発話の発生の可能性を判定できる場合がある。よって、バージイン制御部117は、利用者の音声信号の終端時刻Tb2を検出した時点で、音声認識対象区間を決定する制御処理を行うことができる。
また、第2の実施形態では、音声エネルギー量検出区間は、システムプロンプト終了時刻Ta1から最短無音区間長閾値Th_pause_min離れた時刻までの区間であるが、特にこれに限定されるものでなく、他の区間でも良い。例えば、システムプロンプトの出力中の所定の区間でも良い。以下、当該所定の区間について説明する。図12は、第2の実施形態の変形例に係る割り込み発話の判定方法を示す図である。図12に示すように、第2の実施形態の変形例のシステムプロンプトは、第1および第2の実施形態と同様に、音声メッセージと、当該音声メッセージの直後の報知音とから構成されている。更に、上記音声メッセージは、少なくとも1つ以上の無音区間を持つ。また、上記システムプロンプトは、利用者によるPTTスイッチ101の押下後、出力されている。そのため、図12(d)に示すように、システムプロンプトの出力中、区間B(時刻Td2〜Td3)および区間C(時刻Td4〜Td5)の無音区間がある。区間Bは音声メッセージ中のフレーズ「コマンドを」「どうぞ」の境界に挿入される無音区間である。区間Cは音声メッセージ終了直後から報知音出力直前までの無音区間である。そこで、当該所定の区間を、区間Bまたは/および区間Cとしても良い。すなわち、上記システムプロンプトの出力内容および出力時間は既知であることから、PTTスイッチ押下時刻Ta0から計時することにより、バージイン制御部は、区間Bおよび区間Cを容易に判断可能である。よって、バージイン制御部は、区間Bまたは/および区間Cに、所定以上の音声エネルギー量を検出した場合に、割り込み発話の可能性が高いと判定できる。なお、区間Bおよび区間Cは、無音区間であるため、利用者の発話音声を含む音声信号の有無を検知するためのエコーキャンセル処理等を必要とせず、通常の信号強度(音声エネルギー)検出処理(VAD機能を含む。)で対応可能である。
また、図12(d)に示したように、PTTスイッチ押下直後からシステムプロンプト開始までの区間A(時刻Ta0〜Td1)も無音区間である。そこで、上記の音声エネルギー量検出区間を、区間Aとしても良い。すなわち、上記システムプロンプトの出力時間は既知であることから、PTTスイッチ押下時刻Ta0から計時することにより、バージイン制御部は、区間Aを容易に判断可能である。よって、バージイン制御部は、区間Aに、所定以上の音声エネルギー量を検出した場合に、割り込み発話の可能性が高いと判定できる。なお、区間Aは、無音区間であるため、利用者の発話音声を含む音声信号の有無を検知するためのエコーキャンセル処理等を必要とせず、通常の信号強度(音声エネルギー)検出処理(VAD機能を含む。)で対応可能である。また、図12(d)に示した変形例、すなわち、区間A、区間Bおよび区間Cに入力された音声信号の音声エネルギー量を検出する場合、第2の実施形態と同様に、予測音声区間Tg0〜Ta1を予測できる。すなわち、バージイン制御部は、利用者の音声信号の終端時刻Tb2と予測発話長Lから予測音声区間Tg0〜Ta1を予測できる。更に、バージイン制御部は、予め決定した所定値に基づいて、予測音声区間を決定しても良い。また、予測音声区間、すなわち、システムプロンプト終了直後から遡った所定区間を、PTTスイッチ押下時刻Ta0からシステムプロンプト終了時刻Ta1までの区間としても良い。
また、音声エネルギー量検出区間を、PTTスイッチ押下時刻Ta0からシステムプロンプト終了時刻Ta1の区間としても良い。ただし、エコーキャンセル処理は使用せず、予めシステムプロンプトの出力強度(ボリューム)の時系列変化をテーブルとして保持する。スピーカボリュームに伴う係数を当該出力強度にかけた可変閾値を決定する。入力信号強度と、該可変閾値を随時比較することで、閾値を上回る強度が検出された場合に割り込み発話の発生の可能性が高いと判定できる。この場合も、第2の実施形態と同様に、予測音声区間Tg0〜Ta1を予測できる。すなわち、バージイン制御部は、利用者の音声信号の終端時刻Tb2と予測発話長Lから予測音声区間Tg0〜Ta1を予測できる。更に、バージイン制御部は、予め決定した所定値に基づいて、予測音声区間を決定しても良い。また、予測音声区間、すなわち、システムプロンプト終了直後から遡った所定区間を、PTTスイッチ押下時刻Ta0からシステムプロンプト終了時刻Ta1までの区間としても良い。
また、第2の実施形態のバージイン制御部117は、音声エネルギー量検出区間に入力された音声信号の音声エネルギー量を所定以上検出した場合に、バージイン機能の動作が必要と決定しているが、特にこれに限定されるものでなく、システムプロンプト終了直後から所定の時間以上連続して、上記音声エネルギー量を所定以上検出しなかった場合に、バージイン機能の動作が必要と決定しても良い。具体的には、図12(f)に示すように、システムプロンプトの出力中に利用者の発話が完了している場合、システムプロンプト終了時刻Ta1から無音区間が継続する。そこで、所定の時間である最長無音区間閾値Th_pause_maxを予め定める。これから、バージイン制御部は、観測無音区間長α=Th_pause_maxとなった場合に、システムプロンプトの出力中に利用者の発話が完了した可能性があると判断する。このようにすることで、バージイン制御部は、システムプロンプト終了直後から所定の時間以上連続して、上記音声エネルギー量を所定以上検出しなかった場合に、バージイン機能の動作が必要と決定できる。この場合、バージイン制御部は、システムプロンプト終了時刻Ta1から継続した無音区間の終端時刻Tf1と予測発話長Lから予測音声区間を予測しない。バージイン制御部は、システムプロンプト終了時刻Ta1と予測発話長Lから予測音声区間Tg0〜Ta1を予測する。更に、バージイン制御部は、システムプロンプト終了時刻Ta1と、予め決定した所定値とに基づいて、予測音声区間を決定しても良い。また、予測音声区間、すなわち、システムプロンプト終了直後から遡った所定区間を、PTTスイッチ押下時刻Ta0からシステムプロンプト終了時刻Ta1までの区間としても良い。
また、第2の実施形態のバージイン制御部117は、音声エネルギー量検出区間に入力された音声信号の音声エネルギー量を所定以上検出しなかった場合に、バージイン機能の動作が不要と決定しているが、特にこれに限定されるものでなく、利用者の音声信号の開始から終了までの時間(Tb1〜Tb2)が所定の時間以上の場合に、バージイン機能の動作が不要と決定しても良い。具体的には、図12(e)に示すように、利用者の音声信号の始端時刻Tb1から終端時刻Tb2までの時間を観測音声区間長βとする。更に、所定の時間である音声区間長閾値Th_voiceを予め定める。これから、バージイン制御部は、β>Th_voiceとなった場合、利用者の音声信号の始端時刻Tb1以降に、十分な長さの発話が得られたと判断する。よって、割り込み発話の発生の可能性は低いと判定する。なお、音声区間長閾値Th_voiceは、認識辞書116に記憶された語彙のうち、音素列数が所定より多い語彙、すなわち文言の長い語彙を全て集め、当該語彙の平均発話長等として決定すればよい。これから、バージイン機能の動作を最小限とすることができ、認識性能の低下を抑制できる。
また、区間A、区間Bおよび区間Cに入力された音声信号の音声エネルギー量を検出する場合およびTa0〜Ta1の区間に入力された音声信号の音声エネルギー量を検出する場合の変形例では、バージイン制御部が利用者の音声信号の終端時刻Tb2を検出した後、割り込み発話の発生の可能性を判定するが、特にこれに限定されるものでなく、利用者の音声信号の始端時刻Tb1を検出した後、判定しても良い。このようにすれば、バージイン制御部は、利用者の音声信号の終端時刻Tb2を検出する間に、割り込み発話の発生の可能性を判定できる場合がある。よって、バージイン制御部は、利用者の音声信号の終端時刻Tb2を検出した時点で、音声認識対象区間を決定する制御処理を行うことができる。
また、第2の実施形態および上記の変形例では、バージイン制御部は、認識辞書116に含まれる全ての語彙の組み合せから、当該語彙の組み合せを発話する時間の平均値を求め、当該平均値を予測発話長Lと決定している。そして、利用者の音声信号の終端時刻Tb2と予測発話長Lに基づいて、予測音声区間Tg0〜Ta1を決定している。しかし、特にこれに限定されるものでなく、他の方法で予測音声区間を決定しても良い。なお、上記の変形例とは、区間A、区間Bおよび区間Cに入力された音声信号の音声エネルギー量を検出する場合、Ta0〜Ta1の区間に入力された音声信号の音声エネルギー量を検出する場合、Ta1から所定の時間以上連続して、上記音声エネルギー量を所定以上検出しなかった場合の変形例である。
例えば、利用者の発話音声の減衰モデルから予測発話長を予測しても良い。以下、利用者の発話音声の減衰モデルから予測された予測発話長について説明する。図13は、第2の実施形態の変形例に係る音声区間再設定方法を示す図である。図13(h)に示すように、バージイン制御部は、利用者の発話音声の減衰モデルXから、予測発話長Mを予測している。当該減衰モデルXは、音声エネルギーの減衰をモデル化したものである。人は発話にあたり呼気を消費するため、次第に音声エネルギーが減衰していく。予め大量の音声データ(コーパス)等を分析することで、上記減衰過程を定式化し、図13に示した減衰モデルXを取得する。なお、音声エネルギーの絶対量は、利用者の個人性(体格、嗜好等)により偏差があるため、例えば、(割り込み発話でない)通常の発話が検出された際に、本モデルをフィッティングさせるように利用者適応処理を行うことが望ましい。特に、自動車用の音声認識装置では、利用者が比較的固定されており、話者の交代が起こりにくいことから、利用者適応は有効に作用すると思われる。更に、自動車用であれば、周囲の定常雑音強度を速度や走行位置から予め予測可能であることから、雑音の強度に応じて、利用者の音声強度が変化する、いわゆる「ロンバード効果」についても考慮可能である。
ここで得られた減衰モデルXにおいては、利用者適応により、Y0が適応変数として決定されている。このモデルを入力された音声信号に照合させる。適応変数Y0、システムプロンプト終了時刻Ta1から利用者の音声信号の終端時刻Tb2までの区間X1(Ta1〜Tb2)およびシステムプロンプト終了時刻Ta1における信号強度Y1を用いて、音声区間長X0(=予測発話長M)は、
X0=Y0・X1/Y1
と予測できる。これから、バージイン制御部は、利用者の音声信号の終端時刻Tb2と予測発話長Mに基づいて、音声認識対象開始時刻Th0を決定する。更に、予測音声区間(H)、すなわち、Th0〜Ta1の区間を、上記システムプロンプト終了直後から遡った所定区間と決定する。よって、バージイン制御部は、Th0〜Tb2の区間を音声認識対象区間と決定する。これから、平均発話長Mに、ある程度の偏差を許容させる機能を付加できる。
X0=Y0・X1/Y1
と予測できる。これから、バージイン制御部は、利用者の音声信号の終端時刻Tb2と予測発話長Mに基づいて、音声認識対象開始時刻Th0を決定する。更に、予測音声区間(H)、すなわち、Th0〜Ta1の区間を、上記システムプロンプト終了直後から遡った所定区間と決定する。よって、バージイン制御部は、Th0〜Tb2の区間を音声認識対象区間と決定する。これから、平均発話長Mに、ある程度の偏差を許容させる機能を付加できる。
また、例えば、音声信号の基本周波数(一般的にF0という。)を簡易特徴量として抽出し、特に、フレーズ毎に現れる特徴量に基づき、予測発話長を予測しても良い。以下、フレーズ毎に現れる特徴量に基づき、予測された予測発話長について説明する。ここで、音声信号の基本周波数F0から、韻律的特徴(フレーズ指令およびアクセント指令と呼ばれる。)を抽出する方法が一般的に知られている。これは、人の発話の韻律的特徴をモデル化した、基本周波数生成モデル(藤崎モデル)に基づく手法である。なお、基本周波数生成モデル(藤崎モデル)は、H. Fujisaki and K. Hirose, “Analysis of voice fundamental frequency contours for declarative sentences of Japanese,” J. Acoust. Soc. Japan (E), Vol.5, No.4, 233-242(1984)が詳しい。上記韻律的特徴に基づき、予測発話長を予測する例を図13(i)に示す。バージイン制御部は、得られた韻律的特徴(i1)の時間遷移を近似し、(i2)、(i3)に示すようなフレーズ概形を得る。ここで、フレーズ概形(i3)は、フレーズの一部がシステムプロンプト終了時刻Ta1(=Tb1)以前にあるため、Ta1〜Tb2の区間から遡って予測する。なお、図13(i)では、システムプロンプト終了時刻Ta1以前の基本周波数F0も便宜上記載しているが、実際検出するのは、韻律的特徴(i1)の点枠線内の区間のみである。
また、図13(i)に示したように、認識辞書の語彙を、例えば、最大3つのフレーズから構成するものとする。例えば、「近くのコンビニを探す」(語頭:「近くの」+語中:「コンビニを」+語尾:「探す」)のような構成である。最大3フレーズを認識するため、フレーズ概形(i4)に示す1フレーズ分の区間を更に加える。すなわち、バージイン制御部は、フレーズ概形(i2)、(i3)および(i4)を予測発話長Nと予測する。これから、バージイン制御部は、利用者の音声信号の終端時刻Tb2と予測発話長Nに基づいて、音声認識対象開始時刻Ti0を決定する。更に、予測音声区間(I)、すなわち、Ti0〜Ta1の区間を、上記システムプロンプト終了直後から遡った所定区間と決定する。よって、バージイン制御部は、Ti0〜Tb2の区間を音声認識対象区間と決定する。なお、上記フレーズ最大数は、認識辞書を作成する時点で知ることができる。また、利用者の利便性向上の観点から、コマンドの一貫性を持たせるために、大半の語彙が所定のフレーズ数に収まるように、認識辞書を構成することが望ましい。また、システム状態(利用者とシステムとの対話状態)によって、認識辞書を切り替えて用いる音声認識装置では、認識辞書毎に最大フレーズ数を記憶、テーブル化しておくことで対応できる。なお、フレーズ概形(i4)のフレーズ長は、認識辞書に含まれる全語彙のフレーズ長から予測しても良いし、観測されたフレーズ概形(i1)のフレーズ長等から予測しても良い。
また、第1の実施形態、第2の実施形態、上記の変形例および利用者の音声信号の開始から終了までの時間(Tb1〜Tb2)が所定の時間以上の場合の変形例を相互に組み合わせて適用することも可能である。更に、第1の実施形態、第2の実施形態、上記の変形例および利用者の音声信号の開始から終了までの時間(Tb1〜Tb2)が所定の時間以上の場合の変形例に、上記の予測発話長M、Nの予測方法を適用することも可能である。
101 PTTスイッチ、102 音声入力部、103 音声出力部、
104 音声バッファ、105 音声認識手段である音声認識部、
106、116 認識辞書、
107、117 バージイン制御手段であるバージイン制御部、
201 スイッチ、202 マイクロフォン、203 AD変換部、
204 演算装置、205 記憶装置、206 DA変換部、
207 スピーカ
104 音声バッファ、105 音声認識手段である音声認識部、
106、116 認識辞書、
107、117 バージイン制御手段であるバージイン制御部、
201 スイッチ、202 マイクロフォン、203 AD変換部、
204 演算装置、205 記憶装置、206 DA変換部、
207 スピーカ
Claims (19)
- 利用者に発話開始を促すための音声出力を行い、当該音声出力を実行している最中に音声信号の取得を始め、取得した前記音声信号に重畳される前記音声出力の影響を削除して前記利用者の発話した音声を認識可能とするバージイン機能を有する音声認識装置であって、
前記音声出力の実施中もしくは実施後に取得した前記音声信号の特徴に基づいて、前記バージイン機能の動作の要否を決定し、前記バージイン機能の動作が必要と決定した場合のみ、前記バージイン機能を動作させるバージイン制御手段を備えることを特徴とする音声認識装置。 - 前記バージイン制御手段で決定される音声認識対象区間について、認識辞書を用いて音声認識する音声認識手段とを備え、
前記バージイン制御手段は、前記バージイン機能の動作が必要と決定した場合のみ、前記音声出力終了直後から遡った所定区間および前記音声出力終了直後から前記利用者の前記音声信号終了までの区間を、前記音声認識対象区間と決定することを特徴とする請求項1に記載の音声認識装置。 - 前記認識辞書は、少なくとも語頭と語尾に分かれた構成を備え、
前記音声認識手段は、前記音声出力終了直後から前記利用者の前記音声信号終了までの前記区間について、第1の音声認識処理を行うことを特徴とする請求項2に記載の音声認識装置。 - 前記第1の音声認識処理の認識結果に基づいて、前記バージイン制御手段が前記バージイン機能の動作が必要と決定した場合、前記音声認識手段は、前記音声認識対象区間について、第2の音声認識処理を行うことを特徴とする請求項3に記載の音声認識装置。
- 前記バージイン制御手段は、前記認識結果として、前記認識辞書の前記語尾の語彙のみを検出した場合に、前記バージイン機能の動作が必要と決定することを特徴とする請求項4に記載の音声認識装置。
- 前記バージイン制御手段は、前記認識結果として、前記認識辞書の前記語頭の語彙が所定以下の認識スコアで検出した場合に、前記バージイン機能の動作が必要と決定することを特徴とする請求項4に記載の音声認識装置。
- 前記バージイン制御手段は、前記認識結果として、前記認識辞書の前記語頭の語彙の認識スコアと前記語尾の語彙の認識スコアとの差を所定以上で検出した場合に、前記バージイン機能の動作が必要と決定することを特徴とする請求項4に記載の音声認識装置。
- 前記バージイン制御手段は、前記認識結果として得られた前記語頭の語彙の音声区間を所定より短く検出した場合に、前記バージイン機能の動作が必要と決定することを特徴とする請求項4に記載の音声認識装置。
- 前記認識辞書は、前記語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長を、該語尾に対応付けて備え、
前記バージイン制御手段は、前記認識結果として得られた前記語尾の語彙の音声区間の始端および前記予測発話長に基づいて、前記音声出力終了直後から遡った前記所定区間を決定することを特徴とする請求項3乃至8のいずれかに記載の音声認識装置。 - 前記バージイン制御手段は、音声エネルギー量検出区間に入力された前記音声信号の音声エネルギー量を検出し、該音声エネルギー量を所定以上検出した場合に、前記バージイン機能の動作が必要と決定することを特徴とする請求項2に記載の音声認識装置。
- 前記音声エネルギー量検出区間は、前記音声出力の実施中の所定の区間であることを特徴とする請求項10に記載の音声認識装置。
- 前記音声エネルギー量検出区間は、前記音声出力終了直後の所定の区間であることを特徴とする請求項10に記載の音声認識装置。
- 前記音声出力は、音声メッセージと、該音声メッセージの直後の報知音とから構成され、
前記所定の区間は、前記音声メッセージ終了直後から前記報知音出力直前までの区間であることを特徴とする請求項11に記載の音声認識装置。 - 前記音声出力は、少なくとも1つ以上の無音区間を持つ音声メッセージから構成され、
前記所定の区間は、前記無音区間であることを特徴とする請求項11に記載の音声認識装置。 - 前記音声出力は、利用者によるPush To Talkスイッチ(PTTスイッチ)の押下後、実施され、
前記音声エネルギー量検出区間は、前記PTTスイッチ押下直後から前記音声出力終了直後までの区間であることを特徴とする請求項10に記載の音声認識装置。 - 前記バージイン制御手段は、前記利用者の前記音声信号の音声エネルギー量を検出する機能を備え、前記音声出力終了直後から所定の時間以上連続して、前記音声エネルギー量を所定以上検出しなかった場合に、前記バージイン機能の動作が必要と決定することを特徴とする請求項2に記載の音声認識装置。
- 前記バージイン制御手段は、前記利用者の前記音声信号の終端から予測音声区間を予測する機能を備え、前記予測音声区間を、前記音声出力終了直後から遡った前記所定区間と決定することを特徴とする請求項10乃至16に記載の音声認識装置。
- 前記バージイン制御手段は、前記利用者の前記音声信号の音声エネルギー量を検出する機能を備え、前記利用者の前記音声信号の開始から終了までの時間が所定の時間以上の場合に、バージイン機能の動作が不要と決定するを特徴とする請求項2に記載の音声認識装置。
- 利用者に発話開始を促すための音声出力を行い、当該音声出力を実行している最中に音声信号の取得を始め、取得した前記音声信号に重畳される前記音声出力の影響を削除して前記利用者の発話した音声を認識可能とするバージイン機能を有する音声認識装置を用いた音声認識方法であって、
前記音声出力の実施中もしくは実施後に取得した前記音声信号の特徴に基づいて、前記バージイン機能の動作の要否を決定し、
前記バージイン機能の動作が必要と決定した場合のみ、前記バージイン機能を動作させることを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007188997A JP2009025579A (ja) | 2007-07-20 | 2007-07-20 | 音声認識装置および音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007188997A JP2009025579A (ja) | 2007-07-20 | 2007-07-20 | 音声認識装置および音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009025579A true JP2009025579A (ja) | 2009-02-05 |
Family
ID=40397424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007188997A Pending JP2009025579A (ja) | 2007-07-20 | 2007-07-20 | 音声認識装置および音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009025579A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013025605A (ja) * | 2011-07-22 | 2013-02-04 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
WO2014025012A1 (ja) * | 2012-08-10 | 2014-02-13 | 株式会社ホンダアクセス | 音声認識方法及び音声認識装置 |
JP2016061888A (ja) * | 2014-09-17 | 2016-04-25 | 株式会社デンソー | 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム |
JP2018124484A (ja) * | 2017-02-02 | 2018-08-09 | トヨタ自動車株式会社 | 音声認識装置 |
JP2019095526A (ja) * | 2017-11-20 | 2019-06-20 | 富士通株式会社 | 音声処理プログラム、音声処理装置、及び音声処理方法 |
-
2007
- 2007-07-20 JP JP2007188997A patent/JP2009025579A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013025605A (ja) * | 2011-07-22 | 2013-02-04 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
US9268524B2 (en) | 2011-07-22 | 2016-02-23 | Sony Corporation | Information processing apparatus, information processing method, and computer readable medium |
WO2014025012A1 (ja) * | 2012-08-10 | 2014-02-13 | 株式会社ホンダアクセス | 音声認識方法及び音声認識装置 |
JPWO2014025012A1 (ja) * | 2012-08-10 | 2016-07-25 | 株式会社ホンダアクセス | 音声認識方法及び音声認識装置 |
US9704484B2 (en) | 2012-08-10 | 2017-07-11 | Honda Access Corp. | Speech recognition method and speech recognition device |
JP2016061888A (ja) * | 2014-09-17 | 2016-04-25 | 株式会社デンソー | 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム |
JP2018124484A (ja) * | 2017-02-02 | 2018-08-09 | トヨタ自動車株式会社 | 音声認識装置 |
JP2019095526A (ja) * | 2017-11-20 | 2019-06-20 | 富士通株式会社 | 音声処理プログラム、音声処理装置、及び音声処理方法 |
JP7035476B2 (ja) | 2017-11-20 | 2022-03-15 | 富士通株式会社 | 音声処理プログラム、音声処理装置、及び音声処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5381988B2 (ja) | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム | |
JP6772198B2 (ja) | 言語モデルスピーチエンドポインティング | |
US9373321B2 (en) | Generation of wake-up words | |
JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP4786384B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JP3004883B2 (ja) | 終話検出方法及び装置並びに連続音声認識方法及び装置 | |
JP3886024B2 (ja) | 音声認識装置及びそれを用いた情報処理装置 | |
JP2011033680A (ja) | 音声処理装置及び方法、並びにプログラム | |
JP6699748B2 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
Stouten et al. | Coping with disfluencies in spontaneous speech recognition: Acoustic detection and linguistic context manipulation | |
JP5431282B2 (ja) | 音声対話装置、方法、プログラム | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP2009025579A (ja) | 音声認識装置および音声認識方法 | |
CN114155839A (zh) | 一种语音端点检测方法、装置、设备及存储介质 | |
JP2004333543A (ja) | 音声対話システム及び音声対話方法 | |
JP5375423B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
JP2007072331A (ja) | 音声対話方法および音声対話システム | |
JP4986028B2 (ja) | 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 | |
KR20050049207A (ko) | 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 | |
JP2019207329A (ja) | 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 | |
JP5285326B2 (ja) | 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 | |
JP3285704B2 (ja) | 音声対話のための音声認識方法及び装置 | |
Breslin et al. | Continuous asr for flexible incremental dialogue | |
JP7373348B2 (ja) | 音声対話装置、音声対話用学習済みモデル、及び音声対話方法 | |
JPH09311694A (ja) | 音声認識装置 |