JP2009025579A

JP2009025579A - 音声認識装置および音声認識方法

Info

Publication number: JP2009025579A
Application number: JP2007188997A
Authority: JP
Inventors: Daisuke Saito; 大介斎藤; Takeshi Ono; 健大野; Minoru Togashi; 実冨樫; Keiko Katsuragawa; 景子桂川; Eiji Tonozuka; 英治外塚
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2007-07-20
Filing date: 2007-07-20
Publication date: 2009-02-05

Abstract

【課題】バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させることで、認識性能の低下を抑制できる音声認識装置および音声認識方法を提供することにある。
【解決手段】
本発明の音声認識装置は、利用者に発話開始を促すためのシステムプロンプトの出力を行い、システムプロンプトの出力中に音声信号の取得を始め、取得した音声信号に重畳されるシステムプロンプトの影響を削除して、利用者の発話した音声を認識可能とするバージイン機能を有する。更に、システムプロンプトの出力中もしくは出力後に取得した音声信号の特徴に基づいて、バージイン機能の動作の要否を決定し、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させるバージイン制御部１０７を備えている。
【選択図】図１

Description

本発明は、音声自動応答装置などに使用される音声認識装置および音声認識方法に関する。

近年、利用者の発話を音声認識技術によって認識し、該認識結果に応じて機器操作を行うような音声インタフェースが普及している。例えば、自動車のナビゲーションシステムや電話応答システムであるＩＶＲ（ＩｎｔｅｒａｃｔｉｖｅＶｏｉｃｅＲｅｓｐｏｎｓｅ：音声自動応答装置）等に適用されている。こうしたシステムにおいて、システム側から利用者の発話開始を促す応答（以下、システムプロンプトとする。）の出力の終了を待たずに、利用者が発話してしまう、いわゆる「割り込み発話」がある。利用者の利便性の向上を目的として、「割り込み発話」に対応する方法として、「バージイン機能」が知られている（特許文献１参照）。当該バージイン機能は、システムプロンプト出力中から音声信号の取得を開始し、当該音声信号からシステムプロンプト信号をキャンセルして、利用者の音声のみを認識対象とするものである。これにより、利用者がシステムプロンプトに対して割り込み発話を行っても、正しく認識することが可能になる。
特開平９−２５２２６８号公報

しかしながら、従来のバージイン機能を用いた音声認識装置では、システムプロンプトの出力中から利用者の音声終了までを音声認識区間としているため、システムプロンプトの出力中に生じた非定常な環境雑音を誤検出する場合があった。当該誤検出する結果、認識結果を誤る可能性が増大するといった問題があった。これより、認識性能の低下を招来するといった問題があった。

本発明は、こうした問題に鑑みてなされたものであり、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させることで、認識性能の低下を抑制できる音声認識装置および音声認識方法を提供することを目的とする。

上記目的達成のため、本発明に係る音声認識装置では、利用者に発話開始を促すための音声出力の実施中もしくは実施後に取得した音声信号の特徴に基づいて、バージイン機能の動作の要否を決定し、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させるバージイン制御手段を備えることを特徴としている。

本発明により、バージイン機能の動作の要否を決定し、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させることで、認識性能の低下を抑制できる。

以下に、本発明の第１乃至第２の実施形態に係る音声認識装置、音声認識方法について、図１乃至図１１を参照して説明する。第１乃至第２の実施形態に係る音声認識装置は、自動車のナビゲーションシステムや電話応答システムである音声自動応答装置などに使用されている。従って、音声自動応答装置以外の音声認識装置においても同様の効果が期待できる。

（第１の実施形態）
第１の実施形態では、発話開始を利用者に促す音声出力（ガイダンス音声や応答メッセージなどの応答）であるシステムプロンプトの終了直後から利用者の音声信号終了までの区間について、一旦第１の音声認識処理を行う。当該認識結果に基づいて、バージイン機能の動作の要否を決定する。更に、バージイン機能の動作が必要と決定した場合、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間について、第２の音声認識処理を行うものである。

第１の実施形態の基本的な構成を図１に示す。図１は、本発明の第１の実施形態に係る音声認識装置の基本的構成を示すブロック図である。ここで、図１の矢印（ａ）は利用者の発話音声を示し、矢印（ｂ）はシステムからの出力音声を示している。図1に示すように、第１の実施形態の音声認識装置は、ＰｕｓｈＴｏＴａｌｋスイッチ（以下、ＰＴＴスイッチとする。）１０１、音声入力部１０２、音声出力部１０３を備えている。更に、音声バッファ１０４、音声認識手段である音声認識部１０５、認識辞書１０６、バージイン制御手段であるバージイン制御部１０７を備えている。

＜基本機能と実現手段＞
ここで、各部の基本的な機能および具体的な実現手段について、図２を用いて説明する。図２は、図１に示す音声認識装置の実現手段を示すブロック図である。ＰＴＴスイッチ１０１は、利用者が音声入力を開始する際に押下するスイッチであり、図２のスイッチ２０１で実現される。スイッチ２０１としては、通常の押下式スイッチ、トグルスイッチ、ダイヤルスイッチ、タッチパネル等をも用いることができる。なお、ＰＴＴスイッチ１０１を押下している期間に限って音声入力を受け付ける仕組みを持つ音声入力方法もある。しかし、本発明では、スイッチ２０１の押下は音声操作の開始をシステムに通知する役割のみを持つものとし、押下後の音声区間の検出等はシステム側が判断するものとする。また、音声入力部１０２は、利用者の発話音声（図１の矢印（ａ）参照）を取得する。例えば、図２のマイクロフォン２０２とＡＤ変換部２０３を組み合わせることで実現される。

音声出力部１０３は、システム側から利用者に向けて音声情報を提示するものであり、例えば、図２のＤＡ変換部２０６およびスピーカ２０７を組み合わせることで実現できる。音声出力部１０３は、音声により、システム側から利用者に発話を促す音声出力、すなわち、システムプロンプトを出力したり、利用者によるシステムの操作の結果をフィードバックしたりする。システムプロンプトとしては、音声メッセージ（例えば、「コマンドをどうぞ」、「ピッとなったらお話しください」等）と報知音（「ポン」や「ピッ」といったビープ音）が組み合わされたものや、何れか片方のみのものがある。当該システムプロンプトの出力により、利用者にとって発話開始のタイミングがつかみ易くなる。第１の実施形態のシステムプロンプトとして、後述する図３に示すように、「コマンドをどうぞ＋ポーン（報知音）」を出力している。

音声バッファ１０４は、利用者の発話音声を含む音声信号を取得し、一時的に蓄積するものであり、演算装置２０４および記憶装置２０５を組み合わせることで実現される。第１の実施形態では、利用者がＰＴＴスイッチ１０１を押下した直後から、利用者の発話音声の終端を検出するまでの期間を蓄積区間として記憶する。従って，音声バッファ１０４は、少なくとも、システムプロンプトの出力時間に、後述する認識辞書１０６に記憶された語彙の平均発話時間等を考慮して決定した音声待ち受け時間を加えた時間、記憶する必要がある。これから、当該時間に渡る音声信号を記憶するサイズが必要となる。また、後述する音声認識部１０５の機能である音声アクティビティ検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ：ＶＡＤ）機能（以下、ＶＡＤ機能とする。）を用いることで、音声認識部１０５は無音区間を排除した音声信号の始端検出を行うことも可能である。また、音声認識部１０５はＶＡＤ機能により、一旦音声信号を検出してから所定長以上の無音区間を検出した場合に、当該無音区間の始端を音声信号の終端と予測することも可能である。これから、音声バッファ１０４は、利用者の発話音声のみの音声信号（以下、利用者の音声信号とする。）を記憶することも可能である。

音声バッファ１０４が音声信号を取得する区間について、図３を用いて説明する。図３は、図１に示す音声バッファ１０４の音声取得区間および音声認識対象区間を示す図である。ここで、図３（ａ）はシステムプロンプトの出力「コマンドをどうぞ＋ポーン（報知音）」の波形を時間軸プロットしている。図３（ｂ）は利用者の音声信号の例「行き先を探す」の波形を時間軸プロットしている。図３に示す時刻Ｔａ０は、利用者がＰＴＴスイッチ１０１を押下した時刻であり、押下直後にシステムプロンプトの出力を開始する。第１の実施形態では、音声バッファ１０４の記憶可能な時刻である最大時刻Ｔａ２は、システムプロンプト終了時刻Ｔａ１および利用者によって発話される可能性ある語彙の発話長に基づいて、決定される。当該発話長は、上述した音声待ち受け時間の長さより長くなっている。あるいは、最大時刻Ｔａ２は、ＶＡＤ機能によって利用者の音声信号の終端時刻Ｔｂ２が予測される場合に、上記検出された所定長以上の無音区間の終端時刻から決定される。これにより、音声バッファ１０４は、ＰＴＴスイッチ押下時刻Ｔａ０から最大時刻Ｔａ２を最大音声取得区間として、音声信号の取得を行うことができる。

音声認識部１０５は、音声信号から特徴量を抽出し、該特徴を認識辞書１０６とマッチングすることにより、少なくとも一つ以上の尤もらしい語彙を認識結果として抽出し、認識スコアを算出するものである。音声認識部１０５は、演算装置２０４および記憶装置２０５を組み合わせることで実現される。なお、第１の実施形態に係る音声認識部１０５は、システムプロンプトの出力の終了を待たずに、利用者がする発話（以下、割り込み発話とする。）に対応するため、バージイン機能を備えている。ここで、バージイン機能とは、システムプロンプトに重畳された利用者の発話音声を含む音声信号からシステムプロンプトの信号をキャンセルし、利用者の音声信号のみを分離抽出する機能である。システムプロンプトの信号をキャンセルする手法としては、公知のスペクトルサブトラクション法等のエコーキャンセル技術を利用すればよい。

また、認識スコアとは、一般に、音声認識装置が認識候補として抽出した語彙に対する確信度合いを示す指標である。認識スコアが高い候補ほど、正解の可能性が高い語彙といえる。認識スコアとしては、例えば「信頼度」が利用できる。信頼度の算出方法としては、一般的な音声認識装置の出力する尤度（音響尤度や言語尤度）を用いるものがある。また、競合単語（同時に出力された候補語彙）間の尤度差や尤度比に着目した正規化尤度、あるいは当該競合単語を出力しうる全ての単語パスに着目した単語事後確率を用いるもの等がある。例えば、Rong Zhang他 “Word Label Confidence Annotation using Combinations of Features”,Eurospeech2001,Proceedings of Eurospeech, pp2105-2108が詳しい。また、李晃伸他「２パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」電子情報通信学会技術報告ＮＬＣ２００３−９７，ＳＰ２００３−１６０（２００３−１２）も詳しい。

以降の説明では、認識スコアとして、信頼度を用いる。また、音声認識部１０５による音声認識処理にあたり音声認識対象区間の検出が重要となる。当該検出には、一般的な音声エネルギーの変化等に基づく音声アクティビティ検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ：ＶＡＤ）機能を用いることができる。図３に示した利用者の音声信号の例「行き先を探す」において、音声認識部１０５は、バージイン機能を動作させずに、ＶＡＤ機能を用いて、無音区間を排除した利用者の音声信号の始端時刻Ｔｂ１の検出を行う。その後、所定長以上の無音区間を検出し、当該無音区間の始端時刻を、利用者の音声信号の終端時刻Ｔｂ２と予測する。音声認識部１０５は、Ｔｂ１〜Ｔｂ２の区間を音声認識対象区間として検出する。音声認識部１０５は、後述するバージイン制御部１０７に基づいて、第１の音声認識処理を行う。バージイン制御部１０７は、第１の音声認識処理の認識結果に基づいて、割り込み発話の発生の可能性を判定する。すなわち、バージイン機能の動作の要否を決定する。割り込み発話が発生したと判定した場合、利用者の音声信号の始端時刻Ｔｂ１は、システムプロンプト終了時刻Ｔａ１に等しくなる。よって、割り込み発話が発生したと判定した場合、すなわち、バージイン機能の動作が必要と決定した場合、第１の音声認識処理の音声認識対象区間は、システムプロンプト終了直後から利用者の音声信号終了までの区間となる。また、バージイン制御部１０７が割り込み発話が発生したと判定した場合、すなわち、バージイン機能の動作が必要と決定した場合、音声認識部１０５は第２の音声認識処理を行う。ここで、第２の音声認識処理の音声認識対象区間は、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間を合わせた区間である。なお、バージイン機能の動作が不要と決定した場合、第１の音声認識処理における最大検出可能な音声認識対象区間は、システムプロンプト終了時刻Ｔａ１〜最大時刻Ｔａ２の区間となる。

認識辞書１０６は、音声認識部１０５における音声信号の特徴とのマッチングを行う語彙を記憶するものであり、記憶装置２０５により実現される。なお、第１の実施形態では、一般的な音声認識手法を用いることとする。一般的な音声認識手法とは、音声の音響的特徴量をその出現確率および連接確率としてモデル化する音響モデルと、単語の連接関係をモデル化した言語モデルを組み合わせて認識スコアを算出する方法である。なお、言語モデルの表記法としては、単語の連接関係をネットワークモデルとして表記する方法と、大量の文書を解析して連接関係を確率モデルとして表記する統計的言語モデル等が知られている。

第１の実施形態では、ネットワークモデルを用いる。認識辞書１０６の構成例を図４に示す。図４は、図１に示す認識辞書１０６の構成を示す図である。図４に示すように、認識辞書１０６では、各ノードの接続関係として語彙が記憶されている。なお、図４に示した左右端の○印は便宜上設けた始端および終端のノードである。また、語彙と同様に記憶されている「Ｇａｒｂａｇｅ」は、ガベージモデルと呼ばれ、認識辞書１０６に記憶された語彙外の語彙等を適宜吸収するモデルである。第１の実施形態では、後述するバージイン制御部１０７が割り込み発話の発生の可能性を判定できるように、すなわち、バージイン機能の動作の要否を決定できるように、認識辞書１０６に特徴を持たせている。当該特徴は、図４（ａ）および（ｂ）に示すように、認識辞書１０６に記憶された語彙を、語頭（図４（ａ）参照）と語尾（図４（ｂ）参照）の位置に分けてモデル化している点である。図４に示した構成例では、例えば「行き先−探す」、「ラジオ−聴く」といった語彙が認識可能である。また、図４（ａ）および（ｂ）の間に、例えば、間投詞「を」、「に」等を吸収する新たなガベージモデルを挿入することで、「行き先（を）探す」等が認識可能になる。

認識辞書１０６は、語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長を、当該語尾に対応付けて、記憶する構成となっている。なお、全語頭の語彙の予測発話長を予め計算している。図４では、「探す」について接続する可能性のある語彙、例えば「行き先」、「コンビニ」の予測発話長を予め計算し、Ａ_ｍｉｎ〜Ａ_ｍａｘ[ｍｓｅｃ]のように範囲値として記憶している（語尾の語彙自体の発話長ではなく、接続する可能性のある語頭の語彙についての予測発話長の範囲であることに注意されたい。）。上記の範囲値は、接続する可能性のある語頭の語彙の音素列長の長短と、利用者の発話速度の偏差を考慮して、最大値Ａ_ｍａｘ[ｍｓｅｃ]、最小値Ａ_ｍｉｎ[ｍｓｅｃ]として定義する。同様にして、「聴く」についても、認識辞書１０６は範囲値Ｂ_ｍｉｎ〜Ｂ_ｍａｘ[ｍｓｅｃ]を記憶する。また、当該語頭の語彙に関する大量の音声データ（音声コーパス）を取得し、当該音声データの発話長の分析結果に基づいて、上記予測発話長を決定しても良い。上記予測発話長の記憶により、後述のバージイン制御部１０７における割り込み発話の発生の可能性の判定、すなわち、バージイン機能の動作の要否の決定が可能となる。更に、バージイン機能を動作させた場合の音声認識対象区間の決定が可能になる。

バージイン制御部１０７は、音声認識部１０５に第１の音声認識処理を行わせる。また、バージイン制御部１０７は、第１の音声認識処理の認識結果に基づいて、割り込み発話の発生の可能性を判定する。すなわち、バージイン機能の動作の要否を決定する。更に、バージイン制御部１０７は、バージイン機能の動作が必要と決定した場合に、音声認識部１０５に第２の音声認識処理を行わせる。また、バージイン制御部１０７は、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間を合わせた区間を、第２の音声認識処理の音声認識対象区間として決定する。バージイン制御部１０７は、演算装置２０４および記憶装置２０５を組み合わせることで実現される。上記のように、第１の実施形態の音声認識部１０５では、入力された音声信号から利用者の音声信号を検出し、一旦バージイン機能を動作させない通常の音声認識処理、すなわち、第１の音声認識処理を行う。第１の音声認識処理の認識結果に基づいて、バージイン制御部１０７はバージイン機能の動作が必要と決定した場合に、音声認識部１０５のバージイン機能を動作させる。更に、バージイン制御部１０７は、バージイン機能を動作させた音声認識処理、すなわち、第２の音声認識処理を音声認識部１０５に行わせる。

次に、バージイン制御部１０７における割り込み発話の発生の可能性を判定する方法、すなわち、バージイン機能の動作の要否を決定する方法について、図５を用いて説明する。図５は、図１に示すバージイン制御部１０７による割り込み発話の判定方法を示す図である。ここで、図５は、図３同様、システムプロンプトの出力（図５（ａ）参照）の波形、利用者の音声信号（図５（ｂ）、（ｃ）、（ｄ）、（ｅ）参照）の波形を時間軸プロットしたものである。音声信号（ｂ）、（ｃ）、（ｄ）、（ｅ）は、発話開始時刻が異なるのみで、発話内容は同一である。音声信号（ｂ）は、システムプロンプト終了時刻Ｔａ１後に、利用者が発話を開始した場合を示している。音声信号（ｂ）において、音声認識部１０５は、バージイン機能を動作させずに、利用者の音声信号の始端（図３のＴｂ１相当）〜終端（図３のＴｂ２相当）の区間について、第１の音声認識処理を行う。バージイン制御部１０７は、第１の音声認識処理の認識結果として、「行き先−探す」を検出している。語頭および語尾の語彙を共に検出しており、認識スコア(第１の実施形態では、最大値を１として０〜１で表記する。)も高い。そこで、バージイン制御部１０７は、割り込み発話の発生の可能性は少ないと判定する。すなわち、バージイン機能の動作は不要と決定する。その後、バージイン制御部１０７は、第１の音声認識処理の認識結果に基づいて、後段処理（例えば、機器の操作や認識結果の音声・表示による利用者へのフィードバック）へと移行する。すなわち、バージイン制御部１０７は、バージイン機能を動作させた第２の音声認識処理を音声認識部１０５に行わせない。

一方、音声信号（ｃ）、（ｄ）、（ｅ）は、システムプロンプト終了時刻Ｔａ１前に、利用者が発話を開始している場合を示している。音声信号（ｃ）では、バージイン制御部１０７は、第１の音声認識処理の認識結果として、語尾の語彙「探す」のみを検出している。これから、バージイン制御部１０７は、語頭の語彙について、割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。また、音声信号（ｄ）では、バージイン制御部１０７は、第１の音声認識処理の認識結果として、語頭、語尾双方の語彙を検出している。しかし、語頭の語彙は所定以下の認識スコアで検出されている。そこで、バージイン制御部１０７は、音声信号（ｃ）同様、語頭の語彙について、割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。

ここで、バージイン制御部１０７は、予め、認識スコアに所定の閾値を設定する。語頭の語彙の認識スコアが当該閾値を下回る場合に、バージイン制御部１０７は、割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。当該閾値の設定の仕方は、予め音声信号群（コーパスデータ）を用意し、該音声信号群を通常通り認識した場合の認識スコアと、語頭部分を数パターンの長さで切り落とした音声信号群を認識した場合の認識スコアから統計的に求める事が望ましい。このとき、語頭の語彙の認識スコアの変化量のみに着目して閾値を設けてもよい。この場合、認識率が所定の値を下回る時の認識スコアを統計的に求め、当該認識スコアを閾値として設定する。語頭の語彙の認識スコアが該閾値を下回った場合に割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。また、語頭部分を数パターンの長さで切り落とした音声信号群を認識した場合において、語頭の語彙の認識スコアと語尾の語彙の認識スコアを同時に着目し、語頭の語彙の認識スコアと語尾の語彙の認識スコアの相対スコア差に基づいて、閾値を設定してもよい。この場合も、同様に認識性能が所定の値を下回る時の語頭、語尾の認識スコアの相対スコア差を統計的に求め、当該相対スコア差を差分閾値として設定する。該差分閾値を越える相対スコア差を検出した場合に割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。

一方、音声信号（ｅ）では、音声信号（ｃ）、（ｄ）と異なり、語頭の語彙の音声区間長に着目する。バージイン制御部１０７は、第１の音声認識処理の認識結果として、語尾の語彙「探す」を検出している。バージイン制御部１０７は、語尾の語彙「探す」について、当該語尾の語彙の音声区間の始端時刻（以下、語尾語彙始端とする。）Ｔｂ３と終端時刻（以下、語尾語彙終端とする。）Ｔｂ４をマッチング処理の過程から推定することが可能である。第１の音声認識処理の音声認識対象区間は、Ｔａ１〜Ｔｂ４の区間に等しい。これから、語頭の語彙の音声区間は、当該音声認識対象区間から、語尾の語彙「探す」の区間（Ｔｂ３〜Ｔｂ４の区間）を除いた区間、すなわち、Ｔａ１〜Ｔｂ３の区間と推定される。図５において、当該語頭の語彙の音声区間は、観測長θで表されている。上述したように、図４に示した認識辞書１０６は、語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長の範囲値Ａ_ｍｉｎ〜Ａ_ｍａｘ[ｍｓｅｃ]を、語尾の語彙に対応付けて記憶している。そこで、バージイン制御部１０７は、予測発話長の範囲値Ａ_ｍｉｎ〜Ａ_ｍａｘ[ｍｓｅｃ]を参照する。特に、最小値Ａ_ｍｉｎ[ｍｓｅｃ]に着目する。バージイン制御部１０７は、最小値Ａ_ｍｉｎ[ｍｓｅｃ]と観測長θを比較し、Ａ_ｍｉｎ＞θの場合に、割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン制御部１０７は、語頭の語彙の音声区間θを所定Ａ_ｍｉｎ[ｍｓｅｃ]より短く検出した場合、バージイン機能の動作が必要と決定する。

次に、バージイン制御部１０７による音声区間の再設定方法について、図６を用いて説明する。図６は、図１に示すバージイン制御部１０７による音声区間再設定方法を示す図である。上記の方法で割り込み発話の発生の可能性が高いと判定した場合、すなわち、バージイン機能の動作が必要と決定した場合、バージイン制御部１０７は、新たに音声認識対象区間を決定する。新たに決定された音声認識対象区間について、バージイン機能を動作させた第２の音声認識処理を音声認識部１０５に行わせる。上記の通り、音声バッファ１０４は、ＰＴＴスイッチ押下直後から利用者の発話音声の取得を開始しているため、時間を遡って音声区間を再設定し、認識させることが可能である。ここで、遡る音声区間は、図５の音声信号（ｅ）の場合と同様、予測発話長の範囲値Ａ_ｍｉｎ〜Ａ_ｍａｘ[ｍｓｅｃ]を利用する。図６に示すように、第１の音声認識処理の音声認識対象区間は、区間（Ａ）となる。すなわち、バージイン制御部１０７がバージイン機能の動作が必要と決定した場合、音声認識部１０５のＶＡＤ機能を用いて検出した利用者の音声信号の始端時刻Ｔｂ１は、システムプロンプト終了時刻Ｔａ１と同時刻（Ｔａ１＝Ｔｂ１）になる。

バージイン制御部１０７は、第１の音声認識処理の認識結果として、語尾の語彙「探す」を検出する。上述したバージイン機能の動作の要否を決定した結果、バージイン制御部１０７がバージイン機能の動作が必要と決定した場合、バージイン制御部１０７は、語尾の語彙「探す」の語尾語彙始端Ｔｂ３および語尾語彙終端Ｔｂ４を推定する。更に、バージイン制御部１０７は、語尾の語彙「探す」に接続する可能性のある全語頭の語彙の予測発話長の範囲値Ａ_ｍｉｎ〜Ａ_ｍａｘ[ｍｓｅｃ]を参照する。特に、ここでは、予測発話長の最大値Ａ_ｍａｘ[ｍｓｅｃ]と語尾語彙始端Ｔｂ３に着目し、語尾語彙始端Ｔｂ３から予測発話長の最大値Ａ_ｍａｘ[ｍｓｅｃ]分遡った時刻、すなわち、Ｔｂ０を利用者の音声信号の新たな始端時刻（以下、新規音声始端とする。）として再設定する。これから、バージイン制御部１０７は、語尾語彙始端Ｔｂ３および語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長の最大値Ａ_ｍａｘ[ｍｓｅｃ]に基づいて、システムプロンプト終了直後から遡った所定区間Ｔｂ０〜Ｔａ１を決定する。更に、バージイン制御部１０７は、システムプロンプト終了直後から遡った所定区間Ｔｂ０〜Ｔａ１およびシステムプロンプト終了直後から利用者の音声信号終了までの区間Ｔａ１〜Ｔｂ４を合わせた区間Ｔｂ０〜Ｔｂ４を、第２の音声認識処理の音声認識対象区間と決定する。よって、バージイン制御部１０７は、上記の音声認識対象区間Ｔｂ０〜Ｔｂ４について、第２の音声認識処理を音声認識部１０５に行わせる。

なお、上記の音声認識対象区間Ｔｂ０〜Ｔｂ４について、更に、音声認識部１０５のＶＡＤ機能を用いて、新規音声始端Ｔｂ０_ａを検出しても良い。この場合、図６に示すように、バージイン制御部１０７は、区間Ｔｂ０_ａ〜Ｔｂ４を第２の音声認識処理の音声認識対象区間と決定する。バージイン制御部１０７は、上記の音声認識対象区間Ｔｂ０_ａ〜Ｔｂ４について、第２の音声認識処理を音声認識部１０５に行わせる。また、システム状態（利用者とシステムとの対話状態）によって、認識辞書を切り替えて用いる音声認識手法では、認識辞書毎に予測発話長を記憶し、テーブル化しておくことで対応できる。

＜上記構成を用いた具体的な制御処理の流れ＞
ここで、上記構成を用いた第１の実施形態に係る音声認識装置の具体的な制御処理の流れを図７を用いて説明する。図７は、図１に示す音声認識装置の制御処理の流れを示すフローチャートである。まず、音声入力部１０２は、利用者のＰＴＴスイッチ１０１の押下があるか否か判断する（ステップＳ１０１）。音声入力部１０２がＰＴＴスイッチ１０１の押下が無いと判断した場合（ステップＳ１０１：Ｎｏ）、ＰＴＴスイッチ１０１の押下があるまで待機する。一方、音声入力部１０２がＰＴＴスイッチ１０１の押下を検出した場合（ステップＳ１０１：Ｙｅｓ）、バージイン制御部１０７は、音声入力部１０２の上記のＰＴＴスイッチ押下検出信号に基づいて、ＰＴＴスイッチ押下時刻をタイムスタンプＴａ０として、音声バッファ１０４に記録する。その後、バージイン制御部１０７は、システムプロンプトの出力を開始する（ステップＳ１０２）。第１の実施形態のシステムプロンプトとして、「コマンドをどうぞ＋ポーン(報知音)」を出力している。また、バージイン制御部１０７は，音声入力部１０２の上記ＰＴＴスイッチ押下検出信号に基づいて、利用者の発話音声を含む音声信号の取得を音声バッファ１０４に開始させる（ステップＳ１０３）。

次に、バージイン制御部１０７は、システムプロンプトの出力が終了したか否か判断する（ステップＳ１０４）。ここで、上記システムプロンプトは、規定の音声メッセージ「コマンドをどうぞ」＋報知音「ポーン」から構成されているため、出力内容および出力時間は既知となる。よって、ＰＴＴスイッチ押下時刻Ｔａ０から計時することにより、バージイン制御部１０７は、システムプロンプトの出力の終了を容易に判断可能である。システムプロンプトの出力が終了していないと判断した場合（ステップＳ１０４：Ｎｏ）、バージイン制御部１０７はシステムプロンプトの出力が終了するまで待機する。一方、システムプロンプトの出力が終了したと判断した場合（ステップＳ１０４：Ｙｅｓ）、バージイン制御部１０７は、システムプロンプト終了時刻をタイムスタンプＴａ１として、音声バッファ１０４に記録する（ステップＳ１０５）。

次に、バージイン制御部１０７は、利用者の音声信号の始端を音声認識部１０５が検出したか否か判断する（ステップＳ１０６）。上記のように、音声認識部１０５は、ＶＡＤ機能を用いて、利用者の音声信号の始端を検出する。音声認識部１０５が利用者の音声信号の始端を検出していないとバージイン制御部１０７が判断した場合（ステップＳ１０６：Ｎｏ）、バージイン制御部１０７は、音声認識部１０５が検出するまで待機する。一方、音声認識部１０５が利用者の音声信号の始端を検出したとバージイン制御部１０７が判断した場合（ステップＳ１０６：Ｙｅｓ）、バージイン制御部１０７は、利用者の音声信号の始端時刻をタイムスタンプＴｂ１として、音声バッファ１０４に記録する（ステップＳ１０７）。なお、割り込み発話が発生している場合、利用者の音声信号の始端時刻Ｔｂ１とシステムプロンプト終了時刻Ｔａ１とは、同時刻となる。

次に、バージイン制御部１０７は、音声認識部１０５に第１の音声認識処理を行わせる（ステップＳ１０８）。すなわち、音声認識部１０５は、順次取得される音声信号から特徴量を抽出し、該特徴を認識辞書１０６とマッチングすることにより、少なくとも一つ以上の尤もらしい語彙を認識結果として抽出し、認識スコアを算出する。バージイン制御部１０７は、利用者の音声信号の終端時刻Ｔｂ２を音声認識部１０５が検出したか否か判断する（ステップＳ１０９）。音声認識部１０５が利用者の音声信号の終端時刻Ｔｂ２を検出していないとバージイン制御部１０７が判断した場合（ステップＳ１０９：Ｎｏ）、バージイン制御部１０７は、音声認識部１０５が検出するまで、ステップＳ１０８およびＳ１０９の制御処理を継続する。一方、音声認識部１０５が利用者の音声信号の終端時刻Ｔｂ２を検出したとバージイン制御部１０７が判断した場合（ステップＳ１０９：Ｙｅｓ）、バージイン制御部１０７は、音声認識部１０５における第１の音声認識処理を終了させる。更に、バージイン制御部１０７は、音声バッファ１０４における音声信号の取得を終了させる。

次に、バージイン制御部１０７は、第１の音声認識処理の認識結果があるか否か、すなわち、音声認識部１０５から上記認識結果を取得できたか否か判断する（ステップＳ１１０）。音声認識部１０５から上記認識結果を取得できない場合（ステップＳ１１０：Ｎｏ）、第１の音声認識処理の音声認識対象区間について認識したにもかかわらず、認識結果が無いこととなり、利用者が語彙外の発話を行ったか、雑音による認識不能状態と考えられる。よって、利用者に対し、認識できなかったことをフィードバックした上、再入力等を求めるのが望ましい。これから、本制御処理を終了する。一方、音声認識部１０５から上記認識結果を取得できた場合（ステップＳ１１０：Ｙｅｓ）、バージイン制御部１０７は、第１の音声認識処理の認識結果に基づいて、割り込み発話の発生の可能性を判定する（ステップＳ１１１）。すなわち、バージイン機能の動作の要否を決定する。バージイン制御部１０７は、上述したように、語尾の語彙のみ検出された場合（図５（ｃ）参照）または語頭の語彙の認識スコアが所定以下の場合（図５（ｄ）参照）、バージイン機能の動作が必要と決定する。または、バージイン制御部１０７は、語頭の語彙の認識スコアと語尾の語彙の認識スコアの差が所定以下の場合、バージイン機能の動作が必要と決定する。または、語頭の語彙の音声区間である観測長θが所定、すなわち、最小値Ａ_ｍｉｎ[ｍｓｅｃ]より短い場合（図５（ｅ）参照）、バージイン機能の動作が必要と決定する。更に、バージイン制御部１０７は、語尾語彙始端Ｔｂ３および語尾語彙終端Ｔｂ４を音声バッファ１０４に記録する（ステップＳ１１１）。

次に、バージイン制御部１０７は、ステップＳ１１１に示した制御処理の結果、割り込み発話があるか否か、すなわち、バージイン機能の動作が必要と決定したか否か判断する（ステップＳ１１２）。バージイン機能の動作が不要と決定したと判断した場合（ステップＳ１１２：Ｎｏ）、バージイン制御部１０７は、本制御処理を終了し、第１の音声認識処理の認識結果に基づいて、後段処理へと移行する。ここで、後段処理とは、例えば、機器の操作や認識結果の音声・表示による利用者へのフィードバック等である。一方、バージイン機能の動作が必要と決定したと判断した場合（ステップＳ１１２：Ｙｅｓ）、バージイン制御部１０７は、認識辞書１０６を参照する（ステップＳ１１３）。すなわち、認識結果である語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長の最大値Ａ_ｍａｘ[ｍｓｅｃ]を認識辞書１０６から参照し、取得する。

次に、バージイン制御部１０７は、ステップＳ１１３の制御処理で取得した予測発話長の最大値Ａ_ｍａｘ[ｍｓｅｃ]および語尾語彙始端Ｔｂ３に基づいて、新規音声始端Ｔｂ０を再設定し（ステップＳ１１４）、第２の音声認識処理の音声認識対象区間Ｔｂ０〜Ｔｂ４を決定する。新規音声始端Ｔｂ０は語尾語彙始端Ｔｂ３から予測発話長の最大値Ａ_ｍａｘ[ｍｓｅｃ]遡った時刻となる。次に、バージイン制御部１０７は、第２の音声認識処理の音声認識対象区間Ｔｂ０〜Ｔｂ４について、バージイン機能を動作させた第２の音声認識処理を音声認識部１０５に行わせる（ステップＳ１１５）。その後、バージイン制御部１０７は、第２の音声認識処理の認識結果を取得し、本制御処理を終了する（ステップＳ１１６）。更に、上記認識結果に基づいて、上記の後段処理へと移行する。

以上より、第１の実施形態に係る音声認識装置、音声認識方法では、バージイン機能の動作の要否を決定し、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させるバージイン制御部１０７を備えることで、認識性能の低下を抑制できる。よって、常時、バージイン機能を有効にする場合と比較して、非定常雑音の重畳による認識性能低下を抑制しつつ、割り込み発話の発生時の認識性能を確保できる。また、発話開始を利用者に促すシステムプロンプトの出力中もしくは出力後に取得した利用者の音声信号の特徴に基づいて、バージイン機能の動作の要否を決定することで、バージイン制御部１０７を実現できる。また、第１の実施形態では、バージイン制御部１０７は、システムプロンプト終了直後から利用者の音声信号終了までの区間Ｔａ１〜Ｔｂ４について、第１の音声認識処理を音声認識部１０５に行わせるので、バージイン機能の動作の要否を決定できる。

また、第１の実施形態のバージイン制御部１０７は、バージイン機能の動作が必要と決定した場合のみ、システムプロンプト終了直後から遡った所定区間Ｔｂ０〜Ｔａ１およびシステムプロンプト終了直後から利用者の音声信号終了までの区間Ｔａ１〜Ｔｂ４を、音声認識対象区間とする。更に、当該音声認識対象区間Ｔｂ０〜Ｔｂ４について、第２の音声認識処理を音声認識部１０５に行わせるので、割り込み発話を確実に認識対象とすることができる。

また、第１の実施形態のバージイン制御部１０７は、第１の音声認識処理の認識結果として、認識辞書１０６の語尾の語彙のみを検出した場合に、バージイン機能の動作が必要と決定する。これから、バージイン機能の動作を最小限とすることができ、認識性能の低下を抑制できる。また、第１の実施形態のバージイン制御部１０７は、上記認識結果として、認識辞書１０６の語頭の語彙が所定以下の認識スコアで検出した場合に、バージイン機能の動作が必要と決定する。これから、バージイン機能の動作を最小限とすることができ、認識性能の低下を抑制できる。

また、第１の実施形態のバージイン制御部１０７は、上記認識結果として、認識辞書１０６の語頭の語彙の認識スコアと語尾の語彙の認識スコアとの差を所定以上で検出した場合に、バージイン機能の動作が必要と決定する。これから、バージイン機能の動作を最小限とすることができ、認識性能の低下を抑制できる。また、第１の実施形態のバージイン制御部１０７は、上記認識結果として得られた語頭の語彙の音声区間である観測長θを所定、すなわち、最小値Ａ_ｍｉｎ[ｍｓｅｃ]より短く検出した場合に、バージイン機能の動作が必要と決定する。これから、バージイン機能の動作を最小限とすることができ、認識性能の低下を抑制できる。

また、第１の実施形態のバージイン制御部１０７は、上記認識結果として得られた語尾の語彙の音声区間の始端時刻である語尾語彙始端Ｔｂ３および予測発話長の最大値Ａ_ｍａｘ[ｍｓｅｃ]に基づいて、システムプロンプト終了直後から遡った所定区間Ｔｂ０〜Ｔａ１を決定する。これから、バージイン機能を動作させた第２の音声認識処理の音声認識対象区間を最小限とすることができ、認識性能の低下をより抑制できる。

（第２の実施形態）
第２の実施形態では、後述する音声エネルギー量検出区間に入力された音声信号の音声エネルギー量に基づいて、バージイン機能の動作の要否を決定する。更に、バージイン機能の動作が必要と決定した場合、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間について、音声認識処理を行うものである。

以下、第２の実施形態に係る音声認識装置、音声認識方法について、第１の実施形態に係る音声認識装置、音声認識方法と異なる点を中心に説明する。また、第２の実施形態に係る音声認識装置について、第１の実施形態に係る音声認識装置と同様の構造には同じ番号を付し、説明を省略する。図８は、本発明の第２の実施形態に係る音声認識装置の基本的構成を示すブロック図である。図８に示すように、第２の実施形態に係る音声認識装置の構成は、基本的には、第１の実施形態に係る音声認識装置の構成と同じである。第１の実施形態と異なるのは、認識辞書１１６およびバージイン制御部１１７だけである。よって、認識辞書１１６およびバージイン制御部１１７のみ説明する。第１の実施形態における認識辞書１０６は、記憶した語彙を語頭と語尾の位置に分けてモデル化しているが、第２の実施形態における認識辞書１１６は、記憶した語彙を語頭と語尾の位置に分けてモデル化していない。また、認識辞書１０６は、語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長を、当該語尾に対応付けて、記憶している。しかし、認識辞書１１６は上記の予測発話長を記憶していない。上記の相違点以外、認識辞書１１６は、認識辞書１０６と同じ構造となっている。

第２の実施形態におけるバージイン制御部１１７は、第１の実施形態におけるバージイン制御部１０７と異なり、後述する音声エネルギー量検出区間に入力された音声信号の音声エネルギー量に基づいて、バージイン機能の動作の要否を決定する。また、バージイン制御部１１７は、バージイン制御部１０７と同様に、バージイン機能の動作が必要と決定した場合、バージイン機能を動作させた音声認識処理を音声認識部１０５に行わせる。上記の場合、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間を音声認識対象区間と決定する。

次に、バージイン制御部１１７における割り込み発話の発生の可能性を判定する方法、すなわち、バージイン機能の動作の要否を決定する方法について、図９を用いて説明する。図９は、図８に示すバージイン制御部１１７による割り込み発話の判定方法を示す図である。ここで、図９は、図３同様、システムプロンプトの出力（図９（ａ）参照）の波形、利用者の音声信号（図９（ｂ）、（ｃ）参照）の波形を時間軸プロットしたものである。音声信号（ｂ）、（ｃ）は、発話開始時刻が異なるのみで、発話内容は同一である。第２の実施形態における判定方法は、システムプロンプトの終了直後の音声信号の状態に着目する。音声信号（ｂ）は、システムプロンプト終了時刻Ｔａ１後に、利用者が発話を開始した場合を示している。

第２の実施形態におけるバージイン制御部１１７は、後述する音声エネルギー量検出区間に入力された音声信号の音声エネルギー量を検出し、該音声エネルギー量が所定以上検出された場合に、割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。なお、上記音声エネルギー量が所定以上検出された場合、利用者の音声信号があると判断する。上記音声エネルギー量が所定以上検出されない場合、利用者の音声信号が無い、すなわち、無音であると判断する。第２の実施形態では、上記の音声エネルギー量検出区間は、システムプロンプト終了時刻Ｔａ１から所定の区間、すなわち、システムプロンプト終了時刻Ｔａ１から最短無音区間長閾値Ｔｈ＿ｐａｕｓｅ＿ｍｉｎ離れた時刻までの区間である。これから、バージイン制御部１１７は、上記の区間について、利用者の音声信号があるか否か判断することで、割り込み発話の発生の可能性を判定できる。すなわち、バージイン機能の動作の要否を決定できる。

音声信号（ｂ）において、システムプロンプト終了時刻Ｔａ１から利用者の音声信号の始端時刻Ｔｂ１までの無音区間長である観測無音区間長αは、最短無音区間長閾値Ｔｈ＿ｐａｕｓｅ＿ｍｉｎより大きい。よって、バージイン制御部１１７は、割り込み発話の発生の可能性が低いと判定する。すなわち、バージイン機能の動作は不要と決定する。なお、最短無音区間長閾値Ｔｈ＿ｐａｕｓｅ＿ｍｉｎは、通常の発話で発生する無音区間として、例えば、２５０〜３００ｍｓｅｃとする。一方、音声信号（ｃ）において、利用者の音声信号は、システムプロンプト終了時刻Ｔａ１より先に開始された割り込み発話となっている。同様に、観測無音区間長αを計算すると、０に近い値となる。これから、α＜Ｔｈ＿ｐａｕｓｅ＿ｍｉｎとなるので、バージイン制御部１１７は、割り込み発話の発生の可能性が高いと判定する。すなわち、バージイン機能の動作が必要と決定する。なお、割り込み発話が発生した可能性が高いと判定した場合、バージイン機能を動作させない場合の利用者の音声信号の始端時刻Ｔｂ１は、システムプロンプト終了時刻Ｔａ１と同時刻（Ｔａ１＝Ｔｂ１）になる。

次に、バージイン制御部１１７における音声区間の再設定方法について、図１０を用いて説明する。図１０は、図８に示すバージイン制御部１１７による音声区間再設定方法を示す図である。上記の方法で割り込み発話の発生の可能性が高いと判定した場合、すなわち、バージイン機能の動作が必要と決定した場合、バージイン制御部１１７は、システムプロンプト終了直後から遡った所定区間およびシステムプロンプト終了直後から利用者の音声信号終了までの区間を音声認識対象区間と決定する。第２の実施形態では、図１０（ｇ）に示すように、バージイン制御部１１７は、利用者の音声信号の終端時刻Ｔｂ２から予測音声区間を予測する機能を備えている。更に、バージイン制御部１１７は、上記予測音声区間を、上記システムプロンプト終了直後から遡った所定区間と決定する。具体的には、予め決定した予測発話長Ｌおよび利用者の音声信号の終端時刻Ｔｂ２に基づき、バージイン制御部１１７は、音声認識対象開始時刻Ｔｇ０を決定する。更に、上記予測音声区間Ｔｇ０〜Ｔａ１を、上記システムプロンプト終了直後から遡った所定区間と決定する。よって、バージイン制御部１１７は、Ｔｇ０〜Ｔｂ２の区間を音声認識対象区間と決定する。

ここで、予測発話長Ｌは、例えば、認識辞書１１６を用いて音声認識処理を行う場合、認識辞書１１６に含まれる全ての語彙の組み合せから、当該語彙の組み合せを発話する時間の平均値を求め、当該平均値を予測発話長Ｌと決定する。バージイン制御部１１７は、予め予測発話長Ｌを決定し、メモリに記録している。なお、第２の実施形態でも、第１実施形態と同様に、上記の音声認識対象区間Ｔｇ０〜Ｔｂ２について、音声認識部１０５のＶＡＤ機能を用いて、音声認識対象開始時刻Ｔｇ０_ａを検出しても良い。この場合、図１０（ｇ）に示すように、バージイン制御部１１７は、区間Ｔｇ０_ａ〜Ｔｂ２を音声認識対象区間と決定する。バージイン制御部１１７は、上記の音声認識対象区間Ｔｇ０_ａ〜Ｔｂ２について、音声認識処理を音声認識部１０５に行わせる。

上記の再設定方法は非常に単純であるが、有効に働くと期待できる。すなわち、カーナビゲーション等の機器操作のための音声認識については、利用者の利便性を考慮すると、長いコマンドは適切でないため、２〜３フレーズの発話となるように構成する事が多い。従って、発話長の偏差は比較的少なく、大半の語彙が特定の時間内に含まれる。よって、認識辞書１１６に記憶された語彙を知っている利用者であれば、予め決定した予測発話長Ｌに収まると考えられる。逆に、認識辞書１１６に記憶された語彙を利用者が熟知してない場合には、不当に長いコマンドを発話する可能性もあり、有効に働かない可能性を示唆されるかもしれない。しかし、不当に長いコマンドによる発話は、認識辞書１１６に定義されていない発話である可能性が高い。故に割り込み発話の発生の有無とは関わりなく、音声認識に失敗する可能性が高いと考えられ、上記の再設定方法の有効性を削ぐものではないといえる。

＜上記構成を用いた具体的な制御処理の流れ＞
ここで、上記構成を用いた第２の実施形態に係る音声認識装置の具体的な制御処理の流れを図１１を用いて説明する。図１１は、図８に示す音声認識装置の制御処理の流れを示すフローチャートである。なお、図１１に示すフローチャートのステップＳ２０１〜Ｓ２０５は、図７に示したフローチャートのステップＳ１０１〜Ｓ１０５と同様である。ステップＳ２０５の制御処理の後、バージイン制御部１１７は、利用者の音声信号の始端を検出したか否か判断する（ステップＳ２０６）。具体的には、バージイン制御部１１７は、利用者の音声信号の音声エネルギー量を検出し、当該音声エネルギー量が所定以上検出された時刻を利用者の音声信号の始端時刻とし、当該利用者の音声信号の始端を検出したと判断する。なお、第１の実施形態と同様に、一般的な音声区間検出機能であるＶＡＤ機能を利用しても良い。バージイン制御部１１７が利用者の音声信号の始端を検出していないと判断した場合（ステップＳ２０６：Ｎｏ）、バージイン制御部１１７は、利用者の音声信号の始端を検出するまで待機する。一方、バージイン制御部１１７が利用者の音声信号の始端を検出したと判断した場合（ステップＳ２０６：Ｙｅｓ）、バージイン制御部１１７は、利用者の音声信号の始端時刻をタイムスタンプＴｂ１として、音声バッファ１０４に記録する（ステップＳ２０７）。なお、割り込み発話が発生している場合、利用者の音声信号の始端時刻Ｔｂ１とシステムプロンプト終了時刻Ｔａ１とは、同時刻（Ｔａ１＝Ｔｂ１）になる。

次に、バージイン制御部１１７は、利用者の音声信号の終端を検出したか否か判断する（ステップＳ２０８）。バージイン制御部１１７が利用者の音声信号の終端を検出していないと判断した場合（ステップＳ２０８：Ｎｏ）、バージイン制御部１１７は、利用者の音声信号の終端を検出するまで待機する。一方、バージイン制御部１１７が利用者の音声信号の終端を検出したと判断した場合（ステップＳ２０８：Ｙｅｓ）、バージイン制御部１１７は、利用者の音声信号の終端時刻をタイムスタンプＴｂ２として、音声バッファ１０４に記録する（ステップＳ２０９）。更に、バージイン制御部１１７は、音声バッファ１０４における音声信号の取得を終了させる。次に、バージイン制御部１１７は、システムプロンプト終了時刻Ｔａ１から利用者の音声信号の始端時刻Ｔｂ１までの無音区間、すなわち、観測無音区間長αに基づいて、割り込み発話の発生の可能性を判定する（ステップＳ２１０）。すなわち、バージイン機能の動作の要否を決定する。バージイン制御部１１７は、上述したように、α＜Ｔｈ＿ｐａｕｓｅ＿ｍｉｎの場合、バージイン機能の動作が必要と決定する。

次に、バージイン制御部１１７は、ステップＳ２１０に示した制御処理の結果、割り込み発話があるか否か、すなわち、バージイン機能の動作が必要と決定したか否か判断する（ステップＳ２１１）。バージイン機能の動作が不要と決定したと判断した場合（ステップＳ２１１：Ｎｏ）、バージイン制御部１１７は、利用者の音声信号の始端時刻Ｔｂ１から終端時刻Ｔｂ２までの区間を音声認識対象区間と決定する。更に、バージイン制御部１１７は、後述するように、当該音声認識対象区間について、音声認識部１０５に音声認識処理を行わせる（ステップＳ２１５）。一方、バージイン機能の動作が必要と決定したと判断した場合（ステップＳ２１１：Ｙｅｓ）、バージイン制御部１１７は、予め決定した予測発話長Ｌを取得する（ステップＳ２１２）。次に、バージイン制御部１１７は、予測発話長Ｌおよび利用者の音声信号の終端時刻Ｔｂ２に基づき、音声認識対象開始時刻Ｔｇ０を決定する（ステップＳ２１３）。すなわち、音声認識対象開始時刻Ｔｇ０は、利用者の音声信号の終端時刻Ｔｂ２から予測発話長Ｌ分遡った時刻となる。これから、バージイン制御部１１７は、区間Ｔｇ０〜Ｔｂ２を音声認識対象区間と決定する。

次に、バージイン制御部１１７は、バージイン機能を動作させた音声認識処理を音声認識部１０５に行わせるため、音声認識部１０５に、バージイン機能の有効化を指示する（ステップＳ２１４）。次に、バージイン機能の動作が不要と決定したと判断していた場合（ステップＳ２１１：Ｎｏ）、バージイン制御部１１７は、区間Ｔｂ１〜Ｔｂ２について、音声認識部１０５に音声認識処理を行わせる（ステップＳ２１５）。一方、バージイン機能の動作が必要と決定したと判断していた場合（ステップＳ２１１：Ｙｅｓ）、バージイン制御部１１７は、区間Ｔｇ０〜Ｔｂ２について、音声認識部１０５に音声認識処理を行わせる（ステップＳ２１５）。その後、バージイン制御部１１７は、音声認識処理の認識結果を取得し、本制御処理を終了する（ステップＳ２１６）。更に、上記認識結果に基づいて、後段処理へと移行する。ここで、後段処理とは、例えば、機器の操作や認識結果の音声・表示による利用者へのフィードバック等である。

以上より、第２の実施形態に係る音声認識装置、音声認識方法でも、バージイン機能の動作の要否を決定し、バージイン機能の動作が必要と決定した場合のみ、バージイン機能を動作させるバージイン制御部１１７を備えているので、認識性能の低下を抑制できる。よって、常時、バージイン機能を有効にする場合と比較して、非定常雑音の重畳による認識性能低下を抑制しつつ、割り込み発話の発生時の認識性能を確保できる。また、発話開始を利用者に促すシステムプロンプトの出力中もしくは出力後に取得した利用者の音声信号の特徴に基づいて、バージイン機能の動作の要否を決定することで、バージイン制御部１１７を実現できる。

また、第２の実施形態のバージイン制御部１１７は、バージイン機能の動作が必要と決定した場合のみ、システムプロンプト終了直後から遡った所定区間Ｔｇ０〜Ｔａ１およびシステムプロンプト終了直後から利用者の音声信号終了までの区間Ｔａ１〜Ｔｂ２を、音声認識対象区間とする。更に、当該音声認識対象区間Ｔｇ０〜Ｔｂ２について、音声認識処理を音声認識部１０５に行わせる。これから、割り込み発話を確実に認識対象とすることができる。

また、第２の実施形態のバージイン制御部１１７は、音声エネルギー量検出区間に入力された音声信号の音声エネルギー量を検出し、該音声エネルギー量を所定以上検出した場合に、バージイン機能の動作が必要と決定する。更に、上記音声エネルギー量検出区間は、システムプロンプト終了直後の所定の区間、すなわち、システムプロンプト終了時刻Ｔａ１から最短無音区間長閾値Ｔｈ＿ｐａｕｓｅ＿ｍｉｎ離れた時刻までの区間とする。これから、バージイン機能の動作を最小限とすることができ、認識性能の低下を抑制できる。

また、第２の実施形態のバージイン制御部１１７は、利用者の音声信号の終端時刻Ｔｂ２から予測音声区間Ｔｇ０〜Ｔａ１を予測する機能を備えている。また、予測音声区間Ｔｇ０〜Ｔａ１を、システムプロンプト終了直後から遡った所定区間と決定する。これから、バージイン機能を動作させた音声認識処理の音声認識対象区間Ｔｇ０〜Ｔｂ２を最小限とすることができ、認識性能の低下をより抑制できる。

なお、以上に述べた実施形態は、本発明の実施の一例であり、本発明の範囲はこれらに限定されるものでなく、特許請求の範囲に記載した範囲内で、他の様々な実施形態に適用可能である。例えば、第１の実施形態に係る音声認識装置の認識辞書１０６は、語頭を名詞と、語尾を動詞とした構成を備えているが、特にこれに限定されるものでなく、語彙を部分的に認識可能で、かつ、その認識位置（先頭部分なのか末尾部分なのか）が判別可能な構成であれば、同様の効果を取得できる。

また、第１の実施形態に係る音声認識装置では、利用者の音声信号の始端時刻Ｔｂ１〜終端時刻Ｔｂ２の区間について、第１の音声認識処理を行っているが、特にこれに限定されるものでなく、システムプロンプト終了時刻Ｔａ１〜最大時刻Ｔａ２の区間について、行っても良い。

また、第１の実施形態に係る音声認識装置では、認識辞書１０６に予測発話長の最小値Ａ_ｍｉｎ[ｍｓｅｃ]を記憶しているが、特にこれに限定されるものでなく、最小値Ａ_ｍｉｎ[ｍｓｅｃ]を記憶しなくても良い。この場合、バージイン制御部１０７は、予め設定した所定値と観測長θを比較して、バージイン機能の動作の要否を決定すれば良い。

また、第１の実施形態に係る音声認識装置では、認識辞書１０６に予測発話長の最大値Ａ_ｍａｘ[ｍｓｅｃ]を記憶しているが、特にこれに限定されるものでなく、最大値Ａ_ｍａｘ[ｍｓｅｃ]を記憶しなくても良い。この場合、システムプロンプト終了直後から遡った所定区間を、ＰＴＴスイッチ押下時刻Ｔａ０からシステムプロンプト終了時刻Ｔａ１までの区間とすれば良い。しかし、認識辞書１０６に最大値Ａ_ｍａｘ[ｍｓｅｃ]を記憶し、最大値Ａ_ｍａｘ[ｍｓｅｃ]に基づいて、新規音声始端Ｔｂ０を決定した方が、精度良く音声認識できる。

また、第１の実施形態では、バージイン制御部１０７は、最大値Ａ_ｍａｘ[ｍｓｅｃ]に基づいて、新規音声始端Ｔｂ０を決定しているが、特にこれに限定されるものでなく、予め決定した所定値に基づいて決定しても良い。

また、第２の実施形態に係る音声認識装置では、バージイン制御部１１７は、利用者の音声信号の終端時刻Ｔｂ２と予測発話長Ｌから予測音声区間Ｔｇ０〜Ｔａ１を予測する機能を備えているが、特にこれに限定されるものでなく、当該機能は無くても良い。この場合、システムプロンプト終了直後から遡った所定区間を、ＰＴＴスイッチ押下時刻Ｔａ０からシステムプロンプト終了時刻Ｔａ１までの区間とすれば良い。しかし、利用者の音声信号の終端時刻Ｔｂ２と予測発話長Ｌから予測音声区間Ｔｇ０〜Ｔａ１を予測した方が、精度良く音声認識できる。

また、第２の実施形態では、バージイン制御部１１７は、予め決定した予測発話長Ｌに基づいて、音声認識対象開始時刻Ｔｇ０を決定しているが、特にこれに限定されるものでなく、予め決定した所定値に基づいて決定しても良い。

また、第２の実施形態では、バージイン制御部１１７が利用者の音声信号の終端時刻Ｔｂ２を検出した後、割り込み発話の発生の可能性を判定するが、特にこれに限定されるものでなく、利用者の音声信号の始端時刻Ｔｂ１を検出した後、判定しても良い。このようにすれば、バージイン制御部１１７は、利用者の音声信号の終端時刻Ｔｂ２を検出する間に、割り込み発話の発生の可能性を判定できる場合がある。よって、バージイン制御部１１７は、利用者の音声信号の終端時刻Ｔｂ２を検出した時点で、音声認識対象区間を決定する制御処理を行うことができる。

また、第２の実施形態では、音声エネルギー量検出区間は、システムプロンプト終了時刻Ｔａ１から最短無音区間長閾値Ｔｈ＿ｐａｕｓｅ＿ｍｉｎ離れた時刻までの区間であるが、特にこれに限定されるものでなく、他の区間でも良い。例えば、システムプロンプトの出力中の所定の区間でも良い。以下、当該所定の区間について説明する。図１２は、第２の実施形態の変形例に係る割り込み発話の判定方法を示す図である。図１２に示すように、第２の実施形態の変形例のシステムプロンプトは、第１および第２の実施形態と同様に、音声メッセージと、当該音声メッセージの直後の報知音とから構成されている。更に、上記音声メッセージは、少なくとも１つ以上の無音区間を持つ。また、上記システムプロンプトは、利用者によるＰＴＴスイッチ１０１の押下後、出力されている。そのため、図１２（ｄ）に示すように、システムプロンプトの出力中、区間Ｂ（時刻Ｔｄ２〜Ｔｄ３）および区間Ｃ（時刻Ｔｄ４〜Ｔｄ５）の無音区間がある。区間Ｂは音声メッセージ中のフレーズ「コマンドを」「どうぞ」の境界に挿入される無音区間である。区間Ｃは音声メッセージ終了直後から報知音出力直前までの無音区間である。そこで、当該所定の区間を、区間Ｂまたは／および区間Ｃとしても良い。すなわち、上記システムプロンプトの出力内容および出力時間は既知であることから、ＰＴＴスイッチ押下時刻Ｔａ０から計時することにより、バージイン制御部は、区間Ｂおよび区間Ｃを容易に判断可能である。よって、バージイン制御部は、区間Ｂまたは／および区間Ｃに、所定以上の音声エネルギー量を検出した場合に、割り込み発話の可能性が高いと判定できる。なお、区間Ｂおよび区間Ｃは、無音区間であるため、利用者の発話音声を含む音声信号の有無を検知するためのエコーキャンセル処理等を必要とせず、通常の信号強度（音声エネルギー）検出処理（ＶＡＤ機能を含む。）で対応可能である。

また、図１２（ｄ）に示したように、ＰＴＴスイッチ押下直後からシステムプロンプト開始までの区間Ａ（時刻Ｔａ０〜Ｔｄ１）も無音区間である。そこで、上記の音声エネルギー量検出区間を、区間Ａとしても良い。すなわち、上記システムプロンプトの出力時間は既知であることから、ＰＴＴスイッチ押下時刻Ｔａ０から計時することにより、バージイン制御部は、区間Ａを容易に判断可能である。よって、バージイン制御部は、区間Ａに、所定以上の音声エネルギー量を検出した場合に、割り込み発話の可能性が高いと判定できる。なお、区間Ａは、無音区間であるため、利用者の発話音声を含む音声信号の有無を検知するためのエコーキャンセル処理等を必要とせず、通常の信号強度（音声エネルギー）検出処理（ＶＡＤ機能を含む。）で対応可能である。また、図１２（ｄ）に示した変形例、すなわち、区間Ａ、区間Ｂおよび区間Ｃに入力された音声信号の音声エネルギー量を検出する場合、第２の実施形態と同様に、予測音声区間Ｔｇ０〜Ｔａ１を予測できる。すなわち、バージイン制御部は、利用者の音声信号の終端時刻Ｔｂ２と予測発話長Ｌから予測音声区間Ｔｇ０〜Ｔａ１を予測できる。更に、バージイン制御部は、予め決定した所定値に基づいて、予測音声区間を決定しても良い。また、予測音声区間、すなわち、システムプロンプト終了直後から遡った所定区間を、ＰＴＴスイッチ押下時刻Ｔａ０からシステムプロンプト終了時刻Ｔａ１までの区間としても良い。

また、音声エネルギー量検出区間を、ＰＴＴスイッチ押下時刻Ｔａ０からシステムプロンプト終了時刻Ｔａ１の区間としても良い。ただし、エコーキャンセル処理は使用せず、予めシステムプロンプトの出力強度（ボリューム）の時系列変化をテーブルとして保持する。スピーカボリュームに伴う係数を当該出力強度にかけた可変閾値を決定する。入力信号強度と、該可変閾値を随時比較することで、閾値を上回る強度が検出された場合に割り込み発話の発生の可能性が高いと判定できる。この場合も、第２の実施形態と同様に、予測音声区間Ｔｇ０〜Ｔａ１を予測できる。すなわち、バージイン制御部は、利用者の音声信号の終端時刻Ｔｂ２と予測発話長Ｌから予測音声区間Ｔｇ０〜Ｔａ１を予測できる。更に、バージイン制御部は、予め決定した所定値に基づいて、予測音声区間を決定しても良い。また、予測音声区間、すなわち、システムプロンプト終了直後から遡った所定区間を、ＰＴＴスイッチ押下時刻Ｔａ０からシステムプロンプト終了時刻Ｔａ１までの区間としても良い。

また、第２の実施形態のバージイン制御部１１７は、音声エネルギー量検出区間に入力された音声信号の音声エネルギー量を所定以上検出した場合に、バージイン機能の動作が必要と決定しているが、特にこれに限定されるものでなく、システムプロンプト終了直後から所定の時間以上連続して、上記音声エネルギー量を所定以上検出しなかった場合に、バージイン機能の動作が必要と決定しても良い。具体的には、図１２（ｆ）に示すように、システムプロンプトの出力中に利用者の発話が完了している場合、システムプロンプト終了時刻Ｔａ１から無音区間が継続する。そこで、所定の時間である最長無音区間閾値Ｔｈ＿ｐａｕｓｅ＿ｍａｘを予め定める。これから、バージイン制御部は、観測無音区間長α＝Ｔｈ＿ｐａｕｓｅ＿ｍａｘとなった場合に、システムプロンプトの出力中に利用者の発話が完了した可能性があると判断する。このようにすることで、バージイン制御部は、システムプロンプト終了直後から所定の時間以上連続して、上記音声エネルギー量を所定以上検出しなかった場合に、バージイン機能の動作が必要と決定できる。この場合、バージイン制御部は、システムプロンプト終了時刻Ｔａ１から継続した無音区間の終端時刻Ｔｆ１と予測発話長Ｌから予測音声区間を予測しない。バージイン制御部は、システムプロンプト終了時刻Ｔａ１と予測発話長Ｌから予測音声区間Ｔｇ０〜Ｔａ１を予測する。更に、バージイン制御部は、システムプロンプト終了時刻Ｔａ１と、予め決定した所定値とに基づいて、予測音声区間を決定しても良い。また、予測音声区間、すなわち、システムプロンプト終了直後から遡った所定区間を、ＰＴＴスイッチ押下時刻Ｔａ０からシステムプロンプト終了時刻Ｔａ１までの区間としても良い。

また、第２の実施形態のバージイン制御部１１７は、音声エネルギー量検出区間に入力された音声信号の音声エネルギー量を所定以上検出しなかった場合に、バージイン機能の動作が不要と決定しているが、特にこれに限定されるものでなく、利用者の音声信号の開始から終了までの時間（Ｔｂ１〜Ｔｂ２）が所定の時間以上の場合に、バージイン機能の動作が不要と決定しても良い。具体的には、図１２（ｅ）に示すように、利用者の音声信号の始端時刻Ｔｂ１から終端時刻Ｔｂ２までの時間を観測音声区間長βとする。更に、所定の時間である音声区間長閾値Ｔｈ＿ｖｏｉｃｅを予め定める。これから、バージイン制御部は、β＞Ｔｈ＿ｖｏｉｃｅとなった場合、利用者の音声信号の始端時刻Ｔｂ１以降に、十分な長さの発話が得られたと判断する。よって、割り込み発話の発生の可能性は低いと判定する。なお、音声区間長閾値Ｔｈ＿ｖｏｉｃｅは、認識辞書１１６に記憶された語彙のうち、音素列数が所定より多い語彙、すなわち文言の長い語彙を全て集め、当該語彙の平均発話長等として決定すればよい。これから、バージイン機能の動作を最小限とすることができ、認識性能の低下を抑制できる。

また、区間Ａ、区間Ｂおよび区間Ｃに入力された音声信号の音声エネルギー量を検出する場合およびＴａ０〜Ｔａ１の区間に入力された音声信号の音声エネルギー量を検出する場合の変形例では、バージイン制御部が利用者の音声信号の終端時刻Ｔｂ２を検出した後、割り込み発話の発生の可能性を判定するが、特にこれに限定されるものでなく、利用者の音声信号の始端時刻Ｔｂ１を検出した後、判定しても良い。このようにすれば、バージイン制御部は、利用者の音声信号の終端時刻Ｔｂ２を検出する間に、割り込み発話の発生の可能性を判定できる場合がある。よって、バージイン制御部は、利用者の音声信号の終端時刻Ｔｂ２を検出した時点で、音声認識対象区間を決定する制御処理を行うことができる。

また、第２の実施形態および上記の変形例では、バージイン制御部は、認識辞書１１６に含まれる全ての語彙の組み合せから、当該語彙の組み合せを発話する時間の平均値を求め、当該平均値を予測発話長Ｌと決定している。そして、利用者の音声信号の終端時刻Ｔｂ２と予測発話長Ｌに基づいて、予測音声区間Ｔｇ０〜Ｔａ１を決定している。しかし、特にこれに限定されるものでなく、他の方法で予測音声区間を決定しても良い。なお、上記の変形例とは、区間Ａ、区間Ｂおよび区間Ｃに入力された音声信号の音声エネルギー量を検出する場合、Ｔａ０〜Ｔａ１の区間に入力された音声信号の音声エネルギー量を検出する場合、Ｔａ１から所定の時間以上連続して、上記音声エネルギー量を所定以上検出しなかった場合の変形例である。

例えば、利用者の発話音声の減衰モデルから予測発話長を予測しても良い。以下、利用者の発話音声の減衰モデルから予測された予測発話長について説明する。図１３は、第２の実施形態の変形例に係る音声区間再設定方法を示す図である。図１３（ｈ）に示すように、バージイン制御部は、利用者の発話音声の減衰モデルＸから、予測発話長Ｍを予測している。当該減衰モデルＸは、音声エネルギーの減衰をモデル化したものである。人は発話にあたり呼気を消費するため、次第に音声エネルギーが減衰していく。予め大量の音声データ（コーパス）等を分析することで、上記減衰過程を定式化し、図１３に示した減衰モデルＸを取得する。なお、音声エネルギーの絶対量は、利用者の個人性（体格、嗜好等）により偏差があるため、例えば、（割り込み発話でない）通常の発話が検出された際に、本モデルをフィッティングさせるように利用者適応処理を行うことが望ましい。特に、自動車用の音声認識装置では、利用者が比較的固定されており、話者の交代が起こりにくいことから、利用者適応は有効に作用すると思われる。更に、自動車用であれば、周囲の定常雑音強度を速度や走行位置から予め予測可能であることから、雑音の強度に応じて、利用者の音声強度が変化する、いわゆる「ロンバード効果」についても考慮可能である。

ここで得られた減衰モデルＸにおいては、利用者適応により、Ｙ０が適応変数として決定されている。このモデルを入力された音声信号に照合させる。適応変数Ｙ０、システムプロンプト終了時刻Ｔａ１から利用者の音声信号の終端時刻Ｔｂ２までの区間Ｘ１（Ｔａ１〜Ｔｂ２）およびシステムプロンプト終了時刻Ｔａ１における信号強度Ｙ１を用いて、音声区間長Ｘ０（＝予測発話長Ｍ）は、
Ｘ０＝Ｙ０・Ｘ１／Ｙ１
と予測できる。これから、バージイン制御部は、利用者の音声信号の終端時刻Ｔｂ２と予測発話長Ｍに基づいて、音声認識対象開始時刻Ｔｈ０を決定する。更に、予測音声区間（Ｈ）、すなわち、Ｔｈ０〜Ｔａ１の区間を、上記システムプロンプト終了直後から遡った所定区間と決定する。よって、バージイン制御部は、Ｔｈ０〜Ｔｂ２の区間を音声認識対象区間と決定する。これから、平均発話長Ｍに、ある程度の偏差を許容させる機能を付加できる。

また、例えば、音声信号の基本周波数（一般的にＦ０という。）を簡易特徴量として抽出し、特に、フレーズ毎に現れる特徴量に基づき、予測発話長を予測しても良い。以下、フレーズ毎に現れる特徴量に基づき、予測された予測発話長について説明する。ここで、音声信号の基本周波数Ｆ０から、韻律的特徴（フレーズ指令およびアクセント指令と呼ばれる。）を抽出する方法が一般的に知られている。これは、人の発話の韻律的特徴をモデル化した、基本周波数生成モデル（藤崎モデル）に基づく手法である。なお、基本周波数生成モデル（藤崎モデル）は、H. Fujisaki and K. Hirose, “Analysis of voice fundamental frequency contours for declarative sentences of Japanese,” J. Acoust. Soc. Japan (E), Vol.5, No.4, 233-242（1984）が詳しい。上記韻律的特徴に基づき、予測発話長を予測する例を図１３（ｉ）に示す。バージイン制御部は、得られた韻律的特徴（ｉ１）の時間遷移を近似し、（ｉ２）、（ｉ３）に示すようなフレーズ概形を得る。ここで、フレーズ概形（ｉ３）は、フレーズの一部がシステムプロンプト終了時刻Ｔａ１（＝Ｔｂ１）以前にあるため、Ｔａ１〜Ｔｂ２の区間から遡って予測する。なお、図１３（ｉ）では、システムプロンプト終了時刻Ｔａ１以前の基本周波数Ｆ０も便宜上記載しているが、実際検出するのは、韻律的特徴（ｉ１）の点枠線内の区間のみである。

また、図１３（ｉ）に示したように、認識辞書の語彙を、例えば、最大３つのフレーズから構成するものとする。例えば、「近くのコンビニを探す」（語頭：「近くの」＋語中：「コンビニを」＋語尾：「探す」）のような構成である。最大３フレーズを認識するため、フレーズ概形（ｉ４）に示す１フレーズ分の区間を更に加える。すなわち、バージイン制御部は、フレーズ概形（ｉ２）、（ｉ３）および（ｉ４）を予測発話長Ｎと予測する。これから、バージイン制御部は、利用者の音声信号の終端時刻Ｔｂ２と予測発話長Ｎに基づいて、音声認識対象開始時刻Ｔｉ０を決定する。更に、予測音声区間（Ｉ）、すなわち、Ｔｉ０〜Ｔａ１の区間を、上記システムプロンプト終了直後から遡った所定区間と決定する。よって、バージイン制御部は、Ｔｉ０〜Ｔｂ２の区間を音声認識対象区間と決定する。なお、上記フレーズ最大数は、認識辞書を作成する時点で知ることができる。また、利用者の利便性向上の観点から、コマンドの一貫性を持たせるために、大半の語彙が所定のフレーズ数に収まるように、認識辞書を構成することが望ましい。また、システム状態（利用者とシステムとの対話状態）によって、認識辞書を切り替えて用いる音声認識装置では、認識辞書毎に最大フレーズ数を記憶、テーブル化しておくことで対応できる。なお、フレーズ概形（ｉ４）のフレーズ長は、認識辞書に含まれる全語彙のフレーズ長から予測しても良いし、観測されたフレーズ概形（ｉ１）のフレーズ長等から予測しても良い。

また、第１の実施形態、第２の実施形態、上記の変形例および利用者の音声信号の開始から終了までの時間（Ｔｂ１〜Ｔｂ２）が所定の時間以上の場合の変形例を相互に組み合わせて適用することも可能である。更に、第１の実施形態、第２の実施形態、上記の変形例および利用者の音声信号の開始から終了までの時間（Ｔｂ１〜Ｔｂ２）が所定の時間以上の場合の変形例に、上記の予測発話長Ｍ、Ｎの予測方法を適用することも可能である。

本発明の第１の実施形態に係る音声認識装置の基本的構成を示すブロック図図１に示す音声認識装置の実現手段を示すブロック図図１に示す音声バッファの音声取得区間および音声認識対象区間を示す図図１に示す認識辞書の構成を示す図図１に示すバージイン制御部による割り込み発話の判定方法を示す図図１に示すバージイン制御部による音声区間再設定方法を示す図図１に示す音声認識装置の制御処理の流れを示すフローチャート本発明の第２の実施形態に係る音声認識装置の基本的構成を示すブロック図図８に示すバージイン制御部による割り込み発話の判定方法を示す図図８に示すバージイン制御部による音声区間再設定方法を示す図図８に示す音声認識装置の制御処理の流れを示すフローチャート第２の実施形態の変形例に係る割り込み発話の判定方法を示す図第２の実施形態の変形例に係る音声区間再設定方法を示す図

符号の説明

１０１ＰＴＴスイッチ、１０２音声入力部、１０３音声出力部、
１０４音声バッファ、１０５音声認識手段である音声認識部、
１０６、１１６認識辞書、
１０７、１１７バージイン制御手段であるバージイン制御部、
２０１スイッチ、２０２マイクロフォン、２０３ＡＤ変換部、
２０４演算装置、２０５記憶装置、２０６ＤＡ変換部、
２０７スピーカ

Claims

利用者に発話開始を促すための音声出力を行い、当該音声出力を実行している最中に音声信号の取得を始め、取得した前記音声信号に重畳される前記音声出力の影響を削除して前記利用者の発話した音声を認識可能とするバージイン機能を有する音声認識装置であって、
前記音声出力の実施中もしくは実施後に取得した前記音声信号の特徴に基づいて、前記バージイン機能の動作の要否を決定し、前記バージイン機能の動作が必要と決定した場合のみ、前記バージイン機能を動作させるバージイン制御手段を備えることを特徴とする音声認識装置。
前記バージイン制御手段で決定される音声認識対象区間について、認識辞書を用いて音声認識する音声認識手段とを備え、
前記バージイン制御手段は、前記バージイン機能の動作が必要と決定した場合のみ、前記音声出力終了直後から遡った所定区間および前記音声出力終了直後から前記利用者の前記音声信号終了までの区間を、前記音声認識対象区間と決定することを特徴とする請求項１に記載の音声認識装置。
前記認識辞書は、少なくとも語頭と語尾に分かれた構成を備え、
前記音声認識手段は、前記音声出力終了直後から前記利用者の前記音声信号終了までの前記区間について、第１の音声認識処理を行うことを特徴とする請求項２に記載の音声認識装置。
前記第１の音声認識処理の認識結果に基づいて、前記バージイン制御手段が前記バージイン機能の動作が必要と決定した場合、前記音声認識手段は、前記音声認識対象区間について、第２の音声認識処理を行うことを特徴とする請求項３に記載の音声認識装置。
前記バージイン制御手段は、前記認識結果として、前記認識辞書の前記語尾の語彙のみを検出した場合に、前記バージイン機能の動作が必要と決定することを特徴とする請求項４に記載の音声認識装置。
前記バージイン制御手段は、前記認識結果として、前記認識辞書の前記語頭の語彙が所定以下の認識スコアで検出した場合に、前記バージイン機能の動作が必要と決定することを特徴とする請求項４に記載の音声認識装置。
前記バージイン制御手段は、前記認識結果として、前記認識辞書の前記語頭の語彙の認識スコアと前記語尾の語彙の認識スコアとの差を所定以上で検出した場合に、前記バージイン機能の動作が必要と決定することを特徴とする請求項４に記載の音声認識装置。
前記バージイン制御手段は、前記認識結果として得られた前記語頭の語彙の音声区間を所定より短く検出した場合に、前記バージイン機能の動作が必要と決定することを特徴とする請求項４に記載の音声認識装置。
前記認識辞書は、前記語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長を、該語尾に対応付けて備え、
前記バージイン制御手段は、前記認識結果として得られた前記語尾の語彙の音声区間の始端および前記予測発話長に基づいて、前記音声出力終了直後から遡った前記所定区間を決定することを特徴とする請求項３乃至８のいずれかに記載の音声認識装置。
前記バージイン制御手段は、音声エネルギー量検出区間に入力された前記音声信号の音声エネルギー量を検出し、該音声エネルギー量を所定以上検出した場合に、前記バージイン機能の動作が必要と決定することを特徴とする請求項２に記載の音声認識装置。
前記音声エネルギー量検出区間は、前記音声出力の実施中の所定の区間であることを特徴とする請求項１０に記載の音声認識装置。
前記音声エネルギー量検出区間は、前記音声出力終了直後の所定の区間であることを特徴とする請求項１０に記載の音声認識装置。
前記音声出力は、音声メッセージと、該音声メッセージの直後の報知音とから構成され、
前記所定の区間は、前記音声メッセージ終了直後から前記報知音出力直前までの区間であることを特徴とする請求項１１に記載の音声認識装置。
前記音声出力は、少なくとも１つ以上の無音区間を持つ音声メッセージから構成され、
前記所定の区間は、前記無音区間であることを特徴とする請求項１１に記載の音声認識装置。
前記音声出力は、利用者によるＰｕｓｈＴｏＴａｌｋスイッチ(ＰＴＴスイッチ)の押下後、実施され、
前記音声エネルギー量検出区間は、前記ＰＴＴスイッチ押下直後から前記音声出力終了直後までの区間であることを特徴とする請求項１０に記載の音声認識装置。
前記バージイン制御手段は、前記利用者の前記音声信号の音声エネルギー量を検出する機能を備え、前記音声出力終了直後から所定の時間以上連続して、前記音声エネルギー量を所定以上検出しなかった場合に、前記バージイン機能の動作が必要と決定することを特徴とする請求項２に記載の音声認識装置。
前記バージイン制御手段は、前記利用者の前記音声信号の終端から予測音声区間を予測する機能を備え、前記予測音声区間を、前記音声出力終了直後から遡った前記所定区間と決定することを特徴とする請求項１０乃至１６に記載の音声認識装置。
前記バージイン制御手段は、前記利用者の前記音声信号の音声エネルギー量を検出する機能を備え、前記利用者の前記音声信号の開始から終了までの時間が所定の時間以上の場合に、バージイン機能の動作が不要と決定するを特徴とする請求項２に記載の音声認識装置。
利用者に発話開始を促すための音声出力を行い、当該音声出力を実行している最中に音声信号の取得を始め、取得した前記音声信号に重畳される前記音声出力の影響を削除して前記利用者の発話した音声を認識可能とするバージイン機能を有する音声認識装置を用いた音声認識方法であって、
前記音声出力の実施中もしくは実施後に取得した前記音声信号の特徴に基づいて、前記バージイン機能の動作の要否を決定し、
前記バージイン機能の動作が必要と決定した場合のみ、前記バージイン機能を動作させることを特徴とする音声認識方法。