JP2006091130A

JP2006091130A - 音声認識装置および音声認識方法

Info

Publication number: JP2006091130A
Application number: JP2004273706A
Authority: JP
Inventors: Mitsunobu Kaminuma; 充伸神沼
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-09-21
Filing date: 2004-09-21
Publication date: 2006-04-06

Abstract

【課題】背景音が存在する環境下での音声認識装置では、発話者がスイッチの押下でスタンバイ状態が始まるため、無駄時間が存在していた。また、使用者が発話開始するためには装置側が状態完了であることを告知するため使用者は自由に発話することが出来なかった。これら問題を解決した音声認識装置の実現を目的とした。
【解決手段】このため、入力音に対してバッファリング開始の状態としておく。次いで、使用者の音声信号を離散的な信号系列に変換した後、一定時間保存する記憶手段に入力する。一方、使用者は発話終了時にスイッチを押下し、そのタイミングを基準に所望の音声信号を抽出し、この抽出信号を音声認識手段に送出する構成としている。
【選択図】図１

Description

本発明は、車両内部等のように背景雑音が多い環境下で使用する音声認識装置に係る。

カーナビゲーションシステム（以下、カーナビと記す）のように雑音が多く存在する環境下で用いる音声認識装置では、下記「特許文献１」で開示されているように、使用者は音声を入力する前にPush To Talk（以下、ＰＴＴと記す）スイッチ等により、装置に対して音声入力を行うことを告知してから発話を開始する手順となっている。すなわち、一般的には音声認識装置の入力手順としては以下の手順が用いられている。
（ステップ１：使用者）発話内容を考える。
（ステップ２：使用者）ＰＴＴボタンを押す。
（ステップ３：装置）音声認識装置動作開始。
（ステップ４：装置）入力音信号のバッファリング（入力待ち）開始。
（ステップ５：装置）音声認識装置の動作開始を使用者に告知。
（ステップ６：使用者）発話。
（ステップ７：装置）音声の終了を自動的に検出して。
（ステップ８：装置）音声発話区間を検出。
（ステップ９：装置）音声認識処理。

ここで、上記手順のステップ３からステップ６に着目する。使用者が入力を意図してから実際に入力するまでには、
１）ステップ３からステップ５までのシステム処理に係る処理遅延時間が生じるため、使用者は音声認識装置が起動して発話可能な状態となるまで待機させられる。更に、
２）ステップ６における発話の開始は装置主導のタイミングで入力する必要があるため、その分だけ使用者の操作における自由度が低下する。
これらのことは、使用者による誤操作を誘発する原因となっていた。

特開平１１−３８９９５号公報

そこで本発明においては、前記１）の問題に関し、処理遅延時間を生じることなく、かつ、前記２）の問題に関し、使用者主導のタイミングで入力できるような、インタフェースの基本に則った音声認識装置の構築を目指した。

上記のような装置を実現するために以下の処理手順(ステップ)が実現できる音声認識装置を構築した。
（ステップ０：装置）リングバッファによる入力音信号のバッファリング開始。
（ステップ１：使用者）発話内容を考える。
（ステップ２：使用者）発話。
（ステップ３：使用者）発話終了後、スイッチにより終端マーカを入力。
（ステップ４：装置）音声認識装置動作開始。
（ステップ５：装置）音声の開始地点を自動的に検出。
（ステップ６：装置）音声発話区間を検出。
（ステップ７：装置）音声認識処理。
上記手順におけるステップ１からステップ３では使用者が入力を意図して発話を入力するまでの処理であり、途中で音声認識装置の動作が介在する部分がなく、したがって使用者が音声認識装置の動作によって影響を受ける部分がないため遅延時間がなく、かつ、使用者にとって自由なタイミングで発話することができるようにするものである。

上記の各ステップを実行し、前記目的を達成する音声認識装置として、本発明においては以下の基本構成とした。
すなわち、先ず、音声認識装置を入力音に対してバッファリング開始の状態としておく。次いで、使用者の発話である連続的信号の音声信号を音声入力手段で離散的な信号系列に変換し、一定時間保存する記憶手段でこの離散的な音声信号を一時的に記憶する。一方、使用者は発話終了のタイミングをスイッチ手段により音声認識装置に入力し、このタイミングを基準にシステムでは抽出手段を用いて記憶手段に保存されている音声信号から所望の音声信号部分を抽出して音声認識手段に送出する構成としている。

以上述べた構成とすることにより、発話開始時の音声認識装置の動作立ち上げに際して、途中で装置の動作が介在する部分がなく、したがって使用者が装置の動作によって影響を受ける部分がないため遅延時間がなく、使用者主導で自由なタイミングで発話することが可能な状態で、語彙単位、単独単語、あるいは連接単語に対しても、音声認識処理を実行することが出来るようになる。

（実施の形態１）
以下、図１および図５により発明の構成について説明する。
図１は本発明の基本構成を示すブロック図、図２はこの基本構成を含む装置構成の一実施の形態である。なお、図２は後述の実施の形態２においても適用される。
図１の１００で示すマイクロホン（以下マイクと記す）であるマイク手段では、使用者が発話した音声および環境雑音を収集し、電気信号に変換する。これは図２の２００で示すマイクを用いることで実現できる。
図１の１１０で示す音声入力手段では、マイクから入力された電気信号をＡＤ変換して扱いやすい音信号に変換する。これは図２の２１０で示す増幅装置や、図５の２２０で示すＡＤ変換器などによって構成される。ここで、電気信号はＡＤ変換過程を経て、離散的な音信号に変換される。

図１の１２０で示す記憶手段は、入力された音信号を一定の時間保存し続ける。これは図２の２４０で示す演算装置と図２の２５０で示す記憶装置によって実現できる。具体的にはFirst Iｎ First Out（ＦＩＦＯ）方式であるリングバッファ形式であることが望ましい。このＦＩＦＯ方式の記憶装置はデータを入力した順序で出力を取り出す形式の記憶装置である。なお、このリングバッファ形式の記憶手段を使用することは、後述の連続語彙の場合においても望ましい。演算装置としては、例えば、一般的なパーソナルコンピュータ、マイクロコンピュータ、信号処理装置のように演算機能を有するシステムを構成するＣＰＵ、ＭＰＵ、ＤＳＰを単数、或いは複数個組み合わせればよく、実時間処理が可能な演算能力を有していることが望ましい。

また記憶装置もキャッシュメモリ、メインメモリ、ディスクメモリ、フラッシュメモリ、ＲＯＭ等、一般的な情報処理機器に用いられている情報記憶能力を有する機器を用いればよい。記憶手段としてはリングバッファのような記憶装置を用いて、航空機におけるフライトレコーダのように、現在から過去に渉る一定時間の入力信号を常に保存し続ける必要がある。

図１の１３０で示すスイッチ手段（ＳＷ手段）は、使用者が音声入力終了後に第１の終端信号として入力する信号を発生させるために用いられる。これは図２の２６０で示すスイッチによって実現することができる。具体的には、ＯＮ／ＯＦＦ機能を有するトグルスイッチ、ジョグダイアル、ジョイスティック、マウス、トラックボール、フォースフィードバックスイッチ等を単数あるいは複数組み合わせて用いる。

図１の１４０で示す抽出手段は、使用者が音声入力終了後にＳＷ(スイッチ)手段を介して入力した終端信号から、使用者が入力した音声信号の区間を抽出した信号Ｒ１を、図１の１５０で示す音声認識手段に送出する。これは、図２の２４０で示す演算装置と図２の２５０で示す記憶装置によって実現できる。

ここで、音声認識手段１５０は、入力音声に含まれる音素情報を音素列に変換するための情報を有する音素辞書と、入力された音素列を形態素、語彙、文節、文の形態を含む信号Ｒ１００に変換するための情報を有する言語辞書とを有している。

すなわち、入力された音声信号は、一旦記憶手段１２０に記憶された後、使用者がＳＷ手段１３０により入力した終端信号を基準に、抽出手段１４０で入力音声の切り出しを行い、次いで、音声認識手段において、この切り出された入力音声に対して音素辞書を用いて次の認識処理を行うための音素列の切り出しを行い、その後、言語辞書を用いて認識文の作成処理を行う。これにより得られた認識された言語を用いて対象とする機器の操作を行う。

以上述べた構成の音声認識装置における処理フローを以下図６により説明する。
図１の１５０で示す音声認識手段は、図１の抽出手段１４０によって抽出された信号Ｒ１を、テキストなどの信号Ｒ１００に変換して操作機器に送出する。これは、図２の２４０で示す演算装置と図２の２５０で示す記憶装置によって実現できる。

以下、図６を用いて、本発明の一実施例に関する処理の流れについて説明する。
音声認識装置が動作を開始すると、始めにステップＳ１００において初期化処理を行う。
ステップＳ１１０では、終端信号入力の有無を判定する。終端信号の入力が検出されたらステップＳ１２０へ進み、検出されない場合は待ち受け状態となる。
ステップＳ１２０では、終端信号より過去に音声入力が存在することを確認する。音声入力が存在すればステップＳ１３０へ進み、音声入力が存在しなかった場合は誤操作とみなしてステップＳ１１０の待ち受け状態へ戻る。

ステップＳ１３０では、入力された音声信号の終了時刻tn1を検索する。

ステップＳ１４０では、入力された音声信号の開始時刻tn2、またはtn3を検索する。
ステップＳ１５０では、ステップＳ１４０で検出された開始時刻tn2、またはtn3と、ステップＳ１３０で検出された終了時刻tn1とにはさまれた区間の音声信号を抽出し、音声認識処理を行う。処理後に得られた信号Ｒ１００は操作対象となる機器に送出される。この後、再びＳ１１０の待ち受け状態となって一連の音声認識動作を終了させる。
（実施の形態２）
カーナビのように、動的に地図情報を変更するシステムでは、プロセッサの負荷が大きいため、音声認識のために負荷をかけることが困難である。そこで、本発明の動作を、図２に示すように主演算装置２４０（音声認識手段、抽出手段）と副演算装置２７０（判断手段、高速記憶手段の制御）とに割り振ることにより主演算装置の負担を低減することにした。
以下では、音声認識装置の主演算装置の負荷を減らす手法の実施の形態例として、図３および図２を用いて、本実施の形態２の構成を説明する。

図３の１２１で示す高速記憶手段は、マイク１００から入力される音を音声入力手段１１０を介して記憶手段１２０よりも高速で書き込み読み出しを行い、常に短い時間だけ記憶し続ける。これは、図２の２８０で示す高速記憶装置によって実現できる。ただし、図３の１２０で示す記憶手段よりも高速な記憶装置を用いることが望ましい。
図３の１２２で示す判断手段は図３の１２１で示す高速記憶手段に入力された信号を常に監視し、音声と判断できる信号が入力された場合は、速やかに高速記憶手段１２１の内容を図３の１２０で示す記憶手段に転送し、更に、図３の１２０で示す記憶手段によって、入力されてくる音信号の記憶を継続するように記憶手段を切り替える。図３の１３０で示すＳＷ手段によって終端信号が入力されたとき、または、判断手段１２２において、図３の１２０で示す記憶手段に入力されてくる音信号が音声でないと判断したときは、音信号を記憶する手段を図３の１２０の記憶手段から図３の１２１で示す高速記憶手段に変更する。これは、図２の２７０で示す副演算装置と図２の２５０で示す記憶装置または図２の２８０で示す高速記憶装置によって実現できる。

なお、例えば、スイッチ手段１３０による終端信号を誤って発した場合のように、当該終端信号を発した直後にこれを消去したい場合、１回目のスイッチ押下後、極めて短い時間後にスイッチを再度押下することにより（いわゆるダブルクリック）、最初に発した終端信号を削除することが出来る。

なお、スイッチ手段１３０によって終端信号の入力があり、且つ記憶手段に切り替えが発生していない場合は、誤操作と見なして抽出手段１４０の動作を停止する。
図３における記憶装置１２０に記憶されている音声情報の中からＳＷ(スイッチ)手段１３０を用いて抽出手段１４０において必要とする音声信号を切り出し、信号Ｒ１として音声認識手段１５０に入力され、テキストなどの信号Ｒ１００に変換される。
ここで、音声認識手段１５０は、入力された信号Ｒ１を形態素、語彙、文節、文の形態を含む信号Ｒ１００に変換するための情報を有する言語辞書と、入力音声に含まれる音素情報を音素列に変換するための情報を有する音素辞書とを有している。

以下、図７を用いて本実施の形態２による音声認識装置の処理フローを説明する。
音声認識装置が動作を開始すると、始めにステップＳ１００において初期化処理を行う。
ステップＳ１０１では、入力信号の中に音声信号が含まれていたかどうかを判断する。音声入力が含まれていればステップＳ１０２へ進み、音声入力が含まれていなければステップＳ１１１へ進む。
ステップＳ１０２では、高速記憶手段の内容を記憶手段に転送し、その後は、記憶手段によって記憶処理を行うように切替える。このとき、ステップＳ１０２を通過したことを記憶するＦＬＧを１にする。
ステップＳ１１１では、終端信号入力およびＦＬＧの検出を行う。終端信号が入力され、かつ、ＦＬＧ＝１であれば、ステップＳ１２０へ進み、それ以外の場合はステップＳ１０１へ戻り、待ち受け状態となる。
ステップＳ１２０では、音声信号の存在の有無を検出する。音声信号が存在した場合はＳ１３０へ進み、存在しない場合はＦＬＧ＝０として、Ｓ１０１の入力側に戻り、待ち受け状態となる。
ステップＳ１３０では、入力された音声信号の終了した時刻tn1を検索する。ここで、ｎは１より大きい整数で、音声信号検出の回数を示し、最後尾の数字“０”は使用者が入力した終端信号の時刻を、“１”は音声信号の特徴から検出された終了点である音声入力終了した時刻を、“２”あるいは“３”は音声信号から抽出された開始点である音声入力開始点時刻を示している。
ステップＳ１４０では、入力された音声信号の開始点時刻tn2、またはtn3を検索する。
ステップＳ１５０では、ステップＳ１４０で検出された開始時刻tn2、またはtn3と、ステップＳ１３０で検出された終了時刻tn1とにはさまれた区間の音声信号を抽出し、音声認識処理を行う。処理後に得られた信号Ｒ１００は操作対象となる機器に送出される。同時に、ＦＬＧ＝０として再びＳ１０１の待ち受け状態となるか、音声認識装置を終了させる。
(実施の形態３)
発話終了信号を音声信号から抽出する手法の１例を実現するシステム構成について、図４、図５および図２を用いて説明する。
図４において、音声入力手段１１０を介して得られたマイク１００からの音声信号は、記憶手段１２０に逐次入力し記憶される。図４の１３１で示す音声検出手段では事前に定義されたキーワードによる入力信号、または音声の特徴変化による入力信号を検出し、この検出された入力信号の時間を過去に辿る方向で音声信号が終了する直前に音声入力終了信号としての終端信号を挿入する。この終端信号を第２の終端信号として、音声検出手段１３１は音声認識を行う機能を含むことで正確に使用者の入力意図は検出できる（特定の語彙をキーワードとして反応：エアコンＯＮ）が、入力音声の大きさの変化や、音声の特徴の変化（例えば、語尾の上げ下げ、語尾延ばし等：エアコンつけてー）などを検出しても良い。また、特に図示していないが、この第２の終端信号検出手段は第１の終端信号発生用のスイッチ手段と併用しても差し支えない。

図５では、常にキーワードによる入力信号を図５の１５０で示す音声認識手段によって待ちうけ、キーワード入力、すなわち前記第２の終端信号が検出された時点で、図５の１４０で示す抽出手段に処理を戻して、音声区間を抽出し信号Ｒ１を再び図５の音声認識手段１５０によって認識させるといった構成になっている。この場合、音声認識手段は常に動作し続ける必要がある。
ここで、音声認識手段１５０は、入力された信号Ｒ１を形態素、語彙、文節、文の形態を含む信号Ｒ１００に変換するための情報を有する言語辞書と、入力音声に含まれる音素情報を信号Ｒ１に変換するための情報を有する音素辞書とを有している。
（実施の形態４）
以下では図８を用いて、音声区間の決定手法について説明する。
図８は入力された音声信号をＡＤ変換して離散的に表現されている。図８の横軸は時間、縦軸は振幅を表す。
図８の時刻t00は、使用者がＰＴＴスイッチを用いて入力した音声の終端位置を示す第１の終端信号の入力時刻（使用者が入力した終端時刻）を表す。音声認識装置は、時刻t00から過去に遡り、すなわち、先ず、時刻t00より後の音声入力が終了したことを音声検出して時刻t01を検出する。この音声入力終了時刻t01は、抽出手段１４０において音声検出を行い、この検出結果が予め定められた閾値を参照して音声信号が消失したと見なされる時を使用者の音声入力が終了した第３の終端信号として設定される。

この音声検出手法としては、音声信号の特徴量から音声信号であることを検出するが、例えば、パワー成分が大きくなる部分が音声であると判断する手法や、零交差が小さくなる部分が音声であると判断する手法等を単独、あるいは、複数個の既存の手法を当てはめることで実現できる。すなわち、特徴量が予め定められた閾値よりも大きい（あるいは小さい）場合、入力音声信号が消失したと判断する。この音声信号消失と見なされた時刻を使用者が入力した音声信号の終了時刻t01とする。なお、第１の終端信号から第３の終端信号までの区間長が誤操作判定用として予め定められた閾値を越えて大きい場合は、誤操作とみなし、抽出手段１４０および音声認識手段１５０の動作を停止させる。

次に、音声入力の開始点である時刻t02を検出する。時刻t01の検出の場合は無信号区間の検出であったが、時刻t02の検出においては信号が存在する区間の検出であるから、検出には時刻t01の場合とは逆の条件、すなわち上記の特徴量が予め定められた閾値より小さくなった（あるいは大きくなった）時刻を用いて検出すれば良い。この時刻を第１の開始点とする。このとき抽出された時刻t02と時刻t01に挟まれた区間を信号区間候補１として、抽出することで音声すなわち信号Ｒ１が入力された区間を、音声情報として切出し、音声認識手段１５０により認識処理を行う。ところで、図８からもわかるように、連続した音声発話であっても空白時間が存在する。このため、時刻t02の検出では信号の特徴量が音声信号消失を示しても、しばらくは検出を続けることで高い精度で音声区間を抽出できる。また、時刻t02についても、例えば、音声入力開始点時刻t03のように、予め定められた過去の時刻第２の開始点として、時間的に長めに検出区間を設定し、信号区間候補２を抽出された信号（信号Ｒ１）としても良い。
（実施の形態５)
以下では図９を用いて、使用者により連続的に入力された音声信号に関する音声区間の決定手法について説明する。
図９は入力された音声信号をＡＤ変換して離散的に表現しており、横軸は時間、縦軸は振幅を表す。

図９の時刻t(n-1)0は、使用者によって(n-1)回目の発話として入力された終端信号の入力時刻を表す。音声認識装置は、時刻t(n-1)0から過去に遡り、先ず、抽出手段１４０において信号の特徴量から検出された終端時刻t(n-1)1を検出する。このとき、時刻t(n-1)0から時刻t(n-1)1までの区間長が予め設定された閾値を越えて大きい場合は、誤操作とみなし、使用者は再度終端信号の入力が求められる。

次に、音声入力開始点時刻t(n-1)2を検出する。検出には前記時刻t(n-1)1を検出する場合の条件（パワー成分、零交差等）と逆の条件を用いて検出すれば良い。このとき抽出された時刻t(n-1)2と時刻t(n-1)1に挟まれた区間を信号R(n-1)として抽出することで音声信号が入力された区間を、使用者による終端信号の入力時刻t(n-1)0と音声入力の開始点t(n-1)2との区間から切出すことができる。これにより、複数の区間に対してそれぞれ入力された音声信号を切り出すことが可能となる。

図９では、上記の検出処理を行っている間に、使用者によってｎ回目の終端信号（時刻tn0）が入力されている。抽出手段１４０は、上記の検出処理を行った後、更に、上記時刻tn0の終端信号から、時刻tn1で示されるｎ回目の終端信号に最も近い音声が終了した時刻と、時刻tn2で示されるn-1回目の終端信号に最も近い音声開始時刻とを検出する、これは前記第１の開始点に相当する。このとき、時刻tn2および時刻tn1は時刻t(n-1)0と時刻tn0の間に存在する。よって、tn2を検出中にt(n-1)0に達したときは、tn2=t(n-1)0とすればよい。検出された時刻tn2から時刻tn1に挟まれた区間を音声情報の信号Ｒ(ｎ)として抽出する。

さらに、抽出手段１４０において、図９においては図示していないが、時刻t(n-1)2および時刻tn2より一定時間過去の時刻t(n-1)3および時刻tn3を使用者がそれぞれ入力した音声の開始点（すなわち前記第２の開始点に相当）として、時刻t(n-1)3および時刻tn3から終了点として検出された時刻t(n-1)1および時刻tn1までの区間に存在する信号Ｒ(n-1)および信号Ｒ(ｎ)を抽出することもできる。

以上の処理によって抽出された信号Ｒ(n-1)および信号Ｒ(ｎ)は連続した音声情報として、音声認識手段１５０に送出され処理される。
なお、時刻t(n-1)0と時刻tn2の区間長が閾値より大きい場合は２つの音声入力は連続していないと抽出手段は判断し、別々に音声認識手段１５０に送出する。
スイッチ手段１３０、入力された音声信号に含まれるキーワードまたは音声の特徴変化あるいは音声信号の特徴量（パワー、零交差等）により１回目の終端信号を時刻t00または時刻t01において入力し、これら終端信号より後の時刻で(n-1)回目の上記各終端信号の何れかが入力された場合、これら後から入力された終端信号を新たな終端信号と見なし、音声信号の開始点時刻から上記の新たな終端信号時刻の何れかまでの区間を、連続的に入力された音声信号として抽出手段１４０により抽出し、音声認識手段１５０により認識処理を行うことが可能である。

また、上記の音声認識処理において、(n-1)回目のスイッチ手段１３０による終端信号が入力され、音声認識処理が開始された後に上記３種類の終端信号の何れかがｎ回目の終端信号として入力された場合、上記音声処理における(n-1)回目のスイッチ手段による終端信号の入力時刻を、ｎ回目の上記３種類の終端信号の何れかに変更して音声認識処理を行うことも可能である。

なお、音声入力にＰＴＴスイッチを採用することにより、誤って終端信号を入力してしまった場合、再度スイッチの押下を実施することにより（ダブルクリック）短い時間で再度終端信号を入力することが出来、容易に誤入力を削除することが出来る。

(実施の形態６)
本手法は、メニューが階層構造となっており、それぞれの階層において孤立単語音声認識を行い、入力していく音声認識装置の効率を向上させることを目指している。
音声認識における言語辞書は、複数の語が連接する階層構造になっている場合がある。例えば、図１０で示す言語辞書では、第１階層(辞書１０)の語彙は「住所」と「電話番号」の２語であり、第２階層(辞書２１および辞書２２)の語彙には、それぞれ県名と数字が並んでいる。

いま使用者は「神奈川県」を音声認識装置に入力したいとする。
従来の孤立単語音声認識装置によればこの入力処理は以下のように実行される。すなわち、図１０に記載の階層構造の辞書を使用者の入力に応じて次々に呼び出し、それぞれの階層に含まれる認識対象語彙を用いて認識処理を実行する。この孤立単語音声認識の処理手順は以下のように書ける。
（ステップ１：装置）辞書１０を第１階層辞書とする。
（ステップ２：使用者）「住所」と発話を入力
（ステップ３：装置）辞書１０を用いて音声認識処理→「住所」の結果を得る
（ステップ４：装置）「住所」の下位階層にある辞書２１を第１階層辞書とする。
（ステップ５：使用者）「神奈川県」と入力する。
（ステップ６：装置）辞書２１を用いて音声認識処理→「神奈川県」の結果を得る。
このように孤立単語音声認識では、階層構造に配置された辞書を使用者の入力内容に応じて切り替えていくことで、下位階層の情報を入力することができる。

また、従来の連続単語音声認識装置の場合によれば、以下のように入力処理は実行される。すなわち、連続単語音声認識装置では、第１階層と第２階層の単語を連続して発話することで一度に下位階層の単語までたどり着くことができる。例えば、「住所神奈川県」と入力することで「住所神奈川県」が入力可能である。この処理を列挙すれば以下のようになる。

（ステップ１：装置）図１０の階層構造をもとに図１１の連続単語辞書１０を作成、
（ステップ２：使用者）「住所神奈川県」と入力、
（ステップ３：装置）連続単語辞書１０を用いて処理→「住所神奈川県」を得る。

連続単語音声認識装置では、孤立単語音声認識装置と比較して、少ないターン数で入力できる長所がある。しかしながら、使用者による発話時間が長くなることから、使用者による発話誤りが多く発生し、更に、使用者は入力する過程で段階的な達成感が得られないといったインタフェースの構造的な問題も生じる。

上記の従来法の問題点に鑑み、本発明においては、孤立単語音声認識の辞書（図１０）を用いて、連続的に音声入力することができるようにした。例えば、使用者が「住所＜終端信号＞神奈川県＜終端信号＞」と入力したときのシステムの動作を以下に示す。
（ステップ１：装置）辞書１０を第１階層辞書とする。
（ステップ２：使用者）「住所＜終端信号＞神奈川県＜終端信号＞」と発話して入力する。
（ステップ３：装置）辞書１０を用いて「住所＜終端信号＞」音声認識処理→「住所」の結果を得る。
（ステップ４：装置）「住所」の下位階層にある辞書１１を第１階層辞書とする。
（ステップ６：装置）辞書１１を用いて「神奈川県＜終端信号＞」の音声認識処理→「神奈川県」の結果を得る。

ステップ３およびステップ４は、「住所」と「神奈川県」の間に終端記号がそれぞれ挿入されていることから可能となる動作である。これを図９の波形図の上で考えれば、時刻t(n-1)2から時刻t(n-1)1までの区間に抽出された信号（例えば、住所、電話番号）と、それに続く時刻tn2から時刻tn1までの区間に抽出された信号（例えば、県名と数字）との各信号に対してそれぞれに対応する階層の辞書を用いて認識処理を行っている。

上記処理は連続音声入力に対して実行されるものであり、したがって、時刻tn2から時刻t(n-1)1の間隔が予め定められた時間間隔の閾値を越える場合は、信号Ｒ(n-1)と信号Ｒ（ｎ）とは連接している信号では無いと判断して、連接した形態素、語彙、文節、文としての処理は実行しない。

（実施の形態７）
前記連続単語認識と同様に、それぞれの階層辞書に予め書き込まれているスコアを認識に反映させる手法も可能である。ここで、階層辞書に記録されている各語彙には予め定められたスコアが書き込まれているとする。使用者が「住所＜終端信号＞神奈川県＜終端信号＞」と入力したとき、抽出手段は「住所」と「神奈川県」を順に音声認識手段に送出する。このとき、「住所」は、図１０の辞書１０から認識を開始させる。このとき、認識結果の候補として、
（第１階層候補１：スコア3000）住所
（第１階層候補２：スコア1000）電話番号
が得られる。更に、「神奈川県」を図１０における第２階層の辞書２１および辞書２２を用いて認識させる。このとき、認識結果の候補として、
（第２階層候補１：スコア3000）神奈川県
（第２階層候補２：スコア2000）埼玉県
（第２階層候補３：スコア100）８
が得られたとする。よって最終的な認識結果としては、例えば、第１階層候補１の結果と、第２階層候補１の結果で、最大のスコアをもつ「住所」と「神奈川県」から、「住所神奈川県」
が認識結果として得られる。別の手法としては、住所−神奈川県、住所−埼玉県などの連接単語の確率も考慮しても良いし、連接単語の確率の上位だけを用いて第２階層候補を検索しても良い。また、上記の例では、使用者によって少なくとも２つ以上の単語が入力されたことが明らかであることから、始めから図１１の連続単語音声認識用の辞書を当てはめるといった手法も効果的である。

なお、以上説明した本発明に用いる記憶装置は前記のようにリングバッファ形式が望ましい。
尚、上記の実施例は、本発明の実施形態の一例を示したに過ぎず、本発明の適用範囲を限定したものではない。

本発明の基本構成である第１の実施の形態を示すブロック図。図１のブロック図による装置構成図。第２の実施の形態を示すブロック図。第３の実施の形態における１例を示すブロック図。第３の実施の形態における他の１例を示すブロック図。第１の実施の形態における処理流れを示すフロー図。第２の実施の形態における処理流れを示すフロー図。入力音声信号の一形態を示す波形図。入力音声信号の他の一形態を示す波形図。言語辞書の構成例を示すブロック図。連続単語辞書の内容例を示す構成図。

符号の説明

１００、２００：マイクロホン１１０：音声入力手段
１２０：記憶手段１２１：高速記憶手段
１２２：判断手段１３０：ＳＷ手段
１３１：音声検出手段１４０：抽出手段
１５０：音声認識手段２１０：増幅装置
２２０：ＡＤ変換装置２４０：演算装置
２５０：記憶装置２６０：スイッチ
２７０：副演算装置２８０：高速記憶装置

Claims

音声を入力し、音声信号に変換する音声入力手段と、
該入力された音声信号に含まれる音素情報を、音素列を含む第１の信号に変換するための情報を有する音素辞書と、前記第１の信号を形態素、語彙、文節、文、の各形態を含む第２の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識装置であって、
前記入力された音声信号を予め定められた時間だけ記憶し続ける記憶手段と、
使用者が発話終了を示す第１の終端信号を入力するスイッチ手段と、
前記使用者によって前記第１の終端信号が入力された時刻から、前記記憶手段に記憶されている当該時刻より過去に入力された音声信号を抽出する抽出手段とを備え、
前記抽出された音声信号を前記音声認識手段で認識することを特徴とする音声認識装置。
音声を入力し、音声信号に変換する音声入力手段と、
該入力された音声信号に含まれる音素情報を、音素列を含む第１の信号に変換するための情報を有する音素辞書と、前記第１の信号を形態素、語彙、文節、文、の形態を含む第２の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識装置であって、
入力された音声信号を予め定められた時間だけ記憶し続ける記憶手段と、
使用者が発話終了を示す第１の終端信号を入力するスイッチ手段と、
前記使用者によって前記第１の終端信号が入力された時刻から、前記記憶手段に記憶されている当該時刻より過去に入力された音声信号を抽出する抽出手段と、
入力された音を前記記憶手段より高速に、かつ、前記記憶手段より短い時間記憶する高速記憶手段と、
該高速記憶手段の内容について、常に音声か否かを判断する判断手段と、
を有することを特徴とする音声認識装置。
音声を入力し、音声信号に変換する音声入力手段と、
該入力された音声信号に含まれる音素情報を、音素列を含む第１の信号に変換するための情報を有する音素辞書と、前記第１の信号を形態素、語彙、文節、文、の形態を含む第２の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識装置であって、
入力された音声信号を逐次記憶する記憶手段と、
該記憶手段に記憶されている使用者の発話によって入力された音声信号に含まれる予め定められた第２の終端信号を検出する音声検出手段と、
前記第２の終端信号の時刻から、当該時刻より過去に入力された音声を抽出する抽出手段とを備え、
該抽出された音声を前記音声認識手段で認識すること特徴とする音声認識装置。
音声を入力し、音声信号に変換する音声入力手段と、
該入力された音声信号に含まれる音素情報を、音素列を含む第１の信号に変換するための情報を有する音素辞書と、前記第１の信号を形態素、語彙、文節、文、の形態を含む第２の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識装置であって、
入力された音声信号を逐次記憶する記憶手段と、
使用者が発話終了を示す第１の終端信号を入力するスイッチ手段と、
前記記憶手段に記憶されている使用者の発話によって入力された音声信号に含まれる予め定められた第２の終端信号を検出する音声検出手段と、
前記第１の終端信号が入力された時刻または前記第２の終端信号が検出された時刻から、当該時刻より過去に入力された音声を抽出する抽出手段とを備え、
該抽出された音声を前記音声認識手段で認識すること特徴とする音声認識装置。
請求項１乃至請求項４の何れかに記載の音声認識装置において、
前記抽出手段は、
前記使用者によって前記第１または前記第２の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声を検索し、前記第１または第２の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻における信号の特徴量が、音声を検出する処理において予め定められた閾値に対して音声が消失したと見なされる状態になった時刻を第３の終端信号の時刻とすることを特徴とする音声認識装置。
請求項１乃至請求項５の何れかに記載の音声認識装置において、
前記抽出手段は、前記使用者によって前記第１または第２の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された入力信号を過去に遡る方向に検索し、前記第１または第２の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、当該時刻における前記信号の特徴量が、予め定められた閾値に対して音声が発生したと見なされる状態になった時刻を前記使用者が入力した音声の第１の開始点とし、該第１の開始点の時刻から前記第１乃至第３の何れか一つの終端信号の時刻までの区間の音声信号を前記音声認識手段への入力信号として抽出し、
該抽出した音声信号に対して音声認識処理を行うことを特徴とする音声認識装置。
請求項６に記載の音声認識装置において、
前記抽出手段は、
前記使用者により入力された音声信号の第１の入力開始点の時刻より予め定められた時間だけ過去の時刻を前記使用者が入力した音声信号の第２の開始点とし、該第２の開始点の時刻から前記第１乃至第３の何れか一つの終端信号の時刻までの区間の信号を前記音声認識手段への入力信号として抽出することを特徴とする音声認識装置。
請求項６に記載の音声認識装置において、
前記第１の終端信号が入力された時刻と前記第３の終端信号の時刻との間隔が、予め定められた閾値を超える場合は、請求項１から請求項４に記載の抽出手段および音声認識手段の動作を停止することを特徴とする音声認識装置。
請求項２に記載の音声認識装置において、
前記判断手段によって音声が入力されたと判断されたとき、前記高速記憶手段の記憶内容を前記記憶手段に転送し、更に、後続の入力音声を前記記憶手段において記憶を継続するように前記高速記憶手段と前記記憶手段とを切替えることを特徴とする音声認識装置。
請求項２または請求項９に記載した音声認識装置において、
前記スイッチ手段によって前記第１の終端信号の入力があり、且つ前記記憶手段の切り替えが発生していない場合は、誤操作とみなして前記抽出手段の動作を停止することを特徴とする音声認識装置。
請求項２または請求項９に記載の音声認識装置において、
前記スイッチ手段によって前記第１の終端信号の入力があったとき、または、前記判断手段によって前記記憶手段に記憶されてくる入力が音声でないと判断されたときは、前記記憶手段における記憶を停止し、前記高速記憶手段の記憶に切替えることを特徴とする音声認識装置。
請求項１乃至請求項４の何れかに記載の音声認識装置において、
前記記憶手段は一定の時間の入力音をFirst Iｎ First Out方式で記憶可能であること、
を特徴とする音声認識装置。
請求項１乃至請求項４の何れかに記載の音声認識装置において、
前記使用者が前記スイッチ手段を１回押すことで前記第１の終端信号が入力され、該１回目のスイッチ手段の押下から短時間後に続けて２回目を押下するダブルクリックの動作で、一度入力された前記第１の終端信号を削除し得ることを特徴とする音声認識装置。
請求項６または請求項７に記載の音声認識装置において、
ｎを１より大きい整数として、ｎ回の音声入力が成された場合、前記使用者によって(n-1)回目の第１または第２の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声信号を検索し、前記(n-1)回目の第１または第２の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、信号の特徴量が音声を検知する処理において、予め定められた閾値に対して音声信号が消失したと見なされる状態となった時刻を、(n-1)回目の第３の終端信号の時刻とし、
前記使用者によってｎ回目の第１または第２の何れか一方の終端信号が入力された時刻と、前記(n-1)回目の第１または第２の何れか一方の終端信号が入力された時刻との間に入力された音声信号を検索し、前記ｎ回目の第１または第２の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記入力された音声信号の特徴量が音声を検知する処理において予め定められた閾値に対して音声信号が消失したと見なされる状態になった時刻をｎ回目の第３の終端信号の時刻とすることを特徴とする音声認識装置。
請求項１４に記載の音声認識装置において、
前記使用者によって前記(n-1)回目の第１または第２の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声信号を検索し、前記(n-1)回目の第１または第２の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記音声信号の特徴量が音声を検知する処理において信号が存在する状態となったことを検出した時刻を前記使用者が入力した音声信号の(n-1)回目の第１の開始点とし、
該(n-1)回目の第１の開始点時刻から、前記(n-1)回目の音声信号の第１乃至第３の何れか１つの終端時刻までの区間における前記入力された音声信号を前記音声認識手段への入力信号として抽出し、
前記使用者によってｎ回目の前記第１乃至第３の何れか１つの終端信号が入力された時刻と、前記(n-1)回目の第１乃至第２の何れか１つの終端信号が入力された時刻との間の入力された音声信号を検索し、前記ｎ回目の第１乃至第３の何れか１つの終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記信号の特徴量が音声を検知する処理において音声信号が存在する状態となったことを検出した時刻を前記使用者がｎ回目の第１の音声入力の開始点である時刻とし、
該ｎ回目の第１の音声入力の開始点となる時刻から、前記ｎ回目の入力された音声信号の第１乃至第３の何れか１つの終端時刻までの区間における信号を前記音声認識手段に対する入力信号として抽出し、該抽出した信号に対して前記音声認識手段により音声認識処理を行うことを特徴とする音声認識装置。
請求項１５に記載の音声認識装置において、
前記抽出手段は、前記(n-1)回目の入力された音声信号の第１の開始点の時刻または該(n-1)回目の第１の開始点の時刻より一定時間過去の(n-1)回目の入力された音声信号の前記第２の開始点時刻、またはｎ回目の入力された音声信号の前記第１または第２の開始点時刻を前記使用者がそれぞれ入力した音声の開始点とし、前記(n-1)回目の音声入力の第２の開始点時刻、および前記ｎ回目の音声入力の第２の開始点時刻から終了点として検出された前記(n-1)回目の第１乃至第３の何れか１つの終端信号の時刻、および前記ｎ回目の第１または第３の何れか１つの終端信号の時刻までの区間に存在する前記入力された音声信号をそれぞれ前記抽出手段により抽出し、該抽出した音声信号に対して前記音声認識手段により音声認識処理を行うことを特徴とする音声認識装置。
請求項１４乃至請求項１６の何れかに記載の音声認識装置において、
前記使用者によって前記第１または第２の何れかの終端信号の１回目の入力が為され、且つ、該１回目の第１または第２の何れかの終端信号が入力された時刻より後の(n-1)回目の第１乃至第３の何れか１つの終端信号が入力された時刻を新たな第１乃至第３の何れか１つの終端信号と見なし、前記第１または第２の開始点の時刻から前記新たな第１乃至第３の何れか１つの終端信号の時刻までの区間を、前記使用者によって連続的に入力された音声信号として前記抽出手段により抽出し、前記音声認識手段によって認識処理を実行することを特徴とする音声認識装置。
請求項１７に記載の音声認識装置において、
前記使用者により前記(n-1)回目の第１の終端信号が入力され、音声認識処理が開始された後、前記入力された音声信号のｎ回目の第１乃至第３の何れか１つの終端時刻を示す音声信号が入力されたときは、該音声認識処理における(n-1)回目の第１の終端信号の入力時刻を、前記第１の終端信号が入力された時刻からｎ回目の前記第１乃至第３の何れか１つの終端信号の時刻に変更して音声認識処理を行うことを特徴とする音声認識装置。
請求項１７または請求項１８に記載の音声認識装置において、
前記(n-1)回目の第１または第２の音声入力開始点の時刻から前記(n-1)回目の第１乃至第３の何れか一つの終端信号の時刻までの区間で抽出された前記音声信号と、これに続く前記ｎ回目の第１または第２の音声入力開始点の時刻から前記ｎ回目の第１乃至第３の何れか一つの終端信号の時刻までの区間で抽出された前記音声信号とに含まれる音声情報を、前記言語辞書において連接する階層に当てはまる形態素、語彙、文節、文、の情報とみなして、それぞれに対応する階層において認識処理を行うことを特徴とする音声認識装置。
請求項１８に記載の音声認識装置において、
前記ｎ回目の第１または第２の音声開始時刻から前記(n-1)回目の第２または第３の終端信号の検出時刻の間隔が予め定められた閾値を超える場合は、前記音声認識手段として抽出した信号は前記言語辞書において連接する階層に当てはまる形態素、語彙、文節、文、の情報とは見なさないことを特徴とする音声認識装置。
入力された音声を、
予め定められた時間だけ記憶し、
使用者がスイッチ手段により第１の終端信号を入力し、該第１の終端信号を入力した時刻より過去に入力され、前記予め定められた時間だけ記憶された音声を抽出手段において抽出し、
該抽出した信号を音声認識手段において、先ず該入力音声に含まれる音素情報を音素辞書により音素列を含む第１の信号に変換し、次いで言語辞書により前記第１の信号を形態素、語彙、文節、文、の各形態を含む第２の信号に変換し、
該第２の信号を認識された音声とすることを特徴とする音声認識方法。
入力音声を高速記憶手段において、下記記憶手段より高速で且つ短い時間記憶し、
該高速記憶手段の内容が音声か否かを判断手段で判断し、
該判断の結果、音声のみを前記記憶手段に記憶し、
前記記憶手段の内容から、使用者がスイッチ手段により第１の終端信号を入力し、該第１の終端信号を入力した時刻より過去に入力された音声を抽出手段において抽出し、
該抽出した信号を音声認識手段において、先ず該入力音声に含まれる音素情報を音素辞書により音素列を含む第１の信号に変換し、次いで言語辞書により前記第１の信号を形態素、語彙、文節、文、の各形態を含む第２の信号に変換し、
該第２の信号を認識された音声とすることを特徴とする音声認識方法。
音声が音声入力手段により入力され、
該入力された音声に含まれる音素情報を音素列を含む第１の信号に変換するための情報を有する音素辞書と、前記第１の信号を形態素、語彙、文節、文、の形態を含む第２の信号に変換するための情報を有する言語辞書とを用いて音声認識を行う音声認識方法であって、
入力される音声を記憶手段により逐次記憶し、
使用者によって入力された音声信号に含まれる予め定められた第２の終端信号を音声検出手段で検出し、
前記使用者の入力音声信号から検出された前記第１の終端信号の時刻から、当該時刻より過去に入力され、前記記憶手段に記憶された音声を抽出手段により抽出し、
該抽出された音声を前記音声認識手段で認識すること特徴とする音声認識方法。
音声を入力する音声入力手段と、
該入力された音声に含まれる音素情報を、音素列を含む第１の信号に変換するための情報を有する音素辞書と、前記第１の信号を形態素、語彙、文節、文、の形態を含む第２の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識方法であって、
入力される音声を逐次記憶し、
使用者が発話終了を示す第１の終端信号を入力するスイッチ手段と、
前記記憶手段に記憶されている使用者の発話によって入力された音声信号に含まれる予め定められた第２の終端信号を検出し、
前記第１の終端信号が入力された時刻または前記第２の終端信号が検出された時刻から、当該時刻より過去に入力された音声を抽出し、
該抽出された音声を前記音声認識手段で認識すること特徴とする音声認識方法。
請求項２１乃至請求項２４の何れかに記載の音声認識方法において、
前記抽出手段は、
前記使用者によって前記第１または前記第２の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力され、記憶手段に記憶された音声を検索し、前記第１または第２の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻における音声の特徴量が音声を検出する処理において予め定められた閾値に対して音声が消失したと見なされる状態となった時刻を第３の終端信号の時刻とすることを特徴とする音声認識方法。
請求項２１または請求項２５に記載の音声認識方法において、
前記抽出手段は、前記使用者によって前記第１または第２の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された入力信号を過去に遡る方向に検索し、前記第１または第２の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、当該時刻における前記信号の特徴量が予め定められた閾値に対して音声が発生したと見なされる状態となった時刻を前記使用者が入力した音声の第１の開始点とし、該第１の開始点の時刻から前記第１乃至第３の何れかの終端信号の時刻までの区間の信号を前記音声認識手段への入力信号として抽出し、
該抽出した信号に対して音声認識処理を行うことを特徴とする音声認識方法。
請求項２６に記載の音声認識方法において、
前記抽出手段は、
前記使用者による第１の入力開始点の時刻より予め定められた時間だけ過去の時刻を前記使用者が入力した音声の第２の開始点とし、該第２の開始点の時刻から前記第１乃至第３の何れか一つの終端信号の時刻までの区間の信号を前記音声認識手段への入力信号として抽出することを特徴とする音声認識方法。
請求項２６に記載の音声認識方法において、
前記第１の終端信号が入力された時刻と前記第３の終端信号の時刻との間隔が、予め定められた閾値を超える場合は、請求項２１から請求項２４に記載の抽出手段および音声認識手段の動作を停止することを特徴とする音声認識方法。
請求項２２に記載の音声認識方法において、
前記判断手段によって音声が入力されたと判断されたとき、前記高速記憶手段の記憶内容を前記記憶手段に転送し、更に、後続の入力音声を前記記憶手段において記憶を継続するように前記高速記憶手段と前記記憶手段とを切替えることを特徴とする音声認識方法。
請求項２２または請求項２９に記載した音声認識方法において、
前記スイッチ手段によって前記終端信号の入力があり、且つ前記記憶手段の切り替えが発生していない場合は、誤操作とみなして前記抽出手段の動作を停止することを特徴とする音声認識方法。
請求項２２または請求項２９に記載の音声認識方法において、
前記スイッチ手段によって前記第１の終端信号の入力があったとき、または、前記判断手段によって前記記憶手段に記憶されてくる入力が音声でないと判断されたときは、前記記憶手段における記憶を停止し、前記高速記憶手段の記憶に切替えることを特徴とする音声認識方法。
請求項２１乃至請求項２４の何れかに記載の音声認識方法において、
前記記憶手段は一定の時間の入力音をFirst Iｎ First Out方式で記憶可能であることを特徴とする音声認識方法。
請求項２１乃至請求項２４の何れかに記載の音声認識方法において、
前記使用者が前記スイッチ手段を１回押すことで前記第１の終端信号が入力され、該１回目のスイッチ手段の押下から短時間後に続けて２回目を押下するダブルクリックの動作で、一度入力された前記終端信号を削除し得ることを特徴とする音声認識方法。
請求項２６または請求項２７に記載の音声認識方法において、
ｎを１より大きい整数であって、ｎ回の音声入力が成された場合、前記使用者によって(n-1)回目の第１または第２の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声信号を検索し、前記(n-1)回目の第１または第２の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記信号の特徴量が音声を検知する処理において、予め定められた閾値に対して音声信号が消失したとみなされる状態となったことを検出した時刻を、(n-1)回目の第３の終端信号の時刻とし、
前記使用者によってｎ回目の第１または第２の何れか一方の終端信号が入力された時刻と、前記(n-1)回目の第１または第２の何れか一方の終端信号が入力された時刻との間に入力された音声信号を検索し、前記ｎ回目の第１または第２の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記入力された音声信号の特徴量が音声を検知する処理において予め定められた閾値に対して音声が消失したと見なされる状態となった時刻をｎ回目の前記第３の終端信号の時刻とすることを特徴とする音声認識方法。
請求項３４に記載の音声認識方法において、
前記使用者によって前記(n-1)回目の第１または第２の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声信号を検索し、前記(n-1)回目の第１または第２の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記音声信号の特徴量が音声を検知する処理において信号が存在する状態となったことを検出した時刻を前記使用者が入力した音声信号の(n-1)回目の第１の開始点とし、
該(n-1)回目の第１の開始点の時刻から、前記(n-1)回目の音声信号の第１または第２の何れか一方の終端信号の時刻までの区間における入力された音声信号を前記音声認識手段への入力信号として抽出し、
前記使用者によってｎ回目の前記第１または第２の何れか一方の終端信号が入力された時刻と、前記(n-1)回目の第１または第２の何れか一方の終端信号が入力された時刻との間の入力された音声信号を検索し、前記ｎ回目の第１または第２の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記音声信号の特徴量が音声信号を検知する処理において音声信号が存在する状態となったことを検出した時刻を前記使用者がｎ回目の第１の音声入力の開始点である時刻とし、
該ｎ回目の第１の音声入力の開始点となる時刻から、前記ｎ回目の入力された音声信号の第１または第２の何れか一方の終端信号の時刻までの区間における信号を前記音声認識手段に対する入力信号として抽出し、該抽出した信号に対して前記音声認識手段により音声認識処理を行うことを特徴とする音声認識方法。
請求項３５に記載の音声認識方法において、
前記抽出手段は、前記(n-1)回目の音声入力第１の開始点の時刻または該(n-1)回目の第１の開始点の時刻より一定時間過去の(n-1)回目の音声入力の前記第２の開始点時刻、または前記ｎ回目の音声信号の第１または第２の開始点時刻を前記使用者がそれぞれ入力した音声の開始点とし、前記(n-1)回目の音声入力の第２の開始点時刻および前記ｎ回目の音声入力第２の開始点時刻から終了点として検出された前記(n-1)回目の第２または第３の何れか一方の終端信号の時刻、および前記ｎ回目の第２または第３の何れか一方の終端信号の時刻までの区間に存在する入力された信号をそれぞれ前記抽出手段により抽出し、該抽出した音声信号に対して前記音声認識手段により音声認識処理を行うことを特徴とする音声認識方法。
請求項３４または請求項３６に記載の音声認識方法において、
前記使用者によって前記第１または第２の少なくとも一方の終端信号の１回目の入力が為され、且つ、該第１または第２の何れか一方の終端信号が入力された時刻より後に前記第１または第２の何れか一方の終端信号が再度入力された場合、この２回目の第１または第２の何れか一方の終端信号を新たな第１または第２の何れか一方の終端信号とみなし、前記第１または第２の音声入力の開始点の時刻から前記新たな第１または第２の何れか一方の終端信号までの時刻までの区間を、前記使用者によって連続的に入力された音声信号として前記抽出手段により抽出し、前記音声認識手段によって認識処理を実行することを特徴とする音声認識方法。
請求項３４に記載の音声認識方法において、
前記使用者により前記第１の終端信号が入力され、音声認識処理が開始された後、前記入力された音声信号のｎ回目の第１乃至第３の何れか１つの終端信号の時刻を示す音声信号のが入力されたときは、該音声認識処理における(n-1)回目の第１の終端信号の入力時刻を、前記第１の終端信号が入力された時刻からｎ回目の前記第１乃至第３の何れか１つの終端信号の時刻に変更して音声認識処理を行うことを特徴とする音声認識方法。
請求項３７または請求項３８に記載の音声認識方法において、
前記(n-1)回目の第１または第２の音声入力開始点の時刻から前記(n-1)回目の入力された第１乃至第３の何れか１つの終端信号の時刻までの区間で抽出された音声信号と、これに続く前記ｎ回目の第１または第２の何れか一方の音声入力開始点の時刻から前記ｎ回目の第１乃至第３の何れか一つの終端信号の時刻までの区間で抽出された信号とに含まれる音声情報を、前記言語辞書において連接する階層に当てはまる形態素、語彙、文節、文、の情報とみなして、それぞれに対応する階層において認識処理を行うことを特徴とする音声認識方法。
請求項３８に記載の音声認識方法において、
前記ｎ回目の音声開始時刻から前記(n-1)回目の第２または第３の何れか一方の終端信号の検出時刻の間隔が予め定められた閾値を超える場合は、前記音声認識手段として抽出した信号は前記言語辞書において連接する階層に当てはまる形態素、語彙、文節、文、の情報とは見なさないことを特徴とする音声認識方法。