JP2006091130A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2006091130A
JP2006091130A JP2004273706A JP2004273706A JP2006091130A JP 2006091130 A JP2006091130 A JP 2006091130A JP 2004273706 A JP2004273706 A JP 2004273706A JP 2004273706 A JP2004273706 A JP 2004273706A JP 2006091130 A JP2006091130 A JP 2006091130A
Authority
JP
Japan
Prior art keywords
time
signal
input
voice
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004273706A
Other languages
English (en)
Inventor
Mitsunobu Kaminuma
充伸 神沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2004273706A priority Critical patent/JP2006091130A/ja
Publication of JP2006091130A publication Critical patent/JP2006091130A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】背景音が存在する環境下での音声認識装置では、発話者がスイッチの押下でスタンバイ状態が始まるため、無駄時間が存在していた。また、使用者が発話開始するためには装置側が状態完了であることを告知するため使用者は自由に発話することが出来なかった。これら問題を解決した音声認識装置の実現を目的とした。
【解決手段】このため、入力音に対してバッファリング開始の状態としておく。次いで、使用者の音声信号を離散的な信号系列に変換した後、一定時間保存する記憶手段に入力する。一方、使用者は発話終了時にスイッチを押下し、そのタイミングを基準に所望の音声信号を抽出し、この抽出信号を音声認識手段に送出する構成としている。
【選択図】図1

Description

本発明は、車両内部等のように背景雑音が多い環境下で使用する音声認識装置に係る。
カーナビゲーションシステム(以下、カーナビと記す)のように雑音が多く存在する環境下で用いる音声認識装置では、下記「特許文献1」で開示されているように、使用者は音声を入力する前にPush To Talk(以下、PTTと記す)スイッチ等により、装置に対して音声入力を行うことを告知してから発話を開始する手順となっている。すなわち、一般的には音声認識装置の入力手順としては以下の手順が用いられている。
(ステップ1:使用者)発話内容を考える。
(ステップ2:使用者)PTTボタンを押す。
(ステップ3:装置)音声認識装置動作開始。
(ステップ4:装置)入力音信号のバッファリング(入力待ち)開始。
(ステップ5:装置)音声認識装置の動作開始を使用者に告知。
(ステップ6:使用者)発話。
(ステップ7:装置)音声の終了を自動的に検出して。
(ステップ8:装置)音声発話区間を検出。
(ステップ9:装置)音声認識処理。
ここで、上記手順のステップ3からステップ6に着目する。使用者が入力を意図してから実際に入力するまでには、
1)ステップ3からステップ5までのシステム処理に係る処理遅延時間が生じるため、使用者は音声認識装置が起動して発話可能な状態となるまで待機させられる。更に、
2)ステップ6における発話の開始は装置主導のタイミングで入力する必要があるため、その分だけ使用者の操作における自由度が低下する。
これらのことは、使用者による誤操作を誘発する原因となっていた。
特開平11−38995号公報
そこで本発明においては、前記1)の問題に関し、処理遅延時間を生じることなく、かつ、前記2)の問題に関し、使用者主導のタイミングで入力できるような、インタフェースの基本に則った音声認識装置の構築を目指した。
上記のような装置を実現するために以下の処理手順(ステップ)が実現できる音声認識装置を構築した。
(ステップ0:装置)リングバッファによる入力音信号のバッファリング開始。
(ステップ1:使用者)発話内容を考える。
(ステップ2:使用者)発話。
(ステップ3:使用者)発話終了後、スイッチにより終端マーカを入力。
(ステップ4:装置)音声認識装置動作開始。
(ステップ5:装置)音声の開始地点を自動的に検出。
(ステップ6:装置)音声発話区間を検出。
(ステップ7:装置)音声認識処理。
上記手順におけるステップ1からステップ3では使用者が入力を意図して発話を入力するまでの処理であり、途中で音声認識装置の動作が介在する部分がなく、したがって使用者が音声認識装置の動作によって影響を受ける部分がないため遅延時間がなく、かつ、使用者にとって自由なタイミングで発話することができるようにするものである。
上記の各ステップを実行し、前記目的を達成する音声認識装置として、本発明においては以下の基本構成とした。
すなわち、先ず、音声認識装置を入力音に対してバッファリング開始の状態としておく。次いで、使用者の発話である連続的信号の音声信号を音声入力手段で離散的な信号系列に変換し、一定時間保存する記憶手段でこの離散的な音声信号を一時的に記憶する。一方、使用者は発話終了のタイミングをスイッチ手段により音声認識装置に入力し、このタイミングを基準にシステムでは抽出手段を用いて記憶手段に保存されている音声信号から所望の音声信号部分を抽出して音声認識手段に送出する構成としている。
以上述べた構成とすることにより、発話開始時の音声認識装置の動作立ち上げに際して、途中で装置の動作が介在する部分がなく、したがって使用者が装置の動作によって影響を受ける部分がないため遅延時間がなく、使用者主導で自由なタイミングで発話することが可能な状態で、語彙単位、単独単語、あるいは連接単語に対しても、音声認識処理を実行することが出来るようになる。
(実施の形態1)
以下、図1および図5により発明の構成について説明する。
図1は本発明の基本構成を示すブロック図、図2はこの基本構成を含む装置構成の一実施の形態である。なお、図2は後述の実施の形態2においても適用される。
図1の100で示すマイクロホン(以下マイクと記す)であるマイク手段では、使用者が発話した音声および環境雑音を収集し、電気信号に変換する。これは図2の200で示すマイクを用いることで実現できる。
図1の110で示す音声入力手段では、マイクから入力された電気信号をAD変換して扱いやすい音信号に変換する。これは図2の210で示す増幅装置や、図5の220で示すAD変換器などによって構成される。ここで、電気信号はAD変換過程を経て、離散的な音信号に変換される。
図1の120で示す記憶手段は、入力された音信号を一定の時間保存し続ける。これは図2の240で示す演算装置と図2の250で示す記憶装置によって実現できる。具体的にはFirst In First Out(FIFO)方式であるリングバッファ形式であることが望ましい。このFIFO方式の記憶装置はデータを入力した順序で出力を取り出す形式の記憶装置である。なお、このリングバッファ形式の記憶手段を使用することは、後述の連続語彙の場合においても望ましい。演算装置としては、例えば、一般的なパーソナルコンピュータ、マイクロコンピュータ、信号処理装置のように演算機能を有するシステムを構成するCPU、MPU、DSPを単数、或いは複数個組み合わせればよく、実時間処理が可能な演算能力を有していることが望ましい。
また記憶装置もキャッシュメモリ、メインメモリ、ディスクメモリ、フラッシュメモリ、ROM等、一般的な情報処理機器に用いられている情報記憶能力を有する機器を用いればよい。記憶手段としてはリングバッファのような記憶装置を用いて、航空機におけるフライトレコーダのように、現在から過去に渉る一定時間の入力信号を常に保存し続ける必要がある。
図1の130で示すスイッチ手段(SW手段)は、使用者が音声入力終了後に第1の終端信号として入力する信号を発生させるために用いられる。これは図2の260で示すスイッチによって実現することができる。具体的には、ON/OFF機能を有するトグルスイッチ、ジョグダイアル、ジョイスティック、マウス、トラックボール、フォースフィードバックスイッチ等を単数あるいは複数組み合わせて用いる。
図1の140で示す抽出手段は、使用者が音声入力終了後にSW(スイッチ)手段を介して入力した終端信号から、使用者が入力した音声信号の区間を抽出した信号R1を、図1の150で示す音声認識手段に送出する。これは、図2の240で示す演算装置と図2の250で示す記憶装置によって実現できる。
ここで、音声認識手段150は、入力音声に含まれる音素情報を音素列に変換するための情報を有する音素辞書と、入力された音素列を形態素、語彙、文節、文の形態を含む信号R100に変換するための情報を有する言語辞書とを有している。
すなわち、入力された音声信号は、一旦記憶手段120に記憶された後、使用者がSW手段130により入力した終端信号を基準に、抽出手段140で入力音声の切り出しを行い、次いで、音声認識手段において、この切り出された入力音声に対して音素辞書を用いて次の認識処理を行うための音素列の切り出しを行い、その後、言語辞書を用いて認識文の作成処理を行う。これにより得られた認識された言語を用いて対象とする機器の操作を行う。
以上述べた構成の音声認識装置における処理フローを以下図6により説明する。
図1の150で示す音声認識手段は、図1の抽出手段140によって抽出された信号R1を、テキストなどの信号R100に変換して操作機器に送出する。これは、図2の240で示す演算装置と図2の250で示す記憶装置によって実現できる。
以下、図6を用いて、本発明の一実施例に関する処理の流れについて説明する。
音声認識装置が動作を開始すると、始めにステップS100において初期化処理を行う。
ステップS110では、終端信号入力の有無を判定する。終端信号の入力が検出されたらステップS120へ進み、検出されない場合は待ち受け状態となる。
ステップS120では、終端信号より過去に音声入力が存在することを確認する。音声入力が存在すればステップS130へ進み、音声入力が存在しなかった場合は誤操作とみなしてステップS110の待ち受け状態へ戻る。
ステップS130では、入力された音声信号の終了時刻tn1を検索する。
ステップS140では、入力された音声信号の開始時刻tn2、またはtn3を検索する。
ステップS150では、ステップS140で検出された開始時刻tn2、またはtn3と、ステップS130で検出された終了時刻tn1とにはさまれた区間の音声信号を抽出し、音声認識処理を行う。処理後に得られた信号R100は操作対象となる機器に送出される。この後、再びS110の待ち受け状態となって一連の音声認識動作を終了させる。
(実施の形態2)
カーナビのように、動的に地図情報を変更するシステムでは、プロセッサの負荷が大きいため、音声認識のために負荷をかけることが困難である。そこで、本発明の動作を、図2に示すように主演算装置240(音声認識手段、抽出手段)と副演算装置270(判断手段、高速記憶手段の制御)とに割り振ることにより主演算装置の負担を低減することにした。
以下では、音声認識装置の主演算装置の負荷を減らす手法の実施の形態例として、図3および図2を用いて、本実施の形態2の構成を説明する。
図3の121で示す高速記憶手段は、マイク100から入力される音を音声入力手段110を介して記憶手段120よりも高速で書き込み読み出しを行い、常に短い時間だけ記憶し続ける。これは、図2の280で示す高速記憶装置によって実現できる。ただし、図3の120で示す記憶手段よりも高速な記憶装置を用いることが望ましい。
図3の122で示す判断手段は図3の121で示す高速記憶手段に入力された信号を常に監視し、音声と判断できる信号が入力された場合は、速やかに高速記憶手段121の内容を図3の120で示す記憶手段に転送し、更に、図3の120で示す記憶手段によって、入力されてくる音信号の記憶を継続するように記憶手段を切り替える。図3の130で示すSW手段によって終端信号が入力されたとき、または、判断手段122において、図3の120で示す記憶手段に入力されてくる音信号が音声でないと判断したときは、音信号を記憶する手段を図3の120の記憶手段から図3の121で示す高速記憶手段に変更する。これは、図2の270で示す副演算装置と図2の250で示す記憶装置または図2の280で示す高速記憶装置によって実現できる。
なお、例えば、スイッチ手段130による終端信号を誤って発した場合のように、当該終端信号を発した直後にこれを消去したい場合、1回目のスイッチ押下後、極めて短い時間後にスイッチを再度押下することにより(いわゆるダブルクリック)、最初に発した終端信号を削除することが出来る。
なお、スイッチ手段130によって終端信号の入力があり、且つ記憶手段に切り替えが発生していない場合は、誤操作と見なして抽出手段140の動作を停止する。
図3における記憶装置120に記憶されている音声情報の中からSW(スイッチ)手段130を用いて抽出手段140において必要とする音声信号を切り出し、信号R1として音声認識手段150に入力され、テキストなどの信号R100に変換される。
ここで、音声認識手段150は、入力された信号R1を形態素、語彙、文節、文の形態を含む信号R100に変換するための情報を有する言語辞書と、入力音声に含まれる音素情報を音素列に変換するための情報を有する音素辞書とを有している。
以下、図7を用いて本実施の形態2による音声認識装置の処理フローを説明する。
音声認識装置が動作を開始すると、始めにステップS100において初期化処理を行う。
ステップS101では、入力信号の中に音声信号が含まれていたかどうかを判断する。音声入力が含まれていればステップS102へ進み、音声入力が含まれていなければステップS111へ進む。
ステップS102では、高速記憶手段の内容を記憶手段に転送し、その後は、記憶手段によって記憶処理を行うように切替える。このとき、ステップS102を通過したことを記憶するFLGを1にする。
ステップS111では、終端信号入力およびFLGの検出を行う。終端信号が入力され、かつ、FLG=1であれば、ステップS120へ進み、それ以外の場合はステップS101へ戻り、待ち受け状態となる。
ステップS120では、音声信号の存在の有無を検出する。音声信号が存在した場合はS130へ進み、存在しない場合はFLG=0として、S101の入力側に戻り、待ち受け状態となる。
ステップS130では、入力された音声信号の終了した時刻tn1を検索する。ここで、nは1より大きい整数で、音声信号検出の回数を示し、最後尾の数字“0”は使用者が入力した終端信号の時刻を、“1”は音声信号の特徴から検出された終了点である音声入力終了した時刻を、“2”あるいは“3”は音声信号から抽出された開始点である音声入力開始点時刻を示している。
ステップS140では、入力された音声信号の開始点時刻tn2、またはtn3を検索する。
ステップS150では、ステップS140で検出された開始時刻tn2、またはtn3と、ステップS130で検出された終了時刻tn1とにはさまれた区間の音声信号を抽出し、音声認識処理を行う。処理後に得られた信号R100は操作対象となる機器に送出される。同時に、FLG=0として再びS101の待ち受け状態となるか、音声認識装置を終了させる。
(実施の形態3)
発話終了信号を音声信号から抽出する手法の1例を実現するシステム構成について、図4、図5および図2を用いて説明する。
図4において、音声入力手段110を介して得られたマイク100からの音声信号は、記憶手段120に逐次入力し記憶される。図4の131で示す音声検出手段では事前に定義されたキーワードによる入力信号、または音声の特徴変化による入力信号を検出し、この検出された入力信号の時間を過去に辿る方向で音声信号が終了する直前に音声入力終了信号としての終端信号を挿入する。この終端信号を第2の終端信号として、音声検出手段131は音声認識を行う機能を含むことで正確に使用者の入力意図は検出できる(特定の語彙をキーワードとして反応:エアコンON)が、入力音声の大きさの変化や、音声の特徴の変化(例えば、語尾の上げ下げ、語尾延ばし等:エアコンつけてー)などを検出しても良い。また、特に図示していないが、この第2の終端信号検出手段は第1の終端信号発生用のスイッチ手段と併用しても差し支えない。
図5では、常にキーワードによる入力信号を図5の150で示す音声認識手段によって待ちうけ、キーワード入力、すなわち前記第2の終端信号が検出された時点で、図5の140で示す抽出手段に処理を戻して、音声区間を抽出し信号R1を再び図5の音声認識手段150によって認識させるといった構成になっている。この場合、音声認識手段は常に動作し続ける必要がある。
ここで、音声認識手段150は、入力された信号R1を形態素、語彙、文節、文の形態を含む信号R100に変換するための情報を有する言語辞書と、入力音声に含まれる音素情報を信号R1に変換するための情報を有する音素辞書とを有している。
(実施の形態4)
以下では図8を用いて、音声区間の決定手法について説明する。
図8は入力された音声信号をAD変換して離散的に表現されている。図8の横軸は時間、縦軸は振幅を表す。
図8の時刻t00は、使用者がPTTスイッチを用いて入力した音声の終端位置を示す第1の終端信号の入力時刻(使用者が入力した終端時刻)を表す。音声認識装置は、時刻t00から過去に遡り、すなわち、先ず、時刻t00より後の音声入力が終了したことを音声検出して時刻t01を検出する。この音声入力終了時刻t01は、抽出手段140において音声検出を行い、この検出結果が予め定められた閾値を参照して音声信号が消失したと見なされる時を使用者の音声入力が終了した第3の終端信号として設定される。
この音声検出手法としては、音声信号の特徴量から音声信号であることを検出するが、例えば、パワー成分が大きくなる部分が音声であると判断する手法や、零交差が小さくなる部分が音声であると判断する手法等を単独、あるいは、複数個の既存の手法を当てはめることで実現できる。すなわち、特徴量が予め定められた閾値よりも大きい(あるいは小さい)場合、入力音声信号が消失したと判断する。この音声信号消失と見なされた時刻を使用者が入力した音声信号の終了時刻t01とする。なお、第1の終端信号から第3の終端信号までの区間長が誤操作判定用として予め定められた閾値を越えて大きい場合は、誤操作とみなし、抽出手段140および音声認識手段150の動作を停止させる。
次に、音声入力の開始点である時刻t02を検出する。時刻t01の検出の場合は無信号区間の検出であったが、時刻t02の検出においては信号が存在する区間の検出であるから、検出には時刻t01の場合とは逆の条件、すなわち上記の特徴量が予め定められた閾値より小さくなった(あるいは大きくなった)時刻を用いて検出すれば良い。この時刻を第1の開始点とする。このとき抽出された時刻t02と時刻t01に挟まれた区間を信号区間候補1として、抽出することで音声すなわち信号R1が入力された区間を、音声情報として切出し、音声認識手段150により認識処理を行う。ところで、図8からもわかるように、連続した音声発話であっても空白時間が存在する。このため、時刻t02の検出では信号の特徴量が音声信号消失を示しても、しばらくは検出を続けることで高い精度で音声区間を抽出できる。また、時刻t02についても、例えば、音声入力開始点時刻t03のように、予め定められた過去の時刻第2の開始点として、時間的に長めに検出区間を設定し、信号区間候補2を抽出された信号(信号R1)としても良い。
(実施の形態5)
以下では図9を用いて、使用者により連続的に入力された音声信号に関する音声区間の決定手法について説明する。
図9は入力された音声信号をAD変換して離散的に表現しており、横軸は時間、縦軸は振幅を表す。
図9の時刻t(n-1)0は、使用者によって(n-1)回目の発話として入力された終端信号の入力時刻を表す。音声認識装置は、時刻t(n-1)0から過去に遡り、先ず、抽出手段140において信号の特徴量から検出された終端時刻t(n-1)1を検出する。このとき、時刻t(n-1)0から時刻t(n-1)1までの区間長が予め設定された閾値を越えて大きい場合は、誤操作とみなし、使用者は再度終端信号の入力が求められる。
次に、音声入力開始点時刻t(n-1)2を検出する。検出には前記時刻t(n-1)1を検出する場合の条件(パワー成分、零交差等)と逆の条件を用いて検出すれば良い。このとき抽出された時刻t(n-1)2と時刻t(n-1)1に挟まれた区間を信号R(n-1)として抽出することで音声信号が入力された区間を、使用者による終端信号の入力時刻t(n-1)0と音声入力の開始点t(n-1)2との区間から切出すことができる。これにより、複数の区間に対してそれぞれ入力された音声信号を切り出すことが可能となる。
図9では、上記の検出処理を行っている間に、使用者によってn回目の終端信号(時刻tn0)が入力されている。抽出手段140は、上記の検出処理を行った後、更に、上記時刻tn0の終端信号から、時刻tn1で示されるn回目の終端信号に最も近い音声が終了した時刻と、時刻tn2で示されるn-1回目の終端信号に最も近い音声開始時刻とを検出する、これは前記第1の開始点に相当する。このとき、時刻tn2および時刻tn1は時刻t(n-1)0と時刻tn0の間に存在する。よって、tn2を検出中にt(n-1)0に達したときは、tn2=t(n-1)0とすればよい。検出された時刻tn2から時刻tn1に挟まれた区間を音声情報の信号R(n)として抽出する。
さらに、抽出手段140において、図9においては図示していないが、時刻t(n-1)2および時刻tn2より一定時間過去の時刻t(n-1)3および時刻tn3を使用者がそれぞれ入力した音声の開始点(すなわち前記第2の開始点に相当)として、時刻t(n-1)3および時刻tn3から終了点として検出された時刻t(n-1)1および時刻tn1までの区間に存在する信号R(n-1)および信号R(n)を抽出することもできる。
以上の処理によって抽出された信号R(n-1)および信号R(n)は連続した音声情報として、音声認識手段150に送出され処理される。
なお、時刻t(n-1)0と時刻tn2の区間長が閾値より大きい場合は2つの音声入力は連続していないと抽出手段は判断し、別々に音声認識手段150に送出する。
スイッチ手段130、入力された音声信号に含まれるキーワードまたは音声の特徴変化あるいは音声信号の特徴量(パワー、零交差等)により1回目の終端信号を時刻t00または時刻t01において入力し、これら終端信号より後の時刻で(n-1)回目の上記各終端信号の何れかが入力された場合、これら後から入力された終端信号を新たな終端信号と見なし、音声信号の開始点時刻から上記の新たな終端信号時刻の何れかまでの区間を、連続的に入力された音声信号として抽出手段140により抽出し、音声認識手段150により認識処理を行うことが可能である。
また、上記の音声認識処理において、(n-1)回目のスイッチ手段130による終端信号が入力され、音声認識処理が開始された後に上記3種類の終端信号の何れかがn回目の終端信号として入力された場合、上記音声処理における(n-1)回目のスイッチ手段による終端信号の入力時刻を、n回目の上記3種類の終端信号の何れかに変更して音声認識処理を行うことも可能である。
なお、音声入力にPTTスイッチを採用することにより、誤って終端信号を入力してしまった場合、再度スイッチの押下を実施することにより(ダブルクリック)短い時間で再度終端信号を入力することが出来、容易に誤入力を削除することが出来る。
(実施の形態6)
本手法は、メニューが階層構造となっており、それぞれの階層において孤立単語音声認識を行い、入力していく音声認識装置の効率を向上させることを目指している。
音声認識における言語辞書は、複数の語が連接する階層構造になっている場合がある。例えば、図10で示す言語辞書では、第1階層(辞書10)の語彙は「住所」と「電話番号」の2語であり、第2階層(辞書21および辞書22)の語彙には、それぞれ県名と数字が並んでいる。
いま使用者は「神奈川県」を音声認識装置に入力したいとする。
従来の孤立単語音声認識装置によればこの入力処理は以下のように実行される。すなわち、図10に記載の階層構造の辞書を使用者の入力に応じて次々に呼び出し、それぞれの階層に含まれる認識対象語彙を用いて認識処理を実行する。この孤立単語音声認識の処理手順は以下のように書ける。
(ステップ1:装置)辞書10を第1階層辞書とする。
(ステップ2:使用者)「住所」と発話を入力
(ステップ3:装置)辞書10を用いて音声認識処理→「住所」の結果を得る
(ステップ4:装置)「住所」の下位階層にある辞書21を第1階層辞書とする。
(ステップ5:使用者)「神奈川県」と入力する。
(ステップ6:装置)辞書21を用いて音声認識処理→「神奈川県」の結果を得る。
このように孤立単語音声認識では、階層構造に配置された辞書を使用者の入力内容に応じて切り替えていくことで、下位階層の情報を入力することができる。
また、従来の連続単語音声認識装置の場合によれば、以下のように入力処理は実行される。すなわち、連続単語音声認識装置では、第1階層と第2階層の単語を連続して発話することで一度に下位階層の単語までたどり着くことができる。例えば、「住所神奈川県」と入力することで「住所神奈川県」が入力可能である。この処理を列挙すれば以下のようになる。
(ステップ1:装置)図10の階層構造をもとに図11の連続単語辞書10を作成、
(ステップ2:使用者)「住所神奈川県」と入力、
(ステップ3:装置)連続単語辞書10を用いて処理→「住所神奈川県」を得る。
連続単語音声認識装置では、孤立単語音声認識装置と比較して、少ないターン数で入力できる長所がある。しかしながら、使用者による発話時間が長くなることから、使用者による発話誤りが多く発生し、更に、使用者は入力する過程で段階的な達成感が得られないといったインタフェースの構造的な問題も生じる。
上記の従来法の問題点に鑑み、本発明においては、孤立単語音声認識の辞書(図10)を用いて、連続的に音声入力することができるようにした。例えば、使用者が「住所<終端信号>神奈川県<終端信号>」と入力したときのシステムの動作を以下に示す。
(ステップ1:装置)辞書10を第1階層辞書とする。
(ステップ2:使用者)「住所<終端信号>神奈川県<終端信号>」と発話して入力する。
(ステップ3:装置)辞書10を用いて「住所<終端信号>」音声認識処理→「住所」の結果を得る。
(ステップ4:装置)「住所」の下位階層にある辞書11を第1階層辞書とする。
(ステップ6:装置)辞書11を用いて「神奈川県<終端信号>」の音声認識処理→「神奈川県」の結果を得る。
ステップ3およびステップ4は、「住所」と「神奈川県」の間に終端記号がそれぞれ挿入されていることから可能となる動作である。これを図9の波形図の上で考えれば、時刻t(n-1)2から時刻t(n-1)1までの区間に抽出された信号(例えば、住所、電話番号)と、それに続く時刻tn2から時刻tn1までの区間に抽出された信号(例えば、県名と数字)との各信号に対してそれぞれに対応する階層の辞書を用いて認識処理を行っている。
上記処理は連続音声入力に対して実行されるものであり、したがって、時刻tn2から時刻t(n-1)1の間隔が予め定められた時間間隔の閾値を越える場合は、信号R(n-1)と信号R(n)とは連接している信号では無いと判断して、連接した形態素、語彙、文節、文としての処理は実行しない。
(実施の形態7)
前記連続単語認識と同様に、それぞれの階層辞書に予め書き込まれているスコアを認識に反映させる手法も可能である。ここで、階層辞書に記録されている各語彙には予め定められたスコアが書き込まれているとする。使用者が「住所<終端信号>神奈川県<終端信号>」と入力したとき、抽出手段は「住所」と「神奈川県」を順に音声認識手段に送出する。このとき、「住所」は、図10の辞書10から認識を開始させる。このとき、認識結果の候補として、
(第1階層候補1:スコア3000)住所
(第1階層候補2:スコア1000)電話番号
が得られる。更に、「神奈川県」を図10における第2階層の辞書21および辞書22を用いて認識させる。このとき、認識結果の候補として、
(第2階層候補1:スコア3000)神奈川県
(第2階層候補2:スコア2000)埼玉県
(第2階層候補3:スコア100)8
が得られたとする。よって最終的な認識結果としては、例えば、第1階層候補1の結果と、第2階層候補1の結果で、最大のスコアをもつ「住所」と「神奈川県」から、「住所神奈川県」
が認識結果として得られる。別の手法としては、住所−神奈川県、住所−埼玉県などの連接単語の確率も考慮しても良いし、連接単語の確率の上位だけを用いて第2階層候補を検索しても良い。また、上記の例では、使用者によって少なくとも2つ以上の単語が入力されたことが明らかであることから、始めから図11の連続単語音声認識用の辞書を当てはめるといった手法も効果的である。
なお、以上説明した本発明に用いる記憶装置は前記のようにリングバッファ形式が望ましい。
尚、上記の実施例は、本発明の実施形態の一例を示したに過ぎず、本発明の適用範囲を限定したものではない。
本発明の基本構成である第1の実施の形態を示すブロック図。 図1のブロック図による装置構成図。 第2の実施の形態を示すブロック図。 第3の実施の形態における1例を示すブロック図。 第3の実施の形態における他の1例を示すブロック図。 第1の実施の形態における処理流れを示すフロー図。 第2の実施の形態における処理流れを示すフロー図。 入力音声信号の一形態を示す波形図。 入力音声信号の他の一形態を示す波形図。 言語辞書の構成例を示すブロック図。 連続単語辞書の内容例を示す構成図。
符号の説明
100、200:マイクロホン 110:音声入力手段
120:記憶手段 121:高速記憶手段
122:判断手段 130:SW手段
131:音声検出手段 140:抽出手段
150:音声認識手段 210:増幅装置
220:AD変換装置 240:演算装置
250:記憶装置 260:スイッチ
270:副演算装置 280:高速記憶装置

Claims (40)

  1. 音声を入力し、音声信号に変換する音声入力手段と、
    該入力された音声信号に含まれる音素情報を、音素列を含む第1の信号に変換するための情報を有する音素辞書と、前記第1の信号を形態素、語彙、文節、文、の各形態を含む第2の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識装置であって、
    前記入力された音声信号を予め定められた時間だけ記憶し続ける記憶手段と、
    使用者が発話終了を示す第1の終端信号を入力するスイッチ手段と、
    前記使用者によって前記第1の終端信号が入力された時刻から、前記記憶手段に記憶されている当該時刻より過去に入力された音声信号を抽出する抽出手段とを備え、
    前記抽出された音声信号を前記音声認識手段で認識することを特徴とする音声認識装置。
  2. 音声を入力し、音声信号に変換する音声入力手段と、
    該入力された音声信号に含まれる音素情報を、音素列を含む第1の信号に変換するための情報を有する音素辞書と、前記第1の信号を形態素、語彙、文節、文、の形態を含む第2の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識装置であって、
    入力された音声信号を予め定められた時間だけ記憶し続ける記憶手段と、
    使用者が発話終了を示す第1の終端信号を入力するスイッチ手段と、
    前記使用者によって前記第1の終端信号が入力された時刻から、前記記憶手段に記憶されている当該時刻より過去に入力された音声信号を抽出する抽出手段と、
    入力された音を前記記憶手段より高速に、かつ、前記記憶手段より短い時間記憶する高速記憶手段と、
    該高速記憶手段の内容について、常に音声か否かを判断する判断手段と、
    を有することを特徴とする音声認識装置。
  3. 音声を入力し、音声信号に変換する音声入力手段と、
    該入力された音声信号に含まれる音素情報を、音素列を含む第1の信号に変換するための情報を有する音素辞書と、前記第1の信号を形態素、語彙、文節、文、の形態を含む第2の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識装置であって、
    入力された音声信号を逐次記憶する記憶手段と、
    該記憶手段に記憶されている使用者の発話によって入力された音声信号に含まれる予め定められた第2の終端信号を検出する音声検出手段と、
    前記第2の終端信号の時刻から、当該時刻より過去に入力された音声を抽出する抽出手段とを備え、
    該抽出された音声を前記音声認識手段で認識すること特徴とする音声認識装置。
  4. 音声を入力し、音声信号に変換する音声入力手段と、
    該入力された音声信号に含まれる音素情報を、音素列を含む第1の信号に変換するための情報を有する音素辞書と、前記第1の信号を形態素、語彙、文節、文、の形態を含む第2の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識装置であって、
    入力された音声信号を逐次記憶する記憶手段と、
    使用者が発話終了を示す第1の終端信号を入力するスイッチ手段と、
    前記記憶手段に記憶されている使用者の発話によって入力された音声信号に含まれる予め定められた第2の終端信号を検出する音声検出手段と、
    前記第1の終端信号が入力された時刻または前記第2の終端信号が検出された時刻から、当該時刻より過去に入力された音声を抽出する抽出手段とを備え、
    該抽出された音声を前記音声認識手段で認識すること特徴とする音声認識装置。
  5. 請求項1乃至請求項4の何れかに記載の音声認識装置において、
    前記抽出手段は、
    前記使用者によって前記第1または前記第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声を検索し、前記第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻における信号の特徴量が、音声を検出する処理において予め定められた閾値に対して音声が消失したと見なされる状態になった時刻を第3の終端信号の時刻とすることを特徴とする音声認識装置。
  6. 請求項1乃至請求項5の何れかに記載の音声認識装置において、
    前記抽出手段は、前記使用者によって前記第1または第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された入力信号を過去に遡る方向に検索し、前記第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、当該時刻における前記信号の特徴量が、予め定められた閾値に対して音声が発生したと見なされる状態になった時刻を前記使用者が入力した音声の第1の開始点とし、該第1の開始点の時刻から前記第1乃至第3の何れか一つの終端信号の時刻までの区間の音声信号を前記音声認識手段への入力信号として抽出し、
    該抽出した音声信号に対して音声認識処理を行うことを特徴とする音声認識装置。
  7. 請求項6に記載の音声認識装置において、
    前記抽出手段は、
    前記使用者により入力された音声信号の第1の入力開始点の時刻より予め定められた時間だけ過去の時刻を前記使用者が入力した音声信号の第2の開始点とし、該第2の開始点の時刻から前記第1乃至第3の何れか一つの終端信号の時刻までの区間の信号を前記音声認識手段への入力信号として抽出することを特徴とする音声認識装置。
  8. 請求項6に記載の音声認識装置において、
    前記第1の終端信号が入力された時刻と前記第3の終端信号の時刻との間隔が、予め定められた閾値を超える場合は、請求項1から請求項4に記載の抽出手段および音声認識手段の動作を停止することを特徴とする音声認識装置。
  9. 請求項2に記載の音声認識装置において、
    前記判断手段によって音声が入力されたと判断されたとき、前記高速記憶手段の記憶内容を前記記憶手段に転送し、更に、後続の入力音声を前記記憶手段において記憶を継続するように前記高速記憶手段と前記記憶手段とを切替えることを特徴とする音声認識装置。
  10. 請求項2または請求項9に記載した音声認識装置において、
    前記スイッチ手段によって前記第1の終端信号の入力があり、且つ前記記憶手段の切り替えが発生していない場合は、誤操作とみなして前記抽出手段の動作を停止することを特徴とする音声認識装置。
  11. 請求項2または請求項9に記載の音声認識装置において、
    前記スイッチ手段によって前記第1の終端信号の入力があったとき、または、前記判断手段によって前記記憶手段に記憶されてくる入力が音声でないと判断されたときは、前記記憶手段における記憶を停止し、前記高速記憶手段の記憶に切替えることを特徴とする音声認識装置。
  12. 請求項1乃至請求項4の何れかに記載の音声認識装置において、
    前記記憶手段は一定の時間の入力音をFirst In First Out方式で記憶可能であること、
    を特徴とする音声認識装置。
  13. 請求項1乃至請求項4の何れかに記載の音声認識装置において、
    前記使用者が前記スイッチ手段を1回押すことで前記第1の終端信号が入力され、該1回目のスイッチ手段の押下から短時間後に続けて2回目を押下するダブルクリックの動作で、一度入力された前記第1の終端信号を削除し得ることを特徴とする音声認識装置。
  14. 請求項6または請求項7に記載の音声認識装置において、
    nを1より大きい整数として、n回の音声入力が成された場合、前記使用者によって(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声信号を検索し、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、信号の特徴量が音声を検知する処理において、予め定められた閾値に対して音声信号が消失したと見なされる状態となった時刻を、(n-1)回目の第3の終端信号の時刻とし、
    前記使用者によってn回目の第1または第2の何れか一方の終端信号が入力された時刻と、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻との間に入力された音声信号を検索し、前記n回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記入力された音声信号の特徴量が音声を検知する処理において予め定められた閾値に対して音声信号が消失したと見なされる状態になった時刻をn回目の第3の終端信号の時刻とすることを特徴とする音声認識装置。
  15. 請求項14に記載の音声認識装置において、
    前記使用者によって前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声信号を検索し、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記音声信号の特徴量が音声を検知する処理において信号が存在する状態となったことを検出した時刻を前記使用者が入力した音声信号の(n-1)回目の第1の開始点とし、
    該(n-1)回目の第1の開始点時刻から、前記(n-1)回目の音声信号の第1乃至第3の何れか1つの終端時刻までの区間における前記入力された音声信号を前記音声認識手段への入力信号として抽出し、
    前記使用者によってn回目の前記第1乃至第3の何れか1つの終端信号が入力された時刻と、前記(n-1)回目の第1乃至第2の何れか1つの終端信号が入力された時刻との間の入力された音声信号を検索し、前記n回目の第1乃至第3の何れか1つの終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記信号の特徴量が音声を検知する処理において音声信号が存在する状態となったことを検出した時刻を前記使用者がn回目の第1の音声入力の開始点である時刻とし、
    該n回目の第1の音声入力の開始点となる時刻から、前記n回目の入力された音声信号の第1乃至第3の何れか1つの終端時刻までの区間における信号を前記音声認識手段に対する入力信号として抽出し、該抽出した信号に対して前記音声認識手段により音声認識処理を行うことを特徴とする音声認識装置。
  16. 請求項15に記載の音声認識装置において、
    前記抽出手段は、前記(n-1)回目の入力された音声信号の第1の開始点の時刻または該(n-1)回目の第1の開始点の時刻より一定時間過去の(n-1)回目の入力された音声信号の前記第2の開始点時刻、またはn回目の入力された音声信号の前記第1または第2の開始点時刻を前記使用者がそれぞれ入力した音声の開始点とし、前記(n-1)回目の音声入力の第2の開始点時刻、および前記n回目の音声入力の第2の開始点時刻から終了点として検出された前記(n-1)回目の第1乃至第3の何れか1つの終端信号の時刻、および前記n回目の第1または第3の何れか1つの終端信号の時刻までの区間に存在する前記入力された音声信号をそれぞれ前記抽出手段により抽出し、該抽出した音声信号に対して前記音声認識手段により音声認識処理を行うことを特徴とする音声認識装置。
  17. 請求項14乃至請求項16の何れかに記載の音声認識装置において、
    前記使用者によって前記第1または第2の何れかの終端信号の1回目の入力が為され、且つ、該1回目の第1または第2の何れかの終端信号が入力された時刻より後の(n-1)回目の第1乃至第3の何れか1つの終端信号が入力された時刻を新たな第1乃至第3の何れか1つの終端信号と見なし、前記第1または第2の開始点の時刻から前記新たな第1乃至第3の何れか1つの終端信号の時刻までの区間を、前記使用者によって連続的に入力された音声信号として前記抽出手段により抽出し、前記音声認識手段によって認識処理を実行することを特徴とする音声認識装置。
  18. 請求項17に記載の音声認識装置において、
    前記使用者により前記(n-1)回目の第1の終端信号が入力され、音声認識処理が開始された後、前記入力された音声信号のn回目の第1乃至第3の何れか1つの終端時刻を示す音声信号が入力されたときは、該音声認識処理における(n-1)回目の第1の終端信号の入力時刻を、前記第1の終端信号が入力された時刻からn回目の前記第1乃至第3の何れか1つの終端信号の時刻に変更して音声認識処理を行うことを特徴とする音声認識装置。
  19. 請求項17または請求項18に記載の音声認識装置において、
    前記(n-1)回目の第1または第2の音声入力開始点の時刻から前記(n-1)回目の第1乃至第3の何れか一つの終端信号の時刻までの区間で抽出された前記音声信号と、これに続く前記n回目の第1または第2の音声入力開始点の時刻から前記n回目の第1乃至第3の何れか一つの終端信号の時刻までの区間で抽出された前記音声信号とに含まれる音声情報を、前記言語辞書において連接する階層に当てはまる形態素、語彙、文節、文、の情報とみなして、それぞれに対応する階層において認識処理を行うことを特徴とする音声認識装置。
  20. 請求項18に記載の音声認識装置において、
    前記n回目の第1または第2の音声開始時刻から前記(n-1)回目の第2または第3の終端信号の検出時刻の間隔が予め定められた閾値を超える場合は、前記音声認識手段として抽出した信号は前記言語辞書において連接する階層に当てはまる形態素、語彙、文節、文、の情報とは見なさないことを特徴とする音声認識装置。
  21. 入力された音声を、
    予め定められた時間だけ記憶し、
    使用者がスイッチ手段により第1の終端信号を入力し、該第1の終端信号を入力した時刻より過去に入力され、前記予め定められた時間だけ記憶された音声を抽出手段において抽出し、
    該抽出した信号を音声認識手段において、先ず該入力音声に含まれる音素情報を音素辞書により音素列を含む第1の信号に変換し、次いで言語辞書により前記第1の信号を形態素、語彙、文節、文、の各形態を含む第2の信号に変換し、
    該第2の信号を認識された音声とすることを特徴とする音声認識方法。
  22. 入力音声を高速記憶手段において、下記記憶手段より高速で且つ短い時間記憶し、
    該高速記憶手段の内容が音声か否かを判断手段で判断し、
    該判断の結果、音声のみを前記記憶手段に記憶し、
    前記記憶手段の内容から、使用者がスイッチ手段により第1の終端信号を入力し、該第1の終端信号を入力した時刻より過去に入力された音声を抽出手段において抽出し、
    該抽出した信号を音声認識手段において、先ず該入力音声に含まれる音素情報を音素辞書により音素列を含む第1の信号に変換し、次いで言語辞書により前記第1の信号を形態素、語彙、文節、文、の各形態を含む第2の信号に変換し、
    該第2の信号を認識された音声とすることを特徴とする音声認識方法。
  23. 音声が音声入力手段により入力され、
    該入力された音声に含まれる音素情報を音素列を含む第1の信号に変換するための情報を有する音素辞書と、前記第1の信号を形態素、語彙、文節、文、の形態を含む第2の信号に変換するための情報を有する言語辞書とを用いて音声認識を行う音声認識方法であって、
    入力される音声を記憶手段により逐次記憶し、
    使用者によって入力された音声信号に含まれる予め定められた第2の終端信号を音声検出手段で検出し、
    前記使用者の入力音声信号から検出された前記第1の終端信号の時刻から、当該時刻より過去に入力され、前記記憶手段に記憶された音声を抽出手段により抽出し、
    該抽出された音声を前記音声認識手段で認識すること特徴とする音声認識方法。
  24. 音声を入力する音声入力手段と、
    該入力された音声に含まれる音素情報を、音素列を含む第1の信号に変換するための情報を有する音素辞書と、前記第1の信号を形態素、語彙、文節、文、の形態を含む第2の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識方法であって、
    入力される音声を逐次記憶し、
    使用者が発話終了を示す第1の終端信号を入力するスイッチ手段と、
    前記記憶手段に記憶されている使用者の発話によって入力された音声信号に含まれる予め定められた第2の終端信号を検出し、
    前記第1の終端信号が入力された時刻または前記第2の終端信号が検出された時刻から、当該時刻より過去に入力された音声を抽出し、
    該抽出された音声を前記音声認識手段で認識すること特徴とする音声認識方法。
  25. 請求項21乃至請求項24の何れかに記載の音声認識方法において、
    前記抽出手段は、
    前記使用者によって前記第1または前記第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力され、記憶手段に記憶された音声を検索し、前記第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻における音声の特徴量が音声を検出する処理において予め定められた閾値に対して音声が消失したと見なされる状態となった時刻を第3の終端信号の時刻とすることを特徴とする音声認識方法。
  26. 請求項21または請求項25に記載の音声認識方法において、
    前記抽出手段は、前記使用者によって前記第1または第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された入力信号を過去に遡る方向に検索し、前記第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、当該時刻における前記信号の特徴量が予め定められた閾値に対して音声が発生したと見なされる状態となった時刻を前記使用者が入力した音声の第1の開始点とし、該第1の開始点の時刻から前記第1乃至第3の何れかの終端信号の時刻までの区間の信号を前記音声認識手段への入力信号として抽出し、
    該抽出した信号に対して音声認識処理を行うことを特徴とする音声認識方法。
  27. 請求項26に記載の音声認識方法において、
    前記抽出手段は、
    前記使用者による第1の入力開始点の時刻より予め定められた時間だけ過去の時刻を前記使用者が入力した音声の第2の開始点とし、該第2の開始点の時刻から前記第1乃至第3の何れか一つの終端信号の時刻までの区間の信号を前記音声認識手段への入力信号として抽出することを特徴とする音声認識方法。
  28. 請求項26に記載の音声認識方法において、
    前記第1の終端信号が入力された時刻と前記第3の終端信号の時刻との間隔が、予め定められた閾値を超える場合は、請求項21から請求項24に記載の抽出手段および音声認識手段の動作を停止することを特徴とする音声認識方法。
  29. 請求項22に記載の音声認識方法において、
    前記判断手段によって音声が入力されたと判断されたとき、前記高速記憶手段の記憶内容を前記記憶手段に転送し、更に、後続の入力音声を前記記憶手段において記憶を継続するように前記高速記憶手段と前記記憶手段とを切替えることを特徴とする音声認識方法。
  30. 請求項22または請求項29に記載した音声認識方法において、
    前記スイッチ手段によって前記終端信号の入力があり、且つ前記記憶手段の切り替えが発生していない場合は、誤操作とみなして前記抽出手段の動作を停止することを特徴とする音声認識方法。
  31. 請求項22または請求項29に記載の音声認識方法において、
    前記スイッチ手段によって前記第1の終端信号の入力があったとき、または、前記判断手段によって前記記憶手段に記憶されてくる入力が音声でないと判断されたときは、前記記憶手段における記憶を停止し、前記高速記憶手段の記憶に切替えることを特徴とする音声認識方法。
  32. 請求項21乃至請求項24の何れかに記載の音声認識方法において、
    前記記憶手段は一定の時間の入力音をFirst In First Out方式で記憶可能であることを特徴とする音声認識方法。
  33. 請求項21乃至請求項24の何れかに記載の音声認識方法において、
    前記使用者が前記スイッチ手段を1回押すことで前記第1の終端信号が入力され、該1回目のスイッチ手段の押下から短時間後に続けて2回目を押下するダブルクリックの動作で、一度入力された前記終端信号を削除し得ることを特徴とする音声認識方法。
  34. 請求項26または請求項27に記載の音声認識方法において、
    nを1より大きい整数であって、n回の音声入力が成された場合、前記使用者によって(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声信号を検索し、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記信号の特徴量が音声を検知する処理において、予め定められた閾値に対して音声信号が消失したとみなされる状態となったことを検出した時刻を、(n-1)回目の第3の終端信号の時刻とし、
    前記使用者によってn回目の第1または第2の何れか一方の終端信号が入力された時刻と、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻との間に入力された音声信号を検索し、前記n回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記入力された音声信号の特徴量が音声を検知する処理において予め定められた閾値に対して音声が消失したと見なされる状態となった時刻をn回目の前記第3の終端信号の時刻とすることを特徴とする音声認識方法。
  35. 請求項34に記載の音声認識方法において、
    前記使用者によって前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声信号を検索し、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記音声信号の特徴量が音声を検知する処理において信号が存在する状態となったことを検出した時刻を前記使用者が入力した音声信号の(n-1)回目の第1の開始点とし、
    該(n-1)回目の第1の開始点の時刻から、前記(n-1)回目の音声信号の第1または第2の何れか一方の終端信号の時刻までの区間における入力された音声信号を前記音声認識手段への入力信号として抽出し、
    前記使用者によってn回目の前記第1または第2の何れか一方の終端信号が入力された時刻と、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻との間の入力された音声信号を検索し、前記n回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記音声信号の特徴量が音声信号を検知する処理において音声信号が存在する状態となったことを検出した時刻を前記使用者がn回目の第1の音声入力の開始点である時刻とし、
    該n回目の第1の音声入力の開始点となる時刻から、前記n回目の入力された音声信号の第1または第2の何れか一方の終端信号の時刻までの区間における信号を前記音声認識手段に対する入力信号として抽出し、該抽出した信号に対して前記音声認識手段により音声認識処理を行うことを特徴とする音声認識方法。
  36. 請求項35に記載の音声認識方法において、
    前記抽出手段は、前記(n-1)回目の音声入力第1の開始点の時刻または該(n-1)回目の第1の開始点の時刻より一定時間過去の(n-1)回目の音声入力の前記第2の開始点時刻、または前記n回目の音声信号の第1または第2の開始点時刻を前記使用者がそれぞれ入力した音声の開始点とし、前記(n-1)回目の音声入力の第2の開始点時刻および前記n回目の音声入力第2の開始点時刻から終了点として検出された前記(n-1)回目の第2または第3の何れか一方の終端信号の時刻、および前記n回目の第2または第3の何れか一方の終端信号の時刻までの区間に存在する入力された信号をそれぞれ前記抽出手段により抽出し、該抽出した音声信号に対して前記音声認識手段により音声認識処理を行うことを特徴とする音声認識方法。
  37. 請求項34または請求項36に記載の音声認識方法において、
    前記使用者によって前記第1または第2の少なくとも一方の終端信号の1回目の入力が為され、且つ、該第1または第2の何れか一方の終端信号が入力された時刻より後に前記第1または第2の何れか一方の終端信号が再度入力された場合、この2回目の第1または第2の何れか一方の終端信号を新たな第1または第2の何れか一方の終端信号とみなし、前記第1または第2の音声入力の開始点の時刻から前記新たな第1または第2の何れか一方の終端信号までの時刻までの区間を、前記使用者によって連続的に入力された音声信号として前記抽出手段により抽出し、前記音声認識手段によって認識処理を実行することを特徴とする音声認識方法。
  38. 請求項34に記載の音声認識方法において、
    前記使用者により前記第1の終端信号が入力され、音声認識処理が開始された後、前記入力された音声信号のn回目の第1乃至第3の何れか1つの終端信号の時刻を示す音声信号のが入力されたときは、該音声認識処理における(n-1)回目の第1の終端信号の入力時刻を、前記第1の終端信号が入力された時刻からn回目の前記第1乃至第3の何れか1つの終端信号の時刻に変更して音声認識処理を行うことを特徴とする音声認識方法。
  39. 請求項37または請求項38に記載の音声認識方法において、
    前記(n-1)回目の第1または第2の音声入力開始点の時刻から前記(n-1)回目の入力された第1乃至第3の何れか1つの終端信号の時刻までの区間で抽出された音声信号と、これに続く前記n回目の第1または第2の何れか一方の音声入力開始点の時刻から前記n回目の第1乃至第3の何れか一つの終端信号の時刻までの区間で抽出された信号とに含まれる音声情報を、前記言語辞書において連接する階層に当てはまる形態素、語彙、文節、文、の情報とみなして、それぞれに対応する階層において認識処理を行うことを特徴とする音声認識方法。
  40. 請求項38に記載の音声認識方法において、
    前記n回目の音声開始時刻から前記(n-1)回目の第2または第3の何れか一方の終端信号の検出時刻の間隔が予め定められた閾値を超える場合は、前記音声認識手段として抽出した信号は前記言語辞書において連接する階層に当てはまる形態素、語彙、文節、文、の情報とは見なさないことを特徴とする音声認識方法。
JP2004273706A 2004-09-21 2004-09-21 音声認識装置および音声認識方法 Pending JP2006091130A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004273706A JP2006091130A (ja) 2004-09-21 2004-09-21 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004273706A JP2006091130A (ja) 2004-09-21 2004-09-21 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2006091130A true JP2006091130A (ja) 2006-04-06

Family

ID=36232225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004273706A Pending JP2006091130A (ja) 2004-09-21 2004-09-21 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP2006091130A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009175178A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
WO2018034059A1 (ja) * 2016-08-17 2018-02-22 パナソニックIpマネジメント株式会社 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
CN111026356A (zh) * 2015-06-05 2020-04-17 苹果公司 先前捕捉的音频的检索机制

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112299A (ja) * 1987-07-16 1989-04-28 Fujitsu Ltd 音声認識装置
JPH0424694A (ja) * 1990-05-18 1992-01-28 Matsushita Electric Ind Co Ltd 音声入力回路
JPH08185196A (ja) * 1994-12-28 1996-07-16 Sony Corp 音声区間検出装置
JP2002268682A (ja) * 2001-03-09 2002-09-20 Clarion Co Ltd 車載用音声認識装置
JP2003241794A (ja) * 2002-02-18 2003-08-29 Nec Corp 音声認識装置及び方法
JP2003345390A (ja) * 2002-05-23 2003-12-03 Matsushita Electric Ind Co Ltd 音声処理装置及びリモートコントローラ装置
JP2004191703A (ja) * 2002-12-12 2004-07-08 Alpine Electronics Inc 音声認識装置及び音声認識性能改善方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112299A (ja) * 1987-07-16 1989-04-28 Fujitsu Ltd 音声認識装置
JPH0424694A (ja) * 1990-05-18 1992-01-28 Matsushita Electric Ind Co Ltd 音声入力回路
JPH08185196A (ja) * 1994-12-28 1996-07-16 Sony Corp 音声区間検出装置
JP2002268682A (ja) * 2001-03-09 2002-09-20 Clarion Co Ltd 車載用音声認識装置
JP2003241794A (ja) * 2002-02-18 2003-08-29 Nec Corp 音声認識装置及び方法
JP2003345390A (ja) * 2002-05-23 2003-12-03 Matsushita Electric Ind Co Ltd 音声処理装置及びリモートコントローラ装置
JP2004191703A (ja) * 2002-12-12 2004-07-08 Alpine Electronics Inc 音声認識装置及び音声認識性能改善方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009175178A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
CN111026356A (zh) * 2015-06-05 2020-04-17 苹果公司 先前捕捉的音频的检索机制
WO2018034059A1 (ja) * 2016-08-17 2018-02-22 パナソニックIpマネジメント株式会社 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
JPWO2018034059A1 (ja) * 2016-08-17 2018-11-22 パナソニックIpマネジメント株式会社 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
US10854200B2 (en) 2016-08-17 2020-12-01 Panasonic Intellectual Property Management Co., Ltd. Voice input device, translation device, voice input method, and recording medium

Similar Documents

Publication Publication Date Title
JP4902617B2 (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP4604178B2 (ja) 音声認識装置及び方法ならびにプログラム
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
JP4734155B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
WO2015151157A1 (ja) 意図理解装置および方法
JP3991914B2 (ja) 移動体用音声認識装置
US6801897B2 (en) Method of providing concise forms of natural commands
JP2006515073A (ja) 音声認識を実行するための方法、システム、及びプログラミング
JP2009300573A (ja) 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP2002091492A (ja) 音声補完方法、装置および記録媒体
JP2001188558A (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
JP2011504624A (ja) 自動同時通訳システム
JP2010048953A (ja) 対話文生成装置
JP2006189730A (ja) 音声対話方法および音声対話装置
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP2006208486A (ja) 音声入力装置
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2005249829A (ja) 音声認識を行うコンピュータネットワークシステム
JP2006091130A (ja) 音声認識装置および音声認識方法
Goto Speech Completion: New Speech Interface with On-demand Completion Assistance Masataka Goto, Katunobu Itou, Tomoyosi Akiba, and Satoru Hayamizu National Institute of Advanced Industrial Science and Technology (former Electrotechnical Laboratory) 1-1-1 Umezono, Tsukuba, Ibaraki 305-8568, JAPAN.
JP4608670B2 (ja) 音声認識装置および音声認識方法
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
JP4930014B2 (ja) 音声認識装置、および音声認識方法
EP4261822A1 (en) Setting up of speech processing engines

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100426

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101001

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101116

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426