JP2006091130A - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP2006091130A JP2006091130A JP2004273706A JP2004273706A JP2006091130A JP 2006091130 A JP2006091130 A JP 2006091130A JP 2004273706 A JP2004273706 A JP 2004273706A JP 2004273706 A JP2004273706 A JP 2004273706A JP 2006091130 A JP2006091130 A JP 2006091130A
- Authority
- JP
- Japan
- Prior art keywords
- time
- signal
- input
- voice
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】このため、入力音に対してバッファリング開始の状態としておく。次いで、使用者の音声信号を離散的な信号系列に変換した後、一定時間保存する記憶手段に入力する。一方、使用者は発話終了時にスイッチを押下し、そのタイミングを基準に所望の音声信号を抽出し、この抽出信号を音声認識手段に送出する構成としている。
【選択図】図1
Description
(ステップ1:使用者)発話内容を考える。
(ステップ2:使用者)PTTボタンを押す。
(ステップ3:装置)音声認識装置動作開始。
(ステップ4:装置)入力音信号のバッファリング(入力待ち)開始。
(ステップ5:装置)音声認識装置の動作開始を使用者に告知。
(ステップ6:使用者)発話。
(ステップ7:装置)音声の終了を自動的に検出して。
(ステップ8:装置)音声発話区間を検出。
(ステップ9:装置)音声認識処理。
1)ステップ3からステップ5までのシステム処理に係る処理遅延時間が生じるため、使用者は音声認識装置が起動して発話可能な状態となるまで待機させられる。更に、
2)ステップ6における発話の開始は装置主導のタイミングで入力する必要があるため、その分だけ使用者の操作における自由度が低下する。
これらのことは、使用者による誤操作を誘発する原因となっていた。
(ステップ0:装置)リングバッファによる入力音信号のバッファリング開始。
(ステップ1:使用者)発話内容を考える。
(ステップ2:使用者)発話。
(ステップ3:使用者)発話終了後、スイッチにより終端マーカを入力。
(ステップ4:装置)音声認識装置動作開始。
(ステップ5:装置)音声の開始地点を自動的に検出。
(ステップ6:装置)音声発話区間を検出。
(ステップ7:装置)音声認識処理。
上記手順におけるステップ1からステップ3では使用者が入力を意図して発話を入力するまでの処理であり、途中で音声認識装置の動作が介在する部分がなく、したがって使用者が音声認識装置の動作によって影響を受ける部分がないため遅延時間がなく、かつ、使用者にとって自由なタイミングで発話することができるようにするものである。
すなわち、先ず、音声認識装置を入力音に対してバッファリング開始の状態としておく。次いで、使用者の発話である連続的信号の音声信号を音声入力手段で離散的な信号系列に変換し、一定時間保存する記憶手段でこの離散的な音声信号を一時的に記憶する。一方、使用者は発話終了のタイミングをスイッチ手段により音声認識装置に入力し、このタイミングを基準にシステムでは抽出手段を用いて記憶手段に保存されている音声信号から所望の音声信号部分を抽出して音声認識手段に送出する構成としている。
以下、図1および図5により発明の構成について説明する。
図1は本発明の基本構成を示すブロック図、図2はこの基本構成を含む装置構成の一実施の形態である。なお、図2は後述の実施の形態2においても適用される。
図1の100で示すマイクロホン(以下マイクと記す)であるマイク手段では、使用者が発話した音声および環境雑音を収集し、電気信号に変換する。これは図2の200で示すマイクを用いることで実現できる。
図1の110で示す音声入力手段では、マイクから入力された電気信号をAD変換して扱いやすい音信号に変換する。これは図2の210で示す増幅装置や、図5の220で示すAD変換器などによって構成される。ここで、電気信号はAD変換過程を経て、離散的な音信号に変換される。
図1の150で示す音声認識手段は、図1の抽出手段140によって抽出された信号R1を、テキストなどの信号R100に変換して操作機器に送出する。これは、図2の240で示す演算装置と図2の250で示す記憶装置によって実現できる。
音声認識装置が動作を開始すると、始めにステップS100において初期化処理を行う。
ステップS110では、終端信号入力の有無を判定する。終端信号の入力が検出されたらステップS120へ進み、検出されない場合は待ち受け状態となる。
ステップS120では、終端信号より過去に音声入力が存在することを確認する。音声入力が存在すればステップS130へ進み、音声入力が存在しなかった場合は誤操作とみなしてステップS110の待ち受け状態へ戻る。
ステップS150では、ステップS140で検出された開始時刻tn2、またはtn3と、ステップS130で検出された終了時刻tn1とにはさまれた区間の音声信号を抽出し、音声認識処理を行う。処理後に得られた信号R100は操作対象となる機器に送出される。この後、再びS110の待ち受け状態となって一連の音声認識動作を終了させる。
(実施の形態2)
カーナビのように、動的に地図情報を変更するシステムでは、プロセッサの負荷が大きいため、音声認識のために負荷をかけることが困難である。そこで、本発明の動作を、図2に示すように主演算装置240(音声認識手段、抽出手段)と副演算装置270(判断手段、高速記憶手段の制御)とに割り振ることにより主演算装置の負担を低減することにした。
以下では、音声認識装置の主演算装置の負荷を減らす手法の実施の形態例として、図3および図2を用いて、本実施の形態2の構成を説明する。
図3の122で示す判断手段は図3の121で示す高速記憶手段に入力された信号を常に監視し、音声と判断できる信号が入力された場合は、速やかに高速記憶手段121の内容を図3の120で示す記憶手段に転送し、更に、図3の120で示す記憶手段によって、入力されてくる音信号の記憶を継続するように記憶手段を切り替える。図3の130で示すSW手段によって終端信号が入力されたとき、または、判断手段122において、図3の120で示す記憶手段に入力されてくる音信号が音声でないと判断したときは、音信号を記憶する手段を図3の120の記憶手段から図3の121で示す高速記憶手段に変更する。これは、図2の270で示す副演算装置と図2の250で示す記憶装置または図2の280で示す高速記憶装置によって実現できる。
図3における記憶装置120に記憶されている音声情報の中からSW(スイッチ)手段130を用いて抽出手段140において必要とする音声信号を切り出し、信号R1として音声認識手段150に入力され、テキストなどの信号R100に変換される。
ここで、音声認識手段150は、入力された信号R1を形態素、語彙、文節、文の形態を含む信号R100に変換するための情報を有する言語辞書と、入力音声に含まれる音素情報を音素列に変換するための情報を有する音素辞書とを有している。
音声認識装置が動作を開始すると、始めにステップS100において初期化処理を行う。
ステップS101では、入力信号の中に音声信号が含まれていたかどうかを判断する。音声入力が含まれていればステップS102へ進み、音声入力が含まれていなければステップS111へ進む。
ステップS102では、高速記憶手段の内容を記憶手段に転送し、その後は、記憶手段によって記憶処理を行うように切替える。このとき、ステップS102を通過したことを記憶するFLGを1にする。
ステップS111では、終端信号入力およびFLGの検出を行う。終端信号が入力され、かつ、FLG=1であれば、ステップS120へ進み、それ以外の場合はステップS101へ戻り、待ち受け状態となる。
ステップS120では、音声信号の存在の有無を検出する。音声信号が存在した場合はS130へ進み、存在しない場合はFLG=0として、S101の入力側に戻り、待ち受け状態となる。
ステップS130では、入力された音声信号の終了した時刻tn1を検索する。ここで、nは1より大きい整数で、音声信号検出の回数を示し、最後尾の数字“0”は使用者が入力した終端信号の時刻を、“1”は音声信号の特徴から検出された終了点である音声入力終了した時刻を、“2”あるいは“3”は音声信号から抽出された開始点である音声入力開始点時刻を示している。
ステップS140では、入力された音声信号の開始点時刻tn2、またはtn3を検索する。
ステップS150では、ステップS140で検出された開始時刻tn2、またはtn3と、ステップS130で検出された終了時刻tn1とにはさまれた区間の音声信号を抽出し、音声認識処理を行う。処理後に得られた信号R100は操作対象となる機器に送出される。同時に、FLG=0として再びS101の待ち受け状態となるか、音声認識装置を終了させる。
(実施の形態3)
発話終了信号を音声信号から抽出する手法の1例を実現するシステム構成について、図4、図5および図2を用いて説明する。
図4において、音声入力手段110を介して得られたマイク100からの音声信号は、記憶手段120に逐次入力し記憶される。図4の131で示す音声検出手段では事前に定義されたキーワードによる入力信号、または音声の特徴変化による入力信号を検出し、この検出された入力信号の時間を過去に辿る方向で音声信号が終了する直前に音声入力終了信号としての終端信号を挿入する。この終端信号を第2の終端信号として、音声検出手段131は音声認識を行う機能を含むことで正確に使用者の入力意図は検出できる(特定の語彙をキーワードとして反応:エアコンON)が、入力音声の大きさの変化や、音声の特徴の変化(例えば、語尾の上げ下げ、語尾延ばし等:エアコンつけてー)などを検出しても良い。また、特に図示していないが、この第2の終端信号検出手段は第1の終端信号発生用のスイッチ手段と併用しても差し支えない。
ここで、音声認識手段150は、入力された信号R1を形態素、語彙、文節、文の形態を含む信号R100に変換するための情報を有する言語辞書と、入力音声に含まれる音素情報を信号R1に変換するための情報を有する音素辞書とを有している。
(実施の形態4)
以下では図8を用いて、音声区間の決定手法について説明する。
図8は入力された音声信号をAD変換して離散的に表現されている。図8の横軸は時間、縦軸は振幅を表す。
図8の時刻t00は、使用者がPTTスイッチを用いて入力した音声の終端位置を示す第1の終端信号の入力時刻(使用者が入力した終端時刻)を表す。音声認識装置は、時刻t00から過去に遡り、すなわち、先ず、時刻t00より後の音声入力が終了したことを音声検出して時刻t01を検出する。この音声入力終了時刻t01は、抽出手段140において音声検出を行い、この検出結果が予め定められた閾値を参照して音声信号が消失したと見なされる時を使用者の音声入力が終了した第3の終端信号として設定される。
(実施の形態5)
以下では図9を用いて、使用者により連続的に入力された音声信号に関する音声区間の決定手法について説明する。
図9は入力された音声信号をAD変換して離散的に表現しており、横軸は時間、縦軸は振幅を表す。
なお、時刻t(n-1)0と時刻tn2の区間長が閾値より大きい場合は2つの音声入力は連続していないと抽出手段は判断し、別々に音声認識手段150に送出する。
スイッチ手段130、入力された音声信号に含まれるキーワードまたは音声の特徴変化あるいは音声信号の特徴量(パワー、零交差等)により1回目の終端信号を時刻t00または時刻t01において入力し、これら終端信号より後の時刻で(n-1)回目の上記各終端信号の何れかが入力された場合、これら後から入力された終端信号を新たな終端信号と見なし、音声信号の開始点時刻から上記の新たな終端信号時刻の何れかまでの区間を、連続的に入力された音声信号として抽出手段140により抽出し、音声認識手段150により認識処理を行うことが可能である。
本手法は、メニューが階層構造となっており、それぞれの階層において孤立単語音声認識を行い、入力していく音声認識装置の効率を向上させることを目指している。
音声認識における言語辞書は、複数の語が連接する階層構造になっている場合がある。例えば、図10で示す言語辞書では、第1階層(辞書10)の語彙は「住所」と「電話番号」の2語であり、第2階層(辞書21および辞書22)の語彙には、それぞれ県名と数字が並んでいる。
従来の孤立単語音声認識装置によればこの入力処理は以下のように実行される。すなわち、図10に記載の階層構造の辞書を使用者の入力に応じて次々に呼び出し、それぞれの階層に含まれる認識対象語彙を用いて認識処理を実行する。この孤立単語音声認識の処理手順は以下のように書ける。
(ステップ1:装置)辞書10を第1階層辞書とする。
(ステップ2:使用者)「住所」と発話を入力
(ステップ3:装置)辞書10を用いて音声認識処理→「住所」の結果を得る
(ステップ4:装置)「住所」の下位階層にある辞書21を第1階層辞書とする。
(ステップ5:使用者)「神奈川県」と入力する。
(ステップ6:装置)辞書21を用いて音声認識処理→「神奈川県」の結果を得る。
このように孤立単語音声認識では、階層構造に配置された辞書を使用者の入力内容に応じて切り替えていくことで、下位階層の情報を入力することができる。
(ステップ2:使用者)「住所神奈川県」と入力、
(ステップ3:装置)連続単語辞書10を用いて処理→「住所神奈川県」を得る。
(ステップ1:装置)辞書10を第1階層辞書とする。
(ステップ2:使用者)「住所<終端信号>神奈川県<終端信号>」と発話して入力する。
(ステップ3:装置)辞書10を用いて「住所<終端信号>」音声認識処理→「住所」の結果を得る。
(ステップ4:装置)「住所」の下位階層にある辞書11を第1階層辞書とする。
(ステップ6:装置)辞書11を用いて「神奈川県<終端信号>」の音声認識処理→「神奈川県」の結果を得る。
前記連続単語認識と同様に、それぞれの階層辞書に予め書き込まれているスコアを認識に反映させる手法も可能である。ここで、階層辞書に記録されている各語彙には予め定められたスコアが書き込まれているとする。使用者が「住所<終端信号>神奈川県<終端信号>」と入力したとき、抽出手段は「住所」と「神奈川県」を順に音声認識手段に送出する。このとき、「住所」は、図10の辞書10から認識を開始させる。このとき、認識結果の候補として、
(第1階層候補1:スコア3000)住所
(第1階層候補2:スコア1000)電話番号
が得られる。更に、「神奈川県」を図10における第2階層の辞書21および辞書22を用いて認識させる。このとき、認識結果の候補として、
(第2階層候補1:スコア3000)神奈川県
(第2階層候補2:スコア2000)埼玉県
(第2階層候補3:スコア100)8
が得られたとする。よって最終的な認識結果としては、例えば、第1階層候補1の結果と、第2階層候補1の結果で、最大のスコアをもつ「住所」と「神奈川県」から、「住所神奈川県」
が認識結果として得られる。別の手法としては、住所−神奈川県、住所−埼玉県などの連接単語の確率も考慮しても良いし、連接単語の確率の上位だけを用いて第2階層候補を検索しても良い。また、上記の例では、使用者によって少なくとも2つ以上の単語が入力されたことが明らかであることから、始めから図11の連続単語音声認識用の辞書を当てはめるといった手法も効果的である。
尚、上記の実施例は、本発明の実施形態の一例を示したに過ぎず、本発明の適用範囲を限定したものではない。
120:記憶手段 121:高速記憶手段
122:判断手段 130:SW手段
131:音声検出手段 140:抽出手段
150:音声認識手段 210:増幅装置
220:AD変換装置 240:演算装置
250:記憶装置 260:スイッチ
270:副演算装置 280:高速記憶装置
Claims (40)
- 音声を入力し、音声信号に変換する音声入力手段と、
該入力された音声信号に含まれる音素情報を、音素列を含む第1の信号に変換するための情報を有する音素辞書と、前記第1の信号を形態素、語彙、文節、文、の各形態を含む第2の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識装置であって、
前記入力された音声信号を予め定められた時間だけ記憶し続ける記憶手段と、
使用者が発話終了を示す第1の終端信号を入力するスイッチ手段と、
前記使用者によって前記第1の終端信号が入力された時刻から、前記記憶手段に記憶されている当該時刻より過去に入力された音声信号を抽出する抽出手段とを備え、
前記抽出された音声信号を前記音声認識手段で認識することを特徴とする音声認識装置。 - 音声を入力し、音声信号に変換する音声入力手段と、
該入力された音声信号に含まれる音素情報を、音素列を含む第1の信号に変換するための情報を有する音素辞書と、前記第1の信号を形態素、語彙、文節、文、の形態を含む第2の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識装置であって、
入力された音声信号を予め定められた時間だけ記憶し続ける記憶手段と、
使用者が発話終了を示す第1の終端信号を入力するスイッチ手段と、
前記使用者によって前記第1の終端信号が入力された時刻から、前記記憶手段に記憶されている当該時刻より過去に入力された音声信号を抽出する抽出手段と、
入力された音を前記記憶手段より高速に、かつ、前記記憶手段より短い時間記憶する高速記憶手段と、
該高速記憶手段の内容について、常に音声か否かを判断する判断手段と、
を有することを特徴とする音声認識装置。 - 音声を入力し、音声信号に変換する音声入力手段と、
該入力された音声信号に含まれる音素情報を、音素列を含む第1の信号に変換するための情報を有する音素辞書と、前記第1の信号を形態素、語彙、文節、文、の形態を含む第2の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識装置であって、
入力された音声信号を逐次記憶する記憶手段と、
該記憶手段に記憶されている使用者の発話によって入力された音声信号に含まれる予め定められた第2の終端信号を検出する音声検出手段と、
前記第2の終端信号の時刻から、当該時刻より過去に入力された音声を抽出する抽出手段とを備え、
該抽出された音声を前記音声認識手段で認識すること特徴とする音声認識装置。 - 音声を入力し、音声信号に変換する音声入力手段と、
該入力された音声信号に含まれる音素情報を、音素列を含む第1の信号に変換するための情報を有する音素辞書と、前記第1の信号を形態素、語彙、文節、文、の形態を含む第2の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識装置であって、
入力された音声信号を逐次記憶する記憶手段と、
使用者が発話終了を示す第1の終端信号を入力するスイッチ手段と、
前記記憶手段に記憶されている使用者の発話によって入力された音声信号に含まれる予め定められた第2の終端信号を検出する音声検出手段と、
前記第1の終端信号が入力された時刻または前記第2の終端信号が検出された時刻から、当該時刻より過去に入力された音声を抽出する抽出手段とを備え、
該抽出された音声を前記音声認識手段で認識すること特徴とする音声認識装置。 - 請求項1乃至請求項4の何れかに記載の音声認識装置において、
前記抽出手段は、
前記使用者によって前記第1または前記第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声を検索し、前記第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻における信号の特徴量が、音声を検出する処理において予め定められた閾値に対して音声が消失したと見なされる状態になった時刻を第3の終端信号の時刻とすることを特徴とする音声認識装置。 - 請求項1乃至請求項5の何れかに記載の音声認識装置において、
前記抽出手段は、前記使用者によって前記第1または第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された入力信号を過去に遡る方向に検索し、前記第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、当該時刻における前記信号の特徴量が、予め定められた閾値に対して音声が発生したと見なされる状態になった時刻を前記使用者が入力した音声の第1の開始点とし、該第1の開始点の時刻から前記第1乃至第3の何れか一つの終端信号の時刻までの区間の音声信号を前記音声認識手段への入力信号として抽出し、
該抽出した音声信号に対して音声認識処理を行うことを特徴とする音声認識装置。 - 請求項6に記載の音声認識装置において、
前記抽出手段は、
前記使用者により入力された音声信号の第1の入力開始点の時刻より予め定められた時間だけ過去の時刻を前記使用者が入力した音声信号の第2の開始点とし、該第2の開始点の時刻から前記第1乃至第3の何れか一つの終端信号の時刻までの区間の信号を前記音声認識手段への入力信号として抽出することを特徴とする音声認識装置。 - 請求項6に記載の音声認識装置において、
前記第1の終端信号が入力された時刻と前記第3の終端信号の時刻との間隔が、予め定められた閾値を超える場合は、請求項1から請求項4に記載の抽出手段および音声認識手段の動作を停止することを特徴とする音声認識装置。 - 請求項2に記載の音声認識装置において、
前記判断手段によって音声が入力されたと判断されたとき、前記高速記憶手段の記憶内容を前記記憶手段に転送し、更に、後続の入力音声を前記記憶手段において記憶を継続するように前記高速記憶手段と前記記憶手段とを切替えることを特徴とする音声認識装置。 - 請求項2または請求項9に記載した音声認識装置において、
前記スイッチ手段によって前記第1の終端信号の入力があり、且つ前記記憶手段の切り替えが発生していない場合は、誤操作とみなして前記抽出手段の動作を停止することを特徴とする音声認識装置。 - 請求項2または請求項9に記載の音声認識装置において、
前記スイッチ手段によって前記第1の終端信号の入力があったとき、または、前記判断手段によって前記記憶手段に記憶されてくる入力が音声でないと判断されたときは、前記記憶手段における記憶を停止し、前記高速記憶手段の記憶に切替えることを特徴とする音声認識装置。 - 請求項1乃至請求項4の何れかに記載の音声認識装置において、
前記記憶手段は一定の時間の入力音をFirst In First Out方式で記憶可能であること、
を特徴とする音声認識装置。 - 請求項1乃至請求項4の何れかに記載の音声認識装置において、
前記使用者が前記スイッチ手段を1回押すことで前記第1の終端信号が入力され、該1回目のスイッチ手段の押下から短時間後に続けて2回目を押下するダブルクリックの動作で、一度入力された前記第1の終端信号を削除し得ることを特徴とする音声認識装置。 - 請求項6または請求項7に記載の音声認識装置において、
nを1より大きい整数として、n回の音声入力が成された場合、前記使用者によって(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声信号を検索し、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、信号の特徴量が音声を検知する処理において、予め定められた閾値に対して音声信号が消失したと見なされる状態となった時刻を、(n-1)回目の第3の終端信号の時刻とし、
前記使用者によってn回目の第1または第2の何れか一方の終端信号が入力された時刻と、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻との間に入力された音声信号を検索し、前記n回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記入力された音声信号の特徴量が音声を検知する処理において予め定められた閾値に対して音声信号が消失したと見なされる状態になった時刻をn回目の第3の終端信号の時刻とすることを特徴とする音声認識装置。 - 請求項14に記載の音声認識装置において、
前記使用者によって前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声信号を検索し、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記音声信号の特徴量が音声を検知する処理において信号が存在する状態となったことを検出した時刻を前記使用者が入力した音声信号の(n-1)回目の第1の開始点とし、
該(n-1)回目の第1の開始点時刻から、前記(n-1)回目の音声信号の第1乃至第3の何れか1つの終端時刻までの区間における前記入力された音声信号を前記音声認識手段への入力信号として抽出し、
前記使用者によってn回目の前記第1乃至第3の何れか1つの終端信号が入力された時刻と、前記(n-1)回目の第1乃至第2の何れか1つの終端信号が入力された時刻との間の入力された音声信号を検索し、前記n回目の第1乃至第3の何れか1つの終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記信号の特徴量が音声を検知する処理において音声信号が存在する状態となったことを検出した時刻を前記使用者がn回目の第1の音声入力の開始点である時刻とし、
該n回目の第1の音声入力の開始点となる時刻から、前記n回目の入力された音声信号の第1乃至第3の何れか1つの終端時刻までの区間における信号を前記音声認識手段に対する入力信号として抽出し、該抽出した信号に対して前記音声認識手段により音声認識処理を行うことを特徴とする音声認識装置。 - 請求項15に記載の音声認識装置において、
前記抽出手段は、前記(n-1)回目の入力された音声信号の第1の開始点の時刻または該(n-1)回目の第1の開始点の時刻より一定時間過去の(n-1)回目の入力された音声信号の前記第2の開始点時刻、またはn回目の入力された音声信号の前記第1または第2の開始点時刻を前記使用者がそれぞれ入力した音声の開始点とし、前記(n-1)回目の音声入力の第2の開始点時刻、および前記n回目の音声入力の第2の開始点時刻から終了点として検出された前記(n-1)回目の第1乃至第3の何れか1つの終端信号の時刻、および前記n回目の第1または第3の何れか1つの終端信号の時刻までの区間に存在する前記入力された音声信号をそれぞれ前記抽出手段により抽出し、該抽出した音声信号に対して前記音声認識手段により音声認識処理を行うことを特徴とする音声認識装置。 - 請求項14乃至請求項16の何れかに記載の音声認識装置において、
前記使用者によって前記第1または第2の何れかの終端信号の1回目の入力が為され、且つ、該1回目の第1または第2の何れかの終端信号が入力された時刻より後の(n-1)回目の第1乃至第3の何れか1つの終端信号が入力された時刻を新たな第1乃至第3の何れか1つの終端信号と見なし、前記第1または第2の開始点の時刻から前記新たな第1乃至第3の何れか1つの終端信号の時刻までの区間を、前記使用者によって連続的に入力された音声信号として前記抽出手段により抽出し、前記音声認識手段によって認識処理を実行することを特徴とする音声認識装置。 - 請求項17に記載の音声認識装置において、
前記使用者により前記(n-1)回目の第1の終端信号が入力され、音声認識処理が開始された後、前記入力された音声信号のn回目の第1乃至第3の何れか1つの終端時刻を示す音声信号が入力されたときは、該音声認識処理における(n-1)回目の第1の終端信号の入力時刻を、前記第1の終端信号が入力された時刻からn回目の前記第1乃至第3の何れか1つの終端信号の時刻に変更して音声認識処理を行うことを特徴とする音声認識装置。 - 請求項17または請求項18に記載の音声認識装置において、
前記(n-1)回目の第1または第2の音声入力開始点の時刻から前記(n-1)回目の第1乃至第3の何れか一つの終端信号の時刻までの区間で抽出された前記音声信号と、これに続く前記n回目の第1または第2の音声入力開始点の時刻から前記n回目の第1乃至第3の何れか一つの終端信号の時刻までの区間で抽出された前記音声信号とに含まれる音声情報を、前記言語辞書において連接する階層に当てはまる形態素、語彙、文節、文、の情報とみなして、それぞれに対応する階層において認識処理を行うことを特徴とする音声認識装置。 - 請求項18に記載の音声認識装置において、
前記n回目の第1または第2の音声開始時刻から前記(n-1)回目の第2または第3の終端信号の検出時刻の間隔が予め定められた閾値を超える場合は、前記音声認識手段として抽出した信号は前記言語辞書において連接する階層に当てはまる形態素、語彙、文節、文、の情報とは見なさないことを特徴とする音声認識装置。 - 入力された音声を、
予め定められた時間だけ記憶し、
使用者がスイッチ手段により第1の終端信号を入力し、該第1の終端信号を入力した時刻より過去に入力され、前記予め定められた時間だけ記憶された音声を抽出手段において抽出し、
該抽出した信号を音声認識手段において、先ず該入力音声に含まれる音素情報を音素辞書により音素列を含む第1の信号に変換し、次いで言語辞書により前記第1の信号を形態素、語彙、文節、文、の各形態を含む第2の信号に変換し、
該第2の信号を認識された音声とすることを特徴とする音声認識方法。 - 入力音声を高速記憶手段において、下記記憶手段より高速で且つ短い時間記憶し、
該高速記憶手段の内容が音声か否かを判断手段で判断し、
該判断の結果、音声のみを前記記憶手段に記憶し、
前記記憶手段の内容から、使用者がスイッチ手段により第1の終端信号を入力し、該第1の終端信号を入力した時刻より過去に入力された音声を抽出手段において抽出し、
該抽出した信号を音声認識手段において、先ず該入力音声に含まれる音素情報を音素辞書により音素列を含む第1の信号に変換し、次いで言語辞書により前記第1の信号を形態素、語彙、文節、文、の各形態を含む第2の信号に変換し、
該第2の信号を認識された音声とすることを特徴とする音声認識方法。 - 音声が音声入力手段により入力され、
該入力された音声に含まれる音素情報を音素列を含む第1の信号に変換するための情報を有する音素辞書と、前記第1の信号を形態素、語彙、文節、文、の形態を含む第2の信号に変換するための情報を有する言語辞書とを用いて音声認識を行う音声認識方法であって、
入力される音声を記憶手段により逐次記憶し、
使用者によって入力された音声信号に含まれる予め定められた第2の終端信号を音声検出手段で検出し、
前記使用者の入力音声信号から検出された前記第1の終端信号の時刻から、当該時刻より過去に入力され、前記記憶手段に記憶された音声を抽出手段により抽出し、
該抽出された音声を前記音声認識手段で認識すること特徴とする音声認識方法。 - 音声を入力する音声入力手段と、
該入力された音声に含まれる音素情報を、音素列を含む第1の信号に変換するための情報を有する音素辞書と、前記第1の信号を形態素、語彙、文節、文、の形態を含む第2の信号に変換するための情報を有する言語辞書とを有する音声認識手段と、を有する音声認識方法であって、
入力される音声を逐次記憶し、
使用者が発話終了を示す第1の終端信号を入力するスイッチ手段と、
前記記憶手段に記憶されている使用者の発話によって入力された音声信号に含まれる予め定められた第2の終端信号を検出し、
前記第1の終端信号が入力された時刻または前記第2の終端信号が検出された時刻から、当該時刻より過去に入力された音声を抽出し、
該抽出された音声を前記音声認識手段で認識すること特徴とする音声認識方法。 - 請求項21乃至請求項24の何れかに記載の音声認識方法において、
前記抽出手段は、
前記使用者によって前記第1または前記第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力され、記憶手段に記憶された音声を検索し、前記第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻における音声の特徴量が音声を検出する処理において予め定められた閾値に対して音声が消失したと見なされる状態となった時刻を第3の終端信号の時刻とすることを特徴とする音声認識方法。
- 請求項21または請求項25に記載の音声認識方法において、
前記抽出手段は、前記使用者によって前記第1または第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された入力信号を過去に遡る方向に検索し、前記第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、当該時刻における前記信号の特徴量が予め定められた閾値に対して音声が発生したと見なされる状態となった時刻を前記使用者が入力した音声の第1の開始点とし、該第1の開始点の時刻から前記第1乃至第3の何れかの終端信号の時刻までの区間の信号を前記音声認識手段への入力信号として抽出し、
該抽出した信号に対して音声認識処理を行うことを特徴とする音声認識方法。 - 請求項26に記載の音声認識方法において、
前記抽出手段は、
前記使用者による第1の入力開始点の時刻より予め定められた時間だけ過去の時刻を前記使用者が入力した音声の第2の開始点とし、該第2の開始点の時刻から前記第1乃至第3の何れか一つの終端信号の時刻までの区間の信号を前記音声認識手段への入力信号として抽出することを特徴とする音声認識方法。 - 請求項26に記載の音声認識方法において、
前記第1の終端信号が入力された時刻と前記第3の終端信号の時刻との間隔が、予め定められた閾値を超える場合は、請求項21から請求項24に記載の抽出手段および音声認識手段の動作を停止することを特徴とする音声認識方法。 - 請求項22に記載の音声認識方法において、
前記判断手段によって音声が入力されたと判断されたとき、前記高速記憶手段の記憶内容を前記記憶手段に転送し、更に、後続の入力音声を前記記憶手段において記憶を継続するように前記高速記憶手段と前記記憶手段とを切替えることを特徴とする音声認識方法。 - 請求項22または請求項29に記載した音声認識方法において、
前記スイッチ手段によって前記終端信号の入力があり、且つ前記記憶手段の切り替えが発生していない場合は、誤操作とみなして前記抽出手段の動作を停止することを特徴とする音声認識方法。 - 請求項22または請求項29に記載の音声認識方法において、
前記スイッチ手段によって前記第1の終端信号の入力があったとき、または、前記判断手段によって前記記憶手段に記憶されてくる入力が音声でないと判断されたときは、前記記憶手段における記憶を停止し、前記高速記憶手段の記憶に切替えることを特徴とする音声認識方法。 - 請求項21乃至請求項24の何れかに記載の音声認識方法において、
前記記憶手段は一定の時間の入力音をFirst In First Out方式で記憶可能であることを特徴とする音声認識方法。 - 請求項21乃至請求項24の何れかに記載の音声認識方法において、
前記使用者が前記スイッチ手段を1回押すことで前記第1の終端信号が入力され、該1回目のスイッチ手段の押下から短時間後に続けて2回目を押下するダブルクリックの動作で、一度入力された前記終端信号を削除し得ることを特徴とする音声認識方法。 - 請求項26または請求項27に記載の音声認識方法において、
nを1より大きい整数であって、n回の音声入力が成された場合、前記使用者によって(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声信号を検索し、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記信号の特徴量が音声を検知する処理において、予め定められた閾値に対して音声信号が消失したとみなされる状態となったことを検出した時刻を、(n-1)回目の第3の終端信号の時刻とし、
前記使用者によってn回目の第1または第2の何れか一方の終端信号が入力された時刻と、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻との間に入力された音声信号を検索し、前記n回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記入力された音声信号の特徴量が音声を検知する処理において予め定められた閾値に対して音声が消失したと見なされる状態となった時刻をn回目の前記第3の終端信号の時刻とすることを特徴とする音声認識方法。 - 請求項34に記載の音声認識方法において、
前記使用者によって前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から、当該時刻より過去に入力された音声信号を検索し、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記音声信号の特徴量が音声を検知する処理において信号が存在する状態となったことを検出した時刻を前記使用者が入力した音声信号の(n-1)回目の第1の開始点とし、
該(n-1)回目の第1の開始点の時刻から、前記(n-1)回目の音声信号の第1または第2の何れか一方の終端信号の時刻までの区間における入力された音声信号を前記音声認識手段への入力信号として抽出し、
前記使用者によってn回目の前記第1または第2の何れか一方の終端信号が入力された時刻と、前記(n-1)回目の第1または第2の何れか一方の終端信号が入力された時刻との間の入力された音声信号を検索し、前記n回目の第1または第2の何れか一方の終端信号が入力された時刻から時間的に最も近い時刻で、且つ、前記音声信号の特徴量が音声信号を検知する処理において音声信号が存在する状態となったことを検出した時刻を前記使用者がn回目の第1の音声入力の開始点である時刻とし、
該n回目の第1の音声入力の開始点となる時刻から、前記n回目の入力された音声信号の第1または第2の何れか一方の終端信号の時刻までの区間における信号を前記音声認識手段に対する入力信号として抽出し、該抽出した信号に対して前記音声認識手段により音声認識処理を行うことを特徴とする音声認識方法。 - 請求項35に記載の音声認識方法において、
前記抽出手段は、前記(n-1)回目の音声入力第1の開始点の時刻または該(n-1)回目の第1の開始点の時刻より一定時間過去の(n-1)回目の音声入力の前記第2の開始点時刻、または前記n回目の音声信号の第1または第2の開始点時刻を前記使用者がそれぞれ入力した音声の開始点とし、前記(n-1)回目の音声入力の第2の開始点時刻および前記n回目の音声入力第2の開始点時刻から終了点として検出された前記(n-1)回目の第2または第3の何れか一方の終端信号の時刻、および前記n回目の第2または第3の何れか一方の終端信号の時刻までの区間に存在する入力された信号をそれぞれ前記抽出手段により抽出し、該抽出した音声信号に対して前記音声認識手段により音声認識処理を行うことを特徴とする音声認識方法。 - 請求項34または請求項36に記載の音声認識方法において、
前記使用者によって前記第1または第2の少なくとも一方の終端信号の1回目の入力が為され、且つ、該第1または第2の何れか一方の終端信号が入力された時刻より後に前記第1または第2の何れか一方の終端信号が再度入力された場合、この2回目の第1または第2の何れか一方の終端信号を新たな第1または第2の何れか一方の終端信号とみなし、前記第1または第2の音声入力の開始点の時刻から前記新たな第1または第2の何れか一方の終端信号までの時刻までの区間を、前記使用者によって連続的に入力された音声信号として前記抽出手段により抽出し、前記音声認識手段によって認識処理を実行することを特徴とする音声認識方法。 - 請求項34に記載の音声認識方法において、
前記使用者により前記第1の終端信号が入力され、音声認識処理が開始された後、前記入力された音声信号のn回目の第1乃至第3の何れか1つの終端信号の時刻を示す音声信号のが入力されたときは、該音声認識処理における(n-1)回目の第1の終端信号の入力時刻を、前記第1の終端信号が入力された時刻からn回目の前記第1乃至第3の何れか1つの終端信号の時刻に変更して音声認識処理を行うことを特徴とする音声認識方法。 - 請求項37または請求項38に記載の音声認識方法において、
前記(n-1)回目の第1または第2の音声入力開始点の時刻から前記(n-1)回目の入力された第1乃至第3の何れか1つの終端信号の時刻までの区間で抽出された音声信号と、これに続く前記n回目の第1または第2の何れか一方の音声入力開始点の時刻から前記n回目の第1乃至第3の何れか一つの終端信号の時刻までの区間で抽出された信号とに含まれる音声情報を、前記言語辞書において連接する階層に当てはまる形態素、語彙、文節、文、の情報とみなして、それぞれに対応する階層において認識処理を行うことを特徴とする音声認識方法。 - 請求項38に記載の音声認識方法において、
前記n回目の音声開始時刻から前記(n-1)回目の第2または第3の何れか一方の終端信号の検出時刻の間隔が予め定められた閾値を超える場合は、前記音声認識手段として抽出した信号は前記言語辞書において連接する階層に当てはまる形態素、語彙、文節、文、の情報とは見なさないことを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004273706A JP2006091130A (ja) | 2004-09-21 | 2004-09-21 | 音声認識装置および音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004273706A JP2006091130A (ja) | 2004-09-21 | 2004-09-21 | 音声認識装置および音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006091130A true JP2006091130A (ja) | 2006-04-06 |
Family
ID=36232225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004273706A Pending JP2006091130A (ja) | 2004-09-21 | 2004-09-21 | 音声認識装置および音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006091130A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009175178A (ja) * | 2008-01-21 | 2009-08-06 | Denso Corp | 音声認識装置、プログラム、及び発話信号抽出方法 |
JP2009175179A (ja) * | 2008-01-21 | 2009-08-06 | Denso Corp | 音声認識装置、プログラム、及び発話信号抽出方法 |
WO2018034059A1 (ja) * | 2016-08-17 | 2018-02-22 | パナソニックIpマネジメント株式会社 | 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム |
CN111026356A (zh) * | 2015-06-05 | 2020-04-17 | 苹果公司 | 先前捕捉的音频的检索机制 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01112299A (ja) * | 1987-07-16 | 1989-04-28 | Fujitsu Ltd | 音声認識装置 |
JPH0424694A (ja) * | 1990-05-18 | 1992-01-28 | Matsushita Electric Ind Co Ltd | 音声入力回路 |
JPH08185196A (ja) * | 1994-12-28 | 1996-07-16 | Sony Corp | 音声区間検出装置 |
JP2002268682A (ja) * | 2001-03-09 | 2002-09-20 | Clarion Co Ltd | 車載用音声認識装置 |
JP2003241794A (ja) * | 2002-02-18 | 2003-08-29 | Nec Corp | 音声認識装置及び方法 |
JP2003345390A (ja) * | 2002-05-23 | 2003-12-03 | Matsushita Electric Ind Co Ltd | 音声処理装置及びリモートコントローラ装置 |
JP2004191703A (ja) * | 2002-12-12 | 2004-07-08 | Alpine Electronics Inc | 音声認識装置及び音声認識性能改善方法 |
-
2004
- 2004-09-21 JP JP2004273706A patent/JP2006091130A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01112299A (ja) * | 1987-07-16 | 1989-04-28 | Fujitsu Ltd | 音声認識装置 |
JPH0424694A (ja) * | 1990-05-18 | 1992-01-28 | Matsushita Electric Ind Co Ltd | 音声入力回路 |
JPH08185196A (ja) * | 1994-12-28 | 1996-07-16 | Sony Corp | 音声区間検出装置 |
JP2002268682A (ja) * | 2001-03-09 | 2002-09-20 | Clarion Co Ltd | 車載用音声認識装置 |
JP2003241794A (ja) * | 2002-02-18 | 2003-08-29 | Nec Corp | 音声認識装置及び方法 |
JP2003345390A (ja) * | 2002-05-23 | 2003-12-03 | Matsushita Electric Ind Co Ltd | 音声処理装置及びリモートコントローラ装置 |
JP2004191703A (ja) * | 2002-12-12 | 2004-07-08 | Alpine Electronics Inc | 音声認識装置及び音声認識性能改善方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009175178A (ja) * | 2008-01-21 | 2009-08-06 | Denso Corp | 音声認識装置、プログラム、及び発話信号抽出方法 |
JP2009175179A (ja) * | 2008-01-21 | 2009-08-06 | Denso Corp | 音声認識装置、プログラム、及び発話信号抽出方法 |
CN111026356A (zh) * | 2015-06-05 | 2020-04-17 | 苹果公司 | 先前捕捉的音频的检索机制 |
WO2018034059A1 (ja) * | 2016-08-17 | 2018-02-22 | パナソニックIpマネジメント株式会社 | 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム |
JPWO2018034059A1 (ja) * | 2016-08-17 | 2018-11-22 | パナソニックIpマネジメント株式会社 | 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム |
US10854200B2 (en) | 2016-08-17 | 2020-12-01 | Panasonic Intellectual Property Management Co., Ltd. | Voice input device, translation device, voice input method, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4902617B2 (ja) | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム | |
JP4604178B2 (ja) | 音声認識装置及び方法ならびにプログラム | |
US6952665B1 (en) | Translating apparatus and method, and recording medium used therewith | |
JP4734155B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP4481972B2 (ja) | 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム | |
WO2015151157A1 (ja) | 意図理解装置および方法 | |
JP3991914B2 (ja) | 移動体用音声認識装置 | |
US6801897B2 (en) | Method of providing concise forms of natural commands | |
JP2006515073A (ja) | 音声認識を実行するための方法、システム、及びプログラミング | |
JP2009300573A (ja) | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム | |
JP2002091492A (ja) | 音声補完方法、装置および記録媒体 | |
JP2001188558A (ja) | 音声認識装置、方法、コンピュータ・システム及び記憶媒体 | |
JP2011504624A (ja) | 自動同時通訳システム | |
JP2010048953A (ja) | 対話文生成装置 | |
JP2006189730A (ja) | 音声対話方法および音声対話装置 | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
JP2006208486A (ja) | 音声入力装置 | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
JP2005249829A (ja) | 音声認識を行うコンピュータネットワークシステム | |
JP2006091130A (ja) | 音声認識装置および音声認識方法 | |
Goto | Speech Completion: New Speech Interface with On-demand Completion Assistance Masataka Goto, Katunobu Itou, Tomoyosi Akiba, and Satoru Hayamizu National Institute of Advanced Industrial Science and Technology (former Electrotechnical Laboratory) 1-1-1 Umezono, Tsukuba, Ibaraki 305-8568, JAPAN. | |
JP4608670B2 (ja) | 音声認識装置および音声認識方法 | |
JP2005157166A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP4930014B2 (ja) | 音声認識装置、および音声認識方法 | |
EP4261822A1 (en) | Setting up of speech processing engines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100426 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20101001 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110426 |