JP2009175179A - 音声認識装置、プログラム、及び発話信号抽出方法 - Google Patents
音声認識装置、プログラム、及び発話信号抽出方法 Download PDFInfo
- Publication number
- JP2009175179A JP2009175179A JP2008010711A JP2008010711A JP2009175179A JP 2009175179 A JP2009175179 A JP 2009175179A JP 2008010711 A JP2008010711 A JP 2008010711A JP 2008010711 A JP2008010711 A JP 2008010711A JP 2009175179 A JP2009175179 A JP 2009175179A
- Authority
- JP
- Japan
- Prior art keywords
- period
- voice
- keyword
- speech
- acoustic signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】発話期間全体での音響信号(即ち、発話信号)を抽出する発話信号抽出方法、その発話信号抽出方法を実行する音声認識装置、及びプログラムの提供。
【解決手段】音声認識装置が実行する発話期間抽出処理では、音響信号の信号レベルPが、時間閾値T1以上継続して音声判定閾値Pt以上となる期間を音声期間として特定して、第二メモリに格納する(S260〜S320)。音声期間の開始時点である基準開始時点よりも前の時間閾値T3分の音響信号(S250)、及び音声期間の終了時点である基準終了時点よりも後の時間閾値T4分の音響信号(S340)も、音声保存期間の一部として第二メモリに格納する。音声保存期間を含む期間(時間閾値T5から時間閾値T6)の間に、予め設定されたキーワードが検出されると、第二メモリに格納された音声保存期間での音響信号を発話信号として、その発話信号に対して音声認識処理を実行する。
【選択図】図3
【解決手段】音声認識装置が実行する発話期間抽出処理では、音響信号の信号レベルPが、時間閾値T1以上継続して音声判定閾値Pt以上となる期間を音声期間として特定して、第二メモリに格納する(S260〜S320)。音声期間の開始時点である基準開始時点よりも前の時間閾値T3分の音響信号(S250)、及び音声期間の終了時点である基準終了時点よりも後の時間閾値T4分の音響信号(S340)も、音声保存期間の一部として第二メモリに格納する。音声保存期間を含む期間(時間閾値T5から時間閾値T6)の間に、予め設定されたキーワードが検出されると、第二メモリに格納された音声保存期間での音響信号を発話信号として、その発話信号に対して音声認識処理を実行する。
【選択図】図3
Description
本発明は、音響信号から発話期間を特定して発話信号を抽出する発話信号抽出方法、その発話信号抽出方法にて抽出した発話信号に対し音声認識を実行する音声認識装置、及びプログラムに関する。
従来より、マイクロフォンと、マイクロフォンを介して入力される音響信号に対し音声認識する制御装置とを備えた音声認識装置が知られている。この種の音声認識装置の中には、制御装置へのノイズの入力の防止や、ユーザが望む音声特定期間のみを音声認識するために、ユーザが指令を入力するための操作部への操作を検出するトークスイッチを備え、制御装置にてトークスイッチのオンオフを検出するように構成されたものが提案されている(例えば、特許文献1,2,3)。
このようなトークスイッチを備えた音声認識装置では、トークスイッチがオンされたことを検出した後に、マイクロフォンを介して入力される音響信号の信号レベルが予め規定された閾値以上であり、かつその信号レベルが閾値以上である音響信号が人の音声を表したものであるか否かを判定(以下、この判定を適合判定と称す)する。さらに、適合判定の結果、音響信号の信号レベルが閾値以上であり、その音響信号が人の音声であることを表している場合(以下、この状態を条件適合とする)、適合判定にて条件適合した状態となった時点から600ms遡った時点を音声認識開始点として設定し、音声認識開始点以降にマイクロフォンを介して入力された音響信号を発話信号として抽出して、その発話信号に対して音声認識を実行することがなされている(例えば、特許文献4参照)。
特開2001−67091号公報
特開2002−108390号公報
特許第3940895号
特開2004−294659号公報
ところで、特許文献4に記載された音声認識装置をユーザが使用する場合、例えば、トークスイッチの押下を失念したまま、ユーザが音声認識したいと望む内容の発声を開始し、トークスイッチを押下しなければならないことを発声の途中で思い出して、発声の途中でトークスイッチを押すことが考えられる。このような場合、図8に示すように、ユーザが実際に発声を開始した発声開始点(図中、実際点)と、制御装置にて検出した発声開始点(図中、検出点)とが異なり、ユーザが音声認識したいと望む発声期間の中で、音声認識されない期間が生じるという問題があった。
つまり、特許文献4に記載された音声認識装置では、トークスイッチが押下された後に適合判定を行い、条件適合した時点から600ms遡った時点を音声認識開始点とするため、ユーザが音声認識させたいと望む内容の発声を開始する前に、トークスイッチを押下しなければならず、ユーザは、トークスイッチを押下するタイミングと、発声を開始するタイミングとを意識する必要があり、煩わしさを感じるという問題があった。
そこで、本発明は、ユーザが音声認識したいと望む発話期間全体での音響信号を音声認識することが可能な音声認識装置、プログラム、及び音声認識装置に入力される音響信号から、発話期間での音響信号を表す発話信号を抽出する発話信号抽出方法を提供することを目的とする。
上記目的を達成するためになされた本発明の音声認識装置では、音響信号取得手段が、音響信号を順次取得し、音響信号保持手段が、音響信号取得手段で取得した音響信号を保持すると共に、音声期間特定手段が、音響信号が予め設定された条件を満たしている音声期間を少なくとも含む期間を音声特定期間として、音響信号取得手段で取得した音響信号から音声特定期間を繰り返し特定する。
そして、キーワード検出手段が、音響信号取得手段で取得される音響信号から、予め規定されたキーワードを検出し、発話特定抽出手段が、音声期間特定手段で特定した音声特定期間の中に、キーワード検出手段でキーワードを検出したタイミングに対して予め規定された規定関係を有する音声特定期間を発話期間として設定すると共に、その発話期間に音響信号保持手段で保持した音響信号を発話信号として抽出して、音声認識処理手段が、発話特定抽出手段で抽出された発話信号に対し、発話内容を特定するための音声認識処理を実行する。
このように構成された本発明の音声認識装置では、当該音声認識装置に入力される音響信号から繰り返し音声特定期間を特定し、キーワード検出手段でキーワードが検出されたタイミングに従って、特定された音声特定期間の中で規定関係を有する音声特定期間を発話期間として設定する。そして、設定された発話期間の音響信号、即ち、発話期間の全期間に当該音声認識装置に入力、もしくは音響信号保持手段に保持された音響信号(発話信号)に対し、音声認識処理を実行している。
したがって、本発明の音声認識装置によれば、キーワードの検出タイミングに対して規定関係を有した音声特定期間であれば発話期間として設定し、その発話期間の全期間について音声認識処理を実行するので、ユーザが音声認識したいと望む発声の全内容に対して音声認識することができる。つまり、本発明の音声認識装置によれば、従来技術と異なり、ユーザが、操作部を操作するタイミングと、発声を開始するタイミングとのタイミングのズレを意識する必要がなくなり、利便性を向上させることができる。
そして、本発明の音声認識装置における発話特定抽出手段は、請求項2に記載のように、キーワード検出手段にてキーワードが検出されたタイミングを含んだ音声特定期間を、規定関係を有する音声特定期間とするように構成されていても良い。
このように構成された本発明の音声認識装置によれば、ユーザが当該音声認識装置に音声認識させたいと望む発声を開始してから終了するまでの期間内に、キーワードを発声すれば良くなり、ユーザがキーワードを発声するタイミングの自由度を向上させることができる。
また、本発明の音声認識装置における発話特定抽出手段は、請求項3に記載のように、キーワード検出手段にてキーワードが検出されたタイミングから予め規定された規定期間の間に開始された音声特定期間を、規定関係を有する音声特定期間とするように構成されていても良いし、請求項4に記載のように、キーワード検出手段にてキーワードが検出されたタイミング前の予め規定された規定期間の間に終了した音声特定期間を、規定関係を有する音声特定期間とするように構成されていても良い。特に、発話特定抽出手段では、これら(請求項3,4)の両方がなされることが望ましい。
前者のように構成された音声認識装置によれば、ユーザが当該音声認識装置に音声認識させたいと望む発声(即ち、音声期間)を開始するよりも前の規定期間内にキーワードが検出されたとしても、規定期間内に開始された音声特定期間を発話期間として設定するため、その発話期間での発話内容を音声認識することができる。後者のように構成された音声認識装置によれば、ユーザが当該音声認識装置に音声認識させたいと望む発声(即ち、音声期間)が終了した後の規定期間内にキーワードが検出されたとしても、規定期間内に終了した音声特定期間を発話期間として設定するため、その発話期間での発話内容を音声認識することができる。
これらの結果、本発明の音声認識装置によれば、音声特定期間の開始前、もしくは終了後にキーワードのみを発声したとしても、それらの音声特定期間が規定関係を有する音声特定期間(即ち、発話期間)として設定が可能となり、ユーザが、キーワードを発声するタイミングの自由度をより向上させることができる。
なお、ここでいう規定期間は、請求項5に記載のように、例えば、キーワードが検出された時点で、音響信号保持手段が音響信号を未保持である場合や、規定関係を有する音声特定期間を検出できない場合、周知の学習処理により、予め設定された設定値だけ、ユーザの話速等に基づいて、長くされたり短くされたりしても良い。ただし、ここで言う予め設定された設定値は、固定値に限るものではなく、周知の処理により、動的に決定されることを含むものである(即ち、変動可能な値であっても良い)。
また、本発明の音声認識装置における音声期間特定手段は、請求項6に記載のように、音響信号の信号レベルが、予め設定された第一特定時間以上連続して予め規定された規定値以上である期間を音声期間として特定するように構成されていても良い。
特に、本発明の音声認識装置における音声期間特定手段は、請求項7に記載のように、規定値以下である音響信号の信号レベルの時間が、第一特定期間よりも短い第二特定時間以下である場合、その第二特定時間を挟んだ二つの音声期間が継続しているものとするように構成されていることが望ましい。
このように構成された本発明の音声認識装置では、例えば、発話の内容に無声化した音(即ち、無声音)が含まれていたとしても、その無声音が発せられた期間を含む期間を音声期間としている。つまり、本発明の音声認識装置によれば、発話中の無声音が音声認識すべき発話期間から欠落することを防止できる。また、このように構成された音声認識装置によれば、例えば、ユーザが言葉を選びながら発話する等の発話内に第二特定時間よりも短い音声休止が含まれる場合であっても、精度良く音声認識を行うことができる。
なお、本発明の音声認識装置は、音響信号を取得する毎に、請求項8に記載のように、周知の学習方法により、予め設定された設定値だけ、ユーザの話速等に基づいて、第一,及び第二特定時間を長くしたり、短くしたりしても良い。例えば、ユーザの話速が早口である場合に、第一特定時間を短くすれば、ユーザが発声している期間以外の余分な期間(即ち、発声が終了した後の期間等)が音声認識されることを防止できる。ただし、ここで言う予め設定された設定値とは、固定値に限るものではなく、周知の学習処理により、動的に設定される値を含むものである(即ち、変動可能な値であっても良い)。
ところで、音声認識装置において、キーワードが検出された時点で規定関係を有する音声特定期間が存在しない場合、ユーザは発声しているものの声量が小さいため、音声期間を正確に検出できていない可能性が高い。
このため、本発明の音声認識装置は、請求項9に記載のように、キーワード検出手段にてキーワードが検出された時点で、規定関係を有する音声特定期間が存在しなかった場合、規定値を予め規定された変更値だけ変更させる規定値変更手段を備えていることが望ましい。
このように構成された本発明の音声認識装置では、例えば、キーワードが検出された時点で規定関係を有する音声特定期間が存在しなかった場合に規定値を変更値だけ低下させるようにしても良い。この場合、話者(ユーザ)の声量が小さかったとしても、ユーザが次に発声する時に音声期間を検出する可能性を向上させることができ、これを繰り返すことで、音声期間を検出できる。
なお、ここで言う予め規定された変更値とは、予め設定される固定値に限るものではなく、周知の学習処理により、発話者の声量や話速に基づいて変更可能なものを含むものである。
さらに、本発明の音声認識装置における音声期間特定手段は、請求項10に記載のように、音声期間そのものを音声特定期間として特定するように構成されていても良いし、請求項11に記載のように、音声期間の開始時点よりも前の予め設定された設定期間、及び音声期間の終了時点よりも後の予め設定された設定期間の少なくとも一つを、その音声期間に加えた期間を音声特定期間として特定するように構成されていても良い。
特に、後者のように構成された本発明の音声認識装置によれば、音声期間の開始時点以前、及び音声期間の終了時点以後の無声化した音が、音声認識すべき発話期間から欠落することを防止できる。即ち、本発明の音声認識装置によれば、発話頭や発話末の無声音についても音声認識することができ、この結果、音声認識の精度を向上させることができる。
また、ここでいう設定期間は、請求項12に記載のように、例えば、操作部への操作が検出された時点で、音響信号保持手段が音響信号を未保持である場合や、規定関係を有する音声特定期間を検出できない場合、周知の学習処理により、予め設定された設定値だけ、ユーザの話速等に基づいて、長くしたり短くしたりしても良い。ただし、ここで言う予め設定された設定値とは、固定値に限るものではなく、周知の学習処理により、動的に決定されることを含むものでも良い(即ち、変動可能な値であっても良い)。
ところで、本発明は、請求項13に記載のように、コンピュータを、請求項1ないし請求項12のいずれかに記載された音声認識装置を構成する各手段として機能させるためのプログラムとしてなされたものでも良い。
このようなプログラムであれば、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することにより用いることができる。
さらに、本発明は、発話内容を特定するための音声認識処理を実行する音声認識装置にて、順次入力される音響信号から音声認識処理の対象とする発話信号を抽出する発話信号抽出方法としてなされたものであっても良い。
ただし、このような発話信号抽出方法として本発明がなされた場合、請求項14に記載のように、音響信号保持過程にて、入力された音響信号を、データを記憶可能な記憶部にて保持し、音声期間特定過程にて、音響信号が予め設定された条件を満たしている音声期間を少なくとも含む期間を音声特定期間として、入力された音響信号から音声特定期間を繰り返し特定する。そして、キーワード検出過程にて、順次入力される音響信号から、予め規定されたキーワードを検出して、発話特定抽出過程にて、音声期間特定過程で特定した音声特定期間の中で、キーワード検出過程でキーワードが検出されたタイミングに対して予め規定された規定関係を有する音声特定期間を発話期間として設定すると共に、その発話期間に音響信号保持過程で記憶部に保持した音響信号を発話信号として抽出する必要がある。
以下に本発明の実施形態を図面と共に説明する。
[第一実施形態]
〈音声認識装置の構成〉
ここで、図1は、本発明が適用された音声認識装置の概略構成を示すブロック図である。
[第一実施形態]
〈音声認識装置の構成〉
ここで、図1は、本発明が適用された音声認識装置の概略構成を示すブロック図である。
音声認識装置1は、音声を収集するマイクロフォン15と、マイクロフォン15にて収集されたアナログの音声をデジタル信号(以下、音響信号とする)に変換するA/D変換器16と、A/D変換器16を介して入力される音響信号に基づいて発話期間を設定し、その発話期間での音響信号(以下、発話信号とする)を音声認識する制御装置10とを備えている。
このうち、制御装置10は、電源を切断しても記憶内容を保持する必要のあるデータや、プログラムを記憶するROM11と、制御装置10に入力された信号(即ち、データ)を一時的に格納する第一メモリ12,及び第二メモリ13と、ROM11等に記憶されたプログラムに従って処理を実行するCPU14とを備えている。
ROM11には、A/D変換器16から入力される音響信号中に予め規定されたキーワードが含まれているか否かを判定するキーワード検出処理をCPU14が実行するための処理プログラムが格納されている。さらに、ROM11には、A/D変換器16から順次入力される音響信号に従って、音声と認められる期間(以下、音声期間とする)を含む音声保存期間を繰り返し特定すると共に、それらの特定した音声保存期間の中から、キーワード検出処理での判定結果に従って発話期間を設定する発話期間抽出処理をCPU14が実行するための処理プログラムが格納されている。また、ROM11には、発話期間抽出処理にて設定した発話期間での音響信号(即ち、発話信号)に対して発話内容を特定するための周知の音声認識処理を実行するための処理プログラムが格納されている。
さらに、ROM11には、キーワード検出処理にて参照されるキーワードを表す音声パタンや、時間閾値Tn(nは、自然数、本実施形態では、1から6までの数とする)、音声判定閾値Ptの初期値が格納されている。
なお、音声判定閾値Ptは、発話期間抽出処理において参照されるものであり、音声期間を特定するための閾値である。一方、時間閾値T1は、発話期間抽出処理において参照され、音声期間を特定するために予め設定された期間であり、時間閾値T2は、発話期間抽出処理において参照され、音声期間が継続しているか否かを判定するための期間であり、時間閾値T1よりも短い時間として予め設定されている。
また、時間閾値T3及び時間閾値T4は、音声保存期間の一部の期間として、発話期間抽出処理により音声期間とは別に特定される期間の長さである。そして、時間閾値T3は、発話期間抽出処理により特定される音声期間の開始時点よりも前の予め設定された長さの期間であり、時間閾値T4は、発話期間抽出処理により特定される音声期間の終了時点よりも後の予め設定された長さの期間である。また、時間閾値T5,T6は、発話期間抽出処理にて検出された音声保存期間が発話期間として設定可能であるか否かを判定するための閾値として設定された期間である。
ただし、本実施形態では、時間閾値T3と、時間閾値T4とは、同一な長さの時間として設定されている。さらに、時間閾値T5は、時間閾値T3と時間閾値T1とを足し合わせた長さの時間として設定されており、時間閾値T6は、時間閾値T4よりも長い時間として設定されている。
さらに、第一メモリ12,第二メモリ13は、A/D変換器16から入力される音響信号を格納可能に構成されている。このうち、第一メモリ12は、音響信号を予め規定された設定時間(本実施形態では、2×時間閾値T3+時間閾値T1とする)分だけ格納可能に構成されており、設定時間分のデータが格納されると、格納してからの経過時間が古いデータから順に更新するようにされている。また、本実施形態における第二メモリ13は、発話期間抽出処理にて特定される音声保存期間での音響信号を格納可能に構成されており、時間閾値T3分の音響信号を格納する期間前格納領域と、時間閾値T1分の音響信号を格納する判定期間格納領域と、音声期間における時間閾値T1以後の音響信号を格納する音声期間格納領域と、音声期間終了後の時間閾値T4分の音響信号を格納する期間後格納領域とを有している。
即ち、制御装置10は、キーワード検出処理、発話期間抽出処理、音声認識処理を実行可能に構成されている。
〈キーワード検出処理〉
次に、CPU14が実行するキーワード検出処理について説明する。
〈キーワード検出処理〉
次に、CPU14が実行するキーワード検出処理について説明する。
ここで、図2は、キーワード検出処理の処理手順を示したフローチャートである。
このキーワード検出処理は、音声認識装置1が起動(電源ON)されると、処理プログラムに従って実行されるものであり、キーワード検出処理が実行されると、図2に示すように、まず、S110にて、ROM11に格納されている時間閾値T5を読み出す。
このキーワード検出処理は、音声認識装置1が起動(電源ON)されると、処理プログラムに従って実行されるものであり、キーワード検出処理が実行されると、図2に示すように、まず、S110にて、ROM11に格納されている時間閾値T5を読み出す。
続く、S120では、A/D変換器16から入力される音響信号と、音声パタンとを照合して、音響信号中にキーワードが含まれているか否かを判定し、判定の結果、キーワードが含まれていれば、S130へと進む。具体的に、本実施形態では、周知の照合処理を行い、音響信号と音声パタンとの一致度が予め規定された閾値(例えば、0.9)以上であれば、音響信号中にキーワードが含まれているものと判定する。
そのS130では、音響信号中にキーワードが含まれているか否かを表す検出フラグをハイレベルとし、さらに、S140では、キーワードを検出してからの経過時間(以下、検出経過時間とする)が、時間閾値T5以上であるか否かを判定する。そして、判定の結果、押下後経過時間が時間閾値T5未満であれば、時間閾値T5以上となるまで待機し、押下後経過時間が時間閾値T5以上となると、S150にて、検出フラグをローレベルとして、S110へと戻る。ただし、検出フラグは、ハイレベルであればキーワードが検出されたことを、ローレベルであればキーワードが検出されていないことを表すものである。
なお、S120での判定の結果、キーワードが検出されていない場合、検出フラグをローレベルとしたまま、S110へと戻る。一方、S140での判定の結果、検出経過時間が時間閾値T5未満である場合、検出フラグをハイレベルに維持したままS110へと戻る。
つまり、キーワード検出処理では、キーワードが検出されてから時間閾値T5が経過するまでの間は、検出フラグをハイレベルに維持し、時間閾値T5が経過した後は検出フラグをローレベルに戻すようにしている。
〈発話期間抽出処理〉
次に、CPU14が実行する発話期間抽出処理について説明する。
〈発話期間抽出処理〉
次に、CPU14が実行する発話期間抽出処理について説明する。
ここで、図3,4は、発話期間抽出処理の処理手順を示したフローチャートである。
この発話期間抽出処理は、音声認識装置1が起動(電源ON)されると処理プログラムに従って実行されるものであり、発話期間抽出処理が実行されると、図3に示すように、まず、S210にて、時間閾値T1,T2,T3,T4,T6と、音声判定閾値PtとをROM11から読み出すと共に、A/D変換器16から入力される音響信号の格納先を第一メモリ12に設定する。
この発話期間抽出処理は、音声認識装置1が起動(電源ON)されると処理プログラムに従って実行されるものであり、発話期間抽出処理が実行されると、図3に示すように、まず、S210にて、時間閾値T1,T2,T3,T4,T6と、音声判定閾値PtとをROM11から読み出すと共に、A/D変換器16から入力される音響信号の格納先を第一メモリ12に設定する。
続くS220では、A/D変換器16から入力される音響信号から信号レベルPを導出する。具体的に、本実施形態では、予め規定された時間毎に、A/D変換器16から入力される音響信号の振幅の平均値を算出し、その算出した平均値を信号レベルPとしている。
そして、S230では、S220で導出した信号レベルPが音声判定閾値Pt以上であるか否かを判定し、その判定の結果、信号レベルPが音声判定閾値Pt以上であれば、S240へと進む。そのS240では、A/D変換器16から入力される音響信号の信号レベルPが、時間閾値T1以上継続して音声判定閾値Pt以上であるか否かを判定し、判定の結果、信号レベルPが、時間閾値T1以上継続して音声判定閾値Pt以上である場合、S250へと進む。
即ち、S230では、信号レベルPが音声期間判定閾値Pt以上となると、音響信号に音声が含まれる可能性があるものと判定し、さらに、S240で、信号レベルPが音声判定閾値Pt以上である継続時間(以下、音声継続時間とする)が時間閾値T1以上であれば、A/D変換器16から入力される音響信号に音声が含まれていることが確かなものと判定している。そして、信号レベルPが音声判定閾値Pt以上となった時点を開始時点(以下、基準開始時点とする)とした音声期間を設定する。
続く、S250では、基準開始時点よりも時間閾値T3前の時点を、音声保存期間の開始時点を表す音声保存期間開始時点として設定する。これと共に、第一メモリ12に格納されている音声保存期間開始時点から基準開始時点までの音響信号を第二メモリ13の期間前格納領域に、基準開始時点から時間閾値T1が経過した(即ち、音響信号に音声が含まれていることが確認された)時点までの音響信号を第二メモリ13の判定期間格納領域に、それぞれ転送する。
さらに、S260では、A/D変換器16から入力される音響信号の格納先を第二メモリ13の音声期間格納領域に設定(変更)する。即ち、基準開始時点から時間閾値T1が経過した以降に制御装置10に入力される音響信号の格納先は、音声期間格納領域となる。ただし、これらのS250及びS260での処理は、S240において、音声継続時間が時間閾値T1以上であるものと判定した直後に移行した場合、即ち、今回のサイクルでの音声保存期間の開始が検出されてから、最初にS250及びS260へと移行した場合にのみ実行される。
続く、S270では、検出フラグがハイレベルであるか否かを判定する。即ち、現在検出している音声期間の間、もしくは基準開始時点が検出される前の期間(より正確には、本実施形態では、基準開始時点より前の時間閾値T3の間)に、キーワードの発声がなされたか否かを判定する。そして、S270での判定の結果、キーワードの発声がなされたものと判定した場合、S280へと進む。
そのS280では、現在検出中の音声保存期間を、音声認識処理の対象とする発話期間として既に設定済みであるか否かを判定し、判定の結果、設定済みでなければ、S290にて、現在検出中の音声保存期間が発話期間であるか否かを表す発話期間フラグをハイレベルに設定して、S220へと戻る。
また、S270での判定の結果、キーワードの発声がなされていないものと判定した場合、発話期間フラグをローレベルとしたまま、S220へと戻る。一方、S280での判定の結果、現在検出中の音声保存期間が発話期間として設定済みであれば、発話期間フラグをハイレベルに維持したまま、S220へと戻る。
なお、ハイレベルな発話期間フラグは、音声保存期間が発話期間として設定されたことを表すものであり、ローレベルな発話期間フラグは、音声保存期間が発話期間として設定されていない(即ち、未設定な)ことを表すものである。
ところで、S230での判定の結果、信号レベルPが音声判定閾値Pt未満である場合、S300へと進む。そのS300では、A/D変換器16から入力される音響信号の現時点での格納先が第二メモリ13であるか否かを判定し、判定の結果、格納先が第二メモリ13でなければ(即ち、第一メモリ12であれば)、S220へと戻る。
なお、S240での判定の結果、信号レベルPが、時間閾値T1以上継続して音声判定閾値Pt以上でない場合、即ち、音声継続時間が時間閾値T1未満である場合にも、S220へと戻る。
一方、S300での判定の結果、A/D変換器16から入力される音響信号の現時点での格納先が第二メモリ13であれば、S310へと進む。
そのS310では、A/D変換器16から入力される音響信号の信号レベルPが、時間閾値T2以上継続して音声判定閾値Pt未満であるか否かを判定する。そして、判定の結果、信号レベルPが音声判定閾値Pt未満である継続時間が、時間閾値T2未満である場合、先のS230及びS240にて検出を開始した音響信号中の音声(即ち、音声期間)が、中断期間を挟んで継続する可能性があるものとして、S220へと戻る。
そのS310では、A/D変換器16から入力される音響信号の信号レベルPが、時間閾値T2以上継続して音声判定閾値Pt未満であるか否かを判定する。そして、判定の結果、信号レベルPが音声判定閾値Pt未満である継続時間が、時間閾値T2未満である場合、先のS230及びS240にて検出を開始した音響信号中の音声(即ち、音声期間)が、中断期間を挟んで継続する可能性があるものとして、S220へと戻る。
一方、S310での判定の結果、信号レベルPが音声判定閾値Pt未満である継続時間が、時間閾値T2以上である場合、先のS230及びS240にて検出を開始した音響信号中の音声が中断期間を挟んで継続している可能性がないものとして、S320へと進む。
そのS320では、A/D変換器16から入力される音響信号の格納先を、第二メモリ13の期間後格納領域に変更してS330へと進む。
続く、S330では、信号レベルPが音声判定閾値Pt未満となった時点(以下、基準終了時点とする)からの経過時間(以下、音声終了経過時間とする)が、時間閾値T4以上であるか否かを判定する。
続く、S330では、信号レベルPが音声判定閾値Pt未満となった時点(以下、基準終了時点とする)からの経過時間(以下、音声終了経過時間とする)が、時間閾値T4以上であるか否かを判定する。
そして、判定の結果、音声終了経過時間が時間閾値T4未満であれば、先のS230及びS240にて検出を開始した音声保存期間(以下、今サイクル音声保存期間とする)が継続しているものとして、S220へと戻る。一方、S330での判定の結果、音声終了経過時間が時間閾値T4以上であれば、今サイクル音声保存期間が終了しているものとして、S340へと進む。
そのS340では、A/D変換器16から入力される音響信号の格納先を、第一メモリ12に変更してS350へと進む。
続く、S350では、S330まで検出中であった今サイクル音声保存期間が発話期間として既に設定済みであるか否かを判定し、判定の結果、設定済みでなければ、S360へと進む。
続く、S350では、S330まで検出中であった今サイクル音声保存期間が発話期間として既に設定済みであるか否かを判定し、判定の結果、設定済みでなければ、S360へと進む。
そして、S360にて、検出フラグがハイレベルであるか否か、即ち、基準終了時点から現時点までに、キーワードの発声がなされたか否かを判定する。そのS360での判定の結果、キーワードの発声がなされていないものと判定した場合、S370へと進む。
さらに、S370では、音声終了経過時間が時間閾値T6以上であるか否かを判定し、判定の結果、音声終了経過時間が時間閾値T6未満であれば、S360へと戻る。一方、判定の結果、音声終了経過時間が時間閾値T6以上であれば、今サイクル音声保存期間の間(より正確には、時間閾値T6マイナス時間閾値T4分だけ、音声保存期間よりも長い期間)に、キーワードの発声がなされず、その今サイクル音声保存期間が発話期間として設定されなかったものとして、S380へと進む。
そのS380では、第二メモリ13(即ち、期間前格納領域、判定期間格納領域、音声期間格納領域)に格納されている音響信号(つまり、データ)を消去した後、S220へと戻る。
ところで、S360での判定の結果、キーワードの発声がなされたものと判定した場合、S390へと進み、そのS390では、S330まで検出中であった今サイクル音声保存期間を発話期間とするように、発話期間フラグをハイレベルに設定して、S395へと進む。そのS395では、検出フラグをローレベルに設定し、その後、S400へと進む。
なお、S350での判定の結果、S330まで検出中であった今サイクル音声保存期間が発話期間として既に設定済みである場合にも、S400へと進む。
そのS400では、第一メモリ12に格納されている基準終了時点から時間閾値T2経過した以降(即ち、時間閾値T4マイナス時間閾値T2分)の音響信号を、第二メモリ13の期間後格納領域に転送して、その後、S410へと進む。
そのS400では、第一メモリ12に格納されている基準終了時点から時間閾値T2経過した以降(即ち、時間閾値T4マイナス時間閾値T2分)の音響信号を、第二メモリ13の期間後格納領域に転送して、その後、S410へと進む。
続く、S410では、第二メモリ13に格納されている発話期間での音響信号を、期間前格納領域、判定期間格納領域、音声期間格納領域、期間後格納領域の順序でつなぎ合わせると共に、そのつなぎ合わせた音響信号を発話信号として抽出する。そして、その抽出した発話信号を音声認識処理へと移行して、発話信号に対して音声認識処理を実行して発話内容を特定する。
その後、S220へと戻り、次に、A/D変換器16から入力される音響信号に従って、音声期間や音声保存期間を再度検出する。
〈動作例〉
次に、上述した発話期間抽出処理により、音響信号から音声期間及び音声保存期間を特定する方法を説明する。
〈動作例〉
次に、上述した発話期間抽出処理により、音響信号から音声期間及び音声保存期間を特定する方法を説明する。
ここで、図5は、音声認識装置1の動作例を説明するための説明図である。なお、図5に示すように、時間の経過と共に(即ち、図中の左から右へと移行するように)信号レベルPが変化する音響信号が、制御装置10に入力されるものとし、ここでは、キーワードとして「おねがいします」が設定されている状況で、ユーザが「にひゃくめーたすけーるおねがいします」と発声したものとする。
まず、発話期間抽出処理が実行されている制御装置10に、図5に示すような音響信号の入力が開始されると、制御装置10では、入力された音響信号は、第一メモリ12に格納される。そして、音響信号の信号レベルPが、時間閾値T1以上継続して音声判定閾値Pt以上となると、制御装置10では、信号レベルPが音声判定閾値Pt以上となった時点(即ち、基準開始時点)よりも後に、制御装置10に入力された音響信号中に音声成分が含まれるものと判定する。
すると、制御装置10では、第一メモリ12に格納されている音響信号の中で、基準開始時点から時間閾値T3分遡った時点までの音響信号を第二メモリ13の期間前格納領域に転送し、基準開始時点から時間閾値T1経過した時点までの音響信号を第二メモリ13の判定期間格納領域に転送する。これと共に、以降、入力される音響信号の格納先が第二メモリ13の音声期間格納領域となるように設定する。
さらに、制御装置10では、A/D変換器16から入力される音響信号の信号レベルPが音声判定閾値Pt未満となり、かつ信号レベルPが音声判定閾値Pt未満となった時点(即ち、基準終了時点)からの経過時間(即ち、音声終了経過時間)が時間閾値T2以上であれば、以降、入力される音響信号の格納先を第二メモリ13の期間後格納領域に変更する。
そして、音声終了経過時間が時間閾値T4以上となると、以降、入力される音響信号の格納先を第一メモリ12へと変更すると共に、基準開始時点から時間閾値T3分遡った時点より、基準終了時点から時間閾値T4が経過した時点までを一つの音声保存期間として特定する。ただし、制御装置10では、音声終了経過時間が時間閾値T2未満であれば、一つの音声期間が継続しているものとして、第二メモリ13の音声期間格納領域を音響信号の格納先として維持する。
このような場合、キーワード検出処理では、図5に示すように、発声期間の後半部分(即ち、「おねがいします」と発声された部分)では、音響信号と、音声パタンとの一致度が閾値以上となるため、検出フラグがハイレベルとなる。
したがって、音声終了経過時間が時間閾値T4以上となる前に、発話フラグがハイレベルとなり、発話期間抽出処理で特定された音声保存期間が発話期間として設定されることになる。
つまり、本発話期間抽出処理では、制御装置10に入力される音響信号の信号レベルPが、時間閾値T1以上継続して音声判定閾値Pt以上となる期間を音声期間として特定して、第二メモリ13に格納する。これと共に、音声期間の開始時点である基準開始時点よりも前の時間閾値T3分の音響信号、及び音声期間の終了時点である基準終了時点よりも後の時間閾値T4分の音響信号も、音声保存期間の一部として第二メモリ13に格納する。そして、音声保存期間として特定された期間を含む期間の間に、音響信号中にキーワードが含まれていることを検出すると、その音声保存期間の間に第二メモリ13に格納された音響信号を発話信号として、その発話信号に対して音声認識処理を実行する。
[第一実施形態の効果]
以上説明したように、本実施形態の音声認識装置1を用いる場合、ユーザは、音声保存期間として特定された期間を含む期間の間に、キーワードを発声すれば良い。
[第一実施形態の効果]
以上説明したように、本実施形態の音声認識装置1を用いる場合、ユーザは、音声保存期間として特定された期間を含む期間の間に、キーワードを発声すれば良い。
このため、本実施形態の音声認識装置1によれば、従来技術と異なり、指令を入力(即ち、キーワードを発声)するタイミングと、音声認識させたいと望む発声を開始するタイミングとのズレを意識する必要がなくなり、利便性を向上させることができる。
ところで、本実施形態の音声認識装置1では、音声期間が開始される前の期間(即ち、基準開始時点よりも前の時間閾値T3)、及び音声期間が終了した後の期間(即ち、基準終了時点よりも後の時間閾値T4)も音声保存期間としている。
このため、本実施形態の音声認識装置1によれば、音声期間の開始時点以前、及び音声期間の終了時点以後の無声化した音が、音声認識すべき期間から欠落することを防止できる。したがって、例えば、発話頭や発話末で無声化した音声(即ち、無声音)についても音声認識することができ、この結果、音声認識の精度を向上させることができる。
なお、本実施形態の音声認識装置1では、例えば、発話の内容に無声化した音(即ち、無声音)が含まれていたとしても、その無声音が発せられた期間が時間閾値T2以内であれば、無声音を含む期間を音声期間としている。つまり、本実施形態の音声認識装置1によれば、発声中に含まれる無声音が音声認識すべき発話期間から欠落することを防止できる。したがって、例えば、ユーザが言葉を選びながら発話する等のユーザの発話中に、時間閾値T2よりも短い音声休止が含まれる場合であっても、精度良く音声認識を行うことができる。
[第二実施形態]
次に、本発明の第二実施形態について説明する。
[第二実施形態]
次に、本発明の第二実施形態について説明する。
第一実施形態に示した音声認識装置1と、第二実施形態における音声認識装置とでは、第二メモリ13の内部構成、キーワード検出処理、及び発話期間抽出処理が異なるのみである。このため、第一実施形態に示した音声認識装置1と同様の構成、及び処理については、同一な符号を付して説明を省略し、第一実施形態とは異なる第二メモリ13の内部構成、キーワード検出処理、及び発話期間抽出処理を中心に説明する。
本実施形態における第二メモリ13は、期間前格納領域、判定期間格納領域、音声期間格納領域、期間後格納領域に加えて、キーワード検出処理、及び発話期間抽出処理の途中で検出される時刻を格納する時刻格納領域を備えている。
〈キーワード検出処理〉
次に、本実施形態におけるキーワード検出処理について説明する。
〈キーワード検出処理〉
次に、本実施形態におけるキーワード検出処理について説明する。
ここで、図6は、本実施形態におけるキーワード検出処理の処理手順を示したフローチャートである。
このキーワード検出処理は、音声認識装置1が起動(電源ON)されると、処理プログラムに従って実行されるものである。そのキーワード検出処理が実行されると、図6に示すように、まず、S810にて、A/D変換器16から入力される音響信号と、音声パタンとを照合して、音響信号中にキーワードが含まれているか否かを判定し、判定の結果、キーワードが含まれていなければ、音響信号からキーワードが検出されるまで待機する。一方、キーワードが検出されると、S820にて、キーワードが検出された時刻(以下、検出時刻とする)を第二メモリ13の時刻格納領域に格納する。
〈発話期間抽出処理〉
次に、本実施形態の発話期間抽出処理について説明する。
このキーワード検出処理は、音声認識装置1が起動(電源ON)されると、処理プログラムに従って実行されるものである。そのキーワード検出処理が実行されると、図6に示すように、まず、S810にて、A/D変換器16から入力される音響信号と、音声パタンとを照合して、音響信号中にキーワードが含まれているか否かを判定し、判定の結果、キーワードが含まれていなければ、音響信号からキーワードが検出されるまで待機する。一方、キーワードが検出されると、S820にて、キーワードが検出された時刻(以下、検出時刻とする)を第二メモリ13の時刻格納領域に格納する。
〈発話期間抽出処理〉
次に、本実施形態の発話期間抽出処理について説明する。
ここで、図7は、本実施形態における発話期間抽出処理の処理手順を示すフローチャートである。
この発話期間抽出処理は、音声認識装置1が起動(電源ON)されると処理プログラムに従って実行されるものであり、発話期間抽出処理が実行されると、図7に示すように、まず、S610にて、時間閾値T1,T2,T3,T4と、音声判定閾値PtとをROM11から読み出すと共に、A/D変換器16から入力される音響信号の格納先を第一メモリ12に設定する。
この発話期間抽出処理は、音声認識装置1が起動(電源ON)されると処理プログラムに従って実行されるものであり、発話期間抽出処理が実行されると、図7に示すように、まず、S610にて、時間閾値T1,T2,T3,T4と、音声判定閾値PtとをROM11から読み出すと共に、A/D変換器16から入力される音響信号の格納先を第一メモリ12に設定する。
続くS620では、A/D変換器16から入力される音響信号から信号レベルPを導出する。
そして、S630では、S620で導出した信号レベルPが音声判定閾値Pt以上であるか否かを判定し、その判定の結果、信号レベルPが音声判定閾値Pt以上であれば、S640へと進む。そのS640では、信号レベルPが、時間閾値T1以上継続して音声判定閾値Pt以上であるか否かを判定し、判定の結果、信号レベルPが、時間閾値T1以上継続して音声判定閾値Pt以上、即ち、信号レベルPが音声判定閾値Pt以上である継続時間(以下、音声継続時間とする)が時間閾値T1以上である場合、S650へと進む。
そして、S630では、S620で導出した信号レベルPが音声判定閾値Pt以上であるか否かを判定し、その判定の結果、信号レベルPが音声判定閾値Pt以上であれば、S640へと進む。そのS640では、信号レベルPが、時間閾値T1以上継続して音声判定閾値Pt以上であるか否かを判定し、判定の結果、信号レベルPが、時間閾値T1以上継続して音声判定閾値Pt以上、即ち、信号レベルPが音声判定閾値Pt以上である継続時間(以下、音声継続時間とする)が時間閾値T1以上である場合、S650へと進む。
つまり、S630及びS640では、音声継続時間が、時間閾値T1以上であるか否かを判定し、音声継続時間が時間閾値T1以上であれば、A/D変換器16から入力される音響信号に音声が含まれているものと判定している。そして、信号レベルPが音声判定閾値Pt以上となった時点を開始時点(以下、基準開始時点とする)とした音声期間を設定する。
続く、S650では、基準開始時点よりも時間閾値T3前の時点を、音声保存期間の開始時点を表す保存開始時点として設定する。これと共に、第一メモリ12に格納されている音声保存期間開始時点から基準開始時点までの音響信号を第二メモリ13の期間前格納領域に、基準開始時点から時間閾値T1が経過した時点までの音響信号を第二メモリ13の判定期間格納領域に、それぞれ転送する。
さらに、S660では、A/D変換器16から入力される音響信号の格納先を第二メモリ13の音声期間格納領域に設定(変更)する。即ち、音声期間格納領域が、基準開始時点から時間閾値T1が経過した以降に、制御装置10に入力される音響信号の格納先となる。ただし、これらのS650及びS660での処理は、S640において、音声継続時間が時間閾値T1以上であるものと判定した直後に移行した場合、即ち、その音声保存期間の開始が検出されてから最初にS650及びS660へと移行した場合にのみ実行される。
続く、S670では、基準開始時点、及びその基準開始時点の時刻から時間閾値T3分だけ遡った時刻(以下、保存開始時刻とする)を第二メモリ13の時刻格納領域に格納して、その後S620へと戻る。
ところで、S630での判定の結果、信号レベルPが音声判定閾値Pt未満である場合、S680へと進む。そのS680では、A/D変換器16から入力される音響信号の現時点での格納先が第二メモリ13であるか否かを判定し、判定の結果、格納先が第二メモリ13でなければ(即ち、第一メモリ12であれば)、S620へと戻る。なお、S640での判定の結果、音声継続時間が時間閾値T1未満である場合にも、S620へと戻る。
一方、S680での判定の結果、A/D変換器16から入力される音響信号の現時点での格納先が第二メモリ13であれば、S690へと進む。
そのS690では、信号レベルPが、時間閾値T2以上継続して音声判定閾値Pt未満であるか否かを判定する。そして、判定の結果、信号レベルPが音声判定閾値Pt未満である継続時間が、時間閾値T2未満である場合、先のS630及びS640にて検出を開始した音響信号中の音声(即ち、音声期間)が、中断期間を挟んで継続する可能性があるものとして、S620へと戻る。
そのS690では、信号レベルPが、時間閾値T2以上継続して音声判定閾値Pt未満であるか否かを判定する。そして、判定の結果、信号レベルPが音声判定閾値Pt未満である継続時間が、時間閾値T2未満である場合、先のS630及びS640にて検出を開始した音響信号中の音声(即ち、音声期間)が、中断期間を挟んで継続する可能性があるものとして、S620へと戻る。
一方、S690での判定の結果、信号レベルPが音声判定閾値Pt未満である継続時間が、時間閾値T2以上である場合、先のS630及びS640にて検出を開始した音響信号中の音声が中断期間を挟んで継続している可能性が限りなく低いものとして、S700へと進む。
そのS700では、音響信号の格納先を、第二メモリ13の期間後格納領域に変更してS710へと進む。
続く、S710では、信号レベルPが音声判定閾値Pt未満となった時点(以下、基準終了時点とする)からの経過時間(以下、音声終了経過時間とする)が、時間閾値T4以上であるか否かを判定する。
続く、S710では、信号レベルPが音声判定閾値Pt未満となった時点(以下、基準終了時点とする)からの経過時間(以下、音声終了経過時間とする)が、時間閾値T4以上であるか否かを判定する。
そして、判定の結果、音声終了経過時間が時間閾値T4未満であれば、先のS630及びS640にて検出を開始した音声保存期間(以下、今サイクル音声保存期間とする)が継続しているものとして、S620へと戻る。一方、S710での判定の結果、音声終了経過時間が時間閾値T4以上であれば、今サイクル音声保存期間が終了しているものとして、S720へと進む。
そのS720では、基準終了時点の時刻、及び時間閾値T4が経過した時点での時刻(以下、保存終了時刻とする)を第二メモリ13の時刻格納領域に格納して、その後S620へと戻る。
続く、S730では、A/D変換器16から入力される音響信号の格納先を、第一メモリ12に変更してS740へと進む。
そして、S740では、音声終了経過時間が時間閾値T6以上であるか否かを判定する。その判定の結果、音声終了経過時間が時間閾値T6未満であれば、音声終了経過時間が時間閾値T6以上となるまで待機して、時間閾値T6以上となると、S750へと進む。
そして、S740では、音声終了経過時間が時間閾値T6以上であるか否かを判定する。その判定の結果、音声終了経過時間が時間閾値T6未満であれば、音声終了経過時間が時間閾値T6以上となるまで待機して、時間閾値T6以上となると、S750へと進む。
そのS750では、検出時刻が許容期間内であるか否かを判定し、判定の結果、許容期間外であれば、S760へと進む。なお、許容期間とは、基準開始時刻より時間閾値T5前の時刻から、基準終了時刻より時間閾値T6後の時刻までの期間である。
そのS760では、第二メモリ13(即ち、期間前格納領域、判定期間格納領域、音声期間格納領域)に格納されている音響信号(つまり、データ)を消去した後、S620へと戻る。
一方、S750での判定の結果、検出時刻が許容期間内であれば、S770へと進む。そのS770では、今サイクル音声保存期間を発話期間として、第二メモリ13に格納されている音響信号を、期間前格納領域、判定期間格納領域、音声期間格納領域、期間後格納領域の順序でつなぎ合わせると共に、そのつなぎ合わせた音響信号を発話信号として抽出する。そして、その抽出した発話信号を音声認識処理へと移行して、発話信号に対して音声認識処理を実行して発話内容を特定する。
その後、S620へと戻り、次に、A/D変換器16から入力される音響信号に従って、音声期間や音声保存期間を再度検出する。
つまり、本実施形態の発話期間抽出処理では、キーワードを検出したキーワード検出タイミングと、音声保存期間を検出している検出タイミングとを別々に記憶し、音声保存期間の検出が終了した後で、キーワード検出タイミングと検出タイミングとを照合する。そして、キーワード検出タイミングが、検出タイミングに基づく許容期間内であれば、その音声保存期間が発話期間であるものとしている。
[第二実施形態の効果]
以上説明したように、本実施形態の音声認識装置によれば、第一実施形態に記載の音声認識装置と同様の効果を得ることができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は、上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において様々な態様にて実施することが可能である。
つまり、本実施形態の発話期間抽出処理では、キーワードを検出したキーワード検出タイミングと、音声保存期間を検出している検出タイミングとを別々に記憶し、音声保存期間の検出が終了した後で、キーワード検出タイミングと検出タイミングとを照合する。そして、キーワード検出タイミングが、検出タイミングに基づく許容期間内であれば、その音声保存期間が発話期間であるものとしている。
[第二実施形態の効果]
以上説明したように、本実施形態の音声認識装置によれば、第一実施形態に記載の音声認識装置と同様の効果を得ることができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は、上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において様々な態様にて実施することが可能である。
例えば、上記実施形態(ここでは、第一実施形態)における発話期間抽出処理では、検出フラグがハイレベルであるかローレベルであるかに基づいて、音響信号にキーワードが含まれているか否かを判定(即ち、キーワードの検出を確認)したが、キーワードの検出確認は、発話期間抽出処理内で実施しても良い。つまり、第一実施形態において、発話期間抽出処理の中(例えば、S270,S360)で、音響信号にキーワードが含まれているか否かの判定を行っても良く、キーワード検出処理として実行されていなくとも良い。
また、上記実施形態における発話期間抽出処理では、音響信号の信号レベルPが、時間閾値T1以上継続して、音声判定閾値Pt以上である場合に、音響信号に音声成分が含まれているものと判定していたが、音響信号に音声成分が含まれているか否かを判定する方法は、これに限るものではない。例えば、音響信号に音声成分が含まれているか否かを判定するために、音響信号が予め規定された閾値を上回ったり下回ったりしたことを表すゼロクロス頻度や、周知の低次ケプストラム係数等を用いる周知の方法を、上記実施形態の方法に替えて行っても良いし、上記実施形態の方法に加えて行っても良い。特に、後者の方法であれば、より正確に音声期間を特定することができる。
なお、上記実施形態における時間閾値T3,T4は、同一な長さの時間として設定されていたが、これらの時間閾値は、時間閾値T3が時間閾値T4よりも長い時間であっても良いし、逆に、時間閾値T4が時間閾値T3よりも長い時間であっても良い。
また、上記実施形態における時間閾値T5は、時間閾値T3と時間閾値T1とを足し合わせたものとしたが、これに限るものではなく、時間閾値T1と予め規定された規定時間αとを足し合わせたものでも良く、この規定時間αは、時間閾値T3よりも長い時間でも良いし、時間閾値T3よりも短い時間でも良い。つまり、時間閾値T5は、時間閾値T1よりも長い時間であり、キーワードが検出されてから、基準開始時点が検出されるまでの検出フラグをハイレベルとする時間として設定されたものであれば、どのような長さでも良い。
さらに、上記実施形態における時間閾値T6は、時間閾値T4よりも長い時間としたが、これに限るものではなく、時間閾値T4と同じ長さの時間でも良いし、時間閾値T4よりも短い時間でも良い。つまり、時間閾値T6は、基準終了時点から、キーワードが検出されるまでの検出フラグをハイレベルとする時間として設定されたものであれば、どのような長さでも良い。特に、時間閾値T6は、音声保存期間内に含まれるものであっても良い。
さらには、上記実施形態における発話期間抽出処理では、時間閾値T1からT6は、予め規定された値を使用し続けたが、これらの閾値は、周知の学習処理を用いて、ユーザの話速等に基づいて、長くしたり、短くしたりしても良い。例えば、ユーザの話速が早口である場合に、時間閾値T1,T3,T4を短くすれば、ユーザが発声している期間以外の余分な期間(即ち、発声が開始される前や、終了した後の期間等)が音声認識されることを防止できる。
また、上記実施形態における発話期間抽出処理では、音声判定閾値Ptは、予め規定された値を使用し続けたが、音声判定閾値Ptはこれに限るものではなく、例えば、キーワードが検出された時点で、発話期間として特定された音声保存期間が存在しなかった場合、音声判定閾値Ptは、S220やS620等にて、予め規定された変更値だけ低下されても良い。
つまり、音響信号からキーワードが検出された時点で、発話期間として特定された音声保存期間が存在しなかった場合、ユーザは発声しているものの声量が小さいため、音声期間を正確に検出できていない可能性が高い。
したがって、上述したように、音声判定閾値Ptを変更値だけ低下させることで、話者(ユーザ)の声量が小さかったとしても、ユーザが次に発声する時に音声期間を検出する可能性を向上させることができ、これを繰り返すことで、音声期間を確実に検出できる。
また、発話者の周辺が騒々しい場合、音響信号にノイズが含まれ信号レベルPが常に高くなり、常時、音声期間が検出されることが考えられる。このため、常時音声期間が検出されるような場合には、S220やS620等にて、音声期間判定閾値Ptを変更値だけ増加しても良い。
ただし、ここで言う変更値は、発話者の発声量を学習する周知の処理により、動的に設定されるものでも良い。
ところで、上記実施形態におけるキーワード検出処理では、予め設定されたキーワードが音響信号に含まれているか否かを判定していたが、キーワードは、ユーザ毎に変更可能であっても良いし、複数の異なるキーワードが設定されていても良い。
ところで、上記実施形態におけるキーワード検出処理では、予め設定されたキーワードが音響信号に含まれているか否かを判定していたが、キーワードは、ユーザ毎に変更可能であっても良いし、複数の異なるキーワードが設定されていても良い。
さらに、上記実施形態の発話期間抽出処理では、音声期間前後の時間閾値T5,T6の間に、音響信号からキーワードが検出された場合にも、その音声期間を含む音声保存期間を発話期間としていたが、発話期間の特定方法は、これに限るものではない。例えば、音声期間内や、音声期間に時間閾値T5,T6のいずれか一方を加えた期間内に、音響信号からキーワードが検出された場合に、対応する音声保存期間を発話期間として設定するようにしても良い。
なお、上記実施形態の発話期間抽出処理では、音響信号に音声成分が含まれる場合、音響信号の格納先を第二メモリ13としたが、音響信号の格納先は、第一メモリ12でも良い。ただし、この場合、第一メモリ12には、期間前格納領域、判定期間格納領域、音声期間格納領域、期間後格納領域が設けられている必要がある。また、これらの領域毎に異なるメモリが設けられていても良い。さらに、第一メモリ12は、遅延線を有した遅延回路として構成されたものでも良い。
1…音声認識装置 10…制御装置 11…ROM 12…第一メモリ 13…第二メモリ 14…CPU 15…マイクロフォン 16…A/D変換器
Claims (14)
- 音響信号を順次取得する音響信号取得手段と、
前記音響信号取得手段で取得した音響信号を保持する音響信号保持手段と、
前記音響信号が予め設定された条件を満たしている期間を音声期間とし、前記音声期間を少なくとも含む期間を音声特定期間として、前記音響信号取得手段で取得した音響信号から前記音声特定期間を繰り返し特定する音声期間特定手段と、
前記音響信号取得手段で取得される音響信号から、予め規定されたキーワードを検出するキーワード検出手段と、
前記音声期間特定手段で特定した音声特定期間の中に、前記キーワード検出手段でキーワードを検出したタイミングに対して予め規定された規定関係を有する音声特定期間を発話期間として設定すると共に、その発話期間に前記音響信号保持手段で保持した音響信号を発話信号として抽出する発話特定抽出手段と、
前記発話特定抽出手段で抽出された発話信号に対し、発話内容を特定するための音声認識処理を実行する音声認識処理手段と
を備えることを特徴とする音声認識装置。 - 前記発話特定抽出手段は、
前記キーワード検出手段にてキーワードが検出されたタイミングを含んだ前記音声特定期間を、前記規定関係を有する音声特定期間とすることを特徴とする請求項1に記載の音声認識装置。 - 前記発話特定抽出手段は、
前記キーワード検出手段にてキーワードが検出されたタイミングから予め規定された規定期間の間に開始された前記音声特定期間を、前記規定関係を有する音声特定期間とすることを特徴とする請求項1または請求項2に記載の音声認識装置。 - 前記発話特定抽出手段は、
前記キーワード検出手段にてキーワードが検出されたタイミング前の予め規定された規定期間の間に終了した前記音声特定期間を、前記規定関係を有する音声特定期間とすることを特徴とする請求項1ないし請求項3のいずれかに記載の音声認識装置。 - 前記キーワード検出手段にてキーワードが検出された時点で、前記規定関係を有する音声特定期間が存在しなかった場合、前記規定期間を予め設定された設定値だけ変更させる規定期間変更手段を備えることを特徴とする請求項3または請求項4に記載の音声認識装置。
- 前記音声期間特定手段は、
前記音響信号の信号レベルが、予め設定された第一特定時間以上連続して予め規定された規定値以上である期間を前記音声期間として特定することを特徴とする請求項1ないし請求項5のいずれかに記載の音声認識装置。 - 前記音声期間特定手段は、
前記規定値以下である前記音響信号の信号レベルの時間が、前記第一特定期間よりも短い第二特定時間以下である場合、その第二特定時間を挟んだ二つの前記音声期間が継続しているものとすることを特徴とする請求項6に記載の音声認識装置。 - 前記キーワード検出手段にてキーワードが検出された時点で、前記規定関係を有する音声特定期間が存在しなかった場合、前記第一特定時間及び前記第二特定時間の少なくとも一方を予め設定された設定値だけ変更させる特定期間変更手段を備えることを特徴とする請求項7に記載の音声認識装置。
- 前記キーワード検出手段にてキーワードが検出された時点で、前記規定関係を有する音声特定期間が存在しなかった場合、前記規定値を予め規定された変更値だけ変更させる規定値変更手段を備えることを特徴とする請求項6ないし請求項8のいずれかに記載の音声認識装置。
- 前記音声期間特定手段は、
前記音声期間そのものを前記音声特定期間として特定することを特徴とする請求項1ないし請求項9のいずれかに記載の音声認識装置。 - 前記音声期間特定手段は、
前記音声期間の開始時点よりも前の予め設定された設定期間、及び前記音声期間の終了時点よりも後の予め設定された設定期間の少なくとも一つを、その音声期間に加えた期間を前記音声特定期間として特定することを特徴とする請求項1ないし請求項10のいずれかに記載の音声認識装置。 - 前記キーワード検出手段にてキーワードが検出された時点で、前記規定関係を有する音声特定期間が存在しなかった場合、前記設定期間を予め設定された設定値だけ変更させる設定期間変更手段を備えることを特徴とする請求項11に記載の音声認識装置。
- コンピュータを、請求項1ないし請求項12のいずれかに記載された音声認識装置を構成する各手段として機能させるためのプログラム。
- 発話内容を特定するための音声認識処理を実行する音声認識装置で、順次入力される音響信号から前記音声認識処理の対象とする発話信号を抽出する発話信号抽出方法であって、
入力された音響信号を、データを記憶可能な記憶部にて保持する音響信号保持過程と、
前記音響信号が予め設定された条件を満たしている期間を音声期間とし、前記音声期間を少なくとも含む期間を音声特定期間として、入力された音響信号から前記音声特定期間を繰り返し特定する音声期間特定過程と、
順次入力される音響信号から、予め規定されたキーワードを検出するキーワード検出過程と、
前記音声期間特定過程で特定した音声特定期間の中で、前記キーワード検出過程でキーワードが検出されたタイミングに対して予め規定された規定関係を有する音声特定期間を発話期間として設定すると共に、その発話期間に前記音響信号保持過程で記憶部に保持した音響信号を前記発話信号として抽出する発話特定抽出過程と
を有したことを特徴とする発話信号抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008010711A JP2009175179A (ja) | 2008-01-21 | 2008-01-21 | 音声認識装置、プログラム、及び発話信号抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008010711A JP2009175179A (ja) | 2008-01-21 | 2008-01-21 | 音声認識装置、プログラム、及び発話信号抽出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009175179A true JP2009175179A (ja) | 2009-08-06 |
Family
ID=41030385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008010711A Pending JP2009175179A (ja) | 2008-01-21 | 2008-01-21 | 音声認識装置、プログラム、及び発話信号抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009175179A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011070972A1 (ja) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
WO2014178491A1 (ko) * | 2013-04-30 | 2014-11-06 | 포항공과대학교 산학협력단 | 발화 인식 방법 및 장치 |
JP5863928B1 (ja) * | 2014-10-29 | 2016-02-17 | シャープ株式会社 | 音声調整装置 |
CN106233376A (zh) * | 2014-04-21 | 2016-12-14 | 高通股份有限公司 | 用于通过话音输入激活应用程序的方法和设备 |
KR20170089178A (ko) * | 2016-01-26 | 2017-08-03 | 삼성전자주식회사 | 전자 장치, 전자 장치의 음성 인식 방법 |
WO2020003851A1 (ja) * | 2018-06-27 | 2020-01-02 | ソニー株式会社 | 音声処理装置、音声処理方法及び記録媒体 |
WO2020003785A1 (ja) * | 2018-06-25 | 2020-01-02 | ソニー株式会社 | 音声処理装置、音声処理方法及び記録媒体 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04166900A (ja) * | 1990-10-31 | 1992-06-12 | Toshiba Corp | 音声認識装置 |
JP2000163098A (ja) * | 1998-11-25 | 2000-06-16 | Mitsubishi Electric Corp | 音声認識装置 |
JP2001067091A (ja) * | 1999-08-25 | 2001-03-16 | Sony Corp | 音声認識装置 |
JP2006091130A (ja) * | 2004-09-21 | 2006-04-06 | Nissan Motor Co Ltd | 音声認識装置および音声認識方法 |
JP2006215499A (ja) * | 2005-02-07 | 2006-08-17 | Toshiba Tec Corp | 音声処理装置 |
-
2008
- 2008-01-21 JP JP2008010711A patent/JP2009175179A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04166900A (ja) * | 1990-10-31 | 1992-06-12 | Toshiba Corp | 音声認識装置 |
JP2000163098A (ja) * | 1998-11-25 | 2000-06-16 | Mitsubishi Electric Corp | 音声認識装置 |
JP2001067091A (ja) * | 1999-08-25 | 2001-03-16 | Sony Corp | 音声認識装置 |
JP2006091130A (ja) * | 2004-09-21 | 2006-04-06 | Nissan Motor Co Ltd | 音声認識装置および音声認識方法 |
JP2006215499A (ja) * | 2005-02-07 | 2006-08-17 | Toshiba Tec Corp | 音声処理装置 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2011070972A1 (ja) * | 2009-12-10 | 2013-04-22 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
JP5621783B2 (ja) * | 2009-12-10 | 2014-11-12 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
US9002709B2 (en) | 2009-12-10 | 2015-04-07 | Nec Corporation | Voice recognition system and voice recognition method |
WO2011070972A1 (ja) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
WO2014178491A1 (ko) * | 2013-04-30 | 2014-11-06 | 포항공과대학교 산학협력단 | 발화 인식 방법 및 장치 |
CN106233376B (zh) * | 2014-04-21 | 2020-07-17 | 高通股份有限公司 | 用于通过话音输入激活应用程序的方法和设备 |
CN106233376A (zh) * | 2014-04-21 | 2016-12-14 | 高通股份有限公司 | 用于通过话音输入激活应用程序的方法和设备 |
JP2017520012A (ja) * | 2014-04-21 | 2017-07-20 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | スピーチ入力によってアプリケーションをアクティブ化するための方法および装置 |
US10770075B2 (en) | 2014-04-21 | 2020-09-08 | Qualcomm Incorporated | Method and apparatus for activating application by speech input |
JP5863928B1 (ja) * | 2014-10-29 | 2016-02-17 | シャープ株式会社 | 音声調整装置 |
WO2016067644A1 (ja) * | 2014-10-29 | 2016-05-06 | シャープ株式会社 | 音声調整装置 |
JP2016085420A (ja) * | 2014-10-29 | 2016-05-19 | シャープ株式会社 | 音声調整装置 |
KR20170089178A (ko) * | 2016-01-26 | 2017-08-03 | 삼성전자주식회사 | 전자 장치, 전자 장치의 음성 인식 방법 |
US10217477B2 (en) | 2016-01-26 | 2019-02-26 | Samsung Electronics Co., Ltd. | Electronic device and speech recognition method thereof |
CN108496220A (zh) * | 2016-01-26 | 2018-09-04 | 三星电子株式会社 | 电子设备及其语音识别方法 |
WO2017131322A1 (en) * | 2016-01-26 | 2017-08-03 | Samsung Electronics Co., Ltd. | Electronic device and speech recognition method thereof |
KR102495517B1 (ko) | 2016-01-26 | 2023-02-03 | 삼성전자 주식회사 | 전자 장치, 전자 장치의 음성 인식 방법 |
CN108496220B (zh) * | 2016-01-26 | 2023-06-13 | 三星电子株式会社 | 电子设备及其语音识别方法 |
WO2020003785A1 (ja) * | 2018-06-25 | 2020-01-02 | ソニー株式会社 | 音声処理装置、音声処理方法及び記録媒体 |
WO2020003851A1 (ja) * | 2018-06-27 | 2020-01-02 | ソニー株式会社 | 音声処理装置、音声処理方法及び記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11710478B2 (en) | Pre-wakeword speech processing | |
CN110299153B (zh) | 声音区间检测装置、声音区间检测方法以及记录介质 | |
EP3210205B1 (en) | Sound sample verification for generating sound detection model | |
US9437186B1 (en) | Enhanced endpoint detection for speech recognition | |
JP5883014B2 (ja) | 録音の終了点自動検出のための方法及びシステム | |
JP2009175179A (ja) | 音声認識装置、プログラム、及び発話信号抽出方法 | |
WO2019233228A1 (zh) | 电子设备及设备控制方法 | |
JP6585733B2 (ja) | 情報処理装置 | |
JP5431282B2 (ja) | 音声対話装置、方法、プログラム | |
JP2008256802A (ja) | 音声認識装置および音声認識方法 | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
WO2018078885A1 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP2012163692A (ja) | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
JP6904225B2 (ja) | 情報処理装置 | |
JP2011039222A (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
JP2009175178A (ja) | 音声認識装置、プログラム、及び発話信号抽出方法 | |
JP5074759B2 (ja) | 対話制御装置、対話制御方法及び対話制御プログラム | |
JP2019132997A (ja) | 音声処理装置、方法およびプログラム | |
JP2019139146A (ja) | 音声認識システム、及び、音声認識方法 | |
JP6811865B2 (ja) | 音声認識装置および音声認識方法 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP7222265B2 (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
US20230386458A1 (en) | Pre-wakeword speech processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100329 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110906 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120327 |