JP2009175179A

JP2009175179A - 音声認識装置、プログラム、及び発話信号抽出方法

Info

Publication number: JP2009175179A
Application number: JP2008010711A
Authority: JP
Inventors: Tomonori Irie; 友紀入江; Ichiro Akahori; 一郎赤堀
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2008-01-21
Filing date: 2008-01-21
Publication date: 2009-08-06

Abstract

【課題】発話期間全体での音響信号（即ち、発話信号）を抽出する発話信号抽出方法、その発話信号抽出方法を実行する音声認識装置、及びプログラムの提供。
【解決手段】音声認識装置が実行する発話期間抽出処理では、音響信号の信号レベルＰが、時間閾値Ｔ１以上継続して音声判定閾値Ｐｔ以上となる期間を音声期間として特定して、第二メモリに格納する（Ｓ２６０〜Ｓ３２０）。音声期間の開始時点である基準開始時点よりも前の時間閾値Ｔ３分の音響信号（Ｓ２５０）、及び音声期間の終了時点である基準終了時点よりも後の時間閾値Ｔ４分の音響信号（Ｓ３４０）も、音声保存期間の一部として第二メモリに格納する。音声保存期間を含む期間（時間閾値Ｔ５から時間閾値Ｔ６）の間に、予め設定されたキーワードが検出されると、第二メモリに格納された音声保存期間での音響信号を発話信号として、その発話信号に対して音声認識処理を実行する。
【選択図】図３

Description

本発明は、音響信号から発話期間を特定して発話信号を抽出する発話信号抽出方法、その発話信号抽出方法にて抽出した発話信号に対し音声認識を実行する音声認識装置、及びプログラムに関する。

従来より、マイクロフォンと、マイクロフォンを介して入力される音響信号に対し音声認識する制御装置とを備えた音声認識装置が知られている。この種の音声認識装置の中には、制御装置へのノイズの入力の防止や、ユーザが望む音声特定期間のみを音声認識するために、ユーザが指令を入力するための操作部への操作を検出するトークスイッチを備え、制御装置にてトークスイッチのオンオフを検出するように構成されたものが提案されている（例えば、特許文献１，２，３）。

このようなトークスイッチを備えた音声認識装置では、トークスイッチがオンされたことを検出した後に、マイクロフォンを介して入力される音響信号の信号レベルが予め規定された閾値以上であり、かつその信号レベルが閾値以上である音響信号が人の音声を表したものであるか否かを判定（以下、この判定を適合判定と称す）する。さらに、適合判定の結果、音響信号の信号レベルが閾値以上であり、その音響信号が人の音声であることを表している場合（以下、この状態を条件適合とする）、適合判定にて条件適合した状態となった時点から６００ｍｓ遡った時点を音声認識開始点として設定し、音声認識開始点以降にマイクロフォンを介して入力された音響信号を発話信号として抽出して、その発話信号に対して音声認識を実行することがなされている（例えば、特許文献４参照）。
特開２００１−６７０９１号公報特開２００２−１０８３９０号公報特許第３９４０８９５号特開２００４−２９４６５９号公報

ところで、特許文献４に記載された音声認識装置をユーザが使用する場合、例えば、トークスイッチの押下を失念したまま、ユーザが音声認識したいと望む内容の発声を開始し、トークスイッチを押下しなければならないことを発声の途中で思い出して、発声の途中でトークスイッチを押すことが考えられる。このような場合、図８に示すように、ユーザが実際に発声を開始した発声開始点（図中、実際点）と、制御装置にて検出した発声開始点（図中、検出点）とが異なり、ユーザが音声認識したいと望む発声期間の中で、音声認識されない期間が生じるという問題があった。

つまり、特許文献４に記載された音声認識装置では、トークスイッチが押下された後に適合判定を行い、条件適合した時点から６００ｍｓ遡った時点を音声認識開始点とするため、ユーザが音声認識させたいと望む内容の発声を開始する前に、トークスイッチを押下しなければならず、ユーザは、トークスイッチを押下するタイミングと、発声を開始するタイミングとを意識する必要があり、煩わしさを感じるという問題があった。

そこで、本発明は、ユーザが音声認識したいと望む発話期間全体での音響信号を音声認識することが可能な音声認識装置、プログラム、及び音声認識装置に入力される音響信号から、発話期間での音響信号を表す発話信号を抽出する発話信号抽出方法を提供することを目的とする。

上記目的を達成するためになされた本発明の音声認識装置では、音響信号取得手段が、音響信号を順次取得し、音響信号保持手段が、音響信号取得手段で取得した音響信号を保持すると共に、音声期間特定手段が、音響信号が予め設定された条件を満たしている音声期間を少なくとも含む期間を音声特定期間として、音響信号取得手段で取得した音響信号から音声特定期間を繰り返し特定する。

そして、キーワード検出手段が、音響信号取得手段で取得される音響信号から、予め規定されたキーワードを検出し、発話特定抽出手段が、音声期間特定手段で特定した音声特定期間の中に、キーワード検出手段でキーワードを検出したタイミングに対して予め規定された規定関係を有する音声特定期間を発話期間として設定すると共に、その発話期間に音響信号保持手段で保持した音響信号を発話信号として抽出して、音声認識処理手段が、発話特定抽出手段で抽出された発話信号に対し、発話内容を特定するための音声認識処理を実行する。

このように構成された本発明の音声認識装置では、当該音声認識装置に入力される音響信号から繰り返し音声特定期間を特定し、キーワード検出手段でキーワードが検出されたタイミングに従って、特定された音声特定期間の中で規定関係を有する音声特定期間を発話期間として設定する。そして、設定された発話期間の音響信号、即ち、発話期間の全期間に当該音声認識装置に入力、もしくは音響信号保持手段に保持された音響信号（発話信号）に対し、音声認識処理を実行している。

したがって、本発明の音声認識装置によれば、キーワードの検出タイミングに対して規定関係を有した音声特定期間であれば発話期間として設定し、その発話期間の全期間について音声認識処理を実行するので、ユーザが音声認識したいと望む発声の全内容に対して音声認識することができる。つまり、本発明の音声認識装置によれば、従来技術と異なり、ユーザが、操作部を操作するタイミングと、発声を開始するタイミングとのタイミングのズレを意識する必要がなくなり、利便性を向上させることができる。

そして、本発明の音声認識装置における発話特定抽出手段は、請求項２に記載のように、キーワード検出手段にてキーワードが検出されたタイミングを含んだ音声特定期間を、規定関係を有する音声特定期間とするように構成されていても良い。

このように構成された本発明の音声認識装置によれば、ユーザが当該音声認識装置に音声認識させたいと望む発声を開始してから終了するまでの期間内に、キーワードを発声すれば良くなり、ユーザがキーワードを発声するタイミングの自由度を向上させることができる。

また、本発明の音声認識装置における発話特定抽出手段は、請求項３に記載のように、キーワード検出手段にてキーワードが検出されたタイミングから予め規定された規定期間の間に開始された音声特定期間を、規定関係を有する音声特定期間とするように構成されていても良いし、請求項４に記載のように、キーワード検出手段にてキーワードが検出されたタイミング前の予め規定された規定期間の間に終了した音声特定期間を、規定関係を有する音声特定期間とするように構成されていても良い。特に、発話特定抽出手段では、これら（請求項３，４）の両方がなされることが望ましい。

前者のように構成された音声認識装置によれば、ユーザが当該音声認識装置に音声認識させたいと望む発声(即ち、音声期間)を開始するよりも前の規定期間内にキーワードが検出されたとしても、規定期間内に開始された音声特定期間を発話期間として設定するため、その発話期間での発話内容を音声認識することができる。後者のように構成された音声認識装置によれば、ユーザが当該音声認識装置に音声認識させたいと望む発声（即ち、音声期間）が終了した後の規定期間内にキーワードが検出されたとしても、規定期間内に終了した音声特定期間を発話期間として設定するため、その発話期間での発話内容を音声認識することができる。

これらの結果、本発明の音声認識装置によれば、音声特定期間の開始前、もしくは終了後にキーワードのみを発声したとしても、それらの音声特定期間が規定関係を有する音声特定期間（即ち、発話期間）として設定が可能となり、ユーザが、キーワードを発声するタイミングの自由度をより向上させることができる。

なお、ここでいう規定期間は、請求項５に記載のように、例えば、キーワードが検出された時点で、音響信号保持手段が音響信号を未保持である場合や、規定関係を有する音声特定期間を検出できない場合、周知の学習処理により、予め設定された設定値だけ、ユーザの話速等に基づいて、長くされたり短くされたりしても良い。ただし、ここで言う予め設定された設定値は、固定値に限るものではなく、周知の処理により、動的に決定されることを含むものである（即ち、変動可能な値であっても良い）。

また、本発明の音声認識装置における音声期間特定手段は、請求項６に記載のように、音響信号の信号レベルが、予め設定された第一特定時間以上連続して予め規定された規定値以上である期間を音声期間として特定するように構成されていても良い。

特に、本発明の音声認識装置における音声期間特定手段は、請求項７に記載のように、規定値以下である音響信号の信号レベルの時間が、第一特定期間よりも短い第二特定時間以下である場合、その第二特定時間を挟んだ二つの音声期間が継続しているものとするように構成されていることが望ましい。

このように構成された本発明の音声認識装置では、例えば、発話の内容に無声化した音（即ち、無声音）が含まれていたとしても、その無声音が発せられた期間を含む期間を音声期間としている。つまり、本発明の音声認識装置によれば、発話中の無声音が音声認識すべき発話期間から欠落することを防止できる。また、このように構成された音声認識装置によれば、例えば、ユーザが言葉を選びながら発話する等の発話内に第二特定時間よりも短い音声休止が含まれる場合であっても、精度良く音声認識を行うことができる。

なお、本発明の音声認識装置は、音響信号を取得する毎に、請求項８に記載のように、周知の学習方法により、予め設定された設定値だけ、ユーザの話速等に基づいて、第一，及び第二特定時間を長くしたり、短くしたりしても良い。例えば、ユーザの話速が早口である場合に、第一特定時間を短くすれば、ユーザが発声している期間以外の余分な期間（即ち、発声が終了した後の期間等）が音声認識されることを防止できる。ただし、ここで言う予め設定された設定値とは、固定値に限るものではなく、周知の学習処理により、動的に設定される値を含むものである（即ち、変動可能な値であっても良い）。

ところで、音声認識装置において、キーワードが検出された時点で規定関係を有する音声特定期間が存在しない場合、ユーザは発声しているものの声量が小さいため、音声期間を正確に検出できていない可能性が高い。

このため、本発明の音声認識装置は、請求項９に記載のように、キーワード検出手段にてキーワードが検出された時点で、規定関係を有する音声特定期間が存在しなかった場合、規定値を予め規定された変更値だけ変更させる規定値変更手段を備えていることが望ましい。

このように構成された本発明の音声認識装置では、例えば、キーワードが検出された時点で規定関係を有する音声特定期間が存在しなかった場合に規定値を変更値だけ低下させるようにしても良い。この場合、話者（ユーザ）の声量が小さかったとしても、ユーザが次に発声する時に音声期間を検出する可能性を向上させることができ、これを繰り返すことで、音声期間を検出できる。

なお、ここで言う予め規定された変更値とは、予め設定される固定値に限るものではなく、周知の学習処理により、発話者の声量や話速に基づいて変更可能なものを含むものである。

さらに、本発明の音声認識装置における音声期間特定手段は、請求項１０に記載のように、音声期間そのものを音声特定期間として特定するように構成されていても良いし、請求項１１に記載のように、音声期間の開始時点よりも前の予め設定された設定期間、及び音声期間の終了時点よりも後の予め設定された設定期間の少なくとも一つを、その音声期間に加えた期間を音声特定期間として特定するように構成されていても良い。

特に、後者のように構成された本発明の音声認識装置によれば、音声期間の開始時点以前、及び音声期間の終了時点以後の無声化した音が、音声認識すべき発話期間から欠落することを防止できる。即ち、本発明の音声認識装置によれば、発話頭や発話末の無声音についても音声認識することができ、この結果、音声認識の精度を向上させることができる。

また、ここでいう設定期間は、請求項１２に記載のように、例えば、操作部への操作が検出された時点で、音響信号保持手段が音響信号を未保持である場合や、規定関係を有する音声特定期間を検出できない場合、周知の学習処理により、予め設定された設定値だけ、ユーザの話速等に基づいて、長くしたり短くしたりしても良い。ただし、ここで言う予め設定された設定値とは、固定値に限るものではなく、周知の学習処理により、動的に決定されることを含むものでも良い（即ち、変動可能な値であっても良い）。

ところで、本発明は、請求項１３に記載のように、コンピュータを、請求項１ないし請求項１２のいずれかに記載された音声認識装置を構成する各手段として機能させるためのプログラムとしてなされたものでも良い。

このようなプログラムであれば、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することにより用いることができる。

さらに、本発明は、発話内容を特定するための音声認識処理を実行する音声認識装置にて、順次入力される音響信号から音声認識処理の対象とする発話信号を抽出する発話信号抽出方法としてなされたものであっても良い。

ただし、このような発話信号抽出方法として本発明がなされた場合、請求項１４に記載のように、音響信号保持過程にて、入力された音響信号を、データを記憶可能な記憶部にて保持し、音声期間特定過程にて、音響信号が予め設定された条件を満たしている音声期間を少なくとも含む期間を音声特定期間として、入力された音響信号から音声特定期間を繰り返し特定する。そして、キーワード検出過程にて、順次入力される音響信号から、予め規定されたキーワードを検出して、発話特定抽出過程にて、音声期間特定過程で特定した音声特定期間の中で、キーワード検出過程でキーワードが検出されたタイミングに対して予め規定された規定関係を有する音声特定期間を発話期間として設定すると共に、その発話期間に音響信号保持過程で記憶部に保持した音響信号を発話信号として抽出する必要がある。

以下に本発明の実施形態を図面と共に説明する。
［第一実施形態］
〈音声認識装置の構成〉
ここで、図１は、本発明が適用された音声認識装置の概略構成を示すブロック図である。

音声認識装置１は、音声を収集するマイクロフォン１５と、マイクロフォン１５にて収集されたアナログの音声をデジタル信号（以下、音響信号とする）に変換するＡ／Ｄ変換器１６と、Ａ／Ｄ変換器１６を介して入力される音響信号に基づいて発話期間を設定し、その発話期間での音響信号（以下、発話信号とする）を音声認識する制御装置１０とを備えている。

このうち、制御装置１０は、電源を切断しても記憶内容を保持する必要のあるデータや、プログラムを記憶するＲＯＭ１１と、制御装置１０に入力された信号（即ち、データ）を一時的に格納する第一メモリ１２，及び第二メモリ１３と、ＲＯＭ１１等に記憶されたプログラムに従って処理を実行するＣＰＵ１４とを備えている。

ＲＯＭ１１には、Ａ／Ｄ変換器１６から入力される音響信号中に予め規定されたキーワードが含まれているか否かを判定するキーワード検出処理をＣＰＵ１４が実行するための処理プログラムが格納されている。さらに、ＲＯＭ１１には、Ａ／Ｄ変換器１６から順次入力される音響信号に従って、音声と認められる期間（以下、音声期間とする）を含む音声保存期間を繰り返し特定すると共に、それらの特定した音声保存期間の中から、キーワード検出処理での判定結果に従って発話期間を設定する発話期間抽出処理をＣＰＵ１４が実行するための処理プログラムが格納されている。また、ＲＯＭ１１には、発話期間抽出処理にて設定した発話期間での音響信号（即ち、発話信号）に対して発話内容を特定するための周知の音声認識処理を実行するための処理プログラムが格納されている。

さらに、ＲＯＭ１１には、キーワード検出処理にて参照されるキーワードを表す音声パタンや、時間閾値Ｔｎ（ｎは、自然数、本実施形態では、１から６までの数とする）、音声判定閾値Ｐｔの初期値が格納されている。

なお、音声判定閾値Ｐｔは、発話期間抽出処理において参照されるものであり、音声期間を特定するための閾値である。一方、時間閾値Ｔ１は、発話期間抽出処理において参照され、音声期間を特定するために予め設定された期間であり、時間閾値Ｔ２は、発話期間抽出処理において参照され、音声期間が継続しているか否かを判定するための期間であり、時間閾値Ｔ１よりも短い時間として予め設定されている。

また、時間閾値Ｔ３及び時間閾値Ｔ４は、音声保存期間の一部の期間として、発話期間抽出処理により音声期間とは別に特定される期間の長さである。そして、時間閾値Ｔ３は、発話期間抽出処理により特定される音声期間の開始時点よりも前の予め設定された長さの期間であり、時間閾値Ｔ４は、発話期間抽出処理により特定される音声期間の終了時点よりも後の予め設定された長さの期間である。また、時間閾値Ｔ５，Ｔ６は、発話期間抽出処理にて検出された音声保存期間が発話期間として設定可能であるか否かを判定するための閾値として設定された期間である。

ただし、本実施形態では、時間閾値Ｔ３と、時間閾値Ｔ４とは、同一な長さの時間として設定されている。さらに、時間閾値Ｔ５は、時間閾値Ｔ３と時間閾値Ｔ１とを足し合わせた長さの時間として設定されており、時間閾値Ｔ６は、時間閾値Ｔ４よりも長い時間として設定されている。

さらに、第一メモリ１２，第二メモリ１３は、Ａ／Ｄ変換器１６から入力される音響信号を格納可能に構成されている。このうち、第一メモリ１２は、音響信号を予め規定された設定時間（本実施形態では、２×時間閾値Ｔ３＋時間閾値Ｔ１とする）分だけ格納可能に構成されており、設定時間分のデータが格納されると、格納してからの経過時間が古いデータから順に更新するようにされている。また、本実施形態における第二メモリ１３は、発話期間抽出処理にて特定される音声保存期間での音響信号を格納可能に構成されており、時間閾値Ｔ３分の音響信号を格納する期間前格納領域と、時間閾値Ｔ１分の音響信号を格納する判定期間格納領域と、音声期間における時間閾値Ｔ１以後の音響信号を格納する音声期間格納領域と、音声期間終了後の時間閾値Ｔ４分の音響信号を格納する期間後格納領域とを有している。

即ち、制御装置１０は、キーワード検出処理、発話期間抽出処理、音声認識処理を実行可能に構成されている。
〈キーワード検出処理〉
次に、ＣＰＵ１４が実行するキーワード検出処理について説明する。

ここで、図２は、キーワード検出処理の処理手順を示したフローチャートである。
このキーワード検出処理は、音声認識装置１が起動（電源ＯＮ）されると、処理プログラムに従って実行されるものであり、キーワード検出処理が実行されると、図２に示すように、まず、Ｓ１１０にて、ＲＯＭ１１に格納されている時間閾値Ｔ５を読み出す。

続く、Ｓ１２０では、Ａ／Ｄ変換器１６から入力される音響信号と、音声パタンとを照合して、音響信号中にキーワードが含まれているか否かを判定し、判定の結果、キーワードが含まれていれば、Ｓ１３０へと進む。具体的に、本実施形態では、周知の照合処理を行い、音響信号と音声パタンとの一致度が予め規定された閾値（例えば、０．９）以上であれば、音響信号中にキーワードが含まれているものと判定する。

そのＳ１３０では、音響信号中にキーワードが含まれているか否かを表す検出フラグをハイレベルとし、さらに、Ｓ１４０では、キーワードを検出してからの経過時間（以下、検出経過時間とする）が、時間閾値Ｔ５以上であるか否かを判定する。そして、判定の結果、押下後経過時間が時間閾値Ｔ５未満であれば、時間閾値Ｔ５以上となるまで待機し、押下後経過時間が時間閾値Ｔ５以上となると、Ｓ１５０にて、検出フラグをローレベルとして、Ｓ１１０へと戻る。ただし、検出フラグは、ハイレベルであればキーワードが検出されたことを、ローレベルであればキーワードが検出されていないことを表すものである。

なお、Ｓ１２０での判定の結果、キーワードが検出されていない場合、検出フラグをローレベルとしたまま、Ｓ１１０へと戻る。一方、Ｓ１４０での判定の結果、検出経過時間が時間閾値Ｔ５未満である場合、検出フラグをハイレベルに維持したままＳ１１０へと戻る。

つまり、キーワード検出処理では、キーワードが検出されてから時間閾値Ｔ５が経過するまでの間は、検出フラグをハイレベルに維持し、時間閾値Ｔ５が経過した後は検出フラグをローレベルに戻すようにしている。
〈発話期間抽出処理〉
次に、ＣＰＵ１４が実行する発話期間抽出処理について説明する。

ここで、図３，４は、発話期間抽出処理の処理手順を示したフローチャートである。
この発話期間抽出処理は、音声認識装置１が起動（電源ＯＮ）されると処理プログラムに従って実行されるものであり、発話期間抽出処理が実行されると、図３に示すように、まず、Ｓ２１０にて、時間閾値Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ６と、音声判定閾値ＰｔとをＲＯＭ１１から読み出すと共に、Ａ／Ｄ変換器１６から入力される音響信号の格納先を第一メモリ１２に設定する。

続くＳ２２０では、Ａ／Ｄ変換器１６から入力される音響信号から信号レベルＰを導出する。具体的に、本実施形態では、予め規定された時間毎に、Ａ／Ｄ変換器１６から入力される音響信号の振幅の平均値を算出し、その算出した平均値を信号レベルＰとしている。

そして、Ｓ２３０では、Ｓ２２０で導出した信号レベルＰが音声判定閾値Ｐｔ以上であるか否かを判定し、その判定の結果、信号レベルＰが音声判定閾値Ｐｔ以上であれば、Ｓ２４０へと進む。そのＳ２４０では、Ａ／Ｄ変換器１６から入力される音響信号の信号レベルＰが、時間閾値Ｔ１以上継続して音声判定閾値Ｐｔ以上であるか否かを判定し、判定の結果、信号レベルＰが、時間閾値Ｔ１以上継続して音声判定閾値Ｐｔ以上である場合、Ｓ２５０へと進む。

即ち、Ｓ２３０では、信号レベルＰが音声期間判定閾値Ｐｔ以上となると、音響信号に音声が含まれる可能性があるものと判定し、さらに、Ｓ２４０で、信号レベルＰが音声判定閾値Ｐｔ以上である継続時間（以下、音声継続時間とする）が時間閾値Ｔ１以上であれば、Ａ／Ｄ変換器１６から入力される音響信号に音声が含まれていることが確かなものと判定している。そして、信号レベルＰが音声判定閾値Ｐｔ以上となった時点を開始時点（以下、基準開始時点とする）とした音声期間を設定する。

続く、Ｓ２５０では、基準開始時点よりも時間閾値Ｔ３前の時点を、音声保存期間の開始時点を表す音声保存期間開始時点として設定する。これと共に、第一メモリ１２に格納されている音声保存期間開始時点から基準開始時点までの音響信号を第二メモリ１３の期間前格納領域に、基準開始時点から時間閾値Ｔ１が経過した（即ち、音響信号に音声が含まれていることが確認された）時点までの音響信号を第二メモリ１３の判定期間格納領域に、それぞれ転送する。

さらに、Ｓ２６０では、Ａ／Ｄ変換器１６から入力される音響信号の格納先を第二メモリ１３の音声期間格納領域に設定（変更）する。即ち、基準開始時点から時間閾値Ｔ１が経過した以降に制御装置１０に入力される音響信号の格納先は、音声期間格納領域となる。ただし、これらのＳ２５０及びＳ２６０での処理は、Ｓ２４０において、音声継続時間が時間閾値Ｔ１以上であるものと判定した直後に移行した場合、即ち、今回のサイクルでの音声保存期間の開始が検出されてから、最初にＳ２５０及びＳ２６０へと移行した場合にのみ実行される。

続く、Ｓ２７０では、検出フラグがハイレベルであるか否かを判定する。即ち、現在検出している音声期間の間、もしくは基準開始時点が検出される前の期間（より正確には、本実施形態では、基準開始時点より前の時間閾値Ｔ３の間）に、キーワードの発声がなされたか否かを判定する。そして、Ｓ２７０での判定の結果、キーワードの発声がなされたものと判定した場合、Ｓ２８０へと進む。

そのＳ２８０では、現在検出中の音声保存期間を、音声認識処理の対象とする発話期間として既に設定済みであるか否かを判定し、判定の結果、設定済みでなければ、Ｓ２９０にて、現在検出中の音声保存期間が発話期間であるか否かを表す発話期間フラグをハイレベルに設定して、Ｓ２２０へと戻る。

また、Ｓ２７０での判定の結果、キーワードの発声がなされていないものと判定した場合、発話期間フラグをローレベルとしたまま、Ｓ２２０へと戻る。一方、Ｓ２８０での判定の結果、現在検出中の音声保存期間が発話期間として設定済みであれば、発話期間フラグをハイレベルに維持したまま、Ｓ２２０へと戻る。

なお、ハイレベルな発話期間フラグは、音声保存期間が発話期間として設定されたことを表すものであり、ローレベルな発話期間フラグは、音声保存期間が発話期間として設定されていない（即ち、未設定な）ことを表すものである。

ところで、Ｓ２３０での判定の結果、信号レベルＰが音声判定閾値Ｐｔ未満である場合、Ｓ３００へと進む。そのＳ３００では、Ａ／Ｄ変換器１６から入力される音響信号の現時点での格納先が第二メモリ１３であるか否かを判定し、判定の結果、格納先が第二メモリ１３でなければ（即ち、第一メモリ１２であれば）、Ｓ２２０へと戻る。

なお、Ｓ２４０での判定の結果、信号レベルＰが、時間閾値Ｔ１以上継続して音声判定閾値Ｐｔ以上でない場合、即ち、音声継続時間が時間閾値Ｔ１未満である場合にも、Ｓ２２０へと戻る。

一方、Ｓ３００での判定の結果、Ａ／Ｄ変換器１６から入力される音響信号の現時点での格納先が第二メモリ１３であれば、Ｓ３１０へと進む。
そのＳ３１０では、Ａ／Ｄ変換器１６から入力される音響信号の信号レベルＰが、時間閾値Ｔ２以上継続して音声判定閾値Ｐｔ未満であるか否かを判定する。そして、判定の結果、信号レベルＰが音声判定閾値Ｐｔ未満である継続時間が、時間閾値Ｔ２未満である場合、先のＳ２３０及びＳ２４０にて検出を開始した音響信号中の音声（即ち、音声期間）が、中断期間を挟んで継続する可能性があるものとして、Ｓ２２０へと戻る。

一方、Ｓ３１０での判定の結果、信号レベルＰが音声判定閾値Ｐｔ未満である継続時間が、時間閾値Ｔ２以上である場合、先のＳ２３０及びＳ２４０にて検出を開始した音響信号中の音声が中断期間を挟んで継続している可能性がないものとして、Ｓ３２０へと進む。

そのＳ３２０では、Ａ／Ｄ変換器１６から入力される音響信号の格納先を、第二メモリ１３の期間後格納領域に変更してＳ３３０へと進む。
続く、Ｓ３３０では、信号レベルＰが音声判定閾値Ｐｔ未満となった時点（以下、基準終了時点とする）からの経過時間（以下、音声終了経過時間とする）が、時間閾値Ｔ４以上であるか否かを判定する。

そして、判定の結果、音声終了経過時間が時間閾値Ｔ４未満であれば、先のＳ２３０及びＳ２４０にて検出を開始した音声保存期間（以下、今サイクル音声保存期間とする）が継続しているものとして、Ｓ２２０へと戻る。一方、Ｓ３３０での判定の結果、音声終了経過時間が時間閾値Ｔ４以上であれば、今サイクル音声保存期間が終了しているものとして、Ｓ３４０へと進む。

そのＳ３４０では、Ａ／Ｄ変換器１６から入力される音響信号の格納先を、第一メモリ１２に変更してＳ３５０へと進む。
続く、Ｓ３５０では、Ｓ３３０まで検出中であった今サイクル音声保存期間が発話期間として既に設定済みであるか否かを判定し、判定の結果、設定済みでなければ、Ｓ３６０へと進む。

そして、Ｓ３６０にて、検出フラグがハイレベルであるか否か、即ち、基準終了時点から現時点までに、キーワードの発声がなされたか否かを判定する。そのＳ３６０での判定の結果、キーワードの発声がなされていないものと判定した場合、Ｓ３７０へと進む。

さらに、Ｓ３７０では、音声終了経過時間が時間閾値Ｔ６以上であるか否かを判定し、判定の結果、音声終了経過時間が時間閾値Ｔ６未満であれば、Ｓ３６０へと戻る。一方、判定の結果、音声終了経過時間が時間閾値Ｔ６以上であれば、今サイクル音声保存期間の間（より正確には、時間閾値Ｔ６マイナス時間閾値Ｔ４分だけ、音声保存期間よりも長い期間）に、キーワードの発声がなされず、その今サイクル音声保存期間が発話期間として設定されなかったものとして、Ｓ３８０へと進む。

そのＳ３８０では、第二メモリ１３（即ち、期間前格納領域、判定期間格納領域、音声期間格納領域）に格納されている音響信号（つまり、データ）を消去した後、Ｓ２２０へと戻る。

ところで、Ｓ３６０での判定の結果、キーワードの発声がなされたものと判定した場合、Ｓ３９０へと進み、そのＳ３９０では、Ｓ３３０まで検出中であった今サイクル音声保存期間を発話期間とするように、発話期間フラグをハイレベルに設定して、Ｓ３９５へと進む。そのＳ３９５では、検出フラグをローレベルに設定し、その後、Ｓ４００へと進む。

なお、Ｓ３５０での判定の結果、Ｓ３３０まで検出中であった今サイクル音声保存期間が発話期間として既に設定済みである場合にも、Ｓ４００へと進む。
そのＳ４００では、第一メモリ１２に格納されている基準終了時点から時間閾値Ｔ２経過した以降（即ち、時間閾値Ｔ４マイナス時間閾値Ｔ２分）の音響信号を、第二メモリ１３の期間後格納領域に転送して、その後、Ｓ４１０へと進む。

続く、Ｓ４１０では、第二メモリ１３に格納されている発話期間での音響信号を、期間前格納領域、判定期間格納領域、音声期間格納領域、期間後格納領域の順序でつなぎ合わせると共に、そのつなぎ合わせた音響信号を発話信号として抽出する。そして、その抽出した発話信号を音声認識処理へと移行して、発話信号に対して音声認識処理を実行して発話内容を特定する。

その後、Ｓ２２０へと戻り、次に、Ａ／Ｄ変換器１６から入力される音響信号に従って、音声期間や音声保存期間を再度検出する。
〈動作例〉
次に、上述した発話期間抽出処理により、音響信号から音声期間及び音声保存期間を特定する方法を説明する。

ここで、図５は、音声認識装置１の動作例を説明するための説明図である。なお、図５に示すように、時間の経過と共に（即ち、図中の左から右へと移行するように）信号レベルＰが変化する音響信号が、制御装置１０に入力されるものとし、ここでは、キーワードとして「おねがいします」が設定されている状況で、ユーザが「にひゃくめーたすけーるおねがいします」と発声したものとする。

まず、発話期間抽出処理が実行されている制御装置１０に、図５に示すような音響信号の入力が開始されると、制御装置１０では、入力された音響信号は、第一メモリ１２に格納される。そして、音響信号の信号レベルＰが、時間閾値Ｔ１以上継続して音声判定閾値Ｐｔ以上となると、制御装置１０では、信号レベルＰが音声判定閾値Ｐｔ以上となった時点（即ち、基準開始時点）よりも後に、制御装置１０に入力された音響信号中に音声成分が含まれるものと判定する。

すると、制御装置１０では、第一メモリ１２に格納されている音響信号の中で、基準開始時点から時間閾値Ｔ３分遡った時点までの音響信号を第二メモリ１３の期間前格納領域に転送し、基準開始時点から時間閾値Ｔ１経過した時点までの音響信号を第二メモリ１３の判定期間格納領域に転送する。これと共に、以降、入力される音響信号の格納先が第二メモリ１３の音声期間格納領域となるように設定する。

さらに、制御装置１０では、Ａ／Ｄ変換器１６から入力される音響信号の信号レベルＰが音声判定閾値Ｐｔ未満となり、かつ信号レベルＰが音声判定閾値Ｐｔ未満となった時点（即ち、基準終了時点）からの経過時間（即ち、音声終了経過時間）が時間閾値Ｔ２以上であれば、以降、入力される音響信号の格納先を第二メモリ１３の期間後格納領域に変更する。

そして、音声終了経過時間が時間閾値Ｔ４以上となると、以降、入力される音響信号の格納先を第一メモリ１２へと変更すると共に、基準開始時点から時間閾値Ｔ３分遡った時点より、基準終了時点から時間閾値Ｔ４が経過した時点までを一つの音声保存期間として特定する。ただし、制御装置１０では、音声終了経過時間が時間閾値Ｔ２未満であれば、一つの音声期間が継続しているものとして、第二メモリ１３の音声期間格納領域を音響信号の格納先として維持する。

このような場合、キーワード検出処理では、図５に示すように、発声期間の後半部分（即ち、「おねがいします」と発声された部分）では、音響信号と、音声パタンとの一致度が閾値以上となるため、検出フラグがハイレベルとなる。

したがって、音声終了経過時間が時間閾値Ｔ４以上となる前に、発話フラグがハイレベルとなり、発話期間抽出処理で特定された音声保存期間が発話期間として設定されることになる。

つまり、本発話期間抽出処理では、制御装置１０に入力される音響信号の信号レベルＰが、時間閾値Ｔ１以上継続して音声判定閾値Ｐｔ以上となる期間を音声期間として特定して、第二メモリ１３に格納する。これと共に、音声期間の開始時点である基準開始時点よりも前の時間閾値Ｔ３分の音響信号、及び音声期間の終了時点である基準終了時点よりも後の時間閾値Ｔ４分の音響信号も、音声保存期間の一部として第二メモリ１３に格納する。そして、音声保存期間として特定された期間を含む期間の間に、音響信号中にキーワードが含まれていることを検出すると、その音声保存期間の間に第二メモリ１３に格納された音響信号を発話信号として、その発話信号に対して音声認識処理を実行する。
［第一実施形態の効果］
以上説明したように、本実施形態の音声認識装置１を用いる場合、ユーザは、音声保存期間として特定された期間を含む期間の間に、キーワードを発声すれば良い。

このため、本実施形態の音声認識装置１によれば、従来技術と異なり、指令を入力（即ち、キーワードを発声）するタイミングと、音声認識させたいと望む発声を開始するタイミングとのズレを意識する必要がなくなり、利便性を向上させることができる。

ところで、本実施形態の音声認識装置１では、音声期間が開始される前の期間（即ち、基準開始時点よりも前の時間閾値Ｔ３）、及び音声期間が終了した後の期間（即ち、基準終了時点よりも後の時間閾値Ｔ４）も音声保存期間としている。

このため、本実施形態の音声認識装置１によれば、音声期間の開始時点以前、及び音声期間の終了時点以後の無声化した音が、音声認識すべき期間から欠落することを防止できる。したがって、例えば、発話頭や発話末で無声化した音声（即ち、無声音）についても音声認識することができ、この結果、音声認識の精度を向上させることができる。

なお、本実施形態の音声認識装置１では、例えば、発話の内容に無声化した音（即ち、無声音）が含まれていたとしても、その無声音が発せられた期間が時間閾値Ｔ２以内であれば、無声音を含む期間を音声期間としている。つまり、本実施形態の音声認識装置１によれば、発声中に含まれる無声音が音声認識すべき発話期間から欠落することを防止できる。したがって、例えば、ユーザが言葉を選びながら発話する等のユーザの発話中に、時間閾値Ｔ２よりも短い音声休止が含まれる場合であっても、精度良く音声認識を行うことができる。
［第二実施形態］
次に、本発明の第二実施形態について説明する。

第一実施形態に示した音声認識装置１と、第二実施形態における音声認識装置とでは、第二メモリ１３の内部構成、キーワード検出処理、及び発話期間抽出処理が異なるのみである。このため、第一実施形態に示した音声認識装置１と同様の構成、及び処理については、同一な符号を付して説明を省略し、第一実施形態とは異なる第二メモリ１３の内部構成、キーワード検出処理、及び発話期間抽出処理を中心に説明する。

本実施形態における第二メモリ１３は、期間前格納領域、判定期間格納領域、音声期間格納領域、期間後格納領域に加えて、キーワード検出処理、及び発話期間抽出処理の途中で検出される時刻を格納する時刻格納領域を備えている。
〈キーワード検出処理〉
次に、本実施形態におけるキーワード検出処理について説明する。

ここで、図６は、本実施形態におけるキーワード検出処理の処理手順を示したフローチャートである。
このキーワード検出処理は、音声認識装置１が起動（電源ＯＮ）されると、処理プログラムに従って実行されるものである。そのキーワード検出処理が実行されると、図６に示すように、まず、Ｓ８１０にて、Ａ／Ｄ変換器１６から入力される音響信号と、音声パタンとを照合して、音響信号中にキーワードが含まれているか否かを判定し、判定の結果、キーワードが含まれていなければ、音響信号からキーワードが検出されるまで待機する。一方、キーワードが検出されると、Ｓ８２０にて、キーワードが検出された時刻（以下、検出時刻とする）を第二メモリ１３の時刻格納領域に格納する。
〈発話期間抽出処理〉
次に、本実施形態の発話期間抽出処理について説明する。

ここで、図７は、本実施形態における発話期間抽出処理の処理手順を示すフローチャートである。
この発話期間抽出処理は、音声認識装置１が起動（電源ＯＮ）されると処理プログラムに従って実行されるものであり、発話期間抽出処理が実行されると、図７に示すように、まず、Ｓ６１０にて、時間閾値Ｔ１，Ｔ２，Ｔ３，Ｔ４と、音声判定閾値ＰｔとをＲＯＭ１１から読み出すと共に、Ａ／Ｄ変換器１６から入力される音響信号の格納先を第一メモリ１２に設定する。

続くＳ６２０では、Ａ／Ｄ変換器１６から入力される音響信号から信号レベルＰを導出する。
そして、Ｓ６３０では、Ｓ６２０で導出した信号レベルＰが音声判定閾値Ｐｔ以上であるか否かを判定し、その判定の結果、信号レベルＰが音声判定閾値Ｐｔ以上であれば、Ｓ６４０へと進む。そのＳ６４０では、信号レベルＰが、時間閾値Ｔ１以上継続して音声判定閾値Ｐｔ以上であるか否かを判定し、判定の結果、信号レベルＰが、時間閾値Ｔ１以上継続して音声判定閾値Ｐｔ以上、即ち、信号レベルＰが音声判定閾値Ｐｔ以上である継続時間（以下、音声継続時間とする）が時間閾値Ｔ１以上である場合、Ｓ６５０へと進む。

つまり、Ｓ６３０及びＳ６４０では、音声継続時間が、時間閾値Ｔ１以上であるか否かを判定し、音声継続時間が時間閾値Ｔ１以上であれば、Ａ／Ｄ変換器１６から入力される音響信号に音声が含まれているものと判定している。そして、信号レベルＰが音声判定閾値Ｐｔ以上となった時点を開始時点（以下、基準開始時点とする）とした音声期間を設定する。

続く、Ｓ６５０では、基準開始時点よりも時間閾値Ｔ３前の時点を、音声保存期間の開始時点を表す保存開始時点として設定する。これと共に、第一メモリ１２に格納されている音声保存期間開始時点から基準開始時点までの音響信号を第二メモリ１３の期間前格納領域に、基準開始時点から時間閾値Ｔ１が経過した時点までの音響信号を第二メモリ１３の判定期間格納領域に、それぞれ転送する。

さらに、Ｓ６６０では、Ａ／Ｄ変換器１６から入力される音響信号の格納先を第二メモリ１３の音声期間格納領域に設定（変更）する。即ち、音声期間格納領域が、基準開始時点から時間閾値Ｔ１が経過した以降に、制御装置１０に入力される音響信号の格納先となる。ただし、これらのＳ６５０及びＳ６６０での処理は、Ｓ６４０において、音声継続時間が時間閾値Ｔ１以上であるものと判定した直後に移行した場合、即ち、その音声保存期間の開始が検出されてから最初にＳ６５０及びＳ６６０へと移行した場合にのみ実行される。

続く、Ｓ６７０では、基準開始時点、及びその基準開始時点の時刻から時間閾値Ｔ３分だけ遡った時刻（以下、保存開始時刻とする）を第二メモリ１３の時刻格納領域に格納して、その後Ｓ６２０へと戻る。

ところで、Ｓ６３０での判定の結果、信号レベルＰが音声判定閾値Ｐｔ未満である場合、Ｓ６８０へと進む。そのＳ６８０では、Ａ／Ｄ変換器１６から入力される音響信号の現時点での格納先が第二メモリ１３であるか否かを判定し、判定の結果、格納先が第二メモリ１３でなければ（即ち、第一メモリ１２であれば）、Ｓ６２０へと戻る。なお、Ｓ６４０での判定の結果、音声継続時間が時間閾値Ｔ１未満である場合にも、Ｓ６２０へと戻る。

一方、Ｓ６８０での判定の結果、Ａ／Ｄ変換器１６から入力される音響信号の現時点での格納先が第二メモリ１３であれば、Ｓ６９０へと進む。
そのＳ６９０では、信号レベルＰが、時間閾値Ｔ２以上継続して音声判定閾値Ｐｔ未満であるか否かを判定する。そして、判定の結果、信号レベルＰが音声判定閾値Ｐｔ未満である継続時間が、時間閾値Ｔ２未満である場合、先のＳ６３０及びＳ６４０にて検出を開始した音響信号中の音声（即ち、音声期間）が、中断期間を挟んで継続する可能性があるものとして、Ｓ６２０へと戻る。

一方、Ｓ６９０での判定の結果、信号レベルＰが音声判定閾値Ｐｔ未満である継続時間が、時間閾値Ｔ２以上である場合、先のＳ６３０及びＳ６４０にて検出を開始した音響信号中の音声が中断期間を挟んで継続している可能性が限りなく低いものとして、Ｓ７００へと進む。

そのＳ７００では、音響信号の格納先を、第二メモリ１３の期間後格納領域に変更してＳ７１０へと進む。
続く、Ｓ７１０では、信号レベルＰが音声判定閾値Ｐｔ未満となった時点（以下、基準終了時点とする）からの経過時間（以下、音声終了経過時間とする）が、時間閾値Ｔ４以上であるか否かを判定する。

そして、判定の結果、音声終了経過時間が時間閾値Ｔ４未満であれば、先のＳ６３０及びＳ６４０にて検出を開始した音声保存期間（以下、今サイクル音声保存期間とする）が継続しているものとして、Ｓ６２０へと戻る。一方、Ｓ７１０での判定の結果、音声終了経過時間が時間閾値Ｔ４以上であれば、今サイクル音声保存期間が終了しているものとして、Ｓ７２０へと進む。

そのＳ７２０では、基準終了時点の時刻、及び時間閾値Ｔ４が経過した時点での時刻（以下、保存終了時刻とする）を第二メモリ１３の時刻格納領域に格納して、その後Ｓ６２０へと戻る。

続く、Ｓ７３０では、Ａ／Ｄ変換器１６から入力される音響信号の格納先を、第一メモリ１２に変更してＳ７４０へと進む。
そして、Ｓ７４０では、音声終了経過時間が時間閾値Ｔ６以上であるか否かを判定する。その判定の結果、音声終了経過時間が時間閾値Ｔ６未満であれば、音声終了経過時間が時間閾値Ｔ６以上となるまで待機して、時間閾値Ｔ６以上となると、Ｓ７５０へと進む。

そのＳ７５０では、検出時刻が許容期間内であるか否かを判定し、判定の結果、許容期間外であれば、Ｓ７６０へと進む。なお、許容期間とは、基準開始時刻より時間閾値Ｔ５前の時刻から、基準終了時刻より時間閾値Ｔ６後の時刻までの期間である。

そのＳ７６０では、第二メモリ１３（即ち、期間前格納領域、判定期間格納領域、音声期間格納領域）に格納されている音響信号（つまり、データ）を消去した後、Ｓ６２０へと戻る。

一方、Ｓ７５０での判定の結果、検出時刻が許容期間内であれば、Ｓ７７０へと進む。そのＳ７７０では、今サイクル音声保存期間を発話期間として、第二メモリ１３に格納されている音響信号を、期間前格納領域、判定期間格納領域、音声期間格納領域、期間後格納領域の順序でつなぎ合わせると共に、そのつなぎ合わせた音響信号を発話信号として抽出する。そして、その抽出した発話信号を音声認識処理へと移行して、発話信号に対して音声認識処理を実行して発話内容を特定する。

その後、Ｓ６２０へと戻り、次に、Ａ／Ｄ変換器１６から入力される音響信号に従って、音声期間や音声保存期間を再度検出する。
つまり、本実施形態の発話期間抽出処理では、キーワードを検出したキーワード検出タイミングと、音声保存期間を検出している検出タイミングとを別々に記憶し、音声保存期間の検出が終了した後で、キーワード検出タイミングと検出タイミングとを照合する。そして、キーワード検出タイミングが、検出タイミングに基づく許容期間内であれば、その音声保存期間が発話期間であるものとしている。
［第二実施形態の効果］
以上説明したように、本実施形態の音声認識装置によれば、第一実施形態に記載の音声認識装置と同様の効果を得ることができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は、上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において様々な態様にて実施することが可能である。

例えば、上記実施形態（ここでは、第一実施形態）における発話期間抽出処理では、検出フラグがハイレベルであるかローレベルであるかに基づいて、音響信号にキーワードが含まれているか否かを判定（即ち、キーワードの検出を確認）したが、キーワードの検出確認は、発話期間抽出処理内で実施しても良い。つまり、第一実施形態において、発話期間抽出処理の中（例えば、Ｓ２７０，Ｓ３６０）で、音響信号にキーワードが含まれているか否かの判定を行っても良く、キーワード検出処理として実行されていなくとも良い。

また、上記実施形態における発話期間抽出処理では、音響信号の信号レベルＰが、時間閾値Ｔ１以上継続して、音声判定閾値Ｐｔ以上である場合に、音響信号に音声成分が含まれているものと判定していたが、音響信号に音声成分が含まれているか否かを判定する方法は、これに限るものではない。例えば、音響信号に音声成分が含まれているか否かを判定するために、音響信号が予め規定された閾値を上回ったり下回ったりしたことを表すゼロクロス頻度や、周知の低次ケプストラム係数等を用いる周知の方法を、上記実施形態の方法に替えて行っても良いし、上記実施形態の方法に加えて行っても良い。特に、後者の方法であれば、より正確に音声期間を特定することができる。

なお、上記実施形態における時間閾値Ｔ３，Ｔ４は、同一な長さの時間として設定されていたが、これらの時間閾値は、時間閾値Ｔ３が時間閾値Ｔ４よりも長い時間であっても良いし、逆に、時間閾値Ｔ４が時間閾値Ｔ３よりも長い時間であっても良い。

また、上記実施形態における時間閾値Ｔ５は、時間閾値Ｔ３と時間閾値Ｔ１とを足し合わせたものとしたが、これに限るものではなく、時間閾値Ｔ１と予め規定された規定時間αとを足し合わせたものでも良く、この規定時間αは、時間閾値Ｔ３よりも長い時間でも良いし、時間閾値Ｔ３よりも短い時間でも良い。つまり、時間閾値Ｔ５は、時間閾値Ｔ１よりも長い時間であり、キーワードが検出されてから、基準開始時点が検出されるまでの検出フラグをハイレベルとする時間として設定されたものであれば、どのような長さでも良い。

さらに、上記実施形態における時間閾値Ｔ６は、時間閾値Ｔ４よりも長い時間としたが、これに限るものではなく、時間閾値Ｔ４と同じ長さの時間でも良いし、時間閾値Ｔ４よりも短い時間でも良い。つまり、時間閾値Ｔ６は、基準終了時点から、キーワードが検出されるまでの検出フラグをハイレベルとする時間として設定されたものであれば、どのような長さでも良い。特に、時間閾値Ｔ６は、音声保存期間内に含まれるものであっても良い。

さらには、上記実施形態における発話期間抽出処理では、時間閾値Ｔ１からＴ６は、予め規定された値を使用し続けたが、これらの閾値は、周知の学習処理を用いて、ユーザの話速等に基づいて、長くしたり、短くしたりしても良い。例えば、ユーザの話速が早口である場合に、時間閾値Ｔ１，Ｔ３，Ｔ４を短くすれば、ユーザが発声している期間以外の余分な期間（即ち、発声が開始される前や、終了した後の期間等）が音声認識されることを防止できる。

また、上記実施形態における発話期間抽出処理では、音声判定閾値Ｐｔは、予め規定された値を使用し続けたが、音声判定閾値Ｐｔはこれに限るものではなく、例えば、キーワードが検出された時点で、発話期間として特定された音声保存期間が存在しなかった場合、音声判定閾値Ｐｔは、Ｓ２２０やＳ６２０等にて、予め規定された変更値だけ低下されても良い。

つまり、音響信号からキーワードが検出された時点で、発話期間として特定された音声保存期間が存在しなかった場合、ユーザは発声しているものの声量が小さいため、音声期間を正確に検出できていない可能性が高い。

したがって、上述したように、音声判定閾値Ｐｔを変更値だけ低下させることで、話者（ユーザ）の声量が小さかったとしても、ユーザが次に発声する時に音声期間を検出する可能性を向上させることができ、これを繰り返すことで、音声期間を確実に検出できる。

また、発話者の周辺が騒々しい場合、音響信号にノイズが含まれ信号レベルＰが常に高くなり、常時、音声期間が検出されることが考えられる。このため、常時音声期間が検出されるような場合には、Ｓ２２０やＳ６２０等にて、音声期間判定閾値Ｐｔを変更値だけ増加しても良い。

ただし、ここで言う変更値は、発話者の発声量を学習する周知の処理により、動的に設定されるものでも良い。
ところで、上記実施形態におけるキーワード検出処理では、予め設定されたキーワードが音響信号に含まれているか否かを判定していたが、キーワードは、ユーザ毎に変更可能であっても良いし、複数の異なるキーワードが設定されていても良い。

さらに、上記実施形態の発話期間抽出処理では、音声期間前後の時間閾値Ｔ５，Ｔ６の間に、音響信号からキーワードが検出された場合にも、その音声期間を含む音声保存期間を発話期間としていたが、発話期間の特定方法は、これに限るものではない。例えば、音声期間内や、音声期間に時間閾値Ｔ５，Ｔ６のいずれか一方を加えた期間内に、音響信号からキーワードが検出された場合に、対応する音声保存期間を発話期間として設定するようにしても良い。

なお、上記実施形態の発話期間抽出処理では、音響信号に音声成分が含まれる場合、音響信号の格納先を第二メモリ１３としたが、音響信号の格納先は、第一メモリ１２でも良い。ただし、この場合、第一メモリ１２には、期間前格納領域、判定期間格納領域、音声期間格納領域、期間後格納領域が設けられている必要がある。また、これらの領域毎に異なるメモリが設けられていても良い。さらに、第一メモリ１２は、遅延線を有した遅延回路として構成されたものでも良い。

音声認識装置の概略構成を示すブロック図である。第一実施形態におけるキーワード検出処理の処理手順を示したフローチャートである。第一実施形態における発話期間抽出処理の処理手順を示したフローチャートである。第一実施形態における発話期間抽出処理の処理手順を示したフローチャートである。音声期間及び音声保存期間の特定方法、音声認識装置の動作例を説明するための説明図である。第二実施形態におけるキーワード検出処理の処理手順を示したフローチャートである。第二実施形態における発話期間抽出処理の処理手順を示したフローチャートである。従来の音声認識装置での課題を示した説明図である。

符号の説明

１…音声認識装置１０…制御装置１１…ＲＯＭ１２…第一メモリ１３…第二メモリ１４…ＣＰＵ１５…マイクロフォン１６…Ａ／Ｄ変換器

Claims

音響信号を順次取得する音響信号取得手段と、
前記音響信号取得手段で取得した音響信号を保持する音響信号保持手段と、
前記音響信号が予め設定された条件を満たしている期間を音声期間とし、前記音声期間を少なくとも含む期間を音声特定期間として、前記音響信号取得手段で取得した音響信号から前記音声特定期間を繰り返し特定する音声期間特定手段と、
前記音響信号取得手段で取得される音響信号から、予め規定されたキーワードを検出するキーワード検出手段と、
前記音声期間特定手段で特定した音声特定期間の中に、前記キーワード検出手段でキーワードを検出したタイミングに対して予め規定された規定関係を有する音声特定期間を発話期間として設定すると共に、その発話期間に前記音響信号保持手段で保持した音響信号を発話信号として抽出する発話特定抽出手段と、
前記発話特定抽出手段で抽出された発話信号に対し、発話内容を特定するための音声認識処理を実行する音声認識処理手段と
を備えることを特徴とする音声認識装置。
前記発話特定抽出手段は、
前記キーワード検出手段にてキーワードが検出されたタイミングを含んだ前記音声特定期間を、前記規定関係を有する音声特定期間とすることを特徴とする請求項１に記載の音声認識装置。
前記発話特定抽出手段は、
前記キーワード検出手段にてキーワードが検出されたタイミングから予め規定された規定期間の間に開始された前記音声特定期間を、前記規定関係を有する音声特定期間とすることを特徴とする請求項１または請求項２に記載の音声認識装置。
前記発話特定抽出手段は、
前記キーワード検出手段にてキーワードが検出されたタイミング前の予め規定された規定期間の間に終了した前記音声特定期間を、前記規定関係を有する音声特定期間とすることを特徴とする請求項１ないし請求項３のいずれかに記載の音声認識装置。
前記キーワード検出手段にてキーワードが検出された時点で、前記規定関係を有する音声特定期間が存在しなかった場合、前記規定期間を予め設定された設定値だけ変更させる規定期間変更手段を備えることを特徴とする請求項３または請求項４に記載の音声認識装置。
前記音声期間特定手段は、
前記音響信号の信号レベルが、予め設定された第一特定時間以上連続して予め規定された規定値以上である期間を前記音声期間として特定することを特徴とする請求項１ないし請求項５のいずれかに記載の音声認識装置。
前記音声期間特定手段は、
前記規定値以下である前記音響信号の信号レベルの時間が、前記第一特定期間よりも短い第二特定時間以下である場合、その第二特定時間を挟んだ二つの前記音声期間が継続しているものとすることを特徴とする請求項６に記載の音声認識装置。
前記キーワード検出手段にてキーワードが検出された時点で、前記規定関係を有する音声特定期間が存在しなかった場合、前記第一特定時間及び前記第二特定時間の少なくとも一方を予め設定された設定値だけ変更させる特定期間変更手段を備えることを特徴とする請求項７に記載の音声認識装置。
前記キーワード検出手段にてキーワードが検出された時点で、前記規定関係を有する音声特定期間が存在しなかった場合、前記規定値を予め規定された変更値だけ変更させる規定値変更手段を備えることを特徴とする請求項６ないし請求項８のいずれかに記載の音声認識装置。
前記音声期間特定手段は、
前記音声期間そのものを前記音声特定期間として特定することを特徴とする請求項１ないし請求項９のいずれかに記載の音声認識装置。
前記音声期間特定手段は、
前記音声期間の開始時点よりも前の予め設定された設定期間、及び前記音声期間の終了時点よりも後の予め設定された設定期間の少なくとも一つを、その音声期間に加えた期間を前記音声特定期間として特定することを特徴とする請求項１ないし請求項１０のいずれかに記載の音声認識装置。
前記キーワード検出手段にてキーワードが検出された時点で、前記規定関係を有する音声特定期間が存在しなかった場合、前記設定期間を予め設定された設定値だけ変更させる設定期間変更手段を備えることを特徴とする請求項１１に記載の音声認識装置。
コンピュータを、請求項１ないし請求項１２のいずれかに記載された音声認識装置を構成する各手段として機能させるためのプログラム。
発話内容を特定するための音声認識処理を実行する音声認識装置で、順次入力される音響信号から前記音声認識処理の対象とする発話信号を抽出する発話信号抽出方法であって、
入力された音響信号を、データを記憶可能な記憶部にて保持する音響信号保持過程と、
前記音響信号が予め設定された条件を満たしている期間を音声期間とし、前記音声期間を少なくとも含む期間を音声特定期間として、入力された音響信号から前記音声特定期間を繰り返し特定する音声期間特定過程と、
順次入力される音響信号から、予め規定されたキーワードを検出するキーワード検出過程と、
前記音声期間特定過程で特定した音声特定期間の中で、前記キーワード検出過程でキーワードが検出されたタイミングに対して予め規定された規定関係を有する音声特定期間を発話期間として設定すると共に、その発話期間に前記音響信号保持過程で記憶部に保持した音響信号を前記発話信号として抽出する発話特定抽出過程と
を有したことを特徴とする発話信号抽出方法。