JP7129422B2

JP7129422B2 - 音声コマンドを検出及びキャプチャするシステムと方法

Info

Publication number: JP7129422B2
Application number: JP2019555430A
Authority: JP
Inventors: シュードンツァオ、; アレクサンダーシー．シュタンゲ、; ショーンオコーナー、; アリハディアシャー、
Original assignee: アブネラコーポレーション
Priority date: 2016-12-21
Filing date: 2017-12-20
Publication date: 2022-09-01
Anticipated expiration: 2037-12-20
Also published as: CN110520927A; GB201909295D0; GB2573424B; WO2018119138A1; KR102501601B1; GB2573424A; US20180174583A1; US10403279B2; DE112017006411T5; TW201835895A; KR20190100270A; JP2020502593A

Description

本開示は、音声コマンドの音声検出及びキャプチャのためのシステム及び方法に関する。

多くの消費者電子デバイスが、人間の声により発せられる音声コマンドによって完全に又は部分的に制御される機能を有している。この音声制御によりユーザは、ユーザの手を使うことなく、デバイス上の少ないボタン又はスイッチによってデバイスを動作させることができる。

かかるデバイスは、デバイスが音声コマンドを「聞いて」キャプチャすることができるように、常時リスニングモードを要求し得る。よって、常時リスニングモードにおいて、デバイスはオン状態であって音声コマンドを待ち受ける。常時リスニング機能の品質は一般に、全体平均電流消費及び音声コマンド誤検出率という２つのメトリクスによって測定される。

本発明の実施形態は、既存のデバイスの欠点に対処する。

米国特許出願公開第２０１５／０３５６９８２（Ａ１）号明細書

開示の主題の実施形態は、低電力かつ常時リスニングの音声コマンド検出及びキャプチャのシステムに関する。低電流動作状態により、システムは、当該システムの全体平均電流消費を低減することができる。最低電流動作モードにおいて、システムは音声アクティビティの兆候を待ち受ける。その後の各状態は、音声コマンドが検出、認識及び処理される最高電流動作状態まで、音声コマンド検出の信頼性が徐々に高くなる。

したがって、音声コマンドを検出及びキャプチャするシステムの少なくともいくつかの実施形態は、音声アクティビティ検出器（ＶＡＤ）を含み、ＶＡＤは、ＶＡＤ受信デジタルオーディオ信号を受信することと、ＶＡＤ受信デジタルオーディオ信号の振幅を決定することと、ＶＡＤ受信デジタルオーディオ信号の振幅を第１しきい値と及び第２しきい値と比較することと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値又は第２しきい値を超えない場合にＶＡＤ割り込み信号を差し控えることと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値及び第２しきい値を超える場合にＶＡＤ割り込み信号を生成することと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値と第２しきい値との間に存在する場合にＶＡＤ割り込み信号のスペクトル分析を行うことと行うべく構成される。

多側面において、音声コマンドを検出及びキャプチャする方法の少なくともいくつかの実施形態は、音声アクティビティ検出器（ＶＡＤ）がＶＡＤ受信デジタルオーディオ信号を受信することと、ＶＡＤがＶＡＤ受信デジタルオーディオ信号の振幅を決定することと、ＶＡＤがＶＡＤ受信デジタルオーディオ信号の振幅を第１しきい値と及び第２しきい値と比較することと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値又は第２しきい値を超えない場合にＶＡＤがＶＡＤ割り込み信号を差し控えることと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値及び第２しきい値を超える場合にＶＡＤがＶＡＤ割り込み信号を生成することと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値と第２しきい値との間に存在する場合にＶＡＤがＶＡＤ受信デジタルオーディオ信号のスペクトル分析を行うこととを含む。

したがって、既存のデバイスと比較して、記載されるシステム及び方法は、低い平均電流消費において低い音声コマンド誤検出率を与えることができる。

本発明の実施形態に係る音声コマンド検出及びキャプチャシステムの機能ブロック図である。図１に示される音声認識モジュールに含まれ得るウェイクアップ回路の回路図である。人間の話しからのオーディオ信号のグラフの一例を示す。ここで、縦軸は信号振幅を表し、横軸は時間を表す。図１に示される音声認識モジュールのプロセスの一例を示すフローチャートである。音声コマンド検出及びキャプチャシステムの一つの特徴に係るクロックスイッチング事象の一例を示す。

以下の詳細な説明において、パターン１ｘｘの参照番号が一般に図１及び２に示される一方、３ｘｘの参照番号は一般に図３に示される。同様に、４ｘｘの参照番号は一般に図４に示され、５ｘｘの参照番号は一般に図５に示される。

本願に記載されるように、本発明の実施形態は、低電力かつ常時リスニングの音声コマンド検出及びキャプチャシステムに関する。開示される技術は、異なる電流量を利用する一定数の別個の動作状態を含む。これらの動作状態は、個々のサブシステムの集合状態を特徴とする。最低電流動作モードにおいて、システムは音声アクティビティの兆候を待ち受ける。その後の各状態は、音声コマンドが検出、認識及び処理される最高電流動作状態まで、音声コマンド検出の信頼性が徐々に高くなる。

低電流動作状態により、システムは、当該システムの全体平均電流消費を低減することができる。さらに、利用可能な動作状態のすべて又はほんのいくつかを選択的に使用することにより、システムは、音声コマンド誤検出率を低減することができる。例えば、システムは、フレーズの始まりを切り捨てるのではなく、キャプチャするべく、スリープになるのを回避し得る。したがって、既存のデバイスと比較して、記載されるシステム及び方法は、低い平均電流消費において低い音声コマンド誤検出率を与えることができる。

よって、開示される技術は、例えば、有線及び無線ヘッドホン、ウェアラブル製品、スピーカーバー、ゲームコントローラ、並びに電話機及びタブレットのような携帯デバイスを含む任意の音声作動及び制御のシステムにおいて、有用となり得る。音声作動及び制御のシステムは、インテリジェントパーソナルアシスタント又は他のソフトウェアエージェントを含み得る。

図１は、本発明の複数の実施形態に係る低電力かつ常時リスニングの音声コマンド検出及びキャプチャシステムの複数部分を示す機能ブロック図である。図１に示されるように、音声コマンド検出及びキャプチャシステム１００は、アナログデジタル変換器（ＡＤＣ）１０１、デシメーションフィルタ１０２、音声ＲＡＭ（ランダムアクセスメモリ）１０３、及び、デジタル信号プロセッサ（ＤＳＰ）１０６の音声認識モジュール１０５に出力する音声アクティビティ検出器（ＶＡＤ）ブロック１０４を含み得る。デシメーションフィルタ１０２及び音声ＲＡＭ１０３はそれぞれが、ＤＳＰ１０６の一部であり、又はＤＳＰ１０６に密接に結合される。ＡＤＣ１０１、デシメーションフィルタ１０２、音声ＲＡＭ１０３、ＶＡＤブロック１０４及びＤＳＰ１０６はそれぞれが、クロックシステム１０７により制御される。クロックシステム１０７は、後に十分に説明される複数のクロック生成メカニズムを含む。

ＶＡＤブロック１０４は、サンプル結合ブロック１０８、振幅ＶＡＤブロック１０９、スペクトル分析ブロック１１０及び制御ブロック１１１を含み得る。スペクトル分析ブロック１１０は、ＶＡＤＲＡＭ１１２、高速フーリエ変換（ＦＦＴ）ブロック１１３、スペクトルローパスフィルタ（ＬＰＦ）１１４及びスペクトルＶＡＤブロック１１５を含み得る。ＶＡＤブロック１０４の機能は、プログラム可能パラメータを介して実装することができる。ＶＡＤブロック１０４はハードウェアに実装されるのが好ましいので、ここではハードウェアＶＡＤと称する。そうだとしても、複数の実施形態において、ＶＡＤブロック１０４は、ソフトウェア又はファームウェアに実装されてもよい。

ＡＤＣ１０１は、例えば、音声信号に含まれ得るアナログオーディオ入力から２Ｍｓｐｓ（メガサンプル毎秒）でデジタルオーディオ信号１２３を生成するステレオＡＤＣとしてよい。ＡＤＣ１０１は、アナログオーディオ入力１２２からデジタルオーディオ信号１２３を生成するべく、例えばパルス密度変調（ＰＤＭ）、パルス符号変調（ＰＣＭ）又は他の技法を使用することができる。

ＡＤＣ１０１は、オーディオアクティビティを検出するべく、かつ、ＡＤＣ１０１の残り、ひいてはＶＡＤブロック１０４にもアクティベーション機能を与えるべく、ウェイクアップ回路１１８を含み得る。したがって、ウェイクアップ回路１１８は、アナログオーディオ入力１２２をしきい値と比較して、開始レベルのオーディオアクティビティが存在するか否かを決定することができる。アナログオーディオ入力１２２がオーディオアクティビティの開始レベルを下回る場合、ＡＤＣ１０１の残りはアクティブにならない。しかしながら、アナログオーディオ入力１２２がオーディオアクティビティの開始レベルを上回る場合、ＡＤＣ１０１の残りがアクティブになる。このしきい値は、ここで、ウェイクアップ開始しきい値と称されることがある。

すなわち、ＡＤＣ１０１は２つのモードを有し得る。一つのモードにおいて、ＡＤＣ１０１は、ウェイクアップ回路１１８を使用してレベルを比較するが、デジタルサンプルを生成するわけではない。よって、ＡＤＣ１０１の変換器部分は、このレベル比較モード又はスリープモードにおいて、完全にパワーダウンされることにより、ＡＤＣ１０１の低電力状態を与えることができる。好ましくは、スリープモードにおいてウェイクアップ回路１１８は低電力モードにあり、これは、ウェイクアップ回路１１８がチャネルごとに、ウェイクアップ回路１１８及びＡＤＣ１０１の双方がアクティブである場合に消費する電力の約１５％未満を消費していることを意味する。さらに好ましくは、ウェイクアップ回路１１８はチャネルごとに、ウェイクアップ回路１１８及びＡＤＣ１０１の双方がアクティブである場合に消費する電力の約１２％未満を消費する。よりさらに好ましくは、ウェイクアップ回路１１８はチャネルごとに、ウェイクアップ回路１１８及びＡＤＣ１０１の双方がアクティブである場合に消費する電力の約８％を消費する。第２のモード又はアクティブモードにおいて、ＡＤＣ１０１は、アナログオーディオ入力１２２からデジタル信号を生成する。

図２は、ウェイクアップ回路の複数部分を示す回路図である。図２に示されるように、ウェイクアップ回路１１８は、付加利得段１２０及び比較器段１２１を有するオーディオプリアンプ１１９を含み得る。付加利得段１２１は、例えば、シュミットトリガーとしてよい。したがって、ウェイクアップ回路は、アナログオーディオ入力１２２を取り込み、オーディオプリアンプ１１９及び付加利得段１２０によってアナログオーディオ入力１２２をブーストし、コンディショニングされたアナログオーディオ入力を、比較器段１２１によって音声レベルしきい値と比較することができる。コンディショニングされたアナログオーディオ入力が音声レベルしきい値を超過する場合、ウェイクアップ回路がＡＤＣ１０１の残りをアクティブにしてサンプルを生成する。音声レベルしきい値は、上述したウェイクアップ開始しきい値としてよい。

オーディオプリアンプ１１９及び付加利得段１２０は、信号をブーストすることに加え、例えば共通モード遮断若しくは電力供給遮断又はその双方を介してアナログオーディオ入力１２２をコンディショニングすることができる。好ましくは、オーディオプリアンプ１１９の利得、及び付加利得段１２０の利得はそれぞれ、プログラム可能である。図示のように、オーディオプリアンプ１１９は、例えば＋６ｄＢ、＋１０ｄＢ、＋１６ｄＢ及び＋２６ｄＢの利得を有するようにプログラム又はプリセットされ得る。付加利得段１２０は、例えば＋２０ｄＢの利得を有するようにプログラム又はプリセットされ得る。他の値もまた、プログラム又はプリセットすることができる。

図１に戻ると、業界で理解されることだが、アナログ信号から得られたデジタル信号は一定数のサンプルを含む。ここで、当該一定数のサンプルはＡＤＣのサンプリングレートに依存する。デシメーションフィルタ１０２は、デジタルオーディオ信号１２３のサンプリングレートを、例えば１６ｋｓｐｓ（キロサンプル毎秒）まで低減する。

得られた低減デジタルオーディオサンプル１２４は、ＤＳＰ１０６の音声認識モジュール１０５による将来の音声認識を目的として音声ＲＡＭ１０３に格納される。好ましくは、音声ＲＡＭ１０３は、先入れ先出し（ＦＩＦＯ）フォーマットで低減デジタルオーディオサンプル１２４を連続的にキャプチャする循環バッファとして構成される。音声ＲＡＭ１０３がＤＳＰ１０６の一部であり又はＤＳＰ１０６に密接に結合される構成において、当該構成は、デジタル信号プロセッサが音声ＲＡＭ１０３を処理する必要がある場合にシステムオーバーヘッドを低減する。

付加的に、任意数のチャネルが音声ＲＡＭ１０３にキャプチャされ得る。これにより、キャプチャされたチャネルは、ＶＡＤブロック１０４へと引き回される単数又は複数のチャネルに限られない。マルチチャネルキャプチャにより、ＶＡＤブロック１０４は、音声の存在が疑わしい場合にＤＳＰ１０６に割り込むことができ、ＤＳＰ１０６は、マルチチャネルオーディオを、ＡＳＩＣ又はホストのような他の場所での音声認識に使用するべく後処理することができる。

低減デジタルオーディオサンプル１２４はここで、ＶＡＤ受信デジタルオーディオ信号と称する場合があり、サンプル結合ブロック１０８において結合され、例えばモノラル８ｋｓｐｓのストリームになる。サンプル結合ブロック１０８は、例えば、低減デジタルオーディオ信号１２４の一つのチャネルを選択し、選択されたチャネルから一つおきにサンプルを取り出すことができる。複数のサンプルを結合するべく、サンプル結合ブロック１０８は、代替的に又は付加的に、遅延素子及び線形結合回路によるビームフォーミング能力を有し得る。サンプル結合ブロック１０８により使用される方法にもかかわらず、結果は、デシメーションフィルタ１０２により生成された低減デジタルオーディオサンプル１２４よりもサンプリングレートが低い結合されたデジタルオーディオ信号１２５となる。

振幅ＶＡＤブロック１０９は、サンプル結合ブロック１０８からの結果を分析することにより、結合されたデジタルオーディオ信号１２５の振幅を決定する。

制御ブロック１１１は、ＶＡＤ割り込み信号１１６がＤＳＰ１０６の音声認識モジュール１０５に送信されて音声認識が開始される場合、スペクトル分析ブロック１１０が起動されたか否かを決定する。すなわち、制御ブロック１１１は、振幅ＶＡＤブロック１０９の出力に基づいてＶＡＤ割り込み信号１１６を発生させるべきか否かを決めるのに十分な情報を有するか否かを決定する。十分な情報を有しない場合、制御ブロック１１１は、スペクトル分析ブロック１１０を起動させて付加的な情報を与える。例えば、制御ブロック１１１は、信号振幅のローパスフィルタと２つの比較器とを含み得る。２つの比較器の一つ目は、相対的に高いしきい値を有する２つの比較器の２つ目と比べ、相対的に低いしきい値を有し得る。振幅ＶＡＤブロック１０９により決定された信号振幅が、低い方のしきい値を超えるが高い方のしきい値は超えない場合、制御ブロック１１１は、スペクトル分析ブロック１１０をアクティブにするべきと決定する。信号振幅が高い方のしきい値を超える場合、制御ブロック１１１は、スペクトル分析ブロック１１０からのスペクトルＶＡＤ決定にかかわらず、ＶＡＤ割り込み信号１１６を生成するように決定し得る。代替的に、信号振幅が高い方のしきい値を超える場合、制御ブロック１１１は、ＶＡＤ割り込み信号１１６を生成するように決定するが、スペクトル分析ブロック１１０をアクティブにしない。しかしながら、振幅ＶＡＤブロック１０９により決定された信号振幅が低い方のしきい値を超えない場合、制御ブロック１１１は、ＶＡＤ割り込み信号１１６が生成されないように決定し、スペクトル分析ブロック１１０をアクティブにしない。

例えば、ＡＤＣ１０１へのアナログオーディオ入力１２２が十分に低い音量を有する場合、その信号振幅（結合されたデジタルオーディオ信号１２５から振幅ＶＡＤブロック１０９により決定される）は、制御ブロック１１１の低い方のしきい値を超えることがない。したがって、制御ブロック１１１は、スペクトル分析ブロック１１０を起動することも、ＶＡＤ割り込み信号１１６を生成することもない。しかしながら、アナログオーディオ入力１２２が十分に大音量の場合、結合されたデジタルオーディオ信号１２５から決定されたその信号振幅は、制御ブロック１１１の高い方のしきい値を超える。したがって、制御ブロック１１１は、図４について以下に記載される音声認識状態４０７に入るべく、ＤＳＰ１０６の音声認識モジュール１０５に送信されるＶＡＤ割り込み信号１１６を生成する。そうでなければ、アナログオーディオ入力１２２の信号振幅が低い方のしきい値を超えるが、高い方のしきい値を超えない場合、制御ブロック１１１は、スペクトル分析ブロック１１０をアクティブにして当該結果を待ち受けた後、ＶＡＤ割り込み信号１１６を生成するべきか否かを決定する。

サンプル結合ブロック１０８からの結合されたデジタルオーディオ信号１２５は、ＶＡＤＲＡＭ１１２に格納される。これは、結合されたデジタルオーディオ信号１２５がまた振幅ＶＡＤブロック１０９で受信されるのと本質的に同時に生じる。ＶＡＤＲＡＭ１１２は、例えば１０２４ワードかつ２０ビットのＲＡＭとしてよい。この構成例において、ＶＡＤＲＡＭ１１２の５１２ワードは、インプレース２５６ポイントＦＦＴのためのＦＦＴワーキングメモリとして使用され得る。すなわち、ＶＡＤＲＡＭ１１２の２５６ワードを、入力サンプルの格納のために使用することができ、ＶＡＤＲＡＭ１１２の２５６を、２５６周波数ビンのためのスペクトル振幅の格納のために使用することができる。これは、ほんの一例にすぎないが、他の構成も使用することができる。

ＦＦＴブロック１１３は、ＶＡＤＲＡＭ１１２に格納された結合されたデジタルオーディオ信号１２５の高速フーリエ変換を行う。一実装例として、ＦＦＴは、２５６ポイントＦＦＴとしてよく、８つの基数２のＦＦＴ段からなる。ＦＦＴブロック１１３は、各周波数ビンに対して得られた電力をＶＡＤＲＡＭ１１２に書き込む。８ｋｓｐｓのサンプル及び２５６ポイントのＦＦＴの例を続けると、ＦＦＴは、３２ｍｓ（ミリ秒）ごとに行われる。すなわち、ＦＦＴ窓サイズは、この例において３２ｍｓとなる。

スペクトルＬＰＦ１１４は、ｙ’＝ｙ・（Ｎ－１）／Ｎ＋ｘ（１／Ｎ）を計算する。ここで、ｘは最終段ＦＦＴ結果の振幅であり、ｙは対応周波数ビンに対して格納されたスペクトル振幅であり、Ｎは、ランダムノイズの影響を低減し得る平滑化係数であり、ｙ’は、ｙの新たな更新値である。スペクトルＬＰＦ１１４はまた、平均振幅を計算するべくスペクトル振幅を合計するアキュムレータを含み得る。

スペクトル分析ブロック１１０は、制御ブロック１１１によりアクティブにされると、制御ブロック１１１が、スペクトルＬＰＦ１１４の結果を使用することにより、ＶＡＤ割り込み信号１１６を生成するべきか否かを決定する。この決定は、アナログオーディオ入力１２２の一部である音声コマンドを含む音声信号が多数の高調波を有するという状況を利用する。具体的には、ＶＡＤＲＡＭ１１２からの結合されたデジタルオーディオ信号１２５が、ＦＦＴブロック１１３及びスペクトルＬＰＦ１１４を通過した後、各周波数に対する得られたスペクトル振幅が、ＦＦＴから得られたすべての周波数ビンの平均振幅によって除算される。本開示で使用されるように、所与の周波数のスペクトル振幅の、すべての周波数ビンの平均振幅に対する比は、相対振幅と称する。

一方法例として、スペクトルＶＡＤブロック１１５は、相対振幅が所定しきい値を上回る周波数ビンの数を計数する。好ましくは、この高振幅しきい値は、平均振幅の約１．５倍から約５倍である。さらに好ましくは、高振幅しきい値は、平均振幅の約２倍から約４倍である。なおもさらに好ましくは、高振幅しきい値は、平均振幅の約３倍である。ここではビン計数しきい値と称される高振幅ビン計数が所定量を超える場合、スペクトルＶＡＤブロック１１５は、制御ブロック１１１がＶＡＤ割り込み信号１１６を生成するべきとの決定をする。好ましくは、このビン計数しきい値は、約２ビンから約１５ビンである。さらに好ましくは、ビン計数しきい値は、約３ビンから約１２ビンである。なおもさらに好ましくは、ビン計数しきい値は、約５ビンから約１０ビンである。

他方法例として、制御ブロック１１１がＶＡＤ割り込み信号１１６を生成するべきか否かを決定するべく、スペクトルＶＡＤブロック１１５はピーク距離を評価する。本文脈において、ピークビンとは、隣接するものよりも高い振幅を有する周波数ビンのことであり、周波数ビンの相対振幅はしきい値を上回る。好ましくは、この相対振幅しきい値は、平均振幅の約１．５倍から約５倍である。さらに好ましくは、相対振幅しきい値は、平均振幅の約２倍から約４倍である。なおもさらに好ましくは、相対振幅しきい値は、平均振幅の約３倍である。第１ピークビン（すなわち最低の周波数を有するピークビン）と最後のピークビン（すなわち最高の周波数を有するピークビン）との間の距離が所定値を超える場合、スペクトルＶＡＤブロック１１５は、制御ブロック１１１がＶＡＤ割り込み信号１１６を生成するべきとの決定をする。好ましくは、このピーク距離しきい値は、約０．５ｋＨｚから約５ｋＨｚである。さらに好ましくは、ピーク距離しきい値は、約１ｋＨｚから約３ｋＨｚである。なおもさらに好ましくは、ピーク距離しきい値は、約２ｋＨｚである。

スペクトルＶＡＤブロック１１５は、記載した方法例の一方又は双方を使用し得る。他の同様の方法もまた使用してよい。好ましくは、高振幅しきい値、ビン計数しきい値、相対振幅しきい値、及びピーク距離しきい値はそれぞれが、例えばユーザインタフェイスを介して、個々にユーザプログラム可能である。

スペクトルＶＡＤブロック１１５はまた、周波数ビンにおける最高ピーク振幅、及び最高ピークの位置（すなわちその周波数ビンは最高ピークを有する）を決定することができる。最高ピーク駿府区及びその位置が、２秒以上のような所定時間インターバルにわたって変化しない場合、アナログオーディオ入力１２２は、航空機客室内のバックグラウンドノイズのような固定トーンノイズを含む可能性が高い。よって、最高ピーク振幅及びその位置を決定することにより、スペクトルＶＡＤは固定トーンノイズを排除することができる。固定トーンノイズは、排除されると、制御ブロック１１１がＶＡＤ割り込み信号１１６を生成するべきか否かを決定するときに、スペクトルＶＡＤブロック１１５により含まれることがない。

図３は、人間の話しからのオーディオ信号のグラフ例である。ここで、縦軸は信号振幅を表し、横軸は時間を表す。図３に示されるように、例えばＡＤＣ１０１により受信される入来音声コマンド３００は、トリガーフレーズ３０１又はキーフレーズ、及びコマンドフレーズ３０２、並びにトリガーフレーズ３０１とコマンドフレーズ３０２との間の領域（当該トリガーフレーズのエンドポイント３０３と称される）を含み得る。コマンドフレーズ３０２もまた、当該コマンドフレーズのエンドポイント３０４を有し得る。トリガーフレーズ３０１は、例えば、インテリジェントパーソナルアシスタントをアクティブにする意図で、又はコマンドがまさにユーザにより与えられそうであることをホストに警告する意図でユーザが発したフレーズである。現行のインテリジェントパーソナルアシスタントを例として使用すれば、トリガーフレーズ３０１は、例えば「オーケー、グーグル」、「ヘイ、シリ」、「ハロー、ジャービス」又は「ヘイ、コルタナ」となり得る。コマンドフレーズ３０２の一例は「今日の天気はどうだい？」である。そうであっても音声コマンド３００は、トリガーフレーズ３０１及びコマンドフレーズ３０２の双方を含む必要はない。

図１を参照すると、ＶＡＤ割り込み信号１１６は、音声認識アルゴリズムを実行するべくＤＳＰ１０６の音声認識モジュール１０５を起動する。一例として、ＤＳＰ１０６による３つの音声認識段が存在し得る。すなわち、無音検出を有するＶＡＤヒステリシス、無音検出を有する音声認識キーフレーズパーシング１ｘ、並びにキーフレーズパーシング＞１ｘ、ホスト送信及び無音検出を有するソフトウェアアクティビティ検出である。

無音検出を有するＶＡＤヒステリシスにおいて、音声認識モジュール１０５は、ＶＡＤブロック１０４により決定されるハードウェアＶＡＤの長期ヒステリシスを構築する。例えば、ヒステリシスは、ＦＦＴ窓サイズを超える期間にわたって構築され得る。一つの可能な実装の一例として、上述した８ｋｓｐｓサンプル及び２５６ポイントのＦＦＴの例において、ＦＦＴ窓サイズは３２ｍｓである。よって、ハードウェアＶＡＤ決定のヒステリシスは、３２ｍｓ窓よりも数倍長い期間にわたって構築され得る。例えば、ヒステリシスは、ＦＦＴ窓サイズの少なくとも２倍となる期間にわたって構築され得る。好ましくは、この期間は、ＦＦＴ窓サイズの５倍から１０倍である。無音検出により、音声認識モジュール１０５は、分析されたフレームが音声信号を包含するか否かを決定する。否の場合、フレームは無音フレームとみなされる。

無音検出を有する音声認識キーフレーズパーシング１ｘにおいて、音声認識モジュール１０５は、トリガーフレーズ３０１に対し、分析されたフレームをパーシングする一方、音声認識モジュール１０５はまた、上述した無音検出も行う。

キーフレーズパーシング＞１ｘ、ホスト送信及び無音検出によるソフトウェアアクティビティ検出において、音声認識モジュール１０５は、トリガーフレーズ３０１に対して分析されたフレームをパーシングする一方、音声認識モジュール１０５はまた、上述した無音検出も行う。加えて、トリガーフレーズ３０が検出又は認識される場合、音声認識モジュール１０５は、送信音声コマンド情報をホストに送信することができる。音声コマンド情報は、例えば、トリガーフレーズ３０１若しくはトリガーフレーズ３０１に対応する信号、コマンドフレーズ３０２若しくはコマンドフレーズ３０２に対応する信号、若しくは検出されたトリガーフレーズ３０１に応答してホストを作動させるいくつかの他のコマンド、又はこれらの任意の組み合わせとしてよい。

キーフレーズパーシング＞１ｘは一般に、キーフレーズパーシング１ｘよりも速い処理速度で行われる。例えば、キーフレーズパーシング１ｘが、１２ＭＨｚで動作するＤＳＰ１０６によって行われる一方、キーフレーズパーシング＞１ｘは、例えば９８ＭＨｚまでのような１２ＭＨｚを超える速度で動作するＤＳＰ１０６によって行われ得る。これは、クロックシステム１０７に関して以下に記載される。速い処理速度により、例えば、パーシングプロセスが、音声ＲＡＭ１０３の循環バッファのポインタに間に合うように追いつくことができる。

図４は、図１に示されるＤＳＰ１０６の音声認識モジュール１０５のような音声認識モジュールの、プロセス４００の一例を示すフローチャートである。音声認識モジュールは、ソフトウェアＶＡＤ状態において始まる４０１。次に、音声認識モジュールは、分析されたフレームが、当該フレームが音声信号を包含しないことを意味する無音フレームであるか否かを決定する４０２。フレームが無音フレームでない場合、プロセスは、以下にさらに記載される音声認識状態へと進む。フレームが無音フレームの場合、プロセスは、無音タイムアウトが存在するか否かを決定する４０３。無音タイムアウトは、例えば、循環バッファが無音フレームによって一杯にされた場合、又は無音ヒステリシスしきい値に一致する場合に生じ得る。好ましくは、無音ヒステリシスしきい値は、ユーザプログラム可能である。無音タイムアウトが存在しない場合、プロセスはソフトウェアＶＡＤ状態に戻る４０１。無音タイムアウトが存在する場合、プロセスは、サスペンド状態に進む４０４。ここで、ＤＳＰは、ＶＡＤブロック１０４からＶＡＤ割り込み信号１１６を受信するまでアイドル状態のままである。音声認識モジュールがＶＡＤブロック１０４からＶＡＤ割り込み信号１１６を受信すると４０５、ＤＳＰは、アイドル状態から離れ、１２ＭＨｚモードのようなアクティブモード４０６に入る。その後、プロセスは、完全な音声認識状態へと移動する４０７。

音声認識状態において４０７、ＤＳＰ１０６の音声認識モジュール１０５は、トリガーフレーズ３０１のために分析されたフレームをパーシングする４０８。すなわち、ブロック４０８は、ソフトウェアＶＡＤの決定を表す。トリガーフレーズが認識された場合、プロセスは、さらなる処理のためにホストに音声コマンド情報を送信するべく、又はトリガーフレーズ３０１に応答して作動するべく、ホストへの音声接続リンクを開く４０９。上述のように、音声コマンド情報は、ホストに送信されるコマンドフレーズ３０２としてよい。トリガーフレーズが認識されない場合、プロセスは、ソフトウェアＶＡＤ状態に戻り４０１、上述したことを続ける。すなわち、音声認識モジュールは、分析されたフレームが上述した無音フレームであるか否かを決定する４０２。無音タイムアウトが生じたことをプロセスが決定する場合４０３、音声認識状態４０７の間に開始した音声認識は、プロセスがサスペンド状態へと進行するときに４０４、動作を停止し、上述したＶＡＤブロック１０４からのＶＡＤ割り込み信号１１６を待ち受ける。

このように、ソフトウェアＶＡＤ状態４０１は、ＶＡＤブロック１０４によるハードウェアＶＡＤ決定の長期間ヒステリシスを構築する。記載の実装は、多数決システムとしてよく、図１のＶＡＤブロック１０４に対して上述したように、ハードウェアＶＡＤ決定だけで動作することができる。または、当該実装は、他のフレームベースの決定をソフトウェアに組み入れることができる。

システムがリスニングしている場合、図１に対して上述した音声ＲＡＭ１０３のような循環バッファ又はＦＩＦＯへの音声サンプルの格納が進行している。ＦＩＦＯ又は履歴バッファは、ソフトウェアにおいてフレーム毎の原則で読み取られる。ＦＩＦＯの深さは、モードに応じて変わり得る。ソフトウェアは、可能な限り多くのデータを消費するように構成され、状態に基づいて動的にＤＳＰ１０６を抑制することがある。例えば、ソフトウェアＶＡＤ事象を待ち受けている間、使用中のアルゴリズムが大量のサイクルを要求しないので、ＤＳＰ速度は極めて低くなり得る。しかしながら、完全な音声認識状態４０７の稼働を証明するのに十分な音声アクティビティが検出される場合、ＤＳＰ速度は増加し得る。

ソフトウェアにおいて行われるフレームベースの決定は、ＡＤＣ１０１から入来するリアルタイプサンプルに対して少量のレイテンシを導入し得る。ソフトウェアは、音声認識アルゴリズムをＦＩＦＯに読み込んで、音声コマンド３００が最初に検出されたポイントから遡及的に実行する必要がある。ＤＳＰ速度はまた、リアルタイムに「追いつく」ように増加され、ひとたび現行のフレームの数が予め定められたしきい値を下回ると、ＤＳＰ速度は低減される。例えば、ＤＳＰは、現行のフレームの数が一に戻るときに、リアルタイムに「追いついた」とみなされ得る。

音声認識状態４０７及びパーシング状態４０８がトリガーフレーズを認識すると、システムは、図３に示されるエンドポイント３０３のようなトリガーフレーズのエンドポイントを検出するべく、エンドポイントアルゴリズムを実行し、その後、トリガーフレーズの終わりの前の又はそれまでの及びそれを含むデータすべてを破棄する。これにより、システムは、ＦＩＦＯの所定量をフラッシュした後、以下に記載されるワンショット検出を目的としてＦＩＦＯメモリを再利用することができる。システムは引き続き、ソフトウェアＶＡＤ決定を使用して、第１の音声認識後もユーザが話し続けているか否かを決定する一方、サンプルをＦＩＦＯにバッファする。

ワンショット検出と称される機能において、トリガーフレーズ３０１の発生後にユーザが話し続けたか否かを決定するべく、連続するスピーチパーシングが使用される。すなわち、ワンショット検出を目的として、システムは、トリガーフレーズ３０１が検出された後にホストとの音声接続を開くときのレイテンシを考慮してデータをバッファする。ソフトウェアＶＡＤ決定により、システムは、ワンショットタイムアウト、すなわちトリガーフレーズの特定の時間周期内にユーザが話したか否かを決定することができ、トリガーフレーズ３０１が検出される前の所定量の先行無音を破棄することもできる。このようにして、レイテンシを吸収することができる。また、ひとたびワンショットフレーズのエンドポイントが検出されると、音声ＲＡＭ１０３における任意の外来性サンプルは破棄され又は無音と仮定される。この文脈において、ワンショットフレーズとは、検出されたトリガーフレーズ３０１、プラス、例えばコマンドフレーズ３０２のようなワンショットタイムアウト内の任意の付加的な話し言葉を意味する。付加的に、インテリジェントパーソナルアシスタントのようなホストとの相互作用を目的とする任意のその後の音声パケットは、実質的にリアルタイムに追いつき、さらに会話的な相互作用をする。

上述のように、クロックシステム１０７は、複数のクロック生成メカニズムを含む。複数のクロック生成メカニズムは、好ましくは、クロックを生成するべく異なる量の電流を消費し、非同期である。例えば、第１クロック生成メカニズム又はスリープモードクロックメカニズムは、例えば１２．２８８ＭＨｚでクロックを生成する水晶発振子なしで、位相ロックループ（ＰＬＬ）回路を利用することができる。他例として、第２クロック生成メカニズム又は低電力クロックメカニズムは、例えば１２．２８８ＭＨｚでクロックを発生させるように動く水晶発振子とともに、ＰＬＬ回路を利用することができる。第３クロック生成メカニズム又は高電力クロックメカニズムは、第２クロック生成メカニズムを利用して、例えば９８ＭＨｚまでのクロックを導出することができる。ここに記載されるように、第１クロック生成メカニズムは、第２クロック生成メカニズムよりも低い電流消費を有し、第２クロック生成メカニズムは、第３クロック生成メカニズムよりも低い電流消費を有する。同様に、第３クロック生成メカニズムは第２クロック生成メカニズムよりも速く、第２クロック生成メカニズムは第１クロック生成メカニズムよりもロバストである。

クロックシステム１０７は、利用可能なクロック生成メカニズム間でスイッチングするべく構成される。すなわち、電流消費を低減するべく、第２クロック生成メカニズム又は第３クロック生成メカニズムの代わりに第１クロック生成メカニズムを使用することができる。同様に、電流消費を低減するべく第３クロック生成メカニズムの代わりに第２クロック生成メカニズムを使用することができる。したがって、第１クロック生成メカニズムは、例えば、ＶＡＤブロック１０４がアクティブであるがＤＳＰ１０６が音声認識アルゴリズムを実行していない場合に使用することができる。第２クロック生成メカニズムは、例えば、ＶＡＤブロック１０４からＶＡＤ割り込み信号１１６を受信した後にＤＳＰ１０６が音声認識アルゴリズムを実行しているときに使用することができる。そして、第３クロック生成メカニズムは、例えば、高い処理速度が必要又は所望とされるときに使用することができる。これは、例えば、＞１ｘキーフレーズパーシングモードにおいて、又は音声認識アルゴリズムが、１ｘキーフレーズパーシングモードにおいて多くのサイクルを必要とする場合において動くプロセスが、ホストへの音声接続リンクを開くときに存在し得る。他の構成も使用することができる。デジタルオーディオロジックは典型的に１２ＭＨｚで動くので、これらのクロックの例のいずれも使用することができる。

クロックシステム１０７は、クロック生成メカニズム間でスイッチングする場合、ＤＳＰ１０６、音声ＲＡＭ１０３、ＶＡＤブロック１０４、デシメーションフィルタ１０２及びＡＤＣ１０１を含む音声コマンド検出及びキャプチャのシステム１００全体にとって同時にスイッチングするのが好ましい。ＡＤＣ１０１のデータレートが１２．２８８ＭＨｚソースの分数であるから、１２．２８８ＭＨｚソースは、当該分数のクロックの特定の位相でスイッチングする。

クロックスイッチング事象の一例が図５に示される。ここで、スイッチング事象の例は、矢印５１７により標識される。図５に示されるように、クロックシステム１０７のようなクロックシステムは、現行の非同期クロックソースと新たな非同期クロックソースとの間のスイッチングをする場合、現行のクロックソースを特定の位相で有効に停止して新たなクロックソースのエッジを待ち受けることができる。これにより、クロックシステムは、クロック生成メカニズムの特位の位相においてクロックソース間のスイッチングをすることができる。したがって、クロックシステムは、異なるクロックレート間のクロックエッジの整列を与えることができる。

非同期クロックソース間のスイッチングにより、システムのいくつかの機能を目的として、又はいくつかの環境において相対的に低電力のクロックを使用することができるとともに、他の機能を目的として、又は他の環境において高品質のクロックを使用することができる。さらに、システムのすべての側面に対してクロックソースを同時にスイッチングすることにより、クロックスイッチの瞬間に失われたサンプル時刻によってのみ導入された不連続性が存在しても、連続的なサンプルキャプチャが許容される。

上述のように、低電力かつ常時リスニングの音声コマンド検出及びキャプチャシステム１００は、一定数の別個の動作状態を含む。一つの実装例として再び図１を参照して、６つの動作状態の例が、電流消費が増加する順で以下に記載される。

動作状態の例

動作ｌ状態１の例：ハードウェア振幅トリガーを待ち受けるスリープモード

この状態では、ＡＤＣ１０１は、複数のレベルを比較するが、ＶＡＤブロック１０４又は音声ＲＡＭ１０３のためにサンプルを生成することはしない。オーディオアクティビティのレベルが特定された最小レベルを超えると、ウェイクアップ回路１１８は、サンプルを生成するべくＡＤＣ１０１の残りを起動させる。上述したように、ＡＤＣ１０１の変換器部分は、任意の電力を引き出してはいないが、ＡＤＣ１０１はこのレベル比較モードにある。したがって、ＶＡＤブロック１０４及び音声ＲＡＭ１０３は非アクティブ状態である。クロックはスリープモードにあり、ＤＳＰ１０６はアイドル状態である。

動作状態２の例：ハードウェア振幅音声トリガーを待ち受ける常時リスニング状態

この状態では、ＡＤＣ１０１は、ＶＡＤブロック１０４及び音声ＲＡＭ１０３のためにアナログオーディオ入力１２２からサンプルを生成する。音声ＲＡＭ１０３は、サンプルをその循環バッファに書き込む。クロックは低電力モードにあり、ＤＳＰ１０６はアイドル状態である。ＶＡＤブロック１０４は、振幅ＶＡＤブロック１０９がアクティブ状態であることを意味する振幅検出モードにある。すなわち、制御ブロック１１１の動作のための上記例に戻ると、ＡＤＣ１０１へのアナログオーディオ入力１２２の信号振幅は、制御ブロック１１１の低い方のしきい値を超えることがない。したがって、制御ブロック１１１は、スペクトル分析ブロック１１０を起動することも、ＶＡＤ割り込み信号１１６を生成することもない。

動作状態３の例：ハードウェアスペクトル音声トリガーを待ち受ける常時リスニング状態

この状態では、ＡＤＣ１０１は、ＶＡＤブロック１０４及び音声ＲＡＭ１０３のためにアナログオーディオ入力１２２からサンプルを生成する。音声ＲＡＭ１０３は、サンプルをその循環バッファに書き込む。クロックは低電力モードにあり、ＤＳＰ１０６はアイドル状態である。ＶＡＤブロック１０４は、スペクトル分析ブロック１１０がアクティブ状態であることを意味するスペクトル検出モードにある。すなわち、制御ブロック１１１の動作のための上記例に戻ると、ＡＤＣ１０１へのアナログオーディオ入力１２２の信号振幅は、制御ブロック１１１の低い方のしきい値を超えるが、高い方のしきい値を超えることがない。したがって、制御ブロック１１１は、スペクトル分析ブロック１１０をアクティブにしてこれらの結果を待ち受ける。

動作状態４の例：低電流音声検出

この状態では、ＡＤＣ１０１は、ＶＡＤブロック１０４及び音声ＲＡＭ１０３のためにアナログオーディオ入力１２２からサンプルを生成する。音声ＲＡＭ１０３は、サンプルをその循環バッファに書き込み、クロックは低電力モードにある。ＶＡＤブロック１０４は、スペクトル検出モード又は振幅検出モードにある。すなわち、制御ブロック１１１の動作のための上記例に戻ると、ＡＤＣ１０１へのアナログオーディオ入力１２２の信号振幅は、制御ブロック１１１の低い方のしきい値及び高い方のしきい値を超える。したがって、制御ブロック１１１は、スペクトル分析ブロック１１０からのスペクトルＶＡＤ決定にかかわらず、ＶＡＤ割り込み信号１１６を生成する。ＤＳＰ１０６は、無音検出を有するＶＡＤヒステリシスモードにある。これは、例えば、ＤＳＰ１０６が、図４に示される要素４０１～４０５により示されるプロセスを介して進行することを意味する。

動作状態５の例：低電流音声認識

この状態では、ＡＤＣ１０１は、ＶＡＤブロック１０４及び音声ＲＡＭ１０３のためにアナログオーディオ入力１２２からサンプルを生成する。音声ＲＡＭ１０３は、サンプルをその循環バッファに書き込み、バッファはＤＳＰ１０６によって読み取られる。クロックは低電力モードにある。ＶＡＤブロック１０４は、上述したように、スペクトル検出モード又は振幅検出モードにあり、ＶＡＤブロック１０４は、ＶＡＤ割り込み信号１１６を生成している。ＤＳＰ１０６は、ＤＳＰ１０６の音声認識アルゴリズムが、トリガーフレーズ３０１のために分析されたフレームをパーシングする音声認識状態４０７にある。すなわち、例えば、ＤＳＰ１０６は、無音検出を含む図４に示される要素４０１～４０８により示されるプロセスを通して進行し、要素４０８において「いいえ」の決定となる。

動作状態６の例：低電流音声コマンド処理

この状態では、ＡＤＣ１０１は、ＶＡＤブロック１０４及び音声ＲＡＭ１０３のためにアナログオーディオ入力１２２からサンプルを生成する。音声ＲＡＭ１０３は、サンプルをその循環バッファに書き込み、バッファはＤＳＰ１０６によって読み取られる。クロックは高電力モードにある。ＶＡＤブロック１０４は、上述したように、スペクトル検出モード又は振幅検出モードにある。ＤＳＰ１０６の音声認識アルゴリズムは、トリガーフレーズ３０１のために分析されたフレームをパーシングし、図４の要素４０８において「はい」の決定となる。すなわち、例えば、ＤＳＰ１０６は、無音検出を含む図４に示される要素４０１～４０９により示されるプロセスを通して進行する。

複数の実施形態において、これらの動作状態は、独立して有効又は無効とされる。よって、システムは、かかる実施形態において、利用可能な動作状態のすべて又はほんのいくつかを選択して使用することができる。例えば、ノイズ環境において誤りの振幅トリガーを低減するべく、システムは、上述した動作状態３、４、５又は６のような相対的に高い状態を選択し、上述した動作状態１又は２のような相対的に低い動作状態を回避する。また、スリープ状態を回避してトリガーフレーズ３０１の始まりがキャプチャされて切り捨てられることがないことを保証するべく、システムは、上述した動作状態１のような相対的に低い動作状態を回避することができる。他方、電流消費を低減するべく、システムは、相対的に高い動作状態に対して上述した動作状態１、２、３、４又は５のような相対的に低い状態を選択することができる。

具体例

開示の技術の具体例が以下に与えられる。技術の実施形態は、以下に記載の例の一つ以上、及び任意の組み合わせを含み得る。

例１は、音声コマンドを検出及びキャプチャするシステムを含み、このシステムは音声アクティビティ検出器（ＶＡＤ）を含み、ＶＡＤは、ＶＡＤ受信デジタルオーディオ信号を受信することと、ＶＡＤ受信デジタルオーディオ信号の振幅を決定することと、ＶＡＤ受信デジタルオーディオ信号の振幅を第１しきい値と及び第２しきい値と比較することと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値又は第２しきい値を超えない場合にＶＡＤ割り込み信号を差し控えることと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値及び第２しきい値を超える場合にＶＡＤ割り込み信号を生成することと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値と第２しきい値との間に存在する場合にＶＡＤ割り込み信号のスペクトル分析を行うことと行うべく構成される。

例２は、例１のシステムを含み、アナログオーディオ入力を受信するべく構成されたアナログデジタル変換器（ＡＤＣ）をさらに含み、ＡＤＣは、アナログオーディオ入力から、ＡＤＣサンプリングレートでデジタルオーディオ信号を生成するべく構成された変換器部分を有する。

例３は、例２のシステムを含み、ここで、ＡＤＣは、アナログオーディオ入力がオーディオアクティビティの開始レベルを有するか否かを決定することと、アナログオーディオ入力がオーディオアクティビティの開始レベルを有しない場合にＡＤＣを、ＡＤＣの変換器部分がデジタルオーディオ信号を生成しないスリープモードに置くことと、アナログオーディオ入力がオーディオアクティビティの開始レベルを有する場合にＡＤＣを、ＡＤＣの変換器部分がデジタルオーディオ信号を生成するアクティブモードに置くこととを行うべく構成されたウェイクアップ回路を含む。

例４は、例３のシステムを含み、ここで、アナログオーディオ入力がオーディオアクティビティの開始レベルを有するか否かを決定するべく、ウェイクアップ回路は、アナログオーディオ入力をウェイクアップ開始しきい値と比較するべく構成される。

例５は、例３～４のいずれかのシステムを含み、ここで、ウェイクアップ回路は、アナログオーディオ入力をブーストするべく構成されたオーディオプリアンプ利得段と、ブーストアナログオーディオ入力を、オーディオアクティビティの開始レベルを示すウェイクアップ開始しきい値と比較するべく構成された比較器段とを含む。

例６は、例３～５のいずれかのシステムを含み、ここで、ＡＤＣの変換器部分は、ＡＤＣがスリープモードにある場合に電力供給なしとなり、ＡＤＣがアクティブモードにある場合に電力供給される。

例７は、例２～６のいずれかのシステムを含み、ＡＤＣとＶＡＤとの間にデシメーションフィルタをさらに含み、デシメーションフィルタは、デジタルオーディオ信号を受信して当該デジタルオーディオ信号を処理し、ＡＤＣサンプリングレートよりも低い低減サンプリングレートを有する低減デジタルオーディオサンプルを生成するべく構成される。

例８は、例１～７のいずれかのシステムを含み、ここで、ＶＡＤは、サンプリングレートを有するＶＡＤ受信デジタルオーディオ信号を入力として受信して当該ＶＡＤ受信デジタルオーディオ信号を、振幅を有するとともに当該ＶＡＤ受信デジタルオーディオ信号の当該サンプリングレートよりも低いサンプリングレートを有する結合デジタルオーディオ信号を生成するように処理するべく構成されたサンプル結合ブロックと、結合デジタルオーディオ信号の振幅を決定するべく構成された振幅ＶＡＤブロックと、ＶＡＤ受信デジタルオーディオ信号のスペクトル分析を行うべく構成されたスペクトル分析ブロックと、２つの比較器を含む制御ブロックとを含み、制御ブロックは、ＶＡＤ受信デジタルオーディオ信号の振幅を第１しきい値と及び第２しきい値と比較することと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値又は第２しきい値を超えない場合にＶＡＤ割り込み信号を差し控えてスペクトル分析ブロックをアクティブにすることと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値及び第２しきい値を超える場合にＶＡＤ割り込み信号を生成することとを行うべく構成される。

例９は、例８のシステムを含み、ここで、スペクトル分析ブロックは、結合デジタルオーディオ信号をサンプル結合ブロックから受信して記憶するべく構成されたＶＡＤランダムアクセスメモリ（ＲＡＭ）と、ＶＡＤＲＡＭに記憶された結合デジタルオーディオ信号のＦＦＴを行ってＦＦＴ結果を出力するべく構成された高速フーリエ変換（ＦＦＴ）ブロックと、ＦＦＴ結果の平均振幅を決定するべく構成されたスペクトルローパスフィルタ（ＬＰＦ）と、スペクトルＬＰＦの結果を評価し、そのスペクトルＬＰＦの結果の評価に基づいてＶＡＤ割り込み信号を生成するか又は引き続いてＶＡＤ割り込み信号を差し控えるかするように制御ブロックに信号を送るべく構成されたスペクトルＶＡＤブロックとを含む。

例１０は、例１～９のいずれかのシステムを含み、ＶＡＤからＶＡＤ割り込み信号を受信してトリガーフレーズのためにＶＡＤ受信デジタルオーディオ信号を分析するべく構成されたデジタル信号プロセッサ（ＤＳＰ）をさらに含む。

例１１は、例１０のシステムを含み、ＶＡＤ受信デジタルオーディオ信号を受信して先入れ先出し（ＦＩＦＯ）フォーマットで格納するべく構成された音声ランダムアクセスメモリ（ＲＡＭ）をさらに含み、音声ＲＡＭはＤＳＰによりアクセスされるように構成される。

例１２は、例１０～１１のいずれかのシステムを含み、複数の非同期クロック生成メカニズムを含むクロックシステムをさらに含み、当該非同期クロック生成メカニズムはそれぞれが異なる電流消費を有し、クロックシステムは、非同期クロック生成メカニズム間でスイッチングするべく構成される。

例１３は、音声コマンドを検出及びキャプチャする方法を含み、その方法は、音声アクティビティ検出器（ＶＡＤ）がＶＡＤ受信デジタルオーディオ信号を受信することと、ＶＡＤがＶＡＤ受信デジタルオーディオ信号の振幅を決定することと、ＶＡＤがＶＡＤ受信デジタルオーディオ信号の振幅を第１しきい値と及び第２しきい値と比較することと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値又は第２しきい値を超えない場合にＶＡＤがＶＡＤ割り込み信号を差し控えることと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値及び第２しきい値を超える場合にＶＡＤがＶＡＤ割り込み信号を生成することと、ＶＡＤ受信デジタルオーディオ信号の振幅が第１しきい値と第２しきい値との間に存在する場合にＶＡＤがＶＡＤ受信デジタルオーディオ信号のスペクトル分析を行うこととを含む。

例１４は、例１３の方法を含み、アナログデジタル変換器（ＡＤＣ）がアナログオーディオ入力を受信することと、ウェイクアップ回路が、アナログオーディオ入力がオーディオアクティビティの開始レベルを有するか否かを決定することと、アナログオーディオ入力がオーディオアクティビティの開始レベルを有しない場合にＡＤＣを、ＡＤＣの変換器部分がデジタルオーディオ信号を生成しないスリープモードに置くことと、アナログオーディオ入力がオーディオアクティビティの開始レベルを有する場合にＡＤＣを、ＡＤＣの変換器部分がデジタルオーディオ信号をアナログオーディオ入力からＡＤＣサンプリングレートで生成するアクティブモードに置くこととをさらに含む。

例１５は、例１４の方法を含み、ここで、ウェイクアップ回路が、アナログオーディオ入力がオーディオアクティビティの開始レベルを有するか否かを決定することは、アナログオーディオ入力をウェイクアップ開始しきい値と比較することを含む。

例１６は、例１４～１５のいずれかの方法を含み、ＡＤＣがスリープモードにある場合にＡＤＣの変換器部分に電力供給をしないことと、ＡＤＣがアクティブモードにある場合にＡＤＣの変換器部分ｎに電力供給をすることとをさらに含む。

例１７は、例１４～１６の方法を含み、デジタル信号プロセッサ（ＤＳＰ）がＶＡＤ割り込み信号をＶＡＤから受信することと、トリガーフレーズを検出するべくＤＳＰがＶＡＤ受信デジタルオーディオ信号を分析することとをさらに含む。

例１８は、例１３～１７のいずれかの方法を含み、音声ランダムアクセスメモリ（ＲＡＭ）が、ＶＡＤ受信デジタルオーディオ信号を受信して先入れ先出し（ＦＩＦＯ）フォーマットで格納することをさらに含む。

例１９は、例１８の方法を含み、トリガーフレーズがＤＳＰによって検出された場合にトリガーフレーズのエンドポイント前の音声ＲＡＭについてのデータすべてを破棄することをさらに含む。

例２０は、例１７～１９のいずれかの方法を含み、トリガーフレーズがＤＳＰによって検出された場合に、トリガーフレーズ後の予め特定されたタイムアウトの間にユーザが話したか否かを決定することをさらに含む。

開示された主題の前述したバージョンは、記載されたか又は当業者にとって明らかかのいずれかの多くの利点を有する。そうだとしても、これらの利点又は特徴のすべてが、開示される装置、システム又は方法のすべてのバージョンにおいて要求されるわけではない。付加的に、この記載の説明は、特定の特徴を参照する。理解すべきことだが、本明細書における開示は、これらの特定の特徴のすべての可能な組み合わせを含む。例えば、特定の特徴が、特定の側面又は実施形態の文脈において開示される場合、その特徴はまた、他の側面及び実施形態の文脈において、可能な範囲まで使用することができる。

さらに、本発明の複数の実施形態は、特に作られたハードウェアで、ファームウェアで、デジタル信号プロセッサで、又は特別にプログラムされた、プログラム命令に従って動作するプロセッサを含む汎用コンピュータで動作し得る。ここで使用される用語「プロセッサ」は、マイクロプロセッサ、マイクロコンピュータ、ＡＳＩＣ、及び専用のハードウェアコントローラを含むことが意図される。本発明の一つ以上の側面は、例えば一つ以上のコンピュータ（モニタリングモジュールを含む）又は他のデバイスによって実行される一つ以上のプログラムモジュールにおいて、コンピュータ使用可能データ及びコンピュータ実行可能命令に具体化することができる。一般に、プログラムモジュールは、コンピュータ又は他のデバイスにおいてプロセッサにより実行されるときに特定のタスクを実行し、又は特定の抽象的データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。コンピュータ実行可能命令は、ハードディスク、光ディスク、リムーバブルストレージ媒体、ソリッドステートメモリ、ＲＡＭ等のような非一時的コンピュータ可読媒体に格納することができる。当業者にわかることだが、プログラムモジュールの機能は、様々な実施形態において所望のとおり組み合わせ又は分散することができる。加えて、その機能は、全体又は部分を、集積回路、フィールドプログラム可能ゲートアレイ（ＦＰＧＡ）等のようなファームウェア又はハードウェア等価物に具体化することができる。本発明の一つ以上の側面を有効に実装するべく特定のデータ構造を使用することができ、かかるデータ構造は、ここに記載されるコンピュータ実行可能命令及びコンピュータ使用可能データの範囲内で考えられる。

さらに、用語「含む」及びその文法的等価物は、本願において、他のコンポーネント、機能、ステップ、プロセス、動作等がオプションとして存在することを意味する。例えば、コンポーネントＡ、Ｂ及びＣを「含む」物は、コンポーネントＡ、Ｂ及びＣのみを包含することができ、又は一つ以上の他のコンポーネントと一緒にコンポーネントＡ、Ｂ及びＣを包含することもできる。さらに、本願において２つ以上の画定されたステップ又は動作を有する方法が参照される場合、その画定されたステップ又は動作は、文脈が当該可能性を排除しない限り、任意の順序で又は同時に実行することができる。

付加的に、本発明の特定の実施形態が例示を目的として図示かつ記載されているにもかかわらず、本発明の要旨及び範囲を逸脱することなく様々な修正例がなされ得ることが理解される。したがって、本発明は、添付の特許請求の範囲による以外に限定されるべきではない。

Claims

音声コマンドを検出及びキャプチャするシステムであって、
オーディオ信号を受信するべく構成された入力部と、
前記オーディオ信号をデジタルオーディオ信号に変換するべく構成されたアナログデジタル変換器と、
前記デジタルオーディオ信号の振幅を決定する振幅検出器と、
制御器と
を含み、
前記制御器は、
前記デジタルオーディオ信号の振幅を第１しきい値と及び第２しきい値と比較することと、
前記デジタルオーディオ信号の振幅が前記第１しきい値及び前記第２しきい値を超えない場合に割り込み信号を差し控えることと、
前記デジタルオーディオ信号の振幅が前記第１しきい値及び前記第２しきい値を超える場合に前記割り込み信号を生成することと、
前記デジタルオーディオ信号の振幅が前記第１しきい値と前記第２しきい値との間にある場合に前記デジタルオーディオ信号のスペクトル分析をトリガーすることと
を行うべく構成される、システム。
前記アナログデジタル変換器は、
前記オーディオ信号がオーディオアクティビティの開始レベルを有するか否かを決定することと、
前記オーディオ信号が前記オーディオアクティビティの開始レベルを有しない場合に前記アナログデジタル変換器を、前記アナログデジタル変換器の変換器部分が前記デジタルオーディオ信号を生成しないスリープモードに置くことと、
前記オーディオ信号が前記オーディオアクティビティの開始レベルを有する場合に前記アナログデジタル変換器を、前記アナログデジタル変換器の変換器部分が前記デジタルオーディオ信号を生成するアクティブモードに置くことと
を行うべく構成されたウェイクアップ回路を含む、請求項１のシステム。
前記オーディオ信号がオーディオアクティビティの開始レベルを有するか否かを決定するべく、前記ウェイクアップ回路は、前記オーディオ信号をウェイクアップ開始しきい値と比較するべく構成される、請求項２のシステム。
前記ウェイクアップ回路は、
前記オーディオ信号をブーストするべく構成されたオーディオプリアンプ利得段と、
ブーストされた前記オーディオ信号を、前記オーディオアクティビティの開始レベルを示すウェイクアップ開始しきい値と比較するべく構成された比較器段と
を含む、請求項２のシステム。
前記アナログデジタル変換器の変換器部分は、前記アナログデジタル変換器が前記スリープモードにある場合に電力供給なしとなり、
前記アナログデジタル変換器の変換器部分は、前記アナログデジタル変換器が前記アクティブモードにある場合に電力供給される、請求項２のシステム。
前記アナログデジタル変換器と前記振幅検出器との間にデシメーションフィルタをさらに含み、
前記デシメーションフィルタは、前記デジタルオーディオ信号を受信して前記デジタルオーディオ信号を処理し、前記アナログデジタル変換器のサンプリングレートよりも低い低減サンプリングレートを有する低減デジタルオーディオサンプルを生成するべく構成される、請求項１のシステム。
サンプリングレートを有するデジタルオーディオ信号を入力として受信して前記デジタルオーディオ信号を、振幅を有するとともに前記デジタルオーディオ信号の前記サンプリングレートよりも低いサンプリングレートを有する結合デジタルオーディオ信号を生成するように処理するべく構成されたサンプル結合ブロックをさらに含む、請求項１のシステム。
前記割り込み信号を受信してトリガーフレーズのために前記デジタルオーディオ信号を分析するべく構成されたデジタル信号プロセッサをさらに含む、請求項１のシステム。
前記デジタルオーディオ信号を受信して先入れ先出しフォーマットで格納するべく構成された音声ランダムアクセスメモリをさらに含み、
前記音声ランダムアクセスメモリはデジタル信号プロセッサによりアクセスされるように構成される、請求項８のシステム。
複数の非同期クロック生成メカニズムを含むクロックシステムをさらに含み、
前記非同期クロック生成メカニズムはそれぞれが異なる電流消費を有し、
前記クロックシステムは、前記非同期クロック生成メカニズム間でスイッチングするべく構成される、請求項８のシステム。
音声コマンドを検出及びキャプチャする方法であって、
音声アクティビティ検出器がデジタルオーディオ信号を受信することと、
前記音声アクティビティ検出器が前記デジタルオーディオ信号の振幅を決定することと、
前記音声アクティビティ検出器が前記デジタルオーディオ信号の振幅を第１しきい値と及び第２しきい値と比較することと、
前記デジタルオーディオ信号の振幅が前記第１しきい値及び前記第２しきい値を超えない場合に前記音声アクティビティ検出器が割り込み信号を差し控えることと、
前記デジタルオーディオ信号の振幅が前記第１しきい値及び前記第２しきい値を超える場合に前記音声アクティビティ検出器が前記割り込み信号を生成することと、
前記デジタルオーディオ信号の振幅が前記第１しきい値と前記第２しきい値との間にある場合に前記音声アクティビティ検出器が前記デジタルオーディオ信号のスペクトル分析を行うことと
を含む、方法。
アナログデジタル変換器がオーディオ信号を受信することと、
前記オーディオ信号がオーディオアクティビティの開始レベルを有するか否かをウェイクアップ回路が決定することと、
前記オーディオ信号が前記オーディオアクティビティの開始レベルを有しない場合に前記アナログデジタル変換器を、前記アナログデジタル変換器の変換器部分がデジタルオーディオ信号を生成しないスリープモードに置くことと、
前記オーディオ信号が前記オーディオアクティビティの開始レベルを有する場合に前記アナログデジタル変換器を、前記アナログデジタル変換器の変換器部分が、デジタルオーディオ信号を前記オーディオ信号からアナログデジタル変換器サンプリングレートで生成するアクティブモードに置くことと
をさらに含む、請求項１１の方法。
前記オーディオ信号がオーディオアクティビティの開始レベルを有するか否かをウェイクアップ回路が決定することは、前記オーディオ信号をウェイクアップ開始しきい値と比較することを含む、請求項１２の方法。
前記アナログデジタル変換器が前記スリープモードにある場合に前記アナログデジタル変換器の変換器部分に電力供給をしないことと、
前記アナログデジタル変換器が前記アクティブモードにある場合に前記アナログデジタル変換器の変換器部分に電力供給をすることと
をさらに含む、請求項１２の方法。
デジタル信号プロセッサが前記割り込み信号を前記音声アクティビティ検出器から受信することと、
前記デジタル信号プロセッサが、トリガーフレーズを検出するべく、前記デジタルオーディオ信号を分析することと
をさらに含む、請求項１２の方法。
音声ランダムアクセスメモリが前記デジタルオーディオ信号を受信して先入れ先出しフォーマットで格納することと、
前記デジタル信号プロセッサが前記トリガーフレーズを検出する場合に前記トリガーフレーズのエンドポイント前の前記音声ランダムアクセスメモリにおけるすべてのデータを破棄することと
をさらに含む、請求項１５の方法。
前記デジタル信号プロセッサがトリガーフレーズを検出する場合に、前記トリガーフレーズの後の予め特定されたタイムアウトの間にユーザが話したか否かを決定することをさらに含む、請求項１５の方法。
音声アクティビティ検出器であって、
デジタルオーディオ信号を受信するべく構成された入力部と、
前記デジタルオーディオ信号の振幅を決定するべく構成された振幅検出器と、
コントローラと、
スペクトル分析器と
を含み、
前記コントローラは、
前記デジタルオーディオ信号の振幅が第１しきい値及び第２しきい値を超えない場合に割り込み信号を差し控えることと、
前記デジタルオーディオ信号の振幅が前記第１しきい値及び前記第２しきい値を超える場合に前記割り込み信号を生成することと、
前記デジタルオーディオ信号の振幅が前記第１しきい値と前記第２しきい値との間にある場合に前記デジタルオーディオ信号のスペクトル分析をトリガーすることと
を行うべく構成され、
前記スペクトル分析器は、前記コントローラに前記割り込み信号を生成するべきか否かを命令するべく前記デジタルオーディオ信号のスペクトル分析を行うべく構成される、音声アクティビティ検出器。
サンプリングレートを有するデジタルオーディオ信号を入力として受信して前記デジタルオーディオ信号を、振幅を有するとともに前記デジタルオーディオ信号の前記サンプリングレートよりも低いサンプリングレートを有する結合デジタルオーディオ信号を生成するように処理するべく構成されたサンプル結合器をさらに含む、請求項１８の音声アクティビティ検出器。
前記スペクトル分析器は、
前記サンプル結合器から前記結合デジタルオーディオ信号を受信して前記結合デジタルオーディオ信号を格納するべく構成された音声アクティビティ検出器ランダムアクセスメモリと、
前記音声アクティビティ検出器ランダムアクセスメモリに格納された前記結合デジタルオーディオ信号の高速フーリエ変換を行って高速フーリエ変換結果を出力するべく構成された高速フーリエ変換ブロックと、
前記高速フーリエ変換結果の平均振幅を決定するべく構成されたスペクトルローパスフィルタと、
前記スペクトルローパスフィルタの結果を評価し、前記スペクトルローパスフィルタの結果の評価に基づいて前記割り込み信号を生成するか又は引き続いて前記割り込み信号を差し控えるかするように前記コントローラに信号を送るべく構成されたスペクトルコントローラと
を含む、請求項１９の音声アクティビティ検出器。