JP6076994B2

JP6076994B2 - オーディオ特徴データの抽出と分析

Info

Publication number: JP6076994B2
Application number: JP2014538799A
Authority: JP
Inventors: ホワン、キュ・ウォン; ユ、キスン; ジン、ミンホ; シャー、ピーター・ジバン; チャン、クウォクリュン; キム、テス
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-11-01
Filing date: 2012-09-25
Publication date: 2017-02-08
Anticipated expiration: 2032-09-25
Also published as: CN103999517A; WO2013066523A2; CN108551686A; EP2774420A2; KR20140082737A; BR112014010032A2; BR112014010032A8; KR101622493B1; US9992745B2; US20130110521A1; WO2013066523A3; CN103999517B; JP2015501450A; IN2014MN00769A; CN108551686B

Description

関連出願の相互参照
本出願は、参照によりそれぞれの内容全体が本明細書に組み込まれている、２０１１年１１月１日に出願した米国仮出願第６１／５５４，３１８号および２０１２年５月３０日に出願した米国非仮出願第１３／４８３，７３２号の優先権を主張するものである。

本開示は、一般的に、オーディオ特徴データ（audio feature data）の抽出と分析とに関係する。

技術の進歩の結果、コンピューティングデバイスの小型化と高性能化が進んだ。たとえば、現在では、小型軽量でユーザが携帯しやすいポータブルワイヤレス電話機、携帯情報端末（ＰＤＡ）、およびページングデバイスなどのワイヤレスコンピューティングデバイスを含む、様々な携帯型パーソナルコンピューティングデバイスが存在している。より具体的には、携帯電話およびインターネットプロトコル（ＩＰ）電話などの、ポータブルワイヤレス電話機は、ワイヤレスネットワーク上で音声とデータパケットとを伝達することができる。さらに、多くのそのようなワイヤレス電話機は、中に組み込まれている他のタイプのデバイスを備える。たとえば、ワイヤレス電話機は、デジタルスチルカメラと、デジタルビデオカメラと、デジタルレコーダと、オーディオファイルプレーヤとを備えることもできる。

ワイヤレス電話機に組み込まれているデバイスの数が増えるにつれ、ワイヤレス電話機のバッテリリソースはますます不足する可能性がある。バッテリリソースを節約するため、ワイヤレス電話機は一定の不応期間の後に「アイドル」または「スリープ」モードに遷移することができる。ワイヤレス電話機は、ネットワークイベント（たとえば、電話の呼び出しを受けること）またはユーザ入力（たとえば、ユーザがワイヤレス電話機のボタンを押すこと）に応答して「アクティブ」または「ウェイク」モードに遷移して戻ることができる。いくつかのデバイスは、音声コマンドなどのオーディオ入力に応答して「目覚める」機能も備え得る。しかし、このような機能を実装するために、デバイスのプロセッサ（複数可）と他のコンポーネントとは、「常時オン」モードで実行され、絶えず電力を消費し、そのため、デバイスの全体的なバッテリ寿命を縮める可能性がある。

オーディオ特徴データを抽出し分析する低電力システムと方法とが開示される。たとえば、本明細書で開示されている技術は、電力消費量を低減して電子デバイス（たとえば、ワイヤレス電話機）の音感知機能を利用できるようにすることが可能である。電子デバイスは、プロセッサ（たとえば、オーディオデジタルシグナルプロセッサ（ＤＳＰ））に結合された低電力コーダ／デコーダ（ＣＯＤＥＣ）を備えることができる。システムは、複数の動作モードを有し、各々のモードはＣＯＤＥＣ活動／プロセッサ活動の異なる比に対応するものとしてよい。たとえば、第１のモードでは、ＣＯＤＥＣは連続動作し、プロセッサは第１の比率でデューティサイクルされることができる。たとえば、プロセッサは、１０％のデューティサイクル（すなわち、時間の１０％でアクティブ状態、時間の９０％でアイドル状態）に従って動作し得る。第２のモードでは、ＣＯＤＥＣもデューティサイクルされることが可能である。ＣＯＤＥＣは、異なるモードで異なる比率のデューティサイクルされることができる。いくつかのモードでは、ＣＯＤＥＣの活動は、プロセッサの活動以上であってよい。他のモードでは、プロセッサが重い計算負荷を有しているときなどにおいて、プロセッサの活動は、ＣＯＤＥＣの活動よりも大きくなることがある。ＣＯＤＥＣは、オーディオデータを（たとえば、デバイスのマイクロフォンから）受信し、オーディオデータからオーディオ特徴を抽出することができる。プロセッサは、オーディオ特徴を分析し、その分析結果に基づき１つまたは複数のアクションを実行することができる。たとえば、プロセッサは、分析結果に基づき電子デバイスの１つまたは複数の他のコンポーネントをアクティブ化することができる。

特定の一実施形態において、方法は、プロセッサにおいて低電力状態から遷移して出ることを含む。この方法は、プロセッサが低電力状態から遷移して出た後に、バッファからオーディオ特徴データを取り出すことも含む。オーディオ特徴データは、プロセッサの低電力状態の期間中に受信されたオーディオデータの特徴を示す。いくつかの実施形態では、オーディオデータは受信されていることがあり得、またオーディオ特徴データは、プロセッサが低電力状態にある間にプロセッサに結合されているＣＯＤＥＣによってすでに抽出されていることもあり得る。

別の特定の実施形態において、方法は、ＣＯＤＥＣにおいてオーディオデータのフレームを１つ受信することを含む。この方法は、オーディオデータのフレームからオーディオ特徴データを抽出することも含む。この方法は、デューティサイクルされているプロセッサのアクティブ状態の期間中にデューティサイクルされるプロセッサによってアクセス可能なように抽出されたオーディオ特徴データをバッファに格納することをさらに含む。

別の特定の実施形態において、装置は、プロセッサと、オーディオデータの１つまたは複数のフレームをフィルタして、フィルタされたオーディオデータのエネルギーを発生する（プロセッサが低電力状態にあるか、またはアクティブ状態にあるかに依存せずに）ように構成された複数のフィルタとを備える。この装置は、フィルタされたオーディオデータのエネルギーに基づきオーディオ特徴データを生成するように構成されたコンバータも備える。この装置は、変換関数をオーディオ特徴データに適用して変換データを生成するように構成された変換器（transformer）をさらに備える。プロセッサは、低電力状態からアクティブ状態に遷移した後に、変換データに１つまたは複数のオペレーションを実行するように構成される。

別の特定の実施形態において、装置は、第１のモードでの動作と第２のモードでの動作とをプロセッサのアプリケーションコンテキストに基づき動的に切り替えるように構成されたプロセッサを備える。このプロセッサは、低電力状態から遷移して出た後に、バッファからオーディオ特徴データを取り出して処理するようにも構成される。オーディオ特徴データは、プロセッサが低電力状態にある間にＣＯＤＥＣによって受信されたオーディオデータの特徴を示す。第１のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比は、第２のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比よりも大きい。

別の特定の実施形態において、非一時的プロセッサ可読媒体は、プロセッサによって実行されたときに、第１のモードでの動作と第２のモードでの動作とを動的に切り替えることをプロセッサに実行させる命令を収める。第１のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比は、第２のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比よりも大きい。また、これらの命令は、実行されると、デューティサイクルにおいて低電力状態から遷移して出ることと、低電力状態において抽出されたオーディオ特徴データを分析することとをプロセッサに行わせる。これらの命令は、実行されると、低電力状態に遷移して戻ることをプロセッサにさらに行わせる。

開示されている実施形態のうちの少なくとも１つによってもたらされる特定の利点として、電子デバイスが常時オンの低電力ＣＯＤＥＣ（またはデューティサイクルされるＣＯＤＥＣ）とデューティサイクルされるプロセッサとを使用することによってオーディオ特徴データを抽出し、分析することができる点が挙げられる。たとえば、オーディオ特徴データは、デューティサイクルされるプロセッサが低電力状態にある間にＣＯＤＥＣによって受信されたオーディオデータの特性を示すことができる。オーディオ特徴データの抽出および分析は、常時オンのＣＯＤＥＣと常時オンのオーディオプロセッサとを備えるシステムと比較して少ない電力消費量で実行され得る。オーディオ特徴データの分析は、電子デバイスのタッチスクリーンまたは他のコンポーネントをアクティブ化するなどの様々なオペレーションのトリガーとなり得る。

本開示の他の態様、利点、および特徴は、「図面の簡単な説明」と、「発明を実施するための形態」と、「特許請求の範囲」との節を含む、出願全体を検討した後に明らかになるであろう。

オーディオ特徴データを抽出し、分析するように動作可能なシステムの特定の一実施形態を例示する図。オーディオ特徴データを抽出し、分析するように動作可能なシステムの別の特定の実施形態を例示する図。図２のＣＯＤＥＣと図２のプロセッサとの間で分割されたオペレーションの特定の実施形態を例示する図。図１のシステムまたは図２のシステムにおけるオペレーションの特定の一実施形態を例示する図。図１のシステムまたは図２のシステムにおける電力消費量の特定の一実施形態を例示する図。デューティサイクルされるプロセッサでオーディオ特徴データに対して音声認識を実行する方法の特定の一実施形態を例示する流れ図。ＣＯＤＥＣでオーディオ特徴データを抽出する方法の特定の一実施形態を例示する流れ図。プロセッサの蓄積−フォワード−モード（store-and-forward mode）での動作と直接転送モードでの動作とを動的に切り替える方法の特定の一実施形態を例示する流れ図。電子デバイスの低電力コンポーネントによる電子デバイスの高電力コンポーネントの交互階層的アクティブ化（staggered hierarchical activation）を実行する方法の特定の一実施形態を例示する流れ図。図１〜図９のシステムと方法とによりオーディオ特徴データを抽出し、分析するように動作可能なワイヤレスデバイスのブロック図。

図１を参照すると、オーディオ特徴データを抽出し、分析するように動作可能であるシステムの特定の一実施形態が図示されており、全体的に１００として示されている。システム１００は、プロセッサ１５０に結合されたコーダ／デコーダ（ＣＯＤＥＣ）１２０を備える。特定の一実施形態において、プロセッサ１５０は、オーディオＤＳＰなどの、デジタルシグナルプロセッサ（ＤＳＰ）であってよい。いくつかの実施形態では、図示されているように、バッファ１４０をＣＯＤＥＣ１２０とプロセッサ１５０との間に配置することができる。代替的実施形態では、バッファ１４０は、図２〜図３を参照しつつさらに説明されているように、ＣＯＤＥＣ１２０またはプロセッサ１５０に内蔵されていてもよい。

特定の一実施形態において、ＣＯＤＥＣ１２０は、連続的に動作して、オーディオデータ１１０を受信することができる。たとえば、オーディオデータ１１０は、ＣＯＤＥＣ１２０に結合されているマイクロフォンまたは他の音声入力デバイスによって生成され得る。オーディオデータ１１０は、「生の」（すなわち、未処理および／または無圧縮の）オーディオデータとすることができる。ＣＯＤＥＣ１２０は、オーディオデータ１１０からオーディオ特徴を抽出し、それにより、オーディオ特徴データ１３０を生成するように構成され得る。特定の一実施形態において、オーディオ特徴データ１３０は、オーディオデータ１１０に比べてサイズが実質的に小さくてもよい。ＣＯＤＥＣ１２０は、オーディオ特徴データ１３０をバッファ１４０（たとえば、ランダムアクセスメモリ（ＲＡＭ）バッファ）に格納することができる。特定の一実施形態において、オーディオ特徴データ１３０は、ピッチ、トーン、音量、および／またはリズムの特性などのオーディオデータ１１０の特定の特性を示し得る。ＣＯＤＥＣ１２０は、オーディオ特徴データ１３０を抽出した後にオーディオデータ１１０を破棄してもよい。

プロセッサ１５０は、デューティサイクルに従って動作し得る。たとえば、プロセッサ１５０が１０％のデューティサイクルに従って動作する場合、プロセッサ１５０は、時間の１０％で「アクティブ」（すなわち、高電力状態）であり、時間の９０％で「アイドル」（すなわち、低電力状態）である。特定の一実施形態において、プロセッサ１５０は、プログラム可能な時間期間の終了に応答してアクティブ状態とアイドル状態との間で周期的に遷移することができる（たとえば、プロセッサ１５０のデューティサイクルはプログラム可能であってよい）。このため、デューティサイクルされるプロセッサ１５０の電力消費量は、「常時オン」プロセッサに比べて少なくなり得る。

低電力状態から遷移して出た後、プロセッサ１５０は、バッファ１４０からオーディオ特徴データ１３０を取り出し、取り出されたオーディオ特徴データ１３０を分析することができる。プロセッサ１５０は、その分析結果に基づき１つまたは複数のオペレーションを実行することができる。たとえば、システム１００が、ワイヤレス電話機などの電子デバイスに一体化されている場合、プロセッサ１５０は、オーディオ特徴データ１３０の分析結果に基づくアクティブ化信号１６０を生成して、電子デバイス（たとえば、図１０を参照しつつさらに説明されているような、アプリケーションプロセッサまた移動局モデム（ＭＳＭ）の一部）の１つまたは複数のコンポーネントをアクティブ化することができる。

オペレーション実行時に、ＣＯＤＥＣ１２０は、オーディオデータ１１０のフレームを連続的に受信し、オーディオデータ１１０から抽出されたオーディオ特徴データ１３０をバッファ１４０に格納することができる。たとえば、オーディオデータ１１０の各々のフレームは２０ｍｓ長とすることができる。特定の一実施形態において、より新しいオーディオ特徴データ１３０は、先入れ先出しポリシーに従ってバッファ１４０内のより古いオーディオ特徴データ１３０を上書きするものとしてよい。

図１に示されているように連続的に動作する代わりに、ＣＯＤＥＣ１２０は、その代わりにデューティサイクルされてよいことに留意されたい。たとえば、ＣＯＤＥＣ１２０が、望んでいるのに比べて電力効率が低いか、または「レガシー」ＣＯＤＥＣである場合、ＣＯＤＥＣ１２０は、デューティサイクルされるものとしてよい。一般的に、ＣＯＤＥＣ１２０はデューティサイクルされるとしても、ＣＯＤＥＣ１２０は、プロセッサ１５０よりもアクティブであるものとしてよい。そのため、システム１００は、複数の動作モードをサポートし得る。第１のモードでは、ＣＯＤＥＣ１２０は、より頻繁なオーディオ信号処理を実行することができ、より多くの電力を消費すると推定できる。第２のモードでは、ＣＯＤＥＣ１２０は、あまり頻繁でないオーディオ信号処理を実行することができ、より少ない電力を消費すると推定できる。プロセッサ１５０は、第１のモードと第２のモードとで同じデューティサイクルを有することができる。

様々な実装は、デュアルモード（またはマルチモード）システム１００によってサポートされ、各々のモードはＣＯＤＥＣ活動／プロセッサ活動の異なる比を有するものとしてよいことは理解されるであろう。たとえば、より高い活動モードは、ＣＯＤＥＣ１２０が連続動作し、プロセッサ１５０が第１の比率（たとえば、Ｄ１）のデューティサイクルされることを伴い、より低い活動モードは、ＣＯＤＥＣ１２０が第１の比率以上の第２の比率（たとえば、Ｄ２）（たとえば、Ｄ２≧Ｄ１）でデューティサイクルされることを伴い得る。別の例として、より高い活動モードは、ＣＯＤＥＣ１２０が第１の比率（たとえば、Ｄ１）でデューティサイクルされ、プロセッサ１５０が第２の比率（たとえば、Ｄ２）のデューティサイクルされることを伴い、より低い活動モードは、ＣＯＤＥＣ１２０が第３の比率（たとえば、Ｄ３）でデューティサイクルされ、プロセッサ１５０が第２の比率（たとえば、Ｄ２）のデューティサイクルされることを伴い得る。第１の比率は、第２の比率よりも実質的に大きく（たとえば、Ｄ１＞＞Ｄ２）、第３の比率は、第２の比率以上であってよい（たとえば、Ｄ３≧Ｄ２）。選択された実装は、重いプロセッサ計算負荷の期間などにおいて、ＣＯＤＥＣ活動がプロセッサ活動以下であるモードもサポートすることができる。たとえば、第３の比率は、第２の比率以下であってよい（たとえば、Ｄ３≦Ｄ２）。

ＣＯＤＥＣ１２０およびプロセッサ１５０がどれだけ頻繁にアクティブであるかに応じて、システム１００は、蓄積−フォワード−モードまたは直接転送モードで効果的に動作しているものとしてよい。蓄積−フォワード−モードでは、プロセッサ１５０は、低電力状態から遷移して出た後にバッファ１４０を空にすることができる。つまり、プロセッサ１５０は、プロセッサ１５０が低電力モードに入っている間にＣＯＤＥＣ１２０によって受信されたオーディオデータ１１０のすべてのフレーム（または複数のフレーム）に対応するオーディオ特徴データ１３０を取り出すことができる。直接転送モードでは、プロセッサ１５０は、オーディオデータ１１０の単一のフレーム（たとえば、オーディオデータ１１０の一番最近に受信されたフレーム）に対応するオーディオ特徴データ１３０を取り出すことができる。特定の一実施形態において、プロセッサ１５０は、図２と図４とを参照しつつさらに説明されているように、プロセッサ１５０のアプリケーションコンテキストに基づき蓄積−フォワード−モードでの動作と直接転送モードでの動作、および／またはより高い活動モードとより低い活動モード（より高い活動モードではより低い活動モードに比べてＣＯＤＥＣ活動／プロセッサ活動の比が高い）を動的に切り替えることができる。

オーディオ特徴データ１３０を取り出した後、プロセッサ１５０は、オーディオ特徴データ１３０を分析し、この分析結果に基づきアクティブ化信号１６０を生成することができる。たとえば、オーディオ特徴データ１３０の分析結果で、特定の音声入力コマンド（たとえば、「ｗａｋｅｕｐ」）が識別された場合、プロセッサ１５０は、アクティブ化信号１６０を生成して、電子デバイスの様々なコンポーネントをアクティブ化することができる。

デューティサイクルされるプロセッサを含む、図１のシステム１００は、こうして、常時オンＣＯＤＥＣと常時オンプロセッサとを有するシステムに比べて低い電力でオーディオ特徴の抽出および分析を可能にし得る。さらに、生オーディオデータの代わりにオーディオ特徴をバッファリングすることによって、図１のシステム１００は、メモリの使用量を減らしてオーディオ分析を実行することができる。

図２を参照すると、オーディオ特徴データを抽出し、分析するように動作可能であるシステムの別の特定の実施形態が図示されており、全体的に２００として示されている。システム２００は、プロセッサ２３０（たとえば、図１のプロセッサ１５０）に結合されたＣＯＤＥＣ２２０（たとえば、図１のＣＯＤＥＣ１２０）を備えることができる。ＣＯＤＥＣ２２０は、例示されているマイクロフォン２１０などの、音声入力デバイスにも結合され得る。

ＣＯＤＥＣ２２０は、マイクロフォン２１０からアナログオーディオデータ２１２を受信し、そのアナログオーディオデータ２１２をデジタルオーディオデータに変換するアナログ／デジタルコンバータ（ＡＤＣ）２２１を備えることができる。マイクロフォン２１０がデジタルオーディオデータを生成する代替的一実施形態では、ＡＤＣが存在していなくてよい。

ＣＯＤＥＣ２２０は、オーディオデータ２１２からオーディオ特徴２２６を抽出するように構成された特徴抽出器２２２も備え得る。特定の一実施形態において、特徴抽出器２２２は、オーディオデータ２１２をフィルタしてフィルタされたオーディオデータのエネルギー２２４（たとえば、メル(mel)帯域エネルギー）を発生する複数のフィルタ２２３を備えることができる。たとえば、フィルタ２２３は、メル帯域フィルタであってよく、各々のメル帯域フィルタが人間の知覚の周波数スケールの異なる部分（たとえば、オクターブ）に対応している。たとえば、フィルタ２２３は、２２オクターブに対応するメル帯域エネルギー２２４を発生する２２個のメル帯域フィルタを備えることができる。代替的一実施形態では、特徴抽出器２２２は、高速フーリエ変換（ＦＦＴ）ベースの特徴抽出を実行することができる。

特徴抽出器２２２は、対数コンバータ２２５も備えることができる。対数コンバータ２２５は、対数関数をフィルタされたオーディオデータのエネルギー２２４に適用して、抽出されたオーディオ特徴２２６を生成することができる。抽出されたオーディオ特徴２２６は、バッファ（たとえば、ＲＡＭバッファ）２２７内に格納され得る。抽出されたオーディオ特徴２２６は、コンパクトに設計されたオーディオ特徴を含むオーディオデータ２１２よりもサイズが実質的に小さいものとしてよい（たとえば、各々の２０ｍｓフレームからの２２個の対数メル帯域エネルギー）。たとえば、オーディオデータ２１２は、１６ｋＨｚ、１６ビット分解能を有するものとしてよい。オーディオデータ２１２の２００ｍｓ（たとえば、１０フレームに対応する）は、６４００バイトの領域を占有し得る。しかし、１０フレームに対する抽出されたオーディオ特徴２２６は、２２０バイトの領域のみを占有し得る（１０フレーム×１フレーム当たり２２特徴×１特徴当たり１バイト）。そこで、生オーディオデータ２１２の代わりに抽出されたオーディオ特徴２２６をバッファ２２７に格納することによって、バッファ２２７は、比較的小さくすることができ、また比較的少ない電力を消費し得る。

プロセッサ２３０は、状態遷移ロジック２３１を備えることができる。特定の一実施形態において、状態遷移ロジック２３１は、プロセッサ２３０を低電力状態に遷移させ、低電力状態から遷移させることができる（たとえば、デューティサイクルに従って）。低電力状態から遷移して出た後、プロセッサ２３０は、バッファ２２７から抽出されたオーディオ特徴２２６を取り出すことができる。変換器２３３は、変換関数を抽出されたオーディオ特徴２２６に適用して、変換されたオーディオ特徴データ２３４を生成することができる。特定の一実施形態において、変換器２３３は、離散コサイン変換（ＤＣＴ）関数を適用するように構成され得る。たとえば、１フレーム当たり２２個のメル帯域に対応する特徴を含む抽出されたオーディオ特徴２２６を変換することで、ＤＣＴ係数の１２個の要素を取ることによって１フレーム当たり１２個のメル周波数ケプストラム係数（ＭＦＣＣ）を生成することができる。

プロセッサ２３０は、変換されたオーディオ特徴データ２３４を分析するように構成された１つまたは複数の音声認識モジュール２４１〜２４５も備えることができる。特定の一実施形態において、どの音声認識モジュール２４１〜２４５がアクティブであるかは、プロセッサ２３０がどのようなモードで動作しているかによって決まり得る。たとえば、プロセッサ２３０における動的モード切替ロジック２３２は、コンテキスト（たとえば、アプリケーションコンテキスト）に基づきプロセッサ２３０のオペレーションを動的に切り替えることができる。たとえば、図２のシステム２００を含むデバイスが、聴取位置（listen location）、連続的オーディオフィンガープリンティング（continuous audio fingerprinting）、および／または連続的キーワード検出を伴うアプリケーションまたは他のオペレーションを実行するときに、ロジック２３２は、プロセッサ２３０を蓄積−フォワード−モードで動作させることができ（たとえば、オーディオデータの複数のフレームからの特徴が、プロセッサ２３０がアクティブになるたびに処理される）、モジュール２４１〜２４３はアクティブになるものとしてよい。別の例として、デバイスが、ターゲット音検出（たとえば、特定の音楽または音声の検出）および／またはノベルティ検出（novelty detection）を伴うアプリケーションを実行する場合、ロジック２３２は、プロセッサ２３０を蓄積−フォワード−モードまたは直接転送モードのいずれかで動作させることができ（たとえば、オーディオデータの単一のフレームからの特徴が、プロセッサがアクティブになるたびに処理される）、モジュール２４４〜２４５はアクティブになるものとしてよい。代替的実施形態において、動的モード切替ロジック２３２は、たとえば、オーディオデータ２１２および／またはオーディオ特徴２２６の特性を含む、他のファクタに基づきプロセッサ２３０のオペレーションを切り替えることができる。

聴取位置モジュール２４１は、入力音声をオーディオシグネチャに変換することができる。これらのシグネチャは、サーバ（図示せず）に送信され、サーバは、これらのシグネチャを他のデバイスから受信されたシグネチャと比較し得る。異なるデバイスからのシグネチャが類似している場合、サーバは、それらの異なるデバイスが同じ音響空間内にあると判定することができ、これは、異なるデバイスが同じ物理的位置にあるか、同じコンテンツを聴取しているか、または周囲の音によって決定されるような類似のコンテキストを有することを示し得る。たとえば、聴取位置は、人々をグループ化し、および／または人々のグループとアイテムを共有するためにソーシャルネットワークサービス内で使用され得る。

連続的オーディオフィンガープリンティングモジュール２４２は、事前登録されている（たとえば、事前に決定されている）サウンドスナップショットの存在を検出しようと試みることができる。ターゲットサウンドまたは環境検出とは異なり、連続的オーディオフィンガープリンティングは、チャネル劣化、イコライゼーション、速度変化、デジタル／アナログまたはアナログ／デジタル変換などに関係する歪みなどの、音質歪みの存在下で同一であると知覚されるサウンドスナップショットを確実に検出することができる。このため、連続的オーディオフィンガープリンティングは、音楽と放送とにおける識別シナリオに応用することができる。

連続的キーワード検出モジュール２４３は、音声入力を受け取り、事前登録されている（たとえば、事前に決定されている）キーワードセットの存在を検出することができる。連続的キーワード検出は、比較的低電力の状態で実行され、検出されたキーワードに基づき定義済みアプリケーションをアクティブ化することができる。事前に決定されたキーワードセットは、アプリケーションプロセッサによってプログラム可能であるものとしてよい。特定の一実施形態において、キーワードに対するモデルは、アプリケーションプロセッサによってダウンロードされ得る。これにより、連続的キーワード検出では、専用の音声コマンドボタンまたは非言語的ユーザ入力を使用せずに音声アクティブ化コマンドを使用することができる。

ターゲット音検出モジュール２４４は、音の種類を検出し、その音に対応するよう対応するアプリケーションに通知することができる。たとえば、発話を検出した後、ターゲット音検出は、音声記録アプリケーションに発話の記録を行わせることができる。別の例として、音楽を検出した後、ターゲット音検出は、曲名、アーチスト名、およびアルバム名などの、音楽の特性をアプリケーションに識別させることができる。

ノベルティ検出モジュール２４５は、位置の変化および／または活動の変化に対応する入力オーディオの変化を検出することができる。ノベルティ検出は、位置と音声活動とを識別し、その後の使用と分析とに対する対応する時間をログに記録するために他の音声認識オペレーション（たとえば、聴取位置およびターゲット音検出）と併せて使用され得る。ノベルティ検出は、環境内で音響に顕著な変化がある場合に他の音声認識オペレーションをアクティブ化するためにも使用され得る。

オペレーション実行時に、ＣＯＤＥＣ２２０は、マイクロフォンからオーディオデータ２１２のフレームを連続的に受信し、オーディオデータ２１２からオーディオ特徴２２６を抽出し、オーディオ特徴２２６をバッファ２２７に格納することができる。プロセッサ２３０は、デューティサイクルに従って低電力状態に遷移して入り、遷移してそこから出ることができる。低電力状態から遷移して出た後、プロセッサ２３０は、オーディオデータ２１２の複数のフレームに対応する（蓄積−フォワード−モードで動作している場合）、またはオーディオデータ２１２の単一のフレームに対応する（直接転送モードで動作している場合）オーディオ特徴２２６を取り出して、変換することができる。プロセッサ２３０は、図１を参照しつつ説明されているように、より高い活動モードでの動作とより低い活動モードでの動作との間で遷移することもできる。アクティブである場合、プロセッサ２３０は、変換されたオーディオ特徴データ２３４を、音声認識モジュール２４１〜２４５のうちの１つまたは複数を介して分析することができ、分析結果に基づきアプリケーションプロセッサおよび／または移動局モデム（ＭＳＭ）のコンポーネント（複数可）、または他のコンポーネントをアクティブ化するかどうかを決定することができる。

特定の一実施形態において、図２のシステム２００は、複数のより高水準のアプリケーション（たとえば、音楽認識アプリケーション、キーワード検出アプリケーションなど）によって使用され得る共通リスニングサービスを提供することができる。たとえば、共通リスニングサービスは、プロセッサ２３０によって実行される音声認識オペレーションの結果により、（たとえば、アプリケーションプログラミングインターフェース（ＡＰＩ）、共有メモリなどを介して）より高水準のアプリケーションを提供することができる。共通リスニングサービスは、相互運用性問題を軽減することができ、各々のより高水準のアプリケーションがそれ自体のリスニングエンジンを有するシステムに比べて電力効率が良くなる可能性がある。

そのため、図２のシステム２００は、電力消費量を減らしてオーディオ特徴の抽出および分析を可能にし得る。たとえば、アナログ／デジタル変換および特徴抽出などの比較的低電力のオペレーションは、低電力常時オンＣＯＤＥＣ（またはデューティサイクルされるＣＯＤＥＣ）に組み込まれ、データ変換および音声認識などの比較的大きな電力を要するオペレーションは、デューティサイクルされるＤＳＰに組み込まれ、間欠的に実行され得る。

特定の一実施形態において、図２のシステム２００は、低電力コンポーネントによる高電力コンポーネントのアクティブ化を含む電子デバイスに低電力ユーザインターフェースを備えることができる。たとえば、システム２００は、可聴音（たとえば、０〜１６ｋＨｚのサンプリングレート）と、ビーコン（たとえば、１６〜２４ｋＨｚのサンプリングレート）と、超音波（たとえば、２４ｋＨｚを超えるサンプリングレート）の入力をサポートすることができる。複数の種類の入力をサポートするために、マイクロフォン２１０は、可聴音信号と、ビーコン信号と、超音波信号とを受信することができるものとしてよい。あるいは、超音波および／またはビーコンの検出のために、追加のマイクロフォンまたはコンポーネントがシステム２００に組み込まれ得る。音響信号を電気信号に変換するために使用されるコンポーネントとして、限定はしないが、マイクロフォン、圧電センサー、および超音波振動子が挙げられる。低電力ＣＯＤＥＣ２２０は、受信された信号に対して粗検出／分類２９０を実行することができる。図２は、粗検出／分類２９０がアナログ／デジタルコンバータ２２１の出力に対して実行されることを示しているけれども、代替的実施形態は、代わりにアナログ信号に対して粗検出／分類２９０を実行することを含み得ることに留意されたい。粗検出／分類２９０の結果に応じて、ＣＯＤＥＣ２２０は、アクティブ化信号２９２を介してより高電力のプロセッサ２３０をアクティブ化することができる。たとえば、プロセッサ２３０は、粗検出／分類２９０が超音波入力が受信されたことを示す場合にアクティブ化され得る。

図２は、２レベルアクティブ化階層（つまり、ＣＯＤＥＣ２２０およびプロセッサ２３０）を例示しているけれども、レベルはいくつでも実装することができることに留意されたい。たとえば、３レベル階層において、低電力デジタル／アナログ回路は、粗検出を実行することで、より高電力のフロントエンド処理ユニットをアクティブ化すべきかどうかを決定することができ、フロントエンド処理ユニットは精細検出を実行することで、最終的な検出を実行し、アプリケーション／ユーザインターフェースコンポーネントを実行するなおいっそう高電力の主処理ユニットをアクティブ化するかどうかを決定することができる。特定の一実施形態において、デジタル／アナログ回路およびフロントエンド処理ユニットは、ＣＯＤＥＣ２２０内に一体化され、主処理ユニットは、プロセッサ２３０内に一体化され得る。たとえば、粗検出／分類ブロック２９０は、ＣＯＤＥＣ２２０のデジタル／アナログ回路内に一体化され、第１のアクティブ化信号２９４を介してＣＯＤＥＣ２２０のフロントエンドユニット内の精細検出／分類ブロック２９６を選択的にアクティブ化することができる。精細検出／分類ブロック２９６は、第２のアクティブ化信号２９８を介してプロセッサ２３０の最終検出／分類ブロックをアクティブ化することができる。より低電力のコンポーネントによるより高電力のコンポーネントの交互階層的アクティブ化は、電子デバイスにおけるバッテリ寿命を改善することができる。

システム２００において、様々な検出および分類方法が使用され、一度に複数の方法が使用され得る。特定の一実施形態において、受信された信号が可聴音、ビーコン、および/または超音波の範囲内のデータを含むかどうかを判定するために、二乗平均平方根（ＲＭＳ）または帯域電力の分類が使用され得る。時間領域法は、信号レベル検出とともにフィルタバンクを使用することを含むものとしてよく、各々のフィルタは、特定の種類の音を抽出するように設計され、音を制限するためにフィルタ出力レベルが閾値と比較される。周波数領域法は、入力信号を分類するために使用される周波数を導出するためにメル間隔ケプストラム係数（mel-spaced cepstral coefficients）のＦＦＴを実行することを含み得る。サウンドコンテンツ法（sound content method）は、入力信号と知られているパターンとの相関を求めることによるパターンマッチングを伴い得る（たとえば、入力信号が超音波デジタルスタイラスから受信された信号かどうかを判定するため）。モデルベースのアプローチは、入力信号が事前に決定されている音楽または音声モデルとマッチする確率を計算することを含み得る。ノベルティ検出は、入力音特性の変化を検出することを伴うものとしてよい。変化が検出された場合、アプリケーションは、コンテキスト情報（たとえば、デバイスが屋内にあるか、または屋外にあるか）を更新するように通知され得る。たとえば、ユーザが屋内環境から屋外環境に出ると、結果として入力音特性の変化が生じ、これにより、ユーザの携帯電話のアプリケーションが電話機着信音量を大きくするようにできる。

図２のシステム２００および／またはそのコンポーネントに対する使用事例として、限定はしないが、デバイス（たとえば、テレビ、ゲーム機、コンピュータ、および電話機）を制御するための音声認識、コンテキストを意識したオーディオ認識、デジタルスタイラス（たとえば、超音波伝送を介してデジタルデバイスに入力される手書きの超音波デジタルスタイラス）に対する音響およびパルス認識、超音波ジェスチャーまたは近接検出、超音波、音響タッチ検出を使用するデバイス間測位、デバイスの位置を識別するための音響ビーコン、オーディオフィンガープリンティングによるコンテンツ識別、サウンドマッチングによるピア発見および近接感知、およびサウンドマッチングによる位置推定が挙げられる。

図１〜図２は、ＣＯＤＥＣによって実行される特徴抽出とプロセッサによって実行されるデータ変換とを示しているけれども、それは例示することのみを目的としたものであることに留意されたい。代替的実施形態において、異なる機能は、異なるハードウェアコンポーネントによって実行されるものとしてよい。たとえば、図３を参照すると、図２のＣＯＤＥＣ２２０と図２のプロセッサ（たとえば、ＤＳＰ）２３０とにオペレーションを分割する特定の実施形態が図示されており、全体として３００で示される。

第１の実施形態では、ＣＯＤＥＣ／ＤＳＰの境界は３０２のところに配置され得る。この第１の実施形態では、ＣＯＤＥＣは、ＡＤＣ３２１を備えることができ、ＡＤＣ３２１の出力は、バッファリングされ得る。ＤＳＰは、特徴抽出（たとえば、メル帯域フィルタ３２３と対数コンバータ３２５を介して）と、データ変換（たとえば、ＤＣＴ変換器３３３を介して）と、音声認識（たとえば、音声認識モジュール３４０を介して）とを実行することができる。

第２の実施形態では、ＣＯＤＥＣ／ＤＳＰの境界は３０４のところに配置され得る。そのため、この第２の実施形態では、特徴抽出は、ＣＯＤＥＣによって一部実行され、ＤＳＰによって一部実行され得る。メル帯域フィルタ２３２の出力は、バッファリングされ得る。データ変換および音声認識は、ＤＳＰによって実行され得る。

第３の実施形態では、ＣＯＤＥＣ／ＤＳＰの境界は３０６のところに配置され得る。第３の実施形態は、図１のシステム１００と図２のシステム２００とに対応するものとしてよいことに留意されたい。この第３の実施形態では、特徴抽出は全体が、ＣＯＤＥＣによって実行され、対数コンバータ３２５の出力は、バッファリングされ得る。データ変換および音声認識は、ＤＳＰによって実行され得る。

第４の実施形態では、ＣＯＤＥＣ／ＤＳＰの境界は３０８のところに配置され得る。この第４の実施形態では、特徴抽出とデータ変換の両方が、ＣＯＤＥＣによって実行され、ＤＣＴ変換器３３３の出力は、バッファリングされ得る。音声認識は、ＤＳＰによって実行され得る。

図１〜図２を参照しつつすでに説明されているように、開示されている技術は、常時オン低電力ＣＯＤＥＣ（またはデューティサイクルされるＣＯＤＥＣ）と「アクティブ」であるときにＣＯＤＥＣよりも電力消費量が多いデューティサイクルされるプロセッサとを使用することを伴い得る。そこで、比較的低電力の機能をＣＯＤＥＣに組み込み、比較的高電力の機能をＤＳＰに残すことが望ましいと思われる。図３に示されているように、ＣＯＤＥＣ／ＤＳＰ境界およびバッファリングポイントは、複数の位置のどれかに柔軟に配置することができる。特定の一実施形態において、ＣＯＤＥＣ／ＤＳＰ境界の位置は、電子デバイスの設計および試験時に決定され、またこれは電子デバイスの全体的な電力消費量および性能などのファクタに基づくものとしてよい。

図４を参照すると、図１のシステム１００と図２のシステム２００におけるオペレーションの具体的図解が示されており、全体として４００で示される。たとえば、図４では、蓄積−フォワード−モードでのＤＳＰのオペレーションと直接転送（たとえば、リアルタイムの、またはリアルタイムに近い）モードでのＤＳＰオペレーションとを比較している。

ＤＳＰが蓄積−フォワード−モードで動作する場合、複数のフィルタ（たとえば、２２個のメル帯域フィルタ）を備えるＣＯＤＥＣは、ＤＳＰが低電力状態にある間に、４０２で示されているように、受信されたオーディオデータの各々のフレームに対して１フレーム当たり２２個の特徴を抽出して蓄積することができる。ＤＳＰが低電力状態から遷移して出る場合、ＤＳＰは、４１２で示されているように、蓄積された特徴を取り出して、分析し得る。図４に例示されている特定の実施形態において、ＤＳＰは、１０フレームのオーディオデータに対応するオーディオ特徴がＣＯＤＥＣによって抽出された後に低電力状態から遷移して出る。そのため、蓄積−フォワード−モードでは、ＤＳＰは、低電力状態に遷移して戻る前に２２０個のオーディオ特徴（１０フレームに対応する）を取り出して、処理することができる。このプロセスは、４０４における特徴のその後の抽出と、４１４における取り出された特徴の処理とによって示されるように、続行し得る。

オーディオ特徴の喪失およびバッファのオーバーフローを回避または低減するために、蓄積−フォワード−モードで動作しているときに、ＤＳＰは、プログラム可能な期間に従って低電力状態から遷移して出るものとしてよい。プログラム可能な期間は、バッファのサイズに基づく最大時間期間以下であるものとしてよい。そこで、蓄積−フォワード−モードでは、ＣＯＤＥＣによって受信された各々のフレームからのオーディオ特徴は、最終的に、ＤＳＰによって分析され得る。特定の一実施形態において、ＤＳＰとＣＯＤＥＣとの間の同期を維持し、バッファのオーバーフロー／アンダーフローを低減するために、ＤＳＰ−ＣＯＤＥＣハンドシェーキングまたは他の技術が利用され得る。

ＤＳＰが直接転送モードで動作する場合、４１６で示されているように、ＤＳＰによって、一番最近受信したオーディオフレームに対応する（４０６で示されている）オーディオ特徴が取り出され処理され得る。ＤＳＰへのオーディオ特徴の「直接転送」が事実上あるので、オーディオ特徴は、非常に短い時間の間バッファリングされるか、またはまったくバッファリングされ得ず、ＤＳＰのデューティサイクルは、バッファのサイズに非依存にプログラムすることができる。そのため、直接転送モードでは、ＤＳＰは、低電力状態に遷移して戻る前に２２個のオーディオ特徴（単一のオーディオフレームに対応する）を取り出して、処理することができる。このプロセスは、４０８におけるその後の抽出された特徴と、４１８における取り出された特徴とによって示されるように、続行し得る。そのため、直接転送モードでは、ＣＯＤＥＣによって受信されたフレームの部分集合のみからの（たとえば、図４の実施形態において１０フレームに１つの割合で）オーディオ特徴がＤＳＰによって分析され得る。

ＣＯＤＥＣおよびＤＳＰは、追加の動作モードも同様にサポートし得ることに留意されたい。典型的には、ＣＯＤＥＣの活動は、ＤＳＰの活動以上であってよい。様々な動作モードが、ＣＯＤＥＣ活動／プロセッサ活動の異なる比に対応し得る。各々の動作モードは、ＣＯＤＥＣのデューティサイクル（１００％は常時オンに対応する）、ＤＳＰのデューティサイクル、および／またはプロセッサが目覚めるたびに分析されるオーディオデータのフレームの数に対する異なる設定を含み得る。サポートされている動作モードの詳細は、設計時および／または製造時に決定されるものとしてよい。特定のどの動作モードが選択されるかは、アプリケーションコンテキストなどのファクタに基づき実行時に決定され得る。

図５を参照すると、様々な音感知システムにおける電力消費量の具体例が示されており、これは全体として５００で示されている。より具体的には、図５の左側は、常時オンＣＯＤＥＣと常時オンＤＳＰとを備えるシステムにおける電力消費量を示し、図５の右側は、図１のシステム１００または図２のシステム２００などの、開示されている技術によるシステムにおける電力消費量を示している。

左の音感知システムは、常時オンＣＯＤＥＣ５０２を備えるものとしてよい。システムは、常時オンＤＳＰ特徴抽出５０４と常時オンＤＳＰ分析５０６とを含む、常時オンＤＳＰも備えることができる。ＣＯＤＥＣおよびＤＳＰは常時オンであるので、システムによって消費される電力は、５０８で示されているように、比較的平坦な曲線で表され得る。

右の音感知システム（たとえば、図１のシステム１００または図２のシステム２００）は、５１４の常時オン低電力ＣＯＤＥＣ５１２とＣＯＤＥＣ特徴抽出とを備えることができる。システムは、デューティサイクルされるＤＳＰを備えることもできる。たとえば、図５の特定の実施形態において、ＤＳＰは、２０ｍｓのアクティブ時間と２００ｍｓのアイドル時間とを有する。そのため、右側のＣＯＤＥＣのデューティサイクルされるＤＳＰの組合せは、２０ｍｓのアクティブ時間５１６、５１８において左側のシステムに比べて電力の消費量が多い場合があるけれども、この組合せでは、デューティサイクル動作を行うＤＳＰの２００ｍｓのアイドル時間において消費する電力が実質的に少なくなる可能性がある。右側のシステムの電力消費量は、曲線５１８によって例示されるものとしてよい。曲線５１９によって例示されている、図５の右側のシステムの平均電力消費量は、これにより、曲線５０８によって例示されている、図５の左側のシステムの電力消費量に比べて実質的に少ないものとしてよいことを理解されるであろう。いくつかの実装では、ＣＯＤＥＣ５１２も、図１〜図４を参照しつつ説明されているように、同様にデューティサイクルされることができる。

図６を参照すると、デューティサイクル動作を行うプロセッサでオーディオ特徴データに対して音声認識を実行する方法の特定の一実施形態が、図示され、全体として６００で示されている。例示的な一実施形態では、方法６００は、図１のプロセッサ１５０または図２のプロセッサ２３０によって実行され得る。

方法６００は、６０２で、プロセッサのデューティサイクルにおいてプロセッサの低電力状態から遷移して出ることを含み得る。特定の一実施形態において、プロセッサは、１０％のデューティサイクルを有するデジタルシグナルプロセッサ（ＤＳＰ）であってよい。たとえば、図２では、プロセッサ２３０は、デューティサイクルにおいて低電力状態から遷移して出るものとしてよい（たとえば、アイドルからアクティブへの遷移）。

方法６００は、バッファからオーディオ特徴データを取り出すことも含むものとしてよく、オーディオ特徴データは、プロセッサの低電力状態の期間中に受信されたオーディオデータの特徴を示す。プロセッサが蓄積−フォワード−モードで動作している場合、６０４で、オーディオ特徴データは、複数のオーディオフレームに対応し得る。あるいは、プロセッサが直接転送モードで動作している場合、６０６で、オーディオ特徴データは、単一のオーディオフレームに対応し得る。たとえば、図２では、プロセッサは、バッファ２２７から抽出されたオーディオ特徴２２６を取り出すことができる。

方法６００は、６０８で、取り出されたオーディオ特徴データを変換して変換されたオーディオ特徴データを生成することと、６１０で、変換されたオーディオ特徴データに１つまたは複数の音声認識オペレーションを実行することとをさらに含み得る。特定の一実施形態において、オーディオ特徴データは、離散コサイン変換（ＤＣＴ）変換器を介して変換され、その結果得られる変換されたオーディオ特徴データは、複数のメル周波数ケプストラム係数（ＭＦＣＣ）を含み得る。たとえば、図２では、変換器２３３は、取り出されたオーディオ特徴２２６を変換して、変換されたオーディオ特徴データ２３４を生成し、音声認識モジュール２４１〜２４５の１つまたは複数は、変換されたオーディオ特徴データ２３４に対して１つまたは複数の音声認識オペレーション（たとえば、聴取位置、連続的オーディオフィンガープリンティング、連続的キーワード検出、ターゲット音検出、および／またはノベルティ検出）を実行することができる。

方法６００は、６１４で、低電力状態に遷移して戻る前に、６１２で、１つまたは複数の音声認識オペレーションの結果に基づき、アプリケーションプロセッサおよび／または移動局モデムの一部、または他のコンポーネントをアクティブ化するかどうかを決定することを含み得る。たとえば、図２では、プロセッサ２３０は、音声認識モジュール２４１〜２４５のうちの１つまたは複数によって実行された分析に基づき、低電力状態に遷移して戻る前にアプリケーションプロセッサおよび／または移動局モデムの一部をアクティブ化するかどうかを決定することができる。

特定の実施形態において、図６の方法６００は、中央演算処理装置（ＣＰＵ）、デジタルシグナルプロセッサ（ＤＳＰ）、またはコントローラなどの処理ユニットのハードウェア（たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイス、特定用途向け集積回路（ＡＳＩＣ）など）、ファームウェアデバイス、またはこれらの組合せを介して実装され得る。一例として、図６の方法６００は、図１０に関して説明されているように、命令を実行するプロセッサによって実行され得る。

図７を参照すると、ＣＯＤＥＣでオーディオ特徴データを抽出する方法の特定の一実施形態が、図示され、全体として７００で示されている。例示的な一実施形態では、方法７００は、図１のＣＯＤＥＣ１２０または図２のＣＯＤＥＣ２２０によって実行され得る。

方法７００は、７０２で、ＣＯＤＥＣにおいてオーディオデータのフレームを１つ受信することを含み得る。たとえば、図２では、ＣＯＤＥＣ２２０は、オーディオデータ２１２のフレームを１つ受信することができる。方法７００は、７０４で、フレームからオーディオ特徴データを抽出することも含み得る。たとえば、オーディオ特徴データを抽出することは、７０６で、複数のメル帯域フィルタを介してフレームのフィルタされたオーディオデータのエネルギーを計算することと、７０８で、対数関数を計算されたエネルギーに適用することとを含み得る。たとえば、図２では、特徴抽出器２２２は、フィルタ２２３を使用してオーディオデータ２１２をフィルタして、フィルタされたオーディオデータのエネルギー２２４を発生し、対数コンバータ２２５を使用して対数関数を適用し、抽出されたオーディオ特徴２２６を生成することができる。

方法７００は、７１０で、デューティサイクルされるプロセッサのアクティブ状態の期間中にデューティサイクルされるプロセッサによってアクセス可能なように抽出されたオーディオ特徴データをバッファに格納することと、７１２で、オーディオデータのフレームを破棄することとをさらに含み得る。たとえば、図２では、抽出されたオーディオ特徴２２６は、バッファ２２７内に格納され、オーディオデータ２１２のフレームは、ＣＯＤＥＣ２２０によって破棄され得る。方法７００は、デューティサイクルされるプロセッサが低電力状態にある間にＣＯＤＥＣによって受信されたオーディオの後続のフレームについて繰り返すことができる。

特定の実施形態において、図７の方法７００は、ＣＯＤＥＣのハードウェア（たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイス、特定用途向け集積回路（ＡＳＩＣ）、またはコントローラなど）、ファームウェアデバイス、またはこれらの組合せを介して実装され得る。一例として、図７の方法７００は、図１０に関して説明されているように、命令を実行するＣＯＤＥＣ（またはその中のプロセッサ）によって実行され得る。

図８を参照すると、プロセッサの蓄積−フォワード−モードでの動作と直接転送モードでの動作とを動的に切り替える方法の特定の一実施形態が図示され、全体として８００で示されている。例示的な一実施形態では、方法８００は、図１のプロセッサ１５０または図２のプロセッサ２３０によって実行され得る。

方法８００は、８０２で、第１のモードでの動作と第２のモードでの動作とをプロセッサのアプリケーションコンテキストに基づきプロセッサで動的に切り替えることを含み得る。第１のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比は、第２のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比よりも大きいものとしてよい。たとえば、図２では、動的モード切替ロジック２３２は、プロセッサ２３０のアプリケーションコンテキストに基づきプロセッサ２３０のオペレーションを様々なモード間で動的に切り替えることができる。図２のＣＯＤＥＣ２２０には、類似の動的モード切替ロジックも存在し得る。あるいは、図２のＣＯＤＥＣ２２０とプロセッサ２３０の両方を制御する動的モード切替ロジックは、外部コンポーネント内にあってもよい（たとえば、コントローラに一体化される）。方法８００は、８０４で、プロセッサのデューティサイクルにおいてプロセッサの低電力状態から遷移して出ることも含み得る。たとえば、図２では、プロセッサ２３０は、デューティサイクルにおいて低電力状態から遷移して出ることができる。

方法８００は、８０６で、取り出されたオーディオ特徴データを分析することと、８０８で、低電力状態に遷移して戻ることとを含み得る。たとえば、図２では、音声認識モジュール４４１〜４４５のうちの１つまたは複数は、プロセッサ２３０が低電力状態に遷移して戻る前に取り出されたオーディオ特徴データを分析することができる。特定の一実施形態において、プロセッサ２３０は、分析結果に基づきアプリケーションプロセッサおよび／または移動局モデム（ＭＳＭ）の一部などの他のシステムコンポーネントをアクティブ化するかどうかを決定することもできる。たとえば、プロセッサ２３０は、図１のアクティブ化信号１６０を参照しつつ説明されているように、分析結果に基づきアクティブ化信号を生成することができる。

特定の実施形態において、図８の方法８００は、中央演算処理装置（ＣＰＵ）、デジタルシグナルプロセッサ（ＤＳＰ）、またはコントローラなどの処理ユニットのハードウェア（たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイス、特定用途向け集積回路（ＡＳＩＣ）など）、ファームウェアデバイス、またはこれらの組合せを介して実装され得る。一例として、図８の方法８００は、図１０に関して説明されているように、命令を実行するプロセッサによって実行され得る。

図９を参照すると、電子デバイスの低電力コンポーネントによる電子デバイスの高電力コンポーネントの交互階層的アクティブ化を実行する方法の特定の一実施形態が、図示されており、全体として９００で示されている。例示的な一実施形態では、方法９００は、図２のシステム２００において実行され得る。

方法９００は、９０２で、電子デバイスの第１のコンポーネントにおいて音声データを受け取ることを含み得る。第１のコンポーネントは、ＣＯＤＥＣのデジタル／アナログ回路のところにあってよい。たとえば、図２では、粗検出／分類ブロック２９０が、音声データを受け取ることができる。方法９００は、９０４で、第１のコンポーネントにおいて、少なくとも１つの信号検出オペレーションを音声データに実行することも含み得る。たとえば、図２では、粗検出／分類ブロック２９０は、信号検出オペレーション（たとえば、ＲＭＳオペレーションまたは帯域電力オペレーション）を実行して、音声データが可聴音、ビーコン、または超音波のデータを含むかどうかを決定することができる。

方法９００は、９０６で、少なくとも１つの信号検出オペレーションの結果に基づき電子デバイスの第２のコンポーネントを選択的にアクティブ化することをさらに含み得る。アクティブであるときの第２のコンポーネントは、アクティブであるときの第１のコンポーネントに比べて電子デバイスにおいてより多くの電力を消費し得る。特定の一実施形態において、第２のコンポーネントは、ＣＯＤＥＣのフロントエンドユニットのところにあってよい。たとえば、図２では、粗検出／分類ブロック２９０は、第１のアクティブ化信号２９４を介して精細検出／分類ブロック２９６を選択的にアクティブ化することができる。

方法９００は、９０８で、第２のコンポーネントにおいて、少なくとも１つの第２の信号検出オペレーションを実行することを含み得る。方法９００は、少なくとも１つの第２の信号検出オペレーションの結果に基づき電子デバイスの第３のコンポーネントを選択的にアクティブ化することを含み得る。アクティブであるときの第３のコンポーネントは、アクティブであるときの第２のコンポーネントに比べて電子デバイスにおいてより多くの電力を消費し得る。特定の一実施形態において、第３のコンポーネントは、ＤＳＰに組み込むことができる。たとえば、図２では、精細検出／分類ブロック２９６は、第２のアクティブ化信号２９８を介してプロセッサ２３０の最終検出／分類ブロックを選択的にアクティブ化することができる。

特定の実施形態において、図９の方法９００は、中央演算処理装置（ＣＰＵ）、デジタルシグナルプロセッサ（ＤＳＰ）、またはコントローラなどの処理ユニットのハードウェア（たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイス、特定用途向け集積回路（ＡＳＩＣ）など）、ファームウェアデバイス、またはこれらの組合せを介して実装され得る。一例として、図９の方法９００は、図１０に関して説明されているように、命令を実行するプロセッサによって実行され得る。

図１０を参照すると、ワイヤレス通信デバイスの特定の例示的な実施形態のブロック図が示され、全体として１０００で示されている。デバイス１０００は、アプリケーションプロセッサ１０１０とデジタルシグナルプロセッサ（ＤＳＰ）１０８０とを備え、これらは両方ともメモリ１０３２に結合される。例示的な一実施形態では、ＤＳＰ１０８０は、図１のプロセッサ１５０または図２のプロセッサ２３０であってよい。メモリ１０３２は、図６の方法６００および図８の方法８００などの、本明細書で開示されている方法およびプロセスを実行するためにＤＳＰ１０１０によって実行可能な命令１０６０を収めることができる。これらの命令は、図７の方法７００などの、本明細書で開示されている方法およびプロセスを実行するためにコーダ／デコーダ（ＣＯＤＥＣ）１０３４によっても実行可能であるものとしてよい。これらの命令は、図９の方法９００を実行するためにＣＯＤＥＣ１０３４およびＤＳＰ１０８０によっても実行可能であるものとしてよい。

図１０は、アプリケーションプロセッサ１０１０とディスプレイ１０２８とに結合されているディスプレイコントローラ１０２６も示している。ＣＯＤＥＣ１０３４は、図示されているようにＤＳＰ１０８０に結合され得る。スピーカ１０３６およびマイクロフォン１０３８は、ＣＯＤＥＣ１０３４に結合され得る。たとえば、マイクロフォン１０３８は、図２のマイクロフォン２１０であってよい。図１０は、ワイヤレスコントローラ１０４０がプロセッサ１０１０、１０８０に、またワイヤレスアンテナ１０４２に結合され得ることも示している。

ＣＯＤＥＣ１０３４は、アナログ／デジタルコンバータ（ＡＤＣ）１０７１と、複数のフィルタ１０７２と、対数コンバータ１０７３とを備えることができる。たとえば、ＡＤＣ１０７１は、図２のＡＤＣ２２１であってよく、フィルタ１０７２は、図２のフィルタ２２３であってよく、対数コンバータ１０７３は、図２の対数コンバータ２２５であってよい。特定の一実施形態において、ＣＯＤＥＣ１０３４はバッファ１０７４を備えることもできる（たとえば、図２のバッファ２２７を参照しつつ説明されているように）。あるいは、バッファ１０７４は、ＣＯＤＥＣ１０３４とＤＳＰ１０８０の外部にあってもよい（たとえば、図１のバッファ１４０を参照しつつ説明されているように）。ＤＳＰ１０８０は、変換器１０８２（たとえば、図２の変換器２３３）と、１つまたは複数の音声認識オペレーションを実行するように構成されている１つまたは複数の音声認識モジュール１０８３（たとえば、図２の音声認識モジュール２４１〜２４５）とを備えることができる。特定の一実施形態において、変換器１０８２および音声認識モジュール（複数可）１０８３は、ＤＳＰ１０８０の低電力オーディオサブシステム（ＬＰＡＳＳ）１０８１内に備えられ得る。

特定の一実施形態において、プロセッサ１０１０、１０８０、ディスプレイコントローラ１０２６、メモリ１０３２、ＣＯＤＥＣ１０３４、およびワイヤレスコントローラ１０４０は、システムインパッケージまたはシステムオンチップデバイス（たとえば、移動局モデム（ＭＳＭ））１０２２に備えられる。特定の一実施形態において、タッチスクリーンおよび／またはキーパッドなどの入力デバイス１０３０、および電源１０４４は、システムオンチップデバイス１０２２に結合される。さらに、特定の実施形態において、図１０に示されているように、ディスプレイ１０２８、入力デバイス１０３０、スピーカ１０３６、マイクロフォン１０３８、ワイヤレスアンテナ１０４２、および電源１０４４は、システムオンチップデバイス１０２２の外部にある。しかし、ディスプレイ１０２８、入力デバイス１０３０、スピーカ１０３６、マイクロフォン１０３８、ワイヤレスアンテナ１０４２、および電源１０４４の各々は、インターフェースまたはコントローラなどの、システムオンチップデバイス１０２２のコンポーネントに結合され得る。

説明されている実施形態と併せて、オーディオデータの１つまたは複数のフレームを受信するための手段を備える装置が開示されている。たとえば、受信するための手段は、図１のＣＯＤＥＣ１２０、図２のマイクロフォン２１０、図３のマイクロフォン３１０、図１０のマイクロフォン１０３８、オーディオデータのフレームを受信するように構成された１つまたは複数のデバイス、またはこれらの任意の組合せを備えることができる。装置は、プロセッサが低電力状態にあるか、またはアクティブ状態にあるかに依存せずに、オーディオデータの１つまたは複数のフレームをフィルタして、フィルタされたオーディオデータを生成するための手段も備えることができる。たとえば、フィルタするための手段は、図１のＣＯＤＥＣ１２０、図２のフィルタ２２３、図３のフィルタ３２３、図１０のフィルタ１０７２、オーディオデータのフレームをフィルタするように構成された１つまたは複数のデバイス、またはこれらの任意の組合せを備えることができる。

この装置は、フィルタされたオーディオデータのエネルギーに基づきオーディオ特徴データを生成するための手段をさらに備えることができる。たとえば、生成するための手段は、図２のＣＯＤＥＣ１２０、図２の対数コンバータ２２５、図３の対数コンバータ３２５、図１０の対数コンバータ１０７３、オーディオ特徴データを生成するように構成された１つまたは複数のデバイス、またはこれらの任意の組合せを備えることができる。装置は、オーディオ特徴データを変換して変換データを生成するための手段を備えることができる。たとえば、変換するための手段は、図１のプロセッサ１５０、図２の変換器２３３、図３のＤＣＴ３３３、図１０の変換器１０８２、オーディオ特徴データを変換するように構成された１つまたは複数のデバイス、またはこれらの任意の組合せを備えることができる。

装置は、プロセッサが低電力状態からアクティブ状態に遷移した後に、変換データに１つまたは複数のオペレーションを実行するための手段も備え得る。たとえば、実行するための手段は、図１のプロセッサ１５０、図２の音声認識モジュール２４１〜２４５のうちの１つまたは複数、図３の音声認識モジュール３４０のうちの１つまたは複数、図１０の音声認識モジュール（複数可）１０８３のうちの１つまたは複数、変換データに対してオペレーションを実行するように構成された１つまたは複数のデバイス、またはこれらの任意の組合せを備えることができる。装置は、フィルタするための手段、生成するための手段、および変換するための手段のうちの少なくとも１つの出力をバッファリングするための手段をさらに備えることができる。たとえば、バッファリングするための手段は、図１のバッファ１４０、図２のバッファ２２７、図３のバッファリングポイント３０２〜３０８のうちの１つまたは複数のところのバッファ、図１０のバッファ１０７４、データをバッファリングするように構成された１つまたは複数のデバイス、またはこれらの任意の組合せを備えることができる。

当業者であれば、本明細書で開示されている実施形態に関して説明されている様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、ハードウェアプロセッサなどの処理デバイスによって実行されるコンピュータソフトウェア、またはその両方の組合せとして実装され得ることをさらに理解するであろう。様々な例示的なコンポーネント、ブロック、構成、モジュール、回路、およびステップが、一般的にその機能に関して説明されている。そのような機能がハードウェアまたは実行可能ソフトウェアとして実施されるかどうかは、特定の応用例とシステム全体に課される設計制約とよって決まる。当業者であれば、各々の特定の用途について様々な方法により説明されている機能を実装することができるが、そのような実装決定は、本開示の範囲からの逸脱を引き起こすものとして解釈すべきではない。

本明細書で開示されている実施形態に関して説明されている方法またはアルゴリズムのステップは、ハードウェアで直接、プロセッサにより実行されるソフトウェアモジュールにより、またはこれら２つの組合せにより具現化することができる。ソフトウェアモジュールは、ランダムアクセスメモリ（ＲＡＭ）、磁気抵抗ランダムアクセスメモリ（ＭＲＡＭ）、スピントルク移動ＭＲＡＭ（ＳＴＴ−ＭＲＡＭ）、フラッシュメモリ、リードオンリーメモリ（ＲＯＭ）、プログラム可能リードオンリーメモリ（ＰＲＯＭ）、消去可能プログラム可能リードオンリーメモリ（ＥＰＲＯＭ）、電気的消去可能プログラム可能リードオンリーメモリ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、取り外し可能ディスク、コンパクトディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、または当技術分野で知られている他の形態の記憶媒体などの非一時的記憶媒体に存在することができる。例示的な記憶媒体は、プロセッサがその記憶媒体から情報を読み込み、その記憶媒体に情報を書き込めるようにプロセッサに結合される。代替的形態では、記憶媒体は、プロセッサに一体化することができる。プロセッサおよび記憶媒体は、特定用途向け集積回路（ＡＳＩＣ）に収めることもできる。ＡＳＩＣは、コンピューティングデバイスまたはユーザ端末に収めることができる。代替的形態において、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末内のディスクリートコンポーネントとして収めることができる。

開示されている実施形態を前記のように提示したのは、当業者が開示されている実施形態を製作または使用することができるようにするためである。これらの実施形態に対し様々な修正を加えられることは、当業者にとっては明白であろうし、また本明細書で定義されている原理は、本開示の範囲から逸脱することなく他の実施形態にも適用することができる。したがって、本開示は、本明細書に示されている実施形態に限定されることを意図されておらず、以下の請求項によって定められるような原理および新規性のある特徴と一致する可能な最も広い範囲を適用されることを意図されている。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
プロセッサにおいて低電力状態から遷移して出ることと、
前記低電力状態から遷移して出た後に、バッファから、前記プロセッサの前記低電力状態の期間中に受信されたオーディオデータの特徴を示すオーディオ特徴データを取り出すことと
を備える方法。
［Ｃ２］
前記プロセッサは、デジタルシグナルプロセッサを備え、前記取り出されたオーディオ特徴データに基づきアプリケーションプロセッサをアクティブ化するかどうかを決定することをさらに備えるＣ１に記載の方法。
［Ｃ３］
前記オーディオ特徴データは、前記プロセッサの前記低電力状態の少なくとも一部分の期間においてアクティブであるコーダ／デコーダ（ＣＯＤＥＣ）によって抽出されるＣ１に記載の方法。
［Ｃ４］
前記プロセッサは、複数のモードで動作するように構成される、ここにおいて、前記複数のモードのうちの第１のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比は、前記複数のモードのうちの第２のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比よりも大きく、前記プロセッサのアプリケーションコンテキストに基づき前記プロセッサをどのようなモードで動作させるかを決定することをさらに備えるＣ１に記載の方法。
［Ｃ５］
前記第１のモードの期間において、前記ＣＯＤＥＣは常時オンであり、前記プロセッサは第１の比率でデューティサイクルされ、前記第２のモードの期間において、前記ＣＯＤＥＣは第２の比率でデューティサイクルされ、前記プロセッサは前記第１の比率でデューティサイクルされ、前記第２の比率は前記第１の比率以上であるＣ４に記載の方法。
［Ｃ６］
前記第１のモードの期間において、前記ＣＯＤＥＣは第１の比率でデューティサイクルされ、前記プロセッサは第２の比率でデューティサイクルされ、前記第２のモードの期間において、前記ＣＯＤＥＣは第３の比率でデューティサイクルされ、前記プロセッサは前記第２の比率でデューティサイクルされ、ここにおいて前記第１の比率は、前記第２の比率よりも大きく、前記第３の比率は前記第２の比率以下であるＣ４に記載の方法。
［Ｃ７］
特定のモードにおいて、前記オーディオ特徴データは、複数のオーディオフレームに対応し、前記プロセッサは、前記低電力状態に遷移して戻る前に前記オーディオ特徴データを取り出して処理するＣ４に記載の方法。
［Ｃ８］
特定のモードにおいて、前記オーディオ特徴データは、単一のオーディオフレームに対応し、ここにおいて、前記プロセッサは、前記低電力状態に遷移して戻る前に前記オーディオ特徴データを取り出して処理するＣ４に記載の方法。
［Ｃ９］
前記プロセッサは、プログラム可能な時間期間の終了に応答して前記低電力状態から遷移して出る、
蓄積−フォワード−モードでは、前記プログラム可能な時間期間は、前記バッファのサイズに基づき決定される最大の時間期間以下である、
直接転送モードでは、前記プログラム可能な時間期間は、前記バッファの前記サイズと非依存である、Ｃ４に記載の方法。
［Ｃ１０］
前記プロセッサは、前記低電力状態にあり、前記ＣＯＤＥＣは、
前記オーディオデータを受信し、
複数のフィルタを介して前記オーディオデータをフィルタし、
前記複数のフィルタのうちの各々からフィルタされたオーディオデータのエネルギーを計算し、
対数関数を前記計算されたエネルギーに適用して、前記オーディオ特徴データを生成し、
前記オーディオ特徴データを前記バッファ内に格納し、
前記オーディオデータを破棄する、
Ｃ３に記載の方法。
［Ｃ１１］
前記バッファは、前記ＣＯＤＥＣの内部にある、Ｃ３に記載の方法。
［Ｃ１２］
前記バッファは、前記ＣＯＤＥＣの外部にあり、また前記プロセッサの外部にある、Ｃ３に記載の方法。
［Ｃ１３］
前記プロセッサは、デューティサイクルに基づき前記低電力状態に遷移して入り、そして出る、Ｃ１に記載の方法。
［Ｃ１４］
前記オーディオ特徴データを変換することと、
前記変換されたオーディオ特徴データに１つまたは複数の音声認識オペレーションを実行すること、
前記１つまたは複数の音声認識オペレーションを実行した後に前記低電力状態に遷移して戻ることと
をさらに備えるＣ１に記載の方法。
［Ｃ１５］
前記オーディオ特徴データを変換することは、複数のメル周波数ケプストラム係数を生成するＣ１４に記載の方法。
［Ｃ１６］
前記１つまたは複数の音声認識オペレーションは、聴取位置オペレーション、キーワード検出オペレーション、オーディオフィンガープリンティングオペレーション、ターゲット音検出オペレーション、ノベルティ検出オペレーション、またはこれらのいずれかの組合せを含むＣ１４に記載の方法。
［Ｃ１７］
前記プロセッサは、ワイヤレスデバイス内に一体化され、前記１つまたは複数の音声認識オペレーションの結果に基づき前記ワイヤレスデバイスの移動局モデムの少なくとも一部をアクティブ化するかどうかを決定することをさらに備えるＣ１４に記載の方法。
［Ｃ１８］
前記１つ又は複数の音声認識オペレーションの結果を複数のアプリケーションの各々に供給することをさらに備えるＣ１４に記載の方法。
［Ｃ１９］
コーダ／デコーダ（ＣＯＤＥＣ）においてオーディオデータの一つのフレームを受信することと、
オーディオデータの前記フレームからオーディオ特徴データを抽出することと、及び
前記デューティサイクルされるプロセッサのアクティブ状態の期間中にデューティサイクルされるプロセッサによってアクセス可能なように、バッファに前記抽出されたオーディオ特徴データを格納することと
を備える方法。
［Ｃ２０］
前記ＣＯＤＥＣのアナログ／デジタルコンバータをオーディオデータの前記受信されたフレームに適用することをさらに備えるＣ１９に記載の方法。
［Ｃ２１］
前記オーディオ特徴データを抽出することは、
複数のフィルタを介してオーディオデータの前記フレームをフィルタすることと、
前記複数のフィルタのうちの各々からフィルタされたオーディオデータのエネルギーを計算することと、
対数関数を前記計算されたエネルギーに適用して前記オーディオ特徴データを生成することと
を備えるＣ１９に記載の方法。
［Ｃ２２］
前記複数のフィルタの各々は、人間の知覚の周波数スケールの異なる部分に対応するメル帯域フィルタを備えるＣ２１に記載の方法。
［Ｃ２３］
前記オーディオ特徴データを抽出した後にオーディオデータの前記フレームを破棄することをさらに備える、Ｃ１９に記載の方法。
［Ｃ２４］
プロセッサと、
前記プロセッサが低電力状態にあるか、またはアクティブ状態にあるかに依存せず、フィルタされたオーディオデータのエネルギーを発生するために、オーディオデータの１つまたは複数のフレームをフィルタする、ように構成された複数のフィルタと、
前記フィルタされたオーディオデータの前記エネルギーに基づきオーディオ特徴データを生成するように構成されたコンバータと、
変換関数を前記オーディオ特徴データに適用して変換データを生成するように構成された変換器と、
ここにおいて、前記プロセッサは、前記低電力状態から前記アクティブ状態に遷移した後に、前記変換データに１つまたは複数のオペレーションを実行するように構成される、
を備えた装置。
［Ｃ２５］
コーダ／デコーダ（ＣＯＤＥＣ）をさらに備え、前記コンバータは、対数コンバータを備え、ここにおいて、前記複数のフィルタおよび前記対数コンバータは、前記ＣＯＤＥＣに一体化されるＣ２４に記載の装置。
［Ｃ２６］
前記変換器は、前記プロセッサに一体化された離散コサイン変換器を備えるＣ２４に記載の装置。
［Ｃ２７］
前記オーディオ特徴データを格納するように構成されたバッファをさらに備えるＣ２４に記載の装置。
［Ｃ２８］
前記バッファは、ランダムアクセスメモリ（ＲＡＭ）を備えるＣ２４に記載の装置。
［Ｃ２９］
下記を行うように構成されたプロセッサを備える装置、
前記プロセッサのアプリケーションコンテキストに基づき第１のモードでの動作と第２のモードでの動作とを動的に切り替えること、
低電力状態から遷移して出た後に、バッファから、オーディオ特徴データを取り出すこと、前記オーディオ特徴データは、前記プロセッサが前記低電力状態にある間にコーダ／デコーダ（ＣＯＤＥＣ）によって受信されたオーディオデータの特徴を示す、
前記オーディオ特徴データを分析すること、
ここにおいて、前記第１のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比は、前記第２のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比よりも大きい。
［Ｃ３０］
前記第１のモードの期間において、前記ＣＯＤＥＣは、常時オンであり、前記プロセッサは第１の比率でデューティサイクルされ、前記第２のモードの期間において、前記ＣＯＤＥＣは第２の比率でデューティサイクルされ、前記プロセッサは前記第１の比率でデューティサイクルされ、前記第２の比率は前記第１の比率以上であるＣ２９に記載の装置。
［Ｃ３１］
前記第１のモードの期間において、前記ＣＯＤＥＣは第１の比率でデューティサイクルされ、前記プロセッサは第２の比率でデューティサイクルされ、ここにおいて、前記第２のモードの期間において、前記ＣＯＤＥＣは第３の比率でデューティサイクルされ、前記プロセッサは前記第２の比率でデューティサイクルされ、ここにおいて、前記第１の比率は、前記第２の比率よりも大きく、ここにおいて、前記第３の比率は前記第２の比率以上である、
Ｃ２９に記載の装置。
［Ｃ３２］
前記アプリケーションコンテキストは、聴取位置検出、連続的キーワード検出、連続的オーディオフィンガープリンティング、ターゲット音検出、ノベルティ検出、またはこれらの任意の組合せを含むＣ２９に記載の装置。
［Ｃ３３］
前記コーダ／デコーダ（ＣＯＤＥＣ）をさらに備え、ここにおいて、前記ＣＯＤＥＣは、前記オーディオデータから前記オーディオ特徴データを抽出し、前記バッファに前記抽出されたオーディオ特徴データを格納するように構成される、Ｃ２９に記載の装置。
［Ｃ３４］
前記プロセッサは、プログラム可能な時間期間の終了に応答して前記低電力状態から遷移して出る、Ｃ２９に記載の装置。
［Ｃ３５］
オーディオデータの１つまたは複数のフレームを受信するための手段と、
プロセッサが低電力状態にあるか、またはアクティブ状態にあるかに依存せずフィルタされたオーディオデータを発生するためにオーディオデータの前記１つまたは複数のフレームをフィルタするための手段と、
前記フィルタされたオーディオデータの前記エネルギーに基づきオーディオ特徴データを生成するための手段と、
前記オーディオ特徴データを変換して変換データを生成するための手段と、
前記プロセッサが前記低電力状態から前記アクティブ状態に遷移した後に、前記変換データに１つまたは複数のオペレーションを実行するための手段と、
を備える装置。
［Ｃ３６］
フィルタするための前記手段、生成するための前記手段、および変換するための前記手段の少なくとも１つの出力をバッファリングするための手段をさらに備えるＣ３５に記載の装置。
［Ｃ３７］
プロセッサによる実行時に、前記プロセッサに以下を行わせる命令を備える非一時的プロセッサ可読媒体、
第１のモードでの動作と第２のモードでの動作とを動的に切り替える、ここにおいて、前記第１のモードにおけるコーダ／デコーダ（ＣＯＤＥＣ）活動／プロセッサ活動の比は、前記第２のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比よりも大きいことと、
デューティサイクルの期間において低電力状態から遷移して出ることと、
前記低電力状態において抽出されたオーディオ特徴データを分析することと、及び
前記低電力状態に遷移して戻ること。
［Ｃ３８］
前記オーディオ特徴データは、ＣＯＤＥＣによって抽出される、Ｃ３７に記載の非一時的プロセッサ可読媒体。
［Ｃ３９］
電子デバイスの第１のコンポーネントにおいて音声データを受け取ることと、
前記第１のコンポーネントにおいて、前記音声データに対して少なくとも１つの信号検出オペレーションを実行することと、
前記少なくとも１つの信号検出オペレーションの結果に基づき前記電子デバイスの第２のコンポーネントを選択的にアクティブにすること、
ここにおいて、アクティブであるときの前記第２のコンポーネントは、アクティブであるときの前記第１のコンポーネントに比べて前記電子デバイスにおいてより多くの電力を消費する、
を備える方法。
［Ｃ４０］
前記第１のコンポーネントは、コーダ／デコーダ（ＣＯＤＥＣ）の第１の部分を備えるＣ３９に記載の方法。
［Ｃ４１］
前記第２の部分は、前記ＣＯＤＥＣの第２の部分を備えるＣ４０に記載の方法。
［Ｃ４２］
前記第２のコンポーネントは、前記電子デバイスのプロセッサを備えるＣ４０に記載の方法。
［Ｃ４３］
前記第２のコンポーネントにおいて、少なくとも１つの第２の信号検出オペレーションを実行することと、
前記少なくとも１つの第２の信号検出オペレーションの結果に基づき前記電子デバイスの第３のコンポーネントを選択的にアクティブ化すること、
ここにおいて、アクティブであるときの前記第３のコンポーネントは、アクティブであるときの前記第２のコンポーネントに比べて前記電子デバイスにおいてより多くの電力を消費する、
をさらに備えるＣ４０に記載の方法。
［Ｃ４４］
前記少なくとも１つの信号検出オペレーションは、二乗平均平方根（ＲＭＳ）分類オペレーション、帯域電力分類オペレーション、時間領域オペレーション、周波数領域オペレーション、パターンマッチングオペレーション、モデルベースオペレーション、ノベルティ検出オペレーション、またはこれらの任意の組合せを備えるＣ３９に記載の方法。

Claims

プロセッサが低電力モードにある間にアクティブコーダ／デコーダ（ＣＯＤＥＣ）においてオーディオデータを受信することと、前記プロセッサは、ＣＯＤＥＣ活動／プロセッサ活動の比が、前記低電力モードにおけるＣＯＤＥＣ活動／プロセッサ活動の比よりも小さい第２のモードに、前記プロセッサのアプリケーションコンテキストに基づき遷移するように構成される、
前記プロセッサが前記低電力モードから遷移して出た後に、バッファから、オーディオ特徴データを取り出すことと、前記オーディオ特徴データは、前記オーディオデータの特徴を示す、
を備える、方法。
前記プロセッサは、デジタルシグナルプロセッサを備え、前記取り出されたオーディオ特徴データに基づきアプリケーションプロセッサをアクティブ化するかどうかを決定することをさらに備える、請求項１に記載の方法。
前記プロセッサが前記低電力モードにある間に前記バッファ内に前記オーディオ特徴データを格納すること
をさらに備える、請求項１に記載の方法。
前記アプリケーションコンテキストは、アプリケーションの実行に関連し、ここにおいて、前記アプリケーションの実行は、聴取位置検出、連続的キーワード検出、連続的オーディオフィンガープリンティング、ターゲット音検出、ノベルティ検出、またはこれらの任意の組合せを含む、請求項１に記載の方法。
前記低電力モードの期間において、前記ＣＯＤＥＣはオンであり、前記プロセッサは第１の比率でデューティサイクルされ、ここにおいて、前記第２のモードの期間において、前記ＣＯＤＥＣは第２の比率でデューティサイクルされ、前記プロセッサは前記第１の比率でデューティサイクルされ、ここにおいて、前記第２の比率は前記第１の比率以上である、請求項１に記載の方法。
前記低電力モードの期間において、前記ＣＯＤＥＣは第１の比率でデューティサイクルされ、前記プロセッサは第２の比率でデューティサイクルされ、ここにおいて、前記第２のモードの期間において、前記ＣＯＤＥＣは第３の比率でデューティサイクルされ、前記プロセッサは前記第２の比率でデューティサイクルされ、ここにおいて、前記第１の比率は前記第２の比率よりも大きく、前記第３の比率は前記第２の比率以下である、請求項１に記載の方法。
前記オーディオ特徴データは、複数のオーディオフレームに対応し、ここにおいて、前記オーディオ特徴データは、前記プロセッサが前記低電力モードである間に前記オーディオデータから抽出され、ここにおいて、前記プロセッサは、前記第２のモードから前記低電力モードに遷移する前に前記オーディオ特徴データを取り出して処理する、請求項１に記載の方法。
前記オーディオ特徴データは、単一のオーディオフレームに対応し、ここにおいて、前記プロセッサは、前記第２のモードから前記低電力モードに遷移する前に前記オーディオ特徴データを取り出して処理する、請求項１に記載の方法。
前記プロセッサは、プログラム可能な時間期間の終了に応答して前記低電力モードから遷移して出る、
蓄積−フォワード−モードでは、前記プログラム可能な時間期間は、前記バッファのサイズに基づき決定される最大の時間期間以下である、
直接転送モードでは、前記プログラム可能な時間期間は、前記バッファの前記サイズと非依存である、請求項１に記載の方法。
プロセッサにおいて低電力状態から遷移して出ることと、
前記低電力状態から遷移して出た後に、バッファからオーディオ特徴データを取り出すことと、前記オーディオ特徴データは、前記低電力状態の少なくとも一部分の期間においてアクティブであるコーダ／デコーダ（ＣＯＤＥＣ）によって抽出され、前記低電力状態の期間において受信されたオーディオデータの特徴を示す、
ここにおいて、前記プロセッサが前記低電力状態にある間に前記ＣＯＤＥＣは、
前記オーディオデータを受信し、
複数のフィルタを介して前記オーディオデータをフィルタし、
前記複数のフィルタのうちの各々から、フィルタされたオーディオデータのエネルギーを計算し、
対数関数を前記計算されたエネルギーに適用して、前記オーディオ特徴データを生成し、
前記オーディオ特徴データを前記バッファ内に格納し、
前記オーディオデータを破棄する、
を備える、方法。
前記バッファは、前記ＣＯＤＥＣの内部にある、請求項１０に記載の方法。
前記バッファは、前記ＣＯＤＥＣの外部にあり、また前記プロセッサの外部にあり、ここにおいて、前記プロセッサは、固定のデューティサイクルに従って一定の比率で前記低電力状態に遷移して入り、そして出る、請求項１０に記載の方法。
前記オーディオ特徴データは、前記プロセッサの低電力状態の期間において前記バッファで受信されたオーディオデータの特徴を示し、ここにおいて、前記プロセッサは、デューティサイクルに基づき前記低電力状態に遷移して入り、そして出る、請求項１に記載の方法。
前記オーディオ特徴データを変換することと、
前記変換されたオーディオ特徴データに１つまたは複数の音声認識オペレーションを実行することと、
前記１つまたは複数の音声認識オペレーションを実行した後に、前記低電力状態に遷移することと
をさらに備える、請求項１３に記載の方法。
前記オーディオ特徴データを変換することは、複数のメル周波数ケプストラム係数を生成する、請求項１４に記載の方法。
前記１つまたは複数の音声認識オペレーションは、聴取位置オペレーション、キーワード検出オペレーション、オーディオフィンガープリンティングオペレーション、ターゲット音検出オペレーション、ノベルティ検出オペレーション、またはこれらの任意の組合せを含む、請求項１４に記載の方法。
前記プロセッサは、ワイヤレスデバイスに一体化され、ここにおいて、前記オーディオ特徴データは、前記プロセッサの低電力状態の期間において前記バッファで受信されたオーディオデータの特徴を示し、さらに、
前記オーディオ特徴データを変換することと、
前記変換されたオーディオ特徴データに１つまたは複数の音声認識オペレーションを実行することと、
前記１つまたは複数の音声認識オペレーションの結果に基づき前記ワイヤレスデバイスの移動局モデムの少なくとも一部をアクティブ化するかどうかを決定することと
を備える、請求項１に記載の方法。
前記１つまたは複数の音声認識オペレーションの結果を複数のアプリケーションの各々に提供することをさらに備える、請求項１７に記載の方法。
デューティサイクルされるプロセッサが第１のモードにある間にアクティブコーダ／デコーダ（ＣＯＤＥＣ）においてオーディオデータの１つのフレームを受信することと、前記デューティサイクルされるプロセッサは、ＣＯＤＥＣ活動／プロセッサ活動の比が、前記第１のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比よりも小さいアクティブモードに、前記プロセッサのアプリケーションコンテキストに基づき遷移するように構成される、
オーディオデータの前記フレームからオーディオ特徴データを抽出することと、
前記デューティサイクルされるプロセッサが前記第１のモードにある間に、前記アクティブモードの期間において前記デューティサイクルされるプロセッサによってアクセス可能なように、バッファ内に前記抽出されたオーディオ特徴データを格納することと
を備える、方法。
前記ＣＯＤＥＣのアナログ／デジタルコンバータをオーディオデータの前記受信されたフレームに適用することをさらに備える、請求項１９に記載の方法。
前記オーディオ特徴データを抽出することは、
複数のフィルタを介してオーディオデータの前記フレームをフィルタすることと、
前記複数のフィルタのうちの各々から、フィルタされたオーディオデータのエネルギーを計算することと、
対数関数を前記計算されたエネルギーに適用して、前記オーディオ特徴データを生成することと
を備える、請求項１９に記載の方法。
前記複数のフィルタの各々は、人間の知覚の周波数スケールの異なる部分に対応するメル帯域フィルタを備える、請求項２１に記載の方法。
前記オーディオ特徴データを抽出した後に、オーディオデータの前記フレームを破棄することをさらに備える、請求項１９に記載の方法。
プロセッサのアプリケーションコンテキストに基づき低電力モードでの動作とアクティブモードでの動作とを切り替えるように構成された前記プロセッサと、
前記プロセッサが前記低電力モードにあるとき、
フィルタされたオーディオデータのエネルギーを発生するために、オーディオデータの１つまたは複数のフレームをフィルタし、
前記フィルタされたオーディオデータの前記エネルギーに基づきオーディオ特徴データを生成する
ように構成されたコンポーネントと、
変換関数を前記オーディオ特徴データに適用して、変換データを生成するように構成された変換器と
ここにおいて、コンポーネント活動／プロセッサ活動の比は、前記アクティブモードに比べて前記低電力モードにおいてより大きく、ここにおいて、前記プロセッサは、前記アクティブモードに前記低電力モードから遷移して出た後に、前記変換データに１つまたは複数のオペレーションを実行するように構成される、
を備える、装置。
オーディオデータの前記１つまたは複数のフレームをフィルタするように構成された複数のフィルタと、
前記オーディオ特徴データを生成するように構成された対数コンバータと、
コーダ／デコーダ（ＣＯＤＥＣ）と、ここにおいて、前記複数のフィルタおよび前記対数コンバータは、前記ＣＯＤＥＣに一体化される、
をさらに備える、請求項２４に記載の装置。
前記変換器は、前記プロセッサに一体化された離散コサイン変換器を備える、請求項２４に記載の装置。
前記オーディオ特徴データを格納するように構成されたバッファをさらに備える、請求項２４に記載の装置。
前記バッファは、ランダムアクセスメモリ（ＲＡＭ）を備える、請求項２７に記載の装置。
低電力モードから遷移して出た後に、バッファから、オーディオ特徴データを取り出すことと、前記オーディオ特徴データは、プロセッサが前記低電力モードにある間にアクティブコーダ／デコーダ（ＣＯＤＥＣ）によって受信されたオーディオデータの特徴を示す、ここにおいて、第２のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比は、前記低電力モードにおけるＣＯＤＥＣ活動／プロセッサ活動の比よりも小さい、
前記オーディオ特徴データを分析することと、
ここにおいて、前記プロセッサは、前記プロセッサのアプリケーションコンテキストに基づき前記低電力モードと前記第２のモードとを切り替えるように構成される、
を行うように構成された前記プロセッサ
を備える、装置。
前記低電力モードの期間において、前記ＣＯＤＥＣはオンであり、前記プロセッサは第１の比率でデューティサイクルされ、ここにおいて、前記第２のモードの期間において、前記ＣＯＤＥＣは第２の比率でデューティサイクルされ、前記プロセッサは前記第１の比率でデューティサイクルされ、ここにおいて、前記第２の比率は前記第１の比率以上である、請求項２９に記載の装置。
前記低電力モードの期間において、前記ＣＯＤＥＣは第１の比率でデューティサイクルされ、前記プロセッサは第２の比率でデューティサイクルされ、ここにおいて、前記第２のモードの期間において、前記ＣＯＤＥＣは第３の比率でデューティサイクルされ、前記プロセッサは前記第２の比率でデューティサイクルされ、ここにおいて、前記第１の比率は前記第２の比率よりも大きく、ここにおいて、前記第３の比率は前記第２の比率以上である、請求項２９に記載の装置。
前記アプリケーションコンテキストは、アプリケーションの実行に関連し、ここにおいて、前記アプリケーションの実行は、聴取位置検出、連続的キーワード検出、連続的オーディオフィンガープリンティング、ターゲット音検出、ノベルティ検出、またはこれらの任意の組合せを含む、請求項２９に記載の装置。
前記ＣＯＤＥＣをさらに備え、ここにおいて、前記ＣＯＤＥＣは、前記オーディオデータから前記オーディオ特徴データを抽出し、前記バッファ内に前記抽出されたオーディオ特徴データを格納するように構成される、請求項２９に記載の装置。
前記プロセッサは、プログラム可能な時間期間の終了に応答して前記低電力モードから遷移して出る、請求項２９に記載の装置。
オーディオデータの１つまたは複数のフレームを受信するための手段と、前記受信するための手段は、
プロセッサが、第１のモードにあるとき、フィルタされたオーディオデータのエネルギーを発生するために、オーディオデータの前記１つまたは複数のフレームをフィルタするための手段と、
前記プロセッサが、前記第１のモードにあるとき、前記フィルタされたオーディオデータの前記エネルギーに基づきオーディオ特徴データを生成するための手段と、
ここにおいて、前記プロセッサは、前記プロセッサのアプリケーションコンテキストに基づき前記第１のモードでの動作とアクティブモードでの動作とを切り替えるように構成され、受信するための前記手段の活動／前記プロセッサの活動の比は、前記アクティブモードに比べて前記第１のモードにおいてより大きい、
を含み、
前記オーディオ特徴データを変換して変換データを生成するための手段と、
前記プロセッサが前記第１のモードから前記アクティブモードに遷移して出た後に、前記変換データに１つまたは複数のオペレーションを実行するための手段と、
を備える、装置。
前記第１のモードは、前記プロセッサの低電力状態に対応し、
フィルタするための前記手段、生成するための前記手段、および変換するための前記手段のうちの少なくとも１つの出力をバッファリングするための手段
をさらに備える、請求項３５に記載の装置。
プロセッサによる実行時に、前記プロセッサに、
低電力モードでの動作と第２のモードでの動作とを切り替えることと、ここにおいて、前記低電力モードにおけるコーダ／デコーダ（ＣＯＤＥＣ）活動／プロセッサ活動の比は、前記第２のモードにおけるＣＯＤＥＣ活動／プロセッサ活動の比よりも大きい、
デューティサイクルの期間において前記低電力モードから遷移して出ることと、
第２の時間期間でオーディオ特徴データを分析することと、前記オーディオ特徴データは、前記ＣＯＤＥＣがアクティブであり、前記プロセッサが前記低電力モードにあるとき、第１の時間期間において抽出される、
前記第２のモードから前記低電力モードに遷移することと
を行わせる命令を記憶する、プロセッサ可読媒体。
前記オーディオ特徴データは、前記ＣＯＤＥＣによって抽出される、請求項３７に記載のプロセッサ可読媒体。
電子デバイスの第１のコンポーネントにおいて音声データを受信することと、
前記第１のコンポーネントがアクティブであり、前記電子デバイスの第２のコンポーネントが低電力モードにある間に、前記音声データに少なくとも１つの信号検出オペレーションを実行することと、
前記少なくとも１つの信号検出オペレーションの結果に基づき前記第２のコンポーネントをアクティブ化することと、
ここにおいて、前記第２のコンポーネントは、前記第２のコンポーネントのアプリケーションコンテキストに基づき前記低電力モードでの動作と第２のモードでの動作とを切り替えるように構成され、第２のコンポーネント活動／第１のコンポーネント活動の比は、前記第２のモードに比べて前記低電力モードにおいてより少ない、
を備える、方法。
前記第１のコンポーネントは、コーダ／デコーダ（ＣＯＤＥＣ）に含まれる、請求項３９に記載の方法。
アクティブであるときの前記第２のコンポーネントは、アクティブであるときの前記第１のコンポーネントに比べて前記電子デバイスにおいてより多くの電力を消費する、請求項３９に記載の方法。
前記第２のコンポーネントは、前記電子デバイスのプロセッサを備える、請求項３９に記載の方法。
前記第１のコンポーネントにおいて、少なくとも１つの第２の信号検出オペレーションを実行することと、
前記少なくとも１つの第２の信号検出オペレーションの結果に基づき前記電子デバイスの前記第２のコンポーネントをアクティブ化することと
をさらに備える、請求項３９に記載の方法。
前記少なくとも１つの信号検出オペレーションは、二乗平均平方根（ＲＭＳ）分類オペレーション、帯域電力分類オペレーション、時間領域オペレーション、周波数領域オペレーション、パターンマッチングオペレーション、モデルベースオペレーション、ノベルティ検出オペレーション、またはこれらの任意の組合せを含む、請求項３９に記載の方法。