JP6076994B2 - オーディオ特徴データの抽出と分析 - Google Patents

オーディオ特徴データの抽出と分析 Download PDF

Info

Publication number
JP6076994B2
JP6076994B2 JP2014538799A JP2014538799A JP6076994B2 JP 6076994 B2 JP6076994 B2 JP 6076994B2 JP 2014538799 A JP2014538799 A JP 2014538799A JP 2014538799 A JP2014538799 A JP 2014538799A JP 6076994 B2 JP6076994 B2 JP 6076994B2
Authority
JP
Japan
Prior art keywords
processor
audio
codec
mode
low power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014538799A
Other languages
English (en)
Other versions
JP2015501450A5 (ja
JP2015501450A (ja
Inventor
ホワン、キュ・ウォン
ユ、キスン
ジン、ミンホ
シャー、ピーター・ジバン
チャン、クウォクリュン
キム、テス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2015501450A publication Critical patent/JP2015501450A/ja
Publication of JP2015501450A5 publication Critical patent/JP2015501450A5/ja
Application granted granted Critical
Publication of JP6076994B2 publication Critical patent/JP6076994B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0261Power saving arrangements in terminal devices managing power supply demand, e.g. depending on battery level
    • H04W52/0274Power saving arrangements in terminal devices managing power supply demand, e.g. depending on battery level by switching on or off the equipment or parts thereof
    • H04W52/028Power saving arrangements in terminal devices managing power supply demand, e.g. depending on battery level by switching on or off the equipment or parts thereof switching on or off only a part of the equipment circuit blocks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Telephone Function (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Power Sources (AREA)

Description

関連出願の相互参照
本出願は、参照によりそれぞれの内容全体が本明細書に組み込まれている、2011年11月1日に出願した米国仮出願第61/554,318号および2012年5月30日に出願した米国非仮出願第13/483,732号の優先権を主張するものである。
本開示は、一般的に、オーディオ特徴データ(audio feature data)の抽出と分析とに関係する。
技術の進歩の結果、コンピューティングデバイスの小型化と高性能化が進んだ。たとえば、現在では、小型軽量でユーザが携帯しやすいポータブルワイヤレス電話機、携帯情報端末(PDA)、およびページングデバイスなどのワイヤレスコンピューティングデバイスを含む、様々な携帯型パーソナルコンピューティングデバイスが存在している。より具体的には、携帯電話およびインターネットプロトコル(IP)電話などの、ポータブルワイヤレス電話機は、ワイヤレスネットワーク上で音声とデータパケットとを伝達することができる。さらに、多くのそのようなワイヤレス電話機は、中に組み込まれている他のタイプのデバイスを備える。たとえば、ワイヤレス電話機は、デジタルスチルカメラと、デジタルビデオカメラと、デジタルレコーダと、オーディオファイルプレーヤとを備えることもできる。
ワイヤレス電話機に組み込まれているデバイスの数が増えるにつれ、ワイヤレス電話機のバッテリリソースはますます不足する可能性がある。バッテリリソースを節約するため、ワイヤレス電話機は一定の不応期間の後に「アイドル」または「スリープ」モードに遷移することができる。ワイヤレス電話機は、ネットワークイベント(たとえば、電話の呼び出しを受けること)またはユーザ入力(たとえば、ユーザがワイヤレス電話機のボタンを押すこと)に応答して「アクティブ」または「ウェイク」モードに遷移して戻ることができる。いくつかのデバイスは、音声コマンドなどのオーディオ入力に応答して「目覚める」機能も備え得る。しかし、このような機能を実装するために、デバイスのプロセッサ(複数可)と他のコンポーネントとは、「常時オン」モードで実行され、絶えず電力を消費し、そのため、デバイスの全体的なバッテリ寿命を縮める可能性がある。
オーディオ特徴データを抽出し分析する低電力システムと方法とが開示される。たとえば、本明細書で開示されている技術は、電力消費量を低減して電子デバイス(たとえば、ワイヤレス電話機)の音感知機能を利用できるようにすることが可能である。電子デバイスは、プロセッサ(たとえば、オーディオデジタルシグナルプロセッサ(DSP))に結合された低電力コーダ/デコーダ(CODEC)を備えることができる。システムは、複数の動作モードを有し、各々のモードはCODEC活動プロセッサ活動の異なる比に対応するものとしてよい。たとえば、第1のモードでは、CODECは連続動作し、プロセッサは第1の比率でデューティサイクルされることができる。たとえば、プロセッサは、10%のデューティサイクル(すなわち、時間の10%でアクティブ状態、時間の90%でアイドル状態)に従って動作し得る。第2のモードでは、CODECもデューティサイクルされることが可能である。CODECは、異なるモードで異なる比率のデューティサイクルされることができる。いくつかのモードでは、CODECの活動は、プロセッサの活動以上であってよい。他のモードでは、プロセッサが重い計算負荷を有しているときなどにおいて、プロセッサの活動は、CODECの活動よりも大きくなることがある。CODECは、オーディオデータを(たとえば、デバイスのマイクロフォンから)受信し、オーディオデータからオーディオ特徴を抽出することができる。プロセッサは、オーディオ特徴を分析し、その分析結果に基づき1つまたは複数のアクションを実行することができる。たとえば、プロセッサは、分析結果に基づき電子デバイスの1つまたは複数の他のコンポーネントをアクティブ化することができる。
特定の一実施形態において、方法は、プロセッサにおいて低電力状態から遷移して出ることを含む。この方法は、プロセッサが低電力状態から遷移して出た後に、バッファからオーディオ特徴データを取り出すことも含む。オーディオ特徴データは、プロセッサの低電力状態の期間中に受信されたオーディオデータの特徴を示す。いくつかの実施形態では、オーディオデータは受信されていることがあり得、またオーディオ特徴データは、プロセッサが低電力状態にある間にプロセッサに結合されているCODECによってすでに抽出されていることもあり得る。
別の特定の実施形態において、方法は、CODECにおいてオーディオデータのフレームを1つ受信することを含む。この方法は、オーディオデータのフレームからオーディオ特徴データを抽出することも含む。この方法は、デューティサイクルされているプロセッサのアクティブ状態の期間中にデューティサイクルされるプロセッサによってアクセス可能なように抽出されたオーディオ特徴データをバッファに格納することをさらに含む。
別の特定の実施形態において、装置は、プロセッサと、オーディオデータの1つまたは複数のフレームをフィルタして、フィルタされたオーディオデータのエネルギーを発生する(プロセッサが低電力状態にあるか、またはアクティブ状態にあるかに依存せずに)ように構成された複数のフィルタとを備える。この装置は、フィルタされたオーディオデータのエネルギーに基づきオーディオ特徴データを生成するように構成されたコンバータも備える。この装置は、変換関数をオーディオ特徴データに適用して変換データを生成するように構成された変換器(transformer)をさらに備える。プロセッサは、低電力状態からアクティブ状態に遷移した後に、変換データに1つまたは複数のオペレーションを実行するように構成される。
別の特定の実施形態において、装置は、第1のモードでの動作と第2のモードでの動作とをプロセッサのアプリケーションコンテキストに基づき動的に切り替えるように構成されたプロセッサを備える。このプロセッサは、低電力状態から遷移して出た後に、バッファからオーディオ特徴データを取り出して処理するようにも構成される。オーディオ特徴データは、プロセッサが低電力状態にある間にCODECによって受信されたオーディオデータの特徴を示す。第1のモードにおけるCODEC活動プロセッサ活動の比は、第2のモードにおけるCODEC活動プロセッサ活動の比よりも大きい。
別の特定の実施形態において、非一時的プロセッサ可読媒体は、プロセッサによって実行されたときに、第1のモードでの動作と第2のモードでの動作とを動的に切り替えることをプロセッサに実行させる命令を収める。第1のモードにおけるCODEC活動プロセッサ活動の比は、第2のモードにおけるCODEC活動プロセッサ活動の比よりも大きい。また、これらの命令は、実行されると、デューティサイクルにおいて低電力状態から遷移して出ることと、低電力状態において抽出されたオーディオ特徴データを分析することとをプロセッサに行わせる。これらの命令は、実行されると、低電力状態に遷移して戻ることをプロセッサにさらに行わせる。
開示されている実施形態のうちの少なくとも1つによってもたらされる特定の利点として、電子デバイスが常時オンの低電力CODEC(またはデューティサイクルされるCODEC)とデューティサイクルされるプロセッサとを使用することによってオーディオ特徴データを抽出し、分析することができる点が挙げられる。たとえば、オーディオ特徴データは、デューティサイクルされるプロセッサが低電力状態にある間にCODECによって受信されたオーディオデータの特性を示すことができる。オーディオ特徴データの抽出および分析は、常時オンのCODECと常時オンのオーディオプロセッサとを備えるシステムと比較して少ない電力消費量で実行され得る。オーディオ特徴データの分析は、電子デバイスのタッチスクリーンまたは他のコンポーネントをアクティブ化するなどの様々なオペレーションのトリガーとなり得る。
本開示の他の態様、利点、および特徴は、「図面の簡単な説明」と、「発明を実施するための形態」と、「特許請求の範囲」との節を含む、出願全体を検討した後に明らかになるであろう。
オーディオ特徴データを抽出し、分析するように動作可能なシステムの特定の一実施形態を例示する図。 オーディオ特徴データを抽出し、分析するように動作可能なシステムの別の特定の実施形態を例示する図。 図2のCODECと図2のプロセッサとの間で分割されたオペレーションの特定の実施形態を例示する図。 図1のシステムまたは図2のシステムにおけるオペレーションの特定の一実施形態を例示する図。 図1のシステムまたは図2のシステムにおける電力消費量の特定の一実施形態を例示する図。 デューティサイクルされるプロセッサでオーディオ特徴データに対して音声認識を実行する方法の特定の一実施形態を例示する流れ図。 CODECでオーディオ特徴データを抽出する方法の特定の一実施形態を例示する流れ図。 プロセッサの蓄積−フォワード−モード(store-and-forward mode)での動作と直接転送モードでの動作とを動的に切り替える方法の特定の一実施形態を例示する流れ図。 電子デバイスの低電力コンポーネントによる電子デバイスの高電力コンポーネントの交互階層的アクティブ化(staggered hierarchical activation)を実行する方法の特定の一実施形態を例示する流れ図。 図1〜図9のシステムと方法とによりオーディオ特徴データを抽出し、分析するように動作可能なワイヤレスデバイスのブロック図。
図1を参照すると、オーディオ特徴データを抽出し、分析するように動作可能であるシステムの特定の一実施形態が図示されており、全体的に100として示されている。システム100は、プロセッサ150に結合されたコーダ/デコーダ(CODEC)120を備える。特定の一実施形態において、プロセッサ150は、オーディオDSPなどの、デジタルシグナルプロセッサ(DSP)であってよい。いくつかの実施形態では、図示されているように、バッファ140をCODEC120とプロセッサ150との間に配置することができる。代替的実施形態では、バッファ140は、図2〜図3を参照しつつさらに説明されているように、CODEC120またはプロセッサ150に内蔵されていてもよい。
特定の一実施形態において、CODEC120は、連続的に動作して、オーディオデータ110を受信することができる。たとえば、オーディオデータ110は、CODEC120に結合されているマイクロフォンまたは他の音声入力デバイスによって生成され得る。オーディオデータ110は、「生の」(すなわち、未処理および/または無圧縮の)オーディオデータとすることができる。CODEC120は、オーディオデータ110からオーディオ特徴を抽出し、それにより、オーディオ特徴データ130を生成するように構成され得る。特定の一実施形態において、オーディオ特徴データ130は、オーディオデータ110に比べてサイズが実質的に小さくてもよい。CODEC120は、オーディオ特徴データ130をバッファ140(たとえば、ランダムアクセスメモリ(RAM)バッファ)に格納することができる。特定の一実施形態において、オーディオ特徴データ130は、ピッチ、トーン、音量、および/またはリズムの特性などのオーディオデータ110の特定の特性を示し得る。CODEC120は、オーディオ特徴データ130を抽出した後にオーディオデータ110を破棄してもよい。
プロセッサ150は、デューティサイクルに従って動作し得る。たとえば、プロセッサ150が10%のデューティサイクルに従って動作する場合、プロセッサ150は、時間の10%で「アクティブ」(すなわち、高電力状態)であり、時間の90%で「アイドル」(すなわち、低電力状態)である。特定の一実施形態において、プロセッサ150は、プログラム可能な時間期間の終了に応答してアクティブ状態とアイドル状態との間で周期的に遷移することができる(たとえば、プロセッサ150のデューティサイクルはプログラム可能であってよい)。このため、デューティサイクルされるプロセッサ150の電力消費量は、「常時オン」プロセッサに比べて少なくなり得る。
低電力状態から遷移して出た後、プロセッサ150は、バッファ140からオーディオ特徴データ130を取り出し、取り出されたオーディオ特徴データ130を分析することができる。プロセッサ150は、その分析結果に基づき1つまたは複数のオペレーションを実行することができる。たとえば、システム100が、ワイヤレス電話機などの電子デバイスに一体化されている場合、プロセッサ150は、オーディオ特徴データ130の分析結果に基づくアクティブ化信号160を生成して、電子デバイス(たとえば、図10を参照しつつさらに説明されているような、アプリケーションプロセッサまた移動局モデム(MSM)の一部)の1つまたは複数のコンポーネントをアクティブ化することができる。
オペレーション実行時に、CODEC120は、オーディオデータ110のフレームを連続的に受信し、オーディオデータ110から抽出されたオーディオ特徴データ130をバッファ140に格納することができる。たとえば、オーディオデータ110の各々のフレームは20ms長とすることができる。特定の一実施形態において、より新しいオーディオ特徴データ130は、先入れ先出しポリシーに従ってバッファ140内のより古いオーディオ特徴データ130を上書きするものとしてよい。
図1に示されているように連続的に動作する代わりに、CODEC120は、その代わりにデューティサイクルされてよいことに留意されたい。たとえば、CODEC120が、望んでいるのに比べて電力効率が低いか、または「レガシー」CODECである場合、CODEC120は、デューティサイクルされるものとしてよい。一般的に、CODEC120はデューティサイクルされるとしても、CODEC120は、プロセッサ150よりもアクティブであるものとしてよい。そのため、システム100は、複数の動作モードをサポートし得る。第1のモードでは、CODEC120は、より頻繁なオーディオ信号処理を実行することができ、より多くの電力を消費すると推定できる。第2のモードでは、CODEC120は、あまり頻繁でないオーディオ信号処理を実行することができ、より少ない電力を消費すると推定できる。プロセッサ150は、第1のモードと第2のモードとで同じデューティサイクルを有することができる。
様々な実装は、デュアルモード(またはマルチモード)システム100によってサポートされ、各々のモードはCODEC活動プロセッサ活動の異なる比を有するものとしてよいことは理解されるであろう。たとえば、より高い活動モードは、CODEC120が連続動作し、プロセッサ150が第1の比率(たとえば、D1)のデューティサイクルされることを伴い、より低い活動モードは、CODEC120が第1の比率以上の第2の比率(たとえば、D2)(たとえば、D2≧D1)でデューティサイクルされることを伴い得る。別の例として、より高い活動モードは、CODEC120が第1の比率(たとえば、D1)でデューティサイクルされ、プロセッサ150が第2の比率(たとえば、D2)のデューティサイクルされることを伴い、より低い活動モードは、CODEC120が第3の比率(たとえば、D3)でデューティサイクルされ、プロセッサ150が第2の比率(たとえば、D2)のデューティサイクルされることを伴い得る。第1の比率は、第2の比率よりも実質的に大きく(たとえば、D1>>D2)、第3の比率は、第2の比率以上であってよい(たとえば、D3≧D2)。選択された実装は、重いプロセッサ計算負荷の期間などにおいて、CODEC活動がプロセッサ活動以下であるモードもサポートすることができる。たとえば、第3の比率は、第2の比率以下であってよい(たとえば、D3≦D2)。
CODEC120およびプロセッサ150がどれだけ頻繁にアクティブであるかに応じて、システム100は、蓄積−フォワード−モードまたは直接転送モードで効果的に動作しているものとしてよい。蓄積−フォワード−モードでは、プロセッサ150は、低電力状態から遷移して出た後にバッファ140を空にすることができる。つまり、プロセッサ150は、プロセッサ150が低電力モードに入っている間にCODEC120によって受信されたオーディオデータ110のすべてのフレーム(または複数のフレーム)に対応するオーディオ特徴データ130を取り出すことができる。直接転送モードでは、プロセッサ150は、オーディオデータ110の単一のフレーム(たとえば、オーディオデータ110の一番最近に受信されたフレーム)に対応するオーディオ特徴データ130を取り出すことができる。特定の一実施形態において、プロセッサ150は、図2と図4とを参照しつつさらに説明されているように、プロセッサ150のアプリケーションコンテキストに基づき蓄積−フォワード−モードでの動作と直接転送モードでの動作、および/またはより高い活動モードとより低い活動モード(より高い活動モードではより低い活動モードに比べてCODEC活動プロセッサ活動の比が高い)を動的に切り替えることができる。
オーディオ特徴データ130を取り出した後、プロセッサ150は、オーディオ特徴データ130を分析し、この分析結果に基づきアクティブ化信号160を生成することができる。たとえば、オーディオ特徴データ130の分析結果で、特定の音声入力コマンド(たとえば、「wake up」)が識別された場合、プロセッサ150は、アクティブ化信号160を生成して、電子デバイスの様々なコンポーネントをアクティブ化することができる。
デューティサイクルされるプロセッサを含む、図1のシステム100は、こうして、常時オンCODECと常時オンプロセッサとを有するシステムに比べて低い電力でオーディオ特徴の抽出および分析を可能にし得る。さらに、生オーディオデータの代わりにオーディオ特徴をバッファリングすることによって、図1のシステム100は、メモリの使用量を減らしてオーディオ分析を実行することができる。
図2を参照すると、オーディオ特徴データを抽出し、分析するように動作可能であるシステムの別の特定の実施形態が図示されており、全体的に200として示されている。システム200は、プロセッサ230(たとえば、図1のプロセッサ150)に結合されたCODEC220(たとえば、図1のCODEC120)を備えることができる。CODEC220は、例示されているマイクロフォン210などの、音声入力デバイスにも結合され得る。
CODEC220は、マイクロフォン210からアナログオーディオデータ212を受信し、そのアナログオーディオデータ212をデジタルオーディオデータに変換するアナログ/デジタルコンバータ(ADC)221を備えることができる。マイクロフォン210がデジタルオーディオデータを生成する代替的一実施形態では、ADCが存在していなくてよい。
CODEC220は、オーディオデータ212からオーディオ特徴226を抽出するように構成された特徴抽出器222も備え得る。特定の一実施形態において、特徴抽出器222は、オーディオデータ212をフィルタしてフィルタされたオーディオデータのエネルギー224(たとえば、メル(mel)帯域エネルギー)を発生する複数のフィルタ223を備えることができる。たとえば、フィルタ223は、メル帯域フィルタであってよく、各々のメル帯域フィルタが人間の知覚の周波数スケールの異なる部分(たとえば、オクターブ)に対応している。たとえば、フィルタ223は、22オクターブに対応するメル帯域エネルギー224を発生する22個のメル帯域フィルタを備えることができる。代替的一実施形態では、特徴抽出器222は、高速フーリエ変換(FFT)ベースの特徴抽出を実行することができる。
特徴抽出器222は、対数コンバータ225も備えることができる。対数コンバータ225は、対数関数をフィルタされたオーディオデータのエネルギー224に適用して、抽出されたオーディオ特徴226を生成することができる。抽出されたオーディオ特徴226は、バッファ(たとえば、RAMバッファ)227内に格納され得る。抽出されたオーディオ特徴226は、コンパクトに設計されたオーディオ特徴を含むオーディオデータ212よりもサイズが実質的に小さいものとしてよい(たとえば、各々の20msフレームからの22個の対数メル帯域エネルギー)。たとえば、オーディオデータ212は、16kHz、16ビット分解能を有するものとしてよい。オーディオデータ212の200ms(たとえば、10フレームに対応する)は、6400バイトの領域を占有し得る。しかし、10フレームに対する抽出されたオーディオ特徴226は、220バイトの領域のみを占有し得る(10フレーム×1フレーム当たり22特徴×1特徴当たり1バイト)。そこで、生オーディオデータ212の代わりに抽出されたオーディオ特徴226をバッファ227に格納することによって、バッファ227は、比較的小さくすることができ、また比較的少ない電力を消費し得る。
プロセッサ230は、状態遷移ロジック231を備えることができる。特定の一実施形態において、状態遷移ロジック231は、プロセッサ230を低電力状態に遷移させ、低電力状態から遷移させることができる(たとえば、デューティサイクルに従って)。低電力状態から遷移して出た後、プロセッサ230は、バッファ227から抽出されたオーディオ特徴226を取り出すことができる。変換器233は、変換関数を抽出されたオーディオ特徴226に適用して、変換されたオーディオ特徴データ234を生成することができる。特定の一実施形態において、変換器233は、離散コサイン変換(DCT)関数を適用するように構成され得る。たとえば、1フレーム当たり22個のメル帯域に対応する特徴を含む抽出されたオーディオ特徴226を変換することで、DCT係数の12個の要素を取ることによって1フレーム当たり12個のメル周波数ケプストラム係数(MFCC)を生成することができる。
プロセッサ230は、変換されたオーディオ特徴データ234を分析するように構成された1つまたは複数の音声認識モジュール241〜245も備えることができる。特定の一実施形態において、どの音声認識モジュール241〜245がアクティブであるかは、プロセッサ230がどのようなモードで動作しているかによって決まり得る。たとえば、プロセッサ230における動的モード切替ロジック232は、コンテキスト(たとえば、アプリケーションコンテキスト)に基づきプロセッサ230のオペレーションを動的に切り替えることができる。たとえば、図2のシステム200を含むデバイスが、聴取位置(listen location)、連続的オーディオフィンガープリンティング(continuous audio fingerprinting)、および/または連続的キーワード検出を伴うアプリケーションまたは他のオペレーションを実行するときに、ロジック232は、プロセッサ230を蓄積−フォワード−モードで動作させることができ(たとえば、オーディオデータの複数のフレームからの特徴が、プロセッサ230がアクティブになるたびに処理される)、モジュール241〜243はアクティブになるものとしてよい。別の例として、デバイスが、ターゲット音検出(たとえば、特定の音楽または音声の検出)および/またはノベルティ検出(novelty detection)を伴うアプリケーションを実行する場合、ロジック232は、プロセッサ230を蓄積−フォワード−モードまたは直接転送モードのいずれかで動作させることができ(たとえば、オーディオデータの単一のフレームからの特徴が、プロセッサがアクティブになるたびに処理される)、モジュール244〜245はアクティブになるものとしてよい。代替的実施形態において、動的モード切替ロジック232は、たとえば、オーディオデータ212および/またはオーディオ特徴226の特性を含む、他のファクタに基づきプロセッサ230のオペレーションを切り替えることができる。
聴取位置モジュール241は、入力音声をオーディオシグネチャに変換することができる。これらのシグネチャは、サーバ(図示せず)に送信され、サーバは、これらのシグネチャを他のデバイスから受信されたシグネチャと比較し得る。異なるデバイスからのシグネチャが類似している場合、サーバは、それらの異なるデバイスが同じ音響空間内にあると判定することができ、これは、異なるデバイスが同じ物理的位置にあるか、同じコンテンツを聴取しているか、または周囲の音によって決定されるような類似のコンテキストを有することを示し得る。たとえば、聴取位置は、人々をグループ化し、および/または人々のグループとアイテムを共有するためにソーシャルネットワークサービス内で使用され得る。
連続的オーディオフィンガープリンティングモジュール242は、事前登録されている(たとえば、事前に決定されている)サウンドスナップショットの存在を検出しようと試みることができる。ターゲットサウンドまたは環境検出とは異なり、連続的オーディオフィンガープリンティングは、チャネル劣化、イコライゼーション、速度変化、デジタル/アナログまたはアナログ/デジタル変換などに関係する歪みなどの、音質歪みの存在下で同一であると知覚されるサウンドスナップショットを確実に検出することができる。このため、連続的オーディオフィンガープリンティングは、音楽と放送とにおける識別シナリオに応用することができる。
連続的キーワード検出モジュール243は、音声入力を受け取り、事前登録されている(たとえば、事前に決定されている)キーワードセットの存在を検出することができる。連続的キーワード検出は、比較的低電力の状態で実行され、検出されたキーワードに基づき定義済みアプリケーションをアクティブ化することができる。事前に決定されたキーワードセットは、アプリケーションプロセッサによってプログラム可能であるものとしてよい。特定の一実施形態において、キーワードに対するモデルは、アプリケーションプロセッサによってダウンロードされ得る。これにより、連続的キーワード検出では、専用の音声コマンドボタンまたは非言語的ユーザ入力を使用せずに音声アクティブ化コマンドを使用することができる。
ターゲット音検出モジュール244は、音の種類を検出し、その音に対応するよう対応するアプリケーションに通知することができる。たとえば、発話を検出した後、ターゲット音検出は、音声記録アプリケーションに発話の記録を行わせることができる。別の例として、音楽を検出した後、ターゲット音検出は、曲名、アーチスト名、およびアルバム名などの、音楽の特性をアプリケーションに識別させることができる。
ノベルティ検出モジュール245は、位置の変化および/または活動の変化に対応する入力オーディオの変化を検出することができる。ノベルティ検出は、位置と音声活動とを識別し、その後の使用と分析とに対する対応する時間をログに記録するために他の音声認識オペレーション(たとえば、聴取位置およびターゲット音検出)と併せて使用され得る。ノベルティ検出は、環境内で音響に顕著な変化がある場合に他の音声認識オペレーションをアクティブ化するためにも使用され得る。
オペレーション実行時に、CODEC220は、マイクロフォンからオーディオデータ212のフレームを連続的に受信し、オーディオデータ212からオーディオ特徴226を抽出し、オーディオ特徴226をバッファ227に格納することができる。プロセッサ230は、デューティサイクルに従って低電力状態に遷移して入り、遷移してそこから出ることができる。低電力状態から遷移して出た後、プロセッサ230は、オーディオデータ212の複数のフレームに対応する(蓄積−フォワード−モードで動作している場合)、またはオーディオデータ212の単一のフレームに対応する(直接転送モードで動作している場合)オーディオ特徴226を取り出して、変換することができる。プロセッサ230は、図1を参照しつつ説明されているように、より高い活動モードでの動作とより低い活動モードでの動作との間で遷移することもできる。アクティブである場合、プロセッサ230は、変換されたオーディオ特徴データ234を、音声認識モジュール241〜245のうちの1つまたは複数を介して分析することができ、分析結果に基づきアプリケーションプロセッサおよび/または移動局モデム(MSM)のコンポーネント(複数可)、または他のコンポーネントをアクティブ化するかどうかを決定することができる。
特定の一実施形態において、図2のシステム200は、複数のより高水準のアプリケーション(たとえば、音楽認識アプリケーション、キーワード検出アプリケーションなど)によって使用され得る共通リスニングサービスを提供することができる。たとえば、共通リスニングサービスは、プロセッサ230によって実行される音声認識オペレーションの結果により、(たとえば、アプリケーションプログラミングインターフェース(API)、共有メモリなどを介して)より高水準のアプリケーションを提供することができる。共通リスニングサービスは、相互運用性問題を軽減することができ、各々のより高水準のアプリケーションがそれ自体のリスニングエンジンを有するシステムに比べて電力効率が良くなる可能性がある。
そのため、図2のシステム200は、電力消費量を減らしてオーディオ特徴の抽出および分析を可能にし得る。たとえば、アナログ/デジタル変換および特徴抽出などの比較的低電力のオペレーションは、低電力常時オンCODEC(またはデューティサイクルされるCODEC)に組み込まれ、データ変換および音声認識などの比較的大きな電力を要するオペレーションは、デューティサイクルされるDSPに組み込まれ、間欠的に実行され得る。
特定の一実施形態において、図2のシステム200は、低電力コンポーネントによる高電力コンポーネントのアクティブ化を含む電子デバイスに低電力ユーザインターフェースを備えることができる。たとえば、システム200は、可聴音(たとえば、0〜16kHzのサンプリングレート)と、ビーコン(たとえば、16〜24kHzのサンプリングレート)と、超音波(たとえば、24kHzを超えるサンプリングレート)の入力をサポートすることができる。複数の種類の入力をサポートするために、マイクロフォン210は、可聴音信号と、ビーコン信号と、超音波信号とを受信することができるものとしてよい。あるいは、超音波および/またはビーコンの検出のために、追加のマイクロフォンまたはコンポーネントがシステム200に組み込まれ得る。音響信号を電気信号に変換するために使用されるコンポーネントとして、限定はしないが、マイクロフォン、圧電センサー、および超音波振動子が挙げられる。低電力CODEC220は、受信された信号に対して粗検出/分類290を実行することができる。図2は、粗検出/分類290がアナログ/デジタルコンバータ221の出力に対して実行されることを示しているけれども、代替的実施形態は、代わりにアナログ信号に対して粗検出/分類290を実行することを含み得ることに留意されたい。粗検出/分類290の結果に応じて、CODEC220は、アクティブ化信号292を介してより高電力のプロセッサ230をアクティブ化することができる。たとえば、プロセッサ230は、粗検出/分類290が超音波入力が受信されたことを示す場合にアクティブ化され得る。
図2は、2レベルアクティブ化階層(つまり、CODEC220およびプロセッサ230)を例示しているけれども、レベルはいくつでも実装することができることに留意されたい。たとえば、3レベル階層において、低電力デジタル/アナログ回路は、粗検出を実行することで、より高電力のフロントエンド処理ユニットをアクティブ化すべきかどうかを決定することができ、フロントエンド処理ユニットは精細検出を実行することで、最終的な検出を実行し、アプリケーション/ユーザインターフェースコンポーネントを実行するなおいっそう高電力の主処理ユニットをアクティブ化するかどうかを決定することができる。特定の一実施形態において、デジタル/アナログ回路およびフロントエンド処理ユニットは、CODEC220内に一体化され、主処理ユニットは、プロセッサ230内に一体化され得る。たとえば、粗検出/分類ブロック290は、CODEC220のデジタル/アナログ回路内に一体化され、第1のアクティブ化信号294を介してCODEC220のフロントエンドユニット内の精細検出/分類ブロック296を選択的にアクティブ化することができる。精細検出/分類ブロック296は、第2のアクティブ化信号298を介してプロセッサ230の最終検出/分類ブロックをアクティブ化することができる。より低電力のコンポーネントによるより高電力のコンポーネントの交互階層的アクティブ化は、電子デバイスにおけるバッテリ寿命を改善することができる。
システム200において、様々な検出および分類方法が使用され、一度に複数の方法が使用され得る。特定の一実施形態において、受信された信号が可聴音、ビーコン、および/または超音波の範囲内のデータを含むかどうかを判定するために、二乗平均平方根(RMS)または帯域電力の分類が使用され得る。時間領域法は、信号レベル検出とともにフィルタバンクを使用することを含むものとしてよく、各々のフィルタは、特定の種類の音を抽出するように設計され、音を制限するためにフィルタ出力レベルが閾値と比較される。周波数領域法は、入力信号を分類するために使用される周波数を導出するためにメル間隔ケプストラム係数(mel-spaced cepstral coefficients)のFFTを実行することを含み得る。サウンドコンテンツ法(sound content method)は、入力信号と知られているパターンとの相関を求めることによるパターンマッチングを伴い得る(たとえば、入力信号が超音波デジタルスタイラスから受信された信号かどうかを判定するため)。モデルベースのアプローチは、入力信号が事前に決定されている音楽または音声モデルとマッチする確率を計算することを含み得る。ノベルティ検出は、入力音特性の変化を検出することを伴うものとしてよい。変化が検出された場合、アプリケーションは、コンテキスト情報(たとえば、デバイスが屋内にあるか、または屋外にあるか)を更新するように通知され得る。たとえば、ユーザが屋内環境から屋外環境に出ると、結果として入力音特性の変化が生じ、これにより、ユーザの携帯電話のアプリケーションが電話機着信音量を大きくするようにできる。
図2のシステム200および/またはそのコンポーネントに対する使用事例として、限定はしないが、デバイス(たとえば、テレビ、ゲーム機、コンピュータ、および電話機)を制御するための音声認識、コンテキストを意識したオーディオ認識、デジタルスタイラス(たとえば、超音波伝送を介してデジタルデバイスに入力される手書きの超音波デジタルスタイラス)に対する音響およびパルス認識、超音波ジェスチャーまたは近接検出、超音波、音響タッチ検出を使用するデバイス間測位、デバイスの位置を識別するための音響ビーコン、オーディオフィンガープリンティングによるコンテンツ識別、サウンドマッチングによるピア発見および近接感知、およびサウンドマッチングによる位置推定が挙げられる。
図1〜図2は、CODECによって実行される特徴抽出とプロセッサによって実行されるデータ変換とを示しているけれども、それは例示することのみを目的としたものであることに留意されたい。代替的実施形態において、異なる機能は、異なるハードウェアコンポーネントによって実行されるものとしてよい。たとえば、図3を参照すると、図2のCODEC220と図2のプロセッサ(たとえば、DSP)230とにオペレーションを分割する特定の実施形態が図示されており、全体として300で示される。
第1の実施形態では、CODEC/DSPの境界は302のところに配置され得る。この第1の実施形態では、CODECは、ADC321を備えることができ、ADC321の出力は、バッファリングされ得る。DSPは、特徴抽出(たとえば、メル帯域フィルタ323と対数コンバータ325を介して)と、データ変換(たとえば、DCT変換器333を介して)と、音声認識(たとえば、音声認識モジュール340を介して)とを実行することができる。
第2の実施形態では、CODEC/DSPの境界は304のところに配置され得る。そのため、この第2の実施形態では、特徴抽出は、CODECによって一部実行され、DSPによって一部実行され得る。メル帯域フィルタ232の出力は、バッファリングされ得る。データ変換および音声認識は、DSPによって実行され得る。
第3の実施形態では、CODEC/DSPの境界は306のところに配置され得る。第3の実施形態は、図1のシステム100と図2のシステム200とに対応するものとしてよいことに留意されたい。この第3の実施形態では、特徴抽出は全体が、CODECによって実行され、対数コンバータ325の出力は、バッファリングされ得る。データ変換および音声認識は、DSPによって実行され得る。
第4の実施形態では、CODEC/DSPの境界は308のところに配置され得る。この第4の実施形態では、特徴抽出とデータ変換の両方が、CODECによって実行され、DCT変換器333の出力は、バッファリングされ得る。音声認識は、DSPによって実行され得る。
図1〜図2を参照しつつすでに説明されているように、開示されている技術は、常時オン低電力CODEC(またはデューティサイクルされるCODEC)と「アクティブ」であるときにCODECよりも電力消費量が多いデューティサイクルされるプロセッサとを使用することを伴い得る。そこで、比較的低電力の機能をCODECに組み込み、比較的高電力の機能をDSPに残すことが望ましいと思われる。図3に示されているように、CODEC/DSP境界およびバッファリングポイントは、複数の位置のどれかに柔軟に配置することができる。特定の一実施形態において、CODEC/DSP境界の位置は、電子デバイスの設計および試験時に決定され、またこれは電子デバイスの全体的な電力消費量および性能などのファクタに基づくものとしてよい。
図4を参照すると、図1のシステム100と図2のシステム200におけるオペレーションの具体的図解が示されており、全体として400で示される。たとえば、図4では、蓄積−フォワード−モードでのDSPのオペレーションと直接転送(たとえば、リアルタイムの、またはリアルタイムに近い)モードでのDSPオペレーションとを比較している。
DSPが蓄積−フォワード−モードで動作する場合、複数のフィルタ(たとえば、22個のメル帯域フィルタ)を備えるCODECは、DSPが低電力状態にある間に、402で示されているように、受信されたオーディオデータの各々のフレームに対して1フレーム当たり22個の特徴を抽出して蓄積することができる。DSPが低電力状態から遷移して出る場合、DSPは、412で示されているように、蓄積された特徴を取り出して、分析し得る。図4に例示されている特定の実施形態において、DSPは、10フレームのオーディオデータに対応するオーディオ特徴がCODECによって抽出された後に低電力状態から遷移して出る。そのため、蓄積−フォワード−モードでは、DSPは、低電力状態に遷移して戻る前に220個のオーディオ特徴(10フレームに対応する)を取り出して、処理することができる。このプロセスは、404における特徴のその後の抽出と、414における取り出された特徴の処理とによって示されるように、続行し得る。
オーディオ特徴の喪失およびバッファのオーバーフローを回避または低減するために、蓄積−フォワード−モードで動作しているときに、DSPは、プログラム可能な期間に従って低電力状態から遷移して出るものとしてよい。プログラム可能な期間は、バッファのサイズに基づく最大時間期間以下であるものとしてよい。そこで、蓄積−フォワード−モードでは、CODECによって受信された各々のフレームからのオーディオ特徴は、最終的に、DSPによって分析され得る。特定の一実施形態において、DSPとCODECとの間の同期を維持し、バッファのオーバーフロー/アンダーフローを低減するために、DSP−CODECハンドシェーキングまたは他の技術が利用され得る。
DSPが直接転送モードで動作する場合、416で示されているように、DSPによって、一番最近受信したオーディオフレームに対応する(406で示されている)オーディオ特徴が取り出され処理され得る。DSPへのオーディオ特徴の「直接転送」が事実上あるので、オーディオ特徴は、非常に短い時間の間バッファリングされるか、またはまったくバッファリングされ得ず、DSPのデューティサイクルは、バッファのサイズに非依存にプログラムすることができる。そのため、直接転送モードでは、DSPは、低電力状態に遷移して戻る前に22個のオーディオ特徴(単一のオーディオフレームに対応する)を取り出して、処理することができる。このプロセスは、408におけるその後の抽出された特徴と、418における取り出された特徴とによって示されるように、続行し得る。そのため、直接転送モードでは、CODECによって受信されたフレームの部分集合のみからの(たとえば、図4の実施形態において10フレームに1つの割合で)オーディオ特徴がDSPによって分析され得る。
CODECおよびDSPは、追加の動作モードも同様にサポートし得ることに留意されたい。典型的には、CODECの活動は、DSPの活動以上であってよい。様々な動作モードが、CODEC活動プロセッサ活動の異なる比に対応し得る。各々の動作モードは、CODECのデューティサイクル(100%は常時オンに対応する)、DSPのデューティサイクル、および/またはプロセッサが目覚めるたびに分析されるオーディオデータのフレームの数に対する異なる設定を含み得る。サポートされている動作モードの詳細は、設計時および/または製造時に決定されるものとしてよい。特定のどの動作モードが選択されるかは、アプリケーションコンテキストなどのファクタに基づき実行時に決定され得る。
図5を参照すると、様々な音感知システムにおける電力消費量の具体例が示されており、これは全体として500で示されている。より具体的には、図5の左側は、常時オンCODECと常時オンDSPとを備えるシステムにおける電力消費量を示し、図5の右側は、図1のシステム100または図2のシステム200などの、開示されている技術によるシステムにおける電力消費量を示している。
左の音感知システムは、常時オンCODEC502を備えるものとしてよい。システムは、常時オンDSP特徴抽出504と常時オンDSP分析506とを含む、常時オンDSPも備えることができる。CODECおよびDSPは常時オンであるので、システムによって消費される電力は、508で示されているように、比較的平坦な曲線で表され得る。
右の音感知システム(たとえば、図1のシステム100または図2のシステム200)は、514の常時オン低電力CODEC512とCODEC特徴抽出とを備えることができる。システムは、デューティサイクルされるDSPを備えることもできる。たとえば、図5の特定の実施形態において、DSPは、20msのアクティブ時間と200msのアイドル時間とを有する。そのため、右側のCODECのデューティサイクルされるDSPの組合せは、20msのアクティブ時間516、518において左側のシステムに比べて電力の消費量が多い場合があるけれども、この組合せでは、デューティサイクル動作を行うDSPの200msのアイドル時間において消費する電力が実質的に少なくなる可能性がある。右側のシステムの電力消費量は、曲線518によって例示されるものとしてよい。曲線519によって例示されている、図5の右側のシステムの平均電力消費量は、これにより、曲線508によって例示されている、図5の左側のシステムの電力消費量に比べて実質的に少ないものとしてよいことを理解されるであろう。いくつかの実装では、CODEC512も、図1〜図4を参照しつつ説明されているように、同様にデューティサイクルされることができる。
図6を参照すると、デューティサイクル動作を行うプロセッサでオーディオ特徴データに対して音声認識を実行する方法の特定の一実施形態が、図示され、全体として600で示されている。例示的な一実施形態では、方法600は、図1のプロセッサ150または図2のプロセッサ230によって実行され得る。
方法600は、602で、プロセッサのデューティサイクルにおいてプロセッサの低電力状態から遷移して出ることを含み得る。特定の一実施形態において、プロセッサは、10%のデューティサイクルを有するデジタルシグナルプロセッサ(DSP)であってよい。たとえば、図2では、プロセッサ230は、デューティサイクルにおいて低電力状態から遷移して出るものとしてよい(たとえば、アイドルからアクティブへの遷移)。
方法600は、バッファからオーディオ特徴データを取り出すことも含むものとしてよく、オーディオ特徴データは、プロセッサの低電力状態の期間中に受信されたオーディオデータの特徴を示す。プロセッサが蓄積−フォワード−モードで動作している場合、604で、オーディオ特徴データは、複数のオーディオフレームに対応し得る。あるいは、プロセッサが直接転送モードで動作している場合、606で、オーディオ特徴データは、単一のオーディオフレームに対応し得る。たとえば、図2では、プロセッサは、バッファ227から抽出されたオーディオ特徴226を取り出すことができる。
方法600は、608で、取り出されたオーディオ特徴データを変換して変換されたオーディオ特徴データを生成することと、610で、変換されたオーディオ特徴データに1つまたは複数の音声認識オペレーションを実行することとをさらに含み得る。特定の一実施形態において、オーディオ特徴データは、離散コサイン変換(DCT)変換器を介して変換され、その結果得られる変換されたオーディオ特徴データは、複数のメル周波数ケプストラム係数(MFCC)を含み得る。たとえば、図2では、変換器233は、取り出されたオーディオ特徴226を変換して、変換されたオーディオ特徴データ234を生成し、音声認識モジュール241〜245の1つまたは複数は、変換されたオーディオ特徴データ234に対して1つまたは複数の音声認識オペレーション(たとえば、聴取位置、連続的オーディオフィンガープリンティング、連続的キーワード検出、ターゲット音検出、および/またはノベルティ検出)を実行することができる。
方法600は、614で、低電力状態に遷移して戻る前に、612で、1つまたは複数の音声認識オペレーションの結果に基づき、アプリケーションプロセッサおよび/または移動局モデムの一部、または他のコンポーネントをアクティブ化するかどうかを決定することを含み得る。たとえば、図2では、プロセッサ230は、音声認識モジュール241〜245のうちの1つまたは複数によって実行された分析に基づき、低電力状態に遷移して戻る前にアプリケーションプロセッサおよび/または移動局モデムの一部をアクティブ化するかどうかを決定することができる。
特定の実施形態において、図6の方法600は、中央演算処理装置(CPU)、デジタルシグナルプロセッサ(DSP)、またはコントローラなどの処理ユニットのハードウェア(たとえば、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)など)、ファームウェアデバイス、またはこれらの組合せを介して実装され得る。一例として、図6の方法600は、図10に関して説明されているように、命令を実行するプロセッサによって実行され得る。
図7を参照すると、CODECでオーディオ特徴データを抽出する方法の特定の一実施形態が、図示され、全体として700で示されている。例示的な一実施形態では、方法700は、図1のCODEC120または図2のCODEC220によって実行され得る。
方法700は、702で、CODECにおいてオーディオデータのフレームを1つ受信することを含み得る。たとえば、図2では、CODEC220は、オーディオデータ212のフレームを1つ受信することができる。方法700は、704で、フレームからオーディオ特徴データを抽出することも含み得る。たとえば、オーディオ特徴データを抽出することは、706で、複数のメル帯域フィルタを介してフレームのフィルタされたオーディオデータのエネルギーを計算することと、708で、対数関数を計算されたエネルギーに適用することとを含み得る。たとえば、図2では、特徴抽出器222は、フィルタ223を使用してオーディオデータ212をフィルタして、フィルタされたオーディオデータのエネルギー224を発生し、対数コンバータ225を使用して対数関数を適用し、抽出されたオーディオ特徴226を生成することができる。
方法700は、710で、デューティサイクルされるプロセッサのアクティブ状態の期間中にデューティサイクルされるプロセッサによってアクセス可能なように抽出されたオーディオ特徴データをバッファに格納することと、712で、オーディオデータのフレームを破棄することとをさらに含み得る。たとえば、図2では、抽出されたオーディオ特徴226は、バッファ227内に格納され、オーディオデータ212のフレームは、CODEC220によって破棄され得る。方法700は、デューティサイクルされるプロセッサが低電力状態にある間にCODECによって受信されたオーディオの後続のフレームについて繰り返すことができる。
特定の実施形態において、図7の方法700は、CODECのハードウェア(たとえば、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)、またはコントローラなど)、ファームウェアデバイス、またはこれらの組合せを介して実装され得る。一例として、図7の方法700は、図10に関して説明されているように、命令を実行するCODEC(またはその中のプロセッサ)によって実行され得る。
図8を参照すると、プロセッサの蓄積−フォワード−モードでの動作と直接転送モードでの動作とを動的に切り替える方法の特定の一実施形態が図示され、全体として800で示されている。例示的な一実施形態では、方法800は、図1のプロセッサ150または図2のプロセッサ230によって実行され得る。
方法800は、802で、第1のモードでの動作と第2のモードでの動作とをプロセッサのアプリケーションコンテキストに基づきプロセッサで動的に切り替えることを含み得る。第1のモードにおけるCODEC活動/プロセッサ活動の比は、第2のモードにおけるCODEC活動/プロセッサ活動の比よりも大きいものとしてよい。たとえば、図2では、動的モード切替ロジック232は、プロセッサ230のアプリケーションコンテキストに基づきプロセッサ230のオペレーションを様々なモード間で動的に切り替えることができる。図2のCODEC220には、類似の動的モード切替ロジックも存在し得る。あるいは、図2のCODEC220とプロセッサ230の両方を制御する動的モード切替ロジックは、外部コンポーネント内にあってもよい(たとえば、コントローラに一体化される)。方法800は、804で、プロセッサのデューティサイクルにおいてプロセッサの低電力状態から遷移して出ることも含み得る。たとえば、図2では、プロセッサ230は、デューティサイクルにおいて低電力状態から遷移して出ることができる。
方法800は、806で、取り出されたオーディオ特徴データを分析することと、808で、低電力状態に遷移して戻ることとを含み得る。たとえば、図2では、音声認識モジュール441〜445のうちの1つまたは複数は、プロセッサ230が低電力状態に遷移して戻る前に取り出されたオーディオ特徴データを分析することができる。特定の一実施形態において、プロセッサ230は、分析結果に基づきアプリケーションプロセッサおよび/または移動局モデム(MSM)の一部などの他のシステムコンポーネントをアクティブ化するかどうかを決定することもできる。たとえば、プロセッサ230は、図1のアクティブ化信号160を参照しつつ説明されているように、分析結果に基づきアクティブ化信号を生成することができる。
特定の実施形態において、図8の方法800は、中央演算処理装置(CPU)、デジタルシグナルプロセッサ(DSP)、またはコントローラなどの処理ユニットのハードウェア(たとえば、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)など)、ファームウェアデバイス、またはこれらの組合せを介して実装され得る。一例として、図8の方法800は、図10に関して説明されているように、命令を実行するプロセッサによって実行され得る。
図9を参照すると、電子デバイスの低電力コンポーネントによる電子デバイスの高電力コンポーネントの交互階層的アクティブ化を実行する方法の特定の一実施形態が、図示されており、全体として900で示されている。例示的な一実施形態では、方法900は、図2のシステム200において実行され得る。
方法900は、902で、電子デバイスの第1のコンポーネントにおいて音声データを受け取ることを含み得る。第1のコンポーネントは、CODECのデジタル/アナログ回路のところにあってよい。たとえば、図2では、粗検出/分類ブロック290が、音声データを受け取ることができる。方法900は、904で、第1のコンポーネントにおいて、少なくとも1つの信号検出オペレーションを音声データに実行することも含み得る。たとえば、図2では、粗検出/分類ブロック290は、信号検出オペレーション(たとえば、RMSオペレーションまたは帯域電力オペレーション)を実行して、音声データが可聴音、ビーコン、または超音波のデータを含むかどうかを決定することができる。
方法900は、906で、少なくとも1つの信号検出オペレーションの結果に基づき電子デバイスの第2のコンポーネントを選択的にアクティブ化することをさらに含み得る。アクティブであるときの第2のコンポーネントは、アクティブであるときの第1のコンポーネントに比べて電子デバイスにおいてより多くの電力を消費し得る。特定の一実施形態において、第2のコンポーネントは、CODECのフロントエンドユニットのところにあってよい。たとえば、図2では、粗検出/分類ブロック290は、第1のアクティブ化信号294を介して精細検出/分類ブロック296を選択的にアクティブ化することができる。
方法900は、908で、第2のコンポーネントにおいて、少なくとも1つの第2の信号検出オペレーションを実行することを含み得る。方法900は、少なくとも1つの第2の信号検出オペレーションの結果に基づき電子デバイスの第3のコンポーネントを選択的にアクティブ化することを含み得る。アクティブであるときの第3のコンポーネントは、アクティブであるときの第2のコンポーネントに比べて電子デバイスにおいてより多くの電力を消費し得る。特定の一実施形態において、第3のコンポーネントは、DSPに組み込むことができる。たとえば、図2では、精細検出/分類ブロック296は、第2のアクティブ化信号298を介してプロセッサ230の最終検出/分類ブロックを選択的にアクティブ化することができる。
特定の実施形態において、図9の方法900は、中央演算処理装置(CPU)、デジタルシグナルプロセッサ(DSP)、またはコントローラなどの処理ユニットのハードウェア(たとえば、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)など)、ファームウェアデバイス、またはこれらの組合せを介して実装され得る。一例として、図9の方法900は、図10に関して説明されているように、命令を実行するプロセッサによって実行され得る。
図10を参照すると、ワイヤレス通信デバイスの特定の例示的な実施形態のブロック図が示され、全体として1000で示されている。デバイス1000は、アプリケーションプロセッサ1010とデジタルシグナルプロセッサ(DSP)1080とを備え、これらは両方ともメモリ1032に結合される。例示的な一実施形態では、DSP1080は、図1のプロセッサ150または図2のプロセッサ230であってよい。メモリ1032は、図6の方法600および図8の方法800などの、本明細書で開示されている方法およびプロセスを実行するためにDSP1010によって実行可能な命令1060を収めることができる。これらの命令は、図7の方法700などの、本明細書で開示されている方法およびプロセスを実行するためにコーダ/デコーダ(CODEC)1034によっても実行可能であるものとしてよい。これらの命令は、図9の方法900を実行するためにCODEC1034およびDSP1080によっても実行可能であるものとしてよい。
図10は、アプリケーションプロセッサ1010とディスプレイ1028とに結合されているディスプレイコントローラ1026も示している。CODEC1034は、図示されているようにDSP1080に結合され得る。スピーカ1036およびマイクロフォン1038は、CODEC1034に結合され得る。たとえば、マイクロフォン1038は、図2のマイクロフォン210であってよい。図10は、ワイヤレスコントローラ1040がプロセッサ1010、1080に、またワイヤレスアンテナ1042に結合され得ることも示している。
CODEC1034は、アナログ/デジタルコンバータ(ADC)1071と、複数のフィルタ1072と、対数コンバータ1073とを備えることができる。たとえば、ADC1071は、図2のADC221であってよく、フィルタ1072は、図2のフィルタ223であってよく、対数コンバータ1073は、図2の対数コンバータ225であってよい。特定の一実施形態において、CODEC1034はバッファ1074を備えることもできる(たとえば、図2のバッファ227を参照しつつ説明されているように)。あるいは、バッファ1074は、CODEC1034とDSP1080の外部にあってもよい(たとえば、図1のバッファ140を参照しつつ説明されているように)。DSP1080は、変換器1082(たとえば、図2の変換器233)と、1つまたは複数の音声認識オペレーションを実行するように構成されている1つまたは複数の音声認識モジュール1083(たとえば、図2の音声認識モジュール241〜245)とを備えることができる。特定の一実施形態において、変換器1082および音声認識モジュール(複数可)1083は、DSP1080の低電力オーディオサブシステム(LPASS)1081内に備えられ得る。
特定の一実施形態において、プロセッサ1010、1080、ディスプレイコントローラ1026、メモリ1032、CODEC1034、およびワイヤレスコントローラ1040は、システムインパッケージまたはシステムオンチップデバイス(たとえば、移動局モデム(MSM))1022に備えられる。特定の一実施形態において、タッチスクリーンおよび/またはキーパッドなどの入力デバイス1030、および電源1044は、システムオンチップデバイス1022に結合される。さらに、特定の実施形態において、図10に示されているように、ディスプレイ1028、入力デバイス1030、スピーカ1036、マイクロフォン1038、ワイヤレスアンテナ1042、および電源1044は、システムオンチップデバイス1022の外部にある。しかし、ディスプレイ1028、入力デバイス1030、スピーカ1036、マイクロフォン1038、ワイヤレスアンテナ1042、および電源1044の各々は、インターフェースまたはコントローラなどの、システムオンチップデバイス1022のコンポーネントに結合され得る。
説明されている実施形態と併せて、オーディオデータの1つまたは複数のフレームを受信するための手段を備える装置が開示されている。たとえば、受信するための手段は、図1のCODEC120、図2のマイクロフォン210、図3のマイクロフォン310、図10のマイクロフォン1038、オーディオデータのフレームを受信するように構成された1つまたは複数のデバイス、またはこれらの任意の組合せを備えることができる。装置は、プロセッサが低電力状態にあるか、またはアクティブ状態にあるかに依存せずに、オーディオデータの1つまたは複数のフレームをフィルタして、フィルタされたオーディオデータを生成するための手段も備えることができる。たとえば、フィルタするための手段は、図1のCODEC120、図2のフィルタ223、図3のフィルタ323、図10のフィルタ1072、オーディオデータのフレームをフィルタするように構成された1つまたは複数のデバイス、またはこれらの任意の組合せを備えることができる。
この装置は、フィルタされたオーディオデータのエネルギーに基づきオーディオ特徴データを生成するための手段をさらに備えることができる。たとえば、生成するための手段は、図2のCODEC120、図2の対数コンバータ225、図3の対数コンバータ325、図10の対数コンバータ1073、オーディオ特徴データを生成するように構成された1つまたは複数のデバイス、またはこれらの任意の組合せを備えることができる。装置は、オーディオ特徴データを変換して変換データを生成するための手段を備えることができる。たとえば、変換するための手段は、図1のプロセッサ150、図2の変換器233、図3のDCT333、図10の変換器1082、オーディオ特徴データを変換するように構成された1つまたは複数のデバイス、またはこれらの任意の組合せを備えることができる。
装置は、プロセッサが低電力状態からアクティブ状態に遷移した後に、変換データに1つまたは複数のオペレーションを実行するための手段も備え得る。たとえば、実行するための手段は、図1のプロセッサ150、図2の音声認識モジュール241〜245のうちの1つまたは複数、図3の音声認識モジュール340のうちの1つまたは複数、図10の音声認識モジュール(複数可)1083のうちの1つまたは複数、変換データに対してオペレーションを実行するように構成された1つまたは複数のデバイス、またはこれらの任意の組合せを備えることができる。装置は、フィルタするための手段、生成するための手段、および変換するための手段のうちの少なくとも1つの出力をバッファリングするための手段をさらに備えることができる。たとえば、バッファリングするための手段は、図1のバッファ140、図2のバッファ227、図3のバッファリングポイント302〜308のうちの1つまたは複数のところのバッファ、図10のバッファ1074、データをバッファリングするように構成された1つまたは複数のデバイス、またはこれらの任意の組合せを備えることができる。
当業者であれば、本明細書で開示されている実施形態に関して説明されている様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、ハードウェアプロセッサなどの処理デバイスによって実行されるコンピュータソフトウェア、またはその両方の組合せとして実装され得ることをさらに理解するであろう。様々な例示的なコンポーネント、ブロック、構成、モジュール、回路、およびステップが、一般的にその機能に関して説明されている。そのような機能がハードウェアまたは実行可能ソフトウェアとして実施されるかどうかは、特定の応用例とシステム全体に課される設計制約とよって決まる。当業者であれば、各々の特定の用途について様々な方法により説明されている機能を実装することができるが、そのような実装決定は、本開示の範囲からの逸脱を引き起こすものとして解釈すべきではない。
本明細書で開示されている実施形態に関して説明されている方法またはアルゴリズムのステップは、ハードウェアで直接、プロセッサにより実行されるソフトウェアモジュールにより、またはこれら2つの組合せにより具現化することができる。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、磁気抵抗ランダムアクセスメモリ(MRAM)、スピントルク移動MRAM(STT−MRAM)、フラッシュメモリ、リードオンリーメモリ(ROM)、プログラム可能リードオンリーメモリ(PROM)、消去可能プログラム可能リードオンリーメモリ(EPROM)、電気的消去可能プログラム可能リードオンリーメモリ(EEPROM(登録商標))、レジスタ、ハードディスク、取り外し可能ディスク、コンパクトディスクリードオンリーメモリ(CD−ROM)、または当技術分野で知られている他の形態の記憶媒体などの非一時的記憶媒体に存在することができる。例示的な記憶媒体は、プロセッサがその記憶媒体から情報を読み込み、その記憶媒体に情報を書き込めるようにプロセッサに結合される。代替的形態では、記憶媒体は、プロセッサに一体化することができる。プロセッサおよび記憶媒体は、特定用途向け集積回路(ASIC)に収めることもできる。ASICは、コンピューティングデバイスまたはユーザ端末に収めることができる。代替的形態において、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末内のディスクリートコンポーネントとして収めることができる。
開示されている実施形態を前記のように提示したのは、当業者が開示されている実施形態を製作または使用することができるようにするためである。これらの実施形態に対し様々な修正を加えられることは、当業者にとっては明白であろうし、また本明細書で定義されている原理は、本開示の範囲から逸脱することなく他の実施形態にも適用することができる。したがって、本開示は、本明細書に示されている実施形態に限定されることを意図されておらず、以下の請求項によって定められるような原理および新規性のある特徴と一致する可能な最も広い範囲を適用されることを意図されている。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1]
プロセッサにおいて低電力状態から遷移して出ることと、
前記低電力状態から遷移して出た後に、バッファから、前記プロセッサの前記低電力状態の期間中に受信されたオーディオデータの特徴を示すオーディオ特徴データを取り出すことと
を備える方法。
[C2]
前記プロセッサは、デジタルシグナルプロセッサを備え、前記取り出されたオーディオ特徴データに基づきアプリケーションプロセッサをアクティブ化するかどうかを決定することをさらに備えるC1に記載の方法。
[C3]
前記オーディオ特徴データは、前記プロセッサの前記低電力状態の少なくとも一部分の期間においてアクティブであるコーダ/デコーダ(CODEC)によって抽出されるC1に記載の方法。
[C4]
前記プロセッサは、複数のモードで動作するように構成される、ここにおいて、前記複数のモードのうちの第1のモードにおけるCODEC活動/プロセッサ活動の比は、前記複数のモードのうちの第2のモードにおけるCODEC活動/プロセッサ活動の比よりも大きく、前記プロセッサのアプリケーションコンテキストに基づき前記プロセッサをどのようなモードで動作させるかを決定することをさらに備えるC1に記載の方法。
[C5]
前記第1のモードの期間において、前記CODECは常時オンであり、前記プロセッサは第1の比率でデューティサイクルされ、前記第2のモードの期間において、前記CODECは第2の比率でデューティサイクルされ、前記プロセッサは前記第1の比率でデューティサイクルされ、前記第2の比率は前記第1の比率以上であるC4に記載の方法。
[C6]
前記第1のモードの期間において、前記CODECは第1の比率でデューティサイクルされ、前記プロセッサは第2の比率でデューティサイクルされ、前記第2のモードの期間において、前記CODECは第3の比率でデューティサイクルされ、前記プロセッサは前記第2の比率でデューティサイクルされ、ここにおいて前記第1の比率は、前記第2の比率よりも大きく、前記第3の比率は前記第2の比率以下であるC4に記載の方法。
[C7]
特定のモードにおいて、前記オーディオ特徴データは、複数のオーディオフレームに対応し、前記プロセッサは、前記低電力状態に遷移して戻る前に前記オーディオ特徴データを取り出して処理するC4に記載の方法。
[C8]
特定のモードにおいて、前記オーディオ特徴データは、単一のオーディオフレームに対応し、ここにおいて、前記プロセッサは、前記低電力状態に遷移して戻る前に前記オーディオ特徴データを取り出して処理するC4に記載の方法。
[C9]
前記プロセッサは、プログラム可能な時間期間の終了に応答して前記低電力状態から遷移して出る、
蓄積−フォワード−モードでは、前記プログラム可能な時間期間は、前記バッファのサイズに基づき決定される最大の時間期間以下である、
直接転送モードでは、前記プログラム可能な時間期間は、前記バッファの前記サイズと非依存である、C4に記載の方法。
[C10]
前記プロセッサは、前記低電力状態にあり、前記CODECは、
前記オーディオデータを受信し、
複数のフィルタを介して前記オーディオデータをフィルタし、
前記複数のフィルタのうちの各々からフィルタされたオーディオデータのエネルギーを計算し、
対数関数を前記計算されたエネルギーに適用して、前記オーディオ特徴データを生成し、
前記オーディオ特徴データを前記バッファ内に格納し、
前記オーディオデータを破棄する、
C3に記載の方法。
[C11]
前記バッファは、前記CODECの内部にある、C3に記載の方法。
[C12]
前記バッファは、前記CODECの外部にあり、また前記プロセッサの外部にある、C3に記載の方法。
[C13]
前記プロセッサは、デューティサイクルに基づき前記低電力状態に遷移して入り、そして出る、C1に記載の方法。
[C14]
前記オーディオ特徴データを変換することと、
前記変換されたオーディオ特徴データに1つまたは複数の音声認識オペレーションを実行すること、
前記1つまたは複数の音声認識オペレーションを実行した後に前記低電力状態に遷移して戻ることと
をさらに備えるC1に記載の方法。
[C15]
前記オーディオ特徴データを変換することは、複数のメル周波数ケプストラム係数を生成するC14に記載の方法。
[C16]
前記1つまたは複数の音声認識オペレーションは、聴取位置オペレーション、キーワード検出オペレーション、オーディオフィンガープリンティングオペレーション、ターゲット音検出オペレーション、ノベルティ検出オペレーション、またはこれらのいずれかの組合せを含むC14に記載の方法。
[C17]
前記プロセッサは、ワイヤレスデバイス内に一体化され、前記1つまたは複数の音声認識オペレーションの結果に基づき前記ワイヤレスデバイスの移動局モデムの少なくとも一部をアクティブ化するかどうかを決定することをさらに備えるC14に記載の方法。
[C18]
前記1つ又は複数の音声認識オペレーションの結果を複数のアプリケーションの各々に供給することをさらに備えるC14に記載の方法。
[C19]
コーダ/デコーダ(CODEC)においてオーディオデータの一つのフレームを受信することと、
オーディオデータの前記フレームからオーディオ特徴データを抽出することと、及び
前記デューティサイクルされるプロセッサのアクティブ状態の期間中にデューティサイクルされるプロセッサによってアクセス可能なように、バッファに前記抽出されたオーディオ特徴データを格納することと
を備える方法。
[C20]
前記CODECのアナログ/デジタルコンバータをオーディオデータの前記受信されたフレームに適用することをさらに備えるC19に記載の方法。
[C21]
前記オーディオ特徴データを抽出することは、
複数のフィルタを介してオーディオデータの前記フレームをフィルタすることと、
前記複数のフィルタのうちの各々からフィルタされたオーディオデータのエネルギーを計算することと、
対数関数を前記計算されたエネルギーに適用して前記オーディオ特徴データを生成することと
を備えるC19に記載の方法。
[C22]
前記複数のフィルタの各々は、人間の知覚の周波数スケールの異なる部分に対応するメル帯域フィルタを備えるC21に記載の方法。
[C23]
前記オーディオ特徴データを抽出した後にオーディオデータの前記フレームを破棄することをさらに備える、C19に記載の方法。
[C24]
プロセッサと、
前記プロセッサが低電力状態にあるか、またはアクティブ状態にあるかに依存せず、フィルタされたオーディオデータのエネルギーを発生するために、オーディオデータの1つまたは複数のフレームをフィルタする、ように構成された複数のフィルタと、
前記フィルタされたオーディオデータの前記エネルギーに基づきオーディオ特徴データを生成するように構成されたコンバータと、
変換関数を前記オーディオ特徴データに適用して変換データを生成するように構成された変換器と、
ここにおいて、前記プロセッサは、前記低電力状態から前記アクティブ状態に遷移した後に、前記変換データに1つまたは複数のオペレーションを実行するように構成される、
を備えた装置。
[C25]
コーダ/デコーダ(CODEC)をさらに備え、前記コンバータは、対数コンバータを備え、ここにおいて、前記複数のフィルタおよび前記対数コンバータは、前記CODECに一体化されるC24に記載の装置。
[C26]
前記変換器は、前記プロセッサに一体化された離散コサイン変換器を備えるC24に記載の装置。
[C27]
前記オーディオ特徴データを格納するように構成されたバッファをさらに備えるC24に記載の装置。
[C28]
前記バッファは、ランダムアクセスメモリ(RAM)を備えるC24に記載の装置。
[C29]
下記を行うように構成されたプロセッサを備える装置、
前記プロセッサのアプリケーションコンテキストに基づき第1のモードでの動作と第2のモードでの動作とを動的に切り替えること、
低電力状態から遷移して出た後に、バッファから、オーディオ特徴データを取り出すこと、前記オーディオ特徴データは、前記プロセッサが前記低電力状態にある間にコーダ/デコーダ(CODEC)によって受信されたオーディオデータの特徴を示す、
前記オーディオ特徴データを分析すること、
ここにおいて、前記第1のモードにおけるCODEC活動/プロセッサ活動の比は、前記第2のモードにおけるCODEC活動/プロセッサ活動の比よりも大きい。
[C30]
前記第1のモードの期間において、前記CODECは、常時オンであり、前記プロセッサは第1の比率でデューティサイクルされ、前記第2のモードの期間において、前記CODECは第2の比率でデューティサイクルされ、前記プロセッサは前記第1の比率でデューティサイクルされ、前記第2の比率は前記第1の比率以上であるC29に記載の装置。
[C31]
前記第1のモードの期間において、前記CODECは第1の比率でデューティサイクルされ、前記プロセッサは第2の比率でデューティサイクルされ、ここにおいて、前記第2のモードの期間において、前記CODECは第3の比率でデューティサイクルされ、前記プロセッサは前記第2の比率でデューティサイクルされ、ここにおいて、前記第1の比率は、前記第2の比率よりも大きく、ここにおいて、前記第3の比率は前記第2の比率以上である、
C29に記載の装置。
[C32]
前記アプリケーションコンテキストは、聴取位置検出、連続的キーワード検出、連続的オーディオフィンガープリンティング、ターゲット音検出、ノベルティ検出、またはこれらの任意の組合せを含むC29に記載の装置。
[C33]
前記コーダ/デコーダ(CODEC)をさらに備え、ここにおいて、前記CODECは、前記オーディオデータから前記オーディオ特徴データを抽出し、前記バッファに前記抽出されたオーディオ特徴データを格納するように構成される、C29に記載の装置。
[C34]
前記プロセッサは、プログラム可能な時間期間の終了に応答して前記低電力状態から遷移して出る、C29に記載の装置。
[C35]
オーディオデータの1つまたは複数のフレームを受信するための手段と、
プロセッサが低電力状態にあるか、またはアクティブ状態にあるかに依存せずフィルタされたオーディオデータを発生するためにオーディオデータの前記1つまたは複数のフレームをフィルタするための手段と、
前記フィルタされたオーディオデータの前記エネルギーに基づきオーディオ特徴データを生成するための手段と、
前記オーディオ特徴データを変換して変換データを生成するための手段と、
前記プロセッサが前記低電力状態から前記アクティブ状態に遷移した後に、前記変換データに1つまたは複数のオペレーションを実行するための手段と、
を備える装置。
[C36]
フィルタするための前記手段、生成するための前記手段、および変換するための前記手段の少なくとも1つの出力をバッファリングするための手段をさらに備えるC35に記載の装置。
[C37]
プロセッサによる実行時に、前記プロセッサに以下を行わせる命令を備える非一時的プロセッサ可読媒体、
第1のモードでの動作と第2のモードでの動作とを動的に切り替える、ここにおいて、前記第1のモードにおけるコーダ/デコーダ(CODEC)活動/プロセッサ活動の比は、前記第2のモードにおけるCODEC活動/プロセッサ活動の比よりも大きいことと、
デューティサイクルの期間において低電力状態から遷移して出ることと、
前記低電力状態において抽出されたオーディオ特徴データを分析することと、及び
前記低電力状態に遷移して戻ること。
[C38]
前記オーディオ特徴データは、CODECによって抽出される、C37に記載の非一時的プロセッサ可読媒体。
[C39]
電子デバイスの第1のコンポーネントにおいて音声データを受け取ることと、
前記第1のコンポーネントにおいて、前記音声データに対して少なくとも1つの信号検出オペレーションを実行することと、
前記少なくとも1つの信号検出オペレーションの結果に基づき前記電子デバイスの第2のコンポーネントを選択的にアクティブにすること、
ここにおいて、アクティブであるときの前記第2のコンポーネントは、アクティブであるときの前記第1のコンポーネントに比べて前記電子デバイスにおいてより多くの電力を消費する、
を備える方法。
[C40]
前記第1のコンポーネントは、コーダ/デコーダ(CODEC)の第1の部分を備えるC39に記載の方法。
[C41]
前記第2の部分は、前記CODECの第2の部分を備えるC40に記載の方法。
[C42]
前記第2のコンポーネントは、前記電子デバイスのプロセッサを備えるC40に記載の方法。
[C43]
前記第2のコンポーネントにおいて、少なくとも1つの第2の信号検出オペレーションを実行することと、
前記少なくとも1つの第2の信号検出オペレーションの結果に基づき前記電子デバイスの第3のコンポーネントを選択的にアクティブ化すること、
ここにおいて、アクティブであるときの前記第3のコンポーネントは、アクティブであるときの前記第2のコンポーネントに比べて前記電子デバイスにおいてより多くの電力を消費する、
をさらに備えるC40に記載の方法。
[C44]
前記少なくとも1つの信号検出オペレーションは、二乗平均平方根(RMS)分類オペレーション、帯域電力分類オペレーション、時間領域オペレーション、周波数領域オペレーション、パターンマッチングオペレーション、モデルベースオペレーション、ノベルティ検出オペレーション、またはこれらの任意の組合せを備えるC39に記載の方法。

Claims (44)

  1. プロセッサが低電力モードにある間にアクティブコーダ/デコーダ(CODEC)においてオーディオデータを受信することと、前記プロセッサは、CODEC活動プロセッサ活動の比が、前記低電力モードにおけるCODEC活動プロセッサ活動のよりも小さい第2のモードに、前記プロセッサのアプリケーションコンテキストに基づき遷移するように構成される、
    前記プロセッサが前記低電力モードから遷移して出た後に、バッファから、オーディオ特徴データを取り出すことと、前記オーディオ特徴データは、前記オーディオデータの特徴を示す、
    を備える方法。
  2. 前記プロセッサは、デジタルシグナルプロセッサを備え、前記取り出されたオーディオ特徴データに基づきアプリケーションプロセッサをアクティブ化するかどうかを決定することをさらに備える請求項1に記載の方法。
  3. 前記プロセッサが前記低電力モードにある間に前記バッファ内に前記オーディオ特徴データを格納すること
    さらに備える、請求項1に記載の方法。
  4. 前記アプリケーションコンテキストは、アプリケーションの実行に関連し、ここにおいて、前記アプリケーションの実行は、聴取位置検出、連続的キーワード検出、連続的オーディオフィンガープリンティング、ターゲット音検出、ノベルティ検出、またはこれらの任意の組合せを含む請求項1に記載の方法。
  5. 前記低電力モードの期間において、前記CODECはオンであり、前記プロセッサは第1の比率でデューティサイクルされ、ここにおいて、前記第2のモードの期間において、前記CODECは第2の比率でデューティサイクルされ、前記プロセッサは前記第1の比率でデューティサイクルされ、ここにおいて、前記第2の比率は前記第1の比率以上である請求項1に記載の方法。
  6. 前記低電力モードの期間において、前記CODECは第1の比率でデューティサイクルされ、前記プロセッサは第2の比率でデューティサイクルされ、ここにおいて、前記第2のモードの期間において、前記CODECは第3の比率でデューティサイクルされ、前記プロセッサは前記第2の比率でデューティサイクルされ、ここにおいて前記第1の比率は前記第2の比率よりも大きく、前記第3の比率は前記第2の比率以下である請求項1に記載の方法。
  7. 前記オーディオ特徴データは、複数のオーディオフレームに対応し、ここにおいて、前記オーディオ特徴データは、前記プロセッサが前記低電力モードである間前記オーディオデータから抽出され、ここにおいて、前記プロセッサは、前記第2のモードから前記低電力モードに遷移する前に前記オーディオ特徴データを取り出して処理する請求項1に記載の方法。
  8. 前記オーディオ特徴データは、単一のオーディオフレームに対応し、ここにおいて、前記プロセッサは、前記第2のモードから前記低電力モードに遷移する前に前記オーディオ特徴データを取り出して処理する請求項1に記載の方法。
  9. 前記プロセッサは、プログラム可能な時間期間の終了に応答して前記低電力モードから遷移して出る、
    蓄積−フォワード−モードでは、前記プログラム可能な時間期間は、前記バッファのサイズに基づき決定される最大の時間期間以下である、
    直接転送モードでは、前記プログラム可能な時間期間は、前記バッファの前記サイズと非依存である、請求項1に記載の方法。
  10. プロセッサにおいて低電力状態から遷移して出ることと、
    前記低電力状態から遷移して出た後に、バッファからオーディオ特徴データを取り出すことと、前記オーディオ特徴データは、前記低電力状態の少なくとも一部分の期間においてアクティブであるコーダ/デコーダ(CODEC)によって抽出され、前記低電力状態の期間において受信されたオーディオデータの特徴を示す
    ここにおいて、前記プロセッサ前記低電力状態にある間前記CODECは、
    前記オーディオデータを受信し、
    複数のフィルタを介して前記オーディオデータをフィルタし、
    前記複数のフィルタのうちの各々からフィルタされたオーディオデータのエネルギーを計算し、
    対数関数を前記計算されたエネルギーに適用して、前記オーディオ特徴データを生成し、
    前記オーディオ特徴データを前記バッファ内に格納し、
    前記オーディオデータを破棄する、
    を備える方法。
  11. 前記バッファは、前記CODECの内部にある、請求項10に記載の方法。
  12. 前記バッファは、前記CODECの外部にあり、また前記プロセッサの外部にあり、ここにおいて、前記プロセッサは、固定のデューティサイクルに従って一定の比率で前記低電力状態に遷移して入り、そして出る請求項10に記載の方法。
  13. 前記オーディオ特徴データは、前記プロセッサの低電力状態の期間において前記バッファで受信されたオーディオデータの特徴を示し、ここにおいて、前記プロセッサは、デューティサイクルに基づき前記低電力状態に遷移して入り、そして出る、請求項1に記載の方法
  14. 前記オーディオ特徴データを変換することと、
    前記変換されたオーディオ特徴データに1つまたは複数の音声認識オペレーションを実行すること
    前記1つまたは複数の音声認識オペレーションを実行した後に前記低電力状態に遷移すること
    をさらに備える請求項13に記載の方法。
  15. 前記オーディオ特徴データを変換することは、複数のメル周波数ケプストラム係数を生成する請求項14に記載の方法。
  16. 前記1つまたは複数の音声認識オペレーションは、聴取位置オペレーション、キーワード検出オペレーション、オーディオフィンガープリンティングオペレーション、ターゲット音検出オペレーション、ノベルティ検出オペレーション、またはこれらの任意の組合せを含む請求項14に記載の方法。
  17. 前記プロセッサは、ワイヤレスデバイスに一体化され、ここにおいて、前記オーディオ特徴データは、前記プロセッサの低電力状態の期間において前記バッファで受信されたオーディオデータの特徴を示し、さらに、
    前記オーディオ特徴データを変換することと、
    前記変換されたオーディオ特徴データに1つまたは複数の音声認識オペレーションを実行することと、
    前記1つまたは複数の音声認識オペレーションの結果に基づき前記ワイヤレスデバイスの移動局モデムの少なくとも一部をアクティブ化するかどうかを決定すること
    を備える、請求項1に記載の方法。
  18. 前記1つまたは複数の音声認識オペレーションの結果を複数のアプリケーションの各々に提供することをさらに備える請求項17に記載の方法。
  19. デューティサイクルされるプロセッサが第1のモードある間アクティブコーダ/デコーダ(CODEC)においてオーディオデータのつのフレームを受信することと、前記デューティサイクルされるプロセッサは、CODEC活動プロセッサ活動の比が、前記第1のモードにおけるCODEC活動プロセッサ活動のよりも小さいアクティブモードに、前記プロセッサのアプリケーションコンテキストに基づき遷移するように構成される、
    オーディオデータの前記フレームからオーディオ特徴データを抽出することと
    記デューティサイクルされるプロセッサが前記第1のモードにある間、前記アクティブモードの期間において前記デューティサイクルされるプロセッサによってアクセス可能なように、バッファに前記抽出されたオーディオ特徴データを格納すること
    を備える方法。
  20. 前記CODECのアナログ/デジタルコンバータをオーディオデータの前記受信されたフレームに適用することをさらに備える請求項19に記載の方法。
  21. 前記オーディオ特徴データを抽出することは、
    複数のフィルタを介してオーディオデータの前記フレームをフィルタすることと、
    前記複数のフィルタのうちの各々からフィルタされたオーディオデータのエネルギーを計算することと、
    対数関数を前記計算されたエネルギーに適用して前記オーディオ特徴データを生成することと
    を備える請求項19に記載の方法。
  22. 前記複数のフィルタの各々は、人間の知覚の周波数スケールの異なる部分に対応するメル帯域フィルタを備える請求項21に記載の方法。
  23. 前記オーディオ特徴データを抽出した後にオーディオデータの前記フレームを破棄することをさらに備える、請求項19に記載の方法。
  24. プロセッサのアプリケーションコンテキストに基づき低電力モードでの動作とアクティブモードでの動作とを切り替えるように構成された前記プロセッサと、
    前記プロセッサが前記低電力モードあるとき、
    フィルタされたオーディオデータのエネルギーを発生するために、オーディオデータの1つまたは複数のフレームをフィルタし、
    前記フィルタされたオーディオデータの前記エネルギーに基づきオーディオ特徴データを生成する
    ように構成されたコンポーネントと、
    変換関数を前記オーディオ特徴データに適用して変換データを生成するように構成された変換器
    ここにおいて、コンポーネント活動プロセッサ活動の比は、前記アクティブモードに比べて前記低電力モードにおいてより大きく、ここにおいて、前記プロセッサは、前記アクティブモードに前記低電力モードから遷移して出た後に、前記変換データに1つまたは複数のオペレーションを実行するように構成される
    を備える、装置。
  25. オーディオデータの前記1つまたは複数のフレームをフィルタするように構成された複数のフィルタと、
    前記オーディオ特徴データを生成するように構成された対数コンバータと、
    コーダ/デコーダ(CODEC)と、ここにおいて、前記複数のフィルタおよび前記対数コンバータは、前記CODECに一体化される
    をさらに備える、請求項24に記載の装置。
  26. 前記変換器は、前記プロセッサに一体化された離散コサイン変換器を備える請求項24に記載の装置。
  27. 前記オーディオ特徴データを格納するように構成されたバッファをさらに備える請求項24に記載の装置。
  28. 前記バッファは、ランダムアクセスメモリ(RAM)を備える請求項27に記載の装置。
  29. 電力モードから遷移して出た後に、バッファから、オーディオ特徴データを取り出すことと、前記オーディオ特徴データは、プロセッサが前記低電力モードにある間にアクティブコーダ/デコーダ(CODEC)によって受信されたオーディオデータの特徴を示す、ここにおいて、第2のモードにおけるCODEC活動プロセッサ活動の比は、前記低電力モードにおけるCODEC活動プロセッサ活動のよりも小さい
    前記オーディオ特徴データを分析すること
    ここにおいて、前記プロセッサは、前記プロセッサのアプリケーションコンテキストに基づき前記低電力モードと前記第2のモードとを切り替えるように構成される
    を行うように構成された前記プロセッサ
    を備える、装置
  30. 前記低電力モードの期間において、前記CODECはオンであり、前記プロセッサは第1の比率でデューティサイクルされ、ここにおいて、前記第2のモードの期間において、前記CODECは第2の比率でデューティサイクルされ、前記プロセッサは前記第1の比率でデューティサイクルされ、ここにおいて、前記第2の比率は前記第1の比率以上である請求項29に記載の装置。
  31. 前記低電力モードの期間において、前記CODECは第1の比率でデューティサイクルされ、前記プロセッサは第2の比率でデューティサイクルされ、ここにおいて、前記第2のモードの期間において、前記CODECは第3の比率でデューティサイクルされ、前記プロセッサは前記第2の比率でデューティサイクルされ、ここにおいて、前記第1の比率は前記第2の比率よりも大きく、ここにおいて、前記第3の比率は前記第2の比率以上である、請求項29に記載の装置。
  32. 前記アプリケーションコンテキストは、アプリケーションの実行に関連し、ここにおいて、前記アプリケーションの実行は、聴取位置検出、連続的キーワード検出、連続的オーディオフィンガープリンティング、ターゲット音検出、ノベルティ検出、またはこれらの任意の組合せを含む請求項29に記載の装置。
  33. 前記CODECをさらに備え、ここにおいて、前記CODECは、前記オーディオデータから前記オーディオ特徴データを抽出し、前記バッファに前記抽出されたオーディオ特徴データを格納するように構成される、請求項29に記載の装置。
  34. 前記プロセッサは、プログラム可能な時間期間の終了に応答して前記低電力モードから遷移して出る、請求項29に記載の装置。
  35. オーディオデータの1つまたは複数のフレームを受信するための手段と、前記受信するための手段は、
    プロセッサが、第1のモードあるとき、フィルタされたオーディオデータのエネルギーを発生するためにオーディオデータの前記1つまたは複数のフレームをフィルタするための手段と、
    前記プロセッサが、前記第1のモードあるとき、前記フィルタされたオーディオデータの前記エネルギーに基づきオーディオ特徴データを生成するための手段と、
    ここにおいて、前記プロセッサは、前記プロセッサのアプリケーションコンテキストに基づき前記第1のモードでの動作とアクティブモードでの動作とを切り替えるように構成され、受信するための前記手段の活動前記プロセッサの活動の比は、前記アクティブモードに比べて前記第1のモードにおいてより大きい、
    を含み、
    前記オーディオ特徴データを変換して変換データを生成するための手段と、
    前記プロセッサが前記第1のモードから前記アクティブモードに遷移して出た後に、前記変換データに1つまたは複数のオペレーションを実行するための手段と、
    備える装置。
  36. 前記第1のモードは、前記プロセッサの低電力状態に対応し、
    フィルタするための前記手段、生成するための前記手段、および変換するための前記手段のうちの少なくとも1つの出力をバッファリングするための手段
    をさらに備える請求項35に記載の装置。
  37. プロセッサによる実行時に、前記プロセッサに
    低電力モードでの動作と第2のモードでの動作とを切り替えることと、ここにおいて、前記低電力モードにおけるコーダ/デコーダ(CODEC)活動/プロセッサ活動の比は、前記第2のモードにおけるCODEC活動プロセッサ活動の比よりも大きい
    デューティサイクルの期間において前記低電力モードから遷移して出ることと、
    第2の時間期間でオーディオ特徴データを分析することと、前記オーディオ特徴データは、前記CODECがアクティブであり、前記プロセッサが前記低電力モードにあるとき、第1の時間期間において抽出される
    記第2のモードから前記低電力モードに遷移すること
    を行わせる命令を記憶する、プロセッサ可読媒体
  38. 前記オーディオ特徴データは、前記CODECによって抽出される、請求項37に記載のプロセッサ可読媒体。
  39. 電子デバイスの第1のコンポーネントにおいて音声データを受信することと、
    前記第1のコンポーネントがアクティブであり、前記電子デバイスの第2のコンポーネントが低電力モードにある間に、前記音声データに少なくとも1つの信号検出オペレーションを実行することと、
    前記少なくとも1つの信号検出オペレーションの結果に基づき前記第2のコンポーネントをアクティブすること
    ここにおいて、前記第2のコンポーネントは、前記第2のコンポーネントのアプリケーションコンテキストに基づき前記低電力モードでの動作と第2のモードでの動作とを切り替えるように構成され、第2のコンポーネント活動第1のコンポーネント活動の比は、前記第2のモードに比べて前記低電力モードにおいてより少ない、
    を備える方法。
  40. 前記第1のコンポーネントは、コーダ/デコーダ(CODEC)に含まれる請求項39に記載の方法。
  41. アクティブであるときの前記第2のコンポーネントは、アクティブであるときの前記第1のコンポーネントに比べて前記電子デバイスにおいてより多くの電力を消費する請求項39に記載の方法。
  42. 前記第2のコンポーネントは、前記電子デバイスのプロセッサを備える請求項39に記載の方法。
  43. 前記第1のコンポーネントにおいて、少なくとも1つの第2の信号検出オペレーションを実行することと、
    前記少なくとも1つの第2の信号検出オペレーションの結果に基づき前記電子デバイスの前記第2のコンポーネントをアクティブ化すること
    をさらに備える請求項39に記載の方法。
  44. 前記少なくとも1つの信号検出オペレーションは、二乗平均平方根(RMS)分類オペレーション、帯域電力分類オペレーション、時間領域オペレーション、周波数領域オペレーション、パターンマッチングオペレーション、モデルベースオペレーション、ノベルティ検出オペレーション、またはこれらの任意の組合せを含む請求項39に記載の方法。
JP2014538799A 2011-11-01 2012-09-25 オーディオ特徴データの抽出と分析 Active JP6076994B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161554318P 2011-11-01 2011-11-01
US61/554,318 2011-11-01
US13/483,732 US9992745B2 (en) 2011-11-01 2012-05-30 Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
US13/483,732 2012-05-30
PCT/US2012/057078 WO2013066523A2 (en) 2011-11-01 2012-09-25 Extraction and analysis of audio feature data

Publications (3)

Publication Number Publication Date
JP2015501450A JP2015501450A (ja) 2015-01-15
JP2015501450A5 JP2015501450A5 (ja) 2016-10-06
JP6076994B2 true JP6076994B2 (ja) 2017-02-08

Family

ID=48173294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014538799A Active JP6076994B2 (ja) 2011-11-01 2012-09-25 オーディオ特徴データの抽出と分析

Country Status (8)

Country Link
US (1) US9992745B2 (ja)
EP (1) EP2774420A2 (ja)
JP (1) JP6076994B2 (ja)
KR (1) KR101622493B1 (ja)
CN (2) CN108551686B (ja)
BR (1) BR112014010032A8 (ja)
IN (1) IN2014MN00769A (ja)
WO (1) WO2013066523A2 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101804799B1 (ko) * 2011-10-25 2017-12-06 삼성전자주식회사 저전력으로 오디오 데이터를 재생하는 장치 및 방법
KR20160036104A (ko) 2011-12-07 2016-04-01 퀄컴 인코포레이티드 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로
CN104396275B (zh) * 2012-03-29 2017-09-29 海宝拉株式会社 使用耳内插入型麦克风的有线无线耳机
WO2013179263A1 (en) * 2012-05-30 2013-12-05 Marvell World Trade Ltd. Network presence offload
US9256269B2 (en) * 2013-02-20 2016-02-09 Sony Computer Entertainment Inc. Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
US9703350B2 (en) * 2013-03-15 2017-07-11 Maxim Integrated Products, Inc. Always-on low-power keyword spotting
US9270801B2 (en) * 2013-03-15 2016-02-23 Intel Corporation Low power audio trigger via intermittent sampling
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US20140337030A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Adaptive audio frame processing for keyword detection
US20140337031A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword
US20150032238A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device for Audio Input Routing
CN104683933A (zh) 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
WO2015100430A1 (en) 2013-12-24 2015-07-02 Digimarc Corporation Methods and system for cue detection from audio input, low-power data processing and related arrangements
JP6068401B2 (ja) * 2014-07-30 2017-01-25 ファナック株式会社 加工プログラムの読み出し時間に左右されないdnc運転手段を備えた数値制御装置
US9549273B2 (en) 2014-08-28 2017-01-17 Qualcomm Incorporated Selective enabling of a component by a microphone circuit
WO2016048037A1 (ko) * 2014-09-23 2016-03-31 엘지전자 주식회사 무선 통신 시스템에서 장치 대 장치 단말의 디스커버리 신호 전송 방법 및 장치
CN106797507A (zh) * 2014-10-02 2017-05-31 美商楼氏电子有限公司 低功率声学装置和操作方法
US9693375B2 (en) * 2014-11-24 2017-06-27 Apple Inc. Point-to-point ad hoc voice communication
US9652017B2 (en) 2014-12-17 2017-05-16 Qualcomm Incorporated System and method of analyzing audio data samples associated with speech recognition
US10719115B2 (en) * 2014-12-30 2020-07-21 Avago Technologies International Sales Pte. Limited Isolated word training and detection using generated phoneme concatenation models of audio inputs
CN104636474A (zh) * 2015-02-13 2015-05-20 王磊 构建音频指纹库及检索音频指纹的方法和设备
AU2015390534B2 (en) 2015-04-10 2019-08-22 Honor Device Co., Ltd. Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal
US11956503B2 (en) * 2015-10-06 2024-04-09 Comcast Cable Communications, Llc Controlling a device based on an audio input
US10057642B2 (en) 2015-10-06 2018-08-21 Comcast Cable Communications, Llc Controlling the provision of power to one or more devices
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
WO2017151650A1 (en) 2016-02-29 2017-09-08 Littrell Robert J A piezoelectric mems device for producing a signal indicative of detection of an acoustic stimulus
CN106910494B (zh) 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置
CN106782529B (zh) * 2016-12-23 2020-03-10 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
US11024302B2 (en) * 2017-03-14 2021-06-01 Texas Instruments Incorporated Quality feedback on user-recorded keywords for automatic speech recognition systems
CN108563468B (zh) * 2018-03-30 2021-09-21 深圳市冠旭电子股份有限公司 一种蓝牙音箱数据处理的方法、装置及蓝牙音箱
US10321251B1 (en) * 2018-06-18 2019-06-11 Republic Wireless, Inc. Techniques of performing microphone switching for a multi-microphone equipped device
WO2020111676A1 (ko) 2018-11-28 2020-06-04 삼성전자 주식회사 음성 인식 장치 및 방법
KR20200063984A (ko) * 2018-11-28 2020-06-05 삼성전자주식회사 음성 인식 장치 및 방법
CN109814406B (zh) * 2019-01-24 2021-12-24 成都戴瑞斯智控科技有限公司 一种轨道模型电控仿真系统的数据处理方法及解码器架构
EP3939336A4 (en) 2019-03-14 2022-12-07 Qualcomm Technologies, Inc. PIEZOELECTRIC MEMS DEVICE WITH ADAPTIVE THRESHOLD FOR DETECTING AN ACOUSTIC STIMULUS
WO2020186265A1 (en) * 2019-03-14 2020-09-17 Vesper Technologies Inc. Microphone having a digital output determined at different power consumption levels
US11726105B2 (en) 2019-06-26 2023-08-15 Qualcomm Incorporated Piezoelectric accelerometer with wake function
CN113628616A (zh) * 2020-05-06 2021-11-09 阿里巴巴集团控股有限公司 音频采集设备、无线耳机以及电子设备系统
TWI748587B (zh) * 2020-08-04 2021-12-01 瑞昱半導體股份有限公司 聲音事件偵測系統及方法
KR102599480B1 (ko) * 2021-05-18 2023-11-08 부산대학교 산학협력단 키워드 음성인식을 위한 자동 학습 시스템 및 방법
CN115579013B (zh) * 2022-12-09 2023-03-10 深圳市锦锐科技股份有限公司 一种低功耗音频解码器
CN116456441B (zh) * 2023-06-16 2023-10-31 荣耀终端有限公司 声音处理装置、方法和电子设备

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278944A (en) * 1992-07-15 1994-01-11 Kokusai Electric Co., Ltd. Speech coding circuit
JPH07121195A (ja) 1993-10-25 1995-05-12 Sony Corp 音声処理用ディジタルシグナルプロセッサ
JPH07244494A (ja) 1994-03-04 1995-09-19 Ricoh Co Ltd 音声認識装置
US6070140A (en) 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US5721938A (en) 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JP3726448B2 (ja) 1997-03-12 2005-12-14 セイコーエプソン株式会社 認識対象音声検出方法およびその装置
JP4827274B2 (ja) 1997-12-30 2011-11-30 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー コマンド辞書を使用する音声認識方法
GB2342828A (en) 1998-10-13 2000-04-19 Nokia Mobile Phones Ltd Speech parameter compression; distributed speech recognition
EP1058876B1 (en) 1999-01-06 2009-11-25 Koninklijke Philips Electronics N.V. Speech input device with attention span
US6408272B1 (en) 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6393572B1 (en) * 1999-04-28 2002-05-21 Philips Electronics North America Corporation Sleepmode activation in a slave device
JP2000315097A (ja) 1999-04-30 2000-11-14 Canon Inc 電子機器、その制御方法、及び記録媒体
US6594630B1 (en) 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device
US8108218B1 (en) 1999-12-13 2012-01-31 Avaya Inc. Methods and apparatus for voice recognition for call treatment modification on messaging
KR100340045B1 (ko) 1999-12-24 2002-06-12 오길록 저전력 음성 명령어 구동 휴대 정보단말 장치 및 그를 이용한 음성인식 방법
KR100447667B1 (ko) 2000-04-12 2004-09-08 이경목 음성 인식 기능을 갖는 컴퓨터와 학습용 인형들을 이용한 상호 대화 언어 학습 시스템
JP2002123283A (ja) 2000-10-12 2002-04-26 Nissan Motor Co Ltd 音声認識操作装置
US20020077830A1 (en) 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
EP1374228B1 (en) 2001-03-14 2005-02-02 International Business Machines Corporation Method and processor system for processing of an audio signal
US8266451B2 (en) 2001-08-31 2012-09-11 Gemalto Sa Voice activated smart card
US6987947B2 (en) * 2001-10-30 2006-01-17 Unwired Technology Llc Multiple channel wireless communication system
KR100594140B1 (ko) 2002-04-13 2006-06-28 삼성전자주식회사 무선통신시스템의 패킷 데이터 서비스 방법
TWI225640B (en) 2002-06-28 2004-12-21 Samsung Electronics Co Ltd Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device
JP2004226698A (ja) 2003-01-23 2004-08-12 Yaskawa Electric Corp 音声認識装置
JP2004265217A (ja) 2003-03-03 2004-09-24 Nec Corp 音声認識機能を有する移動通信端末とその端末を利用したキーワード検索方法
KR20050110021A (ko) 2003-03-17 2005-11-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 디바이스의 원격 제어 방법
JP2004294946A (ja) 2003-03-28 2004-10-21 Toshiba Corp 携帯型電子機器
JP4301896B2 (ja) 2003-08-22 2009-07-22 シャープ株式会社 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器
TWI222837B (en) 2003-10-14 2004-10-21 Design Technology Inc G Audio signal compression processing device to with reduced power consumption
US20060074658A1 (en) 2004-10-01 2006-04-06 Siemens Information And Communication Mobile, Llc Systems and methods for hands-free voice-activated devices
JP2007219207A (ja) 2006-02-17 2007-08-30 Fujitsu Ten Ltd 音声認識装置
JP2007255897A (ja) 2006-03-20 2007-10-04 Clarion Co Ltd ナビゲーションシステム並びに装置、その制御方法及び制御プログラム
US20070254680A1 (en) 2006-05-01 2007-11-01 Shary Nassimi Wirefree intercom having low power system and process
KR100744301B1 (ko) 2006-06-01 2007-07-30 삼성전자주식회사 음성 인식을 이용하여 동작 모드를 전환하는 휴대 단말기및 그 방법
US8207936B2 (en) 2006-06-30 2012-06-26 Sony Ericsson Mobile Communications Ab Voice remote control
EP1879000A1 (en) 2006-07-10 2008-01-16 Harman Becker Automotive Systems GmbH Transmission of text messages by navigation systems
EP1939860B1 (en) 2006-11-30 2009-03-18 Harman Becker Automotive Systems GmbH Interactive speech recognition system
US9760146B2 (en) 2007-01-08 2017-09-12 Imagination Technologies Limited Conditional activation and deactivation of a microprocessor
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US7774626B2 (en) 2007-03-29 2010-08-10 Intel Corporation Method to control core duty cycles using low power modes
EP1978765A1 (en) 2007-04-02 2008-10-08 BRITISH TELECOMMUNICATIONS public limited company Power management scheme for mobile communication devices
JP2008309864A (ja) 2007-06-12 2008-12-25 Fujitsu Ten Ltd 音声認識装置および音声認識方法
US20090055005A1 (en) 2007-08-23 2009-02-26 Horizon Semiconductors Ltd. Audio Processor
US8725520B2 (en) 2007-09-07 2014-05-13 Qualcomm Incorporated Power efficient batch-frame audio decoding apparatus, system and method
US8554550B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multi resolution analysis
US8050932B2 (en) * 2008-02-20 2011-11-01 Research In Motion Limited Apparatus, and associated method, for selecting speech COder operational rates
KR20090107365A (ko) 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
JP5327838B2 (ja) 2008-04-23 2013-10-30 Necインフロンティア株式会社 音声入力分散処理方法及び音声入力分散処理システム
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
CA2665055C (en) 2008-05-23 2018-03-06 Accenture Global Services Gmbh Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto
JP2010136292A (ja) * 2008-12-08 2010-06-17 Toshiba Corp 画像処理装置
WO2010078386A1 (en) 2008-12-30 2010-07-08 Raymond Koverzin Power-optimized wireless communications device
JP4809454B2 (ja) 2009-05-17 2011-11-09 株式会社半導体理工学研究センター 発話推定による回路起動方法及び回路起動装置
JP2011071937A (ja) 2009-09-28 2011-04-07 Kyocera Corp 電子機器
US20110099507A1 (en) 2009-10-28 2011-04-28 Google Inc. Displaying a collection of interactive elements that trigger actions directed to an item
CN201752079U (zh) 2010-01-15 2011-02-23 硕呈科技股份有限公司 待命模式的电源变动唤醒装置
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR20110110434A (ko) 2010-04-01 2011-10-07 삼성전자주식회사 저전력 오디오 재생장치 및 방법
KR101733205B1 (ko) 2010-04-05 2017-05-08 삼성전자주식회사 오디오 디코딩 시스템 및 그것의 오디오 디코딩 방법
US9112989B2 (en) 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
US8359020B2 (en) 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
US8606293B2 (en) 2010-10-05 2013-12-10 Qualcomm Incorporated Mobile device location estimation using environmental information
US9443511B2 (en) 2011-03-04 2016-09-13 Qualcomm Incorporated System and method for recognizing environmental sound
US8798995B1 (en) 2011-09-23 2014-08-05 Amazon Technologies, Inc. Key word determinations from voice data
US8924219B1 (en) 2011-09-30 2014-12-30 Google Inc. Multi hotword robust continuous voice command detection in mobile devices
US9031847B2 (en) 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US8666751B2 (en) 2011-11-17 2014-03-04 Microsoft Corporation Audio pattern matching for device activation
KR20160036104A (ko) 2011-12-07 2016-04-01 퀄컴 인코포레이티드 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로
DE102013001219B4 (de) 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus

Also Published As

Publication number Publication date
CN103999517A (zh) 2014-08-20
WO2013066523A2 (en) 2013-05-10
CN108551686A (zh) 2018-09-18
EP2774420A2 (en) 2014-09-10
KR20140082737A (ko) 2014-07-02
BR112014010032A2 (pt) 2017-06-13
BR112014010032A8 (pt) 2017-06-20
KR101622493B1 (ko) 2016-05-18
US9992745B2 (en) 2018-06-05
US20130110521A1 (en) 2013-05-02
WO2013066523A3 (en) 2013-07-11
CN103999517B (zh) 2018-06-12
JP2015501450A (ja) 2015-01-15
IN2014MN00769A (ja) 2015-07-03
CN108551686B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
JP6076994B2 (ja) オーディオ特徴データの抽出と分析
JP2015501450A5 (ja)
US9549273B2 (en) Selective enabling of a component by a microphone circuit
US20210264947A1 (en) System and method of determining auditory context information
TWI730584B (zh) 關鍵詞的檢測方法以及相關裝置
CN105869655B (zh) 音频装置以及语音检测方法
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
US10714092B2 (en) Music detection and identification
EP2994911B1 (en) Adaptive audio frame processing for keyword detection
CN110265011B (zh) 一种电子设备的交互方法及其电子设备
JP2016526178A (ja) ターゲットキーワードを検出するための方法および装置
CN103440862A (zh) 一种语音与音乐合成的方法、装置以及设备
WO2019233228A1 (zh) 电子设备及设备控制方法
US11264049B2 (en) Systems and methods for capturing noise for pattern recognition processing
WO2019242414A1 (zh) 语音处理方法、装置、存储介质及电子设备
JP2017509009A (ja) オーディオストリームの中の音楽の追跡
WO2020228226A1 (zh) 一种纯音乐检测方法、装置及存储介质
US10693944B1 (en) Media-player initialization optimization
CN104049707B (zh) 永远接通低功率关键字检出
JP2024081689A (ja) ノイズロバストなキーワードスポッティングのためのカスケードアーキテクチャ

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160517

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20160816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170111

R150 Certificate of patent or registration of utility model

Ref document number: 6076994

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250