JP2013527490A - モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法 - Google Patents

モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法 Download PDF

Info

Publication number
JP2013527490A
JP2013527490A JP2013504014A JP2013504014A JP2013527490A JP 2013527490 A JP2013527490 A JP 2013527490A JP 2013504014 A JP2013504014 A JP 2013504014A JP 2013504014 A JP2013504014 A JP 2013504014A JP 2013527490 A JP2013527490 A JP 2013527490A
Authority
JP
Japan
Prior art keywords
signal
processing
information
digital audio
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013504014A
Other languages
English (en)
Inventor
リ、テ−ウォン
エル−マレー、クハレド
ヨ、ヘジョン
シン、ジョンウォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013527490A publication Critical patent/JP2013527490A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6008Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • H04M1/65Recording arrangements for recording a message from the calling party
    • H04M1/656Recording arrangements for recording a message from the calling party for recording conversations

Abstract

少なくとも1つのマイクロフォンによってキャプチャされるオーディオ信号の記録を自動的に開始および終了できる、モバイルデバイスが提示される。モバイルデバイスは、オーディオ入力信号のコンテキスト情報に基づいて、オーディオロギングに関連するいくつかのパラメータを調整することができる。
【選択図】図1A

Description

優先権の主張
関連出願
本出願の譲受人に譲渡され、参照により本明細書に明確に組み込まれる、2010年4月8日に出願された「SMART AUDIO LOGGING」と題する米国特許仮出願第61/322,176号の優先権が主張される。
本開示は全般に、オーディオ信号および発話信号のキャプチャに関する。より具体的には、本開示は、オーディオコンテキスト情報の分析に基づいて、オーディオ信号および発話信号のキャプチャ動作または代替的にはロギング動作を、開始および/または終了できるモバイルデバイスに関する。
特定用途向け集積回路(ASIC)における電力制御技術と、デジタルシグナルプロセッサ(DSP)またはマイクロプロセッサのようなモバイルプロセッサの計算能力の向上によって、最近までは必要な計算能力またはハードウェア(HW)のサポートの不足によって不可能であると見られていたはるかに複雑な機能を、現在ではさらに多くのモバイルデバイスが実現できる。たとえば、移動局(MS)または携帯電話は、最初は、従来の回線ベースのワイヤレスセルラーネットワークを通じて、音声または発話の通信を可能にするように開発された。したがって、MSは元々、音声圧縮、音響エコー除去(AEC:acoustic echo cancellation)、ノイズ抑制(NS:noise suppression)、および音声記録のような、基本的な音声用途に対処するように設計された。
音声圧縮アルゴリズムを実施する処理はボコーディングとして知られ、実施する装置はボコーダまたは「スピーチコーダ」として知られる。発話の通信を必要とする様々なデジタル通信システムをサポートする、いくつかの標準化されたボコーディングアルゴリズムが存在する。第3世代パートナーシッププロジェクト2(3GPP2)は、IS−95、CDMA2000 1x Radio Transmission Technology(1xRTT)、およびCDMA2000 Evolution−Data Optimized(EV−DO)通信システムのような、符号分割多元接続(CDMA)技術を規定する、例示的な標準化団体である。第3世代パートナーシッププロジェクト(3GPP)は、Global System for Mobile Communications(GSM)(登録商標)、Universal Mobile Telecommunications System(UMTS)、High−Speed Downlink Packet Access(HSDPA)、High−Speed Uplink Packet Access(HSUPA)、High−Speed Packet Access Evolution(HSPA+)、およびLong Term Evolution(LTE)を規定する、別の例示的な標準化団体である。Voice over Internet Protocol(VOIP)は、3GPPおよび3GPP2などで定義された通信システムにおいて使用される例示的なプロトコルである。そのような通信システムおよびプロトコルにおいて採用されるボコーダの例には、International Telecommunications Union(ITU)−T G.729、Adaptive Multi−Rate(AMR) codec、およびEnhanced Variable Rate Codec(EVRC) speech service options 3、68および70がある。
音声記録は、人の声を録音するための適用例である。音声記録は、互換的に、音声ロギングまたは音声メモリと呼ばれることがよくある。音声記録は、1つまたは複数のマイクロフォンによって捉えられた発話信号の一部を、ユーザがメモリ空間に保存できるようにする。保存された音声記録は、同じデバイスで後で再生することができ、または、音声通信システムを通じて異なるデバイスに送信することができる。音声レコーダは何らかの音楽信号を記録できるが、音声レコーダは、人の声道によって発せられる発話の特性に最適化されているので、録音された音楽の品質は通常は優れてはいない。
オーディオ記録またはオーディオロギングは、音声記録と互換的に用いられることがあるが、人の声道によって生成される信号よりも高周波の信号を捉える能力によって、人の声と、楽器と、音楽とを含むあらゆる可聴の音を記録するための、異なる適用例として理解されることがある。本出願の文脈では、「オーディオロギング」または「オーディオ記録」という用語は、音声記録またはオーディオ記録を指すために広く用いられる。
オーディオロギングは、1つまたは複数のマイクロフォンによって通常捉えられる、関心のあるオーディオ信号のすべてまたは一部を、1つまたは複数のモバイルデバイスに記録することを可能にする。オーディオロギングは、互換的に、オーディオ記録またはオーディオメモと呼ばれることがある。
本明細書は、デジタルオーディオ信号を処理する、モバイルデバイスのための方法を説明する。この方法は、少なくとも1つのマイクロフォンによって音響信号を受信するステップと、受信された音響信号をデジタルオーディオ信号に変換するステップと、デジタルオーディオ信号から少なくとも1つの聴覚コンテキスト情報を抽出するステップと、イベント開始インジケータを自動的に検出したことに応答して、デジタルオーディオ信号のオーディオロギングを実行するステップと、イベント終了インジケータを自動的に検出したことに応答して、オーディオロギングを終了するステップとを含む。この少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別に関連し得る。この少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レート(ゼロ交差レートzero-crossing rate)に少なくとも一部基づき得る。この少なくとも1つの聴覚コンテキスト情報は、スケジューリング情報またはカレンダー情報のような、非聴覚情報に少なくとも一部基づき得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。
本明細書は、デジタルオーディオ信号を処理する、モバイルデバイスのための方法も説明する。この方法は、少なくとも1つのマイクロフォンによって音響信号を受信するステップと、受信された音響信号を電気信号に変換するステップと、各々のサンプリングされるデータのサンプリング周波数およびデータ幅に基づいて電気信号をサンプリングして、デジタルオーディオ信号を得るステップと、デジタルオーディオ信号をバッファに記憶するステップと、デジタルオーディオ信号から少なくとも1つの聴覚コンテキスト情報を抽出するステップと、イベント開始インジケータを自動的に検出したことに応答して、デジタルオーディオ信号のオーディオロギングを実行するステップと、イベント終了インジケータを自動的に検出したことに応答して、オーディオロギングを終了するステップとを含む。イベント開始インジケータまたはイベント終了インジケータのこの検出は、スケジューリング情報またはカレンダー情報のような、非聴覚情報に少なくとも一部基づき得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。
本明細書はまた、イベント開始インジケータを検出する方法を説明する。この方法は、少なくとも1つの聴覚コンテキスト情報から少なくとも1つのコンテキスト情報を選択するステップと、選択されたコンテキスト情報を少なくとも1つの予め定められた閾値と比較するステップと、選択されたコンテキスト情報と少なくとも1つの予め定められた閾値との比較に基づいて、イベント開始インジケータが検出されたかどうか判定するステップとを含む。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。
本明細書はまた、イベント終了インジケータを検出する方法を説明する。この方法は、少なくとも1つの聴覚コンテキスト情報から少なくとも1つのコンテキスト情報を選択するステップと、選択されたコンテキスト情報を少なくとも1つの予め定められた閾値と比較するステップと、選択されたコンテキスト情報と少なくとも1つの予め定められた閾値との比較に基づいて、イベント終了インジケータが検出されたかどうか判定するステップとを含む。イベント終了インジケータのこの検出は、予め定められた期間に、聴覚イベントが発生しないことに少なくとも一部基づき得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。
本明細書はまた、オーディオロギングを実行する方法を説明する。この方法は、少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて追加の処理が必要かどうかを判定したことに応答して、少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づく変換に関連する少なくとも1つのパラメータを更新するステップと、デジタルオーディオ信号に対して追加の処理を適用して処理されたオーディオ信号を得るステップと、処理されたオーディオ信号をメモリ記憶装置に記憶するステップとを含む。追加の処理は、音響エコー除去(AEC)、音声増強の受信(RVE:receiving voice enhancement)、アクティブなノイズ除去(ANC:active noise cancellation)、ノイズ抑制(NS)、音響利得制御(AGC:acoustic gain control)、音量制御(AVC:acoustic volume control)、または音響ダイナミックレンジ制御(ADRC:acoustic dynamic range control)のような、信号増強処理であってよい。ノイズ抑制は、単一のマイクロフォンまたは複数のマイクロフォンに基づく方法に、基づき得る。追加の処理は、発話圧縮または音声圧縮のような、信号圧縮処理であってよい。圧縮モード、ビットレート、またはチャネル数のような圧縮パラメータは、聴覚コンテキスト情報に基づいて決定され得る。メモリ記憶装置は、モバイルデバイスの内部のローカルメモリ、またはワイヤレスチャネルを通じてモバイルデバイスに接続されるリモートメモリを含む。ローカルメモリとリモートメモリの選択は、聴覚コンテキスト情報に少なくとも一部基づき得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。
本明細書はまた、イベント開始インジケータを自動的に検出するステップと、イベント開始インジケータの検出に応答して、オーディオ入力信号の第1の部分を処理して第1の情報を得るステップと、第1の情報に基づいて少なくとも1つの記録パラメータを決定するステップと、決定された少なくとも1つの記録パラメータに基づいて、モバイルデバイスのオーディオキャプチャユニットを再構成するステップとを含む、モバイルデバイスのための方法を説明する。この再構成するステップは、オーディオ入力信号の非アクティブな部分の間に行なわれ得る。この少なくとも1つの記録パラメータは、モバイルデバイスのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む。この少なくとも1つの記録パラメータは、モバイルデバイスのアクティブなマイクロフォンの数を示す情報、または、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む。この第1の情報は、モバイルデバイスが記録を行なっている環境、またはオーディオ入力信号の特性を表す、コンテキスト情報であってよい。このイベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づき得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。
本明細書はまた、イベント開始インジケータを自動的に検出するステップと、イベント開始インジケータの検出に応答して、オーディオ入力信号の第1の部分を処理して第1の情報を得るステップと、第1の情報に基づいて少なくとも1つの記録パラメータを決定するステップと、決定された少なくとも1つの記録パラメータに基づいて、モバイルデバイスのオーディオキャプチャユニットを再構成するステップと、オーディオ入力信号の第2の部分を処理して第2の情報を得るステップと、バックグラウンドノイズを抑制することによってオーディオ入力信号を増強して増強された信号を得るステップと、増強された信号を符号化して符号化された信号を得るステップと、モバイルデバイス内のローカルの記憶装置に符号化された信号を記憶するステップとを含む、モバイルデバイスのための方法を説明する。増強された信号を符号化するこのステップは、第2の情報に基づいて符号化タイプを決定するステップと、決定された符号化のための少なくとも1つの符号化パラメータを決定するステップと、決定された符号化タイプと決定された少なくとも1つの符号化パラメータとに基づいて増強された信号を処理して、符号化された信号を得るステップとを含む。本明細書においてこの少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを含む。加えて、この方法は、第2の情報に基づいて、オーディオ入力信号の増強の度合いを決定するステップを含み得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。
本明細書はまた、イベント開始インジケータを自動的に検出するステップと、イベント開始インジケータの検出に応答して、オーディオ入力信号の第1の部分を処理して第1の情報を得るステップと、第1の情報に基づいて少なくとも1つの記録パラメータを決定するステップと、決定された少なくとも1つの記録パラメータに基づいて、モバイルデバイスのオーディオキャプチャユニットを再構成するステップと、オーディオ入力信号の第2の部分を処理して第2の情報を得るステップと、バックグラウンドノイズを抑制することによってオーディオ入力信号を増強して増強された信号を得るステップと、増強された信号を符号化して符号化された信号を得るステップと、モバイルデバイス内のローカルの記憶装置に符号化された信号を記憶するステップとを含む、モバイルデバイスのための方法を説明する。加えて、この方法は、イベント終了インジケータを自動的に検出するステップと、イベント終了インジケータを検出したことに応答して、モバイルデバイス内のローカルの記憶装置と、ワイヤレスチャネルを通じてモバイルデバイスに接続されるネットワーク記憶装置から、符号化された信号のための長期記憶装置の位置を決定するステップとを含み得る。長期記憶装置の位置のこの決定は、符号化された信号の優先度に基づき得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。
本明細書で説明する実施形態の態様および付随する利点は、添付の図面とともに以下の詳細な説明を参照すればより容易に明らかになろう。
スマートオーディオロギングシステムの概念を示す図。 スマートオーディオロギングシステムの概念を示す別の図。 従来のオーディオロギングシステムの概念を示す図。 スマートオーディオロギングシステムの例示的な実施形態の図。 出力処理ユニット240の実施形態の図。 入力処理ユニット250の実施形態の図。 オーディオロギングプロセッサ230の実施形態の図。 コンテキスト情報S600の例を示す図。 コンテキスト識別器560の実施形態の図。 コンテキスト識別器560およびコンテキスト情報S600の例示的な実施形態の図。 単一レベルのイベント開始インジケータの発生機構の実施形態の図。 単一レベルのイベント開始インジケータの発生機構の別の実施形態の図。 イベント終了インジケータの発生機構の実施形態の図。 オーディオロギングプロセッサ230の状態と状態の遷移とを示す第1の例示的な実施形態の図。 オーディオロギングプロセッサ230の状態と状態の遷移とを示す第2の例示的な実施形態の図。 パッシブ(passive)オーディオ監視状態S1またはオーディオ監視状態S4の間の、オーディオキャプチャユニット215の実施形態の流れ図。 パッシブオーディオ監視状態S1またはオーディオ監視状態S4の間に、オーディオキャプチャユニット215においてデジタルオーディオ入力をバッファ220に記憶するための例の図。 パッシブオーディオ監視状態S1の間の、オーディオロギングプロセッサ230の実施形態の流れ図。 アクティブオーディオ監視状態S2の間の、オーディオキャプチャユニット215の実施形態の流れ図。 アクティブオーディオ監視状態S2の間に、オーディオキャプチャユニット215においてデジタルオーディオ入力をバッファ220に記憶するための例の図。 アクティブオーディオ監視状態S2の間の、オーディオロギングプロセッサ230の実施形態の流れ図。 アクティブオーディオ監視状態S2の間の、オーディオロギングプロセッサ230におけるコンテキスト識別の実施形態の例の図。 アクティブオーディオロギング状態S3またはS5の間の、オーディオキャプチャユニット215の実施形態の流れ図。 アクティブオーディオロギング状態S3の間の、オーディオロギングプロセッサ230の実施形態の流れ図。 オーディオ監視状態S4の間の、オーディオロギングプロセッサ230の実施形態の流れ図。 アクティブオーディオロギング状態S5の間の、オーディオロギングプロセッサ230の実施形態の流れ図。 アクティブオーディオロギング状態S3またはS5の間の、コアオーディオロギングモジュールの実施形態の流れ図。 単一のマイクロフォンのオンおよびオフの制御の実施形態の図。 単一のマイクロフォンのオンおよびオフの制御の第1の実施形態の図。 単一のマイクロフォンのオンおよびオフの制御の第2の実施形態の図。 複数のマイクロフォンのオンおよびオフの制御の第1の実施形態の図。 複数のマイクロフォンのオンおよびオフの制御の第2の実施形態の図。 アクティブなマイクロフォンの数の制御の実施形態の図。 事前に定められたコンテキスト情報S600の優先度に従って選択が制御され得る、記憶装置の位置の選択の実施形態の図。 アクティブオーディオロギング状態S3またはS5の間に、コンテキスト情報S600の優先度に従って選択が動的に制御され得る、記憶装置の位置の選択の実施形態の図。 事前に定められたコンテキスト情報S600の優先度に従って期限切れが制御され得る、記憶装置の期限切れ時間の設定の実施形態の図。 アクティブなブロックの数およびその全体の消費電力が各状態に従って動的に制御され得る、スマートオーディオロギングシステム内のブロックの段階的な起動の実施形態の図。 精度が、各々の事前に決定された状態にふさわしいように構成され得る、または、コンテキスト情報S600に従って動的に制御され得る、A/Dコンバータの精度制御の実施形態の図。 増強が、コンテキスト情報S600に従って動的に構成され得る、オーディオ入力信号の増強制御の実施形態の図。 圧縮が、コンテキスト情報S600に従って動的に構成され得る、オーディオ圧縮パラメータの制御の実施形態の図。 圧縮符号化フォーマットの選択またはその選択の欠如が、コンテキスト情報S600に従って動的に構成され得る、圧縮符号化フォーマットの選択の実施形態の図。
本出願は、添付の図面を参照することでより理解されるだろう。
文脈から明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上で表されるようなメモリの位置(またはメモリの位置のセット)の状態を含む、その通常の意味のいずれをも示すために使用される。文脈から明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも示すために使用される。文脈から明確に限定されない限り、「計算」という用語は、本明細書では、値のセットから計算すること、評価すること、および/または選択することなど、その通常の意味のいずれをも示すために使用される。文脈にから明確に限定されない限り、「得る(obtaining)」という用語は、計算、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)取り出しなど、その通常の意味のいずれをも示すために使用される。「備える(comprising)」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)という場合、および、適切であれば特定の文脈においては、(ii)「と等しい」(たとえば、「AはBと等しい」)という場合を含む、その通常の意味のいずれをも示すために使用される。
別段示されない限り、特定の特徴を有する装置の動作の任意の開示は、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作の任意の開示は、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。別段示されない限り、「コンテキスト(context)」(または「オーディオコンテキスト」)という用語は、オーディオまたは発話の構成要素を示すために使用され、話者の周囲の環境からの情報を伝え、「ノイズ」という用語は、オーディオ信号または発話信号の中の、任意の他のアーチファクト(artifact)を示すために使用される。
図1Aは、スマートオーディオロギングシステムの概念を示す図である。モバイルデバイスの1つまたは複数のマイクロフォンは、モバイルデバイスがアイドルモードにあるときに、連続的または周期的に音響信号を受信するように構成され得る。受信された音響信号は、アナログデジタル(A/D)コンバータによって、デジタルオーディオ信号に変換され得る。この変換は、一般にはアナログ形式または連続的な形式で、受信された音響信号を電気信号に変換して、その電気信号をサンプリングまたは量子化して、デジタルオーディオ信号を生成することを含み得る。デジタルオーディオ信号の数およびサイズは、各デジタルオーディオサンプルのサンプリング周波数およびデータ幅に依存し得る。このデジタルオーディオ信号は、メモリまたはバッファに一時的に記憶されるように構成され得る。このデジタルオーディオ信号は、意味のある情報を抽出するように処理され得る。この情報は一般に、「コンテキスト情報S600」または互換的に「聴覚コンテキスト情報」と呼ばれる。コンテキスト情報は、モバイルデバイスが記録を行なっている環境についての情報と、少なくとも1つのマイクロフォンによって受信されるオーディオ入力信号の特性とを含み得る。コンテキスト情報S600の詳細な説明は、以下の開示で提示される。
スマートオーディオロギングシステムは、オーディオロギングのスマートな開始115またはスマートな終了150を実行するように構成され得る。ユーザが手動でオーディオ信号の記録を開始または終了する、従来のオーディオロギングシステムと比較して、スマートオーディオロギングシステムは、イベント開始インジケータまたはイベント終了インジケータを自動的に検出することによって、オーディオロギングを開始または終了するように構成され得る。これらのインジケータは、オーディオ信号、モバイルデバイス内に位置する、もしくは、有線ネットワーク接続もしくはワイヤレスネットワーク接続を通じてモバイルデバイスに接続されているデータベース、非音響センサ、またはさらに、他のスマートオーディオロギングデバイスからのシグナリングから導出される、コンテキスト情報に基づき得る。あるいは、これらのインジケータは、ユーザの音声命令またはキー命令をも含むように構成され得る。一実施形態では、イベント終了インジケータは、予め定められた期間に、聴覚イベントが発生しないことに少なくとも一部基づくように構成され得る。イベント開始インジケータおよびイベント終了インジケータの検出は、少なくとも1つの聴覚コンテキスト情報の中から少なくとも1つの特定のコンテキスト情報を選択するステップと、選択されたコンテキスト情報を少なくとも1つの予め定められた閾値と比較するステップと、比較に基づいてイベント開始インジケータまたはイベント終了インジケータが検出されたかどうかを判定するステップとを含み得る。
スマートオーディオロギングシステムは、いくつかのスマートサブブロックを、または互換的に、少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づくスマート構成ブロックを含むように、構成され得る。スマート構成ブロックは、構成モードまたは動作モードが事前に決定され得る、または動作中に静的に決定され得る、従来のオーディオロギングとは対照的に、オーディオロギング処理の間に固有の動作モードまたは機能パラメータを動的に構成する能力によって、特徴付けられ得る。
たとえば、スマートオーディオロギングの一実施形態では、図1Aのスマートマイクロフォン制御ブロック120が、コンテキスト情報S600に基づいて、オーディオロギング処理の間に、アクティブなマイクロフォンの数または少なくとも1つのマイクロフォンのオン/オフタイミング制御を動的に調整するように構成され得る。別の実施形態では、図1AのスマートA/Dコンバータブロック125は、コンテキスト情報S600に基づいて、固有の動作パラメータを動的に調整するように構成され得る。そのようなパラメータは、コンテキスト情報S600に基づく、少なくとも1つのマイクロフォンからキャプチャされたオーディオ信号のサンプリング周波数、またはキャプチャされたデジタルオーディオサンプルのデータ幅を含み得る。これらのパラメータの選択は、記録されるオーディオロギングの品質またはサイズに影響を与えるので、これらのパラメータは「記録パラメータ」と呼ばれ得る。これらのパラメータは、オーディオ入力信号の非アクティブな部分の間に、オーディオ品質に与える影響を最小化するように、再構成されまたは切り替えられるように構成され得る。オーディオ入力信号の非アクティブな部分は、何らかのレベルの最小のオーディオアクティビティを依然として含み得る。しかし一般には、「非アクティブな部分」は、オーディオ入力信号の非アクティブな部分とともに、比較的アクティブではない部分も意味する。
別の実施形態では、図1Aのスマートオーディオ増強ブロック130は、オーディオ信号の増強が必要かどうか、および必要な場合、どのようなタイプの信号増強が実行されるべきであるかを、コンテキスト情報S600に基づいて動的に選択するように構成され得る。スマートオーディオ増強ブロック130は、コンテキスト情報S600に基づいて、たとえば強力な増強または強力ではない増強のような、信号増強のレベルの度合いを選択するように構成され得る。信号増強は、単一のマイクロフォンまたは複数のマイクロフォンに基づくように構成され得る。図1Aのスマートオーディオ圧縮ブロック135は、コンテキスト情報S600に基づいて、圧縮モード、ビットレート、またはオーディオ/発話チャネルの数のような、用いられるべき符号化フォーマットのタイプまたはその符号化パラメータを動的に選択するように構成され得る。スマートサブブロックの動的な構成の機構のより詳細な説明および例が、後で提示される。図1Aの記憶ブロック145へのスマートなオーディオの保存は、キャプチャされたオーディオロギングがコンテキスト情報S600に基づいて記憶される位置を選択するように、構成され得る。この選択は、モバイルデバイスのローカルメモリと、有線チャネルまたはワイヤレスチャネルを通じてモバイルデバイスに接続されるリモートメモリとの間で行なわれ得る。記憶ブロック145へのスマートなオーディオの保存は、オーディオロギングの処理の間に、デフォルトでローカルメモリにデジタルオーディオ信号を保存し、次いで、ローカルの記憶装置とネットワーク記憶装置から、長期記憶装置の位置を決定するように構成され得る。
図1Aで開示される、スマート構成ブロック120、125、130、135、145およびその順序は、単に例示を目的としたものであることに留意すべきであり、したがって、本出願の範囲内で、構成ブロックの一部は順序を変えられ、組み合わされ、またはさらには全体もしくは一部が省略されてもよいことが、当業者には明白であろう。たとえば、本出願による一実施形態では、スマートオーディオ増強ブロック130は、省略されてもよく、または、コンテキスト情報S600に従って固有の動作モードを動的に再構成することができない、従来のオーディオ増強ブロックによって置き換えられてもよい。同様に、スマートオーディオ圧縮ブロック135は、省略されてもよく、または従来のオーディオ圧縮によって置き換えられてもよい。
スマートオーディオロギングシステムはまた、図1Bで提示されたような、既存の従来のオーディオロギングシステムのいくつかと、スマート構成ブロックとロギングのスマートな開始/終了の機構のいずれかのいくつかとの組合せを用いるように構成され得る、システムも指し得る。対照的に、図1Cは、オーディオロギングのスマートな開始/終了の機構も、スマート構成ブロックも全く含まれない、従来のオーディオロギングシステムの概念を示す図である。
図1Bは、スマートオーディオロギングシステムの、3つの異なる例示的かつ概念的な構成を示す。構成1は、オーディオロギングのスマートな開始/終了の機構165とスマート構成ブロック175の両方が実装される、システムを提示する。したがって、構成1のシステムは、最も進んだスマートオーディオロギングシステムと見なされる。構成2は、構成1のオーディオロギングのスマートな開始/終了の機構165を、オーディオロギングの従来の開始/終了の機構160と置き換えるように構成され得るシステムを示す。ある代替的な構成では、構成3は、構成1のスマート構成ブロック175を、従来の構成ブロック170と置き換えるように構成され得るシステムを示す。
図2は、スマートオーディオロギングシステムの例示的な実施形態である。マイクロフォンユニット200とA/Dコンバータ210とを備えるオーディオキャプチャユニット215は、スマートオーディオロギングシステムのフロントエンドである。マイクロフォンユニット200は、音響オーディオ信号を捉えまたは受信し、その信号を電気信号に変換するように構成され得る、少なくとも1つのマイクロフォンを備える。A/Dコンバータ210は、オーディオ信号を離散的なデジタル信号に変換する。別の実施形態では、マイクロフォンユニット200の中の少なくとも1つのマイクロフォンは、デジタルマイクロフォンであってよい。そのような場合、A/D変換のステップは、省略されるように構成され得る。
聴覚イベントS210は、オーディオ信号を全般に、または、ユーザが関心のあるオーディオ信号を特に指す。たとえば、聴覚イベントS210は、限定はされないが、発話信号、音楽、特定のバックグラウンドノイズ特性、または特定のキーワードの存在を含み得る。聴覚イベントS210は、当技術分野では「聴覚シーンauditory scene」と呼ばれることがある。
オーディオキャプチャユニット215は、少なくとも1つのマイクロフォンまたは少なくとも1つのA/Dコンバータを含み得る。少なくとも1つのマクロフォンまたは少なくとも1つのA/Dコンバータは、従来のオーディオロギングシステムの一部であった可能性があるが、モバイルデバイスをアクティブに使用する間だけ起動することができる。たとえば、従来のシステムの従来のオーディオキャプチャユニットは、電話をかけるまたは受けるというユーザの選択に応答して、または、映像記録開始ボタンを押したことに応答して、音声通話全体または映像記録全体の間だけ起動するように構成され得る。
しかし、本出願では、オーディオキャプチャユニット215は、音声通話の間、または少なくとも1つのマイクロフォンのアクティブな使用を必要とし得る任意の他のアプリケーションを実行する間に加えて、モバイルデバイスのアイドルモードの間でも、断続的に始動または起動するように構成され得る。オーディオキャプチャユニット215は、起動した状態を保ち、連続的にオーディオ信号を捉えるようにも構成され得る。この手法は、「常時オン」と呼ばれ得る。捉えられたオーディオ信号S260は、離散形式でバッファ220に記憶されるように構成され得る。
別段規定されない限り、本明細書で説明されるモバイルデバイスの「アイドルモード」は一般に、モバイルデバイスがユーザの手動入力に応答してアプリケーションを何らアクティブに動作させていない状態を指す。たとえば、通常のモバイルデバイスは、ユーザの選択なしでも、1つまたは複数の基地局へ、かつそこから、周期的に信号を送信または受信する。このタイプの動作を実行しているモバイルデバイスの状態は、本出願の範囲内ではアイドルモードであると見なされる。ユーザが、自身のモバイルデバイスを用いてアクティブに音声通信または映像記録に関わっている場合、それはアイドルモードとは見なされない。
バッファ220は、デジタルオーディオデータがオーディオロギングプロセッサ230によって処理される前に、デジタルオーディオデータを一時的に記憶する。バッファ220は、任意の物理的なメモリであってよく、より高速なアクセスという利点と、オーディオキャプチャユニット215から要求されるメモリフットプリントが比較的小さいこととによって、モバイルデバイス内に位置することが好ましいが、バッファ220は、ワイヤレスネットワーク接続または有線ネットワーク接続を介して、モバイルデバイスの外側に位置してもよい。別の実施形態では、捉えられたオーディオ信号S260は、バッファ220に一時的に記憶されることなく、オーディオロギングプロセッサ230に直接接続されるように構成され得る。そのような場合、捉えられたオーディオ信号S260は、オーディオ入力S270と同一であり得る。
オーディオロギングプロセッサ230は、スマートオーディオロギングシステムのためのメイン処理ユニットである。オーディオロギングプロセッサ230は、いつロギングを開始もしくは終了すべきか、または、スマート構成ブロックをどのように構成すべきかに関する、様々な決定を行なうように構成され得る。オーディオロギングプロセッサ230はさらに、隣り合うブロックを制御し、入力処理ユニット250または出力処理ユニット240とのインターフェースをとり、スマートオーディオロギングシステムの内部状態を判定し、補助データユニット280またはデータベースへアクセスするように構成され得る。オーディオロギングプロセッサ230の実施形態の一例が、図5に提示される。オーディオロギングプロセッサ230は、バッファに記憶される離散的なオーディオ入力データを読み取るように構成され得る。そして、オーディオ入力データは、コンテキスト情報S600の抽出のために処理されてよく、次いでコンテキスト情報S600は、オーディオロギングプロセッサ230の内部と外部のいずれかに位置するメモリに記憶され得る。コンテキスト情報S600のさらに詳細な説明は、図6および図7の説明とともに提示される。
補助データユニット280は、様々なデータベースまたはアプリケーションプログラムを含んでもよく、オーディオロギングプロセッサ230によって一部または全体が使用され得る追加の情報を提供するように、構成され得る。一実施形態では、補助データユニット280は、スマートオーディオロギング機構を備えたモバイルデバイスの所有者のスケジューリング情報を含み得る。そのような場合、スケジューリング情報はたとえば、いくつか例を挙げると、「次の仕事のビジネス会議の日時および/または長さ」、「招待される参加者」、「会議場所の位置」、または「会議の議題」のような詳細情報を含む。一実施形態では、スケジューリング情報は、Microsoft Outlookまたは任意の他の購入可能なカレンダーアプリケーションのような、カレンダーアプリケーションから取得され得る。補助データユニット280からこれらのタイプの詳細情報を受信すると、または能動的に取り出すと、オーディオロギングプロセッサ230は、好ましくは、バッファ220に記憶される離散的なオーディオ入力データから抽出されたコンテキスト情報S600と組み合わせて、上記の詳細情報に従って、オーディオロギングをいつ開始または停止すべきかに関する決定を行なうように構成され得る。
記憶装置は一般に、オーディオロギングプロセッサ230からの処理されたオーディオロギングを記憶するように設計された、システムの中の1つまたは複数のメモリの位置を指す。記憶装置は、モバイルデバイスの内部でローカルに利用可能なローカル記憶装置270、または、有線通信チャネルもしくはワイヤレス通信チャネルを介してモバイルデバイスにリモートで接続されるリモート記憶装置290を備えるように、構成され得る。オーディオロギングプロセッサ230は、ローカル記憶装置270とリモート記憶装置290のどちらに、処理されたオーディオロギングを記憶すべきかを選択するように構成され得る。記憶装置の選択は、限定はされないが、コンテキスト情報S600、オーディオロギングの推定サイズ、利用可能なメモリサイズ、ネットワーク速度、ネットワークの遅延、またはコンテキスト情報S600の優先度を含み得る、様々な要因に従って行なわれ得る。記憶装置の選択は、必要であれば、アクティブなオーディオロギング処理の間に、ローカル記憶装置270とリモート記憶装置290との間で動的に切り替えられるようにも構成されてよい。
図3は、出力処理ユニット240の実施形態の例示的な図である。出力処理ユニット240は、スピーカ、ディスプレイ、触覚デバイス、または外部のスマートオーディオロギングデバイスのような、様々な周辺デバイスに、オーディオロギングプロセッサ230から生成された出力信号S230を送達するように、構成され得る。触覚デバイスは、触覚フィードバック機構に基づく改善されたユーザ体験を、システムが提供できるようにする。触覚デバイスは、力、振動、および/または動きをユーザに対して与えることによって、ユーザの触覚を利用することができる。スマートオーディオロギングシステムは、出力処理ユニット240を通じて、出力信号S230を、別の少なくとも1つのスマートオーディオロギングシステムに送信することができる。出力信号の送信は、ワイヤレスチャネルを通じたものであってよく、好ましくは、GSM、UMTS、HSPA+、CDMA、Wi−Fi、LTE、VOIP、またはWiMaxのような、様々なワイヤレス通信プロトコルが用いられ得る。出力処理ユニット240は、適切な周辺デバイスに選択的に出力信号S230を分配することができる、デマルチプレクサ(De−Mux)310を含むように構成され得る。オーディオ出力生成器315は、De−Mux310によって選択されると、出力信号S230に従って、スピーカまたはヘッドセットに対するオーディオ信号を生成する。ディスプレイ出力生成器320は、De−Mux310によって選択されると、出力信号S230に従って、ディスプレイデバイスに対するビデオ信号を生成する。触覚出力生成器330は、De−Mux310によって選択されると、触覚デバイスのための触覚信号を生成する。送信機は、De−Mux310によって選択されると、他のスマートオーディオロギングシステムを含む外部デバイスへの送信の準備ができている、処理された信号を生成する。
図4は、入力処理ユニット250の実施形態の例示的な図である。この例では、入力処理ユニット250は、様々なタイプの入力を処理し、マルチプレクサ(Mux)410を通じてオーディオロギングプロセッサ230に選択的に移送され得る、入力信号S220を生成する。入力は、限定はされないが、ユーザの声またはキー命令、カメラ、タイマー、GPS、近接センサ、ジャイロ、周辺環境センサ、加速度計などのような非音響センサからの信号を含み得る。入力は、別の少なくとも1つのスマートオーディオロギングシステムに送信され得る。そして入力は、オーディオロギングプロセッサ230に送られる前に、音声命令プロセッサ420、キー命令プロセッサ430、タイマーインターフェース440、受信機450、またはセンサインターフェース460のような様々なモジュールによって、処理され得る。
図5は、オーディオロギングプロセッサ230の実施形態の例示的な図である。オーディオロギングプロセッサ230は、スマートオーディオロギングシステムのメインコンピューティングエンジンであり、少なくとも1つのマイクロプロセッサ、または少なくとも1つのデジタルシグナルプロセッサ、またはこれらの任意の組合せによって、実際には実装され得る。あるいは、オーディオロギングプロセッサ230の一部またはすべてのモジュールは、ハードウェアで実装されてもよい。図5に示されるように、オーディオロギングプロセッサ230は、「汎用オーディオ信号プロセッサ595」という名前のより汎用的なモジュールとともに、特定の動作に専用のいくつかのモジュールを備え得る。
聴覚アクティビティ検出器モジュール510または「オーディオ検出器」は、オーディオ入力S270からのオーディオアクティビティのレベルを検出することができる。オーディオアクティビティは、アクティブと非アクティブのような二値の分類として定義されてもよく、または必要であれば、より多くのレベルの分類として定義されてもよい。オーディオ入力S270のオーディオレベルを求めるための、様々な方法が用いられ得る。たとえば、聴覚アクティビティ検出器510は、信号エネルギー、信号対雑音比(SNR)、周期性、スペクトル傾斜、および/またはゼロクロッシング・レートに基づき得る。しかし、計算の複雑度を可能な限り低く保つために、比較的簡単な方法を用いることが好ましく、このことは電池の寿命を伸ばすのに役立つ。オーディオ品質増強器モジュール520は、バックグラウンドノイズを能動的に(アクティブに)または受動的(パッシブに)に抑制することによって、音響エコーを除去することによって、入力利得を調整することによって、または、会話の発話信号についてオーディオ入力S270の明瞭さを向上させることによって、オーディオ入力S270の品質を向上させることができる。
補助信号分析器モジュール530は、補助データユニット280からの補助信号を分析することができる。たとえば、補助信号は、カレンダープログラムまたは電子メールクライアントプログラムのような、スケジューリングプログラムを含み得る。補助信号はまた、辞書、従業員名簿、または、第三者のソースのデータまたは訓練データから取得される、様々なオーディオおよび発話パラメータのような、追加のデータベースを含み得る。入力信号ハンドラモジュール540は、入力処理ユニット250からの入力信号S220を検出し、処理し、または分析することができる。そして、出力信号ハンドラモジュール590は、出力処理ユニット240に対する出力信号S230を生成することができる。
制御信号ハンドラ550は、スマートオーディオロギングシステムの周辺ユニットに与えられ得る様々な制御信号を扱う。A/Dコンバータ制御S215およびマイクロフォンユニット制御S205という、制御信号の2つの例が、例示を目的として図5で開示される。イベント開始マネジャ570は、イベント開始インジケータを扱い、検出し、または生成するように構成され得る。イベント開始インジケータは、スマートオーディオロギングの開始の準備ができてい得ることを示す、フラグまたは信号である。オーディオロギングプロセッサ230は、その動作がステートマシンに基づいている場合、内部状態を切り替えるのにイベント開始インジケータを使用することが望ましい可能性がある。イベント開始インジケータは、オーディオロギングプロセッサ230の動作を理解するための、概念的なフラグまたは信号であることが、当業者には明白であろう。一実施形態では、イベント開始インジケータは、ソフトウェア実装では1つまたは複数の変数を用いて、または、ハードウェア設計では1つまたは複数の配線信号を用いて、実装され得る。イベント開始インジケータは、1つまたは複数の条件が満たされた場合にイベント開始インジケータS910がトリガされる、単一レベルであってもよく、または、2つ以上のレベルのイベント開始インジケータがすべてトリガされた場合に実際のスマートオーディオロギングが開始される、複数レベルであってもよい。
汎用オーディオ信号プロセッサ595は、本出願では明示的に示されないが実装を成功させるためにはやはり必要である、すべての他の基本的なオーディオ信号および発話信号の処理方法を扱うための、複数目的のモジュールである。たとえば、これらの信号処理方法は、限定はされないが、時間から周波数もしくは周波数から時間への変換、雑多なもののフィルタリング、信号利得の調整、またはダイナミックレンジの制御を含み得る。図5で別々に開示される各モジュールは、単に、オーディオロギングプロセッサ230の機能の説明の例示を目的として与えられることに、留意されたい。一実施形態では、一部のモジュールは、単一のモジュールまたはいくつかのモジュールに組み合わされてもよく、さらに、システムの実際の実装においては、より小さなモジュールに分割されてもよい。別の実施形態では、図5に開示されるモジュールのすべてが、単一のモジュールに統合されてもよい。
図6は、コンテキスト情報S600の例を示す図である。別段示されない限り、「コンテキスト」(または「コンテキスト情報S600」)という用語は、身元、感情、習慣、生体の状態、もしくは関与しているアクティビティのようなユーザの情報;絶対的な位置もしくは相対的な位置のような物理的な環境;キーワードもしくは分類の識別のようなコンテンツについての情報;または、社会的相互作用(social interaction)またはビジネスアクティビティ(business activity)のような社会的な環境を指す。図7は、コンテキスト識別器560の実施形態の図である。コンテキスト識別器560は、オーディオロギングプロセッサ230の一部であり、オーディオ入力S270からコンテキスト情報S600を抽出する。一実施形態では、コンテキスト識別器560は、専用のハードウェアエンジンまたはデジタルシグナルプロセッサで実装されるように構成され得る。
図8は、コンテキスト識別器560およびコンテキスト情報S600の例示的な実施形態の図である。キーワード識別器は、オーディオ入力S270を分析し、会話の発話内容から重要なキーワードを認識する。認識処理は、1つまたは複数の単語を記憶する辞書または参照テーブルのような、補助データベースに基づき得る。音楽/発話検出器は、オーディオ入力信号S270を、入力信号の特性に基づいて、2つ以上のカテゴリーとして分類するように構成され得る。この検出は、オーディオパラメータまたは発話パラメータの識別と、識別されたオーディオパラメータまたは発話パラメータの1つまたは複数の閾値との比較とに、基づき得る。本出願の範囲内の分類は、互換的に検出と見なされ得る。
音楽/発話検出器820はまた、入力信号を複数レベルの分類に分類するように構成され得る。たとえば、音楽/発話検出器820の一実施形態では、音楽/発話検出器820は、「音楽」、または「発話」、または「音楽+発話」のような、第1のレベルの分類に入力信号を分類することができる。次に、音楽/発話検出器820はさらに、第1のレベルの分類の段階で「音楽」として分類された信号について、「ロック」、「ポップ」または「クラシック」のような第2のレベルの分類を決定することができる。同じように、音楽/発話検出器820はまた、第1のレベルの分類の段階で「発話」として分類された信号について、「商談」、「個人的な会話」または「講義」のような第2のレベルの分類を決定することができる。
話者識別器830は、発話信号入力の話者の身元を検出するように構成され得る。話者識別処理は、信号エネルギーもしくはフレームエネルギー、信号対雑音比(SNR)、周期性、スペクトル傾斜、および/またはゼロクロッシング・レートのような、入力発話信号の特性に基づき得る。話者識別器830は、「男性の話者」または「女性の話者」のような単純な分類を識別するように構成されてもよく、または、話者の名前もしくは表題のようなより高度な情報を識別するように構成されてもよい。話者の名前または表題の識別には、非常に複雑な計算が必要になり得る。話者識別器830が、様々な理由によって、大量の発話サンプルを検索しなければならない場合には、さらにより困難になる。
たとえば、以下のような仮の状況を想定する。会社Xには全体で15000人の従業員がおり、ユーザYは、スマートオーディオロギング機構を備えた自身のモバイルデバイスを用いて、毎日仕事に関係する一連の音声会議に出席しなければならない。ユーザYは、会社Xの従業員である多数の話者が会話に関わっているときに、リアルタイムで話者を識別することを望んでいる。第1に、発話サンプルから抽出された発話サンプルまたは発話の特性は、そもそもすべての従業員については利用可能ではないことがある。第2に、発話サンプルが、ローカルメモリにおいて、またはワイヤレスチャネルを介して接続されたリモートサーバ側ですでに利用可能であったとしても、大量の発話サンプルをモバイルデバイスにおいてリアルタイムで検索することは、非常に困難であり得る。第3に、検索をリモートサーバ側で行なうことができ、サーバの計算能力をモバイルデバイスの計算能力よりもはるかに高くできるとしても、リアルタイムの処理は、受信/送信の遅延を考慮するとやはり困難であり得る。これらの問題は、追加の情報が補助データベースから利用可能であれば、扱いやすくなり得る。たとえば、会議の参加者のリストがカレンダープログラムから利用可能であれば、話者識別器は、検索空間を狭めることによって、検索される人の数を効果的に大きく減らすことができる。
環境検出器850は、フレームエネルギー、信号対雑音比(SNR)、周期性、スペクトル傾斜、および/またはゼロクロッシング・レートのような、入力発話信号の1つまたは複数の特性に基づいて、聴覚シーンを識別するように構成され得る。たとえば、環境検出器850は、現在の入力信号の環境を、「事務所」、「自動車」、「レストラン」、「地下鉄」、「野球場」などとして識別することができる。
ノイズ分類器840は、オーディオ入力S270のバックグラウンドノイズの特性を分類するように構成され得る。たとえば、ノイズ分類器840は、「安定vs不安定」、「道路のノイズ」、「飛行機のノイズ」、またはこれらの組合せとして、バックグラウンドノイズを識別することができる。ノイズ分類器840は、バックグラウンドノイズの重大さのレベルに基づいて、「重大」または「普通」のようにバックグラウンドノイズを分類することができる。ノイズ分類器840は、単一段階の処理または複数段階の処理で、入力を分類するように構成され得る。
感情検出器850は、会話の発話についての話者の感情、または音楽の内容の感情的な側面を検出するように構成され得る。音楽は、多くの興味深い音響パラメータから構成される。たとえば、音楽は、リズム、楽器、音程、歌、音色、調子、および歌詞を含み得る。これらのパラメータは、幸福、怒り、恐怖、勝利、心配、または落ち込みのような、1つまたは複数の感情のカテゴリーについて、話者の感情を検出または推定するために用いられ得る。関与アクティビティ検出器870は、オーディオ入力S270の特性に基づいて、話者のアクティビティを検出するように構成され得る。たとえば、関与アクティビティ検出器870は、話者が、「話している」、「走っている」、「歩いている」、「スポーツを行なっている」、「授業中である」、または「買い物をしている」ことを検出することができる。この検出は、発話パラメータおよび/または音楽信号パラメータに基づき得る。この検出はまた、補助データユニット280または図8の他のモジュールから、補足的な情報を得るように構成され得る。たとえば、感情検出器850は、環境検出器860、ノイズ分類器840、または図8で開示されるモジュールの任意の他の組合せからの、情報を用いるように構成され得る。
図9Aおよび図9Bはそれぞれ、単一レベルおよび複数レベルのイベント開始インジケータの生成機構の、例示的な実施形態の図である。単一レベルのイベント開始インジケータは、比較的簡単な開始機構の実施形態に対して望ましく、一方複数レベルのイベント開始インジケータは、やや複雑な開始機構の実施形態に対して望ましく、その場合、より強力な段階的な始動方式が、効率的な電力消費のために望ましい。イベント開始マネジャ570は、聴覚アクティビティ検出器510、補助信号分析器530、または入力信号ハンドラ540からの、出力の任意の組合せまたは内部トリガ信号に従って、イベント開始インジケータS910を生成するように構成され得る。たとえば、聴覚アクティビティ検出器510は、1つまたは複数の関心のある聴覚イベントまたはアクティビティが検出されたとき、オーディオ入力S270のアクティビティに基づいて、内部トリガ信号を生成するように構成され得る。
補助信号分析器530は、ユーザのカレンダープログラムのスケジュールに従って、内部トリガ信号を生成することもできる。ユーザが記録を望んでいた特定の会議は、ユーザからの手動の操作なしで、内部トリガ信号を自動的に生成することができる。あるいは、補助信号分析器530は、会議の明示的または暗黙的な優先度に基づいて、そのような決定を行なうように構成され得る。内部トリガ信号の生成は、オーディオ入力S270または補助信号の分析以外の入力から開始されてもよい。そのような入力は、ユーザの声もしくは手動のキー操作、タイマー、または、カメラ、タイマー、GPS、近接センサ、ジャイロ、周辺環境センサ、もしくは加速度計のような非音響センサからの信号、または、別の少なくとも1つのスマートオーディオロギングシステムから送信された信号を含み得る。組合せ論理回路900は、内部トリガ信号のある組合せ機構に基づいて、イベント開始インジケータS910を生成するように構成され得る。たとえば、組合せ論理回路は、聴覚アクティビティ検出器510、補助信号分析器530、または入力信号ハンドラ540からの、内部トリガ信号のOR操作またはAND操作に従って、イベント開始インジケータS910を生成するように構成され得る。別の実施形態では、組合せ論理回路は、1つまたは複数の内部トリガ信号が設定またはトリガされたときに、イベント開始インジケータS910を生成するように構成され得る。
図9Bに戻って参照すると、イベント開始マネジャ570は、実際のロギングの開始の前に、第1のレベルのイベント開始インジケータS920を、次いで第2のレベルのイベント開始インジケータS930を生成するように構成され得る。本明細書で開示される複数レベルのイベント開始インジケータ機構は、インジケータの2つ以上のレベルを用いることによって、オーディオロギングのより正確な開始点を決定するのに、好ましいことがある。複数レベルのイベント開始インジケータの例示的な実装形態は、第1のレベルのイベント開始インジケータS920に対しては、比較的簡単で複雑度の低い決定機構を採用するように構成されてよく、第2のレベルのイベント開始インジケータS930に対しては、高度で複雑度の高い決定機構を採用するように構成されてよい。一実施形態では、第1のレベルのイベント開始インジケータS920の生成は、図9Aのイベント開始インジケータS910の生成方法と実質的に同様の方法となるように、構成され得る。図9Aとは対照的に、オーディオロギングプロセッサ230は、第1のレベルのイベント開始インジケータS920がトリガされても実際のロギングを開始せず、好ましくは代わりに、オーディオ入力S270のさらなる深い分析に基づいて第2のレベルのイベント開始インジケータ信号S930をトリガするのに必要な追加のモジュールを起動させ、または互換的には始動させてもよい。これらのモジュールは、コンテキスト識別器560およびコンテキスト評価論理回路950を含み得る。そしてコンテキスト識別器560は、図8で開示される方法に従ってオーディオ入力S270を分析し、コンテキスト評価論理回路950によって評価され得る多数のコンテキスト情報S600を検出または識別することができる。コンテキスト評価論理回路950は、様々な内部決定方法に従って、第2のレベルのイベント開始インジケータS930をトリガするように構成され得る。そのような方法はたとえば、図8で開示されるサブモジュールの一部またはすべての出力についての優先度の加重和の計算と、1つまたは複数の閾値に対するその加重和の比較とを含み得る。コンテキスト評価論理回路950は、ソフトウェアとハードウェアのいずれかで実装されてよく、または、図8の汎用オーディオ信号プロセッサ595の一部として実装されてよいことに、留意されたい。
図10は、イベント終了インジケータの生成機構の実施形態である。イベント終了インジケータS940は、聴覚アクティビティ検出器510、補助信号分析器530、または入力信号ハンドラ540からの出力、すなわち内部のトリガ信号の任意の組合せに従って、イベント終了マネジャ580によって生成され得る。図10のモジュールの動作は、図9Aと図9Bのいずれかで説明された方法と実質的に同様であるが、各モジュールからの内部トリガ信号は通常、各モジュールが、実際のロギングを停止するという指示、または現在の動作モードから省電力モードに切り替えるという指示を検出したときに、トリガされる。たとえば、聴覚アクティビティ検出器510は、オーディオ入力S270のオーディオアクティビティが比較してかなり小さくなると、内部トリガ信号をトリガすることができ、または同様に、補助信号分析器530は、会議が終了予定時刻に達すると、内部トリガ信号をトリガすることができる。組合せ論理回路900は、内部トリガ信号のある組合せ機構に基づいて、イベント終了インジケータS940を生成するように構成され得る。たとえば、組合せ論理回路900は、聴覚アクティビティ検出器510、補助信号分析器530、または入力信号ハンドラ540からの、内部トリガ信号のたとえばOR操作またはAND操作に従って、イベント終了インジケータS940を生成するように構成され得る。別の実施形態では、組合せ論理回路900は、1つまたは複数の内部トリガ信号が設定またはトリガされたときに、イベント終了インジケータS940を生成するように構成され得る。
図11は、複数レベルのイベント開始インジケータシステムの、オーディオロギングプロセッサ230の内部状態とその内部状態の遷移とを示す、第1の例示的な実施形態の図である。スマートオーディオロギングの始動時のデフォルト状態は、スマートオーディオロギング機構を含むモバイルデバイスが通常のアイドルモード状態と実質的に同じである、パッシブ(passive)オーディオ監視状態S1であってよい。パッシブオーディオ監視状態S1の間、消費電力を最小化することが重要である。なぜなら、統計的に、モバイルデバイスは、大半の時間この状態にあるからである。したがって、スマートオーディオロギングシステムのモジュールの大半は、オーディオ入力S270のアクティビティを検出するのに必要な少数のモジュールを除いて、スリープ状態にとどまるように、または任意の他の電力節減モードになるように構成され得る。たとえば、そのような少数の例外的なモジュールは、オーディオキャプチャユニット215、バッファ220、または聴覚アクティビティ検出器510を含み得る。一実施形態では、これらのモジュールは、常にオンになるように構成されてもよく、または、間欠的に起動するように構成されてもよい。
第1のレベルのイベント開始インジケータS920のトリガによって、状態は、パッシブオーディオ監視状態S1からアクティブオーディオ監視状態S2に変更され得る。アクティブオーディオ監視状態S2の間、スマートオーディオロギングシステムは、たとえば、コンテキスト識別器560またはコンテキスト評価論理回路950のような、1つまたは複数のさらなるモジュールを起動するように構成され得る。これらのさらなるモジュールは、図9Bで提示される説明に従って、第2のレベルのイベント開始インジケータS930がトリガされる必要があるかどうかを判定するための、オーディオ入力S270の深い監視および分析を実現するために、用いられ得る。第2のレベルのイベント開始インジケータS930が最終的にトリガされると、システムはアクティブオーディオロギング状態S3に遷移し、この状態の間、実際のオーディオロギングが続く。各状態における例示的な動作の詳細な説明が以下の段落で提示される。イベント終了インジケータS940が、アクティブオーディオ監視状態S2の間にトリガされると、システムは、その状態の間に始動されたさらなるモジュールをスリープモードに入れて、状態をパッシブオーディオ監視状態S1に戻すように切り替えるように構成され得る。同様の方式で、イベント終了インジケータS940が、アクティブオーディオロギング状態S3の間にトリガされると、システムは、オーディオロギングを停止し、状態をパッシブオーディオ監視状態S1に戻すように切り替えるように構成され得る。
図12は、単一レベルのイベント開始インジケータシステムの、オーディオロギングプロセッサ230の内部状態とその内部状態の遷移とを示す、第2の例示的な実施形態の図である。この実施形態は、利用可能な動作状態が2つしかないため、図11で開示された実施形態よりも簡単である。スマートオーディオロギングの始動時のデフォルト状態は、スマートオーディオロギング機構を含むモバイルデバイスが通常のアイドルモード状態と実質的に同じである、オーディオ監視状態S1であってよい。オーディオ監視状態S4の間、消費電力を最小化することが好ましい。なぜなら、統計的に、モバイルデバイスは、大半の時間この状態にあるからである。したがって、スマートオーディオロギングシステムのモジュールの大半は、オーディオ入力S270のアクティビティを検出するのに最低限必要な少数のモジュールを除いて、スリープ状態にとどまるように、または任意の他の電力節減モードになるように構成され得る。たとえば、その少数の例外的なモジュールは、オーディオキャプチャユニット215、バッファ220、または聴覚アクティビティ検出器510を含み得る。一実施形態では、これらのモジュールは、常にオンになるように構成されてもよく、または、間欠的に起動するように構成されてもよい。
イベント開始インジケータS910のトリガによって、状態は、オーディオ監視状態S4からアクティブオーディオロギング状態S5に変更され得る。アクティブオーディオロギング状態S5の間、実際のオーディオロギングが続く。各状態における典型的な動作の詳細な説明が、以下の段落で提示される。イベント終了インジケータS940が、アクティブオーディオロギング状態S5の間にトリガされると、システムは、オーディオロギングを停止し、状態をオーディオ監視状態S4に戻すように切り替えるように構成され得る。
図13は、図11のパッシブオーディオ監視状態S1または図12のオーディオ監視状態S4の間の、オーディオキャプチャユニット215の実施形態の流れ図である。スマートオーディオロギング機構を備えるモバイルデバイスは、最初はアイドルモードであると仮定される。2つの間隔(interval)が図13に提示される。T1は、マイクロフォンの起動間隔を表し、T2は、マイクロフォンがオンにとどまる期間を表す。本明細書で提示される流れ図は、単に例示が目的であり、流れ図の中のブロックの一部は本出願の範囲内で、交換可能に並べ替えられてもよいことが、当業者には明白であろう。たとえば、一実施形態では、図13のA/Dコンバータ1315、1320の設定に専用のブロックは、マイクロフォンおよび/またはA/Dコンバータ1330をオンにするブロックの後で、処理されるように構成され得る。そのような場合、ブロック1315、1320は、動作の開始時の1度だけではなく、間隔T1毎に実行するように構成され得る。
加えて、図13は、スマートオーディオロギングの実施に対して基本的な、いくつかの重要な概念を開示する。A/Dコンバータは、サンプリング周波数および/またはデータ幅に関して低い分解能(resolution)を保つように、プログラムされ得る。低い分解能の設定は、処理されるデータおよび/またはバッファ220に保存されるデータのサイズを最小化するのに役立つ。高い分解能は、デジタル化されるオーディオ入力の精度を向上させるために用いられ得る。しかし、例示的な実装形態では、分解能を高く設定するとバッファ使用量と消費電力とが増大するため、低い分解能の設定を用いることが好ましい可能性がある。オーディオ監視状態S1、S2、S4の目的が主に、アクティブなオーディオロギングを開始する正しいタイミングを待機する環境を感知して監視することであることを考慮すると、低い分解能の設定が望ましい可能性がある。
マイクロフォンは、T1間隔毎すなわちマイクロフォン起動間隔毎に起動し、T2期間、すなわちマイクロフォンがオンの期間にオーディオ入力S270を収集するように構成され得る。T1またはT2の値は、固定された間隔として事前に決定されていてもよく、またはランタイム中に動的に適応させられてもよい。システムのある例示的な実装形態では、T1はT2よりも長くてよく、T2はT1より短いがT1に比例するように決定されてもよい。マイクロフォンユニット200の中に2つ以上のマイクロフォンがある場合、各マイクロフォンは、同じ間隔を有するように構成されてもよく、一部のマイクロフォンが、他とは異なる間隔を有するように構成されてもよい。一実施形態では、マイクロフォンの一部は、図11のパッシブオーディオ監視状態S1または図12のオーディオ監視状態S4の間、全くオンにされなくてもよい。別の実施形態では、1つまたは複数のマイクロフォンは常にオンにされてもよく、これは単に、T1がT2と等しい特別な場合であり得る。
2期間の間のデジタル化されたオーディオ入力は、T1間隔毎にバッファ220に記憶されてよく、記憶されたデジタルオーディオ入力は、T3間隔毎に、オーディオロギングプロセッサ230によってアクセスされ処理され得る。これは、図14によってさらに理解することができ、図14は、パッシブオーディオ監視状態S1またはオーディオ監視状態S4の間に、オーディオキャプチャユニット215においてデジタルオーディオ入力をバッファ220に記憶するための例示的な図を示す。バッファ220に記憶されるデジタルオーディオ入力1415、1425、1435、1445は、オーディオロギングプロセッサ230内の聴覚アクティビティ検出器510によって分析され得る。ある例示的な実装形態では、T3間隔はT2期間と同一であってよく、または、T2期間とは無関係に決定されてもよい。T3間隔がT2期間よりも長い場合、聴覚アクティビティ検出器510は、T1間隔の一サイクルの間にバッファ220に記憶されるデータのサイズよりも大きなサイズのデータにアクセスしてそのデータを処理するように構成され得る。
図15は、パッシブオーディオ監視状態S1の間の、オーディオロギングプロセッサ230の実施形態の流れ図である。この状態において、図15の動作に必要な最小の数のモジュールを除いて、オーディオロギングプロセッサ230内のモジュールの大半を、省電力モードにできることが望ましい可能性がある。これらの必要なモジュールは、図9Bに示されるモジュールであってよい。したがって、図15の流れ図は、図9Bによってさらに理解され得る。モバイルデバイスがアイドルモードにあるときに、入力信号S220から発信されたイベント開始要求が、入力信号ハンドラ540によって検出されると(1515)、イベント開始要求は、第1のレベルのイベント開始インジケータトリガすることができる(1540)。補助信号S240から発信されたイベント開始要求が、補助信号分析器530によって検出されると(1520)、イベント開始要求は、第1のレベルのイベント開始インジケータをトリガすることができる(1540)。図15はまた、聴覚アクティビティ検出器510が、T3間隔毎に、バッファ220の中のデータを分析する(1530)ことを示し、さらに深い分析が必要であり得ることを示す任意の聴覚アクティビティが検出されたか否かを決定することができる。この検査の例示的な実施形態の詳細な説明は、図5とともに、本出願において前に開示されている。関心のある聴覚アクティビティが検出されると、その聴覚アクティビティは、第1のレベルのイベント開始インジケータをトリガすることができる(1540)。
図15のブロックの順序は、オーディオロギングプロセッサ230の動作を説明する際の例示のみを目的とするものであるので、図15と機能的に等価であり得る、または実質的に等価であり得る多くの変形形態が存在し得ることを、当業者は認識するだろう。たとえば、1つのブロック1515と他のブロック1520は、1520が最初に実行され得るように並べ替えられてもよく、または、これらのブロックが続いて実行され得ないように並べ替えられてもよい。
図16は、アクティブオーディオ監視状態S2の間の、オーディオキャプチャユニット215の実施形態の流れ図である。図16のオーディオキャプチャユニット215の動作は、いくつかの違いを除いて、図13に開示された動作と非常に類似しており、したがって、違う部分のみがここでは説明され得る。A/Dコンバータは、サンプリング周波数および/またはデータ幅に関して、図13の「低」分解能よりも高い、図16では「中」と呼ばれる分解能を保つように、プログラムされ得る。中程度の分解能の設定は、より高精度のデジタル化されたオーディオ入力データを得るのに役立つことができ、このことは、オーディオロギングプロセッサ230が、より信頼性のあるコンテキスト情報S600を抽出するのに有益であり得る。
マイクロフォンは、T4間隔毎すなわちマイクロフォン起動間隔毎に起動し、T5期間、すなわちマイクロフォンがオンの期間にオーディオ入力S270を収集するように構成され得る。T4またはT5の値はそれぞれ、T1またはT2の値と同一または実質的に同様であってよい。しかし、T4をT1よりも短く設定するのが好ましいことがある。それは、オーディオロギングプロセッサ230が、より正確なコンテキスト情報S600を抽出するのに有益であり得るからである。別の実施形態では、T4またはT5の値は、固定された間隔として事前に決定されていてもよく、またはランタイム中に動的に適応させられてもよい。マイクロフォンユニット200に複数のマイクロフォンが存在する別の実施形態では、1つまたは複数のマイクロフォンは常にオンにされてもよく、これは単に、T4がT5と等しい特別な場合であり得る。
図17は、アクティブオーディオ監視状態S2の間に、オーディオキャプチャユニット215においてデジタルオーディオ入力をバッファ220に記憶するための例示的な図である。バッファ220に記憶されるデジタルオーディオ入力1715、1725、1735、1745は、T6間隔毎に、オーディオロギングプロセッサ230内のコンテキスト識別器560およびコンテキスト評価論理回路950によって、分析され得る。ある例示的な実装形態では、T6間隔はT5期間と同一であってよく、または代替的には、T5期間とは無関係に決定されてもよい。T6間隔がT5期間よりも長い場合、聴覚アクティビティ検出器510は、T4間隔の1つまたは複数サイクルの間にバッファ220に記憶されるデータにアクセスしてそのデータを処理するように構成され得る。
図18は、アクティブオーディオ監視状態S2の間の、オーディオロギングプロセッサ230の実施形態の流れ図である。この状態において、オーディオロギングプロセッサ230内のコンテキスト識別器560は、バッファ220に記憶されたオーディオ入力S270を分析して、T6間隔毎にコンテキスト情報S600を識別する(1815)。コンテキスト情報S600は、今後の参照のために、メモリの位置に記憶される(1820)ように構成され得る。コンテキスト評価論理回路950は、コンテキスト情報S600を評価することができ(1825)、様々な内部決定方法に従って、第2のレベルのイベント開始インジケータをトリガすることができる(1835)。そのような判定の方法はたとえば、図8で開示されるサブモジュールの一部またはすべての出力についての優先度の加重和の計算と、1つまたは複数の閾値に対するその加重和の比較とを含み得る。図18はまた、イベント終了インジケータS940をトリガする例示的な機構を示す。イベント終了インジケータS940は、コンテキスト評価論理回路950が最後のS期間の間第2のレベルのイベント開始インジケータS930をトリガしなかったときにトリガされてよく、S期間は、好ましくはT6間隔よりもはるかに長くてよい。別の実施形態では、イベント終了インジケータS940は、イベント終了マネジャ580が、図10に示されるような、補助信号分析器530または入力信号ハンドラ540からの信号S1052、S1053を検出すると、生成され得る。
図19は、アクティブオーディオ監視状態S2の間の、オーディオロギングプロセッサ230におけるコンテキスト識別の実施形態の例示的な図である。この図は、T6間隔毎にコンテキスト識別器560によって実行されるコンテキスト識別処理が、T4期間とは同期せずに開始するように構成され得ることを示す。T6間隔は、消費電力と判定の精度との間のトレードオフと、バッファ220のサイズとを考慮して、決定され得る。コンテキスト識別処理が頻繁にありすぎると、またはT6間隔が短すぎると、消費電力が増大し得るが、コンテキスト識別処理が頻繁すぎると、またはT6間隔が長すぎると、コンテキスト情報S600の精度が低下し得る。
図20は、アクティブオーディオロギング状態S3、S5の間の、オーディオキャプチャユニット215の実施形態の流れ図である。A/Dコンバータは、サンプリング周波数および/またはデータ幅に関して、図13の「低」分解能または図16の「中」分解能よりも高い、ここでは「高」と呼ばれる分解能を保つように、プログラムされ得る。高い分解能の設定は、オーディオロギングデータのサイズを増大させ得るが、より品質の高いオーディオ入力データを取得することにも役立ち得る。A/Dコンバータの分解能の設定は、オーディオロギングプロセッサ230からの制御信号に従って、動的に調整されるように構成されてもよい。より詳細な説明が、本出願の後の部分で提示される。現在の状態において、オーディオロギングプロセッサ230は、所望の記憶装置の位置にオーディオデータをロギングする(記憶する)ことに関与していてもよい。所望の記憶装置は、ローカルのモバイルデバイスの中に、または、有線接続もしくはワイヤレス接続を通じたリモートサーバ側に存在し得る。オーディオロギングは、イベント終了インジケータS940が、図10に示されるようなイベント終了マネジャ580によって検出されるまで、継続し得る。
図21は、アクティブオーディオロギング状態S3の間の、オーディオロギングプロセッサ230の実施形態の流れ図である。入力信号S220から発信されたイベント終了要求が、入力信号ハンドラ540によって検出されると(2110)、イベント終了要求は、イベント終了インジケータをトリガすることができる(2130)。補助信号S240から発信されたイベント終了要求が、補助信号分析器530によって検出されると(2115)、イベント終了要求は、イベント終了インジケータをトリガすることができる(2130)。入力信号ハンドラ540と補助信号分析器530のいずれかから検出される終了イベントがない場合は、実際のオーディオロギングはコアオーディオロギングモジュール2120において実行される。オーディオロギングの間、コンテキスト識別器560は、コンテキスト情報S600を識別し続けるように構成されてよく、メモリの位置に記憶された古い識別されたコンテキスト情報S600は、新しい識別されたコンテキスト情報S600によって更新され得る。コアオーディオロギングモジュールの内部動作の詳細な説明は、図24において提示される。実際のオーディオロギングが進行している間、コンテキスト評価論理回路950は、オーディオ入力S270を監視し分析し続けて、それによって、予め定められた期間に関心のあるコンテキスト情報S600が検出されなかった場合に、イベント終了インジケータS940をトリガするように構成され得る。予め定められた期間の例示的な実装形態は、最後のS秒のオーディオデータを用いることを含み得る。イベント終了インジケータS940を生成するこの方法は、「タイムアウト機構」と呼ばれ得る。そのような検査の方法はたとえば、図8で開示されるサブモジュールの一部またはすべての出力についての優先度の加重和の計算と、1つまたは複数の閾値に対するその加重和の比較とを含み得る。
図22は、オーディオ監視状態S4の間の、オーディオロギングプロセッサ230の実施形態の流れ図である。この流れ図は、最後のブロック2240が、第1のレベルのイベント開始インジケータ1540ではなくイベント開始インジケータをトリガし得るということを除いて、図15の流れ図と実質的に同様になるように構成され得る。この類似は、図11のパッシブオーディオ監視状態S1と、図12のオーディオ監視状態S4の両方が、同一の目的、すなわち、省電力の方式で、環境の聴覚イベントを周期的に感知するという目的を有し得るという、事実によるものである。
図23は、アクティブオーディオロギング状態S5の間の、オーディオロギングプロセッサ230の実施形態の流れ図である。S3とS5のいずれのアクティブロギングプロセッサも同様の動作を実行し得るので、この流れ図も、流れ図の最初の追加のブロック2300、2305を除いて、図21の流れ図にかなり近く、またはそれと同一であってよい。
設計上の選好に応じて周期的にまたは連続的に、コンテキスト識別器560がコンテキスト情報S600を識別するように構成され得る、アクティブオーディオ監視状態S2が常に前の状態であったS3状態とは異なり、これらの追加のブロック2300、2305はここでは必要となり得る。それは、S5の前の状態はオーディオ監視状態S4であり、コンテキスト識別のステップはS4状態では実行され得ないからである。入力信号S220から発信されたイベント終了要求が、入力信号ハンドラ540によって検出されると(2310)、イベント終了要求は、イベント終了インジケータをトリガすることができる(2330)。補助信号S240から発信されたイベント終了要求が、補助信号分析器530によって検出されると(2315)、イベント終了要求は、イベント終了インジケータをトリガすることができる(2330)。入力信号ハンドラ540と補助信号分析器530のいずれかから検出される終了イベントがない場合は、実際のオーディオロギングはコアオーディオロギングモジュール2320において実行される。オーディオロギングの間、コンテキスト識別器560は、コンテキスト情報S600を識別し続けるように構成されてよく、メモリ位置に記憶された古い識別されたコンテキスト情報S600は、新しい識別されたコンテキスト情報S600によって更新され得る。コアオーディオロギングモジュールの内部動作の詳細な説明が、図24において提示される。実際のオーディオロギングが進行している間、コンテキスト評価論理回路は、オーディオ入力S270を監視し分析し続けて、それによって、予め定められた期間に関心のあるコンテキスト情報S600が検出されなかった場合に、イベント終了インジケータS940をトリガするように構成され得る。予め定められた期間の例示的な実装形態は、最後のS期間のオーディオデータを用いることを含み得る。イベント終了インジケータS940を生成するこの方法は、「タイムアウト機構」と呼ばれ得る。そのような検査の方法はたとえば、図8で開示されるサブモジュールの一部またはすべての出力についての優先度の加重和の計算と、1つまたは複数の閾値に対するその加重和の比較とを含み得る。
図24は、アクティブオーディオロギング状態S3、S5の間の、コアオーディオロギングモジュールの実施形態の流れ図である。この例示的な実施形態では、流れ図2410、2415、2420という上から最初の3つのブロックは、コンテキスト情報S600に従った、スマートオーディオロギングシステムの動的な構成の特性を示す。A/Dコンバータのサンプリング周波数2410および/またはデータ幅2415は、コンテキスト情報S600に基づいて、オーディオロギング処理の間に動的に再構成され得る。コンテキスト情報S600は通常、数分以上または数時間にもわたり得る、オーディオロギングの過程全体において、徐々に、またはさらには突然、変化する。たとえば、会話の発話の題材は、時間とともに変化し得る。たとえば、話者が道を歩いているとき、または公共交通機関を用いて移動しているときは、話者のバックグラウンドノイズまたは環境が変化し得る。また、たとえば、オーディオ入力S270の内容は、時間とともに、会話の発話から音楽に、または音楽と発話に変わることがあり、その逆もあり得る。音楽のコンテンツに対しては、高い分解能のサンプリング周波数またはデータ幅を用い、発話が主の信号に対しては、低い分解能のサンプリング周波数またはデータ幅を用いるのが望ましいことがある。別の実施形態では、分解能は、発話の内容の特性に従って異なるように構成され得る。たとえば、システムは、友人の間の個人的な会話と比較して、ビジネス上のコミュニケーションに対して異なる分解能を用いるように構成され得る。コンテキスト情報S600に従った、A/Dコンバータの構成の動的な設定と、メモリの位置の動的な選択とのための、ブロック2410、2415、2420は、本明細書で開示される一般的な原理の範囲内で、流れ図の中の他のブロックとは対照的に、それらのブロックの間で異なる順序で再配置されてよい。
システムはまた、コンテキスト情報S600に基づいて、メモリの位置を動的に選択する(2420)ように構成され得る。たとえば、会話中の1人または複数の話者が、主要なビジネス上の顧客であることのようなある特徴を満たすと判明した場合、または、オーディオ入力S270が、発話信号よりも音楽信号をかなり含む場合、サーバ側に遠隔で接続される記憶装置に、オーディオロギングデータを記憶するように構成され得る。そのような場合、より高い分解能のA/Dコンバータを用いることが望ましい可能性があるので、より大きな記憶スペースが必要であり得る。
そして、オーディオロギングプロセッサ230は、バッファ220からオーディオデータ2424を読み取るように構成され得る。新しいコンテキスト情報は、最新のオーディオデータから識別することができ(2430)、新しいコンテキスト情報は、メモリに記憶することができる(2435)。別の実施形態では、コンテキスト情報S600のコンテキスト識別処理2430または保存処理2434は、流れ図の中の他のブロックとは対照的に、本明細書で開示される一般的な原理の範囲内で、飛ばされてもよく、または異なる順序で再配置されてもよい。
オーディオロギングプロセッサ230は、オーディオ入力信号S270の増強が望ましいかどうかを判定するか、または望ましい場合には、どのようなタイプの増強処理が望ましい可能性があるかを、処理された信号が選択されたメモリに記憶される前に判定する(2440)ように構成され得る。この判定は、コンテキスト情報S600に基づいてもよく、システムによって自動的に事前に構成されてもよく、またはユーザによって手動で事前に構成されてもよい。そのような増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)を含み得る。一実施形態では、信号増強の強さは、オーディオ入力S270の内容またはコンテキスト情報S600に基づき得る。
オーディオロギングプロセッサ230は、オーディオ入力信号S270の圧縮が望ましいかどうかを判定するか、または望ましい場合には、どのようなタイプの圧縮処理が望ましい可能性があるかを、処理された信号が選択されたメモリの位置に記憶される前に判定する(2445)ように構成され得る。この判定は、コンテキスト情報S600に基づいてもよく、システムによって自動的に事前に構成されてもよく、またはユーザによって手動で事前に構成されてもよい。たとえば、システムは、好ましくはカレンダー情報に基づくオーディオロギングの予想される長さに基づいて、オーディオロギングが開始する前に圧縮を用いることを選択することができる。発話の符号化またはオーディオの符号化のような圧縮方法の選択は、オーディオ入力S270の内容またはコンテキスト情報S600に基づいて、動的に構成され得る。別段規定されない限り、本出願の文脈内での圧縮とは、発話の符号化/復号およびオーディオの符号化/復号のような、情報源の符号化を意味し得る。したがって、圧縮を符号化と互換的に用いることができ、解凍を復号と互換的に用いることができることが、当業者には明白であろう。ビットレート、符号化モード、またはチャネルの数のような、符号化パラメータも、オーディオ入力S270の内容またはコンテキスト情報S600に基づいて、動的に構成され得る。
図25は、従来のマイクロフォン制御による、単一のマイクロフォンのオンおよびオフの制御の実施形態の図である。モバイルデバイスがアイドルモードにある場合(2550)、マイクロフォンと、A/Dコンバータのようなマイクロフォンの動作に必要な関連するブロックとは、通常はオフにされている(2510)。マイクロフォンおよびその関連するブロックは、通常、音声通話または映像記録のようなマイクロフォンの使用を必要とする用途で、モバイルデバイスがアクティブに使用される間だけ、オンにされる(2520)。
図26は、単一のマイクロフォンのオンおよびオフの制御の第1の実施形態の図である。図25とは対照的に、マイクロフォンは、モバイルデバイスがアイドルモードである(2550)期間でも、選択的にオンになる(2520)ように構成され得る。マイクロフォンは、オーディオ入力S270のコンテキスト情報S600に従って、選択的にオンになるように構成され得る。一実施形態では、この機能は、パッシブオーディオ監視状態S1、アクティブオーディオ監視状態S2、またはオーディオ監視状態S4に対して望ましいことがある。
図27は、単一のマイクロフォンのオンおよびオフの制御の第2の実施形態の図である。図26とは対照的に、マイクロフォンは、モバイルデバイスがアイドルモードである(2550)期間でも、連続的にオンになる(2700)ように構成され得る。そのような場合、マイクロフォンがオンになっている間、システムの消費電力は増大し得る。一実施形態では、この機能は、パッシブオーディオ監視状態S1、アクティブオーディオ監視状態S2、オーディオ監視状態S4、またはアクティブオーディオロギング状態S3、S5に適用可能であり得る。
図28は、複数のマイクロフォンのオンおよびオフの制御の第1の実施形態の図である。一実施形態では、1つまたは複数のマイクロフォンは、従来のシステムと同様の方法で動作するように構成され得る。言い換えると、1つまたは複数のマイクロフォンは、アクティブな音声通話の間、または、映像記録の間、または、ユーザの手動の選択に応答して1つもしくは複数のマイクロフォンのアクティブな使用を必要とする任意の他の用途の間だけ、オンにされ得る。しかし、他のマイクロフォンは、間欠的にオンにされるように構成され得る。2つのマイクロフォンのみが、例示を目的に図中で提示されるが、マイクロフォンの制御の同一の概念は、3つ以上のマイクロフォンにも適用され得る。
図29は、複数のマイクロフォンのオンおよびオフの制御の第2の実施形態の図である。図28とは対照的に、1つまたは複数のマイクロフォンは、アクティブな音声通信の間、または映像記録の間、または、ユーザの手動の選択に応答して1つもしくは複数のマイクロフォンのアクティブな使用を必要とする任意の他の用途の間だけ、オンにされ得るように、従来のシステムと同様の方法で動作するように構成され得る。しかし、他のマイクロフォンは、常にオンにされるように構成され得る。そのような場合、マイクロフォンがオンになっている間、システムの消費電力は増大し得る。2つのマイクロフォンのみが、例示を目的に図中で提示されるが、マイクロフォンの制御の同一の概念は、3つ以上のマイクロフォンにも適用され得る。
図30は、アクティブなマイクロフォンの数がコンテキスト情報S600に従って動的に制御され得る、本出願によるアクティブなマイクロフォンの数の制御の実施形態の図である。例示を目的として、利用可能なマイクロフォンの最大の数は、3つであると仮定され、パッシブオーディオ監視状態S1、アクティブオーディオ監視状態S2、またはオーディオ監視状態S4の間にオンにされ得るマイクロフォンの最大の数でもある。しかし、異なる数のマイクロフォンの選択も、本開示の範囲内にあり得る。パッシブオーディオ監視状態S1またはオーディオ監視状態S4の状態の間、マイクロフォンは、環境の聴覚イベントを監視できるように、周期的にオンにされるように構成され得る。したがって、これらの状態の間、アクティブなマイクロフォンの数は、好ましくは0と1の間で変化し得る。アクティブオーディオ監視状態S2の状態の間、アクティブなマイクロフォンの数は、好ましくは0と1の間で変化し続け得るが、オン期間とオン期間との間の間隔T4は、パッシブオーディオ監視状態S1またはオーディオ監視状態S4の状態の間の、オン期間とオン期間との間の間隔T1よりも、長くなるように構成され得る。
アクティブオーディオロギング状態S3、S5の間、アクティブなマイクロフォンの数は、コンテキスト情報S600に従って動的に変化するように構成され得る。たとえば、アクティブなマイクロフォンの数は、特定のコンテキスト情報S600または高優先度のコンテキスト情報S600を検出すると、1(3045)から2(3050)に増えるように構成され得る。別の例では、マイクロフォンの数は、バックグラウンドノイズの特性が、安定した状態から不安定な状態に変わると、または中程度のレベルから重大なレベルに変わると、増えるように構成され得る。そのような場合、複数のマイクロフォンに基づくノイズ抑制方法が、オーディオ入力S270の品質を向上させることができ得る。アクティブなマイクロフォンの数の増大または減少は、オーディオ入力S270の品質にも基づき得る。マイクロフォンの数は、オーディオ入力S270の品質、たとえば、オーディオ入力S270の信号対雑音比(SNR)がある閾値を下回ったことに従って、増えてもよい。
オーディオロギングの記憶装置は、実際のオーディオロギング処理の間、またはオーディオロギングが完了した後、ローカル記憶装置とリモート記憶装置との間で動的に変更されるように構成され得る。たとえば、図31は、事前に定められたコンテキスト情報S600の優先度に従って選択が制御され得る、記憶装置の位置の選択の実施形態を示す。この選択は、オーディオロギングの開始の前、またはオーディオロギングの完了の後に、実行され得る。たとえば、コンテキスト情報S600は、異なるレベルの優先度を有するように事前に構成され得る。そして、各オーディオロギングの開始の前に、記憶装置は、ある期間のウィンドウの間のコンテキスト情報S600の複数の特性と、1つまたは複数の事前に定義された閾値との比較に従って、選択され得る。別の実施形態では、長期記憶装置の選択は、各々のオーディオロギングの完了の後で決定され得る。最初のオーディオロギングは、たとえば、短期間の記憶の目的で、ローカル記憶装置内にデフォルトで記憶され得る。オーディオロギングが完了すると、オーディオロギングは、オーディオロギングのための長期記憶装置の位置を決定するために、オーディオロギングプロセッサ230によって分析され得る。各オーディオロギングは、オーディオロギングの完了の前または後に、優先度を割り当てられ得る。長期記憶装置の選択は、オーディオロギングの優先度に基づくように構成され得る。図31は、低優先度のコンテキスト情報を有するオーディオロギングがローカル記憶装置に記憶され、一方で、高優先度のコンテキスト情報を有するオーディオロギングがネットワーク記憶装置に記憶される、例示的なシステムを示す。本開示の範囲内で、低優先度のコンテキスト情報を有するオーディオロギングが、ネットワーク記憶装置に記憶されてもよく、高優先度のコンテキスト情報を有するオーディオロギングが、ローカル記憶装置に記憶されてもよいことに、留意されたい。
図32は、アクティブオーディオロギング状態S3、S5の間に、コンテキスト情報S600の優先度に従って選択が動的に制御され得る、記憶装置の位置の選択の実施形態を示す。図31とは対照的に、記憶装置の選択は、コンテキスト情報S600、利用可能なメモリ空間、または、モバイルデバイスとリモートサーバとの間のチャネルの品質に従って、実際のオーディオロギング処理の間に動的に切り替えられ得る。
図33は、事前に定められたコンテキスト情報S600の優先度に従って期限切れ時間が制御され得る、記憶装置の期限切れ時間の設定の実施形態の図である。記憶装置に記憶されるオーディオロギングは、ユーザの手動の選択によって削除されるように、または、事前に定められた期限切れ時間に基づき得る機構によって自動的に期限切れになるように構成され得る。オーディオロギングが期限切れになると、期限切れになったオーディオロギングは、削除されるか、または、「ゴミ箱」のような一時的な記憶場所に移されるように構成され得る。期限切れになったオーディオロギングは、記録時に圧縮されていなかった場合には、圧縮されるように構成され得る。期限切れになったオーディオロギングは、記録時にすでに符号化されていた場合には、さらなる圧縮を可能にし得る符号化フォーマットまたは符号化パラメータを用いてトランスコードされてもよく、オーディオロギングのサイズがさらに小さくなる。
期限切れ時間の設定は、オーディオロギングの時点で、またはオーディオの完了の後で、決定され得る。一実施形態では、各々のオーディオロギングは、オーディオロギングのコンテキスト情報S600の特性または統計に従って、優先度の値を割り当てられ得る。たとえば、図33のオーディオロギング#1 3340は、オーディオロギング#3 3320よりも低い優先度を有し得る。ある例示的な実装形態では、オーディオロギング#1の期限切れ時間ET1を、オーディオロギング#3の期限切れ時間ET3よりも短く設定するのが望ましいことがある。例として、ET1は「1週間」と設定されてよく、ET3は「2週間」と設定されてよい。オーディオロギングの期限切れ時間を、オーディオロギングの優先度に比例させることが一般に望ましい。しかし、異なる優先度を有するオーディオロギングは、必ずしも常に異なる期限切れ時間の設定を有さなくてもよいことに留意されたい。
図34は、アクティブなブロックの数およびその全体の消費電力が各状態に従って動的に制御され得る、スマートオーディオロギングシステム内のブロックの段階的なパワーアップの実施形態の図である。パッシブオーディオ監視状態S1の間、1つまたは複数の数のマイクロフォンが、オーディオ入力S270を受信するために、一定期間毎に起動するように構成され得る。この受信動作を実行するために、システムは、システムの一部を起動するように構成され得るので、システムのアクティブなブロックの数、または互換的には起動ブロックの数が、図34においてN1に増える。アクティブオーディオ監視状態S2の間、1つまたは複数の追加のブロックが、N1に加えて起動するように構成されてよく、これによって、1つまたは複数のマイクロフォンがアクティブである(3420)期間の、アクティブなブロックの全体の数がN2になる。たとえば、コンテキスト識別器560およびコンテキスト評価論理回路950が、図9Bで例示されたように起動するように構成され得る。アクティブオーディオロギング状態S3の間、少なくともいくつかのさらなるブロックが、N2に加えて起動する必要があり得る可能性が高く、これによって、アクティブオーディオロギング状態S3の状態の間の、アクティブなブロックの全体の数はN3になる。アクティブオーディオ監視状態S2の状態の間の、アクティブなブロックの基本の数3425は、図34ではN1に設定され、これは偶然、パッシブオーディオ監視状態S1の状態の間のアクティブなブロックの数と同じであるが、数3425は、本開示の範囲内の別の実施形態では、異なるように構成されてもよいことが、当業者には明白であろう。オーディオ監視状態S4またはアクティブオーディオロギング状態S5のアクティブなブロックの数は、それぞれ、パッシブオーディオ監視状態S1またはアクティブオーディオロギング状態S3と同様に実装され得る。
図35は、精度が、各々の事前に決定された状態に従って構成され得る、または、コンテキスト情報S600にふさわしいように動的に制御され得る、A/Dコンバータの精度制御の実施形態の図である。パッシブオーディオ監視状態S1の状態の間のA/Dコンバータユニットは、図35では「低」と呼ばれる、低分解能の設定を有するように構成され得るが、アクティブオーディオ監視状態S2またはアクティブオーディオロギング状態S3の状態では、それぞれ、中程度の分解能の設定である「中」設定、または高い分解能の設定である「高」設定を有するように構成され得る。この機構は、各状態に対する最適な設定を可能にすることによって、消費電力またはメモリ使用量を節減するのに、役立ち得る。別の実施形態では、パッシブオーディオ監視状態S1およびアクティブオーディオ監視状態S2の段階の間のA/Dコンバータ設定が、同一の分解能を有するように構成され得る。あるいは、アクティブオーディオ監視状態S2およびアクティブオーディオロギング状態S3の段階の間のA/Dコンバータ設定が、同一の分解能を有するように構成され得る。
A/Dコンバータユニットの精度設定は、コンテキスト情報S600に基づいて、アクティブオーディオロギング状態S3の間に動的に変更されるように構成され得る。図35は、動的な変更が、アクティブオーディオロギング処理の間の、全体の期間と部分的な期間のいずれかで有効になる(3540)ように構成され得ることを示す。アクティブオーディオロギング状態S3のデフォルトの精度設定は、「高」であると仮定される(3520)。コンテキスト情報S600の優先度に関して大きな変化があった場合には、精度設定は「中」(3535)または「低」(3525)の設定に低くされ得る。たとえば、精度設定の変更は、コンテキスト情報S600のサブセットであるコンテンツの分類の、「音楽」から「発話」または「発話」から「音楽」への変更によって、開始されてよい。あるいは、精度設定の変更は、オーディオ入力S270のバックグラウンドノイズのレベルまたはノイズのタイプの変化によって、開始されてもよい。別の実施形態では、精度設定の変更は、ローカル記憶装置の利用可能なメモリのサイズ、または、モバイルデバイスとリモートサーバとの間のチャネルの品質によって、開始されてもよい。
図36は、増強が、コンテキスト情報S600に従って動的に構成され得る、オーディオ入力信号の増強制御の実施形態の図である。例示を目的として、いくつかの信号増強レベル、すなわち、増強なし、低レベルの増強、中レベルの増強、高レベルの増強が存在すると、仮定された。アクティブオーディオロギング状態S3、S5の間、オーディオ信号の増強レベルは、コンテキスト情報S600に従って動的に調整されるように構成され得る。たとえば、バックグラウンドノイズの特性またはレベルを用いて、オーディオ信号の増強レベルの変更をトリガすることができる。バックグラウンドノイズのレベルが非常に高い場合、または、バックグラウンドノイズのレベルの特性が安定的なタイプのノイズから不安定なタイプのノイズに実質的に変化した場合、オーディオ信号の増強の設定は、低レベルの増強または増強なしから、中程度の増強、またはさらには高レベルの増強に変更されるように構成され得る。たとえば、スマートオーディオロギングシステムが、オーディオロギング状態S3、S5にあり、オーディオ入力S270をアクティブにロギングしている可能性があるときに、ユーザは、列車が到着するのを地下鉄の駅で待っていることがある。列車がプラットホームに到着するとき、または発車するときは、通常の会話の発話を理解するのが難しくなるある閾値を、ノイズレベルが超えることが多い。重大なバックグラウンドノイズのレベルもしくはバックグラウンドノイズのタイプの変化を検出すると、または、主要な聴覚シーンの変化を検出すると、スマートオーディオロギングシステムは、それに従ってオーディオ信号の増強の設定を再構成することができる。オーディオ信号の増強の設定の変更は、マイクロフォンのアクティブな数の前でも後でもよい。
図37は、圧縮が、コンテキスト情報S600に従って動的に構成され得る、オーディオ圧縮パラメータの制御の実施形態の図である。例示を目的として、いくつかの圧縮レベル、すなわち、圧縮なし、「低」圧縮、「中」圧縮、および「高」圧縮が存在すると、仮定された。アクティブオーディオロギング状態S3、S5の間、オーディオ信号の圧縮レベルは、コンテキスト情報S600に従って動的に調整されるように構成され得る。たとえば、圧縮モードの変更は、コンテキスト情報S600のサブセットであるコンテンツの分類の、「音楽」から「発話」または「発話」から「音楽」への変更によって、開始されてよい。「音楽」のコンテンツに対しては高いビットレートを用いるのが望ましいことがあるが、符号化される信号の帯域幅が通常は「音楽」のコンテンツよりもはるかに狭い、「発話」のコンテンツに対しては、低いビットレートを用いるのが望ましいことがある。あるいは、圧縮モードの変更は、ローカル記憶装置の利用可能なメモリのサイズ、または、モバイルデバイスとリモートサーバとの間のチャネルの品質によって、開始されてもよい。
符号化フォーマットは、コンテキスト情報S600にも従って変更されるように、構成され得る。図38は、圧縮符号化フォーマットの選択またはその選択の欠如が、コンテキスト情報S600に従って動的に構成され得る、圧縮符号化フォーマットの選択の実施形態の図である。例示を目的として、オーディオコーデック#1および発話コーデック#1が図38で示されるが、一般には、符号化フォーマットはまた、複数のオーディオコーデックまたは複数の発話コーデックの間で変化するように構成され得る。
たとえば、本オーディオコーデック#1 3810は、「音楽」から「発話」への主要な信号の分類の変化を検出すると、発話コーデック#1 3820に変更されるように構成され得る。別の実施形態では、符号化フォーマットの変更は、あったとしても「圧縮なしモード」(3830)の後にのみトリガされてもよく、または代替的には、間に「圧縮なしモード」(3830)がなくても、事前に定められたコンテキスト情報S600の変化を検出するといつでもトリガされてもよい。
様々な例示的な構成は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明した流れ図、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的原理は他の構成にも同様に適用できる。たとえば、本開示の範囲は例示した構成に限定されないことが強調される。むしろ、本明細書で説明する様々な特定の構成の特徴が互いに矛盾していない場合、そのような特徴を組み合わせて、本開示の範囲内に含まれる他の構成を生成することができることが明確に企図され、本明細書によって開示される。また、装置の2つ以上の要素の間の接続について説明する場合は、1つまたは複数の介在する要素(フィルタなど)が存在してもよく、方法の2つ以上のタスクの間の接続について説明する場合は、1つまたは複数の介在するタスクまたは動作(フィルタ処理演算など)が存在してもよいことが明確に企図され、本明細書によって開示される。
本明細書で説明する構成は、部分的にまたは全体的に、配線回路として、特定用途向け集積回路中に作成された回路構成として、または不揮発性記憶装置にロードされるファームウェアプログラム、または、マイクロプロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてコンピュータ可読媒体からロードされる、もしくはコンピュータ可読媒体にロードされる、ソフトウェアプログラムとして実装され得る。コンピュータ可読媒体は、(限定はしないが、ダイナミックもしくはスタティックRAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、および/またはフラッシュRAMを含み得る)半導体メモリ、強誘電体メモリ、ポリマーメモリ、もしくは位相変化メモリのような記憶要素のアレイ、磁気ディスクもしくは光ディスクのようなディスク媒体、または、データ記憶用の任意の他のコンピュータ可読媒体であってよい。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。
また、本明細書で開示する方法の各々は、論理要素(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)のアレイを含む機械によって読取り可能かつ/または実行可能な命令の1つまたは複数のセットとして(たとえば、上記に記載する1つまたは複数のコンピュータ可読媒体中で)、有形に具現化することができる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示された原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
また、本明細書で開示する方法の各々は、論理要素(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)のアレイを含む機械によって読取り可能かつ/または実行可能な命令の1つまたは複数のセットとして(たとえば、上記に記載する1つまたは複数のコンピュータ可読媒体中で)、有形に具現化することができる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示された原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]モバイルデバイスのためのデジタルオーディオ信号を処理する方法であって、
少なくとも1つのマイクロフォンによって音響信号を受信することと、
前記受信された音響信号を前記デジタルオーディオ信号に変換することと、
前記デジタルオーディオ信号から、少なくとも1つの聴覚コンテキスト情報を抽出することと、
イベント開始インジケータを自動的に検出したことに応答して、前記デジタルオーディオ信号のオーディオロギングを実行することと、
イベント終了インジケータを自動的に検出したことに応答して、前記オーディオロギングを終了することと、
を備える、方法。
[2]前記変換することは、
前記受信された音響信号を電気信号に変換することと、
前記電気信号をサンプリングして、前記デジタルオーディオ信号を得ることと、
前記デジタルオーディオ信号をバッファに記憶することと、
を備え、
前記サンプリングは、サンプリング周波数およびデータ幅に基づく、請求項1に記載のデジタルオーディオ信号を処理する方法。
[3]前記少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも1つに関連する、[1]記載のデジタルオーディオ信号を処理する方法。
[4]前記少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートのうちの1つに少なくとも一部基づく、[3]記載のデジタルオーディオ信号を処理する方法。
[5]前記少なくとも1つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、[3]記載のデジタルオーディオ信号を処理する方法。
[6]前記非聴覚情報が、スケジューリング情報またはカレンダー情報を備える、[5]記載のデジタルオーディオ信号を処理する方法。
[7]前記イベント開始インジケータを前記検出することは、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択することと、
前記選択されたコンテキスト情報と、少なくとも1つの予め定められた閾値との比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定することと、
を備える、[1]記載のデジタルオーディオ信号を処理する方法。
[8]前記イベント開始インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報がスケジューリング情報またはカレンダー情報を備える、[1]記載のデジタルオーディオ信号を処理する方法。
[9]前記オーディオロギングを前記実行することは、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換と関連する少なくとも1つのパラメータを更新することと、
追加の処理が必要かどうかを、前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて判定したことに応答して、前記デジタルオーディオ信号に前記追加の処理を適用して、処理されたオーディオ信号を得ることと、
前記処理されたオーディオ信号をメモリ記憶装置に記憶することと、
を備える、[1]記載のデジタルオーディオ信号を処理する方法。
[10]前記追加の処理は信号増強処理を含む、[9]記載のデジタルオーディオ信号を処理する方法。
[11]前記信号増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)のうちの少なくとも1つを含む、[10]記載のデジタルオーディオ信号を処理する方法。
[12]前記ノイズ抑制は複数のマイクロフォンに基づく、[11]記載のデジタルオーディオ信号を処理する方法。
[13]前記追加の処理は信号圧縮処理を含む、[9]記載のデジタルオーディオ信号を処理する方法。
[14]前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、[13]記載のデジタルオーディオ信号を処理する方法。
[15]少なくとも1つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、[13]記載のデジタルオーディオ信号を処理する方法。
[16]前記少なくとも1つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、[15]記載のデジタルオーディオ信号を処理する方法。
[17]前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、[9]記載のデジタルオーディオ信号を処理する方法。
[18]前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、[17]記載のデジタルオーディオ信号を処理する方法。
[19]前記イベント終了インジケータを前記検出することは、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択することと、
前記選択されたコンテキスト情報と、少なくとも1つの予め定められた閾値との比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定することと、
を備える、[1]記載のデジタルオーディオ信号を処理する方法。
[20]前記イベント終了インジケータを前記検出することは、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、[1]記載のデジタルオーディオ信号を処理する方法。
[21]前記イベント終了インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、[1]記載のデジタルオーディオ信号を処理する方法。
[22]モバイルデバイスのためのデジタルオーディオ信号を処理するための装置であって、
音響信号を受信するように構成される少なくとも1つのマイクロフォンと、
前記受信された音響信号を前記デジタルオーディオ信号に変換するように構成される変換器と、
前記デジタルオーディオ信号から、少なくとも1つの聴覚コンテキスト情報を抽出するように構成されるコンテキスト識別器と、
イベント開始インジケータを自動的に検出するように構成されるイベント開始マネジャと、
イベント終了インジケータを自動的に検出するように構成されるイベント終了マネジャと、
オーディオロギングプロセッサと、
を備え、
前記オーディオロギングプロセッサは、前記イベント開始インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行し、
前記イベント終了インジケータの前記検出に応答して、前記オーディオロギングを終了するように構成される、装置。
[23]前記変換器は、
前記受信された音響信号を電気信号に変換し、
前記電気信号をサンプリングして、前記デジタルオーディオ信号を得て、
前記デジタルオーディオ信号をバッファに記憶する
ように構成され、
前記サンプリングは、サンプリング周波数およびデータ幅に基づく、[22]記載のデジタルオーディオ信号を処理するための装置。
[24]前記少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも1つに関連する、[22]記載のデジタルオーディオ信号を処理するための装置。
[25]前記少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートの1つに少なくとも一部基づく、[24]記載のデジタルオーディオ信号を処理するための装置。
[26]前記少なくとも1つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、[24]記載のデジタルオーディオ信号を処理するための装置。
[27]前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、[26]記載のデジタルオーディオ信号を処理するための装置。
[28]前記イベント開始マネジャは、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択し、
前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較し、
前記比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定する
ように構成される、[22]記載のデジタルオーディオ信号を処理するための装置。
[29]前記イベント開始インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報がスケジューリング情報またはカレンダー情報を備える、[22]記載のデジタルオーディオ信号を処理するための装置。
[30]前記オーディオロギングプロセッサは、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換器と関連する少なくとも1つのパラメータを更新し、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、追加の処理が必要かどうかを判定し、
前記判定に応答して、前記追加の処理を前記デジタルオーディオ信号に適用して、処理されたオーディオ信号を得、
前記処理されたオーディオ信号をメモリ記憶装置に記憶する
ように構成される、[22]記載のデジタルオーディオ信号を処理するための装置。
[31]前記追加の処理は信号増強処理を含む、[30]記載のデジタルオーディオ信号を処理するための装置。
[32]前記信号増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)のうちの少なくとも1つを含む、[31]記載のデジタルオーディオ信号を処理するための装置。
[33]前記ノイズ抑制は複数のマイクロフォンに基づく、[32]に記載のデジタルオーディオ信号を処理するための装置。
[34]前記追加の処理は信号圧縮処理を含む、[30]記載のデジタルオーディオ信号を処理するための装置。
[35]前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、[34]記載のデジタルオーディオ信号を処理するための装置。
[36]少なくとも1つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、[34]記載のデジタルオーディオ信号を処理するための装置。
[37]前記少なくとも1つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、[36]記載のデジタルオーディオ信号を処理するための装置。
[38]前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、[30]記載のデジタルオーディオ信号を処理するための装置。
[39]前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、[38]記載のデジタルオーディオ信号を処理するための装置。
[40]前記イベント終了マネジャは、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択し、
前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較し、
前記比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定する
ように構成される、[22]記載のデジタルオーディオ信号を処理するための装置。
[41]前記イベント終了インジケータを前記検出することは、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、[22]記載のデジタルオーディオ信号を処理するための装置。
[42]前記イベント終了インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、[22]記載のデジタルオーディオ信号を処理するための装置。
[43]モバイルデバイスのためのデジタルオーディオ信号を処理するための装置であって、
少なくとも1つのマイクロフォンによって音響信号を受信するための手段と、
前記受信された音響信号を前記デジタルオーディオ信号に変換するための手段と、
前記デジタルオーディオ信号から、少なくとも1つの聴覚コンテキスト情報を抽出するための手段と、
イベント開始インジケータを自動的に検出するための手段と、
前記イベント開始インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行するための手段と、
イベント終了インジケータを自動的に検出するための手段と、
前記イベント終了インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを終了するための手段と、
を備える、装置。
[44]前記変換するための手段は、
前記受信された音響信号を電気信号に変換するための手段と、
前記電気信号をサンプリングして、前記デジタルオーディオ信号を得るための手段と、
前記デジタルオーディオ信号をバッファに記憶するための手段と、
を備え、
前記サンプリングは、サンプリング周波数およびデータ幅に基づく、[43]記載のデジタルオーディオ信号を処理するための装置。
[45]前記少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも1つに関連する、[43]記載のデジタルオーディオ信号を処理するための装置。
[46]前記少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートのうちの1つに少なくとも一部基づく、[45]記載のデジタルオーディオ信号を処理するための装置。
[47]前記少なくとも1つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、[45]に記載のデジタルオーディオ信号を処理するための装置。
[48]前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、[47]記載のデジタルオーディオ信号を処理するための装置。
[49]前記イベント開始インジケータを検出するための前記手段は、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択するための手段と、
前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較するための手段と、
前記比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定するための手段と、
を備える、[43]記載のデジタルオーディオ信号を処理するための装置。
[50]前記イベント開始インジケータの前記検出は、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、[43]記載のデジタルオーディオ信号を処理するための装置。
[51]前記オーディオロギングを実行するための前記手段は、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換するための手段と関連する少なくとも1つのパラメータを更新するための手段と、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、追加の処理が必要かどうかを判定するための手段と、
前記判定に応答して、前記追加の処理を前記デジタルオーディオ信号に適用し、処理されたオーディオ信号を得るための手段と、
前記処理されたオーディオ信号をメモリ記憶装置に記憶するための手段と、
を備える、[43]記載のデジタルオーディオ信号を処理するための装置。
[52]前記追加の処理は信号増強処理を含む、[51]記載のデジタルオーディオ信号を処理するための装置。
[53]前記信号増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)のうちの少なくとも1つを含む、[52]記載のデジタルオーディオ信号を処理するための装置。
[54]前記ノイズ抑制は複数のマイクロフォンに基づく、[53]記載のデジタルオーディオ信号を処理するための装置。
[55]前記追加の処理は信号圧縮処理を含む、[51]記載のデジタルオーディオ信号を処理するための装置。
[56]前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、[55]に記載のデジタルオーディオ信号を処理するための装置。
[57]少なくとも1つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、[55]記載のデジタルオーディオ信号を処理するための装置。
[58]前記少なくとも1つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、[57]記載のデジタルオーディオ信号を処理するための装置。
[59]前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、[51]記載のデジタルオーディオ信号を処理するための装置。
[60]前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、[59]記載のデジタルオーディオ信号を処理するための装置。
[61]前記イベント終了インジケータを検出するための前記手段は、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択するための手段と、
前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較するための手段と、
前記比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定するための手段と、
を備える、[43]記載のデジタルオーディオ信号を処理するための装置。
[62]前記イベント終了インジケータを検出するための前記手段は、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、[43]記載のデジタルオーディオ信号を処理するための装置。
[63]前記イベント終了インジケータを検出するための前記手段は、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、[43]記載のデジタルオーディオ信号を処理するための装置。
[64]モバイルデバイスのためのデジタルオーディオ信号を処理するための命令を備える非一時的なコンピュータ可読媒体であって、前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
少なくとも1つのマイクロフォンによって音響信号を受信させ、
前記受信された音響信号をデジタルオーディオ信号に変換させ、
前記デジタルオーディオ信号から、少なくとも1つの聴覚コンテキスト情報を抽出させ、
イベント開始インジケータを自動的に検出させ、
前記イベント開始インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行させ、
イベント終了インジケータを自動的に検出させ、
前記イベント終了インジケータの前記検出に応答して、前記オーディオロギングを終了させる、
コンピュータ可読媒体。
[65]プロセッサによって実行されたとき、前記プロセッサに、前記受信された音響信号を変換させる前記命令は、前記プロセッサに、
前記受信された音響信号を電気信号に変換させ、
前記デジタルオーディオ信号を取得するために、前記電気信号をサンプリングさせ、
前記デジタルオーディオ信号をバッファに記憶させる
ように構成され、前記サンプリングは、サンプリング周波数およびデータ幅に基づく、[64]記載のコンピュータ可読媒体。
[66]前記少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも1つに関連する、[64]記載のコンピュータ可読媒体。
[67]前記少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートの1つに少なくとも一部基づく、[66]記載のコンピュータ可読媒体。
[68]前記少なくとも1つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、[66]記載のコンピュータ可読媒体。
[69]前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、[68]記載のコンピュータ可読媒体。
[70]プロセッサによって実行されたとき、前記プロセッサに、前記イベント開始インジケータを検出させる前記命令は、前記プロセッサに、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択させ、
前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較させ、
前記比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定させるように構成される、[64]記載のコンピュータ可読媒体。
[71]プロセッサによって実行されたとき、前記プロセッサに、前記イベント開始インジケータを検出させる前記命令は、
非聴覚情報に少なくとも一部基づいて前記イベント開始インジケータを検出するように構成され、前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、[64]記載のコンピュータ可読媒体。
[72]プロセッサによって実行されたとき、前記プロセッサに、前記オーディオロギングを実行させる前記命令は、前記プロセッサに、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換と関連する少なくとも1つのパラメータを更新させ、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、追加の処理が必要かどうかを判定させ、
処理されたオーディオ信号を取得するために、前記判定に応答して、前記追加の処理を前記デジタルオーディオ信号に適用させ、
前記処理されたオーディオ信号をメモリ記憶装置に記憶させる
ように構成される、[64]記載のコンピュータ可読媒体。
[73]前記追加の処理は信号増強処理を含む、[72]記載のコンピュータ可読媒体。
[74]前記信号増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)のうちの少なくとも1つを含む、[73]記載のコンピュータ可読媒体。
[75]前記ノイズ抑制は複数のマイクロフォンに基づく、[74]記載のコンピュータ可読媒体。
[76]前記追加の処理は信号圧縮処理を含む、[72]記載のコンピュータ可読媒体。
[77]前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、[76]記載のコンピュータ可読媒体。
[78]少なくとも1つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、[76]記載のコンピュータ可読媒体。
[79]前記少なくとも1つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、[78]記載のコンピュータ可読媒体。
[80]前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、[72]記載のコンピュータ可読媒体。
[81]前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、[80]記載のコンピュータ可読媒体。
[82]プロセッサによって実行されたとき、前記プロセッサに、前記イベント終了インジケータを検出させる前記命令は、前記プロセッサに、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択させ、
前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較させ、
前記比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定させるように構成される、[64]記載のコンピュータ可読媒体。
[83]プロセッサによって実行されたとき、前記プロセッサに、前記イベント終了インジケータを検出させる前記命令は、予め定められた期間期間の間聴覚イベントが発生しないことに少なくとも一部基づいて前記イベント終了インジケータを検出するように構成される、[64]記載のコンピュータ可読媒体。
[84]プロセッサによって実行されたとき、前記プロセッサに、前記イベント終了インジケータを検出させる前記命令は、非聴覚情報に少なくとも一部基づいて前記イベント終了インジケータを検出するように構成され、前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、[64]記載のコンピュータ可読媒体。
[85]イベント開始インジケータを自動的に検出したことに応答して、オーディオ入力信号の第1の部分を処理して第1の情報を得ることと、
前記第1の情報に基づいて、少なくとも1つの記録パラメータを決定することと、
前記決定された少なくとも1つの記録パラメータに基づいて、前記モバイルデバイスのオーディオキャプチャユニットを再構成することと、
を備える、モバイルデバイスのための方法。
[86]前記オーディオキャプチャユニットを前記再構成することは、前記オーディオ入力信号の非アクティブな部分の間に発生する、[85]記載の方法。
[87]前記少なくとも1つの記録パラメータは、前記モバイルデバイスのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む、[85]記載の方法。
[88]前記少なくとも1つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、[85]記載の方法。
[89]前記少なくとも1つの記録パラメータは、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、[85]記載の方法。
[90]前記第1の情報は、前記モバイルデバイスが記録を行なっている環境を表すコンテキスト情報である、[85]記載の方法。
[91]前記第1の情報は、前記オーディオ入力信号の特性を表すコンテキスト情報である、[85]記載の方法。
[92]前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、[85]記載の方法。
[93]前記オーディオ入力信号の第2の部分を処理して、第2の情報を得ることと、
バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強して、増強された信号を得ることと、
前記増強された信号を符号化して、符号化された信号を得ることと、
前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶することと、
をさらに備える、[85]記載の方法。
[94]前記第2の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定することをさらに備える、[93]記載の方法。
[95]前記増強された信号を前記符号化することは、
前記第2の情報に基づいて、符号化タイプを決定することと、
前記決定された符号化のための少なくとも1つの符号化パラメータを決定することと、
前記決定された符号化タイプおよび前記決定された少なくとも1つの符号化パラメータに基づいて、前記増強された信号を処理して、前記符号化された信号を得ることと、
を備え、
前記少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを備える、[93]記載の方法。
[96]イベント終了インジケータを自動的に検出することと、
イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置から、前記符号化された信号のための長期記憶装置の位置を決定することと、
をさらに備える、[93]記載の方法。
[97]前記長期記憶装置の位置を前記決定することは、前記符号化された信号の優先度に基づく、[96]記載の方法。
[98]モバイルデバイスのための装置であって、
イベント開始インジケータを自動的に検出し、
前記イベント開始インジケータの前記検出に応答して、オーディオ入力信号の第1の部分を処理して第1の情報を得て、
前記第1の情報に基づいて、少なくとも1つの記録パラメータを決定する
ように構成される、オーディオロギングプロセッサと、
前記決定された少なくとも1つの記録パラメータに基づいて、自身を再構成するように構成されたオーディオキャプチャユニットと、
を備える、装置。
[99]前記オーディオキャプチャユニットは、前記オーディオ入力信号の非アクティブな部分の間に、自身を再構成するように構成される、[98]記載の装置。
[100]前記少なくとも1つの記録パラメータは、前記オーディオキャプチャユニットのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む、[98]記載の装置。
[101]前記少なくとも1つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、[98]記載の装置。
[102]前記少なくとも1つの記録パラメータは、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、[98]記載の装置。
[103]前記第1の情報は、前記モバイルデバイスが記録を行なっている環境を示すコンテキスト情報である、[98]記載の装置。
[104]前記第1の情報は、前記オーディオ入力信号の特性を示すコンテキスト情報である、[98]記載の装置。
[105]前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、[98]記載の装置。
[106]前記オーディオロギングプロセッサはさらに、
前記オーディオ入力信号の第2の部分を処理して、第2の情報を得、
バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強して、増強された信号を得、
前記増強された信号を符号化して、符号化された信号を得、
前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶する
ように構成される、[98]記載の装置。
[107]前記オーディオロギングプロセッサはさらに、前記第2の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定するように構成される、[106]記載の装置。
[108]前記オーディオロギングプロセッサは、
前記第2の情報に基づいて、符号化タイプを決定し、
前記決定された符号化のための少なくとも1つの符号化パラメータを決定し、
前記決定された符号化タイプおよび前記決定された少なくとも1つの符号化パラメータに基づいて、前記増強された信号を処理して、前記符号化された信号を得る
ように構成され、
前記少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを備える、[106]記載の装置。
[109]前記オーディオロギングプロセッサはさらに、
イベント終了インジケータを自動的に検出し、
イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置から、前記符号化された信号のための長期記憶装置の位置を決定する
ように構成される、[106]記載の装置。
[110]前記長期記憶装置の位置を前記決定することは、前記符号化された信号の優先度に基づく、[109]記載の装置。
[111]イベント開始インジケータを自動的に検出するための手段と、
前記イベント開始インジケータの検出に応答して、オーディオ入力信号の第1の部分を処理して第1の情報を得るための手段と、
前記第1の情報に基づいて、少なくとも1つの記録パラメータを決定するための手段と、
前記決定された少なくとも1つの記録パラメータに基づいて、前記モバイルデバイスのオーディオキャプチャユニットを再構成するための手段と、
を備える、モバイルデバイスのための装置。
[112]前記オーディオキャプチャユニットを再構成するための前記手段は、前記オーディオ入力信号の非アクティブな部分の間に発生する、[111]記載の装置。
[113]前記少なくとも1つの記録パラメータは、前記オーディオキャプチャユニットのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む、[111]記載の装置。
[114]前記少なくとも1つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、[111]記載の装置。
[115]前記少なくとも1つの記録パラメータは、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、[111]記載の装置。
[116]前記第1の情報は、前記モバイルデバイスが記録を行なっている環境を示すコンテキスト情報である、[111]記載の装置。
[117]前記第1の情報は、前記オーディオ入力信号の特性を示すコンテキスト情報である、[111]記載の装置。
[118]前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、[111]記載の装置。
[119]前記オーディオ入力信号の第2の部分を処理して、第2の情報を得るための手段と、
バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強して、増強された信号を得るための手段と、
前記増強された信号を符号化して、符号化された信号を得るための手段と、
前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶するための手段と、
をさらに備える、[111]記載の装置。
[120]前記第2の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定するための手段をさらに備える、[119]記載の装置。
[121]前記増強された信号を符号化するための前記手段は、
前記第2の情報に基づいて、符号化タイプを決定するための手段と、
前記決定された符号化のための少なくとも1つの符号化パラメータを決定するための手段と、
前記決定された符号化タイプおよび前記決定された少なくとも1つの符号化パラメータに基づいて、前記増強された信号を処理して、前記符号化された信号を得るための手段と、
を備え、
前記少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを備える、[119]記載の装置。
[122]イベント終了インジケータを自動的に検出するための手段と、
イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置とから、前記符号化された信号のための長期記憶装置の位置を決定するための手段と、
をさらに備える、[119]記載の装置。
[123]前記長期記憶装置の位置を決定するための前記手段は、前記符号化された信号の優先度に基づく、[122]記載の装置。
[124]プロセッサによって実行されたとき、前記プロセッサに、
イベント開始インジケータを自動的に検出させ、
前記イベント開始インジケータの検出に応答して、第1の情報を取得するために、オーディオ入力信号の第1の部分を処理させ、
前記第1の情報に基づいて、少なくとも1つの記録パラメータを決定させ、
前記決定された少なくとも1つの記録パラメータに基づいて、前記モバイルデバイスのオーディオキャプチャユニットを再構成させる、命令を備える、非一時的なコンピュータ可読媒体。
[125]プロセッサによって実行されたとき、前記プロセッサに、前記オーディオキャプチャユニットを再構成させる前記命令は、前記オーディオ入力信号の非アクティブな部分の間に前記オーディオキャプチャユニットを再構成するように構成される、[124]記載のコンピュータ可読媒体。
[126]前記少なくとも1つの記録パラメータは、前記オーディオキャプチャユニットのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む、[124]記載のコンピュータ可読媒体。
[127]前記少なくとも1つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、[124]記載のコンピュータ可読媒体。
[128]前記少なくとも1つの記録パラメータは、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、[124]記載のコンピュータ可読媒体。
[129]前記第1の情報は、前記モバイルデバイスが記録を行なっている環境を示すコンテキスト情報である、[124]記載のコンピュータ可読媒体。
[130]前記第1の情報は、前記オーディオ入力信号の特性を示すコンテキスト情報である、[124]記載のコンピュータ可読媒体。
[131]前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、[124]記載のコンピュータ可読媒体。
[132]前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
第2の情報を取得するために、前記オーディオ入力信号の第2の部分を処理させ、
増強された信号を取得するために、バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強させ、
符号化された信号を取得するために、前記増強された信号を符号化させ、
前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶させる、[124]記載のコンピュータ可読媒体。
[133]前記命令は、プロセッサによって実行されたとき、前記プロセッサに、前記第2の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定させる、[132]記載のコンピュータ可読媒体。
[134]プロセッサによって実行されたとき、前記プロセッサに、前記増強された信号を符号化させる前記命令は、前記プロセッサに、
前記第2の情報に基づいて、符号化タイプを決定させ、
前記決定された符号化のための少なくとも1つの符号化パラメータを決定させ、
前記符号化された信号を取得するために、前記決定された符号化タイプおよび前記決定された少なくとも1つの符号化パラメータに基づいて、前記増強された信号を処理させる、
ように構成され、
前記少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを備える、[132]記載のコンピュータ可読媒体。
[135]前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
イベント終了インジケータを自動的に検出させ、
イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置とから、前記符号化された信号のための長期記憶装置の位置を決定させる、[132]記載のコンピュータ可読媒体。
[136]プロセッサによって実行されたとき、前記プロセッサに、前記長期記憶装置の位置を決定させる前記命令は、前記プロセッサに、前記符号化された信号の優先度に基づいて、前記長期記憶装置の位置を決定させる、[135]記載のコンピュータ可読媒体。

Claims (136)

  1. モバイルデバイスのためのデジタルオーディオ信号を処理する方法であって、
    少なくとも1つのマイクロフォンによって音響信号を受信することと、
    前記受信された音響信号を前記デジタルオーディオ信号に変換することと、
    前記デジタルオーディオ信号から、少なくとも1つの聴覚コンテキスト情報を抽出することと、
    イベント開始インジケータを自動的に検出したことに応答して、前記デジタルオーディオ信号のオーディオロギングを実行することと、
    イベント終了インジケータを自動的に検出したことに応答して、前記オーディオロギングを終了することと、
    を備える、方法。
  2. 前記変換することは、
    前記受信された音響信号を電気信号に変換することと、
    前記電気信号をサンプリングして、前記デジタルオーディオ信号を得ることと、
    前記デジタルオーディオ信号をバッファに記憶することと、
    を備え、
    前記サンプリングは、サンプリング周波数およびデータ幅に基づく、請求項1に記載のデジタルオーディオ信号を処理する方法。
  3. 前記少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも1つに関連する、請求項1に記載のデジタルオーディオ信号を処理する方法。
  4. 前記少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートのうちの1つに少なくとも一部基づく、請求項3に記載のデジタルオーディオ信号を処理する方法。
  5. 前記少なくとも1つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、請求項3に記載のデジタルオーディオ信号を処理する方法。
  6. 前記非聴覚情報が、スケジューリング情報またはカレンダー情報を備える、請求項5に記載のデジタルオーディオ信号を処理する方法。
  7. 前記イベント開始インジケータを前記検出することは、
    前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択することと、
    前記選択されたコンテキスト情報と、少なくとも1つの予め定められた閾値との比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定することと、
    を備える、請求項1に記載のデジタルオーディオ信号を処理する方法。
  8. 前記イベント開始インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報がスケジューリング情報またはカレンダー情報を備える、請求項1に記載のデジタルオーディオ信号を処理する方法。
  9. 前記オーディオロギングを前記実行することは、
    前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換と関連する少なくとも1つのパラメータを更新することと、
    追加の処理が必要かどうかを、前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて判定したことに応答して、前記デジタルオーディオ信号に前記追加の処理を適用して、処理されたオーディオ信号を得ることと、
    前記処理されたオーディオ信号をメモリ記憶装置に記憶することと、
    を備える、請求項1に記載のデジタルオーディオ信号を処理する方法。
  10. 前記追加の処理は信号増強処理を含む、請求項9に記載のデジタルオーディオ信号を処理する方法。
  11. 前記信号増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)のうちの少なくとも1つを含む、請求項10に記載のデジタルオーディオ信号を処理する方法。
  12. 前記ノイズ抑制は複数のマイクロフォンに基づく、請求項11に記載のデジタルオーディオ信号を処理する方法。
  13. 前記追加の処理は信号圧縮処理を含む、請求項9に記載のデジタルオーディオ信号を処理する方法。
  14. 前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、請求項13に記載のデジタルオーディオ信号を処理する方法。
  15. 少なくとも1つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、請求項13に記載のデジタルオーディオ信号を処理する方法。
  16. 前記少なくとも1つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、請求項15に記載のデジタルオーディオ信号を処理する方法。
  17. 前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、請求項9に記載のデジタルオーディオ信号を処理する方法。
  18. 前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、請求項17に記載のデジタルオーディオ信号を処理する方法。
  19. 前記イベント終了インジケータを前記検出することは、
    前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択することと、
    前記選択されたコンテキスト情報と、少なくとも1つの予め定められた閾値との比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定することと、
    を備える、請求項1に記載のデジタルオーディオ信号を処理する方法。
  20. 前記イベント終了インジケータを前記検出することは、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、請求項1に記載のデジタルオーディオ信号を処理する方法。
  21. 前記イベント終了インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、請求項1に記載のデジタルオーディオ信号を処理する方法。
  22. モバイルデバイスのためのデジタルオーディオ信号を処理するための装置であって、
    音響信号を受信するように構成される少なくとも1つのマイクロフォンと、
    前記受信された音響信号を前記デジタルオーディオ信号に変換するように構成される変換器と、
    前記デジタルオーディオ信号から、少なくとも1つの聴覚コンテキスト情報を抽出するように構成されるコンテキスト識別器と、
    イベント開始インジケータを自動的に検出するように構成されるイベント開始マネジャと、
    イベント終了インジケータを自動的に検出するように構成されるイベント終了マネジャと、
    オーディオロギングプロセッサと、
    を備え、
    前記オーディオロギングプロセッサは、前記イベント開始インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行し、
    前記イベント終了インジケータの前記検出に応答して、前記オーディオロギングを終了するように構成される、装置。
  23. 前記変換器は、
    前記受信された音響信号を電気信号に変換し、
    前記電気信号をサンプリングして、前記デジタルオーディオ信号を得て、
    前記デジタルオーディオ信号をバッファに記憶する
    ように構成され、
    前記サンプリングは、サンプリング周波数およびデータ幅に基づく、請求項22に記載のデジタルオーディオ信号を処理するための装置。
  24. 前記少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも1つに関連する、請求項22に記載のデジタルオーディオ信号を処理するための装置。
  25. 前記少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートの1つに少なくとも一部基づく、請求項24に記載のデジタルオーディオ信号を処理するための装置。
  26. 前記少なくとも1つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、請求項24に記載のデジタルオーディオ信号を処理するための装置。
  27. 前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、請求項26に記載のデジタルオーディオ信号を処理するための装置。
  28. 前記イベント開始マネジャは、
    前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択し、
    前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較し、
    前記比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定する
    ように構成される、請求項22に記載のデジタルオーディオ信号を処理するための装置。
  29. 前記イベント開始インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報がスケジューリング情報またはカレンダー情報を備える、請求項22に記載のデジタルオーディオ信号を処理するための装置。
  30. 前記オーディオロギングプロセッサは、
    前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換器と関連する少なくとも1つのパラメータを更新し、
    前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、追加の処理が必要かどうかを判定し、
    前記判定に応答して、前記追加の処理を前記デジタルオーディオ信号に適用して、処理されたオーディオ信号を得、
    前記処理されたオーディオ信号をメモリ記憶装置に記憶する
    ように構成される、請求項22に記載のデジタルオーディオ信号を処理するための装置。
  31. 前記追加の処理は信号増強処理を含む、請求項30に記載のデジタルオーディオ信号を処理するための装置。
  32. 前記信号増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)のうちの少なくとも1つを含む、請求項31に記載のデジタルオーディオ信号を処理するための装置。
  33. 前記ノイズ抑制は複数のマイクロフォンに基づく、請求項32に記載のデジタルオーディオ信号を処理するための装置。
  34. 前記追加の処理は信号圧縮処理を含む、請求項30に記載のデジタルオーディオ信号を処理するための装置。
  35. 前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、請求項34に記載のデジタルオーディオ信号を処理するための装置。
  36. 少なくとも1つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、請求項34に記載のデジタルオーディオ信号を処理するための装置。
  37. 前記少なくとも1つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、請求項36に記載のデジタルオーディオ信号を処理するための装置。
  38. 前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、請求項30に記載のデジタルオーディオ信号を処理するための装置。
  39. 前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、請求項38に記載のデジタルオーディオ信号を処理するための装置。
  40. 前記イベント終了マネジャは、
    前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択し、
    前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較し、
    前記比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定する
    ように構成される、請求項22に記載のデジタルオーディオ信号を処理するための装置。
  41. 前記イベント終了インジケータを前記検出することは、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、請求項22に記載のデジタルオーディオ信号を処理するための装置。
  42. 前記イベント終了インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、請求項22に記載のデジタルオーディオ信号を処理するための装置。
  43. モバイルデバイスのためのデジタルオーディオ信号を処理するための装置であって、
    少なくとも1つのマイクロフォンによって音響信号を受信するための手段と、
    前記受信された音響信号を前記デジタルオーディオ信号に変換するための手段と、
    前記デジタルオーディオ信号から、少なくとも1つの聴覚コンテキスト情報を抽出するための手段と、
    イベント開始インジケータを自動的に検出するための手段と、
    前記イベント開始インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行するための手段と、
    イベント終了インジケータを自動的に検出するための手段と、
    前記イベント終了インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを終了するための手段と、
    を備える、装置。
  44. 前記変換するための手段は、
    前記受信された音響信号を電気信号に変換するための手段と、
    前記電気信号をサンプリングして、前記デジタルオーディオ信号を得るための手段と、
    前記デジタルオーディオ信号をバッファに記憶するための手段と、
    を備え、
    前記サンプリングは、サンプリング周波数およびデータ幅に基づく、請求項43に記載のデジタルオーディオ信号を処理するための装置。
  45. 前記少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも1つに関連する、請求項43に記載のデジタルオーディオ信号を処理するための装置。
  46. 前記少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートのうちの1つに少なくとも一部基づく、請求項45に記載のデジタルオーディオ信号を処理するための装置。
  47. 前記少なくとも1つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、請求項45に記載のデジタルオーディオ信号を処理するための装置。
  48. 前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、請求項47に記載のデジタルオーディオ信号を処理するための装置。
  49. 前記イベント開始インジケータを検出するための前記手段は、
    前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択するための手段と、
    前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較するための手段と、
    前記比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定するための手段と、
    を備える、請求項43に記載のデジタルオーディオ信号を処理するための装置。
  50. 前記イベント開始インジケータの前記検出は、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、請求項43に記載のデジタルオーディオ信号を処理するための装置。
  51. 前記オーディオロギングを実行するための前記手段は、
    前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換するための手段と関連する少なくとも1つのパラメータを更新するための手段と、
    前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、追加の処理が必要かどうかを判定するための手段と、
    前記判定に応答して、前記追加の処理を前記デジタルオーディオ信号に適用し、処理されたオーディオ信号を得るための手段と、
    前記処理されたオーディオ信号をメモリ記憶装置に記憶するための手段と、
    を備える、請求項43に記載のデジタルオーディオ信号を処理するための装置。
  52. 前記追加の処理は信号増強処理を含む、請求項51に記載のデジタルオーディオ信号を処理するための装置。
  53. 前記信号増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)のうちの少なくとも1つを含む、請求項52に記載のデジタルオーディオ信号を処理するための装置。
  54. 前記ノイズ抑制は複数のマイクロフォンに基づく、請求項53に記載のデジタルオーディオ信号を処理するための装置。
  55. 前記追加の処理は信号圧縮処理を含む、請求項51に記載のデジタルオーディオ信号を処理するための装置。
  56. 前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、請求項55に記載のデジタルオーディオ信号を処理するための装置。
  57. 少なくとも1つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、請求項55に記載のデジタルオーディオ信号を処理するための装置。
  58. 前記少なくとも1つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、請求項57に記載のデジタルオーディオ信号を処理するための装置。
  59. 前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、請求項51に記載のデジタルオーディオ信号を処理するための装置。
  60. 前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、請求項59に記載のデジタルオーディオ信号を処理するための装置。
  61. 前記イベント終了インジケータを検出するための前記手段は、
    前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択するための手段と、
    前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較するための手段と、
    前記比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定するための手段と、
    を備える、請求項43に記載のデジタルオーディオ信号を処理するための装置。
  62. 前記イベント終了インジケータを検出するための前記手段は、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、請求項43に記載のデジタルオーディオ信号を処理するための装置。
  63. 前記イベント終了インジケータを検出するための前記手段は、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、請求項43に記載のデジタルオーディオ信号を処理するための装置。
  64. モバイルデバイスのためのデジタルオーディオ信号を処理するための命令を備える非一時的なコンピュータ可読媒体であって、前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
    少なくとも1つのマイクロフォンによって音響信号を受信させ、
    前記受信された音響信号をデジタルオーディオ信号に変換させ、
    前記デジタルオーディオ信号から、少なくとも1つの聴覚コンテキスト情報を抽出させ、
    イベント開始インジケータを自動的に検出させ、
    前記イベント開始インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行させ、
    イベント終了インジケータを自動的に検出させ、
    前記イベント終了インジケータの前記検出に応答して、前記オーディオロギングを終了させる、
    コンピュータ可読媒体。
  65. プロセッサによって実行されたとき、前記プロセッサに、前記受信された音響信号を変換させる前記命令は、前記プロセッサに、
    前記受信された音響信号を電気信号に変換させ、
    前記デジタルオーディオ信号を取得するために、前記電気信号をサンプリングさせ、
    前記デジタルオーディオ信号をバッファに記憶させる
    ように構成され、前記サンプリングは、サンプリング周波数およびデータ幅に基づく、請求項64に記載のコンピュータ可読媒体。
  66. 前記少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも1つに関連する、請求項64に記載のコンピュータ可読媒体。
  67. 前記少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートの1つに少なくとも一部基づく、請求項66に記載のコンピュータ可読媒体。
  68. 前記少なくとも1つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、請求項66に記載のコンピュータ可読媒体。
  69. 前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、請求項68に記載のコンピュータ可読媒体。
  70. プロセッサによって実行されたとき、前記プロセッサに、前記イベント開始インジケータを検出させる前記命令は、前記プロセッサに、
    前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択させ、
    前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較させ、
    前記比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定させるように構成される、請求項64に記載のコンピュータ可読媒体。
  71. プロセッサによって実行されたとき、前記プロセッサに、前記イベント開始インジケータを検出させる前記命令は、
    非聴覚情報に少なくとも一部基づいて前記イベント開始インジケータを検出するように構成され、前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、請求項64に記載のコンピュータ可読媒体。
  72. プロセッサによって実行されたとき、前記プロセッサに、前記オーディオロギングを実行させる前記命令は、前記プロセッサに、
    前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換と関連する少なくとも1つのパラメータを更新させ、
    前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、追加の処理が必要かどうかを判定させ、
    処理されたオーディオ信号を取得するために、前記判定に応答して、前記追加の処理を前記デジタルオーディオ信号に適用させ、
    前記処理されたオーディオ信号をメモリ記憶装置に記憶させる
    ように構成される、請求項64に記載のコンピュータ可読媒体。
  73. 前記追加の処理は信号増強処理を含む、請求項72に記載のコンピュータ可読媒体。
  74. 前記信号増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)のうちの少なくとも1つを含む、請求項73に記載のコンピュータ可読媒体。
  75. 前記ノイズ抑制は複数のマイクロフォンに基づく、請求項74に記載のコンピュータ可読媒体。
  76. 前記追加の処理は信号圧縮処理を含む、請求項72に記載のコンピュータ可読媒体。
  77. 前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、請求項76に記載のコンピュータ可読媒体。
  78. 少なくとも1つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、請求項76に記載のコンピュータ可読媒体。
  79. 前記少なくとも1つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、請求項78に記載のコンピュータ可読媒体。
  80. 前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、請求項72に記載のコンピュータ可読媒体。
  81. 前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、請求項80に記載のコンピュータ可読媒体。
  82. プロセッサによって実行されたとき、前記プロセッサに、前記イベント終了インジケータを検出させる前記命令は、前記プロセッサに、
    前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択させ、
    前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較させ、
    前記比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定させるように構成される、請求項64に記載のコンピュータ可読媒体。
  83. プロセッサによって実行されたとき、前記プロセッサに、前記イベント終了インジケータを検出させる前記命令は、予め定められた期間期間の間聴覚イベントが発生しないことに少なくとも一部基づいて前記イベント終了インジケータを検出するように構成される、請求項64に記載のコンピュータ可読媒体。
  84. プロセッサによって実行されたとき、前記プロセッサに、前記イベント終了インジケータを検出させる前記命令は、非聴覚情報に少なくとも一部基づいて前記イベント終了インジケータを検出するように構成され、前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、請求項64に記載のコンピュータ可読媒体。
  85. イベント開始インジケータを自動的に検出したことに応答して、オーディオ入力信号の第1の部分を処理して第1の情報を得ることと、
    前記第1の情報に基づいて、少なくとも1つの記録パラメータを決定することと、
    前記決定された少なくとも1つの記録パラメータに基づいて、前記モバイルデバイスのオーディオキャプチャユニットを再構成することと、
    を備える、モバイルデバイスのための方法。
  86. 前記オーディオキャプチャユニットを前記再構成することは、前記オーディオ入力信号の非アクティブな部分の間に発生する、請求項85に記載の方法。
  87. 前記少なくとも1つの記録パラメータは、前記モバイルデバイスのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む、請求項85に記載の方法。
  88. 前記少なくとも1つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、請求項85に記載の方法。
  89. 前記少なくとも1つの記録パラメータは、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、請求項85に記載の方法。
  90. 前記第1の情報は、前記モバイルデバイスが記録を行なっている環境を表すコンテキスト情報である、請求項85に記載の方法。
  91. 前記第1の情報は、前記オーディオ入力信号の特性を表すコンテキスト情報である、請求項85に記載の方法。
  92. 前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、請求項85に記載の方法。
  93. 前記オーディオ入力信号の第2の部分を処理して、第2の情報を得ることと、
    バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強して、増強された信号を得ることと、
    前記増強された信号を符号化して、符号化された信号を得ることと、
    前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶することと、
    をさらに備える、請求項85に記載の方法。
  94. 前記第2の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定することをさらに備える、請求項93に記載の方法。
  95. 前記増強された信号を前記符号化することは、
    前記第2の情報に基づいて、符号化タイプを決定することと、
    前記決定された符号化のための少なくとも1つの符号化パラメータを決定することと、
    前記決定された符号化タイプおよび前記決定された少なくとも1つの符号化パラメータに基づいて、前記増強された信号を処理して、前記符号化された信号を得ることと、
    を備え、
    前記少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを備える、請求項93に記載の方法。
  96. イベント終了インジケータを自動的に検出することと、
    イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置から、前記符号化された信号のための長期記憶装置の位置を決定することと、
    をさらに備える、請求項93に記載の方法。
  97. 前記長期記憶装置の位置を前記決定することは、前記符号化された信号の優先度に基づく、請求項96に記載の方法。
  98. モバイルデバイスのための装置であって、
    イベント開始インジケータを自動的に検出し、
    前記イベント開始インジケータの前記検出に応答して、オーディオ入力信号の第1の部分を処理して第1の情報を得て、
    前記第1の情報に基づいて、少なくとも1つの記録パラメータを決定する
    ように構成される、オーディオロギングプロセッサと、
    前記決定された少なくとも1つの記録パラメータに基づいて、自身を再構成するように構成されたオーディオキャプチャユニットと、
    を備える、装置。
  99. 前記オーディオキャプチャユニットは、前記オーディオ入力信号の非アクティブな部分の間に、自身を再構成するように構成される、請求項98に記載の装置。
  100. 前記少なくとも1つの記録パラメータは、前記オーディオキャプチャユニットのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む、請求項98に記載の装置。
  101. 前記少なくとも1つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、請求項98に記載の装置。
  102. 前記少なくとも1つの記録パラメータは、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、請求項98に記載の装置。
  103. 前記第1の情報は、前記モバイルデバイスが記録を行なっている環境を示すコンテキスト情報である、請求項98に記載の装置。
  104. 前記第1の情報は、前記オーディオ入力信号の特性を示すコンテキスト情報である、請求項98に記載の装置。
  105. 前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、請求項98に記載の装置。
  106. 前記オーディオロギングプロセッサはさらに、
    前記オーディオ入力信号の第2の部分を処理して、第2の情報を得、
    バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強して、増強された信号を得、
    前記増強された信号を符号化して、符号化された信号を得、
    前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶する
    ように構成される、請求項98に記載の装置。
  107. 前記オーディオロギングプロセッサはさらに、前記第2の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定するように構成される、請求項106に記載の装置。
  108. 前記オーディオロギングプロセッサは、
    前記第2の情報に基づいて、符号化タイプを決定し、
    前記決定された符号化のための少なくとも1つの符号化パラメータを決定し、
    前記決定された符号化タイプおよび前記決定された少なくとも1つの符号化パラメータに基づいて、前記増強された信号を処理して、前記符号化された信号を得る
    ように構成され、
    前記少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを備える、請求項106に記載の装置。
  109. 前記オーディオロギングプロセッサはさらに、
    イベント終了インジケータを自動的に検出し、
    イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置から、前記符号化された信号のための長期記憶装置の位置を決定する
    ように構成される、請求項106に記載の装置。
  110. 前記長期記憶装置の位置を前記決定することは、前記符号化された信号の優先度に基づく、請求項109に記載の装置。
  111. イベント開始インジケータを自動的に検出するための手段と、
    前記イベント開始インジケータの検出に応答して、オーディオ入力信号の第1の部分を処理して第1の情報を得るための手段と、
    前記第1の情報に基づいて、少なくとも1つの記録パラメータを決定するための手段と、
    前記決定された少なくとも1つの記録パラメータに基づいて、前記モバイルデバイスのオーディオキャプチャユニットを再構成するための手段と、
    を備える、モバイルデバイスのための装置。
  112. 前記オーディオキャプチャユニットを再構成するための前記手段は、前記オーディオ入力信号の非アクティブな部分の間に発生する、請求項111に記載の装置。
  113. 前記少なくとも1つの記録パラメータは、前記オーディオキャプチャユニットのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む、請求項111に記載の装置。
  114. 前記少なくとも1つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、請求項111に記載の装置。
  115. 前記少なくとも1つの記録パラメータは、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、請求項111に記載の装置。
  116. 前記第1の情報は、前記モバイルデバイスが記録を行なっている環境を示すコンテキスト情報である、請求項111に記載の装置。
  117. 前記第1の情報は、前記オーディオ入力信号の特性を示すコンテキスト情報である、請求項111に記載の装置。
  118. 前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、請求項111に記載の装置。
  119. 前記オーディオ入力信号の第2の部分を処理して、第2の情報を得るための手段と、
    バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強して、増強された信号を得るための手段と、
    前記増強された信号を符号化して、符号化された信号を得るための手段と、
    前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶するための手段と、
    をさらに備える、請求項111に記載の装置。
  120. 前記第2の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定するための手段をさらに備える、請求項119に記載の装置。
  121. 前記増強された信号を符号化するための前記手段は、
    前記第2の情報に基づいて、符号化タイプを決定するための手段と、
    前記決定された符号化のための少なくとも1つの符号化パラメータを決定するための手段と、
    前記決定された符号化タイプおよび前記決定された少なくとも1つの符号化パラメータに基づいて、前記増強された信号を処理して、前記符号化された信号を得るための手段と、
    を備え、
    前記少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを備える、請求項119に記載の装置。
  122. イベント終了インジケータを自動的に検出するための手段と、
    イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置とから、前記符号化された信号のための長期記憶装置の位置を決定するための手段と、
    をさらに備える、請求項119に記載の装置。
  123. 前記長期記憶装置の位置を決定するための前記手段は、前記符号化された信号の優先度に基づく、請求項122に記載の装置。
  124. プロセッサによって実行されたとき、前記プロセッサに、
    イベント開始インジケータを自動的に検出させ、
    前記イベント開始インジケータの検出に応答して、第1の情報を取得するために、オーディオ入力信号の第1の部分を処理させ、
    前記第1の情報に基づいて、少なくとも1つの記録パラメータを決定させ、
    前記決定された少なくとも1つの記録パラメータに基づいて、前記モバイルデバイスのオーディオキャプチャユニットを再構成させる、命令を備える、非一時的なコンピュータ可読媒体。
  125. プロセッサによって実行されたとき、前記プロセッサに、前記オーディオキャプチャユニットを再構成させる前記命令は、前記オーディオ入力信号の非アクティブな部分の間に前記オーディオキャプチャユニットを再構成するように構成される、請求項124に記載のコンピュータ可読媒体。
  126. 前記少なくとも1つの記録パラメータは、前記オーディオキャプチャユニットのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む、請求項124に記載のコンピュータ可読媒体。
  127. 前記少なくとも1つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、請求項124に記載のコンピュータ可読媒体。
  128. 前記少なくとも1つの記録パラメータは、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、請求項124に記載のコンピュータ可読媒体。
  129. 前記第1の情報は、前記モバイルデバイスが記録を行なっている環境を示すコンテキスト情報である、請求項124に記載のコンピュータ可読媒体。
  130. 前記第1の情報は、前記オーディオ入力信号の特性を示すコンテキスト情報である、請求項124に記載のコンピュータ可読媒体。
  131. 前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、請求項124に記載のコンピュータ可読媒体。
  132. 前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
    第2の情報を取得するために、前記オーディオ入力信号の第2の部分を処理させ、
    増強された信号を取得するために、バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強させ、
    符号化された信号を取得するために、前記増強された信号を符号化させ、
    前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶させる、請求項124に記載のコンピュータ可読媒体。
  133. 前記命令は、プロセッサによって実行されたとき、前記プロセッサに、前記第2の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定させる、請求項132に記載のコンピュータ可読媒体。
  134. プロセッサによって実行されたとき、前記プロセッサに、前記増強された信号を符号化させる前記命令は、前記プロセッサに、
    前記第2の情報に基づいて、符号化タイプを決定させ、
    前記決定された符号化のための少なくとも1つの符号化パラメータを決定させ、
    前記符号化された信号を取得するために、前記決定された符号化タイプおよび前記決定された少なくとも1つの符号化パラメータに基づいて、前記増強された信号を処理させる、
    ように構成され、
    前記少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを備える、請求項132に記載のコンピュータ可読媒体。
  135. 前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
    イベント終了インジケータを自動的に検出させ、
    イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置とから、前記符号化された信号のための長期記憶装置の位置を決定させる、請求項132に記載のコンピュータ可読媒体。
  136. プロセッサによって実行されたとき、前記プロセッサに、前記長期記憶装置の位置を決定させる前記命令は、前記プロセッサに、前記符号化された信号の優先度に基づいて、前記長期記憶装置の位置を決定させる、請求項135に記載のコンピュータ可読媒体。
JP2013504014A 2010-04-08 2011-04-08 モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法 Pending JP2013527490A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US32217610P 2010-04-08 2010-04-08
US61/322,176 2010-04-08
US13/076,242 2011-03-30
US13/076,242 US9112989B2 (en) 2010-04-08 2011-03-30 System and method of smart audio logging for mobile devices
PCT/US2011/031859 WO2011127457A1 (en) 2010-04-08 2011-04-08 System and method of smart audio logging for mobile devices

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2014096211A Division JP2014195275A (ja) 2010-04-08 2014-05-07 モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法
JP2016093278A Division JP6689664B2 (ja) 2010-04-08 2016-05-06 モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法

Publications (1)

Publication Number Publication Date
JP2013527490A true JP2013527490A (ja) 2013-06-27

Family

ID=44227871

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2013504014A Pending JP2013527490A (ja) 2010-04-08 2011-04-08 モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法
JP2014096211A Pending JP2014195275A (ja) 2010-04-08 2014-05-07 モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法
JP2016093278A Active JP6689664B2 (ja) 2010-04-08 2016-05-06 モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2014096211A Pending JP2014195275A (ja) 2010-04-08 2014-05-07 モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法
JP2016093278A Active JP6689664B2 (ja) 2010-04-08 2016-05-06 モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法

Country Status (12)

Country Link
US (3) US9112989B2 (ja)
EP (4) EP3438975B1 (ja)
JP (3) JP2013527490A (ja)
KR (2) KR101498347B1 (ja)
CN (2) CN102907077B (ja)
DK (1) DK3035655T3 (ja)
ES (4) ES2574680T3 (ja)
HU (3) HUE055010T2 (ja)
PL (1) PL3035655T3 (ja)
PT (1) PT3035655T (ja)
SI (1) SI3035655T1 (ja)
WO (1) WO2011127457A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016027680A1 (ja) * 2014-08-18 2016-02-25 ソニー株式会社 音声処理装置、音声処理方法、並びにプログラム
JP2020537180A (ja) * 2017-10-12 2020-12-17 クゥアルコム・インコーポレイテッドQualcomm Incorporated オーディオアクティビティ追跡および要約

Families Citing this family (115)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
EP2758956B1 (en) 2011-09-23 2021-03-10 Digimarc Corporation Context-based smartphone sensor logic
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
KR20180137041A (ko) * 2011-12-07 2018-12-26 퀄컴 인코포레이티드 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로
US9838810B2 (en) 2012-02-27 2017-12-05 Qualcomm Technologies International, Ltd. Low power audio detection
US9922646B1 (en) * 2012-09-21 2018-03-20 Amazon Technologies, Inc. Identifying a location of a voice-input device
CN103811013B (zh) * 2012-11-07 2017-05-03 中国移动通信集团公司 噪声抑制方法、装置、电子设备和通信处理方法
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9275625B2 (en) 2013-03-06 2016-03-01 Qualcomm Incorporated Content based noise suppression
US9076459B2 (en) * 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
WO2014210429A1 (en) * 2013-06-28 2014-12-31 Harman International Industries, Inc. Wireless control of linked devices
US20150031416A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device For Command Phrase Validation
US9449602B2 (en) * 2013-12-03 2016-09-20 Google Inc. Dual uplink pre-processing paths for machine and human listening
CN103841244A (zh) * 2013-12-03 2014-06-04 华为技术有限公司 一种终端及终端的录音方法
JP6478006B2 (ja) * 2013-12-16 2019-03-06 パナソニックIpマネジメント株式会社 無線通信装置、無線通信システム、及びデータ処理方法
US9646607B2 (en) * 2014-03-10 2017-05-09 Dell Products, L.P. Managing wake-on-voice buffer quality based on system boot profiling
US9207835B1 (en) * 2014-05-31 2015-12-08 Apple Inc. Message user interfaces for capture and transmittal of media and location content
US9508359B2 (en) * 2014-06-19 2016-11-29 Yang Gao Acoustic echo preprocessing for speech enhancement
WO2016006424A1 (ja) * 2014-07-10 2016-01-14 オリンパス株式会社 録音装置、及び録音装置の制御方法
US9225527B1 (en) 2014-08-29 2015-12-29 Coban Technologies, Inc. Hidden plug-in storage drive for data integrity
US9307317B2 (en) 2014-08-29 2016-04-05 Coban Technologies, Inc. Wireless programmable microphone apparatus and system for integrated surveillance system devices
FI126923B (fi) * 2014-09-26 2017-08-15 Genelec Oy Menetelmä ja laitteisto digitaalisen audiosignaalin tunnistamiseksi
US20160125891A1 (en) * 2014-10-31 2016-05-05 Intel Corporation Environment-based complexity reduction for audio processing
US20160140978A1 (en) * 2014-11-18 2016-05-19 Qualcomm Incorporated Customizable Local Media Mixing And Stream Selection In Group Communications
WO2016119106A1 (zh) * 2015-01-26 2016-08-04 深圳市冠旭电子有限公司 一种耳机降噪方法及装置
KR20170132187A (ko) * 2015-03-03 2017-12-01 오픈에이치디 피티와이 엘티디 분산된 라이브 퍼포먼스 스케줄 오디오 레코딩, 클라우드 기반 오디오 컨텐츠 편집 및 오디오 트랙 및 관련 메타 데이터의 온라인 컨텐츠 배포를 위한 시스템, 컨텐츠 편집 서버, 오디오 레코딩 슬레이브 장치 및 컨텐츠 편집 인터페이스
US9916836B2 (en) * 2015-03-23 2018-03-13 Microsoft Technology Licensing, Llc Replacing an encoded audio output signal
US10715468B2 (en) * 2015-03-27 2020-07-14 Intel Corporation Facilitating tracking of targets and generating and communicating of messages at computing devices
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
US10186276B2 (en) 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
EP3321794A4 (en) * 2015-10-23 2018-09-12 Samsung Electronics Co., Ltd. Electronic device and control method therefor
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
US10165171B2 (en) 2016-01-22 2018-12-25 Coban Technologies, Inc. Systems, apparatuses, and methods for controlling audiovisual apparatuses
WO2017142112A1 (ko) * 2016-02-19 2017-08-24 주식회사 트리니티랩 가청 주파수 대역 오디오 신호의 저전력용 수신 방법
US9826306B2 (en) 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
CN105788611A (zh) * 2016-02-25 2016-07-20 成都普创通信技术股份有限公司 一种音频质量在线监测系统
US10370102B2 (en) 2016-05-09 2019-08-06 Coban Technologies, Inc. Systems, apparatuses and methods for unmanned aerial vehicle
US10789840B2 (en) 2016-05-09 2020-09-29 Coban Technologies, Inc. Systems, apparatuses and methods for detecting driving behavior and triggering actions based on detected driving behavior
US10152858B2 (en) 2016-05-09 2018-12-11 Coban Technologies, Inc. Systems, apparatuses and methods for triggering actions based on data capture and characterization
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US20170372697A1 (en) * 2016-06-22 2017-12-28 Elwha Llc Systems and methods for rule-based user control of audio rendering
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10176809B1 (en) * 2016-09-29 2019-01-08 Amazon Technologies, Inc. Customized compression and decompression of audio data
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10248613B2 (en) * 2017-01-10 2019-04-02 Qualcomm Incorporated Data bus activation in an electronic device
KR102580418B1 (ko) * 2017-02-07 2023-09-20 삼성에스디에스 주식회사 어쿠스틱 에코 제거 장치 및 방법
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
CN107343105B (zh) * 2017-07-21 2020-09-22 维沃移动通信有限公司 一种音频数据的处理方法和移动终端
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
WO2019033438A1 (zh) 2017-08-18 2019-02-21 广东欧珀移动通信有限公司 音频信号调节方法、装置、存储介质及终端
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
JP2019110447A (ja) * 2017-12-19 2019-07-04 オンキヨー株式会社 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11100918B2 (en) 2018-08-27 2021-08-24 American Family Mutual Insurance Company, S.I. Event sensing system
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
EP3641286B1 (en) * 2018-10-15 2021-01-13 i2x GmbH Call recording system for automatically storing a call candidate and call recording method
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN111383663A (zh) * 2018-12-29 2020-07-07 北京嘀嘀无限科技发展有限公司 一种录音控制方法、装置、用户终端及存储介质
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11241616B1 (en) * 2019-05-17 2022-02-08 Amazon Technologies, Inc. Techniques for conserving power on a device
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
CN110246501B (zh) * 2019-07-02 2022-02-01 思必驰科技股份有限公司 用于会议记录的语音识别方法及系统
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
KR20210042520A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
TWI727521B (zh) * 2019-11-27 2021-05-11 瑞昱半導體股份有限公司 動態語音辨識方法及其裝置
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
RU2766273C1 (ru) * 2020-09-24 2022-02-10 Акционерное общество "Лаборатория Касперского" Система и способ определения нежелательного звонка
CN112508388B (zh) * 2020-12-02 2022-08-19 唐旸 产品质量检测数据的录入方法及系统、服务端、存储介质
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11581007B2 (en) 2021-04-27 2023-02-14 Kyndryl, Inc. Preventing audio delay-induced miscommunication in audio/video conferences

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08185671A (ja) * 1994-12-29 1996-07-16 Sanyo Electric Co Ltd 長時間記録装置
JPH11187156A (ja) * 1997-12-18 1999-07-09 Brother Ind Ltd 通信装置
JP2003198716A (ja) * 2001-12-26 2003-07-11 Hitachi Kokusai Electric Inc 携帯電話機
WO2004057892A1 (en) * 2002-12-20 2004-07-08 Nokia Corporation Method and device for organizing user provided information with meta-information
JP2005221565A (ja) * 2004-02-03 2005-08-18 Nec Saitama Ltd 音声データファイル格納方法および録音処理装置
JP2006107044A (ja) * 2004-10-04 2006-04-20 Oki Consulting Solutions Co Ltd 会話記録装置および会話記録方法
JP2007140063A (ja) * 2005-11-17 2007-06-07 Olympus Imaging Corp 音声記録再生装置
JP2008165097A (ja) * 2006-12-29 2008-07-17 Mariko Kawashima いじめ防止を目的とした音声録音装置および音声データ解析装置
US20080201142A1 (en) * 2007-02-15 2008-08-21 Motorola, Inc. Method and apparatus for automication creation of an interactive log based on real-time content
WO2010030889A1 (en) * 2008-09-11 2010-03-18 Personics Holdings Inc. Method and system for sound monitoring over a network
US20100081487A1 (en) * 2008-09-30 2010-04-01 Apple Inc. Multiple microphone switching and configuration

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4704696A (en) * 1984-01-26 1987-11-03 Texas Instruments Incorporated Method and apparatus for voice control of a computer
US4780906A (en) * 1984-02-17 1988-10-25 Texas Instruments Incorporated Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal
JPS63260345A (ja) 1987-04-17 1988-10-27 Matsushita Electric Ind Co Ltd 自動音声収録装置
JPH04108246A (ja) * 1990-08-29 1992-04-09 Oki Electric Ind Co Ltd ハンズフリー電話装置
JP3167385B2 (ja) * 1991-10-28 2001-05-21 日本電信電話株式会社 音声信号伝送方法
US5749072A (en) * 1994-06-03 1998-05-05 Motorola Inc. Communications device responsive to spoken commands and methods of using same
US5614914A (en) * 1994-09-06 1997-03-25 Interdigital Technology Corporation Wireless telephone distribution system with time and space diversity transmission for determining receiver location
JP3513320B2 (ja) 1996-04-15 2004-03-31 シャープ株式会社 留守番電話機
JPH10161698A (ja) 1996-11-28 1998-06-19 Saitama Nippon Denki Kk 留守番電話機およびその音声記録方法
US6549587B1 (en) * 1999-09-20 2003-04-15 Broadcom Corporation Voice and data exchange over a packet based network with timing recovery
JP2001022386A (ja) 1999-07-06 2001-01-26 Sanyo Electric Co Ltd 録音再生装置及び留守番電話機
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
JP3429237B2 (ja) 1999-11-29 2003-07-22 船井電機株式会社 通信端末装置
JP2002057749A (ja) * 2000-08-09 2002-02-22 Denso Corp 携帯形通信装置
US7231531B2 (en) * 2001-03-16 2007-06-12 Dualcor Technologies, Inc. Personal electronics device with a dual core processor
JP2002324290A (ja) * 2001-04-25 2002-11-08 Yazaki Corp 緊急通報システム
US7224981B2 (en) 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
US7392183B2 (en) 2002-12-27 2008-06-24 Intel Corporation Schedule event context for speech recognition
US20060020486A1 (en) * 2004-04-02 2006-01-26 Kurzweil Raymond C Machine and method to assist user in selecting clothing
KR100640893B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기
JP2006189626A (ja) 2005-01-06 2006-07-20 Fuji Photo Film Co Ltd 記録装置及び音声記録プログラム
WO2006106272A2 (fr) * 2005-04-07 2006-10-12 France Telecom Procede de synchronisation entre une operation de traitement de reconnaissance vocale et une action de declenchement du dit traitement
US20070033030A1 (en) 2005-07-19 2007-02-08 Oded Gottesman Techniques for measurement, adaptation, and setup of an audio communication system
US7856283B2 (en) * 2005-12-13 2010-12-21 Sigmatel, Inc. Digital microphone interface, audio codec and methods for use therewith
KR100785076B1 (ko) * 2006-06-15 2007-12-12 삼성전자주식회사 스포츠 동영상에서의 실시간 이벤트 검출 방법 및 그 장치
US20080005067A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Context-based search, retrieval, and awareness
GB0619825D0 (en) * 2006-10-06 2006-11-15 Craven Peter G Microphone array
JP4979343B2 (ja) 2006-10-27 2012-07-18 三建設備工業株式会社 内・外気の調湿システム
US8652040B2 (en) * 2006-12-19 2014-02-18 Valencell, Inc. Telemetric apparatus for health and environmental monitoring
US8140325B2 (en) * 2007-01-04 2012-03-20 International Business Machines Corporation Systems and methods for intelligent control of microphones for speech recognition applications
US20080192906A1 (en) * 2007-02-14 2008-08-14 Winbond Electronics Corporation Method and system for message management for audio storage devices
US8977255B2 (en) * 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8229134B2 (en) * 2007-05-24 2012-07-24 University Of Maryland Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images
JP4909854B2 (ja) * 2007-09-27 2012-04-04 株式会社東芝 電子機器および表示処理方法
US7962525B2 (en) 2007-11-05 2011-06-14 Microsoft Corporation Automated capture of information generated at meetings
US20090177476A1 (en) 2007-12-21 2009-07-09 May Darrell Method, system and mobile device for registering voice data with calendar events
US20090204402A1 (en) * 2008-01-09 2009-08-13 8 Figure, Llc Method and apparatus for creating customized podcasts with multiple text-to-speech voices
US8560307B2 (en) * 2008-01-28 2013-10-15 Qualcomm Incorporated Systems, methods, and apparatus for context suppression using receivers
US8411880B2 (en) * 2008-01-29 2013-04-02 Qualcomm Incorporated Sound quality by intelligently selecting between signals from a plurality of microphones
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
CN101594410A (zh) 2008-05-27 2009-12-02 北京爱国者存储科技有限责任公司 电子录音设备可自动进行电话录音的方法
US8805348B2 (en) 2008-07-30 2014-08-12 Qualcomm Incorporated Diary synchronization for smart phone applications
CN201278556Y (zh) 2008-08-22 2009-07-22 深圳市中深瑞泰科技有限公司 一种具有自动应答以及录音功能的cdma手机
US20110173235A1 (en) * 2008-09-15 2011-07-14 Aman James A Session automated recording together with rules based indexing, analysis and expression of content
GB0817950D0 (en) * 2008-10-01 2008-11-05 Univ Southampton Apparatus and method for sound reproduction
US8676904B2 (en) * 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR20210152028A (ko) * 2008-11-10 2021-12-14 구글 엘엘씨 멀티센서 음성 검출
CN101404680A (zh) 2008-11-12 2009-04-08 深圳市杰特电信控股有限公司 电子文档中播入及播放媒体片段的方法
CN101478717A (zh) 2009-01-19 2009-07-08 深圳市同洲电子股份有限公司 一种通话录音方法、系统及移动通信终端
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US7930436B1 (en) * 2009-03-09 2011-04-19 Znosko Dmitry Y System and method for dynamically adjusting data compression parameters
WO2011011438A2 (en) * 2009-07-22 2011-01-27 Dolby Laboratories Licensing Corporation System and method for automatic selection of audio configuration settings
EP2537391B1 (en) * 2010-02-19 2013-12-25 Telefonaktiebolaget L M Ericsson (PUBL) Music control signal dependent activation of a voice activity detector
WO2012001216A1 (en) * 2010-07-01 2012-01-05 Nokia Corporation Method and apparatus for adapting a context model

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08185671A (ja) * 1994-12-29 1996-07-16 Sanyo Electric Co Ltd 長時間記録装置
JPH11187156A (ja) * 1997-12-18 1999-07-09 Brother Ind Ltd 通信装置
JP2003198716A (ja) * 2001-12-26 2003-07-11 Hitachi Kokusai Electric Inc 携帯電話機
WO2004057892A1 (en) * 2002-12-20 2004-07-08 Nokia Corporation Method and device for organizing user provided information with meta-information
JP2005221565A (ja) * 2004-02-03 2005-08-18 Nec Saitama Ltd 音声データファイル格納方法および録音処理装置
JP2006107044A (ja) * 2004-10-04 2006-04-20 Oki Consulting Solutions Co Ltd 会話記録装置および会話記録方法
JP2007140063A (ja) * 2005-11-17 2007-06-07 Olympus Imaging Corp 音声記録再生装置
JP2008165097A (ja) * 2006-12-29 2008-07-17 Mariko Kawashima いじめ防止を目的とした音声録音装置および音声データ解析装置
US20080201142A1 (en) * 2007-02-15 2008-08-21 Motorola, Inc. Method and apparatus for automication creation of an interactive log based on real-time content
WO2010030889A1 (en) * 2008-09-11 2010-03-18 Personics Holdings Inc. Method and system for sound monitoring over a network
US20100081487A1 (en) * 2008-09-30 2010-04-01 Apple Inc. Multiple microphone switching and configuration

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016027680A1 (ja) * 2014-08-18 2016-02-25 ソニー株式会社 音声処理装置、音声処理方法、並びにプログラム
US10580428B2 (en) 2014-08-18 2020-03-03 Sony Corporation Audio noise estimation and filtering
JP2020537180A (ja) * 2017-10-12 2020-12-17 クゥアルコム・インコーポレイテッドQualcomm Incorporated オーディオアクティビティ追跡および要約

Also Published As

Publication number Publication date
ES2688371T3 (es) 2018-11-02
CN102907077A (zh) 2013-01-30
PT3035655T (pt) 2018-10-24
SI3035655T1 (en) 2018-08-31
CN102907077B (zh) 2015-11-25
US20150325267A1 (en) 2015-11-12
KR20120137436A (ko) 2012-12-20
WO2011127457A1 (en) 2011-10-13
HUE028665T2 (en) 2016-12-28
EP3035655B1 (en) 2018-06-27
EP3917123A1 (en) 2021-12-01
HUE055010T2 (hu) 2021-10-28
EP2556652A1 (en) 2013-02-13
KR101498347B1 (ko) 2015-03-03
KR101523181B1 (ko) 2015-05-26
JP6689664B2 (ja) 2020-04-28
ES2963099T3 (es) 2024-03-25
US9112989B2 (en) 2015-08-18
CN105357371A (zh) 2016-02-24
ES2877325T3 (es) 2021-11-16
EP3917123B1 (en) 2023-10-25
HUE038690T2 (hu) 2018-11-28
CN105357371B (zh) 2019-03-01
PL3035655T3 (pl) 2018-12-31
JP2016180988A (ja) 2016-10-13
US20210264947A1 (en) 2021-08-26
JP2014195275A (ja) 2014-10-09
EP3438975B1 (en) 2021-06-02
US20120078397A1 (en) 2012-03-29
EP3917123C0 (en) 2023-10-25
EP3438975A1 (en) 2019-02-06
ES2574680T3 (es) 2016-06-21
KR20140043845A (ko) 2014-04-10
EP3035655A1 (en) 2016-06-22
EP2556652B1 (en) 2016-03-02
DK3035655T3 (en) 2018-10-01

Similar Documents

Publication Publication Date Title
US20210264947A1 (en) System and method of determining auditory context information
JP6790029B2 (ja) 音声プロファイルを管理し、発話信号を生成するためのデバイス
US10540979B2 (en) User interface for secure access to a device using speaker verification
KR101622493B1 (ko) 오디오 피처 데이터의 추출 및 분석
US20110166856A1 (en) Noise profile determination for voice-related feature
JP2008058983A (ja) 音声コーディングにおける雑音のロバストな分類のための方法
US20200251120A1 (en) Method and system for individualized signal processing of an audio signal of a hearing device
JP6549009B2 (ja) 通信端末及び音声認識システム
US11551707B2 (en) Speech processing method, information device, and computer program product
WO2021258958A1 (zh) 语音编码方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140407

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160105