JP2018528479A - スーパー広帯域音楽のための適応雑音抑圧 - Google Patents
スーパー広帯域音楽のための適応雑音抑圧 Download PDFInfo
- Publication number
- JP2018528479A JP2018528479A JP2018515459A JP2018515459A JP2018528479A JP 2018528479 A JP2018528479 A JP 2018528479A JP 2018515459 A JP2018515459 A JP 2018515459A JP 2018515459 A JP2018515459 A JP 2018515459A JP 2018528479 A JP2018528479 A JP 2018528479A
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- input audio
- music
- user
- noise suppression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 203
- 230000003044 adaptive effect Effects 0.000 title abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 82
- 238000004891 communication Methods 0.000 claims abstract description 44
- 230000006835 compression Effects 0.000 claims description 24
- 238000007906 compression Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 19
- 230000005236 sound signal Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 abstract description 11
- 238000003860 storage Methods 0.000 description 20
- 238000012805 post-processing Methods 0.000 description 19
- 230000005540 biological transmission Effects 0.000 description 17
- 238000009499 grossing Methods 0.000 description 12
- 230000009977 dual effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012432 intermediate storage Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
少なくともスーパー広帯域(SWB)帯域幅まで、音声信号と音楽信号の両方の処理を改善するために適応雑音抑圧を実行するための技法が説明される。本技法は、オーディオデータがキャプチャされるコンテキストまたは環境を識別することと、コンテキストに基づいて、帯域幅圧縮する(たとえば、符号化する)より前に、オーディオデータに適用される雑音抑圧のレベルを適応的に変更することとを含む。有効な音声コンテキストでは、オーディオプリプロセッサは、音声信号中の(音楽を含む)雑音を抑圧するために、比較的アグレッシブである雑音抑圧の第1のレベルを設定し得る。有効な音楽コンテキストでは、オーディオプリプロセッサは、音楽信号を無ひずみのままにするために、あまりアグレッシブでない雑音抑圧の第2のレベルを設定し得る。このようにして、送信機側ワイヤレス通信デバイスにおけるボコーダは、音声信号と音楽信号の両方を最小のひずみで適切に符号化し得る。
Description
[0001]本開示はオーディオ信号処理に関し、より詳細には、雑音抑圧をオーディオ信号に適用することに関する。
[0002]ワイヤレス通信デバイス(たとえば、モバイルフォン、スマートフォン、スマートパッド、ラップトップ、タブレットなど)は、雑音の多い環境において使用され得る。たとえば、モバイルフォンは、送信機側においてもたらされた環境、背景、または周囲雑音が、受信機側における了解度を低減し、音声品質を劣化させる、コンサート、バー、またはレストランにおいて使用され得る。したがって、ワイヤレス通信デバイスは、一般に、コーディングおよび送信のために音声信号をボコーダに提示する前に雑音を低減し、音声信号をクリーンアップするために、雑音抑圧を送信機側オーディオプリプロセッサに組み込む。
[0003]ユーザが、音楽中に送信機側ワイヤレス通信デバイス上で発話(talk)している場合、またはユーザが、受信機側デバイスへの送信のために音楽自体をキャプチャすることを試みている場合、雑音抑圧は、音声信号の了解度を改善するために、除去されるべき雑音として音楽信号を扱う。したがって、音楽信号は、帯域幅圧縮(たとえば、符号化)および送信より前に、雑音抑圧によって抑圧され、ひずませられ、したがって、受信機側における受話者は、送信機側における音楽信号の低品質再現を聴取することになる。
[0004]概して、本開示は、少なくともスーパー広帯域(SWB:super wideband)帯域幅まで、音声信号と音楽信号の両方の処理を改善するために適応雑音抑圧(adaptive noise suppression)を実行するための技法について説明する。開示される技法は、オーディオデータがキャプチャされるコンテキストまたは環境を識別することと、コンテキストに基づいて、オーディオデータの帯域幅圧縮(たとえば、符号化)より前に、オーディオデータに適用される雑音抑圧のレベルを適応的に変更することとを含む。オーディオデータが有効な音声コンテキストを有する(すなわち、ユーザが、主に、音声信号を送信することを意図する)場合、オーディオプリプロセッサは、音声信号中の(音楽を含む)雑音を抑圧するために、比較的アグレッシブである雑音抑圧の第1のレベルを設定し得る。オーディオデータが有効な音楽コンテキストを有する(すなわち、ユーザが、主に、音楽信号、または音楽信号と音声信号の両方を送信することを意図する)場合、オーディオプリプロセッサは、音楽信号を無ひずみのままにするために、あまりアグレッシブでない雑音抑圧の第2のレベルを設定し得る。このようにして、送信機側ワイヤレス通信デバイスにおけるボコーダは、音声信号と音楽信号の両方を最小のひずみで適切に圧縮または符号化し得る。
[0005]一例では、本開示は、ボイスおよびにデータ通信を与えるように構成されたデバイスを対象とし、本デバイスは、入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、入力オーディオデータは、音声信号と、音楽信号と、雑音信号とを含む、オーディオコンテキストに基づいて、オーディオエンコーダを用いた入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを入力オーディオデータに適用することと、少なくとも1つのオーディオエンコーダパケットを生成するために、入力オーディオデータを帯域幅圧縮する(bandwidth compress)こととを行うように構成された、1つまたは複数のプロセッサを備える。少なくとも1つのオーディオエンコーダパケットを記憶するように構成された、1つまたは複数のプロセッサに電気的に結合された、メモリと、少なくとも1つのオーディオエンコーダパケットを送信するように構成された送信機とをさらに備える本デバイス。
[0006]別の例では、本開示は、入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、入力オーディオデータのオーディオコンテキストを取得するための手段と、ここにおいて、入力オーディオデータは、音声信号と、音楽信号と、雑音信号とを含む、オーディオコンテキストに基づいて、オーディオエンコーダを用いた入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを入力オーディオデータに適用するための手段と、少なくとも1つのオーディオエンコーダパケットを生成するために、入力オーディオデータを帯域幅圧縮するための手段と、少なくとも1つのオーディオエンコーダパケットを送信するための手段とを備える、雑音抑圧が可能な装置を対象とする。
[0007]さらなる一例では、本開示は、ソースデバイスのユーザと宛先デバイスのユーザとの間の会話中に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、ソースデバイスのユーザからの入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、音楽がソースデバイスのユーザの背景でプレイしており、ここにおいて、入力オーディオデータが、ソースデバイスのユーザのボイスと、ソースデバイスのユーザの背景でプレイしている音楽とを含む、オーディオコンテキストが、音声または音楽、あるいは音声と音楽の両方であるオーディオコンテキストを含むことに基づいて、オーディオエンコーダを用いた入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを入力オーディオデータに適用することと、少なくとも1つのオーディオエンコーダパケットを生成するために、入力オーディオデータを帯域幅圧縮することと、少なくとも1つのオーディオエンコーダパケットをソースデバイスから宛先デバイスに送信することとを備える、ボイスおよびデータ通信において使用される方法を対象とする。
[0008]本技法の1つまたは複数の態様の詳細が添付の図面および以下の説明に記載されている。本技法の他の特徴、目的、および利点は、説明および図面、ならびに特許請求の範囲から明らかになろう。
[0013]本開示は、少なくともスーパー広帯域(SWB)帯域幅まで、音声信号と音楽信号の両方の処理を改善するために適応雑音抑圧を実行するための技法について説明する。ワイヤレス通信デバイスのオーディオプリプロセッサ中に含まれる従来の雑音抑圧ユニットは、符号化されるべき音声信号の了解度を改善するために、非音声信号を雑音として圧縮するように構成される。このスタイルの雑音抑圧は、適応マルチレート(AMR:adaptive multi-rate)または適応マルチレート広帯域(AMRWB:adaptive multi-rate wideband)など、旧来の音声コーデックに従って動作するように構成されたボコーダでうまく動作する。これらの旧来の音声コーデックは、たとえば、代数符号励振線形予測(ACELP:algebraic code-excited linear prediction)を使用して、低帯域幅における音声信号をコーディングする(すなわち、符号化または復号する)ことが可能であるが、高品質音楽信号をコーディングすることが可能でない。最近規格化された拡張ボイスサービス(EVS:Enhanced Voice Service)コーデックは、スーパー広帯域帯域幅(すなわち、0〜16kHz)またはさらに全帯域帯域幅(すなわち、0〜24kHz)まで、音声信号ならびに音楽信号をコーディングすることが可能である。しかしながら、従来の雑音抑圧ユニットは、符号化するより前に、音楽信号を抑圧し、びずませ続ける。
[0014]本開示で説明される技法は、オーディオデータ(音声、音楽、または音声と音楽)がキャプチャされるコンテキストまたは環境を識別することと、コンテキストに基づいて、オーディオデータの符号化より前に、オーディオデータに適用される雑音抑圧のレベルを適応的に変更することとを含む。たとえば、開示される技法によれば、ワイヤレス通信デバイスは、オーディオデータが、有効な音声コンテキストにおいてキャプチャされるのか有効な音楽コンテキストにおいてキャプチャされるのかのいずれかを決定するために使用される送信機側オーディオプリプロセッサ内に、音声−音楽(SPMU:speech-music)分類器、近接度センサー、または他の検出器のうちの1つまたは複数を含み得る。
[0015]オーディオデータが、有効な音声コンテキストを有する(すなわち、ユーザは、主に、受話者との会話に関与するために音声信号を送信することを意図する)場合、オーディオプリプロセッサは、コーディングおよび送信のために音声信号をボコーダに移す前に、(音楽を含む)雑音を抑圧するために、比較的アグレッシブである雑音抑圧の第1のレベルを設定し得る。オーディオデータが、有効な音楽コンテキストを有する(すなわち、ユーザは、主に、受話者が経験するための音楽信号、または音楽信号と音声信号の両方を送信することを意図する)場合、オーディオプリプロセッサは、コーディングおよび送信のために無ひずみ音楽信号がボコーダに移ることを可能にするために、あまりアグレッシブでない雑音抑圧の第2のレベルを設定し得る。このようにして、送信機側ワイヤレス通信デバイスにおいてEVSコーデックに従って動作するように構成されたボコーダは、SWB音楽信号に対する最小ひずみで受信機側デバイスにおけるオーディオシーンの完全な再現を可能にするために、音声信号と音楽信号の両方を適切に符号化し得る。
[0016]図1は、本開示で説明される技法を利用し得る例示的なオーディオ符号化および復号システム10を示すブロック図である。図1に示されているように、システム10は、宛先デバイス14によって後で復号されるべき符号化オーディオデータを与えるソースデバイス12を含む。特に、ソースデバイス12は、コンピュータ可読媒体16を介して宛先デバイス14中に含まれる受信機(RX)31にオーディオデータを送信するために使用される送信機(TX)21を含む。ソースデバイス12および宛先デバイス14は、デスクトップコンピュータ、ノートブック(すなわち、ラップトップ)コンピュータ、タブレットコンピュータ、セットトップボックス、いわゆる「スマート」フォンなどの携帯電話ハンドセット、いわゆる「スマート」パッド、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイス、オーディオストリーミングデバイス、ウェアラブルデバイスなどを含む、広範囲にわたるデバイスのいずれかを備え得る。場合によっては、ソースデバイス12および宛先デバイス14は、ワイヤレス通信のために装備され得る。
[0017]宛先デバイス14は、コンピュータ可読媒体16を介して、復号されるべき符号化オーディオデータを受信し得る。コンピュータ可読媒体16は、ソースデバイス12から宛先デバイス14に符号化オーディオデータを移動させることが可能な任意のタイプの媒体またはデバイスを備え得る。一例では、コンピュータ可読媒体16は、ソースデバイス12が、符号化オーディオデータを宛先デバイス14にリアルタイムで直接送信することを可能にするための通信媒体を備え得る。符号化オーディオデータは、ワイヤレス通信プロトコルなどの通信規格に従って変調され、宛先デバイス14に送信され得る。通信媒体は、無線周波数(RF)スペクトルまたは1つまたは複数の物理伝送線路など、任意のワイヤレスまたはワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなど、パケットベースネットワークの一部を形成し得る。通信媒体は、ソースデバイス12から宛先デバイス14への通信を可能にするために有用であり得るルータ、スイッチ、基地局、または任意の他の機器を含み得る。
[0018]いくつかの例では、符号化オーディオデータは、ソースデバイス12からストレージデバイス(図示せず)に出力され得る。同様に、符号化オーディオデータは、宛先デバイス14によってストレージデバイスからアクセスされ得る。ストレージデバイスは、ハードドライブ、Blu−ray(登録商標)ディスク、DVD、CD−ROM、フラッシュメモリ、揮発性または不揮発性メモリ、あるいは符号化オーディオデータを記憶するための任意の他の好適なデジタル記憶媒体など、様々な分散されたまたはローカルにアクセスされるデータ記憶媒体のいずれかを含み得る。さらなる一例では、ストレージデバイスは、ソースデバイス12によって生成された符号化オーディオを記憶し得るファイルサーバまたは別の中間ストレージデバイスに対応し得る。宛先デバイス14は、ストリーミングまたはダウンロードを介して、ストレージデバイスから記憶されたオーディオデータにアクセスし得る。ファイルサーバは、符号化オーディオデータを記憶することと、その符号化オーディオデータを宛先デバイス14に送信することとが可能な任意のタイプのサーバであり得る。例示的なファイルサーバとしては、(たとえば、ウェブサイトのための)ウェブサーバ、FTPサーバ、ネットワーク接続ストレージ(NAS)デバイス、またはローカルディスクドライブがある。宛先デバイス14は、インターネット接続を含む、任意の標準のデータ接続を通して符号化オーディオデータにアクセスし得る。これは、ファイルサーバに記憶された符号化オーディオデータにアクセスするのに好適であるワイヤレスチャネル(たとえば、Wi−Fi(登録商標)接続)、ワイヤード接続(たとえば、DSL、ケーブルモデムなど)、またはその両方の組合せを含み得る。ストレージデバイスからの符号化オーディオデータの送信は、ストリーミング送信、ダウンロード送信、またはそれらの組合せであり得る。
[0019]図1の図示されたシステム10は一例にすぎない。オーディオデータを処理するための技法は、任意のデジタルオーディオ符号化または復号デバイスによって実行され得る。概して、本開示の技法はオーディオプリプロセッサによって実行されるが、本技法は、オーディオ符号化デバイス、あるいは、一般に「コーデック」または「ボコーダ」と呼ばれるオーディオエンコーダ/デコーダによっても実行され得る。ソースデバイス12および宛先デバイス14は、ソースデバイス12が宛先デバイス14への送信のためのコード化オーディオデータを生成するような、コーディングデバイスの例にすぎない。いくつかの例では、デバイス12、14は、デバイス12、14の各々がオーディオ符号化構成要素とオーディオ復号構成要素とを含むように、実質的に対称的に動作し得る。したがって、システム10は、たとえば、オーディオストリーミング、オーディオプレイバック、オーディオブロードキャスト、またはオーディオテレフォニーのためのデバイス12とデバイス14の間の一方向または双方向のオーディオ送信をサポートし得る。
[0020]図1の例では、ソースデバイス12は、マイクロフォン18と、オーディオプリプロセッサ22と、オーディオエンコーダ20とを含む。宛先デバイス14は、オーディオデコーダ30とスピーカー32とを含む。他の例では、ソースデバイス12も、それ自体のオーディオデコーダを含み得、宛先デバイス14も、それ自体のオーディオエンコーダを含み得る。図示の例では、ソースデバイス12は、入力オーディオデータをキャプチャするように構成されたマイクロフォンアレイを備え得る、1つまたは複数の外部マイクロフォン18からオーディオデータを受信する。同様に、宛先デバイス14は、スピーカーアレイを備え得る1つまたは複数の外部スピーカー32とインターフェースする。他の例では、ソースデバイスおよび宛先デバイスは、他の構成要素または構成を含み得る。たとえば、ソースデバイス12は、1つまたは複数の統合されたマイクロフォンなど、統合されたオーディオソースからオーディオデータを受信し得る。同様に、宛先デバイス14は、1つまたは複数の統合されたスピーカーなど、統合されたオーディオ出力デバイスにオーディオデータを出力し得る。
[0021]いくつかの例では、マイクロフォン18は、ソースデバイス12に物理的に結合され得るか、またはソースデバイス12とワイヤレス通信し得る。ソースデバイス12とのワイヤレス通信を示すために、図1は、ソースデバイス12の外側にマイクロフォン18を示す。他の例では、マイクロフォン18は、マイクロフォン18へのソースデバイス12の物理的結合を示すために、ソースデバイス12の内側に示さていることもある。同様に、スピーカー32は、宛先デバイス14に物理的に結合され得るか、または宛先デバイス14とワイヤレス通信し得る。宛先デバイス14とのワイヤレス通信を示すために、図1は、スピーカー32を宛先デバイス14の外側に示す。他の例では、スピーカー32は、スピーカー32への宛先デバイス14の物理的結合を示すために、宛先デバイス14の内側に示されることもある。
[0022]いくつかの例では、ソースデバイス12のマイクロフォン18は、ソースデバイス12に統合された少なくとも1つのマイクロフォンを含み得る。ソースデバイス12がモバイルフォンを備える一例では、マイクロフォン18は、ユーザの音声を拾うためにユーザの口の近くに位置する「前面」マイクロフォンを少なくとも含み得る。ソースデバイス12がモバイルフォンを備える別の例では、マイクロフォン18は、ユーザの口の近くに位置する「前面」マイクロフォンと、環境、背景、または周囲雑音を拾うためにモバイルフォンの裏面に位置する「背面」マイクロフォンとの両方を含み得る。さらなる一例では、マイクロフォン18は、ソースデバイス12に統合されたマイクロフォンのアレイを備え得る。他の例では、ソースデバイス12は、オーディオインターフェースを介して1つまたは複数の外部マイクロフォンからオーディオデータを受信するか、前にキャプチャされたオーディオを含んでいるメモリまたはオーディオアーカイブからオーディオデータを取り出すか、またはオーディオデータ自体を生成し得る。キャプチャされたオーディオ、プリキャプチャされたオーディオ、またはコンピュータ生成オーディオは、オーディオエンコーダ20によって帯域幅圧縮および符号化され得る。少なくとも1つのオーディオエンコーダパケット中の符号化オーディオデータは、次いで、ソースデバイス12のTX21によってコンピュータ可読媒体16上に送信され得る。
[0023]コンピュータ可読媒体16は、ワイヤレスブロードキャストまたはワイヤードネットワーク送信などの一時媒体、あるいはハードディスク、フラッシュドライブ、コンパクトディスク、デジタルビデオディスク、Blu−rayディスク、または他のコンピュータ可読媒体などの記憶媒体(すなわち、非一時的記憶媒体)を含み得る。いくつかの例では、ネットワークサーバ(図示せず)は、たとえば、ネットワーク送信を介して、ソースデバイス12から符号化オーディオデータを受信し、その符号化オーディオデータを宛先デバイス14に与え得る。同様に、ディスクスタンピング設備など、媒体製造設備のコンピューティングデバイスは、ソースデバイス12から符号化オーディオデータを受信し、その符号化オーディオデータを含んでいるディスクを生成し得る。したがって、コンピュータ可読媒体16は、様々な例において、様々な形態の1つまたは複数のコンピュータ可読媒体を含むことが理解されよう。
[0024]宛先デバイス14は、RX31を用いて、オーディオデコーダ30によって復号するためにコンピュータ可読媒体16から少なくとも1つのオーディオエンコーダパケット中の符号化オーディオデータを受信し得る。スピーカー32は、ユーザに復号オーディオデータをプレイバックする。宛先デバイス14のスピーカー32は、宛先デバイス14に統合された少なくとも1つのスピーカーを含み得る。宛先デバイス14がモバイルフォンを備える一例では、スピーカー32は、少なくとも、旧来の電話として使用するためにユーザの耳の近くに位置する「前面」スピーカーを含み得る。宛先デバイス14がモバイルフォンを備える別の例では、スピーカー32は、ユーザの耳の近くに位置する「前面」スピーカーと、スピーカーフォンとしての使用を可能にするためにモバイルフォン上の他の場所に位置する「側面」または「背面」スピーカーとの両方を含み得る。さらなる一例では、スピーカー32は、宛先デバイス14に統合されたスピーカーのアレイを備え得る。他の例では、宛先デバイス14は、オーディオインターフェースを介して、1つまたは複数の外部スピーカー上でのプレイバックのために復号オーディオデータを送り得る。このようにして、宛先デバイス14は、宛先デバイス14によって受信された少なくとも1つのオーディオエンコーダパケットを復号するように構成されたオーディオデコーダ30の出力をレンダリングするように構成されたスピーカー32のうちの少なくとも1つを含む。
[0025]オーディオエンコーダ20およびオーディオデコーダ30はそれぞれ、1つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアなど、様々な好適なエンコーダ回路のいずれか、あるいはそれらの任意の組合せとして実装され得る。本技法が部分的にソフトウェアで実装されるとき、デバイスは、ソフトウェアのための命令を好適な非一時的コンピュータ可読媒体に記憶し、本開示の技法を実行するために1つまたは複数のプロセッサを使用してハードウェアでその命令を実行し得る。オーディオエンコーダ20およびオーディオデコーダ30の各々は1つまたは複数のエンコーダまたはデコーダ中に含まれ得、そのいずれも、それぞれのデバイスにおいて複合エンコーダ/デコーダ(コーデックまたはボコーダ)の一部として統合され得る。
[0026]さらに、ソースデバイス12はメモリ13を含み、宛先デバイス14は、動作中に情報を記憶するように構成されたメモリ15を含む。集積メモリは、コンピュータ可読記憶媒体またはコンピュータ可読記憶デバイスを含み得る。いくつかの例では、集積メモリは、短期メモリまたは長期メモリのうちの1つまたは複数を含み得る。集積メモリは、たとえば、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、磁気ハードディスク、光ディスク、フロッピー(登録商標)ディスク、フラッシュメモリ、あるいは電気的プログラマブルメモリ(EPROM)または電気的消去可能およびプログラマブルメモリ(EEPROM(登録商標))の形態を含み得る。いくつかの例では、集積メモリは、1つまたは複数のプロセッサが実行するためのプログラム命令を記憶するために使用される。集積メモリは、プログラム実行中に情報を一時的に記憶するために、ソースデバイス12および宛先デバイス14の各々上で動作するソフトウェアまたはアプリケーションによって使用され得る。
[0027]このようにして、ソースデバイス12は、1つまたは複数のプロセッサに電気的に結合され、少なくとも1つのオーディオエンコーダパケットを記憶するように構成されたメモリ13と、少なくとも1つのオーディオエンコーダパケットをオーバージエアで送信するように構成された送信機21とを含む。本明細書で使用される「結合される(coupled)」は、「通信可能に結合される」、「電気的に結合される」、または「物理的に結合される」、およびそれらの組合せを含み得る。2つのデバイス(または構成要素)は、1つまたは複数の他のデバイス、構成要素、ワイヤ、バス、ネットワーク(たとえば、ワイヤードネットワーク、ワイヤレスネットワーク、またはそれらの組合せ)などを介して、直接または間接的に結合(たとえば、通信可能に結合、電気的に結合、または物理的に結合)され得る。電気的に結合された2つのデバイス(または構成要素)は、同じデバイス中または異なるデバイス中に含まれ得、例示的な、非限定的な例として、エレクトロニクス、1つまたは複数のコネクタ、または誘導結合を介して接続され得る。いくつかの実装形態では、電気通信しているなど、通信可能に結合された2つのデバイス(または構成要素)は、1つまたは複数ワイヤ、バス、ネットワークなどを介して、直接または間接的に電気信号(デジタル信号またはアナログ信号)を送信および受信し得る。たとえば、メモリ13は、ソースデバイス12の1つまたは複数のプロセッサと電気通信していることがあり、ソースデバイス12は、オーディオエンコーダ20と、雑音抑圧ユニット24を実行するプリプロセッサ22とを含み得る。別の例として、メモリ15は、オーディオデコーダ30を含み得る宛先デバイス14の1つまたは複数のプロセッサに電気的に結合されていることがある。
[0028]いくつかの例では、ソースデバイス12および宛先デバイス14は、雑音の多い環境において使用され得るモバイルフォンである。たとえば、ソースデバイス12は、ソースデバイス12においてもたらされた環境、背景、または周囲雑音が、宛先デバイス14における了解度を低減し、音声品質を劣化させる、コンサート、バー、またはレストランにおいて使用され得る。したがって、ソースデバイス12は、帯域幅圧縮、コーディング、および宛先デバイス14への送信のために音声信号をオーディオエンコーダ20に提示する前に、雑音を低減し、音声信号を改善する(または、言い換えれば、クリーンアップする)ために、オーディオプリプロセッサ22内に雑音抑圧ユニット24を含む。
[0029]概して、雑音抑圧は、ユーザが送信機側環境において話している間、マイクロフォンによってキャプチャされる背景雑音を抑圧するために使用される送信機側技術である。雑音抑圧は、受信機側環境において遭遇される雑音を消去するために使用される受信機側技術であるアクティブ雑音消去(ANC:active noise cancellation)と混同されるべきでない。雑音抑圧は、キャプチャされたオーディオデータを符号化のために準備するために、送信機側における前処理中に実行される。すなわち、雑音抑圧は、より効率的な圧縮が符号化中に達成されることを可能にするために雑音を低減し得、それは、雑音抑圧を使用して前処理されなかった符号化オーディオデータと比較して、(サイズに関して)より小さい符号化オーディオデータを生じる。したがって、雑音抑圧は、オーディオエンコーダ20内で実行されず、代わりに、オーディオプリプロセッサ22中で実行され、オーディオプリプロセッサ22中の雑音抑圧の出力は、オーディオエンコーダ20への入力であり、時々中間に他の軽微な処理を伴う。
[0030]雑音抑圧は、狭帯域(NB)(すなわち、0〜4kHz)、広帯域(WB)(すなわち、0〜7kHz)、スーパー広帯域(SWB)(すなわち、0〜16kHz)、または全帯域(FB)(すなわち、0〜24kHz)帯域幅中で動作し得る。たとえば、雑音抑圧への入力オーディオデータがSWBコンテンツである場合、雑音抑圧は、範囲0〜16kHz内のすべての周波数中の雑音を抑圧するようにオーディオデータを処理し得、意図された出力は、範囲0〜16kHz内のクリーンな音声信号である。入力オーディオデータ帯域幅が高く、たとえば、FB帯域幅である場合、雑音抑圧の高速フーリエ変換(FFT)が入力オーディオデータをより多くの周波数帯域中に分割し得、周波数帯域の各々について後処理利得(post processing gain)が決定され、適用され得る。後で、雑音抑圧の逆FFT(IFFT)が、周波数帯域間で分割されたオーディオデータを、雑音抑圧の単一の出力信号に合成し得る。
[0031]ユーザが、音楽中にソースデバイス12上で発話している場合、またはユーザが、宛先デバイス14への送信のために音楽自体をキャプチャすることを試みている場合、オーディオ前処理中の従来の雑音抑圧は、音声信号の了解度を改善するために、除去されるべき雑音として音楽信号を扱う。したがって、音楽信号は、符号化および送信より前に、従来の雑音抑圧によって抑圧され、ひずませられ、したがって、宛先デバイス14において受話(listen)しているユーザは、音楽信号の低品質再現を聴取することになる。
[0032]従来の雑音抑圧は、適応マルチレート(AMR)または適応マルチレート広帯域(AMRWB)など、旧来の音声コーデックに従って動作するように構成されたボコーダでうまく動作する。これらの旧来の音声コーデックは、たとえば、代数符号励振線形予測(ACELP)を使用して、低帯域幅における音声信号をコーディングする(すなわち、符号化または復号する)ことが可能であるが、高品質音楽信号をコーディングすることが可能でない。たとえば、AMRおよびAMRWBコーデックは、着信オーディオデータを音声コンテンツまたは音楽コンテンツとして分類せず、相応に符号化する。代わりに、AMRおよびAMRWBコーデックは、すべての非雑音信号を音声コンテンツとして扱い、ACELPを使用して音声コンテンツをコーディングする。したがって、AMRまたはAMRWBコーデックに従ってコーディングされた音楽の品質は、不十分である。さらに、AMRコーデックは、狭帯域(NB)帯域幅(すなわち、0〜4kHz)中のオーディオデータに限定され、AMRWBコーデックは、広帯域(WB)帯域幅(すなわち、0〜7kHz)中のオーディオ信号に限定される。しかしながら、たいていの音楽信号は、AMRおよびAMRWBコーデックによって廃棄される7kHzを上回る有意なコンテンツを含む。
[0033]最近規格化された拡張ボイスサービス(EVS)コーデックは、スーパー広帯域(SWB)帯域幅(すなわち、0〜16kHz)またはさらに全帯域(FB)帯域幅(すなわち、0〜24kHz)まで、音声信号ならびに音楽信号をコーディングすることが可能である。概して、音楽信号をコーディングすることが可能である他のコーデックが存在するが、これらのコーデックは、低遅延動作を必要とするモバイルフォンドメイン(たとえば、第3世代パートナーシッププロジェクト(3GPP(登録商標)))における会話の音声をもコーディングすることのために使用されず、またはそれを行うことを意図しない。EVSコーデックは、呼中の音楽信号をも高品質(たとえば、SWBまたはFB帯域幅)でコーディングすることができる、低遅延会話型コーデックである。
[0034]したがって、EVSコーデックは、会話内の音楽信号を送信し、送信機側デバイス、たとえば、ソースデバイス12に存在するリッチなオーディオシーンを受信機側デバイス、すなわち、宛先デバイス14において再現する能力をユーザに提供する。しかしながら、オーディオ前処理中の従来の雑音抑圧は、符号化より前に音楽信号を抑圧し、ひずませ続ける。キャプチャされたオーディオデータが、背景においてではなく、高い信号対雑音比(SNR)レベルにおいて1次音楽信号を含む場合でさえ、音楽信号は、従来の雑音抑圧によって大きくひずませられる。
[0035]図1の例では、ソースデバイス12のオーディオエンコーダ20および宛先デバイス14のオーディオデコーダ30は、EVSコーデックに従って動作するように構成される。このようにして、オーディオエンコーダ20は、ソースデバイス12においてSWBまたはFB音楽信号を十分に符号化し得、オーディオデコーダ30は、宛先デバイス14においてSWBまたはFB音楽信号を適切に再生し得る。図1に示されているように、オーディオエンコーダ20は、音声−音楽(SPMU)分類器26と、ボイスアクティビティ検出器(VAD:voice activity detector)27と、低帯域(LB)符号化ユニット28Aと、高帯域(HB)符号化ユニット28Bとを含む。オーディオエンコーダ20は、これらの帯域中のコンテンツの利用可能に応じて、別々に、LB符号化ユニット28Aを使用してオーディオデータの低帯域(0〜8kHz)部分を符号化し、HB符号化ユニット28Bを使用して高帯域(8〜16kHzまたは8〜24kHz)を符号化することによって、2つの部分において符号化を実行する。
[0036]オーディオエンコーダ20において、VAD27は、入力オーディオデータが音声コンテンツを含むとき、出力を1として与え得、入力オーディオデータが非音声コンテンツ(音楽、トーン、雑音など)を含むとき、出力を0として与え得る。SPMU分類器26は、オーディオエンコーダ20へのオーディオデータ入力が、音声コンテンツを含むのか、音楽コンテンツを含むのか、音声コンテンツと音楽コンテンツの両方を含むのかを決定する。この決定に基づいて、オーディオエンコーダ20は、入力オーディオデータのために最良のLBおよびHB符号化方法を選択する。LB符号化ユニット28A内で、オーディオデータが音声コンテンツを含むとき、1つの符号化方法が選択され、オーディオデータが音楽コンテンツを含むとき、別の符号化方法が選択される。同じことが、HB符号化ユニット28B内で当てはまる。SPMU分類器26は、LB符号化ユニット28AおよびHB符号化ユニット28Bの各々内でどちらのコーディング方法が選択されるべきかを示す制御入力を、LB符号化ユニット28AおよびHB符号化ユニット28Bに与える。オーディオエンコーダ20はまた、選択された符号化方法をオーディオデコーダ30に通信し得、したがって、オーディオデコーダ30は、符号化オーディオデータを復号するために対応するLBおよびHB復号方法を選択し得る。
[0037]EVSコーデック中のSPMU分類器の動作は、Malenovskyら、「Two-Stage Speech/Music Classifier with Decision Smoothing and Sharpening in the EVS Codec」、第40回IEEE音響、音声および信号処理に関する国際会議(ICASSP:International Conference on Acoustics, Speech and Signal Processing)2015、ブリズベーン、オーストラリア、2015年4月19日〜24日においてより詳細に説明されている。選択可能モードボコーダ(SMV:selectable mode vocoder)中のSPMU分類器の動作は、Songら、「Analyasis and Improvement of Speech/Music Classification for 3GPP(登録商標)2 SMV Based on GMM」、IEEE Signal Proccesing Letters、第15巻、2008年においてより詳細に説明されている。
[0038]SPMU分類器26が入力オーディオデータを音楽コンテンツとして分類する場合、最良品質オーディオ符号化は、変換領域コーディング技法を使用して達成され得る。しかしながら、前処理中に従来の雑音抑圧がオーディオデータの音楽信号に適用される場合、雑音抑圧のアグレッシブレベルによってひずみが音楽信号にもたらされ得る。ひずませられた音楽信号は、SPMU分類器26に入力オーディオデータを音声コンテンツとして誤分類させ得る。オーディオエンコーダ20は、次いで、入力オーディオデータのために理想的とは言えない符号化方法を選択し得、それは、オーディオデコーダ30の出力における音楽信号の品質を低減することになる。さらに、SPMU分類器26が、入力オーディオデータを音楽コンテンツとして適切に分類することが可能である場合でも、選択された符号化方法は、ひずませられた音楽信号を符号化することになり、それも、オーディオデコーダ30の出力における音楽信号の品質を低減することになる。
[0039]本開示は、少なくともSWB帯域幅まで、音声信号と音楽信号の両方の処理を改善するために適応雑音抑圧を実行するための技法について説明する。いくつかの例では、適応雑音抑圧技法は、オーディオデータがキャプチャされるコンテキストまたは環境の変化に基づいて、通話中に、オーディオデータに適用される雑音抑圧のレベルを変更するために使用され得る。
[0040]図1の図示の例では、ソースデバイス12のオーディオプリプロセッサ22内の雑音抑圧ユニット24は、マイクロフォン18によってキャプチャされたオーディオデータのための有効な音楽コンテキストを識別するように構成される。有効な音楽コンテキストの場合、雑音抑圧ユニット24は、キャプチャされたオーディオデータの音楽信号が最小ひずみで雑音抑圧ユニット24を通って移ることを可能にし、EVSコーデックに従って動作するように構成されたオーディオエンコーダ20が音楽信号を適切に符号化することを可能にするために、オーディオデータに低レベル雑音抑圧または雑音抑圧なしを適用するようにさらに構成され得る。さらに、有効な音声コンテキストの場合、雑音抑圧ユニット24は、雑音抑圧のアグレッシブまたは高いレベルを適用することと、クリーンな音声信号をオーディオエンコーダ20に提示することとによって、従来の雑音抑圧技法と同様に、高雑音環境における音声信号を処理するように構成され得る。
[0041]本明細書で開示されるデバイス、装置、システム、および方法は、様々のコンピューティングデバイスに適用され得る。コンピューティングデバイスの例としては、モバイルフォン、セルラーフォン、スマートフォン、ヘッドフォン、ビデオカメラ、オーディオプレーヤ(たとえば、ムービングピクチャエキスパートグループ−1(MPEG−1)またはMPEG−2 Audio Layer 3(MP3)プレーヤ)、ビデオプレーヤ、オーディオレコーダ、デスクトップコンピュータ/ラップトップコンピュータ、携帯情報端末(PDA)、ゲームシステムなどがある。コンピューティングデバイスの一種は、別のデバイスと通信し得る通信デバイスである。コンピューティングデバイスの例としては、モバイルフォン、ラップトップコンピュータ、デスクトップコンピュータ、セルラーフォン、スマートフォン、電子リーダー、タブレットデバイス、ゲームシステムなどがある。
[0042]コンピューティングデバイスまたは通信デバイスは、国際電気通信連合(ITU)規格または米国電気コンピューティング技術者協会(IEEE)規格(たとえば、802.11a、802.11b、802.11g、802.11nまたは802.11acなどのワイヤレスフィデリティまたは「Wi−Fi」規格)のような、いくつかの業界規格に従って動作し得る。通信デバイスが準拠し得る規格の他の例としては、IEEE802.16(たとえば、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセスまたは「WiMAX(登録商標)」)、第3世代パートナーシッププロジェクト(3GPP)、3GPPロングタームエボリューション(LTE(登録商標))、モバイル電気通信用グローバルシステム(GSM(登録商標))などがある(ここで、通信デバイスは、たとえば、ユーザ機器(UE)、ノードB、発展型ノードB(eNB)、モバイルデバイス、移動局、加入者局、リモート局、アクセス端末、モバイル端末、端末、ユーザ端末、加入者ユニットなどと呼ばれることがある)。本明細書で開示されるデバイス、装置、システムおよび方法のいくつかが、1つまたは複数の規格に関して説明されることがあるが、技法は、それらのデバイス、装置、システムおよび方法が多くのシステムおよび規格に適用可能であり得るので、本開示の範囲に限定されるべきではない。
[0043]いくつかの通信デバイスは、ワイヤレス通信し得、あるいはワイヤード接続またはリンクを使用して通信し得ることに留意されたい。たとえば、いくつかの通信デバイスは、イーサネット(登録商標)プロトコルを使用して他のデバイスと通信し得る。本明細書で開示されるデバイス、装置、システムおよび方法は、ワイヤレス通信し、あるいはワイヤード接続またはリンクを使用して通信する、通信デバイスに適用され得る。
[0044]図2は、本開示で説明される技法を実装し得るソースデバイス12のオーディオプリプロセッサ22の一例を示すブロック図である。図2の例では、オーディオプリプロセッサ22は、雑音抑圧ユニット24と、近接度センサー40と、音声−音楽(SPMU)分類器42と、音分離(SS:sound separation)ユニット45と、制御ユニット44とを含む。雑音抑圧ユニット24は、高速フーリエ変換(FFT)46と、雑音基準生成ユニット48と、後処理利得ユニット50と、適応ビームフォーミングユニット52と、利得適用および平滑化ユニット(gain application and smoothing unit)54と、逆FFT(IFFT)56とをさらに含む。
[0045]図2の図示の例は、ソースデバイス12において音声、音楽、および雑音信号をキャプチャするために使用されるデュアルマイクロフォン18A、18Bを含む。デュアルマイクロフォン18A、18Bは、図1からのマイクロフォン18のうちの2つを備える。したがって、デュアルマイクロフォン18A、18Bは、ソースデバイス12の外部に配置されたマイクロフォンのアレイ中の2つのマイクロフォンを備え得る。ソースデバイス12がモバイルフォンを備える場合、1次マイクロフォン18Aはモバイルフォンの「前面」マイクロフォンであり得、2次マイクロフォン18Bはモバイルフォンの「背面」マイクロフォンであり得る。デュアルマイクロフォン18A、18Bによってキャプチャされたオーディオデータは、プリプロセッサ22への入力である。
[0046]いくつかの例では、SSユニット45は、オーディオデータを雑音抑圧ユニット24に供給するより前に、デュアルマイクロフォン18A、18Bによってキャプチャされたオーディオデータを受信し得る。SSユニット45は、入力オーディオデータ中に含まれる雑音から音声を分離する音分離ユニットを備え、音声(+ほとんどない残留雑音)を一方のチャネル中に配置し、雑音(+ほとんどない残差音声)を他方のチャネル中に配置する。図2に示されているデュアルマイクロフォンシステムでは、雑音は、音声として分類されないすべての音を含み得る。たとえば、ソースデバイス12のユーザが野球を観戦しており、大きな声援と、応援している人々と、頭上を飛ぶ飛行機と、プレイしている音楽がある場合、すべてのそれらの音が、「雑音」チャネルに入れられることになる。3マイクロフォンシステムでは、(1)音声チャネルと、(2)音楽チャネルと、(3)何らかの残りの音、たとえば、大きい声援、応援している人々、および頭上の飛行機を含む、雑音チャネルとがあるように、音楽をそれ自体のチャネルに分離することが可能であり得る。マイクロフォンの数が増加するにつれて、SSユニット45は、入力オーディオデータの別個のタイプの音源を分離するために、より多くの自由度で構成され得る。いくつかの例では、マイクロフォンのアレイ中の各マイクロフォンが、1つのチャネルに相関し得る。他の例では、2つまたはそれ以上のマイクロフォンが、同じチャネルに相関する音をキャプチャし得る。
[0047]雑音抑圧ユニット24内では、キャプチャされたオーディオデータが、FFT46を使用して周波数領域に変換される。たとえば、FFT46は、周波数帯域の各々において処理するために入力オーディオデータを複数の周波数帯域に分割し得る。たとえば、FFT46の各周波数帯域またはビンは、周波数領域中のチャネルのうちの1つに雑音スペクトルを含み、チャネルのうちの別の1つに音声スペクトルを含み得る。
[0048] 次いで、入力オーディオデータ中の音声信号と雑音信号とを空間的に分離し、デュアルマイクロフォン18A、18Bによってキャプチャされた入力オーディオデータから音声基準信号と雑音基準信号とを生成するために、適応ビームフォーミングユニット52が使用される。適応ビームフォーミングユニット52は、音声の方向を識別し、他の空間セクタから来るすべての雑音をフィルタで除去するための空間フィルタ処理を含む。適応ビームフォーミングユニット52は、音声基準信号を利得適用および平滑化ユニット54に供給する。雑音基準生成ユニット48は、適応ビームフォーミングユニット52から、変換されたオーディオデータと分離された雑音信号とを受信する。雑音基準生成ユニット48は、後処理利得ユニット50への入力のために1つまたは複数の雑音基準信号を生成し得る。
[0049]後処理利得ユニット50は、雑音基準信号のための利得係数を計算するために、複数の周波数帯域にわたって雑音基準信号のさらなる処理を実行する。後処理利得ユニット50は、次いで、計算された利得係数を利得適用および平滑化ユニット54に供給する。一例では、利得適用および平滑化ユニット54は、オーディオデータ中の雑音を抑圧するために、ある利得および平滑化を用いて音声基準信号から雑音基準信号を減算し得る。利得適用および平滑化ユニット54は、次いで、雑音抑圧信号(noise-suppressed signal)をIFFT56に供給する。IFFT56は、周波数帯域の間で分割されたオーディオデータを単一の出力信号に合成し得る。
[0050]後処理利得ユニット50によって計算された利得係数は、雑音信号の減算が利得適用および平滑化ユニット54においてどのくらいアグレッシブであることになるか、したがって、雑音抑圧が入力オーディオデータにどのくらいアグレッシブに適用されるかを決定する、係数の中でも、1つの主要な係数である。利得適用および平滑化ユニット54は、フレームごとに、たとえば、一般に5〜40ミリ秒ごとに、雑音抑圧を入力オーディオデータに適用する。
[0051]いくつかの例では、後処理利得ユニット50は、より高度なSNRベースの後処理方式を使用し得る。これらの例では、個別の周波数帯域内の音声基準信号、X(n,f)エネルギーと雑音基準信号、N(n,f)エネルギーとを比較した後に、後処理利得ユニット50は、以下の式に従って、各フレームn中の各周波数帯域fに対応するSNR値、S(n,f)を計算する。
次いで、後処理利得ユニット50は、利得係数、G(n,f)を計算するためにSNR値、(n,f)を使用し、利得係数は、以下の式に従って、雑音抑圧信号、Y(n,f)を計算するために利得適用および平滑化ユニット54によって音声基準信号に適用される。
入力オーディオデータが有効な音楽コンテキストにおいてキャプチャされる場合、いくつかの周波数帯域における音声基準信号に低いまたは小さい利得係数が適用された場合、入力オーディオデータ内の音楽信号は大きくひずませられ得る。
[0052]図2の図示の例では、オーディオプリプロセッサ22は、近接度センサー40と、SPMU分類器42と、雑音抑圧ユニット24と並行して動作する制御ユニット44とを含む。本開示で説明される技法に従って、これらの追加のモジュールは、入力オーディオデータがデュアルマイクロフォン18A、18Bによってキャプチャされるコンテキストまたは環境を決定することと、オーディオデータの決定されたコンテキストに基づいて、入力オーディオデータのための雑音抑圧のレベルを設定するために、雑音抑圧ユニット24の後処理利得ユニット50を制御することとを行うように構成される。
[0053]このようにして、ソースデバイス12のオーディオプリプロセッサ22は、入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、入力オーディオデータは、音声信号と、音楽信号と、雑音信号とを含む、オーディオコンテキストに基づいて、オーディオエンコーダ20を用いた入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを入力オーディオデータに適用することとを行うように構成され得る。いくつかの場合には、入力オーディオデータの第1の部分はマイクロフォン18Aによってキャプチャされ得、入力オーディオデータの第2の部分はマイクロフォン18Bによってキャプチャされ得る。
[0054]近接度センサー40は、ユーザに対するモバイルフォンの位置を識別する、モバイルフォン内に一般に含まれるハードウェアユニットであり得る。近接度センサー40は、モバイルフォンがユーザの顔の近くに位置するのかユーザの顔から離れて位置するのかを示す信号を制御ユニット44に出力し得る。このようにして、近接度センサー40は、制御ユニット44が、モバイルフォンがユーザの口に近接して配向されているかどうか、またはデバイスがユーザの口から離れて遠位に配向されているかどうかを決定するのを助け得る。いくつかの例では、モバイルフォンがある角度だけ回転されており、たとえば、ユーザが受話しており、発話していないとき、モバイルフォンのイヤピースはユーザの顔または耳の近くにあり得るが、前面マイクロフォンはユーザの口の近くにないことがある。この場合、モバイルフォンは、ユーザからより遠くに離れているが、ユーザのすぐ前に位置しているにもかかわらず、近接度センサー40は、モバイルフォンがユーザに近接して配向されていると依然として決定し得る。
[0055]たとえば、近接度センサー40は、モバイルフォンが、ユーザの顔の近く(たとえば、従来の電話として使用するためにユーザの頬または耳に近い右側)に配置されるときに人間の皮膚の存在を検出するための1つまたは複数の赤外線(IR)ベースの近接度センサーを含み得る。一般に、モバイルデバイスは、2つの目的のために、すなわち、ディスプレイスクリーンバックライトをオフにすることによって、ディスプレイ電力消費を低減することと、ユーザの頬による不注意による接触を回避するためにタッチスクリーンを無効にすることとを行うためにこの近接度検知を実行する。本開示では、近接度センサー40は、また別の目的のために、すなわち、雑音抑圧ユニット24の挙動を制御するために使用され得る。このようにして、近接度センサー40は、制御ユニット44が入力オーディオデータのオーディオコンテキストを決定するのを助けるように構成され得る。
[0056]SPMU分類器42は、ソースデバイス12のオーディオプリプロセッサ22によって実行されるソフトウェアモジュールであり得る。このようにして、SPMU分類器42は、ソースデバイス12の1つまたは複数のプロセッサに統合される。SPMU分類器42は、信号を、入力オーディオデータを音声コンテンツまたは音楽コンテンツの一方または両方として分類する制御ユニット44に出力し得る。たとえば、SPMU分類器42は、線形弁別、SNRベースメトリック、またはガウス混合モデリング(GMM:Gaussian mixture modelling)のうちの1つまたは複数に基づいて、オーディオデータ分類を実行し得る。SPMU分類器42は、遅延の増加なしに雑音抑圧ユニット24に並行して動作され得る。
[0057]SPMU分類器42は、入力オーディオデータの少なくとも2つの分類出力を与えるように構成され得る。いくつかの例では、SPMU分類器42は、入力オーディオデータをキャプチャするために使用されるマイクロフォンの数に基づいて、追加の分類出力を与え得る。いくつかの場合には、少なくとも2つの分類出力のうちの1つが音楽であり、少なくとも2つの分類出力のうちの別の1つが音声である。本開示の技法によれば、制御ユニット44は、少なくとも2つの分類出力のうちの1つが音楽であること基づいて、入力オーディオデータのための1つの利得値を調整するように雑音抑圧ユニット24を制御し得る。さらに、制御ユニット44は、少なくとも2つの分類出力のうちの1つが音声であることに基づいて、1つの利得値を調整するように雑音抑圧ユニット24を制御し得る。
[0058]図2に示されているように、SPMU分類器42は、1次マイクロフォン18Aと2次マイクロフォン18Bとの各々からの入力オーディオデータを別々に分類するように構成され得る。この例では、SPMU分類器42は、2つの別個のSPMU分類器を含み、デュアルマイクロフォン18A、18Bの各々のための1つを含み得る。いくつかの例では、SPMU分類器42内の分類器の各々は、入力オーディオデータを、音声コンテンツ(たとえば、値0)、音楽コンテンツ(たとえば、値1)、または音声および音楽コンテンツ(たとえば、値2)として分類するように構成された3レベル分類器を備え得る。他の例では、SPMU分類器42内の分類器の各々は、ホイッスル、トーンなど、他の特定のタイプの音を含めるためにさらに高い数のレベルを備え得る。
[0059]概して、SPMU分類器は、一般に、EVSコーデックに従って動作するように構成されたオーディオエンコーダ中に含まれ、たとえば、図1からのオーディオエンコーダ20のSPMU分類器26である。本開示の技法によれば、入力オーディオデータのコンテキストを、有効な音声コンテキストまたは有効な音楽コンテキストのいずれかとして決定するための制御ユニット44による使用のために、デュアルマイクロフォン18A、18Bによってキャプチャされた入力オーディオデータを分類するために、1つまたは複数の追加のSPMU分類器、たとえば、SPMU分類器42が、オーディオプリプロセッサ22内に含まれる。いくつかの例では、1つまたは複数の追加のSPMU分類器をオーディオプリプロセッサ22内に含める代わりに、EVSボコーダ内のSPMU分類器、たとえば、図1からのオーディオエンコーダ20のSPMU分類器26が、フィードバックループを介してオーディオプリプロセッサ22によって使用され得る。
[0060]図2に示されている例では、プリプロセッサ22中に含まれるSPMU分類器42は、音声−音楽分類器の低複雑度バージョンを備え得る。音声コンテンツ、音楽コンテンツ、または音声および音楽コンテンツの分類を20msフレームごとに与え得る、オーディオエンコーダ20のSPMU分類器26と同様であるが、プリプロセッサ22のSPMU分類器42は、入力オーディオデータを約200〜500msごとに分類するように構成され得る。このようにして、プリプロセッサ22のSPMU分類器42は、EVSエンコーダ内で使用されるSMPU分類器、たとえば、図1からのオーディオエンコーダ20のSPMU分類器26と比較して、低複雑度であり得る。
[0061]制御ユニット44は、入力オーディオデータのコンテキストを、有効な音声コンテキスト(すなわち、ユーザは、主に、受話者との会話に関与するために音声信号を送信することを意図する)または有効な音楽コンテキスト(すなわち、ユーザは、主に、受話者が経験するために音楽信号、または音楽信号と音声信号の両方を送信することを意図する)のうちの1つとして決定するために、近接度センサー40とSPMU分類器42の両方からの信号を何らかのヒステリシスと合成し得る。このようにして、制御ユニット44は、抑圧されるべき環境、背景、または周囲雑音とともにキャプチャされたオーディオデータと、リッチなオーディオシーンを再現するために音楽信号が符号化されて保持されるべきである、有効な音楽コンテキストにおいてキャプチャされたオーディオデータとを区別し得る。制御ユニット44は、決定されたオーディオコンテキストを雑音抑圧ユニット24の後処理利得ユニット50に供給する。このようにして、制御ユニット44は、ソースデバイス12の1つまたは複数のプロセッサに統合され、1つまたは複数のプロセッサが入力オーディオデータのオーディオコンテキストを取得するように構成されたとき、入力オーディオデータのオーディオコンテキストを決定するように構成され得る。
[0062]いくつかの例では、制御ユニット44によって決定されたオーディオコンテキストは、雑音抑圧ユニット24内で雑音抑圧信号を生成するために使用される、雑音抑圧、たとえば、後処理利得、G(n,f)のデフォルトレベルのオーバーライドとして働き得る。たとえば、有効な音楽コンテキストが制御ユニット44によって識別された場合、後処理利得は、雑音抑圧ユニット24内の変更の中でも、SWBまたはFB音楽品質を保存するために雑音抑圧のあまりアグレッシブでないレベルを設定するために、修正され得る。1つの例示的な技法は、以下の式に従って、識別されたオーディオコンテキストに基づいて、後処理利得、G(n,f)を修正することである。
上式では、M(n)は、制御ユニット44によって導出され、入力オーディオデータが有効な音楽コンテキストを有すると見なされ得る程度を示す。
[0063]図2の例示的な雑音抑圧構成では、後処理利得は、入力オーディオデータに適用される雑音抑圧のレベルを修正するために変更される主要な係数として説明される。他の例では、高い音楽品質を選好するために適用される雑音抑圧のレベルを修正するために、雑音抑圧において使用されるいくつかの他のパラメータが変更され得る。たとえば、後処理利得、G(n,f)を修正することに加えて、雑音抑圧ユニット24内の他の変更が、決定されたオーディオコンテキストに基づいて実行され得る。他の変更は、雑音基準生成ユニット48、またはボイスアクティビティ検出ユニット、スペクトル差評価ユニット、マスキングユニット、スペクトル平坦度推定ユニット、ボイスアクティビティ検出(VAD:voice activity detection)ベース残差雑音抑圧ユニットなどを含む図2に示されていない他の構成要素など、雑音抑圧ユニット24の様々な構成要素によって使用される、あるしきい値の修正を含み得る。
[0064]制御ユニット44が、有効な音楽コンテキストにおいて入力オーディオデータがキャプチャされたと決定し、たとえば、音楽信号が1次マイクロフォン18A中で検出され、モバイルフォンがユーザの顔から離れていると決定した場合、雑音抑圧ユニット24は、オーディオデータの音楽信号が最小ひずみで雑音抑圧ユニット24を通って移ることを可能にするために、雑音抑圧のあまりアグレッシブでないレベルを一時的に設定し得る。雑音抑圧ユニット24は、次いで、制御ユニット44が、同じく、入力オーディオデータが有効な音声コンテキストを有すると決定し、たとえば、音声信号が1次マイクロフォン18A中で検出されるかまたはモバイルフォンがユーザの顔に近接していると決定したとき、雑音抑圧のデフォルトアグレッシブレベルにフォールバックし得る。
[0065]いくつかの例では、雑音抑圧ユニット24は、雑音抑圧のアグレッシブレベルのためのデフォルト雑音抑圧パラメータのセットと、雑音抑圧の1つまたは複数のあまりアグレッシブでないレベルのための雑音抑圧パラメータの他のセットとを記憶し得る。いくつかの例では、雑音抑圧のデフォルトアグレッシブレベルは、ユーザ入力に基づいて、限られた時間期間の間オーバーライドされ得る。この例は、図3に関してより詳細に説明される。
[0066]このようにして、利得適用および平滑化ユニット54は、入力オーディオデータのオーディオコンテキストが音楽であるとき、入力オーディオデータを1つのレベルによって減衰させ、入力オーディオデータのオーディオコンテキストが音声であるとき、入力オーディオデータを異なるレベルによって減衰させるように構成され得る。一例では、入力オーディオデータのオーディオコンテキストが第1のオーディオフレーム中の音声であるときの入力オーディオデータの減衰の第1のレベルは、入力オーディオデータのオーディオコンテキストが第2のオーディオフレーム中の音楽であるときの入力オーディオデータの減衰の第2のレベルの15パーセント内であり得る。この例では、第1のフレームは、第2のオーディオフレームの50個前または後のオーディオフレーム内にあり得る。いくつかの場合には、雑音抑圧ユニット24は、雑音抑圧器呼ばれることがあり、利得適用および平滑化ユニット54は雑音抑圧器内の利得調整器と呼ばれることがある。
[0067]第1の例示的な使用事例では、モバイルフォンのユーザは、大きい雑音および音楽がある環境(たとえば、雑音の多いバー、パーティー、または街路上)において通話中に発話していることがある。この場合、近接度センサー40は、モバイルフォンがユーザの顔の近くに位置していることを検出し、SPMU分類器42は、1次マイクロフォン18Aからの入力オーディオデータが、高レベルの雑音および音楽コンテンツとともに高音声コンテンツを含み、2次マイクロフォン18Bからの入力オーディオデータが、高レベルの雑音および音楽コンテンツと、場合によってはバブル雑音と同様の何らかの音声コンテンツとを有すると決定する。この場合、制御ユニット44は、入力オーディオデータのコンテキストが有効な音声コンテキストであると決定し、雑音抑圧ユニット24を、入力オーディオデータへの適用のために雑音抑圧のアグレッシブレベルを設定するように制御し得る。
[0068]第2の例示的な使用事例では、モバイルフォンのユーザは、大きい雑音および音楽がある環境において通話中に受話していることがある。この場合、近接度センサー40は、モバイルフォンがユーザの顔の近くに位置することを検出し、SPMU分類器42は、1次マイクロフォン18Aからの入力オーディオデータが音声コンテンツのない高い雑音および音楽コンテンツを含み、2次マイクロフォン18Bからの入力オーディオデータが同様のコンテンツを含むと決定する。この場合、入力オーディオデータが音声コンテンツを含まなくても、制御ユニット44は、入力オーディオデータのコンテキストが有効な音声コンテキストであると決定するために、ユーザの顔に対するモバイルデバイスの近接度を使用し、雑音抑圧ユニット24を、入力オーディオデータへの適用のために雑音抑圧のアグレッシブレベルを設定するように制御し得る。
[0069]第3の例示的な使用事例では、ユーザは、(たとえば、自宅設定またはコンサートホールにおいて誰かが歌唱(sing)しているかまたは楽器をプレイしていることをキャプチャするために)音楽があり、ほとんどまたはまったく雑音がない環境においてモバイルフォンを空中にまたはユーザの顔から離して保持していることがある。この場合、近接度センサー40は、モバイルフォンがユーザの顔から離れて位置することを検出し、SPMU分類器42は、1次マイクロフォン18Aからの入力オーディオデータが高音楽コンテンツを含み、2次マイクロフォン18Bからの入力オーディオデータも何らかの音楽コンテンツを含むと決定する。この場合、背景雑音の不在に基づいて、制御ユニット44は、入力オーディオデータのコンテキストが有効な音楽コンテキストであると決定し、雑音抑圧ユニット24を、入力オーディオデータへの適用のために雑音抑圧の低レベルまたは雑音抑圧なしを設定するように制御し得る。
[0070]第4の例示的な使用事例では、ユーザは、(たとえば、雑音の多いバー、パーティー、屋外コンサートにおいてプレイされる音楽をキャプチャするために)大きい雑音および音楽がある環境においてモバイルフォンを空中にまたはユーザの顔から離して保持していることがある。この場合、近接度センサー40は、モバイルフォンがユーザの顔から離れて位置していることを検出し、SPMU分類器42は、1次マイクロフォン18Aからの入力オーディオデータが高レベルの雑音および音楽コンテンツを含み、2次マイクロフォン18Bからの入力オーディオデータが同様のコンテンツを含むと決定する。この場合、背景雑音が存在しても、制御ユニット44は、入力オーディオデータのコンテキストが有効な音楽コンテキストであると決定するために、入力オーディオデータ中の音声コンテンツの不在と、ユーザの顔から離れているモバイルデバイスの位置とを使用し、雑音抑圧ユニット24を、入力オーディオデータへの適用のために雑音抑圧の低レベルまたは雑音抑圧なしを設定するように制御し得る。
[0071]第5の例示的な使用事例では、ユーザは、(たとえば、自宅またはプライベートブース設定において歌唱とカラオケ音楽とをキャプチャするために)ほとんどまたはまったく雑音がない環境において誰かが音楽に合わせて歌唱していることを録音していることがある。この場合、近接度センサー40は、モバイルフォンがユーザの顔から離れて位置していることを検出し、SPMU分類器42は、1次マイクロフォン18Aからの入力オーディオデータが高音楽コンテンツを含み、2次マイクロフォン18Bからの入力オーディオデータが何らかの音楽コンテンツを含むと決定する。この場合、制御ユニット44は、入力オーディオデータのコンテキストが有効な音楽コンテキストであると決定し、雑音抑圧ユニット24を、入力オーディオデータへの適用のために雑音抑圧の低レベルまたは雑音抑圧なしを設定するように制御し得る。図3に関してより詳細に説明される、ある例では、制御ユニット44は、制御ユニット44によって実行されるオーディオコンテキスト決定をさらに改善するために、追加の入力信号をカラオケ機械から直接受信し得る。
[0072]第6の例示的な使用事例では、ユーザは、(たとえば、パーティーまたはバー設定において歌唱とカラオケ音楽とをキャプチャするために)大きい雑音がある環境において誰かが音楽に合わせて歌唱していることを録音していることがある。この場合、近接度センサー40は、モバイルフォンがユーザの顔から離れて位置することを検出し、SPMU分類器42は、1次マイクロフォン18Aからの入力オーディオデータが高い雑音および音楽コンテンツを含み、2次マイクロフォン18Bからの入力オーディオデータが同様のコンテンツを含むと決定する。この場合、背景雑音が存在しても、制御ユニット44は、入力オーディオデータのコンテキストが有効な音楽コンテキストであると決定するために、入力オーディオデータ中の音声コンテンツの不在、ユーザの顔から離れているモバイルデバイスの位置、カラオケ機械によって与えられる制御信号、またはユーザによって身につけられたウェアラブルデバイスによって与えられる制御信号など、複数のインジケータの組合せを使用し、入力オーディオデータへの適用のために雑音抑圧の低レベルまたは雑音抑圧なしを設定するように雑音抑圧ユニット24を制御し得る。
[0073]概して、本開示の技法によれば、制御ユニット44は、入力オーディオデータのコンテキストが有効な音楽コンテキストであると決定するとき、入力オーディオデータ中に含まれる音楽信号の品質を保持するためにより好都合である雑音抑圧のレベルが、入力オーディオデータに適用される。逆に、制御ユニット44が、入力オーディオデータのコンテキストが有効な音声コンテキストであると決定するとき、(音楽を含む)背景雑音を大きく抑圧するために、雑音抑圧のデフォルトアグレッシブレベルが入力オーディオデータに適用される。
[0074]一例として、dB単位の雑音抑圧の異なるレベルは、次のようにマッピングされ得、すなわち、雑音抑圧のアグレッシブまたは高レベルは約15dBよりも大きくなり得、雑音抑圧の中間レベルは約10dBから約15dBに及び得、雑音抑圧の低レベルは雑音抑圧なし(すなわち、0dB)から約10dBに及び得る。与えられた値は例にすぎず、限定するものと解釈されるべきではないことに留意されたい。
[0075]図3は、本開示で説明される技法を実装し得るソースデバイス12のオーディオプリプロセッサ22の代替例を示すブロック図である。図3の例では、オーディオプリプロセッサ22は、雑音抑圧ユニット24と、近接度センサー40と、SPMU分類器42と、ユーザオーバーライド信号検出器60と、カラオケ機械信号検出器62と、センサー信号検出器64と、制御ユニット66とを含む。雑音抑圧ユニット24は、図2に関して上記で説明されたように動作し得る。制御ユニット66は、図2からの制御ユニット44と実質的に同様に動作し得るが、マイクロフォン18から受信されたオーディオデータのコンテキストを決定するために、1つまたは複数の外部デバイスから検出された追加の信号を分析し得る。
[0076]図3に示されているように、制御ユニット44は、近接度センサー40、SPMU分類器42、ユーザオーバーライド信号検出器60、カラオケ機械信号検出器62、およびセンサー信号検出器64のうちの1つまたは複数から入力を受信する。ユーザオーバーライド信号検出器60は、ソースデバイス12における雑音抑圧のためのユーザオーバーライドの選択を検出し得る。たとえば、ソースデバイス12のユーザは、マイクロフォン18によってキャプチャされるオーディオデータのコンテキストが有効な音楽コンテキストであることに気づいていることがあり、雑音抑圧のデフォルトレベルをオーバーライドするようにソースデバイス12における設定を選択し得る。雑音抑圧のデフォルトレベルは、有効な音声コンテキストに適した雑音抑圧のアグレッシブレベルであり得る。オーバーライド設定を選択することによって、ユーザは、キャプチャされたオーディオデータに雑音抑圧のあまりアグレッシブでないレベルまたは雑音抑圧なしが雑音抑圧ユニット24によって適用されることを詳細に要求し得る。
[0077]検出されたユーザオーバーライド信号に基づいて、制御ユニット66は、マイクロフォン18によって現在キャプチャされたオーディオデータが有効な音楽コンテキストを有すると決定し、雑音抑圧ユニット24を、オーディオデータのために雑音抑圧のより低いレベルを設定するように制御し得る。いくつかの例では、オーバーライド設定は、雑音抑圧ユニット24が雑音抑圧のデフォルトレベル、すなわち、雑音抑圧のアグレッシブレベルに戻るように、所定の時間期間内に自動的に満了するように設定され得る。このオーバーライドタイムアウトがなければ、ユーザは、オーバーライド設定を無効にするかまたは選択解除することを怠り得る。この場合、雑音抑圧ユニット24は、あまりアグレッシブでない雑音抑圧または雑音抑圧なしをすべての受信されたオーディオ信号に適用し続け得、それは、雑音の多い環境においてキャプチャされるときの劣化したまたは低品質音声信号を生じ得る。
[0078]カラオケ機械信号検出器62は、ソースデバイス12と通信している外部カラオケ機械からの信号を検出し得る。検出された信号は、ソースデバイス12のマイクロフォン18がユーザによるボーカル歌唱を録音している間、カラオケ機械が音楽をプレイしていることを示し得る。カラオケ機械信号検出器62によって検出された信号は、雑音抑圧のデフォルトレベル、すなわち、雑音抑圧のアグレッシブレベルをオーバーライドするために使用され得る。検出されたカラオケ機械信号に基づいて、制御ユニット66は、マイクロフォン18によって現在キャプチャされたオーディオデータが有効な音楽コンテキストを有すると決定し、雑音抑圧ユニット24を、ユーザのボーカル歌唱を録音するためにソースデバイス12が使用されている間、音楽ひずみを回避するためにオーディオデータのために雑音抑圧のより低いレベルを設定するように制御し得る。
[0079]カラオケは、有効な音楽コンテキストの一般的な例であり、そこにおいて、カラオケ機械によってプレイされる音楽とユーザによるボーカル歌唱が両方とも、ひずみなしに友人間で共有するために、後のプレイバックまたは送信のために受信機エンドデバイス、たとえば、図1からの宛先デバイス14に録音される必要がある。しかしながら、従来、モバイルフォンなど、ワイヤレス通信デバイスを使用して、ボーカル署名とともにカラオケ音楽の高品質録音を共有することは、適応マルチレート(AMR)または適応マルチレート広帯域(AMRWB)などの旧来の音声コーデックにおける制限により、可能でなかった。本開示の技法によれば、オーディオエンコーダ20のためのEVSコーデックの使用および(たとえば、カラオケ機械から検出された直接オーバーライド信号の結果としての)制御ユニット66による有効な音楽コンテキストの決定、モバイルフォン上でのユーザのカラオケ共有エクスペリエンスが、大幅に改善され得る。
[0080]さらに、センサー信号検出器64は、ソースデバイス12と通信しているウェアラブルデバイスなど、1つまたは複数の外部センサーから信号を検出し得る。一例として、ウェアラブルデバイスは、スマートウォッチ、スマートネックレス、フィットネストラッカーなど、ユーザによってユーザの身体上に身につけられたデバイスであり得、検出された信号は、ユーザが踊っていることを示し得る。近接度センサー40およびSPMU分類器42の一方または両方からの入力とともに、検出されたユーザオーバーライド信号に基づいて、制御ユニット66は、マイクロフォン18によって現在キャプチャされたオーディオデータが有効な音楽コンテキストを有すると決定し、雑音抑圧ユニット24をオーディオデータのために雑音抑圧のより低いレベルを設定するように制御し得る。他の例では、センサー信号検出器64は、他の外部センサーからの信号を検出し得るか、または、制御ユニット66は、制御ユニット66によって実行されるオーディオコンテキスト決定をさらに改善するために、追加の検出器から入力を受信し得る。
[0081]図4は、本開示で説明される技法に従って、適応雑音抑圧を実行するように構成されたオーディオプリプロセッサの例示的な動作を示すフローチャートである。図4の例示的な動作は、図1および図2からのソースデバイス12のオーディオプリプロセッサ22関して説明される。この例では、ソースデバイス12は、モバイルフォンであるものとして説明される。
[0082]開示される技法によれば、ボイスおよびデータ通信において使用される動作は、ソースデバイスのユーザと宛先デバイスのユーザとの間の会話中に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、ソースデバイスのユーザからの入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、音楽がソースデバイスのユーザの背景でプレイしており、ここにおいて、入力オーディオデータが、ソースデバイスのユーザのボイスと、ソースデバイスのユーザの背景でプレイしている音楽とを含む、オーディオコンテキストが、音声または音楽、あるいは音声と音楽の両方であるオーディオコンテキストを含むことに基づいて、オーディオエンコーダを用いた入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを入力オーディオデータに適用することと、少なくとも1つのオーディオエンコーダパケットを生成するために、入力オーディオデータを帯域幅圧縮することと、少なくとも1つのオーディオエンコーダパケットをソースデバイスから宛先デバイスにオーバージエアで送信することとを備える。ボイスおよびデータ通信において使用される動作の個々のステップが、以下でより詳細に説明される。
[0083]オーディオプリプロセッサ22は、マイクロフォン18から、音声信号と、音楽信号と、雑音信号とを含むオーディオデータを受信する(70)。上記で説明されたように、マイクロフォン18はデュアルマイクロフォンを含み得、1次マイクロフォン18Aが、ユーザの口に近いモバイルフォンの前面上に位置する「前面」マイクロフォンであり、2次マイクロフォン18Bが、モバイルフォンの裏面に位置する「背面」マイクロフォンである。
[0084]オーディオプリプロセッサ22のSPMU分類器42は、受信されたオーディオデータを、音声コンテンツ、音楽コンテンツ、または音声コンテンツと音楽コンテンツの両方として分類する(72)。上記で説明されたように、SPMU分類器42は、線形弁別、SNRベースメトリック、またはガウス混合モデリング(GMM)のうちの1つまたは複数に基づいて、信号分類を実行し得る。たとえば、SPMU分類器42は、第1のマイクロフォン18Aによってキャプチャされたオーディオデータを、音声コンテンツ、音楽コンテンツ、または音声コンテンツと音楽コンテンツの両方として分類し、1次マイクロフォン18Aのためのオーディオデータ分類を制御ユニット44に供給し得る。さらに、SPMU分類器42は、第2のマイクロフォン18Bによってキャプチャされたオーディオデータをも、音声コンテンツ、音楽コンテンツ、または音声コンテンツと音楽コンテンツの両方として分類し、2次マイクロフォン18Bのためのオーディオデータ分類を制御ユニット44に供給し得る。
[0085]近接度センサー40は、モバイルフォンのユーザに対するモバイルフォンの位置を検出する(74)。上記で説明されたように、近接度センサー40は、モバイルフォンがユーザの顔の近くに保持されているのかユーザの顔から離れて保持されているのかを検出し得る。従来、モバイルデバイス内の近接度センサー40は、一般に、旧来のフォンとしての使用中にユーザの頬による不注意によるアクティブ化を回避するために、モバイルデバイスのタッチスクリーンをいつ無効にすべきかを決定するために使用され得る。本開示の技法によれば、近接度センサー40は、モバイルフォンが、旧来のフォンとしての使用中にユーザの音声をキャプチャするためにユーザの顔の近くに保持されているかどうか、またはモバイルフォンが、スピーカーフォンとしての使用中に複数の人々からの音楽または音声をキャプチャするためにユーザの顔から離れて保持されているかどうかを検出し得る。
[0086]オーディオプリプロセッサ22の制御ユニット44は、分類されたオーディオデータとモバイルフォンの位置とに基づいて、オーディオデータのコンテキストを有効な音声コンテキストまたは有効な音楽コンテキストのいずれかとして決定する(76)。概して、1次マイクロフォン18Aによってキャプチャされるコンテンツのタイプとモバイルフォンの位置とが、ユーザが、主に、受信機側デバイス、たとえば、図1からの相手先デバイス14における受話者に音声信号を送信することを意図するのか音楽信号を送信することを意図するのかを示し得る。たとえば、制御ユニット44は、1次マイクロフォン18Aによってキャプチャされたオーディオデータが音声コンテンツとしてSPMU分類器42によって分類されること、またはモバイルフォンがユーザの顔に近接して位置していると近接度センサー40によって検出されることのうちの少なくとも1つに基づいて、キャプチャされたオーディオデータのコンテキストが有効な音声コンテキストであると決定し得る。別の例として、制御ユニット44は、1次マイクロフォン18Aによってキャプチャされたオーディオデータが音楽コンテンツとしてSPMU分類器42によって分類されることと、モバイルフォンがユーザの顔から離れて位置していると近接度センサー40によって検出されることとに基づいて、キャプチャされたオーディオデータのコンテキストが有効な音楽コンテキストであると決定し得る。
[0087]このようにして、オーディオプリプロセッサ22は、音楽がソースデバイス12のユーザの背景でプレイしている、ソースデバイス12のユーザと宛先デバイス14のユーザとの間の会話中に、入力オーディオデータのオーディオコンテキストを取得する。オーディオプリプロセッサ22は、ソースデバイス12のユーザからの入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、オーディオコンテキストを取得する。入力オーディオデータは、ソースデバイス12のユーザのボイスと、ソースデバイス12のユーザの背景でプレイしている音楽との両方を含む。いくつかの場合には、ソースデバイス12のユーザの背景でプレイしている音楽は、カラオケ機械から来る。
[0088]いくつかの例では、オーディオプリプロセッサ22は、SPMU分類器42が入力オーディオデータを音声、音楽、または音声と音楽の両方として分類することに基づいて、入力オーディオデータのオーディオコンテキストを取得する。SPMU分類器42は、音楽が音声とともに存在する時間の少なくとも80パーセントで、入力オーディオデータを音楽として分類し得る。他の例では、オーディオプリプロセッサ22は、近接度センサー40が、ソースデバイスの位置に基づいてソースデバイス12がソースデバイス12のユーザの口に近接しているのかソースデバイス12のユーザの口から遠位に離れているのかを決定することに基づいて、入力オーディオデータのオーディオコンテキストを取得する。一例では、プリプロセッサ22は、ソースデバイス12のユーザがスマートウォッチまたは他のウェアラブルデバイスを身につけていることに基づいて、オーディオコンテキストを取得する。
[0089]制御ユニット44は、キャプチャされたオーディオデータの決定されたオーディオコンテキストをオーディオプリプロセッサ22の雑音抑圧ユニット24に供給する。雑音抑圧ユニット24は、次いで、オーディオデータの決定されたオーディオコンテキストに基づいて、キャプチャされたオーディオデータのための雑音抑圧のレベルを設定する(78)。上記で説明されたように、雑音抑圧ユニット24は、オーディオデータの決定されたコンテキストに基づいて、利得値を修正することによって、キャプチャされたオーディオデータのための雑音抑圧のレベルを設定し得る。より詳細には、雑音抑圧ユニット24は、オーディオデータのための雑音抑圧のレベルを低減するために、オーディオデータのコンテキストが有効な音楽コンテキストであることに基づいて、後処理利得値を増加させ得る。
[0090]オーディオデータのコンテキストが有効な音声コンテキストである場合、雑音抑圧ユニット24は、(音楽信号を含む)雑音信号を抑圧し、オーディオデータ中の音声信号をクリーンアップするために、比較的アグレッシブである雑音抑圧の第1のレベルを設定し得る。オーディオデータのコンテキストが有効な音楽コンテキストである場合、雑音抑圧ユニット24は、オーディオデータ中の音楽信号を無ひずみのままにするために、あまりアグレッシブでない雑音抑圧の第2のレベルを設定し得る。上記の例では、雑音抑圧の第2のレベルは、雑音抑圧の第1のレベルよりも低い。たとえば、雑音抑圧の第2のレベルは、雑音抑圧の第1のレベルよりも少なくとも50パーセント低くなり得る。より詳細には、いくつかの例では、雑音抑圧のアグレッシブまたは高レベルは約15dBよりも大きくなり得、雑音抑圧の中間レベルは約10dBから約15dBに及び得、雑音抑圧の低レベルは雑音抑圧なし(すなわち、0dB)から約10dBに及び得る。
[0091]雑音抑圧ユニット24は、次いで、帯域幅圧縮または符号化のためにオーディオデータをEVSボコーダに送るより前に、雑音抑圧のレベルをオーディオデータに適用する(80)。たとえば、図1からのオーディオエンコーダ20は、音声信号と音楽信号の両方を適切に符号化することが可能であるEVSコーデックに従って動作するように構成され得る。したがって、本開示の技法は、SWB音楽信号に対する最小ひずみで受信機側デバイス、たとえば、図1からの宛先デバイス14におけるキャプチャされたオーディオシーンの完全な高品質再現を可能にする。
[0092]このようにして、オーディオプリプロセッサ22は、オーディオコンテキストが、音声または音楽、あるいは音声と音楽の両方であるオーディオコンテキストを含むことに基づいて、オーディオエンコーダ20による入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを入力オーディオデータに適用する。オーディオエンコーダ20は、次いで、少なくとも1つのオーディオエンコーダパケットを生成するために、入力オーディオデータを帯域幅圧縮し、ソースデバイス12は、少なくとも1つのオーディオエンコーダパケットをソースデバイス12から宛先デバイス14にオーバージエアで送信する。
[0093]いくつかの例では、オーディオプリプロセッサ22は、入力オーディオデータのオーディオコンテキストが音楽であるとき、入力オーディオデータの1つの減衰レベルがあり、入力オーディオデータのオーディオコンテキストが音声であるとき、入力オーディオデータの異なる減衰レベルがあるように、雑音抑圧利得を調整する。ある場合には、1つの減衰レベルと異なる減衰レベルとが両方とも同じ値を有する。その場合、ソースデバイス12のユーザの背景でプレイしている音楽が、ソースデバイス12のユーザのボイスと同じ減衰レベルで雑音抑圧ユニット24を通って移る。
[0094]ソースデバイス12のユーザが、ソースデバイス12のユーザの背景でプレイしている音楽よりも少なくとも3dB大きく発話しているとき、入力オーディオデータの減衰の第1のレベルが適用され得、ソースデバイス12のユーザの背景でプレイしている音楽が、ソースデバイス12のユーザの発話よりも少なくとも3dB大きいとき、入力オーディオデータの減衰の第2のレベルが適用され得る。ソースデバイス12のユーザのボイスとソースデバイス12のユーザの背景で同時にプレイしている音楽との入力オーディオデータの帯域幅圧縮が、入力オーディオデータへの雑音抑圧の適用より前に入力オーディオデータのオーディオコンテキストを取得することなしのソースデバイス12のユーザのボイスとソースデバイス12のユーザの背景で同時にプレイしている音楽との入力オーディオデータの帯域幅圧縮と比較して、背景でプレイしている音楽の少なくとも30%少ないひずみを与え得る。
[0095]本開示全体にわたる「および/または」という用語の使用は、いずれか一方または両方を指すと理解されたい。言い換えれば、Aおよび/またはBは、(AおよびB)または(AまたはB)のいずれかを与えることを理解されたい。
[0096]1つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含むデータ記憶媒体または通信媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。このようにして、コンピュータ可読媒体は、概して、(1)非一時的である有形コンピュータ可読記憶媒体、あるいは(2)信号または搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明された技法の実装のための命令、コード、またはデータ構造を取り出すために、1つまたは複数のコンピュータまたは1つまたは複数のプロセッサによってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータプログラム製品はコンピュータ可読媒体を含み得る。
[0097]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージ、または他の磁気ストレージデバイス、フラッシュメモリ、あるいは命令またはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は媒体の定義に含まれる。ただし、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まないが、代わりに非一時的有形記憶媒体を対象とすることを理解されたい。本明細書で使用されるディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)およびBlu−rayディスク(disc)を含み、ここで、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[0098]命令は、1つまたは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、あるいは他の等価な集積回路またはディスクリート論理回路など、1つまたは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、上記の構造、または本明細書で説明された技法の実装に好適な他の構造のいずれかを指すことがある。さらに、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成された専用ハードウェアモジュールまたはソフトウェアモジュール内に与えられるか、あるいは複合コーデックに組み込まれ得る。また、本技法は、1つまたは複数の回路または論理要素で十分に実装され得る。
[0099]本開示の技法は、ワイヤレス通信デバイス、ワイヤレスハンドセット、モバイルフォン、集積回路(IC)またはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置で実装され得る。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために、様々な構成要素、モジュール、またはユニットが説明されたが、それらの構成要素、モジュール、またはユニットは、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上記で説明されたように、様々なユニットが、好適なソフトウェアまたはファームウェアとともに、上記で説明された1つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作可能なハードウェアユニットの集合によって与えられ得る。
[0100]本発明の様々な実施形態が説明された。これらおよび他の実施形態は以下の特許請求の範囲内に入る。
[0100]本発明の様々な実施形態が説明された。これらおよび他の実施形態は以下の特許請求の範囲内に入る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
ボイスおよびデータ通信を与えるように構成されたデバイスであって、前記デバイスが、
入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、前記入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、前記入力オーディオデータが、音声信号と、音楽信号と、雑音信号とを含む、
前記オーディオコンテキストに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の前記可変レベルを前記入力オーディオデータに適用することと、
少なくとも1つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮することと
を行うように構成された1つまたは複数のプロセッサと、
前記少なくとも1つのオーディオエンコーダパケットを記憶するように構成された、前記1つまたは複数のプロセッサに電気的に結合された、メモリと、
前記少なくとも1つのオーディオエンコーダパケットを送信するように構成された送信機と
を備える、デバイス。
[C2]
前記入力オーディオデータをキャプチャするように構成されたマイクロフォンアレイをさらに備える、C1に記載のデバイス。
[C3]
雑音抑圧の前記可変レベルを適用するように構成された前記1つまたは複数のプロセッサが、前記デバイスの雑音抑圧器内に利得調整器を含み、ここにおいて、前記1つまたは複数のプロセッサは、
前記入力オーディオデータの前記オーディオコンテキストが音楽であるとき、前記入力オーディオデータを1つのレベルによって減衰させることと、
前記入力オーディオデータの前記オーディオコンテキストが音声であるとき、前記入力オーディオデータを異なるレベルによって減衰させることと
を行うように構成された、C1に記載のデバイス。
[C4]
前記入力オーディオデータの前記オーディオコンテキストが第1のオーディオフレーム中の音声であるときの前記入力オーディオデータの減衰の第1のレベルは、前記入力オーディオデータの前記オーディオコンテキストが第2のオーディオフレーム中の音楽であるときの前記入力オーディオデータの減衰の第2のレベルの15パーセント内である、C3に記載のデバイス。
[C5]
前記第1のフレームが、前記第2のオーディオフレームの50個前または後のオーディオフレーム内にある、C4に記載のデバイス。
[C6]
前記入力オーディオデータの少なくとも2つの分類出力を与えるように構成された分類器をさらに備える、C1に記載のデバイス。
[C7]
前記分類器が前記1つまたは複数のプロセッサに統合された、C6に記載のデバイス。
[C8]
前記少なくとも2つの分類出力のうちの1つが音楽であり、前記少なくとも2つの分類出力のうちの別の1つが音声である、C6に記載のデバイス。
[C9]
雑音抑圧の前記可変レベルを適用するように構成された前記1つまたは複数のプロセッサは、前記少なくとも2つの分類出力のうちの前記1つが音楽であることに基づいて、前記デバイスの雑音抑圧器中の1つの利得値を調整するようにさらに構成された、C8に記載のデバイス。
[C10]
雑音抑圧の前記可変レベルを適用するように構成された前記1つまたは複数のプロセッサは、前記少なくとも2つの分類出力のうちの前記1つが音声であることに基づいて、前記デバイスの雑音抑圧器中の1つの利得値を調整するようにさらに構成された、C8に記載のデバイス。
[C11]
前記1つまたは複数のプロセッサが前記入力オーディオデータの前記オーディオコンテキストを取得するように構成されたとき、前記入力オーディオデータの前記オーディオコンテキストを決定するように構成された、前記1つまたは複数の前記プロセッサに統合された制御ユニットをさらに備える、C1に記載のデバイス。
[C12]
前記制御ユニットが前記入力オーディオデータの前記オーディオコンテキストを決定するのを助けるように構成された、近接度センサーをさらに備える、C11に記載のデバイス。
[C13]
前記近接度センサーは、前記制御ユニットが、前記デバイスが前記デバイスのユーザの口に近接して配向されているかどうか、または前記デバイスが前記デバイスの前記ユーザの前記口から離れて遠位に配向されているかどうかを決定するのを助けるように構成された、C12に記載のデバイス。
[C14]
宛先デバイスからの前記少なくとも1つのオーディオエンコーダパケットを復号するように構成されたオーディオデコーダの出力をレンダリングするように構成された、少なくとも1つのスピーカーをさらに備える、C1に記載のデバイス。
[C15]
雑音抑圧を実行するように構成された装置であって、
入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、前記入力オーディオデータのオーディオコンテキストを取得するための手段と、ここにおいて、前記入力オーディオデータが、音声信号と、音楽信号と、雑音信号とを含む、
前記オーディオコンテキストに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを前記入力オーディオデータに適用するための手段と、
少なくとも1つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮するための手段と、
前記少なくとも1つのオーディオエンコーダパケットを送信するための手段と
を備える装置。
[C16]
前記装置が、
第1のマイクロフォンからの前記入力オーディオデータの第1の部分をキャプチャするための手段と、第2のマイクロフォンからの前記入力オーディオデータの第2の部分をキャプチャするための手段とに基づいて、前記入力オーディオデータの前記オーディオコンテキストを決定するための手段
をさらに備える、C15に記載の装置。
[C17]
前記装置が、
雑音抑圧の前記可変レベルを前記入力オーディオデータに適用するための前記手段のためにユーザオーバーライド信号を取得するための手段
をさらに備える、C16に記載の装置。
[C18]
前記装置は、
異なる装置と通信するための手段をさらに備え、ここにおいて、前記異なる装置がウェアラブルデバイスまたはカラオケ機械である、
C15に記載の装置。
[C19]
ボイスおよびデータ通信において使用される方法であって、
ソースデバイスのユーザと宛先デバイスのユーザとの間の会話中に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、前記ソースデバイスの前記ユーザからの前記入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、音楽が前記ソースデバイスの前記ユーザの背景でプレイしており、ここにおいて、前記入力オーディオデータが、前記ソースデバイスの前記ユーザのボイスと、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽とを含む、
前記オーディオコンテキストが、音声または音楽、あるいは音声と音楽の両方である前記オーディオコンテキストを含むことに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを前記入力オーディオデータに適用することと、
少なくとも1つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮することと、
前記少なくとも1つのオーディオエンコーダパケットを前記ソースデバイスから前記宛先デバイスに送信することと
を備える方法。
[C20]
雑音抑圧の前記可変レベルを適用することは、前記入力オーディオデータの前記オーディオコンテキストが音楽であるとき、前記入力オーディオデータの1つの減衰レベルがあり、前記入力オーディオデータの前記オーディオコンテキストが音声であるとき、前記入力オーディオデータの異なる減衰レベルがあるように、雑音抑圧利得を調整することを含む、C19に記載の方法。
[C21]
前記1つの減衰レベルと前記異なる減衰レベルとが両方とも同じ値を有する、C20に記載の方法。
[C22]
前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、前記ソースデバイスの前記ユーザの前記ボイスと同じ減衰レベルで雑音抑圧器を通って移る、C21に記載の方法。
[C23]
前記ソースデバイスの前記ユーザが、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽よりも少なくとも3dB大きく発話しているとき、前記入力オーディオデータの減衰の第1のレベルが適用され、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、前記前記ソースデバイスの前記ユーザの前記発話よりも少なくとも3dB大きいとき、前記入力オーディオデータの減衰の第2のレベルが適用される、C19に記載の方法。
[C24]
前記ソースデバイスの前記ユーザの前記ボイスと前記ソースデバイスの前記ユーザの前記背景で同時にプレイしている前記音楽との前記入力オーディオデータの帯域幅圧縮が、前記入力オーディオデータへの雑音抑圧の適用より前に前記入力オーディオデータの前記オーディオコンテキストを取得することなしの前記ソースデバイスの前記ユーザの前記ボイスと前記ソースデバイスの前記ユーザの前記背景で同時にプレイしている前記音楽との前記入力オーディオデータの帯域幅圧縮と比較して、前記背景でプレイしている前記音楽の少なくとも30%少ないひずみを与える、C19に記載の方法。
[C25]
前記入力オーディオデータの前記オーディオコンテキストを取得することが、前記入力オーディオデータを音声、音楽、または音声と音楽の両方として分類することに基づく、C19に記載の方法。
[C26]
音楽が音声とともに存在する時間の少なくとも80パーセントで、前記入力オーディオデータを音楽として分類することをさらに備える、C25に記載の方法。
[C27]
前記ソースデバイスが、前記ソースデバイスの前記ユーザの口に近接しているのか前記ソースデバイスの前記ユーザの口から遠位に離れているのかを決定することをさらに備える、C19に記載の方法。
[C28]
前記オーディオコンテキストを前記取得することが、前記ソースデバイスの前記ユーザが時計を身につけていることに基づく、C19に記載の方法。
[C29]
前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、カラオケ機械から来る、C19に記載の方法。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
ボイスおよびデータ通信を与えるように構成されたデバイスであって、前記デバイスが、
入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、前記入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、前記入力オーディオデータが、音声信号と、音楽信号と、雑音信号とを含む、
前記オーディオコンテキストに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の前記可変レベルを前記入力オーディオデータに適用することと、
少なくとも1つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮することと
を行うように構成された1つまたは複数のプロセッサと、
前記少なくとも1つのオーディオエンコーダパケットを記憶するように構成された、前記1つまたは複数のプロセッサに電気的に結合された、メモリと、
前記少なくとも1つのオーディオエンコーダパケットを送信するように構成された送信機と
を備える、デバイス。
[C2]
前記入力オーディオデータをキャプチャするように構成されたマイクロフォンアレイをさらに備える、C1に記載のデバイス。
[C3]
雑音抑圧の前記可変レベルを適用するように構成された前記1つまたは複数のプロセッサが、前記デバイスの雑音抑圧器内に利得調整器を含み、ここにおいて、前記1つまたは複数のプロセッサは、
前記入力オーディオデータの前記オーディオコンテキストが音楽であるとき、前記入力オーディオデータを1つのレベルによって減衰させることと、
前記入力オーディオデータの前記オーディオコンテキストが音声であるとき、前記入力オーディオデータを異なるレベルによって減衰させることと
を行うように構成された、C1に記載のデバイス。
[C4]
前記入力オーディオデータの前記オーディオコンテキストが第1のオーディオフレーム中の音声であるときの前記入力オーディオデータの減衰の第1のレベルは、前記入力オーディオデータの前記オーディオコンテキストが第2のオーディオフレーム中の音楽であるときの前記入力オーディオデータの減衰の第2のレベルの15パーセント内である、C3に記載のデバイス。
[C5]
前記第1のフレームが、前記第2のオーディオフレームの50個前または後のオーディオフレーム内にある、C4に記載のデバイス。
[C6]
前記入力オーディオデータの少なくとも2つの分類出力を与えるように構成された分類器をさらに備える、C1に記載のデバイス。
[C7]
前記分類器が前記1つまたは複数のプロセッサに統合された、C6に記載のデバイス。
[C8]
前記少なくとも2つの分類出力のうちの1つが音楽であり、前記少なくとも2つの分類出力のうちの別の1つが音声である、C6に記載のデバイス。
[C9]
雑音抑圧の前記可変レベルを適用するように構成された前記1つまたは複数のプロセッサは、前記少なくとも2つの分類出力のうちの前記1つが音楽であることに基づいて、前記デバイスの雑音抑圧器中の1つの利得値を調整するようにさらに構成された、C8に記載のデバイス。
[C10]
雑音抑圧の前記可変レベルを適用するように構成された前記1つまたは複数のプロセッサは、前記少なくとも2つの分類出力のうちの前記1つが音声であることに基づいて、前記デバイスの雑音抑圧器中の1つの利得値を調整するようにさらに構成された、C8に記載のデバイス。
[C11]
前記1つまたは複数のプロセッサが前記入力オーディオデータの前記オーディオコンテキストを取得するように構成されたとき、前記入力オーディオデータの前記オーディオコンテキストを決定するように構成された、前記1つまたは複数の前記プロセッサに統合された制御ユニットをさらに備える、C1に記載のデバイス。
[C12]
前記制御ユニットが前記入力オーディオデータの前記オーディオコンテキストを決定するのを助けるように構成された、近接度センサーをさらに備える、C11に記載のデバイス。
[C13]
前記近接度センサーは、前記制御ユニットが、前記デバイスが前記デバイスのユーザの口に近接して配向されているかどうか、または前記デバイスが前記デバイスの前記ユーザの前記口から離れて遠位に配向されているかどうかを決定するのを助けるように構成された、C12に記載のデバイス。
[C14]
宛先デバイスからの前記少なくとも1つのオーディオエンコーダパケットを復号するように構成されたオーディオデコーダの出力をレンダリングするように構成された、少なくとも1つのスピーカーをさらに備える、C1に記載のデバイス。
[C15]
雑音抑圧を実行するように構成された装置であって、
入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、前記入力オーディオデータのオーディオコンテキストを取得するための手段と、ここにおいて、前記入力オーディオデータが、音声信号と、音楽信号と、雑音信号とを含む、
前記オーディオコンテキストに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを前記入力オーディオデータに適用するための手段と、
少なくとも1つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮するための手段と、
前記少なくとも1つのオーディオエンコーダパケットを送信するための手段と
を備える装置。
[C16]
前記装置が、
第1のマイクロフォンからの前記入力オーディオデータの第1の部分をキャプチャするための手段と、第2のマイクロフォンからの前記入力オーディオデータの第2の部分をキャプチャするための手段とに基づいて、前記入力オーディオデータの前記オーディオコンテキストを決定するための手段
をさらに備える、C15に記載の装置。
[C17]
前記装置が、
雑音抑圧の前記可変レベルを前記入力オーディオデータに適用するための前記手段のためにユーザオーバーライド信号を取得するための手段
をさらに備える、C16に記載の装置。
[C18]
前記装置は、
異なる装置と通信するための手段をさらに備え、ここにおいて、前記異なる装置がウェアラブルデバイスまたはカラオケ機械である、
C15に記載の装置。
[C19]
ボイスおよびデータ通信において使用される方法であって、
ソースデバイスのユーザと宛先デバイスのユーザとの間の会話中に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、前記ソースデバイスの前記ユーザからの前記入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、音楽が前記ソースデバイスの前記ユーザの背景でプレイしており、ここにおいて、前記入力オーディオデータが、前記ソースデバイスの前記ユーザのボイスと、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽とを含む、
前記オーディオコンテキストが、音声または音楽、あるいは音声と音楽の両方である前記オーディオコンテキストを含むことに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを前記入力オーディオデータに適用することと、
少なくとも1つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮することと、
前記少なくとも1つのオーディオエンコーダパケットを前記ソースデバイスから前記宛先デバイスに送信することと
を備える方法。
[C20]
雑音抑圧の前記可変レベルを適用することは、前記入力オーディオデータの前記オーディオコンテキストが音楽であるとき、前記入力オーディオデータの1つの減衰レベルがあり、前記入力オーディオデータの前記オーディオコンテキストが音声であるとき、前記入力オーディオデータの異なる減衰レベルがあるように、雑音抑圧利得を調整することを含む、C19に記載の方法。
[C21]
前記1つの減衰レベルと前記異なる減衰レベルとが両方とも同じ値を有する、C20に記載の方法。
[C22]
前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、前記ソースデバイスの前記ユーザの前記ボイスと同じ減衰レベルで雑音抑圧器を通って移る、C21に記載の方法。
[C23]
前記ソースデバイスの前記ユーザが、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽よりも少なくとも3dB大きく発話しているとき、前記入力オーディオデータの減衰の第1のレベルが適用され、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、前記前記ソースデバイスの前記ユーザの前記発話よりも少なくとも3dB大きいとき、前記入力オーディオデータの減衰の第2のレベルが適用される、C19に記載の方法。
[C24]
前記ソースデバイスの前記ユーザの前記ボイスと前記ソースデバイスの前記ユーザの前記背景で同時にプレイしている前記音楽との前記入力オーディオデータの帯域幅圧縮が、前記入力オーディオデータへの雑音抑圧の適用より前に前記入力オーディオデータの前記オーディオコンテキストを取得することなしの前記ソースデバイスの前記ユーザの前記ボイスと前記ソースデバイスの前記ユーザの前記背景で同時にプレイしている前記音楽との前記入力オーディオデータの帯域幅圧縮と比較して、前記背景でプレイしている前記音楽の少なくとも30%少ないひずみを与える、C19に記載の方法。
[C25]
前記入力オーディオデータの前記オーディオコンテキストを取得することが、前記入力オーディオデータを音声、音楽、または音声と音楽の両方として分類することに基づく、C19に記載の方法。
[C26]
音楽が音声とともに存在する時間の少なくとも80パーセントで、前記入力オーディオデータを音楽として分類することをさらに備える、C25に記載の方法。
[C27]
前記ソースデバイスが、前記ソースデバイスの前記ユーザの口に近接しているのか前記ソースデバイスの前記ユーザの口から遠位に離れているのかを決定することをさらに備える、C19に記載の方法。
[C28]
前記オーディオコンテキストを前記取得することが、前記ソースデバイスの前記ユーザが時計を身につけていることに基づく、C19に記載の方法。
[C29]
前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、カラオケ機械から来る、C19に記載の方法。
Claims (29)
- ボイスおよびデータ通信を与えるように構成されたデバイスであって、前記デバイスが、
入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、前記入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、前記入力オーディオデータが、音声信号と、音楽信号と、雑音信号とを含む、
前記オーディオコンテキストに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の前記可変レベルを前記入力オーディオデータに適用することと、
少なくとも1つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮することと
を行うように構成された1つまたは複数のプロセッサと、
前記少なくとも1つのオーディオエンコーダパケットを記憶するように構成された、前記1つまたは複数のプロセッサに電気的に結合された、メモリと、
前記少なくとも1つのオーディオエンコーダパケットを送信するように構成された送信機と
を備える、デバイス。 - 前記入力オーディオデータをキャプチャするように構成されたマイクロフォンアレイをさらに備える、請求項1に記載のデバイス。
- 雑音抑圧の前記可変レベルを適用するように構成された前記1つまたは複数のプロセッサが、前記デバイスの雑音抑圧器内に利得調整器を含み、ここにおいて、前記1つまたは複数のプロセッサは、
前記入力オーディオデータの前記オーディオコンテキストが音楽であるとき、前記入力オーディオデータを1つのレベルによって減衰させることと、
前記入力オーディオデータの前記オーディオコンテキストが音声であるとき、前記入力オーディオデータを異なるレベルによって減衰させることと
を行うように構成された、請求項1に記載のデバイス。 - 前記入力オーディオデータの前記オーディオコンテキストが第1のオーディオフレーム中の音声であるときの前記入力オーディオデータの減衰の第1のレベルは、前記入力オーディオデータの前記オーディオコンテキストが第2のオーディオフレーム中の音楽であるときの前記入力オーディオデータの減衰の第2のレベルの15パーセント内である、請求項3に記載のデバイス。
- 前記第1のフレームが、前記第2のオーディオフレームの50個前または後のオーディオフレーム内にある、請求項4に記載のデバイス。
- 前記入力オーディオデータの少なくとも2つの分類出力を与えるように構成された分類器をさらに備える、請求項1に記載のデバイス。
- 前記分類器が前記1つまたは複数のプロセッサに統合された、請求項6に記載のデバイス。
- 前記少なくとも2つの分類出力のうちの1つが音楽であり、前記少なくとも2つの分類出力のうちの別の1つが音声である、請求項6に記載のデバイス。
- 雑音抑圧の前記可変レベルを適用するように構成された前記1つまたは複数のプロセッサは、前記少なくとも2つの分類出力のうちの前記1つが音楽であることに基づいて、前記デバイスの雑音抑圧器中の1つの利得値を調整するようにさらに構成された、請求項8に記載のデバイス。
- 雑音抑圧の前記可変レベルを適用するように構成された前記1つまたは複数のプロセッサは、前記少なくとも2つの分類出力のうちの前記1つが音声であることに基づいて、前記デバイスの雑音抑圧器中の1つの利得値を調整するようにさらに構成された、請求項8に記載のデバイス。
- 前記1つまたは複数のプロセッサが前記入力オーディオデータの前記オーディオコンテキストを取得するように構成されたとき、前記入力オーディオデータの前記オーディオコンテキストを決定するように構成された、前記1つまたは複数の前記プロセッサに統合された制御ユニットをさらに備える、請求項1に記載のデバイス。
- 前記制御ユニットが前記入力オーディオデータの前記オーディオコンテキストを決定するのを助けるように構成された、近接度センサーをさらに備える、請求項11に記載のデバイス。
- 前記近接度センサーは、前記制御ユニットが、前記デバイスが前記デバイスのユーザの口に近接して配向されているかどうか、または前記デバイスが前記デバイスの前記ユーザの前記口から離れて遠位に配向されているかどうかを決定するのを助けるように構成された、請求項12に記載のデバイス。
- 宛先デバイスからの前記少なくとも1つのオーディオエンコーダパケットを復号するように構成されたオーディオデコーダの出力をレンダリングするように構成された、少なくとも1つのスピーカーをさらに備える、請求項1に記載のデバイス。
- 雑音抑圧を実行するように構成された装置であって、
入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、前記入力オーディオデータのオーディオコンテキストを取得するための手段と、ここにおいて、前記入力オーディオデータが、音声信号と、音楽信号と、雑音信号とを含む、
前記オーディオコンテキストに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを前記入力オーディオデータに適用するための手段と、
少なくとも1つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮するための手段と、
前記少なくとも1つのオーディオエンコーダパケットを送信するための手段と
を備える装置。 - 前記装置が、
第1のマイクロフォンからの前記入力オーディオデータの第1の部分をキャプチャするための手段と、第2のマイクロフォンからの前記入力オーディオデータの第2の部分をキャプチャするための手段とに基づいて、前記入力オーディオデータの前記オーディオコンテキストを決定するための手段
をさらに備える、請求項15に記載の装置。 - 前記装置が、
雑音抑圧の前記可変レベルを前記入力オーディオデータに適用するための前記手段のためにユーザオーバーライド信号を取得するための手段
をさらに備える、請求項16に記載の装置。 - 前記装置は、
異なる装置と通信するための手段をさらに備え、ここにおいて、前記異なる装置がウェアラブルデバイスまたはカラオケ機械である、
請求項15に記載の装置。 - ボイスおよびデータ通信において使用される方法であって、
ソースデバイスのユーザと宛先デバイスのユーザとの間の会話中に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、前記ソースデバイスの前記ユーザからの前記入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、音楽が前記ソースデバイスの前記ユーザの背景でプレイしており、ここにおいて、前記入力オーディオデータが、前記ソースデバイスの前記ユーザのボイスと、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽とを含む、
前記オーディオコンテキストが、音声または音楽、あるいは音声と音楽の両方である前記オーディオコンテキストを含むことに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを前記入力オーディオデータに適用することと、
少なくとも1つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮することと、
前記少なくとも1つのオーディオエンコーダパケットを前記ソースデバイスから前記宛先デバイスに送信することと
を備える方法。 - 雑音抑圧の前記可変レベルを適用することは、前記入力オーディオデータの前記オーディオコンテキストが音楽であるとき、前記入力オーディオデータの1つの減衰レベルがあり、前記入力オーディオデータの前記オーディオコンテキストが音声であるとき、前記入力オーディオデータの異なる減衰レベルがあるように、雑音抑圧利得を調整することを含む、請求項19に記載の方法。
- 前記1つの減衰レベルと前記異なる減衰レベルとが両方とも同じ値を有する、請求項20に記載の方法。
- 前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、前記ソースデバイスの前記ユーザの前記ボイスと同じ減衰レベルで雑音抑圧器を通って移る、請求項21に記載の方法。
- 前記ソースデバイスの前記ユーザが、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽よりも少なくとも3dB大きく発話しているとき、前記入力オーディオデータの減衰の第1のレベルが適用され、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、前記前記ソースデバイスの前記ユーザの前記発話よりも少なくとも3dB大きいとき、前記入力オーディオデータの減衰の第2のレベルが適用される、請求項19に記載の方法。
- 前記ソースデバイスの前記ユーザの前記ボイスと前記ソースデバイスの前記ユーザの前記背景で同時にプレイしている前記音楽との前記入力オーディオデータの帯域幅圧縮が、前記入力オーディオデータへの雑音抑圧の適用より前に前記入力オーディオデータの前記オーディオコンテキストを取得することなしの前記ソースデバイスの前記ユーザの前記ボイスと前記ソースデバイスの前記ユーザの前記背景で同時にプレイしている前記音楽との前記入力オーディオデータの帯域幅圧縮と比較して、前記背景でプレイしている前記音楽の少なくとも30%少ないひずみを与える、請求項19に記載の方法。
- 前記入力オーディオデータの前記オーディオコンテキストを取得することが、前記入力オーディオデータを音声、音楽、または音声と音楽の両方として分類することに基づく、請求項19に記載の方法。
- 音楽が音声とともに存在する時間の少なくとも80パーセントで、前記入力オーディオデータを音楽として分類することをさらに備える、請求項25に記載の方法。
- 前記ソースデバイスが、前記ソースデバイスの前記ユーザの口に近接しているのか前記ソースデバイスの前記ユーザの口から遠位に離れているのかを決定することをさらに備える、請求項19に記載の方法。
- 前記オーディオコンテキストを前記取得することが、前記ソースデバイスの前記ユーザが時計を身につけていることに基づく、請求項19に記載の方法。
- 前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、カラオケ機械から来る、請求項19に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/865,885 | 2015-09-25 | ||
US14/865,885 US10186276B2 (en) | 2015-09-25 | 2015-09-25 | Adaptive noise suppression for super wideband music |
PCT/US2016/044291 WO2017052756A1 (en) | 2015-09-25 | 2016-07-27 | Adaptive noise suppression for super wideband music |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018528479A true JP2018528479A (ja) | 2018-09-27 |
Family
ID=56567728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018515459A Pending JP2018528479A (ja) | 2015-09-25 | 2016-07-27 | スーパー広帯域音楽のための適応雑音抑圧 |
Country Status (7)
Country | Link |
---|---|
US (1) | US10186276B2 (ja) |
EP (1) | EP3353788A1 (ja) |
JP (1) | JP2018528479A (ja) |
KR (1) | KR20180056752A (ja) |
CN (1) | CN108140399A (ja) |
BR (1) | BR112018006076A2 (ja) |
WO (1) | WO2017052756A1 (ja) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10535360B1 (en) * | 2017-05-25 | 2020-01-14 | Tp Lab, Inc. | Phone stand using a plurality of directional speakers |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10148241B1 (en) * | 2017-11-20 | 2018-12-04 | Dell Products, L.P. | Adaptive audio interface |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) * | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
CN110430508B (zh) * | 2019-07-12 | 2021-09-14 | 星络智能科技有限公司 | 麦克风降噪处理方法及计算机存储介质 |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
CN111128214B (zh) * | 2019-12-19 | 2022-12-06 | 网易(杭州)网络有限公司 | 音频降噪方法、装置、电子设备及介质 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN113450823B (zh) * | 2020-03-24 | 2022-10-28 | 海信视像科技股份有限公司 | 基于音频的场景识别方法、装置、设备及存储介质 |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
CN112509594A (zh) * | 2020-06-22 | 2021-03-16 | 中兴通讯股份有限公司 | 一种终端、发声方法、存储介质及电子装置 |
US11688384B2 (en) * | 2020-08-14 | 2023-06-27 | Cisco Technology, Inc. | Noise management during an online conference session |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11699452B2 (en) | 2020-12-08 | 2023-07-11 | T-Mobile Usa, Inc. | Machine learning-based audio codec switching |
US11425259B2 (en) | 2020-12-08 | 2022-08-23 | T-Mobile Usa, Inc. | Machine learning-based audio codec switching |
CN115762546A (zh) * | 2021-09-03 | 2023-03-07 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、设备以及介质 |
GB2619731A (en) * | 2022-06-14 | 2023-12-20 | Nokia Technologies Oy | Speech enhancement |
Family Cites Families (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5848163A (en) * | 1996-02-02 | 1998-12-08 | International Business Machines Corporation | Method and apparatus for suppressing background music or noise from the speech input of a speech recognizer |
US7209567B1 (en) * | 1998-07-09 | 2007-04-24 | Purdue Research Foundation | Communication system with adaptive noise suppression |
US6453285B1 (en) * | 1998-08-21 | 2002-09-17 | Polycom, Inc. | Speech activity detector for use in noise reduction system, and methods therefor |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6473733B1 (en) | 1999-12-01 | 2002-10-29 | Research In Motion Limited | Signal enhancement for voice coding |
US6694293B2 (en) * | 2001-02-13 | 2004-02-17 | Mindspeed Technologies, Inc. | Speech coding system with a music classifier |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
US7443978B2 (en) * | 2003-09-04 | 2008-10-28 | Kabushiki Kaisha Toshiba | Method and apparatus for audio coding with noise suppression |
US20050091049A1 (en) * | 2003-10-28 | 2005-04-28 | Rongzhen Yang | Method and apparatus for reduction of musical noise during speech enhancement |
US8204884B2 (en) * | 2004-07-14 | 2012-06-19 | Nice Systems Ltd. | Method, apparatus and system for capturing and analyzing interaction based content |
US7558729B1 (en) * | 2004-07-16 | 2009-07-07 | Mindspeed Technologies, Inc. | Music detection for enhancing echo cancellation and speech coding |
US7454010B1 (en) * | 2004-11-03 | 2008-11-18 | Acoustic Technologies, Inc. | Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation |
JP4283212B2 (ja) * | 2004-12-10 | 2009-06-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 |
US8126706B2 (en) * | 2005-12-09 | 2012-02-28 | Acoustic Technologies, Inc. | Music detector for echo cancellation and noise reduction |
US8744844B2 (en) * | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
US8068619B2 (en) * | 2006-05-09 | 2011-11-29 | Fortemedia, Inc. | Method and apparatus for noise suppression in a small array microphone system |
US8949120B1 (en) * | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
KR101186133B1 (ko) * | 2006-10-10 | 2012-09-27 | 퀄컴 인코포레이티드 | 오디오 신호들을 인코딩 및 디코딩하는 방법 및 장치 |
KR101565919B1 (ko) * | 2006-11-17 | 2015-11-05 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 방법 및 장치 |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
US8275611B2 (en) * | 2007-01-18 | 2012-09-25 | Stmicroelectronics Asia Pacific Pte., Ltd. | Adaptive noise suppression for digital speech signals |
US20080175408A1 (en) | 2007-01-20 | 2008-07-24 | Shridhar Mukund | Proximity filter |
US8385572B2 (en) * | 2007-03-12 | 2013-02-26 | Siemens Audiologische Technik Gmbh | Method for reducing noise using trainable models |
US20090012786A1 (en) * | 2007-07-06 | 2009-01-08 | Texas Instruments Incorporated | Adaptive Noise Cancellation |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
AU2009220321B2 (en) * | 2008-03-03 | 2011-09-22 | Intellectual Discovery Co., Ltd. | Method and apparatus for processing audio signal |
US8131541B2 (en) * | 2008-04-25 | 2012-03-06 | Cambridge Silicon Radio Limited | Two microphone noise reduction system |
JP4327886B1 (ja) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
ES2654433T3 (es) * | 2008-07-11 | 2018-02-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de señal de audio, método para codificar una señal de audio y programa informático |
US8401178B2 (en) | 2008-09-30 | 2013-03-19 | Apple Inc. | Multiple microphone switching and configuration |
KR101829865B1 (ko) | 2008-11-10 | 2018-02-20 | 구글 엘엘씨 | 멀티센서 음성 검출 |
US8660281B2 (en) * | 2009-02-03 | 2014-02-25 | University Of Ottawa | Method and system for a multi-microphone noise reduction |
US9196249B1 (en) * | 2009-07-02 | 2015-11-24 | Alon Konchitsky | Method for identifying speech and music components of an analyzed audio signal |
GB0919672D0 (en) * | 2009-11-10 | 2009-12-23 | Skype Ltd | Noise suppression |
US8718290B2 (en) * | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
US9112989B2 (en) | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
US8538035B2 (en) * | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US20110288860A1 (en) * | 2010-05-20 | 2011-11-24 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair |
US8320974B2 (en) * | 2010-09-02 | 2012-11-27 | Apple Inc. | Decisions on ambient noise suppression in a mobile communications handset device |
US9364669B2 (en) * | 2011-01-25 | 2016-06-14 | The Board Of Regents Of The University Of Texas System | Automated method of classifying and suppressing noise in hearing devices |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
UA107771C2 (en) * | 2011-09-29 | 2015-02-10 | Dolby Int Ab | Prediction-based fm stereo radio noise reduction |
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
EP2629295B1 (en) * | 2012-02-16 | 2017-12-20 | 2236008 Ontario Inc. | System and method for noise estimation with music detection |
US8781142B2 (en) * | 2012-02-24 | 2014-07-15 | Sverrir Olafsson | Selective acoustic enhancement of ambient sound |
US20130282373A1 (en) | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US9966067B2 (en) * | 2012-06-08 | 2018-05-08 | Apple Inc. | Audio noise estimation and audio noise reduction using multiple microphones |
US9311931B2 (en) * | 2012-08-09 | 2016-04-12 | Plantronics, Inc. | Context assisted adaptive noise reduction |
US9344826B2 (en) | 2013-03-04 | 2016-05-17 | Nokia Technologies Oy | Method and apparatus for communicating with audio signals having corresponding spatial characteristics |
CN105324982B (zh) * | 2013-05-06 | 2018-10-12 | 波音频有限公司 | 用于抑制不需要的音频信号的方法和设备 |
US20140337021A1 (en) * | 2013-05-10 | 2014-11-13 | Qualcomm Incorporated | Systems and methods for noise characteristic dependent speech enhancement |
US20150118960A1 (en) * | 2013-10-28 | 2015-04-30 | Aliphcom | Wearable communication device |
US20150115871A1 (en) * | 2013-10-28 | 2015-04-30 | AliphCorm | Wearable charging device controller and methods |
US9466310B2 (en) * | 2013-12-20 | 2016-10-11 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Compensating for identifiable background content in a speech recognition device |
US10497353B2 (en) * | 2014-11-05 | 2019-12-03 | Voyetra Turtle Beach, Inc. | Headset with user configurable noise cancellation vs ambient noise pickup |
US9886966B2 (en) * | 2014-11-07 | 2018-02-06 | Apple Inc. | System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition |
-
2015
- 2015-09-25 US US14/865,885 patent/US10186276B2/en active Active
-
2016
- 2016-07-27 WO PCT/US2016/044291 patent/WO2017052756A1/en active Application Filing
- 2016-07-27 CN CN201680054867.2A patent/CN108140399A/zh active Pending
- 2016-07-27 EP EP16747710.8A patent/EP3353788A1/en not_active Withdrawn
- 2016-07-27 BR BR112018006076A patent/BR112018006076A2/pt not_active Application Discontinuation
- 2016-07-27 JP JP2018515459A patent/JP2018528479A/ja active Pending
- 2016-07-27 KR KR1020187011507A patent/KR20180056752A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
WO2017052756A1 (en) | 2017-03-30 |
BR112018006076A2 (pt) | 2018-10-09 |
CN108140399A (zh) | 2018-06-08 |
KR20180056752A (ko) | 2018-05-29 |
EP3353788A1 (en) | 2018-08-01 |
US10186276B2 (en) | 2019-01-22 |
US20170092288A1 (en) | 2017-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10186276B2 (en) | Adaptive noise suppression for super wideband music | |
US10553235B2 (en) | Transparent near-end user control over far-end speech enhancement processing | |
US9299333B2 (en) | System for adaptive audio signal shaping for improved playback in a noisy environment | |
KR101540896B1 (ko) | 전자 디바이스 상에서의 마스킹 신호 생성 | |
US20180277133A1 (en) | Input/output mode control for audio processing | |
JP6336968B2 (ja) | 呼中における三次元サウンド圧縮及びオーバー・ザ・エア送信 | |
US9711162B2 (en) | Method and apparatus for environmental noise compensation by determining a presence or an absence of an audio event | |
US20150281853A1 (en) | Systems and methods for enhancing targeted audibility | |
AU2017405291B2 (en) | Method and apparatus for processing speech signal adaptive to noise environment | |
WO2013156818A1 (en) | An audio scene apparatus | |
JP2017530396A (ja) | 音源を強調するための方法及び機器 | |
US20190066651A1 (en) | Electronic device and control method of earphone device | |
US10510361B2 (en) | Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user | |
KR20240033108A (ko) | 음성인식 오디오 시스템 및 방법 | |
US20210409860A1 (en) | Systems, apparatus, and methods for acoustic transparency | |
JP2023159381A (ja) | 音声認識オーディオシステムおよび方法 | |
US9832299B2 (en) | Background noise reduction in voice communication | |
CN114747233A (zh) | 内容和环境感知的环境噪声补偿 | |
US9978394B1 (en) | Noise suppressor | |
US20240029755A1 (en) | Intelligent speech or dialogue enhancement | |
TWI784594B (zh) | 會議終端及聲音浮水印的嵌入方法 | |
US20230076871A1 (en) | Method, hearing system, and computer program for improving a listening experience of a user wearing a hearing device | |
JP2015220482A (ja) | 送受話端末、エコー消去システム、エコー消去方法、プログラム | |
WO2022173706A1 (en) | Echo reference prioritization and selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180608 |