JP2018528479A

JP2018528479A - スーパー広帯域音楽のための適応雑音抑圧

Info

Publication number: JP2018528479A
Application number: JP2018515459A
Authority: JP
Inventors: デワスレンドラ、ドゥミンダ・アショカ; ラジェンドラン、ビベック; スバシンガ、スバシンガ・シャミンダ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-09-25
Filing date: 2016-07-27
Publication date: 2018-09-27
Also published as: WO2017052756A1; BR112018006076A2; CN108140399A; KR20180056752A; EP3353788A1; US10186276B2; US20170092288A1

Abstract

少なくともスーパー広帯域（ＳＷＢ）帯域幅まで、音声信号と音楽信号の両方の処理を改善するために適応雑音抑圧を実行するための技法が説明される。本技法は、オーディオデータがキャプチャされるコンテキストまたは環境を識別することと、コンテキストに基づいて、帯域幅圧縮する（たとえば、符号化する）より前に、オーディオデータに適用される雑音抑圧のレベルを適応的に変更することとを含む。有効な音声コンテキストでは、オーディオプリプロセッサは、音声信号中の（音楽を含む）雑音を抑圧するために、比較的アグレッシブである雑音抑圧の第１のレベルを設定し得る。有効な音楽コンテキストでは、オーディオプリプロセッサは、音楽信号を無ひずみのままにするために、あまりアグレッシブでない雑音抑圧の第２のレベルを設定し得る。このようにして、送信機側ワイヤレス通信デバイスにおけるボコーダは、音声信号と音楽信号の両方を最小のひずみで適切に符号化し得る。

Description

[0001]本開示はオーディオ信号処理に関し、より詳細には、雑音抑圧をオーディオ信号に適用することに関する。

[0002]ワイヤレス通信デバイス（たとえば、モバイルフォン、スマートフォン、スマートパッド、ラップトップ、タブレットなど）は、雑音の多い環境において使用され得る。たとえば、モバイルフォンは、送信機側においてもたらされた環境、背景、または周囲雑音が、受信機側における了解度を低減し、音声品質を劣化させる、コンサート、バー、またはレストランにおいて使用され得る。したがって、ワイヤレス通信デバイスは、一般に、コーディングおよび送信のために音声信号をボコーダに提示する前に雑音を低減し、音声信号をクリーンアップするために、雑音抑圧を送信機側オーディオプリプロセッサに組み込む。

[0003]ユーザが、音楽中に送信機側ワイヤレス通信デバイス上で発話（talk）している場合、またはユーザが、受信機側デバイスへの送信のために音楽自体をキャプチャすることを試みている場合、雑音抑圧は、音声信号の了解度を改善するために、除去されるべき雑音として音楽信号を扱う。したがって、音楽信号は、帯域幅圧縮（たとえば、符号化）および送信より前に、雑音抑圧によって抑圧され、ひずませられ、したがって、受信機側における受話者は、送信機側における音楽信号の低品質再現を聴取することになる。

[0004]概して、本開示は、少なくともスーパー広帯域（ＳＷＢ：super wideband）帯域幅まで、音声信号と音楽信号の両方の処理を改善するために適応雑音抑圧（adaptive noise suppression）を実行するための技法について説明する。開示される技法は、オーディオデータがキャプチャされるコンテキストまたは環境を識別することと、コンテキストに基づいて、オーディオデータの帯域幅圧縮（たとえば、符号化）より前に、オーディオデータに適用される雑音抑圧のレベルを適応的に変更することとを含む。オーディオデータが有効な音声コンテキストを有する（すなわち、ユーザが、主に、音声信号を送信することを意図する）場合、オーディオプリプロセッサは、音声信号中の（音楽を含む）雑音を抑圧するために、比較的アグレッシブである雑音抑圧の第１のレベルを設定し得る。オーディオデータが有効な音楽コンテキストを有する（すなわち、ユーザが、主に、音楽信号、または音楽信号と音声信号の両方を送信することを意図する）場合、オーディオプリプロセッサは、音楽信号を無ひずみのままにするために、あまりアグレッシブでない雑音抑圧の第２のレベルを設定し得る。このようにして、送信機側ワイヤレス通信デバイスにおけるボコーダは、音声信号と音楽信号の両方を最小のひずみで適切に圧縮または符号化し得る。

[0005]一例では、本開示は、ボイスおよびにデータ通信を与えるように構成されたデバイスを対象とし、本デバイスは、入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、入力オーディオデータは、音声信号と、音楽信号と、雑音信号とを含む、オーディオコンテキストに基づいて、オーディオエンコーダを用いた入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを入力オーディオデータに適用することと、少なくとも１つのオーディオエンコーダパケットを生成するために、入力オーディオデータを帯域幅圧縮する（bandwidth compress）こととを行うように構成された、１つまたは複数のプロセッサを備える。少なくとも１つのオーディオエンコーダパケットを記憶するように構成された、１つまたは複数のプロセッサに電気的に結合された、メモリと、少なくとも１つのオーディオエンコーダパケットを送信するように構成された送信機とをさらに備える本デバイス。

[0006]別の例では、本開示は、入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、入力オーディオデータのオーディオコンテキストを取得するための手段と、ここにおいて、入力オーディオデータは、音声信号と、音楽信号と、雑音信号とを含む、オーディオコンテキストに基づいて、オーディオエンコーダを用いた入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを入力オーディオデータに適用するための手段と、少なくとも１つのオーディオエンコーダパケットを生成するために、入力オーディオデータを帯域幅圧縮するための手段と、少なくとも１つのオーディオエンコーダパケットを送信するための手段とを備える、雑音抑圧が可能な装置を対象とする。

[0007]さらなる一例では、本開示は、ソースデバイスのユーザと宛先デバイスのユーザとの間の会話中に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、ソースデバイスのユーザからの入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、音楽がソースデバイスのユーザの背景でプレイしており、ここにおいて、入力オーディオデータが、ソースデバイスのユーザのボイスと、ソースデバイスのユーザの背景でプレイしている音楽とを含む、オーディオコンテキストが、音声または音楽、あるいは音声と音楽の両方であるオーディオコンテキストを含むことに基づいて、オーディオエンコーダを用いた入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを入力オーディオデータに適用することと、少なくとも１つのオーディオエンコーダパケットを生成するために、入力オーディオデータを帯域幅圧縮することと、少なくとも１つのオーディオエンコーダパケットをソースデバイスから宛先デバイスに送信することとを備える、ボイスおよびデータ通信において使用される方法を対象とする。

[0008]本技法の１つまたは複数の態様の詳細が添付の図面および以下の説明に記載されている。本技法の他の特徴、目的、および利点は、説明および図面、ならびに特許請求の範囲から明らかになろう。

[0009]本開示で説明される技法を利用し得る例示的なオーディオ符号化および復号システム１０を示すブロック図。 [0010]本開示で説明される技法を実装し得るソースデバイスのオーディオプリプロセッサの一例を示すブロック図。 [0011]本開示で説明される技法を実装し得るソースデバイスのオーディオプリプロセッサの代替例を示すブロック図。 [0012]本開示で説明される技法に従って、適応雑音抑圧を実行するように構成されたオーディオプリプロセッサの例示的な動作を示すフローチャート。

[0013]本開示は、少なくともスーパー広帯域（ＳＷＢ）帯域幅まで、音声信号と音楽信号の両方の処理を改善するために適応雑音抑圧を実行するための技法について説明する。ワイヤレス通信デバイスのオーディオプリプロセッサ中に含まれる従来の雑音抑圧ユニットは、符号化されるべき音声信号の了解度を改善するために、非音声信号を雑音として圧縮するように構成される。このスタイルの雑音抑圧は、適応マルチレート（ＡＭＲ：adaptive multi-rate）または適応マルチレート広帯域（ＡＭＲＷＢ：adaptive multi-rate wideband）など、旧来の音声コーデックに従って動作するように構成されたボコーダでうまく動作する。これらの旧来の音声コーデックは、たとえば、代数符号励振線形予測（ＡＣＥＬＰ：algebraic code-excited linear prediction）を使用して、低帯域幅における音声信号をコーディングする（すなわち、符号化または復号する）ことが可能であるが、高品質音楽信号をコーディングすることが可能でない。最近規格化された拡張ボイスサービス（ＥＶS：Enhanced Voice Service）コーデックは、スーパー広帯域帯域幅（すなわち、０〜１６ｋＨｚ）またはさらに全帯域帯域幅（すなわち、０〜２４ｋＨｚ）まで、音声信号ならびに音楽信号をコーディングすることが可能である。しかしながら、従来の雑音抑圧ユニットは、符号化するより前に、音楽信号を抑圧し、びずませ続ける。

[0014]本開示で説明される技法は、オーディオデータ（音声、音楽、または音声と音楽）がキャプチャされるコンテキストまたは環境を識別することと、コンテキストに基づいて、オーディオデータの符号化より前に、オーディオデータに適用される雑音抑圧のレベルを適応的に変更することとを含む。たとえば、開示される技法によれば、ワイヤレス通信デバイスは、オーディオデータが、有効な音声コンテキストにおいてキャプチャされるのか有効な音楽コンテキストにおいてキャプチャされるのかのいずれかを決定するために使用される送信機側オーディオプリプロセッサ内に、音声−音楽（ＳＰＭＵ：speech-music）分類器、近接度センサー、または他の検出器のうちの１つまたは複数を含み得る。

[0015]オーディオデータが、有効な音声コンテキストを有する（すなわち、ユーザは、主に、受話者との会話に関与するために音声信号を送信することを意図する）場合、オーディオプリプロセッサは、コーディングおよび送信のために音声信号をボコーダに移す前に、（音楽を含む）雑音を抑圧するために、比較的アグレッシブである雑音抑圧の第１のレベルを設定し得る。オーディオデータが、有効な音楽コンテキストを有する（すなわち、ユーザは、主に、受話者が経験するための音楽信号、または音楽信号と音声信号の両方を送信することを意図する）場合、オーディオプリプロセッサは、コーディングおよび送信のために無ひずみ音楽信号がボコーダに移ることを可能にするために、あまりアグレッシブでない雑音抑圧の第２のレベルを設定し得る。このようにして、送信機側ワイヤレス通信デバイスにおいてＥＶＳコーデックに従って動作するように構成されたボコーダは、ＳＷＢ音楽信号に対する最小ひずみで受信機側デバイスにおけるオーディオシーンの完全な再現を可能にするために、音声信号と音楽信号の両方を適切に符号化し得る。

[0016]図１は、本開示で説明される技法を利用し得る例示的なオーディオ符号化および復号システム１０を示すブロック図である。図１に示されているように、システム１０は、宛先デバイス１４によって後で復号されるべき符号化オーディオデータを与えるソースデバイス１２を含む。特に、ソースデバイス１２は、コンピュータ可読媒体１６を介して宛先デバイス１４中に含まれる受信機（ＲＸ）３１にオーディオデータを送信するために使用される送信機（ＴＸ）２１を含む。ソースデバイス１２および宛先デバイス１４は、デスクトップコンピュータ、ノートブック（すなわち、ラップトップ）コンピュータ、タブレットコンピュータ、セットトップボックス、いわゆる「スマート」フォンなどの携帯電話ハンドセット、いわゆる「スマート」パッド、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイス、オーディオストリーミングデバイス、ウェアラブルデバイスなどを含む、広範囲にわたるデバイスのいずれかを備え得る。場合によっては、ソースデバイス１２および宛先デバイス１４は、ワイヤレス通信のために装備され得る。

[0017]宛先デバイス１４は、コンピュータ可読媒体１６を介して、復号されるべき符号化オーディオデータを受信し得る。コンピュータ可読媒体１６は、ソースデバイス１２から宛先デバイス１４に符号化オーディオデータを移動させることが可能な任意のタイプの媒体またはデバイスを備え得る。一例では、コンピュータ可読媒体１６は、ソースデバイス１２が、符号化オーディオデータを宛先デバイス１４にリアルタイムで直接送信することを可能にするための通信媒体を備え得る。符号化オーディオデータは、ワイヤレス通信プロトコルなどの通信規格に従って変調され、宛先デバイス１４に送信され得る。通信媒体は、無線周波数（ＲＦ）スペクトルまたは１つまたは複数の物理伝送線路など、任意のワイヤレスまたはワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなど、パケットベースネットワークの一部を形成し得る。通信媒体は、ソースデバイス１２から宛先デバイス１４への通信を可能にするために有用であり得るルータ、スイッチ、基地局、または任意の他の機器を含み得る。

[0018]いくつかの例では、符号化オーディオデータは、ソースデバイス１２からストレージデバイス（図示せず）に出力され得る。同様に、符号化オーディオデータは、宛先デバイス１４によってストレージデバイスからアクセスされ得る。ストレージデバイスは、ハードドライブ、Ｂｌｕ−ｒａｙ（登録商標）ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、フラッシュメモリ、揮発性または不揮発性メモリ、あるいは符号化オーディオデータを記憶するための任意の他の好適なデジタル記憶媒体など、様々な分散されたまたはローカルにアクセスされるデータ記憶媒体のいずれかを含み得る。さらなる一例では、ストレージデバイスは、ソースデバイス１２によって生成された符号化オーディオを記憶し得るファイルサーバまたは別の中間ストレージデバイスに対応し得る。宛先デバイス１４は、ストリーミングまたはダウンロードを介して、ストレージデバイスから記憶されたオーディオデータにアクセスし得る。ファイルサーバは、符号化オーディオデータを記憶することと、その符号化オーディオデータを宛先デバイス１４に送信することとが可能な任意のタイプのサーバであり得る。例示的なファイルサーバとしては、（たとえば、ウェブサイトのための）ウェブサーバ、ＦＴＰサーバ、ネットワーク接続ストレージ（ＮＡＳ）デバイス、またはローカルディスクドライブがある。宛先デバイス１４は、インターネット接続を含む、任意の標準のデータ接続を通して符号化オーディオデータにアクセスし得る。これは、ファイルサーバに記憶された符号化オーディオデータにアクセスするのに好適であるワイヤレスチャネル（たとえば、Ｗｉ−Ｆｉ（登録商標）接続）、ワイヤード接続（たとえば、ＤＳＬ、ケーブルモデムなど）、またはその両方の組合せを含み得る。ストレージデバイスからの符号化オーディオデータの送信は、ストリーミング送信、ダウンロード送信、またはそれらの組合せであり得る。

[0019]図１の図示されたシステム１０は一例にすぎない。オーディオデータを処理するための技法は、任意のデジタルオーディオ符号化または復号デバイスによって実行され得る。概して、本開示の技法はオーディオプリプロセッサによって実行されるが、本技法は、オーディオ符号化デバイス、あるいは、一般に「コーデック」または「ボコーダ」と呼ばれるオーディオエンコーダ／デコーダによっても実行され得る。ソースデバイス１２および宛先デバイス１４は、ソースデバイス１２が宛先デバイス１４への送信のためのコード化オーディオデータを生成するような、コーディングデバイスの例にすぎない。いくつかの例では、デバイス１２、１４は、デバイス１２、１４の各々がオーディオ符号化構成要素とオーディオ復号構成要素とを含むように、実質的に対称的に動作し得る。したがって、システム１０は、たとえば、オーディオストリーミング、オーディオプレイバック、オーディオブロードキャスト、またはオーディオテレフォニーのためのデバイス１２とデバイス１４の間の一方向または双方向のオーディオ送信をサポートし得る。

[0020]図１の例では、ソースデバイス１２は、マイクロフォン１８と、オーディオプリプロセッサ２２と、オーディオエンコーダ２０とを含む。宛先デバイス１４は、オーディオデコーダ３０とスピーカー３２とを含む。他の例では、ソースデバイス１２も、それ自体のオーディオデコーダを含み得、宛先デバイス１４も、それ自体のオーディオエンコーダを含み得る。図示の例では、ソースデバイス１２は、入力オーディオデータをキャプチャするように構成されたマイクロフォンアレイを備え得る、１つまたは複数の外部マイクロフォン１８からオーディオデータを受信する。同様に、宛先デバイス１４は、スピーカーアレイを備え得る１つまたは複数の外部スピーカー３２とインターフェースする。他の例では、ソースデバイスおよび宛先デバイスは、他の構成要素または構成を含み得る。たとえば、ソースデバイス１２は、１つまたは複数の統合されたマイクロフォンなど、統合されたオーディオソースからオーディオデータを受信し得る。同様に、宛先デバイス１４は、１つまたは複数の統合されたスピーカーなど、統合されたオーディオ出力デバイスにオーディオデータを出力し得る。

[0021]いくつかの例では、マイクロフォン１８は、ソースデバイス１２に物理的に結合され得るか、またはソースデバイス１２とワイヤレス通信し得る。ソースデバイス１２とのワイヤレス通信を示すために、図１は、ソースデバイス１２の外側にマイクロフォン１８を示す。他の例では、マイクロフォン１８は、マイクロフォン１８へのソースデバイス１２の物理的結合を示すために、ソースデバイス１２の内側に示さていることもある。同様に、スピーカー３２は、宛先デバイス１４に物理的に結合され得るか、または宛先デバイス１４とワイヤレス通信し得る。宛先デバイス１４とのワイヤレス通信を示すために、図１は、スピーカー３２を宛先デバイス１４の外側に示す。他の例では、スピーカー３２は、スピーカー３２への宛先デバイス１４の物理的結合を示すために、宛先デバイス１４の内側に示されることもある。

[0022]いくつかの例では、ソースデバイス１２のマイクロフォン１８は、ソースデバイス１２に統合された少なくとも１つのマイクロフォンを含み得る。ソースデバイス１２がモバイルフォンを備える一例では、マイクロフォン１８は、ユーザの音声を拾うためにユーザの口の近くに位置する「前面」マイクロフォンを少なくとも含み得る。ソースデバイス１２がモバイルフォンを備える別の例では、マイクロフォン１８は、ユーザの口の近くに位置する「前面」マイクロフォンと、環境、背景、または周囲雑音を拾うためにモバイルフォンの裏面に位置する「背面」マイクロフォンとの両方を含み得る。さらなる一例では、マイクロフォン１８は、ソースデバイス１２に統合されたマイクロフォンのアレイを備え得る。他の例では、ソースデバイス１２は、オーディオインターフェースを介して１つまたは複数の外部マイクロフォンからオーディオデータを受信するか、前にキャプチャされたオーディオを含んでいるメモリまたはオーディオアーカイブからオーディオデータを取り出すか、またはオーディオデータ自体を生成し得る。キャプチャされたオーディオ、プリキャプチャされたオーディオ、またはコンピュータ生成オーディオは、オーディオエンコーダ２０によって帯域幅圧縮および符号化され得る。少なくとも１つのオーディオエンコーダパケット中の符号化オーディオデータは、次いで、ソースデバイス１２のＴＸ２１によってコンピュータ可読媒体１６上に送信され得る。

[0023]コンピュータ可読媒体１６は、ワイヤレスブロードキャストまたはワイヤードネットワーク送信などの一時媒体、あるいはハードディスク、フラッシュドライブ、コンパクトディスク、デジタルビデオディスク、Ｂｌｕ−ｒａｙディスク、または他のコンピュータ可読媒体などの記憶媒体（すなわち、非一時的記憶媒体）を含み得る。いくつかの例では、ネットワークサーバ（図示せず）は、たとえば、ネットワーク送信を介して、ソースデバイス１２から符号化オーディオデータを受信し、その符号化オーディオデータを宛先デバイス１４に与え得る。同様に、ディスクスタンピング設備など、媒体製造設備のコンピューティングデバイスは、ソースデバイス１２から符号化オーディオデータを受信し、その符号化オーディオデータを含んでいるディスクを生成し得る。したがって、コンピュータ可読媒体１６は、様々な例において、様々な形態の１つまたは複数のコンピュータ可読媒体を含むことが理解されよう。

[0024]宛先デバイス１４は、ＲＸ３１を用いて、オーディオデコーダ３０によって復号するためにコンピュータ可読媒体１６から少なくとも１つのオーディオエンコーダパケット中の符号化オーディオデータを受信し得る。スピーカー３２は、ユーザに復号オーディオデータをプレイバックする。宛先デバイス１４のスピーカー３２は、宛先デバイス１４に統合された少なくとも１つのスピーカーを含み得る。宛先デバイス１４がモバイルフォンを備える一例では、スピーカー３２は、少なくとも、旧来の電話として使用するためにユーザの耳の近くに位置する「前面」スピーカーを含み得る。宛先デバイス１４がモバイルフォンを備える別の例では、スピーカー３２は、ユーザの耳の近くに位置する「前面」スピーカーと、スピーカーフォンとしての使用を可能にするためにモバイルフォン上の他の場所に位置する「側面」または「背面」スピーカーとの両方を含み得る。さらなる一例では、スピーカー３２は、宛先デバイス１４に統合されたスピーカーのアレイを備え得る。他の例では、宛先デバイス１４は、オーディオインターフェースを介して、１つまたは複数の外部スピーカー上でのプレイバックのために復号オーディオデータを送り得る。このようにして、宛先デバイス１４は、宛先デバイス１４によって受信された少なくとも１つのオーディオエンコーダパケットを復号するように構成されたオーディオデコーダ３０の出力をレンダリングするように構成されたスピーカー３２のうちの少なくとも１つを含む。

[0025]オーディオエンコーダ２０およびオーディオデコーダ３０はそれぞれ、１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアなど、様々な好適なエンコーダ回路のいずれか、あるいはそれらの任意の組合せとして実装され得る。本技法が部分的にソフトウェアで実装されるとき、デバイスは、ソフトウェアのための命令を好適な非一時的コンピュータ可読媒体に記憶し、本開示の技法を実行するために１つまたは複数のプロセッサを使用してハードウェアでその命令を実行し得る。オーディオエンコーダ２０およびオーディオデコーダ３０の各々は１つまたは複数のエンコーダまたはデコーダ中に含まれ得、そのいずれも、それぞれのデバイスにおいて複合エンコーダ／デコーダ（コーデックまたはボコーダ）の一部として統合され得る。

[0026]さらに、ソースデバイス１２はメモリ１３を含み、宛先デバイス１４は、動作中に情報を記憶するように構成されたメモリ１５を含む。集積メモリは、コンピュータ可読記憶媒体またはコンピュータ可読記憶デバイスを含み得る。いくつかの例では、集積メモリは、短期メモリまたは長期メモリのうちの１つまたは複数を含み得る。集積メモリは、たとえば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、磁気ハードディスク、光ディスク、フロッピー（登録商標）ディスク、フラッシュメモリ、あるいは電気的プログラマブルメモリ（ＥＰＲＯＭ）または電気的消去可能およびプログラマブルメモリ（ＥＥＰＲＯＭ（登録商標））の形態を含み得る。いくつかの例では、集積メモリは、１つまたは複数のプロセッサが実行するためのプログラム命令を記憶するために使用される。集積メモリは、プログラム実行中に情報を一時的に記憶するために、ソースデバイス１２および宛先デバイス１４の各々上で動作するソフトウェアまたはアプリケーションによって使用され得る。

[0027]このようにして、ソースデバイス１２は、１つまたは複数のプロセッサに電気的に結合され、少なくとも１つのオーディオエンコーダパケットを記憶するように構成されたメモリ１３と、少なくとも１つのオーディオエンコーダパケットをオーバージエアで送信するように構成された送信機２１とを含む。本明細書で使用される「結合される（coupled）」は、「通信可能に結合される」、「電気的に結合される」、または「物理的に結合される」、およびそれらの組合せを含み得る。２つのデバイス（または構成要素）は、１つまたは複数の他のデバイス、構成要素、ワイヤ、バス、ネットワーク（たとえば、ワイヤードネットワーク、ワイヤレスネットワーク、またはそれらの組合せ）などを介して、直接または間接的に結合（たとえば、通信可能に結合、電気的に結合、または物理的に結合）され得る。電気的に結合された２つのデバイス（または構成要素）は、同じデバイス中または異なるデバイス中に含まれ得、例示的な、非限定的な例として、エレクトロニクス、１つまたは複数のコネクタ、または誘導結合を介して接続され得る。いくつかの実装形態では、電気通信しているなど、通信可能に結合された２つのデバイス（または構成要素）は、１つまたは複数ワイヤ、バス、ネットワークなどを介して、直接または間接的に電気信号（デジタル信号またはアナログ信号）を送信および受信し得る。たとえば、メモリ１３は、ソースデバイス１２の１つまたは複数のプロセッサと電気通信していることがあり、ソースデバイス１２は、オーディオエンコーダ２０と、雑音抑圧ユニット２４を実行するプリプロセッサ２２とを含み得る。別の例として、メモリ１５は、オーディオデコーダ３０を含み得る宛先デバイス１４の１つまたは複数のプロセッサに電気的に結合されていることがある。

[0028]いくつかの例では、ソースデバイス１２および宛先デバイス１４は、雑音の多い環境において使用され得るモバイルフォンである。たとえば、ソースデバイス１２は、ソースデバイス１２においてもたらされた環境、背景、または周囲雑音が、宛先デバイス１４における了解度を低減し、音声品質を劣化させる、コンサート、バー、またはレストランにおいて使用され得る。したがって、ソースデバイス１２は、帯域幅圧縮、コーディング、および宛先デバイス１４への送信のために音声信号をオーディオエンコーダ２０に提示する前に、雑音を低減し、音声信号を改善する（または、言い換えれば、クリーンアップする）ために、オーディオプリプロセッサ２２内に雑音抑圧ユニット２４を含む。

[0029]概して、雑音抑圧は、ユーザが送信機側環境において話している間、マイクロフォンによってキャプチャされる背景雑音を抑圧するために使用される送信機側技術である。雑音抑圧は、受信機側環境において遭遇される雑音を消去するために使用される受信機側技術であるアクティブ雑音消去（ＡＮＣ：active noise cancellation）と混同されるべきでない。雑音抑圧は、キャプチャされたオーディオデータを符号化のために準備するために、送信機側における前処理中に実行される。すなわち、雑音抑圧は、より効率的な圧縮が符号化中に達成されることを可能にするために雑音を低減し得、それは、雑音抑圧を使用して前処理されなかった符号化オーディオデータと比較して、（サイズに関して）より小さい符号化オーディオデータを生じる。したがって、雑音抑圧は、オーディオエンコーダ２０内で実行されず、代わりに、オーディオプリプロセッサ２２中で実行され、オーディオプリプロセッサ２２中の雑音抑圧の出力は、オーディオエンコーダ２０への入力であり、時々中間に他の軽微な処理を伴う。

[0030]雑音抑圧は、狭帯域（ＮＢ）（すなわち、０〜４ｋＨｚ）、広帯域（ＷＢ）（すなわち、０〜７ｋＨｚ）、スーパー広帯域（ＳＷＢ）（すなわち、０〜１６ｋＨｚ）、または全帯域（ＦＢ）（すなわち、０〜２４ｋＨｚ）帯域幅中で動作し得る。たとえば、雑音抑圧への入力オーディオデータがＳＷＢコンテンツである場合、雑音抑圧は、範囲０〜１６ｋＨｚ内のすべての周波数中の雑音を抑圧するようにオーディオデータを処理し得、意図された出力は、範囲０〜１６ｋＨｚ内のクリーンな音声信号である。入力オーディオデータ帯域幅が高く、たとえば、ＦＢ帯域幅である場合、雑音抑圧の高速フーリエ変換（ＦＦＴ）が入力オーディオデータをより多くの周波数帯域中に分割し得、周波数帯域の各々について後処理利得（post processing gain）が決定され、適用され得る。後で、雑音抑圧の逆ＦＦＴ（ＩＦＦＴ）が、周波数帯域間で分割されたオーディオデータを、雑音抑圧の単一の出力信号に合成し得る。

[0031]ユーザが、音楽中にソースデバイス１２上で発話している場合、またはユーザが、宛先デバイス１４への送信のために音楽自体をキャプチャすることを試みている場合、オーディオ前処理中の従来の雑音抑圧は、音声信号の了解度を改善するために、除去されるべき雑音として音楽信号を扱う。したがって、音楽信号は、符号化および送信より前に、従来の雑音抑圧によって抑圧され、ひずませられ、したがって、宛先デバイス１４において受話（listen）しているユーザは、音楽信号の低品質再現を聴取することになる。

[0032]従来の雑音抑圧は、適応マルチレート（ＡＭＲ）または適応マルチレート広帯域（ＡＭＲＷＢ）など、旧来の音声コーデックに従って動作するように構成されたボコーダでうまく動作する。これらの旧来の音声コーデックは、たとえば、代数符号励振線形予測（ＡＣＥＬＰ）を使用して、低帯域幅における音声信号をコーディングする（すなわち、符号化または復号する）ことが可能であるが、高品質音楽信号をコーディングすることが可能でない。たとえば、ＡＭＲおよびＡＭＲＷＢコーデックは、着信オーディオデータを音声コンテンツまたは音楽コンテンツとして分類せず、相応に符号化する。代わりに、ＡＭＲおよびＡＭＲＷＢコーデックは、すべての非雑音信号を音声コンテンツとして扱い、ＡＣＥＬＰを使用して音声コンテンツをコーディングする。したがって、ＡＭＲまたはＡＭＲＷＢコーデックに従ってコーディングされた音楽の品質は、不十分である。さらに、ＡＭＲコーデックは、狭帯域（ＮＢ）帯域幅（すなわち、０〜４ｋＨｚ）中のオーディオデータに限定され、ＡＭＲＷＢコーデックは、広帯域（ＷＢ）帯域幅（すなわち、０〜７ｋＨｚ）中のオーディオ信号に限定される。しかしながら、たいていの音楽信号は、ＡＭＲおよびＡＭＲＷＢコーデックによって廃棄される７ｋＨｚを上回る有意なコンテンツを含む。

[0033]最近規格化された拡張ボイスサービス（ＥＶＳ）コーデックは、スーパー広帯域（ＳＷＢ）帯域幅（すなわち、０〜１６ｋＨｚ）またはさらに全帯域（ＦＢ）帯域幅（すなわち、０〜２４ｋＨｚ）まで、音声信号ならびに音楽信号をコーディングすることが可能である。概して、音楽信号をコーディングすることが可能である他のコーデックが存在するが、これらのコーデックは、低遅延動作を必要とするモバイルフォンドメイン（たとえば、第３世代パートナーシッププロジェクト（３ＧＰＰ（登録商標）））における会話の音声をもコーディングすることのために使用されず、またはそれを行うことを意図しない。ＥＶＳコーデックは、呼中の音楽信号をも高品質（たとえば、ＳＷＢまたはＦＢ帯域幅）でコーディングすることができる、低遅延会話型コーデックである。

[0034]したがって、ＥＶＳコーデックは、会話内の音楽信号を送信し、送信機側デバイス、たとえば、ソースデバイス１２に存在するリッチなオーディオシーンを受信機側デバイス、すなわち、宛先デバイス１４において再現する能力をユーザに提供する。しかしながら、オーディオ前処理中の従来の雑音抑圧は、符号化より前に音楽信号を抑圧し、ひずませ続ける。キャプチャされたオーディオデータが、背景においてではなく、高い信号対雑音比（ＳＮＲ）レベルにおいて１次音楽信号を含む場合でさえ、音楽信号は、従来の雑音抑圧によって大きくひずませられる。

[0035]図１の例では、ソースデバイス１２のオーディオエンコーダ２０および宛先デバイス１４のオーディオデコーダ３０は、ＥＶＳコーデックに従って動作するように構成される。このようにして、オーディオエンコーダ２０は、ソースデバイス１２においてＳＷＢまたはＦＢ音楽信号を十分に符号化し得、オーディオデコーダ３０は、宛先デバイス１４においてＳＷＢまたはＦＢ音楽信号を適切に再生し得る。図１に示されているように、オーディオエンコーダ２０は、音声−音楽（ＳＰＭＵ）分類器２６と、ボイスアクティビティ検出器（ＶＡＤ：voice activity detector）２７と、低帯域（ＬＢ）符号化ユニット２８Ａと、高帯域（ＨＢ）符号化ユニット２８Ｂとを含む。オーディオエンコーダ２０は、これらの帯域中のコンテンツの利用可能に応じて、別々に、ＬＢ符号化ユニット２８Ａを使用してオーディオデータの低帯域（０〜８ｋＨｚ）部分を符号化し、ＨＢ符号化ユニット２８Ｂを使用して高帯域（８〜１６ｋＨｚまたは８〜２４ｋＨｚ）を符号化することによって、２つの部分において符号化を実行する。

[0036]オーディオエンコーダ２０において、ＶＡＤ２７は、入力オーディオデータが音声コンテンツを含むとき、出力を１として与え得、入力オーディオデータが非音声コンテンツ（音楽、トーン、雑音など）を含むとき、出力を０として与え得る。ＳＰＭＵ分類器２６は、オーディオエンコーダ２０へのオーディオデータ入力が、音声コンテンツを含むのか、音楽コンテンツを含むのか、音声コンテンツと音楽コンテンツの両方を含むのかを決定する。この決定に基づいて、オーディオエンコーダ２０は、入力オーディオデータのために最良のＬＢおよびＨＢ符号化方法を選択する。ＬＢ符号化ユニット２８Ａ内で、オーディオデータが音声コンテンツを含むとき、１つの符号化方法が選択され、オーディオデータが音楽コンテンツを含むとき、別の符号化方法が選択される。同じことが、ＨＢ符号化ユニット２８Ｂ内で当てはまる。ＳＰＭＵ分類器２６は、ＬＢ符号化ユニット２８ＡおよびＨＢ符号化ユニット２８Ｂの各々内でどちらのコーディング方法が選択されるべきかを示す制御入力を、ＬＢ符号化ユニット２８ＡおよびＨＢ符号化ユニット２８Ｂに与える。オーディオエンコーダ２０はまた、選択された符号化方法をオーディオデコーダ３０に通信し得、したがって、オーディオデコーダ３０は、符号化オーディオデータを復号するために対応するＬＢおよびＨＢ復号方法を選択し得る。

[0037]ＥＶＳコーデック中のＳＰＭＵ分類器の動作は、Ｍａｌｅｎｏｖｓｋｙら、「Two-Stage Speech/Music Classifier with Decision Smoothing and Sharpening in the EVS Codec」、第４０回ＩＥＥＥ音響、音声および信号処理に関する国際会議（ＩＣＡＳＳＰ：International Conference on Acoustics, Speech and Signal Processing）２０１５、ブリズベーン、オーストラリア、２０１５年４月１９日〜２４日においてより詳細に説明されている。選択可能モードボコーダ（ＳＭＶ：selectable mode vocoder）中のＳＰＭＵ分類器の動作は、Ｓｏｎｇら、「Analyasis and Improvement of Speech/Music Classification for 3GPP（登録商標）2 SMV Based on GMM」、ＩＥＥＥＳｉｇｎａｌＰｒｏｃｃｅｓｉｎｇＬｅｔｔｅｒｓ、第１５巻、２００８年においてより詳細に説明されている。

[0038]ＳＰＭＵ分類器２６が入力オーディオデータを音楽コンテンツとして分類する場合、最良品質オーディオ符号化は、変換領域コーディング技法を使用して達成され得る。しかしながら、前処理中に従来の雑音抑圧がオーディオデータの音楽信号に適用される場合、雑音抑圧のアグレッシブレベルによってひずみが音楽信号にもたらされ得る。ひずませられた音楽信号は、ＳＰＭＵ分類器２６に入力オーディオデータを音声コンテンツとして誤分類させ得る。オーディオエンコーダ２０は、次いで、入力オーディオデータのために理想的とは言えない符号化方法を選択し得、それは、オーディオデコーダ３０の出力における音楽信号の品質を低減することになる。さらに、ＳＰＭＵ分類器２６が、入力オーディオデータを音楽コンテンツとして適切に分類することが可能である場合でも、選択された符号化方法は、ひずませられた音楽信号を符号化することになり、それも、オーディオデコーダ３０の出力における音楽信号の品質を低減することになる。

[0039]本開示は、少なくともＳＷＢ帯域幅まで、音声信号と音楽信号の両方の処理を改善するために適応雑音抑圧を実行するための技法について説明する。いくつかの例では、適応雑音抑圧技法は、オーディオデータがキャプチャされるコンテキストまたは環境の変化に基づいて、通話中に、オーディオデータに適用される雑音抑圧のレベルを変更するために使用され得る。

[0040]図１の図示の例では、ソースデバイス１２のオーディオプリプロセッサ２２内の雑音抑圧ユニット２４は、マイクロフォン１８によってキャプチャされたオーディオデータのための有効な音楽コンテキストを識別するように構成される。有効な音楽コンテキストの場合、雑音抑圧ユニット２４は、キャプチャされたオーディオデータの音楽信号が最小ひずみで雑音抑圧ユニット２４を通って移ることを可能にし、ＥＶＳコーデックに従って動作するように構成されたオーディオエンコーダ２０が音楽信号を適切に符号化することを可能にするために、オーディオデータに低レベル雑音抑圧または雑音抑圧なしを適用するようにさらに構成され得る。さらに、有効な音声コンテキストの場合、雑音抑圧ユニット２４は、雑音抑圧のアグレッシブまたは高いレベルを適用することと、クリーンな音声信号をオーディオエンコーダ２０に提示することとによって、従来の雑音抑圧技法と同様に、高雑音環境における音声信号を処理するように構成され得る。

[0041]本明細書で開示されるデバイス、装置、システム、および方法は、様々のコンピューティングデバイスに適用され得る。コンピューティングデバイスの例としては、モバイルフォン、セルラーフォン、スマートフォン、ヘッドフォン、ビデオカメラ、オーディオプレーヤ（たとえば、ムービングピクチャエキスパートグループ−１（ＭＰＥＧ−１）またはＭＰＥＧ−２ＡｕｄｉｏＬａｙｅｒ３（ＭＰ３）プレーヤ）、ビデオプレーヤ、オーディオレコーダ、デスクトップコンピュータ／ラップトップコンピュータ、携帯情報端末（ＰＤＡ）、ゲームシステムなどがある。コンピューティングデバイスの一種は、別のデバイスと通信し得る通信デバイスである。コンピューティングデバイスの例としては、モバイルフォン、ラップトップコンピュータ、デスクトップコンピュータ、セルラーフォン、スマートフォン、電子リーダー、タブレットデバイス、ゲームシステムなどがある。

[0042]コンピューティングデバイスまたは通信デバイスは、国際電気通信連合（ＩＴＵ）規格または米国電気コンピューティング技術者協会（ＩＥＥＥ）規格（たとえば、８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎまたは８０２．１１ａｃなどのワイヤレスフィデリティまたは「Ｗｉ−Ｆｉ」規格）のような、いくつかの業界規格に従って動作し得る。通信デバイスが準拠し得る規格の他の例としては、ＩＥＥＥ８０２．１６（たとえば、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセスまたは「ＷｉＭＡＸ（登録商標）」）、第３世代パートナーシッププロジェクト（３ＧＰＰ）、３ＧＰＰロングタームエボリューション（ＬＴＥ（登録商標））、モバイル電気通信用グローバルシステム（ＧＳＭ（登録商標））などがある（ここで、通信デバイスは、たとえば、ユーザ機器（ＵＥ）、ノードＢ、発展型ノードＢ（ｅＮＢ）、モバイルデバイス、移動局、加入者局、リモート局、アクセス端末、モバイル端末、端末、ユーザ端末、加入者ユニットなどと呼ばれることがある）。本明細書で開示されるデバイス、装置、システムおよび方法のいくつかが、１つまたは複数の規格に関して説明されることがあるが、技法は、それらのデバイス、装置、システムおよび方法が多くのシステムおよび規格に適用可能であり得るので、本開示の範囲に限定されるべきではない。

[0043]いくつかの通信デバイスは、ワイヤレス通信し得、あるいはワイヤード接続またはリンクを使用して通信し得ることに留意されたい。たとえば、いくつかの通信デバイスは、イーサネット（登録商標）プロトコルを使用して他のデバイスと通信し得る。本明細書で開示されるデバイス、装置、システムおよび方法は、ワイヤレス通信し、あるいはワイヤード接続またはリンクを使用して通信する、通信デバイスに適用され得る。

[0044]図２は、本開示で説明される技法を実装し得るソースデバイス１２のオーディオプリプロセッサ２２の一例を示すブロック図である。図２の例では、オーディオプリプロセッサ２２は、雑音抑圧ユニット２４と、近接度センサー４０と、音声−音楽（ＳＰＭＵ）分類器４２と、音分離（ＳＳ：sound separation）ユニット４５と、制御ユニット４４とを含む。雑音抑圧ユニット２４は、高速フーリエ変換（ＦＦＴ）４６と、雑音基準生成ユニット４８と、後処理利得ユニット５０と、適応ビームフォーミングユニット５２と、利得適用および平滑化ユニット（gain application and smoothing unit）５４と、逆ＦＦＴ（ＩＦＦＴ）５６とをさらに含む。

[0045]図２の図示の例は、ソースデバイス１２において音声、音楽、および雑音信号をキャプチャするために使用されるデュアルマイクロフォン１８Ａ、１８Ｂを含む。デュアルマイクロフォン１８Ａ、１８Ｂは、図１からのマイクロフォン１８のうちの２つを備える。したがって、デュアルマイクロフォン１８Ａ、１８Ｂは、ソースデバイス１２の外部に配置されたマイクロフォンのアレイ中の２つのマイクロフォンを備え得る。ソースデバイス１２がモバイルフォンを備える場合、１次マイクロフォン１８Ａはモバイルフォンの「前面」マイクロフォンであり得、２次マイクロフォン１８Ｂはモバイルフォンの「背面」マイクロフォンであり得る。デュアルマイクロフォン１８Ａ、１８Ｂによってキャプチャされたオーディオデータは、プリプロセッサ２２への入力である。

[0046]いくつかの例では、ＳＳユニット４５は、オーディオデータを雑音抑圧ユニット２４に供給するより前に、デュアルマイクロフォン１８Ａ、１８Ｂによってキャプチャされたオーディオデータを受信し得る。ＳＳユニット４５は、入力オーディオデータ中に含まれる雑音から音声を分離する音分離ユニットを備え、音声（＋ほとんどない残留雑音）を一方のチャネル中に配置し、雑音（＋ほとんどない残差音声）を他方のチャネル中に配置する。図２に示されているデュアルマイクロフォンシステムでは、雑音は、音声として分類されないすべての音を含み得る。たとえば、ソースデバイス１２のユーザが野球を観戦しており、大きな声援と、応援している人々と、頭上を飛ぶ飛行機と、プレイしている音楽がある場合、すべてのそれらの音が、「雑音」チャネルに入れられることになる。３マイクロフォンシステムでは、（１）音声チャネルと、（２）音楽チャネルと、（３）何らかの残りの音、たとえば、大きい声援、応援している人々、および頭上の飛行機を含む、雑音チャネルとがあるように、音楽をそれ自体のチャネルに分離することが可能であり得る。マイクロフォンの数が増加するにつれて、ＳＳユニット４５は、入力オーディオデータの別個のタイプの音源を分離するために、より多くの自由度で構成され得る。いくつかの例では、マイクロフォンのアレイ中の各マイクロフォンが、１つのチャネルに相関し得る。他の例では、２つまたはそれ以上のマイクロフォンが、同じチャネルに相関する音をキャプチャし得る。

[0047]雑音抑圧ユニット２４内では、キャプチャされたオーディオデータが、ＦＦＴ４６を使用して周波数領域に変換される。たとえば、ＦＦＴ４６は、周波数帯域の各々において処理するために入力オーディオデータを複数の周波数帯域に分割し得る。たとえば、ＦＦＴ４６の各周波数帯域またはビンは、周波数領域中のチャネルのうちの１つに雑音スペクトルを含み、チャネルのうちの別の１つに音声スペクトルを含み得る。

[0048] 次いで、入力オーディオデータ中の音声信号と雑音信号とを空間的に分離し、デュアルマイクロフォン１８Ａ、１８Ｂによってキャプチャされた入力オーディオデータから音声基準信号と雑音基準信号とを生成するために、適応ビームフォーミングユニット５２が使用される。適応ビームフォーミングユニット５２は、音声の方向を識別し、他の空間セクタから来るすべての雑音をフィルタで除去するための空間フィルタ処理を含む。適応ビームフォーミングユニット５２は、音声基準信号を利得適用および平滑化ユニット５４に供給する。雑音基準生成ユニット４８は、適応ビームフォーミングユニット５２から、変換されたオーディオデータと分離された雑音信号とを受信する。雑音基準生成ユニット４８は、後処理利得ユニット５０への入力のために１つまたは複数の雑音基準信号を生成し得る。

[0049]後処理利得ユニット５０は、雑音基準信号のための利得係数を計算するために、複数の周波数帯域にわたって雑音基準信号のさらなる処理を実行する。後処理利得ユニット５０は、次いで、計算された利得係数を利得適用および平滑化ユニット５４に供給する。一例では、利得適用および平滑化ユニット５４は、オーディオデータ中の雑音を抑圧するために、ある利得および平滑化を用いて音声基準信号から雑音基準信号を減算し得る。利得適用および平滑化ユニット５４は、次いで、雑音抑圧信号（noise-suppressed signal）をＩＦＦＴ５６に供給する。ＩＦＦＴ５６は、周波数帯域の間で分割されたオーディオデータを単一の出力信号に合成し得る。

[0050]後処理利得ユニット５０によって計算された利得係数は、雑音信号の減算が利得適用および平滑化ユニット５４においてどのくらいアグレッシブであることになるか、したがって、雑音抑圧が入力オーディオデータにどのくらいアグレッシブに適用されるかを決定する、係数の中でも、１つの主要な係数である。利得適用および平滑化ユニット５４は、フレームごとに、たとえば、一般に５〜４０ミリ秒ごとに、雑音抑圧を入力オーディオデータに適用する。

[0051]いくつかの例では、後処理利得ユニット５０は、より高度なＳＮＲベースの後処理方式を使用し得る。これらの例では、個別の周波数帯域内の音声基準信号、Ｘ（ｎ，ｆ）エネルギーと雑音基準信号、Ｎ（ｎ，ｆ）エネルギーとを比較した後に、後処理利得ユニット５０は、以下の式に従って、各フレームｎ中の各周波数帯域ｆに対応するＳＮＲ値、Ｓ（ｎ，ｆ）を計算する。

次いで、後処理利得ユニット５０は、利得係数、Ｇ（ｎ，ｆ）を計算するためにＳＮＲ値、（ｎ，ｆ）を使用し、利得係数は、以下の式に従って、雑音抑圧信号、Ｙ（ｎ，ｆ）を計算するために利得適用および平滑化ユニット５４によって音声基準信号に適用される。

入力オーディオデータが有効な音楽コンテキストにおいてキャプチャされる場合、いくつかの周波数帯域における音声基準信号に低いまたは小さい利得係数が適用された場合、入力オーディオデータ内の音楽信号は大きくひずませられ得る。

[0052]図２の図示の例では、オーディオプリプロセッサ２２は、近接度センサー４０と、ＳＰＭＵ分類器４２と、雑音抑圧ユニット２４と並行して動作する制御ユニット４４とを含む。本開示で説明される技法に従って、これらの追加のモジュールは、入力オーディオデータがデュアルマイクロフォン１８Ａ、１８Ｂによってキャプチャされるコンテキストまたは環境を決定することと、オーディオデータの決定されたコンテキストに基づいて、入力オーディオデータのための雑音抑圧のレベルを設定するために、雑音抑圧ユニット２４の後処理利得ユニット５０を制御することとを行うように構成される。

[0053]このようにして、ソースデバイス１２のオーディオプリプロセッサ２２は、入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、入力オーディオデータは、音声信号と、音楽信号と、雑音信号とを含む、オーディオコンテキストに基づいて、オーディオエンコーダ２０を用いた入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを入力オーディオデータに適用することとを行うように構成され得る。いくつかの場合には、入力オーディオデータの第１の部分はマイクロフォン１８Ａによってキャプチャされ得、入力オーディオデータの第２の部分はマイクロフォン１８Ｂによってキャプチャされ得る。

[0054]近接度センサー４０は、ユーザに対するモバイルフォンの位置を識別する、モバイルフォン内に一般に含まれるハードウェアユニットであり得る。近接度センサー４０は、モバイルフォンがユーザの顔の近くに位置するのかユーザの顔から離れて位置するのかを示す信号を制御ユニット４４に出力し得る。このようにして、近接度センサー４０は、制御ユニット４４が、モバイルフォンがユーザの口に近接して配向されているかどうか、またはデバイスがユーザの口から離れて遠位に配向されているかどうかを決定するのを助け得る。いくつかの例では、モバイルフォンがある角度だけ回転されており、たとえば、ユーザが受話しており、発話していないとき、モバイルフォンのイヤピースはユーザの顔または耳の近くにあり得るが、前面マイクロフォンはユーザの口の近くにないことがある。この場合、モバイルフォンは、ユーザからより遠くに離れているが、ユーザのすぐ前に位置しているにもかかわらず、近接度センサー４０は、モバイルフォンがユーザに近接して配向されていると依然として決定し得る。

[0055]たとえば、近接度センサー４０は、モバイルフォンが、ユーザの顔の近く（たとえば、従来の電話として使用するためにユーザの頬または耳に近い右側）に配置されるときに人間の皮膚の存在を検出するための１つまたは複数の赤外線（ＩＲ）ベースの近接度センサーを含み得る。一般に、モバイルデバイスは、２つの目的のために、すなわち、ディスプレイスクリーンバックライトをオフにすることによって、ディスプレイ電力消費を低減することと、ユーザの頬による不注意による接触を回避するためにタッチスクリーンを無効にすることとを行うためにこの近接度検知を実行する。本開示では、近接度センサー４０は、また別の目的のために、すなわち、雑音抑圧ユニット２４の挙動を制御するために使用され得る。このようにして、近接度センサー４０は、制御ユニット４４が入力オーディオデータのオーディオコンテキストを決定するのを助けるように構成され得る。

[0056]ＳＰＭＵ分類器４２は、ソースデバイス１２のオーディオプリプロセッサ２２によって実行されるソフトウェアモジュールであり得る。このようにして、ＳＰＭＵ分類器４２は、ソースデバイス１２の１つまたは複数のプロセッサに統合される。ＳＰＭＵ分類器４２は、信号を、入力オーディオデータを音声コンテンツまたは音楽コンテンツの一方または両方として分類する制御ユニット４４に出力し得る。たとえば、ＳＰＭＵ分類器４２は、線形弁別、ＳＮＲベースメトリック、またはガウス混合モデリング（ＧＭＭ：Gaussian mixture modelling）のうちの１つまたは複数に基づいて、オーディオデータ分類を実行し得る。ＳＰＭＵ分類器４２は、遅延の増加なしに雑音抑圧ユニット２４に並行して動作され得る。

[0057]ＳＰＭＵ分類器４２は、入力オーディオデータの少なくとも２つの分類出力を与えるように構成され得る。いくつかの例では、ＳＰＭＵ分類器４２は、入力オーディオデータをキャプチャするために使用されるマイクロフォンの数に基づいて、追加の分類出力を与え得る。いくつかの場合には、少なくとも２つの分類出力のうちの１つが音楽であり、少なくとも２つの分類出力のうちの別の１つが音声である。本開示の技法によれば、制御ユニット４４は、少なくとも２つの分類出力のうちの１つが音楽であること基づいて、入力オーディオデータのための１つの利得値を調整するように雑音抑圧ユニット２４を制御し得る。さらに、制御ユニット４４は、少なくとも２つの分類出力のうちの１つが音声であることに基づいて、１つの利得値を調整するように雑音抑圧ユニット２４を制御し得る。

[0058]図２に示されているように、ＳＰＭＵ分類器４２は、１次マイクロフォン１８Ａと２次マイクロフォン１８Ｂとの各々からの入力オーディオデータを別々に分類するように構成され得る。この例では、ＳＰＭＵ分類器４２は、２つの別個のＳＰＭＵ分類器を含み、デュアルマイクロフォン１８Ａ、１８Ｂの各々のための１つを含み得る。いくつかの例では、ＳＰＭＵ分類器４２内の分類器の各々は、入力オーディオデータを、音声コンテンツ（たとえば、値０）、音楽コンテンツ（たとえば、値１）、または音声および音楽コンテンツ（たとえば、値２）として分類するように構成された３レベル分類器を備え得る。他の例では、ＳＰＭＵ分類器４２内の分類器の各々は、ホイッスル、トーンなど、他の特定のタイプの音を含めるためにさらに高い数のレベルを備え得る。

[0059]概して、ＳＰＭＵ分類器は、一般に、ＥＶＳコーデックに従って動作するように構成されたオーディオエンコーダ中に含まれ、たとえば、図１からのオーディオエンコーダ２０のＳＰＭＵ分類器２６である。本開示の技法によれば、入力オーディオデータのコンテキストを、有効な音声コンテキストまたは有効な音楽コンテキストのいずれかとして決定するための制御ユニット４４による使用のために、デュアルマイクロフォン１８Ａ、１８Ｂによってキャプチャされた入力オーディオデータを分類するために、１つまたは複数の追加のＳＰＭＵ分類器、たとえば、ＳＰＭＵ分類器４２が、オーディオプリプロセッサ２２内に含まれる。いくつかの例では、１つまたは複数の追加のＳＰＭＵ分類器をオーディオプリプロセッサ２２内に含める代わりに、ＥＶＳボコーダ内のＳＰＭＵ分類器、たとえば、図１からのオーディオエンコーダ２０のＳＰＭＵ分類器２６が、フィードバックループを介してオーディオプリプロセッサ２２によって使用され得る。

[0060]図２に示されている例では、プリプロセッサ２２中に含まれるＳＰＭＵ分類器４２は、音声−音楽分類器の低複雑度バージョンを備え得る。音声コンテンツ、音楽コンテンツ、または音声および音楽コンテンツの分類を２０ｍｓフレームごとに与え得る、オーディオエンコーダ２０のＳＰＭＵ分類器２６と同様であるが、プリプロセッサ２２のＳＰＭＵ分類器４２は、入力オーディオデータを約２００〜５００ｍｓごとに分類するように構成され得る。このようにして、プリプロセッサ２２のＳＰＭＵ分類器４２は、ＥＶＳエンコーダ内で使用されるＳＭＰＵ分類器、たとえば、図１からのオーディオエンコーダ２０のＳＰＭＵ分類器２６と比較して、低複雑度であり得る。

[0061]制御ユニット４４は、入力オーディオデータのコンテキストを、有効な音声コンテキスト（すなわち、ユーザは、主に、受話者との会話に関与するために音声信号を送信することを意図する）または有効な音楽コンテキスト（すなわち、ユーザは、主に、受話者が経験するために音楽信号、または音楽信号と音声信号の両方を送信することを意図する）のうちの１つとして決定するために、近接度センサー４０とＳＰＭＵ分類器４２の両方からの信号を何らかのヒステリシスと合成し得る。このようにして、制御ユニット４４は、抑圧されるべき環境、背景、または周囲雑音とともにキャプチャされたオーディオデータと、リッチなオーディオシーンを再現するために音楽信号が符号化されて保持されるべきである、有効な音楽コンテキストにおいてキャプチャされたオーディオデータとを区別し得る。制御ユニット４４は、決定されたオーディオコンテキストを雑音抑圧ユニット２４の後処理利得ユニット５０に供給する。このようにして、制御ユニット４４は、ソースデバイス１２の１つまたは複数のプロセッサに統合され、１つまたは複数のプロセッサが入力オーディオデータのオーディオコンテキストを取得するように構成されたとき、入力オーディオデータのオーディオコンテキストを決定するように構成され得る。

[0062]いくつかの例では、制御ユニット４４によって決定されたオーディオコンテキストは、雑音抑圧ユニット２４内で雑音抑圧信号を生成するために使用される、雑音抑圧、たとえば、後処理利得、Ｇ（ｎ，ｆ）のデフォルトレベルのオーバーライドとして働き得る。たとえば、有効な音楽コンテキストが制御ユニット４４によって識別された場合、後処理利得は、雑音抑圧ユニット２４内の変更の中でも、ＳＷＢまたはＦＢ音楽品質を保存するために雑音抑圧のあまりアグレッシブでないレベルを設定するために、修正され得る。１つの例示的な技法は、以下の式に従って、識別されたオーディオコンテキストに基づいて、後処理利得、Ｇ（ｎ，ｆ）を修正することである。

上式では、Ｍ（ｎ）は、制御ユニット４４によって導出され、入力オーディオデータが有効な音楽コンテキストを有すると見なされ得る程度を示す。

[0063]図２の例示的な雑音抑圧構成では、後処理利得は、入力オーディオデータに適用される雑音抑圧のレベルを修正するために変更される主要な係数として説明される。他の例では、高い音楽品質を選好するために適用される雑音抑圧のレベルを修正するために、雑音抑圧において使用されるいくつかの他のパラメータが変更され得る。たとえば、後処理利得、Ｇ（ｎ，ｆ）を修正することに加えて、雑音抑圧ユニット２４内の他の変更が、決定されたオーディオコンテキストに基づいて実行され得る。他の変更は、雑音基準生成ユニット４８、またはボイスアクティビティ検出ユニット、スペクトル差評価ユニット、マスキングユニット、スペクトル平坦度推定ユニット、ボイスアクティビティ検出（ＶＡＤ：voice activity detection）ベース残差雑音抑圧ユニットなどを含む図２に示されていない他の構成要素など、雑音抑圧ユニット２４の様々な構成要素によって使用される、あるしきい値の修正を含み得る。

[0064]制御ユニット４４が、有効な音楽コンテキストにおいて入力オーディオデータがキャプチャされたと決定し、たとえば、音楽信号が１次マイクロフォン１８Ａ中で検出され、モバイルフォンがユーザの顔から離れていると決定した場合、雑音抑圧ユニット２４は、オーディオデータの音楽信号が最小ひずみで雑音抑圧ユニット２４を通って移ることを可能にするために、雑音抑圧のあまりアグレッシブでないレベルを一時的に設定し得る。雑音抑圧ユニット２４は、次いで、制御ユニット４４が、同じく、入力オーディオデータが有効な音声コンテキストを有すると決定し、たとえば、音声信号が１次マイクロフォン１８Ａ中で検出されるかまたはモバイルフォンがユーザの顔に近接していると決定したとき、雑音抑圧のデフォルトアグレッシブレベルにフォールバックし得る。

[0065]いくつかの例では、雑音抑圧ユニット２４は、雑音抑圧のアグレッシブレベルのためのデフォルト雑音抑圧パラメータのセットと、雑音抑圧の１つまたは複数のあまりアグレッシブでないレベルのための雑音抑圧パラメータの他のセットとを記憶し得る。いくつかの例では、雑音抑圧のデフォルトアグレッシブレベルは、ユーザ入力に基づいて、限られた時間期間の間オーバーライドされ得る。この例は、図３に関してより詳細に説明される。

[0066]このようにして、利得適用および平滑化ユニット５４は、入力オーディオデータのオーディオコンテキストが音楽であるとき、入力オーディオデータを１つのレベルによって減衰させ、入力オーディオデータのオーディオコンテキストが音声であるとき、入力オーディオデータを異なるレベルによって減衰させるように構成され得る。一例では、入力オーディオデータのオーディオコンテキストが第１のオーディオフレーム中の音声であるときの入力オーディオデータの減衰の第１のレベルは、入力オーディオデータのオーディオコンテキストが第２のオーディオフレーム中の音楽であるときの入力オーディオデータの減衰の第２のレベルの１５パーセント内であり得る。この例では、第１のフレームは、第２のオーディオフレームの５０個前または後のオーディオフレーム内にあり得る。いくつかの場合には、雑音抑圧ユニット２４は、雑音抑圧器呼ばれることがあり、利得適用および平滑化ユニット５４は雑音抑圧器内の利得調整器と呼ばれることがある。

[0067]第１の例示的な使用事例では、モバイルフォンのユーザは、大きい雑音および音楽がある環境（たとえば、雑音の多いバー、パーティー、または街路上）において通話中に発話していることがある。この場合、近接度センサー４０は、モバイルフォンがユーザの顔の近くに位置していることを検出し、ＳＰＭＵ分類器４２は、１次マイクロフォン１８Ａからの入力オーディオデータが、高レベルの雑音および音楽コンテンツとともに高音声コンテンツを含み、２次マイクロフォン１８Ｂからの入力オーディオデータが、高レベルの雑音および音楽コンテンツと、場合によってはバブル雑音と同様の何らかの音声コンテンツとを有すると決定する。この場合、制御ユニット４４は、入力オーディオデータのコンテキストが有効な音声コンテキストであると決定し、雑音抑圧ユニット２４を、入力オーディオデータへの適用のために雑音抑圧のアグレッシブレベルを設定するように制御し得る。

[0068]第２の例示的な使用事例では、モバイルフォンのユーザは、大きい雑音および音楽がある環境において通話中に受話していることがある。この場合、近接度センサー４０は、モバイルフォンがユーザの顔の近くに位置することを検出し、ＳＰＭＵ分類器４２は、１次マイクロフォン１８Ａからの入力オーディオデータが音声コンテンツのない高い雑音および音楽コンテンツを含み、２次マイクロフォン１８Ｂからの入力オーディオデータが同様のコンテンツを含むと決定する。この場合、入力オーディオデータが音声コンテンツを含まなくても、制御ユニット４４は、入力オーディオデータのコンテキストが有効な音声コンテキストであると決定するために、ユーザの顔に対するモバイルデバイスの近接度を使用し、雑音抑圧ユニット２４を、入力オーディオデータへの適用のために雑音抑圧のアグレッシブレベルを設定するように制御し得る。

[0069]第３の例示的な使用事例では、ユーザは、（たとえば、自宅設定またはコンサートホールにおいて誰かが歌唱（sing）しているかまたは楽器をプレイしていることをキャプチャするために）音楽があり、ほとんどまたはまったく雑音がない環境においてモバイルフォンを空中にまたはユーザの顔から離して保持していることがある。この場合、近接度センサー４０は、モバイルフォンがユーザの顔から離れて位置することを検出し、ＳＰＭＵ分類器４２は、１次マイクロフォン１８Ａからの入力オーディオデータが高音楽コンテンツを含み、２次マイクロフォン１８Ｂからの入力オーディオデータも何らかの音楽コンテンツを含むと決定する。この場合、背景雑音の不在に基づいて、制御ユニット４４は、入力オーディオデータのコンテキストが有効な音楽コンテキストであると決定し、雑音抑圧ユニット２４を、入力オーディオデータへの適用のために雑音抑圧の低レベルまたは雑音抑圧なしを設定するように制御し得る。

[0070]第４の例示的な使用事例では、ユーザは、（たとえば、雑音の多いバー、パーティー、屋外コンサートにおいてプレイされる音楽をキャプチャするために）大きい雑音および音楽がある環境においてモバイルフォンを空中にまたはユーザの顔から離して保持していることがある。この場合、近接度センサー４０は、モバイルフォンがユーザの顔から離れて位置していることを検出し、ＳＰＭＵ分類器４２は、１次マイクロフォン１８Ａからの入力オーディオデータが高レベルの雑音および音楽コンテンツを含み、２次マイクロフォン１８Ｂからの入力オーディオデータが同様のコンテンツを含むと決定する。この場合、背景雑音が存在しても、制御ユニット４４は、入力オーディオデータのコンテキストが有効な音楽コンテキストであると決定するために、入力オーディオデータ中の音声コンテンツの不在と、ユーザの顔から離れているモバイルデバイスの位置とを使用し、雑音抑圧ユニット２４を、入力オーディオデータへの適用のために雑音抑圧の低レベルまたは雑音抑圧なしを設定するように制御し得る。

[0071]第５の例示的な使用事例では、ユーザは、（たとえば、自宅またはプライベートブース設定において歌唱とカラオケ音楽とをキャプチャするために）ほとんどまたはまったく雑音がない環境において誰かが音楽に合わせて歌唱していることを録音していることがある。この場合、近接度センサー４０は、モバイルフォンがユーザの顔から離れて位置していることを検出し、ＳＰＭＵ分類器４２は、１次マイクロフォン１８Ａからの入力オーディオデータが高音楽コンテンツを含み、２次マイクロフォン１８Ｂからの入力オーディオデータが何らかの音楽コンテンツを含むと決定する。この場合、制御ユニット４４は、入力オーディオデータのコンテキストが有効な音楽コンテキストであると決定し、雑音抑圧ユニット２４を、入力オーディオデータへの適用のために雑音抑圧の低レベルまたは雑音抑圧なしを設定するように制御し得る。図３に関してより詳細に説明される、ある例では、制御ユニット４４は、制御ユニット４４によって実行されるオーディオコンテキスト決定をさらに改善するために、追加の入力信号をカラオケ機械から直接受信し得る。

[0072]第６の例示的な使用事例では、ユーザは、（たとえば、パーティーまたはバー設定において歌唱とカラオケ音楽とをキャプチャするために）大きい雑音がある環境において誰かが音楽に合わせて歌唱していることを録音していることがある。この場合、近接度センサー４０は、モバイルフォンがユーザの顔から離れて位置することを検出し、ＳＰＭＵ分類器４２は、１次マイクロフォン１８Ａからの入力オーディオデータが高い雑音および音楽コンテンツを含み、２次マイクロフォン１８Ｂからの入力オーディオデータが同様のコンテンツを含むと決定する。この場合、背景雑音が存在しても、制御ユニット４４は、入力オーディオデータのコンテキストが有効な音楽コンテキストであると決定するために、入力オーディオデータ中の音声コンテンツの不在、ユーザの顔から離れているモバイルデバイスの位置、カラオケ機械によって与えられる制御信号、またはユーザによって身につけられたウェアラブルデバイスによって与えられる制御信号など、複数のインジケータの組合せを使用し、入力オーディオデータへの適用のために雑音抑圧の低レベルまたは雑音抑圧なしを設定するように雑音抑圧ユニット２４を制御し得る。

[0073]概して、本開示の技法によれば、制御ユニット４４は、入力オーディオデータのコンテキストが有効な音楽コンテキストであると決定するとき、入力オーディオデータ中に含まれる音楽信号の品質を保持するためにより好都合である雑音抑圧のレベルが、入力オーディオデータに適用される。逆に、制御ユニット４４が、入力オーディオデータのコンテキストが有効な音声コンテキストであると決定するとき、（音楽を含む）背景雑音を大きく抑圧するために、雑音抑圧のデフォルトアグレッシブレベルが入力オーディオデータに適用される。

[0074]一例として、ｄＢ単位の雑音抑圧の異なるレベルは、次のようにマッピングされ得、すなわち、雑音抑圧のアグレッシブまたは高レベルは約１５ｄＢよりも大きくなり得、雑音抑圧の中間レベルは約１０ｄＢから約１５ｄＢに及び得、雑音抑圧の低レベルは雑音抑圧なし（すなわち、０ｄＢ）から約１０ｄＢに及び得る。与えられた値は例にすぎず、限定するものと解釈されるべきではないことに留意されたい。

[0075]図３は、本開示で説明される技法を実装し得るソースデバイス１２のオーディオプリプロセッサ２２の代替例を示すブロック図である。図３の例では、オーディオプリプロセッサ２２は、雑音抑圧ユニット２４と、近接度センサー４０と、ＳＰＭＵ分類器４２と、ユーザオーバーライド信号検出器６０と、カラオケ機械信号検出器６２と、センサー信号検出器６４と、制御ユニット６６とを含む。雑音抑圧ユニット２４は、図２に関して上記で説明されたように動作し得る。制御ユニット６６は、図２からの制御ユニット４４と実質的に同様に動作し得るが、マイクロフォン１８から受信されたオーディオデータのコンテキストを決定するために、１つまたは複数の外部デバイスから検出された追加の信号を分析し得る。

[0076]図３に示されているように、制御ユニット４４は、近接度センサー４０、ＳＰＭＵ分類器４２、ユーザオーバーライド信号検出器６０、カラオケ機械信号検出器６２、およびセンサー信号検出器６４のうちの１つまたは複数から入力を受信する。ユーザオーバーライド信号検出器６０は、ソースデバイス１２における雑音抑圧のためのユーザオーバーライドの選択を検出し得る。たとえば、ソースデバイス１２のユーザは、マイクロフォン１８によってキャプチャされるオーディオデータのコンテキストが有効な音楽コンテキストであることに気づいていることがあり、雑音抑圧のデフォルトレベルをオーバーライドするようにソースデバイス１２における設定を選択し得る。雑音抑圧のデフォルトレベルは、有効な音声コンテキストに適した雑音抑圧のアグレッシブレベルであり得る。オーバーライド設定を選択することによって、ユーザは、キャプチャされたオーディオデータに雑音抑圧のあまりアグレッシブでないレベルまたは雑音抑圧なしが雑音抑圧ユニット２４によって適用されることを詳細に要求し得る。

[0077]検出されたユーザオーバーライド信号に基づいて、制御ユニット６６は、マイクロフォン１８によって現在キャプチャされたオーディオデータが有効な音楽コンテキストを有すると決定し、雑音抑圧ユニット２４を、オーディオデータのために雑音抑圧のより低いレベルを設定するように制御し得る。いくつかの例では、オーバーライド設定は、雑音抑圧ユニット２４が雑音抑圧のデフォルトレベル、すなわち、雑音抑圧のアグレッシブレベルに戻るように、所定の時間期間内に自動的に満了するように設定され得る。このオーバーライドタイムアウトがなければ、ユーザは、オーバーライド設定を無効にするかまたは選択解除することを怠り得る。この場合、雑音抑圧ユニット２４は、あまりアグレッシブでない雑音抑圧または雑音抑圧なしをすべての受信されたオーディオ信号に適用し続け得、それは、雑音の多い環境においてキャプチャされるときの劣化したまたは低品質音声信号を生じ得る。

[0078]カラオケ機械信号検出器６２は、ソースデバイス１２と通信している外部カラオケ機械からの信号を検出し得る。検出された信号は、ソースデバイス１２のマイクロフォン１８がユーザによるボーカル歌唱を録音している間、カラオケ機械が音楽をプレイしていることを示し得る。カラオケ機械信号検出器６２によって検出された信号は、雑音抑圧のデフォルトレベル、すなわち、雑音抑圧のアグレッシブレベルをオーバーライドするために使用され得る。検出されたカラオケ機械信号に基づいて、制御ユニット６６は、マイクロフォン１８によって現在キャプチャされたオーディオデータが有効な音楽コンテキストを有すると決定し、雑音抑圧ユニット２４を、ユーザのボーカル歌唱を録音するためにソースデバイス１２が使用されている間、音楽ひずみを回避するためにオーディオデータのために雑音抑圧のより低いレベルを設定するように制御し得る。

[0079]カラオケは、有効な音楽コンテキストの一般的な例であり、そこにおいて、カラオケ機械によってプレイされる音楽とユーザによるボーカル歌唱が両方とも、ひずみなしに友人間で共有するために、後のプレイバックまたは送信のために受信機エンドデバイス、たとえば、図１からの宛先デバイス１４に録音される必要がある。しかしながら、従来、モバイルフォンなど、ワイヤレス通信デバイスを使用して、ボーカル署名とともにカラオケ音楽の高品質録音を共有することは、適応マルチレート（ＡＭＲ）または適応マルチレート広帯域（ＡＭＲＷＢ）などの旧来の音声コーデックにおける制限により、可能でなかった。本開示の技法によれば、オーディオエンコーダ２０のためのＥＶＳコーデックの使用および（たとえば、カラオケ機械から検出された直接オーバーライド信号の結果としての）制御ユニット６６による有効な音楽コンテキストの決定、モバイルフォン上でのユーザのカラオケ共有エクスペリエンスが、大幅に改善され得る。

[0080]さらに、センサー信号検出器６４は、ソースデバイス１２と通信しているウェアラブルデバイスなど、１つまたは複数の外部センサーから信号を検出し得る。一例として、ウェアラブルデバイスは、スマートウォッチ、スマートネックレス、フィットネストラッカーなど、ユーザによってユーザの身体上に身につけられたデバイスであり得、検出された信号は、ユーザが踊っていることを示し得る。近接度センサー４０およびＳＰＭＵ分類器４２の一方または両方からの入力とともに、検出されたユーザオーバーライド信号に基づいて、制御ユニット６６は、マイクロフォン１８によって現在キャプチャされたオーディオデータが有効な音楽コンテキストを有すると決定し、雑音抑圧ユニット２４をオーディオデータのために雑音抑圧のより低いレベルを設定するように制御し得る。他の例では、センサー信号検出器６４は、他の外部センサーからの信号を検出し得るか、または、制御ユニット６６は、制御ユニット６６によって実行されるオーディオコンテキスト決定をさらに改善するために、追加の検出器から入力を受信し得る。

[0081]図４は、本開示で説明される技法に従って、適応雑音抑圧を実行するように構成されたオーディオプリプロセッサの例示的な動作を示すフローチャートである。図４の例示的な動作は、図１および図２からのソースデバイス１２のオーディオプリプロセッサ２２関して説明される。この例では、ソースデバイス１２は、モバイルフォンであるものとして説明される。

[0082]開示される技法によれば、ボイスおよびデータ通信において使用される動作は、ソースデバイスのユーザと宛先デバイスのユーザとの間の会話中に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、ソースデバイスのユーザからの入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、音楽がソースデバイスのユーザの背景でプレイしており、ここにおいて、入力オーディオデータが、ソースデバイスのユーザのボイスと、ソースデバイスのユーザの背景でプレイしている音楽とを含む、オーディオコンテキストが、音声または音楽、あるいは音声と音楽の両方であるオーディオコンテキストを含むことに基づいて、オーディオエンコーダを用いた入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを入力オーディオデータに適用することと、少なくとも１つのオーディオエンコーダパケットを生成するために、入力オーディオデータを帯域幅圧縮することと、少なくとも１つのオーディオエンコーダパケットをソースデバイスから宛先デバイスにオーバージエアで送信することとを備える。ボイスおよびデータ通信において使用される動作の個々のステップが、以下でより詳細に説明される。

[0083]オーディオプリプロセッサ２２は、マイクロフォン１８から、音声信号と、音楽信号と、雑音信号とを含むオーディオデータを受信する（７０）。上記で説明されたように、マイクロフォン１８はデュアルマイクロフォンを含み得、１次マイクロフォン１８Ａが、ユーザの口に近いモバイルフォンの前面上に位置する「前面」マイクロフォンであり、２次マイクロフォン１８Ｂが、モバイルフォンの裏面に位置する「背面」マイクロフォンである。

[0084]オーディオプリプロセッサ２２のＳＰＭＵ分類器４２は、受信されたオーディオデータを、音声コンテンツ、音楽コンテンツ、または音声コンテンツと音楽コンテンツの両方として分類する（７２）。上記で説明されたように、ＳＰＭＵ分類器４２は、線形弁別、ＳＮＲベースメトリック、またはガウス混合モデリング（ＧＭＭ）のうちの１つまたは複数に基づいて、信号分類を実行し得る。たとえば、ＳＰＭＵ分類器４２は、第１のマイクロフォン１８Ａによってキャプチャされたオーディオデータを、音声コンテンツ、音楽コンテンツ、または音声コンテンツと音楽コンテンツの両方として分類し、１次マイクロフォン１８Ａのためのオーディオデータ分類を制御ユニット４４に供給し得る。さらに、ＳＰＭＵ分類器４２は、第２のマイクロフォン１８Ｂによってキャプチャされたオーディオデータをも、音声コンテンツ、音楽コンテンツ、または音声コンテンツと音楽コンテンツの両方として分類し、２次マイクロフォン１８Ｂのためのオーディオデータ分類を制御ユニット４４に供給し得る。

[0085]近接度センサー４０は、モバイルフォンのユーザに対するモバイルフォンの位置を検出する（７４）。上記で説明されたように、近接度センサー４０は、モバイルフォンがユーザの顔の近くに保持されているのかユーザの顔から離れて保持されているのかを検出し得る。従来、モバイルデバイス内の近接度センサー４０は、一般に、旧来のフォンとしての使用中にユーザの頬による不注意によるアクティブ化を回避するために、モバイルデバイスのタッチスクリーンをいつ無効にすべきかを決定するために使用され得る。本開示の技法によれば、近接度センサー４０は、モバイルフォンが、旧来のフォンとしての使用中にユーザの音声をキャプチャするためにユーザの顔の近くに保持されているかどうか、またはモバイルフォンが、スピーカーフォンとしての使用中に複数の人々からの音楽または音声をキャプチャするためにユーザの顔から離れて保持されているかどうかを検出し得る。

[0086]オーディオプリプロセッサ２２の制御ユニット４４は、分類されたオーディオデータとモバイルフォンの位置とに基づいて、オーディオデータのコンテキストを有効な音声コンテキストまたは有効な音楽コンテキストのいずれかとして決定する（７６）。概して、１次マイクロフォン１８Ａによってキャプチャされるコンテンツのタイプとモバイルフォンの位置とが、ユーザが、主に、受信機側デバイス、たとえば、図１からの相手先デバイス１４における受話者に音声信号を送信することを意図するのか音楽信号を送信することを意図するのかを示し得る。たとえば、制御ユニット４４は、１次マイクロフォン１８Ａによってキャプチャされたオーディオデータが音声コンテンツとしてＳＰＭＵ分類器４２によって分類されること、またはモバイルフォンがユーザの顔に近接して位置していると近接度センサー４０によって検出されることのうちの少なくとも１つに基づいて、キャプチャされたオーディオデータのコンテキストが有効な音声コンテキストであると決定し得る。別の例として、制御ユニット４４は、１次マイクロフォン１８Ａによってキャプチャされたオーディオデータが音楽コンテンツとしてＳＰＭＵ分類器４２によって分類されることと、モバイルフォンがユーザの顔から離れて位置していると近接度センサー４０によって検出されることとに基づいて、キャプチャされたオーディオデータのコンテキストが有効な音楽コンテキストであると決定し得る。

[0087]このようにして、オーディオプリプロセッサ２２は、音楽がソースデバイス１２のユーザの背景でプレイしている、ソースデバイス１２のユーザと宛先デバイス１４のユーザとの間の会話中に、入力オーディオデータのオーディオコンテキストを取得する。オーディオプリプロセッサ２２は、ソースデバイス１２のユーザからの入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、オーディオコンテキストを取得する。入力オーディオデータは、ソースデバイス１２のユーザのボイスと、ソースデバイス１２のユーザの背景でプレイしている音楽との両方を含む。いくつかの場合には、ソースデバイス１２のユーザの背景でプレイしている音楽は、カラオケ機械から来る。

[0088]いくつかの例では、オーディオプリプロセッサ２２は、ＳＰＭＵ分類器４２が入力オーディオデータを音声、音楽、または音声と音楽の両方として分類することに基づいて、入力オーディオデータのオーディオコンテキストを取得する。ＳＰＭＵ分類器４２は、音楽が音声とともに存在する時間の少なくとも８０パーセントで、入力オーディオデータを音楽として分類し得る。他の例では、オーディオプリプロセッサ２２は、近接度センサー４０が、ソースデバイスの位置に基づいてソースデバイス１２がソースデバイス１２のユーザの口に近接しているのかソースデバイス１２のユーザの口から遠位に離れているのかを決定することに基づいて、入力オーディオデータのオーディオコンテキストを取得する。一例では、プリプロセッサ２２は、ソースデバイス１２のユーザがスマートウォッチまたは他のウェアラブルデバイスを身につけていることに基づいて、オーディオコンテキストを取得する。

[0089]制御ユニット４４は、キャプチャされたオーディオデータの決定されたオーディオコンテキストをオーディオプリプロセッサ２２の雑音抑圧ユニット２４に供給する。雑音抑圧ユニット２４は、次いで、オーディオデータの決定されたオーディオコンテキストに基づいて、キャプチャされたオーディオデータのための雑音抑圧のレベルを設定する（７８）。上記で説明されたように、雑音抑圧ユニット２４は、オーディオデータの決定されたコンテキストに基づいて、利得値を修正することによって、キャプチャされたオーディオデータのための雑音抑圧のレベルを設定し得る。より詳細には、雑音抑圧ユニット２４は、オーディオデータのための雑音抑圧のレベルを低減するために、オーディオデータのコンテキストが有効な音楽コンテキストであることに基づいて、後処理利得値を増加させ得る。

[0090]オーディオデータのコンテキストが有効な音声コンテキストである場合、雑音抑圧ユニット２４は、（音楽信号を含む）雑音信号を抑圧し、オーディオデータ中の音声信号をクリーンアップするために、比較的アグレッシブである雑音抑圧の第１のレベルを設定し得る。オーディオデータのコンテキストが有効な音楽コンテキストである場合、雑音抑圧ユニット２４は、オーディオデータ中の音楽信号を無ひずみのままにするために、あまりアグレッシブでない雑音抑圧の第２のレベルを設定し得る。上記の例では、雑音抑圧の第２のレベルは、雑音抑圧の第１のレベルよりも低い。たとえば、雑音抑圧の第２のレベルは、雑音抑圧の第１のレベルよりも少なくとも５０パーセント低くなり得る。より詳細には、いくつかの例では、雑音抑圧のアグレッシブまたは高レベルは約１５ｄＢよりも大きくなり得、雑音抑圧の中間レベルは約１０ｄＢから約１５ｄＢに及び得、雑音抑圧の低レベルは雑音抑圧なし（すなわち、０ｄＢ）から約１０ｄＢに及び得る。

[0091]雑音抑圧ユニット２４は、次いで、帯域幅圧縮または符号化のためにオーディオデータをＥＶＳボコーダに送るより前に、雑音抑圧のレベルをオーディオデータに適用する（８０）。たとえば、図１からのオーディオエンコーダ２０は、音声信号と音楽信号の両方を適切に符号化することが可能であるＥＶＳコーデックに従って動作するように構成され得る。したがって、本開示の技法は、ＳＷＢ音楽信号に対する最小ひずみで受信機側デバイス、たとえば、図１からの宛先デバイス１４におけるキャプチャされたオーディオシーンの完全な高品質再現を可能にする。

[0092]このようにして、オーディオプリプロセッサ２２は、オーディオコンテキストが、音声または音楽、あるいは音声と音楽の両方であるオーディオコンテキストを含むことに基づいて、オーディオエンコーダ２０による入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを入力オーディオデータに適用する。オーディオエンコーダ２０は、次いで、少なくとも１つのオーディオエンコーダパケットを生成するために、入力オーディオデータを帯域幅圧縮し、ソースデバイス１２は、少なくとも１つのオーディオエンコーダパケットをソースデバイス１２から宛先デバイス１４にオーバージエアで送信する。

[0093]いくつかの例では、オーディオプリプロセッサ２２は、入力オーディオデータのオーディオコンテキストが音楽であるとき、入力オーディオデータの１つの減衰レベルがあり、入力オーディオデータのオーディオコンテキストが音声であるとき、入力オーディオデータの異なる減衰レベルがあるように、雑音抑圧利得を調整する。ある場合には、１つの減衰レベルと異なる減衰レベルとが両方とも同じ値を有する。その場合、ソースデバイス１２のユーザの背景でプレイしている音楽が、ソースデバイス１２のユーザのボイスと同じ減衰レベルで雑音抑圧ユニット２４を通って移る。

[0094]ソースデバイス１２のユーザが、ソースデバイス１２のユーザの背景でプレイしている音楽よりも少なくとも３ｄＢ大きく発話しているとき、入力オーディオデータの減衰の第１のレベルが適用され得、ソースデバイス１２のユーザの背景でプレイしている音楽が、ソースデバイス１２のユーザの発話よりも少なくとも３ｄＢ大きいとき、入力オーディオデータの減衰の第２のレベルが適用され得る。ソースデバイス１２のユーザのボイスとソースデバイス１２のユーザの背景で同時にプレイしている音楽との入力オーディオデータの帯域幅圧縮が、入力オーディオデータへの雑音抑圧の適用より前に入力オーディオデータのオーディオコンテキストを取得することなしのソースデバイス１２のユーザのボイスとソースデバイス１２のユーザの背景で同時にプレイしている音楽との入力オーディオデータの帯域幅圧縮と比較して、背景でプレイしている音楽の少なくとも３０％少ないひずみを与え得る。

[0095]本開示全体にわたる「および／または」という用語の使用は、いずれか一方または両方を指すと理解されたい。言い換えれば、Ａおよび／またはＢは、（ＡおよびＢ）または（ＡまたはＢ）のいずれかを与えることを理解されたい。

[0096]１つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、１つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含むデータ記憶媒体または通信媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。このようにして、コンピュータ可読媒体は、概して、（１）非一時的である有形コンピュータ可読記憶媒体、あるいは（２）信号または搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明された技法の実装のための命令、コード、またはデータ構造を取り出すために、１つまたは複数のコンピュータまたは１つまたは複数のプロセッサによってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータプログラム製品はコンピュータ可読媒体を含み得る。

[0097]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージ、または他の磁気ストレージデバイス、フラッシュメモリ、あるいは命令またはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は媒体の定義に含まれる。ただし、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まないが、代わりに非一時的有形記憶媒体を対象とすることを理解されたい。本明細書で使用されるディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピーディスク（disk）およびＢｌｕ−ｒａｙディスク（disc）を含み、ここで、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[0098]命令は、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブル論理アレイ（ＦＰＧＡ）、あるいは他の等価な集積回路またはディスクリート論理回路など、１つまたは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、上記の構造、または本明細書で説明された技法の実装に好適な他の構造のいずれかを指すことがある。さらに、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成された専用ハードウェアモジュールまたはソフトウェアモジュール内に与えられるか、あるいは複合コーデックに組み込まれ得る。また、本技法は、１つまたは複数の回路または論理要素で十分に実装され得る。

[0099]本開示の技法は、ワイヤレス通信デバイス、ワイヤレスハンドセット、モバイルフォン、集積回路（ＩＣ）またはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置で実装され得る。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために、様々な構成要素、モジュール、またはユニットが説明されたが、それらの構成要素、モジュール、またはユニットは、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上記で説明されたように、様々なユニットが、好適なソフトウェアまたはファームウェアとともに、上記で説明された１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作可能なハードウェアユニットの集合によって与えられ得る。

[0100]本発明の様々な実施形態が説明された。これらおよび他の実施形態は以下の特許請求の範囲内に入る。

[0100]本発明の様々な実施形態が説明された。これらおよび他の実施形態は以下の特許請求の範囲内に入る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
ボイスおよびデータ通信を与えるように構成されたデバイスであって、前記デバイスが、
入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、前記入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、前記入力オーディオデータが、音声信号と、音楽信号と、雑音信号とを含む、
前記オーディオコンテキストに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の前記可変レベルを前記入力オーディオデータに適用することと、
少なくとも１つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮することと
を行うように構成された１つまたは複数のプロセッサと、
前記少なくとも１つのオーディオエンコーダパケットを記憶するように構成された、前記１つまたは複数のプロセッサに電気的に結合された、メモリと、
前記少なくとも１つのオーディオエンコーダパケットを送信するように構成された送信機と
を備える、デバイス。
［Ｃ２］
前記入力オーディオデータをキャプチャするように構成されたマイクロフォンアレイをさらに備える、Ｃ１に記載のデバイス。
［Ｃ３］
雑音抑圧の前記可変レベルを適用するように構成された前記１つまたは複数のプロセッサが、前記デバイスの雑音抑圧器内に利得調整器を含み、ここにおいて、前記１つまたは複数のプロセッサは、
前記入力オーディオデータの前記オーディオコンテキストが音楽であるとき、前記入力オーディオデータを１つのレベルによって減衰させることと、
前記入力オーディオデータの前記オーディオコンテキストが音声であるとき、前記入力オーディオデータを異なるレベルによって減衰させることと
を行うように構成された、Ｃ１に記載のデバイス。
［Ｃ４］
前記入力オーディオデータの前記オーディオコンテキストが第１のオーディオフレーム中の音声であるときの前記入力オーディオデータの減衰の第１のレベルは、前記入力オーディオデータの前記オーディオコンテキストが第２のオーディオフレーム中の音楽であるときの前記入力オーディオデータの減衰の第２のレベルの１５パーセント内である、Ｃ３に記載のデバイス。
［Ｃ５］
前記第１のフレームが、前記第２のオーディオフレームの５０個前または後のオーディオフレーム内にある、Ｃ４に記載のデバイス。
［Ｃ６］
前記入力オーディオデータの少なくとも２つの分類出力を与えるように構成された分類器をさらに備える、Ｃ１に記載のデバイス。
［Ｃ７］
前記分類器が前記１つまたは複数のプロセッサに統合された、Ｃ６に記載のデバイス。
［Ｃ８］
前記少なくとも２つの分類出力のうちの１つが音楽であり、前記少なくとも２つの分類出力のうちの別の１つが音声である、Ｃ６に記載のデバイス。
［Ｃ９］
雑音抑圧の前記可変レベルを適用するように構成された前記１つまたは複数のプロセッサは、前記少なくとも２つの分類出力のうちの前記１つが音楽であることに基づいて、前記デバイスの雑音抑圧器中の１つの利得値を調整するようにさらに構成された、Ｃ８に記載のデバイス。
［Ｃ１０］
雑音抑圧の前記可変レベルを適用するように構成された前記１つまたは複数のプロセッサは、前記少なくとも２つの分類出力のうちの前記１つが音声であることに基づいて、前記デバイスの雑音抑圧器中の１つの利得値を調整するようにさらに構成された、Ｃ８に記載のデバイス。
［Ｃ１１］
前記１つまたは複数のプロセッサが前記入力オーディオデータの前記オーディオコンテキストを取得するように構成されたとき、前記入力オーディオデータの前記オーディオコンテキストを決定するように構成された、前記１つまたは複数の前記プロセッサに統合された制御ユニットをさらに備える、Ｃ１に記載のデバイス。
［Ｃ１２］
前記制御ユニットが前記入力オーディオデータの前記オーディオコンテキストを決定するのを助けるように構成された、近接度センサーをさらに備える、Ｃ１１に記載のデバイス。
［Ｃ１３］
前記近接度センサーは、前記制御ユニットが、前記デバイスが前記デバイスのユーザの口に近接して配向されているかどうか、または前記デバイスが前記デバイスの前記ユーザの前記口から離れて遠位に配向されているかどうかを決定するのを助けるように構成された、Ｃ１２に記載のデバイス。
［Ｃ１４］
宛先デバイスからの前記少なくとも１つのオーディオエンコーダパケットを復号するように構成されたオーディオデコーダの出力をレンダリングするように構成された、少なくとも１つのスピーカーをさらに備える、Ｃ１に記載のデバイス。
［Ｃ１５］
雑音抑圧を実行するように構成された装置であって、
入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、前記入力オーディオデータのオーディオコンテキストを取得するための手段と、ここにおいて、前記入力オーディオデータが、音声信号と、音楽信号と、雑音信号とを含む、
前記オーディオコンテキストに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを前記入力オーディオデータに適用するための手段と、
少なくとも１つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮するための手段と、
前記少なくとも１つのオーディオエンコーダパケットを送信するための手段と
を備える装置。
［Ｃ１６］
前記装置が、
第１のマイクロフォンからの前記入力オーディオデータの第１の部分をキャプチャするための手段と、第２のマイクロフォンからの前記入力オーディオデータの第２の部分をキャプチャするための手段とに基づいて、前記入力オーディオデータの前記オーディオコンテキストを決定するための手段
をさらに備える、Ｃ１５に記載の装置。
［Ｃ１７］
前記装置が、
雑音抑圧の前記可変レベルを前記入力オーディオデータに適用するための前記手段のためにユーザオーバーライド信号を取得するための手段
をさらに備える、Ｃ１６に記載の装置。
［Ｃ１８］
前記装置は、
異なる装置と通信するための手段をさらに備え、ここにおいて、前記異なる装置がウェアラブルデバイスまたはカラオケ機械である、
Ｃ１５に記載の装置。
［Ｃ１９］
ボイスおよびデータ通信において使用される方法であって、
ソースデバイスのユーザと宛先デバイスのユーザとの間の会話中に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、前記ソースデバイスの前記ユーザからの前記入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、音楽が前記ソースデバイスの前記ユーザの背景でプレイしており、ここにおいて、前記入力オーディオデータが、前記ソースデバイスの前記ユーザのボイスと、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽とを含む、
前記オーディオコンテキストが、音声または音楽、あるいは音声と音楽の両方である前記オーディオコンテキストを含むことに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを前記入力オーディオデータに適用することと、
少なくとも１つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮することと、
前記少なくとも１つのオーディオエンコーダパケットを前記ソースデバイスから前記宛先デバイスに送信することと
を備える方法。
［Ｃ２０］
雑音抑圧の前記可変レベルを適用することは、前記入力オーディオデータの前記オーディオコンテキストが音楽であるとき、前記入力オーディオデータの１つの減衰レベルがあり、前記入力オーディオデータの前記オーディオコンテキストが音声であるとき、前記入力オーディオデータの異なる減衰レベルがあるように、雑音抑圧利得を調整することを含む、Ｃ１９に記載の方法。
［Ｃ２１］
前記１つの減衰レベルと前記異なる減衰レベルとが両方とも同じ値を有する、Ｃ２０に記載の方法。
［Ｃ２２］
前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、前記ソースデバイスの前記ユーザの前記ボイスと同じ減衰レベルで雑音抑圧器を通って移る、Ｃ２１に記載の方法。
［Ｃ２３］
前記ソースデバイスの前記ユーザが、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽よりも少なくとも３ｄＢ大きく発話しているとき、前記入力オーディオデータの減衰の第１のレベルが適用され、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、前記前記ソースデバイスの前記ユーザの前記発話よりも少なくとも３ｄＢ大きいとき、前記入力オーディオデータの減衰の第２のレベルが適用される、Ｃ１９に記載の方法。
［Ｃ２４］
前記ソースデバイスの前記ユーザの前記ボイスと前記ソースデバイスの前記ユーザの前記背景で同時にプレイしている前記音楽との前記入力オーディオデータの帯域幅圧縮が、前記入力オーディオデータへの雑音抑圧の適用より前に前記入力オーディオデータの前記オーディオコンテキストを取得することなしの前記ソースデバイスの前記ユーザの前記ボイスと前記ソースデバイスの前記ユーザの前記背景で同時にプレイしている前記音楽との前記入力オーディオデータの帯域幅圧縮と比較して、前記背景でプレイしている前記音楽の少なくとも３０％少ないひずみを与える、Ｃ１９に記載の方法。
［Ｃ２５］
前記入力オーディオデータの前記オーディオコンテキストを取得することが、前記入力オーディオデータを音声、音楽、または音声と音楽の両方として分類することに基づく、Ｃ１９に記載の方法。
［Ｃ２６］
音楽が音声とともに存在する時間の少なくとも８０パーセントで、前記入力オーディオデータを音楽として分類することをさらに備える、Ｃ２５に記載の方法。
［Ｃ２７］
前記ソースデバイスが、前記ソースデバイスの前記ユーザの口に近接しているのか前記ソースデバイスの前記ユーザの口から遠位に離れているのかを決定することをさらに備える、Ｃ１９に記載の方法。
［Ｃ２８］
前記オーディオコンテキストを前記取得することが、前記ソースデバイスの前記ユーザが時計を身につけていることに基づく、Ｃ１９に記載の方法。
［Ｃ２９］
前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、カラオケ機械から来る、Ｃ１９に記載の方法。

Claims

ボイスおよびデータ通信を与えるように構成されたデバイスであって、前記デバイスが、
入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、前記入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、前記入力オーディオデータが、音声信号と、音楽信号と、雑音信号とを含む、
前記オーディオコンテキストに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の前記可変レベルを前記入力オーディオデータに適用することと、
少なくとも１つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮することと
を行うように構成された１つまたは複数のプロセッサと、
前記少なくとも１つのオーディオエンコーダパケットを記憶するように構成された、前記１つまたは複数のプロセッサに電気的に結合された、メモリと、
前記少なくとも１つのオーディオエンコーダパケットを送信するように構成された送信機と
を備える、デバイス。
前記入力オーディオデータをキャプチャするように構成されたマイクロフォンアレイをさらに備える、請求項１に記載のデバイス。
雑音抑圧の前記可変レベルを適用するように構成された前記１つまたは複数のプロセッサが、前記デバイスの雑音抑圧器内に利得調整器を含み、ここにおいて、前記１つまたは複数のプロセッサは、
前記入力オーディオデータの前記オーディオコンテキストが音楽であるとき、前記入力オーディオデータを１つのレベルによって減衰させることと、
前記入力オーディオデータの前記オーディオコンテキストが音声であるとき、前記入力オーディオデータを異なるレベルによって減衰させることと
を行うように構成された、請求項１に記載のデバイス。
前記入力オーディオデータの前記オーディオコンテキストが第１のオーディオフレーム中の音声であるときの前記入力オーディオデータの減衰の第１のレベルは、前記入力オーディオデータの前記オーディオコンテキストが第２のオーディオフレーム中の音楽であるときの前記入力オーディオデータの減衰の第２のレベルの１５パーセント内である、請求項３に記載のデバイス。
前記第１のフレームが、前記第２のオーディオフレームの５０個前または後のオーディオフレーム内にある、請求項４に記載のデバイス。
前記入力オーディオデータの少なくとも２つの分類出力を与えるように構成された分類器をさらに備える、請求項１に記載のデバイス。
前記分類器が前記１つまたは複数のプロセッサに統合された、請求項６に記載のデバイス。
前記少なくとも２つの分類出力のうちの１つが音楽であり、前記少なくとも２つの分類出力のうちの別の１つが音声である、請求項６に記載のデバイス。
雑音抑圧の前記可変レベルを適用するように構成された前記１つまたは複数のプロセッサは、前記少なくとも２つの分類出力のうちの前記１つが音楽であることに基づいて、前記デバイスの雑音抑圧器中の１つの利得値を調整するようにさらに構成された、請求項８に記載のデバイス。
雑音抑圧の前記可変レベルを適用するように構成された前記１つまたは複数のプロセッサは、前記少なくとも２つの分類出力のうちの前記１つが音声であることに基づいて、前記デバイスの雑音抑圧器中の１つの利得値を調整するようにさらに構成された、請求項８に記載のデバイス。
前記１つまたは複数のプロセッサが前記入力オーディオデータの前記オーディオコンテキストを取得するように構成されたとき、前記入力オーディオデータの前記オーディオコンテキストを決定するように構成された、前記１つまたは複数の前記プロセッサに統合された制御ユニットをさらに備える、請求項１に記載のデバイス。
前記制御ユニットが前記入力オーディオデータの前記オーディオコンテキストを決定するのを助けるように構成された、近接度センサーをさらに備える、請求項１１に記載のデバイス。
前記近接度センサーは、前記制御ユニットが、前記デバイスが前記デバイスのユーザの口に近接して配向されているかどうか、または前記デバイスが前記デバイスの前記ユーザの前記口から離れて遠位に配向されているかどうかを決定するのを助けるように構成された、請求項１２に記載のデバイス。
宛先デバイスからの前記少なくとも１つのオーディオエンコーダパケットを復号するように構成されたオーディオデコーダの出力をレンダリングするように構成された、少なくとも１つのスピーカーをさらに備える、請求項１に記載のデバイス。
雑音抑圧を実行するように構成された装置であって、
入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、前記入力オーディオデータのオーディオコンテキストを取得するための手段と、ここにおいて、前記入力オーディオデータが、音声信号と、音楽信号と、雑音信号とを含む、
前記オーディオコンテキストに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを前記入力オーディオデータに適用するための手段と、
少なくとも１つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮するための手段と、
前記少なくとも１つのオーディオエンコーダパケットを送信するための手段と
を備える装置。
前記装置が、
第１のマイクロフォンからの前記入力オーディオデータの第１の部分をキャプチャするための手段と、第２のマイクロフォンからの前記入力オーディオデータの第２の部分をキャプチャするための手段とに基づいて、前記入力オーディオデータの前記オーディオコンテキストを決定するための手段
をさらに備える、請求項１５に記載の装置。
前記装置が、
雑音抑圧の前記可変レベルを前記入力オーディオデータに適用するための前記手段のためにユーザオーバーライド信号を取得するための手段
をさらに備える、請求項１６に記載の装置。
前記装置は、
異なる装置と通信するための手段をさらに備え、ここにおいて、前記異なる装置がウェアラブルデバイスまたはカラオケ機械である、
請求項１５に記載の装置。
ボイスおよびデータ通信において使用される方法であって、
ソースデバイスのユーザと宛先デバイスのユーザとの間の会話中に、入力オーディオデータのオーディオコンテキストを取得することと、ここにおいて、前記ソースデバイスの前記ユーザからの前記入力オーディオデータへの雑音抑圧の可変レベルの適用より前に、音楽が前記ソースデバイスの前記ユーザの背景でプレイしており、ここにおいて、前記入力オーディオデータが、前記ソースデバイスの前記ユーザのボイスと、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽とを含む、
前記オーディオコンテキストが、音声または音楽、あるいは音声と音楽の両方である前記オーディオコンテキストを含むことに基づいて、オーディオエンコーダを用いた前記入力オーディオデータの帯域幅圧縮より前に、雑音抑圧の可変レベルを前記入力オーディオデータに適用することと、
少なくとも１つのオーディオエンコーダパケットを生成するために、前記入力オーディオデータを帯域幅圧縮することと、
前記少なくとも１つのオーディオエンコーダパケットを前記ソースデバイスから前記宛先デバイスに送信することと
を備える方法。
雑音抑圧の前記可変レベルを適用することは、前記入力オーディオデータの前記オーディオコンテキストが音楽であるとき、前記入力オーディオデータの１つの減衰レベルがあり、前記入力オーディオデータの前記オーディオコンテキストが音声であるとき、前記入力オーディオデータの異なる減衰レベルがあるように、雑音抑圧利得を調整することを含む、請求項１９に記載の方法。
前記１つの減衰レベルと前記異なる減衰レベルとが両方とも同じ値を有する、請求項２０に記載の方法。
前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、前記ソースデバイスの前記ユーザの前記ボイスと同じ減衰レベルで雑音抑圧器を通って移る、請求項２１に記載の方法。
前記ソースデバイスの前記ユーザが、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽よりも少なくとも３ｄＢ大きく発話しているとき、前記入力オーディオデータの減衰の第１のレベルが適用され、前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、前記前記ソースデバイスの前記ユーザの前記発話よりも少なくとも３ｄＢ大きいとき、前記入力オーディオデータの減衰の第２のレベルが適用される、請求項１９に記載の方法。
前記ソースデバイスの前記ユーザの前記ボイスと前記ソースデバイスの前記ユーザの前記背景で同時にプレイしている前記音楽との前記入力オーディオデータの帯域幅圧縮が、前記入力オーディオデータへの雑音抑圧の適用より前に前記入力オーディオデータの前記オーディオコンテキストを取得することなしの前記ソースデバイスの前記ユーザの前記ボイスと前記ソースデバイスの前記ユーザの前記背景で同時にプレイしている前記音楽との前記入力オーディオデータの帯域幅圧縮と比較して、前記背景でプレイしている前記音楽の少なくとも３０％少ないひずみを与える、請求項１９に記載の方法。
前記入力オーディオデータの前記オーディオコンテキストを取得することが、前記入力オーディオデータを音声、音楽、または音声と音楽の両方として分類することに基づく、請求項１９に記載の方法。
音楽が音声とともに存在する時間の少なくとも８０パーセントで、前記入力オーディオデータを音楽として分類することをさらに備える、請求項２５に記載の方法。
前記ソースデバイスが、前記ソースデバイスの前記ユーザの口に近接しているのか前記ソースデバイスの前記ユーザの口から遠位に離れているのかを決定することをさらに備える、請求項１９に記載の方法。
前記オーディオコンテキストを前記取得することが、前記ソースデバイスの前記ユーザが時計を身につけていることに基づく、請求項１９に記載の方法。
前記ソースデバイスの前記ユーザの前記背景でプレイしている前記音楽が、カラオケ機械から来る、請求項１９に記載の方法。