JP2011511962A

JP2011511962A - コンテキスト・デスクリプタ伝送のためのシステム、方法、および装置

Info

Publication number: JP2011511962A
Application number: JP2010544964A
Authority: JP
Inventors: エル−マレー、クハレド・ヘルミ; ナガラジャ、ナゲンドラ; チョイ、エディー・エル．ティー．
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2008-01-28
Filing date: 2008-09-30
Publication date: 2011-04-14
Also published as: CN101896964A; US8560307B2; WO2009097020A1; TW200933608A; US20090192803A1; JP2011511961A; EP2245625A1; US20090192802A1; EP2245623A1; TW200933609A; KR20100113145A; WO2009097021A1; CN101903947A; WO2009097019A1; TW200947422A; CN101896971A; KR20100113144A; WO2009097022A1; KR20100129283A; US20090190780A1

Abstract

本明細書で開示する構成は、既存のコンテキストを除去、強調、および／または交換するために音声通信および／またはストレージアプリケーションに適用できるシステム、方法、および装置を含む。

Description

関連出願の参照

米国特許法第１１９条に基づく優先権の主張
本特許出願は、２００８年１月２８日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR CONTEXT PROCESSING」と題する仮出願第６１／０２４，１０４号に対する優先権を主張するものであって、本出願の譲受人に譲渡されている。

本開示は、スピーチ信号の処理に関する。

音声信号の通信および／または記憶のためのアプリケーションでは、一般に、マイクロホンを使用して、主要なスピーカの音声の音を含むオーディオ信号を取り込む。音声を表すオーディオ信号の部分は、スピーチまたはスピーチ成分と呼ばれる。取り込まれたオーディオ信号は、通常、背景音など、マイクロホンの周囲の音響環境からの他の音も含む。オーディオ信号のこの部分は、コンテキストまたはコンテキスト成分と呼ばれる。

デジタル技術による、スピーチおよび音楽などのオーディオ情報の伝送は、特に長距離電話通信、IPネットワーク上の音声伝送（ＶｏＩＰとも呼ばれ、ＩＰはインターネットプロトコルを示す）などのパケット交換電話通信、およびセルラー電話通信などのデジタル無線電話通信において普及してきた。そのような普及により、再構成されたスピーチの知覚品質を維持しながら、伝送チャネルによって音声通信を転送するために使用される情報量を低減することに関心が生じている。たとえば、利用可能なワイヤレスシステム帯域幅を最も良く使用することが望ましい。システム帯域幅を効率的に使用する１つの方法は、信号圧縮技術を使用することである。スピーチ信号を搬送するワイヤレスシステムの場合、通常、スピーチ圧縮（または「スピーチコーディング」）技術がこの目的のために使用される。

人間スピーチ発生のモデルに関係するパラメータを抽出することによってスピーチを圧縮するように構成されているデバイスは、しばしば、音声コーダ、コーデック、ボコーダ、「オーディオコーダ」または「スピーチコーダ」と呼ばれ、以下の説明では、これらの用語を互換的に使用する。スピーチコーダは、一般にスピーチ符号化器とスピーチ復号器とを含む。符号化器は、一般に、「フレーム」と呼ばれるサンプルの一連のブロックとしてデジタルオーディオ信号を受信し、各フレームを分析して、いくつかの関係するパラメータを抽出し、パラメータを符号化フレームに量子化する。符号化フレームは、伝送チャネル（すなわち、有線またはワイヤレスネットワーク接続）を介して、復号器を含む受信機に送信される。代替的に、符号化オーディオ信号を、後で検索および復号するために記憶することができる。復号器は、符号化フレームを受信し、処理し、逆量子化して、パラメータを生成し、逆量子化されたパラメータを使用してスピーチフレームを再現する。

典型的な会話では、各スピーカは、その時間の約６０パーセントの間は沈黙状態である。スピーチ符号化器は、通常、スピーチを含むオーディオ信号のフレーム（「アクティブフレーム」）を、コンテキストまたは沈黙のみを含むオーディオ信号のフレーム（「非アクティブフレーム」）と区別するように構成されていてもよい。そのような符号化器は、異なるコーディングモードおよび／またはレートを使用して、アクティブフレームおよび非アクティブフレームを符号化するように構成されていてもよい。たとえば、非アクティブフレームは、一般に、ほとんど情報を搬送しないものとして理解され、スピーチ符号化器は、通常、アクティブフレームを符号化する場合よりも、非アクティブフレームを符号化する場合のほうが、使用するビットが少なくなる（すなわち、ビットレートが低くなる）ように構成されている。

アクティブフレームを符号化するために使用されるビットレートの例は、１フレーム当たり１７１ビット、１フレーム当たり８０ビット、および１フレーム当たり４０ビットを含む。非アクティブフレームを符号化するために使用されるビットレートの例は、１フレーム当たり１６ビットを含む。セルラー電話通信システム（特に、ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＩｎｄｕｓｔｒｙＡｓｓｏｃｉａｔｉｏｎ（バージニア州アーリントン）によって公表された暫定標準（ＩＳ）−９５、または同様の業界標準に準拠するシステム）のコンテキストでは、これらの４つのビットレートは、それぞれ「フルレート」、「ハーフレート」、「１／４レート」、および「１／８レート」とも呼ばれる。

本明細書では、第１のオーディオコンテキストを含むデジタルオーディオ信号を処理する方法について説明する。本方法は、コンテキスト抑圧信号を得るために、第１のマイクロホンによって生成された第１のオーディオ信号に基づいて、デジタルオーディオ信号から第１のオーディオコンテキストを抑圧することを含む。本方法は、コンテキスト強調信号を得るために、第２のオーディオコンテキストを、コンテキスト抑圧信号に基づく信号と混合することも含む。本方法では、デジタルオーディオ信号は、第１のマイクロホンとは異なる第２のマイクロホンによって生成された第２のオーディオ信号に基づく。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。

本明細書では、第１のトランスデューサから受信した信号に基づくデジタルオーディオ信号を処理する方法についても説明する。本方法は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号から第１のオーディオコンテキストを抑圧することと、コンテキスト強調信号を得るために、第２のオーディオコンテキストを、コンテキスト抑圧信号に基づく信号と混合することと、（Ａ）第２のオーディオコンテキストと、（Ｂ）コンテキスト強調信号とのうちの少なくとも１つに基づく信号をアナログ信号に変換することと、アナログ信号に基づく可聴信号を生成するために第２のトランスデューサを使用することとを含む。本方法では、第１のトランスデューサと第２のトランスデューサの両方が共通のハウジング内に配置される。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。

本明細書では、符号化オーディオ信号を処理する方法についても説明する。本方法は、スピーチ成分とコンテキスト成分とを含む第１の復号オーディオ信号を得るために、第１のコーディング方式にしたがって符号化オーディオ信号の第１の複数の符号化フレームを復号することと、第２の復号オーディオ信号を得るために、第２のコーディング方式にしたがって符号化オーディオ信号の第２の複数の符号化フレームを復号することと、第２の復号オーディオ信号からの情報に基づいて、コンテキスト抑圧信号を得るために、第１の復号オーディオ信号に基づく第３の信号からコンテキスト成分を抑圧することとを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。

本明細書では、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する方法についても説明する。本方法は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号からコンテキスト成分を抑圧することと、符号化オーディオ信号を得るために、コンテキスト抑圧信号に基づく信号を符号化することと、複数のオーディオコンテキストのうちの１つを選択することと、選択されたオーディオコンテキストに関係する情報を符号化オーディオ信号に基づく信号中に挿入することとを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。

本明細書では、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する方法についても説明する。本方法は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号からコンテキスト成分を抑圧することと、符号化オーディオ信号を得るために、コンテキスト抑圧信号に基づく信号を符号化することと、第１の論理チャネルによって、符号化オーディオ信号を第１のエンティティに送信することと、第１の論理チャネルとは異なる第２の論理チャネルによって、（Ａ）オーディオコンテキスト選択情報と、（Ｂ）第１のエンティティを識別する情報とを第２のエンティティに送信することとを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。

本明細書では、符号化オーディオ信号を処理する方法についても説明する。本方法は、復号オーディオ信号を得るために、モバイルユーザ端末内で符号化オーディオ信号を復号することと、モバイルユーザ端末内でオーディオコンテキスト信号を発生することと、モバイルユーザ端末内でオーディオコンテキスト信号に基づく信号を、復号オーディオ信号に基づく信号と混合することとを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。

本明細書では、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する方法についても説明する。本方法は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号からコンテキスト成分を抑圧することと、第１のフィルタと第１の複数のシーケンスとに基づくオーディオコンテキスト信号を発生することであって、第１の複数のシーケンスの各々が異なる時間分解能を有する、発生することと、コンテキスト強調信号を得るために、発生したオーディオコンテキスト信号に基づく第１の信号を、コンテキスト抑圧信号に基づく第２の信号と混合することとを含む。本方法では、オーディオコンテキスト信号を発生することは、第１のフィルタを第１の複数のシーケンスの各々に適用することを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。

本明細書では、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する方法についても説明する。本方法は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号からコンテキスト成分を抑圧することと、オーディオコンテキスト信号を発生することと、コンテキスト強調信号を得るために、発生したオーディオコンテキスト信号に基づく第１の信号を、コンテキスト抑圧信号に基づく第２の信号と混合することと、デジタルオーディオ信号に基づく第３の信号のレベルを計算することとを含む。本方法では、発生することと混合することとのうちの少なくとも１つが、第３の信号の計算されたレベルに基づいて、第１の信号のレベルを制御することを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。

本明細書では、プロセス制御信号の状態にしたがって、スピーチ成分とコンテキスト成分とを有するデジタルオーディオ信号を処理する方法についても説明する。本方法は、プロセス制御信号が第１の状態を有するとき、スピーチ成分がないデジタルオーディオ信号の一部のフレームを第１のビットレートで符号化することを含む。本方法は、コンテキスト抑圧信号を得るために、プロセス制御信号が第１の状態とは異なる第２の状態を有するとき、デジタルオーディオ信号からコンテキスト成分を抑圧することを含む。本方法は、コンテキスト強調信号を得るために、プロセス制御信号が第２の状態を有するとき、オーディオコンテキスト信号をコンテキスト抑圧信号に基づく信号と混合することを含む。本方法は、プロセス制御信号が、第２のビットレートが第１のビットレートよりも高い第２の状態を有するとき、スピーチ成分がないコンテキスト強調信号の一部のフレームを第２のビットレートで符号化することを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。

図1Aは、スピーチ符号化器Ｘ１０のブロック図を示している。図1Bは、スピーチ符号化器Ｘ１０の実装形態Ｘ２０のブロック図を示している。図2は、決定ツリーの一例を図示している。図3Aは、一般的構成にしたがって、装置Ｘ１００のブロック図を示している。図3Bは、コンテキストプロセッサ１００の実装形態１０２のブロック図を示している。図3Cは、ポータブルまたはハンズフリーデバイスにおける２つのマイクロホンＫ１０およびＫ２０の様々な取付構成を図示している。図3Dは、ポータブルまたはハンズフリーデバイスにおける２つのマイクロホンＫ１０およびＫ２０の様々な取付構成を図示している。図3Eは、ポータブルまたはハンズフリーデバイスにおける２つのマイクロホンＫ１０およびＫ２０の様々な取付構成を図示している。図3Fは、ポータブルまたはハンズフリーデバイスにおける２つのマイクロホンＫ１０およびＫ２０の様々な取付構成を図示している。図3Gは、コンテキストプロセッサ１０２の実装形態１０２Ａのブロック図を示している。図4Aは、装置Ｘ１００の実装形態Ｘ１０２のブロック図を示している。図4Bは、コンテキストプロセッサ１０４の実装形態１０６のブロック図を示している。図5Aは、オーディオ信号と符号化器選択動作との間の様々な可能な依存性を図示している。図5Bは、オーディオ信号と符号化器選択動作との間の様々な可能な依存性を図示している。図6は、装置Ｘ１００の実装形態Ｘ１１０のブロック図を示している。図7は、装置Ｘ１００の実装形態Ｘ１２０のブロック図を示している。図8は、装置Ｘ１００の実装形態Ｘ１３０のブロック図を示している。図9Aは、コンテキスト発生器１２０の実装形態１２２のブロック図を示している。図9Bは、コンテキスト発生器１２２の実装形態１２４のブロック図を示している。図9Cは、コンテキスト発生器１２２の別の実装形態１２６のブロック図を示している。図9Dは、発生コンテキスト信号Ｓ５０を生成するための方法Ｍ１００のフローチャートである。図10は、多重解像度コンテキスト合成のプロセスの図を示している。図11Aは、コンテキストプロセッサ１０２の実装形態１０８のブロック図を示している。図11Bは、コンテキストプロセッサ１０２の実装形態１０９のブロック図を示している。図12Aは、スピーチ復号器Ｒ１０のブロック図を示している。図12Bは、スピーチ復号器Ｒ１０の実装形態Ｒ２０のブロック図を示している。図13Aは、コンテキストミキサ１９０の実装形態１９２のブロック図を示している。図13Bは、一構成にしたがって、装置Ｒ１００のブロック図を示している。図14Aは、コンテキストプロセッサ２００の実装形態のブロック図を示している。図14Bは、装置Ｒ１００の実装形態Ｒ１１０のブロック図を示している。図15は、一構成にしたがって、装置Ｒ２００のブロック図を示している。図16は、装置Ｘ１００の実装形態Ｘ２００のブロック図を示している。図17は、装置Ｘ１００の実装形態Ｘ２１０のブロック図を示している。図18は、装置Ｘ１００の実装形態Ｘ２２０のブロック図を示している。図19は、開示される一構成にしたがって、装置Ｘ３００のブロック図を示している。図20は、装置Ｘ３００の実装形態Ｘ３１０のブロック図を示している。図21Aは、サーバからコンテキスト情報をダウンロードする例を図示している。図21Bは、コンテキスト情報を復号器にダウンロードする例を図示している。図22は、開示する一構成にしたがって、装置Ｒ３００のブロック図を示している。図23は、装置Ｒ３００の実装形態Ｒ３１０のブロック図を示している。図24は、装置Ｒ３００の実装形態Ｒ３２０のブロック図を示している。図25Aは、開示する一構成にしたがって、方法Ａ１００のフローチャートを図示している。図25Bは、開示する一構成にしたがって、装置ＡＭ１００のブロック図を示している。図26Aは、開示する一構成にしたがって、方法Ｂ１００のフローチャートを図示している。図26Bは、開示する一構成にしたがって、装置ＢＭ１００のブロック図を示している。図27Aは、開示する一構成にしたがって、方法Ｃ１００のフローチャートを図示している。図27Bは、開示する一構成にしたがって、装置ＣＭ１００のブロック図を示している。図28Aは、開示する一構成にしたがって、方法Ｄ１００のフローチャートを図示している。図28Bは、開示する一構成にしたがって、装置ＤＭ１００のブロック図を示している。図29Aは、開示する一構成にしたがって、方法Ｅ１００のフローチャートを図示している。図29Bは、開示する一構成にしたがって、装置ＥＭ１００のブロック図を示している。図30Aは、開示する一構成にしたがって、方法Ｅ２００のフローチャートを図示している。図30Bは、開示する一構成にしたがって、装置ＥＭ２００のブロック図を示している。図31Aは、開示する一構成にしたがって、方法Ｆ１００のフローチャートを図示している。図31Bは、開示する一構成にしたがって、装置ＦＭ１００のブロック図を示している。図32Aは、開示する一構成にしたがって、方法Ｇ１００のフローチャートを図示している。図32Bは、開示する一構成にしたがって、装置ＧＭ１００のブロック図を示している。図33Aは、開示する一構成にしたがって、方法Ｈ１００のフローチャートを図示している。図33Bは、開示する一構成にしたがって、装置ＨＭ１００のブロック図を示している。

これらの図では、同じ参照ラベルは同じまたは類似の要素を指す。

オーディオ信号のスピーチ成分は一般に主要な情報を搬送するが、コンテキスト成分も電話などの音声通信アプリケーションにおいて重要な役割を果たす。コンテキスト成分はアクティブフレームと非アクティブフレームの両方の中に存在するので、非アクティブフレームの間のコンテキスト成分の継続的な再生は、受信機において連続性および接続性の感覚を提供するために重要である。コンテキスト成分の再生品質も、自然さおよび全体的な知覚品質のために、特に雑音のある環境で使用されるハンズフリー端末では重要である。

セルラー電話などのモバイルユーザ端末により、音声通信アプリケーションを以前より多くの場所に拡張することができる。結果として、遭遇する可能性がある異なるオーディオコンテキストの数が増加している。いくつかのコンテキストは他よりも構造化されており、認識可能に符号化するのがより難しい場合があるが、既存の音声通信アプリケーションは一般にコンテキスト成分を雑音として扱う。

場合によっては、オーディオ信号のコンテキスト成分を抑制および／またはマスクすることが望ましいことがある。セキュリティ上の理由により、たとえば、送信または記憶の前にオーディオ信号からコンテキスト成分を除去することが望ましい場合がある。代替的に、オーディオ信号に異なるコンテキストを追加することが望ましい場合がある。たとえば、スピーカが異なる場所および／または異なる環境にあると錯覚させることが望ましい場合がある。本明細書で開示される構成は、既存のオーディオコンテキストを除去、強調、および／または交換するために、音声通信および／またはストレージアプリケーションに適用できるシステム、方法、および装置を含む。本明細書に開示する構成は、パケット交換式であるネットワーク（たとえば、ＶｏＩＰなどのプロトコルにしたがって音声送信を搬送するように構成された有線および／またはワイヤレスネットワーク）および／または回線交換式であるネットワークにおける使用に適応できることが明確に企図され、本明細書において開示されている。また、本明細書に開示する構成は、狭帯域コーディングシステム（たとえば、約４または５キロヘルツのオーディオ周波数範囲を符号化するシステム）での使用、ならびに全帯域コーディングシステムおよびスプリットバンドコーディングシステムを含む、広帯域コーディングシステム（たとえば、５キロヘルツを超えるオーディオ周波数を符号化するシステム）での使用に適応できることが明確に企図され、本明細書において開示される。

文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の送信媒体上に表されたメモリ位置（または1セットのメモリ位置）の状態を含む、その通常のいずれれの意味も示すのに使用される。文脈によって明確に限定されない限り、「発生（generating）」という用語は、本明細書では、計算（computing）、もしくは生成（producing）など、その通常のいずれの意味も示すのに使用される。文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書で、1セットの値から計算すること(computing)、評価すること(evaluating)、および／または選択すること(selecting)など、その通常のすべての意味を示すのに使用される。文脈によって明確に限定されない限り、「得る(obtaining)」という用語は、計算(calculating)、導出(deriving)、（たとえば、外部デバイスからの）受信(receiving)、および／または（たとえば、記憶要素のアレイからの）検索(retrieving)など、その通常のいずれの意味も示すのに使用される。「備える(comprising)」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」（「ＡはＢに基づく」など）という用語は、（ｉ）「少なくとも〜に基づく」（たとえば、「Ａは少なくともＢに基づく」）、および特定の文脈で適切な場合に、（ｉｉ）「と等しい」（たとえば、「ＡはＢと等しい」）というケースを含む、その通常のすべての意味を示すのに使用される。

別段の指示がない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。別段の指示がない限り、「コンテキスト(context)」（または「オーディオコンテキスト(audio context)」）という用語は、スピーチ成分とは異なり、スピーカの周囲の環境からオーディオ情報を搬送するオーディオ信号の成分を示すために使用され、「雑音(noise)」という用語は、スピーチ成分の一部でなく、スピーカの周囲の環境から情報を搬送しない、オーディオ信号における他のアーティファクトを示すために使用される。

スピーチ符号化を目的として、スピーチ信号は、通常、サンプルのストリームを得るためにデジタル化（または量子化）される。デジタル化プロセスは、たとえばパルス符号変調（ＰＣＭ）、コンパンデッドミュー−ロー（companded mu-law）ＰＣＭ、およびコンパンデッドＡロー（companded A-law）ＰＣＭを含む、当技術分野で既知の様々な方法のいずれかにしたがって実行されることができる。狭帯域スピーチ符号化器は、通常、８ｋＨｚのサンプリングレートを使用するが、広帯域スピーチ符号化器は、通常、より高いサンプリングレート（たとえば、１２ｋＨｚまたは１６ｋＨｚ）を使用する。

デジタル化されたスピーチ信号は、一連のフレームとして処理される。この一連は、通常、重複しない一連として実装されるが、フレームまたはフレームのセグメント（サブフレームとも呼ばれる）を処理する動作は、その入力内に１つまたは複数の隣接フレームのセグメントを含むこともできる。スピーチ信号のフレームは、一般に、信号のスペクトル包絡線がそのフレームにわたって比較的固定のままであることが予想できるほど十分に短い。フレームは、通常、５ミリ秒と３５ミリ秒との間のスピーチ信号（または約４０サンプルから２００サンプルまで）に対応し、１０ミリ秒、２０ミリ秒、および３０ミリ秒が、一般的なフレームサイズである。一般に、すべてのフレームは同じ長さをもち、本明細書で説明される特定の例では、一様のフレーム長が仮定される。ただし、一様でないフレーム長が使用されることも明確に企図され、本明細書によって開示されている。

２０ミリ秒のフレーム長は、７キロヘルツ（ｋＨｚ）のサンプリングレートで１４０サンプルに対応し、８ｋＨｚのサンプリングレートで１６０サンプルに対応し、１６ｋＨｚのサンプリングレートで３２０サンプルに対応するが、特定の適用例に適切と思われる任意のサンプリングレートを使用することができる。スピーチコーディングに使用できるサンプリングレートの別の例は１２．８ｋＨｚであり、さらなる例には、１２．８ｋＨｚないし３８．４ｋＨｚの範囲内の他のレートがある。

図１Ａは、オーディオ信号Ｓ１０を（たとえば、一連のフレームとして）受信し、対応する符号化オーディオ信号Ｓ２０を（たとえば、一連の符号化フレームとして）生成するように構成されているスピーチ符号化器Ｘ１０のブロック図を示している。スピーチ符号化器Ｘ１０は、コーディング方式選択器２０、アクティブフレーム符号化器３０、および非アクティブフレーム符号化器４０を含む。オーディオ信号Ｓ１０は、スピーチ成分（すなわち、主要なスピーカの音声の音）およびコンテキスト成分（すなわち、周囲の環境または背景音）を含むデジタルオーディオ信号である。オーディオ信号Ｓ１０は、一般に、マイクロホンによって取り込まれるアナログ信号のデジタル化バージョンである。

コーディング方式選択器２０は、オーディオ信号Ｓ１０のアクティブフレームを非アクティブフレームと区別するように構成されている。そのような動作は、「音声アクティビティ検出」または「スピーチアクティビティ検出」とも呼ばれ、コーディング方式選択器２０は、音声アクティビティ検出器またはスピーチアクティビティ検出器を含むように実装できる。たとえば、コーディング方式選択器２０は、アクティブフレームに対しては高であり、非アクティブフレームに対しては低であるバイナリ値コーディング方式選択信号を出力するように構成されていてもよい。図１Ａは、コーディング方式選択器２０によって生成されるコーディング方式選択信号がスピーチ符号化器Ｘ１０の１対のセレクタ５０ａおよび５０ｂを制御するために使用される例を示している。

コーディング方式選択器２０は、フレームエネルギー、信号対雑音比（ＳＮＲ）、周期性、スペクトル分布（たとえば、スペクトル傾斜）、および／またはゼロ交差レートなど、フレームのエネルギーおよび／またはスペクトルコンテンツの１つまたは複数の特性に基づいてフレームをアクティブまたは非アクティブに分類するように構成されていてもよい。そのような分類は、そのような特性の値または大きさをしきい値と比較すること、および／またはそのような特性の（たとえば、先行フレームに対する）変化の大きさをしきい値と比較することを含むことができる。たとえば、コーディング方式選択器２０は、現在のフレームのエネルギーを評価し、エネルギー値がしきい値よりも小さい（あるいは、それ以下である）場合にフレームを非アクティブとして分類するように構成されていてもよい。そのような選択器は、フレームサンプルの平方和としてフレームエネルギーを計算するように構成されていてもよい。

コーディング方式選択器２０の別の実装形態は、低周波帯域（たとえば、３００Ｈｚないし２ｋＨｚ）および高周波帯域（たとえば、２ｋＨｚないし４ｋＨｚ）の各々における現在のフレームのエネルギーを評価し、各帯域のエネルギー値がそれぞれのしきい値よりも小さい（あるいは、それ以下である）場合にフレームが非アクティブであることを指示するように構成されている。そのような選択器は、フレームにパスバンドフィルタを適用し、フィルタ処理されたフレームのサンプルの平方和を計算することによって帯域におけるフレームエネルギーを計算するように構成されていてもよい。そのような音声アクティビティ検出動作の一例は、ｗｗｗ．３ｇｐｐ２．ｏｒｇにおいてオンラインで入手可能なＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ２（３ＧＰＰ２）規格文書Ｃ．Ｓ００１４−Ｃ、ｖ１．０（２００７年１月）の第４．７節に記載されている。

追加的にまたは代替的に、そのような分類は、１つまたは複数の前のフレームおよび／または１つまたは複数の後続のフレームからの情報に基づくことができる。たとえば、２つ以上のフレームにわたって平均化されるフレーム特性の値に基づいてフレームを分類することが望ましい場合がある。前のフレームからの情報（たとえば、背景雑音レベル、ＳＮＲ）に基づくしきい値を使用してフレームを分類することが望ましい場合がある。また、アクティブフレームから非アクティブフレームへのオーディオ信号Ｓ１０における遷移に後続する第１のフレームのうちの１つまたは複数をアクティブとして分類するようにコーディング方式選択器２０を構成することが望ましい場合もある。遷移の後にそのような様式で前の分類状態を継続する行為は、「ハングオーバー」とも呼ばれる。

アクティブフレーム符号化器３０は、オーディオ信号のアクティブフレームを符号化するように構成されている。符号化器３０は、フルレート、ハーフレートまたは１／４レートなどのビットレートにしたがってアクティブフレームを符号化するように構成されていてもよい。符号化器３０は、コード励振線形予測（ＣＥＬＰ）、プロトタイプ波形補間（ＰＷＩ）またはプロトタイプピッチ周期（ＰＰＰ）などのコーディングモードにしたがってアクティブフレームを符号化するように構成されていてもよい。

アクティブフレーム符号化器３０の典型的な実装形態は、スペクトル情報の記述および時間情報の記述を含む符号化フレームを生成するように構成されている。スペクトル情報の記述は、符号化スピーチの共振（「フォルマント」とも呼ばれる）を示す線形予測コーディング（ＬＰＣ）係数値の１つまたは複数のベクトルを含むことができる。スペクトル情報の記述は、線スペクトル周波数（ＬＳＦ）、線スペクトルペア（ＬＳＰ）、イミタンススペクトル周波数（ＩＳＦ）、イミタンススペクトルペア（ＩＳＰ）、ケプストラム係数、または対数面積比などＬＰＣベクトル（１つまたは複数）が、通常、効率的に量子化されることができる形態に変換されるように一般に量子化される。時間情報の記述は励起信号の記述を含むことができ、これも一般に量子化されている。

非アクティブフレーム符号化器４０は、非アクティブフレームを符号化するように構成されている。非アクティブフレーム符号化器４０は、一般にアクティブフレーム符号化器３０によって使用されるビットレートよりも低いビットレートで非アクティブフレームを符号化するように構成されている。一例では、非アクティブフレーム符号化器４０は、雑音励起線形予測（ＮＥＬＰ）コーディング方式を使用して１／８レートにおいて非アクティブフレームを符号化するように構成されている。また、非アクティブフレーム符号化器４０は、オーディオ信号Ｓ１０の非アクティブフレームのすべてに満たない符号化フレーム（「無音記述」またはＳＩＤフレームとも呼ばれる）が送信される、不連続送信（ＤＴＸ）を実行するように構成されていてもよい。

非アクティブフレーム符号化器４０の典型的な実装形態は、スペクトル情報の記述と時間情報の記述とを含む符号化フレームを生成するように構成されている。スペクトル情報の記述は、線形予測コーディング（ＬＰＣ）係数値の１つまたは複数のベクトルを含むことができる。スペクトル情報の記述は、ＬＰＣベクトル（１つまたは複数）が、通常、上記の例のように効率的に量子化されることができる形態に変換されるように、一般に量子化されている。非アクティブフレーム符号化器４０は、アクティブフレーム符号化器３０によって実行されるＬＰＣ分析の次数よりも低い次数を有するＬＰＣ分析を実行するように構成されていてもよく、および／または、非アクティブフレーム符号化器４０は、スペクトル情報の記述を、アクティブフレーム符号化器３０によって生成されたスペクトル情報の量子化された記述よりも少数のビットに量子化するように構成されていてもよい。時間情報の記述は、同じく一般に量子化される、（たとえば、フレームの利得値および／またはフレームの一連のサブフレームの各々の利得値を含む）時間包絡線の記述を含むことができる。

符号化器３０および４０は共通の構造を共有することができることに留意されたい。たとえば、符号化器３０および４０は、（場合によっては、アクティブフレームでは非アクティブフレームとは異なる次数を有する結果を生成するように構成されている）ＬＰＣ係数値の計算器を共有することができるが、それぞれ異なる時間記述計算器を有することができる。また、スピーチ符号化器Ｘ１０のソフトウェアまたはファームウェア実装形態は、実行のフローをフレーム符号化器の１つまたは別の１つに向けるためにコーディング方式選択器２０の出力を使用することができ、そのような実装形態は、選択器５０ａおよび／または選択器５０ｂの類似物を含むことができないことに留意されたい。

オーディオ信号S１０の各アクティブフレームをいくつかの異なるタイプの１つとして分類するように、コーディング方式選択器２０を構成することが望ましい場合がある。これらの異なるタイプは、音声スピーチ（たとえば、母音を表すスピーチ）のフレーム、遷移フレーム（たとえば、単語の先頭または末尾を表すフレーム）、および非音声スピーチ（たとえば、摩擦音を表すスピーチ）のフレームを含むことができる。フレーム分類は、フレームエネルギー、２つ以上の異なる周波数帯域の各々におけるフレームエネルギー、ＳＮＲ、周期性、スペクトル傾斜、および／またはゼロ交差レートなど、現在のフレーム、および／または１つまたは複数の前のフレームの１つまたは複数の特徴に基づくことができる。そのような分類は、そのようなファクタの値または大きさをしきい値と比較すること、および／またはそのようなファクタの変化の大きさをしきい値と比較することを含むことができる。

異なるコーディングビットレートを使用して異なるタイプのアクティブフレームを符号化するように（たとえば、ネットワークの需要と容量のバランスをとるために）、スピーチ符号化器Ｘ１０を構成することが望ましい場合がある。そのような動作は「可変レートコーディング」と呼ばれる。たとえば、比較的高いビットレート（たとえば、フルレート）で遷移フレームを符号化し、比較的低いビットレート（たとえば、１／４レート）で非音声フレームを符号化し、中間のビットレート（たとえば、ハーフレート）またはより高いビットレート（たとえば、フルレート）で音声フレームを符号化するようにスピーチ符号化器Ｘ１０を構成することが望ましい場合がある。

図２に、コーディング方式選択器２０の実装形態２２が、ある特定のフレームが含むスピーチのタイプによってそのフレームを符号化するためのビットレートを選択するのに使用してもよい決定ツリーの一例を示している。他の場合には、特定のフレームのために選択されるビットレートは、所望の平均ビットレート、一連のフレームにわたる所望のビットレートパターン（所望の平均ビットレートをサポートするために使用することができる）、および／または前のフレームのために選択されたビットレートなどの判断基準に依存することもできる。

追加的にまたは代替的に、異なるタイプのスピーチフレームを符号化するために異なるコーディングモードを使用するようにスピーチ符号化器Ｘ１０を構成することが望ましい場合がある。そのような動作は「マルチモードコーディング」と呼ばれる。たとえば、音声スピーチのフレームは、長期間であり（すなわち、複数のフレーム周期の間継続し）、ピッチに関連する周期構造を有する傾向があり、この長期間スペクトル特徴の記述を符号化するコーディングモードを使用して音声フレーム（または音声フレームのシーケンス）を符号化することが一般により効率的である。そのようなコーディングモードの例には、ＣＥＬＰ、ＰＷＩ、およびＰＰＰがある。一方、非音声フレームおよび非アクティブフレームには、通常、著しい長期間スペクトル特徴がなく、スピーチ符号化器は、そのようなＮＥＬＰなどの特徴を記述しようと試みないコーディングモードを使用して、これらのフレームを符号化するように構成されていてもよい。

たとえば、周期性または音声に基づく分類にしたがって異なるモードを使用してフレームが符号化されるようにマルチモードコーディングを使用するためにスピーチ符号化器Ｘ１０を実装することが望ましい場合がある。異なるタイプのアクティブフレームのためにビットレートおよびコーディングモード（「コーディング方式」とも呼ばれる）の異なる組合せを使用するようにスピーチ符号化器Ｘ１０を実装することが望ましい場合もある。そのようなスピーチ符号化器Ｘ１０の実装形態の一例は、音声スピーチを含むフレームおよび遷移フレームについてはフルレートＣＥＬＰ方式、非音声スピーチを含むフレームについてはハーフレートＮＥＬＰ方式、および非アクティブフレームについては１／８レートＮＥＬＰ方式を使用する。そのようなスピーチ符号化器Ｘ１０の実装形態の他の例は、フルレートおよびハーフレートのＣＥＬＰ方式および／またはフルレートおよび１／４レートＰＰＰ方式など１つまたは複数のコーディング方式に対して複数のコーディングレートをサポートする。マルチ方式符号化器、復号器、コーディング技術の例は、たとえば、「METHODS AND APPARATUS FOR MAINTAINING A TARGET BIT RATE IN A SPEECH CODER」と題する米国特許第６，３３０，５３２号および「VARIABLE RATE SPEECH CODING」と題する米国特許第６，６９１，０８４号、および「CLOSED-LOOP VARIABLE-RATE MULTIMODE PREDICTIVE SPEECH CODER」と題する米国特許出願第０９／１９１，６４３号および「ARBITRARY AVERAGE DATA RATES FOR VARIABLE RATE CODERS」と題する米国特許出願第１１／６２５，７８８号に記載されている。

図１Ｂは、アクティブフレーム符号化器３０の複数の実装形態３０ａ、３０ｂを含むスピーチ符号化器Ｘ１０の実装形態Ｘ２０のブロック図を示している。符号化器３０ａは、第１のコーディング方式（たとえば、フルレートＣＥＬＰ）を使用してアクティブフレームの第１のクラス（たとえば、音声フレーム）を符号化するように構成されており、符号化器３０ｂは第１のコーディング方式とは異なるビットレートおよび／またはコーディングモードを有する第２のコーディング方式（たとえば、ハーフレートＮＥＬＰ）を使用してアクティブフレームの第２のクラス（たとえば、非音声フレーム）を符号化するように構成されている。この場合、選択器５２ａおよび５２ｂは、３つ以上の可能な状態を有するコーディング方式選択器２２によって生成されるコーディング方式選択信号の状態にしたがって、様々なフレーム符号化器の中から選択するように構成されている。スピーチ符号化器Ｘ２０は、アクティブフレーム符号化器３０の３つ以上の異なる実装の中からの選択をサポートするような方法で拡張されてもよいことが明確に開示される。

スピーチ符号化器Ｘ２０のフレーム符号化器のうちの１つまたは複数は共通の構造を共有することができる。たとえば、そのような符号化器は、（場合によっては、フレームの異なるクラスに対して異なる次数を有する結果を生成するように構成されている）ＬＰＣ係数値の計算器を共有することができるが、それぞれ異なる時間記述計算器を有することができる。たとえば、符号化器３０ａおよび３０ｂは異なる励起信号計算器を有することができる。

図１Ｂに示すように、スピーチ符号化器Ｘ１０は雑音サプレッサ１０を含むように実装することもできる。雑音サプレッサ１０は、オーディオ信号Ｓ１０に対して雑音抑圧オペレーションを実行するように構成および配列される。そのようなオペレーションは、コーディング方式選択器２０によるアクティブフレームと非アクティブフレームとの間の改善された弁別、および／またはアクティブフレーム符号化器３０および／または非アクティブフレーム符号化器４０によるより良い符号化結果をサポートすることができる。雑音サプレッサ１０は、オーディオ信号の２つ以上の異なる周波数チャネルの各々に異なるそれぞれの利得ファクタを適用するように構成されていてもよく、各チャネルの利得ファクタは雑音エネルギーの推定またはチャネルのＳＮＲに基づくことができる。そのような利得制御を、時間領域とは反対に周波数領域で実行することが望ましい場合があり、そのような構成の一例が、上記に言及された３ＧＰＰ２規格文書Ｃ．Ｓ００１４−Ｃの第４．４．３節に記載されている。代替的に、雑音サプレッサ１０は、場合によっては周波数領域でオーディオ信号に適応フィルタを適用するように構成されていてもよい。欧州電気通信標準化機構（ＥＴＳＩ）文書ＥＳ２０２０５０５ｖ１．１．５（２００７年１月、ｗｗｗ．ｅｔｓｉ．ｏｒｇにおいてオンラインで入手可能）の第５．１節には、非アクティブフレームから雑音スペクトルを推定し、計算された雑音スペクトルに基づいて、メル歪曲ウィーナーフィルタリングの２つのステージをオーディオ信号に対して実行するような構成の一例が記載されている。

図３Ａは、一般的な構成による装置Ｘ１００のブロック図（符号化器、符号化装置、または符号化のための装置とも呼ばれる）を示している。装置Ｘ１００は、オーディオ信号Ｓ１０から既存のコンテキストを除去して、そのコンテキストを、既存のコンテキストと同様のまたは既存のコンテキストとは異なる発生コンテキストと交換するように構成されている。装置Ｘ１００は、コンテキスト強調オーディオ信号Ｓ１５を生成するためにオーディオ信号Ｓ１０を処理するように構成および配列されているコンテキストプロセッサ１００を含む。装置Ｘ１００は、符号化オーディオ信号Ｓ２０を生成するためにコンテキスト強調オーディオ信号Ｓ１５を符号化するように配列されているスピーチ符号化器Ｘ１０（たとえば、スピーチ符号化器Ｘ２０）の実装形態をも含む。セルラー電話など装置Ｘ１００を含む通信デバイスは、有線送信チャネル、ワイヤレス送信チャネル、または光学送信チャネル（たとえば、１つまたは複数の搬送波の無線周波数変調による）に符号化オーディオ信号Ｓ２０を送信する前に、この信号に対して誤り訂正、冗長性、および／またはプロトコル（たとえば、イーサネット（登録商標）、ＴＣＰ／ＩＰ、ＣＤＭＡ２０００）コーディングなどのさらなる処理オペレーションを実行するように構成されていてもよい。

図３Ｂは、コンテキストプロセッサ１００の実装形態１０２のブロック図を示している。コンテキストプロセッサ１０２は、コンテキスト抑圧オーディオ信号Ｓ１３を生成するためにオーディオ信号Ｓ１０のコンテキスト成分を抑圧するように構成および配列されているコンテキストサプレッサ１１０を含む。コンテキストプロセッサ１０２は、コンテキスト選択信号Ｓ４０の状態にしたがって、発生コンテキスト信号Ｓ５０を生成するように構成されているコンテキスト発生器１２０をも含む。コンテキストプロセッサ１０２は、コンテキスト強調オーディオ信号Ｓ１５を生成するために、コンテキスト抑圧オーディオ信号Ｓ１３を発生コンテキスト信号Ｓ５０と混合するように構成および配列されているコンテキストミキサ１９０をも含む。

図３Ｂに示すように、コンテキストサプレッサ１１０は、符号化の前にオーディオ信号から既存のコンテキストを抑圧するように配列されている。コンテキストサプレッサ１１０は、上述のように、（たとえば、１つまたは複数の異なるしきい値を使用することによって）雑音サプレッサ１０の比較的積極的なバージョンとして実装することができる。代替的にまたは追加的に、コンテキストサプレッサ１１０は、オーディオ信号Ｓ１０のコンテキスト成分を抑圧するために２つ以上のマイクロホンからのオーディオ信号を使用するように実装されることができる。図３Ｇは、コンテキストサプレッサ１１０のそのような実装形態１１０Ａを含むコンテキストプロセッサ１０２の実装形態１０２Ａのブロック図を示している。コンテキストサプレッサ１１０Ａは、たとえば、第１のマイクロホンによって生成されるオーディオ信号に基づくオーディオ信号Ｓ１０のコンテキスト成分を抑圧するように構成されている。コンテキストサプレッサ１１０Ａは、第２のマイクロホンによって生成されるオーディオ信号に基づくオーディオ信号ＳＡ１（たとえば、別のデジタルオーディオ信号）を使用することによってそのようなオペレーションを実行するように構成されている。複数マイクロホンによるコンテキスト抑圧の適切な例は、たとえば、「APPARATUS AND METHOD OF NOISE AND ECHO REDUCTION」（Choy他）と題する米国特許出願第１１／８６４，９０６号（弁理士整理番号第０６１５２１号）、および「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」（Visser他）と題する米国特許出願第１２／０３７，９２８号（弁理士整理番号第０８０５５１号）で開示されている。たとえば、「MULTIPLE MICROPHONE VOICE ACTIVITY DETECTOR」（Choy他）と題する米国特許出願第１１／８６４，８９７号（弁理士整理番号第０６１４９７号）で開示された技術にしたがって、コンテキストサプレッサ１１０の複数マイクロホンの実装形態は、スピーチアクティビティ検出パフォーマンスを改善するためのコーディング方式選択器２０の対応する実装形態に情報を提供するように構成されていることもできる。

図３Ｃ〜図３Ｆは、装置Ｘ１００の実装形態（セルラー電話または他のモバイルユーザ端末など）を含む携帯デバイス、またはそのような携帯デバイスへの有線接続またはワイヤレス（たとえば、Ｂｌｕｅｔｏｏｔｈ(登録商標)）接続を介して通信するように構成されているイヤホンまたはヘッドセットなどのハンズフリーデバイスにおける２つのマイクロホンＫ１０およびＫ２０のための様々な取付構成を示している。これらの例では、マイクロホンＫ１０は、主にスピーチ成分（たとえば、オーディオ信号Ｓ１０のアナログ先行モデル）を含むオーディオ信号を生成するように配列され、マイクロホンＫ２０は、主にコンテキスト成分（たとえば、オーディオ信号ＳＡ１のアナログ先行モデル）を含むオーディオ信号を生成するように配列されている。図３Ｃは、マイクロホンＫ１０がデバイスの前面裏に取り付けられ、マイクロホンＫ２０がデバイスの上面裏に取り付けられている配列の一例を示している。図３Ｄは、マイクロホンＫ１０がデバイスの前面裏に取り付けられ、マイクロホンＫ２０がデバイスの側面裏に取り付けられている配列の一例を示している。図３Ｅは、マイクロホンＫ１０がデバイスの前面裏に取り付けられ、マイクロホンＫ２０がデバイスの底面裏に取り付けられている配列の一例を示している。図３Ｆは、マイクロホンＫ１０がデバイスの前面（または内側）裏に取り付けられ、マイクロホンＫ２０がデバイスの後部（または外側）裏に取り付けられている配列の一例を示している。

コンテキストサプレッサ１１０は、オーディオ信号に関するスペクトル減算オペレーションを実行するように構成されていてもよい。スペクトル減算は、定常統計を有するコンテキスト成分を抑圧することが期待できるが、非定常のコンテキストを抑圧するのには有効でない場合がある。スペクトル減算は、１つのマイクロホンを有するアプリケーションならびに複数のマイクロホンからの信号が利用可能であるアプリケーションで使用されることができる。典型的な例において、コンテキストサプレッサ１１０のそのような実装形態は、いくつかの周波数サブバンド（「周波数ビン」とも呼ばれる）の各々におけるコンテキスト成分のエネルギーレベルなど、既存のコンテキストの統計的記述を導出し、オーディオ信号に対応する周波数選択性利得を適用する（たとえば、対応するコンテキストエネルギーレベルに基づいて周波数サブバンドの各々上でオーディオ信号を減衰する）ために、オーディオ信号の非アクティブフレームを分析するように構成されている。スペクトル減算オペレーションの他の例は、S. F. Boll、「Suppression of Acoustic Noise in Speech Using Spectral Subtraction」、IEEE Trans. Acoustics, Speech and Signal Processing、27(2): 112-120、１９７９年４月、R. Mukai、S. Araki、H. SawadaおよびS. Makino、「Removal of residual crosstalk components in blind source separation using LMS filters」、Proc. of 12th IEEE Workshop on Neural Networks for Signal Processing、４３５〜４４４ページ、マルチニー、スイス、２００２年９月、およびR. Mukai、S. Araki、H. SawadaおよびS. Makino、「Removal of residual cross-talk components in blind source separation using time-delayed spectral subtraction」、Proc. of ICASSP 2002、１７８９〜１７９２ページ、２００２年５月に記載されている。

追加的または代替的な実装形態において、コンテキストサプレッサ１１０は、オーディオ信号に対してブラインドソース分離（ＢＳＳ、独立成分分析とも呼ばれる）オペレーションを実行するように構成されていてもよい。ブラインドソース分離は、（オーディオ信号Ｓ１０をキャプチャするために使用されるマイクロホンに加えて）１つまたは複数のマイクロホンから信号が利用可能であるアプリケーションに使用できる。ブラインドソース分離は、定常のコンテキストならびに非定常統計を有するコンテキストを抑圧することが期待されてもよい。米国特許第６，１６７，４１７号（Parra他）に記載されているＢＳＳオペレーションの一例では、ソース信号を分離するために使用されるフィルタの係数を計算するために勾配降下法を使用する。ＢＳＳオペレーションの他の例は、S. Amari、A. Cichocki、and H. H. Yang、「A new learning algorithm for blind signal separation」、Advances in Neural Information Processing Systems 8、MIT Press、1996年、L. MolgedeyおよびH. G. Schuster、「Separation of a mixture of independent signals using time delayed correlations」、Phys. Rev. Lett.、72(23): 3634-3637、１９９４年、およびL. ParraおよびC. Spence、「Convolutive blind source separation of non-stationary sources」、IEEE Trans. on Speech and Audio Processing、8(3): 320-327、２０００年５月に記載されている。上記の実装形態の追加または代替として、コンテキストサプレッサ１００は、ビームフォーミングオペレーションを実行するように構成されていてもよい。たとえば、ビームフォーミングオペレーションの例は、上記の米国特許出願第１１／８６４，８９７号（弁理士整理番号第０６１４９７号）、およびH. Saruwatari他、「Blind Source Separation Combining Independent Component Analysis and Beamforming」、EURASIP Journal on Applied Signal Processing, 2003:11, 1135-1146 (2003)に開示されている。

セルラー電話またはハンズフリーデバイスのケーシングなどの共通のハウジング内に取り付けられたマイクロホンなど、互いに近くに位置するマイクロホンは、高い瞬時相関を有する信号を生成することができる。当業者ならば、１つまたは複数のマイクロホンを共通のハウジング（すなわち、デバイス全体のケーシング）内のマイクロホンハウジングの内に配置されることができることも認識するであろう。そのような相関は、ＢＳＳオペレーションのパフォーマンスを劣化させる可能性があり、そのような場合、ＢＳＳオペレーションの前にオーディオ信号を無相関化することが望ましい場合がある。無相関化は、一般にエコー消去にも有効である。無相関化器は、５つ以下のタップ、さらには３つ以下のタップを有するフィルタ（場合によっては適応フィルタ）として実装されることができる。そのようなフィルタのタップ重みは、固定とするか、または入力オーディオ信号の相関特性にしたがって選択されることができ、格子フィルタ構造を使用して無相関化フィルタを実装することが望ましい場合がある。コンテキストサプレッサ１１０のそのような実装形態は、オーディオ信号の２つ以上の異なる周波数サブバンドの各々に対して別々の無相関化オペレーションを実行するように構成されていることができる。

コンテキストサプレッサ１１０の実装形態は、少なくともＢＳＳオペレーションの後に、分離されたスピーチ成分に対して１つまたは複数の追加の処理オペレーションを実行するように構成されていることができる。たとえば、コンテキストサプレッサ１１０が、少なくとも分離されたスピーチ成分に対して無相関化オペレーションを実行することが望ましい場合がある。そのようなオペレーションは、分離されたスピーチ成分の２つ以上の異なる周波数サブバンドの各々に対して別々に実行されることができる。

追加的にまたは代替的に、コンテキストサプレッサ１１０の実装形態は、分離されたスピーチ成分に対して、分離されたコンテキスト成分に基づくスペクトル減算などの非線形処理オペレーションを実行するように構成されていることができる。スピーチ成分から既存のコンテキストをさらに抑圧することができるスペクトル減算は、分離されたコンテキスト成分の対応する周波数サブバンドのレベルにしたがって時間とともに変化する周波数選択性利得として実装されることができる。

追加的にまたは代替的に、コンテキストサプレッサ１１０の実装形態は、分離されたスピーチ成分に対してセンタークリッピングオペレーションを実行するように構成されていることができる。そのようなオペレーションは、一般に信号レベルおよび／またはスピーチアクティビティレベルに比例して時間とともに変化する信号に利得を適用する。センタークリッピングオペレーションの一例は、ｙ［ｎ］＝｛｜ｘ［ｎ］｜＜Ｃの場合は０、他の場合はｘ［ｎ］｝と表すことができる。ただし、ｘ［ｎ］は入力サンプル、ｙ［ｎ］は出力サンプル、Ｃはクリッピングしきい値である。センタークリッピングオペレーションの別の例はｙ［ｎ］＝｛｜ｘ［ｎ］｜＜Ｃの場合は０、他の場合はｓｇｎ（ｘ［ｎ］）（｜ｘ［ｎ］｜−Ｃ）｝と表すことができる。ただし、ｓｇｎ（ｘ［ｎ］）はｘ［ｎ］のサインを示す。

オーディオ信号から、既存のコンテキスト成分をほぼ完全に除去するようにコンテキストサプレッサ１１０を構成することが望ましい場合がある。たとえば、装置Ｘ１００が、既存のコンテキスト成分を、既存のコンテキスト成分とは異なる発生コンテキスト信号Ｓ５０と交換することが望ましい場合がある。そのような場合、既存のコンテキスト成分のほぼ完全な除去は、復号オーディオ信号において、既存のコンテキスト成分と交換コンテキスト信号との間の可聴干渉を低減するのを助けることができる。別の例では、発生コンテキスト信号Ｓ５０がオーディオ信号にも追加されているか否かにかかわらず、装置Ｘ１００が既存のコンテキスト成分を隠すように構成されていることが望ましい場合がある。

２つ以上の異なる動作モードの間で構成可能なコンテキストプロセッサ１００を実装することが望ましい場合がある。たとえば、（Ａ）コンテキストプロセッサ１００が、既存のコンテキスト成分がほぼ不変のままであるオーディオ信号をパスするように構成されている第１の動作モードと、（Ｂ）コンテキストプロセッサ１００が、既存のコンテキスト成分をほぼ完全に除去する（場合によっては、発生コンテキスト信号Ｓ５０と交換する）ように構成されている第２の動作モードとを提供することが望ましい場合がある。そのような第１の動作モードのサポート（デフォルトモードとして構成されることができる）は、装置Ｘ１００を含むデバイスの後方互換性を可能にするのに役立つ場合がある。第１の動作モードにおいて、コンテキストプロセッサ１００は、雑音抑圧オーディオ信号を生成するために（たとえば、雑音サプレッサ１０に関して上述したように）オーディオ信号に対して雑音抑圧オペレーションを実行するように構成されていることができる。

コンテキストプロセッサ１００のさらなる実装形態は、３つ以上の動作モードをサポートするように同様に構成されていることができる。たとえば、そのようなさらなる実装形態は、少なくともほぼコンテキスト抑圧なし（たとえば、雑音抑圧のみ）から、部分的なコンテキスト抑圧まで、少なくともほぼ完全なコンテキスト抑圧までの範囲内の３つ以上のモードから選択可能な１つにしたがって既存のコンテキスト成分が抑圧される程度を変化させるように構成可能とされることができる。

図４Ａは、コンテキストプロセッサ１００の実装形態１０４を含む装置Ｘ１００の実装形態Ｘ１０２のブロック図を示している。コンテキストプロセッサ１０４は、プロセス制御信号Ｓ３０の状態にしたがって、上で説明されたように２つ以上のモードの１つで動作するように構成されている。プロセス制御信号Ｓ３０の状態は、（たとえば、グラフィカルユーザインターフェース、スイッチ、または他の制御インターフェースを介して）ユーザによって制御されるか、あるいはプロセス制御信号Ｓ３０は、プロセス制御信号Ｓ３０の異なる状態に１つまたは複数の変数（たとえば、物理的位置、動作モード）の異なる値を関連付けるテーブルなどのインデックスデータ構造を含むプロセス制御発生器３４０（図１６に示す）によって発生される。一例では、プロセス制御信号Ｓ３０は、その状態が既存のコンテキスト成分をパスすべきか抑圧すべきかを示すバイナリ値信号（すなわち、フラグ）として実装される。そのような場合、コンテキストプロセッサ１０４は、第１のモードでは、その要素の１つまたは複数を使用不能にすること、および／または信号経路からそのような要素を除去する（すなわち、オーディオ信号がそのような要素をバイパスできるようにする）ことによってオーディオ信号Ｓ１０をパスするように構成されていてもよく、第２のモードでは、そのような要素を使用可能にすることおよび／またはそのような要素を信号経路に挿入することによってコンテキスト強調オーディオ信号Ｓ１５を生成するように構成されていてもよい。代替的に、コンテキストプロセッサ１０４は、第１のモードでは、（たとえば、雑音サプレッサ１０に関して上で説明されたように）オーディオ信号Ｓ１０に対して雑音抑圧オペレーションを実行するように構成されていてもよく、第２のモードでは、オーディオ信号Ｓ１０に対してコンテキスト交換オペレーションを実行するように構成されていてもよい。別の例では、プロセス制御信号Ｓ３０は３つ以上の可能な状態を有し、各状態は、少なくともほぼコンテキスト抑圧なし（たとえば、雑音抑圧のみ）から、部分的なコンテキスト抑圧まで、少なくともほぼ完全なコンテキスト抑圧までの範囲内のコンテキストプロセッサの３つ以上の動作モードの異なる１つに対応する。

図４Ｂは、コンテキストプロセッサ１０４の実装形態１０６のブロック図を示している。コンテキストプロセッサ１０６は、少なくとも２つの動作モード、すなわちコンテキストサプレッサ１１２が、既存のコンテキスト成分がほぼ不変のままのオーディオ信号Ｓ１０をパスするように構成されている第１の動作モードと、コンテキストサプレッサ１１２がオーディオ信号Ｓ１０から既存のコンテキスト成分をほぼ完全に除去する（すなわち、コンテキスト抑圧オーディオ信号Ｓ１３を生成する）ように構成されている第２の動作モードとを有するように構成されているコンテキストサプレッサ１１０の実装形態１１２を含む。第１の動作モードがデフォルトモードであるようにコンテキストサプレッサ１１２を実装することが望ましい場合がある。第１の動作モードでは、雑音抑圧オーディオ信号を生成するために（たとえば、雑音サプレッサ１０に関して上で説明されたように）オーディオ信号に対して雑音抑圧オペレーションを実行するようにコンテキストサプレッサ１１２を実装することが望ましい場合がある。

コンテキストサプレッサ１１２は、その第１の動作モードでは、オーディオ信号に対してコンテキスト抑圧オペレーションを実行するように構成されている１つまたは複数の要素（たとえば、１つまたは複数のソフトウェアおよび／またはファームウェアルーチン）がバイパスされるように実装されることができる。代替的にまたは追加的に、コンテキストサプレッサ１１２は、そのようなコンテキスト抑圧オペレーション（たとえば、スペクトル減算および／またはＢＳＳオペレーション）の１つまたは複数のしきい値を変化させることによって異なるモードで動作するように実装されることができる。たとえば、コンテキストサプレッサ１１２は、第１のモードでは、雑音抑圧オペレーションを実行するためにしきい値の第１のセットを適用するように構成されていてもよく、第２のモードでは、コンテキスト抑圧オペレーションを実行するためにしきい値の第２のセットを適用するように構成されていてもよい。

プロセス制御信号Ｓ３０は、コンテキストプロセッサ１０４の１つまたは複数の他の要素を制御するために使用されることができる。図４Ｂは、コンテキスト発生器１２０の実装形態１２２がプロセス制御信号Ｓ３０の状態にしたがって動作するように構成されている例を示している。たとえば、プロセス制御信号Ｓ３０の対応する状態にしたがって、使用不能にされるように（たとえば、電力消費を低減するように）コンテキスト発生器１２２を実装するか、あるいはコンテキスト発生器１２２が、発生コンテキスト信号Ｓ５０を生成することを防ぐことが望ましい場合がある。追加的にまたは代替的に、プロセス制御信号Ｓ３０の対応する状態にしたがって、使用不能にされるかまたはバイパスされるようにコンテキストミキサ１９０を実装するか、あるいはコンテキストミキサ１９０が、その入力オーディオ信号を発生コンテキスト信号Ｓ５０と混合することを防ぐことが望ましい場合がある。

上記のように、スピーチ符号化器Ｘ１０は、オーディオ信号Ｓ１０の１つまたは複数の特性にしたがって、２つ以上のフレーム符号化器の中から選択するように構成されていてもよい。同様に、装置Ｘ１００の実装形態内で、コーディング方式選択器２０は、オーディオ信号Ｓ１０、コンテキスト抑圧オーディオ信号Ｓ１３、および／またはコンテキスト強調オーディオ信号Ｓ１５のうちの１つまたは複数の特性にしたがって符号化器選択信号を生成するように、様々に実装されることができる。図５Ａは、これらの信号とスピーチ符号化器Ｘ１０の符号化器選択動作との間の様々な可能な依存性を示している。図６は、コーディング方式選択器２０が、（図５ＡにポイントＢとして示される）コンテキスト抑圧オーディオ信号Ｓ１３の１つまたは複数の特性、たとえば、フレームエネルギー、２つ以上の異なる周波数帯域の各々におけるフレームエネルギー、ＳＮＲ、周期性、スペクトル傾斜、および／またはゼロ交差レートなどに基づいて、符号化器選択信号を生成するように構成されている、装置Ｘ１００の特定の実装形態Ｘ１１０のブロック図を示している。図５Ａおよび図６において示唆される装置Ｘ１００の様々な実装形態はいずれも、（たとえば、図４Ａ、図４Ｂを参照して説明された）プロセス制御信号Ｓ３０の状態および／または（たとえば、図１Ｂを参照して説明された）３つ以上のフレーム符号化器の中の１つの選択にしたがってコンテキストサプレッサ１１０の制御を含むようにも構成されていてもよいことが明確に企図され、本明細書によって開示される。

雑音抑圧とコンテキスト抑圧とを別々のオペレーションとして実行するように装置Ｘ１００を実装することが望ましい場合がある。たとえば、雑音サプレッサ１０を除去することも、使用不能にすることも、バイパスすることもなく、スピーチ符号化器Ｘ２０の既存の実装形態を有するデバイスにコンテキストプロセッサ１００の実装形態を追加することが望ましい場合がある。図５Ｂは、雑音サプレッサ１０を含む装置Ｘ１００の実装形態における、オーディオ信号Ｓ１０に基づく信号とスピーチ符号化器Ｘ２０の符号化器選択動作との間の様々な可能な依存性を示している。図７は、コーディング方式選択器２０が、（図５ＢでポイントＡとして示す）雑音抑圧オーディオ信号Ｓ１２の１つまたは複数の特性、たとえば、フレームエネルギー、２つ以上の異なる周波数帯域の各々におけるフレームエネルギー、ＳＮＲ、周期性、スペクトル傾斜、および／またはゼロ交差レートなどに基づいて、符号化器選択信号を生成するように構成されている装置Ｘ１００の特定の実装形態Ｘ１２０のブロック図を示している。図５Ｂおよび図７に示唆される装置Ｘ１００の様々な実装形態はいずれも、（たとえば、図４Ａ、図４Ｂを参照して説明された）プロセス制御信号Ｓ３０の状態および／または（たとえば、図１Ｂを参照して説明された）３つ以上のフレーム符号化器の中の１つの選択にしたがってコンテキストサプレッサ１１０の制御を含むようにも構成されていてもよいことが、明確に企図され、本明細書によって開示される。

コンテキストサプレッサ１１０は、雑音サプレッサ１０を含むように構成されていることもできる。または、オーディオ信号Ｓ１０に対して雑音抑圧を実行するように選択的に構成されていることもできる。たとえば、装置Ｘ１００は、プロセス制御信号Ｓ３０の状態にしたがって、コンテキスト抑圧（オーディオ信号Ｓ１０から既存のコンテキストがほぼ完全に除去される）または雑音抑圧（既存のコンテキストがほぼ不変のままである）を実行することが望ましい場合がある。一般に、コンテキストサプレッサ１１０は、コンテキスト抑圧を実行する前のオーディオ信号Ｓ１０に対して、および／またはコンテキスト抑圧を実行した後の結果のオーディオ信号に対して、１つまたは複数の他の処理オペレーション（フィルタ処理オペレーションなど）を実行するように構成されていることもできる。

上記のように、既存のスピーチ符号化器は、一般に、低ビットレートおよび／またはＤＴＸを使用して非アクティブフレームを符号化する。したがって、符号化された非アクティブフレームは一般にコンテキスト情報をほとんど含んでいない。コンテキスト選択信号Ｓ４０によって示される特定のコンテキストおよび／またはコンテキスト発生器１２０の特定の実装形態に応じて、発生コンテキスト信号Ｓ５０の音質および情報量は、元のコンテキストのそれよりも大きくなる場合がある。そのような場合、元のコンテキストのみを含む非アクティブフレームを符号化するために使用されるビットレートよりも高いビットレートを使用して、発生コンテキスト信号Ｓ５０を含む非アクティブフレームを符号化することが望ましい場合がある。図８は、少なくとも２つのアクティブフレーム符号化器３０ａ、３０ｂと、コーディング方式選択器２０および選択器５０ａ、５０ｂの対応する実装形態とを含む装置Ｘ１００の実装形態Ｘ１３０のブロック図を示している。この例では、装置Ｘ１３０は、コンテキスト強調信号に基づいて（すなわち、発生コンテキスト信号Ｓ５０がコンテキスト抑圧オーディオ信号に追加された後に）コーディング方式選択を実行するように構成されている。そのような配列は、音声アクティビティの誤った検出をもたらす可能性があるが、コンテキスト強調無音フレームを符号化するためにより高いビットレートを使用するシステムにおいて望ましい場合もある。

２つ以上のアクティブフレーム符号化器ならびに図８を参照して説明されたコーディング方式選択器２０および選択器５０ａ、５０ｂの対応する実装形態の特徴は、本明細書に開示されるような装置Ｘ１００の他の実装形態に含まれてもよいことが明確に示されている。

コンテキスト発生器１２０は、コンテキスト選択信号Ｓ４０の状態にしたがって発生コンテキスト信号Ｓ５０を生成するように構成されている。コンテキストミキサ１９０は、コンテキスト強調オーディオ信号Ｓ１５を生成するためにコンテキスト抑圧オーディオ信号Ｓ１３を発生コンテキスト信号Ｓ５０と混合するように構成および配列されている。１つの例において、コンテキストミキサ１９０は、発生コンテキスト信号Ｓ５０をコンテキスト抑圧オーディオ信号Ｓ１３に追加するように構成されている加算器として実装される。コンテキスト発生器１２０は、コンテキスト抑圧オーディオ信号と互換性のある形式で発生コンテキスト信号Ｓ５０を生成することが望ましい場合がある。装置Ｘ１００の典型的な実装形態において、たとえば、発生コンテキスト信号Ｓ５０とコンテキストサプレッサ１１０によって生成されるオーディオ信号は、両方ともＰＣＭサンプルのシーケンスである。そのような場合において、コンテキストミキサ１９０は、発生コンテキスト信号Ｓ５０およびコンテキスト抑圧オーディオ信号Ｓ１３のサンプルの対応するペアを（場合によってはフレームベースのオペレーションとして）追加するように構成されていてもよいが、異なるサンプリング解像度を有する信号を追加するようにコンテキストミキサ１９０を実装することも可能である。オーディオ信号Ｓ１０は、一般にＰＣＭサンプルのシーケンスとしても実装される。ある場合において、コンテキストミキサ１９０は、コンテキスト強調信号に対して（フィルタ処理オペレーションなどの）１つまたは複数の他の処理オペレーションを実行するように構成されている。

コンテキスト選択信号Ｓ４０は、２つ以上のコンテキストの中の少なくとも１つの選択を示す。１つの例において、コンテキスト選択信号Ｓ４０は、既存のコンテキストの１つまたは複数の特徴に基づくコンテキスト選択を示す。たとえば、コンテキスト選択信号Ｓ４０は、オーディオ信号Ｓ１０の１つまたは複数の非アクティブフレームの１つまたは複数の時間特性および／または周波数特性に関係する情報に基づくことができる。コーディングモード選択器２０は、そのような方法でコンテキスト選択信号Ｓ４０を生成するように構成されていてもよい。代替的に、装置Ｘ１００は、そのような方法でコンテキスト選択信号Ｓ４０を生成するように構成されているコンテキスト分類器３２０（たとえば、図７に示されている）を含むように実装されることができる。たとえば、コンテキスト分類器は、El-Maleh他、「Frame-level Noise Classification in Mobile Environments」、Proc. IEEE Int’l Conf. ASSP、１９９９年、Vol. I、２３７〜２４０ページ、米国特許第６，７８２，３６１号（El-Maleh他）、およびQian他、「Classified Comfort Noise Generation for Efficient Voice Transmission」、Interspeech 2006、Pittsburgh、PA、２２５〜２２８ページに記載されている分類オペレーションなど、既存のコンテキストの線スペクトル周波数（ＬＳＦ）に基づくコンテキスト分類オペレーションを実行するように構成されていることができる。

別の例において、コンテキスト選択信号Ｓ４０は、装置Ｘ１００を含むデバイスの物理的位置に関係する情報（たとえば、全地球測位衛星（ＧＰＳ）システムから得られた情報、三角測量または他の測距オペレーションによって計算された情報、および／または基地局トランシーバまたは他のサーバから受信した情報に基づく）、異なる時間または時間期間を、対応するコンテキストに関連付けるスケジュール、およびユーザが選択したコンテキストモード（ビジネスモード、緩和モード、当事者モードなど）など１つまたは複数の他の判断基準に基づくコンテキスト選択を示す。そのような場合、装置Ｘ１００は、コンテキスト選択器３３０（たとえば、図８に図示されている）を含むように実装されることができる。コンテキスト選択器３３０は、異なるコンテキストを上述の判断基準などの１つまたは複数の変数の対応する値に関連付ける１つまたは複数のインデックスデータ構造（たとえば、テーブル）を含むように実装されることができる。さらなる例において、コンテキスト選択信号Ｓ４０は、２つ以上のコンテキストのリスト中の（たとえば、メニューなどのグラフィカルユーザインターフェースからの）１つのユーザ選択を示す。コンテキスト選択信号Ｓ４０のさらなる例は、上記の例の任意の組合せに基づく信号を含む。

図９Ａは、コンテキストデータベース１３０とコンテキスト発生エンジン１４０とを含むコンテキスト発生器１２０の実装形態１２２のブロック図を示している。コンテキストデータベース１２０は、異なるコンテキストを記述するパラメータ値のセットを記憶するように構成されている。コンテキスト発生エンジン１４０は、コンテキスト選択信号Ｓ４０の状態にしたがって選択される記憶されたパラメータ値のセットにしたがってコンテキストを発生するように構成されている。

図９Ｂは、コンテキスト発生器１２２の実装形態１２４のブロック図を示している。この例において、コンテキスト発生エンジン１４０の実装形態１４４は、コンテキスト選択信号Ｓ４０を受信し、コンテキストデータベース１３０の実装形態１３４からパラメータ値の対応するセットを取り出すように構成されている。図９Ｃは、コンテキスト発生器１２２の別の実装形態１２６のブロック図を示している。この例において、コンテキストデータベース１３０の実装形態１３６は、コンテキスト選択信号Ｓ４０を受信し、パラメータ値の対応するセットをコンテキスト発生エンジン１４０の実装形態１４６に供給するように構成されている。

コンテキストデータベース１３０は、対応するコンテキストを記述するパラメータ値の２つ以上のセットを記憶するように構成されている。コンテキスト発生器１２０の他の実装形態は、（たとえば、ｗｗｗ．ｉｅｔｆ．ｏｒｇにおいてオンラインで入手可能なＲＦＣ３２６１に現在記載されている、セッション開始プロトコル（ＳＩＰ）のバージョンを使用して）サーバなどのコンテンツプロバイダ、または他の非ローカルデータベースから、あるいは（たとえば、Cheng他、「A Collaborative Privacy-Enhanced Alibi Phone」、Proc. Int’l Conf. Grid and Pervasive Computing、４０５〜４１４ページ、台中、台湾、２００６年５月に記載されているように）ピアツーピアネットワークから、選択されたコンテキストに対応するパラメータ値のセットをダウンロードするように構成されているコンテキスト発生エンジン１４０の実装形態を含むことができる。

コンテキスト発生器１２０は、サンプリングされたデジタル信号の形で（たとえば、ＰＣＭサンプルのシーケンスとして）コンテキストを取り出すまたはダウンロードするように構成できる。ただし、ストレージおよび／またはビットレートの制限のために、そのようなコンテキストは典型的な通信セッション（たとえば、電話通話）よりもはるかに短く、同じコンテキストを通話中に何度も繰り返す必要があり、聞き手にとって容認できないほど悩ましい結果をもたらす可能性がある。代替的に、繰り返しの多すぎる結果を回避するために、大容量のストレージおよび／または高ビットレートのダウンロード接続が必要になる可能性がある。

代替的に、コンテキスト発生エンジン１４０は、スペクトルおよび／またはエネルギーパラメータ値のセットなど、取り出されたまたはダウンロードされたパラメータ表現からコンテキストを発生するように構成できる。たとえば、コンテキスト発生エンジン１４０は、ＳＩＤフレーム中に含められる、スペクトル包絡線の記述（たとえば、ＬＳＦ値のベクトル）と励起信号の記述とに基づいて、コンテキスト信号Ｓ５０の複数のフレームを発生するように構成されていることがきる。コンテキスト発生エンジン１４０のそのような実装形態は、発生コンテキストの繰り返しの感覚を低減するためにフレームごとにパラメータ値のセットをランダム化するように構成されていることができる。

コンテキスト発生エンジン１４０は、音テクスチャを記述するテンプレートに基づいて発生コンテキスト信号Ｓ５０を生成することが望ましい場合がある。そのような一例では、コンテキスト発生エンジン１４０は、様々な長さの複数の未加工粒子を含むテンプレートに基づいてグラニュラー合成を実行するように構成される。別の例では、コンテキスト発生エンジン１４０は、カスケード時間周波数線形予測（ＣＴＦＬＰ）分析の時間領域係数および周波数領域係数を含むテンプレートに基づいてＣＴＦＬＰ合成を実行するように構成される（ＣＴＦＬＰ分析では、周波数領域で線形予測を使用して元の信号をモデル化し、次いで周波数領域で線形予測を使用してこの分析の残余をモデル化する）。さらなる例では、コンテキスト発生エンジン１４０は、様々な時間スケールおよび周波数スケールで、少なくとも１つの基底関数の係数（たとえば、Ｄａｕｂｅｃｈｉｅｓスケーリング関数などのスケーリング関数の係数、およびＤａｕｂｅｃｈｉｅｓウェーブレット関数などのウェーブレット関数の係数）を記述する、多重解像度分析（ＭＲＡ）ツリーを含むテンプレートに基づいて多重解像度合成を実行するように構成される。図１０は、平均係数および詳細係数のシーケンスに基づく発生コンテキスト信号Ｓ５０の多重解像度合成の一例を示している。

コンテキスト発生エンジン１４０は、音声通信セッションの予想される長さにしたがって発生コンテキスト信号Ｓ５０を生成することが望ましい場合がある。そのような一例では、コンテキスト発生エンジン１４０は、平均電話通話長にしたがって発生コンテキスト信号Ｓ５０を生成するように構成されている。平均通話長の典型的な値は１〜４分の範囲内にあり、コンテキスト発生エンジン１４０は、ユーザ選択によって変化するデフォルト値（たとえば、２分）を使用するように実装できる。

コンテキスト発生エンジン１４０は、同じテンプレートに基づく複数のまたは多数の異なるコンテキスト信号クリップを含むように、発生コンテキスト信号Ｓ５０を生成することが望ましい場合がある。異なるクリップの所望の数は、デフォルト値に設定するか、または装置Ｘ１００のユーザが選択することができ、この数の典型的な範囲は５〜２０である。そのような一例では、コンテキスト発生エンジン１４０は、平均通話長および異なるクリップの所望の数に基づくクリップ長にしたがって、異なるクリップの各々を計算するように構成される。クリップ長は、一般に、フレーム長よりも１桁、２桁、または３桁大きい。一例では、平均通話長の値は２分であり、異なるクリップの所望の数は１０であり、クリップ長は、２分を１０で割ることによって１２秒と計算される。

そのような場合、コンテキスト発生エンジン１４０は、各々が同じテンプレートに基づき、計算されたクリップ長を有する所望の数の異なるクリップを発生し、これらのクリップを連結するかあるいは組み合わせて、発生コンテキスト信号Ｓ５０を生成するように構成されていることができる。コンテキスト発生エンジン１４０は、必要な場合（たとえば、通信の長さが平均通話長を超える場合）発生コンテキスト信号Ｓ５０を繰り返すように構成されていることができる。音声フレームから非音声フレームへのオーディオ信号Ｓ１０の遷移にしたがって新しいクリップを発生するように、コンテキスト発生エンジン１４０を構成することが望ましい場合がある。

図９Ｄは、コンテキスト発生エンジン１４０の実装形態によって実行できる、発生コンテキスト信号Ｓ５０を生成するための方法Ｍ１００のフローチャートを示している。タスクＴ１００は、平均通話長の値および異なるクリップの所望の数に基づいてクリップ長を計算する。タスクＴ２００は、テンプレートに基づいて所望の数の異なるクリップを発生する。タスクＴ３００は、発生コンテキスト信号Ｓ５０を生成するためにクリップを組み合わせる。

タスクＴ２００は、ＭＲＡツリーを含むテンプレートからコンテキスト信号クリップを発生するように構成されていることができる。たとえば、タスクＴ２００は、テンプレートツリーと統計学的に同様である新しいＭＲＡツリーを発生し、新しいツリーからコンテキスト信号クリップを合成することによって、各クリップを発生するように構成されていることができる。そのような場合、タスクＴ２００は、シーケンスの１つまたは複数の（場合によってはすべての）係数の１つまたは複数（場合によってはすべて）が、同様のアンセスター（すなわち、低分解能のシーケンス中）および／またはプレデセサー（すなわち、同じシーケンス中）を有するテンプレートツリーの他の係数と交換された、テンプレートツリーのコピーとして、新しいＭＲＡツリーを発生するように構成されていることができる。別の例では、タスクＴ２００は、係数値のテンプレートセットのコピーの各値に小さいランダム値を追加することによって計算される係数値の新しいセットから、各クリップを発生するように構成されている。

タスクＴ２００は、オーディオ信号Ｓ１０および／またはそれに基づく信号（たとえば、信号Ｓ１２および／またはＳ１３）の１つまたは複数の特徴にしたがってコンテキスト信号クリップの１つまたは複数（場合によってはすべて）をスケーリングするように構成されていることができる。そのような特徴は、信号レベル、フレームエネルギー、ＳＮＲ、１つまたは複数のメル周波数ケプストラム係数（ＭＦＣＣ）および／または１つまたは複数の信号の音声アクティビティ検出動作の１つまたは複数の結果を含むことができる。タスクＴ２００が、発生したＭＲＡツリーからクリップを合成するように構成されている場合、タスクＴ２００は、発生したＭＲＡツリーの係数に対してそのようなスケーリングを実行するように構成されていてもよい。コンテキスト発生器１２０の実装形態は、タスクＴ２００のそのような実装形態を実行するように構成されていることができる。追加または代替として、タスクＴ３００は、合成された発生コンテキスト信号に対してそのようなスケーリングを実行するように構成されていることができる。コンテキストミキサ１９０の実装形態は、タスクＴ３００のそのような実装形態を実行するように構成されていることができる。

タスクＴ３００は、類似度測度にしたがってコンテキスト信号クリップを組み合わせるように構成されていることができる。タスクＴ３００は、同様のＭＦＣＣベクトルを有するクリップを連結するように（たとえば、候補クリップのセットのＭＦＣＣベクトルの相対的な類似度にしたがってクリップを連結するように）構成されていることができる。たとえば、タスクＴ２００は、組み合わせられたクリップの列にわたって計算された、隣接するクリップのＭＦＣＣベクトル間の総距離を最小限に抑えるように構成されていることができる。タスクＴ２００がＣＴＦＬＰ合成を実行するように構成されている場合、タスクＴ３００は、同様の係数から発生するクリップを連結するかまたは組み合わせるように構成されていてもよい。たとえば、タスクＴ２００は、組み合わせられたクリップの列にわたって計算された、隣接するクリップのＬＰＣ係数間の総距離を最小限に抑えるように構成されていることができる。タスクＴ３００は、同様の境界過渡を有するクリップを連結するように（たとえば、１つのクリップから次のクリップへの可聴不連続性を回避するように）構成されていることもできる。たとえば、タスクＴ２００は、組み合わせられたクリップの列にわたって計算された、隣接するクリップの境界領域上のエネルギー間の総距離を最小限に抑えるように構成されていることができる。これらのいずれの例でも、タスクＴ３００は、連結でなくオーバーラップ加算オペレーションまたはクロスフェードオペレーションを使用して、隣接するクリップを組み合わせるように構成されていることができる。

上述のように、コンテキスト発生エンジン１４０は、低いストレージコストおよび拡張された繰り返しのない発生を可能にするコンパクトな表現形式でダウンロードまたは取り出すことができる音テクスチャの記述に基づいて、発生コンテキスト信号Ｓ５０を生成するように構成されていることができる。そのような技法は、ビデオアプリケーションまたは視聴覚アプリケーションにも適用されることができる。たとえば、装置Ｘ１００のビデオが使用可能な実装形態は、交換背景を記述するパラメータ値のセットに基づいて視聴覚通信の視覚的なコンテキスト（たとえば、背景または照明特性）を強調または交換するために、多重解像度合成オペレーションを実行するように構成されていることができる。

コンテキスト発生エンジン１４０は、通信セッション（たとえば、電話通話）全体にわたってランダムＭＲＡツリーを繰り返し発生するように構成されていることができる。より大きいツリーが発生するためにはより時間がかかることが予想されるので、ＭＲＡツリーの深さは遅延の許容度に基づいて選択できる。別の例では、コンテキスト発生エンジン１４０は、サンプルのより長いシーケンスを得るために、異なるテンプレートを使用して複数の短いＭＲＡツリーを発生し、および／または複数のランダムＭＲＡツリーを選択し、これらのツリーの２つ以上を混合および／または連結するように構成されていることができる。

利得制御信号Ｓ９０の状態にしたがって発生コンテキスト信号Ｓ５０のレベルを制御するように、装置Ｘ１００を構成することが望ましい場合がある。たとえば、場合によっては、発生コンテキスト信号Ｓ５０、または信号Ｓ５０のプリカーサに対して（たとえば、テンプレートツリーの係数、またはテンプレートツリーから発生したＭＲＡツリーの係数に対して）スケーリングオペレーションを実行することによって、コンテキスト発生器１２０（またはコンテキスト発生エンジン１４０など、その要素）は、利得制御信号Ｓ９０の状態にしたがって発生コンテキスト信号Ｓ５０を特定のレベルで生成するように構成されていることができる。別の例において、図１３Ａは、発生コンテキスト信号Ｓ５０に対して、利得制御信号Ｓ９０の状態にしたがってスケーリングオペレーションを実行するように構成されているスケーラ（たとえば、乗算器）を含むコンテキストミキサ１９０の実装形態１９２のブロック図を示している。コンテキストミキサ１９２は、スケーリングされたコンテキスト信号をコンテキスト抑圧オーディオ信号Ｓ１３に追加するように構成された加算器をも含む。

装置Ｘ１００を含むデバイスは、ユーザの選択にしたがって利得制御信号Ｓ９０の状態を設定するように構成されていることができる。たとえば、そのようなデバイスは、発生コンテキスト信号Ｓ５０の所望のレベルをデバイスのユーザが選択することができるボリュームコントロール（たとえば、スイッチまたはノブ、あるいはそのような機能を提供するグラフィカルユーザインターフェース）を備えることができる。この場合、デバイスは、選択されたレベルにしたがって利得制御信号Ｓ９０の状態を設定するように構成されていることができる。別の例では、そのようなボリュームコントロールは、（たとえばコンテキスト抑圧オーディオ信号Ｓ１３の）スピーチ成分のレベルに対する発生コンテキスト信号Ｓ５０の所望のレベルをユーザが選択することを可能にするように構成されていることができる。

図１１Ａは、利得制御信号計算器１９５を含むコンテキストプロセッサ１０２の実装形態１０８のブロック図を示している。利得制御信号計算器１９５は、時間とともに変化する利得制御信号Ｓ９０を信号Ｓ１３のレベルにしたがって計算するように構成されている。たとえば、利得制御信号計算器１９５は、信号Ｓ１３のアクティブフレームの平均エネルギーに基づいて利得制御信号Ｓ９０の状態を設定するように構成されていることができる。そのような場合、追加または代替として、装置Ｘ１００を含むデバイスは、スピーチ成分（たとえば、信号Ｓ１３）またはコンテキスト強調オーディオ信号Ｓ１５のレベルをユーザが直接制御するか、または（たとえば、プリカーサ信号のレベルを制御することによって）そのようなレベルを間接的に制御することを可能にするように構成されるボリュームコントロールを備えることができる。

装置Ｘ１００は、時間とともに変化するオーディオ信号Ｓ１０、Ｓ１２、およびＳ１３の１つまたは複数のレベルに対する発生コンテキスト信号Ｓ５０のレベルを制御するように構成されていることができる。一例では、装置Ｘ１００は、オーディオ信号Ｓ１０の元のコンテキストのレベルにしたがって発生コンテキスト信号Ｓ５０のレベルを制御するように構成されている。装置Ｘ１００のそのような実装形態は、アクティブフレーム中のコンテキストサプレッサ１１０の入力レベルと出力レベルとの間の関係（たとえば、差）にしたがって利得制御信号Ｓ９０を計算するように構成されている利得制御信号計算器１９５の実装形態を含むことができる。たとえば、そのような利得制御計算器は、オーディオ信号Ｓ１０のレベルとコンテキスト抑圧オーディオ信号Ｓ１３のレベルとの間の関係（たとえば、差）にしたがって利得制御信号Ｓ９０を計算するように構成されていることができる。そのような利得制御計算器は、信号Ｓ１０およびＳ１３のアクティブフレームのレベルから計算できるオーディオ信号Ｓ１０のＳＮＲにしたがって、利得制御信号Ｓ９０を計算するように構成されていることができる。そのような利得制御信号計算器は、時間で平滑化（たとえば、平均化）された入力レベルに基づいて利得制御信号Ｓ９０を計算するように構成されていることができ、および／または時間で平滑化（たとえば、平均化）された利得制御信号Ｓ９０を出力するように構成されていることができる。

別の例では、装置Ｘ１００は、所望のＳＮＲにしたがって発生コンテキスト信号Ｓ５０のレベルを制御するように構成される。スピーチ成分（たとえば、コンテキスト抑圧オーディオ信号Ｓ１３）のレベルとコンテキスト強調オーディオ信号Ｓ１５のアクティブフレームにおける発生コンテキスト信号Ｓ５０のレベルとの間の比として特徴づけられるＳＮＲは、「信号対コンテキスト比」と呼ばれることもある。所望のＳＮＲ値は、ユーザが選択でき、および／または発生コンテキストごとに変化する。たとえば、異なる発生コンテキスト信号Ｓ５０を異なる対応する所望のＳＮＲ値に関連付けることができる。所望のＳＮＲ値の典型的な範囲は２０〜２５ｄＢである。別の例では、装置Ｘ１００は、発生コンテキスト信号Ｓ５０（たとえば、背景信号）のレベルをコンテキスト抑圧オーディオ信号Ｓ１３（たとえば、前景信号）のレベル未満になるように制御するように構成されている。

図１１Ｂは、利得制御信号計算器１９５の実装形態１９７を含むコンテキストプロセッサ１０２の実装形態１０９のブロック図を示している。利得制御計算器１９７は、（Ａ）所望のＳＮＲ値と、（Ｂ）信号Ｓ１３とＳ５０とのレベル間の比との間の関係にしたがって利得制御信号Ｓ９０を計算するように設定および構成されている。一例では、比が所望のＳＮＲ値よりも小さい場合は、コンテキストミキサ１９２は、利得制御信号Ｓ９０の対応する状態により発生コンテキスト信号Ｓ５０をより高いレベルで混合し（たとえば、コンテキスト抑圧信号Ｓ１３に発生コンテキスト信号Ｓ５０を追加する前に発生コンテキスト信号Ｓ５０のレベルを上げ）、比が所望のＳＮＲ値よりも大きい場合は、コンテキストミキサ１９２は、利得制御信号Ｓ９０の対応する状態により発生コンテキスト信号Ｓ５０をより低いレベルで混合する（たとえば、信号Ｓ１３に信号Ｓ５０を追加する前に信号Ｓ５０のレベルを下げる）。

上述のように、利得制御信号計算器１９５は、１つまたは複数の入力信号（たとえば、Ｓ１０、Ｓ１３、Ｓ５０）の各々のレベルにしたがって利得制御信号Ｓ９０の状態を計算するように構成されている。利得制御信号計算器１９５は、１つまたは複数のアクティブフレームにわたって平均化された信号の振幅として入力信号のレベルを計算するように構成されていることができる。代替的に、利得制御信号計算器１９５は、１つまたは複数のアクティブフレームにわたって平均化された信号のエネルギーとして入力信号のレベルを計算するように構成されていることができる。一般に、フレームのエネルギーはフレームのサンプルの平方和として計算される。計算されたレベルおよび／または利得制御信号Ｓ９０の１つまたは複数をフィルタ処理する（たとえば、平均化または平滑化する）ように利得制御信号計算器１９５を構成することが望ましい場合がある。たとえば、平均エネルギーを使用して利得制御信号Ｓ９０を計算するために、（たとえば、信号の計算されたフレームエネルギーに１次または高次の有限インパルス応答フィルタまたは無限インパルス応答フィルタを適用することによって）Ｓ１０またはＳ１３などの入力信号のフレームエネルギーの移動平均を計算するように、利得制御信号計算器１９５を構成することが望ましい場合がある。同様に、利得制御信号Ｓ９０をコンテキストミキサ１９２および／またはコンテキスト発生器１２０に出力する前に利得制御信号Ｓ９０にそのようなフィルタを適用するように、利得制御信号計算器１９５を構成することが望ましい場合がある。

オーディオ信号Ｓ１０のコンテキスト成分のレベルはスピーチ成分のレベルとは無関係に変化することが可能であり、そのような場合、それに応じて発生コンテキスト信号Ｓ５０のレベルを変化させることが望ましい場合がある。たとえば、コンテキスト発生器１２０は、オーディオ信号Ｓ１０のＳＮＲにしたがって発生コンテキスト信号Ｓ５０のレベルを変化させるように構成されていることができる。そのような方法で、コンテキスト発生器１２０は、オーディオ信号Ｓ１０において元のコンテキストのレベルに近似するように発生コンテキスト信号Ｓ５０のレベルを制御するように構成されていることができる。

スピーチ成分とは無関係であるコンテキスト成分の錯覚を維持するために、信号レベルが変化しても一定のコンテキストレベルを維持することが望ましい場合がある。たとえば、マイクロホンに対する話し手の口の配向の変化により、または音量調節や別の表現効果など、話し手の声の変化により、信号レベルの変化が起こる可能性がある。そのような場合、発生コンテキスト信号Ｓ５０のレベルが通信セッション（たとえば、電話通話）の持続時間中一定のままであることが望ましい場合がある。

本明細書で説明する装置Ｘ１００の実装形態は、音声通信またはストレージ用に構成された任意のタイプのデバイス中に含めることができる。そのようなデバイスの例は、電話、セルラー電話、ヘッドセット（たとえば、Ｂｌｕｅｔｏｏｔｈ（商標）ワイヤレスプロトコルのバージョンを介してモバイルユーザ端末と全二重で通信するように構成されたイヤホン）、携帯情報端末（ＰＤＡ）、ラップトップコンピュータ、音声レコーダ、ゲームプレーヤ、音楽プレーヤ、デジタルカメラを含むことができるが、それらに限定されない。デバイスは、本明細書で説明する装置Ｘ１００の実装形態が、デバイスの送信機またはトランシーバ部分に含まれるか、またはその部分に符号化オーディオ信号Ｓ２０を供給するように構成できるような、ワイヤレス通信用のモバイルユーザ端末として構成することもできる。

有線および／またはワイヤレス電話のためのシステムなど、音声通信のためのシステムは、一般にいくつかの送信機および受信機を含む。送信機と受信機は、トランシーバとして一体化するかあるいは共通のハウジング内に一緒に実装することができる。十分な利用可能な処理、ストレージ、およびアップグレード性を有する送信機またはトランシーバへのアップグレードとして装置Ｘ１００を実装することが望ましい場合がある。たとえば、装置Ｘ１００の実装形態は、スピーチ符号化器Ｘ１０の実装形態をすでに含むデバイスに（たとえば、ファームウェア更新で）コンテキストプロセッサ１００の要素を追加することによって実現できる。場合によっては、そのようなアップグレードは、通信システムの他の一部を改変することなく実行できる。たとえば、受信機への対応する変更を行うことなく、装置Ｘ１００の実装形態を含む通信システムの１つまたは複数の送信機（たとえば、ワイヤレスセルラー電話通信用システムの１つまたは複数のモバイルユーザ端末の各々の送信機部分）をアップグレードすることが望ましい場合がある。得られたデバイスが後方互換性を保つような（たとえば、デバイスが、コンテキストプロセッサ１００の使用を含まないその前の動作のすべてまたはほぼすべてを実行することが可能であるような）方法でアップグレードを実行することが望ましい場合がある。

符号化オーディオ信号Ｓ２０に発生コンテキスト信号Ｓ５０を挿入するために装置Ｘ１００の実装形態が使用される場合、話し手（すなわち、装置Ｘ１００の実装形態を含むデバイスのユーザ）が送信を監視することが可能であることが望ましい場合がある。たとえば、発生コンテキスト信号Ｓ５０および／またはコンテキスト強調オーディオ信号Ｓ１５を話し手が聴取することができることが望ましい場合がある。そのような機能は、発生コンテキスト信号Ｓ５０が既存のコンテキストと異なる場合に、特に望ましい場合がある。

したがって、装置Ｘ１００の実装形態を含むデバイスは、発生コンテキスト信号Ｓ５０およびコンテキスト強調オーディオ信号Ｓ１５のうちの少なくとも１つを、デバイスのハウジング内に配置されたイヤホン、スピーカ、もしくは他のオーディオトランスデューサに対して、デバイスのハウジング内に配置されたオーディオ出力ジャックに対して、および／またはデバイスのハウジング内に配置された短距離ワイヤレス送信機（たとえば、ＢｌｕｅｔｏｏｔｈＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ（ワシントン州ベルビュー）によって公表されたＢｌｕｅｔｏｏｔｈプロトコル、および／または別のパーソナルエリアネットアークプロトコルのバージョンに準拠する送信機）に対してフィードバックするように構成されていることができる。そのようなデバイスは、発生コンテキスト信号Ｓ５０またはコンテキスト強調オーディオ信号Ｓ１５からアナログ信号を生成するように設定および構成されているデジタルアナログ変換器（ＤＡＣ）を含むことができる。そのようなデバイスは、アナログ信号がジャックおよび／またはトランスデューサに印加される前に、そのアナログ信号に対して１つまたは複数のアナログ処理オペレーション（たとえば、フィルタ処理、等化、および／または増幅）を実行するように構成されていることもできる。そのようなＤＡＣおよび／またはアナログ処理経路を含むように装置Ｘ１００を構成することは、可能であるが必要ではない。

音声通信の復号器側において（たとえば、受信機において、または検索時に）は、上述の符号化器側の技法と同様の方法で、既存のコンテキストを交換または強調することが望ましい場合がある。また、対応する送信機または符号化装置への改変を必要とすることなく、そのような技法を実装することが望ましい場合がある。

図１２Ａは、符号化オーディオ信号Ｓ２０を受信し、対応する復号オーディオ信号Ｓ１１０を生成するように構成されているスピーチ復号器Ｒ１０のブロック図を示している。スピーチ復号器Ｒ１０は、コーディング方式検出器６０、アクティブフレーム復号器７０、および非アクティブフレーム復号器８０を含む。符号化オーディオ信号Ｓ２０は、スピーチ符号化器Ｘ１０によって生成されるデジタル信号である。アクティブフレーム復号器７０が、アクティブフレーム符号化器３０によって符号化されたフレームを復号するように構成され、非アクティブフレーム復号器８０が、非アクティブフレーム符号化器４０によって符号化されたフレームを復号するように構成されるように、復号器７０および８０を、上述のようにスピーチ符号化器Ｘ１０の符号化器に対応するように構成することができる。スピーチ復号器Ｒ１０は、一般に、復号オーディオ信号Ｓ１１０を処理して、（たとえば、フォルマント周波数を強調すること、および／またはスペクトルの谷を減衰させることによって）量子化雑音を低減するように構成されたポストフィルタをも含み、適応利得制御をも含むことができる。復号器Ｒ１０を含むデバイスは、デバイスのハウジング内に配置されたイヤホン、スピーカ、もしくは他のオーディオトランスデューサ、および／またはオーディオ出力ジャックに出力するアナログ信号を復号オーディオ信号Ｓ１１０から生成するように設定および構成されているデジタルアナログ変換器（ＤＡＣ）を含むことができる。そのようなデバイスは、アナログ信号がジャックおよび／またはトランスデューサに印加される前に、そのアナログ信号に対して１つまたは複数のアナログ処理オペレーション（たとえば、フィルタ処理、等化、および／または増幅）を実行するように構成されていることもできる。

コーディング方式検出器６０は、符号化オーディオ信号Ｓ２０の現在フレームに対応するコーディング方式を指示するように構成されている。適切なコーディングビットレートおよび／またはコーディングモードをフレームのフォーマットによって指示することができる。コーディング方式検出器６０は、レート検出を実行するように、または多重サブレイヤなど、スピーチ復号器Ｒ１０が埋め込まれている装置の別の部分からレート指示を受信するように構成されていることができる。たとえば、コーディング方式検出器６０は、ビットレートを指示するパケットタイプインジケータを多重サブレイヤから受信するように構成されていることができる。代替として、コーディング方式検出器６０は、フレームエネルギーなどの１つまたは複数のパラメータから、符号化フレームのビットレートを判断するように構成されていることができる。適用例によっては、コーディングシステムは、符号化フレームのビットレートがまたコーディングモードを指示するように、特定のビットレートに対して１つのコーディングモードのみを使用するように構成されている。他の場合には、符号化フレームは、どのフレームが符号化されたかにしたがってコーディングモードを識別する１つまたは複数のビットのセットなどの情報を含むことができる。そのような情報（「コーディングインデックス」とも呼ばれる）は、（たとえば、他の可能なコーディングモードには無効である値を指示することによって）明示的にまたは暗示的にコーディングモードを指示することができる。

図１２Ａは、コーディング方式検出器６０によって生成されたコーディング方式指示を使用して、アクティブフレーム復号器７０および非アクティブフレーム復号器８０のうちの１つを選択するようにスピーチ復号器Ｒ１０の１対の選択器９０ａと９０ｂを制御する一例を示している。スピーチ復号器Ｒ１０のソフトウェアまたはファームウェア実装形態は、実行のフローをフレーム復号器の１つまたは別の１つに導くためにコーディング方式指示を使用することができ、そのような実装形態は、選択器９０ａおよび／または選択器９０ｂの類似物を含まないことがあることに留意されたい。図１２Ｂは、複数のコーディング方式で符号化されたアクティブフレームの復号をサポートするスピーチ復号器Ｒ１０の実装形態Ｒ２０の一例を示しており、この特徴は、本明細書で説明する他のスピーチ復号器実装形態のいずれかに含めることができる。スピーチ復号器Ｒ２０は、コーディング方式検出器６０の実装形態６２と、選択器９０ａ、９０ｂの実装形態９２ａ、９２ｂと、様々なコーディング方式（たとえば、フルレートＣＥＬＰおよびハーフレートＮＥＬＰ）を使用して符号化フレームを復号するように構成されたアクティブフレーム復号器７０の実装形態７０ａ、７０ｂとを含む。

アクティブフレーム復号器７０または非アクティブフレーム復号器８０の典型的な実装形態は、（たとえば、逆量子化の後に、逆量子化された１つまたは複数のベクトルをＬＰＣ係数値形式に変換することによって）符号化フレームからＬＰＣ係数値を抽出し、それらの値を使用して合成フィルタを構成するように構成されている。符号化フレームからの他の値にしたがっておよび／または擬似ランダム雑音信号に基づいて計算されたまたは発生した励起信号を使用して、その合成フィルタを励起して対応する復号フレームを再生成する。

フレーム復号器のうちの２つ以上は共通の構造を共有することができることに留意されたい。たとえば、復号器７０および８０（または復号器７０ａ、７０ｂおよび８０）は、場合によっては、アクティブフレームでは非アクティブフレームとは異なる次数を有する結果を生成するように構成されているＬＰＣ係数値の計算器を共有することができるが、それぞれ異なる時間記述計算器を有することができる。また、スピーチ復号器Ｒ１０のソフトウェアまたはファームウェア実装形態は、実行のフローをフレーム復号器の１つまたは別の１つに導くためにコーディング方式検出器６０の出力を使用することができ、そのような実装形態は、選択器９０ａおよび／または選択器９０ｂの類似物を含まないことがあることに留意されたい。

図１３Ｂは、一般的な構成による装置Ｒ１００（復号器、復号装置、または復号するための装置とも呼ばれる）のブロック図を示している。装置Ｒ１００は、復号オーディオ信号Ｓ１１０から既存のコンテキストを除去し、そのコンテキストを、既存のコンテキストと同様のまたは既存のコンテキストとは異なる発生コンテキストと交換するように構成されている。スピーチ復号器Ｒ１０の要素に加えて、装置Ｒ１００は、オーディオ信号Ｓ１１０を処理して、コンテキスト強調オーディオ信号Ｓ１１５を生成するように設定および構成されたコンテキストプロセッサ１００の実装形態２００を含む。セルラー電話などの装置Ｒ１００を含む通信デバイスは、（たとえば、１つまたは複数の搬送波の高周波復調によって）有線、ワイヤレス、または光学送信チャネルから受信された信号に対して、誤り訂正、冗長性、および／またはプロトコル（たとえば、イーサネット、ＴＣＰ／ＩＰ、ＣＤＭＡ２０００）コーディングなどの処理オペレーションを実行して、符号化オーディオ信号Ｓ２０を得るように構成されていることができる。

図１４Ａに示すように、コンテキストプロセッサ２００は、コンテキストサプレッサ１１０のインスタンス２１０と、コンテキスト発生器１２０のインスタンス２２０と、コンテキストミキサ１９０のインスタンス２９０とを含むように構成されていることができ、そのようなインスタンスは、図３Ｂおよび図４Ｂを参照しながら上述した様々な実装形態のいずれかにしたがって構成されている（複数のマイクロホンからの信号を上述のように使用するコンテキストサプレッサ１１０の実装形態は、装置Ｒ１００での使用には適さないことがあるという例外がある）。たとえば、コンテキストプロセッサ２００は、雑音サプレッサ１０を参照しながら上述したように、オーディオ信号Ｓ１１０に対するウィーナーフィルタ処理オペレーションなどの雑音抑圧オペレーションの積極的な実装を実行して、コンテキスト抑圧オーディオ信号Ｓ１１３を得るように構成されているコンテキストサプレッサ１１０の実装形態を含むことができる。別の例では、コンテキストプロセッサ２００は、既存のコンテキストについての（たとえば、オーディオ信号Ｓ１１０の１つまたは複数の非アクティブフレームについての）統計的記述にしたがって、上述のようにオーディオ信号Ｓ１１０に対してスペクトル減算オペレーションを実行して、コンテキスト抑圧オーディオ信号Ｓ１１３を得るように構成されているコンテキストサプレッサ１１０の実装形態を含む。そのような場合のいずれかの追加または代替として、コンテキストプロセッサ２００は、上述のようにオーディオ信号Ｓ１１０に対してセンタークリッピングオペレーションを実行するように構成されていることができる。

コンテキストサプレッサ１００を参照しながら上述したように、２つ以上の異なる動作モードの間（たとえば、コンテキスト抑圧なしから、ほぼ完全なコンテキスト抑圧までの範囲）で構成可能なコンテキストサプレッサ２００を実装することが望ましい場合がある。図１４Ｂは、プロセス制御信号Ｓ３０のインスタンスＳ１３０の状態にしたがって動作するように構成されている、それぞれ、コンテキストサプレッサ１１２およびコンテキスト発生器１２２のインスタンス２１２および２２２を含む装置Ｒ１００の実装形態Ｒ１１０のブロック図を示している。

コンテキスト発生器２２０は、コンテキスト選択信号Ｓ４０のインスタンスＳ１４０の状態にしたがって、発生コンテキスト信号Ｓ５０のインスタンスＳ１５０を生成するように構成されている。２つ以上のコンテキストうちの少なくとも１つの選択を制御するコンテキスト選択信号Ｓ１４０の状態は、装置Ｒ１００を含むデバイスの（たとえば、上述のようにＧＰＳおよび／または他の情報に基づく）物理的位置に関係する情報、様々な時間または時間期間を対応するコンテキストに関連付けるスケジュール、発呼者の識別情報（たとえば、「自動番号識別」（ＡＮＩ）または発呼者ＩＤシグナリングとも呼ばれる発呼番号識別（ＣＮＩＤ）によって判断される）、ユーザ選択の設定またはモード（ビジネスモード、緩和モード、当事者モードなど）、および／または（たとえば、メニューなどのグラフィカルユーザインターフェースを介する）２つ以上のコンテキストのリストの１つのユーザ選択などの１つまたは複数の基準に基づくことができる。たとえば、装置Ｒ１００は、そのような基準の値を様々なコンテキストに関連付けるコンテキスト選択器３３０のインスタンスを上述のように含むように実装することができる。別の例では、装置Ｒ１００は、オーディオ信号Ｓ１１０の既存のコンテキストの１つまたは複数の特性（たとえば、オーディオ信号Ｓ１１０の１つまたは複数の非アクティブフレームの１つまたは複数の時間および／または周波数特性に関係する情報）に基づいてコンテキスト選択信号Ｓ１４０を発生するように構成されていたコンテキスト分類器３２０のインスタンスを上述のように含むように実装される。コンテキスト発生器２２０は、上述のようにコンテキスト発生器１２０の様々な実装形態のいずれかにしたがって構成されていることができる。たとえば、コンテキスト発生器２２０は、選択されたコンテキストを記述するパラメータ値をローカル記憶装置から検索するか、またはそのようなパラメータ値を（たとえば、ＳＩＰによって）サーバなどの外部デバイスからダウンロードするように構成することができる。コンテキスト発生器２２０は、コンテキスト選択信号Ｓ５０の生成の開始および終了を、それぞれ、通信セッション（たとえば、電話通話）の開始および終了と同期させるように構成することが望ましい場合がある。

プロセス制御信号Ｓ１３０は、コンテキスト抑圧を使用可能または使用不能にする（すなわち、オーディオ信号Ｓ１１０の既存のコンテキストまたは交換コンテキストのいずれかを有するオーディオ信号を出力する）ようにコンテキストサプレッサ２１２の動作を制御する。図１４Ｂに示すように、プロセス制御信号Ｓ１３０はまた、コンテキスト発生器２２２を使用可能または使用不能にするように構成することができる。代替的に、コンテキスト選択信号Ｓ１４０は、コンテキスト発生器２２０によるヌル出力を選択する状態を含むように構成されていることができ、または、コンテキストミキサ２９０は、上記のコンテキストミキサ１９０を参照しながら説明したように、プロセス制御信号Ｓ１３０を使用可能／使用不能制御入力として受信するように構成されていることができる。プロセス制御信号Ｓ１３０は、それを使用してコンテキストサプレッサ２１２によって実行される抑圧のレベルを変更することができるように、２つ以上の状態を有するように実装することができる。装置Ｒ１００のさらなる実装形態は、受信機における周囲の音のレベルにしたがって、コンテキスト抑圧のレベルおよび／または発生コンテキスト信号Ｓ１５０のレベルを制御するように構成されていることができる。たとえば、そのような実装形態は、（たとえば、装置Ｒ１００を含むデバイスのマイクロホンからの信号を使用して感知された）周囲の音のレベルに反比例して、オーディオ信号Ｓ１１５のＳＮＲを制御するように構成されていることができる。また、人工コンテキストの使用が選択されたとき、非アクティブフレーム復号器８０の電源が切断されることがあることに明確に留意されたい。

一般に、装置Ｒ１００は、適切なコーディング方式にしたがって各フレームを復号し、（場合によっては可変の程度だけ）既存のコンテキストを抑圧し、発生コンテキスト信号Ｓ１５０をあるレベルにしたがって追加することによって、アクティブフレームを処理するように構成されていることができる。非アクティブフレームの場合、装置Ｒ１００は、各フレーム（または各ＳＩＤフレーム）を復号し、発生コンテキスト信号Ｓ１５０を追加するように実装することができる。代替的に、装置Ｒ１００は、非アクティブフレームを無視または廃棄し、その非アクティブフレームを発生コンテキスト信号Ｓ１５０と交換するように実装することができる。たとえば、図１５に、コンテキスト抑圧が選択されたときに、非アクティブフレーム復号器８０の出力を廃棄するように構成されている装置Ｒ２００の実装形態を示す。この例は、プロセス制御信号Ｓ１３０の状態にしたがって、発生コンテキスト信号Ｓ１５０および非アクティブフレーム復号器８０の出力のうちの１つを選択するように構成されている選択器２５０を含む。

装置Ｒ１００のさらなる実装形態は、復号オーディオ信号の１つまたは複数の非アクティブフレームからの情報を使用して、アクティブフレームにおけるコンテキスト抑圧のためにコンテキストサプレッサ２１０によって適用される雑音モデルを改善するように構成されていることができる。追加的または代替的に、装置Ｒ１００のそのようなさらなる実装形態は、復号オーディオ信号の１つまたは複数の非アクティブフレームからの情報を使用して、発生コンテキスト信号Ｓ１５０のレベルを制御する（たとえば、コンテキスト強調オーディオ信号Ｓ１１５のＳＮＲを制御する）ように構成されていることができる。装置Ｒ１００はまた、復号オーディオ信号の非アクティブフレームからのコンテキスト情報を使用して、復号オーディオ信号の１つまたは複数のアクティブフレームおよび／または復号オーディオ信号の１つまたは複数の他の非アクティブフレーム内の既存のコンテキストを補うように実装することができる。たとえば、そのような実装形態は、送信機におけるあまりに積極的な雑音抑圧および／または不十分なコーディングレートまたはＳＩＤ送信レートなどのファクタにより失われた既存のコンテキストを交換するために使用することができる。

上記のように、装置Ｒ１００は、符号化オーディオ信号Ｓ２０を生成する符号化器による動作および／またはその符号化器の改変なしにコンテキスト強調または交換を実行するように構成されていることができる。装置Ｒ１００のそのような実装形態は、そこから信号Ｓ２０が受信される対応する送信機による動作および／またはその送信機の改変なしにコンテキスト強調または交換を実行するように構成されている受信機内に含めることができる。代替的に、装置Ｒ１００は、（たとえば、ＳＩＰサーバから）コンテキストパラメータ値を独立してまたは符号化器制御にしたがってダウンロードするように構成されていることができ、および／またはそのような受信機は、（たとえば、ＳＩＰサーバから）コンテキストパラメータ値を独立してまたは送信機制御にしたがってダウンロードするように構成されていることができる。そのような場合、ＳＩＰサーバまたは他のパラメータ値ソースは、符号化器または送信機によるコンテキスト選択が、復号器または受信機によるコンテキスト選択に優先するように構成されていることができる。

コンテキスト強調および／または交換の動作において協働するスピーチ符号化器および復号器は、本明細書で説明する原理にしたがって（たとえば、装置Ｘ１００およびＲ１００の実装形態にしたがって）実装することが望ましい場合がある。そのようなシステム内で、所望のコンテキストを示す情報は、いくつかの異なる形態のいずれかで復号器に転送することができる。第１のクラスの例では、コンテキスト情報は、ＬＳＦ値のベクトルやエネルギー値の対応するシーケンス（たとえば、無音記述子またはＳＩＤ）などの、または（図１０のＭＲＡツリーの例に示す）平均シーケンスや詳細シーケンスの対応するセットなどの、パラメータ値のセットを含む記述として転送される。パラメータ値のセット（たとえば、ベクトル）は、１つまたは複数のコードブックインデックスとして送信するために量子化することができる。

第２のクラスの例では、コンテキスト情報は、１つまたは複数のコンテキスト識別子（「コンテキスト選択情報」とも呼ばれる）として、復号器に転送される。コンテキスト識別子は、２つ以上の様々なオーディオコンテキストのリスト中の特定のエントリに対応するインデックスとして実装することができる。そのような場合、（復号器にローカルにまたは復号器の外部に記憶することができる）インデックス付きリストエントリは、パラメータ値のセットを含む、対応するコンテキストの記述を含むことができる。１つまたは複数のコンテキスト識別子の追加または代替として、オーディオコンテキスト選択情報は、符号化器の物理的位置および／またはコンテキストモードを示す情報を含むことができる。

これらのクラスのいずれかにおいて、コンテキスト情報は、直接的におよび／または間接的に符号化器から復号器に転送することができる。直接的な送信では、符号化器は、符号化オーディオ信号Ｓ２０内で（すなわち、スピーチ成分と同じ論理チャネルによって、同じプロトコルスタックを介して）、および／または別個の送信チャネル（たとえば、異なるプロトコルを使用することができるデータチャネルまたは他の別個の論理チャネル）によって、コンテキスト情報を復号器に送信する。図１６は、選択されたオーディオコンテキストについてのスピーチ成分および符号化（たとえば、量子化された）パラメータ値を、様々な論理チャネルによって（たとえば、同じワイヤレス信号内で、または異なる信号内で）送信するように構成されている装置Ｘ１００の実装形態Ｘ２００のブロック図を示している。この特定の例では、装置Ｘ２００は、上述のようにプロセス制御信号発生器３４０のインスタンスを含む。

図１６に示す装置Ｘ２００の実装形態は、コンテキスト符号化器１５０を含む。この例では、コンテキスト符号化器１５０は、コンテキスト記述（たとえば、コンテキストパラメータ値Ｓ７０のセット）に基づく符号化コンテキスト信号Ｓ８０を生成するように構成されている。コンテキスト符号化器１５０は、特定の適用例に適していると思われる任意のコーディング方式にしたがって、符号化コンテキスト信号Ｓ８０を生成するように構成することができる。そのようなコーディング方式は、ハフマンコーディング、算術コーディング、領域符号化、ランレングス符号化などの１つまたは複数の圧縮動作を含むことができる。そのようなコーディング方式は、不可逆的および／または可逆的とすることができる。そのようなコーディング方式は、固定長を有する結果および／または可変長を有する結果を生成するように構成されていることができる。そのようなコーディング方式は、コンテキスト記述の少なくとも一部分を量子化することを含むことができる。

コンテキスト符号化器１５０は、（たとえば、トランスポートおよび／またはアプリケーションレイヤにおいて）コンテキスト情報のプロトコル符号化を実行するように構成されていることもできる。そのような場合、コンテキスト符号化器１５０は、パケット形成および／またはハンドシェーキングなどの１つまたは複数の関連する動作を実行するように構成されていることができる。さらには、コンテキスト符号化器１５０のそのような実装形態は、他の符号化動作を実行することなくコンテキスト情報を送信するように構成されていることが望ましい場合がある。

図１７は、選択されたコンテキストを識別または記述する情報を、オーディオ信号Ｓ１０の非アクティブフレームに対応する符号化オーディオ信号Ｓ２０のフレーム周期に符号化するように構成されている、装置Ｘ１００の別の実装形態Ｘ２１０のブロック図を示している。本明細書では、そのようなフレーム周期を「符号化オーディオ信号Ｓ２０の非アクティブフレーム」とも呼ぶ。場合によっては、コンテキスト発生のために、選択されたコンテキストの記述の十分な量が受信されるまで、復号器において遅延が生じることがある。

関連する例では、装置Ｘ２１０は、復号器においてローカルに記憶されている、および／または（たとえば、呼セットアップ中に）サーバなどの別のデバイスからダウンロードされるコンテキスト記述に対応する最初のコンテキスト識別子を送信するように構成されており、また、（たとえば、符号化オーディオ信号Ｓ２０の非アクティブフレームにわたって）そのコンテキスト記述に後続の更新を送信するように構成されている。図１８は、オーディオコンテキスト選択情報（たとえば、選択されたコンテキストの識別子）を、符号化オーディオ信号Ｓ２０の非アクティブフレームに符号化するように構成されている、装置Ｘ１００の関連する実装形態Ｘ２２０のブロック図を示している。そのような場合、装置Ｘ２２０は、通信セッションの過程において、フレームごとにさえ、コンテキスト識別子を更新するように構成されていることができる。

図１８に示す装置Ｘ２２０の実装形態は、コンテキスト符号化器１５０の実装形態１５２を含む。コンテキスト符号化器１５２は、オーディオコンテキスト選択情報（たとえば、コンテキスト選択信号Ｓ４０）に基づく符号化コンテキスト信号Ｓ８０のインスタンスＳ８２を生成するように構成されており、オーディオコンテキスト選択情報は、１つまたは複数のコンテキスト識別子、ならびに／あるいは物理的位置および／またはコンテキストモードの指示などの他の情報を含むことができる。コンテキスト符号化器１５０を参照しながら上述したように、コンテキスト符号化器１５２は、特定の適用例に適していると思われる任意のコーディング方式にしたがって、符号化コンテキスト信号Ｓ８２を生成するように構成されていることができ、および／またはコンテキスト選択情報のプロトコル符号化を実行するように構成されていることができる。

コンテキスト情報を符号化オーディオ信号Ｓ２０の非アクティブフレームに符号化するように構成されている装置Ｘ１００の実装形態は、各非アクティブフレーム内でまたは不連続的にそのようなコンテキスト情報を符号化するように構成されていることができる。不連続送信（ＤＴＸ）の一例では、装置Ｘ１００のそのような実装形態は、５秒または１０秒ごと、あるいは１２８フレームまたは２５６フレームごとなどの規則的な間隔にしたがって、選択されたコンテキストを識別または記述する情報を、符号化オーディオ信号Ｓ２０の１つまたは複数の非アクティブフレームのシーケンスに符号化するように構成されている。不連続送信（ＤＴＸ）の別の例では、装置Ｘ１００のそのような実装形態は、異なるコンテキストの選択などのあるイベントにしたがって、そのような情報を符号化オーディオ信号Ｓ２０の１つまたは複数の非アクティブフレームのシーケンスに符号化するように構成されている。

装置Ｘ２１０およびＸ２２０は、プロセス制御信号Ｓ３０の状態にしたがって、既存のコンテキストの符号化（すなわち、レガシー動作）またはコンテキスト交換のいずれかを実行するように構成されている。これらの場合、符号化オーディオ信号Ｓ２０は、非アクティブフレームが既存のコンテキストを含むのか、交換コンテキストに関係する情報を含むのかを指示するフラグ（たとえば、場合によっては各非アクティブフレーム中に含まれる１つまたは複数のビット）を含むことができる。図１９および図２０は、非アクティブフレーム中の既存のコンテキストの送信のためのサポートなしに構成されている対応する装置（それぞれ、装置Ｘ３００および装置Ｘ３００の実装形態Ｘ３１０）のブロック図を示している。図１９の例では、アクティブフレーム符号化器３０は、第１の符号化オーディオ信号Ｓ２０ａを生成するように構成されており、コーディング方式選択器２０は、符号化コンテキスト信号Ｓ８０を第１の符号化オーディオ信号Ｓ２０ａの非アクティブフレームに挿入するように選択器５０ｂを制御して、第２の符号化オーディオ信号Ｓ２０ｂを生成するように構成されている。図２０の例では、アクティブフレーム符号化器３０は、第１の符号化オーディオ信号Ｓ２０ａを生成するように構成されており、コーディング方式選択器２０は、符号化コンテキスト信号Ｓ８２を第１の符号化オーディオ信号Ｓ２０ａの非アクティブフレームに挿入するように選択器５０ｂを制御して、第２の符号化オーディオ信号Ｓ２０ｂを生成するように構成されている。そのような例では、アクティブフレーム符号化器３０は、第１の符号化オーディオ信号２０ａをパケット化された形態で（たとえば、一連の符号化フレームとして）生成するように構成することが望ましい場合がある。そのような場合、コーディング方式選択器２０によって指示されるように、コンテキスト抑圧信号の非アクティブフレームに対応する第１の符号化オーディオ信号Ｓ２０ａのパケット（たとえば、符号化フレーム）内の適切な位置において符号化コンテキスト信号を挿入するように、選択器５０ｂを構成するか、あるいは、コーディング方式選択器２０によって指示されるように、第１の符号化オーディオ信号Ｓ２０ａ内の適切な位置においてコンテキスト符号化器１５０または１５２によって生成されたパケット（たとえば、符号化フレーム）を挿入するように、選択器５０ｂを構成することができる。上記のように、符号化コンテキスト信号Ｓ８０は、選択されたオーディオコンテキストを記述するパラメータ値のセットなどの符号化コンテキスト信号Ｓ８０に関係する情報を含むことができ、符号化コンテキスト信号Ｓ８２は、オーディオコンテキストのセットのうちの選択された１つのオーディオコンテキストを識別するコンテキスト識別子などの符号化コンテキスト信号Ｓ８０に関係する情報を含むことができる。

間接的な送信では、復号器は、符号化オーディオ信号Ｓ２０とは異なる論理チャネルによってだけでなく、サーバなどの異なるエンティティからもコンテキスト情報を受信する。たとえば、復号器は、符号化器の識別子（たとえば、ｗｗｗ−ｄｏｔ−ｉｅｔｆ−ｄｏｔ−ｏｒｇにおいてオンラインで利用可能な、ＲＦＣ３９８６に記載されているＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｎｔｉｆｉｅｒ（ＵＲＩ）またはＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ（ＵＲＬ））、復号器の識別子（たとえば、ＵＲＬ）、および／または特定の通信セッションの識別子を使用して、サーバからコンテキスト情報を要求するように構成されていることができる。図２１Ａは、復号器が、プロトコルスタックＰ２０を介して第１の論理チャネルによって符号化器から受信された情報にしたがって、（たとえば、コンテキスト発生器２２０および／またはコンテキスト復号器２５２内の）プロトコルスタックＰ１０を介して第２の論理チャネルによってサーバからコンテキスト情報をダウンロードする一例を示している。スタックＰ１０およびＰ２０は、別々とするか、あるいは１つまたは複数のレイヤ（たとえば、物理レイヤ、メディアアクセス制御レイヤ、および論理リンクレイヤのうちの１つまたは複数）を共有することができる。サーバから復号器へのコンテキスト情報のダウンロードは、リングトーンあるいは音楽ファイルまたはストリームのダウンロードと同様の方法で実行することができ、ＳＩＰなどのプロトコルを使用して実行することができる。

他の例では、コンテキスト情報は、直接的な送信と間接的な送信との何らかの組合せによって符号化器から復号器に転送することができる。１つの一般的な例では、符号化器は、コンテキスト情報をある形態で（たとえば、オーディオコンテキスト選択情報として）サーバなどのシステム内の別のデバイスに送信し、他のデバイスは、対応するコンテキスト情報を別の形態で（たとえば、コンテキスト記述として）復号器に送信する。そのような転送の特定の例では、サーバは、コンテキスト情報の要求を復号器から受信することなく、その情報を復号器に配信する（「プッシュ」とも呼ばれる）ように構成されている。たとえば、サーバは、呼セットアップ中にコンテキスト情報を復号器にプッシュするように構成されていることができる。図２１Ｂは、復号器のＵＲＬまたは他の識別子を含むことができ、（たとえば、コンテキスト符号化器１５２内の）プロトコルスタックＰ３０を介して第３の論理チャネルにより符号化器によって送信される情報にしたがって、サーバが、第２の論理チャネルによってコンテキスト情報を復号器にダウンロードする一例を示している。そのような場合、符号化器からサーバへの転送、および／またはサーバから復号器への転送は、ＳＩＰなどのプロトコルを使用して実行することができる。この例はまた、プロトコルスタックＰ４０を介して第１の論理チャネルによって、符号化オーディオ信号Ｓ２０を符号化器から復号器に送信することを示す。スタックＰ３０およびＰ４０は、別々とするか、あるいは１つまたは複数のレイヤ（たとえば、物理レイヤ、メディアアクセス制御レイヤ、および論理リンクレイヤのうちの１つまたは複数）を共有することができる。

図２１Ｂに示す符号化器は、呼セットアップ中にサーバにＩＮＶＩＴＥメッセージをサーバに送信することによって、ＳＩＰセッションを開始するように構成されていることができる。１つのそのような例では、符号化器は、コンテキスト識別子または（たとえば、ＧＰＳ座標のセットとしての）物理的位置などのオーディオコンテキスト選択情報をサーバに送信する。符号化器は、復号器のＵＲＩおよび／または符号化器のＵＲＩなどのエンティティ識別情報をもサーバに送信することができる。サーバが、選択されたオーディオコンテキストをサポートする場合、サーバはＡＣＫメッセージを符号化器に送信し、ＳＩＰセッションは終了する。

符号化器復号器システムは、符号化器において既存のコンテキストを抑圧することによって、または復号器において既存のコンテキストを抑圧することによって、アクティブフレームを処理するように構成されていることができる。１つまたは複数の潜在的な利点は、復号器においてではなく符号化器においてコンテキスト抑圧を実行することによって実現することができる。たとえば、アクティブフレーム符号化器３０は、既存のコンテキストが抑圧されていないオーディオ信号に対してよりも、コンテキスト抑圧オーディオ信号に対して、より良いコーディング結果を達成することが予想される。また、複数のマイクロホンからのオーディオ信号を使用する技法（たとえば、ブラインドソース分離）などのより良い抑圧技法を、符号化器において利用することができる。また、スピーカは、リスナーが聴取するものと同じコンテキスト抑圧スピーチ成分を聴取できることが望ましい場合があり、そのような特徴をサポートするために、符号化器におけるコンテキスト抑圧の実行を使用することができる。もちろん、符号化器と復号器の両方においてコンテキスト抑圧を実装することも可能である。

符号化器復号器システム内では、発生コンテキスト信号Ｓ１５０が符号化器と復号器の両方において利用可能であることが望ましい場合がある。たとえば、スピーカは、リスナーが聴取するものと同じコンテキスト強調オーディオ信号を聴取できることが望ましい場合がある。そのような場合、選択されたコンテキストの記述は、符号化器と復号器の両方に記憶および／またはダウンロードすることができる。さらに、コンテキスト発生器２２０は、復号器において実行されるコンテキスト発生動作が符号化器において重複されるように、発生コンテキスト信号Ｓ１５０を決定論的に生成するように構成することが望ましい場合がある。たとえば、コンテキスト発生器２２０は、符号化器と復号器の両方に知られている１つまたは複数の値（たとえば、符号化オーディオ信号Ｓ２０の１つまたは複数の値）を使用して、ＣＴＦＬＰ合成のために使用されるランダム励起信号など、発生動作において使用できる任意のランダム値または信号を計算するように構成されていることができる。

符号化器・復号器システムは、いくつかの異なる方法のいずれかで非アクティブフレームを処理するように構成されていることができる。たとえば、符号化器は、符号化オーディオ信号Ｓ２０内に既存のコンテキストを含めるように構成されていることができる。既存のコンテキストを含めることは、レガシー動作をサポートするために望ましい場合がある。さらに、上述のように、復号器は、既存のコンテキストを使用して、コンテキスト抑圧動作をサポートするように構成されていることができる。

代替的に、符号化器は、符号化オーディオ信号Ｓ２０の非アクティブフレームのうちの１つまたは複数を使用して、１つまたは複数のコンテキスト識別子および／または記述など、選択されたコンテキストに関係する情報を搬送するように構成されていることができる。図１９に示す装置Ｘ３００は、既存のコンテキストを送信しない符号化器の一例である。上記のように、非アクティブフレームにおけるコンテキスト識別子の符号化は、電話通話などの通信セッション中の発生コンテキスト信号Ｓ１５０の更新をサポートするために使用することができる。対応する復号器は、迅速に、場合によってはフレームごとにでも、そのような更新を実行するように構成されていることができる。

さらに代替的に、符号化器は、非アクティブフレーム中にほとんどビットを送信しないか、またはまったくビットを送信しないように構成されていることができ、これにより、符号化器は、平均ビットレートを増加させることなく、アクティブフレームのためにより高いコーディングレートを使用することができる。システムに応じて、符号化器は、接続を維持するために各非アクティブフレーム中に、ある最小数のビットを含む必要がありうる。

装置Ｘ１００の実装形態（たとえば、装置Ｘ２００、Ｘ２１０、またはＸ２２０）あるいはＸ３００の実装形態などの符号化器は、選択されたオーディオコンテキストのレベルの時間的変化の指示を送信することが望ましい場合がある。そのような符号化器は、パラメータ値（たとえば、利得パラメータ値）のような情報を、符号化コンテキスト信号Ｓ８０内で、および／または異なる論理チャネルによって送信するように構成されていることができる。一例では、選択されたコンテキストの記述は、コンテキストのスペクトル分布を記述する情報を含み、符号化器は、コンテキストのオーディオレベルの時間的変化に関係する情報を別個の時間記述として送信するように構成されており、別個の時間記述は、スペクトル記述とは異なるレートで更新することができる。別の例では、選択されたコンテキストの記述は、第１の時間スケールにわたる（たとえば、フレーム、または同様の長さの他の間隔にわたる）コンテキストのスペクトル特性と時間特性との両方を記述し、符号化器は、第２の時間スケール（たとえば、フレームごとなどのより長い時間スケール）にわたるコンテキストのオーディオレベルの変化に関係する情報を別個の時間記述として送信するように構成されている。そのような例は、各フレームのコンテキスト利得値を含む別個の時間記述を使用して実装することができる。

上記の２つの例のいずれかに適用することができる、さらなる一例では、選択されたコンテキストの記述への更新は、不連続送信を使用して（符号化オーディオ信号Ｓ２０の非アクティブフレーム内で、または第２の論理チャネルによって）送信され、別個の時間記述への更新も、不連続送信を使用して（符号化オーディオ信号Ｓ２０の非アクティブフレーム内で、第２の論理チャネルによって、または別の論理チャネルによって）送信され、２つの記述は、様々な間隔でおよび／または様々なイベントにしたがって更新される。たとえば、そのような符号化器は、別個の時間記述よりも少ない頻度で（たとえば、５１２、１０２４、または２０４８フレームごと対４、８、または１６フレームごとで）選択されたコンテキストの記述を更新するように構成されていることができる。そのような符号化器の別の例は、既存のコンテキストの１つまたは複数の周波数特性の変化にしたがって（および／またはユーザ選択にしたがって）選択されたコンテキストの記述を更新し、既存のコンテキストのレベルの変化にしたがって別個の時間記述を更新するように構成されている。

図２２、図２３、および図２４は、コンテキスト交換を実行するように構成されている復号のための装置の例を示している。図２２は、コンテキスト選択信号Ｓ１４０の状態にしたがって発生コンテキスト信号Ｓ１５０を生成するように構成されているコンテキスト発生器２２０のインスタンスを含む装置Ｒ３００のブロック図を示している。図２３は、コンテキストサプレッサ２１０の実装形態２１８を含む装置Ｒ３００の実装形態Ｒ３１０のブロック図を示している。コンテキストサプレッサ２１８は、非アクティブフレームからの既存のコンテキスト情報（たとえば、既存のコンテキストのスペクトル分布）を使用して、コンテキスト抑圧動作（たとえば、スペクトル減算）をサポートするように構成されている。

図２２および図２３に示す装置Ｒ３００およびＲ３１０の実装形態はまた、コンテキスト復号器２５２を含む。コンテキスト復号器２５２は、符号化コンテキスト信号Ｓ８０の（たとえば、コンテキスト符号化器１５２を参照しながら上述した符号化動作と相補関係にある）データおよび／またはプロトコル復号を実行して、コンテキスト選択信号Ｓ１４０を生成するように構成されている。代替的または追加的に、装置Ｒ３００およびＲ３１０は、符号化コンテキスト信号Ｓ８０の対応するインスタンスに基づいて、コンテキスト記述（たとえば、コンテキストパラメータ値のセット）を生成するように構成されている上述のようなコンテキスト符号化器１５０と相補関係にあるコンテキスト復号器２５０を含むように実装することができる。

図２４は、コンテキスト発生器２２０の実装形態２２８を含むスピーチ復号器Ｒ３００の実装形態Ｒ３２０のブロック図を示している。コンテキスト発生器２２８は、非アクティブフレームからの既存のコンテキスト情報（たとえば、時間および／または周波数領域における既存のコンテキストのエネルギーの分布に関係する情報）を使用して、コンテキスト発生動作をサポートするように構成されている。

本明細書で説明するように符号化するための装置（たとえば、装置Ｘ１００およびＸ３００）ならびに復号するための装置（たとえば、装置Ｒ１００、Ｒ２００、およびＲ３００）の実装形態の様々な要素は、たとえば、チップセット中の同じチップ上にまたは２つ以上のチップの間に存在する電子および／または光デバイスとして実装できるが、そのようなものに限定されず他の構成も考えられる。そのような装置の１つまたは複数の要素は、マイクロプロセッサ、組み込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）などの、論理要素（たとえば、トランジスタ、ゲート）の１つまたは複数の固定またはプログラマブルなアレイ上で実行するように構成されている命令の１つまたは複数のセットとして全体的にまたは部分的に実装されることができる。

そのような装置の実装形態の１つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクまたは命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の１つまたは複数の要素は、共通の構造（たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子および／または光デバイスの構成）を有することが可能である。一例では、コンテキストサプレッサ１１０、コンテキスト発生器１２０、およびコンテキストミキサ１９０は、同じプロセッサ上で実行するように構成されている命令のセットとして実装される。別の例では、コンテキストプロセッサ１００およびスピーチ符号化器Ｘ１０は、同じプロセッサ上で実行するように構成されている命令のセットとして実装される。別の例では、コンテキストプロセッサ２００およびスピーチ復号器Ｒ１０は、同じプロセッサ上で実行するように構成されている命令のセットとして実装される。別の例では、コンテキストプロセッサ１００、スピーチ符号化器Ｘ１０、およびスピーチ復号器Ｒ１０は、同じプロセッサ上で実行するように構成されている命令のセットとして実装される。別の例では、アクティブフレーム符号化器３０および非アクティブフレーム符号化器４０は、様々な時間に実行する命令の同じセットを含むように実装される。別の例では、アクティブフレーム復号器７０および非アクティブフレーム復号器８０は、様々な時間に実行する命令の同じセットを含むように実装される。

セルラー電話またはそのような通信機能を有する他のデバイスなど、ワイヤレス通信のためのデバイスは、符号化器（たとえば、装置Ｘ１００またはＸ３００の実装形態）と復号器（たとえば、装置Ｒ１００、Ｒ２００、またはＲ３００の実装形態）の両方を含むように構成されていることができる。そのような場合、符号化器および復号器は、共通の構造を有することが可能である。１つのそのような例では、符号化器および復号器は、同じプロセッサ上で実行するように構成されている命令のセットを含むように実装される。

また、本明細書で説明する様々な符号化器および復号器の動作は、信号処理の方法の特定の例と見なすことができる。そのような方法は、タスクのセットとして実装することができ、それらのタスクのうちの１つまたは複数（場合によってはすべて）は、論理要素（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）の１つまたは複数のアレイによって実行することができる。それらのタスクのうちの１つまたは複数（場合によってはすべて）はまた、論理要素の１つまたは複数のアレイによって実行可能なコード（たとえば、命令の１つまたは複数のセット）として実装することができ、そのコードは、データ記憶媒体において有形に実施することができる。

図２５Ａは、第１のオーディオコンテキストを含むデジタルオーディオ信号を処理する、開示する一構成による方法Ａ１００のフローチャートを示している。方法Ａ１００は、タスクＡ１１０およびＡ１２０を含む。タスクＡ１１０は、コンテキスト抑圧信号を得るために、第１のマイクロホンによって生成された第１のオーディオ信号に基づいて、デジタルオーディオ信号から第１のオーディオコンテキストを抑圧する。タスクＡ１２０は、コンテキスト強調信号を得るために、第２のオーディオコンテキストをコンテキスト抑圧信号に基づく信号と混合する。本方法では、デジタルオーディオ信号は、第１のマイクロホンとは異なる第２のマイクロホンによって生成された第２のオーディオ信号に基づく。方法Ａ１００は、たとえば、本明細書で説明するように装置Ｘ１００またはＸ３００の実装形態によって実行することができる。

図２５Ｂは、第１のオーディオコンテキストを含むデジタルオーディオ信号を処理するための、開示する一構成による装置ＡＭ１００のブロック図を示している。装置ＡＭ１００は、方法Ａ１００の様々なタスクを実行するための手段を含む。装置ＡＭ１００は、コンテキスト抑圧信号を得るために、第１のマイクロホンによって生成された第１のオーディオ信号に基づいて、デジタルオーディオ信号から第１のオーディオコンテキストを抑圧するための手段ＡＭ１０を含む。装置ＡＭ１００は、コンテキスト強調信号を得るために、第２のオーディオコンテキストを、コンテキスト抑圧信号に基づく信号と混合するための手段ＡＭ２０を含む。本装置では、デジタルオーディオ信号は、第１のマイクロホンとは異なる第２のマイクロホンによって生成された第２のオーディオ信号に基づく。装置ＡＭ１００の様々な要素は、（たとえば、命令の１つまたは複数のセット、論理要素の１つまたは複数のアレイなどとして）本明細書で開示するそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置ＡＭ１００の様々な要素の例を、装置Ｘ１００およびＸ３００についての説明において開示する。

図２６Ａに、プロセス制御信号の状態にしたがって、スピーチ成分とコンテキスト成分とを有するデジタルオーディオ信号を処理する、開示する一構成による方法Ｂ１００のフローチャートを示す。方法Ｂ１００は、タスクＢ１１０、Ｂ１２０、Ｂ１３０、およびＢ１４０を含む。タスクＢ１１０は、プロセス制御信号が第１の状態を有するとき、スピーチ成分がないデジタルオーディオ信号の一部のフレームを第１のビットレートで符号化する。タスクＢ１２０は、コンテキスト抑圧信号を得るために、プロセス制御信号が第１の状態とは異なる第２の状態を有するとき、デジタルオーディオ信号からコンテキスト成分を抑圧する。タスクＢ１３０は、コンテキスト強調信号を得るために、プロセス制御信号が第２の状態を有するとき、オーディオコンテキスト信号をコンテキスト抑圧信号に基づく信号と混合する。タスクＢ１４０は、プロセス制御信号が第２の状態を有するとき、スピーチ成分がないコンテキスト強調信号の一部のフレームを、第１のビットレートよりも高い第２のビットレートで符号化する。方法Ｂ１００は、たとえば、本明細書で説明するように装置Ｘ１００の実装形態によって実行することができる。

図２６Ｂは、プロセス制御信号の状態にしたがって、スピーチ成分とコンテキスト成分とを有するデジタルオーディオ信号を処理するための開示される一構成による装置ＢＭ１００のブロック図を示している。装置ＢＭ１００は、プロセス制御信号が第１の状態を有するとき、スピーチ成分がないデジタルオーディオ信号の一部のフレームを第１のビットレートで符号化するための手段ＢＭ１０を含む。装置ＢＭ１００は、コンテキスト抑圧信号を得るために、プロセス制御信号が第１の状態とは異なる第２の状態を有するとき、デジタルオーディオ信号からコンテキスト成分を抑圧するための手段ＢＭ２０を含む。装置ＢＭ１００は、コンテキスト強調信号を得るために、プロセス制御信号が第２の状態を有するとき、オーディオコンテキスト信号をコンテキスト抑圧信号に基づく信号と混合するための手段ＢＭ３０を含む。装置ＢＭ１００は、プロセス制御信号が第２の状態を有するとき、スピーチ成分がないコンテキスト強調信号の一部のフレームを、第１のビットレートよりも高い第２のビットレートで符号化するための手段ＢＭ４０を含む。装置ＢＭ１００の様々な要素は、（たとえば、命令の１つまたは複数のセット、論理要素の１つまたは複数のアレイなどとして）本明細書で開示するそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置ＢＭ１００の様々な要素の例を、装置Ｘ１００についての説明において開示する。

図２７Ａは、第１のトランスデューサから受信された信号に基づくデジタルオーディオ信号を処理する開示される一構成による方法Ｃ１００のフローチャートを示している。方法Ｃ１００は、タスクＣ１１０、Ｃ１２０、Ｃ１３０、およびＣ１４０を含む。タスクＣ１１０は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号から第１のオーディオコンテキストを抑圧する。タスクＣ１２０は、コンテキスト強調信号を得るために、第２のオーディオコンテキストをコンテキスト抑圧信号に基づく信号と混合する。タスクＣ１３０は、（Ａ）第２のオーディオコンテキストと、（Ｂ）コンテキスト強調信号とのうちの少なくとも１つに基づく信号をアナログ信号に変換する。タスクＣ１４０は、第２のトランスデューサから、アナログ信号に基づく可聴信号を生成する。本方法では、第１のトランスデューサと第２のトランスデューサの両方が共通のハウジング内に配置される。方法Ｃ１００は、たとえば、本明細書で説明するように装置Ｘ１００またはＸ３００の実装形態によって実行することができる。

図２７Ｂは、第１のトランスデューサから受信された信号に基づくデジタルオーディオ信号を処理するための開示される一構成による装置ＣＭ１００のブロック図を示している。装置ＣＭ１００は、方法Ｃ１００の様々なタスクを実行するための手段を含む。装置ＣＭ１００は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号から第１のオーディオコンテキストを抑圧するための手段ＣＭ１１０を含む。装置ＣＭ１００は、コンテキスト強調信号を得るために、第２のオーディオコンテキストを、コンテキスト抑圧信号に基づく信号と混合するための手段ＣＭ１２０を含む。装置ＣＭ１００は、（Ａ）第２のオーディオコンテキストと、（Ｂ）コンテキスト強調信号とのうちの少なくとも１つに基づく信号をアナログ信号に変換するための手段ＣＭ１３０を含む。装置ＣＭ１００は、第２のトランスデューサから、アナログ信号に基づく可聴信号を生成するための手段ＣＭ１４０を含む。本装置では、第１のトランスデューサと第２のトランスデューサの両方が共通のハウジング内に配置される。装置ＣＭ１００の様々な要素は、（たとえば、命令の１つまたは複数のセット、論理要素の１つまたは複数のアレイなどとして）本明細書で開示するそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置ＣＭ１００の様々な要素の例を、装置Ｘ１００およびＸ３００についての説明において開示する。

図２８Ａは、符号化オーディオ信号を処理する開示される一構成による方法Ｄ１００のフローチャートを示している。方法Ｄ１００は、タスクＤ１１０、Ｄ１２０、およびＤ１３０を含む。タスクＤ１１０は、スピーチ成分とコンテキスト成分とを含む第１の復号オーディオ信号を得るために、第１のコーディング方式にしたがって符号化オーディオ信号の第１の複数の符号化フレームを復号する。タスクＤ１２０は、第２の復号オーディオ信号を得るために、第２のコーディング方式にしたがって符号化オーディオ信号の第２の複数の符号化フレームを復号する。タスクＤ１３０は、コンテキスト抑圧信号を得るために、第２の復号オーディオ信号からの情報に基づいて、第１の復号オーディオ信号に基づく第３の信号からコンテキスト成分を抑圧する。方法Ｄ１００は、たとえば、本明細書で説明するように装置Ｒ１００、Ｒ２００、またはＲ３００の実装形態によって実行することができる。

図２８Ｂは、符号化オーディオ信号を処理するための開示される一構成による装置ＤＭ１００のブロック図を示している。装置ＤＭ１００は、方法Ｄ１００の様々なタスクを実行するための手段を含む。装置ＤＭ１００は、スピーチ成分とコンテキスト成分とを含む第１の復号オーディオ信号を得るために、第１のコーディング方式にしたがって符号化オーディオ信号の第１の複数の符号化フレームを復号するための手段ＤＭ１０を含む。装置ＤＭ１００は、第２の復号オーディオ信号を得るために、第２のコーディング方式にしたがって符号化オーディオ信号の第２の複数の符号化フレームを復号するための手段ＤＭ２０を含む。装置ＤＭ１００は、コンテキスト抑圧信号を得るために、第２の復号オーディオ信号からの情報に基づいて、第１の復号オーディオ信号に基づく第３の信号からコンテキスト成分を抑圧するための手段ＤＭ３０を含む。装置ＤＭ１００の様々な要素は、（たとえば、命令の１つまたは複数のセット、論理要素の１つまたは複数のアレイなどとして）本明細書で開示するそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置ＤＭ１００の様々な要素の例を、装置Ｒ１００、Ｒ２００、およびＲ３００についての説明において開示する。

図２９Ａは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する開示される一構成による方法Ｅ１００のフローチャートを示している。方法Ｅ１００は、タスクＥ１１０、Ｅ１２０、Ｅ１３０、およびＥ１４０を含む。タスクＥ１１０は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号からコンテキスト成分を抑圧する。タスクＥ１２０は、符号化オーディオ信号を得るために、コンテキスト抑圧信号に基づく信号を符号化する。タスクＥ１３０は、複数のオーディオコンテキストのうちの１つを選択する。タスクＥ１４０は、選択されたオーディオコンテキストに関係する情報を符号化オーディオ信号に基づく信号に挿入する。方法Ｅ１００は、たとえば、本明細書で説明するように装置Ｘ１００またはＸ３００の実装形態によって実行することができる。

図２９Ｂは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理するための開示される一構成による装置ＥＭ１００のブロック図を示している。装置ＥＭ１００は、方法Ｅ１００の様々なタスクを実行するための手段を含む。装置ＥＭ１００は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号からコンテキスト成分を抑圧するための手段ＥＭ１０を含む。装置ＥＭ１００は、符号化オーディオ信号を得るために、コンテキスト抑圧信号に基づく信号を符号化するための手段ＥＭ２０を含む。装置ＥＭ１００は、複数のオーディオコンテキストのうちの１つを選択するための手段ＥＭ３０を含む。装置ＥＭ１００は、選択されたオーディオコンテキストに関係する情報を符号化オーディオ信号に基づく信号に挿入するための手段ＥＭ４０を含む。装置ＥＭ１００の様々な要素は、（たとえば、命令の１つまたは複数のセット、論理要素の１つまたは複数のアレイなどとして）本明細書で開示されたそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して実装することができる。本明細書では、装置ＥＭ１００の様々な要素の例を、装置Ｘ１００およびＸ３００についての説明において開示している。

図３０Ａは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する開示される一構成による方法Ｅ２００のフローチャートを示している。方法Ｅ２００は、タスクＥ１１０、Ｅ１２０、Ｅ１５０、およびＥ１６０を含む。タスクＥ１５０は、第１の論理チャネルによって符号化オーディオ信号を第１のエンティティに送信する。タスクＥ１６０は、第１の論理チャネルとは異なる第２の論理チャネルによって、（Ａ）オーディオコンテキスト選択情報と、（Ｂ）第１のエンティティを識別する情報とを第２のエンティティに送信する。方法Ｅ２００は、たとえば、本明細書で説明するように装置Ｘ１００またはＸ３００の実装形態によって実行することができる。

図３０Ｂは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理するための開示される一構成による装置ＥＭ２００のブロック図を示している。装置ＥＭ２００は、方法Ｅ２００の様々なタスクを実行するための手段を含む。装置ＥＭ２００は、上述のように手段ＥＭ１０およびＥＭ２０を含む。装置ＥＭ１００は、第１の論理チャネルによって符号化オーディオ信号を第１のエンティティに送信するための手段ＥＭ５０を含む。装置ＥＭ１００は、第１の論理チャネルとは異なる第２の論理チャネルによって（Ａ）オーディオコンテキスト選択情報と、（Ｂ）第１のエンティティを識別する情報とを第２のエンティティに送信するための手段ＥＭ６０を含む。装置ＥＭ２００の様々な要素は、（たとえば、命令の１つまたは複数のセット、論理要素の１つまたは複数のアレイなどとして）本明細書で開示されたそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置ＥＭ２００の様々な要素の例を、装置Ｘ１００およびＸ３００についての説明において開示している。

図３１Ａは、符号化オーディオ信号を処理する開示される一構成による方法Ｆ１００のフローチャートを示している。方法Ｆ１００は、タスクＦ１１０、Ｆ１２０、およびＦ１３０を含む。モバイルユーザ端末内で、タスクＦ１１０は、復号オーディオ信号を得るために符号化オーディオ信号を復号する。モバイルユーザ端末内で、タスクＦ１２０はオーディオコンテキスト信号を発生する。モバイルユーザ端末内で、タスクＦ１３０は、オーディオコンテキスト信号に基づく信号を復号オーディオ信号に基づく信号と混合する。方法Ｆ１００は、たとえば、本明細書で説明するように装置Ｒ１００、Ｒ２００、またはＲ３００の実装形態によって実行することができる。

図３１Ｂは、符号化オーディオ信号を処理するための、モバイルユーザ端末内に配置された開示される一構成による装置ＦＭ１００のブロック図を示している。装置ＦＭ１００は、方法Ｆ１００の様々なタスクを実行するための手段を含む。装置ＦＭ１００は、復号オーディオ信号を得るために符号化オーディオ信号を復号するための手段ＦＭ１０を含む。装置ＦＭ１００は、オーディオコンテキスト信号を発生するための手段ＦＭ２０を含む。装置ＦＭ１００は、オーディオコンテキスト信号に基づく信号を、復号オーディオ信号に基づく信号と混合するための手段ＦＭ３０を含む。装置ＦＭ１００の様々な要素は、（たとえば、命令の１つまたは複数のセット、論理要素の１つまたは複数のアレイなどとして）本明細書で開示するそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置ＦＭ１００の様々な要素の例を、装置Ｒ１００、Ｒ２００、およびＲ３００についての説明において開示している。

図３２Ａは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する開示される一構成による方法Ｇ１００のフローチャートを示している。方法Ｇ１００は、タスクＧ１１０、Ｇ１２０、およびＧ１３０を含む。タスクＧ１００は、コンテキスト抑圧信号を得るためにデジタルオーディオ信号からコンテキスト成分を抑圧する。タスクＧ１２０は、第１のフィルタと第１の複数のシーケンスとに基づくオーディオコンテキスト信号を発生し、第１の複数のシーケンスの各々は、異なる時間分解能を有する。タスクＧ１２０は、第１のフィルタを第１の複数のシーケンスの各々に適用することを含む。タスクＧ１３０は、コンテキスト強調信号を得るために発生オーディオコンテキスト信号に基づく第１の信号をコンテキスト抑圧信号に基づく第２の信号と混合する。方法Ｇ１００は、たとえば、本明細書で説明するように装置Ｘ１００、Ｘ３００、Ｒ１００、Ｒ２００、またはＲ３００の実装形態によって実行することができる。

図３２Ｂは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理するための開示される一構成による装置ＧＭ１００のブロック図を示している。装置ＧＭ１００は、方法Ｇ１００の様々なタスクを実行するための手段を含む。装置ＧＭ１００は、コンテキスト抑圧信号を得るためにデジタルオーディオ信号からコンテキスト成分を抑圧するための手段ＧＭ１０を含む。装置ＧＭ１００は、第１のフィルタと第１の複数のシーケンスとに基づくオーディオコンテキスト信号を発生するための手段ＧＭ２０を含み、第１の複数のシーケンスの各々は、異なる時間分解能を有する。手段ＧＭ２０は、第１のフィルタを第１の複数のシーケンスの各々に適用するための手段を含む。装置ＧＭ１００は、コンテキスト強調信号を得るために発生オーディオコンテキスト信号に基づく第１の信号をコンテキスト抑圧信号に基づく第２の信号と混合するための手段ＧＭ３０を含む。装置ＧＭ１００の様々な要素は、（たとえば、命令の１つまたは複数のセット、論理要素の１つまたは複数のアレイなどとして）本明細書で開示されたそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置ＧＭ１００の様々な要素の例を、装置Ｘ１００、Ｘ３００、Ｒ１００、Ｒ２００、およびＲ３００についての説明において開示する。

図３３Ａは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する開示される一構成による方法Ｈ１００のフローチャートを示している。方法Ｈ１００は、タスクＨ１１０、Ｈ１２０、Ｈ１３０、Ｈ１４０、およびＨ１５０を含む。タスクＨ１１０は、コンテキスト抑圧信号を得るためにデジタルオーディオ信号からコンテキスト成分を抑圧する。タスクＨ１２０はオーディオコンテキスト信号を発生する。タスクＨ１３０は、コンテキスト強調信号を得るために発生オーディオコンテキスト信号に基づく第１の信号をコンテキスト抑圧信号に基づく第２の信号と混合する。タスクＨ１４０は、デジタルオーディオ信号に基づく第３の信号のレベルを計算する。タスクＨ１２０とタスクＨ１３０とのうちの少なくとも１つは、第３の信号の計算されたレベルに基づいて第１の信号のレベルを制御することを含む。方法Ｈ１００は、たとえば、本明細書で説明するように装置Ｘ１００、Ｘ３００、Ｒ１００、Ｒ２００、またはＲ３００の実装形態によって実行することができる。

図３３Ｂは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理するための開示される一構成による装置ＨＭ１００のブロック図を示している。装置ＨＭ１００は、方法Ｈ１００の様々なタスクを実行するための手段を含む。装置ＨＭ１００は、コンテキスト抑圧信号を得るためにデジタルオーディオ信号からコンテキスト成分を抑圧するための手段ＨＭ１０を含む。装置ＨＭ１００は、オーディオコンテキスト信号を発生するための手段ＨＭ２０を含む。装置ＨＭ１００は、コンテキスト強調信号を得るために発生オーディオコンテキスト信号に基づく第１の信号をコンテキスト抑圧信号に基づく第２の信号と混合するための手段ＨＭ３０を含む。装置ＨＭ１００は、デジタルオーディオ信号に基づく第３の信号のレベルを計算するための手段ＨＭ４０を含む。手段ＨＭ２０と手段ＨＭ３０とのうちの少なくとも１つは、第３の信号の計算されたレベルに基づいて第１の信号のレベルを制御するための手段を含む。装置ＨＭ１００の様々な要素は、（たとえば、命令の１つまたは複数のセット、論理要素の１つまたは複数のアレイなどとして）本明細書で開示されたそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置ＨＭ１００の様々な要素の例を、装置Ｘ１００、Ｘ３００、Ｒ１００、Ｒ２００、およびＲ３００についての説明において開示している。

説明した構成の上記の提示は、本明細書で開示された方法および他の構造を当業者が製造または使用することができるように提供されるものである。本明細書で図示および説明されたフローチャート、ブロック図、および他の構造は、例にすぎず、これらの構造の他の形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示する一般的原則は他の構成にも同様に適用されることができる。たとえば、本開示の範囲は説明した構成に限定されないことが強調される。むしろ、本明細書で説明された様々な特定の構成の特徴が互いに矛盾していない場合、そのような特徴を組み合わせて、本開示の範囲内に含まれる他の構成を生成することができることが明確に企図され、本明細書によって開示される。たとえば、コンテキスト抑圧、コンテキスト発生、およびコンテキスト混合の様々な構成のいずれかの組合せが本明細書でのそれらの要素についての説明と矛盾していない限り、そのような組合せが可能である。また、装置の２つ以上の要素の間の接続について説明する場合は、１つまたは複数の介在する要素（フィルタなど）が存在することができ、方法の２つ以上のタスクの間の接続について説明する場合は、１つまたは複数の介在するタスクまたは動作（フィルタ処理オペレーションなど）が存在することができることが明確に企図され、本明細書によって開示される。

本明細書で説明する符号化器および復号器とともに使用される、またはそれらとともに使用するように適合されるコーデックの例には、上記の３ＧＰＰ２文書Ｃ．Ｓ００１４−Ｃに記載されているＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ（ＥＶＲＣ）、ＥＴＳＩ文書ＴＳ１２６０９２Ｖ６．０．０、ｃｈ．６、２００４年１２月に記載されている適応マルチレート（ＡＭＲ）スピーチコーデック、およびＥＴＳＩ文書ＴＳ１２６１９２Ｖ６．０．０．、ｃｈ．６、２００４年１２月に記載されているＡＭＲ広帯域スピーチコーデックがある。本明細書で説明する符号化器および復号器とともに使用される無線プロトコルの例には、（ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＩｎｄｕｓｔｒｙＡｓｓｏｃｉａｔｉｏｎ（ＴＩＡ）（バージニア州アーリントン）によって公開された仕様に記載されている）暫定基準−９５（ＩＳ−９５）およびＣＤＭＡ２０００、（ＥＴＳＩ文書ＴＳ２６．１０１に記載されている）ＡＭＲ、ＧＳＭ（ＥＴＳＩによって公開された仕様に記載されているＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅ通信）、ＵＭＴＳ（ＥＴＳＩによって公開された仕様に記載されているＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ）、ならびにＷ−ＣＤＭＡ（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎによって公開された仕様に記載されているＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）がある。

本明細書で説明する構成は、部分的にまたは全体的に、ハードワイヤード回路として、特定用途向け集積回路中に作成された回路構成として、あるいは非揮発性記憶装置にロードされるファームウェアプログラム、またはマイクロプロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてコンピュータ可読媒体から、もしくはコンピュータ可読媒体にロードされるソフトウェアプログラムとして実装されることができる。コンピュータ可読媒体は、（限定はしないが、ダイナミックもしくはスタティックＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読取り専用メモリ）、および／またはフラッシュＲＡＭを含む）半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、ポリマーメモリ、もしくは位相変化メモリなどの記憶要素のアレイ、磁気ディスクまたは光ディスクなどのディスク媒体、あるいはデータ記憶用の他のコンピュータ可読媒体とすることができる。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の１つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。

また、本明細書で開示する方法の各々は、論理要素（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）のアレイを含む機械によって読出し可能および／または実行可能な命令の１つまたは複数のセットとして（たとえば、上記に記載する１つまたは複数のコンピュータ可読媒体中で）有形に実施することができる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示された原理および新規の特徴に一致する最も広い範囲を与えられるべきである。

Claims

スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理する方法であって、前記方法は、
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧することと
符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化することと
複数のオーディオコンテキストのうちの１つを選択することと、および
前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に挿入することと
を具備する方法。
前記選択オーディオコンテキストに関係する前記情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む、請求項１に記載のデジタルオーディオ信号を処理する方法。
前記選択オーディオコンテキストに関係する前記情報は、１セットのパラメータ値を含む前記選択オーディオコンテキストの記述を具備する、請求項１に記載のデジタルオーディオ信号を処理する方法を処理する方法。
パラメータ値の前記セットは、第1の複数のシーケンスを含む、請求項３に記載のデジタルオーディオ信号を処理する方法であって、前記第１の複数のシーケンスの各々は、異なる時間分解能を有する、請求項３に記載のデジタルオーディオ信号。
前記コンテキスト成分を前記抑圧することは、前記デジタルオーディオ信号に対してスペクトル減算オペレーションを実施することを具備する、請求項１に記載のデジタルオーディオ信号を処理する方法。
前記コンテキスト成分を前記抑圧することは、
前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算することと、および
前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用することと
を具備する、請求項１に記載のデジタルオーディオ信号を処理する方法。
前記コンテキスト成分を前記抑圧することは、共通ハウジング内に配置されている２つの異なるマイクロホンからの情報に基づく、請求項１に記載のデジタルオーディオ信号を処理する方法。
複数のオーディオコンテキストのうちの１つを前記選択することは、前記方法が実施されるところの物理的位置に関係する情報に基づく、請求項１に記載のデジタルオーディオ信号を処理する方法。
前記符号化することは、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を実施することを含む、請求項１に記載のデジタルオーディオ信号を処理する方法。
前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項１に記載のデジタルオーディオ信号を処理する方法であって、各々は、励起信号の記述を含む、請求項１に記載のデジタルオーディオ信号を処理する方法。
前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に前記挿入することは、前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも１つに挿入することを含む、請求項１に記載のデジタルオーディオ信号を処理する方法。
前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも１つに前記挿入することは、前記デジタルオーディオ信号の100ないし2000個の範囲内の間隔で不連続的に実施される、請求項11に記載のデジタルオーディオ信号を処理する方法。
前記選択オーディオコンテキストに関係する前記情報は、前記オーディオコンテキストのレベルの所望の時間的変化を記述する情報を含む、請求項１に記載のデジタルオーディオ信号を処理する方法。
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧することと、
コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合することと、
（A）前記第2のオーディオコンテキストおよび（B）前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換することと、および
前記アナログ信号に基づく可聴信号を生成するためにスピーカを使用することと
をさらに具備する、請求項１に記載のデジタルオーディオ信号を処理する方法であって、
前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、請求項１に記載のデジタルオーディオ信号を処理する方法。
請求項14に記載のデジタルオーディオ信号を処理する方法であって、前記方法は、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を実施することを具備する方法。
請求項15に記載のデジタルオーディオ信号を処理する方法であって、前記方法は、前記共通のハウジング内に配置され、線形予測コーディング分析を前記実施することの結果に基づく信号を送信する送信機を使用することを具備する方法。
請求項14に記載のデジタルオーディオ信号を処理する方法であって、前記デジタルオーディオ信号から第1のオーディオコンテキストを前記抑圧することは、第2のマイクロホンによって生成されるオーディオ信号に基づく、方法。
スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理するための装置であって、前記装置は、
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧するように構成されているコンテキストサプレッサと、
符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化するように構成されている符号化器と、
複数のオーディオコンテキストのうちの1つを選択するように構成されているコンテキスト選択器と、および
前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に挿入するように構成されているコンテキスト符号化器と
を具備する装置。
前記選択オーディオコンテキストに関係する前記情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む、請求項18に記載のデジタルオーディオ信号を処理するための装置。
前記選択オーディオコンテキストに関係する前記情報は、1セットのパラメータ値を含む前記選択オーディオコンテキストの記述を具備する、請求項18に記載のデジタルオーディオ信号を処理するための装置。
パラメータ値の前記セットは、第1の複数のシーケンスを含む、請求項20に記載のデジタルオーディオ信号を処理するための装置であって、前記第1の複数のシーケンスの各々は、異なる時間分解能を有する、請求項20に記載のデジタルオーディオ信号を処理するための装置。
前記コンテキストサプレッサは、前記デジタルオーディオ信号に対してスペクトル減算オペレーションを実施するように構成されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
前記コンテキストサプレッサは、
前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算し、および
前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用する
ように構成されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
前記コンテキストサプレッサは、共通のハウジング内に配置されている2つの異なるマイクロホンからの情報に基づいて前記コンテキスト成分を抑圧するように構成されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
前記コンテキスト選択器は、前記装置の物理的位置に関係する情報に基づいて複数のオーディオコンテキストのうちの1つを選択するように構成されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
前記符号化器は、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を実施するように構成されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項18に記載のデジタルオーディオ信号を処理するための装置であって、各々は、励起信号の記述を含む、請求項18に記載のデジタルオーディオ信号を処理するための装置。
前記コンテキスト符号化器は、前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに挿入するように構成されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
前記コンテキスト符号化器は、前記デジタルオーディオ信号の100ないし2000個のフレームの範囲内の間隔で不連続的に、前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに挿入するように構成されている、請求項28に記載のデジタルオーディオ信号を処理するための装置。
前記選択オーディオコンテキストに関係する前記情報は、前記オーディオコンテキストのレベルの所望の時間的変化を記述する情報を含む、請求項18に記載のデジタルオーディオ信号を処理するための装置。
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧するように構成されているコンテキストサプレッサと、
コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合するように構成されているコンテキストミキサと、
（A）前記第2のオーディオコンテキストおよび（B）前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換するように構成されている変換器と、および
前記アナログ信号に基づく可聴信号を生成するように構成されているスピーカと
をさらに具備する、請求項18に記載のデジタルオーディオ信号を処理するための装置であって、
前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
請求項31に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を実施するように構成されている符号化器を具備する装置。
請求項32に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記共通ハウジング内に配置され、前記線形予測コーディング分析の結果に基づく信号を送信するように構成されている送信機を具備する装置。
前記コンテキストサプレッサは、第2のマイクロホンによって生成されるオーディオ信号に基づいて前記デジタルオーディオ信号から前記第1のオーディオコンテキストを抑圧するように構成されている、請求項31に記載のデジタルオーディオ信号を処理するための装置。
スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理するための装置であって、前記装置は、
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧するための手段と、
符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化するための手段と、
複数のオーディオコンテキストのうちの1つを選択するための手段と、および
前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に挿入するための手段と
を具備する装置。
前記選択オーディオコンテキストに関係する前記情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む、請求項35に記載のデジタルオーディオ信号を処理するための装置。
前記選択オーディオコンテキストに関係する前記情報は、1セットのパラメータ値を含む前記選択オーディオコンテキストの記述を具備する、請求項35に記載のデジタルオーディオ信号を処理するための装置。
パラメータ値の前記セットは、第1の複数のシーケンスを含む、請求項37に記載のデジタルオーディオ信号を処理するための装置であって、前記第1の複数のシーケンスの各々は、異なる時間分解能を有する、請求項37に記載のデジタルオーディオ信号を処理するための装置。
前記コンテキスト成分を抑圧するための前記手段は、前記デジタルオーディオ信号に対してスペクトル減算オペレーションを実施するための手段を具備する、請求項35に記載のデジタルオーディオ信号を処理するための装置。
前記コンテキスト成分を抑圧するための前記手段は、
前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算するための手段と、および
前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用するための手段と
を具備する、請求項35に記載のデジタルオーディオ信号を処理するための装置。
前記コンテキスト成分を抑圧するための前記手段は、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づいて前記コンテキスト成分を抑圧するように構成されている、請求項35に記載のデジタルオーディオ信号を処理するための装置。
複数のオーディオコンテキストのうちの1つを選択するための前記手段は、前記装置の物理的位置に関係する情報に基づいて前記オーディオコンテキストを選択するように構成されている、請求項35に記載のデジタルオーディオ信号を処理するための装置。
符号化するための前記手段は、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を実施するための手段を含む、請求項35に記載のデジタルオーディオ信号を処理するための装置。
前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項35に記載のデジタルオーディオ信号を処理するための装置であって、各々は、励起信号の記述を含む、請求項35に記載のデジタルオーディオ信号を処理するための装置。
前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に挿入するための前記手段は、前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに挿入するための手段を含む、請求項35に記載のデジタルオーディオ信号を処理するための装置。
前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに挿入するための前記手段は、前記デジタルオーディオ信号の１００ないし２０００個のフレームの範囲内の間隔で不連続的にそのような挿入を実施するように構成されている、請求項45に記載のデジタルオーディオ信号を処理するための装置。
前記選択オーディオコンテキストに関係する前記情報は、前記オーディオコンテキストのレベルの所望の時間的変化を記述する情報を含む、請求項35に記載のデジタルオーディオ信号を処理するための装置。
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧するための手段と、
コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合するための手段と、
（A）前記第2のオーディオコンテキストおよび（B）前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換するための手段と、および
前記アナログ信号に基づく可聴信号を生成するように構成されているスピーカと
をさらに具備する、請求項35に記載のデジタルオーディオ信号を処理するための装置であって、
前記マイクロホンおよび前記スピーカの両方は、共通のハウジング内に配置されている、請求項35に記載のデジタルオーディオ信号を処理するための装置。
請求項48に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を実施するための手段を具備する装置。
請求項49に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記共通ハウジング内に配置され、前記線形予測コーディング分析の結果に基づく信号を送信するように構成されている送信するための手段を具備する装置。
抑圧するための前記手段は、第2のマイクロホンによって生成されるオーディオ信号に基づいて前記デジタルオーディオ信号から前記第1のオーディオコンテキストを抑圧するように構成されている、請求項48に記載のデジタルオーディオ信号を処理するための装置。
スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理するための命令を具備するコンピュータ可読媒体であって、プロセッサによって実行されるとき、
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧することと、
符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化することと、
複数のオーディオコンテキストのうちの1つを選択することと、および
前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に挿入することと
を前記プロセッサに行なわせる、コンピュータ可読媒体。
前記選択オーディオコンテキストに関係する前記情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む、請求項52に記載のコンピュータ可読媒体。
前記選択オーディオコンテキストに関係する前記情報は、1セットのパラメータ値を含む前記選択オーディオコンテキストの記述を具備する、請求項52に記載のコンピュータ可読媒体。
パラメータ値の前記セットは、第1の複数のシーケンスを含む、請求項54に記載のコンピュータ可読媒体であって、前記第1の複数のシーケンスの各々は、異なる時間分解能を有する、請求項54に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、前記コンテキスト成分を前記プロセッサに抑圧させる前記命令は、前記デジタルオーディオ信号に対してスペクトル減算オペレーションを前記プロセッサに実施させるように構成されている、請求項52に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、前記コンテキスト成分を前記プロセッサに抑圧させる前記命令は、
前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算することと、および
前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用することと
を前記プロセッサに行なわせるように構成されている、請求項52に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、前記コンテキスト成分を前記プロセッサに抑圧させるように構成されている前記命令は、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づいて前記コンテキスト成分を前記プロセッサに抑圧させるように構成されている、請求項52に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、複数のオーディオコンテキストのうちの1つを前記プロセッサに選択させる前記命令は、前記プロセッサの物理的位置に関係する情報に基づいて前記オーディオコンテキストを前記プロセッサに選択させるように構成されている、請求項52に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、前記プロセッサに符号化をさせる前記命令は、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を前記プロセッサに実施させるように構成されている、請求項52に記載のコンピュータ可読媒体。
前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項52に記載のコンピュータ可読媒体であって、各々は、励起信号の記述を含む、請求項52に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に前記プロセッサに挿入させる前記命令は、前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに前記プロセッサに挿入させるように構成されている、請求項52に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに前記プロセッサに挿入させる前記命令は、前記デジタルオーディオ信号の100ないし2000個のフレームの範囲内の間隔で不連続的にそのような挿入を前記プロセッサに実施させるように構成されている、請求項62に記載のコンピュータ可読媒体。
前記選択オーディオコンテキストに関係する前記情報は、前記オーディオコンテキストのレベルの所望の時間的変化を記述する情報を含む、請求項52に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、前記命令は、
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第１のオーディオコンテキストを抑圧することと、
コンテキスト強調信号を得るために、第２のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合することと、
（A）前記第２のオーディオコンテキストおよび（B）前記コンテキスト強調信号のうちの少なくとも１つに基づく信号をアナログ信号に変換することと、および
前記アナログ信号に基づく可聴信号を生成するためにスピーカを使用することと
を前記プロセッサに行なわせる、請求項52に記載のコンピュータ可読媒体であって、
前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、請求項52に記載のコンピュータ可読媒体。
請求項65に記載のコンピュータ可読媒体であって、前記媒体は、プロセッサによって実行されるとき、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を前記プロセッサに実施させる命令を具備する媒体。
請求項66に記載のコンピュータ可読媒体であって、前記媒体は、プロセッサによって実行されるとき、前記線形予測コーディング分析の結果に基づく信号を送信するために、前記共通ハウジング内に配置されている送信機を前記プロセッサに使用させる命令を具備する媒体。
プロセッサによって実行されるとき、前記第1のオーディオコンテキストを前記プロセッサに抑圧させる前記命令は、第２のマイクロホンによって生成されるオーディオ信号に基づいて前記デジタルオーディオ信号から前記第１のオーディオコンテキストを前記プロセッサに抑圧させるように構成されている、請求項65に記載のコンピュータ可読媒体。
スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理する方法であって、前記方法は、
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧することと、
符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化することと、
第1の論理チャネル上で、第1のエンティティに前記符号化オーディオ信号を送ることと、および
前記第1の論理チャネルとは異なる第2の論理チャネル上で、（A）オーディオコンテキスト選択情報および（B）前記第1のエンティティを識別する情報を第2のエンティティに送ることと
を具備する方法。
第2のエンティティに前記送ることは、セッション開始プロトコルのバージョンに準拠するメッセージにおいて（A）前記オーディオコンテキスト選択情報および（B）前記第1のエンティティを識別する前記情報のうちの少なくとも1つを前記第2のエンティティに送ることを含む、請求項69に記載のデジタルオーディオ信号を処理する方法。
前記第1のエンティティを識別する前記情報は、URI（Uniform Resource Identifier）である、請求項69に記載のデジタルオーディオ信号を処理する方法。
前記オーディオコンテキスト選択情報は、前記方法が実施されるところの物理的位置に関係する情報を含む、請求項69に記載のデジタルオーディオ信号を処理する方法。
請求項69に記載のデジタルオーディオ信号を処理する方法であって、前記方法は、複数のオーディオコンテキストのうちの1つを選択することを具備し、および前記オーディオコンテキスト選択情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む方法。
複数のオーディオコンテキストのうちの1つを前記選択することは、前記方法が実施されるところの物理的位置に関係する情報に基づく、請求項73に記載のデジタルオーディオ信号を処理する方法。
前記コンテキスト成分を前記抑圧することは、前記デジタルオーディオ信号に基づく信号に対してスペクトル減算オペレーションを実施することを具備する、請求項69に記載のデジタルオーディオ信号を処理する方法。
前記コンテキスト成分を前記抑圧することは、
前記デジタルオーディオ信号の複数の非アクティブフレームに基づく複数の利得関数値を計算することと、および
前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用することと
を具備する、請求項69に記載のデジタルオーディオ信号を処理する方法。
前記コンテキスト成分を前記抑圧することは、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づく、請求項69に記載のデジタルオーディオ信号を処理する方法。
前記符号化することは、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を実施することを含む、請求項69に記載のデジタルオーディオ信号を処理する方法。
前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項69に記載のデジタルオーディオ信号を処理する方法であって、各々は、励起信号の記述を含む、請求項69に記載のデジタルオーディオ信号を処理する方法。
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧することと、
コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合することと、
（A）前記第2のオーディオコンテキストおよび（B）前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換することと、および
前記アナログ信号に基づく可聴信号を生成するためにスピーカを使用することと
をさらに具備する、請求項69に記載のデジタルオーディオ信号を処理する方法であって、
前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、請求項69に記載のデジタルオーディオ信号を処理する方法。
請求項80に記載のデジタルオーディオ信号を処理する方法であって、前記方法は、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を実施することを具備する方法。
請求項81に記載のデジタルオーディオ信号を処理する方法であって、前記方法は、前記共通ハウジング内に配置され、線形予測コーディング分析を前記実施することの結果に基づく信号を送信する送信機を使用することを具備する方法。
前記デジタルオーディオ信号から第1のオーディオコンテキストを前記抑圧することは、第2のマイクロホンによって生成されるオーディオ信号に基づく、請求項80に記載のデジタルオーディオ信号を処理する方法。
スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理するための装置であって、前記装置は、
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧するように構成されているコンテキストサプレッサと、
符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化するように構成されている符号化器と、
前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に挿入するように構成されているコンテキスト符号化器と、
第1の論理チャネル上で第1のエンティティに前記符号化オーディオ信号を送るように構成されている第1のプロトコルスタックと、および
第2のエンティティに前記第1の論理チャネルとは異なる第2の論理チャネル上で（A）オーディオコンテキスト選択情報および（B）前記第1のエンティティを識別する情報を送るように構成されている前記第1のプロトコルスタックとは異なる第2のプロトコルスタックと
を具備する装置。
前記第2のプロトコルスタックは、セッション開始プロトコルのバージョンに準拠するメッセージにおいて（A）前記オーディオコンテキスト選択情報および（B）前記第1のエンティティを識別する前記情報のうちの少なくとも1つを前記第2のエンティティに送るように構成されている、請求項84に記載のデジタルオーディオ信号を処理するための装置。
前記第1のエンティティを識別する前記情報は、URI（Uniform Resource Identifier）である、請求項84に記載のデジタルオーディオ信号を処理するための装置。
前記オーディオコンテキスト選択情報は、前記装置の物理的位置に関係する情報を含む、請求項84に記載のデジタルオーディオ信号を処理するための装置。
請求項84に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、複数のオーディオコンテキストのうちの1つを選択するように構成されているコンテキスト選択器を具備し、および
前記オーディオコンテキスト選択情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む装置。
前記コンテキスト選択器は、前記装置の物理的位置に関係する情報に基づいて複数のオーディオコンテキストのうちの1つを選択するように構成されている、請求項88に記載のデジタルオーディオ信号を処理するための装置。
前記コンテキストサプレッサは、前記デジタルオーディオ信号に基づく信号に対してスペクトル減算オペレーションを実施するように構成されている、請求項84に記載のデジタルオーディオ信号を処理するための装置。
前記コンテキストサプレッサは、
前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算し、および
前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用する
ように構成されている、請求項84に記載のデジタルオーディオ信号を処理するための装置。
前記コンテキストサプレッサは、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づいて前記コンテキスト成分を抑圧するように構成されている、請求項84に記載のデジタルオーディオ信号を処理するための装置。
前記符号化器は、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を実施するように構成されている、請求項84に記載のデジタルオーディオ信号を処理するための装置。
前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項84に記載のデジタルオーディオ信号を処理するための装置であって、各々は、励起信号の記述を含む、請求項84に記載のデジタルオーディオ信号を処理するための装置。
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧するように構成されているコンテキストサプレッサと、
コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合するように構成されているコンテキストミキサと、
（A）前記第2のオーディオコンテキストおよび（B）前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換するように構成されている変換器と、および
前記アナログ信号に基づく可聴信号を生成するように構成されているスピーカと
をさらに具備する、請求項84に記載のデジタルオーディオ信号を処理するための装置であって、
前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、請求項84に記載のデジタルオーディオ信号を処理するための装置。
請求項95に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を実施するように構成されている装置。
請求項96に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記共通ハウジング内に配置され、前記線形予測コーディング分析の結果に基づく信号を送信するように構成されている送信器を具備する装置。
前記コンテキストサプレッサは、第2のマイクロホンによって生成されるオーディオ信号に基づいて前記デジタルオーディオ信号から前記第1のオーディオコンテキストを抑圧するように構成されている、請求項95に記載のデジタルオーディオ信号を処理するための装置。
スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理するための装置であって、前記装置は、
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧するための手段と、
符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化するための手段と、
第1の論理チャネル上で第1のエンティティに前記符号化オーディオ信号を送るための手段と、および
前記第1の論理チャネルとは異なる第2の論理チャネル上で（A）オーディオコンテキスト選択情報および（B）前記第1のエンティティを識別する情報を第2のエンティティに送るための手段と
を具備する装置。
第2のエンティティに送るための前記手段は、セッション開始プロトコルのバージョンに準拠するメッセージにおいて（A）前記オーディオコンテキスト選択情報および（B）前記第1のエンティティを識別する前記情報のうちの少なくとも1つを前記第2のエンティティに送るための手段を含む、請求項99に記載のデジタルオーディオ信号を処理するための装置。
前記第1のエンティティを識別する前記情報は、URI（Uniform Resource Identifier）である、請求項99に記載のデジタルオーディオ信号を処理するための装置。
前記オーディオコンテキスト選択情報は、前記装置の物理的位置に関係する情報を含む、請求項99に記載のデジタルオーディオ信号を処理するための装置。
請求項99に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、複数のオーディオコンテキストのうちの1つを選択するための手段を具備し、および
前記オーディオコンテキスト選択情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む装置。
請求項103に記載のデジタルオーディオ信号を処理するための装置であって、選択するための前記手段は、前記装置の物理的位置に関係する情報に基づいて複数のオーディオコンテキストのうちの1つを選択するように構成されている、装置。
前記コンテキスト成分を抑圧するための前記手段は、前記デジタルオーディオ信号に基づく信号に対してスペクトル減算オペレーションを実施するための手段を具備する、請求項99に記載のデジタルオーディオ信号を処理するための装置。
請求項99に記載のデジタルオーディオ信号を処理するための装置であって、前記コンテキスト成分を抑圧するための前記手段は、
前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算するための手段と、および
前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用するための手段と
を具備する、手段。
前記コンテキスト成分を処理するための前記手段は、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づいて前記コンテキスト成分を抑圧するように構成されている、請求項99に記載のデジタルオーディオ信号を処理するための装置。
符号化するための前記手段は、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を実施するための手段を含む、請求項99に記載のデジタルオーディオ信号を処理するための装置。
前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項99に記載のデジタルオーディオ信号を処理するための装置であって、各々は、励起信号の記述を含む、請求項99に記載のデジタルオーディオ信号を処理するための装置。
請求項99に記載のデジタルオーディオ信号を処理するための装置であって、コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧するための手段と、
コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合するための手段と、
（A）前記第2のオーディオコンテキストおよび（B）前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換するための手段と、および
前記アナログ信号に基づく可聴信号を生成するように構成されているスピーカと、
をさらに具備する、装置であって、
前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、装置。
請求項110に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を実施するための手段を具備する装置。
請求項111に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記共通ハウジング内に配置され、前記線形予測コーディング分析の結果に基づく信号を送信するように構成されている送信するための手段を具備する装置。
抑圧するための前記手段は、第2のマイクロホンによって生成されるオーディオ信号に基づいて前記デジタルオーディオ信号から前記第1のオーディオコンテキストを抑圧するように構成されている、請求項110に記載のデジタルオーディオ信号を処理するための装置。
スピーチ成分およびコンテキスト成分を含むデジタルオーディオ信号を処理するための命令を具備するコンピュータ可読媒体であって、プロセッサによって実行されるとき、
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧することと、
符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化することと、
第1の論理チャネル上で第1のエンティティに前記符号化オーディオ信号を送ることと、および
前記第1の論理チャネルとは異なる第2の論理チャネル上で（A）オーディオコンテキスト選択情報および（B）前記第1のエンティティを識別する情報を第2のエンティティに送ることと
を前記プロセッサに行わせる、コンピュータ可読媒体。
プロセッサによって実行されるとき、第2のエンティティに前記プロセッサに送信させる前記命令は、セッション開始プロトコルのバージョンに準拠するメッセージにおいて（A）前記オーディオコンテキスト選択情報および（B）前記第1のエンティティを識別する前記情報のうちの少なくとも1つを前記第2のエンティティに前記プロセッサに送らせるように構成されている、請求項114に記載のコンピュータ可読媒体。
前記第1のエンティティを識別する前記情報は、URI（Uniform Resource Identifier）である、請求項114に記載のコンピュータ可読媒体。
前記オーディオコンテキスト選択情報は、前記プロセッサの物理的位置に関係する情報を含む、請求項114に記載のコンピュータ可読媒体。
請求項114に記載のコンピュータ可読媒体であって、前記媒体は、プロセッサによって実行されるとき、複数のオーディオコンテキストのうちの1つを前記プロセッサに選択させる命令を具備し、および
前記オーディオコンテキスト選択情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む媒体。
プロセッサによって実行されるとき、複数のオーディオコンテキストのうちの1つを前記プロセッサに選択させる前記命令は、前記プロセッサの物理的位置に関係する情報に基づいて複数のオーディオコンテキストのうちの1つを前記プロセッサに選択させるように構成されている、請求項118に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、前記コンテキスト成分を前記プロセッサに抑圧させる前記命令は、前記デジタルオーディオ信号に基づく信号に対してスペクトル減算オペレーションを前記プロセッサに実施させるように構成されている、請求項114に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、前記コンテキスト成分を前記プロセッサに抑圧させる前記命令は、
前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算することと、および
前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用することと
を前記プロセッサに行なわせるように構成されている、請求項114に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、前記コンテキスト成分を前記プロセッサに抑圧させる前記命令は、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づいて前記コンテキスト成分を前記プロセッサに抑圧させるように構成されている、請求項114に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、前記プロセッサに符号化をさせる前記命令は、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を前記プロセッサに実施させるように構成されている、請求項114に記載のコンピュータ可読媒体。
前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項114に記載のコンピュータ可読媒体であって、各々は、励起信号の記述を含む、請求項114に記載のコンピュータ可読媒体。
プロセッサによって実行されるとき、前記命令は、
コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧することと、
コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合することと、
（A）前記第2のオーディオコンテキストおよび（B）前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換することと、および
前記アナログ信号に基づく可聴信号を生成するためにスピーカを使用することと
を前記プロセッサに行なわせる、請求項114に記載のコンピュータ可読媒体であって、
前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、請求項114に記載のコンピュータ可読媒体。
請求項125に記載のコンピュータ可読媒体であって、前記媒体は、プロセッサによって実行されるとき、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を前記プロセッサに実施させる命令を具備する、媒体。
請求項126に記載のコンピュータ可読媒体であって、前記媒体は、プロセッサによって実行されるとき、前記線形予測コーディング分析の結果に基づく信号を送信するために、前記共通ハウジング内に配置されている送信機を前記プロセッサに使用させる命令を具備する媒体。
プロセッサによって実行されるとき、前記第1のオーディオコンテキストを前記プロセッサに抑圧させる前記命令は、第2のマイクロホンによって生成されるオーディオ信号に基づいて前記デジタルオーディオ信号から前記第1のオーディオコンテキストを前記プロセッサに抑圧させるように構成されている、請求項125に記載のコンピュータ可読媒体。