JP2011511962A - コンテキスト・デスクリプタ伝送のためのシステム、方法、および装置 - Google Patents

コンテキスト・デスクリプタ伝送のためのシステム、方法、および装置 Download PDF

Info

Publication number
JP2011511962A
JP2011511962A JP2010544964A JP2010544964A JP2011511962A JP 2011511962 A JP2011511962 A JP 2011511962A JP 2010544964 A JP2010544964 A JP 2010544964A JP 2010544964 A JP2010544964 A JP 2010544964A JP 2011511962 A JP2011511962 A JP 2011511962A
Authority
JP
Japan
Prior art keywords
context
signal
audio signal
digital audio
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010544964A
Other languages
English (en)
Inventor
エル−マレー、クハレド・ヘルミ
ナガラジャ、ナゲンドラ
チョイ、エディー・エル.ティー.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2011511962A publication Critical patent/JP2011511962A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本明細書で開示する構成は、既存のコンテキストを除去、強調、および/または交換するために音声通信および/またはストレージアプリケーションに適用できるシステム、方法、および装置を含む。

Description

関連出願の参照
米国特許法第119条に基づく優先権の主張
本特許出願は、2008年1月28日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR CONTEXT PROCESSING」と題する仮出願第61/024,104号に対する優先権を主張するものであって、本出願の譲受人に譲渡されている。
本開示は、スピーチ信号の処理に関する。
音声信号の通信および/または記憶のためのアプリケーションでは、一般に、マイクロホンを使用して、主要なスピーカの音声の音を含むオーディオ信号を取り込む。音声を表すオーディオ信号の部分は、スピーチまたはスピーチ成分と呼ばれる。取り込まれたオーディオ信号は、通常、背景音など、マイクロホンの周囲の音響環境からの他の音も含む。オーディオ信号のこの部分は、コンテキストまたはコンテキスト成分と呼ばれる。
デジタル技術による、スピーチおよび音楽などのオーディオ情報の伝送は、特に長距離電話通信、IPネットワーク上の音声伝送(VoIPとも呼ばれ、IPはインターネットプロトコルを示す)などのパケット交換電話通信、およびセルラー電話通信などのデジタル無線電話通信において普及してきた。そのような普及により、再構成されたスピーチの知覚品質を維持しながら、伝送チャネルによって音声通信を転送するために使用される情報量を低減することに関心が生じている。たとえば、利用可能なワイヤレスシステム帯域幅を最も良く使用することが望ましい。システム帯域幅を効率的に使用する1つの方法は、信号圧縮技術を使用することである。スピーチ信号を搬送するワイヤレスシステムの場合、通常、スピーチ圧縮(または「スピーチコーディング」)技術がこの目的のために使用される。
人間スピーチ発生のモデルに関係するパラメータを抽出することによってスピーチを圧縮するように構成されているデバイスは、しばしば、音声コーダ、コーデック、ボコーダ、「オーディオコーダ」または「スピーチコーダ」と呼ばれ、以下の説明では、これらの用語を互換的に使用する。スピーチコーダは、一般にスピーチ符号化器とスピーチ復号器とを含む。符号化器は、一般に、「フレーム」と呼ばれるサンプルの一連のブロックとしてデジタルオーディオ信号を受信し、各フレームを分析して、いくつかの関係するパラメータを抽出し、パラメータを符号化フレームに量子化する。符号化フレームは、伝送チャネル(すなわち、有線またはワイヤレスネットワーク接続)を介して、復号器を含む受信機に送信される。代替的に、符号化オーディオ信号を、後で検索および復号するために記憶することができる。復号器は、符号化フレームを受信し、処理し、逆量子化して、パラメータを生成し、逆量子化されたパラメータを使用してスピーチフレームを再現する。
典型的な会話では、各スピーカは、その時間の約60パーセントの間は沈黙状態である。スピーチ符号化器は、通常、スピーチを含むオーディオ信号のフレーム(「アクティブフレーム」)を、コンテキストまたは沈黙のみを含むオーディオ信号のフレーム(「非アクティブフレーム」)と区別するように構成されていてもよい。そのような符号化器は、異なるコーディングモードおよび/またはレートを使用して、アクティブフレームおよび非アクティブフレームを符号化するように構成されていてもよい。たとえば、非アクティブフレームは、一般に、ほとんど情報を搬送しないものとして理解され、スピーチ符号化器は、通常、アクティブフレームを符号化する場合よりも、非アクティブフレームを符号化する場合のほうが、使用するビットが少なくなる(すなわち、ビットレートが低くなる)ように構成されている。
アクティブフレームを符号化するために使用されるビットレートの例は、1フレーム当たり171ビット、1フレーム当たり80ビット、および1フレーム当たり40ビットを含む。非アクティブフレームを符号化するために使用されるビットレートの例は、1フレーム当たり16ビットを含む。セルラー電話通信システム(特に、Telecommunications Industry Association(バージニア州アーリントン)によって公表された暫定標準(IS)−95、または同様の業界標準に準拠するシステム)のコンテキストでは、これらの4つのビットレートは、それぞれ「フルレート」、「ハーフレート」、「1/4レート」、および「1/8レート」とも呼ばれる。
本明細書では、第1のオーディオコンテキストを含むデジタルオーディオ信号を処理する方法について説明する。本方法は、コンテキスト抑圧信号を得るために、第1のマイクロホンによって生成された第1のオーディオ信号に基づいて、デジタルオーディオ信号から第1のオーディオコンテキストを抑圧することを含む。本方法は、コンテキスト強調信号を得るために、第2のオーディオコンテキストを、コンテキスト抑圧信号に基づく信号と混合することも含む。本方法では、デジタルオーディオ信号は、第1のマイクロホンとは異なる第2のマイクロホンによって生成された第2のオーディオ信号に基づく。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。
本明細書では、第1のトランスデューサから受信した信号に基づくデジタルオーディオ信号を処理する方法についても説明する。本方法は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号から第1のオーディオコンテキストを抑圧することと、コンテキスト強調信号を得るために、第2のオーディオコンテキストを、コンテキスト抑圧信号に基づく信号と混合することと、(A)第2のオーディオコンテキストと、(B)コンテキスト強調信号とのうちの少なくとも1つに基づく信号をアナログ信号に変換することと、アナログ信号に基づく可聴信号を生成するために第2のトランスデューサを使用することとを含む。本方法では、第1のトランスデューサと第2のトランスデューサの両方が共通のハウジング内に配置される。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。
本明細書では、符号化オーディオ信号を処理する方法についても説明する。本方法は、スピーチ成分とコンテキスト成分とを含む第1の復号オーディオ信号を得るために、第1のコーディング方式にしたがって符号化オーディオ信号の第1の複数の符号化フレームを復号することと、第2の復号オーディオ信号を得るために、第2のコーディング方式にしたがって符号化オーディオ信号の第2の複数の符号化フレームを復号することと、第2の復号オーディオ信号からの情報に基づいて、コンテキスト抑圧信号を得るために、第1の復号オーディオ信号に基づく第3の信号からコンテキスト成分を抑圧することとを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。
本明細書では、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する方法についても説明する。本方法は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号からコンテキスト成分を抑圧することと、符号化オーディオ信号を得るために、コンテキスト抑圧信号に基づく信号を符号化することと、複数のオーディオコンテキストのうちの1つを選択することと、選択されたオーディオコンテキストに関係する情報を符号化オーディオ信号に基づく信号中に挿入することとを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。
本明細書では、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する方法についても説明する。本方法は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号からコンテキスト成分を抑圧することと、符号化オーディオ信号を得るために、コンテキスト抑圧信号に基づく信号を符号化することと、第1の論理チャネルによって、符号化オーディオ信号を第1のエンティティに送信することと、第1の論理チャネルとは異なる第2の論理チャネルによって、(A)オーディオコンテキスト選択情報と、(B)第1のエンティティを識別する情報とを第2のエンティティに送信することとを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。
本明細書では、符号化オーディオ信号を処理する方法についても説明する。本方法は、復号オーディオ信号を得るために、モバイルユーザ端末内で符号化オーディオ信号を復号することと、モバイルユーザ端末内でオーディオコンテキスト信号を発生することと、モバイルユーザ端末内でオーディオコンテキスト信号に基づく信号を、復号オーディオ信号に基づく信号と混合することとを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。
本明細書では、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する方法についても説明する。本方法は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号からコンテキスト成分を抑圧することと、第1のフィルタと第1の複数のシーケンスとに基づくオーディオコンテキスト信号を発生することであって、第1の複数のシーケンスの各々が異なる時間分解能を有する、発生することと、コンテキスト強調信号を得るために、発生したオーディオコンテキスト信号に基づく第1の信号を、コンテキスト抑圧信号に基づく第2の信号と混合することとを含む。本方法では、オーディオコンテキスト信号を発生することは、第1のフィルタを第1の複数のシーケンスの各々に適用することを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。
本明細書では、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する方法についても説明する。本方法は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号からコンテキスト成分を抑圧することと、オーディオコンテキスト信号を発生することと、コンテキスト強調信号を得るために、発生したオーディオコンテキスト信号に基づく第1の信号を、コンテキスト抑圧信号に基づく第2の信号と混合することと、デジタルオーディオ信号に基づく第3の信号のレベルを計算することとを含む。本方法では、発生することと混合することとのうちの少なくとも1つが、第3の信号の計算されたレベルに基づいて、第1の信号のレベルを制御することを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。
本明細書では、プロセス制御信号の状態にしたがって、スピーチ成分とコンテキスト成分とを有するデジタルオーディオ信号を処理する方法についても説明する。本方法は、プロセス制御信号が第1の状態を有するとき、スピーチ成分がないデジタルオーディオ信号の一部のフレームを第1のビットレートで符号化することを含む。本方法は、コンテキスト抑圧信号を得るために、プロセス制御信号が第1の状態とは異なる第2の状態を有するとき、デジタルオーディオ信号からコンテキスト成分を抑圧することを含む。本方法は、コンテキスト強調信号を得るために、プロセス制御信号が第2の状態を有するとき、オーディオコンテキスト信号をコンテキスト抑圧信号に基づく信号と混合することを含む。本方法は、プロセス制御信号が、第2のビットレートが第1のビットレートよりも高い第2の状態を有するとき、スピーチ成分がないコンテキスト強調信号の一部のフレームを第2のビットレートで符号化することを含む。本明細書では、本方法に関係する装置、手段の組合せ、およびコンピュータ可読媒体についても説明する。
図1Aは、スピーチ符号化器X10のブロック図を示している。 図1Bは、スピーチ符号化器X10の実装形態X20のブロック図を示している。 図2は、決定ツリーの一例を図示している。 図3Aは、一般的構成にしたがって、装置X100のブロック図を示している。 図3Bは、コンテキストプロセッサ100の実装形態102のブロック図を示している。 図3Cは、ポータブルまたはハンズフリーデバイスにおける2つのマイクロホンK10およびK20の様々な取付構成を図示している。 図3Dは、ポータブルまたはハンズフリーデバイスにおける2つのマイクロホンK10およびK20の様々な取付構成を図示している。 図3Eは、ポータブルまたはハンズフリーデバイスにおける2つのマイクロホンK10およびK20の様々な取付構成を図示している。 図3Fは、ポータブルまたはハンズフリーデバイスにおける2つのマイクロホンK10およびK20の様々な取付構成を図示している。 図3Gは、コンテキストプロセッサ102の実装形態102Aのブロック図を示している。 図4Aは、装置X100の実装形態X102のブロック図を示している。 図4Bは、コンテキストプロセッサ104の実装形態106のブロック図を示している。 図5Aは、オーディオ信号と符号化器選択動作との間の様々な可能な依存性を図示している。 図5Bは、オーディオ信号と符号化器選択動作との間の様々な可能な依存性を図示している。 図6は、装置X100の実装形態X110のブロック図を示している。 図7は、装置X100の実装形態X120のブロック図を示している。 図8は、装置X100の実装形態X130のブロック図を示している。 図9Aは、コンテキスト発生器120の実装形態122のブロック図を示している。 図9Bは、コンテキスト発生器122の実装形態124のブロック図を示している。 図9Cは、コンテキスト発生器122の別の実装形態126のブロック図を示している。 図9Dは、発生コンテキスト信号S50を生成するための方法M100のフローチャートである。 図10は、多重解像度コンテキスト合成のプロセスの図を示している。 図11Aは、コンテキストプロセッサ102の実装形態108のブロック図を示している。 図11Bは、コンテキストプロセッサ102の実装形態109のブロック図を示している。 図12Aは、スピーチ復号器R10のブロック図を示している。 図12Bは、スピーチ復号器R10の実装形態R20のブロック図を示している。 図13Aは、コンテキストミキサ190の実装形態192のブロック図を示している。 図13Bは、一構成にしたがって、装置R100のブロック図を示している。 図14Aは、コンテキストプロセッサ200の実装形態のブロック図を示している。 図14Bは、装置R100の実装形態R110のブロック図を示している。 図15は、一構成にしたがって、装置R200のブロック図を示している。 図16は、装置X100の実装形態X200のブロック図を示している。 図17は、装置X100の実装形態X210のブロック図を示している。 図18は、装置X100の実装形態X220のブロック図を示している。 図19は、開示される一構成にしたがって、装置X300のブロック図を示している。 図20は、装置X300の実装形態X310のブロック図を示している。 図21Aは、サーバからコンテキスト情報をダウンロードする例を図示している。 図21Bは、コンテキスト情報を復号器にダウンロードする例を図示している。 図22は、開示する一構成にしたがって、装置R300のブロック図を示している。 図23は、装置R300の実装形態R310のブロック図を示している。 図24は、装置R300の実装形態R320のブロック図を示している。 図25Aは、開示する一構成にしたがって、方法A100のフローチャートを図示している。 図25Bは、開示する一構成にしたがって、装置AM100のブロック図を示している。 図26Aは、開示する一構成にしたがって、方法B100のフローチャートを図示している。 図26Bは、開示する一構成にしたがって、装置BM100のブロック図を示している。 図27Aは、開示する一構成にしたがって、方法C100のフローチャートを図示している。 図27Bは、開示する一構成にしたがって、装置CM100のブロック図を示している。 図28Aは、開示する一構成にしたがって、方法D100のフローチャートを図示している。 図28Bは、開示する一構成にしたがって、装置DM100のブロック図を示している。 図29Aは、開示する一構成にしたがって、方法E100のフローチャートを図示している。 図29Bは、開示する一構成にしたがって、装置EM100のブロック図を示している。 図30Aは、開示する一構成にしたがって、方法E200のフローチャートを図示している。 図30Bは、開示する一構成にしたがって、装置EM200のブロック図を示している。 図31Aは、開示する一構成にしたがって、方法F100のフローチャートを図示している。 図31Bは、開示する一構成にしたがって、装置FM100のブロック図を示している。 図32Aは、開示する一構成にしたがって、方法G100のフローチャートを図示している。 図32Bは、開示する一構成にしたがって、装置GM100のブロック図を示している。 図33Aは、開示する一構成にしたがって、方法H100のフローチャートを図示している。 図33Bは、開示する一構成にしたがって、装置HM100のブロック図を示している。
これらの図では、同じ参照ラベルは同じまたは類似の要素を指す。
オーディオ信号のスピーチ成分は一般に主要な情報を搬送するが、コンテキスト成分も電話などの音声通信アプリケーションにおいて重要な役割を果たす。コンテキスト成分はアクティブフレームと非アクティブフレームの両方の中に存在するので、非アクティブフレームの間のコンテキスト成分の継続的な再生は、受信機において連続性および接続性の感覚を提供するために重要である。コンテキスト成分の再生品質も、自然さおよび全体的な知覚品質のために、特に雑音のある環境で使用されるハンズフリー端末では重要である。
セルラー電話などのモバイルユーザ端末により、音声通信アプリケーションを以前より多くの場所に拡張することができる。結果として、遭遇する可能性がある異なるオーディオコンテキストの数が増加している。いくつかのコンテキストは他よりも構造化されており、認識可能に符号化するのがより難しい場合があるが、既存の音声通信アプリケーションは一般にコンテキスト成分を雑音として扱う。
場合によっては、オーディオ信号のコンテキスト成分を抑制および/またはマスクすることが望ましいことがある。セキュリティ上の理由により、たとえば、送信または記憶の前にオーディオ信号からコンテキスト成分を除去することが望ましい場合がある。代替的に、オーディオ信号に異なるコンテキストを追加することが望ましい場合がある。たとえば、スピーカが異なる場所および/または異なる環境にあると錯覚させることが望ましい場合がある。本明細書で開示される構成は、既存のオーディオコンテキストを除去、強調、および/または交換するために、音声通信および/またはストレージアプリケーションに適用できるシステム、方法、および装置を含む。本明細書に開示する構成は、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルにしたがって音声送信を搬送するように構成された有線および/またはワイヤレスネットワーク)および/または回線交換式であるネットワークにおける使用に適応できることが明確に企図され、本明細書において開示されている。また、本明細書に開示する構成は、狭帯域コーディングシステム(たとえば、約4または5キロヘルツのオーディオ周波数範囲を符号化するシステム)での使用、ならびに全帯域コーディングシステムおよびスプリットバンドコーディングシステムを含む、広帯域コーディングシステム(たとえば、5キロヘルツを超えるオーディオ周波数を符号化するシステム)での使用に適応できることが明確に企図され、本明細書において開示される。
文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の送信媒体上に表されたメモリ位置(または1セットのメモリ位置)の状態を含む、その通常のいずれれの意味も示すのに使用される。文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)、もしくは生成(producing)など、その通常のいずれの意味も示すのに使用される。文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書で、1セットの値から計算すること(computing)、評価すること(evaluating)、および/または選択すること(selecting)など、その通常のすべての意味を示すのに使用される。文脈によって明確に限定されない限り、「得る(obtaining)」という用語は、計算(calculating)、導出(deriving)、(たとえば、外部デバイスからの)受信(receiving)、および/または(たとえば、記憶要素のアレイからの)検索(retrieving)など、その通常のいずれの意味も示すのに使用される。「備える(comprising)」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適切な場合に、(ii)「と等しい」(たとえば、「AはBと等しい」)というケースを含む、その通常のすべての意味を示すのに使用される。
別段の指示がない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。別段の指示がない限り、「コンテキスト(context)」(または「オーディオコンテキスト(audio context)」)という用語は、スピーチ成分とは異なり、スピーカの周囲の環境からオーディオ情報を搬送するオーディオ信号の成分を示すために使用され、「雑音(noise)」という用語は、スピーチ成分の一部でなく、スピーカの周囲の環境から情報を搬送しない、オーディオ信号における他のアーティファクトを示すために使用される。
スピーチ符号化を目的として、スピーチ信号は、通常、サンプルのストリームを得るためにデジタル化(または量子化)される。デジタル化プロセスは、たとえばパルス符号変調(PCM)、コンパンデッドミュー−ロー(companded mu-law)PCM、およびコンパンデッドAロー(companded A-law)PCMを含む、当技術分野で既知の様々な方法のいずれかにしたがって実行されることができる。狭帯域スピーチ符号化器は、通常、8kHzのサンプリングレートを使用するが、広帯域スピーチ符号化器は、通常、より高いサンプリングレート(たとえば、12kHzまたは16kHz)を使用する。
デジタル化されたスピーチ信号は、一連のフレームとして処理される。この一連は、通常、重複しない一連として実装されるが、フレームまたはフレームのセグメント(サブフレームとも呼ばれる)を処理する動作は、その入力内に1つまたは複数の隣接フレームのセグメントを含むこともできる。スピーチ信号のフレームは、一般に、信号のスペクトル包絡線がそのフレームにわたって比較的固定のままであることが予想できるほど十分に短い。フレームは、通常、5ミリ秒と35ミリ秒との間のスピーチ信号(または約40サンプルから200サンプルまで)に対応し、10ミリ秒、20ミリ秒、および30ミリ秒が、一般的なフレームサイズである。一般に、すべてのフレームは同じ長さをもち、本明細書で説明される特定の例では、一様のフレーム長が仮定される。ただし、一様でないフレーム長が使用されることも明確に企図され、本明細書によって開示されている。
20ミリ秒のフレーム長は、7キロヘルツ(kHz)のサンプリングレートで140サンプルに対応し、8kHzのサンプリングレートで160サンプルに対応し、16kHzのサンプリングレートで320サンプルに対応するが、特定の適用例に適切と思われる任意のサンプリングレートを使用することができる。スピーチコーディングに使用できるサンプリングレートの別の例は12.8kHzであり、さらなる例には、12.8kHzないし38.4kHzの範囲内の他のレートがある。
図1Aは、オーディオ信号S10を(たとえば、一連のフレームとして)受信し、対応する符号化オーディオ信号S20を(たとえば、一連の符号化フレームとして)生成するように構成されているスピーチ符号化器X10のブロック図を示している。スピーチ符号化器X10は、コーディング方式選択器20、アクティブフレーム符号化器30、および非アクティブフレーム符号化器40を含む。オーディオ信号S10は、スピーチ成分(すなわち、主要なスピーカの音声の音)およびコンテキスト成分(すなわち、周囲の環境または背景音)を含むデジタルオーディオ信号である。オーディオ信号S10は、一般に、マイクロホンによって取り込まれるアナログ信号のデジタル化バージョンである。
コーディング方式選択器20は、オーディオ信号S10のアクティブフレームを非アクティブフレームと区別するように構成されている。そのような動作は、「音声アクティビティ検出」または「スピーチアクティビティ検出」とも呼ばれ、コーディング方式選択器20は、音声アクティビティ検出器またはスピーチアクティビティ検出器を含むように実装できる。たとえば、コーディング方式選択器20は、アクティブフレームに対しては高であり、非アクティブフレームに対しては低であるバイナリ値コーディング方式選択信号を出力するように構成されていてもよい。図1Aは、コーディング方式選択器20によって生成されるコーディング方式選択信号がスピーチ符号化器X10の1対のセレクタ50aおよび50bを制御するために使用される例を示している。
コーディング方式選択器20は、フレームエネルギー、信号対雑音比(SNR)、周期性、スペクトル分布(たとえば、スペクトル傾斜)、および/またはゼロ交差レートなど、フレームのエネルギーおよび/またはスペクトルコンテンツの1つまたは複数の特性に基づいてフレームをアクティブまたは非アクティブに分類するように構成されていてもよい。そのような分類は、そのような特性の値または大きさをしきい値と比較すること、および/またはそのような特性の(たとえば、先行フレームに対する)変化の大きさをしきい値と比較することを含むことができる。たとえば、コーディング方式選択器20は、現在のフレームのエネルギーを評価し、エネルギー値がしきい値よりも小さい(あるいは、それ以下である)場合にフレームを非アクティブとして分類するように構成されていてもよい。そのような選択器は、フレームサンプルの平方和としてフレームエネルギーを計算するように構成されていてもよい。
コーディング方式選択器20の別の実装形態は、低周波帯域(たとえば、300Hzないし2kHz)および高周波帯域(たとえば、2kHzないし4kHz)の各々における現在のフレームのエネルギーを評価し、各帯域のエネルギー値がそれぞれのしきい値よりも小さい(あるいは、それ以下である)場合にフレームが非アクティブであることを指示するように構成されている。そのような選択器は、フレームにパスバンドフィルタを適用し、フィルタ処理されたフレームのサンプルの平方和を計算することによって帯域におけるフレームエネルギーを計算するように構成されていてもよい。そのような音声アクティビティ検出動作の一例は、www.3gpp2.orgにおいてオンラインで入手可能なThird Generation Partnership Project 2(3GPP2)規格文書C.S0014−C、v1.0(2007年1月)の第4.7節に記載されている。
追加的にまたは代替的に、そのような分類は、1つまたは複数の前のフレームおよび/または1つまたは複数の後続のフレームからの情報に基づくことができる。たとえば、2つ以上のフレームにわたって平均化されるフレーム特性の値に基づいてフレームを分類することが望ましい場合がある。前のフレームからの情報(たとえば、背景雑音レベル、SNR)に基づくしきい値を使用してフレームを分類することが望ましい場合がある。また、アクティブフレームから非アクティブフレームへのオーディオ信号S10における遷移に後続する第1のフレームのうちの1つまたは複数をアクティブとして分類するようにコーディング方式選択器20を構成することが望ましい場合もある。遷移の後にそのような様式で前の分類状態を継続する行為は、「ハングオーバー」とも呼ばれる。
アクティブフレーム符号化器30は、オーディオ信号のアクティブフレームを符号化するように構成されている。符号化器30は、フルレート、ハーフレートまたは1/4レートなどのビットレートにしたがってアクティブフレームを符号化するように構成されていてもよい。符号化器30は、コード励振線形予測(CELP)、プロトタイプ波形補間(PWI)またはプロトタイプピッチ周期(PPP)などのコーディングモードにしたがってアクティブフレームを符号化するように構成されていてもよい。
アクティブフレーム符号化器30の典型的な実装形態は、スペクトル情報の記述および時間情報の記述を含む符号化フレームを生成するように構成されている。スペクトル情報の記述は、符号化スピーチの共振(「フォルマント」とも呼ばれる)を示す線形予測コーディング(LPC)係数値の1つまたは複数のベクトルを含むことができる。スペクトル情報の記述は、線スペクトル周波数(LSF)、線スペクトルペア(LSP)、イミタンススペクトル周波数(ISF)、イミタンススペクトルペア(ISP)、ケプストラム係数、または対数面積比などLPCベクトル(1つまたは複数)が、通常、効率的に量子化されることができる形態に変換されるように一般に量子化される。時間情報の記述は励起信号の記述を含むことができ、これも一般に量子化されている。
非アクティブフレーム符号化器40は、非アクティブフレームを符号化するように構成されている。非アクティブフレーム符号化器40は、一般にアクティブフレーム符号化器30によって使用されるビットレートよりも低いビットレートで非アクティブフレームを符号化するように構成されている。一例では、非アクティブフレーム符号化器40は、雑音励起線形予測(NELP)コーディング方式を使用して1/8レートにおいて非アクティブフレームを符号化するように構成されている。また、非アクティブフレーム符号化器40は、オーディオ信号S10の非アクティブフレームのすべてに満たない符号化フレーム(「無音記述」またはSIDフレームとも呼ばれる)が送信される、不連続送信(DTX)を実行するように構成されていてもよい。
非アクティブフレーム符号化器40の典型的な実装形態は、スペクトル情報の記述と時間情報の記述とを含む符号化フレームを生成するように構成されている。スペクトル情報の記述は、線形予測コーディング(LPC)係数値の1つまたは複数のベクトルを含むことができる。スペクトル情報の記述は、LPCベクトル(1つまたは複数)が、通常、上記の例のように効率的に量子化されることができる形態に変換されるように、一般に量子化されている。非アクティブフレーム符号化器40は、アクティブフレーム符号化器30によって実行されるLPC分析の次数よりも低い次数を有するLPC分析を実行するように構成されていてもよく、および/または、非アクティブフレーム符号化器40は、スペクトル情報の記述を、アクティブフレーム符号化器30によって生成されたスペクトル情報の量子化された記述よりも少数のビットに量子化するように構成されていてもよい。時間情報の記述は、同じく一般に量子化される、(たとえば、フレームの利得値および/またはフレームの一連のサブフレームの各々の利得値を含む)時間包絡線の記述を含むことができる。
符号化器30および40は共通の構造を共有することができることに留意されたい。たとえば、符号化器30および40は、(場合によっては、アクティブフレームでは非アクティブフレームとは異なる次数を有する結果を生成するように構成されている)LPC係数値の計算器を共有することができるが、それぞれ異なる時間記述計算器を有することができる。また、スピーチ符号化器X10のソフトウェアまたはファームウェア実装形態は、実行のフローをフレーム符号化器の1つまたは別の1つに向けるためにコーディング方式選択器20の出力を使用することができ、そのような実装形態は、選択器50aおよび/または選択器50bの類似物を含むことができないことに留意されたい。
オーディオ信号S10の各アクティブフレームをいくつかの異なるタイプの1つとして分類するように、コーディング方式選択器20を構成することが望ましい場合がある。これらの異なるタイプは、音声スピーチ(たとえば、母音を表すスピーチ)のフレーム、遷移フレーム(たとえば、単語の先頭または末尾を表すフレーム)、および非音声スピーチ(たとえば、摩擦音を表すスピーチ)のフレームを含むことができる。フレーム分類は、フレームエネルギー、2つ以上の異なる周波数帯域の各々におけるフレームエネルギー、SNR、周期性、スペクトル傾斜、および/またはゼロ交差レートなど、現在のフレーム、および/または1つまたは複数の前のフレームの1つまたは複数の特徴に基づくことができる。そのような分類は、そのようなファクタの値または大きさをしきい値と比較すること、および/またはそのようなファクタの変化の大きさをしきい値と比較することを含むことができる。
異なるコーディングビットレートを使用して異なるタイプのアクティブフレームを符号化するように(たとえば、ネットワークの需要と容量のバランスをとるために)、スピーチ符号化器X10を構成することが望ましい場合がある。そのような動作は「可変レートコーディング」と呼ばれる。たとえば、比較的高いビットレート(たとえば、フルレート)で遷移フレームを符号化し、比較的低いビットレート(たとえば、1/4レート)で非音声フレームを符号化し、中間のビットレート(たとえば、ハーフレート)またはより高いビットレート(たとえば、フルレート)で音声フレームを符号化するようにスピーチ符号化器X10を構成することが望ましい場合がある。
図2に、コーディング方式選択器20の実装形態22が、ある特定のフレームが含むスピーチのタイプによってそのフレームを符号化するためのビットレートを選択するのに使用してもよい決定ツリーの一例を示している。他の場合には、特定のフレームのために選択されるビットレートは、所望の平均ビットレート、一連のフレームにわたる所望のビットレートパターン(所望の平均ビットレートをサポートするために使用することができる)、および/または前のフレームのために選択されたビットレートなどの判断基準に依存することもできる。
追加的にまたは代替的に、異なるタイプのスピーチフレームを符号化するために異なるコーディングモードを使用するようにスピーチ符号化器X10を構成することが望ましい場合がある。そのような動作は「マルチモードコーディング」と呼ばれる。たとえば、音声スピーチのフレームは、長期間であり(すなわち、複数のフレーム周期の間継続し)、ピッチに関連する周期構造を有する傾向があり、この長期間スペクトル特徴の記述を符号化するコーディングモードを使用して音声フレーム(または音声フレームのシーケンス)を符号化することが一般により効率的である。そのようなコーディングモードの例には、CELP、PWI、およびPPPがある。一方、非音声フレームおよび非アクティブフレームには、通常、著しい長期間スペクトル特徴がなく、スピーチ符号化器は、そのようなNELPなどの特徴を記述しようと試みないコーディングモードを使用して、これらのフレームを符号化するように構成されていてもよい。
たとえば、周期性または音声に基づく分類にしたがって異なるモードを使用してフレームが符号化されるようにマルチモードコーディングを使用するためにスピーチ符号化器X10を実装することが望ましい場合がある。異なるタイプのアクティブフレームのためにビットレートおよびコーディングモード(「コーディング方式」とも呼ばれる)の異なる組合せを使用するようにスピーチ符号化器X10を実装することが望ましい場合もある。そのようなスピーチ符号化器X10の実装形態の一例は、音声スピーチを含むフレームおよび遷移フレームについてはフルレートCELP方式、非音声スピーチを含むフレームについてはハーフレートNELP方式、および非アクティブフレームについては1/8レートNELP方式を使用する。そのようなスピーチ符号化器X10の実装形態の他の例は、フルレートおよびハーフレートのCELP方式および/またはフルレートおよび1/4レートPPP方式など1つまたは複数のコーディング方式に対して複数のコーディングレートをサポートする。マルチ方式符号化器、復号器、コーディング技術の例は、たとえば、「METHODS AND APPARATUS FOR MAINTAINING A TARGET BIT RATE IN A SPEECH CODER」と題する米国特許第6,330,532号および「VARIABLE RATE SPEECH CODING」と題する米国特許第6,691,084号、および「CLOSED-LOOP VARIABLE-RATE MULTIMODE PREDICTIVE SPEECH CODER」と題する米国特許出願第09/191,643号および「ARBITRARY AVERAGE DATA RATES FOR VARIABLE RATE CODERS」と題する米国特許出願第11/625,788号に記載されている。
図1Bは、アクティブフレーム符号化器30の複数の実装形態30a、30bを含むスピーチ符号化器X10の実装形態X20のブロック図を示している。符号化器30aは、第1のコーディング方式(たとえば、フルレートCELP)を使用してアクティブフレームの第1のクラス(たとえば、音声フレーム)を符号化するように構成されており、符号化器30bは第1のコーディング方式とは異なるビットレートおよび/またはコーディングモードを有する第2のコーディング方式(たとえば、ハーフレートNELP)を使用してアクティブフレームの第2のクラス(たとえば、非音声フレーム)を符号化するように構成されている。この場合、選択器52aおよび52bは、3つ以上の可能な状態を有するコーディング方式選択器22によって生成されるコーディング方式選択信号の状態にしたがって、様々なフレーム符号化器の中から選択するように構成されている。スピーチ符号化器X20は、アクティブフレーム符号化器30の3つ以上の異なる実装の中からの選択をサポートするような方法で拡張されてもよいことが明確に開示される。
スピーチ符号化器X20のフレーム符号化器のうちの1つまたは複数は共通の構造を共有することができる。たとえば、そのような符号化器は、(場合によっては、フレームの異なるクラスに対して異なる次数を有する結果を生成するように構成されている)LPC係数値の計算器を共有することができるが、それぞれ異なる時間記述計算器を有することができる。たとえば、符号化器30aおよび30bは異なる励起信号計算器を有することができる。
図1Bに示すように、スピーチ符号化器X10は雑音サプレッサ10を含むように実装することもできる。雑音サプレッサ10は、オーディオ信号S10に対して雑音抑圧オペレーションを実行するように構成および配列される。そのようなオペレーションは、コーディング方式選択器20によるアクティブフレームと非アクティブフレームとの間の改善された弁別、および/またはアクティブフレーム符号化器30および/または非アクティブフレーム符号化器40によるより良い符号化結果をサポートすることができる。雑音サプレッサ10は、オーディオ信号の2つ以上の異なる周波数チャネルの各々に異なるそれぞれの利得ファクタを適用するように構成されていてもよく、各チャネルの利得ファクタは雑音エネルギーの推定またはチャネルのSNRに基づくことができる。そのような利得制御を、時間領域とは反対に周波数領域で実行することが望ましい場合があり、そのような構成の一例が、上記に言及された3GPP2規格文書C.S0014−Cの第4.4.3節に記載されている。代替的に、雑音サプレッサ10は、場合によっては周波数領域でオーディオ信号に適応フィルタを適用するように構成されていてもよい。欧州電気通信標準化機構(ETSI)文書ES 202 0505 v1.1.5(2007年1月、www.etsi.orgにおいてオンラインで入手可能)の第5.1節には、非アクティブフレームから雑音スペクトルを推定し、計算された雑音スペクトルに基づいて、メル歪曲ウィーナーフィルタリングの2つのステージをオーディオ信号に対して実行するような構成の一例が記載されている。
図3Aは、一般的な構成による装置X100のブロック図(符号化器、符号化装置、または符号化のための装置とも呼ばれる)を示している。装置X100は、オーディオ信号S10から既存のコンテキストを除去して、そのコンテキストを、既存のコンテキストと同様のまたは既存のコンテキストとは異なる発生コンテキストと交換するように構成されている。装置X100は、コンテキスト強調オーディオ信号S15を生成するためにオーディオ信号S10を処理するように構成および配列されているコンテキストプロセッサ100を含む。装置X100は、符号化オーディオ信号S20を生成するためにコンテキスト強調オーディオ信号S15を符号化するように配列されているスピーチ符号化器X10(たとえば、スピーチ符号化器X20)の実装形態をも含む。セルラー電話など装置X100を含む通信デバイスは、有線送信チャネル、ワイヤレス送信チャネル、または光学送信チャネル(たとえば、1つまたは複数の搬送波の無線周波数変調による)に符号化オーディオ信号S20を送信する前に、この信号に対して誤り訂正、冗長性、および/またはプロトコル(たとえば、イーサネット(登録商標)、TCP/IP、CDMA2000)コーディングなどのさらなる処理オペレーションを実行するように構成されていてもよい。
図3Bは、コンテキストプロセッサ100の実装形態102のブロック図を示している。コンテキストプロセッサ102は、コンテキスト抑圧オーディオ信号S13を生成するためにオーディオ信号S10のコンテキスト成分を抑圧するように構成および配列されているコンテキストサプレッサ110を含む。コンテキストプロセッサ102は、コンテキスト選択信号S40の状態にしたがって、発生コンテキスト信号S50を生成するように構成されているコンテキスト発生器120をも含む。コンテキストプロセッサ102は、コンテキスト強調オーディオ信号S15を生成するために、コンテキスト抑圧オーディオ信号S13を発生コンテキスト信号S50と混合するように構成および配列されているコンテキストミキサ190をも含む。
図3Bに示すように、コンテキストサプレッサ110は、符号化の前にオーディオ信号から既存のコンテキストを抑圧するように配列されている。コンテキストサプレッサ110は、上述のように、(たとえば、1つまたは複数の異なるしきい値を使用することによって)雑音サプレッサ10の比較的積極的なバージョンとして実装することができる。代替的にまたは追加的に、コンテキストサプレッサ110は、オーディオ信号S10のコンテキスト成分を抑圧するために2つ以上のマイクロホンからのオーディオ信号を使用するように実装されることができる。図3Gは、コンテキストサプレッサ110のそのような実装形態110Aを含むコンテキストプロセッサ102の実装形態102Aのブロック図を示している。コンテキストサプレッサ110Aは、たとえば、第1のマイクロホンによって生成されるオーディオ信号に基づくオーディオ信号S10のコンテキスト成分を抑圧するように構成されている。コンテキストサプレッサ110Aは、第2のマイクロホンによって生成されるオーディオ信号に基づくオーディオ信号SA1(たとえば、別のデジタルオーディオ信号)を使用することによってそのようなオペレーションを実行するように構成されている。複数マイクロホンによるコンテキスト抑圧の適切な例は、たとえば、「APPARATUS AND METHOD OF NOISE AND ECHO REDUCTION」(Choy他)と題する米国特許出願第11/864,906号(弁理士整理番号第061521号)、および「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」(Visser他)と題する米国特許出願第12/037,928号(弁理士整理番号第080551号)で開示されている。たとえば、「MULTIPLE MICROPHONE VOICE ACTIVITY DETECTOR」(Choy他)と題する米国特許出願第11/864,897号(弁理士整理番号第061497号)で開示された技術にしたがって、コンテキストサプレッサ110の複数マイクロホンの実装形態は、スピーチアクティビティ検出パフォーマンスを改善するためのコーディング方式選択器20の対応する実装形態に情報を提供するように構成されていることもできる。
図3C〜図3Fは、装置X100の実装形態(セルラー電話または他のモバイルユーザ端末など)を含む携帯デバイス、またはそのような携帯デバイスへの有線接続またはワイヤレス(たとえば、Bluetooth(登録商標))接続を介して通信するように構成されているイヤホンまたはヘッドセットなどのハンズフリーデバイスにおける2つのマイクロホンK10およびK20のための様々な取付構成を示している。これらの例では、マイクロホンK10は、主にスピーチ成分(たとえば、オーディオ信号S10のアナログ先行モデル)を含むオーディオ信号を生成するように配列され、マイクロホンK20は、主にコンテキスト成分(たとえば、オーディオ信号SA1のアナログ先行モデル)を含むオーディオ信号を生成するように配列されている。図3Cは、マイクロホンK10がデバイスの前面裏に取り付けられ、マイクロホンK20がデバイスの上面裏に取り付けられている配列の一例を示している。図3Dは、マイクロホンK10がデバイスの前面裏に取り付けられ、マイクロホンK20がデバイスの側面裏に取り付けられている配列の一例を示している。図3Eは、マイクロホンK10がデバイスの前面裏に取り付けられ、マイクロホンK20がデバイスの底面裏に取り付けられている配列の一例を示している。図3Fは、マイクロホンK10がデバイスの前面(または内側)裏に取り付けられ、マイクロホンK20がデバイスの後部(または外側)裏に取り付けられている配列の一例を示している。
コンテキストサプレッサ110は、オーディオ信号に関するスペクトル減算オペレーションを実行するように構成されていてもよい。スペクトル減算は、定常統計を有するコンテキスト成分を抑圧することが期待できるが、非定常のコンテキストを抑圧するのには有効でない場合がある。スペクトル減算は、1つのマイクロホンを有するアプリケーションならびに複数のマイクロホンからの信号が利用可能であるアプリケーションで使用されることができる。典型的な例において、コンテキストサプレッサ110のそのような実装形態は、いくつかの周波数サブバンド(「周波数ビン」とも呼ばれる)の各々におけるコンテキスト成分のエネルギーレベルなど、既存のコンテキストの統計的記述を導出し、オーディオ信号に対応する周波数選択性利得を適用する(たとえば、対応するコンテキストエネルギーレベルに基づいて周波数サブバンドの各々上でオーディオ信号を減衰する)ために、オーディオ信号の非アクティブフレームを分析するように構成されている。スペクトル減算オペレーションの他の例は、S. F. Boll、「Suppression of Acoustic Noise in Speech Using Spectral Subtraction」、IEEE Trans. Acoustics, Speech and Signal Processing、27(2): 112-120、1979年4月、R. Mukai、S. Araki、H. SawadaおよびS. Makino、「Removal of residual crosstalk components in blind source separation using LMS filters」、Proc. of 12th IEEE Workshop on Neural Networks for Signal Processing、435〜444ページ、マルチニー、スイス、2002年9月、およびR. Mukai、S. Araki、H. SawadaおよびS. Makino、「Removal of residual cross-talk components in blind source separation using time-delayed spectral subtraction」、Proc. of ICASSP 2002、1789〜1792ページ、2002年5月に記載されている。
追加的または代替的な実装形態において、コンテキストサプレッサ110は、オーディオ信号に対してブラインドソース分離(BSS、独立成分分析とも呼ばれる)オペレーションを実行するように構成されていてもよい。ブラインドソース分離は、(オーディオ信号S10をキャプチャするために使用されるマイクロホンに加えて)1つまたは複数のマイクロホンから信号が利用可能であるアプリケーションに使用できる。ブラインドソース分離は、定常のコンテキストならびに非定常統計を有するコンテキストを抑圧することが期待されてもよい。米国特許第6,167,417号(Parra他)に記載されているBSSオペレーションの一例では、ソース信号を分離するために使用されるフィルタの係数を計算するために勾配降下法を使用する。BSSオペレーションの他の例は、S. Amari、A. Cichocki、and H. H. Yang、「A new learning algorithm for blind signal separation」、Advances in Neural Information Processing Systems 8、MIT Press、1996年、L. MolgedeyおよびH. G. Schuster、「Separation of a mixture of independent signals using time delayed correlations」、Phys. Rev. Lett.、72(23): 3634-3637、1994年、およびL. ParraおよびC. Spence、「Convolutive blind source separation of non-stationary sources」、IEEE Trans. on Speech and Audio Processing、8(3): 320-327、2000年5月に記載されている。上記の実装形態の追加または代替として、コンテキストサプレッサ100は、ビームフォーミングオペレーションを実行するように構成されていてもよい。たとえば、ビームフォーミングオペレーションの例は、上記の米国特許出願第11/864,897号(弁理士整理番号第061497号)、およびH. Saruwatari他、「Blind Source Separation Combining Independent Component Analysis and Beamforming」、EURASIP Journal on Applied Signal Processing, 2003:11, 1135-1146 (2003)に開示されている。
セルラー電話またはハンズフリーデバイスのケーシングなどの共通のハウジング内に取り付けられたマイクロホンなど、互いに近くに位置するマイクロホンは、高い瞬時相関を有する信号を生成することができる。当業者ならば、1つまたは複数のマイクロホンを共通のハウジング(すなわち、デバイス全体のケーシング)内のマイクロホンハウジングの内に配置されることができることも認識するであろう。そのような相関は、BSSオペレーションのパフォーマンスを劣化させる可能性があり、そのような場合、BSSオペレーションの前にオーディオ信号を無相関化することが望ましい場合がある。無相関化は、一般にエコー消去にも有効である。無相関化器は、5つ以下のタップ、さらには3つ以下のタップを有するフィルタ(場合によっては適応フィルタ)として実装されることができる。そのようなフィルタのタップ重みは、固定とするか、または入力オーディオ信号の相関特性にしたがって選択されることができ、格子フィルタ構造を使用して無相関化フィルタを実装することが望ましい場合がある。コンテキストサプレッサ110のそのような実装形態は、オーディオ信号の2つ以上の異なる周波数サブバンドの各々に対して別々の無相関化オペレーションを実行するように構成されていることができる。
コンテキストサプレッサ110の実装形態は、少なくともBSSオペレーションの後に、分離されたスピーチ成分に対して1つまたは複数の追加の処理オペレーションを実行するように構成されていることができる。たとえば、コンテキストサプレッサ110が、少なくとも分離されたスピーチ成分に対して無相関化オペレーションを実行することが望ましい場合がある。そのようなオペレーションは、分離されたスピーチ成分の2つ以上の異なる周波数サブバンドの各々に対して別々に実行されることができる。
追加的にまたは代替的に、コンテキストサプレッサ110の実装形態は、分離されたスピーチ成分に対して、分離されたコンテキスト成分に基づくスペクトル減算などの非線形処理オペレーションを実行するように構成されていることができる。スピーチ成分から既存のコンテキストをさらに抑圧することができるスペクトル減算は、分離されたコンテキスト成分の対応する周波数サブバンドのレベルにしたがって時間とともに変化する周波数選択性利得として実装されることができる。
追加的にまたは代替的に、コンテキストサプレッサ110の実装形態は、分離されたスピーチ成分に対してセンタークリッピングオペレーションを実行するように構成されていることができる。そのようなオペレーションは、一般に信号レベルおよび/またはスピーチアクティビティレベルに比例して時間とともに変化する信号に利得を適用する。センタークリッピングオペレーションの一例は、y[n]={|x[n]|<Cの場合は0、他の場合はx[n]}と表すことができる。ただし、x[n]は入力サンプル、y[n]は出力サンプル、Cはクリッピングしきい値である。センタークリッピングオペレーションの別の例はy[n]={|x[n]|<Cの場合は0、他の場合はsgn(x[n])(|x[n]|−C)}と表すことができる。ただし、sgn(x[n])はx[n]のサインを示す。
オーディオ信号から、既存のコンテキスト成分をほぼ完全に除去するようにコンテキストサプレッサ110を構成することが望ましい場合がある。たとえば、装置X100が、既存のコンテキスト成分を、既存のコンテキスト成分とは異なる発生コンテキスト信号S50と交換することが望ましい場合がある。そのような場合、既存のコンテキスト成分のほぼ完全な除去は、復号オーディオ信号において、既存のコンテキスト成分と交換コンテキスト信号との間の可聴干渉を低減するのを助けることができる。別の例では、発生コンテキスト信号S50がオーディオ信号にも追加されているか否かにかかわらず、装置X100が既存のコンテキスト成分を隠すように構成されていることが望ましい場合がある。
2つ以上の異なる動作モードの間で構成可能なコンテキストプロセッサ100を実装することが望ましい場合がある。たとえば、(A)コンテキストプロセッサ100が、既存のコンテキスト成分がほぼ不変のままであるオーディオ信号をパスするように構成されている第1の動作モードと、(B)コンテキストプロセッサ100が、既存のコンテキスト成分をほぼ完全に除去する(場合によっては、発生コンテキスト信号S50と交換する)ように構成されている第2の動作モードとを提供することが望ましい場合がある。そのような第1の動作モードのサポート(デフォルトモードとして構成されることができる)は、装置X100を含むデバイスの後方互換性を可能にするのに役立つ場合がある。第1の動作モードにおいて、コンテキストプロセッサ100は、雑音抑圧オーディオ信号を生成するために(たとえば、雑音サプレッサ10に関して上述したように)オーディオ信号に対して雑音抑圧オペレーションを実行するように構成されていることができる。
コンテキストプロセッサ100のさらなる実装形態は、3つ以上の動作モードをサポートするように同様に構成されていることができる。たとえば、そのようなさらなる実装形態は、少なくともほぼコンテキスト抑圧なし(たとえば、雑音抑圧のみ)から、部分的なコンテキスト抑圧まで、少なくともほぼ完全なコンテキスト抑圧までの範囲内の3つ以上のモードから選択可能な1つにしたがって既存のコンテキスト成分が抑圧される程度を変化させるように構成可能とされることができる。
図4Aは、コンテキストプロセッサ100の実装形態104を含む装置X100の実装形態X102のブロック図を示している。コンテキストプロセッサ104は、プロセス制御信号S30の状態にしたがって、上で説明されたように2つ以上のモードの1つで動作するように構成されている。プロセス制御信号S30の状態は、(たとえば、グラフィカルユーザインターフェース、スイッチ、または他の制御インターフェースを介して)ユーザによって制御されるか、あるいはプロセス制御信号S30は、プロセス制御信号S30の異なる状態に1つまたは複数の変数(たとえば、物理的位置、動作モード)の異なる値を関連付けるテーブルなどのインデックスデータ構造を含むプロセス制御発生器340(図16に示す)によって発生される。一例では、プロセス制御信号S30は、その状態が既存のコンテキスト成分をパスすべきか抑圧すべきかを示すバイナリ値信号(すなわち、フラグ)として実装される。そのような場合、コンテキストプロセッサ104は、第1のモードでは、その要素の1つまたは複数を使用不能にすること、および/または信号経路からそのような要素を除去する(すなわち、オーディオ信号がそのような要素をバイパスできるようにする)ことによってオーディオ信号S10をパスするように構成されていてもよく、第2のモードでは、そのような要素を使用可能にすることおよび/またはそのような要素を信号経路に挿入することによってコンテキスト強調オーディオ信号S15を生成するように構成されていてもよい。代替的に、コンテキストプロセッサ104は、第1のモードでは、(たとえば、雑音サプレッサ10に関して上で説明されたように)オーディオ信号S10に対して雑音抑圧オペレーションを実行するように構成されていてもよく、第2のモードでは、オーディオ信号S10に対してコンテキスト交換オペレーションを実行するように構成されていてもよい。別の例では、プロセス制御信号S30は3つ以上の可能な状態を有し、各状態は、少なくともほぼコンテキスト抑圧なし(たとえば、雑音抑圧のみ)から、部分的なコンテキスト抑圧まで、少なくともほぼ完全なコンテキスト抑圧までの範囲内のコンテキストプロセッサの3つ以上の動作モードの異なる1つに対応する。
図4Bは、コンテキストプロセッサ104の実装形態106のブロック図を示している。コンテキストプロセッサ106は、少なくとも2つの動作モード、すなわちコンテキストサプレッサ112が、既存のコンテキスト成分がほぼ不変のままのオーディオ信号S10をパスするように構成されている第1の動作モードと、コンテキストサプレッサ112がオーディオ信号S10から既存のコンテキスト成分をほぼ完全に除去する(すなわち、コンテキスト抑圧オーディオ信号S13を生成する)ように構成されている第2の動作モードとを有するように構成されているコンテキストサプレッサ110の実装形態112を含む。第1の動作モードがデフォルトモードであるようにコンテキストサプレッサ112を実装することが望ましい場合がある。第1の動作モードでは、雑音抑圧オーディオ信号を生成するために(たとえば、雑音サプレッサ10に関して上で説明されたように)オーディオ信号に対して雑音抑圧オペレーションを実行するようにコンテキストサプレッサ112を実装することが望ましい場合がある。
コンテキストサプレッサ112は、その第1の動作モードでは、オーディオ信号に対してコンテキスト抑圧オペレーションを実行するように構成されている1つまたは複数の要素(たとえば、1つまたは複数のソフトウェアおよび/またはファームウェアルーチン)がバイパスされるように実装されることができる。代替的にまたは追加的に、コンテキストサプレッサ112は、そのようなコンテキスト抑圧オペレーション(たとえば、スペクトル減算および/またはBSSオペレーション)の1つまたは複数のしきい値を変化させることによって異なるモードで動作するように実装されることができる。たとえば、コンテキストサプレッサ112は、第1のモードでは、雑音抑圧オペレーションを実行するためにしきい値の第1のセットを適用するように構成されていてもよく、第2のモードでは、コンテキスト抑圧オペレーションを実行するためにしきい値の第2のセットを適用するように構成されていてもよい。
プロセス制御信号S30は、コンテキストプロセッサ104の1つまたは複数の他の要素を制御するために使用されることができる。図4Bは、コンテキスト発生器120の実装形態122がプロセス制御信号S30の状態にしたがって動作するように構成されている例を示している。たとえば、プロセス制御信号S30の対応する状態にしたがって、使用不能にされるように(たとえば、電力消費を低減するように)コンテキスト発生器122を実装するか、あるいはコンテキスト発生器122が、発生コンテキスト信号S50を生成することを防ぐことが望ましい場合がある。追加的にまたは代替的に、プロセス制御信号S30の対応する状態にしたがって、使用不能にされるかまたはバイパスされるようにコンテキストミキサ190を実装するか、あるいはコンテキストミキサ190が、その入力オーディオ信号を発生コンテキスト信号S50と混合することを防ぐことが望ましい場合がある。
上記のように、スピーチ符号化器X10は、オーディオ信号S10の1つまたは複数の特性にしたがって、2つ以上のフレーム符号化器の中から選択するように構成されていてもよい。同様に、装置X100の実装形態内で、コーディング方式選択器20は、オーディオ信号S10、コンテキスト抑圧オーディオ信号S13、および/またはコンテキスト強調オーディオ信号S15のうちの1つまたは複数の特性にしたがって符号化器選択信号を生成するように、様々に実装されることができる。図5Aは、これらの信号とスピーチ符号化器X10の符号化器選択動作との間の様々な可能な依存性を示している。図6は、コーディング方式選択器20が、(図5AにポイントBとして示される)コンテキスト抑圧オーディオ信号S13の1つまたは複数の特性、たとえば、フレームエネルギー、2つ以上の異なる周波数帯域の各々におけるフレームエネルギー、SNR、周期性、スペクトル傾斜、および/またはゼロ交差レートなどに基づいて、符号化器選択信号を生成するように構成されている、装置X100の特定の実装形態X110のブロック図を示している。図5Aおよび図6において示唆される装置X100の様々な実装形態はいずれも、(たとえば、図4A、図4Bを参照して説明された)プロセス制御信号S30の状態および/または(たとえば、図1Bを参照して説明された)3つ以上のフレーム符号化器の中の1つの選択にしたがってコンテキストサプレッサ110の制御を含むようにも構成されていてもよいことが明確に企図され、本明細書によって開示される。
雑音抑圧とコンテキスト抑圧とを別々のオペレーションとして実行するように装置X100を実装することが望ましい場合がある。たとえば、雑音サプレッサ10を除去することも、使用不能にすることも、バイパスすることもなく、スピーチ符号化器X20の既存の実装形態を有するデバイスにコンテキストプロセッサ100の実装形態を追加することが望ましい場合がある。図5Bは、雑音サプレッサ10を含む装置X100の実装形態における、オーディオ信号S10に基づく信号とスピーチ符号化器X20の符号化器選択動作との間の様々な可能な依存性を示している。図7は、コーディング方式選択器20が、(図5BでポイントAとして示す)雑音抑圧オーディオ信号S12の1つまたは複数の特性、たとえば、フレームエネルギー、2つ以上の異なる周波数帯域の各々におけるフレームエネルギー、SNR、周期性、スペクトル傾斜、および/またはゼロ交差レートなどに基づいて、符号化器選択信号を生成するように構成されている装置X100の特定の実装形態X120のブロック図を示している。図5Bおよび図7に示唆される装置X100の様々な実装形態はいずれも、(たとえば、図4A、図4Bを参照して説明された)プロセス制御信号S30の状態および/または(たとえば、図1Bを参照して説明された)3つ以上のフレーム符号化器の中の1つの選択にしたがってコンテキストサプレッサ110の制御を含むようにも構成されていてもよいことが、明確に企図され、本明細書によって開示される。
コンテキストサプレッサ110は、雑音サプレッサ10を含むように構成されていることもできる。または、オーディオ信号S10に対して雑音抑圧を実行するように選択的に構成されていることもできる。たとえば、装置X100は、プロセス制御信号S30の状態にしたがって、コンテキスト抑圧(オーディオ信号S10から既存のコンテキストがほぼ完全に除去される)または雑音抑圧(既存のコンテキストがほぼ不変のままである)を実行することが望ましい場合がある。一般に、コンテキストサプレッサ110は、コンテキスト抑圧を実行する前のオーディオ信号S10に対して、および/またはコンテキスト抑圧を実行した後の結果のオーディオ信号に対して、1つまたは複数の他の処理オペレーション(フィルタ処理オペレーションなど)を実行するように構成されていることもできる。
上記のように、既存のスピーチ符号化器は、一般に、低ビットレートおよび/またはDTXを使用して非アクティブフレームを符号化する。したがって、符号化された非アクティブフレームは一般にコンテキスト情報をほとんど含んでいない。コンテキスト選択信号S40によって示される特定のコンテキストおよび/またはコンテキスト発生器120の特定の実装形態に応じて、発生コンテキスト信号S50の音質および情報量は、元のコンテキストのそれよりも大きくなる場合がある。そのような場合、元のコンテキストのみを含む非アクティブフレームを符号化するために使用されるビットレートよりも高いビットレートを使用して、発生コンテキスト信号S50を含む非アクティブフレームを符号化することが望ましい場合がある。図8は、少なくとも2つのアクティブフレーム符号化器30a、30bと、コーディング方式選択器20および選択器50a、50bの対応する実装形態とを含む装置X100の実装形態X130のブロック図を示している。この例では、装置X130は、コンテキスト強調信号に基づいて(すなわち、発生コンテキスト信号S50がコンテキスト抑圧オーディオ信号に追加された後に)コーディング方式選択を実行するように構成されている。そのような配列は、音声アクティビティの誤った検出をもたらす可能性があるが、コンテキスト強調無音フレームを符号化するためにより高いビットレートを使用するシステムにおいて望ましい場合もある。
2つ以上のアクティブフレーム符号化器ならびに図8を参照して説明されたコーディング方式選択器20および選択器50a、50bの対応する実装形態の特徴は、本明細書に開示されるような装置X100の他の実装形態に含まれてもよいことが明確に示されている。
コンテキスト発生器120は、コンテキスト選択信号S40の状態にしたがって発生コンテキスト信号S50を生成するように構成されている。コンテキストミキサ190は、コンテキスト強調オーディオ信号S15を生成するためにコンテキスト抑圧オーディオ信号S13を発生コンテキスト信号S50と混合するように構成および配列されている。1つの例において、コンテキストミキサ190は、発生コンテキスト信号S50をコンテキスト抑圧オーディオ信号S13に追加するように構成されている加算器として実装される。コンテキスト発生器120は、コンテキスト抑圧オーディオ信号と互換性のある形式で発生コンテキスト信号S50を生成することが望ましい場合がある。装置X100の典型的な実装形態において、たとえば、発生コンテキスト信号S50とコンテキストサプレッサ110によって生成されるオーディオ信号は、両方ともPCMサンプルのシーケンスである。そのような場合において、コンテキストミキサ190は、発生コンテキスト信号S50およびコンテキスト抑圧オーディオ信号S13のサンプルの対応するペアを(場合によってはフレームベースのオペレーションとして)追加するように構成されていてもよいが、異なるサンプリング解像度を有する信号を追加するようにコンテキストミキサ190を実装することも可能である。オーディオ信号S10は、一般にPCMサンプルのシーケンスとしても実装される。ある場合において、コンテキストミキサ190は、コンテキスト強調信号に対して(フィルタ処理オペレーションなどの)1つまたは複数の他の処理オペレーションを実行するように構成されている。
コンテキスト選択信号S40は、2つ以上のコンテキストの中の少なくとも1つの選択を示す。1つの例において、コンテキスト選択信号S40は、既存のコンテキストの1つまたは複数の特徴に基づくコンテキスト選択を示す。たとえば、コンテキスト選択信号S40は、オーディオ信号S10の1つまたは複数の非アクティブフレームの1つまたは複数の時間特性および/または周波数特性に関係する情報に基づくことができる。コーディングモード選択器20は、そのような方法でコンテキスト選択信号S40を生成するように構成されていてもよい。代替的に、装置X100は、そのような方法でコンテキスト選択信号S40を生成するように構成されているコンテキスト分類器320(たとえば、図7に示されている)を含むように実装されることができる。たとえば、コンテキスト分類器は、El-Maleh他、「Frame-level Noise Classification in Mobile Environments」、Proc. IEEE Int’l Conf. ASSP、1999年、Vol. I、237〜240ページ、米国特許第6,782,361号(El-Maleh他)、およびQian他、「Classified Comfort Noise Generation for Efficient Voice Transmission」、Interspeech 2006、Pittsburgh、PA、225〜228ページに記載されている分類オペレーションなど、既存のコンテキストの線スペクトル周波数(LSF)に基づくコンテキスト分類オペレーションを実行するように構成されていることができる。
別の例において、コンテキスト選択信号S40は、装置X100を含むデバイスの物理的位置に関係する情報(たとえば、全地球測位衛星(GPS)システムから得られた情報、三角測量または他の測距オペレーションによって計算された情報、および/または基地局トランシーバまたは他のサーバから受信した情報に基づく)、異なる時間または時間期間を、対応するコンテキストに関連付けるスケジュール、およびユーザが選択したコンテキストモード(ビジネスモード、緩和モード、当事者モードなど)など1つまたは複数の他の判断基準に基づくコンテキスト選択を示す。そのような場合、装置X100は、コンテキスト選択器330(たとえば、図8に図示されている)を含むように実装されることができる。コンテキスト選択器330は、異なるコンテキストを上述の判断基準などの1つまたは複数の変数の対応する値に関連付ける1つまたは複数のインデックスデータ構造(たとえば、テーブル)を含むように実装されることができる。さらなる例において、コンテキスト選択信号S40は、2つ以上のコンテキストのリスト中の(たとえば、メニューなどのグラフィカルユーザインターフェースからの)1つのユーザ選択を示す。コンテキスト選択信号S40のさらなる例は、上記の例の任意の組合せに基づく信号を含む。
図9Aは、コンテキストデータベース130とコンテキスト発生エンジン140とを含むコンテキスト発生器120の実装形態122のブロック図を示している。コンテキストデータベース120は、異なるコンテキストを記述するパラメータ値のセットを記憶するように構成されている。コンテキスト発生エンジン140は、コンテキスト選択信号S40の状態にしたがって選択される記憶されたパラメータ値のセットにしたがってコンテキストを発生するように構成されている。
図9Bは、コンテキスト発生器122の実装形態124のブロック図を示している。この例において、コンテキスト発生エンジン140の実装形態144は、コンテキスト選択信号S40を受信し、コンテキストデータベース130の実装形態134からパラメータ値の対応するセットを取り出すように構成されている。図9Cは、コンテキスト発生器122の別の実装形態126のブロック図を示している。この例において、コンテキストデータベース130の実装形態136は、コンテキスト選択信号S40を受信し、パラメータ値の対応するセットをコンテキスト発生エンジン140の実装形態146に供給するように構成されている。
コンテキストデータベース130は、対応するコンテキストを記述するパラメータ値の2つ以上のセットを記憶するように構成されている。コンテキスト発生器120の他の実装形態は、(たとえば、www.ietf.orgにおいてオンラインで入手可能なRFC3261に現在記載されている、セッション開始プロトコル(SIP)のバージョンを使用して)サーバなどのコンテンツプロバイダ、または他の非ローカルデータベースから、あるいは(たとえば、Cheng他、「A Collaborative Privacy-Enhanced Alibi Phone」、Proc. Int’l Conf. Grid and Pervasive Computing、405〜414ページ、台中、台湾、2006年5月に記載されているように)ピアツーピアネットワークから、選択されたコンテキストに対応するパラメータ値のセットをダウンロードするように構成されているコンテキスト発生エンジン140の実装形態を含むことができる。
コンテキスト発生器120は、サンプリングされたデジタル信号の形で(たとえば、PCMサンプルのシーケンスとして)コンテキストを取り出すまたはダウンロードするように構成できる。ただし、ストレージおよび/またはビットレートの制限のために、そのようなコンテキストは典型的な通信セッション(たとえば、電話通話)よりもはるかに短く、同じコンテキストを通話中に何度も繰り返す必要があり、聞き手にとって容認できないほど悩ましい結果をもたらす可能性がある。代替的に、繰り返しの多すぎる結果を回避するために、大容量のストレージおよび/または高ビットレートのダウンロード接続が必要になる可能性がある。
代替的に、コンテキスト発生エンジン140は、スペクトルおよび/またはエネルギーパラメータ値のセットなど、取り出されたまたはダウンロードされたパラメータ表現からコンテキストを発生するように構成できる。たとえば、コンテキスト発生エンジン140は、SIDフレーム中に含められる、スペクトル包絡線の記述(たとえば、LSF値のベクトル)と励起信号の記述とに基づいて、コンテキスト信号S50の複数のフレームを発生するように構成されていることがきる。コンテキスト発生エンジン140のそのような実装形態は、発生コンテキストの繰り返しの感覚を低減するためにフレームごとにパラメータ値のセットをランダム化するように構成されていることができる。
コンテキスト発生エンジン140は、音テクスチャを記述するテンプレートに基づいて発生コンテキスト信号S50を生成することが望ましい場合がある。そのような一例では、コンテキスト発生エンジン140は、様々な長さの複数の未加工粒子を含むテンプレートに基づいてグラニュラー合成を実行するように構成される。別の例では、コンテキスト発生エンジン140は、カスケード時間周波数線形予測(CTFLP)分析の時間領域係数および周波数領域係数を含むテンプレートに基づいてCTFLP合成を実行するように構成される(CTFLP分析では、周波数領域で線形予測を使用して元の信号をモデル化し、次いで周波数領域で線形予測を使用してこの分析の残余をモデル化する)。さらなる例では、コンテキスト発生エンジン140は、様々な時間スケールおよび周波数スケールで、少なくとも1つの基底関数の係数(たとえば、Daubechiesスケーリング関数などのスケーリング関数の係数、およびDaubechiesウェーブレット関数などのウェーブレット関数の係数)を記述する、多重解像度分析(MRA)ツリーを含むテンプレートに基づいて多重解像度合成を実行するように構成される。図10は、平均係数および詳細係数のシーケンスに基づく発生コンテキスト信号S50の多重解像度合成の一例を示している。
コンテキスト発生エンジン140は、音声通信セッションの予想される長さにしたがって発生コンテキスト信号S50を生成することが望ましい場合がある。そのような一例では、コンテキスト発生エンジン140は、平均電話通話長にしたがって発生コンテキスト信号S50を生成するように構成されている。平均通話長の典型的な値は1〜4分の範囲内にあり、コンテキスト発生エンジン140は、ユーザ選択によって変化するデフォルト値(たとえば、2分)を使用するように実装できる。
コンテキスト発生エンジン140は、同じテンプレートに基づく複数のまたは多数の異なるコンテキスト信号クリップを含むように、発生コンテキスト信号S50を生成することが望ましい場合がある。異なるクリップの所望の数は、デフォルト値に設定するか、または装置X100のユーザが選択することができ、この数の典型的な範囲は5〜20である。そのような一例では、コンテキスト発生エンジン140は、平均通話長および異なるクリップの所望の数に基づくクリップ長にしたがって、異なるクリップの各々を計算するように構成される。クリップ長は、一般に、フレーム長よりも1桁、2桁、または3桁大きい。一例では、平均通話長の値は2分であり、異なるクリップの所望の数は10であり、クリップ長は、2分を10で割ることによって12秒と計算される。
そのような場合、コンテキスト発生エンジン140は、各々が同じテンプレートに基づき、計算されたクリップ長を有する所望の数の異なるクリップを発生し、これらのクリップを連結するかあるいは組み合わせて、発生コンテキスト信号S50を生成するように構成されていることができる。コンテキスト発生エンジン140は、必要な場合(たとえば、通信の長さが平均通話長を超える場合)発生コンテキスト信号S50を繰り返すように構成されていることができる。音声フレームから非音声フレームへのオーディオ信号S10の遷移にしたがって新しいクリップを発生するように、コンテキスト発生エンジン140を構成することが望ましい場合がある。
図9Dは、コンテキスト発生エンジン140の実装形態によって実行できる、発生コンテキスト信号S50を生成するための方法M100のフローチャートを示している。タスクT100は、平均通話長の値および異なるクリップの所望の数に基づいてクリップ長を計算する。タスクT200は、テンプレートに基づいて所望の数の異なるクリップを発生する。タスクT300は、発生コンテキスト信号S50を生成するためにクリップを組み合わせる。
タスクT200は、MRAツリーを含むテンプレートからコンテキスト信号クリップを発生するように構成されていることができる。たとえば、タスクT200は、テンプレートツリーと統計学的に同様である新しいMRAツリーを発生し、新しいツリーからコンテキスト信号クリップを合成することによって、各クリップを発生するように構成されていることができる。そのような場合、タスクT200は、シーケンスの1つまたは複数の(場合によってはすべての)係数の1つまたは複数(場合によってはすべて)が、同様のアンセスター(すなわち、低分解能のシーケンス中)および/またはプレデセサー(すなわち、同じシーケンス中)を有するテンプレートツリーの他の係数と交換された、テンプレートツリーのコピーとして、新しいMRAツリーを発生するように構成されていることができる。別の例では、タスクT200は、係数値のテンプレートセットのコピーの各値に小さいランダム値を追加することによって計算される係数値の新しいセットから、各クリップを発生するように構成されている。
タスクT200は、オーディオ信号S10および/またはそれに基づく信号(たとえば、信号S12および/またはS13)の1つまたは複数の特徴にしたがってコンテキスト信号クリップの1つまたは複数(場合によってはすべて)をスケーリングするように構成されていることができる。そのような特徴は、信号レベル、フレームエネルギー、SNR、1つまたは複数のメル周波数ケプストラム係数(MFCC)および/または1つまたは複数の信号の音声アクティビティ検出動作の1つまたは複数の結果を含むことができる。タスクT200が、発生したMRAツリーからクリップを合成するように構成されている場合、タスクT200は、発生したMRAツリーの係数に対してそのようなスケーリングを実行するように構成されていてもよい。コンテキスト発生器120の実装形態は、タスクT200のそのような実装形態を実行するように構成されていることができる。追加または代替として、タスクT300は、合成された発生コンテキスト信号に対してそのようなスケーリングを実行するように構成されていることができる。コンテキストミキサ190の実装形態は、タスクT300のそのような実装形態を実行するように構成されていることができる。
タスクT300は、類似度測度にしたがってコンテキスト信号クリップを組み合わせるように構成されていることができる。タスクT300は、同様のMFCCベクトルを有するクリップを連結するように(たとえば、候補クリップのセットのMFCCベクトルの相対的な類似度にしたがってクリップを連結するように)構成されていることができる。たとえば、タスクT200は、組み合わせられたクリップの列にわたって計算された、隣接するクリップのMFCCベクトル間の総距離を最小限に抑えるように構成されていることができる。タスクT200がCTFLP合成を実行するように構成されている場合、タスクT300は、同様の係数から発生するクリップを連結するかまたは組み合わせるように構成されていてもよい。たとえば、タスクT200は、組み合わせられたクリップの列にわたって計算された、隣接するクリップのLPC係数間の総距離を最小限に抑えるように構成されていることができる。タスクT300は、同様の境界過渡を有するクリップを連結するように(たとえば、1つのクリップから次のクリップへの可聴不連続性を回避するように)構成されていることもできる。たとえば、タスクT200は、組み合わせられたクリップの列にわたって計算された、隣接するクリップの境界領域上のエネルギー間の総距離を最小限に抑えるように構成されていることができる。これらのいずれの例でも、タスクT300は、連結でなくオーバーラップ加算オペレーションまたはクロスフェードオペレーションを使用して、隣接するクリップを組み合わせるように構成されていることができる。
上述のように、コンテキスト発生エンジン140は、低いストレージコストおよび拡張された繰り返しのない発生を可能にするコンパクトな表現形式でダウンロードまたは取り出すことができる音テクスチャの記述に基づいて、発生コンテキスト信号S50を生成するように構成されていることができる。そのような技法は、ビデオアプリケーションまたは視聴覚アプリケーションにも適用されることができる。たとえば、装置X100のビデオが使用可能な実装形態は、交換背景を記述するパラメータ値のセットに基づいて視聴覚通信の視覚的なコンテキスト(たとえば、背景または照明特性)を強調または交換するために、多重解像度合成オペレーションを実行するように構成されていることができる。
コンテキスト発生エンジン140は、通信セッション(たとえば、電話通話)全体にわたってランダムMRAツリーを繰り返し発生するように構成されていることができる。より大きいツリーが発生するためにはより時間がかかることが予想されるので、MRAツリーの深さは遅延の許容度に基づいて選択できる。別の例では、コンテキスト発生エンジン140は、サンプルのより長いシーケンスを得るために、異なるテンプレートを使用して複数の短いMRAツリーを発生し、および/または複数のランダムMRAツリーを選択し、これらのツリーの2つ以上を混合および/または連結するように構成されていることができる。
利得制御信号S90の状態にしたがって発生コンテキスト信号S50のレベルを制御するように、装置X100を構成することが望ましい場合がある。たとえば、場合によっては、発生コンテキスト信号S50、または信号S50のプリカーサに対して(たとえば、テンプレートツリーの係数、またはテンプレートツリーから発生したMRAツリーの係数に対して)スケーリングオペレーションを実行することによって、コンテキスト発生器120(またはコンテキスト発生エンジン140など、その要素)は、利得制御信号S90の状態にしたがって発生コンテキスト信号S50を特定のレベルで生成するように構成されていることができる。別の例において、図13Aは、発生コンテキスト信号S50に対して、利得制御信号S90の状態にしたがってスケーリングオペレーションを実行するように構成されているスケーラ(たとえば、乗算器)を含むコンテキストミキサ190の実装形態192のブロック図を示している。コンテキストミキサ192は、スケーリングされたコンテキスト信号をコンテキスト抑圧オーディオ信号S13に追加するように構成された加算器をも含む。
装置X100を含むデバイスは、ユーザの選択にしたがって利得制御信号S90の状態を設定するように構成されていることができる。たとえば、そのようなデバイスは、発生コンテキスト信号S50の所望のレベルをデバイスのユーザが選択することができるボリュームコントロール(たとえば、スイッチまたはノブ、あるいはそのような機能を提供するグラフィカルユーザインターフェース)を備えることができる。この場合、デバイスは、選択されたレベルにしたがって利得制御信号S90の状態を設定するように構成されていることができる。別の例では、そのようなボリュームコントロールは、(たとえばコンテキスト抑圧オーディオ信号S13の)スピーチ成分のレベルに対する発生コンテキスト信号S50の所望のレベルをユーザが選択することを可能にするように構成されていることができる。
図11Aは、利得制御信号計算器195を含むコンテキストプロセッサ102の実装形態108のブロック図を示している。利得制御信号計算器195は、時間とともに変化する利得制御信号S90を信号S13のレベルにしたがって計算するように構成されている。たとえば、利得制御信号計算器195は、信号S13のアクティブフレームの平均エネルギーに基づいて利得制御信号S90の状態を設定するように構成されていることができる。そのような場合、追加または代替として、装置X100を含むデバイスは、スピーチ成分(たとえば、信号S13)またはコンテキスト強調オーディオ信号S15のレベルをユーザが直接制御するか、または(たとえば、プリカーサ信号のレベルを制御することによって)そのようなレベルを間接的に制御することを可能にするように構成されるボリュームコントロールを備えることができる。
装置X100は、時間とともに変化するオーディオ信号S10、S12、およびS13の1つまたは複数のレベルに対する発生コンテキスト信号S50のレベルを制御するように構成されていることができる。一例では、装置X100は、オーディオ信号S10の元のコンテキストのレベルにしたがって発生コンテキスト信号S50のレベルを制御するように構成されている。装置X100のそのような実装形態は、アクティブフレーム中のコンテキストサプレッサ110の入力レベルと出力レベルとの間の関係(たとえば、差)にしたがって利得制御信号S90を計算するように構成されている利得制御信号計算器195の実装形態を含むことができる。たとえば、そのような利得制御計算器は、オーディオ信号S10のレベルとコンテキスト抑圧オーディオ信号S13のレベルとの間の関係(たとえば、差)にしたがって利得制御信号S90を計算するように構成されていることができる。そのような利得制御計算器は、信号S10およびS13のアクティブフレームのレベルから計算できるオーディオ信号S10のSNRにしたがって、利得制御信号S90を計算するように構成されていることができる。そのような利得制御信号計算器は、時間で平滑化(たとえば、平均化)された入力レベルに基づいて利得制御信号S90を計算するように構成されていることができ、および/または時間で平滑化(たとえば、平均化)された利得制御信号S90を出力するように構成されていることができる。
別の例では、装置X100は、所望のSNRにしたがって発生コンテキスト信号S50のレベルを制御するように構成される。スピーチ成分(たとえば、コンテキスト抑圧オーディオ信号S13)のレベルとコンテキスト強調オーディオ信号S15のアクティブフレームにおける発生コンテキスト信号S50のレベルとの間の比として特徴づけられるSNRは、「信号対コンテキスト比」と呼ばれることもある。所望のSNR値は、ユーザが選択でき、および/または発生コンテキストごとに変化する。たとえば、異なる発生コンテキスト信号S50を異なる対応する所望のSNR値に関連付けることができる。所望のSNR値の典型的な範囲は20〜25dBである。別の例では、装置X100は、発生コンテキスト信号S50(たとえば、背景信号)のレベルをコンテキスト抑圧オーディオ信号S13(たとえば、前景信号)のレベル未満になるように制御するように構成されている。
図11Bは、利得制御信号計算器195の実装形態197を含むコンテキストプロセッサ102の実装形態109のブロック図を示している。利得制御計算器197は、(A)所望のSNR値と、(B)信号S13とS50とのレベル間の比との間の関係にしたがって利得制御信号S90を計算するように設定および構成されている。一例では、比が所望のSNR値よりも小さい場合は、コンテキストミキサ192は、利得制御信号S90の対応する状態により発生コンテキスト信号S50をより高いレベルで混合し(たとえば、コンテキスト抑圧信号S13に発生コンテキスト信号S50を追加する前に発生コンテキスト信号S50のレベルを上げ)、比が所望のSNR値よりも大きい場合は、コンテキストミキサ192は、利得制御信号S90の対応する状態により発生コンテキスト信号S50をより低いレベルで混合する(たとえば、信号S13に信号S50を追加する前に信号S50のレベルを下げる)。
上述のように、利得制御信号計算器195は、1つまたは複数の入力信号(たとえば、S10、S13、S50)の各々のレベルにしたがって利得制御信号S90の状態を計算するように構成されている。利得制御信号計算器195は、1つまたは複数のアクティブフレームにわたって平均化された信号の振幅として入力信号のレベルを計算するように構成されていることができる。代替的に、利得制御信号計算器195は、1つまたは複数のアクティブフレームにわたって平均化された信号のエネルギーとして入力信号のレベルを計算するように構成されていることができる。一般に、フレームのエネルギーはフレームのサンプルの平方和として計算される。計算されたレベルおよび/または利得制御信号S90の1つまたは複数をフィルタ処理する(たとえば、平均化または平滑化する)ように利得制御信号計算器195を構成することが望ましい場合がある。たとえば、平均エネルギーを使用して利得制御信号S90を計算するために、(たとえば、信号の計算されたフレームエネルギーに1次または高次の有限インパルス応答フィルタまたは無限インパルス応答フィルタを適用することによって)S10またはS13などの入力信号のフレームエネルギーの移動平均を計算するように、利得制御信号計算器195を構成することが望ましい場合がある。同様に、利得制御信号S90をコンテキストミキサ192および/またはコンテキスト発生器120に出力する前に利得制御信号S90にそのようなフィルタを適用するように、利得制御信号計算器195を構成することが望ましい場合がある。
オーディオ信号S10のコンテキスト成分のレベルはスピーチ成分のレベルとは無関係に変化することが可能であり、そのような場合、それに応じて発生コンテキスト信号S50のレベルを変化させることが望ましい場合がある。たとえば、コンテキスト発生器120は、オーディオ信号S10のSNRにしたがって発生コンテキスト信号S50のレベルを変化させるように構成されていることができる。そのような方法で、コンテキスト発生器120は、オーディオ信号S10において元のコンテキストのレベルに近似するように発生コンテキスト信号S50のレベルを制御するように構成されていることができる。
スピーチ成分とは無関係であるコンテキスト成分の錯覚を維持するために、信号レベルが変化しても一定のコンテキストレベルを維持することが望ましい場合がある。たとえば、マイクロホンに対する話し手の口の配向の変化により、または音量調節や別の表現効果など、話し手の声の変化により、信号レベルの変化が起こる可能性がある。そのような場合、発生コンテキスト信号S50のレベルが通信セッション(たとえば、電話通話)の持続時間中一定のままであることが望ましい場合がある。
本明細書で説明する装置X100の実装形態は、音声通信またはストレージ用に構成された任意のタイプのデバイス中に含めることができる。そのようなデバイスの例は、電話、セルラー電話、ヘッドセット(たとえば、Bluetooth(商標)ワイヤレスプロトコルのバージョンを介してモバイルユーザ端末と全二重で通信するように構成されたイヤホン)、携帯情報端末(PDA)、ラップトップコンピュータ、音声レコーダ、ゲームプレーヤ、音楽プレーヤ、デジタルカメラを含むことができるが、それらに限定されない。デバイスは、本明細書で説明する装置X100の実装形態が、デバイスの送信機またはトランシーバ部分に含まれるか、またはその部分に符号化オーディオ信号S20を供給するように構成できるような、ワイヤレス通信用のモバイルユーザ端末として構成することもできる。
有線および/またはワイヤレス電話のためのシステムなど、音声通信のためのシステムは、一般にいくつかの送信機および受信機を含む。送信機と受信機は、トランシーバとして一体化するかあるいは共通のハウジング内に一緒に実装することができる。十分な利用可能な処理、ストレージ、およびアップグレード性を有する送信機またはトランシーバへのアップグレードとして装置X100を実装することが望ましい場合がある。たとえば、装置X100の実装形態は、スピーチ符号化器X10の実装形態をすでに含むデバイスに(たとえば、ファームウェア更新で)コンテキストプロセッサ100の要素を追加することによって実現できる。場合によっては、そのようなアップグレードは、通信システムの他の一部を改変することなく実行できる。たとえば、受信機への対応する変更を行うことなく、装置X100の実装形態を含む通信システムの1つまたは複数の送信機(たとえば、ワイヤレスセルラー電話通信用システムの1つまたは複数のモバイルユーザ端末の各々の送信機部分)をアップグレードすることが望ましい場合がある。得られたデバイスが後方互換性を保つような(たとえば、デバイスが、コンテキストプロセッサ100の使用を含まないその前の動作のすべてまたはほぼすべてを実行することが可能であるような)方法でアップグレードを実行することが望ましい場合がある。
符号化オーディオ信号S20に発生コンテキスト信号S50を挿入するために装置X100の実装形態が使用される場合、話し手(すなわち、装置X100の実装形態を含むデバイスのユーザ)が送信を監視することが可能であることが望ましい場合がある。たとえば、発生コンテキスト信号S50および/またはコンテキスト強調オーディオ信号S15を話し手が聴取することができることが望ましい場合がある。そのような機能は、発生コンテキスト信号S50が既存のコンテキストと異なる場合に、特に望ましい場合がある。
したがって、装置X100の実装形態を含むデバイスは、発生コンテキスト信号S50およびコンテキスト強調オーディオ信号S15のうちの少なくとも1つを、デバイスのハウジング内に配置されたイヤホン、スピーカ、もしくは他のオーディオトランスデューサに対して、デバイスのハウジング内に配置されたオーディオ出力ジャックに対して、および/またはデバイスのハウジング内に配置された短距離ワイヤレス送信機(たとえば、Bluetooth Special Interest Group(ワシントン州ベルビュー)によって公表されたBluetoothプロトコル、および/または別のパーソナルエリアネットアークプロトコルのバージョンに準拠する送信機)に対してフィードバックするように構成されていることができる。そのようなデバイスは、発生コンテキスト信号S50またはコンテキスト強調オーディオ信号S15からアナログ信号を生成するように設定および構成されているデジタルアナログ変換器(DAC)を含むことができる。そのようなデバイスは、アナログ信号がジャックおよび/またはトランスデューサに印加される前に、そのアナログ信号に対して1つまたは複数のアナログ処理オペレーション(たとえば、フィルタ処理、等化、および/または増幅)を実行するように構成されていることもできる。そのようなDACおよび/またはアナログ処理経路を含むように装置X100を構成することは、可能であるが必要ではない。
音声通信の復号器側において(たとえば、受信機において、または検索時に)は、上述の符号化器側の技法と同様の方法で、既存のコンテキストを交換または強調することが望ましい場合がある。また、対応する送信機または符号化装置への改変を必要とすることなく、そのような技法を実装することが望ましい場合がある。
図12Aは、符号化オーディオ信号S20を受信し、対応する復号オーディオ信号S110を生成するように構成されているスピーチ復号器R10のブロック図を示している。スピーチ復号器R10は、コーディング方式検出器60、アクティブフレーム復号器70、および非アクティブフレーム復号器80を含む。符号化オーディオ信号S20は、スピーチ符号化器X10によって生成されるデジタル信号である。アクティブフレーム復号器70が、アクティブフレーム符号化器30によって符号化されたフレームを復号するように構成され、非アクティブフレーム復号器80が、非アクティブフレーム符号化器40によって符号化されたフレームを復号するように構成されるように、復号器70および80を、上述のようにスピーチ符号化器X10の符号化器に対応するように構成することができる。スピーチ復号器R10は、一般に、復号オーディオ信号S110を処理して、(たとえば、フォルマント周波数を強調すること、および/またはスペクトルの谷を減衰させることによって)量子化雑音を低減するように構成されたポストフィルタをも含み、適応利得制御をも含むことができる。復号器R10を含むデバイスは、デバイスのハウジング内に配置されたイヤホン、スピーカ、もしくは他のオーディオトランスデューサ、および/またはオーディオ出力ジャックに出力するアナログ信号を復号オーディオ信号S110から生成するように設定および構成されているデジタルアナログ変換器(DAC)を含むことができる。そのようなデバイスは、アナログ信号がジャックおよび/またはトランスデューサに印加される前に、そのアナログ信号に対して1つまたは複数のアナログ処理オペレーション(たとえば、フィルタ処理、等化、および/または増幅)を実行するように構成されていることもできる。
コーディング方式検出器60は、符号化オーディオ信号S20の現在フレームに対応するコーディング方式を指示するように構成されている。適切なコーディングビットレートおよび/またはコーディングモードをフレームのフォーマットによって指示することができる。コーディング方式検出器60は、レート検出を実行するように、または多重サブレイヤなど、スピーチ復号器R10が埋め込まれている装置の別の部分からレート指示を受信するように構成されていることができる。たとえば、コーディング方式検出器60は、ビットレートを指示するパケットタイプインジケータを多重サブレイヤから受信するように構成されていることができる。代替として、コーディング方式検出器60は、フレームエネルギーなどの1つまたは複数のパラメータから、符号化フレームのビットレートを判断するように構成されていることができる。適用例によっては、コーディングシステムは、符号化フレームのビットレートがまたコーディングモードを指示するように、特定のビットレートに対して1つのコーディングモードのみを使用するように構成されている。他の場合には、符号化フレームは、どのフレームが符号化されたかにしたがってコーディングモードを識別する1つまたは複数のビットのセットなどの情報を含むことができる。そのような情報(「コーディングインデックス」とも呼ばれる)は、(たとえば、他の可能なコーディングモードには無効である値を指示することによって)明示的にまたは暗示的にコーディングモードを指示することができる。
図12Aは、コーディング方式検出器60によって生成されたコーディング方式指示を使用して、アクティブフレーム復号器70および非アクティブフレーム復号器80のうちの1つを選択するようにスピーチ復号器R10の1対の選択器90aと90bを制御する一例を示している。スピーチ復号器R10のソフトウェアまたはファームウェア実装形態は、実行のフローをフレーム復号器の1つまたは別の1つに導くためにコーディング方式指示を使用することができ、そのような実装形態は、選択器90aおよび/または選択器90bの類似物を含まないことがあることに留意されたい。図12Bは、複数のコーディング方式で符号化されたアクティブフレームの復号をサポートするスピーチ復号器R10の実装形態R20の一例を示しており、この特徴は、本明細書で説明する他のスピーチ復号器実装形態のいずれかに含めることができる。スピーチ復号器R20は、コーディング方式検出器60の実装形態62と、選択器90a、90bの実装形態92a、92bと、様々なコーディング方式(たとえば、フルレートCELPおよびハーフレートNELP)を使用して符号化フレームを復号するように構成されたアクティブフレーム復号器70の実装形態70a、70bとを含む。
アクティブフレーム復号器70または非アクティブフレーム復号器80の典型的な実装形態は、(たとえば、逆量子化の後に、逆量子化された1つまたは複数のベクトルをLPC係数値形式に変換することによって)符号化フレームからLPC係数値を抽出し、それらの値を使用して合成フィルタを構成するように構成されている。符号化フレームからの他の値にしたがっておよび/または擬似ランダム雑音信号に基づいて計算されたまたは発生した励起信号を使用して、その合成フィルタを励起して対応する復号フレームを再生成する。
フレーム復号器のうちの2つ以上は共通の構造を共有することができることに留意されたい。たとえば、復号器70および80(または復号器70a、70bおよび80)は、場合によっては、アクティブフレームでは非アクティブフレームとは異なる次数を有する結果を生成するように構成されているLPC係数値の計算器を共有することができるが、それぞれ異なる時間記述計算器を有することができる。また、スピーチ復号器R10のソフトウェアまたはファームウェア実装形態は、実行のフローをフレーム復号器の1つまたは別の1つに導くためにコーディング方式検出器60の出力を使用することができ、そのような実装形態は、選択器90aおよび/または選択器90bの類似物を含まないことがあることに留意されたい。
図13Bは、一般的な構成による装置R100(復号器、復号装置、または復号するための装置とも呼ばれる)のブロック図を示している。装置R100は、復号オーディオ信号S110から既存のコンテキストを除去し、そのコンテキストを、既存のコンテキストと同様のまたは既存のコンテキストとは異なる発生コンテキストと交換するように構成されている。スピーチ復号器R10の要素に加えて、装置R100は、オーディオ信号S110を処理して、コンテキスト強調オーディオ信号S115を生成するように設定および構成されたコンテキストプロセッサ100の実装形態200を含む。セルラー電話などの装置R100を含む通信デバイスは、(たとえば、1つまたは複数の搬送波の高周波復調によって)有線、ワイヤレス、または光学送信チャネルから受信された信号に対して、誤り訂正、冗長性、および/またはプロトコル(たとえば、イーサネット、TCP/IP、CDMA2000)コーディングなどの処理オペレーションを実行して、符号化オーディオ信号S20を得るように構成されていることができる。
図14Aに示すように、コンテキストプロセッサ200は、コンテキストサプレッサ110のインスタンス210と、コンテキスト発生器120のインスタンス220と、コンテキストミキサ190のインスタンス290とを含むように構成されていることができ、そのようなインスタンスは、図3Bおよび図4Bを参照しながら上述した様々な実装形態のいずれかにしたがって構成されている(複数のマイクロホンからの信号を上述のように使用するコンテキストサプレッサ110の実装形態は、装置R100での使用には適さないことがあるという例外がある)。たとえば、コンテキストプロセッサ200は、雑音サプレッサ10を参照しながら上述したように、オーディオ信号S110に対するウィーナーフィルタ処理オペレーションなどの雑音抑圧オペレーションの積極的な実装を実行して、コンテキスト抑圧オーディオ信号S113を得るように構成されているコンテキストサプレッサ110の実装形態を含むことができる。別の例では、コンテキストプロセッサ200は、既存のコンテキストについての(たとえば、オーディオ信号S110の1つまたは複数の非アクティブフレームについての)統計的記述にしたがって、上述のようにオーディオ信号S110に対してスペクトル減算オペレーションを実行して、コンテキスト抑圧オーディオ信号S113を得るように構成されているコンテキストサプレッサ110の実装形態を含む。そのような場合のいずれかの追加または代替として、コンテキストプロセッサ200は、上述のようにオーディオ信号S110に対してセンタークリッピングオペレーションを実行するように構成されていることができる。
コンテキストサプレッサ100を参照しながら上述したように、2つ以上の異なる動作モードの間(たとえば、コンテキスト抑圧なしから、ほぼ完全なコンテキスト抑圧までの範囲)で構成可能なコンテキストサプレッサ200を実装することが望ましい場合がある。図14Bは、プロセス制御信号S30のインスタンスS130の状態にしたがって動作するように構成されている、それぞれ、コンテキストサプレッサ112およびコンテキスト発生器122のインスタンス212および222を含む装置R100の実装形態R110のブロック図を示している。
コンテキスト発生器220は、コンテキスト選択信号S40のインスタンスS140の状態にしたがって、発生コンテキスト信号S50のインスタンスS150を生成するように構成されている。2つ以上のコンテキストうちの少なくとも1つの選択を制御するコンテキスト選択信号S140の状態は、装置R100を含むデバイスの(たとえば、上述のようにGPSおよび/または他の情報に基づく)物理的位置に関係する情報、様々な時間または時間期間を対応するコンテキストに関連付けるスケジュール、発呼者の識別情報(たとえば、「自動番号識別」(ANI)または発呼者IDシグナリングとも呼ばれる発呼番号識別(CNID)によって判断される)、ユーザ選択の設定またはモード(ビジネスモード、緩和モード、当事者モードなど)、および/または(たとえば、メニューなどのグラフィカルユーザインターフェースを介する)2つ以上のコンテキストのリストの1つのユーザ選択などの1つまたは複数の基準に基づくことができる。たとえば、装置R100は、そのような基準の値を様々なコンテキストに関連付けるコンテキスト選択器330のインスタンスを上述のように含むように実装することができる。別の例では、装置R100は、オーディオ信号S110の既存のコンテキストの1つまたは複数の特性(たとえば、オーディオ信号S110の1つまたは複数の非アクティブフレームの1つまたは複数の時間および/または周波数特性に関係する情報)に基づいてコンテキスト選択信号S140を発生するように構成されていたコンテキスト分類器320のインスタンスを上述のように含むように実装される。コンテキスト発生器220は、上述のようにコンテキスト発生器120の様々な実装形態のいずれかにしたがって構成されていることができる。たとえば、コンテキスト発生器220は、選択されたコンテキストを記述するパラメータ値をローカル記憶装置から検索するか、またはそのようなパラメータ値を(たとえば、SIPによって)サーバなどの外部デバイスからダウンロードするように構成することができる。コンテキスト発生器220は、コンテキスト選択信号S50の生成の開始および終了を、それぞれ、通信セッション(たとえば、電話通話)の開始および終了と同期させるように構成することが望ましい場合がある。
プロセス制御信号S130は、コンテキスト抑圧を使用可能または使用不能にする(すなわち、オーディオ信号S110の既存のコンテキストまたは交換コンテキストのいずれかを有するオーディオ信号を出力する)ようにコンテキストサプレッサ212の動作を制御する。図14Bに示すように、プロセス制御信号S130はまた、コンテキスト発生器222を使用可能または使用不能にするように構成することができる。代替的に、コンテキスト選択信号S140は、コンテキスト発生器220によるヌル出力を選択する状態を含むように構成されていることができ、または、コンテキストミキサ290は、上記のコンテキストミキサ190を参照しながら説明したように、プロセス制御信号S130を使用可能/使用不能制御入力として受信するように構成されていることができる。プロセス制御信号S130は、それを使用してコンテキストサプレッサ212によって実行される抑圧のレベルを変更することができるように、2つ以上の状態を有するように実装することができる。装置R100のさらなる実装形態は、受信機における周囲の音のレベルにしたがって、コンテキスト抑圧のレベルおよび/または発生コンテキスト信号S150のレベルを制御するように構成されていることができる。たとえば、そのような実装形態は、(たとえば、装置R100を含むデバイスのマイクロホンからの信号を使用して感知された)周囲の音のレベルに反比例して、オーディオ信号S115のSNRを制御するように構成されていることができる。また、人工コンテキストの使用が選択されたとき、非アクティブフレーム復号器80の電源が切断されることがあることに明確に留意されたい。
一般に、装置R100は、適切なコーディング方式にしたがって各フレームを復号し、(場合によっては可変の程度だけ)既存のコンテキストを抑圧し、発生コンテキスト信号S150をあるレベルにしたがって追加することによって、アクティブフレームを処理するように構成されていることができる。非アクティブフレームの場合、装置R100は、各フレーム(または各SIDフレーム)を復号し、発生コンテキスト信号S150を追加するように実装することができる。代替的に、装置R100は、非アクティブフレームを無視または廃棄し、その非アクティブフレームを発生コンテキスト信号S150と交換するように実装することができる。たとえば、図15に、コンテキスト抑圧が選択されたときに、非アクティブフレーム復号器80の出力を廃棄するように構成されている装置R200の実装形態を示す。この例は、プロセス制御信号S130の状態にしたがって、発生コンテキスト信号S150および非アクティブフレーム復号器80の出力のうちの1つを選択するように構成されている選択器250を含む。
装置R100のさらなる実装形態は、復号オーディオ信号の1つまたは複数の非アクティブフレームからの情報を使用して、アクティブフレームにおけるコンテキスト抑圧のためにコンテキストサプレッサ210によって適用される雑音モデルを改善するように構成されていることができる。追加的または代替的に、装置R100のそのようなさらなる実装形態は、復号オーディオ信号の1つまたは複数の非アクティブフレームからの情報を使用して、発生コンテキスト信号S150のレベルを制御する(たとえば、コンテキスト強調オーディオ信号S115のSNRを制御する)ように構成されていることができる。装置R100はまた、復号オーディオ信号の非アクティブフレームからのコンテキスト情報を使用して、復号オーディオ信号の1つまたは複数のアクティブフレームおよび/または復号オーディオ信号の1つまたは複数の他の非アクティブフレーム内の既存のコンテキストを補うように実装することができる。たとえば、そのような実装形態は、送信機におけるあまりに積極的な雑音抑圧および/または不十分なコーディングレートまたはSID送信レートなどのファクタにより失われた既存のコンテキストを交換するために使用することができる。
上記のように、装置R100は、符号化オーディオ信号S20を生成する符号化器による動作および/またはその符号化器の改変なしにコンテキスト強調または交換を実行するように構成されていることができる。装置R100のそのような実装形態は、そこから信号S20が受信される対応する送信機による動作および/またはその送信機の改変なしにコンテキスト強調または交換を実行するように構成されている受信機内に含めることができる。代替的に、装置R100は、(たとえば、SIPサーバから)コンテキストパラメータ値を独立してまたは符号化器制御にしたがってダウンロードするように構成されていることができ、および/またはそのような受信機は、(たとえば、SIPサーバから)コンテキストパラメータ値を独立してまたは送信機制御にしたがってダウンロードするように構成されていることができる。そのような場合、SIPサーバまたは他のパラメータ値ソースは、符号化器または送信機によるコンテキスト選択が、復号器または受信機によるコンテキスト選択に優先するように構成されていることができる。
コンテキスト強調および/または交換の動作において協働するスピーチ符号化器および復号器は、本明細書で説明する原理にしたがって(たとえば、装置X100およびR100の実装形態にしたがって)実装することが望ましい場合がある。そのようなシステム内で、所望のコンテキストを示す情報は、いくつかの異なる形態のいずれかで復号器に転送することができる。第1のクラスの例では、コンテキスト情報は、LSF値のベクトルやエネルギー値の対応するシーケンス(たとえば、無音記述子またはSID)などの、または(図10のMRAツリーの例に示す)平均シーケンスや詳細シーケンスの対応するセットなどの、パラメータ値のセットを含む記述として転送される。パラメータ値のセット(たとえば、ベクトル)は、1つまたは複数のコードブックインデックスとして送信するために量子化することができる。
第2のクラスの例では、コンテキスト情報は、1つまたは複数のコンテキスト識別子(「コンテキスト選択情報」とも呼ばれる)として、復号器に転送される。コンテキスト識別子は、2つ以上の様々なオーディオコンテキストのリスト中の特定のエントリに対応するインデックスとして実装することができる。そのような場合、(復号器にローカルにまたは復号器の外部に記憶することができる)インデックス付きリストエントリは、パラメータ値のセットを含む、対応するコンテキストの記述を含むことができる。1つまたは複数のコンテキスト識別子の追加または代替として、オーディオコンテキスト選択情報は、符号化器の物理的位置および/またはコンテキストモードを示す情報を含むことができる。
これらのクラスのいずれかにおいて、コンテキスト情報は、直接的におよび/または間接的に符号化器から復号器に転送することができる。直接的な送信では、符号化器は、符号化オーディオ信号S20内で(すなわち、スピーチ成分と同じ論理チャネルによって、同じプロトコルスタックを介して)、および/または別個の送信チャネル(たとえば、異なるプロトコルを使用することができるデータチャネルまたは他の別個の論理チャネル)によって、コンテキスト情報を復号器に送信する。図16は、選択されたオーディオコンテキストについてのスピーチ成分および符号化(たとえば、量子化された)パラメータ値を、様々な論理チャネルによって(たとえば、同じワイヤレス信号内で、または異なる信号内で)送信するように構成されている装置X100の実装形態X200のブロック図を示している。この特定の例では、装置X200は、上述のようにプロセス制御信号発生器340のインスタンスを含む。
図16に示す装置X200の実装形態は、コンテキスト符号化器150を含む。この例では、コンテキスト符号化器150は、コンテキスト記述(たとえば、コンテキストパラメータ値S70のセット)に基づく符号化コンテキスト信号S80を生成するように構成されている。コンテキスト符号化器150は、特定の適用例に適していると思われる任意のコーディング方式にしたがって、符号化コンテキスト信号S80を生成するように構成することができる。そのようなコーディング方式は、ハフマンコーディング、算術コーディング、領域符号化、ランレングス符号化などの1つまたは複数の圧縮動作を含むことができる。そのようなコーディング方式は、不可逆的および/または可逆的とすることができる。そのようなコーディング方式は、固定長を有する結果および/または可変長を有する結果を生成するように構成されていることができる。そのようなコーディング方式は、コンテキスト記述の少なくとも一部分を量子化することを含むことができる。
コンテキスト符号化器150は、(たとえば、トランスポートおよび/またはアプリケーションレイヤにおいて)コンテキスト情報のプロトコル符号化を実行するように構成されていることもできる。そのような場合、コンテキスト符号化器150は、パケット形成および/またはハンドシェーキングなどの1つまたは複数の関連する動作を実行するように構成されていることができる。さらには、コンテキスト符号化器150のそのような実装形態は、他の符号化動作を実行することなくコンテキスト情報を送信するように構成されていることが望ましい場合がある。
図17は、選択されたコンテキストを識別または記述する情報を、オーディオ信号S10の非アクティブフレームに対応する符号化オーディオ信号S20のフレーム周期に符号化するように構成されている、装置X100の別の実装形態X210のブロック図を示している。本明細書では、そのようなフレーム周期を「符号化オーディオ信号S20の非アクティブフレーム」とも呼ぶ。場合によっては、コンテキスト発生のために、選択されたコンテキストの記述の十分な量が受信されるまで、復号器において遅延が生じることがある。
関連する例では、装置X210は、復号器においてローカルに記憶されている、および/または(たとえば、呼セットアップ中に)サーバなどの別のデバイスからダウンロードされるコンテキスト記述に対応する最初のコンテキスト識別子を送信するように構成されており、また、(たとえば、符号化オーディオ信号S20の非アクティブフレームにわたって)そのコンテキスト記述に後続の更新を送信するように構成されている。図18は、オーディオコンテキスト選択情報(たとえば、選択されたコンテキストの識別子)を、符号化オーディオ信号S20の非アクティブフレームに符号化するように構成されている、装置X100の関連する実装形態X220のブロック図を示している。そのような場合、装置X220は、通信セッションの過程において、フレームごとにさえ、コンテキスト識別子を更新するように構成されていることができる。
図18に示す装置X220の実装形態は、コンテキスト符号化器150の実装形態152を含む。コンテキスト符号化器152は、オーディオコンテキスト選択情報(たとえば、コンテキスト選択信号S40)に基づく符号化コンテキスト信号S80のインスタンスS82を生成するように構成されており、オーディオコンテキスト選択情報は、1つまたは複数のコンテキスト識別子、ならびに/あるいは物理的位置および/またはコンテキストモードの指示などの他の情報を含むことができる。コンテキスト符号化器150を参照しながら上述したように、コンテキスト符号化器152は、特定の適用例に適していると思われる任意のコーディング方式にしたがって、符号化コンテキスト信号S82を生成するように構成されていることができ、および/またはコンテキスト選択情報のプロトコル符号化を実行するように構成されていることができる。
コンテキスト情報を符号化オーディオ信号S20の非アクティブフレームに符号化するように構成されている装置X100の実装形態は、各非アクティブフレーム内でまたは不連続的にそのようなコンテキスト情報を符号化するように構成されていることができる。不連続送信(DTX)の一例では、装置X100のそのような実装形態は、5秒または10秒ごと、あるいは128フレームまたは256フレームごとなどの規則的な間隔にしたがって、選択されたコンテキストを識別または記述する情報を、符号化オーディオ信号S20の1つまたは複数の非アクティブフレームのシーケンスに符号化するように構成されている。不連続送信(DTX)の別の例では、装置X100のそのような実装形態は、異なるコンテキストの選択などのあるイベントにしたがって、そのような情報を符号化オーディオ信号S20の1つまたは複数の非アクティブフレームのシーケンスに符号化するように構成されている。
装置X210およびX220は、プロセス制御信号S30の状態にしたがって、既存のコンテキストの符号化(すなわち、レガシー動作)またはコンテキスト交換のいずれかを実行するように構成されている。これらの場合、符号化オーディオ信号S20は、非アクティブフレームが既存のコンテキストを含むのか、交換コンテキストに関係する情報を含むのかを指示するフラグ(たとえば、場合によっては各非アクティブフレーム中に含まれる1つまたは複数のビット)を含むことができる。図19および図20は、非アクティブフレーム中の既存のコンテキストの送信のためのサポートなしに構成されている対応する装置(それぞれ、装置X300および装置X300の実装形態X310)のブロック図を示している。図19の例では、アクティブフレーム符号化器30は、第1の符号化オーディオ信号S20aを生成するように構成されており、コーディング方式選択器20は、符号化コンテキスト信号S80を第1の符号化オーディオ信号S20aの非アクティブフレームに挿入するように選択器50bを制御して、第2の符号化オーディオ信号S20bを生成するように構成されている。図20の例では、アクティブフレーム符号化器30は、第1の符号化オーディオ信号S20aを生成するように構成されており、コーディング方式選択器20は、符号化コンテキスト信号S82を第1の符号化オーディオ信号S20aの非アクティブフレームに挿入するように選択器50bを制御して、第2の符号化オーディオ信号S20bを生成するように構成されている。そのような例では、アクティブフレーム符号化器30は、第1の符号化オーディオ信号20aをパケット化された形態で(たとえば、一連の符号化フレームとして)生成するように構成することが望ましい場合がある。そのような場合、コーディング方式選択器20によって指示されるように、コンテキスト抑圧信号の非アクティブフレームに対応する第1の符号化オーディオ信号S20aのパケット(たとえば、符号化フレーム)内の適切な位置において符号化コンテキスト信号を挿入するように、選択器50bを構成するか、あるいは、コーディング方式選択器20によって指示されるように、第1の符号化オーディオ信号S20a内の適切な位置においてコンテキスト符号化器150または152によって生成されたパケット(たとえば、符号化フレーム)を挿入するように、選択器50bを構成することができる。上記のように、符号化コンテキスト信号S80は、選択されたオーディオコンテキストを記述するパラメータ値のセットなどの符号化コンテキスト信号S80に関係する情報を含むことができ、符号化コンテキスト信号S82は、オーディオコンテキストのセットのうちの選択された1つのオーディオコンテキストを識別するコンテキスト識別子などの符号化コンテキスト信号S80に関係する情報を含むことができる。
間接的な送信では、復号器は、符号化オーディオ信号S20とは異なる論理チャネルによってだけでなく、サーバなどの異なるエンティティからもコンテキスト情報を受信する。たとえば、復号器は、符号化器の識別子(たとえば、www−dot−ietf−dot−orgにおいてオンラインで利用可能な、RFC 3986に記載されているUniform Resource Identifier(URI)またはUniform Resource Locator(URL))、復号器の識別子(たとえば、URL)、および/または特定の通信セッションの識別子を使用して、サーバからコンテキスト情報を要求するように構成されていることができる。図21Aは、復号器が、プロトコルスタックP20を介して第1の論理チャネルによって符号化器から受信された情報にしたがって、(たとえば、コンテキスト発生器220および/またはコンテキスト復号器252内の)プロトコルスタックP10を介して第2の論理チャネルによってサーバからコンテキスト情報をダウンロードする一例を示している。スタックP10およびP20は、別々とするか、あるいは1つまたは複数のレイヤ(たとえば、物理レイヤ、メディアアクセス制御レイヤ、および論理リンクレイヤのうちの1つまたは複数)を共有することができる。サーバから復号器へのコンテキスト情報のダウンロードは、リングトーンあるいは音楽ファイルまたはストリームのダウンロードと同様の方法で実行することができ、SIPなどのプロトコルを使用して実行することができる。
他の例では、コンテキスト情報は、直接的な送信と間接的な送信との何らかの組合せによって符号化器から復号器に転送することができる。1つの一般的な例では、符号化器は、コンテキスト情報をある形態で(たとえば、オーディオコンテキスト選択情報として)サーバなどのシステム内の別のデバイスに送信し、他のデバイスは、対応するコンテキスト情報を別の形態で(たとえば、コンテキスト記述として)復号器に送信する。そのような転送の特定の例では、サーバは、コンテキスト情報の要求を復号器から受信することなく、その情報を復号器に配信する(「プッシュ」とも呼ばれる)ように構成されている。たとえば、サーバは、呼セットアップ中にコンテキスト情報を復号器にプッシュするように構成されていることができる。図21Bは、復号器のURLまたは他の識別子を含むことができ、(たとえば、コンテキスト符号化器152内の)プロトコルスタックP30を介して第3の論理チャネルにより符号化器によって送信される情報にしたがって、サーバが、第2の論理チャネルによってコンテキスト情報を復号器にダウンロードする一例を示している。そのような場合、符号化器からサーバへの転送、および/またはサーバから復号器への転送は、SIPなどのプロトコルを使用して実行することができる。この例はまた、プロトコルスタックP40を介して第1の論理チャネルによって、符号化オーディオ信号S20を符号化器から復号器に送信することを示す。スタックP30およびP40は、別々とするか、あるいは1つまたは複数のレイヤ(たとえば、物理レイヤ、メディアアクセス制御レイヤ、および論理リンクレイヤのうちの1つまたは複数)を共有することができる。
図21Bに示す符号化器は、呼セットアップ中にサーバにINVITEメッセージをサーバに送信することによって、SIPセッションを開始するように構成されていることができる。1つのそのような例では、符号化器は、コンテキスト識別子または(たとえば、GPS座標のセットとしての)物理的位置などのオーディオコンテキスト選択情報をサーバに送信する。符号化器は、復号器のURIおよび/または符号化器のURIなどのエンティティ識別情報をもサーバに送信することができる。サーバが、選択されたオーディオコンテキストをサポートする場合、サーバはACKメッセージを符号化器に送信し、SIPセッションは終了する。
符号化器復号器システムは、符号化器において既存のコンテキストを抑圧することによって、または復号器において既存のコンテキストを抑圧することによって、アクティブフレームを処理するように構成されていることができる。1つまたは複数の潜在的な利点は、復号器においてではなく符号化器においてコンテキスト抑圧を実行することによって実現することができる。たとえば、アクティブフレーム符号化器30は、既存のコンテキストが抑圧されていないオーディオ信号に対してよりも、コンテキスト抑圧オーディオ信号に対して、より良いコーディング結果を達成することが予想される。また、複数のマイクロホンからのオーディオ信号を使用する技法(たとえば、ブラインドソース分離)などのより良い抑圧技法を、符号化器において利用することができる。また、スピーカは、リスナーが聴取するものと同じコンテキスト抑圧スピーチ成分を聴取できることが望ましい場合があり、そのような特徴をサポートするために、符号化器におけるコンテキスト抑圧の実行を使用することができる。もちろん、符号化器と復号器の両方においてコンテキスト抑圧を実装することも可能である。
符号化器復号器システム内では、発生コンテキスト信号S150が符号化器と復号器の両方において利用可能であることが望ましい場合がある。たとえば、スピーカは、リスナーが聴取するものと同じコンテキスト強調オーディオ信号を聴取できることが望ましい場合がある。そのような場合、選択されたコンテキストの記述は、符号化器と復号器の両方に記憶および/またはダウンロードすることができる。さらに、コンテキスト発生器220は、復号器において実行されるコンテキスト発生動作が符号化器において重複されるように、発生コンテキスト信号S150を決定論的に生成するように構成することが望ましい場合がある。たとえば、コンテキスト発生器220は、符号化器と復号器の両方に知られている1つまたは複数の値(たとえば、符号化オーディオ信号S20の1つまたは複数の値)を使用して、CTFLP合成のために使用されるランダム励起信号など、発生動作において使用できる任意のランダム値または信号を計算するように構成されていることができる。
符号化器・復号器システムは、いくつかの異なる方法のいずれかで非アクティブフレームを処理するように構成されていることができる。たとえば、符号化器は、符号化オーディオ信号S20内に既存のコンテキストを含めるように構成されていることができる。既存のコンテキストを含めることは、レガシー動作をサポートするために望ましい場合がある。さらに、上述のように、復号器は、既存のコンテキストを使用して、コンテキスト抑圧動作をサポートするように構成されていることができる。
代替的に、符号化器は、符号化オーディオ信号S20の非アクティブフレームのうちの1つまたは複数を使用して、1つまたは複数のコンテキスト識別子および/または記述など、選択されたコンテキストに関係する情報を搬送するように構成されていることができる。図19に示す装置X300は、既存のコンテキストを送信しない符号化器の一例である。上記のように、非アクティブフレームにおけるコンテキスト識別子の符号化は、電話通話などの通信セッション中の発生コンテキスト信号S150の更新をサポートするために使用することができる。対応する復号器は、迅速に、場合によってはフレームごとにでも、そのような更新を実行するように構成されていることができる。
さらに代替的に、符号化器は、非アクティブフレーム中にほとんどビットを送信しないか、またはまったくビットを送信しないように構成されていることができ、これにより、符号化器は、平均ビットレートを増加させることなく、アクティブフレームのためにより高いコーディングレートを使用することができる。システムに応じて、符号化器は、接続を維持するために各非アクティブフレーム中に、ある最小数のビットを含む必要がありうる。
装置X100の実装形態(たとえば、装置X200、X210、またはX220)あるいはX300の実装形態などの符号化器は、選択されたオーディオコンテキストのレベルの時間的変化の指示を送信することが望ましい場合がある。そのような符号化器は、パラメータ値(たとえば、利得パラメータ値)のような情報を、符号化コンテキスト信号S80内で、および/または異なる論理チャネルによって送信するように構成されていることができる。一例では、選択されたコンテキストの記述は、コンテキストのスペクトル分布を記述する情報を含み、符号化器は、コンテキストのオーディオレベルの時間的変化に関係する情報を別個の時間記述として送信するように構成されており、別個の時間記述は、スペクトル記述とは異なるレートで更新することができる。別の例では、選択されたコンテキストの記述は、第1の時間スケールにわたる(たとえば、フレーム、または同様の長さの他の間隔にわたる)コンテキストのスペクトル特性と時間特性との両方を記述し、符号化器は、第2の時間スケール(たとえば、フレームごとなどのより長い時間スケール)にわたるコンテキストのオーディオレベルの変化に関係する情報を別個の時間記述として送信するように構成されている。そのような例は、各フレームのコンテキスト利得値を含む別個の時間記述を使用して実装することができる。
上記の2つの例のいずれかに適用することができる、さらなる一例では、選択されたコンテキストの記述への更新は、不連続送信を使用して(符号化オーディオ信号S20の非アクティブフレーム内で、または第2の論理チャネルによって)送信され、別個の時間記述への更新も、不連続送信を使用して(符号化オーディオ信号S20の非アクティブフレーム内で、第2の論理チャネルによって、または別の論理チャネルによって)送信され、2つの記述は、様々な間隔でおよび/または様々なイベントにしたがって更新される。たとえば、そのような符号化器は、別個の時間記述よりも少ない頻度で(たとえば、512、1024、または2048フレームごと対4、8、または16フレームごとで)選択されたコンテキストの記述を更新するように構成されていることができる。そのような符号化器の別の例は、既存のコンテキストの1つまたは複数の周波数特性の変化にしたがって(および/またはユーザ選択にしたがって)選択されたコンテキストの記述を更新し、既存のコンテキストのレベルの変化にしたがって別個の時間記述を更新するように構成されている。
図22、図23、および図24は、コンテキスト交換を実行するように構成されている復号のための装置の例を示している。図22は、コンテキスト選択信号S140の状態にしたがって発生コンテキスト信号S150を生成するように構成されているコンテキスト発生器220のインスタンスを含む装置R300のブロック図を示している。図23は、コンテキストサプレッサ210の実装形態218を含む装置R300の実装形態R310のブロック図を示している。コンテキストサプレッサ218は、非アクティブフレームからの既存のコンテキスト情報(たとえば、既存のコンテキストのスペクトル分布)を使用して、コンテキスト抑圧動作(たとえば、スペクトル減算)をサポートするように構成されている。
図22および図23に示す装置R300およびR310の実装形態はまた、コンテキスト復号器252を含む。コンテキスト復号器252は、符号化コンテキスト信号S80の(たとえば、コンテキスト符号化器152を参照しながら上述した符号化動作と相補関係にある)データおよび/またはプロトコル復号を実行して、コンテキスト選択信号S140を生成するように構成されている。代替的または追加的に、装置R300およびR310は、符号化コンテキスト信号S80の対応するインスタンスに基づいて、コンテキスト記述(たとえば、コンテキストパラメータ値のセット)を生成するように構成されている上述のようなコンテキスト符号化器150と相補関係にあるコンテキスト復号器250を含むように実装することができる。
図24は、コンテキスト発生器220の実装形態228を含むスピーチ復号器R300の実装形態R320のブロック図を示している。コンテキスト発生器228は、非アクティブフレームからの既存のコンテキスト情報(たとえば、時間および/または周波数領域における既存のコンテキストのエネルギーの分布に関係する情報)を使用して、コンテキスト発生動作をサポートするように構成されている。
本明細書で説明するように符号化するための装置(たとえば、装置X100およびX300)ならびに復号するための装置(たとえば、装置R100、R200、およびR300)の実装形態の様々な要素は、たとえば、チップセット中の同じチップ上にまたは2つ以上のチップの間に存在する電子および/または光デバイスとして実装できるが、そのようなものに限定されず他の構成も考えられる。そのような装置の1つまたは複数の要素は、マイクロプロセッサ、組み込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの、論理要素(たとえば、トランジスタ、ゲート)の1つまたは複数の固定またはプログラマブルなアレイ上で実行するように構成されている命令の1つまたは複数のセットとして全体的にまたは部分的に実装されることができる。
そのような装置の実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクまたは命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子および/または光デバイスの構成)を有することが可能である。一例では、コンテキストサプレッサ110、コンテキスト発生器120、およびコンテキストミキサ190は、同じプロセッサ上で実行するように構成されている命令のセットとして実装される。別の例では、コンテキストプロセッサ100およびスピーチ符号化器X10は、同じプロセッサ上で実行するように構成されている命令のセットとして実装される。別の例では、コンテキストプロセッサ200およびスピーチ復号器R10は、同じプロセッサ上で実行するように構成されている命令のセットとして実装される。別の例では、コンテキストプロセッサ100、スピーチ符号化器X10、およびスピーチ復号器R10は、同じプロセッサ上で実行するように構成されている命令のセットとして実装される。別の例では、アクティブフレーム符号化器30および非アクティブフレーム符号化器40は、様々な時間に実行する命令の同じセットを含むように実装される。別の例では、アクティブフレーム復号器70および非アクティブフレーム復号器80は、様々な時間に実行する命令の同じセットを含むように実装される。
セルラー電話またはそのような通信機能を有する他のデバイスなど、ワイヤレス通信のためのデバイスは、符号化器(たとえば、装置X100またはX300の実装形態)と復号器(たとえば、装置R100、R200、またはR300の実装形態)の両方を含むように構成されていることができる。そのような場合、符号化器および復号器は、共通の構造を有することが可能である。1つのそのような例では、符号化器および復号器は、同じプロセッサ上で実行するように構成されている命令のセットを含むように実装される。
また、本明細書で説明する様々な符号化器および復号器の動作は、信号処理の方法の特定の例と見なすことができる。そのような方法は、タスクのセットとして実装することができ、それらのタスクのうちの1つまたは複数(場合によってはすべて)は、論理要素(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)の1つまたは複数のアレイによって実行することができる。それらのタスクのうちの1つまたは複数(場合によってはすべて)はまた、論理要素の1つまたは複数のアレイによって実行可能なコード(たとえば、命令の1つまたは複数のセット)として実装することができ、そのコードは、データ記憶媒体において有形に実施することができる。
図25Aは、第1のオーディオコンテキストを含むデジタルオーディオ信号を処理する、開示する一構成による方法A100のフローチャートを示している。方法A100は、タスクA110およびA120を含む。タスクA110は、コンテキスト抑圧信号を得るために、第1のマイクロホンによって生成された第1のオーディオ信号に基づいて、デジタルオーディオ信号から第1のオーディオコンテキストを抑圧する。タスクA120は、コンテキスト強調信号を得るために、第2のオーディオコンテキストをコンテキスト抑圧信号に基づく信号と混合する。本方法では、デジタルオーディオ信号は、第1のマイクロホンとは異なる第2のマイクロホンによって生成された第2のオーディオ信号に基づく。方法A100は、たとえば、本明細書で説明するように装置X100またはX300の実装形態によって実行することができる。
図25Bは、第1のオーディオコンテキストを含むデジタルオーディオ信号を処理するための、開示する一構成による装置AM100のブロック図を示している。装置AM100は、方法A100の様々なタスクを実行するための手段を含む。装置AM100は、コンテキスト抑圧信号を得るために、第1のマイクロホンによって生成された第1のオーディオ信号に基づいて、デジタルオーディオ信号から第1のオーディオコンテキストを抑圧するための手段AM10を含む。装置AM100は、コンテキスト強調信号を得るために、第2のオーディオコンテキストを、コンテキスト抑圧信号に基づく信号と混合するための手段AM20を含む。本装置では、デジタルオーディオ信号は、第1のマイクロホンとは異なる第2のマイクロホンによって生成された第2のオーディオ信号に基づく。装置AM100の様々な要素は、(たとえば、命令の1つまたは複数のセット、論理要素の1つまたは複数のアレイなどとして)本明細書で開示するそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置AM100の様々な要素の例を、装置X100およびX300についての説明において開示する。
図26Aに、プロセス制御信号の状態にしたがって、スピーチ成分とコンテキスト成分とを有するデジタルオーディオ信号を処理する、開示する一構成による方法B100のフローチャートを示す。方法B100は、タスクB110、B120、B130、およびB140を含む。タスクB110は、プロセス制御信号が第1の状態を有するとき、スピーチ成分がないデジタルオーディオ信号の一部のフレームを第1のビットレートで符号化する。タスクB120は、コンテキスト抑圧信号を得るために、プロセス制御信号が第1の状態とは異なる第2の状態を有するとき、デジタルオーディオ信号からコンテキスト成分を抑圧する。タスクB130は、コンテキスト強調信号を得るために、プロセス制御信号が第2の状態を有するとき、オーディオコンテキスト信号をコンテキスト抑圧信号に基づく信号と混合する。タスクB140は、プロセス制御信号が第2の状態を有するとき、スピーチ成分がないコンテキスト強調信号の一部のフレームを、第1のビットレートよりも高い第2のビットレートで符号化する。方法B100は、たとえば、本明細書で説明するように装置X100の実装形態によって実行することができる。
図26Bは、プロセス制御信号の状態にしたがって、スピーチ成分とコンテキスト成分とを有するデジタルオーディオ信号を処理するための開示される一構成による装置BM100のブロック図を示している。装置BM100は、プロセス制御信号が第1の状態を有するとき、スピーチ成分がないデジタルオーディオ信号の一部のフレームを第1のビットレートで符号化するための手段BM10を含む。装置BM100は、コンテキスト抑圧信号を得るために、プロセス制御信号が第1の状態とは異なる第2の状態を有するとき、デジタルオーディオ信号からコンテキスト成分を抑圧するための手段BM20を含む。装置BM100は、コンテキスト強調信号を得るために、プロセス制御信号が第2の状態を有するとき、オーディオコンテキスト信号をコンテキスト抑圧信号に基づく信号と混合するための手段BM30を含む。装置BM100は、プロセス制御信号が第2の状態を有するとき、スピーチ成分がないコンテキスト強調信号の一部のフレームを、第1のビットレートよりも高い第2のビットレートで符号化するための手段BM40を含む。装置BM100の様々な要素は、(たとえば、命令の1つまたは複数のセット、論理要素の1つまたは複数のアレイなどとして)本明細書で開示するそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置BM100の様々な要素の例を、装置X100についての説明において開示する。
図27Aは、第1のトランスデューサから受信された信号に基づくデジタルオーディオ信号を処理する開示される一構成による方法C100のフローチャートを示している。方法C100は、タスクC110、C120、C130、およびC140を含む。タスクC110は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号から第1のオーディオコンテキストを抑圧する。タスクC120は、コンテキスト強調信号を得るために、第2のオーディオコンテキストをコンテキスト抑圧信号に基づく信号と混合する。タスクC130は、(A)第2のオーディオコンテキストと、(B)コンテキスト強調信号とのうちの少なくとも1つに基づく信号をアナログ信号に変換する。タスクC140は、第2のトランスデューサから、アナログ信号に基づく可聴信号を生成する。本方法では、第1のトランスデューサと第2のトランスデューサの両方が共通のハウジング内に配置される。方法C100は、たとえば、本明細書で説明するように装置X100またはX300の実装形態によって実行することができる。
図27Bは、第1のトランスデューサから受信された信号に基づくデジタルオーディオ信号を処理するための開示される一構成による装置CM100のブロック図を示している。装置CM100は、方法C100の様々なタスクを実行するための手段を含む。装置CM100は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号から第1のオーディオコンテキストを抑圧するための手段CM110を含む。装置CM100は、コンテキスト強調信号を得るために、第2のオーディオコンテキストを、コンテキスト抑圧信号に基づく信号と混合するための手段CM120を含む。装置CM100は、(A)第2のオーディオコンテキストと、(B)コンテキスト強調信号とのうちの少なくとも1つに基づく信号をアナログ信号に変換するための手段CM130を含む。装置CM100は、第2のトランスデューサから、アナログ信号に基づく可聴信号を生成するための手段CM140を含む。本装置では、第1のトランスデューサと第2のトランスデューサの両方が共通のハウジング内に配置される。装置CM100の様々な要素は、(たとえば、命令の1つまたは複数のセット、論理要素の1つまたは複数のアレイなどとして)本明細書で開示するそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置CM100の様々な要素の例を、装置X100およびX300についての説明において開示する。
図28Aは、符号化オーディオ信号を処理する開示される一構成による方法D100のフローチャートを示している。方法D100は、タスクD110、D120、およびD130を含む。タスクD110は、スピーチ成分とコンテキスト成分とを含む第1の復号オーディオ信号を得るために、第1のコーディング方式にしたがって符号化オーディオ信号の第1の複数の符号化フレームを復号する。タスクD120は、第2の復号オーディオ信号を得るために、第2のコーディング方式にしたがって符号化オーディオ信号の第2の複数の符号化フレームを復号する。タスクD130は、コンテキスト抑圧信号を得るために、第2の復号オーディオ信号からの情報に基づいて、第1の復号オーディオ信号に基づく第3の信号からコンテキスト成分を抑圧する。方法D100は、たとえば、本明細書で説明するように装置R100、R200、またはR300の実装形態によって実行することができる。
図28Bは、符号化オーディオ信号を処理するための開示される一構成による装置DM100のブロック図を示している。装置DM100は、方法D100の様々なタスクを実行するための手段を含む。装置DM100は、スピーチ成分とコンテキスト成分とを含む第1の復号オーディオ信号を得るために、第1のコーディング方式にしたがって符号化オーディオ信号の第1の複数の符号化フレームを復号するための手段DM10を含む。装置DM100は、第2の復号オーディオ信号を得るために、第2のコーディング方式にしたがって符号化オーディオ信号の第2の複数の符号化フレームを復号するための手段DM20を含む。装置DM100は、コンテキスト抑圧信号を得るために、第2の復号オーディオ信号からの情報に基づいて、第1の復号オーディオ信号に基づく第3の信号からコンテキスト成分を抑圧するための手段DM30を含む。装置DM100の様々な要素は、(たとえば、命令の1つまたは複数のセット、論理要素の1つまたは複数のアレイなどとして)本明細書で開示するそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置DM100の様々な要素の例を、装置R100、R200、およびR300についての説明において開示する。
図29Aは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する開示される一構成による方法E100のフローチャートを示している。方法E100は、タスクE110、E120、E130、およびE140を含む。タスクE110は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号からコンテキスト成分を抑圧する。タスクE120は、符号化オーディオ信号を得るために、コンテキスト抑圧信号に基づく信号を符号化する。タスクE130は、複数のオーディオコンテキストのうちの1つを選択する。タスクE140は、選択されたオーディオコンテキストに関係する情報を符号化オーディオ信号に基づく信号に挿入する。方法E100は、たとえば、本明細書で説明するように装置X100またはX300の実装形態によって実行することができる。
図29Bは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理するための開示される一構成による装置EM100のブロック図を示している。装置EM100は、方法E100の様々なタスクを実行するための手段を含む。装置EM100は、コンテキスト抑圧信号を得るために、デジタルオーディオ信号からコンテキスト成分を抑圧するための手段EM10を含む。装置EM100は、符号化オーディオ信号を得るために、コンテキスト抑圧信号に基づく信号を符号化するための手段EM20を含む。装置EM100は、複数のオーディオコンテキストのうちの1つを選択するための手段EM30を含む。装置EM100は、選択されたオーディオコンテキストに関係する情報を符号化オーディオ信号に基づく信号に挿入するための手段EM40を含む。装置EM100の様々な要素は、(たとえば、命令の1つまたは複数のセット、論理要素の1つまたは複数のアレイなどとして)本明細書で開示されたそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して実装することができる。本明細書では、装置EM100の様々な要素の例を、装置X100およびX300についての説明において開示している。
図30Aは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する開示される一構成による方法E200のフローチャートを示している。方法E200は、タスクE110、E120、E150、およびE160を含む。タスクE150は、第1の論理チャネルによって符号化オーディオ信号を第1のエンティティに送信する。タスクE160は、第1の論理チャネルとは異なる第2の論理チャネルによって、(A)オーディオコンテキスト選択情報と、(B)第1のエンティティを識別する情報とを第2のエンティティに送信する。方法E200は、たとえば、本明細書で説明するように装置X100またはX300の実装形態によって実行することができる。
図30Bは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理するための開示される一構成による装置EM200のブロック図を示している。装置EM200は、方法E200の様々なタスクを実行するための手段を含む。装置EM200は、上述のように手段EM10およびEM20を含む。装置EM100は、第1の論理チャネルによって符号化オーディオ信号を第1のエンティティに送信するための手段EM50を含む。装置EM100は、第1の論理チャネルとは異なる第2の論理チャネルによって(A)オーディオコンテキスト選択情報と、(B)第1のエンティティを識別する情報とを第2のエンティティに送信するための手段EM60を含む。装置EM200の様々な要素は、(たとえば、命令の1つまたは複数のセット、論理要素の1つまたは複数のアレイなどとして)本明細書で開示されたそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置EM200の様々な要素の例を、装置X100およびX300についての説明において開示している。
図31Aは、符号化オーディオ信号を処理する開示される一構成による方法F100のフローチャートを示している。方法F100は、タスクF110、F120、およびF130を含む。モバイルユーザ端末内で、タスクF110は、復号オーディオ信号を得るために符号化オーディオ信号を復号する。モバイルユーザ端末内で、タスクF120はオーディオコンテキスト信号を発生する。モバイルユーザ端末内で、タスクF130は、オーディオコンテキスト信号に基づく信号を復号オーディオ信号に基づく信号と混合する。方法F100は、たとえば、本明細書で説明するように装置R100、R200、またはR300の実装形態によって実行することができる。
図31Bは、符号化オーディオ信号を処理するための、モバイルユーザ端末内に配置された開示される一構成による装置FM100のブロック図を示している。装置FM100は、方法F100の様々なタスクを実行するための手段を含む。装置FM100は、復号オーディオ信号を得るために符号化オーディオ信号を復号するための手段FM10を含む。装置FM100は、オーディオコンテキスト信号を発生するための手段FM20を含む。装置FM100は、オーディオコンテキスト信号に基づく信号を、復号オーディオ信号に基づく信号と混合するための手段FM30を含む。装置FM100の様々な要素は、(たとえば、命令の1つまたは複数のセット、論理要素の1つまたは複数のアレイなどとして)本明細書で開示するそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置FM100の様々な要素の例を、装置R100、R200、およびR300についての説明において開示している。
図32Aは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する開示される一構成による方法G100のフローチャートを示している。方法G100は、タスクG110、G120、およびG130を含む。タスクG100は、コンテキスト抑圧信号を得るためにデジタルオーディオ信号からコンテキスト成分を抑圧する。タスクG120は、第1のフィルタと第1の複数のシーケンスとに基づくオーディオコンテキスト信号を発生し、第1の複数のシーケンスの各々は、異なる時間分解能を有する。タスクG120は、第1のフィルタを第1の複数のシーケンスの各々に適用することを含む。タスクG130は、コンテキスト強調信号を得るために発生オーディオコンテキスト信号に基づく第1の信号をコンテキスト抑圧信号に基づく第2の信号と混合する。方法G100は、たとえば、本明細書で説明するように装置X100、X300、R100、R200、またはR300の実装形態によって実行することができる。
図32Bは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理するための開示される一構成による装置GM100のブロック図を示している。装置GM100は、方法G100の様々なタスクを実行するための手段を含む。装置GM100は、コンテキスト抑圧信号を得るためにデジタルオーディオ信号からコンテキスト成分を抑圧するための手段GM10を含む。装置GM100は、第1のフィルタと第1の複数のシーケンスとに基づくオーディオコンテキスト信号を発生するための手段GM20を含み、第1の複数のシーケンスの各々は、異なる時間分解能を有する。手段GM20は、第1のフィルタを第1の複数のシーケンスの各々に適用するための手段を含む。装置GM100は、コンテキスト強調信号を得るために発生オーディオコンテキスト信号に基づく第1の信号をコンテキスト抑圧信号に基づく第2の信号と混合するための手段GM30を含む。装置GM100の様々な要素は、(たとえば、命令の1つまたは複数のセット、論理要素の1つまたは複数のアレイなどとして)本明細書で開示されたそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置GM100の様々な要素の例を、装置X100、X300、R100、R200、およびR300についての説明において開示する。
図33Aは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理する開示される一構成による方法H100のフローチャートを示している。方法H100は、タスクH110、H120、H130、H140、およびH150を含む。タスクH110は、コンテキスト抑圧信号を得るためにデジタルオーディオ信号からコンテキスト成分を抑圧する。タスクH120はオーディオコンテキスト信号を発生する。タスクH130は、コンテキスト強調信号を得るために発生オーディオコンテキスト信号に基づく第1の信号をコンテキスト抑圧信号に基づく第2の信号と混合する。タスクH140は、デジタルオーディオ信号に基づく第3の信号のレベルを計算する。タスクH120とタスクH130とのうちの少なくとも1つは、第3の信号の計算されたレベルに基づいて第1の信号のレベルを制御することを含む。方法H100は、たとえば、本明細書で説明するように装置X100、X300、R100、R200、またはR300の実装形態によって実行することができる。
図33Bは、スピーチ成分とコンテキスト成分とを含むデジタルオーディオ信号を処理するための開示される一構成による装置HM100のブロック図を示している。装置HM100は、方法H100の様々なタスクを実行するための手段を含む。装置HM100は、コンテキスト抑圧信号を得るためにデジタルオーディオ信号からコンテキスト成分を抑圧するための手段HM10を含む。装置HM100は、オーディオコンテキスト信号を発生するための手段HM20を含む。装置HM100は、コンテキスト強調信号を得るために発生オーディオコンテキスト信号に基づく第1の信号をコンテキスト抑圧信号に基づく第2の信号と混合するための手段HM30を含む。装置HM100は、デジタルオーディオ信号に基づく第3の信号のレベルを計算するための手段HM40を含む。手段HM20と手段HM30とのうちの少なくとも1つは、第3の信号の計算されたレベルに基づいて第1の信号のレベルを制御するための手段を含む。装置HM100の様々な要素は、(たとえば、命令の1つまたは複数のセット、論理要素の1つまたは複数のアレイなどとして)本明細書で開示されたそのようなタスクを実行するための構造のいずれかを含む、そのようなタスクを実行することができる任意の構造を使用して、実装することができる。本明細書では、装置HM100の様々な要素の例を、装置X100、X300、R100、R200、およびR300についての説明において開示している。
説明した構成の上記の提示は、本明細書で開示された方法および他の構造を当業者が製造または使用することができるように提供されるものである。本明細書で図示および説明されたフローチャート、ブロック図、および他の構造は、例にすぎず、これらの構造の他の形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示する一般的原則は他の構成にも同様に適用されることができる。たとえば、本開示の範囲は説明した構成に限定されないことが強調される。むしろ、本明細書で説明された様々な特定の構成の特徴が互いに矛盾していない場合、そのような特徴を組み合わせて、本開示の範囲内に含まれる他の構成を生成することができることが明確に企図され、本明細書によって開示される。たとえば、コンテキスト抑圧、コンテキスト発生、およびコンテキスト混合の様々な構成のいずれかの組合せが本明細書でのそれらの要素についての説明と矛盾していない限り、そのような組合せが可能である。また、装置の2つ以上の要素の間の接続について説明する場合は、1つまたは複数の介在する要素(フィルタなど)が存在することができ、方法の2つ以上のタスクの間の接続について説明する場合は、1つまたは複数の介在するタスクまたは動作(フィルタ処理オペレーションなど)が存在することができることが明確に企図され、本明細書によって開示される。
本明細書で説明する符号化器および復号器とともに使用される、またはそれらとともに使用するように適合されるコーデックの例には、上記の3GPP2文書C.S0014−Cに記載されているEnhanced Variable Rate Codec(EVRC)、ETSI文書TS 126 092 V6.0.0、ch.6、2004年12月に記載されている適応マルチレート(AMR)スピーチコーデック、およびETSI文書TS 126 192 V6.0.0.、ch.6、2004年12月に記載されているAMR広帯域スピーチコーデックがある。本明細書で説明する符号化器および復号器とともに使用される無線プロトコルの例には、(Telecommunications Industry Association(TIA)(バージニア州アーリントン)によって公開された仕様に記載されている)暫定基準−95(IS−95)およびCDMA2000、(ETSI文書TS 26.101に記載されている)AMR、GSM(ETSIによって公開された仕様に記載されているGlobal System for Mobile通信)、UMTS(ETSIによって公開された仕様に記載されているUniversal Mobile Telecommunications System)、ならびにW−CDMA(International Telecommunication Unionによって公開された仕様に記載されているWideband Code Division Multiple Access)がある。
本明細書で説明する構成は、部分的にまたは全体的に、ハードワイヤード回路として、特定用途向け集積回路中に作成された回路構成として、あるいは非揮発性記憶装置にロードされるファームウェアプログラム、またはマイクロプロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてコンピュータ可読媒体から、もしくはコンピュータ可読媒体にロードされるソフトウェアプログラムとして実装されることができる。コンピュータ可読媒体は、(限定はしないが、ダイナミックもしくはスタティックRAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、および/またはフラッシュRAMを含む)半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、ポリマーメモリ、もしくは位相変化メモリなどの記憶要素のアレイ、磁気ディスクまたは光ディスクなどのディスク媒体、あるいはデータ記憶用の他のコンピュータ可読媒体とすることができる。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。
また、本明細書で開示する方法の各々は、論理要素(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)のアレイを含む機械によって読出し可能および/または実行可能な命令の1つまたは複数のセットとして(たとえば、上記に記載する1つまたは複数のコンピュータ可読媒体中で)有形に実施することができる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示された原理および新規の特徴に一致する最も広い範囲を与えられるべきである。

Claims (128)

  1. スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理する方法であって、前記方法は、
    コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧することと
    符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化することと
    複数のオーディオコンテキストのうちの1つを選択することと、および
    前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に挿入することと
    を具備する方法。
  2. 前記選択オーディオコンテキストに関係する前記情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む、請求項1に記載のデジタルオーディオ信号を処理する方法。
  3. 前記選択オーディオコンテキストに関係する前記情報は、1セットのパラメータ値を含む前記選択オーディオコンテキストの記述を具備する、請求項1に記載のデジタルオーディオ信号を処理する方法を処理する方法。
  4. パラメータ値の前記セットは、第1の複数のシーケンスを含む、請求項3に記載のデジタルオーディオ信号を処理する方法であって、前記第1の複数のシーケンスの各々は、異なる時間分解能を有する、請求項3に記載のデジタルオーディオ信号。
  5. 前記コンテキスト成分を前記抑圧することは、前記デジタルオーディオ信号に対してスペクトル減算オペレーションを実施することを具備する、請求項1に記載のデジタルオーディオ信号を処理する方法。
  6. 前記コンテキスト成分を前記抑圧することは、
    前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算することと、および
    前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用することと
    を具備する、請求項1に記載のデジタルオーディオ信号を処理する方法。
  7. 前記コンテキスト成分を前記抑圧することは、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づく、請求項1に記載のデジタルオーディオ信号を処理する方法。
  8. 複数のオーディオコンテキストのうちの1つを前記選択することは、前記方法が実施されるところの物理的位置に関係する情報に基づく、請求項1に記載のデジタルオーディオ信号を処理する方法。
  9. 前記符号化することは、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を実施することを含む、請求項1に記載のデジタルオーディオ信号を処理する方法。
  10. 前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項1に記載のデジタルオーディオ信号を処理する方法であって、各々は、励起信号の記述を含む、請求項1に記載のデジタルオーディオ信号を処理する方法。
  11. 前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に前記挿入することは、前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに挿入することを含む、請求項1に記載のデジタルオーディオ信号を処理する方法。
  12. 前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに前記挿入することは、前記デジタルオーディオ信号の100ないし2000個の範囲内の間隔で不連続的に実施される、請求項11に記載のデジタルオーディオ信号を処理する方法。
  13. 前記選択オーディオコンテキストに関係する前記情報は、前記オーディオコンテキストのレベルの所望の時間的変化を記述する情報を含む、請求項1に記載のデジタルオーディオ信号を処理する方法。
  14. コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧することと、
    コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合することと、
    (A)前記第2のオーディオコンテキストおよび(B)前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換することと、および
    前記アナログ信号に基づく可聴信号を生成するためにスピーカを使用することと
    をさらに具備する、請求項1に記載のデジタルオーディオ信号を処理する方法であって、
    前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、請求項1に記載のデジタルオーディオ信号を処理する方法。
  15. 請求項14に記載のデジタルオーディオ信号を処理する方法であって、前記方法は、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を実施することを具備する方法。
  16. 請求項15に記載のデジタルオーディオ信号を処理する方法であって、前記方法は、前記共通のハウジング内に配置され、線形予測コーディング分析を前記実施することの結果に基づく信号を送信する送信機を使用することを具備する方法。
  17. 請求項14に記載のデジタルオーディオ信号を処理する方法であって、前記デジタルオーディオ信号から第1のオーディオコンテキストを前記抑圧することは、第2のマイクロホンによって生成されるオーディオ信号に基づく、方法。
  18. スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理するための装置であって、前記装置は、
    コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧するように構成されているコンテキストサプレッサと、
    符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化するように構成されている符号化器と、
    複数のオーディオコンテキストのうちの1つを選択するように構成されているコンテキスト選択器と、および
    前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に挿入するように構成されているコンテキスト符号化器と
    を具備する装置。
  19. 前記選択オーディオコンテキストに関係する前記情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む、請求項18に記載のデジタルオーディオ信号を処理するための装置。
  20. 前記選択オーディオコンテキストに関係する前記情報は、1セットのパラメータ値を含む前記選択オーディオコンテキストの記述を具備する、請求項18に記載のデジタルオーディオ信号を処理するための装置。
  21. パラメータ値の前記セットは、第1の複数のシーケンスを含む、請求項20に記載のデジタルオーディオ信号を処理するための装置であって、前記第1の複数のシーケンスの各々は、異なる時間分解能を有する、請求項20に記載のデジタルオーディオ信号を処理するための装置。
  22. 前記コンテキストサプレッサは、前記デジタルオーディオ信号に対してスペクトル減算オペレーションを実施するように構成されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
  23. 前記コンテキストサプレッサは、
    前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算し、および
    前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用する
    ように構成されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
  24. 前記コンテキストサプレッサは、共通のハウジング内に配置されている2つの異なるマイクロホンからの情報に基づいて前記コンテキスト成分を抑圧するように構成されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
  25. 前記コンテキスト選択器は、前記装置の物理的位置に関係する情報に基づいて複数のオーディオコンテキストのうちの1つを選択するように構成されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
  26. 前記符号化器は、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を実施するように構成されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
  27. 前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項18に記載のデジタルオーディオ信号を処理するための装置であって、各々は、励起信号の記述を含む、請求項18に記載のデジタルオーディオ信号を処理するための装置。
  28. 前記コンテキスト符号化器は、前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに挿入するように構成されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
  29. 前記コンテキスト符号化器は、前記デジタルオーディオ信号の100ないし2000個のフレームの範囲内の間隔で不連続的に、前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに挿入するように構成されている、請求項28に記載のデジタルオーディオ信号を処理するための装置。
  30. 前記選択オーディオコンテキストに関係する前記情報は、前記オーディオコンテキストのレベルの所望の時間的変化を記述する情報を含む、請求項18に記載のデジタルオーディオ信号を処理するための装置。
  31. コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧するように構成されているコンテキストサプレッサと、
    コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合するように構成されているコンテキストミキサと、
    (A)前記第2のオーディオコンテキストおよび(B)前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換するように構成されている変換器と、および
    前記アナログ信号に基づく可聴信号を生成するように構成されているスピーカと
    をさらに具備する、請求項18に記載のデジタルオーディオ信号を処理するための装置であって、
    前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、請求項18に記載のデジタルオーディオ信号を処理するための装置。
  32. 請求項31に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を実施するように構成されている符号化器を具備する装置。
  33. 請求項32に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記共通ハウジング内に配置され、前記線形予測コーディング分析の結果に基づく信号を送信するように構成されている送信機を具備する装置。
  34. 前記コンテキストサプレッサは、第2のマイクロホンによって生成されるオーディオ信号に基づいて前記デジタルオーディオ信号から前記第1のオーディオコンテキストを抑圧するように構成されている、請求項31に記載のデジタルオーディオ信号を処理するための装置。
  35. スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理するための装置であって、前記装置は、
    コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧するための手段と、
    符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化するための手段と、
    複数のオーディオコンテキストのうちの1つを選択するための手段と、および
    前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に挿入するための手段と
    を具備する装置。
  36. 前記選択オーディオコンテキストに関係する前記情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む、請求項35に記載のデジタルオーディオ信号を処理するための装置。
  37. 前記選択オーディオコンテキストに関係する前記情報は、1セットのパラメータ値を含む前記選択オーディオコンテキストの記述を具備する、請求項35に記載のデジタルオーディオ信号を処理するための装置。
  38. パラメータ値の前記セットは、第1の複数のシーケンスを含む、請求項37に記載のデジタルオーディオ信号を処理するための装置であって、前記第1の複数のシーケンスの各々は、異なる時間分解能を有する、請求項37に記載のデジタルオーディオ信号を処理するための装置。
  39. 前記コンテキスト成分を抑圧するための前記手段は、前記デジタルオーディオ信号に対してスペクトル減算オペレーションを実施するための手段を具備する、請求項35に記載のデジタルオーディオ信号を処理するための装置。
  40. 前記コンテキスト成分を抑圧するための前記手段は、
    前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算するための手段と、および
    前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用するための手段と
    を具備する、請求項35に記載のデジタルオーディオ信号を処理するための装置。
  41. 前記コンテキスト成分を抑圧するための前記手段は、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づいて前記コンテキスト成分を抑圧するように構成されている、請求項35に記載のデジタルオーディオ信号を処理するための装置。
  42. 複数のオーディオコンテキストのうちの1つを選択するための前記手段は、前記装置の物理的位置に関係する情報に基づいて前記オーディオコンテキストを選択するように構成されている、請求項35に記載のデジタルオーディオ信号を処理するための装置。
  43. 符号化するための前記手段は、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を実施するための手段を含む、請求項35に記載のデジタルオーディオ信号を処理するための装置。
  44. 前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項35に記載のデジタルオーディオ信号を処理するための装置であって、各々は、励起信号の記述を含む、請求項35に記載のデジタルオーディオ信号を処理するための装置。
  45. 前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に挿入するための前記手段は、前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに挿入するための手段を含む、請求項35に記載のデジタルオーディオ信号を処理するための装置。
  46. 前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに挿入するための前記手段は、前記デジタルオーディオ信号の100ないし2000個のフレームの範囲内の間隔で不連続的にそのような挿入を実施するように構成されている、請求項45に記載のデジタルオーディオ信号を処理するための装置。
  47. 前記選択オーディオコンテキストに関係する前記情報は、前記オーディオコンテキストのレベルの所望の時間的変化を記述する情報を含む、請求項35に記載のデジタルオーディオ信号を処理するための装置。
  48. コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧するための手段と、
    コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合するための手段と、
    (A)前記第2のオーディオコンテキストおよび(B)前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換するための手段と、および
    前記アナログ信号に基づく可聴信号を生成するように構成されているスピーカと
    をさらに具備する、請求項35に記載のデジタルオーディオ信号を処理するための装置であって、
    前記マイクロホンおよび前記スピーカの両方は、共通のハウジング内に配置されている、請求項35に記載のデジタルオーディオ信号を処理するための装置。
  49. 請求項48に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を実施するための手段を具備する装置。
  50. 請求項49に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記共通ハウジング内に配置され、前記線形予測コーディング分析の結果に基づく信号を送信するように構成されている送信するための手段を具備する装置。
  51. 抑圧するための前記手段は、第2のマイクロホンによって生成されるオーディオ信号に基づいて前記デジタルオーディオ信号から前記第1のオーディオコンテキストを抑圧するように構成されている、請求項48に記載のデジタルオーディオ信号を処理するための装置。
  52. スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理するための命令を具備するコンピュータ可読媒体であって、プロセッサによって実行されるとき、
    コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧することと、
    符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化することと、
    複数のオーディオコンテキストのうちの1つを選択することと、および
    前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に挿入することと
    を前記プロセッサに行なわせる、コンピュータ可読媒体。
  53. 前記選択オーディオコンテキストに関係する前記情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む、請求項52に記載のコンピュータ可読媒体。
  54. 前記選択オーディオコンテキストに関係する前記情報は、1セットのパラメータ値を含む前記選択オーディオコンテキストの記述を具備する、請求項52に記載のコンピュータ可読媒体。
  55. パラメータ値の前記セットは、第1の複数のシーケンスを含む、請求項54に記載のコンピュータ可読媒体であって、前記第1の複数のシーケンスの各々は、異なる時間分解能を有する、請求項54に記載のコンピュータ可読媒体。
  56. プロセッサによって実行されるとき、前記コンテキスト成分を前記プロセッサに抑圧させる前記命令は、前記デジタルオーディオ信号に対してスペクトル減算オペレーションを前記プロセッサに実施させるように構成されている、請求項52に記載のコンピュータ可読媒体。
  57. プロセッサによって実行されるとき、前記コンテキスト成分を前記プロセッサに抑圧させる前記命令は、
    前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算することと、および
    前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用することと
    を前記プロセッサに行なわせるように構成されている、請求項52に記載のコンピュータ可読媒体。
  58. プロセッサによって実行されるとき、前記コンテキスト成分を前記プロセッサに抑圧させるように構成されている前記命令は、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づいて前記コンテキスト成分を前記プロセッサに抑圧させるように構成されている、請求項52に記載のコンピュータ可読媒体。
  59. プロセッサによって実行されるとき、複数のオーディオコンテキストのうちの1つを前記プロセッサに選択させる前記命令は、前記プロセッサの物理的位置に関係する情報に基づいて前記オーディオコンテキストを前記プロセッサに選択させるように構成されている、請求項52に記載のコンピュータ可読媒体。
  60. プロセッサによって実行されるとき、前記プロセッサに符号化をさせる前記命令は、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を前記プロセッサに実施させるように構成されている、請求項52に記載のコンピュータ可読媒体。
  61. 前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項52に記載のコンピュータ可読媒体であって、各々は、励起信号の記述を含む、請求項52に記載のコンピュータ可読媒体。
  62. プロセッサによって実行されるとき、前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に前記プロセッサに挿入させる前記命令は、前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに前記プロセッサに挿入させるように構成されている、請求項52に記載のコンピュータ可読媒体。
  63. プロセッサによって実行されるとき、前記情報を前記デジタルオーディオ信号の非アクティブフレームに対応する前記符号化オーディオ信号の複数のフレーム期間の少なくとも1つに前記プロセッサに挿入させる前記命令は、前記デジタルオーディオ信号の100ないし2000個のフレームの範囲内の間隔で不連続的にそのような挿入を前記プロセッサに実施させるように構成されている、請求項62に記載のコンピュータ可読媒体。
  64. 前記選択オーディオコンテキストに関係する前記情報は、前記オーディオコンテキストのレベルの所望の時間的変化を記述する情報を含む、請求項52に記載のコンピュータ可読媒体。
  65. プロセッサによって実行されるとき、前記命令は、
    コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧することと、
    コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合することと、
    (A)前記第2のオーディオコンテキストおよび(B)前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換することと、および
    前記アナログ信号に基づく可聴信号を生成するためにスピーカを使用することと
    を前記プロセッサに行なわせる、請求項52に記載のコンピュータ可読媒体であって、
    前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、請求項52に記載のコンピュータ可読媒体。
  66. 請求項65に記載のコンピュータ可読媒体であって、前記媒体は、プロセッサによって実行されるとき、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を前記プロセッサに実施させる命令を具備する媒体。
  67. 請求項66に記載のコンピュータ可読媒体であって、前記媒体は、プロセッサによって実行されるとき、前記線形予測コーディング分析の結果に基づく信号を送信するために、前記共通ハウジング内に配置されている送信機を前記プロセッサに使用させる命令を具備する媒体。
  68. プロセッサによって実行されるとき、前記第1のオーディオコンテキストを前記プロセッサに抑圧させる前記命令は、第2のマイクロホンによって生成されるオーディオ信号に基づいて前記デジタルオーディオ信号から前記第1のオーディオコンテキストを前記プロセッサに抑圧させるように構成されている、請求項65に記載のコンピュータ可読媒体。
  69. スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理する方法であって、前記方法は、
    コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧することと、
    符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化することと、
    第1の論理チャネル上で、第1のエンティティに前記符号化オーディオ信号を送ることと、および
    前記第1の論理チャネルとは異なる第2の論理チャネル上で、(A)オーディオコンテキスト選択情報および(B)前記第1のエンティティを識別する情報を第2のエンティティに送ることと
    を具備する方法。
  70. 第2のエンティティに前記送ることは、セッション開始プロトコルのバージョンに準拠するメッセージにおいて(A)前記オーディオコンテキスト選択情報および(B)前記第1のエンティティを識別する前記情報のうちの少なくとも1つを前記第2のエンティティに送ることを含む、請求項69に記載のデジタルオーディオ信号を処理する方法。
  71. 前記第1のエンティティを識別する前記情報は、URI(Uniform Resource Identifier)である、請求項69に記載のデジタルオーディオ信号を処理する方法。
  72. 前記オーディオコンテキスト選択情報は、前記方法が実施されるところの物理的位置に関係する情報を含む、請求項69に記載のデジタルオーディオ信号を処理する方法。
  73. 請求項69に記載のデジタルオーディオ信号を処理する方法であって、前記方法は、複数のオーディオコンテキストのうちの1つを選択することを具備し、および前記オーディオコンテキスト選択情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む方法。
  74. 複数のオーディオコンテキストのうちの1つを前記選択することは、前記方法が実施されるところの物理的位置に関係する情報に基づく、請求項73に記載のデジタルオーディオ信号を処理する方法。
  75. 前記コンテキスト成分を前記抑圧することは、前記デジタルオーディオ信号に基づく信号に対してスペクトル減算オペレーションを実施することを具備する、請求項69に記載のデジタルオーディオ信号を処理する方法。
  76. 前記コンテキスト成分を前記抑圧することは、
    前記デジタルオーディオ信号の複数の非アクティブフレームに基づく複数の利得関数値を計算することと、および
    前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用することと
    を具備する、請求項69に記載のデジタルオーディオ信号を処理する方法。
  77. 前記コンテキスト成分を前記抑圧することは、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づく、請求項69に記載のデジタルオーディオ信号を処理する方法。
  78. 前記符号化することは、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を実施することを含む、請求項69に記載のデジタルオーディオ信号を処理する方法。
  79. 前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項69に記載のデジタルオーディオ信号を処理する方法であって、各々は、励起信号の記述を含む、請求項69に記載のデジタルオーディオ信号を処理する方法。
  80. コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧することと、
    コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合することと、
    (A)前記第2のオーディオコンテキストおよび(B)前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換することと、および
    前記アナログ信号に基づく可聴信号を生成するためにスピーカを使用することと
    をさらに具備する、請求項69に記載のデジタルオーディオ信号を処理する方法であって、
    前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、請求項69に記載のデジタルオーディオ信号を処理する方法。
  81. 請求項80に記載のデジタルオーディオ信号を処理する方法であって、前記方法は、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を実施することを具備する方法。
  82. 請求項81に記載のデジタルオーディオ信号を処理する方法であって、前記方法は、前記共通ハウジング内に配置され、線形予測コーディング分析を前記実施することの結果に基づく信号を送信する送信機を使用することを具備する方法。
  83. 前記デジタルオーディオ信号から第1のオーディオコンテキストを前記抑圧することは、第2のマイクロホンによって生成されるオーディオ信号に基づく、請求項80に記載のデジタルオーディオ信号を処理する方法。
  84. スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理するための装置であって、前記装置は、
    コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧するように構成されているコンテキストサプレッサと、
    符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化するように構成されている符号化器と、
    前記選択オーディオコンテキストに関係する情報を前記符号化オーディオ信号に基づく信号に挿入するように構成されているコンテキスト符号化器と、
    第1の論理チャネル上で第1のエンティティに前記符号化オーディオ信号を送るように構成されている第1のプロトコルスタックと、および
    第2のエンティティに前記第1の論理チャネルとは異なる第2の論理チャネル上で(A)オーディオコンテキスト選択情報および(B)前記第1のエンティティを識別する情報を送るように構成されている前記第1のプロトコルスタックとは異なる第2のプロトコルスタックと
    を具備する装置。
  85. 前記第2のプロトコルスタックは、セッション開始プロトコルのバージョンに準拠するメッセージにおいて(A)前記オーディオコンテキスト選択情報および(B)前記第1のエンティティを識別する前記情報のうちの少なくとも1つを前記第2のエンティティに送るように構成されている、請求項84に記載のデジタルオーディオ信号を処理するための装置。
  86. 前記第1のエンティティを識別する前記情報は、URI(Uniform Resource Identifier)である、請求項84に記載のデジタルオーディオ信号を処理するための装置。
  87. 前記オーディオコンテキスト選択情報は、前記装置の物理的位置に関係する情報を含む、請求項84に記載のデジタルオーディオ信号を処理するための装置。
  88. 請求項84に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、複数のオーディオコンテキストのうちの1つを選択するように構成されているコンテキスト選択器を具備し、および
    前記オーディオコンテキスト選択情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む装置。
  89. 前記コンテキスト選択器は、前記装置の物理的位置に関係する情報に基づいて複数のオーディオコンテキストのうちの1つを選択するように構成されている、請求項88に記載のデジタルオーディオ信号を処理するための装置。
  90. 前記コンテキストサプレッサは、前記デジタルオーディオ信号に基づく信号に対してスペクトル減算オペレーションを実施するように構成されている、請求項84に記載のデジタルオーディオ信号を処理するための装置。
  91. 前記コンテキストサプレッサは、
    前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算し、および
    前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用する
    ように構成されている、請求項84に記載のデジタルオーディオ信号を処理するための装置。
  92. 前記コンテキストサプレッサは、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づいて前記コンテキスト成分を抑圧するように構成されている、請求項84に記載のデジタルオーディオ信号を処理するための装置。
  93. 前記符号化器は、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を実施するように構成されている、請求項84に記載のデジタルオーディオ信号を処理するための装置。
  94. 前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項84に記載のデジタルオーディオ信号を処理するための装置であって、各々は、励起信号の記述を含む、請求項84に記載のデジタルオーディオ信号を処理するための装置。
  95. コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧するように構成されているコンテキストサプレッサと、
    コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合するように構成されているコンテキストミキサと、
    (A)前記第2のオーディオコンテキストおよび(B)前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換するように構成されている変換器と、および
    前記アナログ信号に基づく可聴信号を生成するように構成されているスピーカと
    をさらに具備する、請求項84に記載のデジタルオーディオ信号を処理するための装置であって、
    前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、請求項84に記載のデジタルオーディオ信号を処理するための装置。
  96. 請求項95に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を実施するように構成されている装置。
  97. 請求項96に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記共通ハウジング内に配置され、前記線形予測コーディング分析の結果に基づく信号を送信するように構成されている送信器を具備する装置。
  98. 前記コンテキストサプレッサは、第2のマイクロホンによって生成されるオーディオ信号に基づいて前記デジタルオーディオ信号から前記第1のオーディオコンテキストを抑圧するように構成されている、請求項95に記載のデジタルオーディオ信号を処理するための装置。
  99. スピーチ成分およびコンテキスト成分を含むマイクロホンから受信される信号に基づくデジタルオーディオ信号を処理するための装置であって、前記装置は、
    コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧するための手段と、
    符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化するための手段と、
    第1の論理チャネル上で第1のエンティティに前記符号化オーディオ信号を送るための手段と、および
    前記第1の論理チャネルとは異なる第2の論理チャネル上で(A)オーディオコンテキスト選択情報および(B)前記第1のエンティティを識別する情報を第2のエンティティに送るための手段と
    を具備する装置。
  100. 第2のエンティティに送るための前記手段は、セッション開始プロトコルのバージョンに準拠するメッセージにおいて(A)前記オーディオコンテキスト選択情報および(B)前記第1のエンティティを識別する前記情報のうちの少なくとも1つを前記第2のエンティティに送るための手段を含む、請求項99に記載のデジタルオーディオ信号を処理するための装置。
  101. 前記第1のエンティティを識別する前記情報は、URI(Uniform Resource Identifier)である、請求項99に記載のデジタルオーディオ信号を処理するための装置。
  102. 前記オーディオコンテキスト選択情報は、前記装置の物理的位置に関係する情報を含む、請求項99に記載のデジタルオーディオ信号を処理するための装置。
  103. 請求項99に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、複数のオーディオコンテキストのうちの1つを選択するための手段を具備し、および
    前記オーディオコンテキスト選択情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む装置。
  104. 請求項103に記載のデジタルオーディオ信号を処理するための装置であって、選択するための前記手段は、前記装置の物理的位置に関係する情報に基づいて複数のオーディオコンテキストのうちの1つを選択するように構成されている、装置。
  105. 前記コンテキスト成分を抑圧するための前記手段は、前記デジタルオーディオ信号に基づく信号に対してスペクトル減算オペレーションを実施するための手段を具備する、請求項99に記載のデジタルオーディオ信号を処理するための装置。
  106. 請求項99に記載のデジタルオーディオ信号を処理するための装置であって、前記コンテキスト成分を抑圧するための前記手段は、
    前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算するための手段と、および
    前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用するための手段と
    を具備する、手段。
  107. 前記コンテキスト成分を処理するための前記手段は、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づいて前記コンテキスト成分を抑圧するように構成されている、請求項99に記載のデジタルオーディオ信号を処理するための装置。
  108. 符号化するための前記手段は、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を実施するための手段を含む、請求項99に記載のデジタルオーディオ信号を処理するための装置。
  109. 前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項99に記載のデジタルオーディオ信号を処理するための装置であって、各々は、励起信号の記述を含む、請求項99に記載のデジタルオーディオ信号を処理するための装置。
  110. 請求項99に記載のデジタルオーディオ信号を処理するための装置であって、コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧するための手段と、
    コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合するための手段と、
    (A)前記第2のオーディオコンテキストおよび(B)前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換するための手段と、および
    前記アナログ信号に基づく可聴信号を生成するように構成されているスピーカと、
    をさらに具備する、装置であって、
    前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、装置。
  111. 請求項110に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を実施するための手段を具備する装置。
  112. 請求項111に記載のデジタルオーディオ信号を処理するための装置であって、前記装置は、前記共通ハウジング内に配置され、前記線形予測コーディング分析の結果に基づく信号を送信するように構成されている送信するための手段を具備する装置。
  113. 抑圧するための前記手段は、第2のマイクロホンによって生成されるオーディオ信号に基づいて前記デジタルオーディオ信号から前記第1のオーディオコンテキストを抑圧するように構成されている、請求項110に記載のデジタルオーディオ信号を処理するための装置。
  114. スピーチ成分およびコンテキスト成分を含むデジタルオーディオ信号を処理するための命令を具備するコンピュータ可読媒体であって、プロセッサによって実行されるとき、
    コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から前記コンテキスト成分を抑圧することと、
    符号化オーディオ信号を得るために、前記コンテキスト抑圧信号に基づく信号を符号化することと、
    第1の論理チャネル上で第1のエンティティに前記符号化オーディオ信号を送ることと、および
    前記第1の論理チャネルとは異なる第2の論理チャネル上で(A)オーディオコンテキスト選択情報および(B)前記第1のエンティティを識別する情報を第2のエンティティに送ることと
    を前記プロセッサに行わせる、コンピュータ可読媒体。
  115. プロセッサによって実行されるとき、第2のエンティティに前記プロセッサに送信させる前記命令は、セッション開始プロトコルのバージョンに準拠するメッセージにおいて(A)前記オーディオコンテキスト選択情報および(B)前記第1のエンティティを識別する前記情報のうちの少なくとも1つを前記第2のエンティティに前記プロセッサに送らせるように構成されている、請求項114に記載のコンピュータ可読媒体。
  116. 前記第1のエンティティを識別する前記情報は、URI(Uniform Resource Identifier)である、請求項114に記載のコンピュータ可読媒体。
  117. 前記オーディオコンテキスト選択情報は、前記プロセッサの物理的位置に関係する情報を含む、請求項114に記載のコンピュータ可読媒体。
  118. 請求項114に記載のコンピュータ可読媒体であって、前記媒体は、プロセッサによって実行されるとき、複数のオーディオコンテキストのうちの1つを前記プロセッサに選択させる命令を具備し、および
    前記オーディオコンテキスト選択情報は、前記選択オーディオコンテキストを識別するコンテキスト識別子を含む媒体。
  119. プロセッサによって実行されるとき、複数のオーディオコンテキストのうちの1つを前記プロセッサに選択させる前記命令は、前記プロセッサの物理的位置に関係する情報に基づいて複数のオーディオコンテキストのうちの1つを前記プロセッサに選択させるように構成されている、請求項118に記載のコンピュータ可読媒体。
  120. プロセッサによって実行されるとき、前記コンテキスト成分を前記プロセッサに抑圧させる前記命令は、前記デジタルオーディオ信号に基づく信号に対してスペクトル減算オペレーションを前記プロセッサに実施させるように構成されている、請求項114に記載のコンピュータ可読媒体。
  121. プロセッサによって実行されるとき、前記コンテキスト成分を前記プロセッサに抑圧させる前記命令は、
    前記デジタルオーディオ信号の複数の非アクティブフレームに基づいて複数の利得関数値を計算することと、および
    前記複数の異なる利得関数の各々を前記デジタルオーディオ信号に基づく信号のアクティブフレームの対応する周波数サブバンドに適用することと
    を前記プロセッサに行なわせるように構成されている、請求項114に記載のコンピュータ可読媒体。
  122. プロセッサによって実行されるとき、前記コンテキスト成分を前記プロセッサに抑圧させる前記命令は、共通ハウジング内に配置されている2つの異なるマイクロホンからの情報に基づいて前記コンテキスト成分を前記プロセッサに抑圧させるように構成されている、請求項114に記載のコンピュータ可読媒体。
  123. プロセッサによって実行されるとき、前記プロセッサに符号化をさせる前記命令は、前記コンテキスト抑圧信号に基づく信号に対して線形予測コーディング分析を前記プロセッサに実施させるように構成されている、請求項114に記載のコンピュータ可読媒体。
  124. 前記符号化オーディオ信号は、複数の符号化フレームを具備する、請求項114に記載のコンピュータ可読媒体であって、各々は、励起信号の記述を含む、請求項114に記載のコンピュータ可読媒体。
  125. プロセッサによって実行されるとき、前記命令は、
    コンテキスト抑圧信号を得るために、前記デジタルオーディオ信号から第1のオーディオコンテキストを抑圧することと、
    コンテキスト強調信号を得るために、第2のオーディオコンテキストを前記コンテキスト抑圧信号に基づく信号と混合することと、
    (A)前記第2のオーディオコンテキストおよび(B)前記コンテキスト強調信号のうちの少なくとも1つに基づく信号をアナログ信号に変換することと、および
    前記アナログ信号に基づく可聴信号を生成するためにスピーカを使用することと
    を前記プロセッサに行なわせる、請求項114に記載のコンピュータ可読媒体であって、
    前記マイクロホンおよび前記スピーカの両方は、共通ハウジング内に配置されている、請求項114に記載のコンピュータ可読媒体。
  126. 請求項125に記載のコンピュータ可読媒体であって、前記媒体は、プロセッサによって実行されるとき、前記コンテキスト強調信号に基づく信号に対して線形予測コーディング分析を前記プロセッサに実施させる命令を具備する、媒体。
  127. 請求項126に記載のコンピュータ可読媒体であって、前記媒体は、プロセッサによって実行されるとき、前記線形予測コーディング分析の結果に基づく信号を送信するために、前記共通ハウジング内に配置されている送信機を前記プロセッサに使用させる命令を具備する媒体。
  128. プロセッサによって実行されるとき、前記第1のオーディオコンテキストを前記プロセッサに抑圧させる前記命令は、第2のマイクロホンによって生成されるオーディオ信号に基づいて前記デジタルオーディオ信号から前記第1のオーディオコンテキストを前記プロセッサに抑圧させるように構成されている、請求項125に記載のコンピュータ可読媒体。
JP2010544964A 2008-01-28 2008-09-30 コンテキスト・デスクリプタ伝送のためのシステム、方法、および装置 Pending JP2011511962A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US2410408P 2008-01-28 2008-01-28
US12/129,525 US8600740B2 (en) 2008-01-28 2008-05-29 Systems, methods and apparatus for context descriptor transmission
PCT/US2008/078327 WO2009097021A1 (en) 2008-01-28 2008-09-30 Systems, methods, and apparatus for context descriptor transmission

Publications (1)

Publication Number Publication Date
JP2011511962A true JP2011511962A (ja) 2011-04-14

Family

ID=40899262

Family Applications (5)

Application Number Title Priority Date Filing Date
JP2010544964A Pending JP2011511962A (ja) 2008-01-28 2008-09-30 コンテキスト・デスクリプタ伝送のためのシステム、方法、および装置
JP2010544962A Pending JP2011511961A (ja) 2008-01-28 2008-09-30 複数のマイクロホンを使用するコンテキスト処理のためのシステム、方法、および装置
JP2010544963A Pending JP2011516901A (ja) 2008-01-28 2008-09-30 受信機を使用するコンテキスト抑圧のためのシステム、方法、および装置
JP2010544966A Pending JP2011512550A (ja) 2008-01-28 2008-09-30 オーディオレベルによるコンテキスト置き換えのためのシステム、方法、および装置
JP2010544965A Pending JP2011512549A (ja) 2008-01-28 2008-09-30 多数の分解能分析を使用するコンテキストの処理のためのシステム、方法、および装置

Family Applications After (4)

Application Number Title Priority Date Filing Date
JP2010544962A Pending JP2011511961A (ja) 2008-01-28 2008-09-30 複数のマイクロホンを使用するコンテキスト処理のためのシステム、方法、および装置
JP2010544963A Pending JP2011516901A (ja) 2008-01-28 2008-09-30 受信機を使用するコンテキスト抑圧のためのシステム、方法、および装置
JP2010544966A Pending JP2011512550A (ja) 2008-01-28 2008-09-30 オーディオレベルによるコンテキスト置き換えのためのシステム、方法、および装置
JP2010544965A Pending JP2011512549A (ja) 2008-01-28 2008-09-30 多数の分解能分析を使用するコンテキストの処理のためのシステム、方法、および装置

Country Status (7)

Country Link
US (5) US8554551B2 (ja)
EP (5) EP2245623A1 (ja)
JP (5) JP2011511962A (ja)
KR (5) KR20100129283A (ja)
CN (5) CN101903947A (ja)
TW (5) TW200947423A (ja)
WO (5) WO2009097023A1 (ja)

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602006018618D1 (de) * 2005-07-22 2011-01-13 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
EP2453657A1 (en) 2006-04-28 2012-05-16 NTT DoCoMo, Inc. Image predictive decoding device
US20080152157A1 (en) * 2006-12-21 2008-06-26 Vimicro Corporation Method and system for eliminating noises in voice signals
ATE456130T1 (de) * 2007-10-29 2010-02-15 Harman Becker Automotive Sys Partielle sprachrekonstruktion
US8554551B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN102132494B (zh) * 2008-04-16 2013-10-02 华为技术有限公司 通信方法和通信装置
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
EP4407613A1 (en) * 2008-07-11 2024-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
US8290546B2 (en) * 2009-02-23 2012-10-16 Apple Inc. Audio jack with included microphone
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
CN101859568B (zh) * 2009-04-10 2012-05-30 比亚迪股份有限公司 一种语音背景噪声的消除方法和装置
US10008212B2 (en) * 2009-04-17 2018-06-26 The Nielsen Company (Us), Llc System and method for utilizing audio encoding for measuring media exposure with environmental masking
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
WO2011037587A1 (en) * 2009-09-28 2011-03-31 Nuance Communications, Inc. Downsampling schemes in a hierarchical neural network structure for phoneme recognition
US8903730B2 (en) * 2009-10-02 2014-12-02 Stmicroelectronics Asia Pacific Pte Ltd Content feature-preserving and complexity-scalable system and method to modify time scaling of digital audio signals
EP2491549A4 (en) * 2009-10-19 2013-10-30 Ericsson Telefon Ab L M DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY
CA2907353C (en) 2009-10-20 2018-02-06 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a detection of a group of previously-decoded spectral values
KR101309671B1 (ko) 2009-10-21 2013-09-23 돌비 인터네셔널 에이비 결합된 트랜스포저 필터 뱅크에서의 오버샘플링
US20110096937A1 (en) * 2009-10-28 2011-04-28 Fortemedia, Inc. Microphone apparatus and sound processing method
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8908542B2 (en) * 2009-12-22 2014-12-09 At&T Mobility Ii Llc Voice quality analysis device and method thereof
ES2532203T3 (es) * 2010-01-12 2015-03-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio, decodificador de audio, método para codificar y decodificar una información de audio y programa de computación que obtiene un valor de contexto de sub-región basado en una norma de valores espectrales previamente decodificados
US9112989B2 (en) * 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9558755B1 (en) * 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8805697B2 (en) * 2010-10-25 2014-08-12 Qualcomm Incorporated Decomposition of music signals using basis functions with time-evolution information
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
KR101726738B1 (ko) * 2010-12-01 2017-04-13 삼성전자주식회사 음성처리장치 및 그 방법
US20140006019A1 (en) * 2011-03-18 2014-01-02 Nokia Corporation Apparatus for audio signal processing
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
ITTO20110890A1 (it) 2011-10-05 2013-04-06 Inst Rundfunktechnik Gmbh Interpolationsschaltung zum interpolieren eines ersten und zweiten mikrofonsignals.
EP2774147B1 (en) * 2011-10-24 2015-07-22 Koninklijke Philips N.V. Audio signal noise attenuation
US9992745B2 (en) * 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
WO2013085507A1 (en) 2011-12-07 2013-06-13 Hewlett-Packard Development Company, L.P. Low power integrated circuit to analyze a digitized audio stream
CN103886863A (zh) * 2012-12-20 2014-06-25 杜比实验室特许公司 音频处理设备及音频处理方法
KR101690899B1 (ko) 2012-12-21 2016-12-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호의 불연속 전송에서 높은 스펙트럼-시간 해상도를 가진 편안한 잡음의 생성
CA2948015C (en) * 2012-12-21 2018-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
KR20140089871A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 대화형 서버, 그 제어 방법 및 대화형 시스템
MY172161A (en) * 2013-01-29 2019-11-15 Fraunhofer Ges Forschung Apparatus and method for generating a frequency enhanced signal using shaping of the enhancement signal
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9741350B2 (en) * 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
WO2014126520A1 (en) * 2013-02-13 2014-08-21 Telefonaktiebolaget L M Ericsson (Publ) Frame error concealment
WO2014188231A1 (en) * 2013-05-22 2014-11-27 Nokia Corporation A shared audio scene apparatus
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
JP6098654B2 (ja) * 2014-03-10 2017-03-22 ヤマハ株式会社 マスキング音データ生成装置およびプログラム
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
ES2838006T3 (es) * 2014-07-28 2021-07-01 Nippon Telegraph & Telephone Codificación de señal de sonido
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
US9741344B2 (en) * 2014-10-20 2017-08-22 Vocalzoom Systems Ltd. System and method for operating devices using voice commands
US9830925B2 (en) * 2014-10-22 2017-11-28 GM Global Technology Operations LLC Selective noise suppression during automatic speech recognition
US9378753B2 (en) 2014-10-31 2016-06-28 At&T Intellectual Property I, L.P Self-organized acoustic signal cancellation over a network
DE112016000287T5 (de) 2015-01-07 2017-10-05 Knowles Electronics, Llc Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung
TWI595786B (zh) * 2015-01-12 2017-08-11 仁寶電腦工業股份有限公司 基於時間戳記的音訊與視訊處理方法及其系統
DE112016000545B4 (de) 2015-01-30 2019-08-22 Knowles Electronics, Llc Kontextabhängiges schalten von mikrofonen
US9916836B2 (en) * 2015-03-23 2018-03-13 Microsoft Technology Licensing, Llc Replacing an encoded audio output signal
US10304467B2 (en) 2015-04-24 2019-05-28 Sony Corporation Transmission device, transmission method, reception device, and reception method
CN106210219B (zh) * 2015-05-06 2019-03-22 小米科技有限责任公司 降噪方法及装置
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US10373608B2 (en) * 2015-10-22 2019-08-06 Texas Instruments Incorporated Time-based frequency tuning of analog-to-information feature extraction
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
CN107564512B (zh) * 2016-06-30 2020-12-25 展讯通信(上海)有限公司 语音活动侦测方法及装置
JP6790817B2 (ja) * 2016-12-28 2020-11-25 ヤマハ株式会社 電波状態解析方法
US10797723B2 (en) 2017-03-14 2020-10-06 International Business Machines Corporation Building a context model ensemble in a context mixing compressor
US10361712B2 (en) 2017-03-14 2019-07-23 International Business Machines Corporation Non-binary context mixing compressor/decompressor
KR102491646B1 (ko) * 2017-11-30 2023-01-26 삼성전자주식회사 오디오 신호의 음량에 따라 설정된 해상도에 기반하여, 오디오 신호를 처리하는 방법 및 그 전자 장치
US10862846B2 (en) 2018-05-25 2020-12-08 Intel Corporation Message notification alert method and apparatus
CN108962275B (zh) * 2018-08-01 2021-06-15 电信科学技术研究院有限公司 一种音乐噪声抑制方法及装置
WO2020039597A1 (ja) * 2018-08-24 2020-02-27 日本電気株式会社 信号処理装置、音声通話端末、信号処理方法および信号処理プログラム
WO2020133112A1 (zh) * 2018-12-27 2020-07-02 华为技术有限公司 一种自动切换蓝牙音频编码方式的方法及电子设备
WO2020146870A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
US10978086B2 (en) 2019-07-19 2021-04-13 Apple Inc. Echo cancellation using a subset of multiple microphones as reference channels
CN111757136A (zh) * 2020-06-29 2020-10-09 北京百度网讯科技有限公司 网页音频直播方法、装置、设备和存储介质
TWI849477B (zh) * 2022-08-16 2024-07-21 大陸商星宸科技股份有限公司 具有迴音消除機制的音訊處理裝置及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000332677A (ja) * 1999-05-19 2000-11-30 Kenwood Corp 移動体通信端末

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5537509A (en) 1990-12-06 1996-07-16 Hughes Electronics Comfort noise generation for digital communication systems
SE502244C2 (sv) 1993-06-11 1995-09-25 Ericsson Telefon Ab L M Sätt och anordning för avkodning av ljudsignaler i ett system för mobilradiokommunikation
SE501981C2 (sv) 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5657422A (en) 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JP3418305B2 (ja) 1996-03-19 2003-06-23 ルーセント テクノロジーズ インコーポレーテッド オーディオ信号を符号化する方法および装置および知覚的に符号化されたオーディオ信号を処理する装置
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US5909518A (en) 1996-11-27 1999-06-01 Teralogic, Inc. System and method for performing wavelet-like and inverse wavelet-like transformations of digital data
US6301357B1 (en) 1996-12-31 2001-10-09 Ericsson Inc. AC-center clipper for noise and echo suppression in a communications system
US6167417A (en) * 1998-04-08 2000-12-26 Sarnoff Corporation Convolutive blind source separation using a multiple decorrelation method
EP1078354B1 (de) 1998-05-11 2002-03-20 Siemens Aktiengesellschaft Verfahren und anordnung zur bestimmung spektraler sprachcharakteristika in einer gesprochenen äusserung
TW376611B (en) 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
US6549586B2 (en) 1999-04-12 2003-04-15 Telefonaktiebolaget L M Ericsson System and method for dual microphone signal noise reduction using spectral subtraction
US6717991B1 (en) * 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
JP4196431B2 (ja) 1998-06-16 2008-12-17 パナソニック株式会社 機器内蔵型マイクロホン装置及び撮像装置
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6782361B1 (en) * 1999-06-18 2004-08-24 Mcgill University Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system
US6330532B1 (en) * 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
US6604070B1 (en) 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
GB9922654D0 (en) 1999-09-27 1999-11-24 Jaber Marwan Noise suppression system
WO2001033814A1 (en) * 1999-11-03 2001-05-10 Tellabs Operations, Inc. Integrated voice processing system for packet networks
US6407325B2 (en) * 1999-12-28 2002-06-18 Lg Electronics Inc. Background music play device and method thereof for mobile station
JP4310878B2 (ja) 2000-02-10 2009-08-12 ソニー株式会社 バスエミュレーション装置
WO2001075863A1 (en) * 2000-03-31 2001-10-11 Telefonaktiebolaget Lm Ericsson (Publ) A method of transmitting voice information and an electronic communications device for transmission of voice information
EP1139337A1 (en) 2000-03-31 2001-10-04 Telefonaktiebolaget L M Ericsson (Publ) A method of transmitting voice information and an electronic communications device for transmission of voice information
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US6873604B1 (en) * 2000-07-31 2005-03-29 Cisco Technology, Inc. Method and apparatus for transitioning comfort noise in an IP-based telephony system
JP3566197B2 (ja) * 2000-08-31 2004-09-15 松下電器産業株式会社 雑音抑圧装置及び雑音抑圧方法
US7260536B1 (en) * 2000-10-06 2007-08-21 Hewlett-Packard Development Company, L.P. Distributed voice and wireless interface modules for exposing messaging/collaboration data to voice and wireless devices
US7539615B2 (en) * 2000-12-29 2009-05-26 Nokia Siemens Networks Oy Audio signal quality enhancement in a digital network
US7165030B2 (en) * 2001-09-17 2007-01-16 Massachusetts Institute Of Technology Concatenative speech synthesis using a finite-state transducer
ES2268112T3 (es) 2001-11-14 2007-03-16 Matsushita Electric Industrial Co., Ltd. Codificacion y descodificacion de audio.
TW564400B (en) 2001-12-25 2003-12-01 Univ Nat Cheng Kung Speech coding/decoding method and speech coder/decoder
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7174022B1 (en) 2002-11-15 2007-02-06 Fortemedia, Inc. Small array microphone for beam-forming and noise suppression
US20040204135A1 (en) * 2002-12-06 2004-10-14 Yilin Zhao Multimedia editor for wireless communication devices and method therefor
EP1576602A4 (en) 2002-12-28 2008-05-28 Samsung Electronics Co Ltd METHOD AND DEVICE FOR MIXING AUDIO SEQUENCE AND INFORMATION RECORDING MEDIUM
KR100486736B1 (ko) * 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US7295672B2 (en) * 2003-07-11 2007-11-13 Sun Microsystems, Inc. Method and apparatus for fast RC4-like encryption
DK1509065T3 (da) 2003-08-21 2006-08-07 Bernafon Ag Fremgangsmåde til behandling af audiosignaler
US20050059434A1 (en) * 2003-09-12 2005-03-17 Chi-Jen Hong Method for providing background sound effect for mobile phone
US7162212B2 (en) * 2003-09-22 2007-01-09 Agere Systems Inc. System and method for obscuring unwanted ambient noise and handset and central office equipment incorporating the same
US7133825B2 (en) * 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
CA2454296A1 (en) 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
JP4162604B2 (ja) * 2004-01-08 2008-10-08 株式会社東芝 雑音抑圧装置及び雑音抑圧方法
US7536298B2 (en) 2004-03-15 2009-05-19 Intel Corporation Method of comfort noise generation for speech communication
EP1735774B1 (en) 2004-04-05 2008-05-14 Koninklijke Philips Electronics N.V. Multi-channel encoder
US7649988B2 (en) * 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
JP4556574B2 (ja) 2004-09-13 2010-10-06 日本電気株式会社 通話音声生成装置及び方法
US7454010B1 (en) 2004-11-03 2008-11-18 Acoustic Technologies, Inc. Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation
US8102872B2 (en) 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US20060215683A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for voice quality enhancement
US7567898B2 (en) * 2005-07-26 2009-07-28 Broadcom Corporation Regulation of volume of voice in conjunction with background sound
US7668714B1 (en) * 2005-09-29 2010-02-23 At&T Corp. Method and apparatus for dynamically providing comfort noise
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8041057B2 (en) 2006-06-07 2011-10-18 Qualcomm Incorporated Mixing techniques for mixing audio
JP2010519602A (ja) 2007-02-26 2010-06-03 クゥアルコム・インコーポレイテッド 信号分離のためのシステム、方法、および装置
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
JP4456626B2 (ja) * 2007-09-28 2010-04-28 富士通株式会社 ディスクアレイ装置、ディスクアレイ装置制御プログラムおよびディスクアレイ装置制御方法
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8554551B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000332677A (ja) * 1999-05-19 2000-11-30 Kenwood Corp 移動体通信端末

Also Published As

Publication number Publication date
CN101896964A (zh) 2010-11-24
US8560307B2 (en) 2013-10-15
WO2009097020A1 (en) 2009-08-06
TW200933608A (en) 2009-08-01
US20090192803A1 (en) 2009-07-30
JP2011511961A (ja) 2011-04-14
EP2245625A1 (en) 2010-11-03
US20090192802A1 (en) 2009-07-30
EP2245623A1 (en) 2010-11-03
TW200933609A (en) 2009-08-01
KR20100113145A (ko) 2010-10-20
WO2009097021A1 (en) 2009-08-06
CN101903947A (zh) 2010-12-01
WO2009097019A1 (en) 2009-08-06
TW200947422A (en) 2009-11-16
CN101896971A (zh) 2010-11-24
KR20100113144A (ko) 2010-10-20
WO2009097022A1 (en) 2009-08-06
KR20100129283A (ko) 2010-12-08
US20090190780A1 (en) 2009-07-30
JP2011512549A (ja) 2011-04-21
EP2245626A1 (en) 2010-11-03
KR20100125272A (ko) 2010-11-30
US20090192791A1 (en) 2009-07-30
JP2011516901A (ja) 2011-05-26
US20090192790A1 (en) 2009-07-30
US8600740B2 (en) 2013-12-03
TW200933610A (en) 2009-08-01
US8554550B2 (en) 2013-10-08
US8483854B2 (en) 2013-07-09
EP2245619A1 (en) 2010-11-03
CN101896970A (zh) 2010-11-24
CN101896969A (zh) 2010-11-24
WO2009097023A1 (en) 2009-08-06
US8554551B2 (en) 2013-10-08
KR20100125271A (ko) 2010-11-30
TW200947423A (en) 2009-11-16
EP2245624A1 (en) 2010-11-03
JP2011512550A (ja) 2011-04-21

Similar Documents

Publication Publication Date Title
US8560307B2 (en) Systems, methods, and apparatus for context suppression using receivers
JP6790029B2 (ja) 音声プロファイルを管理し、発話信号を生成するためのデバイス
US11727946B2 (en) Method, apparatus, and system for processing audio data
JP5730682B2 (ja) 背景雑音情報の断続伝送及び正確な再生の方法
KR101075845B1 (ko) 오디오 신호 인코딩
JP2008530591A5 (ja)
CN116110424A (zh) 一种语音带宽扩展方法及相关装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121009