JP2013532851A - 高調波信号のコーディングのためのシステム、方法、装置、およびコンピュータ可読媒体 - Google Patents

高調波信号のコーディングのためのシステム、方法、装置、およびコンピュータ可読媒体 Download PDF

Info

Publication number
JP2013532851A
JP2013532851A JP2013523220A JP2013523220A JP2013532851A JP 2013532851 A JP2013532851 A JP 2013532851A JP 2013523220 A JP2013523220 A JP 2013523220A JP 2013523220 A JP2013523220 A JP 2013523220A JP 2013532851 A JP2013532851 A JP 2013532851A
Authority
JP
Japan
Prior art keywords
subband
candidates
audio signal
subbands
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013523220A
Other languages
English (en)
Other versions
JP5694531B2 (ja
Inventor
ラジェンドラン、ビベク
ドゥニ、イーサン・ロバート
クリシュナン、ベンカテシュ
タワリ、アシシュ・クマー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013532851A publication Critical patent/JP2013532851A/ja
Application granted granted Critical
Publication of JP5694531B2 publication Critical patent/JP5694531B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Abstract

信号のオーディオ周波数範囲を表す変換係数のセットをコーディングするための方式は、高調波モデルを使用して、周波数領域における有意なエネルギーの領域の位置間の関係をパラメータ化する。

Description

優先権の主張
米国特許法第119条に基づく優先権の主張
本特許出願は、2010年7月30日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR EFFICIENT TRANSFORM-DOMAIN CODING OF AUDIO SIGNALS」と題する仮出願第61/369,662号の優先権を主張する。本特許出願は、2010年7月31日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR DYNAMIC BIT ALLOCATION」と題する仮出願第61/369,705号の優先権を主張する。本特許出願は、2010年8月1日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR MULTI-STAGE SHAPE VECTOR QUANTIZATION」と題する仮出願第61/369,751号の優先権を主張する。本特許出願は、2010年8月17日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR GENERALIZED AUDIO CODING」と題する仮出願第61/374,565号の優先権を主張する。本特許出願は、2010年9月17日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR GENERALIZED AUDIO CODING」と題する仮出願第61/384,237号の優先権を主張する。本特許出願は、2011年3月31日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR DYNAMIC BIT ALLOCATION」と題する仮出願第61/470,438号の優先権を主張する。
本開示は、オーディオ信号処理の分野に関する。
修正離散コサイン変換(MDCT)に基づくコーディング方式が、一般に、音声成分および/または音楽などの非音声成分を含み得る、汎用オーディオ信号をコーディングするために使用される。MDCTコーディングを使用する既存のオーディオコーデックの例には、MPEG−1 Audio Layer 3(MP3)、Dolby Digital(英国ロンドンのDolby Labs、AC−3とも呼ばれ、ATSC A/52として規格化されている)、Vorbis(マサチューセッツ州サマービルのXiph.Org Foundation)、Windows(登録商標) Media Audio(WMA、ワシントン州レドモンドのMicrosoft Corp)、Adaptive Transform Acoustic Coding(ATRAC、日本、東京のSony Corp)、およびAdvanced Audio Coding(AAC、ISO/IEC 14496−3:2009において最近規格化された)がある。MDCTコーディングはまた、Enhanced Variable Rate Codec(EVRC、2010年1月25日に3rd Generation Partnership Project 2(3GPP2)の文書C.S0014−D v2.0において規格化された)など、いくつかの電気通信規格の構成要素である。G.718コーデック(「Frame error robust narrowband and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s」、スイス、ジュネーブのTelecommunication Standardization Sector(ITU−T)、2008年6月、2008年11月および2009年8月修正、2009年3月および2010年3月改正)は、MDCTコーディングを使用するマルチレイヤコーデックの一例である。
一般的構成によるオーディオ信号処理の方法は、周波数領域において基準オーディオ信号中の複数のピークの位置を特定することを含む。本方法はまた、高調波モデルの基本周波数のNf個の候補を選択することであって、各候補が、周波数領域における複数のピークのうちの対応する1つのピークの位置に基づく、選択することを含む。本方法はまた、周波数領域における複数のピークのうちの少なくとも2つのピークの位置に基づいて、Nd個の高調波間隔候補を計算することを含む。本方法は、基本周波数候補と高調波間隔候補との複数の異なるペアの各々について、ターゲットオーディオ信号の少なくとも1つのサブバンドのセットを選択することであって、セット中の各サブバンドの周波数領域における位置が候補ペアに基づく、選択することを含む。本方法は、候補の複数の異なるペアの各々について、ターゲットオーディオ信号の少なくとも1つのサブバンドの対応するセットからエネルギー値を計算することと、少なくとも複数の計算されたエネルギー値に基づいて、候補の複数の異なるペアの中から候補のペアを選択することとを含む。また、特徴を読み取る機械にそのような方法を実行させる有形特徴を有するコンピュータ可読記憶媒体(たとえば、非一時的媒体)が開示される。
一般的構成によるオーディオ信号処理のための装置は、周波数領域において基準オーディオ信号中の複数のピークの位置を特定するための手段と、高調波モデルの基本周波数のNf個の候補を選択するための手段であって、Nf個の候補の各々が、周波数領域における複数のピークのうちの対応する1つのピークの位置に基づく、選択するための手段と、周波数領域における複数のピークのうちの少なくとも2つのピークの位置に基づいて、高調波モデルの高調波間の間隔のNd個の候補を計算するための手段とを含む。本装置はまた、基本周波数候補と高調波間隔候補との複数の異なるペアの各々について、ターゲットオーディオ信号の少なくとも1つのサブバンドのセットを選択するための手段であって、セット中の各サブバンドの周波数領域における位置が候補のペアに基づく、選択するための手段と、候補の複数の異なるペアの各々について、ターゲットオーディオ信号の少なくとも1つのサブバンドの対応するセットからエネルギー値を計算するための手段とを含む。本装置はまた、少なくとも複数の計算されたエネルギー値に基づいて、候補の複数の異なるペアの中から候補のペアを選択するための手段を含む。
別の一般的構成によるオーディオ信号処理のための装置は、周波数領域において基準オーディオ信号中の複数のピークの位置を特定するように構成された周波数領域ピークロケータと、高調波モデルの基本周波数のNf個の候補を選択するように構成された基本周波数候補セレクタであって、Nf個の候補の各々が、周波数領域における複数のピークのうちの対応する1つのピークの位置に基づく、基本周波数候補セレクタと、周波数領域における複数のピークのうちの少なくとも2つのピークの位置に基づいて、高調波モデルの高調波間の間隔のNd個の候補を計算するように構成された距離計算器とを含む。本装置はまた、基本周波数候補と高調波間隔候補との複数の異なるペアの各々について、ターゲットオーディオ信号の少なくとも1つのサブバンドのセットを選択するように構成されたサブバンド配置セレクタであって、セット中の各サブバンドの周波数領域における位置が候補のペアに基づく、サブバンド配置セレクタと、候補の複数の異なるペアの各々について、ターゲットオーディオ信号の少なくとも1つのサブバンドの対応するセットからエネルギー値を計算するように構成されたエネルギー計算器とを含む。本装置はまた、少なくとも複数の計算されたエネルギー値に基づいて、候補の複数の異なるペアの中から候補のペアを選択するように構成された候補ペアセレクタを含む。
一般的構成による、オーディオ信号を処理する方法MA100のフローチャート。 タスクTA600の実装形態TA602のフローチャート。 ピーク選択ウィンドウの一例を示す図。 タスクT430の適用の一例を示す図。 方法MA100の実装形態MA110のフローチャート。 符号化された信号を復号する方法MD100のフローチャート。 高調波信号の一例と選択されたサブバンドの代替セットとのプロットを示す図。 タスクT400の実装形態T402のフローチャート。 方法MA100の実装形態に従って配置されたサブバンドのセットの一例を示す図。 ジッタ情報の欠如を補償する手法の一例を示す図。 残差信号の領域を拡大する一例を示す図。 残差信号の部分をいくつかのユニットパルスとして符号化する一例を示す図。 一般的構成による、オーディオ信号を処理する方法MB100のフローチャート。 方法MB100の実装形態MB110のフローチャート。 ターゲットオーディオ信号がUB−MDCT信号である例の、大きさ対周波数のプロットを示す図。 一般的構成による、オーディオ信号を処理するための装置MF100のブロック図。 一般的構成による、オーディオ信号を処理するための装置A100のブロック図。 装置MF100の実装形態MF110のブロック図。 装置A100の実装形態A110のブロック図。 一般的構成による、オーディオ信号を処理するための装置MF210のブロック図。 ターゲット信号を符号化することへの方法MB110の適用の一例を示す図。 ターゲット信号を符号化することへの方法MB110の適用の一例を示す図。 装置A110、MF110、またはMF210の一実装形態の適用範囲を示す図。 装置A110、MF110、またはMF210の一実装形態の適用範囲を示す図。 装置A110、MF110、またはMF210の一実装形態の適用範囲を示す図。 装置A110、MF110、またはMF210の一実装形態の適用範囲を示す図。 装置A110、MF110、またはMF210の一実装形態の適用範囲を示す図。 信号分類の方法MC100のブロック図。 通信デバイスD10のブロック図。 ハンドセットH100の正面図、背面図、および側面図。 方法MA100の適用の一例を示す図。
符号化されるべき信号内で有意なエネルギーの領域を識別することが望ましいことがある。そのような領域を信号の残部から分離することにより、コーディング効率を高めるための、これらの領域のターゲットコーディングが可能になる。たとえば、比較的より多くのビットを使用してそのような領域を符号化し、比較的より少ないビットを使用して(またはビットをまったく使用せずに)信号の他の領域を符号化することによって、コーディング効率を高めることが望ましいことがある。
高調波成分を有するオーディオ信号(たとえば、音楽信号、有声音声信号)では、周波数領域における有意なエネルギーの領域の位置が関係し得る。そのようなハーモニシティ(harmonicity)を活用することによって、オーディオ信号の効率的な変換領域コーディングを実行することが望ましいことがある。
信号のオーディオ周波数範囲を表す変換係数のセットをコーディングするための、本明細書で説明する方式は、高調波モデルを使用して、周波数領域における有意なエネルギーの領域の位置間の関係をパラメータ化することによって、信号スペクトルにわたるハーモニシティを活用する。この高調波モデルのパラメータは、(たとえば、周波数の増加する順に)これらの領域のうちの第1の領域の位置と、連続領域間の間隔とを含み得る。高調波モデルパラメータを推定することは、パラメータ値の候補セットのプールを発生することと、発生されたプールの中からモデルパラメータ値のセットを選択することとを含み得る。特定の適用例では、そのような方式を使用して、線形予測コーディング演算の残差など、(以降、ローバンドMDCT、またはLB−MDCTと呼ぶ)オーディオ信号の0〜4kHzの範囲に対応するMDCT変換係数を符号化する。
有意なエネルギーの領域の位置をそれらの成分から分離することにより、これらの領域の位置間の高調波関係の表現を、最小限のサイド情報(たとえば、高調波モデルのパラメータ値)を使用してデコーダに送信することが可能になる。そのような効率は、セルラーテレフォニーなどの低ビットレート適用例で特に重要であり得る。
それの文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置(またはメモリ位置のセット)の状態を含む、それの通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、それの通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書では、複数の値からの計算(computing)、評価、平滑化、および/または選択など、それの通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「取得(obtaining)」という用語は、計算(calculating)、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)検索など、それの通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「選択(selecting)」という用語は、2つ以上のセットのうちの少なくとも1つ、およびすべてよりも少数を識別、指示、適用、および/または使用することなど、それの通常の意味のいずれをも示すのに使用される。「備える(comprising)」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外しない。「に基づく」(「AはBに基づく」など)という用語は、(i)「から導出される」(たとえば、「BはAのプリカーサー(precursor)である」)、(ii)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(iii)「に等しい」(たとえば、「AはBに等しい」)という場合を含む、それの通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、それの通常の意味のいずれをも示すのに使用される。
別段に規定されていない限り、「一連」という用語は、2つ以上のアイテムのシーケンスを示すのに使用される。「対数」という用語は、10を底とする対数を示すのに使用されるが、他の底へのそのような演算の拡張は本開示の範囲内である。「周波数成分」という用語は、(たとえば、高速フーリエ変換によって生成される)信号の周波数領域表現のサンプル、あるいは信号のサブバンド(たとえば、バーク尺度またはメル尺度サブバンド)など、信号の周波数または周波数帯域のセットのうちの1つを示すのに使用される。
別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、それの特定の文脈によって示されるように、方法、装置、および/またはシステムに関して使用され得る。「方法」、「プロセス」、「プロシージャ」、および「技法」という用語は、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きい構成の一部分を示すのに使用される。それの文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、それの通常の意味のいずれをも示すのに使用される。また、文書の一部分の参照によるいかなる組込みも、その部分内で参照される用語または変数の定義が、その文書中の他の場所、ならびに組み込まれた部分中で参照される図に現れた場合、そのような定義を組み込んでいることを理解されたい。
本明細書で説明するシステム、方法、および装置は、概して、周波数領域におけるオーディオ信号の表現をコーディングすることに適用可能である。そのような表現の典型的な例は、変換領域における一連の変換係数である。好適な変換の例には、正弦ユニタリー変換(sinusoidal unitary transform)などの離散直交変換がある。好適な正弦波ユニタリー変換の例には、限定はしないが、離散コサイン変換(DCT)、離散サイン変換(DST)、および離散フーリエ変換(DFT)を含む、離散三角変換がある。好適な変換の他の例には、そのような変換の重複バージョンがある。好適な変換の特定の例は、上記で紹介した修正DCT(MDCT)である。
本開示全体にわたって、オーディオ周波数範囲の「ローバンド」および「ハイバンド」(すなわち、「上側帯域」)に言及し、0〜4キロヘルツ(kHz)のローバンドおよび3.5〜7kHzのハイバンドの特定の例に言及する。本明細書で説明する原理は、そのような限定が明記されていない限り、いかなる形でもこの特定の例に限定されないことに明確に留意されたい。符号化、復号、割振り、量子化、および/または他の処理のこれらの原理の適用が明確に企図され、本明細書によって開示される、周波数範囲の(やはり限定はしないが)他の例は、0、25、50、100、150、および200Hzのいずれかに下限を有し、3000、3500、4000、および4500Hzのいずれかに上限を有するローバンドと、3000、3500、4000、4500、および5000Hzのいずれかに下限を有し、6000、6500、7000、7500、8000、8500、および9000Hzのいずれかに上限を有するハイバンドとを含む。3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、および9000Hzのいずれかに下限を有し、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、および16kHzのいずれかに上限を有するハイバンドへの(やはり限定はしないが)そのような原理の適用も、明確に企図され、本明細書によって開示される。また、ハイバンド信号は、一般に、(たとえば、リサンプリングおよび/またはデシメーションを介して)コーディングプロセスの早期の段階でより低いサンプリングレートに変換されるが、ハイバンド信号はハイバンド信号のままであり、ハイバンド信号が搬送する情報はハイバンドオーディオ周波数範囲を表し続けることに明確に留意されたい。周波数においてローバンドとハイバンドとが重複する場合、ローバンドの重複部分をゼロアウトすること、ハイバンドの重複部分をゼロアウトすること、または重複部分にわたってローバンドからハイバンドにクロスフェードすることが望ましいことがある。
本明細書で説明するコーディング方式は、(たとえば、音声を含む)任意のオーディオ信号をコーディングするために適用され得る。代替的に、そのようなコーディング方式を非音声オーディオ(たとえば、音楽)のためにのみ使用することが望ましいことがある。そのような場合、コーディング方式を分類方式とともに使用して、オーディオ信号の各フレームの成分のタイプを判断し、好適なコーディング方式を選択し得る。
本明細書で説明するコーディング方式は、1次コーデックとして、あるいはマルチレイヤまたはマルチステージコーデックにおけるレイヤまたはステージとして使用され得る。1つのそのような例では、そのようなコーディング方式は、オーディオ信号の周波数成分のある部分(たとえば、ローバンドまたはハイバンド)をコーディングするために使用され、別のコーディング方式が、信号の周波数成分の別の部分をコーディングするために使用される。別のそのような例では、そのようなコーディング方式は、別のコーディングレイヤの残差(すなわち、原信号と符号化された信号との間の誤差)をコーディングするために使用される。
図1Aに、タスクTA100、TA200、TA300、TA400、TA500、およびTA600を含む、一般的構成による、オーディオ信号を処理する方法MA100のフローチャートを示す。方法MA100は、(たとえば、各セグメントについて、タスクTA100、TA200、TA300、TA400、TA500、およびTA600の各々のインスタンスを実行することによって)オーディオ信号を一連のセグメントとして処理するように構成され得る。セグメント(または「フレーム」)は、一般に、約5または10ミリ秒〜約40または50ミリ秒の範囲内の長さをもつ時間領域セグメントに対応する変換係数のブロックであり得る。時間領域セグメントは、重複する(たとえば、隣接するセグメントと25%または50%だけ重複する)ことも重複しないこともある。
オーディオコーダでは高品質と低遅延の両方を得ることが望ましいことがある。オーディオコーダは、高品質を得るために大きいフレームサイズを使用し得るが、残念ながら、大きいフレームサイズは、一般に、より長い遅延を生じる。本明細書で説明するオーディオエンコーダの潜在的な利点は、短いフレームサイズ(たとえば、10ミリ秒の先読みをもつ20ミリ秒のフレームサイズ)を用いた高品質コーディングを含む。1つの特定の例では、時間領域信号が、一連の20ミリ秒の重複しないセグメントに分割され、隣接するフレームの各々が10ミリ秒だけ重複する40ミリ秒のウィンドウにわたって各フレームに対するMDCTが行われる。
方法MA100によって処理されるセグメントはまた、変換によって生成されるブロックの部分(たとえば、ローバンドまたはハイバンド)、またはそのようなブロックに対する前の動作によって生成されたブロックの部分であり得る。1つの特定の例では、方法MA100によって処理される一連のセグメントの各々は、0〜4kHzのローバンド周波数範囲を表す160個のMDCT係数のセットを含んでいる。別の特定の例では、方法MA100によって処理される一連のセグメントの各々は、3.5〜7kHzのハイバンド周波数範囲を表す140個のMDCT係数のセットを含んでいる。
タスクTA100は、周波数領域においてオーディオ信号中の複数のピークの位置を特定する。そのような動作は「ピークピッキング」と呼ばれることもある。タスクTA100は、信号の周波数範囲全体から特定の数の最高ピークを選択するように構成され得る。代替的に、タスクTA100は、信号の指定された周波数範囲(たとえば、低周波数範囲)からピークを選択するように構成され得るか、または信号の異なる周波数範囲において異なる選択基準を適用するように構成され得る。本明細書で説明する特定の例では、タスクTA100は、フレームの低周波数範囲内の少なくとも第2の数Nf個の最高ピークを含む、フレーム中の少なくとも第1の数(Nd+1個)の最高ピークの位置を特定するように構成される。
タスクTA100は、サンプルの両側までのある最小距離内で最大値を有する(「ビン」とも呼ばれる)周波数領域信号のサンプルとしてピークを識別するように構成され得る。1つのそのような例では、タスクTA100は、そのサンプルを中心とする、サイズ(2dmin+1)のウィンドウ内で最大値を有するサンプルとしてピークを識別するように構成され、dminはピーク間の最小許容間隔である。dminの値は、位置を特定されるべき(「サブバンド」とも呼ばれる)有意なエネルギーの領域の所望の最大数に従って選択され得る。dminの例には、8、9、10、12、15サンプル(代替的に、100、125、150、175、200、または250Hz)があるが、所望の適用例に好適な任意の値が使用され得る。図2Aに、dminの値が8である場合の、信号の潜在的なピーク位置を中心とする、サイズ(2dmin+1)のピーク選択ウィンドウの一例を示す。
タスクTA100によって位置を特定されたピークのうちの少なくともいくつか(すなわち、少なくとも3つ)のピークの周波数領域位置に基づいて、タスクTA200は、(「距離」またはd候補とも呼ばれる)Nd個の高調波間隔候補を計算する。Ndの値の例には、5、6、および7がある。タスクTA200は、タスクTA100によって位置を特定された(Nd+1)個の最大ピークのうちの隣接するピーク間の(たとえば、周波数ビンの数で表される)距離として、これらの間隔候補を計算するように構成され得る。
タスクTA100によって位置を特定されたピークのうちの少なくともいくつか(すなわち、少なくとも2つ)のピークの周波数領域位置に基づいて、タスクTA300は、(「基本周波数」またはF0候補とも呼ばれる)第1のサブバンドの位置のNf個の候補を識別する。Nfの値の例には、5、6、および7がある。タスクTA300は、信号中のNf個の最高ピークの位置として、これらの候補を識別するように構成され得る。代替的に、タスクTA300は、検査されている周波数範囲の低周波数部分(たとえば、より低いほうの30、35、40、45、または50パーセント)中のNf個の最高ピークの位置として、これらの候補を識別するように構成され得る。1つのそのような例では、タスクTA300は、0〜1250Hzの範囲内でタスクTA100によって位置を特定されたピークの位置の中からNf個のF0候補を識別する。別のそのような例では、タスクTA300は、0〜1600Hzの範囲内でタスクTA100によって位置を特定されたピークの位置の中からNf個のF0候補を識別する。
方法MA100の説明する実装形態の範囲は、(たとえば、2つの最大ピーク間の距離、または指定された周波数範囲内の2つの最大ピーク間の距離として)ただ1つの高調波間隔候補が計算される場合と、(たとえば、最高ピークの位置、または指定された周波数範囲内の最高ピークの位置として)ただ1つのF0候補が識別される別の場合とを含むことを明確に留意されたい。
F0候補とd候補との複数のアクティブペアの各々について、タスクTA400は、オーディオ信号の少なくとも1つのサブバンドのセットを選択し、セット中の各サブバンドの周波数領域における位置は(F0,d)ペアに基づく。一例では、タスクTA400は、第1のサブバンドが、対応するF0位置を中心とし、各後続のサブバンドの中心が、dの対応する値に等しい距離だけ前のサブバンドの中心から離れているように、各セットのサブバンドを選択するように構成される。
タスクTA400は、入力範囲内にある、対応する(F0,d)ペアによって示されるサブバンドのすべてを含むように各セットを選択するように構成され得る。代替的に、タスクTA400は、セットのうちの少なくとも1つについて、これらのサブバンドのすべてよりも少ないサブバンドを選択するように構成され得る。タスクTA400は、たとえば、セットについて最大数以下のサブバンドを選択するように構成され得る。代替または追加として、タスクTA400は、特定の範囲内にあるサブバンドのみを選択するように構成され得る。より低い周波数のサブバンドは、知覚的により重要である傾向があるので、たとえば、入力範囲内の1つまたは複数の特定の数(たとえば、4つ、5つ、または6つ)以下の最低周波数サブバンド、および/またはその位置が入力範囲内の特定の周波数(たとえば、1000、1500、または2000Hz)を超えないサブバンドのみを選択するようにタスクTA400を構成することが望ましいことがある。
タスクTA400は、一定で等しい長さのサブバンドを選択するように実装され得る。特定の例では、各サブバンドは、7つの周波数ビン(たとえば、25Hzのビン間隔の場合、175Hz)の幅を有する。ただし、本明細書で説明する原理は、サブバンドの長さがフレームごとに変動し得る場合、および/またはフレーム内のサブバンドの2つ以上(場合によってはすべて)の長さが異なり得る場合にも適用され得ることが明確に企図され、本明細書によって開示される。
一例では、F0とdの値の異なるペアのすべてがアクティブであると見なされるので、タスクTA400は、あらゆる可能な(F0,d)ペアについて1つまたは複数のサブバンドの対応するセットを選択するように構成される。NfとNdが両方とも7に等しい場合、たとえば、タスクTA400は、49個の可能なペアの各々を考慮するように構成され得る。Nfが5に等しく、Ndが6に等しい場合、タスクTA400は、30個の可能なペアの各々を考慮するように構成され得る。代替的に、タスクTA400は、可能な(F0,d)ペアの一部が満たすことができない可能性がある、アクティビティのための基準を課するように構成され得る。そのような場合、たとえば、タスクTA400は、最大許容数よりも多いサブバンドを生成するであろうペア(たとえば、F0とdの低い値の組合せ)、および/または所望の最小数よりも少ないサブバンドを生成するであろうペア(たとえば、F0とdの高い値の組合せ)を無視するように構成され得る。
F0候補とd候補との複数のペアの各々について、タスクTA500は、オーディオ信号の1つまたは複数のサブバンドの対応するセットから少なくとも1つのエネルギー値を計算する。1つのそのような例では、タスクTA500は、サブバンドのセットの総エネルギーとして(たとえば、サブバンド中の周波数領域サンプル値の2乗の大きさの合計として)、1つまたは複数のサブバンドの各セットからエネルギー値を計算する。代替または追加として、タスクTA500は、各個々のサブバンドのエネルギーとして、サブバンドの各セットからエネルギー値を計算し、および/またはサブバンドのセットについての、サブバンド当たりの平均エネルギー(たとえば、サブバンドの数にわたって正規化された総エネルギー)として、サブバンドの各セットからエネルギー値を計算するように構成され得る。タスクTA500は、タスクTA400と同じ複数のペアの各々について、またはこの複数のペアよりも少ないペアについて実行するように構成され得る。タスクTA400が、各可能な(F0,d)ペアのためのサブバンドのセットを選択するように構成された場合、たとえば、タスクTA500は、アクティビティのための指定された基準を満たすペアについてのみエネルギー値を計算する(たとえば、上記で説明したように、多すぎるサブバンドを生成するであろうペア、および/または少なすぎるサブバンドを生成するであろうペアを無視する)ように構成され得る。別の例では、タスクTA400は、多すぎるサブバンドを生成するであろうペアを無視するように構成され、タスクTA500は、同じく、少なすぎるサブバンドを生成するであろうペアを無視するように構成される。
図1Aは、タスクTA400およびTA500の連続した実行を示しているが、タスクTA500はまた、タスクTA400が完了する前にサブバンドのセットのエネルギーを計算し始めるように実装され得ることを理解されよう。たとえば、タスクTA500は、タスクTA400がサブバンドの次のセットを選択し始める前に、サブバンドのセットからエネルギー値を計算し始め(さらには計算し終える)ように実装され得る。1つのそのような例では、タスクTA400およびTA500は、F0候補とd候補との複数のアクティブペアの各々について交互に行うように構成される。同様に、タスクTA400も、タスクTA200およびTA300が完了する前に実行を開始するように実装され得る。
1つまたは複数のサブバンドのセットの少なくともいくつかから計算されたエネルギー値に基づいて、タスクTA600は、(F0,d)候補ペアの中から候補ペアを選択する。一例では、タスクTA600は、最高総エネルギーを有するサブバンドのセットに対応するペアを選択する。別の例では、タスクTA600は、サブバンド当たりの最高平均エネルギーを有するサブバンドのセットに対応する候補ペアを選択する。
図1Bに、タスクTA600のさらなる実装形態TA602のフローチャートを示す。タスクTA620は、(たとえば、降順で)サブバンドの対応するセットのサブバンド当たりの平均エネルギーに従って複数のアクティブ候補ペアをソートするタスクTA610を含む。この動作は、高い総エネルギーを有するが、1つまたは複数のサブバンドが、知覚的に有意であるには少なすぎるエネルギーを有し得るサブバンドセットを生成する候補ペアの選択を抑止するのを助ける。そのような状態はサブバンドの過大な数を示し得る。
タスクTA602はまた、サブバンド当たりの最高平均エネルギーを有するサブバンドセットを生成するPv個の候補ペアの中から、最も多い総エネルギーを獲得するサブバンドセットに関連する候補ペアを選択するタスクTA620を含む。この動作は、サブバンド当たりの高い平均エネルギーを有するが、サブバンドの数が少なすぎるサブバンドセットを生成する候補ペアの選択を抑止するのを助ける。そのような状態は、より低いエネルギーを有するが、依然として知覚的に有意であり得る信号の領域をサブバンドのセットが含むことができないことを示し得る。
タスクTA620は、4、5、6、7、8、9、または10など、Pvの固定値を使用するように構成され得る。代替的に、タスクTA620は、アクティブ候補ペアの総数に関係する(たとえば、アクティブ候補ペアの総数の10、20、または25パーセント以下の)Pvの値を使用するように構成され得る。
F0とdの選択された値は、整数値であるモデルサイド情報を備え、有限数のビットを使用してデコーダに送信され得る。図3に、タスクTA700を含む方法MA100の実装形態MA110のフローチャートを示す。タスクTA700は、選択された候補ペアの値の指示を含む符号化された信号を生成する。タスクTA700は、F0の選択された値を符号化するか、または最小(または最大)位置からの、F0の選択された値のオフセットを符号化するように構成され得る。同様に、タスクTA700は、dの選択された値を符号化するか、あるいは最小または最大距離からの、dの選択された値のオフセットを符号化するように構成され得る。特定の例では、タスクTA700は、選択されたF0値を符号化するために6ビットを使用し、選択されたd値を符号化するために6ビットを使用する。さらなる例では、タスクTA700は、(たとえば、パラメータの前の値に対するオフセットとして)F0および/またはdの現在値を差分的に符号化するように実装され得る。
ベクトル量子化(VQ)コーディング方式を使用して、選択された候補ペアによって識別される有意なエネルギーの領域の成分(すなわち、サブバンドの選択されたセットの各々内の値)をベクトルとして符号化するようにタスクTA700を実装することが望ましいことがある。VQ方式は、ベクトルを(デコーダにも知られている)1つまたは複数のコードブックの各々中のエントリと照合し、これらのエントリの1つまたは複数のインデックスを使用してベクトルを表すことによって、ベクトルを符号化する。コードブック中のエントリの最大数を決定するコードブックインデックスの長さは、適用例に好適であると見なされる任意の整数であり得る。
好適なVQ方式の1つの例は、利得形状VQ(GSVQ:gain-shape VQ)であり、各サブバンドの成分は、(たとえば、周波数軸に沿ってサブバンドの形状を表す)正規化形状ベクトルと、対応する利得係数(gain factor)とが別々に量子化されるように、形状ベクトルと利得係数とに分解される。形状ベクトルの符号化に割り振られるビット数は、様々なサブバンドの形状ベクトルの間で一様に分配され得る。代替的に、他のサブバンドの形状ベクトルの利得係数と比較して、対応する利得係数が相対的に高い値を有する形状ベクトルなど、他の形状ベクトルよりも多くのエネルギーを獲得する形状ベクトルの符号化に、利用可能なビットのより多くを割り振ることが望ましいことがある。
サブバンドの各セットの利得係数が、互いに独立して、前のフレームの対応する利得係数に対して差分的に符号化されるような予測利得コーディングを含むGSVQ方式を使用することが望ましいことがある。特定の例では、方法MA110は、LB−MDCTスペクトルの周波数範囲内の有意なエネルギーの領域を符号化するように構成される。
図3Bに、タスクTD100、TD200、およびTD300を含む、(たとえば、タスクTA700によって生成された)符号化された信号を復号する、対応する方法MD100のフローチャートを示す。タスクTD100は符号化された信号からF0とdの値を復号し、タスクTD200はサブバンドのセットを逆量子化する。タスクTD300は、F0とdの復号された値に基づいて、各逆量子化されたサブバンドを周波数領域に配置することによって、復号された信号を構築する。たとえば、タスクTD300は、周波数領域位置F0+mdに各サブバンドmをセンタリングすることによって、復号された信号を構築するように実装され得、0≦m<Mであり、Mは、選択されたセット中のサブバンドの数である。タスクTD300は、復号された信号の占有されていないビンに0値を割り当てるように構成され得るか、または代替的に、本明細書で説明するように、復号された信号の占有されていないビンに復号された残差の値を割り当てるように構成され得る。
高調波コーディングモードでは、適切な位置に領域を配置することが効率的なコーディングのために重要であり得る。最小数のサブバンドを使用して所与の周波数範囲内で最大量のエネルギーを獲得するようにコーディング方式を構成することが望ましいことがある。
図4に、MDCT領域における高調波信号の一例の、絶対変換係数値対周波数ビンインデックスのプロットを示す。図4はまた、この信号のサブバンドの2つの可能なセットの周波数領域位置を示している。サブバンドの第1のセットの位置は、灰色で描かれ、またx軸の下の括弧によって示される、均一に離間したブロックによって示されている。このセットは、方法MA100によって選択される(F0,d)候補ペアに対応する。この例では、信号中のピークの位置は規則的に見えるが、それらは、高調波モデルのサブバンドの均一間隔に正確には準拠しないことがわかり得る。事実上、この場合、モデルは、信号の最高ピークをほとんど逃している。したがって、最良(F0,d)候補ペアに従って厳密に構成されたモデルでも、信号ピークのうちの1つまたは複数においてエネルギーの一部を獲得することができない可能性があることが予想され得る。
高調波モデルを緩和することによってオーディオ信号における非一様性に適応するように方法MA100を実装することが望ましいことがある。たとえば、セットの高調波的に関係するサブバンド(すなわち、F0、F0+d、F0+2dなどに位置するサブバンド)のうちの1つまたは複数が各方向に有限数のビンだけシフトすることを可能にすることが望ましいことがある。そのような場合、サブバンドの1つまたは複数の位置が、(F0,d)ペアによって示される位置から少量だけそれること(シフトまたは「ジッタ」とも呼ばれる)を可能にするようにタスクTA400を実装することが望ましいことがある。そのようなシフトの値は、得られるサブバンドがピークのエネルギーのより多くを獲得するように選択され得る。
サブバンドに対して許容されるジッタの量の例には、サブバンド幅の25、30、40、および50パーセントがある。周波数軸の各方向において許容されるジッタの量は等しくなくてもよい。特定の例では、各7ビンサブバンドは、現在の(F0,d)候補ペアによって示される、周波数軸に沿ったそれの初期位置を、最高4つの周波数ビンだけ高くまたは最高3つの周波数ビンだけ低くシフトすることが可能である。この例では、サブバンドの選択されたジッタ値は、3ビットで表され得る。また、許容ジッタ値の範囲は、F0および/またはdの関数であることが可能である。
サブバンドのシフト値は、最も多いエネルギーを獲得するようにサブバンドを配置する値として判断され得る。代替的に、サブバンドのシフト値は、サブバンド内の最大サンプル値をセンタリングする値として判断され得る。図4における、黒い線のブロックによって示される緩和サブバンド位置は、(左から右に2番目および最後のピークに関して最も明らかに示されるように)そのようなピークセンタリング基準に従って配置されることがわかり得る。ピークセンタリング基準により、サブバンドの形状の間に生じる差異が小さくなる傾向があり、これはGSVQコーディングの向上につながり得る。最大エネルギー基準は、たとえば、センタリングされない形状を生成することによって、形状の間のエントロピーを増加させ得る。さらなる一例では、サブバンドのシフト値は、これらの基準の両方を使用して判断される。
図5に、緩和高調波モデルに従ってサブバンドセットを選択するタスクTA400の実装形態TA402のフローチャートを示す。タスクTA402は、タスクTA410、TA420、TA430、TA440、TA450、TA460、およびTA470を含む。この例では、タスクTA402は、アクティブ候補ペアごとに1回実行し、(たとえば、タスクTA100によって位置を特定された)周波数範囲内のピークの位置のソートされたリストにアクセスできるように構成される。ピーク位置のリストの長さは、少なくとも、ターゲットフレームのためのサブバンドの最大許容数と同じ長さ(たとえば、140または160サンプルのフレームサイズの場合、フレーム当たり8、10、12、14、16、または18ピーク)であることが望ましいことがある。
ループ初期化タスクTA410は、ループカウンタiの値を最小値(たとえば、1)に設定する。タスクTA420は、リスト中のi番目の最高ピークが利用可能である(すなわち、まだアクティブサブバンド中にない)かどうかを判断する。i番目の最高ピークが利用可能である場合、タスクTA430は、許容ジッタ範囲によって緩和された、現在の(F0,d)候補ペアによって示される位置(すなわち、F0、F0+d、F0+2dなど)に従って、いずれかの非アクティブサブバンドがピークの位置を含むように配置され得るかどうかを判断する。このコンテキストでは、「アクティブサブバンド」は、前に配置されたいずれのサブバンドとも重複することなしにすでに配置され、しきい値Tよりも大きい(代替的に、しきい値T以上の)エネルギーを有するサブバンドであり、Tは、アクティブサブバンド中の最大エネルギーの関数(たとえば、このフレームに対してこれまでに配置された最高エネルギーアクティブサブバンドのエネルギーの15、20、25、または30パーセント)である。非アクティブサブバンドは、アクティブでない(すなわち、まだ配置されていないか、配置されているが、別のサブバンドと重複するか、または不十分なエネルギーを有する)サブバンドである。タスクTA430が、ピークのために配置され得る非アクティブサブバンドを見つけることができない場合、(もしあれば)リスト中の次の最高ピークを処理するために、ループ増分タスクTA440を介してタスクTA410に制御が戻る。
位置(F0+j*d)にあるサブバンドがi番目のピークを含むように配置され得る、整数jの2つの値が存在し(たとえば、ピークが2つの位置間にあり)、jのこれらの値のいずれも、まだアクティブサブバンドに関連付けられていないことが起こり得る。そのような場合、これらの2つのサブバンドの中から選択するようにタスクTA430を実装することが望ましいことがある。タスクTA430は、たとえば、場合によっては、より低いエネルギーを有するであろうサブバンドを選択するように実装され得る。そのような場合、タスクTA430は、ピークを除外し、いずれのアクティブサブバンドとも重複しないという制約を条件として、2つのサブバンドの各々を配置するように実装され得る。これらの制約内で、タスクT430は、最高可能サンプルに各サブバンドをセンタリングする(代替的に、最大可能エネルギーを獲得するように各サブバンドを配置する)ことと、2つのサブバンドの各々において得られるエネルギーを計算することと、ピークを含むように(たとえば、タスクTA450によって)配置されるべきサブバンドとして、最低エネルギーを有するサブバンドを選択することとを行うように実装され得る。そのような手法は、最終的なサブバンド位置において結合エネルギーを最大にするのを助け得る。
図2Bに、タスクTA430の適用の一例を示す。この例では、周波数軸の中央のドットはi番目のピークの位置を示し、太い括弧は既存のアクティブサブバンドの位置を示し、サブバンド幅は7サンプルであり、許容ジッタ範囲は(+5,−4)である。また、i番目のピークの左隣接位置[F0+kd]および右隣接位置[F0+(k+1)d]と、これらの位置の各々のための許容サブバンド配置の範囲とが示されている。上記で説明したように、タスクTA430は、ピークを除外し、いずれのアクティブサブバンドとも重複しないように、各サブバンドのための配置の許容範囲を制約する。図2Bに示されている各制約付き範囲内で、タスクTA430は、最高可能サンプルにセンタリングされるように(または、代替的に、最大可能エネルギーを獲得するように)対応するサブバンドを配置し、i番目のピークを含むように配置されるべきサブバンドとして、最低エネルギーを有する得られたサブバンドを選択する。
タスクTA450は、タスクTA430によって与えられたサブバンドを配置し、サブバンドをアクティブまたは非アクティブと適宜にマークする。タスクTA450は、(たとえば、サブバンドのための許容ジッタ範囲を低減することによって)サブバンドがいずれの既存のアクティブサブバンドとも重複しないようにサブバンドを配置するように構成され得る。タスクTA450はまた、i番目のピークがサブバンド内で(すなわち、ジッタ範囲および/または重複基準によって許される範囲で)センタリングされるようにサブバンドを配置するように構成され得る。
タスクTA460は、それ以外のサブバンドが現在のアクティブ候補ペアに対して残っている場合、ループ増分タスクTA440を介してタスクTA420に制御を戻す。同様に、タスクTA430は、i番目のピークのために配置され得る非アクティブサブバンドを見つけることができないときに、ループ増分タスクTA440を介してタスクTA420に制御を戻す。
タスクTA420がいずれのiの値についても失敗した場合、タスクTA470は、現在のアクティブ候補ペアのための残りのサブバンドを配置する。タスクTA470は、最高サンプル値がサブバンド内で(すなわち、ジッタ範囲によって許される範囲で、および/またはサブバンドがいずれの既存のアクティブサブバンドとも重複しないように)センタリングされるように各サブバンドを配置するように構成され得る。たとえば、タスクTA470は、現在のアクティブ候補ペアのための残りのサブバンドの各々についてタスクTA450のインスタンスを実行するように構成され得る。
この例では、タスクTA402はまた、サブバンドをプルーニングする随意のタスクTA480を含む。タスクTA480は、エネルギーしきい値(たとえば、T)を満たさないサブバンドを拒否すること、および/またはより高いエネルギーを有する別のサブバンドと重複するサブバンドを拒否することを行うように構成され得る。
図6に、MDCT領域に示される高調波信号の0〜3.5kHzの範囲のための、タスクTA402およびTA602を含む方法MA100の実装形態に従って配置された、サブバンドのセットの一例を示す。この例では、y軸は絶対MDCT値を示し、サブバンドは、xまたは周波数ビン軸の近くのブロックによって示されている。
タスクTA700は、(たとえば、デコーダへの送信のために)選択されたジッタ値を符号化された信号にパックするように実装され得る。しかしながら、タスクTA400において(たとえば、タスクTA402として)緩和高調波モデルを適用するとともに、符号化された信号からジッタ値を省略するようにタスクTA700の対応するインスタンスを実装することも可能である。ジッタを送信するために利用可能であるビットがない低ビットレートの場合でも、たとえば、信号エネルギーのより多くを符号化することによって得られる知覚利益は、補正されてないジッタによって生じる知覚誤差を上回ることが予想され得るので、エンコーダにおいて緩和モデルを適用することが依然として望ましいことがある。そのような適用の一例は、音楽信号の低ビットレートコーディングに関する。
いくつかの適用例では、符号化された信号は、高調波モデルによって選択されたサブバンドのみを含めば十分であり得るので、エンコーダは、モデル化されたサブバンドの外側にある信号エネルギーを廃棄する。他の場合には、符号化された信号は、高調波モデルによって獲得されないような信号情報をも含むことが望ましいことがある。
1つの手法では、エンコーダにおいて、元の入力スペクトルから、再構築された高調波モデルサブバンドを減算することによって、(残差信号とも呼ばれる)コーディングされていない情報の表現が計算される。そのような方法で計算された残差は、一般に、入力信号と同じ長さを有する。
信号を符号化するために緩和高調波モデルが使用される場合、サブバンドの位置をシフトするために使用されたジッタ値は、デコーダにおいて利用可能であることも利用可能でないこともある。ジッタ値がデコーダにおいて利用可能である場合、復号されたサブバンドは、デコーダにおいてエンコーダのときと同じ位置に配置され得る。ジッタ値がデコーダにおいて利用可能でない場合、選択されたサブバンドは、選択された(F0,d)ペアによって示される均一間隔に従ってデコーダにおいて配置され得る。しかしながら、原信号から再構築された信号を減算することによって残差信号が計算された場合、ジッタなしサブバンドは、もはや残差信号に位相整合されず、再構築された信号をそのような残差信号に追加することは、弱め合う干渉を生じ得る。
代替手法は、高調波モデルによって獲得されなかった入力信号スペクトルの領域(たとえば、選択されたサブバンド中に含まれなかったビン)の連結として残差信号を計算することである。そのような手法は、ジッタパラメータ値がデコーダに送信されないコーディング適用例に特に望ましいことがある。そのような方法で計算された残差は、入力信号の長さよりも短く、(たとえば、フレーム中のサブバンドの数に応じて)フレームごとに変動し得る長さを有する。図19に、そのような残差の領域が標示されている、オーディオ信号フレームの3.5〜7kHz帯域に対応するMDCT係数を符号化するための方法MA100の適用の一例を示す。本明細書で説明するように、パルスコーディング方式(たとえば、階乗パルスコーディング(factorial pulse coding))を使用して、そのような残差を符号化することが望ましいことがある。
ジッタパラメータ値がデコーダにおいて利用可能でない場合、残差信号は、いくつかの異なる方法のうちの1つを使用して、復号されたサブバンド間に挿入され得る。復号の1つのそのような方法は、ジッタなしの再構築された信号に残差信号を追加する前に、残差信号中の各ジッタ範囲をゼロアウトすることである。上述のようにジッタ範囲(+4,−3)の場合、たとえば、そのような方法は、(F0,d)ペアによって示されるサブバンドの各々について、右側に4つのビンから左側に3つのビンまでの残差信号のサンプルをゼロ化することを含むであろう。そのような手法は、残差とジッタなしサブバンドとの間の干渉を除去し得るが、それはまた、有意であり得る情報の損失を生じる。
復号の別の方法は、ジッタなしの再構築された信号によって占有されていないビン(たとえば、ジッタなしの再構築されたサブバンドの前、後、および間のビン)を埋めるように残差を挿入することである。そのような手法は、再構築されたサブバンドのジッタなし配置に適応するように、残差のエネルギーを効果的に移動する。図7に、同じ水平方向周波数ビンスケールに対してすべてが垂直方向に整合されている、3つの振幅対周波数プロットA〜Cを用いて、そのような手法の一例を示す。プロットAは、選択されたサブバンドの元のジッタあり配置(点線内の塗りつぶしのドット)と、周囲の残差のいくつか(白抜きのドット)とを含む、信号スペクトルの一部分を示している。ジッタなしサブバンドの配置を示すプロットBでは、サブバンドの最初の2つのビンが、エネルギーを含んでいる元の残差の一連のサンプル(プロットAにおいて丸で囲まれたサンプル)と現在重複することがわかり得る。プロットCは、連結された残差を使用して、周波数の増加する順に占有されていないビンを埋めて、この一連の残差のサンプルをジッタなしサブバンドの反対側に配置する例を示している。
復号のさらなる方法は、ジッタなしサブバンドと残差信号との間の境界においてMDCTスペクトルの連続性が維持されるような形で残差を挿入することである。たとえば、そのような方法は、いずれかまたは両方の端部における重複を回避するために、2つのジッタなしサブバンド間にある(あるいは、第1のサブバンドの前にまたは最後のサブバンドの後にある)残差の領域を圧縮することを含み得る。そのような圧縮は、たとえば、サブバンド間(またはサブバンドと範囲境界との間)のエリアを占有するように領域を周波数ワーピングすることによって実行され得る。同様に、そのような方法は、いずれかまたは両方の端部におけるギャップを埋めるために、2つのジッタなしサブバンド間にある(あるいは、第1のサブバンドの前にまたは最後のサブバンドの後にある)残差の領域を拡大することを含み得る。図8に、振幅対周波数プロットAにおける破線間の残差の部分が、振幅対周波数プロットBに示されているジッタなしサブバンド間のギャップを埋めるために拡大される(たとえば、線形補間される)ような例を示す。
残差信号をコーディングするために、ベクトルをユニットパルスのパターンと照合し、そのパターンを識別するインデックスを使用してベクトルを表すことによってベクトルを符号化する、パルスコーディング方式を使用することが望ましいことがある。そのような方式は、たとえば、残差信号中のユニットパルスの数と位置と符号とを符号化するように構成され得る。図9に、残差信号の部分がいくつかのユニットパルスとして符号化されるような方法の例を示す。この例では、各次元における値が実線によって示される30次元ベクトルが、(パルス位置にある)ドットと(0値の位置にある)正方形とによって示されるように、パルスのパターン(0,0,−1,−1,+1,+2,−1,0,0,+1,−1,−1,+1,−1,+1,−1,−1,+2,−1,0,0,0,0,−1,+1,+1,0,0,0,0)によって表されている。
特定の数のユニットパルスの位置および符号は、コードブックインデックスとして表され得る。たとえば、図9に示されているパルスのパターンは、一般に、長さが30ビットよりもはるかに短いコードブックインデックスによって表され得る。パルスコーディング方式の例には、階乗パルスコーディング方式および組合せパルスコーディング(combinatorial-pulse-coding)方式がある。
同じ信号の異なる周波数帯域を別々にコーディングするようにオーディオコーデックを構成することが望ましいことがある。たとえば、オーディオ信号のローバンド部分を符号化する第1の符号化された信号と、同じオーディオ信号のハイバンド部分を符号化する第2の符号化された信号とを生成するように、そのようなコーデックを構成することが望ましいことがある。そのようなスプリットバンドコーディングが望ましいことがある適用例には、狭帯域復号システムとの互換性を保たなければならない広帯域符号化システムがある。そのような適用例には、異なる周波数帯域に対する異なるコーディング方式の使用をサポートすることによって、様々な異なるタイプのオーディオ入力信号(たとえば、音声と音楽の両方)の効率的なコーディングを達成する汎用オーディオコーディング方式もある。
信号の異なる周波数帯域が別々に符号化される場合、場合によっては、別の帯域からの符号化された(たとえば、量子化された)情報はデコーダにおいてすでに知られているので、この符号化された情報を使用することによって、ある帯域におけるコーディング効率を高めることが可能であり得る。たとえば、本明細書で説明する高調波モデル(たとえば、緩和高調波モデル)を適用する原理は、(「基準」信号とも呼ばれる)オーディオ信号フレームの第1の帯域の変換係数の復号された表現からの情報を使用して、(「ターゲット」信号とも呼ばれる)同じオーディオ信号フレームの第2の帯域の変換係数を符号化するように拡張され得る。高調波モデルが関係するような場合、第1の帯域の復号された表現はデコーダにおいてすでに利用可能であるので、コーディング効率が高まり得る。
そのような拡張された方法は、コーディングされた第1の帯域に高調波的に関係する第2の帯域のサブバンドを判断することを含み得る。オーディオ信号(たとえば、複雑な音楽信号)のための低ビットレートコーディングアルゴリズムでは、信号のフレームを複数の帯域(たとえば、ローバンドとハイバンド)に分割し、これらの帯域間の相関を活用して帯域の変換領域表現を効率的にコーディングすることが望ましいことがある。
そのような拡張の特定の例では、(以降、上側帯域MDCTまたはUB−MDCTと呼ぶ)オーディオ信号フレームの3.5〜7kHz帯域に対応するMDCT係数は、フレームの量子化されたローバンドMDCTスペクトル(0〜4kHz)に基づいて符号化される。そのような拡張の他の例では、2つの周波数範囲は重複する必要がなく、さらには離れていてもよい(たとえば、0〜4kHz帯域の復号された表現からの情報に基づいて、フレームの7〜14kHz帯域をコーディングする)ことに明確に留意されたい。コーディングされたローバンドMDCTは、UB−MDCTをコーディングするための基準として使用されるので、ハイバンドコーディングモデルの多くのパラメータは、それらの送信を明示的に必要とすることなしにデコーダにおいて導出され得る。
図10Aに、タスクTB100、TB200、TB300、TB400、TB500、TB600、およびTB700を含む、一般的構成によるオーディオ信号処理の方法MB100のフローチャートを示す。タスクTB100は、基準オーディオ信号(たとえば、オーディオ周波数信号の第1の周波数範囲の逆量子化された表現)中の複数のピークの位置を特定する。タスクTB100は、本明細書で説明したタスクTA100のインスタンスとして実装され得る。基準オーディオ信号が、方法MA100の実装形態を使用して符号化された場合、dminの異なる値を使用するようにタスクTA100およびTB100を構成することも可能であるが、dminの同じ値を使用するように2つのタスクを構成することが望ましいことがある。(ただし、方法MB100は、概して、復号された基準オーディオ信号を生成するために使用された特定のコーディング方式にかかわらず適用可能であることに留意することが重要である。)
タスクTB100によって位置を特定されたピークのうちの少なくともいくつか(すなわち、少なくとも3つ)のピークの周波数領域位置に基づいて、タスクTB200は、基準オーディオ信号中のNd2個の高調波間隔候補を計算する。Nd2の値の例には、3、4、および5がある。タスクTB200は、タスクTB100によって位置を特定された(Nd2+1)個の最大ピークのうちの隣接するピーク間の(たとえば、周波数ビンの数で表される)距離として、これらの間隔候補を計算するように構成され得る。
タスクTB100によって位置を特定されたピークのうちの少なくともいくつか(すなわち、少なくとも2つ)のピークの周波数領域位置に基づいて、タスクTB300は、基準オーディオ信号中のNf2個のF0候補を識別する。Nf2の値の例には、3、4、および5がある。タスクTB300は、基準オーディオ信号中のNf2個の最高ピークの位置として、これらの候補を識別するように構成され得る。代替的に、タスクTB300は、基準周波数範囲の低周波数部分(たとえば、より低いほうの30、35、40、45、または50パーセント)中のNf2個の最高ピークの位置として、これらの候補を識別するように構成され得る。1つのそのような例では、タスクTB300は、0〜1250Hzの範囲内でタスクTB100によって位置を特定されたピークの位置の中からNf2個のF0候補を識別する。別のそのような例では、タスクTB300は、0〜1600Hzの範囲内でタスクTB100によって位置を特定されたピークの位置の中からNf2個のF0候補を識別する。
方法MB100の説明する実装形態の範囲は、(たとえば、2つの最大ピーク間の距離、または指定された周波数範囲内の2つの最大ピーク間の距離として)ただ1つの高調波間隔候補が計算される場合と、(たとえば、最高ピークの位置、または指定された周波数範囲内の最高ピークの位置として)ただ1つのF0候補が識別される別の場合とを含むことを明確に留意されたい。
F0候補とd候補との複数のアクティブペアの各々について、タスクTB400は、ターゲットオーディオ信号(たとえば、オーディオ周波数信号の第2の周波数範囲の表現)の少なくとも1つのサブバンドのセットを選択し、セットの各サブバンドの周波数領域における位置は(F0,d)ペアに基づく。しかしながら、タスクTA400とは反対に、この場合、サブバンドは、位置F0m、F0m+d、F0m+2dなどに対して配置され、F0mの値は、F0をターゲットオーディオ信号の周波数範囲にマッピングすることによって計算される。そのようなマッピングは、F0m=F0+Ldなどの式に従って実行され得、Lは、F0mがターゲットオーディオ信号の周波数範囲内にあるような最小整数である。そのような場合、ターゲットオーディオ信号の周波数範囲と、F0とdの値とがデコーダにおいてすでに知られているので、デコーダは、エンコーダからのさらなる情報なしに、Lの同じ値を計算し得る。
タスクTB400は、入力範囲内にある、対応する(F0,d)ペアによって示されるサブバンドのすべてを含むように各セットを選択するように構成され得る。代替的に、タスクTB400は、セットのうちの少なくとも1つについて、これらのサブバンドのすべてよりも少ないサブバンドを選択するように構成され得る。タスクTB400は、たとえば、セットについて最大数以下のサブバンドを選択するように構成され得る。代替または追加として、タスクTB400は、特定の範囲内にあるサブバンドのみを選択するように構成され得る。たとえば、入力範囲内の1つまたは複数の特定の数(たとえば、4つ、5つ、または6つ)以下の最低周波数サブバンド、および/またはその位置が入力範囲内の特定の周波数(たとえば、5000、5500、または6000Hz)を超えないサブバンドのみを選択するようにタスクTB400を構成することが望ましいことがある。
一例では、タスクTB400は、第1のサブバンドが、対応するF0m位置を中心とし、各後続のサブバンドの中心が、dの対応する値に等しい距離だけ前のサブバンドの中心から離れているように、各セットのサブバンドを選択するように構成される。
F0とdの値の異なるペアのすべてがアクティブであると見なされ得るので、タスクTB400は、あらゆる可能な(F0,d)ペアについて1つまたは複数のサブバンドの対応するセットを選択するように構成される。Nf2とNd2が両方とも4に等しい場合、たとえば、タスクTB400は、16個の可能なペアの各々を考慮するように構成され得る。代替的に、タスクTB400は、可能な(F0,d)ペアの一部が満たすことができない可能性がある、アクティビティのための基準を課するように構成され得る。そのような場合、たとえば、タスクTB400は、最大許容数よりも多いサブバンドを生成するであろうペア(たとえば、F0とdの低い値の組合せ)、および/または所望の最小数よりも少ないサブバンドを生成するであろうペア(たとえば、F0とdの高い値の組合せ)を無視するように構成され得る。
F0候補とd候補との複数のペアの各々について、タスクTB500は、ターゲットオーディオ信号の1つまたは複数のサブバンドの対応するセットから少なくとも1つのエネルギー値を計算する。1つのそのような例では、タスクTB500は、サブバンドのセットの総エネルギーとして(たとえば、サブバンド中の周波数領域サンプル値の2乗の大きさの合計として)、1つまたは複数のサブバンドの各セットからエネルギー値を計算する。代替または追加として、タスクTB500は、各個々のサブバンドのエネルギーとして、サブバンドの各セットからエネルギー値を計算し、および/またはサブバンドのセットについての、サブバンド当たりの平均エネルギー(たとえば、サブバンドの数にわたって正規化された総エネルギー)として、サブバンドの各セットからエネルギー値を計算するように構成され得る。タスクTB500は、タスクTB400と同じ複数のペアの各々について、またはこの複数のペアよりも少ないペアについて実行するように構成され得る。タスクTB400が、各可能な(F0,d)ペアのためのサブバンドのセットを選択するように構成された場合、たとえば、タスクTB500は、アクティビティのための指定された基準を満たすペアについてのみエネルギー値を計算する(たとえば、上記で説明したように、多すぎるサブバンドを生成するであろうペア、および/または少なすぎるサブバンドを生成するであろうペアを無視する)ように構成され得る。別の例では、タスクTB400は、多すぎるサブバンドを生成するであろうペアを無視するように構成され、タスクTB500は、同じく、少なすぎるサブバンドを生成するであろうペアを無視するように構成される。
図10Aは、タスクTB400およびTB500の連続した実行を示しているが、タスクTB500はまた、タスクTB400が完了する前にサブバンドのセットのエネルギーを計算し始めるように実装され得ることを理解されよう。たとえば、タスクTB500は、タスクTB400がサブバンドの次のセットを選択し始める前に、サブバンドのセットからエネルギー値を計算し始め(さらには計算し終える)ように実装され得る。1つのそのような例では、タスクTB400およびTB500は、F0候補とd候補との複数のアクティブペアの各々について交互に行うように構成される。同様に、タスクTB400も、タスクTB200およびTB300が完了する前に実行を開始するように実装され得る。
少なくとも1つのサブバンドのセットの少なくともいくつかから計算されたエネルギー値に基づいて、タスクTB600は、(F0,d)候補ペアの中から候補ペアを選択する。一例では、タスクTB600は、最高総エネルギーを有するサブバンドのセットに対応するペアを選択する。別の例では、タスクTB600は、サブバンド当たりの最高平均エネルギーを有するサブバンドのセットに対応する候補ペアを選択する。さらなる一例では、タスクTB600は、(たとえば、図1Bに示した)タスクTA602のインスタンスとして実装される。
図10Bに、タスクTB700を含む方法MB100の実装形態MB110のフローチャートを示す。タスクTB700は、選択された候補ペアの値の指示を含む符号化された信号を生成する。タスクTB700は、F0の選択された値を符号化するか、または最小(または最大)位置からの、F0の選択された値のオフセットを符号化するように構成され得る。同様に、タスクTB700は、dの選択された値を符号化するか、あるいは最小または最大距離からの、dの選択された値のオフセットを符号化するように構成され得る。特定の例では、タスクTB700は、選択されたF0値を符号化するために6ビットを使用し、選択されたd値を符号化するために6ビットを使用する。さらなる例では、タスクTB700は、(たとえば、パラメータの前の値に対するオフセットとして)F0および/またはdの現在値を差分的に符号化するように実装され得る。
VQコーディング方式(たとえば、GSVQ)を使用して、サブバンドの選択されたセットをベクトルとして符号化するようにタスクTB700を実装することが望ましいことがある。サブバンドの各セットの利得係数が、互いに独立して、前のフレームの対応する利得係数に対して差分的に符号化されるような予測利得コーディングを含むGSVQ方式を使用することが望ましいことがある。特定の例では、方法MB110は、LB−MDCTスペクトルの周波数範囲内の有意なエネルギーの領域を符号化するように構成される。
基準オーディオ信号はデコーダにおいて利用可能であるので、タスクTB100、TB200、およびTB300はまた、同じ基準オーディオ信号から同じ数Nf2個(または「コードブック」)のF0候補と、同じ数Nd2個(「コードブック」)のd候補とを取得するためにデコーダにおいて実行され得る。各コードブック中の値は、たとえば、値の増加する順にソートされ得る。したがって、エンコーダは、選択された(F0,d)ペアの実効値を符号化する代わりに、これらの順序付けられた複数の値の各々へのインデックスを送信すれば十分である。Nf2とNd2が両方とも4に等しい特定の例では、タスクTB700は、選択されたd値を示すために2ビットコードブックインデックスを使用し、選択されたF0値を示すために別の2ビットコードブックインデックスを使用するように実装され得る。
また、タスクTB700によって生成された符号化されたターゲットオーディオ信号を復号する方法は、インデックスによって示されるF0とdの値を選択することと、サブバンドの選択されたセットを逆量子化することと、マッピング値mを計算することと、各サブバンドpを周波数領域位置F0m+pdに配置する(たとえば、センタリングする)ことによって、復号されたターゲットオーディオ信号を構築することとを含み得、0≦p<Pであり、Pは、選択されたセット中のサブバンドの数である。復号されたターゲット信号の占有されていないビンは、0値、または代替的に、本明細書で説明するように、復号された残差の値を割り当てられ得る。
タスクTA400のように、タスクTB400は、上記で説明したように、最初にF0の各値がF0mにマッピングされることを除いて、上記で説明したように、タスクTA402の反復インスタンスとして実装され得る。この場合、タスクTA402は、評価されるべき候補ペアごとに1回実行し、ターゲット信号中のピークの位置のリストにアクセスできるように構成され、リストは、サンプル値の降順でソートされる。そのようなリストを生成するために、方法MB100はまた、基準信号に対してではなくターゲット信号に対して動作するように構成された、タスクTB100に類似するピークピッキングタスク(たとえば、タスクTB100の別のインスタンス)を含み得る。
図11に、ターゲットオーディオ信号が、3.5〜7kHzのオーディオ周波数スペクトルを表す140個の変換係数のUB−MDCT信号である例の、大きさ対周波数のプロットを示す。この図は、ターゲットオーディオ信号(灰色の線)、(灰色で描かれたブロックによっておよび括弧によって示される)(F0,d)候補ペアに従って選択された5つの均一に離間したサブバンドのセット、および(黒で描かれたブロックによって示される)(F0,d)ペアとピークセンタリング基準とに従って選択された5つのジッタありサブバンドのセットを示している。この例に示すように、UB−MDCTスペクトルは、周波数ビン0または1おいて開始するように、コーディング目的のためにより低いサンプリングレートに変換されたかまたは場合によってはシフトされたハイバンド信号から計算され得る。そのような場合、F0mの各マッピングは、同じく、シフトされたスペクトル内で適切な周波数を示すためのシフトを含む。特定の例では、ターゲットオーディオ信号のUB−MDCTスペクトルの第1の周波数ビンは、(たとえば、3.5kHzでの音響成分を表す)基準オーディオ信号のLB−MDCTスペクトルのビン140に対応するので、タスクTA400は、F0m=F0+Ld−140などの式に従って、各F0を対応するF0mにマッピングするように実装され得る。
基準オーディオ信号が、本明細書で説明する緩和高調波モデルを使用して符号化される場合、緩和高調波モデルを使用してターゲット信号を符号化するために、同じジッタ限界(たとえば、右に最高4つのビンまでおよび左に最高3つのビンまで)が使用され得るか、あるいは片側または両側で異なるジッタ限界が使用され得る。各サブバンドについて、可能な場合は、サブバンド内でピークをセンタリングするジッタ値、またはそのようなジッタ値が利用可能でない場合は、ピークを部分的にセンタリングするジッタ値、またはそのようなジッタ値が利用可能でない場合は、サブバンドによって獲得されるエネルギーを最大にするジッタ値を選択することが望ましいことがある。
一例では、タスクTB400は、ターゲット信号(たとえば、UB−MDCTスペクトル)中のサブバンド当たりの最大エネルギーを圧縮する(F0,d)ペアを選択するように構成される。エネルギー圧縮はまた、(たとえば、タスクTA430に関して上記で説明したように)センタリングするかまたは部分的にセンタリングする2つ以上のジッタ候補間で決定するための手段として使用され得る。
ジッタパラメータ値(たとえば、サブバンドごとに1つ)はデコーダに送信され得る。ジッタ値がデコーダに送信されない場合、高調波モデルサブバンドの周波数位置の誤差が生じ得る。しかしながら、ハイバンドオーディオ周波数範囲(たとえば、3.5〜7kHz範囲)を表すターゲット信号では、この誤差は一般に知覚できないので、選択されたジッタ値に従ってサブバンドを符号化するが、デコーダにそれらのジッタ値を送らないことが望ましいことがあり、サブバンドは、デコーダにおいて(たとえば、選択された(F0,d)ペアのみに基づいて)均一に離間され得る。音楽信号の超低ビットレートコーディング(たとえば、約20キロビット毎秒)では、たとえば、ジッタパラメータ値を送信せず、デコーダにおいてサブバンドの位置の誤差を許容することが望ましいことがある。
選択されたサブバンドのセットが識別された後、元のターゲット信号スペクトルから、再構築されたターゲット信号を減算することによって(たとえば、元のターゲット信号スペクトルと再構築された高調波モデルサブバンドとの間の差として)エンコーダにおいて残差信号が計算され得る。代替的に、残差信号は、高調波モデリングによって獲得されなかったターゲット信号スペクトルの領域(たとえば、選択されたサブバンド中に含まれなかったビン)の連結として計算され得る。ターゲットオーディオ信号がUB−MDCTスペクトルであり、基準オーディオ信号が、再構築されたLB−MDCTスペクトルである場合、特に、ターゲットオーディオ信号を符号化するために使用されたジッタ値がデコーダにおいて利用可能でない場合、獲得されていない領域を連結することによって残差を取得することが望ましいことがある。選択されたサブバンドは、ベクトル量子化方式(たとえば、GSVQ方式)を使用してコーディングされ得、残差信号は、階乗パルスコーディング方式または組合せパルスコーディング方式を使用してコーディングされ得る。
ジッタパラメータ値がデコーダにおいて利用可能である場合、残差信号は、デコーダにおいてエンコーダのときと同じビンに戻され得る。ジッタパラメータ値がデコーダにおいて利用可能でない場合(たとえば、音楽信号の低ビットレートコーディングの場合)、選択されたサブバンドは、上記で説明したように、選択された(F0,d)ペアに基づく均一間隔に従ってデコーダにおいて配置され得る。この場合、残差信号は、上記で説明したように、いくつかの異なる方法(たとえば、ジッタなしの再構築された信号に残差を追加する前に、残差中の各ジッタ範囲をゼロアウトすること、残差を使用して、占有されていないビンを埋めるとともに、選択されたサブバンドと重複するであろう残差エネルギーを移動すること、または残差を周波数ワーピングすること)のうちの1つを使用して、選択されたサブバンド間に挿入され得る。
図12Aに、一般的構成によるオーディオ信号処理MF100のための装置のブロック図を示す。装置MF100は、(たとえば、タスクTA100に関して本明細書で説明したように)周波数領域においてオーディオ信号中の複数のピークの位置を特定するための手段FA100を含む。装置MF100は、(たとえば、タスクTA200に関して本明細書で説明したように)Nd個の高調波間隔(d)候補を計算するための手段FA200をも含む。装置MF100は、(たとえば、タスクTA300に関して本明細書で説明したように)Nf個の基本周波数(F0)候補を識別するための手段FA300をも含む。装置MF100は、(たとえば、タスクTA400に関して本明細書で説明したように)複数の異なる(F0,d)ペアの各々について、その位置がペアに基づくオーディオ信号のサブバンドのセットを選択するための手段FA400をも含む。装置MF100は、(たとえば、タスクTA500に関して本明細書で説明したように)複数の異なる(F0,d)ペアの各々について、サブバンドの対応するセットのエネルギーを計算するための手段FA500をも含む。装置MF100は、(たとえば、タスクTA600に関して本明細書で説明したように)計算されたエネルギーに基づいて候補ペアを選択するための手段FA600をも含む。図13Aに、(たとえば、タスクTA700に関して本明細書で説明したように)選択された候補ペアの値の指示を含む符号化された信号を生成するための手段FA700を含む装置MF100の実装形態MF110のブロック図を示す。
図12Bに、別の一般的構成によるオーディオ信号処理のための装置A100のブロック図を示す。装置A100は、(たとえば、タスクTA100に関して本明細書で説明したように)周波数領域においてオーディオ信号中の複数のピークの位置を特定するように構成された周波数領域ピークロケータ100を含む。装置A100は、(たとえば、タスクTA200に関して本明細書で説明したように)Nd個の高調波間隔(d)候補を計算するように構成された距離計算器200をも含む。装置A100は、(たとえば、タスクTA300に関して本明細書で説明したように)Nf個の基本周波数(F0)候補を識別するように構成された基本周波数候補セレクタ300をも含む。装置A100は、(たとえば、タスクTA400に関して本明細書で説明したように)複数の異なる(F0,d)ペアの各々について、その位置がペアに基づくオーディオ信号のサブバンドのセットを選択するように構成されたサブバンド配置セレクタ400をも含む。装置A100は、(たとえば、タスクTA500に関して本明細書で説明したように)複数の異なる(F0,d)ペアの各々について、サブバンドの対応するセットのエネルギーを計算するように構成されたエネルギー計算器500をも含む。装置A100は、(たとえば、タスクTA600に関して本明細書で説明したように)計算されたエネルギーに基づいて候補ペアを選択するように構成された候補ペアセレクタ600をも含む。装置A100はまた、それの様々な要素が本明細書で説明した方法MB100の対応するタスクを実行するように構成されるように実装され得ることに明確に留意されたい。
図13Bに、量子化器710とビットパッカー720とを含む装置A100の実装形態A110のブロック図を示す。量子化器710は、(たとえば、タスクTA700に関して本明細書で説明したように)サブバンドの選択されたセットを符号化するように構成される。たとえば、量子化器710は、GSVQまたは他のVQ方式を使用して、サブバンドをベクトルとして符号化するように構成され得る。ビットパッカー720は、(たとえば、タスクTA700に関して本明細書で説明したように)選択された候補ペアの値を符号化することと、符号化された信号を生成するために、量子化されたサブバンドとともに、選択された候補値のこれらの指示をパックすることとを行うように構成される。対応するデコーダは、量子化されたサブバンドをアンパックし、候補値を復号するように構成されたビットアンパッカーと、サブバンドの逆量子化されたセットを生成するように構成された逆量子化器と、復号された信号を生成するために、(たとえば、タスクTD300に関して本明細書で説明したように)復号された候補値に基づく位置に周波数領域における逆量子化されたサブバンドを配置し、場合によっては、対応する残差をも配置するように構成されたサブバンド配置器とを含み得る。装置A110はまた、それの様々な要素が本明細書で説明した方法MB110の対応するタスクを実行するように構成されるように実装され得ることに明確に留意されたい。
図14に、一般的構成によるオーディオ信号処理MF210のための装置のブロック図を示す。装置MF210は、(たとえば、タスクTB100に関して本明細書で説明したように)周波数領域において基準オーディオ信号中の複数のピークの位置を特定するための手段FB100を含む。装置MF210は、(たとえば、タスクTB200に関して本明細書で説明したように)Nd2個の高調波間隔(d)候補を計算するための手段FB200をも含む。装置MF210は、(たとえば、タスクTB300に関して本明細書で説明したように)Nf2個の基本周波数(F0)候補を識別するための手段FB300をも含む。装置MF210は、(たとえば、タスクTB400に関して本明細書で説明したように)複数の異なる(F0,d)ペアの各々について、その位置がペアに基づくターゲットオーディオ信号のサブバンドのセットを選択するための手段FB400をも含む。装置MF210は、(たとえば、タスクTB500に関して本明細書で説明したように)複数の異なる(F0,d)ペアの各々について、サブバンドの対応するセットのエネルギーを計算するための手段FB500をも含む。装置MF210は、(たとえば、タスクTB600に関して本明細書で説明したように)計算されたエネルギーに基づいて候補ペアを選択するための手段FB600をも含む。装置MF210は、(たとえば、タスクTB700に関して本明細書で説明したように)選択された候補ペアの値の指示を含む符号化された信号を生成するための手段FB700をも含む。
基準信号(たとえば、ローバンドスペクトル)が高調波モデル(たとえば、方法MA100のインスタンス)を使用して符号化される場合、ターゲット信号(たとえば、ハイバンドスペクトル)に対して、方法MB100のインスタンスではなく、MA100のインスタンスを実行することが望ましいことがある。言い換えれば、方法MB100の場合と同様にローバンド値からF0をマッピングするのではなく、ハイバンドスペクトルとは無関係にF0とdのハイバンド値を推定することが望ましいことがある。そのような場合、デコーダにF0とdの上側帯域値を送信すること、または代替的に、F0のローバンド値とハイバンド値との間の差と、dのローバンド値とハイバンド値との間の差とを送信すること(ハイバンドモデルパラメータの「パラメータレベル予測」とも呼ばれる)が望ましいことがある。
ハイバンドパラメータのそのような独立した推定は、(「信号レベル予測」とも呼ばれる)復号されたローバンドスペクトルからのパラメータの予測と比較して、エラーレジリエンシー(error resiliency)に関する利点を有し得る。一例では、高調波ローバンドサブバンドの利得は、2つの前のフレームからの情報を使用する適応差分パルスコード変調(ADPCM:adaptive differential pulse-code-modulated)方式を使用して符号化される。したがって、連続する前の高調波ローバンドフレームのいずれかが失われた場合、デコーダにおけるサブバンド利得は、エンコーダにおけるサブバンド利得とは異なり得る。そのような場合、復号されたローバンドスペクトルからのハイバンド高調波モデルパラメータの信号レベル予測が使用されると、エンコーダとデコーダとで最大ピークが異なり得る。そのような相違は、デコーダにおいてF0とdの不正確な推定値をもたらし、完全に誤ったハイバンド復号結果を潜在的に生成し得る。
図15Aに、LPC残差領域にあり得るターゲット信号を符号化することへの方法MB110の適用の一例を示す。左側の経路では、タスクS100が、(パルスコーディング演算の残余に対して方法MA100またはMB100の実装形態を実行することを含み得る)ターゲット信号スペクトル全体のパルスコーディングを実行する。右側の経路では、方法MB110の実装形態を使用して、ターゲット信号を符号化する。この場合、タスクTB700は、VQ方式(たとえば、GSVQ)を使用して、選択されたサブバンドを符号化し、パルスコーディング方法を使用して残差を符号化するように構成され得る。タスクS200は、(たとえば、2つの符号化された信号を復号し、復号された信号を元のターゲット信号と比較することによって)コーディング演算の結果を評価し、どちらのコーディングモードが現在より好適であるかを示す。
図15Bに、入力信号が、LPC残差領域にあり得るハイバンド(上側帯域、「UB」)のMDCTスペクトルであり、基準信号が、再構築されたLB−MDCTスペクトルである、高調波モデル符号化システムのブロック図を示す。この例では、タスクS100の実装形態S110は、パルスコーディング方法(たとえば、階乗パルスコーディング(FPC)方法または組合せパルスコーディング方法)を使用してターゲット信号を符号化する。基準信号は、高調波モデル、前の符号化されたフレームに依存するコーディングモデル、固定サブバンドを使用するコーディング方式、または何らかの他のコーディング方式を使用して符号化されていることがある、フレームの量子化されたLB−MDCTスペクトルから取得される。言い換えれば、方法MB110の動作は、基準信号を符号化するために使用された特定の方法とは無関係である。この場合、方法MB110は、変換コードを使用してサブバンド利得を符号化するように実装され得、形状ベクトルを量子化するために割り振られるビットの数は、コーディングされた利得とLPC分析の結果とに基づいて計算され得る。(たとえば、高調波モデルによって選択されたサブバンドを符号化するためにGSVQを使用する)方法MB110によって生成された符号化された信号は、(たとえば、FPCなどのパルスコーディングのみを使用する)タスクS110によって生成された符号化された信号と比較され、タスクS200の実装形態S210は、知覚メトリック(たとえば、LPC重み付き信号対雑音比メトリック)に従ってフレームのための最良コーディングモードを選択する。この場合、方法MB100は、サブバンド利得および残差利得に基づいて、GSVQ符号化および残差符号化のためのビット割振りを計算するように実装され得る。
(たとえば、図15Aおよび図15Bに示す)コーディングモード選択は、マルチバンドの場合に拡張され得る。1つのそのような例では、ローバンドとハイバンドの各々は、独立コーディングモード(たとえば、GSVQまたはパルスコーディングモード)と高調波コーディングモード(たとえば、方法MA100またはMB100)の両方を使用して符号化されるので、最初は4つの異なるモードの組合せがフレームに関して考慮される。そのような場合、本明細書で説明したように、原信号から、復号されたサブバンドを減算することによって、ローバンド高調波コーディングモードについて残差を計算することが望ましいことがある。次に、ローバンドモードの各々について、(たとえば、LPC重み付きメトリックなど、ハイバンドに関する知覚メトリックを使用した2つの選択肢間の比較に従って)最良の対応するハイバンドモードが選択される。2つの残りの選択肢(すなわち、対応する最良ハイバンドモードをもつローバンド独立モード、対応する最良ハイバンドモードをもつローバンド高調波モード)について、ローバンドとハイバンドの両方をカバーする知覚メトリック(たとえば、LPC重み付き知覚メトリック)を基準として、これらの選択肢間の選択が行われる。そのようなマルチバンドの場合の一例では、ローバンド独立モードは、GSVQを使用して固定サブバンドのセットを符号化し、ハイバンド独立モードは、パルスコーディング方式(たとえば、階乗パルスコーディング)を使用してハイバンド信号を符号化する。
図16A〜図16Eに、本明細書で説明する装置A110(またはMF110またはMF210)の様々な実装形態の適用範囲を示す。図16Aは、変換モジュールMM1(たとえば、高速フーリエ変換またはMDCTモジュール)と、変換領域においてオーディオフレームSA10をサンプルとして(すなわち、変換領域係数として)受信し、対応する符号化されたフレームSE10を生成するように構成された装置A110(またはMF110またはMF210)のインスタンスとを含むオーディオ処理経路のブロック図を示している。
図16Bは、変換モジュールMM1がMDCT変換モジュールを使用して実装される、図16Aの経路の実装形態のブロック図を示している。修正DCTモジュールMM10は、各オーディオフレームに対してMDCT演算を実行して、MDCT領域係数のセットを生成する。
図16Cは、線形予測コーディング分析モジュールAM10を含む、図16Aの経路の実装形態のブロック図を示している。線形予測コーディング(LPC:linear prediction coding)分析モジュールAM10は、分類されたフレームに対してLPC分析演算を実行して、LPCパラメータ(たとえば、フィルタ係数)のセットとLPC残差信号とを生成する。一例では、LPC分析モジュールAM10は、0〜4000Hzの帯域幅を有するフレームに対して10次LPC分析を実行するように構成される。別の例では、LPC分析モジュールAM10は、3500〜7000Hzのハイバンド周波数範囲を表すフレームに対して6次LPC分析を実行するように構成される。修正DCTモジュールMM10は、LPC残差信号に対してMDCT演算を実行して、変換領域係数のセットを生成する。対応する復号経路は、符号化されたフレームSE10を復号し、復号されたフレームに対して逆MDCT変換を実行して、LPC合成フィルタへの入力のための励振信号を取得するように構成され得る。
図16Dは、信号分類器SC10を含む処理経路のブロック図を示している。信号分類器SC10は、オーディオ信号のフレームSA10を受信し、少なくとも2つのカテゴリーのうちの1つに各フレームを分類する。たとえば、信号分類器SC10は、フレームが音楽として分類される場合には、それを符号化するために、図16Dに示す経路の残りが使用され、フレームが音声として分類される場合には、それを符号化するために異なる処理経路が使用されるように、フレームSA10を音声または音楽として分類するように構成され得る。そのような分類は、信号アクティビティ検出、雑音検出、周期性検出、時間領域スパース性検出、および/または周波数領域スパース性検出を含み得る。
図17Aに、(たとえば、オーディオフレームSA10の各々に対して)信号分類器SC10によって実行され得る信号分類の方法MC100のブロック図を示す。方法MC100は、タスクTC100、TC200、TC300、TC400、TC500、およびTC600を含む。タスクTC100は、信号中のアクティビティレベルを定量化する。アクティビティレベルがしきい値を下回る場合、タスクTC200が、(たとえば、低ビットレート雑音励振線形予測(NELP:noise-excited linear prediction)方式および/または間欠送信(DTX:discontinuous transmission)方式を使用して)無音として信号を符号化する。アクティビティレベルが十分に高い(たとえば、しきい値を上回る)場合、タスクTC300が、信号の周期性の程度を定量化する。タスクTC300が、信号は周期的でないと判断した場合、タスクTC400が、NELP方式を使用して信号を符号化する。タスクTC300が、信号は周期であると判断した場合、タスクTC500が、時間領域および/または周波数領域における信号のスパーシティ(sparsity)の程度を定量化する。タスクTC500が、信号は時間領域においてスパースであると判断した場合、タスクTC600が、緩和CELP(RCELP:relaxed CELP)または代数CELP(ACELP:algebraic CELP)など、コード励振線形予測(CELP:code-excited linear prediction)方式を使用して信号を符号化する。タスクTC500が、信号は周波数領域においてスパースであると判断した場合、タスクTC700が、(たとえば、図16Dの処理経路の残りに信号を受け渡すことによって)高調波モデルを使用して信号を符号化する。
図16Dに示すように、処理経路は、時間マスキング、周波数マスキング、および/または聴覚しきい値など、聴覚心理基準を適用することによって、MDCT領域信号を簡略化する(たとえば、符号化されるべき変換領域係数の数を低減する)ように構成された知覚プルーニングモジュールPM10を含み得る。モジュールPM10は、元のオーディオフレームSA10に知覚モデルを適用することによって、そのような基準のための値を計算するように実装され得る。この例では、装置A110(またはMF110またはMF210)は、プルーニングされたフレームを符号化して、対応する符号化されたフレームSE10を生成するように構成される。
図16Eは、装置A110(またはMF110またはMF210)がLPC残差を符号化するように構成された、図A1Cの経路と図A1Dの経路の両方の実装形態のブロック図を示している。
図17Bに、装置A100の実装形態を含む通信デバイスD10のブロック図を示す。デバイスD10は、装置A100(あるいはMF100および/またはMF210)の要素を組み込むチップまたはチップセットCS10(たとえば、移動局モデム(MSM)チップセット)を含む。チップ/チップセットCS10は、装置A100またはMF100のソフトウェアおよび/またはファームウェア部分を(たとえば、命令として)実行するように構成され得る1つまたは複数のプロセッサを含み得る。
チップ/チップセットCS10は、無線周波(RF)通信信号を受信し、RF信号内で符号化されたオーディオ信号を復号し、再生するように構成された受信機と、(たとえば、タスクTA700またはTB700によって生成される)符号化されたオーディオ信号を記述するRF通信信号を送信するように構成された送信機とを含む。そのようなデバイスは、1つまたは複数の(「コーデック」とも呼ばれる)符号化および復号方式を介してボイス通信データをワイヤレスに送信および受信するように構成され得る。そのようなコーデックの例には、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題するThird Generation Partnership Project 2(3GPP2)文書C.S0014−C、v1.0、2007年2月(www.3gpp.orgでオンライン入手可能)に記載されているEnhanced Variable Rate Codec、「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」と題する3GPP2文書C.S0030−0、v3.0、2004年1月(www.3gpp.orgでオンライン入手可能)に記載されている選択可能モードボコーダ音声コーデック、文書ETSI TS 126 092 V6.0.0(European Telecommunications Standards Institute(ETSI)、Sophia Antipolis Cedex、フランス、2004年12月)に記載されている適応マルチレート(AMR)音声コーデック、および文書ETSI TS 126 192 V6.0.0(ETSI、2004年12月)に記載されているAMR広帯域音声コーデックがある。
デバイスD10は、アンテナC30を介してRF通信信号を受信および送信するように構成される。デバイスD10はまた、アンテナC30への経路中にダイプレクサと1つまたは複数の電力増幅器とを含み得る。また、チップ/チップセットCS10は、キーパッドC10を介してユーザ入力を受信し、ディスプレイC20を介して情報を表示するように構成される。この例では、デバイスD10は、全地球測位システム(GPS)位置サービス、および/またはワイヤレス(たとえば、Bluetooth(登録商標))ヘッドセットなどの外部デバイスとの短距離通信をサポートする、1つまたは複数のアンテナC40をも含む。別の例では、そのような通信デバイスは、それ自体でBluetooth(登録商標)ヘッドセットであり、キーパッドC10、ディスプレイC20、およびアンテナC30がない。
通信デバイスD10は、スマートフォンおよびラップトップおよびタブレットコンピュータを含む、様々な通信デバイスに組み込まれ得る。図18に、正面に構成された2つのボイスマイクロフォンMV10−1およびMV10−3と、背面に構成されたボイスマイクロフォンMV10−2と、正面の上部隅に配置された誤差マイクロフォンME10と、背面に配置された雑音基準マイクロフォンMR10とを有するハンドセットH100(たとえば、スマートフォン)の正面図、背面図、および側面図を示す。ラウドスピーカーLS10は、誤差マイクロフォンME10の近くの正面の上部中央に構成され、(たとえば、スピーカーフォンアプリケーションのための)2つの他のラウドスピーカーLS20L、LS20Rも設けられる。そのようなハンドセットのマイクロフォン間の最大距離は、一般に約10または12センチメートルである。
本明細書で開示した方法および装置は、概して任意の送受信および/またはオーディオ感知適用例、特にそのような適用例のモバイルまたは場合によってはポータブルインスタンスにおいて適用され得る。たとえば、本明細書で開示した構成の範囲は、符号分割多元接続(CDMA)無線インターフェースを採用するように構成されたワイヤレステレフォニー通信システム中に常駐する通信デバイスを含む。とはいえ、本明細書で説明した特徴を有する方法および装置は、ワイヤードおよび/またはワイヤレス(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMA)送信チャネルを介したボイスオーバIP(VoIP)を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。
本明細書で開示した通信デバイスは、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび/またはワイヤレスネットワーク)および/または回線交換式であるネットワークにおける使用に適応され得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示した通信デバイスは、狭帯域コーディングシステム(たとえば、約4または5キロヘルツの可聴周波数レンジを符号化するシステム)での使用、ならびに/あるいは全帯域広帯域コーディングシステムおよびスプリットバンド広帯域コーディングシステムを含む、広帯域コーディングシステム(たとえば、5キロヘルツを超える可聴周波数を符号化するシステム)での使用に適応され得ることが明確に企図され、本明細書によって開示される。
説明した構成の提示は、本明細書で開示した方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形態も本開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般原理は他の構成にも同様に適用され得る。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者なら理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表され得る。
本明細書で開示した構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報(たとえば、本明細書で識別される例のうちの1つなど、圧縮形式に従って符号化されるファイルまたはストリーム)の再生などの計算集約的適用例、または広帯域通信(たとえば、12、16、44.1、48、または192kHzなど、8キロヘルツよりも高いサンプリングレートにおけるボイス通信)の適用例では特に、(一般に百万命令毎秒またはMIPSで測定される)処理遅延および/または計算複雑さを最小にすることを含み得る。
本明細書で開示した装置(たとえば、装置A100、A110、MF100、MF110、またはMF210)は、意図された適用例に好適と見なされる、ソフトウェアとの、および/またはファームウェアとのハードウェアの任意の組合せで実装され得る。たとえば、そのような要素は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。これらの要素のうちの任意の2つ以上、さらにはすべてが、同じ1つまたは複数のアレイ内に実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。
本明細書で開示した装置(たとえば、装置A100、A110、MF100、MF110、またはMF210)の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)など、論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとして実装され得る。本明細書で開示した装置の実装形態の様々な要素のいずれも、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)としても実施され得、これらの要素のうちの任意の2つ以上、さらにはすべてが、同じそのような1つまたは複数のコンピュータ内に実装され得る。
本明細書で開示したプロセッサまたは処理するための他の手段は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する1つまたは複数の電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、IPコア、DSP、FPGA、ASSP、およびASICなど、論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示したプロセッサまたは処理するための他の手段は、1つまたは複数のコンピュータ(たとえば、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)あるいは他のプロセッサとしても実施され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム(たとえば、オーディオ感知デバイス)の別の動作に関係するタスクなど、方法MA100、MA110、MB100、MB110、またはMD100の実装形態のプロシージャに直接関係しないタスクを実行するかまたは命令の他のセットを実行するために使用することが可能である。また、本明細書で開示した方法の一部はオーディオ感知デバイスのプロセッサによって実行され、その方法の別の一部は1つまたは複数の他のプロセッサの制御下で実行されることが可能である。
本明細書で開示した構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者なら諒解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示した構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICまたはASSP、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるかもしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、またはCD−ROMなど、非一時的記憶媒体中に、あるいは当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はASIC中に常駐し得る。ASICはユーザ端末中に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別構成要素として常駐し得る。
本明細書で開示した様々な方法(たとえば、方法MA100、MA110、MB100、MB110、またはMD100)は、プロセッサなどの論理要素のアレイによって実行され得、本明細書で説明した装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムは1つのモジュールまたはシステムに結合され得、1つのモジュールまたはシステムは、同じ機能を実行する複数のモジュールまたはシステムに分離され得ることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装されるとき、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶され得、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信され得る。
本明細書で開示した方法、方式、および技法の実装形態は、(たとえば、本明細書に記載する1つまたは複数のコンピュータ可読記憶媒体の有形のコンピュータ可読特徴において)論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械によって実行可能な命令の1つまたは複数のセットとしても有形に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能、および取外し不可能な記憶媒体を含む、任意の媒体を含み得る。コンピュータ可読媒体の例には、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットまたは他の磁気ストレージ、CD−ROM/DVDまたは他の光ストレージ、ハードディスクまたは所望の情報を記憶するために使用され得る任意の他の媒体、光ファイバー媒体、無線周波(RF)リンク、あるいは所望の情報を搬送するために使用され得、アクセスされ得る任意の他の媒体がある。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、エアリンク、電磁リンク、RFリンクなどの伝送媒体を介して伝播することができるどんな信号をも含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。
本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその2つの組合せで実施され得る。本明細書で開示した方法の実装形態の典型的な適用例では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実行するように構成される。タスクのうちの1つまたは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって読取り可能および/または実行可能であるコンピュータプログラム製品(たとえば、ディスク、フラッシュメモリカードまたは他の不揮発性メモリカード、半導体メモリチップなど、1つまたは複数のデータ記憶媒体など)に埋め込まれたコード(たとえば、命令の1つまたは複数のセット)としても実装され得る。本明細書で開示した方法の実装形態のタスクは、2つ以上のそのようなアレイまたは機械によっても実行され得る。これらまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能を有する他のデバイス内で実行され得る。そのようなデバイスは、(たとえば、VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および/または送信するように構成されたRF回路を含み得る。
本明細書で開示した様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末(PDA)などのポータブル通信デバイスによって実行され得、本明細書で説明した様々な装置は、そのようなデバイス内に含まれ得ることが明確に開示される。典型的なリアルタイム(たとえば、オンライン)適用例は、そのようなモバイルデバイスを使用して行われる電話会話である。
1つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装する場合、そのような動作は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信(たとえば、伝送)媒体の両方を含む。限定ではなく、例として、コンピュータ可読記憶媒体は、(限定はしないが、ダイナミックまたはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含み得る)半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、CD−ROMまたは他の光ディスクストレージ、ならびに/あるいは磁気ディスクストレージまたは他の磁気ストレージデバイスを備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用され得、コンピュータによってアクセスされ得る、任意の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)およびBlu−ray Disc(登録商標)(Blu−Ray Disc Association、カリフォルニア州ユニヴァーサルシティー)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。
本明細書で説明した音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることがある、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例では、複数の方向から発生した背景音から明瞭な所望の音を強調または分離することから利益を得ることがある。そのような適用例は、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにおけるヒューマンマシンインターフェースを含み得る。限られた処理機能のみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましいことがある。
本明細書で説明したモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明した装置の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICなど、論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとしても実装され得る。
本明細書で説明した装置の実装形態の1つまたは複数の要素は、その装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施するために、または装置の動作に直接関係しない命令の他のセットを実行するために使用されることが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび/または光デバイスの構成)を有することが可能である。

Claims (48)

  1. オーディオ信号処理の方法であって、前記方法が、
    周波数領域において、基準オーディオ信号中の複数のピークの位置を特定することと、
    高調波モデルの基本周波数のNf個の候補を選択することであって、前記Nf個の候補の各々が、前記周波数領域における前記複数のピークのうちの対応する1つのピークの位置に基づく、選択することと、
    前記周波数領域における前記複数のピークのうちの少なくとも2つのピークの位置に基づいて、前記高調波モデルの高調波間の間隔のNd個の候補を計算することと、
    前記基本周波数候補と前記高調波間隔候補との複数の異なるペアの各々について、ターゲットオーディオ信号の少なくとも1つのサブバンドのセットを選択することであって、前記セット中の各サブバンドの前記周波数領域における位置が候補の前記ペアに基づく、選択することと、
    候補の前記複数の異なるペアの各々について、前記ターゲットオーディオ信号の少なくとも1つのサブバンドの前記対応するセットからエネルギー値を計算することと、
    少なくとも複数の前記計算されたエネルギー値に基づいて、候補の前記複数の異なるペアの中から候補のペアを選択することと
    を備え、
    前記数Nfと前記数Ndとのうちの少なくとも1つが、1よりも大きい値を有する、方法。
  2. 前記ターゲットオーディオ信号が前記基準オーディオ信号である、請求項1に記載の方法。
  3. 前記基準オーディオ信号がオーディオ信号の第1の周波数範囲を表し、
    前記ターゲットオーディオ信号が、前記第1の周波数範囲とは異なる前記オーディオ信号の第2の周波数範囲を表す、請求項1に記載の方法。
  4. 前記方法が、前記Nf個の基本周波数候補を前記第2の周波数範囲にマッピングすることを含む、請求項3に記載の方法。
  5. 前記方法が、候補の前記選択されたペアによって示される少なくとも1つのサブバンドの前記セットに対して利得形状ベクトル量子化演算を実行することを含む、請求項1に記載の方法。
  6. 少なくとも1つのサブバンドを前記選択することが、サブバンドのセットを選択することを備え、
    サブバンドの前記対応するセットからエネルギー値を前記計算することが、サブバンド当たりの平均エネルギーを計算することを含む、請求項1に記載の方法。
  7. サブバンドの前記対応するセットからエネルギー値を前記計算することが、少なくとも1つのサブバンドの前記セットによって獲得される総エネルギーを計算することを含む、請求項1に記載の方法。
  8. 前記ターゲットオーディオ信号が線形予測コーディング残差に基づく、請求項1に記載の方法。
  9. 前記ターゲットオーディオ信号が複数の修正離散コサイン変換係数である、請求項1に記載の方法。
  10. 少なくとも1つのサブバンドのセットを前記選択することが、少なくとも1つのサブバンドの前記セットの少なくとも1つの各々について、基準位置の指定された範囲内で、前記サブバンドによって獲得される前記エネルギーが最大になる前記サブバンドの位置を見つけることを含み、前記基準位置が前記候補ペアに基づく、請求項1に記載の方法。
  11. 少なくとも1つのサブバンドのセットを前記選択することが、少なくとも1つのサブバンドの前記セットの少なくとも1つの各々について、基準位置の指定された範囲内で、前記サブバンド内で最大値を有するサンプルの中心が前記サブバンド内にある、前記サブバンドの位置を見つけることを含み、前記基準位置が前記候補ペアに基づく、請求項1に記載の方法。
  12. 候補の前記複数の異なるペアのうちの少なくとも1つについて、少なくとも1つのサブバンドのセットを前記選択することが、前記少なくとも1つのサブバンドの少なくとも1つの各々について、
    前記候補ペアに基づいて、前記位置を特定されたピークのうちの指定された1つを前記サブバンドが除外するように、前記サブバンドの第1の位置を計算することであって、前記第1の位置が、周波数領域軸上の前記指定された、位置を特定されたピークの一方の側にある、計算することと、
    前記候補ペアに基づいて、前記指定された、位置を特定されたピークを前記サブバンドが除外するように、前記サブバンドの第2の位置を計算することであって、前記第2の位置が、前記周波数領域軸上の前記指定された、位置を特定されたピークの他方の側にある、計算することと、
    前記サブバンドが最低エネルギーを有する、前記第1の位置と前記第2の位置のうちの一方を識別することと
    を含む、請求項1に記載の方法。
  13. 前記方法が、候補の前記選択されたペアの値と、少なくとも1つのサブバンドの前記対応する選択されたセットの各サブバンドの成分とを示す符号化信号を生成することを備える、請求項1に記載の方法。
  14. 少なくとも1つのサブバンドを前記選択することが、サブバンドのセットを選択することを備え、
    前記方法が、
    候補の前記選択されたペアに対応する、サブバンドの前記選択されたセットを量子化することと、
    サブバンドの逆量子化されたセットを取得するために、サブバンドの前記量子化されたセットを逆量子化することと、
    候補の前記選択されたペアに基づく対応する位置に前記逆量子化されたサブバンドを配置することによって、復号された信号を構築することと
    を備え、
    前記復号された信号内の前記逆量子化されたサブバンドの前記位置が、前記ターゲットオーディオ信号内の、候補の前記選択されたペアに対応する前記選択されたセットの前記対応するサブバンドの前記位置とは異なる、請求項1に記載の方法。
  15. 復号されたオーディオフレームを構築する方法であって、前記方法が、
    基本周波数値に従って、複数の復号されたサブバンドベクトルのうちの第1の復号されたサブバンドベクトルを配置することと、
    前記基本周波数値と高調波間隔値とに従って、前記複数の復号されたサブバンドベクトルの残りを配置することと、
    前記複数の復号されたサブバンドベクトルによって占有されていない前記フレームの位置に復号された残差信号を挿入することと
    を備える、方法。
  16. 前記複数の復号されたサブバンドベクトルの各隣接するペアについて、前記ベクトルの中心間の距離が前記高調波間隔値に等しい、請求項15に記載の方法。
  17. 前記方法が、前記複数の復号されたサブバンドベクトルの可能な位置に対応する、前記復号された残差信号の部分を消去することを備える、請求項15に記載の方法。
  18. 復号された残差信号を前記挿入することが、周波数の増加する順に前記フレームの前記占有されていない位置に、前記復号された残差信号の第1の値から前記復号された残差信号の最後の値まで順に、前記復号された残差信号の値を挿入することを含む、請求項15に記載の方法。
  19. 復号された残差信号を前記挿入することが、前記複数の復号されたサブバンドベクトルのうちの隣接するサブバンドベクトル間に収まるように、周波数領域軸に関して前記復号された残差信号の部分をワーピングすることを含む、請求項15に記載の方法。
  20. オーディオ信号処理のための装置であって、前記装置が、
    周波数領域において基準オーディオ信号中の複数のピークの位置を特定するための手段と、
    高調波モデルの基本周波数のNf個の候補を選択するための手段であって、前記Nf個の候補の各々が、前記周波数領域における前記複数のピークのうちの対応する1つのピークの位置に基づく、選択するための手段と、
    前記周波数領域における前記複数のピークのうちの少なくとも2つのピークの位置に基づいて、前記高調波モデルの高調波間の間隔のNd個の候補を計算するための手段と、
    前記基本周波数候補と前記高調波間隔候補との複数の異なるペアの各々について、ターゲットオーディオ信号の少なくとも1つのサブバンドのセットを選択するための手段であって、前記セット中の各サブバンドの前記周波数領域における位置が候補の前記ペアに基づく、選択するための手段と、
    候補の前記複数の異なるペアの各々について、前記ターゲットオーディオ信号の少なくとも1つのサブバンドの前記対応するセットからエネルギー値を計算するための手段と、
    少なくとも複数の前記計算されたエネルギー値に基づいて、候補の前記複数の異なるペアの中から候補のペアを選択するための手段と
    を備え、
    前記数Nfと前記数Ndとのうちの少なくとも1つが、1よりも大きい値を有する、装置。
  21. 前記ターゲットオーディオ信号が前記基準オーディオ信号である、請求項20に記載の装置。
  22. 前記基準オーディオ信号がオーディオ信号の第1の周波数範囲を表し、
    前記ターゲットオーディオ信号が、前記第1の周波数範囲とは異なる前記オーディオ信号の第2の周波数範囲を表す、請求項20に記載の装置。
  23. 前記装置が、前記Nf個の基本周波数候補を前記第2の周波数範囲にマッピングするための手段を含む、請求項22に記載の装置。
  24. 前記装置が、候補の前記選択されたペアによって示される少なくとも1つのサブバンドの前記セットに対して利得形状ベクトル量子化演算を実行するための手段を含む、請求項20に記載の装置。
  25. 少なくとも1つのサブバンドのセットを選択するための前記手段が、候補の前記複数の異なるペアの各々について、サブバンドのセットを選択するように構成され、
    サブバンドの前記対応するセットからエネルギー値を計算するための前記手段が、サブバンド当たりの平均エネルギーを計算するための手段を含む、請求項20に記載の装置。
  26. サブバンドの前記対応するセットからエネルギー値を計算するための前記手段が、少なくとも1つのサブバンドの前記セットによって獲得される総エネルギーを計算するための手段を含む、請求項20に記載の装置。
  27. 前記ターゲットオーディオ信号が線形予測コーディング残差に基づく、請求項20に記載の装置。
  28. 前記ターゲットオーディオ信号が複数の修正離散コサイン変換係数である、請求項20に記載の装置。
  29. 少なくとも1つのサブバンドのセットを選択するための前記手段が、少なくとも1つのサブバンドの前記セットの少なくとも1つの各々について、基準位置の指定された範囲内で、前記サブバンドによって獲得される前記エネルギーが最大になる前記サブバンドの位置を見つけるための手段を含み、前記基準位置が前記候補ペアに基づく、請求項20に記載の装置。
  30. 少なくとも1つのサブバンドのセットを選択するための前記手段が、少なくとも1つのサブバンドの前記セットの少なくとも1つの各々について、基準位置の指定された範囲内で、前記サブバンド内で最大値を有するサンプルの中心が前記サブバンド内にある、前記サブバンドの位置を見つけるための手段を含み、前記基準位置が前記候補ペアに基づく、請求項20に記載の装置。
  31. 候補の前記複数の異なるペアのうちの少なくとも1つについて、少なくとも1つのサブバンドのセットを選択するための前記手段が、
    前記少なくとも1つのサブバンドの少なくとも1つの各々について、前記候補ペアに基づいて、(A)前記位置を特定されたピークのうちの指定された1つを前記サブバンドが除外するように、前記サブバンドの第1の位置を計算するための手段であって、前記第1の位置が、周波数領域軸上の前記指定された、位置を特定されたピークの一方の側にある、計算するための手段と、(B)前記指定された、位置を特定されたピークを前記サブバンドが除外するように、前記サブバンドの第2の位置を計算するための手段であって、前記第2の位置が、前記周波数領域軸上の前記指定された、位置を特定されたピークの他方の側にある、計算するための手段と、
    前記少なくとも1つのサブバンドの前記少なくとも1つの各々について、前記サブバンドが最低エネルギーを有する、前記第1の位置と前記第2の位置のうちの一方を識別するための手段と
    を含む、請求項20に記載の装置。
  32. 前記装置が、候補の前記選択されたペアの値と、少なくとも1つのサブバンドの前記対応する選択されたセットの各サブバンドの成分とを示す符号化信号を生成するための手段を備える、請求項20に記載の装置。
  33. 少なくとも1つのサブバンドのセットを選択するための前記手段が、候補の前記複数の異なるペアの各々について、サブバンドのセットを選択するように構成され、
    前記装置が、
    候補の前記選択されたペアに対応する、サブバンドの前記選択されたセットを量子化するための手段と、
    サブバンドの逆量子化されたセットを取得するために、サブバンドの前記量子化されたセットを逆量子化するための手段と、
    候補の前記選択されたペアに基づく対応する位置に前記逆量子化されたサブバンドを配置することによって、復号された信号を構築するための手段と
    を備え、
    前記復号された信号内の前記逆量子化されたサブバンドの前記位置が、前記ターゲットオーディオ信号内の、候補の前記選択されたペアに対応する前記選択されたセットの前記対応するサブバンドの前記位置とは異なる、請求項20に記載の装置。
  34. オーディオ信号処理のための装置であって、前記装置が、
    周波数領域において基準オーディオ信号中の複数のピークの位置を特定するように構成された周波数領域ピークロケータと、
    高調波モデルの基本周波数のNf個の候補を選択するように構成された基本周波数候補セレクタであって、前記Nf個の候補の各々が、前記周波数領域における前記複数のピークのうちの対応する1つのピークの位置に基づく、基本周波数候補セレクタと、
    前記周波数領域における前記複数のピークのうちの少なくとも2つのピークの位置に基づいて、前記高調波モデルの高調波間の間隔のNd個の候補を計算するように構成された距離計算器と、
    前記基本周波数候補と前記高調波間隔候補との複数の異なるペアの各々について、ターゲットオーディオ信号の少なくとも1つのサブバンドのセットを選択するように構成されたサブバンド配置セレクタであって、前記セット中の各サブバンドの前記周波数領域における位置が候補の前記ペアに基づく、サブバンド配置セレクタと、
    候補の前記複数の異なるペアの各々について、前記ターゲットオーディオ信号の少なくとも1つのサブバンドの前記対応するセットからエネルギー値を計算するように構成されたエネルギー計算器と、
    少なくとも複数の前記計算されたエネルギー値に基づいて、候補の前記複数の異なるペアの中から候補のペアを選択するように構成された候補ペアセレクタと
    を備え、
    前記数Nfと前記数Ndとのうちの少なくとも1つが、1よりも大きい値を有する、装置。
  35. 前記ターゲットオーディオ信号が前記基準オーディオ信号である、請求項34に記載の装置。
  36. 前記基準オーディオ信号がオーディオ信号の第1の周波数範囲を表し、
    前記ターゲットオーディオ信号が、前記第1の周波数範囲とは異なる前記オーディオ信号の第2の周波数範囲を表す、請求項34に記載の装置。
  37. 前記サブバンド配置セレクタが、前記Nf個の基本周波数候補を前記第2の周波数範囲にマッピングするように構成された、請求項36に記載の装置。
  38. 前記装置が、候補の前記選択されたペアによって示される少なくとも1つのサブバンドの前記セットに対して利得形状ベクトル量子化演算を実行するように構成された量子化器を含む、請求項34に記載の装置。
  39. 前記サブバンド配置セレクタが、候補の前記複数の異なるペアの各々について、サブバンドのセットを選択するように構成され、
    前記エネルギー計算器が、候補の前記複数の異なるペアの各々について、サブバンド当たりの平均エネルギーを計算するように構成された、請求項34に記載の装置。
  40. 前記エネルギー計算器が、候補の前記複数の異なるペアの各々について、少なくとも1つのサブバンドの前記セットによって獲得される総エネルギーを計算するように構成された、請求項34に記載の装置。
  41. 前記ターゲットオーディオ信号が線形予測コーディング残差に基づく、請求項34に記載の装置。
  42. 前記ターゲットオーディオ信号が複数の修正離散コサイン変換係数である、請求項34に記載の装置。
  43. 前記サブバンド配置セレクタが、少なくとも1つのサブバンドの前記セットの少なくとも1つの各々について、基準位置の指定された範囲内で、前記サブバンドによって獲得される前記エネルギーが最大になる前記サブバンドの位置を見つけるように構成され、前記基準位置が前記候補ペアに基づく、請求項34に記載の装置。
  44. 前記サブバンド配置セレクタが、少なくとも1つのサブバンドの前記セットの少なくとも1つの各々について、基準位置の指定された範囲内で、前記サブバンド内で最大値を有するサンプルの中心が前記サブバンド内にある、前記サブバンドの位置を見つけるように構成され、前記基準位置が前記候補ペアに基づく、請求項34に記載の装置。
  45. 候補の前記複数の異なるペアのうちの少なくとも1つについて、前記サブバンド配置セレクタが、
    前記少なくとも1つのサブバンドの少なくとも1つの各々について、前記候補ペアに基づいて、(A)前記位置を特定されたピークのうちの指定された1つを前記サブバンドが除外するように、前記サブバンドの第1の位置を計算することであって、前記第1の位置が、周波数領域軸上の前記指定された、位置を特定されたピークの一方の側にある、計算することと、(B)前記指定された、位置を特定されたピークを前記サブバンドが除外するように、前記サブバンドの第2の位置を計算することであって、前記第2の位置が、前記周波数領域軸上の前記指定された、位置を特定されたピークの他方の側にある、計算することと、
    前記少なくとも1つのサブバンドの前記少なくとも1つの各々について、前記サブバンドが最低エネルギーを有する、前記第1の位置と前記第2の位置のうちの一方を識別することと
    を行うように構成された、請求項34に記載の装置。
  46. 前記装置が、候補の前記選択されたペアの値と、少なくとも1つのサブバンドの前記対応する選択されたセットの各サブバンドの成分とを示す符号化信号を生成するように構成されたビットパッカーを備える、請求項34に記載の装置。
  47. 前記サブバンド配置セレクタが、候補の前記複数の異なるペアの各々について、サブバンドのセットを選択するように構成され、
    前記装置が、
    候補の前記選択されたペアに対応する、サブバンドの前記選択されたセットを量子化するように構成された量子化器と、
    サブバンドの逆量子化されたセットを取得するために、サブバンドの前記量子化されたセットを逆量子化するように構成された逆量子化器と、
    候補の前記選択されたペアに基づく対応する位置に前記逆量子化されたサブバンドを配置することによって、復号された信号を構築するように構成されたサブバンド配置論理と
    を備え、
    前記復号された信号内の前記逆量子化されたサブバンドの前記位置が、前記ターゲットオーディオ信号内の、候補の前記選択されたペアに対応する前記選択されたセットの前記対応するサブバンドの前記位置とは異なる、請求項34に記載の装置。
  48. 有形特徴を有する非一時的コンピュータ可読記憶媒体であって、前記有形特徴が、機械によって読み取られたとき、
    周波数領域において、基準オーディオ信号中の複数のピークの位置を特定することと、
    高調波モデルの基本周波数のNf個の候補を選択することであって、前記Nf個の候補の各々が、前記周波数領域における前記複数のピークのうちの対応する1つのピークの位置に基づく、選択することと、
    前記周波数領域における前記複数のピークのうちの少なくとも2つのピークの位置に基づいて、前記高調波モデルの高調波間の間隔のNd個の候補を計算することと、
    前記基本周波数候補と前記高調波間隔候補との複数の異なるペアの各々について、ターゲットオーディオ信号の少なくとも1つのサブバンドのセットを選択することであって、前記セット中の各サブバンドの前記周波数領域における位置が候補の前記ペアに基づく、選択することと、
    候補の前記複数の異なるペアの各々について、前記ターゲットオーディオ信号の少なくとも1つのサブバンドの前記対応するセットからエネルギー値を計算することと、
    少なくとも複数の前記計算されたエネルギー値に基づいて、候補の前記複数の異なるペアの中から候補のペアを選択することと
    を前記機械に行わせ、
    前記数Nfと前記数Ndとのうちの少なくとも1つが、1よりも大きい値を有する、非一時的コンピュータ可読記憶媒体。
JP2013523220A 2010-07-30 2011-07-29 高調波信号のコーディングのためのシステム、方法、装置、およびコンピュータ可読媒体 Active JP5694531B2 (ja)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US36966210P 2010-07-30 2010-07-30
US61/369,662 2010-07-30
US36970510P 2010-07-31 2010-07-31
US61/369,705 2010-07-31
US36975110P 2010-08-01 2010-08-01
US61/369,751 2010-08-01
US37456510P 2010-08-17 2010-08-17
US61/374,565 2010-08-17
US38423710P 2010-09-17 2010-09-17
US61/384,237 2010-09-17
US201161470438P 2011-03-31 2011-03-31
US61/470,438 2011-03-31
US13/192,956 US8924222B2 (en) 2010-07-30 2011-07-28 Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US13/192,956 2011-07-28
PCT/US2011/045837 WO2012016110A2 (en) 2010-07-30 2011-07-29 Systems, methods, apparatus, and computer-readable media for coding of harmonic signals

Publications (2)

Publication Number Publication Date
JP2013532851A true JP2013532851A (ja) 2013-08-19
JP5694531B2 JP5694531B2 (ja) 2015-04-01

Family

ID=45527629

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2013523227A Ceased JP2013537647A (ja) 2010-07-30 2011-07-29 オーディオ信号の従属モードコーディングのためのシステム、方法、装置、およびコンピュータ可読媒体
JP2013523220A Active JP5694531B2 (ja) 2010-07-30 2011-07-29 高調波信号のコーディングのためのシステム、方法、装置、およびコンピュータ可読媒体
JP2013523223A Active JP5587501B2 (ja) 2010-07-30 2011-07-29 複数段階の形状ベクトル量子化のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2013523225A Active JP5694532B2 (ja) 2010-07-30 2011-07-29 ダイナミックなビット割り当てのためのシステム、方法、装置およびコンピュータ読取り可能媒体

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2013523227A Ceased JP2013537647A (ja) 2010-07-30 2011-07-29 オーディオ信号の従属モードコーディングのためのシステム、方法、装置、およびコンピュータ可読媒体

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2013523223A Active JP5587501B2 (ja) 2010-07-30 2011-07-29 複数段階の形状ベクトル量子化のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2013523225A Active JP5694532B2 (ja) 2010-07-30 2011-07-29 ダイナミックなビット割り当てのためのシステム、方法、装置およびコンピュータ読取り可能媒体

Country Status (10)

Country Link
US (4) US20120029926A1 (ja)
EP (5) EP2599080B1 (ja)
JP (4) JP2013537647A (ja)
KR (4) KR20130069756A (ja)
CN (4) CN103038821B (ja)
BR (1) BR112013002166B1 (ja)
ES (1) ES2611664T3 (ja)
HU (1) HUE032264T2 (ja)
TW (1) TW201214416A (ja)
WO (4) WO2012016110A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018511821A (ja) * 2015-03-09 2018-04-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化する方法、および符号化されたオーディオ信号を復号化する方法
JP2019124947A (ja) * 2013-10-18 2019-07-25 テレフオンアクチーボラゲット エルエム エリクソン(パブル) スペクトルピーク位置の符号化及び復号化

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2356492T3 (es) * 2005-07-22 2011-04-08 France Telecom Método de conmutación de tasa de transmisión en decodificación de audio escalable en tasa de transmisión y ancho de banda.
ES2559981T3 (es) * 2010-07-05 2016-02-17 Nippon Telegraph And Telephone Corporation Método de codificación, método de decodificación, dispositivo, programa y medio de registro
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
CN103329199B (zh) * 2011-01-25 2015-04-08 日本电信电话株式会社 编码方法、编码装置、周期性特征量决定方法、周期性特征量决定装置、程序、记录介质
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
WO2012122297A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
WO2012122299A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
PT3321931T (pt) 2011-10-28 2020-02-25 Fraunhofer Ges Forschung Aparelho de codificação e método de codificação
RU2505921C2 (ru) * 2012-02-02 2014-01-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и устройство кодирования и декодирования аудиосигналов (варианты)
WO2013147666A1 (en) * 2012-03-29 2013-10-03 Telefonaktiebolaget L M Ericsson (Publ) Transform encoding/decoding of harmonic audio signals
DE202013005408U1 (de) * 2012-06-25 2013-10-11 Lg Electronics Inc. Mikrophonbefestigungsanordnung eines mobilen Endgerätes
CN103516440B (zh) 2012-06-29 2015-07-08 华为技术有限公司 语音频信号处理方法和编码装置
EP2685448B1 (en) * 2012-07-12 2018-09-05 Harman Becker Automotive Systems GmbH Engine sound synthesis
JP6096896B2 (ja) * 2012-07-12 2017-03-15 ノキア テクノロジーズ オーユー ベクトル量子化
US8885752B2 (en) * 2012-07-27 2014-11-11 Intel Corporation Method and apparatus for feedback in 3D MIMO wireless systems
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
ES2753228T3 (es) 2012-11-05 2020-04-07 Panasonic Ip Corp America Dispositivo de codificación de audio de voz, dispositivo de decodificación de audio de voz, procedimiento de codificación de audio de voz y procedimiento de decodificación de audio de voz
CN103854653B (zh) * 2012-12-06 2016-12-28 华为技术有限公司 信号解码的方法和设备
PL3457400T3 (pl) * 2012-12-13 2024-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie do kodowania głosowego audio, urządzenie do dekodowania głosowego audio, sposób kodowania głosowego audio i sposób dekodowania głosowego audio
US9577618B2 (en) 2012-12-20 2017-02-21 Advanced Micro Devices, Inc. Reducing power needed to send signals over wires
JP6173484B2 (ja) 2013-01-08 2017-08-02 ドルビー・インターナショナル・アーベー 臨界サンプリングされたフィルタバンクにおけるモデル・ベースの予測
AU2014211544B2 (en) * 2013-01-29 2017-03-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in perceptual transform audio coding
JP6407150B2 (ja) 2013-06-11 2018-10-17 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音響信号の帯域幅拡張を行う装置及び方法
CN104282308B (zh) 2013-07-04 2017-07-14 华为技术有限公司 频域包络的矢量量化方法和装置
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
CN104347082B (zh) * 2013-07-24 2017-10-24 富士通株式会社 弦波帧检测方法和设备以及音频编码方法和设备
US9224402B2 (en) 2013-09-30 2015-12-29 International Business Machines Corporation Wideband speech parameterization for high quality synthesis, transformation and quantization
US8879858B1 (en) 2013-10-01 2014-11-04 Gopro, Inc. Multi-channel bit packing engine
JP6400590B2 (ja) * 2013-10-04 2018-10-03 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音響信号符号化装置、音響信号復号装置、端末装置、基地局装置、音響信号符号化方法及び復号方法
US10049683B2 (en) 2013-10-21 2018-08-14 Dolby International Ab Audio encoder and decoder
EP3913808A1 (en) * 2013-11-12 2021-11-24 Telefonaktiebolaget LM Ericsson (publ) Split gain shape vector coding
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
WO2015136078A1 (en) * 2014-03-14 2015-09-17 Telefonaktiebolaget L M Ericsson (Publ) Audio coding method and apparatus
CN104934032B (zh) * 2014-03-17 2019-04-05 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
SG11201701197TA (en) 2014-07-25 2017-03-30 Panasonic Ip Corp America Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method
US9620136B2 (en) 2014-08-15 2017-04-11 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
US9672838B2 (en) 2014-08-15 2017-06-06 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
US9336788B2 (en) 2014-08-15 2016-05-10 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
CA2964906A1 (en) 2014-10-20 2016-04-28 Audimax, Llc Systems, methods, and devices for intelligent speech recognition and processing
US20160232741A1 (en) * 2015-02-05 2016-08-11 Igt Global Solutions Corporation Lottery Ticket Vending Device, System and Method
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
DE102015104864A1 (de) 2015-03-30 2016-10-06 Thyssenkrupp Ag Lagerelement für einen Stabilisator eines Fahrzeugs
EP3320539A1 (en) * 2015-07-06 2018-05-16 Nokia Technologies OY Bit error detector for an audio signal decoder
EP3171362B1 (en) * 2015-11-19 2019-08-28 Harman Becker Automotive Systems GmbH Bass enhancement and separation of an audio signal into a harmonic and transient signal component
US10210874B2 (en) * 2017-02-03 2019-02-19 Qualcomm Incorporated Multi channel coding
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US11531695B2 (en) * 2017-08-23 2022-12-20 Google Llc Multiscale quantization for fast similarity search
WO2019056108A1 (en) * 2017-09-20 2019-03-28 Voiceage Corporation METHOD AND DEVICE FOR EFFICIENT DISTRIBUTION OF A BINARY BUDGET IN A CELP CODEC
CN108153189B (zh) * 2017-12-20 2020-07-10 中国航空工业集团公司洛阳电光设备研究所 一种民机显示控制器的电源控制电路及方法
WO2019165642A1 (en) * 2018-03-02 2019-09-06 Intel Corporation Adaptive bitrate coding for spatial audio streaming
KR20230058546A (ko) 2018-04-05 2023-05-03 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 컴포트 노이즈 생성 지원
CN110704024B (zh) * 2019-09-28 2022-03-08 中昊芯英(杭州)科技有限公司 一种矩阵处理装置、方法及处理设备
US20210209462A1 (en) * 2020-01-07 2021-07-08 Alibaba Group Holding Limited Method and system for processing a neural network
CN111681639B (zh) * 2020-05-28 2023-05-30 上海墨百意信息科技有限公司 一种多说话人语音合成方法、装置及计算设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
JP2001249698A (ja) * 2000-03-06 2001-09-14 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータ取得方法、音声復号方法及び装置
JP2004538525A (ja) * 2001-08-08 2004-12-24 アミューズテック カンパニー リミテッド 周波数分析によるピッチ判断方法および装置
JP2006301464A (ja) * 2005-04-22 2006-11-02 Kyushu Institute Of Technology ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法

Family Cites Families (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3978287A (en) * 1974-12-11 1976-08-31 Nasa Real time analysis of voiced sounds
US4516258A (en) 1982-06-30 1985-05-07 At&T Bell Laboratories Bit allocation generator for adaptive transform coder
JPS6333935A (ja) 1986-07-29 1988-02-13 Sharp Corp ゲイン/シエイプ・ベクトル量子化器
US4899384A (en) 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
JPH01205200A (ja) 1988-02-12 1989-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方式
US4964166A (en) * 1988-05-26 1990-10-16 Pacific Communication Science, Inc. Adaptive transform coder having minimal bit allocation processing
US5388181A (en) 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
US5630011A (en) 1990-12-05 1997-05-13 Digital Voice Systems, Inc. Quantization of harmonic amplitudes representing speech
US5222146A (en) 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
EP0551705A3 (en) 1992-01-15 1993-08-18 Ericsson Ge Mobile Communications Inc. Method for subbandcoding using synthetic filler signals for non transmitted subbands
CA2088082C (en) 1992-02-07 1999-01-19 John Hartung Dynamic bit allocation for three-dimensional subband video coding
IT1257065B (it) 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
KR100188912B1 (ko) 1992-09-21 1999-06-01 윤종용 서브밴드코딩의 비트재할당 방법
US5664057A (en) 1993-07-07 1997-09-02 Picturetel Corporation Fixed bit rate speech encoder/decoder
JP3228389B2 (ja) 1994-04-01 2001-11-12 株式会社東芝 利得形状ベクトル量子化装置
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5751905A (en) 1995-03-15 1998-05-12 International Business Machines Corporation Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
SE506379C3 (sv) 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5692102A (en) 1995-10-26 1997-11-25 Motorola, Inc. Method device and system for an efficient noise injection process for low bitrate audio compression
US5692949A (en) 1995-11-17 1997-12-02 Minnesota Mining And Manufacturing Company Back-up pad for use with abrasive articles
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5781888A (en) 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
JP3240908B2 (ja) 1996-03-05 2001-12-25 日本電信電話株式会社 声質変換方法
JPH09288498A (ja) 1996-04-19 1997-11-04 Matsushita Electric Ind Co Ltd 音声符号化装置
JP3707153B2 (ja) 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
EP0883107B9 (en) 1996-11-07 2005-01-26 Matsushita Electric Industrial Co., Ltd Sound source vector generator, voice encoder, and voice decoder
FR2761512A1 (fr) 1997-03-25 1998-10-02 Philips Electronics Nv Dispositif de generation de bruit de confort et codeur de parole incluant un tel dispositif
US6064954A (en) 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
WO1999003095A1 (en) 1997-07-11 1999-01-21 Koninklijke Philips Electronics N.V. Transmitter with an improved harmonic speech encoder
DE19730130C2 (de) 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6233550B1 (en) 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US5999897A (en) * 1997-11-14 1999-12-07 Comsat Corporation Method and apparatus for pitch estimation using perception based analysis by synthesis
JP3802219B2 (ja) * 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置
US6301556B1 (en) 1998-03-04 2001-10-09 Telefonaktiebolaget L M. Ericsson (Publ) Reducing sparseness in coded speech signals
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP3515903B2 (ja) 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
US6094629A (en) 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6766288B1 (en) 1998-10-29 2004-07-20 Paul Reed Smith Guitars Fast find fundamental method
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
US6246345B1 (en) 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
CA2368453C (en) 1999-04-16 2009-12-08 Grant Allen Davidson Using gain-adaptive quantization and non-uniform symbol lengths for audio coding
JP4242516B2 (ja) 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6952671B1 (en) 1999-10-04 2005-10-04 Xvd Corporation Vector quantization with a non-structured codebook for audio compression
JP2001242896A (ja) 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
CA2359260C (en) 2000-10-20 2004-07-20 Samsung Electronics Co., Ltd. Coding apparatus and method for orientation interpolator node
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
JP3636094B2 (ja) 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
ATE320651T1 (de) 2001-05-08 2006-04-15 Koninkl Philips Electronics Nv Kodieren eines audiosignals
JP3601473B2 (ja) 2001-05-11 2004-12-15 ヤマハ株式会社 ディジタルオーディオ圧縮回路および伸長回路
US7027982B2 (en) 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7310598B1 (en) * 2002-04-12 2007-12-18 University Of Central Florida Research Foundation, Inc. Energy based split vector quantizer employing signal representation in multiple transform domains
DE10217297A1 (de) 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
JP4296752B2 (ja) 2002-05-07 2009-07-15 ソニー株式会社 符号化方法及び装置、復号方法及び装置、並びにプログラム
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
TWI288915B (en) 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US7069212B2 (en) * 2002-09-19 2006-06-27 Matsushita Elecric Industrial Co., Ltd. Audio decoding apparatus and method for band expansion with aliasing adjustment
JP4657570B2 (ja) 2002-11-13 2011-03-23 ソニー株式会社 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体
FR2849727B1 (fr) 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
JP4191503B2 (ja) 2003-02-13 2008-12-03 日本電信電話株式会社 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
US7996234B2 (en) 2003-08-26 2011-08-09 Akikaze Technologies, Llc Method and apparatus for adaptive variable bit rate audio encoding
US7613607B2 (en) 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
CN1998045A (zh) 2004-07-13 2007-07-11 松下电器产业株式会社 音调频率估计装置以及音调频率估计方法
US20060015329A1 (en) 2004-07-19 2006-01-19 Chu Wai C Apparatus and method for audio coding
CN102201242B (zh) 2004-11-05 2013-02-27 松下电器产业株式会社 编码装置、解码装置、编码方法及解码方法
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
WO2007052088A1 (en) 2005-11-04 2007-05-10 Nokia Corporation Audio compression
CN101030378A (zh) 2006-03-03 2007-09-05 北京工业大学 一种建立增益码书的方法
KR100770839B1 (ko) * 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
US8712766B2 (en) 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
US7987089B2 (en) 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8374857B2 (en) * 2006-08-08 2013-02-12 Stmicroelectronics Asia Pacific Pte, Ltd. Estimating rate controlling parameters in perceptual audio encoders
US20080059201A1 (en) 2006-09-03 2008-03-06 Chih-Hsiang Hsiao Method and Related Device for Improving the Processing of MP3 Decoding and Encoding
JP4396683B2 (ja) 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
JP5096474B2 (ja) 2006-10-10 2012-12-12 クゥアルコム・インコーポレイテッド オーディオ信号を符号化及び復号化する方法及び装置
US20080097757A1 (en) * 2006-10-24 2008-04-24 Nokia Corporation Audio coding
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
EP2101318B1 (en) 2006-12-13 2014-06-04 Panasonic Corporation Encoding device, decoding device and corresponding methods
CN101548318B (zh) 2006-12-15 2012-07-18 松下电器产业株式会社 编码装置、解码装置以及其方法
KR101299155B1 (ko) * 2006-12-29 2013-08-22 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
FR2912249A1 (fr) 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
EP1973101B1 (en) 2007-03-23 2010-02-24 Honda Research Institute Europe GmbH Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8005023B2 (en) 2007-06-14 2011-08-23 Microsoft Corporation Client-side echo cancellation for multi-party audio conferencing
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7774205B2 (en) 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
JP5253502B2 (ja) 2007-06-21 2013-07-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ベクトルを符号化する方法
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
DK3401907T3 (da) 2007-08-27 2020-03-02 Ericsson Telefon Ab L M Fremgangsmåde og indretning til perceptuel spektral afkodning af et audiosignal omfattende udfyldning af spektrale huller
US8566106B2 (en) 2007-09-11 2013-10-22 Voiceage Corporation Method and device for fast algebraic codebook search in speech and audio coding
WO2009048239A2 (en) * 2007-10-12 2009-04-16 Electronics And Telecommunications Research Institute Encoding and decoding method using variable subband analysis and apparatus thereof
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8139777B2 (en) 2007-10-31 2012-03-20 Qnx Software Systems Co. System for comfort noise injection
CN101465122A (zh) 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和系统
US20090319261A1 (en) 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
KR101518532B1 (ko) 2008-07-11 2015-05-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램
ATE539433T1 (de) 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
EP2328670B1 (en) 2008-08-26 2017-04-12 Huawei Technologies Co., Ltd. System and method for wireless communications
EP2182513B1 (en) 2008-11-04 2013-03-20 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
MY180550A (en) 2009-01-16 2020-12-02 Dolby Int Ab Cross product enhanced harmonic transposition
RU2519027C2 (ru) 2009-02-13 2014-06-10 Панасоник Корпорэйшн Устройство векторного квантования, устройство векторного обратного квантования и способы для этого
FR2947945A1 (fr) * 2009-07-07 2011-01-14 France Telecom Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
WO2011110594A1 (en) 2010-03-10 2011-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context
US9998081B2 (en) 2010-05-12 2018-06-12 Nokia Technologies Oy Method and apparatus for processing an audio signal based on an estimated loudness
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
JP2001249698A (ja) * 2000-03-06 2001-09-14 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータ取得方法、音声復号方法及び装置
JP2004538525A (ja) * 2001-08-08 2004-12-24 アミューズテック カンパニー リミテッド 周波数分析によるピッチ判断方法および装置
JP2006301464A (ja) * 2005-04-22 2006-11-02 Kyushu Institute Of Technology ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6014009712; Maciej BARTKOWIAK, et al.: '"Harmonic Sinusoidal+Noise Modeling of Audio Based on Multiple F0 Estimation"' Convention Paper Presented at the 125th Convention No.7510, 200810, pp.1-7, Audio Engineering Society *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019124947A (ja) * 2013-10-18 2019-07-25 テレフオンアクチーボラゲット エルエム エリクソン(パブル) スペクトルピーク位置の符号化及び復号化
JP2018511821A (ja) * 2015-03-09 2018-04-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化する方法、および符号化されたオーディオ信号を復号化する方法
JP2020038380A (ja) * 2015-03-09 2020-03-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化する方法、および符号化されたオーディオ信号を復号化する方法
US10600428B2 (en) 2015-03-09 2020-03-24 Fraunhofer-Gesellschaft zur Foerderung der angewandten Forschug e.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
JP7078592B2 (ja) 2015-03-09 2022-05-31 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化する方法、および符号化されたオーディオ信号を復号化する方法

Also Published As

Publication number Publication date
JP5694531B2 (ja) 2015-04-01
EP3852104A1 (en) 2021-07-21
EP2599082B1 (en) 2020-11-25
KR20130069756A (ko) 2013-06-26
JP2013537647A (ja) 2013-10-03
EP2599081B1 (en) 2020-12-23
WO2012016128A3 (en) 2012-04-05
EP2599081A2 (en) 2013-06-05
ES2611664T3 (es) 2017-05-09
CN103038821B (zh) 2014-12-24
EP2599080A2 (en) 2013-06-05
JP5587501B2 (ja) 2014-09-10
CN103038822B (zh) 2015-05-27
US8831933B2 (en) 2014-09-09
JP2013534328A (ja) 2013-09-02
KR20130036364A (ko) 2013-04-11
HUE032264T2 (en) 2017-09-28
BR112013002166B1 (pt) 2021-02-02
US20120029924A1 (en) 2012-02-02
WO2012016110A3 (en) 2012-04-05
JP5694532B2 (ja) 2015-04-01
CN103052984A (zh) 2013-04-17
US9236063B2 (en) 2016-01-12
EP3021322B1 (en) 2017-10-04
KR101445509B1 (ko) 2014-09-26
EP2599082A2 (en) 2013-06-05
JP2013539548A (ja) 2013-10-24
EP2599080B1 (en) 2016-10-19
US20120029925A1 (en) 2012-02-02
WO2012016128A2 (en) 2012-02-02
CN103038822A (zh) 2013-04-10
KR101442997B1 (ko) 2014-09-23
WO2012016122A2 (en) 2012-02-02
TW201214416A (en) 2012-04-01
KR20130036361A (ko) 2013-04-11
BR112013002166A2 (pt) 2016-05-31
WO2012016110A2 (en) 2012-02-02
US8924222B2 (en) 2014-12-30
KR20130037241A (ko) 2013-04-15
EP3852104B1 (en) 2023-08-16
US20120029926A1 (en) 2012-02-02
WO2012016122A3 (en) 2012-04-12
CN103052984B (zh) 2016-01-20
CN103038821A (zh) 2013-04-10
EP3021322A1 (en) 2016-05-18
CN103038820A (zh) 2013-04-10
WO2012016126A3 (en) 2012-04-12
WO2012016126A2 (en) 2012-02-02
KR101445510B1 (ko) 2014-09-26
US20120029923A1 (en) 2012-02-02

Similar Documents

Publication Publication Date Title
JP5694531B2 (ja) 高調波信号のコーディングのためのシステム、方法、装置、およびコンピュータ可読媒体
KR101445512B1 (ko) 잡음 주입을 위한 시스템, 방법, 장치, 및 컴퓨터 판독가능 매체
CN110867190A (zh) 信号编码方法和装置以及信号解码方法和装置
ES2653799T3 (es) Sistemas, procedimientos, aparatos y medios legibles por ordenador para la decodificación de señales armónicas
EP2599079A2 (en) Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130322

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150204

R150 Certificate of patent or registration of utility model

Ref document number: 5694531

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250