JP6148342B2

JP6148342B2 - 低または中ビットレートに対する知覚品質に基づくオーディオ分類

Info

Publication number: JP6148342B2
Application number: JP2015531459A
Authority: JP
Inventors: ヤン・ガオ
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2012-09-18
Filing date: 2013-09-18
Publication date: 2017-06-14
Anticipated expiration: 2033-09-18
Also published as: BR112015005980A2; JP6545748B2; EP2888734A1; EP3296993B1; JP2015534109A; US20170116999A1; JP6843188B2; EP2888734B1; KR101801758B1; US20140081629A1; ES2870487T3; US11393484B2; SG10201706360RA; JP2019174834A; EP2888734A4; KR20170018091A; SG11201502040YA; US20190237088A1; US10283133B2; HK1206863A1

Description

本願は、２０１２年９月１８日に出願された、“Improving AUDIO/VOICED Classification Based on Perceptual Quality for Low or Medium Bit Rates”と題する、米国仮出願第６１／７０２３４２の係属である、２０１３年９月１３日に出願された、“AUDIO CLASSIFICATION BASED ON PERCEPTUAL QUALITY FOR LOW OR MEDIUM BIT RATES”と題する、米国特許出願第１４／０２７０５２に対して優先権を主張し、その両方が、全体で再現されるかのように、参照によって本明細書に組み込まれる。

本発明は、一般に、低または中ビットレートに対する知覚品質に基づくオーディオ分類に関する。

オーディオ信号は、典型的には、オーディオデータの圧縮を行うために、格納または送信される前に符号化され、そのことは、オーディオデータの伝送帯域幅および／またはストレージ要件を低減する。オーディオ圧縮アルゴリズムは、コーディング、パターン認識、線形予測および他の技術を介して情報の冗長性を低減する。オーディオ圧縮アルゴリズムは、本質的に不可逆的または可逆的のいずれかであることができ、不可逆的圧縮アルゴリズムは、可逆的圧縮アルゴリズムよりも大きなデータ圧縮を達成する。

技術的利点は、一般に、本開示の態様によって達成され、前記態様は、低または中ビットレートに対する知覚品質に基づくAUDIO/VOICED分類を改善するための方法および技術を説明する。

一態様によると、符号化の前に信号を分類するための方法が提供される。本実施例では、前記方法は、オーディオデータを有するデジタル信号を受信するステップを含む。デジタル信号は、初めは、AUDIO信号として分類される。前記方法はさらに、デジタル信号の１つまたは複数の周期性パラメータが基準を満たすとき、デジタル信号を、VOICED信号として再分類するステップと、デジタル信号の分類に従って、デジタル信号を符号化するステップとを含む。デジタル信号がAUDIO信号として分類される場合、デジタル信号は周波数領域において符号化される。デジタル信号がVOICED信号として再分類される場合、デジタル信号は時間領域において符号化される。本方法を実行するための装置がまた提供される。

他の態様によると、符号化の前に信号を分類するための別の方法が提供される。本実施例では、前記方法は、オーディオデータを有するデジタル信号を受信するステップを含む。デジタル信号は、初めは、AUDIO信号として分類される。前記方法はさらに、デジタル信号におけるサブフレームに対して、正規化ピッチ相関値を決定するステップと、正規化ピッチ相関値を平均することによって、平均正規化ピッチ相関値を決定するステップと、それぞれのサブフレームに関連付けられた正規化ピッチ相関値を比較することによって、デジタル信号におけるサブフレーム間のピッチ差を決定するステップとを含む。前記方法はさらに、ピッチ差の各々が第１閾値を下回るとともに、平均された正規化ピッチ相関値が第２閾値を越える場合、デジタル信号をVOICED信号として再分類するステップと、デジタル信号の分類に従って、デジタル信号を符号化するステップとを含む。デジタル信号がAUDIO信号として分類される場合、デジタル信号は周波数領域において符号化される。デジタル信号がVOICED信号として分類される場合、デジタル信号は時間領域において符号化される。

図１は、実施形態の符号励振線形予測（code-excited linear prediction：CELP）エンコーダの図を示している。図２は、実施形態の初期デコーダの図を示している。図３は、実施形態のエンコーダの図を示している。図４は、実施形態のデコーダの図を示している。図５は、デジタル信号のピッチ周期を示すグラフを示している。図６は、別のデジタル信号のピッチ周期を示すグラフを示している。図７Aは、周波数領域の知覚コーデックの図を示している。図７Bは、周波数領域の知覚コーデックの図を示している。図８Aは、低／中ビットレートのオーディオ符号化システムの図を示している。図８Bは、低／中ビットレートのオーディオ符号化システムの図を示している。図９は、実施形態の処理システムのブロック図を示している。

異なる図における対応する数字および記号は一般に、特記がないものは、対応する部分を参照する。図面は、実施形態の関連する態様を明確に示すために描かれており、必ずしも縮尺通りに描かれてはいない。

本開示の実施形態の作成および使用は、以下に詳細に説明される。しかしながら、本明細書に開示される概念は、多様な具体的な状況において実施されることができるとともに、本明細書に記載される具体的な実施形態は単に例示であり、特許請求の範囲を限定するために提供されるものではないことが理解されるべきである。さらに、本明細書において、添付の特許請求の範囲によって定義される本開示の精神および範囲から逸脱することなく、様々な変更、置換および改変が行われることができることは、理解されるべきである。

オーディオ信号は典型的に、時間領域または周波数領域のいずれかにおいて符号化される。さらに具体的には、音声データを搬送するオーディオ信号は典型的に、VOICE信号として分類されるとともに、時間領域符号化技術を使用して符号化され、一方、非音声データを搬送するオーディオ信号は典型的に、AUDIO信号として分類されるとともに、周波数領域符号化技術を使用して符号化される。特に、本明細書では、「オーディオ信号」という用語は、サウンドデータ（音声データ、非音声データ等）を搬送する任意の信号を指すために使用され、一方で、本明細書では、「AUDIO信号」という用語は、具体的な信号分類を指すために使用される。オーディオ信号を分類するこの従来の方式は、典型的に、音声データは通常、本質的に周期的であるため、高品質な符号化信号を生成し、従って、時間領域の符号化に対してより順応性を有し、一方で、非音声データは典型的に、本質的に非周期的であり、従って、周波数領域の符号化に対してより順応性を有する。しかしながら、非音声信号の中には、時間領域の符号化を保証するに十分な周期性を示すものもある。

本開示の態様は、オーディオ信号の周期性パラメータが閾値を越える場合、非音声データを搬送するオーディオ信号をVOICE信号として再分類する。いくつかの実施形態では、低および／または中ビットレートAUDIO信号のみが、再分類について考慮される。他の実施形態では、全てのAUDIO信号が考慮される。周期性パラメータは、周期性を示す任意の特性または特性のセットを含むことができる。例えば、周期性パラメータは、オーディオ信号におけるサブフレーム間のピッチ差、１つまたは複数のサブフレームに対する正規化ピッチ相関、オーディオ信号に対する平均正規化ピッチ相関、またはそれらの組み合わせを含んでもよい。VOICED信号として再分類されるオーディオ信号は、時間領域において符号化されてもよく、一方で、AUDIO信号として分類されたままのオーディオ信号は、周波数領域において符号化されてもよい。

一般的に言うと、最高品質を達成するために、音声信号に時間領域符号化を使用するとともに、音楽信号に周波数領域符号化を使用することが望ましい。しかしながら、非常に周期的な信号のような、いくつかの特定の音楽信号に対しては、非常に高い長期予測（Long-Term Prediction：LTP）のゲイン（gain）から利益を得ることによって、時間領域符号化を使用することが望ましい場合がある。符号化前のオーディオ信号の分類は、従って、注意深く実行されるべきであるとともに、信号のビットレートおよび／または符号化アルゴリズムの特性のような、様々な補助的要因を考慮することによって利益を得ることができる。

音声データは典型的には、スペクトルおよび／またはエネルギーが他の信号タイプ（例えば、音楽等）よりも速く変化する、高速に変化する信号によって特徴づけられる。音声信号は、それらのオーディオデータの特性に応じて、UNVOICED信号、VOICED信号、GENERIC信号、またはTRANSITION信号として分類されることができる。非音声データ（例えば、音楽等）は典型的には、そのスペクトルおよび／またはエネルギーが音声信号よりもゆっくりと変化する、ゆっくりと変化する信号として定義される。通常、音楽信号は、AUDIO信号のトーンおよびハーモニック（harmonic）タイプを含んでもよい。高ビットレート符号化に対して、典型的には、非音声信号を符号化するために周波数領域符号化アルゴリズムを使用することが有利であり得る。しかしながら、低または中ビットレート符号化アルゴリズムが使用される場合、周波数領域符号化は低または中ビットレートにおける全周波数帯域を正確に符号化することは不可能であり得るため、強い周期性を示す非音声信号のトーンまたはハーモニックタイプを符号化するために、時間領域符号化を使用することは有利であり得る。換言すると、強い周期性を示す非音声信号を周波数領域において符号化することは、符号化されていないか、または大雑把に符号化されたいくつかの周波数サブバンドを生じ得る。一方、時間領域符号化のCELPタイプは、強い周期性から多くの利益を得ることができるLTP機能を有する。以下の説明では、詳細な実施例を示す。

複数のパラメータが初めに定義される。ピッチラグPに対して、正規化ピッチ相関は、しばしば以下のような数理的形式で定義される：

この式において、S_w(n)は、重み付けされた音声信号であり、分子は相関であり、分母はエネルギー正規化係数である。Voicingが現在の音声フレームにおける４つのサブフレームの平均正規化ピッチ相関値を表すとすると、Voicing = [ R₁(P₁) + R₂(P₂) + R₃(P₃) + R₄(P₄) ] / 4 である。R₁(P₁)、R₂(P₂)、R₃(P₃)およびR₄(P₄)は、現在の音声フレームの各サブフレームに対して計算された４つの正規化ピッチ相関であって、各サブフレームに対するP₁、P₂、P₃およびP₄はP=PIT_MINからP=PIT_MAXまでのピッチ範囲内で見つけられた最善のピッチ候補である。前のフレームから現在のフレームまでの平滑化されたピッチ相関は、以下の式を使用して求めることができる：

サブフレーム間のピッチ差は、以下の式を使用して定義されることができる：

オーディオ信号は、初めは、AUDIO信号として分類されるとともに、図８に示されるアルゴリズムのような、周波数領域符号化アルゴリズムによって符号化されるとする。上述の品質の理由の点から、AUDIOクラスは、VOICEDクラスに変更されることができ、次いで、CELPのような時間領域符号化方法によって符号化されることができる。以下では、信号を再分類するためのCコードの例を示す。
/* 低ビットレートのためのAUDIOからVOICEDへの安全な補正 */
if (coder_type== AUDIO & localVAD==1 & dpit1<=3.f & dpit2<=3.f & dpit3<=3.f & Voicing>0.95f & Voicing_sm>0.97)
{coder_type = VOICED;}

従って、低または中ビットレートにおいて、いくつかのAUDIO信号または音楽信号の知覚品質は、符号化の前にVOICED信号としてそれらを再分類することによって改善されることができる。以下では、信号を再分類するためのCコードの例を示す。
ANNEXE C-CODE
/* 低ビットレートのためのAUDIOからVOICEDへの安全な補正 */
voicing=(voicing_fr[0]+voicing_fr[1]+voicing_fr[2]+voicing_fr[3])/4;
*voicing_sm = 0.75f*(*voicing_sm) + 0.25f*voicing;
dpit1 = (float)fabs(T_op_fr[0]-T_op_fr[1]);
dpit2 = (float)fabs(T_op_fr[1]-T_op_fr[2]);
dpit3 = (float)fabs(T_op_fr[2]-T_op_fr[3]);
if( *coder_type>UNVOICED && localVAD==1 && dpit1<=3.f && dpit2<=3.f
&& dpit3<=3.f && *coder_type==AUDIO && voicing>0.95f
&& *voicing_sm>0.97)
{
*coder_type = VOICED;

オーディオ信号は、時間領域または周波数領域において符号化されることができる。従来の時間領域パラメトリックオーディオ符号化技術（time domain parametric audio coding technique）は、短い間隔で信号の音声サンプルのパラメータを推定すると同様に、符号化された情報の量を低減させるために、音声／オーディオ信号における固有の冗長性を使用する。この冗長性は、主に、準周期的レートにおける音声波形の繰返しと、音声信号のゆっくり変化するスペクトル包絡（envelop）に起因する。音声波形の冗長性は、有声または無声のような、いくつかの異なるタイプの音声信号に関して考慮されてもよい。有声音に対して、音声信号は、本質的に、周期的である。しかしながら、この周期性は、音声セグメントの期間にわたって可変であってもよく、周期波の形状は通常、セグメントからセグメントに徐々に変化する。時間領域音声符号化は、そのような周期性を探索することから大きな利益を得ることができた。有声音周期はまた、ピッチと呼ばれ、ピッチ予測はしばしば、長期予測（LTP）と名付けられる。無声音に関しては、信号は、よりランダムノイズのようなものであるとともに、より少ない予測可能量を有する。有声音および無声音は、以下のように定義される。

いずれの場合においても、パラメトリック符号化は、音声信号の励起（excitation）コンポーネントを、スペクトル包絡コンポーネントから分離することによって、音声セグメントの冗長性を低減するために使用されてもよい。ゆっくりと変化するスペクトル包絡は、短期予測（Short-Term Prediction：STP）とも呼ばれる、線形予測符号化（Linear Prediction Coding：LPC）によって表されることができる。時間領域音声符号化はまた、そのような短期予測を探索することから大きな利益を得ることができた。符号化の利点は、パラメータが変化する遅いレートから生じる。しかし、パラメータが数ミリ秒内に保持されている値から大きく異なることは稀である。従って、8kHz、12.8kHzまたは16kHzのサンプリングレートにおいては、音声符号化アルゴリズムでは、通常のフレーム期間は、10から30ミリ秒の範囲内にあるようである。20ミリ秒のフレーム期間は、最も一般的な選択肢であると思われる。G.723.1、G.729、G.718、EFR、SMV、AMR、VMR-WBまたはAMR-WBのような、より最近の周知の規格においては、符号励振線形予測（Code-Excited Linear Prediction：CELP）技術が採用されてきた。CELPは、一般的に、符号化励起、長期予測および短期予測の技術的な組み合わせとして理解されている。符号励振線形予測（CELP）音声符号化は、異なるコーデックに対するCELPの詳細は大幅に異なる可能性があるが、音声圧縮領域で非常に人気なアルゴリズム原理である。

図１は、初期の符号励振線形予測（CELP）エンコーダを示し、合成音声１０２と原音声１０１との間の重み付けされた誤差１０９は、多くの場合、いわゆる合成による分析の方法を使用することによって最小化される。W(z)は、誤差の重み付けフィルタ１１０である。1/B(z)は、長期線形予測フィルタ１０５であり、1/A(z)は、短期線形予測フィルタ１０３である。符号化励起１０８は、固定コードブック励起とも呼ばれ、線形フィルタを通過する前にゲインG_c１０７によってスケーリングされる。短期線形フィルタ１０３は、元の信号１０１を分析することによって取得され、以下の係数のセットによって表されることができる：

重み付けフィルタ１１０は、上述の短期予測フィルタに多少関連している。実施形態の重み付けフィルタは、以下の式によって表される：

ここで、β＜αであり、0＜β＜1であり、0＜α≦1である。長期予測１０５は、ピッチおよびピッチゲインに依存する。ピッチは元の信号、残留信号または重み付けされた元の信号から推定されることができる。長期予測機能は主に、以下のように表現されることができる：
B(z) = 1 − g_p・z^-pitch

符号化励起１０８は、通常、パルス状の信号またはノイズ状の信号を有し、数理的に構成されるか、またはコードブック内に保存されることができる。最後に符号化励起のインデックス、量子化されたゲインのインデックス、量子化された長期予測パラメータのインデックスおよび量子化された短期予測パラメータのインデックスは、デコーダに送信される。

図２は、初期デコーダを示し、合成音声２０６の後に後処理ブロック２０７を追加する。デコーダは、符号化励起２０１、長期予測２０３、短期予測２０５および後処理２０７を含むいくつかのブロックの組み合わせである。ブロック２０１、２０３および２０５は、図１のエンコーダの対応するブロック１０１、１０３及び１０５と同様に構成される。後処理はさらに、短期後処理と長期後処理から成っていてもよい。

図３は、過去の合成された励起３０４を含むか、またはピッチ周期で過去の励起ピッチサイクルを繰り返す、適応コードブック３０７を使用することによって、長期線形予測を実現した、基本的なCELPエンコーダを示している。ピッチラグは、大きいかまたは長い場合に、整数値において符号化されることができる。ピッチラグは、多くの場合、小さいかまたは短い場合に、より正確な小数値において符号化される。ピッチの周期情報は、励起の適応コンポーネントを生成するために採用される。この励起コンポーネントは、次いで、ゲインG_p３０５（ピッチゲインとも呼ばれる）によってスケーリングされる。２つのスケーリングされた励起コンポーネントは、短期線形予測フィルタ３０３を通過する前に共に追加される。２つのゲイン（G_pおよびG_c）は、量子化されて、次いでデコーダに送信される必要がある。

図４は、図３におけるエンコーダに対応する基本的なデコーダを示し、合成音声４０７の後に後処理ブロック４０８を追加する。このデコーダは、適応コードブック３０７を含むことを除いて、図２に示されるデコーダと類似している。デコーダは、符号化励起４０２、適応コードブック４０１、短期予測４０６および後処理４０８である、いくつかのブロックの組み合わせである。後処理を除く全てのブロックは、図３のエンコーダにおいて説明されたものと同じ定義を有する。後処理はさらに、短期後処理および長期後処理から成っていてもよい。

有声音は強い周期性を有するため、長期予測は有声音符号化に対して重要な役割を果たすことができる。有声音の隣接ピッチサイクルは互いに類似しており、そのことは、e(n) = G_p・e_p(n) + G_c・e_c(n)と表現される場合、この励起表現におけるピッチゲインG_pは、高いか、または1に近いことを数学的に意味する。ここで、e_p(n)は、過去の励起３０４を有する適応コードブック３０７から来る、nによって索引付けされたサンプルシリーズの１つのサブフレームであり、e_p(n)は、低周波数領域は多くの場合、高周波数領域に比べてより周期的であるか、またはハーモニックであるようにフィルタリングされた適応ローパスであってもよい。e_c(n)は、現在の励起寄与である、符号化励起コードブック３０８（固定コードブックとも呼ばれる）からである。e_c(n)はまた、ハイパスフィルタリング強調（enhancement）、ピッチ強調、分散強調、フォルマント強調等のように強調されてもよい。有声音に対して、適応コードブックからのe_p(n)の寄与は優性であることができるとともに、ピッチゲインG_p３０５は、約1である。励起は、通常、各サブフレームに対してアップデートされる。典型的なフレームサイズは20ミリ秒（ms）であるとともに、典型的なサブフレームサイズは5ミリ秒である。

有声音に対して、１つのフレームは、典型的には、２つ以上のピッチサイクルを含む。図５は、ピッチ周期５０３がサブフレームサイズ５０２よりも小さい例を示している。図６は、ピッチ周期６０３がサブフレームサイズ６０２よりも大きく、フレームサイズの半分よりも小さい例を示している。上述のように、CELPは、多くの場合、特定の人間の声質や、または人間の声の発声モデルから利益を得ることによって、音声信号を符号化するために使用される。CELPアルゴリズムは、様々なITU-T、MPEG、3GPPおよび3GPP2規格において使用されてきた非常に人気のある技術である。より効率的に音声信号を符号化するために、音声信号は異なるクラスに分類されてもよいとともに、各クラスは、異なる方法で符号化される。例えば、G.718、VMR-WBまたはAMR-WBのようないくつかの規格においては、音声信号は、UNVOICED、TRANSITION、GENERIC、VOICEDおよびNOISEに分類される。各クラスに対して、LPCまたはSTPフィルタが、スペクトル包絡を表すために使用されてもよいが、LPCフィルタへの励起は異なってもよい。UNVOICEDおよびNOISEは、ノイズ励起およびいくつかの励起強調によって符号化されてもよい。TRANSITIONは、適応コードブックまたはLTPを使用することなく、パルス励起およびいくつかの励起強調によって符号化されてもよい。GENERICは、G.729またはAMR-WBにおいて使用される代数CELP（Algebraic CELP）のような、従来のCELP方式によって符号化されてもよく、そこでは、１つの20ミリ秒フレームは、４つの5ミリ秒サブフレームを含み、適応コードブック励起コンポーネントおよび固定コードブック励起コンポーネントの両方とも、各サブフレームに対するある励起強調によって生成され、第１および第３サブフレームにおける適応コードブックのためのピッチラグは、最小ピッチ限度PIT_MINから最大ピッチ限度PIT_MAXまでの最大範囲において符号化され、第２および第４サブフレームにおける適応コードブックのためのピッチラグは、前の符号化ピッチラグから差動的に符号化される。VOICEDは、GENERICからわずかに異なるような方法において符号化されてもよく、第１サブフレームにおけるピッチラグは、最小ピッチ限度PIT_MINから最大ピッチ限度PIT_MAXまでの最大範囲において符号化され、他のサブフレームにおけるピッチラグは、前の符号化ピッチラグから差動的に符号化され、励起サンプリングレートが12.8kHzであると仮定すると、例えば、PIT_MINの値は、34かまたはそれより短くてもよく、PIT_MAXは231であってもよい。

現代のオーディオ／音声のデジタル信号通信システムでは、デジタル信号は、エンコーダにおいて圧縮され、圧縮された情報またはビットストリームはパケット化されるとともに通信チャネルを介してフレームによってデコーダフレームに送信されることができる。結合されたエンコーダおよびデコーダは、多くの場合、コーデックと呼ばれる。音声／オーディオ圧縮は、音声／オーディオ信号を表すビット数を低減するために使用されてもよく、それによって、送信のために必要とされる帯域幅および／またはビットレートを低減する。一般に、より高いビットレートは、より高いオーディオ品質をもたらし、一方、より低いビットレートは、より低いオーディオ品質をもたらす。

フィルタバンク技術に基づくオーディオ符号化が広く使用されている。信号処理においては、フィルタバンクは、入力信号を複数のコンポーネントに分割するバンドパスフィルタのアレイであり、前記複数のコンポーネントはそれぞれ、元の入力信号の単一周波数サブバンドを搬送する。フィルタバンクによって行われる分解のプロセスは、分析と呼ばれ、フィルタバンク分析の出力は、フィルタバンク内にフィルタがあるのと同数のサブバンドを有するサブバンド信号と呼ばれる。再構築プロセスは、フィルタバンク合成と呼ばれる。デジタル信号処理では、フィルタバンクという用語はまた、一般に、受信機のバンクに適用され、さらに、低減されたレートで再サンプリングされることができる低い中心周波数にサブバンドをダウンコンバートしてもよい。同じ合成された結果はまた、時々、バンドパスサブバンドをアンダーサンプリングすることによって達成されることができる。フィルタバンク分析の出力は、複素係数の形態であってもよい。各複素係数は、フィルタバンクの各サブバンドに対する余弦項（cosine term）および正弦項（sine term）をそれぞれ表す、実数要素および虚数要素を有する。

フィルタバンク分析およびフィルタバンク合成は、時間領域信号を周波数領域係数に変換するとともに、周波数領域係数を時間領域信号に逆変換する変換ペアの一種である。他の一般的な分析技術が、音声／オーディオ信号符号化において使用されてもよく、高速フーリエ変換（Fast Fourier Transform：FFT）および逆FFTや、離散フーリエ変換（Discrete Fourier Transform：DFT）および逆DFTや、離散余弦変換（Discrete cosine Transform：DCT）および逆DCTや、ならびに変形DCT（modified DCT：MDCT）および逆MDCTのような、余弦／正弦変換に基づく合成ペアを有する。

信号圧縮または周波数領域オーディオ圧縮に対するフィルタバンクの応用において、いくつかの周波数は、他の周波数よりも知覚的により重要である。分解した後、知覚的に重要な周波数は、これらの周波数における小さな差がこれらの差を保存する符号化スキームを使用することを保証するために知覚的に顕著であるため、細かい分解能によって符号化されることができる。一方、より知覚的に重要でない周波数は正確に複製されず、従って、より細かい詳細のいくつかが符号化中に失われるにもかかわらず、より粗い符号化スキームが使用されることができる。典型的なより粗い符号化スキームは、ハイバンド拡張（High Band Extension：HBE）としても知られている、帯域幅拡張（Bandwidth Extension：BWE）の概念に基づいてもよい。１つの最近人気な特定のBWEまたはHBEの手法は、サブバンドレプリカ（Sub Band Replica：SBR）またはスペクトル帯域複製（Spectral Band Replication：SBR）として知られている。これらの技術は、いくつかの周波数サブバンド（通常ハイバンド）を、ほとんどまたは全くビットレート割当量がなく符号化および復号化するという点で類似していて、それによって、通常の符号化／復号化手法よりも著しく低いビットレートを生み出す。SBR技術によって、高周波数帯域におけるスペクトルの細かい構造は、低周波数帯域からコピーされ、ランダムノイズが追加されてもよい。次に、高周波数帯域のスペクトル包絡は、エンコーダからデコーダに送信される側路情報を使用することによって成形される。

オーディオ圧縮の設計のための音響心理学的原理または知覚マスキング効果の使用は、理にかなっている。オーディオ／音声機器または通信は、全ての人間の知覚能力および制限とともに、人間との相互作用を対象とする。従来のオーディオ機器は、元に対して最大限の忠実度で信号を再生しようとする。より適切に指示された、および多くの場合より効率的な目標は、人間によって知覚できる忠実度を達成することである。これは知覚コーダ（perceptual coder）の目標である。デジタルオーディオ知覚コーダの１つの主な目標は、データの削減であるが、知覚符号化は、高度なビット割り当てを介してデジタルオーディオの表現を改善するために使用されることができる。知覚コーダの例の１つは、マルチバンドシステムであることができ、音響心理の臨界帯域を模倣するように、スペクトルを分割する（ボールマン（Ballman） 1991）。人間の知覚をモデル化することによって、知覚コーダは、人間が行うようにはるかに信号を処理することができるとともに、マスキングのような現象を利用することができる。これは目標である一方で、処理は、正確なアルゴリズムに依存する。一般的な人間の聴覚動作をカバーする非常に正確な知覚モデルを有することは難しいという事実によって、知覚モデルのいかなる数学的表現の精度もまだ限度がある。しかしながら、限られた精度で、知覚の概念は、オーディオコーデックの多くの設計を支援してきた。多くのMPEGオーディオ符号化スキームは、知覚マスキング効果を探索することから利益を得てきた。いくつかのITU標準コーデックはまた、知覚概念を使用し、例えば、ITU G.729.1は、知覚マスキング概念に基づいて、いわゆる動的ビット割り当てを行う。知覚の重要度に基づく動的ビット割り当て概念もまた、最近の3GPP EVS コーデックにおいて使用される。図７Aおよび図７Bは、典型的な周波数領域の知覚コーデックの簡潔な説明を提供する。入力信号７０１は初めに、非量子化周波数領域係数７０２を取得するために、周波数領域に変換される。係数を量子化する前に、マスキング機能（知覚の重要度）は、周波数スペクトルを多くのサブバンド（多くの場合、簡潔のために均等間隔である）に分割する。全てのサブバンドに分配される総ビット数が上限を超えないことを維持している間、各サブバンドは必要なビット数を動的に割り当てる。いくつかのサブバンドは、マスキング閾値よりも下であると判定された場合、さらに0ビットを割り当てる。決定が破棄されることができるものに関して行われると、残りはビットの使用可能数を割り当てられる。ビットは、マスクされたスペクトルに対して浪費されないため、ビットは、より大きな量で信号の残りに分配されることができる。割り当てられたビットに応じて、係数が量子化されるとともに、ビットストリーム７０３はデコーダに送信される。知覚マスキング概念は、コーデック設計時に多くのことを助けるが、様々な理由および制限のために、まだ完全ではない。デコーダ側の後処理（図７（ｂ）参照）はさらに、限られたビットレートで生成された復号化された信号の知覚品質を改善することができる。デコーダは初めに、量子化係数７０５を再構築するために受信されたビット７０４を使用する。次いで、量子化係数は、向上した係数７０７を取得するために、適切に設計されたモジュール７０６によって後処理される。最終的な時間領域出力７０８を持つために向上した係数に対して逆変換が実行される。

低または中ビットレートオーディオ符号化に対して、短期線形予測（STP）および長期線形予測（LTP）は、周波数領域の励起符号化と結合されることができる。図８は、低または中ビットレートオーディオ符号化システムの簡潔な説明を提供する。原信号８０１は、量子化されたSTPフィルタおよびLTPフィルタを取得するために、短期予測および長期予測によって分析される。STPフィルタおよびLTPフィルタの量子化されたパラメータは、エンコーダからデコーダに送信される。エンコーダにおいて、信号８０１は、基準励起信号８０２を取得するために、逆STPフィルタおよびLTPフィルタによってフィルタリングされる。周波数領域符号化は、非量子化周波数領域係数８０３を取得するために周波数領域に変換される基準励起信号に対して実行される。係数を量子化する前に、周波数スペクトルは多くの場合、多くのサブバンドに分割されるとともに、マスキング機能（知覚の重要度）が探索される。全てのサブバンドに分配される総ビット数が上限を超えないことを維持している間、各サブバンドは必要なビット数を動的に割り当てる。いくつかのサブバンドは、マスキング閾値よりも下であると判定された場合、さらに0ビットを割り当てる。決定が破棄されることができるものに関して行われると、残りはビットの使用可能数を割り当てられる。割り当てられたビットに応じて、係数が量子化されるとともに、ビットストリーム８０３はデコーダに送信される。デコーダは、量子化係数８０６を再構築するために受信されたビット８０５を使用する。次いで、量子化係数は、向上した係数８０８を取得するために、適切に設計されたモジュール８０７によっておそらく後処理される。時間領域励起８０９を持つために向上した係数に対して逆変換が実行される。最終的な出力信号８１０は、時間領域励起８０９をLTP合成フィルタおよびSTP合成フィルタによってフィルタリングすることによって取得される。

図９は、本明細書で開示される装置および方法を実施するために使用されてもよい処理システムのブロック図を示す。具体的な装置は、示されるコンポーネントの全てまたはコンポーネントのサブセットのみを使用することができ、統合のレベルは、装置によって異なってもよい。さらに、装置は、複数の処理ユニット、プロセッサ、メモリ、送信機、受信機等のような、コンポーネントの複数のインスタンスを有してもよい。処理システムは、スピーカー、マイクロフォン、マウス、タッチスクリーン、キーパッド、キーボード、プリンタ、ディスプレイ等のような、１つまたは複数の入力／出力装置を備えた処理ユニットを有してもよい。処理ユニットは、バスに接続された中央処理装置（CPU）、メモリ、大容量記憶装置、ビデオアダプタおよびI／Oインタフェースを含んでもよい。

バスは、メモリバスまたはメモリコントローラ、周辺バス、ビデオバス等を含む１つまたは複数の任意のタイプの複数のバスアーキテクチャであってもよい。CPUは、任意のタイプの電子データプロセッサを有してもよい。メモリは、スタティックランダムアクセスメモリ（SRAM）、ダイナミックランダムアクセスメモリ（DRAM）、シンクロナスDRAM（SDRAM）、読み出し専用メモリ（ROM）およびそれらの組み合わせ等のような、任意のタイプのシステムメモリを有してもよい。実施形態においては、メモリは、ブートアップにおける使用のためのROM、プログラムのためのDRAMおよびプログラム実行時の使用のためのデータストレージを含んでもよい。

大容量記憶装置は、データ、プログラムおよび他の情報を格納するために構成されるとともに、バスを介してデータ、プログラムおよび他の情報をアクセス可能にするように構成された任意のタイプの記憶装置を有してもよい。大容量記憶装置は、例えば、１つまたは複数のソリッド・ステート・ドライブ、ハードディスクドライブ・磁気ディスクドライブおよび光ディスクドライブ等を有してもよい。

ビデオアダプタおよびI／Oインタフェースは、外部入力および出力装置を処理ユニットに接続するためのインタフェースを提供する。例示されるように、入力および出力装置の例は、ビデオアダプタに接続されるディスプレイおよびI／Oインタフェースに接続されるマウス、キーボードおよびプリンタを含む。他の装置は、処理ユニットに接続されてもよいとともに、追加のまたはより少ないインタフェースカードが利用されてもよい。例えば、ユニバーサルシリアルバス（USB）（図示されず）のようなシリアルインタフェースは、プリンタのためのインタフェースを提供するために使用されてもよい。

処理ユニットはまた、１つまたは複数のネットワークインタフェースを含み、前記１つまたは複数のネットワークインタフェースは、イーサネット（登録商標）ケーブル等のような有線リンク、および／またはノードまたは異なるネットワークにアクセスするための無線リンクを有してもよい。ネットワークインタフェースは、処理ユニットが、ネットワークを介して遠隔ユニットと通信することを可能にする。例えば、ネットワークインタフェースは、１つまたは複数の送信機／送信アンテナおよび１つまたは複数の受信機／受信アンテナを介して無線通信を提供してもよい。実施形態では、処理ユニットは、データ処理のためにローカルエリアネットワークまたは広域ネットワークに接続されるとともに、他の処理ユニット、インターネット、遠隔記憶装置等のような、遠隔装置と通信する。

説明は詳細に行われてきたが、添付の特許請求の範囲によって定義されるような本開示の精神および範囲から逸脱することなく、様々な変更、置換および改変が行われることができることは理解されるべきである。さらに、当業者は、本開示から、既存のまたは後に開発される方式、手段、方法またはステップのプロセス、マシン、製品、構成は本明細書で説明される対応する実施形態と実質的に同じ機能を実行する、または実質的に同じ結果を達成することができることを容易に理解することができるため、本開示の範囲は、本明細書に記載される特定の実施形態に限定されるものではない。従って、添付の特許請求の範囲は、そのような方式、手段、方法またはステップのプロセス、マシン、製品、構成を範囲内に含むものである。

１０１原音声
１０２合成音声
１０３短期線形予測フィルタ
１０５長期線形予測フィルタ
１０７ G_c
１０８符号化励起
１０９重み付けされた誤差
１１０重み付けフィルタ
２０１符号化励起
２０３長期予測
２０５短期予測
２０６合成音声
２０７後処理ブロック
３０３短期線形予測フィルタ
３０４過去の合成された励起
３０５ G_p
３０７適応コードブック
３０８符号化励起コードブック
４０１適応コードブック
４０２符号化励起
４０６短期予測
４０７合成音声
４０８後処理ブロック
５０２サブフレームサイズ
５０３ピッチ周期
６０２サブフレームサイズ
６０３ピッチ周期
７０１入力信号
７０２非量子化周波数領域係数
７０３ビットストリーム
７０４受信されたビット
７０５量子化係数
７０６適切に設計されたモジュール
７０７向上した係数
７０８最終的な時間領域出力
８０１原信号
８０２基準励起信号
８０３非量子化周波数領域係数
８０５受信されたビット
８０６量子化係数
８０７適切に設計されたモジュール
８０８向上した係数
８０９時間領域励起
８１０最終的な出力信号

Claims

信号を分類するための方法であって、前記方法は、
オーディオデータを有するデジタル信号を受信するステップであって、前記デジタル信号は、初めは、AUDIO信号として分類される、ステップと、
基準が満たされるとき、前記デジタル信号を、VOICED信号として再分類するステップであって、前記基準は前記デジタル信号におけるサブフレーム間のピッチ差が閾値よりも小さいことを有する、ステップと、
前記デジタル信号の分類に従って、前記デジタル信号を符号化するステップであって、前記デジタル信号がAUDIO信号として分類される場合、前記デジタル信号は周波数領域において符号化され、または、前記デジタル信号がVOICED信号として再分類される場合、前記デジタル信号は時間領域において符号化される、ステップと
を有する方法。
前記基準は、前記デジタル信号におけるサブフレームに対する、平均正規化ピッチ相関値が閾値を超えることをさらに有する、請求項1に記載の方法。
前記デジタル信号におけるサブフレームに対する、前記平均正規化ピッチ相関値は、
前記デジタル信号における各サブフレームに対して正規化ピッチ相関値を決定するステップと、
前記平均正規化ピッチ相関値を取得するために、前記デジタル信号におけるサブフレームの数によって、全ての正規化ピッチ相関値の合計を割るステップと
によって得られる、請求項２に記載の方法。
前記基準は、
前記デジタル信号の符号化レートが閾値を下回ることをさらに有する、請求項１に記載の方法。
前記デジタル信号は、非音声データおよび音楽データのうちの少なくとも１つを搬送する、請求項１乃至４のいずれか１項に記載の方法。
オーディオエンコーダであって、前記オーディオエンコーダは、
プロセッサと、
前記プロセッサによる実行のためのプログラムを格納するコンピュータ可読記憶媒体であって、前記プログラムは、
オーディオデータを有するデジタル信号を受信することであって、前記デジタル信号は、初めは、AUDIO信号として分類される、ことと、
基準が満たされるとき、前記デジタル信号を、VOICED信号として再分類することであって、前記基準は前記デジタル信号におけるサブフレーム間のピッチ差が閾値よりも小さいことを有する、再分類することと、
前記デジタル信号の分類に従って、前記デジタル信号を符号化することであって、前記デジタル信号がAUDIO信号として分類される場合、前記デジタル信号は周波数領域において符号化され、または、前記デジタル信号がVOICED信号として分類される場合、前記デジタル信号は時間領域において符号化される、ことと
を行うための命令を有する、コンピュータ可読記憶媒体と
を有する、エンコーダ。
前記基準は、前記デジタル信号におけるサブフレームに対する、平均正規化ピッチ相関値が閾値を超えることをさらに有する、請求項６に記載のエンコーダ。
前記デジタル信号におけるサブフレームに対する、前記平均正規化ピッチ相関値は、
前記デジタル信号における各サブフレームに対して正規化ピッチ相関値を決定することと、
前記平均正規化ピッチ相関値を取得するために、前記デジタル信号におけるサブフレームの数によって、全ての正規化ピッチ相関値の合計を割ることと
によって得られる、請求項７に記載のエンコーダ。
前記基準は、前記デジタル信号の符号化レートが閾値を下回ることをさらに有する、請求項６に記載のエンコーダ。
前記デジタル信号は、非音声データおよび音楽データのうちの少なくとも１つを搬送する、請求項６乃至９のいずれか１項に記載のエンコーダ。
信号を分類するための方法であって、前記方法は、
オーディオデータを有するデジタル信号を受信するステップであって、前記デジタル信号は、初めは、AUDIO信号として分類される、ステップと、
前記デジタル信号におけるサブフレームに対して、正規化ピッチ相関値を決定するステップと、
前記正規化ピッチ相関値を平均することによって、平均正規化ピッチ相関値を決定するステップと、
前記それぞれのサブフレームに関連付けられた前記正規化ピッチ相関値を比較することによって、前記デジタル信号におけるサブフレーム間のピッチ差を決定するステップと、
前記ピッチ差の各々が第１閾値を下回るとともに、前記平均された正規化ピッチ相関値が第２閾値を越える場合、前記デジタル信号をVOICED信号として再分類するステップと、
前記デジタル信号の分類に従って、前記デジタル信号を符号化するステップであって、前記デジタル信号がAUDIO信号として分類される場合、前記デジタル信号は周波数領域において符号化され、または、前記デジタル信号がVOICED信号として分類される場合、前記デジタル信号は時間領域において符号化される、ステップと
を有する方法。
前記デジタル信号は、音楽を搬送する、請求項１１に記載の方法。
その上に記録されたプログラムを有するコンピュータ可読記憶媒体であって、前記プログラムは、コンピュータに、請求項１乃至５および請求項１１および請求項１２のいずれか１項の方法を実行させる、コンピュータ可読記憶媒体。