JP6148342B2 - 低または中ビットレートに対する知覚品質に基づくオーディオ分類 - Google Patents

低または中ビットレートに対する知覚品質に基づくオーディオ分類 Download PDF

Info

Publication number
JP6148342B2
JP6148342B2 JP2015531459A JP2015531459A JP6148342B2 JP 6148342 B2 JP6148342 B2 JP 6148342B2 JP 2015531459 A JP2015531459 A JP 2015531459A JP 2015531459 A JP2015531459 A JP 2015531459A JP 6148342 B2 JP6148342 B2 JP 6148342B2
Authority
JP
Japan
Prior art keywords
digital signal
signal
audio
pitch correlation
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015531459A
Other languages
English (en)
Other versions
JP2015534109A (ja
Inventor
ヤン・ガオ
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2015534109A publication Critical patent/JP2015534109A/ja
Application granted granted Critical
Publication of JP6148342B2 publication Critical patent/JP6148342B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本願は、2012年9月18日に出願された、“Improving AUDIO/VOICED Classification Based on Perceptual Quality for Low or Medium Bit Rates”と題する、米国仮出願第61/702342の係属である、2013年9月13日に出願された、“AUDIO CLASSIFICATION BASED ON PERCEPTUAL QUALITY FOR LOW OR MEDIUM BIT RATES”と題する、米国特許出願第14/027052に対して優先権を主張し、その両方が、全体で再現されるかのように、参照によって本明細書に組み込まれる。
本発明は、一般に、低または中ビットレートに対する知覚品質に基づくオーディオ分類に関する。
オーディオ信号は、典型的には、オーディオデータの圧縮を行うために、格納または送信される前に符号化され、そのことは、オーディオデータの伝送帯域幅および/またはストレージ要件を低減する。オーディオ圧縮アルゴリズムは、コーディング、パターン認識、線形予測および他の技術を介して情報の冗長性を低減する。オーディオ圧縮アルゴリズムは、本質的に不可逆的または可逆的のいずれかであることができ、不可逆的圧縮アルゴリズムは、可逆的圧縮アルゴリズムよりも大きなデータ圧縮を達成する。
技術的利点は、一般に、本開示の態様によって達成され、前記態様は、低または中ビットレートに対する知覚品質に基づくAUDIO/VOICED分類を改善するための方法および技術を説明する。
一態様によると、符号化の前に信号を分類するための方法が提供される。本実施例では、前記方法は、オーディオデータを有するデジタル信号を受信するステップを含む。デジタル信号は、初めは、AUDIO信号として分類される。前記方法はさらに、デジタル信号の1つまたは複数の周期性パラメータが基準を満たすとき、デジタル信号を、VOICED信号として再分類するステップと、デジタル信号の分類に従って、デジタル信号を符号化するステップとを含む。デジタル信号がAUDIO信号として分類される場合、デジタル信号は周波数領域において符号化される。デジタル信号がVOICED信号として再分類される場合、デジタル信号は時間領域において符号化される。本方法を実行するための装置がまた提供される。
他の態様によると、符号化の前に信号を分類するための別の方法が提供される。本実施例では、前記方法は、オーディオデータを有するデジタル信号を受信するステップを含む。デジタル信号は、初めは、AUDIO信号として分類される。前記方法はさらに、デジタル信号におけるサブフレームに対して、正規化ピッチ相関値を決定するステップと、正規化ピッチ相関値を平均することによって、平均正規化ピッチ相関値を決定するステップと、それぞれのサブフレームに関連付けられた正規化ピッチ相関値を比較することによって、デジタル信号におけるサブフレーム間のピッチ差を決定するステップとを含む。前記方法はさらに、ピッチ差の各々が第1閾値を下回るとともに、平均された正規化ピッチ相関値が第2閾値を越える場合、デジタル信号をVOICED信号として再分類するステップと、デジタル信号の分類に従って、デジタル信号を符号化するステップとを含む。デジタル信号がAUDIO信号として分類される場合、デジタル信号は周波数領域において符号化される。デジタル信号がVOICED信号として分類される場合、デジタル信号は時間領域において符号化される。
図1は、実施形態の符号励振線形予測(code-excited linear prediction:CELP)エンコーダの図を示している。 図2は、実施形態の初期デコーダの図を示している。 図3は、実施形態のエンコーダの図を示している。 図4は、実施形態のデコーダの図を示している。 図5は、デジタル信号のピッチ周期を示すグラフを示している。 図6は、別のデジタル信号のピッチ周期を示すグラフを示している。 図7Aは、周波数領域の知覚コーデックの図を示している。 図7Bは、周波数領域の知覚コーデックの図を示している。 図8Aは、低/中ビットレートのオーディオ符号化システムの図を示している。 図8Bは、低/中ビットレートのオーディオ符号化システムの図を示している。 図9は、実施形態の処理システムのブロック図を示している。
異なる図における対応する数字および記号は一般に、特記がないものは、対応する部分を参照する。図面は、実施形態の関連する態様を明確に示すために描かれており、必ずしも縮尺通りに描かれてはいない。
本開示の実施形態の作成および使用は、以下に詳細に説明される。しかしながら、本明細書に開示される概念は、多様な具体的な状況において実施されることができるとともに、本明細書に記載される具体的な実施形態は単に例示であり、特許請求の範囲を限定するために提供されるものではないことが理解されるべきである。さらに、本明細書において、添付の特許請求の範囲によって定義される本開示の精神および範囲から逸脱することなく、様々な変更、置換および改変が行われることができることは、理解されるべきである。
オーディオ信号は典型的に、時間領域または周波数領域のいずれかにおいて符号化される。さらに具体的には、音声データを搬送するオーディオ信号は典型的に、VOICE信号として分類されるとともに、時間領域符号化技術を使用して符号化され、一方、非音声データを搬送するオーディオ信号は典型的に、AUDIO信号として分類されるとともに、周波数領域符号化技術を使用して符号化される。特に、本明細書では、「オーディオ信号」という用語は、サウンドデータ(音声データ、非音声データ等)を搬送する任意の信号を指すために使用され、一方で、本明細書では、「AUDIO信号」という用語は、具体的な信号分類を指すために使用される。オーディオ信号を分類するこの従来の方式は、典型的に、音声データは通常、本質的に周期的であるため、高品質な符号化信号を生成し、従って、時間領域の符号化に対してより順応性を有し、一方で、非音声データは典型的に、本質的に非周期的であり、従って、周波数領域の符号化に対してより順応性を有する。しかしながら、非音声信号の中には、時間領域の符号化を保証するに十分な周期性を示すものもある。
本開示の態様は、オーディオ信号の周期性パラメータが閾値を越える場合、非音声データを搬送するオーディオ信号をVOICE信号として再分類する。いくつかの実施形態では、低および/または中ビットレートAUDIO信号のみが、再分類について考慮される。他の実施形態では、全てのAUDIO信号が考慮される。周期性パラメータは、周期性を示す任意の特性または特性のセットを含むことができる。例えば、周期性パラメータは、オーディオ信号におけるサブフレーム間のピッチ差、1つまたは複数のサブフレームに対する正規化ピッチ相関、オーディオ信号に対する平均正規化ピッチ相関、またはそれらの組み合わせを含んでもよい。VOICED信号として再分類されるオーディオ信号は、時間領域において符号化されてもよく、一方で、AUDIO信号として分類されたままのオーディオ信号は、周波数領域において符号化されてもよい。
一般的に言うと、最高品質を達成するために、音声信号に時間領域符号化を使用するとともに、音楽信号に周波数領域符号化を使用することが望ましい。しかしながら、非常に周期的な信号のような、いくつかの特定の音楽信号に対しては、非常に高い長期予測(Long-Term Prediction:LTP)のゲイン(gain)から利益を得ることによって、時間領域符号化を使用することが望ましい場合がある。符号化前のオーディオ信号の分類は、従って、注意深く実行されるべきであるとともに、信号のビットレートおよび/または符号化アルゴリズムの特性のような、様々な補助的要因を考慮することによって利益を得ることができる。
音声データは典型的には、スペクトルおよび/またはエネルギーが他の信号タイプ(例えば、音楽等)よりも速く変化する、高速に変化する信号によって特徴づけられる。音声信号は、それらのオーディオデータの特性に応じて、UNVOICED信号、VOICED信号、GENERIC信号、またはTRANSITION信号として分類されることができる。非音声データ(例えば、音楽等)は典型的には、そのスペクトルおよび/またはエネルギーが音声信号よりもゆっくりと変化する、ゆっくりと変化する信号として定義される。通常、音楽信号は、AUDIO信号のトーンおよびハーモニック(harmonic)タイプを含んでもよい。高ビットレート符号化に対して、典型的には、非音声信号を符号化するために周波数領域符号化アルゴリズムを使用することが有利であり得る。しかしながら、低または中ビットレート符号化アルゴリズムが使用される場合、周波数領域符号化は低または中ビットレートにおける全周波数帯域を正確に符号化することは不可能であり得るため、強い周期性を示す非音声信号のトーンまたはハーモニックタイプを符号化するために、時間領域符号化を使用することは有利であり得る。換言すると、強い周期性を示す非音声信号を周波数領域において符号化することは、符号化されていないか、または大雑把に符号化されたいくつかの周波数サブバンドを生じ得る。一方、時間領域符号化のCELPタイプは、強い周期性から多くの利益を得ることができるLTP機能を有する。以下の説明では、詳細な実施例を示す。
複数のパラメータが初めに定義される。ピッチラグPに対して、正規化ピッチ相関は、しばしば以下のような数理的形式で定義される:
Figure 0006148342
この式において、Sw(n)は、重み付けされた音声信号であり、分子は相関であり、分母はエネルギー正規化係数である。Voicingが現在の音声フレームにおける4つのサブフレームの平均正規化ピッチ相関値を表すとすると、Voicing = [ R1(P1) + R2(P2) + R3(P3) + R4(P4) ] / 4 である。R1(P1)、R2(P2)、R3(P3)およびR4(P4)は、現在の音声フレームの各サブフレームに対して計算された4つの正規化ピッチ相関であって、各サブフレームに対するP1、P2、P3およびP4はP=PIT_MINからP=PIT_MAXまでのピッチ範囲内で見つけられた最善のピッチ候補である。前のフレームから現在のフレームまでの平滑化されたピッチ相関は、以下の式を使用して求めることができる:
Figure 0006148342
サブフレーム間のピッチ差は、以下の式を使用して定義されることができる:
Figure 0006148342
オーディオ信号は、初めは、AUDIO信号として分類されるとともに、図8に示されるアルゴリズムのような、周波数領域符号化アルゴリズムによって符号化されるとする。上述の品質の理由の点から、AUDIOクラスは、VOICEDクラスに変更されることができ、次いで、CELPのような時間領域符号化方法によって符号化されることができる。以下では、信号を再分類するためのCコードの例を示す。
/* 低ビットレートのためのAUDIOからVOICEDへの安全な補正 */
if (coder_type== AUDIO & localVAD==1 & dpit1<=3.f & dpit2<=3.f & dpit3<=3.f & Voicing>0.95f & Voicing_sm>0.97)
{coder_type = VOICED;}
従って、低または中ビットレートにおいて、いくつかのAUDIO信号または音楽信号の知覚品質は、符号化の前にVOICED信号としてそれらを再分類することによって改善されることができる。以下では、信号を再分類するためのCコードの例を示す。
ANNEXE C-CODE
/* 低ビットレートのためのAUDIOからVOICEDへの安全な補正 */
voicing=(voicing_fr[0]+voicing_fr[1]+voicing_fr[2]+voicing_fr[3])/4;
*voicing_sm = 0.75f*(*voicing_sm) + 0.25f*voicing;
dpit1 = (float)fabs(T_op_fr[0]-T_op_fr[1]);
dpit2 = (float)fabs(T_op_fr[1]-T_op_fr[2]);
dpit3 = (float)fabs(T_op_fr[2]-T_op_fr[3]);
if( *coder_type>UNVOICED && localVAD==1 && dpit1<=3.f && dpit2<=3.f
&& dpit3<=3.f && *coder_type==AUDIO && voicing>0.95f
&& *voicing_sm>0.97)
{
*coder_type = VOICED;
オーディオ信号は、時間領域または周波数領域において符号化されることができる。従来の時間領域パラメトリックオーディオ符号化技術(time domain parametric audio coding technique)は、短い間隔で信号の音声サンプルのパラメータを推定すると同様に、符号化された情報の量を低減させるために、音声/オーディオ信号における固有の冗長性を使用する。この冗長性は、主に、準周期的レートにおける音声波形の繰返しと、音声信号のゆっくり変化するスペクトル包絡(envelop)に起因する。音声波形の冗長性は、有声または無声のような、いくつかの異なるタイプの音声信号に関して考慮されてもよい。有声音に対して、音声信号は、本質的に、周期的である。しかしながら、この周期性は、音声セグメントの期間にわたって可変であってもよく、周期波の形状は通常、セグメントからセグメントに徐々に変化する。時間領域音声符号化は、そのような周期性を探索することから大きな利益を得ることができた。有声音周期はまた、ピッチと呼ばれ、ピッチ予測はしばしば、長期予測(LTP)と名付けられる。無声音に関しては、信号は、よりランダムノイズのようなものであるとともに、より少ない予測可能量を有する。有声音および無声音は、以下のように定義される。
いずれの場合においても、パラメトリック符号化は、音声信号の励起(excitation)コンポーネントを、スペクトル包絡コンポーネントから分離することによって、音声セグメントの冗長性を低減するために使用されてもよい。ゆっくりと変化するスペクトル包絡は、短期予測(Short-Term Prediction:STP)とも呼ばれる、線形予測符号化(Linear Prediction Coding:LPC)によって表されることができる。時間領域音声符号化はまた、そのような短期予測を探索することから大きな利益を得ることができた。符号化の利点は、パラメータが変化する遅いレートから生じる。しかし、パラメータが数ミリ秒内に保持されている値から大きく異なることは稀である。従って、8kHz、12.8kHzまたは16kHzのサンプリングレートにおいては、音声符号化アルゴリズムでは、通常のフレーム期間は、10から30ミリ秒の範囲内にあるようである。20ミリ秒のフレーム期間は、最も一般的な選択肢であると思われる。G.723.1、G.729、G.718、EFR、SMV、AMR、VMR-WBまたはAMR-WBのような、より最近の周知の規格においては、符号励振線形予測(Code-Excited Linear Prediction:CELP)技術が採用されてきた。CELPは、一般的に、符号化励起、長期予測および短期予測の技術的な組み合わせとして理解されている。符号励振線形予測(CELP)音声符号化は、異なるコーデックに対するCELPの詳細は大幅に異なる可能性があるが、音声圧縮領域で非常に人気なアルゴリズム原理である。
図1は、初期の符号励振線形予測(CELP)エンコーダを示し、合成音声102と原音声101との間の重み付けされた誤差109は、多くの場合、いわゆる合成による分析の方法を使用することによって最小化される。W(z)は、誤差の重み付けフィルタ110である。1/B(z)は、長期線形予測フィルタ105であり、1/A(z)は、短期線形予測フィルタ103である。符号化励起108は、固定コードブック励起とも呼ばれ、線形フィルタを通過する前にゲインGc107によってスケーリングされる。短期線形フィルタ103は、元の信号101を分析することによって取得され、以下の係数のセットによって表されることができる:
Figure 0006148342
重み付けフィルタ110は、上述の短期予測フィルタに多少関連している。実施形態の重み付けフィルタは、以下の式によって表される:
Figure 0006148342
ここで、β<αであり、0<β<1であり、0<α≦1である。長期予測105は、ピッチおよびピッチゲインに依存する。ピッチは元の信号、残留信号または重み付けされた元の信号から推定されることができる。長期予測機能は主に、以下のように表現されることができる:
B(z) = 1 − gp・z-pitch
符号化励起108は、通常、パルス状の信号またはノイズ状の信号を有し、数理的に構成されるか、またはコードブック内に保存されることができる。最後に符号化励起のインデックス、量子化されたゲインのインデックス、量子化された長期予測パラメータのインデックスおよび量子化された短期予測パラメータのインデックスは、デコーダに送信される。
図2は、初期デコーダを示し、合成音声206の後に後処理ブロック207を追加する。デコーダは、符号化励起201、長期予測203、短期予測205および後処理207を含むいくつかのブロックの組み合わせである。ブロック201、203および205は、図1のエンコーダの対応するブロック101、103及び105と同様に構成される。後処理はさらに、短期後処理と長期後処理から成っていてもよい。
図3は、過去の合成された励起304を含むか、またはピッチ周期で過去の励起ピッチサイクルを繰り返す、適応コードブック307を使用することによって、長期線形予測を実現した、基本的なCELPエンコーダを示している。ピッチラグは、大きいかまたは長い場合に、整数値において符号化されることができる。ピッチラグは、多くの場合、小さいかまたは短い場合に、より正確な小数値において符号化される。ピッチの周期情報は、励起の適応コンポーネントを生成するために採用される。この励起コンポーネントは、次いで、ゲインGp305(ピッチゲインとも呼ばれる)によってスケーリングされる。2つのスケーリングされた励起コンポーネントは、短期線形予測フィルタ303を通過する前に共に追加される。2つのゲイン(GpおよびGc)は、量子化されて、次いでデコーダに送信される必要がある。
図4は、図3におけるエンコーダに対応する基本的なデコーダを示し、合成音声407の後に後処理ブロック408を追加する。このデコーダは、適応コードブック307を含むことを除いて、図2に示されるデコーダと類似している。デコーダは、符号化励起402、適応コードブック401、短期予測406および後処理408である、いくつかのブロックの組み合わせである。後処理を除く全てのブロックは、図3のエンコーダにおいて説明されたものと同じ定義を有する。後処理はさらに、短期後処理および長期後処理から成っていてもよい。
有声音は強い周期性を有するため、長期予測は有声音符号化に対して重要な役割を果たすことができる。有声音の隣接ピッチサイクルは互いに類似しており、そのことは、e(n) = Gp・ep(n) + Gc・ec(n)と表現される場合、この励起表現におけるピッチゲインGpは、高いか、または1に近いことを数学的に意味する。ここで、ep(n)は、過去の励起304を有する適応コードブック307から来る、nによって索引付けされたサンプルシリーズの1つのサブフレームであり、ep(n)は、低周波数領域は多くの場合、高周波数領域に比べてより周期的であるか、またはハーモニックであるようにフィルタリングされた適応ローパスであってもよい。ec(n)は、現在の励起寄与である、符号化励起コードブック308(固定コードブックとも呼ばれる)からである。ec(n)はまた、ハイパスフィルタリング強調(enhancement)、ピッチ強調、分散強調、フォルマント強調等のように強調されてもよい。有声音に対して、適応コードブックからのep(n)の寄与は優性であることができるとともに、ピッチゲインGp305は、約1である。励起は、通常、各サブフレームに対してアップデートされる。典型的なフレームサイズは20ミリ秒(ms)であるとともに、典型的なサブフレームサイズは5ミリ秒である。
有声音に対して、1つのフレームは、典型的には、2つ以上のピッチサイクルを含む。図5は、ピッチ周期503がサブフレームサイズ502よりも小さい例を示している。図6は、ピッチ周期603がサブフレームサイズ602よりも大きく、フレームサイズの半分よりも小さい例を示している。上述のように、CELPは、多くの場合、特定の人間の声質や、または人間の声の発声モデルから利益を得ることによって、音声信号を符号化するために使用される。CELPアルゴリズムは、様々なITU-T、MPEG、3GPPおよび3GPP2規格において使用されてきた非常に人気のある技術である。より効率的に音声信号を符号化するために、音声信号は異なるクラスに分類されてもよいとともに、各クラスは、異なる方法で符号化される。例えば、G.718、VMR-WBまたはAMR-WBのようないくつかの規格においては、音声信号は、UNVOICED、TRANSITION、GENERIC、VOICEDおよびNOISEに分類される。各クラスに対して、LPCまたはSTPフィルタが、スペクトル包絡を表すために使用されてもよいが、LPCフィルタへの励起は異なってもよい。UNVOICEDおよびNOISEは、ノイズ励起およびいくつかの励起強調によって符号化されてもよい。TRANSITIONは、適応コードブックまたはLTPを使用することなく、パルス励起およびいくつかの励起強調によって符号化されてもよい。GENERICは、G.729またはAMR-WBにおいて使用される代数CELP(Algebraic CELP)のような、従来のCELP方式によって符号化されてもよく、そこでは、1つの20ミリ秒フレームは、4つの5ミリ秒サブフレームを含み、適応コードブック励起コンポーネントおよび固定コードブック励起コンポーネントの両方とも、各サブフレームに対するある励起強調によって生成され、第1および第3サブフレームにおける適応コードブックのためのピッチラグは、最小ピッチ限度PIT_MINから最大ピッチ限度PIT_MAXまでの最大範囲において符号化され、第2および第4サブフレームにおける適応コードブックのためのピッチラグは、前の符号化ピッチラグから差動的に符号化される。VOICEDは、GENERICからわずかに異なるような方法において符号化されてもよく、第1サブフレームにおけるピッチラグは、最小ピッチ限度PIT_MINから最大ピッチ限度PIT_MAXまでの最大範囲において符号化され、他のサブフレームにおけるピッチラグは、前の符号化ピッチラグから差動的に符号化され、励起サンプリングレートが12.8kHzであると仮定すると、例えば、PIT_MINの値は、34かまたはそれより短くてもよく、PIT_MAXは231であってもよい。
現代のオーディオ/音声のデジタル信号通信システムでは、デジタル信号は、エンコーダにおいて圧縮され、圧縮された情報またはビットストリームはパケット化されるとともに通信チャネルを介してフレームによってデコーダフレームに送信されることができる。結合されたエンコーダおよびデコーダは、多くの場合、コーデックと呼ばれる。音声/オーディオ圧縮は、音声/オーディオ信号を表すビット数を低減するために使用されてもよく、それによって、送信のために必要とされる帯域幅および/またはビットレートを低減する。一般に、より高いビットレートは、より高いオーディオ品質をもたらし、一方、より低いビットレートは、より低いオーディオ品質をもたらす。
フィルタバンク技術に基づくオーディオ符号化が広く使用されている。信号処理においては、フィルタバンクは、入力信号を複数のコンポーネントに分割するバンドパスフィルタのアレイであり、前記複数のコンポーネントはそれぞれ、元の入力信号の単一周波数サブバンドを搬送する。フィルタバンクによって行われる分解のプロセスは、分析と呼ばれ、フィルタバンク分析の出力は、フィルタバンク内にフィルタがあるのと同数のサブバンドを有するサブバンド信号と呼ばれる。再構築プロセスは、フィルタバンク合成と呼ばれる。デジタル信号処理では、フィルタバンクという用語はまた、一般に、受信機のバンクに適用され、さらに、低減されたレートで再サンプリングされることができる低い中心周波数にサブバンドをダウンコンバートしてもよい。同じ合成された結果はまた、時々、バンドパスサブバンドをアンダーサンプリングすることによって達成されることができる。フィルタバンク分析の出力は、複素係数の形態であってもよい。各複素係数は、フィルタバンクの各サブバンドに対する余弦項(cosine term)および正弦項(sine term)をそれぞれ表す、実数要素および虚数要素を有する。
フィルタバンク分析およびフィルタバンク合成は、時間領域信号を周波数領域係数に変換するとともに、周波数領域係数を時間領域信号に逆変換する変換ペアの一種である。他の一般的な分析技術が、音声/オーディオ信号符号化において使用されてもよく、高速フーリエ変換(Fast Fourier Transform:FFT)および逆FFTや、離散フーリエ変換(Discrete Fourier Transform:DFT)および逆DFTや、離散余弦変換(Discrete cosine Transform:DCT)および逆DCTや、ならびに変形DCT(modified DCT:MDCT)および逆MDCTのような、余弦/正弦変換に基づく合成ペアを有する。
信号圧縮または周波数領域オーディオ圧縮に対するフィルタバンクの応用において、いくつかの周波数は、他の周波数よりも知覚的により重要である。分解した後、知覚的に重要な周波数は、これらの周波数における小さな差がこれらの差を保存する符号化スキームを使用することを保証するために知覚的に顕著であるため、細かい分解能によって符号化されることができる。一方、より知覚的に重要でない周波数は正確に複製されず、従って、より細かい詳細のいくつかが符号化中に失われるにもかかわらず、より粗い符号化スキームが使用されることができる。典型的なより粗い符号化スキームは、ハイバンド拡張(High Band Extension:HBE)としても知られている、帯域幅拡張(Bandwidth Extension:BWE)の概念に基づいてもよい。1つの最近人気な特定のBWEまたはHBEの手法は、サブバンドレプリカ(Sub Band Replica:SBR)またはスペクトル帯域複製(Spectral Band Replication:SBR)として知られている。これらの技術は、いくつかの周波数サブバンド(通常ハイバンド)を、ほとんどまたは全くビットレート割当量がなく符号化および復号化するという点で類似していて、それによって、通常の符号化/復号化手法よりも著しく低いビットレートを生み出す。SBR技術によって、高周波数帯域におけるスペクトルの細かい構造は、低周波数帯域からコピーされ、ランダムノイズが追加されてもよい。次に、高周波数帯域のスペクトル包絡は、エンコーダからデコーダに送信される側路情報を使用することによって成形される。
オーディオ圧縮の設計のための音響心理学的原理または知覚マスキング効果の使用は、理にかなっている。オーディオ/音声機器または通信は、全ての人間の知覚能力および制限とともに、人間との相互作用を対象とする。従来のオーディオ機器は、元に対して最大限の忠実度で信号を再生しようとする。より適切に指示された、および多くの場合より効率的な目標は、人間によって知覚できる忠実度を達成することである。これは知覚コーダ(perceptual coder)の目標である。デジタルオーディオ知覚コーダの1つの主な目標は、データの削減であるが、知覚符号化は、高度なビット割り当てを介してデジタルオーディオの表現を改善するために使用されることができる。知覚コーダの例の1つは、マルチバンドシステムであることができ、音響心理の臨界帯域を模倣するように、スペクトルを分割する(ボールマン(Ballman) 1991)。人間の知覚をモデル化することによって、知覚コーダは、人間が行うようにはるかに信号を処理することができるとともに、マスキングのような現象を利用することができる。これは目標である一方で、処理は、正確なアルゴリズムに依存する。一般的な人間の聴覚動作をカバーする非常に正確な知覚モデルを有することは難しいという事実によって、知覚モデルのいかなる数学的表現の精度もまだ限度がある。しかしながら、限られた精度で、知覚の概念は、オーディオコーデックの多くの設計を支援してきた。多くのMPEGオーディオ符号化スキームは、知覚マスキング効果を探索することから利益を得てきた。いくつかのITU標準コーデックはまた、知覚概念を使用し、例えば、ITU G.729.1は、知覚マスキング概念に基づいて、いわゆる動的ビット割り当てを行う。知覚の重要度に基づく動的ビット割り当て概念もまた、最近の3GPP EVS コーデックにおいて使用される。図7Aおよび図7Bは、典型的な周波数領域の知覚コーデックの簡潔な説明を提供する。入力信号701は初めに、非量子化周波数領域係数702を取得するために、周波数領域に変換される。係数を量子化する前に、マスキング機能(知覚の重要度)は、周波数スペクトルを多くのサブバンド(多くの場合、簡潔のために均等間隔である)に分割する。全てのサブバンドに分配される総ビット数が上限を超えないことを維持している間、各サブバンドは必要なビット数を動的に割り当てる。いくつかのサブバンドは、マスキング閾値よりも下であると判定された場合、さらに0ビットを割り当てる。決定が破棄されることができるものに関して行われると、残りはビットの使用可能数を割り当てられる。ビットは、マスクされたスペクトルに対して浪費されないため、ビットは、より大きな量で信号の残りに分配されることができる。割り当てられたビットに応じて、係数が量子化されるとともに、ビットストリーム703はデコーダに送信される。知覚マスキング概念は、コーデック設計時に多くのことを助けるが、様々な理由および制限のために、まだ完全ではない。デコーダ側の後処理(図7(b)参照)はさらに、限られたビットレートで生成された復号化された信号の知覚品質を改善することができる。デコーダは初めに、量子化係数705を再構築するために受信されたビット704を使用する。次いで、量子化係数は、向上した係数707を取得するために、適切に設計されたモジュール706によって後処理される。最終的な時間領域出力708を持つために向上した係数に対して逆変換が実行される。
低または中ビットレートオーディオ符号化に対して、短期線形予測(STP)および長期線形予測(LTP)は、周波数領域の励起符号化と結合されることができる。図8は、低または中ビットレートオーディオ符号化システムの簡潔な説明を提供する。原信号801は、量子化されたSTPフィルタおよびLTPフィルタを取得するために、短期予測および長期予測によって分析される。STPフィルタおよびLTPフィルタの量子化されたパラメータは、エンコーダからデコーダに送信される。エンコーダにおいて、信号801は、基準励起信号802を取得するために、逆STPフィルタおよびLTPフィルタによってフィルタリングされる。周波数領域符号化は、非量子化周波数領域係数803を取得するために周波数領域に変換される基準励起信号に対して実行される。係数を量子化する前に、周波数スペクトルは多くの場合、多くのサブバンドに分割されるとともに、マスキング機能(知覚の重要度)が探索される。全てのサブバンドに分配される総ビット数が上限を超えないことを維持している間、各サブバンドは必要なビット数を動的に割り当てる。いくつかのサブバンドは、マスキング閾値よりも下であると判定された場合、さらに0ビットを割り当てる。決定が破棄されることができるものに関して行われると、残りはビットの使用可能数を割り当てられる。割り当てられたビットに応じて、係数が量子化されるとともに、ビットストリーム803はデコーダに送信される。デコーダは、量子化係数806を再構築するために受信されたビット805を使用する。次いで、量子化係数は、向上した係数808を取得するために、適切に設計されたモジュール807によっておそらく後処理される。時間領域励起809を持つために向上した係数に対して逆変換が実行される。最終的な出力信号810は、時間領域励起809をLTP合成フィルタおよびSTP合成フィルタによってフィルタリングすることによって取得される。
図9は、本明細書で開示される装置および方法を実施するために使用されてもよい処理システムのブロック図を示す。具体的な装置は、示されるコンポーネントの全てまたはコンポーネントのサブセットのみを使用することができ、統合のレベルは、装置によって異なってもよい。さらに、装置は、複数の処理ユニット、プロセッサ、メモリ、送信機、受信機等のような、コンポーネントの複数のインスタンスを有してもよい。処理システムは、スピーカー、マイクロフォン、マウス、タッチスクリーン、キーパッド、キーボード、プリンタ、ディスプレイ等のような、1つまたは複数の入力/出力装置を備えた処理ユニットを有してもよい。処理ユニットは、バスに接続された中央処理装置(CPU)、メモリ、大容量記憶装置、ビデオアダプタおよびI/Oインタフェースを含んでもよい。
バスは、メモリバスまたはメモリコントローラ、周辺バス、ビデオバス等を含む1つまたは複数の任意のタイプの複数のバスアーキテクチャであってもよい。CPUは、任意のタイプの電子データプロセッサを有してもよい。メモリは、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、シンクロナスDRAM(SDRAM)、読み出し専用メモリ(ROM)およびそれらの組み合わせ等のような、任意のタイプのシステムメモリを有してもよい。実施形態においては、メモリは、ブートアップにおける使用のためのROM、プログラムのためのDRAMおよびプログラム実行時の使用のためのデータストレージを含んでもよい。
大容量記憶装置は、データ、プログラムおよび他の情報を格納するために構成されるとともに、バスを介してデータ、プログラムおよび他の情報をアクセス可能にするように構成された任意のタイプの記憶装置を有してもよい。大容量記憶装置は、例えば、1つまたは複数のソリッド・ステート・ドライブ、ハードディスクドライブ・磁気ディスクドライブおよび光ディスクドライブ等を有してもよい。
ビデオアダプタおよびI/Oインタフェースは、外部入力および出力装置を処理ユニットに接続するためのインタフェースを提供する。例示されるように、入力および出力装置の例は、ビデオアダプタに接続されるディスプレイおよびI/Oインタフェースに接続されるマウス、キーボードおよびプリンタを含む。他の装置は、処理ユニットに接続されてもよいとともに、追加のまたはより少ないインタフェースカードが利用されてもよい。例えば、ユニバーサルシリアルバス(USB)(図示されず)のようなシリアルインタフェースは、プリンタのためのインタフェースを提供するために使用されてもよい。
処理ユニットはまた、1つまたは複数のネットワークインタフェースを含み、前記1つまたは複数のネットワークインタフェースは、イーサネット(登録商標)ケーブル等のような有線リンク、および/またはノードまたは異なるネットワークにアクセスするための無線リンクを有してもよい。ネットワークインタフェースは、処理ユニットが、ネットワークを介して遠隔ユニットと通信することを可能にする。例えば、ネットワークインタフェースは、1つまたは複数の送信機/送信アンテナおよび1つまたは複数の受信機/受信アンテナを介して無線通信を提供してもよい。実施形態では、処理ユニットは、データ処理のためにローカルエリアネットワークまたは広域ネットワークに接続されるとともに、他の処理ユニット、インターネット、遠隔記憶装置等のような、遠隔装置と通信する。
説明は詳細に行われてきたが、添付の特許請求の範囲によって定義されるような本開示の精神および範囲から逸脱することなく、様々な変更、置換および改変が行われることができることは理解されるべきである。さらに、当業者は、本開示から、既存のまたは後に開発される方式、手段、方法またはステップのプロセス、マシン、製品、構成は本明細書で説明される対応する実施形態と実質的に同じ機能を実行する、または実質的に同じ結果を達成することができることを容易に理解することができるため、本開示の範囲は、本明細書に記載される特定の実施形態に限定されるものではない。従って、添付の特許請求の範囲は、そのような方式、手段、方法またはステップのプロセス、マシン、製品、構成を範囲内に含むものである。
101 原音声
102 合成音声
103 短期線形予測フィルタ
105 長期線形予測フィルタ
107 Gc
108 符号化励起
109 重み付けされた誤差
110 重み付けフィルタ
201 符号化励起
203 長期予測
205 短期予測
206 合成音声
207 後処理ブロック
303 短期線形予測フィルタ
304 過去の合成された励起
305 Gp
307 適応コードブック
308 符号化励起コードブック
401 適応コードブック
402 符号化励起
406 短期予測
407 合成音声
408 後処理ブロック
502 サブフレームサイズ
503 ピッチ周期
602 サブフレームサイズ
603 ピッチ周期
701 入力信号
702 非量子化周波数領域係数
703 ビットストリーム
704 受信されたビット
705 量子化係数
706 適切に設計されたモジュール
707 向上した係数
708 最終的な時間領域出力
801 原信号
802 基準励起信号
803 非量子化周波数領域係数
805 受信されたビット
806 量子化係数
807 適切に設計されたモジュール
808 向上した係数
809 時間領域励起
810 最終的な出力信号

Claims (13)

  1. 信号を分類するための方法であって、前記方法は、
    オーディオデータを有するデジタル信号を受信するステップであって、前記デジタル信号は、初めは、AUDIO信号として分類される、ステップと
    満たされるとき、前記デジタル信号を、VOICED信号として再分類するステップであって、前記基準は前記デジタル信号におけるサブフレーム間のピッチ差が閾値よりも小さいことを有する、ステップと、
    前記デジタル信号の分類に従って、前記デジタル信号を符号化するステップであって、前記デジタル信号がAUDIO信号として分類される場合、前記デジタル信号は周波数領域において符号化され、または、前記デジタル信号がVOICED信号として再分類される場合、前記デジタル信号は時間領域において符号化される、ステップと
    を有する方法。
  2. 前記基準は、前記デジタル信号におけるサブフレームに対する、平均正規化ピッチ相関値が閾値を超えることをさらに有する、請求項1に記載の方法。
  3. 前記デジタル信号におけるサブフレームに対する前記平均正規化ピッチ相関値は
    前記デジタル信号における各サブフレームに対して正規化ピッチ相関値を決定するステップと、
    前記平均正規化ピッチ相関値を取得するために、前記デジタル信号におけるサブフレームの数によって、全ての正規化ピッチ相関値の合計を割るステップと
    によって得られる、請求項に記載の方法。
  4. 記基は、
    前記デジタル信号の符号化レートが閾値を下回ることさらに有する、請求項1に記載の方法。
  5. 前記デジタル信号は、非音声データおよび音楽データのうちの少なくとも1つを搬送する、請求項1乃至のいずれか1項に記載の方法。
  6. オーディオエンコーダであって、前記オーディオエンコーダは、
    プロセッサと、
    前記プロセッサによる実行のためのプログラムを格納するコンピュータ可読記憶媒体であって、前記プログラムは、
    オーディオデータを有するデジタル信号を受信することであって、前記デジタル信号は、初めは、AUDIO信号として分類される、ことと
    満たされるとき、前記デジタル信号を、VOICED信号として再分類することであって、前記基準は前記デジタル信号におけるサブフレーム間のピッチ差が閾値よりも小さいことを有する、再分類することと、
    前記デジタル信号の分類に従って、前記デジタル信号を符号化することであって、前記デジタル信号がAUDIO信号として分類される場合、前記デジタル信号は周波数領域において符号化され、または、前記デジタル信号がVOICED信号として分類される場合、前記デジタル信号は時間領域において符号化される、ことと
    を行うための命令を有する、コンピュータ可読記憶媒体と
    を有する、エンコーダ。
  7. 記基準は、前記デジタル信号におけるサブフレームに対する、平均正規化ピッチ相関値が閾値を超えることをさらに有する、請求項に記載のエンコーダ。
  8. 前記デジタル信号におけるサブフレームに対する、前記平均正規化ピッチ相関値は
    前記デジタル信号における各サブフレームに対して正規化ピッチ相関値を決定することと、
    前記平均正規化ピッチ相関値を取得するために、前記デジタル信号におけるサブフレームの数によって、全ての正規化ピッチ相関値の合計を割ることと
    によって得られる、請求項に記載のエンコーダ。
  9. 記基準は、前記デジタル信号の符号化レートが閾値を下回ることをさらに有する、請求項に記載のエンコーダ。
  10. 前記デジタル信号は、非音声データおよび音楽データのうちの少なくとも1つを搬送する、請求項乃至のいずれか1項に記載のエンコーダ。
  11. 信号を分類するための方法であって、前記方法は、
    オーディオデータを有するデジタル信号を受信するステップであって、前記デジタル信号は、初めは、AUDIO信号として分類される、ステップと、
    前記デジタル信号におけるサブフレームに対して、正規化ピッチ相関値を決定するステップと、
    前記正規化ピッチ相関値を平均することによって、平均正規化ピッチ相関値を決定するステップと、
    前記それぞれのサブフレームに関連付けられた前記正規化ピッチ相関値を比較することによって、前記デジタル信号におけるサブフレーム間のピッチ差を決定するステップと、
    前記ピッチ差の各々が第1閾値を下回るとともに、前記平均された正規化ピッチ相関値が第2閾値を越える場合、前記デジタル信号をVOICED信号として再分類するステップと、
    前記デジタル信号の分類に従って、前記デジタル信号を符号化するステップであって、前記デジタル信号がAUDIO信号として分類される場合、前記デジタル信号は周波数領域において符号化され、または、前記デジタル信号がVOICED信号として分類される場合、前記デジタル信号は時間領域において符号化される、ステップと
    を有する方法。
  12. 前記デジタル信号は、音楽を搬送する、請求項11に記載の方法。
  13. その上に記録されたプログラムを有するコンピュータ可読記憶媒体であって、前記プログラムは、コンピュータに、請求項乃至および請求項11および請求項12のいずれか1項の方法を実行させる、コンピュータ可読記憶媒体。
JP2015531459A 2012-09-18 2013-09-18 低または中ビットレートに対する知覚品質に基づくオーディオ分類 Active JP6148342B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261702342P 2012-09-18 2012-09-18
US61/702,342 2012-09-18
PCT/CN2013/083794 WO2014044197A1 (en) 2012-09-18 2013-09-18 Audio classification based on perceptual quality for low or medium bit rates

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017098855A Division JP6545748B2 (ja) 2012-09-18 2017-05-18 低または中ビットレートに対する知覚品質に基づくオーディオ分類

Publications (2)

Publication Number Publication Date
JP2015534109A JP2015534109A (ja) 2015-11-26
JP6148342B2 true JP6148342B2 (ja) 2017-06-14

Family

ID=50275348

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2015531459A Active JP6148342B2 (ja) 2012-09-18 2013-09-18 低または中ビットレートに対する知覚品質に基づくオーディオ分類
JP2017098855A Active JP6545748B2 (ja) 2012-09-18 2017-05-18 低または中ビットレートに対する知覚品質に基づくオーディオ分類
JP2019113750A Active JP6843188B2 (ja) 2012-09-18 2019-06-19 低または中ビットレートに対する知覚品質に基づくオーディオ分類

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2017098855A Active JP6545748B2 (ja) 2012-09-18 2017-05-18 低または中ビットレートに対する知覚品質に基づくオーディオ分類
JP2019113750A Active JP6843188B2 (ja) 2012-09-18 2019-06-19 低または中ビットレートに対する知覚品質に基づくオーディオ分類

Country Status (9)

Country Link
US (3) US9589570B2 (ja)
EP (2) EP2888734B1 (ja)
JP (3) JP6148342B2 (ja)
KR (2) KR101705276B1 (ja)
BR (1) BR112015005980B1 (ja)
ES (1) ES2870487T3 (ja)
HK (2) HK1245988A1 (ja)
SG (2) SG11201502040YA (ja)
WO (1) WO2014044197A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2689072T3 (es) * 2012-05-23 2018-11-08 Nippon Telegraph And Telephone Corporation Codificación de una señal de audio
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
US9685166B2 (en) * 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
WO2023153228A1 (ja) * 2022-02-08 2023-08-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、及び、符号化方法

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226604B1 (en) * 1996-08-02 2001-05-01 Matsushita Electric Industrial Co., Ltd. Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6496797B1 (en) * 1999-04-01 2002-12-17 Lg Electronics Inc. Apparatus and method of speech coding and decoding using multiple frames
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6694293B2 (en) 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7783488B2 (en) * 2005-12-19 2010-08-24 Nuance Communications, Inc. Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information
KR100964402B1 (ko) 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
CN101256772B (zh) 2007-03-02 2012-02-15 华为技术有限公司 确定非噪声音频信号归属类别的方法和装置
US20080249783A1 (en) * 2007-04-05 2008-10-09 Texas Instruments Incorporated Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding
KR100925256B1 (ko) 2007-05-03 2009-11-05 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
US8185388B2 (en) * 2007-07-30 2012-05-22 Huawei Technologies Co., Ltd. Apparatus for improving packet loss, frame erasure, or jitter concealment
US8473283B2 (en) * 2007-11-02 2013-06-25 Soundhound, Inc. Pitch selection modules in a system for automatic transcription of sung or hummed melodies
AU2009267507B2 (en) 2008-07-11 2012-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and discriminator for classifying different segments of a signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
US8185384B2 (en) * 2009-04-21 2012-05-22 Cambridge Silicon Radio Limited Signal pitch period estimation
KR20120032444A (ko) * 2010-09-28 2012-04-05 한국전자통신연구원 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치
TR201815402T4 (tr) 2010-10-25 2018-11-21 Voiceage Corp Düşük bit hızları ve düşük gecikmede genel audio sinyallerinin kodlanması.
TWI488176B (zh) * 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
EP2777041B1 (en) * 2011-11-10 2016-05-04 Nokia Technologies Oy A method and apparatus for detecting audio sampling rate
ES2757700T3 (es) * 2011-12-21 2020-04-29 Huawei Tech Co Ltd Detección y codificación de altura tonal muy débil
US9015039B2 (en) * 2011-12-21 2015-04-21 Huawei Technologies Co., Ltd. Adaptive encoding pitch lag for voiced speech
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
US9685166B2 (en) * 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding

Also Published As

Publication number Publication date
BR112015005980A2 (pt) 2017-07-04
JP6545748B2 (ja) 2019-07-17
EP2888734A1 (en) 2015-07-01
EP3296993B1 (en) 2021-03-10
JP2015534109A (ja) 2015-11-26
US20170116999A1 (en) 2017-04-27
JP6843188B2 (ja) 2021-03-17
EP2888734B1 (en) 2017-11-15
KR101801758B1 (ko) 2017-11-27
US20140081629A1 (en) 2014-03-20
ES2870487T3 (es) 2021-10-27
US11393484B2 (en) 2022-07-19
SG10201706360RA (en) 2017-09-28
JP2019174834A (ja) 2019-10-10
EP2888734A4 (en) 2015-11-04
KR20170018091A (ko) 2017-02-15
SG11201502040YA (en) 2015-04-29
US20190237088A1 (en) 2019-08-01
US10283133B2 (en) 2019-05-07
HK1206863A1 (en) 2016-01-15
JP2017156767A (ja) 2017-09-07
KR101705276B1 (ko) 2017-02-22
WO2014044197A1 (en) 2014-03-27
KR20150055035A (ko) 2015-05-20
HK1245988A1 (zh) 2018-08-31
EP3296993A1 (en) 2018-03-21
US9589570B2 (en) 2017-03-07
BR112015005980B1 (pt) 2021-06-15

Similar Documents

Publication Publication Date Title
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
EP3039676B1 (en) Adaptive bandwidth extension and apparatus for the same
JP6843188B2 (ja) 低または中ビットレートに対する知覚品質に基づくオーディオ分類

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160517

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160817

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170518

R150 Certificate of patent or registration of utility model

Ref document number: 6148342

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250