JP5047268B2 - Mdct係数を使用する音声後処理 - Google Patents

Mdct係数を使用する音声後処理 Download PDF

Info

Publication number
JP5047268B2
JP5047268B2 JP2009501405A JP2009501405A JP5047268B2 JP 5047268 B2 JP5047268 B2 JP 5047268B2 JP 2009501405 A JP2009501405 A JP 2009501405A JP 2009501405 A JP2009501405 A JP 2009501405A JP 5047268 B2 JP5047268 B2 JP 5047268B2
Authority
JP
Japan
Prior art keywords
post
envelope
speech
subbands
subband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009501405A
Other languages
English (en)
Other versions
JP2009530685A (ja
Inventor
ギャオ,ヤン
Original Assignee
マインドスピード・テクノロジーズ・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マインドスピード・テクノロジーズ・インコーポレイテッド filed Critical マインドスピード・テクノロジーズ・インコーポレイテッド
Publication of JP2009530685A publication Critical patent/JP2009530685A/ja
Application granted granted Critical
Publication of JP5047268B2 publication Critical patent/JP5047268B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

発明の背景
発明の分野
本発明は、概して音声符号化に関する。より具体的には、本発明は音声後処理に関する。
背景技術
音声圧縮は、音声信号を表すビット数を削減して、送信に必要な帯域帯を削減するために使用される場合がある。しかしながら、音声圧縮は、解凍された音声の品質低下を招く場合がある。一般的に、ビットレートが高くなると、品質が向上し、ビットレートが低くなると、品質が低下する。しかしながら、符号化技術などの現代の音声圧縮技術は、比較的低いビットレートで比較的高品質の解凍された音声を作成することが可能である。一般的に、現代の符号化技術は、実際の音声波形を保存せずに、音声信号の知覚的に重要な特徴を表そうとする。音声圧縮システムは、一般的にはコーデックと呼ばれ、エンコーダとデコーダを含み、デジタル音声信号のビットレートを削減するために使用することができる。再構成される音声を高品質に維持しようとしながら、元の音声をデジタル的に符号化するために必要なビット数を削減する音声コーデックのために、多数のアルゴリズムが開発されてきた。
図1は、励起デコーダ110、合成フィルタ120および後処理機130を含む、従来の音声復号システム100を示す。示されているように、復号システム100は、通信媒体(非表示)を介して、エンコーダから符号化された音声ビットストリーム102を受信し、復号システム100は、符号化された音声ビットストリーム102を受信できる、移動通信デバイス、基地局、またはその他の無線または有線通信デバイスの一部にすることができる。復号システム100は、符号化された音声ビットストリーム102を復号して、デジタル信号の形で音声信号132を生成するように、動作する。次に、音声信号132は、デジタルからアナログへの変換機(非表示)によって、アナログ信号に変換することができる。デジタルからアナログへの変換機のアナログ出力は、受信機(非表示)によって受信することができるが、受信機は、アナログ信号を受信できる、人間の耳、磁気テープレコーダ、またはその他のデバイスにすることができる。あるいは、デジタル信号を受信できる、デジタル記録デバイス、音声認識デバイス、またはその他任意のデバイスが音声信号132を受信することができる。
励起デコーダ110は、符号化アルゴリズムおよび符号化された音声ビットストリーム102のビットレートに応じて、符号化された音声ビットストリーム102を復号して、復号励起112を生成する。合成フィルタ120は、復号励起112に基づいて合成音声122を生成する短期逆予測フィルタにすることができる。後処理機130は、合成音声122の知覚品質を改善できる、フィルタリング、信号強調、ノイズ修正、増幅、傾斜補正、およびその他類似の技術を含むことができる。後処理機130は、合成音声122を著しく劣化することなく、可聴ノイズを減少することができる。可聴ノイズの減少は、合成音声122のホルマント構造を強調することによって、あるいは、合成音声122に知覚的に関連しない周波数領域のノイズを抑制することによって、実現することができる。
従来、合成音声122の後処理は、利用可能なLPC(線形予測符号化)パラメータを
使用して時間領域で実施される。しかしながら、このようなLPCパラメータが利用できない場合、複雑度とコードサイズの面では、合成音声122の後処理の目的のためにLPCパラメータを生成すると、あまりにコストがかかり過ぎる。これは、特に、合成音声122の広帯域後処理に言えることである。したがって、LPCパラメータに基づく時間領域の後処理を利用せずに、効率的かつ効果的に実施可能なデコーダの後処理機の技術に対する強い必要性が存在する。
発明の要約
本発明は、周波数領域で複数のサブバンドに分割される音声信号を強化するための音声後処理機に関する。一態様では、音声後処理機は、複数のサブバンドから導出されるエンベロープのためのエンベロープ変更因数を生成するために、複数のサブバンドから導出されるエンベロープを表す周波数領域係数を使用するように設定されたエンベロープ修正因数生成機を備える。音声後処理機は、複数のサブバンドのそれぞれに対応するエンベロープ修正因数によって、複数のサブバンドから導出されるエンベロープを修正するように設定されたエンベロープ修正機をさらに備える。
さらなる態様では、エンベロープ修正因数生成機は、FAC=αENV/Max+(1−α)を使用して、エンベロープ修正因数を生成する。式中、FACはエンベロープ修正因数、ENVはエンベロープ、Maxは最大エンベロープ、およびαは0から1までの値である。さらに、αが、第1の音声符号化速度のための第1の定数(α1)の場合や、αが、第2の音声符号化速度のための第2の定数(α2)の場合があるが、第2の音声符号化速度は第1の音声符号化速度よりも速く、α1>α2である。さらに、周波数領域係数はMDCT(修正離散コサイン変換)にすることができる。
また別の態様では、エンベロープ修正機は、エンベロープ修正因数のそれぞれをその対応するエンベロープで乗じることによって、複数のサブバンドから導出された前記エンベロープを修正する。
追加の態様では、音声後処理機は、複数のサブバンドのそれぞれの複数の微細構造のための微細構造修正因数を生成するために、複数のサブバンドのそれぞれの複数の微細構造を表す周波数領域係数を使用するように設定された微細構造修正因数生成機と、複数の微細構造のそれぞれに対応する微細構造修正因数によって、複数のサブバンドのそれぞれの複数の微細構造を修正するように設定された微細構造修正機をさらに備える。
このような態様では、微細構造修正因数生成機は、FAC=βMAG/Max+(1−β)を使用して、微細構造修正因数を生成することができる。式中、FACは微細構造修正因数であり、MAGは振幅であり、Maxは最大振幅であり、βは0から1の間の値である。
さらなる態様では、βは第1の音声符号化速度のための第1の一定値(β1)の場合や、βは第2の音声符号化速度のための第2の一定値(β2)の場合があるが、第2の音声符号化速度は、第1の音声符号化速度よりも速く、β1>β2である。
本発明のその他の特徴や利点は、以下の詳細説明と添付の図面を確認することによって、当業者により容易に明らかになる。
本発明の特徴や利点は、以下の詳細説明と添付の図面を確認することによって、当業者により容易に明らかになる。
発明の詳細
本発明は、特定の実施例に関して説明されるが、本発明の原則は、添付の請求項により画定されるように、本明細書に説明された本発明の具体的に説明される実施例を超えて適用可能であることが明らかである。さらに、本発明の説明において、一定の詳細は、本発明の独創的な態様を不明瞭にしないように、省略される。省略される詳細は、当業者の知識の範囲内である。
本明細書の図面および添付の詳細説明は、本発明の典型的な実施例に関することに過ぎない。簡潔さを保つために、本発明の原則を使用する本発明のその他の実施形態は、本明細書では具体的に説明されず、添付の図面によって具体的に図説されてない。その他明記されない限り、図面の中の同様または対応する要素は、同様または対応する参照番号によって示すことができることとする。
図2Aは、本発明の一実施形態に従い、符号化された音声信号の復号と後処理のための復号システム200の模式図を示す。示されているように、復号システム200は、MDCTデコーダ210と、MDCT係数後処理機220と、逆MDCT230と、を含む。復号システム200は、通信媒体(非表示)を介して、エンコーダから符号化された音声ビットストリーム202を受信するが、復号システム200は、移動通信デバイス、基地局、または符号化された音声ビットストリーム202を受信することができるその他の無線または有線通信デバイスの一部にすることができる。復号システム200は、符号化された音声ビットストリーム202を復号して、デジタル信号の形で音声信号232を生成するように、動作する。次に、音声信号232は、デジタルからアナログへの変換機(非表示)によって、アナログ信号に変換することができる。デジタルからアナログへの変換機のアナログ出力は、受信機(非表示)によって受信することができるが、受信機は、アナログ信号を受信できる、人間の耳、磁気テープレコーダ、またはその他のデバイスにすることができる。あるいは、デジタル信号を受信できる、デジタル記録デバイス、音声認識デバイス、またはその他任意のデバイスが音声信号232を受信することができる。
MDCTデコーダ210は、符号化アルゴリズムおよび符号化された音声ビットストリーム202のビットレートに応じて、符号化された音声212を復号して、MDCT係数212を生成する。MDCT係数後処理機は、復号されたMDCT係数212上に対して動作して、音声品質を大幅に劣化することなく可聴ノイズを減少する、後処理されたMDCT係数222を生成する。図2Bを参照しながら以下で検討するように、可聴ノイズの減少は、MDCT係数を使用して、信号のエンベロープと微細構造を修正することによって実現することができる。逆MDCT230は、たとえば、MDCT係数の再構成のために、後処理されたエンベロープを後処理された微細構造で乗じることによって、後処理されたエンベロープと後処理された微細構造を組み合わせて、音声信号232を生成する。
図2Bは、本発明の一実施形態に従い、後処理機250の模式図を示す。時間領域において動作する従来の後処理機とは異なり、後処理機250は周波数領域で動作する。好ましい実施形態では、本発明は、周波数領域のMDCTまたはTDAC(時間領域エイリアシング相殺)係数を利用する。本発明は、合成音声の後処理のために周波数領域のDFT(離散フーリエ変換)またはFFT(高速フーリエ変換)も使用することができるが、フレーム境界においてフレーム間が不連続となる可能性があるために、DFTおよびFFTは、MDTCあるいはTDACと比較して好まれない。DFTまたはFFTを使用して音声信号を2つの信号と次の追加に分解すると、フレームの不連続性が生じる場合がある。しかしながら、本発明の好ましい実施形態では、後処理機250は、MDCT係数を利用し、音声信号は、重複枠がある2つの信号に分解され、音声信号の枠は、周波数領域でコサイン変換および量子化される。また、時間領域に変換し直す際に、フレーム間の不連続
性を回避するように、重複・追加演算が実施される。
図2Bに示されているように、後処理機250は、当業者には周知であるが、ブロック210でMDCT係数を受信または生成する。一実施形態では、後処理機250は、音声信号の全体的なエネルギーとスペクトルの傾きを実質的に維持しながら、スペクトルのエンベロープ谷部分のエネルギーを削減することによって、エンベロープ修正因数生成機260とエンベロープ修正機265でエンベロープの後処理を実施する。さらに、後処理機250は、音声信号の調波の間で(存在する場合)スペクトルの振幅を弱めることによって、微細構造修正因数生成機270と微細構造修正機275で微細構造後処理を実施することができる。
サブバンド修正因数生成機260は、図3にサブバンドS1、S2、・・・Sn300として示されているように、周波数範囲を複数の周波数サブバンドに分解する。各サブバンドの周波数範囲は、同じ場合、あるいは、サブバンドによって異なる場合がある。一実施形態では、各サブバンドは、各サブバンドが小さすぎないように、少なくとも1つの調波のピークを含む。次に、サブバンド修正因数生成機260は、音声信号320のエンベロープ310を表すために、MDCT係数に基づいて、複数の値を概算する。
例としては、周波数範囲全体を、10など、いくつかのサブバンドに分解することができる。10などの値の数は、各サブバンドから導出されるエンベロープを表すために概算される。すると、エンベロープは次の式によって表される。
Figure 0005047268
次に、サブバンド修正因数生成機260は、次の式を使用して、修正因数を生成する。
Figure 0005047268
式中、Maxは最大エンベロープ値で、αは0から1の間の一定値で、エンベロープ修正の程度を制御する。一実施形態では、αは、0.25などのような0から0.5までの一定値が可能である。αの値は各ビットレートで一定にすることができるが、αの値は、ビットレートに応じて変化することもできる。このような実施形態では、ビットレートが高くなると、αの値は、ビットレートが低い場合のαの値よりも小さい。αの値が小さくなればなるほど、エンベロープの修正は少なくなる。たとえば、一実施形態では、αの値は14Kbpsに対して定数(α=α1)で、βの値は28Kbpsに対して定数(α=α2)であるが、α1>α2である。
一実施形態では、以下に示されているように、エンベロープ修正機265は、エンベロープ320に、サブバンド修正因数生成機260によって生成された因数を乗じることによって、エンベロープ310を修正する。
Figure 0005047268
したがって、FAC[i]は、各サブバンドのエネルギーを修正するが、FAC[i]
は1より小さい。ピークエネルギーが大きい領域では、FAC[i]は1に近いが、ピークエネルギーが小さい領域では、FAC[i]は0に近い。
音声信号のひずみは、低ビットレートで、そして、ほとんどは、ホルマント領域312ではなく、量子化エラーに対する信号エネルギーの比率が高い、谷領域314で多く発生することが知られている。MDCT係数を利用することによって、音声信号のエネルギー全体とスペクトルの傾きを実質的に維持しながら、スペクトルエンベロープの谷領域314のエネルギーを削減することにより、ENV[i]を修正するために、FAC[i]が計算される。
図4を参照すると、微細構造修正因数生成機270は、図4にサブバンドS1、S2、・・・Sn430として示されているような複数の周波数サブバンドのそれぞれの周波数f1、f2、・・・fn420などのような微細構造に、さらに注目する。たとえば、サブバンド修正因数生成機260、およびエンベロープ修正機265におけるそれぞれのサブバンドS1、S2、・・・Sn330に適用される上記の手順は、微細構造修正因数生成機270、および微細構造修正機275におけるf1、f2、・・・fn420にそれぞれ適用される。上記で検討されたエンベロープ後処理手順のように、複数のサブバンドのそれぞれの微細構造またはMDCT係数の振幅(MAG)に対する修正因数は、以下に示されるような、式2に類似する式を使用して取得することが可能である。
Figure 0005047268
式中、Maxは最大振幅であり、βは0から1の間の一定値であり、振幅または微細構造修正の程度を制御する。βの値は各ビットレートで一定にすることができるが、βの値は、ビットレートに応じて変化することもできる。このような実施形態では、ビットレートが高くなると、βの値は、ビットレートが低い場合のβの値よりも小さい。βの値が小さくなればなるほど、エンベロープの修正は少なくなる。たとえば、一実施形態では、βの値は14Kbpsに対して定数(β=β1)で、βの値は28Kbpsに対して定数(β=β2)であるが、β1>β2である。この結果、微細構造修正因数生成機270と微細構造修正機275は、もしあれば、調波間のスペクトル振幅を弱める。次に、後処理されたエンベロープを、MDCT係数の後処理された微細構造で乗じることによって、後処理されたMDCT係数の再構成を取得する。
本発明の一実施形態では、MDCT係数の後処理は、高域(4−8KHz)にのみ適用されて、低域(0−4KHz)は、従来の時間領域手法を使用して後処理され、高域については、デコーダに送信されるLPC係数はない。高域のための後処理を実施するために、従来の時間領域手法を使用することは、複雑になりすぎるので、本明細書の実施例は、後処理を実施するデコーダで利用可能なMDCT係数を利用する。
このような実施形態では、160の高域MDCT係数が存在する場合があり、次のように定義できる。
Figure 0005047268
式中、高域は10のサブバンドに分解できて、各サブバンドは16のMDCT係数を含み、当該160のMDCT係数は次のように表すことが可能である。
Figure 0005047268
式中、kはサブバンドインデックスで、iはサブバンド内の係数インデックスである。次に、各サブバンドのMDCT係数の振幅は次のように表すことができる。
Figure 0005047268
式中、各サブバンドの平均振幅は、以下のエンベロープとして定義される。
Figure 0005047268
上記で検討したように、MDCT後処理は、2つの部分で実施することができる。最初の部分は、エンベロープ後処理と呼ぶことができて(短期の後処理に対応する)、エンベロープを修正し、第2の部分は微細構造後処理と呼ぶことができて(長期の後処理に対応する)、各サブバンド内の各係数の振幅を強化する。一態様では、MDCT後処理は、低いほうの振幅をさらに低くするが、符号化エラーは、高いほうの振幅よりも比較的多い。一実施形態では、エンベロープを修正するためのアルゴリズムは、以下のように記述することができる。
まず、最大エンベロープ値は次のように想定される。
Figure 0005047268
エンベロープに適用することができる増幅率因数は、次のように計算される。
Figure 0005047268
式中、α(0<α<1)は、特定のビットレートに対する定数で、ビットレートが高くなると、定数αは小さくなる。因数を決定後、修正されたエンベロープは次のように表すことができる。
Figure 0005047268
式中、g1は、エネルギー全体を維持するための増幅率で、次のように定義される。
Figure 0005047268
次に、2番目の部分については、各サブバンド内の微細構造の修正は、上記のエンベロープ後処理に類似したものとすることができるが、サブバンド内の最大振幅値は次のように想定される。
Figure 0005047268
振幅の増幅率因数は次のように計算できる。
Figure 0005047268
式中、β(0<β<1)は、特定のビットレートに対する定数で、ビットレートが高くなると、定数βは小さくなる。因数を決定後、修正された振幅は次のように表すことができる。
Figure 0005047268
エンベロープ後処理と微細構造後処理の双方を組み合わせることによって、最終的な後処理されたMDCT係数は次のように定義される。
Figure 0005047268
式中、k=0,1,...,9で、i=0,1,...,15である。
図5は、本発明の一実施形態に従い、合成音声のエンベロープと微細構造の後処理のための流れ図500を示す。付録AおよびBは、それぞれ、固定小数点と浮動小数点で、「C」プログラム言語を使用する後処理流れ図500の実施を示す。上記で説明したように、最初のステップ510で、後処理流れ図500は、複数のMDCT係数を、このような係数を計算またはその他のシステム構成要素から受信することによって取得する。次に、ステップ520で、後処理流れ図500は、複数のサブバンド330のそれぞれに対してエンベロープを表す複数のMDCT係数を使用する。一実施形態では、各サブバンドは、1つ以上の周波数係数を有するようになり、各サブバンドの振幅を概算するために、サブバンドの各周波数に対して平方と加算演算が実施されて、エネルギーを取得する。演算を
より簡単にするために、計算には絶対値を使用できる。
ステップ530で、後処理流れ図500は、たとえば、上記のように、式2を使用することによって、各サブバンドエンベロープの修正因数を決定する。次に、ステップ540で、後処理流れ図500は、たとえば、上記のように、式3を使用することによって、ステップ530の修正因数を使用して、各サブバンドエンベロープを修正する。ステップ550で、後処理流れ図500は、微細構造後処理(時間領域における長期後処理に類比できる)を実施するために、エンベロープ後処理(時間領域における短期後処理に類比できる)のためのステップ510〜540を各サブバンド430内の微細構造に対して、再適用する。微細構造後処理を実施する前に、後処理流れ図500は、MDCT係数を未修正エンベロープ係数で除することによって、MDCT係数の微細構造を評価してから、MDCT係数の微細構造に対するステップ510〜540の処理を異なるパラメータで各サブバンドに適用することができる。さらに、ステップ560で、後処理流れ図500は、MDCT係数の再構成のために、後処理されたエンベロープを後処理された微細構造で乗じる。
本発明の上記説明から、本発明の概念を実施するために、その範囲を逸脱することなく、多様な技術を使用することが可能であることが明らかである。さらに、本発明は、特定の実施形態を具体的に参照しながら説明されたが、当業者は、本発明の精神と範囲を逸脱することなく、形式および詳細に変更を行うことができることを理解するであろう。たとえば、本明細書に開示される回路は、ソフトウェアに実装が可能、あるいはこの逆も可能であることが意図される。説明された実施形態は、説明のためであって、制限のためではない。また、本発明は、本明細書に説明された特定の実施形態に限定されるものではなく、本発明の範囲を逸脱することなく、多数の再配置、変更および置換が可能であることも理解されたい。
[添付資料]
Figure 0005047268
Figure 0005047268
Figure 0005047268
[添付資料B]
Figure 0005047268
Figure 0005047268
Figure 0005047268
符号化された音声信号の復号と後処理のための従来の復号システムの模式図を示す。 本発明の一実施形態に従い、符号化された音声信号の復号と後処理のための復号システムの模式図を示す。 本発明の一実施形態に従い、後処理機の模式図を示す。 本発明の一実施形態に従い、合成音声のエンベロープ後処理のための音声信号を表すエンベロープを示す。 本発明の一実施形態に従い、合成音声の微細構造後処理のための音声信号を表す微細構造を示す。 本発明の一実施形態に従い、合成音声のエンベロープと微細構造の後処理のための流れ図を示す。

Claims (20)

  1. 後処理された音声信号を生成するための、高域周波数領域と低域周波数領域とを有する音声信号の後処理方法であって、方法は、
    前記音声信号の前記低域周波数領域には、LPC(線形予測符号化)係数を用いて、前記音声信号に時間領域の後処理を適用するステップと、
    前記音声信号の前記高域周波数領域には、MDCT(修正離散コサイン変換)係数を用いて、前記音声信号に周波数領域の後処理を適用するステップとを備え、
    前記周波数領域の後処理を適用するステップは、
    符号化された音声信号を復号して、複数のサブバンドに分割される前記音声信号を表すMDCT係数を得るステップと、
    前記複数のサブバンドの各々のサブバンドのためのエンベロープを、前記複数のサブバンドのMDCT係数の平均振幅として生成するステップと、
    前記複数のサブバンドのMDCT係数を用いて、前記複数のサブバンドの各々のサブバンドのためのエンベロープ修正因数を生成するステップと、
    前記複数のサブバンドの前記エンベロープおよび前記エンベロープ修正因数に基づいて増幅率を決定するステップと、
    前記複数のサブバンドのMDCT係数を用いて、前記複数のサブバンドの各々のサブバンドにおける各々のMDCT係数のための微細構造修正因数を生成するステップと、
    増幅率と、サブバンドのエンベロープ修正因数と、サブバンドのMDCT係数の微細構造修正因数とを各サブバンドにおけるMDCT係数に乗ずることによって、各サブバンドにおけるMDCT係数を修正して、後処理されたMDCT係数を提供するステップと、
    前記後処理されたMDCT係数を用いて前記後処理された音声信号を生成するステップと、
    を備える、音声後処理方法。
  2. 前記増幅率を決定する前記ステップは、
    Figure 0005047268
    に基づき、式中、g1は増幅率であり、FAC1は前記エンベロープ修正因数であり、ENVは前記エンベロープである、請求項1に記載の音声後処理方法。
  3. 前記エンベロープ修正因数を生成するステップは、
    FAC1=αENV/Max+(1−α)
    を使用し、式中、FAC1は前記エンベロープ修正因数であり、ENVは前記エンベロープであり、Maxは最大エンベロープであり、αは0から1の間の値である、請求項1に記載の音声後処理方法。
  4. αは第1の音声符号化速度のための第1の一定値(α1)であり、αは第2の音声符号化速度のための第2の一定値(α2)であって、前記第2の音声符号化速度は、前記第1の音声符号化速度よりも速く、α1>α2である、請求項3に記載の音声後処理方法。
  5. 前記微細構造修正因数を生成する前記ステップは、
    FAC2=βMAG/Max+(1−β)
    を使用し、式中、FAC2は前記微細構造修正因数であり、MAGは振幅であり、Maxは最大振幅であり、βは0から1の間の値である、請求項1に記載の音声後処理方法。
  6. βは第1の音声符号化速度のための第1の一定値(β1)であり、βは第2の音声符号化速度のための第2の一定値(β2)であって、前記第2の音声符号化速度は、前記第1の音声符号化速度よりも速く、β1>β2である、請求項5に記載の音声後処理方法
  7. 前記エンベロープは、
    Figure 0005047268
    によって定義され、
    前記複数のサブバンドの各々における前記MDCT係数の振幅は、
    Figure 0005047268
    によって表わされ、
    前記高域周波数領域は、10のサブバンドに分割され、前記複数のサブバンドの各々は16のMDCT係数を含み、当該160のMDCT係数は、
    Figure 0005047268
    と表わされる、請求項1に記載の音声後処理方法。
  8. 前記複数のサブバンドの各々のサブバンドは、少なくとも1つの調波のピークを含む、請求項1に記載の音声後処理方法。
  9. 前記エンベロープ修正因数を生成する前記ステップは、さらに前記エンベロープを用いる、請求項1に記載の音声後処理方法。
  10. 前記エンベロープ修正因数を生成する前記ステップは、さらに前記複数のサブバンドの各々のサブバンドの前記エンベロープの最大値を用いる、請求項1に記載の音声後処理方法。
  11. 後処理された音声信号を生成するための、高域周波数領域と低域周波数領域とを有する音声信号のための後処理機であって、前記後処理機は、
    前記音声信号の前記低域周波数領域には、LPC(線形予測符号化)係数を用いて、前記音声信号に時間領域の後処理を適用するステップと、
    前記音声信号の前記高域周波数領域には、MDCT(修正離散コサイン変換)係数を用いて、前記音声信号に周波数領域の後処理を適用するステップと、
    のための、ソフトウェアおよび回路を備え、
    前記周波数領域の後処理を適用するステップは、
    符号化された音声信号を復号して、複数のサブバンドに分割される前記音声信号を表すMDCT係数を得るステップと、
    前記複数のサブバンドの各々のサブバンドのためのエンベロープを、前記複数のサブバンドのMDCT係数の平均振幅として生成するステップと、
    前記複数のサブバンドのMDCT係数を用いて、前記複数のサブバンドの各々のサブバンドのためのエンベロープ修正因数を生成するステップと、
    前記複数のサブバンドの前記エンベロープおよび前記エンベロープ修正因数に基づいて増幅率を決定するステップと、
    前記複数のサブバンドのMDCT係数を用いて、前記複数のサブバンドの各々のサブバンドにおける各々のMDCT係数のための微細構造修正因数を生成するステップと、
    増幅率と、サブバンドのエンベロープ修正因数と、サブバンドのMDCT係数の微細構造修正因数とを各サブバンドにおけるMDCT係数に乗ずることによって、各サブバンドにおけるMDCT係数を修正して、後処理されたMDCT係数を提供するステップと、
    前記後処理されたMDCT係数を用いて前記後処理された音声信号を生成するステップと、
    を備える、音声後処理機
  12. 前記増幅率を決定する前記ステップは、
    Figure 0005047268
    に基づき、式中、g1は増幅率であり、FAC1は前記エンベロープ修正因数であり、ENVは前記エンベロープである、請求項11に記載の音声後処理機。
  13. 前記エンベロープ修正因数を生成するステップは、
    FAC1=αENV/Max+(1−α)
    を使用し、式中、FAC1は前記エンベロープ修正因数であり、ENVは前記エンベロープであり、Maxは最大エンベロープであり、αは0から1の間の値である、請求項11に記載の音声後処理機。
  14. αは第1の音声符号化速度のための第1の一定値(α1)であり、αは第2の音声符号化速度のための第2の一定値(α2)であって、前記第2の音声符号化速度は、前記第1の音声符号化速度よりも速く、α1>α2である、請求項13に記載の音声後処理機。
  15. 前記微細構造修正因数を生成する前記ステップは、
    FAC2=βMAG/Max+(1−β)
    を使用し、式中、FAC2は前記微細構造修正因数であり、MAGは振幅であり、Maxは最大振幅であり、βは0から1の間の値である、請求項11に記載の音声後処理機。
  16. βは第1の音声符号化速度のための第1の一定値(β1)であり、βは第2の音声符号化速度のための第2の一定値(β2)であって、前記第2の音声符号化速度は、前記第1の音声符号化速度よりも速く、β1>β2である、請求項15に記載の音声後処理機
  17. 前記エンベロープは、
    Figure 0005047268
    によって定義され、
    前記複数のサブバンドの各々における前記MDCT係数の振幅は、
    Figure 0005047268
    によって表わされ、
    前記高域周波数領域は、10のサブバンドに分割され、前記複数のサブバンドの各々は16のMDCT係数を含み、当該160のMDCT係数は、
    Figure 0005047268
    と表わされる、請求項11に記載の音声後処理機。
  18. 前記複数のサブバンドの各々のサブバンドは、少なくとも1つの調波のピークを含む、請求項11に記載の音声後処理機。
  19. 前記エンベロープ修正因数を生成する前記ステップは、さらに前記エンベロープを用いる、請求項11に記載の音声後処理機。
  20. 前記エンベロープ修正因数を生成する前記ステップは、さらに前記複数のサブバンドの各々のサブバンドの前記エンベロープの最大値を用いる、請求項11に記載の音声後処理機。
JP2009501405A 2006-03-20 2006-10-23 Mdct係数を使用する音声後処理 Active JP5047268B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/385,428 US7590523B2 (en) 2006-03-20 2006-03-20 Speech post-processing using MDCT coefficients
US11/385,428 2006-03-20
PCT/US2006/041507 WO2007111646A2 (en) 2006-03-20 2006-10-23 Speech post-processing using mdct coefficients

Publications (2)

Publication Number Publication Date
JP2009530685A JP2009530685A (ja) 2009-08-27
JP5047268B2 true JP5047268B2 (ja) 2012-10-10

Family

ID=38519011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009501405A Active JP5047268B2 (ja) 2006-03-20 2006-10-23 Mdct係数を使用する音声後処理

Country Status (4)

Country Link
US (2) US7590523B2 (ja)
EP (1) EP2005419B1 (ja)
JP (1) JP5047268B2 (ja)
WO (1) WO2007111646A2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5018193B2 (ja) * 2007-04-06 2012-09-05 ヤマハ株式会社 雑音抑圧装置およびプログラム
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
EP2347412B1 (en) * 2008-07-18 2012-10-03 Dolby Laboratories Licensing Corporation Method and system for frequency domain postfiltering of encoded audio data in a decoder
CN101770775B (zh) * 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
US9202456B2 (en) * 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5652658B2 (ja) 2010-04-13 2015-01-14 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
CN102893330B (zh) * 2010-05-11 2015-04-15 瑞典爱立信有限公司 用于处理音频信号的方法和装置
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN105225669B (zh) * 2011-03-04 2018-12-21 瑞典爱立信有限公司 音频编码中的后量化增益校正
JP5942358B2 (ja) 2011-08-24 2016-06-29 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CA2851370C (en) 2011-11-03 2019-12-03 Voiceage Corporation Improving non-speech content for low rate celp decoder
KR102150496B1 (ko) 2013-04-05 2020-09-01 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
EP3040987B1 (en) * 2013-12-02 2019-05-29 Huawei Technologies Co., Ltd. Encoding method and apparatus
CA3162763A1 (en) 2013-12-27 2015-07-02 Sony Corporation Decoding apparatus and method, and program
EP3913628A1 (en) * 2014-03-24 2021-11-24 Samsung Electronics Co., Ltd. High-band encoding method
CN106409303B (zh) * 2014-04-29 2019-09-20 华为技术有限公司 处理信号的方法及设备
EP3992964B1 (en) * 2020-01-20 2024-04-17 Tencent Technology (Shenzhen) Company Limited Voice signal processing method and apparatus, and electronic device and storage medium

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4374304A (en) * 1980-09-26 1983-02-15 Bell Telephone Laboratories, Incorporated Spectrum division/multiplication communication arrangement for speech signals
US4454609A (en) * 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US5054075A (en) * 1989-09-05 1991-10-01 Motorola, Inc. Subband decoding method and apparatus
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
US5630011A (en) * 1990-12-05 1997-05-13 Digital Voice Systems, Inc. Quantization of harmonic amplitudes representing speech
US5581653A (en) * 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
JP3321971B2 (ja) * 1994-03-10 2002-09-09 ソニー株式会社 音声信号処理方法
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP3235703B2 (ja) * 1995-03-10 2001-12-04 日本電信電話株式会社 ディジタルフィルタのフィルタ係数決定方法
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
JPH0969781A (ja) * 1995-08-31 1997-03-11 Nippon Steel Corp オーディオデータ符号化装置
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
JP3653826B2 (ja) * 1995-10-26 2005-06-02 ソニー株式会社 音声復号化方法及び装置
JP3283413B2 (ja) * 1995-11-30 2002-05-20 株式会社日立製作所 符号化復号方法、符号化装置および復号装置
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
JP3384523B2 (ja) * 1996-09-04 2003-03-10 日本電信電話株式会社 音響信号処理方法
SE9700772D0 (sv) 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
JP2000134105A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法
US6182030B1 (en) * 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals
US6441764B1 (en) * 1999-05-06 2002-08-27 Massachusetts Institute Of Technology Hybrid analog/digital signal coding
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
DE10102159C2 (de) * 2001-01-18 2002-12-12 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen bzw. Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkasse, Codierer und skalierbarer Codierer
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
US7103539B2 (en) * 2001-11-08 2006-09-05 Global Ip Sound Europe Ab Enhanced coded speech
DE10200653B4 (de) * 2002-01-10 2004-05-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Skalierbarer Codierer, Verfahren zum Codieren, Decodierer und Verfahren zum Decodieren für einen skalierten Datenstrom
JP2004061617A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd 受話音声処理装置
DE10236694A1 (de) 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
SE0202770D0 (sv) * 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7146316B2 (en) 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
US7272566B2 (en) * 2003-01-02 2007-09-18 Dolby Laboratories Licensing Corporation Reducing scale factor transmission cost for MPEG-2 advanced audio coding (AAC) using a lattice based post processing technique
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
JP4047296B2 (ja) * 2004-03-12 2008-02-13 株式会社東芝 音声復号化方法及び音声復号化装置
JP4580622B2 (ja) * 2003-04-04 2010-11-17 株式会社東芝 広帯域音声符号化方法及び広帯域音声符号化装置
WO2005041170A1 (en) * 2003-10-24 2005-05-06 Nokia Corpration Noise-dependent postfiltering
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals

Also Published As

Publication number Publication date
US7590523B2 (en) 2009-09-15
WO2007111646B1 (en) 2008-01-24
US8095360B2 (en) 2012-01-10
EP2005419B1 (en) 2013-09-04
US20090287478A1 (en) 2009-11-19
WO2007111646A3 (en) 2007-11-29
EP2005419A4 (en) 2011-03-30
EP2005419A2 (en) 2008-12-24
US20070219785A1 (en) 2007-09-20
WO2007111646A2 (en) 2007-10-04
JP2009530685A (ja) 2009-08-27

Similar Documents

Publication Publication Date Title
JP5047268B2 (ja) Mdct係数を使用する音声後処理
JP5129117B2 (ja) 音声信号の高帯域部分を符号化及び復号する方法及び装置
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
US8532983B2 (en) Adaptive frequency prediction for encoding or decoding an audio signal
KR101078625B1 (ko) 이득 계수 제한을 위한 시스템, 방법 및 장치
JP4112027B2 (ja) 再生成位相情報を用いた音声合成
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
US10176817B2 (en) Low-frequency emphasis for LPC-based coding in frequency domain
WO2010127616A1 (en) System and method for frequency domain audio post-processing based on perceptual masking
WO2010028301A1 (en) Spectrum harmonic/noise sharpness control
KR100832144B1 (ko) 지각적으로 개선된 음향신호의 엔코딩
JP2000122695A (ja) 後置フィルタ
KR20080034817A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120717

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5047268

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250