JP2009530685A - Mdct係数を使用する音声後処理 - Google Patents

Mdct係数を使用する音声後処理 Download PDF

Info

Publication number
JP2009530685A
JP2009530685A JP2009501405A JP2009501405A JP2009530685A JP 2009530685 A JP2009530685 A JP 2009530685A JP 2009501405 A JP2009501405 A JP 2009501405A JP 2009501405 A JP2009501405 A JP 2009501405A JP 2009530685 A JP2009530685 A JP 2009530685A
Authority
JP
Japan
Prior art keywords
envelope
post
speech
subbands
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009501405A
Other languages
English (en)
Other versions
JP5047268B2 (ja
Inventor
ギャオ,ヤン
Original Assignee
マインドスピード・テクノロジーズ・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マインドスピード・テクノロジーズ・インコーポレイテッド filed Critical マインドスピード・テクノロジーズ・インコーポレイテッド
Publication of JP2009530685A publication Critical patent/JP2009530685A/ja
Application granted granted Critical
Publication of JP5047268B2 publication Critical patent/JP5047268B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

周波数領域で複数のサブバンド(330)に分割される音声信号(320)を強化するための音声後処理機(250)を提供する。該音声後処理機は、該複数のサブバンドから導出されるエンベロープのためのエンベロープ修正因数を生成するために、該複数のサブバンドから導出されるエンベロープを表す周波数領域係数を使用するように設定されたエンベロープ修正因数生成機(260)を備え、該エンベロープ修正因数は、FAC=αENV/Max+(1−α)を使用して生成される。式中、FACは該エンベロープ修正因数であり、ENVはエンベロープであり、Maxは最大エンベロープであり、αは0から1の間の値であり、αは各音声の符号化速度に対して異なる一定値である。該音声後処理機は、該複数のサブバンドのそれぞれに対応する該エンベロープ修正因数によって、該複数のサブバンドから導出される該エンベロープを修正するように設定されたエンベロープ修正機(265)をさらに備える。

Description

発明の背景
発明の分野
本発明は、概して音声符号化に関する。より具体的には、本発明は音声後処理に関する。
背景技術
音声圧縮は、音声信号を表すビット数を削減して、送信に必要な帯域帯を削減するために使用される場合がある。しかしながら、音声圧縮は、解凍された音声の品質低下を招く場合がある。一般的に、ビットレートが高くなると、品質が向上し、ビットレートが低くなると、品質が低下する。しかしながら、符号化技術などの現代の音声圧縮技術は、比較的低いビットレートで比較的高品質の解凍された音声を作成することが可能である。一般的に、現代の符号化技術は、実際の音声波形を保存せずに、音声信号の知覚的に重要な特徴を表そうとする。音声圧縮システムは、一般的にはコーデックと呼ばれ、エンコーダとデコーダを含み、デジタル音声信号のビットレートを削減するために使用することができる。再構成される音声を高品質に維持しようとしながら、元の音声をデジタル的に符号化するために必要なビット数を削減する音声コーデックのために、多数のアルゴリズムが開発されてきた。
図1は、励起デコーダ110、合成フィルタ120および後処理機130を含む、従来の音声復号システム100を示す。示されているように、復号システム100は、通信媒体(非表示)を介して、エンコーダから符号化された音声ビットストリーム102を受信し、復号システム100は、符号化された音声ビットストリーム102を受信できる、移動通信デバイス、基地局、またはその他の無線または有線通信デバイスの一部にすることができる。復号システム100は、符号化された音声ビットストリーム102を復号して、デジタル信号の形で音声信号132を生成するように、動作する。次に、音声信号132は、デジタルからアナログへの変換機(非表示)によって、アナログ信号に変換することができる。デジタルからアナログへの変換機のアナログ出力は、受信機(非表示)によって受信することができるが、受信機は、アナログ信号を受信できる、人間の耳、磁気テープレコーダ、またはその他のデバイスにすることができる。あるいは、デジタル信号を受信できる、デジタル記録デバイス、音声認識デバイス、またはその他任意のデバイスが音声信号132を受信することができる。
励起デコーダ110は、符号化アルゴリズムおよび符号化された音声ビットストリーム102のビットレートに応じて、符号化された音声ビットストリーム102を復号して、復号励起112を生成する。合成フィルタ120は、復号励起112に基づいて合成音声122を生成する短期逆予測フィルタにすることができる。後処理機130は、合成音声122の知覚品質を改善できる、フィルタリング、信号強調、ノイズ修正、増幅、傾斜補正、およびその他類似の技術を含むことができる。後処理機130は、合成音声122を著しく劣化することなく、可聴ノイズを減少することができる。可聴ノイズの減少は、合成音声122のホルマント構造を強調することによって、あるいは、合成音声122に知覚的に関連しない周波数領域のノイズを抑制することによって、実現することができる。
従来、合成音声122の後処理は、利用可能なLPC(線形予測符号化)パラメータを
使用して時間領域で実施される。しかしながら、このようなLPCパラメータが利用できない場合、複雑度とコードサイズの面では、合成音声122の後処理の目的のためにLPCパラメータを生成すると、あまりにコストがかかり過ぎる。これは、特に、合成音声122の広帯域後処理に言えることである。したがって、LPCパラメータに基づく時間領域の後処理を利用せずに、効率的かつ効果的に実施可能なデコーダの後処理機の技術に対する強い必要性が存在する。
発明の要約
本発明は、周波数領域で複数のサブバンドに分割される音声信号を強化するための音声後処理機に関する。一態様では、音声後処理機は、複数のサブバンドから導出されるエンベロープのためのエンベロープ変更因数を生成するために、複数のサブバンドから導出されるエンベロープを表す周波数領域係数を使用するように設定されたエンベロープ修正因数生成機を備える。音声後処理機は、複数のサブバンドのそれぞれに対応するエンベロープ修正因数によって、複数のサブバンドから導出されるエンベロープを修正するように設定されたエンベロープ修正機をさらに備える。
さらなる態様では、エンベロープ修正因数生成機は、FAC=αENV/Max+(1−α)を使用して、エンベロープ修正因数を生成する。式中、FACはエンベロープ修正因数、ENVはエンベロープ、Maxは最大エンベロープ、およびαは0から1までの値である。さらに、αが、第1の音声符号化速度のための第1の定数(α1)の場合や、αが、第2の音声符号化速度のための第2の定数(α2)の場合があるが、第2の音声符号化速度は第1の音声符号化速度よりも速く、α1>α2である。さらに、周波数領域係数はMDCT(修正離散コサイン変換)にすることができる。
また別の態様では、エンベロープ修正機は、エンベロープ修正因数のそれぞれをその対応するエンベロープで乗じることによって、複数のサブバンドから導出された前記エンベロープを修正する。
追加の態様では、音声後処理機は、複数のサブバンドのそれぞれの複数の微細構造のための微細構造修正因数を生成するために、複数のサブバンドのそれぞれの複数の微細構造を表す周波数領域係数を使用するように設定された微細構造修正因数生成機と、複数の微細構造のそれぞれに対応する微細構造修正因数によって、複数のサブバンドのそれぞれの複数の微細構造を修正するように設定された微細構造修正機をさらに備える。
このような態様では、微細構造修正因数生成機は、FAC=βMAG/Max+(1−β)を使用して、微細構造修正因数を生成することができる。式中、FACは微細構造修正因数であり、MAGは振幅であり、Maxは最大振幅であり、βは0から1の間の値である。
さらなる態様では、βは第1の音声符号化速度のための第1の一定値(β1)の場合や、βは第2の音声符号化速度のための第2の一定値(β2)の場合があるが、第2の音声符号化速度は、第1の音声符号化速度よりも速く、β1>β2である。
本発明のその他の特徴や利点は、以下の詳細説明と添付の図面を確認することによって、当業者により容易に明らかになる。
本発明の特徴や利点は、以下の詳細説明と添付の図面を確認することによって、当業者により容易に明らかになる。
発明の詳細
本発明は、特定の実施例に関して説明されるが、本発明の原則は、添付の請求項により画定されるように、本明細書に説明された本発明の具体的に説明される実施例を超えて適用可能であることが明らかである。さらに、本発明の説明において、一定の詳細は、本発明の独創的な態様を不明瞭にしないように、省略される。省略される詳細は、当業者の知識の範囲内である。
本明細書の図面および添付の詳細説明は、本発明の典型的な実施例に関することに過ぎない。簡潔さを保つために、本発明の原則を使用する本発明のその他の実施形態は、本明細書では具体的に説明されず、添付の図面によって具体的に図説されてない。その他明記されない限り、図面の中の同様または対応する要素は、同様または対応する参照番号によって示すことができることとする。
図2Aは、本発明の一実施形態に従い、符号化された音声信号の復号と後処理のための復号システム200の模式図を示す。示されているように、復号システム200は、MDCTデコーダ210と、MDCT係数後処理機220と、逆MDCT230と、を含む。復号システム200は、通信媒体(非表示)を介して、エンコーダから符号化された音声ビットストリーム202を受信するが、復号システム200は、移動通信デバイス、基地局、または符号化された音声ビットストリーム202を受信することができるその他の無線または有線通信デバイスの一部にすることができる。復号システム200は、符号化された音声ビットストリーム202を復号して、デジタル信号の形で音声信号232を生成するように、動作する。次に、音声信号232は、デジタルからアナログへの変換機(非表示)によって、アナログ信号に変換することができる。デジタルからアナログへの変換機のアナログ出力は、受信機(非表示)によって受信することができるが、受信機は、アナログ信号を受信できる、人間の耳、磁気テープレコーダ、またはその他のデバイスにすることができる。あるいは、デジタル信号を受信できる、デジタル記録デバイス、音声認識デバイス、またはその他任意のデバイスが音声信号232を受信することができる。
MDCTデコーダ210は、符号化アルゴリズムおよび符号化された音声ビットストリーム202のビットレートに応じて、符号化された音声212を復号して、MDCT係数212を生成する。MDCT係数後処理機は、復号されたMDCT係数212上に対して動作して、音声品質を大幅に劣化することなく可聴ノイズを減少する、後処理されたMDCT係数222を生成する。図2Bを参照しながら以下で検討するように、可聴ノイズの減少は、MDCT係数を使用して、信号のエンベロープと微細構造を修正することによって実現することができる。逆MDCT230は、たとえば、MDCT係数の再構成のために、後処理されたエンベロープを後処理された微細構造で乗じることによって、後処理されたエンベロープと後処理された微細構造を組み合わせて、音声信号232を生成する。
図2Bは、本発明の一実施形態に従い、後処理機250の模式図を示す。時間領域において動作する従来の後処理機とは異なり、後処理機250は周波数領域で動作する。好ましい実施形態では、本発明は、周波数領域のMDCTまたはTDAC(時間領域エイリアシング相殺)係数を利用する。本発明は、合成音声の後処理のために周波数領域のDFT(離散フーリエ変換)またはFFT(高速フーリエ変換)も使用することができるが、フレーム境界においてフレーム間が不連続となる可能性があるために、DFTおよびFFTは、MDTCあるいはTDACと比較して好まれない。DFTまたはFFTを使用して音声信号を2つの信号と次の追加に分解すると、フレームの不連続性が生じる場合がある。しかしながら、本発明の好ましい実施形態では、後処理機250は、MDCT係数を利用し、音声信号は、重複枠がある2つの信号に分解され、音声信号の枠は、周波数領域でコサイン変換および量子化される。また、時間領域に変換し直す際に、フレーム間の不連続
性を回避するように、重複・追加演算が実施される。
図2Bに示されているように、後処理機250は、当業者には周知であるが、ブロック210でMDCT係数を受信または生成する。一実施形態では、後処理機250は、音声信号の全体的なエネルギーとスペクトルの傾きを実質的に維持しながら、スペクトルのエンベロープ谷部分のエネルギーを削減することによって、エンベロープ修正因数生成機260とエンベロープ修正機265でエンベロープの後処理を実施する。さらに、後処理機250は、音声信号の調波の間で(存在する場合)スペクトルの振幅を弱めることによって、微細構造修正因数生成機270と微細構造修正機275で微細構造後処理を実施することができる。
サブバンド修正因数生成機260は、図3にサブバンドS1、S2、・・・Sn300として示されているように、周波数範囲を複数の周波数サブバンドに分解する。各サブバンドの周波数範囲は、同じ場合、あるいは、サブバンドによって異なる場合がある。一実施形態では、各サブバンドは、各サブバンドが小さすぎないように、少なくとも1つの調波のピークを含む。次に、サブバンド修正因数生成機260は、音声信号320のエンベロープ310を表すために、MDCT係数に基づいて、複数の値を概算する。
例としては、周波数範囲全体を、10など、いくつかのサブバンドに分解することができる。10などの値の数は、各サブバンドから導出されるエンベロープを表すために概算される。すると、エンベロープは次の式によって表される。
Figure 2009530685
次に、サブバンド修正因数生成機260は、次の式を使用して、修正因数を生成する。
Figure 2009530685
式中、Maxは最大エンベロープ値で、αは0から1の間の一定値で、エンベロープ修正の程度を制御する。一実施形態では、αは、0.25などのような0から0.5までの一定値が可能である。αの値は各ビットレートで一定にすることができるが、αの値は、ビットレートに応じて変化することもできる。このような実施形態では、ビットレートが高くなると、αの値は、ビットレートが低い場合のαの値よりも小さい。αの値が小さくなればなるほど、エンベロープの修正は少なくなる。たとえば、一実施形態では、αの値は14Kbpsに対して定数(α=α1)で、βの値は28Kbpsに対して定数(α=α2)であるが、α1>α2である。
一実施形態では、以下に示されているように、エンベロープ修正機265は、エンベロープ320に、サブバンド修正因数生成機260によって生成された因数を乗じることによって、エンベロープ310を修正する。
Figure 2009530685
したがって、FAC[i]は、各サブバンドのエネルギーを修正するが、FAC[i]
は1より小さい。ピークエネルギーが大きい領域では、FAC[i]は1に近いが、ピークエネルギーが小さい領域では、FAC[i]は0に近い。
音声信号のひずみは、低ビットレートで、そして、ほとんどは、ホルマント領域312ではなく、量子化エラーに対する信号エネルギーの比率が高い、谷領域314で多く発生することが知られている。MDCT係数を利用することによって、音声信号のエネルギー全体とスペクトルの傾きを実質的に維持しながら、スペクトルエンベロープの谷領域314のエネルギーを削減することにより、ENV[i]を修正するために、FAC[i]が計算される。
図4を参照すると、微細構造修正因数生成機270は、図4にサブバンドS1、S2、・・・Sn430として示されているような複数の周波数サブバンドのそれぞれの周波数f1、f2、・・・fn420などのような微細構造に、さらに注目する。たとえば、サブバンド修正因数生成機260、およびエンベロープ修正機265におけるそれぞれのサブバンドS1、S2、・・・Sn330に適用される上記の手順は、微細構造修正因数生成機270、および微細構造修正機275におけるf1、f2、・・・fn420にそれぞれ適用される。上記で検討されたエンベロープ後処理手順のように、複数のサブバンドのそれぞれの微細構造またはMDCT係数の振幅(MAG)に対する修正因数は、以下に示されるような、式2に類似する式を使用して取得することが可能である。
Figure 2009530685
式中、Maxは最大振幅であり、βは0から1の間の一定値であり、振幅または微細構造修正の程度を制御する。βの値は各ビットレートで一定にすることができるが、βの値は、ビットレートに応じて変化することもできる。このような実施形態では、ビットレートが高くなると、βの値は、ビットレートが低い場合のβの値よりも小さい。βの値が小さくなればなるほど、エンベロープの修正は少なくなる。たとえば、一実施形態では、βの値は14Kbpsに対して定数(β=β1)で、βの値は28Kbpsに対して定数(β=β2)であるが、β1>β2である。この結果、微細構造修正因数生成機270と微細構造修正機275は、もしあれば、調波間のスペクトル振幅を弱める。次に、後処理されたエンベロープを、MDCT係数の後処理された微細構造で乗じることによって、後処理されたMDCT係数の再構成を取得する。
本発明の一実施形態では、MDCT係数の後処理は、高域(4−8KHz)にのみ適用されて、低域(0−4KHz)は、従来の時間領域手法を使用して後処理され、高域については、デコーダに送信されるLPC係数はない。高域のための後処理を実施するために、従来の時間領域手法を使用することは、複雑になりすぎるので、本明細書の実施例は、後処理を実施するデコーダで利用可能なMDCT係数を利用する。
このような実施形態では、160の高域MDCT係数が存在する場合があり、次のように定義できる。
Figure 2009530685
式中、高域は10のサブバンドに分解できて、各サブバンドは16のMDCT係数を含み、当該160のMDCT係数は次のように表すことが可能である。
Figure 2009530685
式中、kはサブバンドインデックスで、iはサブバンド内の係数インデックスである。次に、各サブバンドのMDCT係数の振幅は次のように表すことができる。
Figure 2009530685
式中、各サブバンドの平均振幅は、以下のエンベロープとして定義される。
Figure 2009530685
上記で検討したように、MDCT後処理は、2つの部分で実施することができる。最初の部分は、エンベロープ後処理と呼ぶことができて(短期の後処理に対応する)、エンベロープを修正し、第2の部分は微細構造後処理と呼ぶことができて(長期の後処理に対応する)、各サブバンド内の各係数の振幅を強化する。一態様では、MDCT後処理は、低いほうの振幅をさらに低くするが、符号化エラーは、高いほうの振幅よりも比較的多い。一実施形態では、エンベロープを修正するためのアルゴリズムは、以下のように記述することができる。
まず、最大エンベロープ値は次のように想定される。
Figure 2009530685
エンベロープに適用することができる増幅率因数は、次のように計算される。
Figure 2009530685
式中、α(0<α<1)は、特定のビットレートに対する定数で、ビットレートが高くなると、定数αは小さくなる。因数を決定後、修正されたエンベロープは次のように表すことができる。
Figure 2009530685
式中、g1は、エネルギー全体を維持するための増幅率で、次のように定義される。
Figure 2009530685
次に、2番目の部分については、各サブバンド内の微細構造の修正は、上記のエンベロープ後処理に類似したものとすることができるが、サブバンド内の最大振幅値は次のように想定される。
Figure 2009530685
振幅の増幅率因数は次のように計算できる。
Figure 2009530685
式中、β(0<β<1)は、特定のビットレートに対する定数で、ビットレートが高くなると、定数βは小さくなる。因数を決定後、修正された振幅は次のように表すことができる。
Figure 2009530685
エンベロープ後処理と微細構造後処理の双方を組み合わせることによって、最終的な後処理されたMDCT係数は次のように定義される。
Figure 2009530685
式中、k=0,1,...,9で、i=0,1,...,15である。
図5は、本発明の一実施形態に従い、合成音声のエンベロープと微細構造の後処理のための流れ図500を示す。付録AおよびBは、それぞれ、固定小数点と浮動小数点で、「C」プログラム言語を使用する後処理流れ図500の実施を示す。上記で説明したように、最初のステップ510で、後処理流れ図500は、複数のMDCT係数を、このような係数を計算またはその他のシステム構成要素から受信することによって取得する。次に、ステップ520で、後処理流れ図500は、複数のサブバンド330のそれぞれに対してエンベロープを表す複数のMDCT係数を使用する。一実施形態では、各サブバンドは、1つ以上の周波数係数を有するようになり、各サブバンドの振幅を概算するために、サブバンドの各周波数に対して平方と加算演算が実施されて、エネルギーを取得する。演算を
より簡単にするために、計算には絶対値を使用できる。
ステップ530で、後処理流れ図500は、たとえば、上記のように、式2を使用することによって、各サブバンドエンベロープの修正因数を決定する。次に、ステップ540で、後処理流れ図500は、たとえば、上記のように、式3を使用することによって、ステップ530の修正因数を使用して、各サブバンドエンベロープを修正する。ステップ550で、後処理流れ図500は、微細構造後処理(時間領域における長期後処理に類比できる)を実施するために、エンベロープ後処理(時間領域における短期後処理に類比できる)のためのステップ510〜540を各サブバンド430内の微細構造に対して、再適用する。微細構造後処理を実施する前に、後処理流れ図500は、MDCT係数を未修正エンベロープ係数で除することによって、MDCT係数の微細構造を評価してから、MDCT係数の微細構造に対するステップ510〜540の処理を異なるパラメータで各サブバンドに適用することができる。さらに、ステップ560で、後処理流れ図500は、MDCT係数の再構成のために、後処理されたエンベロープを後処理された微細構造で乗じる。
本発明の上記説明から、本発明の概念を実施するために、その範囲を逸脱することなく、多様な技術を使用することが可能であることが明らかである。さらに、本発明は、特定の実施形態を具体的に参照しながら説明されたが、当業者は、本発明の精神と範囲を逸脱することなく、形式および詳細に変更を行うことができることを理解するであろう。たとえば、本明細書に開示される回路は、ソフトウェアに実装が可能、あるいはこの逆も可能であることが意図される。説明された実施形態は、説明のためであって、制限のためではない。また、本発明は、本明細書に説明された特定の実施形態に限定されるものではなく、本発明の範囲を逸脱することなく、多数の再配置、変更および置換が可能であることも理解されたい。
[添付資料]
Figure 2009530685
Figure 2009530685
Figure 2009530685
[添付資料B]
Figure 2009530685
Figure 2009530685
Figure 2009530685
符号化された音声信号の復号と後処理のための従来の復号システムの模式図を示す。 本発明の一実施形態に従い、符号化された音声信号の復号と後処理のための復号システムの模式図を示す。 本発明の一実施形態に従い、後処理機の模式図を示す。 本発明の一実施形態に従い、合成音声のエンベロープ後処理のための音声信号を表すエンベロープを示す。 本発明の一実施形態に従い、合成音声の微細構造後処理のための音声信号を表す微細構造を示す。 本発明の一実施形態に従い、合成音声のエンベロープと微細構造の後処理のための流れ図を示す。

Claims (20)

  1. 周波数領域の複数のサブバンドに分割される音声信号を強化するための音声後処理機であって、
    前記複数のサブバンドから導出されるエンベロープのためのエンベロープ修正因数を生成するために、前記複数のサブバンドから導出される前記エンベロープで表される周波数領域係数を使用するように設定されたエンベロープ修正因数生成機と、
    前記複数のサブバンドのそれぞれに対応する前記エンベロープ修正因数によって、前記複数のサブバンドから導出される前記エンベロープを修正するように設定されたエンベロープ修正機と、
    を備える、音声後処理機。
  2. 前記エンベロープ修正因数生成機は、
    FAC=αENV/Max+(1−α)
    を使用して前記エンベロープ修正因数を生成し、式中、FACは前記エンベロープ修正因数であり、ENVはエンベロープであり、Maxは最大エンベロープであり、αは0から1の間の値である、請求項1に記載の音声後処理機。
  3. 式中、αは第1の音声符号化速度のための第1の一定値(α1)であり、αは第2の音声符号化速度のための第2の一定値(α2)であって、前記第2の音声符号化速度は、前記第1の音声符号化速度よりも速く、α1>α2である、請求項2に記載の音声後処理機。
  4. 前記周波数領域係数はMDCT(修正離散コサイン変換)である、請求項3に記載の音声後処理機。
  5. 前記周波数領域係数はMDCT(修正離散コサイン変換)である、請求項1に記載の音声後処理機。
  6. 前記エンベロープ修正機は、前記エンベロープ修正因数のそれぞれをその対応するエンベロープで乗じることによって、前記複数のサブバンドから導出された前記エンベロープを修正する、請求項1に記載の音声後処理機。
  7. 前記複数のサブバンドのそれぞれの複数の微細構造のための微細構造修正因数を生成するために、前記複数のサブバンドのそれぞれの前記複数の微細構造を表す周波数領域係数を使用するように設定される、微細構造修正因数生成機と、
    前記複数の微細構造のそれぞれに対応する前記微細構造修正因数によって、前記複数のサブバンドのそれぞれの前記複数の微細構造を修正するように設定される微細構造修正機と、
    をさらに備える、請求項1に記載の音声後処理機。
  8. 前記微細構造修正因数生成機は、
    FAC=βMAG/Max+(1−β),
    を使用して前記微細構造修正因数を生成し、式中、FACは前記微細構造修正因数であり、MAGは振幅であり、Maxは最大振幅であり、βは0から1の間の値である、請求項7に記載の音声後処理機。
  9. 式中、βは第1の音声符号化速度のための第1の一定値(β1)であり、βは第2の音声符号化速度のための第2の一定値(β2)であって、前記第2の音声符号化速度は、前記第1の音声符号化速度よりも速く、β1>β2である、請求項8に記載の音声後処理機
  10. 前記周波数領域係数はMDCT(修正離散コサイン変換)である、請求項8に記載の音声後処理機。
  11. 周波数領域の複数のサブバンドに分割される音声信号を強化するための音声後処理方法であって、
    前記複数のサブバンドから導出されるエンベロープを表す周波数領域係数を使用して、前記複数のサブバンドから導出される前記エンベロープのためのエンベロープ修正因数を生成するステップと、
    前記複数のサブバンドのそれぞれに対応する前記エンベロープ修正因数によって、前記複数のサブバンドから導出される前記エンベロープを修正するステップと、
    を備える、音声後処理方法。
  12. 前記エンベロープ修正因数を生成する前記ステップは、
    FAC=αENV/Max+(1−α)
    を使用し、式中、FACは前記エンベロープ修正因数であり、ENVはエンベロープであり、Maxは最大エンベロープであり、αは0から1の間の値である、請求項11に記載の音声後処理方法。
  13. 式中、αは第1の音声符号化速度のための第1の一定値(α1)であり、αは第2の音声符号化速度のための第2の一定値(α2)であって、前記第2の音声符号化速度は、前記第1の音声符号化速度よりも速く、α1>α2である、請求項12に記載の音声後処理方法。
  14. 前記周波数領域係数はMDCT(修正離散コサイン変換)である、請求項13に記載の音声後処理方法。
  15. 前記周波数領域係数はMDCT(修正離散コサイン変換)である、請求項11に記載の音声後処理方法。
  16. 前記修正機は、前記エンベロープ修正因数のそれぞれをその対応するエンベロープで乗じることによって、前記複数のサブバンドから導出される前記エンベロープを修正する、請求項11に記載の音声後処理方法。
  17. 前記複数のサブバンドのそれぞれの複数の微細構造を表す周波数領域係数を使用して、前記複数のサブバンドのそれぞれの前記複数の微細構造のための微細構造修正因数を生成するステップと、
    前記複数の微細構造のそれぞれに対応する前記微細構造修正因数によって、前記複数のサブバンドのそれぞれの前記複数の微細構造を修正するステップと、
    をさらに備える、請求項11に記載の音声後処理方法。
  18. 前記微細構造修正因数を生成する前記ステップは、
    FAC=βMAG/Max+(1−β)
    を使用し、式中、FACは前記微細構造修正因数であり、MAGは振幅であり、Maxは最大振幅であり、βは0から1の間の値である、請求項17に記載の音声後処理方法。
  19. 式中、βは第1の音声符号化速度のための第1の一定値(β1)であり、βは第2の音声符号化速度のための第2の一定値(β2)であって、前記第2の音声符号化速度は、前記第1の音声符号化速度よりも速く、β1>β2である、請求項18に記載の音声後処理
    方法。
  20. 前記周波数領域係数はMDCT(修正離散コサイン変換)である、請求項18に記載の音声後処理機。
JP2009501405A 2006-03-20 2006-10-23 Mdct係数を使用する音声後処理 Active JP5047268B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/385,428 US7590523B2 (en) 2006-03-20 2006-03-20 Speech post-processing using MDCT coefficients
US11/385,428 2006-03-20
PCT/US2006/041507 WO2007111646A2 (en) 2006-03-20 2006-10-23 Speech post-processing using mdct coefficients

Publications (2)

Publication Number Publication Date
JP2009530685A true JP2009530685A (ja) 2009-08-27
JP5047268B2 JP5047268B2 (ja) 2012-10-10

Family

ID=38519011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009501405A Active JP5047268B2 (ja) 2006-03-20 2006-10-23 Mdct係数を使用する音声後処理

Country Status (4)

Country Link
US (2) US7590523B2 (ja)
EP (1) EP2005419B1 (ja)
JP (1) JP5047268B2 (ja)
WO (1) WO2007111646A2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5018193B2 (ja) * 2007-04-06 2012-09-05 ヤマハ株式会社 雑音抑圧装置およびプログラム
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
CN102099857B (zh) * 2008-07-18 2013-03-13 杜比实验室特许公司 用于解码器中的编码音频数据的频域后滤波的方法和系统
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
CN101770775B (zh) 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
US9202456B2 (en) * 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5652658B2 (ja) 2010-04-13 2015-01-14 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
ES2501840T3 (es) * 2010-05-11 2014-10-02 Telefonaktiebolaget Lm Ericsson (Publ) Procedimiento y disposición para el procesamiento de señales de audio
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN105225669B (zh) * 2011-03-04 2018-12-21 瑞典爱立信有限公司 音频编码中的后量化增益校正
JP5942358B2 (ja) 2011-08-24 2016-06-29 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
DK2774145T3 (da) 2011-11-03 2020-07-20 Voiceage Evs Llc Forbedring af ikke-taleindhold til celp-afkoder med lav hastighed
CA2997882C (en) 2013-04-05 2020-06-30 Dolby International Ab Audio encoder and decoder
WO2015041070A1 (ja) 2013-09-19 2015-03-26 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
KR102023138B1 (ko) 2013-12-02 2019-09-19 후아웨이 테크놀러지 컴퍼니 리미티드 인코딩 방법 및 장치
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
KR102653849B1 (ko) * 2014-03-24 2024-04-02 삼성전자주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
CN105096957B (zh) 2014-04-29 2016-09-14 华为技术有限公司 处理信号的方法及设备
CN113140225A (zh) * 2020-01-20 2021-07-20 腾讯科技(深圳)有限公司 语音信号处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1078797A (ja) * 1996-09-04 1998-03-24 Nippon Telegr & Teleph Corp <Ntt> 音響信号処理方法
JP2003108196A (ja) * 2001-06-29 2003-04-11 Microsoft Corp コード化音声の品質向上のための周波数領域ポストフィルタリングの方法、装置及び記録媒体
JP3467270B2 (ja) * 1990-12-05 2003-11-17 ディジタル ボイス システムズ、インク 音声の量子化とエラー訂正のための方法
JP2004061617A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd 受話音声処理装置
JP2004309686A (ja) * 2003-04-04 2004-11-04 Toshiba Corp 広帯域音声符号化方法及び広帯域音声符号化装置
JP2005258226A (ja) * 2004-03-12 2005-09-22 Toshiba Corp 広帯域音声復号化方式及び広帯域音声復号化装置

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4374304A (en) * 1980-09-26 1983-02-15 Bell Telephone Laboratories, Incorporated Spectrum division/multiplication communication arrangement for speech signals
US4454609A (en) * 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US5054075A (en) * 1989-09-05 1991-10-01 Motorola, Inc. Subband decoding method and apparatus
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
US5630011A (en) * 1990-12-05 1997-05-13 Digital Voice Systems, Inc. Quantization of harmonic amplitudes representing speech
US5581653A (en) * 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
JP3321971B2 (ja) * 1994-03-10 2002-09-09 ソニー株式会社 音声信号処理方法
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP3235703B2 (ja) * 1995-03-10 2001-12-04 日本電信電話株式会社 ディジタルフィルタのフィルタ係数決定方法
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
JPH0969781A (ja) * 1995-08-31 1997-03-11 Nippon Steel Corp オーディオデータ符号化装置
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
JP3653826B2 (ja) * 1995-10-26 2005-06-02 ソニー株式会社 音声復号化方法及び装置
JP3283413B2 (ja) * 1995-11-30 2002-05-20 株式会社日立製作所 符号化復号方法、符号化装置および復号装置
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
JP2000134105A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法
US6182030B1 (en) * 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals
WO2000069100A1 (en) * 1999-05-06 2000-11-16 Massachusetts Institute Of Technology In-band on-channel system and method for bit-rate reduction of the digital signal by utilising properties of the analog signal
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
DE10102159C2 (de) * 2001-01-18 2002-12-12 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen bzw. Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkasse, Codierer und skalierbarer Codierer
US7103539B2 (en) * 2001-11-08 2006-09-05 Global Ip Sound Europe Ab Enhanced coded speech
DE10200653B4 (de) * 2002-01-10 2004-05-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Skalierbarer Codierer, Verfahren zum Codieren, Decodierer und Verfahren zum Decodieren für einen skalierten Datenstrom
DE10236694A1 (de) 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
SE0202770D0 (sv) * 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7146316B2 (en) 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
US7272566B2 (en) * 2003-01-02 2007-09-18 Dolby Laboratories Licensing Corporation Reducing scale factor transmission cost for MPEG-2 advanced audio coding (AAC) using a lattice based post processing technique
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US20060116874A1 (en) * 2003-10-24 2006-06-01 Jonas Samuelsson Noise-dependent postfiltering
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3467270B2 (ja) * 1990-12-05 2003-11-17 ディジタル ボイス システムズ、インク 音声の量子化とエラー訂正のための方法
JPH1078797A (ja) * 1996-09-04 1998-03-24 Nippon Telegr & Teleph Corp <Ntt> 音響信号処理方法
JP2003108196A (ja) * 2001-06-29 2003-04-11 Microsoft Corp コード化音声の品質向上のための周波数領域ポストフィルタリングの方法、装置及び記録媒体
JP2004061617A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd 受話音声処理装置
JP2004309686A (ja) * 2003-04-04 2004-11-04 Toshiba Corp 広帯域音声符号化方法及び広帯域音声符号化装置
JP2005258226A (ja) * 2004-03-12 2005-09-22 Toshiba Corp 広帯域音声復号化方式及び広帯域音声復号化装置

Also Published As

Publication number Publication date
US20090287478A1 (en) 2009-11-19
US7590523B2 (en) 2009-09-15
EP2005419A2 (en) 2008-12-24
US8095360B2 (en) 2012-01-10
US20070219785A1 (en) 2007-09-20
WO2007111646B1 (en) 2008-01-24
EP2005419A4 (en) 2011-03-30
JP5047268B2 (ja) 2012-10-10
EP2005419B1 (en) 2013-09-04
WO2007111646A2 (en) 2007-10-04
WO2007111646A3 (en) 2007-11-29

Similar Documents

Publication Publication Date Title
JP5047268B2 (ja) Mdct係数を使用する音声後処理
JP5161069B2 (ja) 広帯域音声符号化のためのシステム、方法、及び装置
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
KR101078625B1 (ko) 이득 계수 제한을 위한 시스템, 방법 및 장치
KR102063900B1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
JP5437067B2 (ja) 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法
US8532983B2 (en) Adaptive frequency prediction for encoding or decoding an audio signal
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
JP2017126072A (ja) フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
US20100063803A1 (en) Spectrum Harmonic/Noise Sharpness Control
JP2013528836A (ja) 広帯域音声コーディングのためのシステム、方法、装置、およびコンピュータプログラム製品
WO2010127616A1 (en) System and method for frequency domain audio post-processing based on perceptual masking
KR100832144B1 (ko) 지각적으로 개선된 음향신호의 엔코딩
KR20080034817A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120717

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5047268

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250