JP2015522847A - デジタル音声信号における効果的なプレエコー減衰 - Google Patents

デジタル音声信号における効果的なプレエコー減衰 Download PDF

Info

Publication number
JP2015522847A
JP2015522847A JP2015519300A JP2015519300A JP2015522847A JP 2015522847 A JP2015522847 A JP 2015522847A JP 2015519300 A JP2015519300 A JP 2015519300A JP 2015519300 A JP2015519300 A JP 2015519300A JP 2015522847 A JP2015522847 A JP 2015522847A
Authority
JP
Japan
Prior art keywords
echo
attack
sub
block
attenuation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015519300A
Other languages
English (en)
Other versions
JP6271531B2 (ja
Inventor
バラーツ・コヴシー
ステファン・ラゴー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2015522847A publication Critical patent/JP2015522847A/ja
Application granted granted Critical
Publication of JP6271531B2 publication Critical patent/JP6271531B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Abstract

本発明は、変換符号化から生じたデジタル音声信号内のプレエコーの減衰を処理するための方法であって、復号化点で、前記復号化信号内のアタック位置を検出するステップ(Detect.)と、前記復号化信号で検出された前記アタック位置より前のプレエコー領域を決定するステップ(ZPE)と、前記プレエコー領域のサブ・ブロックごとの減衰因子を、少なくとも前記アタックが検出された以前のフレームであるフレームの関数として計算するステップ(F.Att.)と、前記プレエコー領域の前記サブ・ブロック内のプレエコーを、対応する減衰因子により減衰させるステップ(Att.)と、検出された前記アタックの位置に至るまで、前記プレエコー領域のスペクトル整形の適応的フィルタリング(F)を現在のフレームに適用するステップとを含む方法に関する。本発明はまた、当該方法を実装するための装置およびかかる装置を備えた復号器にも関する。

Description

本発明は、デジタル音声信号の復号化の際のプレエコーの減衰を処理するための方法と装置に関する。
デジタル音声信号を、例えば固定ネットワークまたはモバイル・ネットワークのような通信ネットワークで伝送するために、または、信号を格納するために、変換ベースの周波数符号化または時間符号化のタイプの符号化システムを実装する圧縮(または情報源符号化)プロセスが使用されている。
したがって、本発明の対象たる方法と装置の適用分野は、音声信号の圧縮、特に、周波数変換により符号化されたデジタル音声信号の圧縮である。
図1は、先行技術に従う、加算/重合せによる分析合成を含むデジタル音声信号の変換ベースの符号化と復号化のブロック図を例示的に表すものである。
振動や破裂音(/k/、/t/、・・・)のような特定の会話セグメントといった特定の音列(musical sequence)は、極めて突発的なアタックにより特徴付けられる。当該アタックは、数サンプルの空間において、非常に高速で遷移し非常に強い信号変動で現れる。サンプル410の後の例示的な遷移を図1に示す。
符号化/復号化処理に関して、入力信号が、図1の垂直点線で表す長さLのサンプルのブロックに分割される。入力信号はx(n)で表される。nはサンプルのインデックスである。連続ブロックへの分割により、当該ブロックはXN(n)=[x(N.L)・・・x(N.L+L-1)]=[xN(0)・・・xN(L-1)]で定義される。Nはフレームのインデックスであり、Lはフレームの長さである。図1にはL=160個のサンプルがある。修正余弦変調変換MDCT(Modified Discrete Cosine Transform)のケースでは、2つのブロックXN(n)とXN+1(n)を纏めて分析し、インデックスNのフレームに関連付けられた変換係数のブロックを与える。
ブロックへ分割したものはフレームとも呼ばれ、変換ベース符号化により操作され、音声信号と完全に独立であり、その遷移はしたがって分析ウィンドウの任意の点で生じうる。ここで、変換ベースの復号化の後、再構築信号が、量子化(Q)‐逆量子化(Q-1)により生じた「雑音」(または歪み)により棄損する。当該符号化雑音は、変換ブロックの時間サポートの全体にわたって、即ち、(L個のサンプルを重ね合せた)長さ2Lのサンプルから成るウィンドウの長さ全体にわたって、相対的に均一に時間的に分散する。当該符号化雑音のエネルギは、一般にブロックのエネルギに比例し、符号化/復号化ビット速度に依存する。
(図1のブロック320乃至480のような)アタックを含むブロックについて、信号のエネルギは高く、したがって雑音も高レベルである。
変換ベース符号化では、符号化雑音のレベルは一般的に、遷移の直後に続く高エネルギ・セグメントに対する信号よりも下にあるが、当該レベルは、低エネルギのセグメントに対する信号、特に、当該遷移より前の部分(図1のサンプル160乃至410)にわたる信号よりも上にある。前述の部分に対しては、信号対雑音比は負であり、結果として生ずる劣化は聞いている間に非常に不快なものとなりうる。遷移前の符号化雑音はプレエコーと呼ばれ、遷移後の雑音はポストエコーと呼ばれる。
図1から、プレエコーが遷移前のフレームと遷移が生じたフレームに影響を及ぼすことが分かる。
音響心理実験により、人間の耳の性能は非常に限られており、数ミリ秒の一時音プレマスキング(temporal pre-masking of sound)のオーダであることが示されている。アタックの前の雑音、即ちプレエコーは、プレエコーの期間がプレマスキングの期間より長いときに聞こえる。
人間の耳はまた、高エネルギ・シーケンスから低エネルギ・シーケンスに移るときに5秒乃至60ミリ秒の長期間のポスト・マスキングを行う。したがって、ポストエコーに関して許容できる不快さの割合またはレベルはプレエコーよりも高い。
プレエコーの現象は、より重要であり、サンプル数の点でブロックが長くなると一層不快になる。ここで、変換ベース符号化では、固定信号に関して、変換の長さが増大すると、符号化利得が増大することが良く知られている。固定の標本化周波数および固定のビット速度では、ウィンドウの点の数(したがって変換の長さ)が増大した場合、音響心理モデルで有効であるとみなされた周波数スペクトル線を符号化するためにフレームごとに多くのビットを利用でき、したがって、大きな長さのブロックを利用できるという利点がある。MPEG AAC符号化(高度音声符号化)は、例えば、2048個の固定数のサンプル、即ち、32kHzの標本化周波数で64msの期間にわたるサンプルを含む大きな長さのウィンドウを使用する。プレエコーの問題は、中間(遷移)ウィンドウによりこれらの長いウィンドウから8個の短いウィンドウに切り替え可能とすることで対処され、それにより、遷移の存在を検出しウィンドウを調整するための一定の遅延が符号化に要求される。したがってこれらの短いウィンドウの長さは8msである。低ビット速度では、数msの可聴プレエコーが存在する可能性が常にある。当該ウィンドウを切り替えることで、プレエコーを減衰させることができるが、除去することはできない。UIT-TG.722.1、G.722.1CまたはG.719のような従来のアプリケーションに使用される変換ベース符号化器ではしばしば、16、32または48kHzでの40msの期間のウィンドウと20msのフレーム長を使用する。UIT-TG.719符号化器では、過渡的検出でウィンドウを切り替えるための機構を組み込んでいるが、低ビット速度(一般に、32kbit/秒)ではプレエコーは完全には除去されない。
プレエコーの現象の前述の不快な影響を減らすために、様々な解決策が符号化器および/または復号器のレベルで提案されてきた。
ウィンドウの切換えを上では説明した。別の解決策には、適応的フィルタリングの適用がある。アタックの前の領域において、再構築された信号は原信号と量子化雑音の和とみなされる。
対応するフィルタリング技術は非特許文献1に開示されている。かかるフィルタリングの実装には種々のパラメータの知識が必要である。当該パラメータには、プレエコーが占有する信号の予測係数や分散のようなものがあるが、それらは雑音サンプルに基づいて復号器で推定される。他方、原信号のエネルギのような情報は符号化器でのみ既知であり、したがって送信されなければならない。このため、追加の情報を送信する必要があり、制限されたビット速度では、変換ベース符号化に割り当てられた相対的なバジェットが減る。受信ブロックが突発的な変動を含むとき、フィルタリング処理がそれに適用される。
前述のフィルタリング・プロセスによっては、原信号を取り出すことはできないが、プレエコーが大幅に減る。しかし、追加のパラメータを復号器に送信する必要がある。
情報を特に送信しない様々なプレエコー削減技術が提案されてきた。例えば、階層符号化の状況におけるプレエコーの削減の検討が非特許文献2に開示されている。
プレエコーを減衰させる方法の典型的な例が特許文献1に開示されている。当該例では、減衰因子が、遷移またはアタックが検出されたサブ・ブロックより前の低エネルギのサブ・ブロックにおけるサブ・ブロックごとに決定される。
サブ・ブロックごとの減衰因子g(k)は、例えば、最大エネルギのサブ・ブロックのエネルギの、問題となっているk番目のサブ・ブロックのエネルギに対する割合R(k)の関数として計算される。即ち、
g(k)=f(R(k))
である。
ここで、fは0と1の間の値をとる減少関数であり、kはサブ・ブロック番号である。因子g(k)の他の定義、例えば、現在のサブ・ブロックにおけるエネルギEn(k)の関数および以前のサブ・ブロックにおけるEn(k-1)の関数も可能である。
最大エネルギに対するエネルギの変化が少ない場合には減衰は不要である。すると、因子g(k)は、減衰が禁止される減衰値、即ち1に固定される。そうでなければ、当該減衰因子は0と1の間にある。
大抵のケース、特に、プレエコーが不快であるときには、プレエコー・フレームに先行するフレームは、低エネルギのセグメント(一般に、バックグラウンド雑音)のエネルギに対応する均一なエネルギを有する。実験によれば、プレエコー減衰処理の後に、信号のエネルギが処理領域に先行する信号のサブ・ブロックごとの平均エネルギ(一般に、以前のフレームの平均エネルギ
または以前のフレームの後半の平均エネルギ
)を下回ることは有用でもなく望ましくもない。
処理すべきサブ・ブロックkに対して、当該因子の極限値limg(k)を計算して、処理すべきサブ・ブロックに先行するセグメントのサブ・ブロックごとの平均エネルギとまさに同じエネルギを取得することができる。勿論、減衰値に関心があるので、当該値は最大でも1に制限される。より正確には、
である。ここで、以前のセグメントの平均エネルギは
により近似される。このように得られた値limg(k)はサブ・ブロック減衰因子の最終的な計算における下限の役割を果たす。即ち、
g(k)=max(g(k), limg(k))
である。サブ・ブロックごとに決定された減衰因子(または利得)g(k)をその後、サンプルごとに適用される平滑化関数により平滑化して、ブロックの境界での当該減衰因子の急激な変化を回避する。
例えば、最初に、サンプルごとの利得を区分的に一定な関数として定義することが可能である。即ち、
gpre(n) = g(k), n=kL’,・・・, (k+1)L’-1
である。ここで、L’はサブ・ブロックの長さを表す。その後、当該関数を次式に従って平滑化する。
gpre(n) := αgpre(n-1)+(1-α) gpre(n), n=0,・・・,L-1
慣習的にgpre(-1)は以前のサブ・ブロックの最後のサンプルに対して取得された最後の減衰因子であり、αは平滑化係数であり、一般にα=0.85である。
他の平滑化関数も可能である。gpre(n)をこのように計算した後、各サンプルに対応する因子を乗ずることにより、プレエコー減衰が現在のフレームの再構築信号χrec(n)に対して実施される。即ち、
χrec,g(n)= gpre(n)χrec(n) , n=0,・・・,L-1
ここで、χrec、g(n)は、復号化されプレエコー減衰により後処理された信号である。
図2と図3は、上で要約し前述した先行技術の特許文献で開示されている減衰方法の実装を示す。
これらの例では、信号は32kHzで標本化され、フレームの長さはL=640サンプルであり、各フレームはK=80サンプルから成る8個のサブ・ブロックに分割される。
図2の部分a)では、32kHzで標本化された原信号のフレームが表されている。当該信号内のアタック(または遷移)は、インデックス320で開始するサブ・ブロック内に存在する。当該信号は、低ビット速度(24kbit/秒)のMDCTタイプの変換ベース符号化器により符号化されている。
図2の部分b)では、プレエコー処理をしない復号化の結果が示されている。アタックを含むサブ・ブロックに先行するサブ・ブロック内に、サンプル160より後にプレエコーを見出すことができる。
部分c)は、前述の先行技術の特許文献に記載の方法により得られるプレエコー減衰因子(連続線)の発生を示す。点線は平滑化前の当該因子を表す。当該アタックの位置がサンプル380周囲で(サンプル320と400で区分けされたブロック内で)推定されることに留意されたい。
部分d)は、プレエコー処理(信号b)と信号c)の掛け合わせ)を適用した後の復号化の結果を示す。プレエコーが実際に減衰したことが分かる。図2はまた、平滑化された因子が当該アタックの時点で1に戻らず、したがって、当該アタックの振幅の減少が示唆されることを示す。当該減少による知覚可能な影響は非常に少ないが、それでも回避することはできる。図3は図2と同じ例を示し、平滑化の前に、当該減衰因子値が、当該アタックが発生したサブ・ブロックに先行するサブ・ブロックの数サンプルに対して1になっている。図3の部分c)はかかる補正の例を与えるものである。
本例では、因子値1は、インデックス364の後の、アタックに先行するサブ・ブロックの最後の16個のサンプルに割り当てられている。したがって、平滑化関数は、当該アタックの時点で1に近い値を有するように当該因子を漸進的に増大させる。図3の部分d)で示すように、当該アタックの振幅は保存されるが、幾つかのプレエコーのサンプルは減衰しない。
図3の例では、利得の平滑化のため、減衰によるプレエコーの削減によりアタックのレベルまでプレエコーを削減することはできない。
図3と同じ設定の別の例を図4に示す。本図は、アタック前の信号の性質をより良く示すために2個のフレームを図示している。ここで、アタック前の原信号のエネルギは図3で示すケースよりも高く(部分a))、アタック前の信号は可聴である(サンプル0乃至850)。部分b)では、領域700乃至850でプレエコー処理をすることなく復号化信号に対するプレエコーを観測することができる。前述の減衰を制限するための手順によれば、プレエコー領域の信号のエネルギは、当該処理領域に先行する信号の平均エネルギ程度まで減衰される。部分c)においては、信号をプレエコー領域における正しいレベルに設定したにも関わらず、エネルギ制限を考慮することで計算された減衰因子が1に近く、プレエコー処理(信号b)と信号c)の掛け合わせ)を適用した後にプレエコーが部分d)に依然として存在することが分かる。実際、高周波成分が当該領域内の信号に重ね合せられていることが分かる波形では当該プレエコーを明確に区別することができる。
当該高周波成分は明確に可聴かつ不快であり、アタックはそれほど鋭くはない(図4の部分d))。
この現象の説明は以下の通りである。(図4に示すように)非常に突発的で衝撃的なアタックのケースでは、(当該アタックを含むフレーム内の)信号のスペクトルは非常に白色であり、したがって多数の高周波を含む。したがって、量子化雑音も白色雑音であり、高周波から構成される。これはプレエコー領域より前に対しては当てはまらない。したがって、或るフレームから他のフレームへとスペクトルの突発的な変化が存在し、このため、エネルギが正しいレベルに設定されているにも関わらず可聴プレエコーが生ずる。
当該現象を再度、図5Aと図5Bに示す。図5Aは原信号のスペクトログラムを示し、図4の部分a)で表す信号に対応する。図5Bは、先行技術に従うプレエコーの減衰を伴う信号のスペクトログラムを表し、図4の部分d)で表す信号に対応する。依然として、図5Bに示す部分において可聴プレエコーが明確に表れている。
フランス特許出願第0856248号明細書
High Quality Audio Transform Coding at 64 kbits, IEEE Trans. on Communications Vol 42, No. 11, November 1994, published by Y. Mahieux and J. P. Petit B. Kovesi, S. Ragot, M. Gartner, H. Taddei, "Pre-echo reduction in the ITU-T G.729.1 embedded Coder," EUSIPCO, Lausanne, Switzerland, August 2008
したがって、符号化器により補助的情報を送信することなく、不要な高周波数またはスプリアス・プレエコーも減衰させることが可能な、復号化における改善されたプレエコーの減衰のための技術が必要である。本発明は、先行技術の状況を改善するものである。
この目的のため、本発明では、変換ベース符号化に起因して生じたデジタル音声信号内のプレエコーの減衰を処理する方法を扱う。当該方法は、復号化の際に、当該復号化信号内のアタック位置を検出するステップと、当該復号化信号で検出されたアタック位置より前のプレエコー領域を決定するステップと、当該プレエコー領域のサブ・ブロックごとの減衰因子を、少なくとも当該アタックが検出された以前のフレームであるフレームの関数として計算するステップと、当該プレエコー領域のサブ・ブロック内のプレエコーを対応する減衰因子によって減衰させるステップとを含む。
当該方法はさらに、検出されたアタックの位置に至るまで、プレエコー領域のスペクトル整形に対する適応的フィルタリングを現在のフレームに適用するステップを含む。
したがって、スペクトル整形を適用することによりプレエコー減衰を改善することができる。当該処理により、先行技術に記載のプレエコー減衰を実施するときに残存しうるプレエコー成分を減衰させることができる。
当該フィルタリングは検出されたアタックの位置に至るまで適用され、当該アタックのできるだけ近くまでプレエコーの減衰を処理することができる。したがって、これにより、当該アタックの位置(例えば、16個のサンプルの周辺)まで拡張しない領域に制限された時間減衰によるエコー除去の欠点が補償される。当該フィルタリングでは符号化器から生ずる情報は必要でない。
当該プレエコー減衰処理技術を、モノラル信号またはステレオ信号の時間復号化および符号化から生ずる信号を知ってまたは知ることなく、実装することができる。
当該フィルタリングの調整により、当該信号に対応することができ、不快スプリアス成分のみを除去することができる。
下記で説明する様々な特定の実施形態を、独立に、または互いと組み合わせて、上述の方法の諸ステップに追加することができる。
特定の実施形態では、当該方法はさらに、プレエコー領域に適用すべきフィルタリングに関する少なくとも1つの決定パラメータを計算するステップと、当該フィルタリングの係数を当該少なくとも1つの決定パラメータの関数として調整するステップとを含む。したがって当該処理は、調整したフィルタリング・レベルで必要なときにのみ適用される。
1実施形態では、当該少なくとも1つの決定パラメータは、検出されたアタックの強度の測定値である。当該アタックの強度により、プレエコー領域における可聴高周波成分の存在が決定される。当該アタックが突発的であるときには、当該プレエコー領域に不快スプリアス成分が存在するリスクは高く、本発明に従って実施されるフィルタリングを検討しなければならない。
当該パラメータを計算できるモードでは、検出されたアタックの強度の測定値は、kを当該アタックが検出されたサブ・ブロックの数とし、EN(k)をk番目のサブ・ブロックのエネルギとして、
P=max (EN(k), EN (k+1)/min(EN(k-1),EN(k-2))
である。当該計算の複雑度は低く、検出されたアタックの強度を正確に定義することができる。
当該少なくとも1つの決定パラメータが、当該アタックの位置を含むサブ・ブロックより前のサブ・ブロック内の減衰因子の値であってもよい。実際、当該減衰が大量である場合にはアタックが突発的であるとみなすことができる。
別の実施形態では、当該少なくとも1つの決定パラメータは、当該プレエコー領域の信号および/または当該プレエコー領域より前の信号のスペクトル分布分析に基づく。
これにより、例えば、プレエコー信号の高周波成分の重要性を決定することができ、これらの高周波成分が当該プレエコー領域の前の信号に既に存在していたことを知ることもできる。
したがって、高周波成分が当該プレエコー領域の前に既に存在していた場合にはフィルタリングを実施してこれらの高周波成分を減衰する必要はなく、フィルタリング係数を0かまたは0に近い値に設定することで当該フィルタリング係数を調整する。
したがって、当該フィルタリングの係数の調整を、少なくとも1つの決定パラメータを所定の閾値と比較する関数として離散的に実施してもよい。
当該フィルタリング係数は、1組の値に従って予め決定した値を取ることができる。最も小さな値の組は、2つの値しか可能でないというものである。即ち、例えばフィルタリング有りとフィルタリング無しの間の選択である。
変形実施形態では、当該フィルタリングの係数の調整は、当該少なくとも1つの決定パラメータの関数として連続的に実施される。当該調整はより正確かつより漸進的である。
特定の実施形態では、当該フィルタリングは、c(n)を0と0.25の間の係数として、伝達関数
c(n)z-1+(1-2c(n))+c(n)z
を有するゼロ位相有限インパルス応答フィルタリングである。
この種のフィルタリングの複雑度は低く、さらに、無遅延処理(現在のフレーム終了前に停止する処理)を可能とする。ゼロ遅延のため、当該フィルタリングにより、アタック自体を修正せずに当該アタック前の高周波数を減衰させることができる。
この種のフィルタリングにより、不連続性を回避でき、フィルタされていない信号からフィルタされた信号へと漸進的に移ることができる。
1実施形態によれば、上記減衰させるステップは、フィルタリングを定義する係数に減衰因子を組み込むことによってスペクトル整形フィルタリングと同時に実施される。
本発明はまた、変換ベース符号化器に起因して生じたデジタル音声信号内のプレエコーの減衰を処理するための装置にも関する。当該装置は、当該復号化信号内のアタック位置を検出するための検出モジュールと、当該復号化信号で検出されたアタック位置より前のプレエコー領域を決定するための決定モジュールと、当該プレエコー領域のサブ・ブロックごとの減衰因子を、少なくとも当該アタックが検出された以前のフレームであるフレームの関数として計算するためのモジュールと、当該プレエコー領域のサブ・ブロック内のプレエコーを対応する減衰因子により減衰させるための減衰モジュールとを備えた復号器に関連付けられる。
当該装置はさらに、検出されたアタックの位置に至るまで当該プレエコー領域のスペクトル整形を現在のフレームに実施するための適応的フィルタリング・モジュールを備える。本発明は、上述の装置を備えたデジタル信号の復号器も対象とする。
最後に、本発明は、上述の減衰処理方法の諸ステップを実施するためのコード命令を含む計算プログラムも対象とする。これらの命令がプロセッサにより実行されたとき、上述の減衰処理方法の諸ステップが実施される。
最後に、本発明は、プロセッサにより読取り可能な記憶媒体にも関する。当該媒体は、処理装置に組み込むことができ、場合によっては取外し可能であってもよく、上述の処理方法を実装する計算プログラムを格納する。
本発明の他の特徴や利点は下記の説明を読むことでより明確になろう。当該説明は、非限定的な例により与えられ、添付図面を参照して行われる。
先行技術に従う変換ベース符号化−復号化システムを示す図である。 先行技術に従って減衰機構が実施される例示的なデジタル音声信号を示す図である。 先行技術に従って減衰機構が実施される別の例示的なデジタル音声信号を示す図である。 先行技術に従って減衰機構が実施されるさらに別の例示的なデジタル音声信号を示す図である。 先行技術に従う、原信号のスペクトログラムとプレエコーの減衰を伴う信号のスペクトログラムを示す図である(図4の部分a)に対応)。 先行技術に従う、原信号のスペクトログラムとプレエコーの減衰を伴う信号のスペクトログラムを示す図である(図4の部分d)に対応)。 デジタル音声信号復号器においてプレエコーの減衰ならびに本発明の1実施形態に従う処理方法で実施されるステップを処理するための装置を示す図である。 本発明の1実施形態に従って実装したスペクトル整形フィルタの周波数応答を、フィルタのパラメータの関数として示した図である。 本発明に従う処理が実施される例示的なデジタル音声信号を示す図である。 本発明に従う処理が実施される、図4の信号d)に対応する信号のスペクトログラムを示す図である。 先行技術に従うプレエコーを減衰するための枠組みが実施される、原点で高周波成分を示す例示的な信号の図である。 フィルタリング・レベルを適用すべきか判定するための基準を考慮せずに本発明に従う処理が実施される、原点で高周波成分を示す図11と同じ信号の図である。 本発明に従う減衰処理装置のハードウェア例の図である。
図6を参照してプレエコー減衰処理装置600を説明する。1実施形態では、当該装置は、例えば特許文献1に記載の機構のような、復号化信号内のプレエコーを減衰するための機構を実装する。当該装置はさらに、当該プレエコー領域のスペクトル整形のためのフィルタリングを実装する。
したがって、装置600は、復号化された音声信号内のアタックの位置を検出するステップ(Detect.)を実装できる検出モジュール601を備える。
アタック(オンセットとしても知られる)とは、信号の動態(または振幅)の高速な遷移および突発的な変動である。この種の信号を、より一般的な用語「過渡信号」により表すことができる。以降、一般性を失うことなく、アタックまたは遷移という用語のみを使用して過渡信号を示すこととする。
1実施形態では、復号化信号χrec(n)のL個のサンプルから成る各フレームを長さL’のK個のサブ・ブロックに分割する。ここで、例えば、32kHzではL=640個のサンプル(20ms)、L’=80個のサンプル(2.5ms)、K=8である。
UIT-T standard G.718に記載されているものと類似の特殊な低遅延分析合成ウィンドウを、MDCT変換の分析部分と合成部分に使用する。したがって、MDCT合成ウィンドウは、従来の制限関数ウィンドウを用いる場合の640個のサンプルと比べると415個の非ゼロ・サンプルのみを含む。当該実施形態の変形では、他の分析/合成ウィンドウを使用してもよく、または、長ウィンドウと短ウィンドウの切換えを使用してもよい。
さらに、将来の信号の時間畳み込みを伴う版を与えるMDCTメモリχMDCT(n)が利用される。当該メモリも、長さL’のサブ・ブロックに分割され、使用されるMDCTウィンドウに応じて、最初のK’個のサブ・ブロックのみが維持される。ここで、K’は使用するウィンドウに依存する。例えば、正弦関数ウィンドウに対してはK’=4である。実際、図1は、アタックが存在するフレームに先行するフレームにプレエコーが影響を及ぼすことを示し、したがって、MDCTメモリに部分的に含まれる将来のフレーム内のアタックを検出することが望ましい。ここで、プレエコーの除去は幾つかのパラメータに依存する。即ち、
・長さLの(プレエコーを潜在的に含む)現在のフレームで復号化された信号
・加算重ね合せの前の後続フレームで部分的に復号化された信号に対応するMDCT逆変換のメモリ
・以前のフレーム(または半フレーム)における平均エネルギ・レベル
MDCTメモリに含まれる信号が(後続フレームを受信したときに補償される)時間畳み込みを含むことに留意されたい。後述するように、MDCTメモリは基本的に、後続の(将来の)フレーム内の信号のサブ・ブロックごとにエネルギを推定する役割を果たし、当該推定は、将来のフレームでの完全な復号化信号のニーズではなく、現在のフレームで利用可能なMDCTメモリで実行されたときのプレエコーの検出と除去のニーズに対して十分に正確であると考えられる。
現在のフレームとMDCTメモリを、(K+K’)個の連続サブ・ブロックに分割される長さ(K+K’)L’の信号を形成する連結信号とみなすことができる。これらの条件下で、k番目のサブ・ブロックにおけるエネルギは、k番目のサブ・ブロックが現在のフレームに存在するとき、
で定義され、当該サブ・ブロックが(将来のフレームに対して利用可能な信号を表す)MDCTメモリにある場合には、
で定義される。したがって、現在のフレームにおけるサブ・ブロックの平均エネルギは、
で得られる。現在のフレームの後半におけるサブ・ブロックの平均エネルギは、
で定義される。プレエコーに関連付けられた遷移は、比率
が所定の閾値を超えた場合に、着目するサブ・ブロックのうち1つで検出される。本発明の性質を変更することなく、他のプレエコー検出基準も可能である。さらに、当該アタックの位置は
で定義されると考えられる。ここで、Lへの限定により、MDCTメモリが決して修正されないことが保証される。当該アタックの位置をより正確に推定するための他の機構も可能である。
ウィンドウの切換えを伴う変形実施形態では、当該アタックの位置を与える他の機構を、サブ・ブロックの規模からサンプル内の位置にわたる精度で使用することができる。
装置600はまた、検出されたアタック位置に先行するプレエコー領域を決定するステップ(ZPE)を実装する決定モジュール602を備える。エネルギEn(k)は、復号化信号の時間エンベロープを最初とし、その後、MDCTのメモリに基づいて推定された後続フレームの信号のエンベロープといったように年代順に連結される。この連結された時間エンベロープ、以前のフレームの平均エネルギ
および
の関数として、比率R(k)が十分に高い場合にプレエコーの存在が検出される。
したがって、プレエコーが検出されたサブ・ブロックがプレエコー領域を構成し、一般に、サンプルn=0、・・・、pos-1、即ち、現在のフレームの先頭からアタックの位置(pos)までのサンプルをカバーする。
変形実施形態では、プレエコー領域が必ずしもフレームの先頭で開始せず、プレエコーの長さを推定することを必要としてもよい。ウィンドウの切換えを使用する場合は、使用されるウィンドウを考慮するためにプレエコー領域を定義しなければならないであろう。
装置600のモジュール603は、決定されたプレエコー領域のサブ・ブロックごとの減衰因子を、アタックが検出された以前のフレームであるフレームの関数として計算するステップを実装する。
特許文献1の記載によれば、減衰g(k)はサブ・ブロックごとに推定される。サブ・ブロックごとの減衰因子g(k)は、例えば、最大エネルギのサブ・ブロックのエネルギの、問題となっているk番目のサブ・ブロックのエネルギに対する割合R(k)の関数として計算される。即ち、
g(k)=f(R(k))
である。
ここで、fは0と1の間の値をとる減少関数である。因子g(k)の他の定義、例えば、En(k)およびEn(k-1)の関数も可能である。
最大エネルギに対するエネルギの変化が小さい場合には減衰は不要である。すると、当該因子は、減衰が禁止される減衰値、即ち1に固定される。そうでなければ、当該減衰因子は0と1の間にある。
これらの減衰は以前のフレームの平均エネルギの関数として制限される。処理すべきサブ・ブロックに対して、当該因子の極限値limg(k)を計算して、処理すべきサブ・ブロックに先行するセグメントの平均エネルギとまさに同じエネルギを取得することができる。勿論、減衰値に関心があるので、当該値は最大でも1に制限される。より正確には、
である。したがって、得られた値limg(k)はサブ・ブロック減衰因子の最終的な計算における下限の役割を果たす。即ち、
g(k)=max(g(k), limg(k))
である。サブ・ブロックごとに決定された減衰因子(または利得)g(k)をその後、サンプルごとに適用される平滑化関数により平滑化して、ブロックの境界での当該減衰因子の急激な変化を回避する。
最初に、サンプルごとの利得を区分的に一定な関数として定義する。即ち、
gpre(n) = g(k), n=kL’,・・・, (k+1)L’-1
である。当該平滑化関数は例えば次式で定義される。
gpre(n) := αgpre(n-1)+(1-α) gpre(n), n=0,・・・,L-1
ここで、慣習的にgpre(n-1)は以前のサブ・ブロックの最後のサンプルに対して得られた最後の減衰因子であり、αは平滑化係数であり、一般にα=0.85である。他の平滑化関数も可能である。
図6の装置600のモジュール604は、得られた減衰因子により、プレエコー領域のサブ・ブロック内の減衰(Att.)を実装する。
したがって、gpre(n)を計算した後、各サンプルに対応する因子を乗ずることにより、プレエコー減衰を現在のフレームの再構築信号χrec(n)に対して実施する。即ち、
χrec,g(n)= gpre(n)χrec(n) , n=0,・・・,L-1
ここで、χrec、g(n)は、復号化されプレエコー減衰に関して後処理された信号である。
装置600は、検出されたアタックの位置に至るまで、プレエコー領域のスペクトル整形のためのフィルタリングを復号化信号の現在のフレームに適用するステップ(F)を実施できるフィルタリング・モジュール606を備える。
一般に、使用するスペクトル整形フィルタは線形フィルタである。利得による乗算演算も線形演算であるので、その次元を反転することができる。即ち、まず当該フィルタリングをプレエコー領域のスペクトル整形に対して実施し、次いで、当該プレエコー領域の各サンプルに対応する因子を乗ずることによってプレエコー減衰を実施することができる。
例示的な実施形態では、プレエコー領域における高周波数を減衰するために使用されるフィルタは、c(n)を0から0.25の間の値とした伝達関数c(n)z-1+(1-2c(n))+c(n)zの、3つの係数とゼロ位相を有するFIRフィルタ(有限インパルス応答フィルタ)である。ここで、[c(n), 1-2c(n), c(n)]はスペクトル整形フィルタの係数であり、当該フィルタは、例えば領域n=5,・・・,pos-5でc(n)=0.25として別の式
χrec, f(n)=c(n)χrec,g(n-1)+(1-2c(n))χrec,g(n)+c(n)χrec,g(n+1)
により実装される。
当該フィルタの周波数応答を、c(n) = 0.05、 0.1、 0.15、 0.2 および 0.25とした係数c(n)の関数として図7に示す。当該フィルタを使用する動機はその低い複雑度、ゼロ位相したがって(現在のフレームが終了する前に処理が停止するために可能である)ゼロ遅延であるが、当該フィルタに対して望ましいローパス特性に良く対応するその周波数応答もその動機である。
当該フィルタの適用により、アタックの位置(例えば、16個のサンプルの周辺)まで拡張しない領域にプレエコーの時間減衰が一般に制限されるという事実を補償することができ、一方で、伝達関数c(n)z-1+(1-2c(n))+c(n)zにより定義されるようなスペクトル整形フィルタリングを、場合によってはフィルタの係数を補間するための少数のサンプルを用いて、当該アタックの位置まで適用することができる。
フィルタされていない信号からフィルタされた信号まで通過させ不連続性を回避するために、当該フィルタリングを漸進的に導入することが好ましい。提案されたFIRフィルタでは、その係数の低速な補間または変動により、フィルタされていない領域からフィルタされた領域まで緩やかに通過させることおよびその反対が可能である。例えば、当該アタックの位置がpos=16である場合には、プレエコー領域n=0、・・・、pos-1内の16個のサンプルのフィルタリングを以下のように実施することができる。
そのゼロ遅延のため、フィルタc(n)z-1+(1-2c(n))+c(n)zはアタック自体を修正することなく当該アタックの前の高周波数を減衰できることが分かる。
ここで説明した処理が実施される例示的なデジタル音声信号を、図8の部分d)で示す。本図の部分a)、b)およびc)は、前の図4を参照して説明したのと同じ信号を示す。部分d)は本発明に従うフィルタリングの実装により異なる。したがって、不快な高周波成分が大幅に減少し、フィルタリング後の復号化信号は図4の部分d)で説明したものより品質が良いことが分かる。
フィルタされた信号を表すスペクトログラムを図9に示す。明らかに、アタック前の不快な高周波数の減衰が、整形フィルタリングのない同一の信号を表す図5Bと関連して観測される。当該アタックは次いで復号化の際により鋭くなる。
勿論、他の種類のスペクトル整形フィルタを考慮してフィルタc(n)z-1+(1-2c(n))+c(n)zを置き換えてもよい。例えば、異なるオーダまたは異なる係数のFIRフィルタを使用してもよい。あるいは当該スペクトル整形フィルタが無限インパルス応答(IIR)を有してもよい。さらに、スペクトル整形がローパス・フィルタリングと異なってもよい。例えば、バンドパス・フィルタを実装してもよい。c(n)z-1+(1-c(n))の形のオーダ1のフィルタを本発明の1実施形態で使用してもよい。
特定の実施形態では、説明した方法に従って実装されるフィルタリングは適応的フィルタリングである。したがって、当該フィルタリングを復号化された音声信号の特性に適応させることができる。
当該実施形態では、プレエコー領域に適用すべきフィルタリングに関する決定パラメータ(P)を計算するステップを図6の計算モジュール605で実装する。
実際、例えば図10に示すように、かかるフィルタリングをプレエコー領域で適用しないのが好ましいケースが存在する。
実際、図10の部分a)に示す稀なケースでは、高周波は符号化すべき信号に既に存在している。このケースでは、高周波の減衰により、回避しなければならない可聴な劣化が発生しうる。この例示的な信号では、アタックは前の例より突発的でないことが分かる。
高周波を減衰させる(かまたはさせない)ことで、プレエコーを含む信号の領域をスペクトル的に整形する必要があるかどうかを判定可能とする少なくとも1つのパラメータを決定するのが有効である。
例示的な実施形態では、当該決定パラメータは、当該プレエコー領域内の高周波成分の存在を表すものである。
当該パラメータが、例えば、アタックの強度の測定値(突発的かまたは突発的でない)であってもよい。当該アタックがサブ・ブロック番号kに存在する場合には、当該パラメータを
のように計算してもよい。kはサブ・ブロックの番号であり、En(k)はk番目のサブ・ブロックのエネルギである。
実験的な設定によれば、当該例示的な実施形態では、P>=32は突発的なアタック(非常に衝撃的)を示す。
当該アタックの強度の測定値を、アタックg(k-1)に先行するサブ・ブロックに対して決定した減衰を考慮することで補完することができる。当該減衰が大量である場合、例えば、g(k-1)≦0.5である場合には、アタックは突発的であるとみなすことができる。これは、プレエコー領域のエネルギが、プレエコーのために非常に(2倍以上)増大したことを示し、したがって突発的アタックを示す。
kをアタックの開始を含むサブ・ブロックのインデックスとしてP<32かつg(k-1)>0.5である場合には、フィルタリングは必要でない。実際、g(k-1)>0.5かつlimg(k)>0.5である場合には、プレエコー領域が以前のフレームと同程度のエネルギを有することを示し、プレエコーを生成したアタックが突発的でないので、不快スプリアス成分を有するリスクは低い。
したがって、条件(P<32かつg(k-1)>0.5)を有する当該実施形態では、プレエコー領域ではフィルタリングは実施されない。
(g(k-1)≦0.5またはP>32)である他のケースでは、本発明に従って、スペクトル整形フィルタが、現在のフレームの開始からアタックの位置posまで適用される。
以上で説明した例示的な実施形態では、本発明に従うフィルタリングによるプレエコー領域のスペクトル整形は、パラメータPと減衰値の関数として適応的である。したがって、当該フィルタリングは、係数[0.25、0.5、0.25]で適用されるか、または、係数[0、1、0]で停止するかの何れかである。
次に、フィルタリング係数の調整を、1組の所定の値に離散的に限定して実施する。したがって、当該フィルタリング係数の調整(高周波の減衰のレベルを調整することが可能)は、パラメータPおよびg(k-1)のようなアタックの強度を測定する決定パラメータにより決まる。
このケースでは、これは、2つの組の可能な値([0.25、0.5、0.25]または[0、1、0])に従ってフィルタの係数を離散的に調整することを必要とする。係数[0、1、0]はフィルタリングの停止に対応することに留意されたい。
これらの2つのフィルタの間の漸進的な遷移を、例えば係数[0.05、0.9、0.05]、[0.1、0.8、0.1]、[0.15、0.7、0.15]および[0.2、0.6、0.2]を有する中間フィルタを用いて実施することができる。
このケースでは、これには、低速な変動(または補間)を考慮する場合に幾つかの組の可能な値に従ってフィルタの係数を離散的に調整することが必要である。
変形の実施形態では他の補完機構を使用してもよい。例えば、16<P<32である場合にc(n)=[0.15、0.7、0.15]である中間フィルタを用いることで、当該フィルタリングを依然としてc(n)=f(P)により細かく調節可能である。c(n)を例えば式
によりPの関数として連続的に計算してもよい。
このケースでは、これには、c(n)が区間[0、0.25]内にある可能な値に従ってフィルタの係数を連続的に調整する必要がある。
現在のフレームおよび/または以前のフレームのプレエコー領域の復号化信号のゼロ交差率のような、他の決定パラメータをフィルタの選択と調整の決定において使用してもよい。ゼロ交差率は、領域n=0、・・・、L-1を考える場合に、例えば
により計算することができる。実際、以前のフレームにおける高ゼロ交差率zc(したがって、プレエコー無し)は、信号内の高周波数の存在を示す。このケースでは、例えば以前のフレームでzc>L/2であるとき、フィルタリングc(n)z-1+(1-2c(n))+c(n)zを適用しないのが好ましい。
連続成分のバイアスを排除するために、ゼロ交差率を計算する前に復号化信号のプレフィルタリングを行うこともでき、または、推定導関数χrec,g(n)- χrec,g(n-1)のゼロ交差の回数を使用してもよい。
1変形では、信号のスペクトル分析を実施して判定を支援してもよい。例えば、MDCT符号化/復号化から生ずるMDCT領域内のスペクトル・エンベロープを、使用すべきフィルタの選択において利用できるが、この変形では、MDCT分析/合成ウィンドウが、アタック前の信号の局所統計値が当該ウィンドウの長さにわたって安定なままであるほど十分に短いことが前提である。
あるいは、プレエコー領域および過去のフレーム内の信号を例えばc(n)=0.25で-c(n)z-1+(1-2c(n))-c(n)zのようなハイパス補完フィルタでフィルタすることができ、その後、c(n)の値を、当該プレエコー領域内および過去のフレーム上のフィルタされた信号の平均エネルギができるだけ近いように選択し、図7に示す1組の限定的な値にわたって、または、当該プレエコー領域および過去のフレーム内におけるハイパス・フィルタリング後の信号のエネルギ率(またはエネルギの平方根のような均等な量)に基づいて、c(n)の選択を行うことができる。
信号χrec,g(n)とc(n)=0.25のときのローパスフィルタc(n)z-1+(1-2c(n))+c(n)zによりフィルタされた信号との差分を計算することによってハイパス・フィルタリングを適応的に実装できることに留意されたい。
別の変形では、整形フィルタリングがc(n)z-1+(1-c(n))のタイプであるとき、c(n)の値を、線形予測による分析(「線形予測符号化」LPC)から生ずる予測係数-r(1)/r(0)の関数として、プレエコー領域内の信号と過去のフレーム内の信号のオーダ1に固定することができる。
これらの最後の変形(ゼロ交差率、MDCTスペクトル・エンベロープ、ハイパス・フィルタリング、LPC分析)では、プレエコー領域に適用すべきフィルタリングに関する決定パラメータは、当該プレエコー領域の信号および/または当該プレエコー領域より前の信号のスペクトル分布分析に基づく。当該プレエコー領域より前の信号が既に多数の高周波数を含む場合、または、当該プレエコー領域内の信号および当該プレエコー領域より前の信号の高周波数の量がほぼ同一である場合には、本発明に従うフィルタリングは必要ではなく、当該フィルタリングは多少の劣化さえももたらしうる。これらのケースでは、c(n)を0または0に近い小さな値に固定することで本発明に従うフィルタリングを停止または減衰させる必要がある。
本発明の変形では、減衰とフィルタリングのステップの間の順序を反転してもよい。実際、スペクトル整形フィルタリング(F)を減衰(Att.)の前に実施してもよい。したがって、現在のフレームの再構築信号のプレエコー領域のサンプルの適応的フィルタリングを実施した後、これらのサンプルは、各サンプルに以前計算した対応する減衰因子を乗ずることで重み付けされる。即ち、
χrec、g(n)=gpre(n)χrec(n)、n=0、・・・、L-1
である。
振幅の減衰を、1組の「結合」フィルタ係数を定義することで結合(または統合)することもできる。例えば、サンプルnに対しフィルタが係数[c(n)、1-2c(n)、c(n)]を有し減衰因子がg(n)である場合には、フィルタ[gpre(n)c(n)、gpre(n)2gpre(n)c(n)、gpre(n)c(n)]を直接使用してもよい。
図11は、フィルタリングを適応的にする利点を示す。図11は、図10と同じ信号部分a)、b)およびc)を示し、部分d)で表した非適応的フィルタリングの実装により、符号化すべき信号内に高周波成分が既に存在するケースで信号が不必要に修正されるという事実を示す。サンプル640の後に、高周波数が不必要に減衰されており、多少の品質劣化に影響が生じている可能性があることが分かる。以上で説明した適応的フィルタリングを使用することで、これらの条件下で当該フィルタリングを禁止または減衰することができ、符号化すべき信号内に既に存在する高周波数は除去されず、したがって、当該フィルタリングに起因する劣化を回避することができる。
図6に戻ると、本明細書で説明した減衰処理装置600が、信号Sを受信する逆量子化(Q-1)モジュール610と、逆変換(MDCT-1)モジュール620と、図1で説明した加算/重合せ(add/lap)により信号を再構築し、再構築した信号を本発明に従う減衰処理装置に送信するためのモジュール630とを備える復号器に具備されている。
装置600の出力で、プレエコー減衰が実施された処理された信号Saが提供される。実施される当該処理により、プレエコー領域内の高周波成分の減衰によるプレエコー減衰を改善することができる。
本発明に従う減衰処理装置の例示的な実施形態を、図12を参照して説明する。ハードウェア的には、本発明に従う装置100は一般に、記憶部および/または作業用メモリを含むメモリ・ブロックBMと協調するプロセッサμPと、図6で説明した減衰処理方法の実装に必要な全てのデータを格納するための手段としての前述のバッファメモリMEMとを備える。場合によっては、当該装置は、デジタル信号Seの連続フレームを入力として受信し、信号Saをプレエコー減衰とスペクトル整形フィルタリングで再構築して送信する。
メモリ・ブロックBMは本発明に従う方法の諸ステップを実施するためのコード命令を含む計算プログラムを備えてもよい。装置のプロセッサμPによりこれらの命令が実行されたとき、本発明に従う方法の諸ステップが実施される。当該諸ステップは特に、当該復号化信号内のアタック位置を検出するステップと、当該復号化信号で検出されたアタック位置より前のプレエコー領域を決定するステップと、当該プレエコー領域のサブ・ブロックごとの減衰因子を当該アタックが検出された以前のフレームであるフレームの関数として計算するステップと、当該プレエコー領域のサブ・ブロック内のプレエコーを対応する減衰因子により減衰するステップと、検出されたアタックの位置に至るまで、当該プレエコー領域のスペクトル整形のためのフィルタリングを現在のフレームに適用するステップを含む。図6は、かかる計算プログラムのアルゴリズムを示すことができる。
本発明に従う減衰装置が独立であってもよく、または、本発明に従う減衰装置をデジタル信号復号器に組み込んでもよい。

Claims (13)

  1. 変換ベース符号化に起因して生じたデジタル音声信号内のプレエコーの減衰を処理するための方法であって、復号化の際に、
    復号化信号内のアタックの位置を検出するステップ(Detect.)と、
    前記復号化信号で検出された前記アタックの位置より前のプレエコー領域を決定するステップ(ZPE)と、
    前記プレエコー領域のサブ・ブロックごとの減衰因子を、少なくとも前記アタックが検出された以前のフレームであるフレームの関数として計算するステップ(F.Att.)と、
    前記プレエコー領域の前記サブ・ブロック内のプレエコーを、対応する減衰因子により減衰させるステップ(Att.)と、
    検出された前記アタックの位置に至るまで、前記プレエコー領域のスペクトル整形の適応的フィルタリング(F)を現在のフレームに適用するステップと、
    を含む、方法。
  2. 前記プレエコー領域に適用すべき前記適応的フィルタリングに関する少なくとも1つの決定パラメータを計算するステップと、
    前記適応的フィルタリングの係数を前記少なくとも1つの決定パラメータの関数として調整するステップと、
    をさらに含む、請求項1に記載の方法。
  3. 前記少なくとも1つの決定パラメータは、検出された前記アタックの強度の測定値である、請求項2に記載の方法。
  4. 前記少なくとも1つの決定パラメータは、前記アタックの位置を含むものより前の前記サブ・ブロック内の前記減衰因子の値である、請求項2に記載の方法。
  5. 前記少なくとも1つの決定パラメータは、前記プレエコー領域の信号および/または前記プレエコー領域より前の信号のスペクトル分布分析に基づく、請求項2に記載の方法。
  6. 検出された前記アタックの強度の前記測定値は、kを前記アタックが検出されたサブ・ブロックの番号とし、EN(k)をk番目のサブ・ブロックのエネルギとして、
    P=max (EN(k), EN (k+1)/min(EN(k-1),EN(k-2))
    である、請求項3に記載の方法。
  7. 前記適応的フィルタリングの係数を調整するステップは、少なくとも1つの決定パラメータを所定の閾値と比較する関数として離散的に実施される、請求項2に記載の方法。
  8. 前記適応的フィルタリングの係数を調整するステップは、前記少なくとも1つの決定パラメータの関数として連続的に実施される、請求項2に記載の方法。
  9. 前記適応的フィルタリングは、c(n)を0と0.25の間の係数とした伝達関数
    c(n)z-1+(1-2c(n))+c(n)z
    を有するゼロ位相有限インパルス応答フィルタリングである、請求項1に記載の方法。
  10. 前記減衰させるステップは、前記適応的フィルタリングを定義する係数に前記減衰因子を統合することによって、前記スペクトル整形のフィルタリングと同時に実施される、請求項1に記載の方法。
  11. 変換ベース符号化器に起因して生じたデジタル音声信号内のプレエコーの減衰を処理するための装置であって、
    復号化信号内のアタックの位置を検出するための検出モジュール(601)と、
    前記復号化信号で検出された前記アタックの位置より前のプレエコー領域を決定するための決定モジュール(602)と、
    前記プレエコー領域のサブ・ブロックごとの減衰因子を、少なくとも前記アタックが検出された以前のフレームであるフレームの関数として計算するための計算モジュール(603)と、
    前記プレエコー領域の前記サブ・ブロック内のプレエコーを対応する減衰因子により減衰するための減衰モジュール(604)と、
    検出された前記アタックの位置に至るまで前記プレエコー領域のスペクトル整形を現在のフレームに実施するための適応的フィルタリング・モジュール(606)と、
    を備える復号器に関連付けられた、装置。
  12. 請求項11に記載の装置を備えた、デジタル音声信号の復号器。
  13. 請求項1乃至10の何れか1項に記載の方法の諸ステップを実施するためのコード命令を含み、前記コード命令がプロセッサにより実行されたとき前記諸ステップが実施される、計算プログラム。
JP2015519300A 2012-06-29 2013-06-28 デジタル音声信号における効果的なプレエコー減衰 Active JP6271531B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1256285A FR2992766A1 (fr) 2012-06-29 2012-06-29 Attenuation efficace de pre-echos dans un signal audionumerique
FR1256285 2012-06-29
PCT/FR2013/051517 WO2014001730A1 (fr) 2012-06-29 2013-06-28 Atténuation efficace de pré-échos dans un signal audionumérique

Publications (2)

Publication Number Publication Date
JP2015522847A true JP2015522847A (ja) 2015-08-06
JP6271531B2 JP6271531B2 (ja) 2018-01-31

Family

ID=47191858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015519300A Active JP6271531B2 (ja) 2012-06-29 2013-06-28 デジタル音声信号における効果的なプレエコー減衰

Country Status (12)

Country Link
US (1) US9489964B2 (ja)
EP (1) EP2867893B1 (ja)
JP (1) JP6271531B2 (ja)
KR (1) KR102082156B1 (ja)
CN (1) CN104395958B (ja)
BR (1) BR112014032587B1 (ja)
CA (1) CA2874965C (ja)
ES (1) ES2711132T3 (ja)
FR (1) FR2992766A1 (ja)
MX (1) MX349600B (ja)
RU (1) RU2607418C2 (ja)
WO (1) WO2014001730A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2992766A1 (fr) * 2012-06-29 2014-01-03 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
FR3023646A1 (fr) * 2014-07-11 2016-01-15 Orange Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame
FR3025923A1 (fr) * 2014-09-12 2016-03-18 Orange Discrimination et attenuation de pre-echos dans un signal audionumerique
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483880A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009527773A (ja) * 2006-02-20 2009-07-30 フランス テレコム デコーダおよび対応するデバイス中のディジタル信号のエコーの訓練された弁別および減衰のための方法
JP2011008135A (ja) * 2009-06-29 2011-01-13 Fujitsu Ltd 情報処理装置およびプログラム
JP2012503214A (ja) * 2008-09-17 2012-02-02 フランス・テレコム デジタルオーディオ信号におけるプリエコーの減衰

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2674710B1 (fr) * 1991-03-27 1994-11-04 France Telecom Procede et systeme de traitement des preechos d'un signal audio-numerique code par transformee frequentielle.
US5731767A (en) * 1994-02-04 1998-03-24 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus, information recording medium, and information transmission method
JP3186412B2 (ja) * 1994-04-01 2001-07-11 ソニー株式会社 情報符号化方法、情報復号化方法、及び情報伝送方法
JPH08223049A (ja) * 1995-02-14 1996-08-30 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法
JP3307138B2 (ja) * 1995-02-27 2002-07-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
JP4581190B2 (ja) * 2000-06-19 2010-11-17 ヤマハ株式会社 音楽信号の時間軸圧伸方法及び装置
EP1343143B1 (en) * 2000-12-14 2011-10-05 Sony Corporation Analysis-synthesis of audio signal
US7561688B2 (en) * 2001-11-16 2009-07-14 Koninklike Philips Electronics N.V. Embedding supplementary data in an information signal
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
US7443978B2 (en) * 2003-09-04 2008-10-28 Kabushiki Kaisha Toshiba Method and apparatus for audio coding with noise suppression
EP1542226A1 (en) * 2003-12-11 2005-06-15 Deutsche Thomson-Brandt Gmbh Method and apparatus for transmitting watermark data bits using a spread spectrum, and for regaining watermark data bits embedded in a spread spectrum
DE102006047197B3 (de) * 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
US8463603B2 (en) * 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
FR2936898A1 (fr) * 2008-10-08 2010-04-09 France Telecom Codage a echantillonnage critique avec codeur predictif
CN101826327B (zh) * 2009-03-03 2013-06-05 中兴通讯股份有限公司 一种基于时域掩蔽的瞬态判决方法及设备
US9672840B2 (en) * 2011-10-27 2017-06-06 Lg Electronics Inc. Method for encoding voice signal, method for decoding voice signal, and apparatus using same
FR2992766A1 (fr) * 2012-06-29 2014-01-03 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
FR3000328A1 (fr) * 2012-12-21 2014-06-27 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009527773A (ja) * 2006-02-20 2009-07-30 フランス テレコム デコーダおよび対応するデバイス中のディジタル信号のエコーの訓練された弁別および減衰のための方法
JP2012503214A (ja) * 2008-09-17 2012-02-02 フランス・テレコム デジタルオーディオ信号におけるプリエコーの減衰
JP2011008135A (ja) * 2009-06-29 2011-01-13 Fujitsu Ltd 情報処理装置およびプログラム

Also Published As

Publication number Publication date
FR2992766A1 (fr) 2014-01-03
MX349600B (es) 2017-08-03
MX2014015065A (es) 2015-02-17
BR112014032587B1 (pt) 2022-08-09
RU2607418C2 (ru) 2017-01-10
JP6271531B2 (ja) 2018-01-31
CN104395958A (zh) 2015-03-04
WO2014001730A1 (fr) 2014-01-03
EP2867893A1 (fr) 2015-05-06
CA2874965A1 (fr) 2014-01-03
KR20150052812A (ko) 2015-05-14
US9489964B2 (en) 2016-11-08
EP2867893B1 (fr) 2018-11-28
CN104395958B (zh) 2017-09-05
KR102082156B1 (ko) 2020-04-14
US20150170668A1 (en) 2015-06-18
ES2711132T3 (es) 2019-04-30
BR112014032587A2 (pt) 2017-06-27
RU2015102814A (ru) 2016-08-20
CA2874965C (fr) 2021-01-19

Similar Documents

Publication Publication Date Title
JP6271531B2 (ja) デジタル音声信号における効果的なプレエコー減衰
EP1997101B1 (en) Method and system for reducing effects of noise producing artifacts
JP6076247B2 (ja) ディジタルオーディオ信号エンコーダでのノイズシェーピングフィードバックループの制御
US10170126B2 (en) Effective attenuation of pre-echoes in a digital audio signal
EP2980799A1 (en) Apparatus and method for processing an audio signal using a harmonic post-filter
WO2018177608A1 (en) Apparatus for post-processing an audio signal using a transient location detection
JP7008756B2 (ja) デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置
JP5295372B2 (ja) デジタルオーディオ信号におけるプリエコーの減衰
US11562756B2 (en) Apparatus and method for post-processing an audio signal using prediction based shaping
RU2742739C1 (ru) Выбор задержки основного тона
CN105632504B (zh) Adpcm编解码器及adpcm解码器丢包隐藏的方法
KR20160050097A (ko) 오디오 신호의 부호화, 복호화 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171227

R150 Certificate of patent or registration of utility model

Ref document number: 6271531

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250