JP4988774B2 - オーディオ・デコーダにおける適応励起利得を制限する方法 - Google Patents

オーディオ・デコーダにおける適応励起利得を制限する方法 Download PDF

Info

Publication number
JP4988774B2
JP4988774B2 JP2008556824A JP2008556824A JP4988774B2 JP 4988774 B2 JP4988774 B2 JP 4988774B2 JP 2008556824 A JP2008556824 A JP 2008556824A JP 2008556824 A JP2008556824 A JP 2008556824A JP 4988774 B2 JP4988774 B2 JP 4988774B2
Authority
JP
Japan
Prior art keywords
gain
adaptive excitation
value
long
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008556824A
Other languages
English (en)
Other versions
JP2009528563A (ja
Inventor
バラーツ・コヴシー
ダヴィド・ヴィレット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2009528563A publication Critical patent/JP2009528563A/ja
Application granted granted Critical
Publication of JP4988774B2 publication Critical patent/JP4988774B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ・デコーダにおける適応励起利得(adaptive excitation gain)を制限する方法に関する。本発明は、また、長期間の予測フィルタを含むコーダによってコーディングされているオーディオ信号をデコーディングするためのデコーダにも関する。
本発明は、オーディオ周波数信号のようなディジタル信号をコーディング及びデコーディングする分野において長所的な応用を発見する。
本発明は、パケットの損失の後にデコーディングに関する受け入れ可能な品質を提供するために、特に、コード励起された線形予測(CELP)のコーディング文脈においてデコーディングするために用いられる長期間予測(LTP)フィルタの飽和を避けるために、パケット交換されたネットワークにおける音声及び/またはオーディオ信号の送信、例えば、IPを介する音の送信のために特に適している。
CELPコーダの一例は、8kHzでサンプリングされ、10ミリ秒(ms)のフレームを用いた1秒につき8キロビット(kbps)の固定ビット・レートで送信される、300ヘルツ(Hz)から3400Hzまでの電話帯域における音声信号のために設計された、ITU−T推奨G.729によってカバーされるシステムである。このコーダの動作は、音声及びオーディオ処理に関するIEEEトランス(IEEE Trans.)、6−2巻、1998年3月、116−130頁のR. Salami, C. Laflamme, J.P. Adoul, A. Kataoka, S. Hayashi, T. Moriya, C. Lamblin, D. Massaloux, S. Proust, P. Kroon 及び Y. Shoham, による論文「CS−ACELP:トル品質(toll quality)の8kbps音声コーダ、の設計及び説明」に詳細に説明されている。
図1(a)は、G.729コーダの高レベルの図である。この図は、50Hz以下の周波数における信号を除去するための高域通過前処理フィルタリング(PRE)101を示す。フィルタリングされた音声信号S(n)は、次に、ディクショナリにおける量子化されたベクトル(QV)をインデクシングするインデックスの形態でマルチプレクサ(MUX)104に送られる、線形予測コーディング(LPC)フィルタ
Figure 0004988774
を決定するために、ブロック102によって分析される。
励起信号として言及されるフィルタ
Figure 0004988774
によってフィルタリングされる元の信号S(n)は、ブロック103によって処理されて、そこから、図2における表にリストアップされたパラメータを抽出する。これらのパラメータは、次に、コーディングされて、マルチプレクサMUX104に送られる。
図1(b)は、励起コーディング・ブロック103の動作を詳細に示す。図に見られ得るように、励起信号は、3つのステップでコーディングされる:
・ 第1のステップにおいては、長期間予測(LTP)フィルタリングがブロック106、107、111によって行われ;G.729コーダのLTPフィルタは、第1次フィルタであり;“ピッチ”期間としても知られている適応励起期間Pは、整数値Pとして表現され、かつ適切な場合には分数値P_fractional によって補完され、そして“ピッチ”利得としても知られている適応励起利得gは、合成による分析により決定されて、ブロック105からの目標励起信号と、x(n)=g・x(n−p)によって与えられる合成された信号との間のエラーを最小にし、nは、信号のサンプルを表す;
・ 次に、第2のステップにおいては、これら2つの信号間の残留差が、第1に、4パルス±1を有するACELPイノベータ(innovator)・ディクショナリ108から抽出された、イノベータ・コードとしても知られている、固定コードc(n)によって、そして第2に、固定の励起利得g109によって、モデル化され;固定コードc(n)及び利得gは、先行するLTP段からの残留信号と信号g・c(n)との間のエラーを111’において最小にすることによって決定される;
・ 最後に、最終のステップにおいては、結果のパラメータ、すなわち、ピッチ期間P、固定コードc(n)、ピッチ利得g及び固定励起利得g、は、コーディングされてマルチプレクサ104に送られる。
図1(c)は、標準のG.729デコーダが、マルチプレクサ104からデマルチプレクサ(DEMUX)112によって受信されたデータからの音声信号を如何にして再構成するかを示す。励起信号は、以下の2つの寄与を加えることによって5msのサブフレームの形態で再構成される:
・ 第1の寄与は、適応励起LTP信号x(n)=g・x(n−p)をブロック116、117の出力において再構成するよう、ピッチ期間Pをデコーディングし(115)かつピッチ利得gをデコーディングする(118)ことから帰結する;
・ 第2の寄与は、固定励起信号g・c(n)を再構成するよう、ブロック118によってデコーディングされる利得gによってスケーリングされる固定励起信号c(n)をデコーディングする(113)ことから帰結する。
・ これら2つの寄与は、次に、加えられて、デコーディングされた励起信号x(n)=g・x(n−p)+g・c(n)を与える。
デコーディングされた励起信号は、LPC合成フィルタ120によって成形され、その係数は、LSF(線スペクトル周波数)領域におけるブロック119によってデコーディングされ、そして5msのサブフレーム・レベルにおいて補間される。品質を改善するために、かつ或るコーディング・アーチファクトを隠蔽するために、再構成された信号は、次に、適応後フィルタ(PF)121によって及び高域通過後処理フィルタ(POST)122によって処理される。図1(c)のデコーダは、従って、ソース・フィルタ・モデル(source-filter model)に依存して信号を合成する。
長期間予測(LTP)フィルタから来る励起信号でもって、かつ信号のアタック(the attack of the signal)を急速に追跡することができる励起信号を発生する目的でもって、CELPコーダは、概して、1よりも大きいピッチ利得gの選択を認可する。結果として、デコーダは、局部的に不安定である。しかしながら、この不安定さは、合成モデルによる分析によって制御され、このことは、励起信号LTPと元の目標信号との間の差を連続的に最小にする。
フレームの伝送エラーまたは損失の場合には、このような不安定さは、コーダとデコーダとの間のオフセットによって惹起される重大な劣化に導き得る。このような状況下では、フレームにおいて受信されないピッチ利得値gは、概して、先行するフレームにおける値gによって置き換えられ、そして、交互の、1に近いピッチ利得を有する音声期間及び1より小さいピッチ利得を有する非音声期間からなる音声信号の可変的性質は、この局部的な不安定さに関連した潜在的問題を概して制限するけれども、それにもかかわらず、例えば、置換利得gが実際の利得よりも高く、そして当該のフレームが信号のアタック(the attack of a signal)中に生じるものとして高利得フレームによって後続されるならば、幾つかの信号、特に音声信号に対して、周期的固定領域における伝送エラーが重大な劣化を生じるということは真実のままである。この状況は、次に、長期間予測フィルタリングの回帰的な特性に関連した累積的な効果によってLTPフィルタの飽和に急速に導く。
この問題に対する第1の解決法は、ピッチgを1に制限することであるが、この制約は、信号のアタック中にCELPコーダの性能を劣化させるという影響を有する。
他の解決法は、このことが必要と見なされる場合だけ、ピッチ利得gを1以下の値に制限することを提案する。特に:
・ 米国特許5,960,386号に記載された方法は、コーダにおいて実行される幾つかの段に分割され得る。まず、前以って計算されたピッチ利得及び先行するピッチ利得の平均を用いて可能な不安定さを検出するための手順がある。不安定さの危険性がないならば、前以って計算されたピッチ利得が保持される。そうでないならば、反復ピッチ利得制御手順が不安定さの危険性を除去するようにこの利得に適合する。
・ コーダにおける不安定さを検出するための手順は、米国特許5,893,060号及び5,987,406号に記載されている。それは、スペクトルにおける共振の存在を決定するためにLSPパラメータを用い、幾つかのフレームとして表現される共振の期間を計算し、そしてピッチ利得値の関数として不安定さの可能性を評価する。もし、不安定さが検出されるならば、ピッチ利得の値は閾値において飽和され、そしてピッチ利得のベクトル的な量子化における利得ベクトルのための探索が変更され、それにより、選択されたベクトルは、閾値より小さいピッチ利得値を有する。
・ R.Salamiによる上述の論文及び米国特許5,708,757号は、可能な飽和を検出するための手順もしくは標準のG.729コーダに存在する関連のピッチ利得値を計算するための手順を記載している。“タミング(taming:馴化)”として知られているこの方法は、励起計算におけるレコーダの最大の潜在的エラーを考慮している。もし、不安定フィルタに対応する、ピッチ利得が1より大きいときに、このエラーが或る閾値を超えたならば、該利得は、フィルタを安定化させるために1よりも小さい値をとるように変更される。従って、この考えは、特に長い強力音声通過中に局部的に不安定である長期間フィルタの飽和を、先行する送信エラーの累積が引き起し得る領域をコーダにおいて検出することである。これらの通過は、最大の潜在的エラーを模擬する一定の励起でもって第2の長期間フィルタの出力を調査することによって検出される。同一の技術は、ITU−T推奨G.723.1において言及されており、ここでは、コーダは、ピッチ利得が、過去からの5つの連続するサンプルに与えられる5つの係数のベクトルである、第5の長期間予測器を用いる。これらの利得ベクトルは、ベクトル的量子化によって量子化され得る。G.729コーダのもののような第1次の長期間フィルタの安定性は、単一利得の係数を値1と比較することによって確認するのが非常に容易であるけれども、この確認は、一層高次の長期間フィルタに対しては、一層複雑にされる。利得セットを用いる長期間フィルタの安定性は、信号の性質、例えばピッチにも依存する。従って、同じ利得セットは、1つの状況においては安定であり得るが、他の状況においては不安定であり得る。このことは、エラー伝播を評価することが困難であり、その理由は、潜在的エラーの性質がコーダにとって既知でないかもしれないからであり、そして潜在的に不安定な領域を検出すること、もしくはフィルタを再安定化するために適用されるべき減衰を決定することが単純なことではないからである。推奨G.723.1において履行される解決法は、コーダの各可能な利得ベクトルごとに、学習プロセスを通して等価な平均第1次利得を発見することである。これらの値は、表に格納される。この等価な第1次フィルタは、従って、長期間フィルタにおける最大の潜在的累積エラーを評価するために用いられ、そしてそれにより、高い累積エラーの場合に利得が制限されなければならない並びにフィルタを安定化させるために適用されるべき利得が計算されなければならない不安定な領域を識別するために用いられる。
しかしながら、損失または伝送エラーの存在におけるLTPフィルタの飽和の危険性を回避するためにこれらの既知の技術によって提案された解決法は、以下の問題を引き起す:
・ 長期間予測と関連した利得gを変更するための決定は、コーダにおいて事前に(a priori)行われるが、フレームが失われてしまった後では、仮定によってコーダに対し未知であるデコーダ及びその動作の状態を完全に制御することは可能でない。また、現行の技術は、利得を変更するためにコーダによって取られる決定にもかかわらず、伝送エラーの場合にはデコーディングに関するオーディオ劣化を生じし続け得る。
・ 上述の技術と関連したピッチ利得gの1への制限は、通常1よりも大きい利得を発生する、例えばアタック段階における、品質のわずかな劣化に導き得る。選択されたトリガリング閾値は、品質と安全性との間の妥協である。低い閾値は、あまりにも頻繁に制限をトリガするであろうし、特に伝送エラーのない場合に、不必要な劣化を引き起す。逆に、より高い閾値は、高いエラー・レートの場合において、充分な保護を保証しないであろう。
従って、本発明の主題によって解決されるべき技術的課題は、コーダ及びデコーダ間のフレームの損失に続いて、長期間予測フィルタを含むコーダによってコーディングされるオーディオ信号をデコーディングする際にデコーダにおける適応励起利得を制限する方法を提案することであり、該方法は、LTPフィルタの不安定さが実際に発見された場合にのみ、適応励起利得もしくはピッチ利得gを制限するであろうし、そして、フレーム損失に直面した際にもデコーディング品質とエラー強さとの間の最も可能な妥協に到達するであろう。
本発明によれば、上述の技術的課題に対する解決法は、
コーダとデコーダとの間の伝送フレーム損失に続いて、長期間予測フィルタを含むコーダによってコーディングされたオーディオ信号のデコーダにおける適応励起利得を制限する方法であって、
・ 蓄積されたエラーを表す値を、前記伝送フレーム損失の後に適応励起デコーディングに供給するよう意図されたエラー指示関数を創設するステップと、ここに、任意の値が喪失されたフレームのための前記適応励起利得に割当てられ、
・ デコーディング中に前記エラー指示関数の値を計算するステップと、
・ エラー指示関数の前記値からエラー指示パラメータを計算するステップと、
・ 前記エラー指示パラメータを少なくとも1つの与えられた閾値と比較するステップと、
・ 少なくとも1つの適応励起利得と等価な利得が与えられた値よりも大きいならば、正の比較の場合に少なくとも1つの適応励起利得に制限を適用するステップと、
をデコーダにおいて含むことを特徴とする方法である。
ここに、“フレーム損失”とは、概して、フレームの非受信及びフレームにおける伝送エラーに言及している。
1つの履行においては、前記任意の値は、エラー不同アルゴリズムによって前記喪失されたフレーム中に決定される適応励起利得の値に等しい。
エラー不同(dissimilation)アルゴリズムによって、前記任意の値は、喪失されてしまったフレームに先行して喪失されなかったフレームに対する適応励起利得の値に等しい。
もう1つの例においては、前記任意の値は、先行フレームの音声付け(voicing)を検出することに基づいて限定される。音声付けされたフレームに対して、前記任意の値は1に等しく、そうでない場合には、任意の値は0に等しく、そして励起信号は、ランダム・ノイズから成る。
以下に一層詳細に明らかになるように、本発明の方法は、LTPフィルタの不安定さの可能性が、従来技術におけるようにコーダにおいてではなく、デコーダそれ自体において検出されない限り、ピッチ利得gを変更しないという利点を有する。さらに、本発明の方法は、デコーダの実際の状態、及び生じた任意の伝送エラーに関する正確な情報を考慮する。
本発明の方法は、自律的に用いられ得、すなわち、コーダにおけるピッチ利得の制限を規定しないコーディング構造において用いられ得る。
しかしながら、本発明は、前記適応励起利得が、利得制限器装置が装備されたコーダによって前記デコーダに供給されるということを長所的に教示している。従って、本発明の方法は、コーダにインストールされた既知の事前の“タミング(taming)”技術と組み合わせて用いられ得る。従って、2つの技術の長所が累積され:事前の技術(a priori technique)は、1より大きいピッチ利得の不当に長いシーケンスを制限する。これは、このようなシーケンスが、長期間に渡って信号を変更するように本発明の方法を強いる、重大なエラー伝播に導くからである。しかしながら、事前の“タミング”技術(a priori “taming” technique)をトリガするための不当に低い閾値が信号を劣化させる。本発明は、閾値を高めることによって事前の“タミング”技術がトリガされる回数を減少しており、その理由は、この事前の技術が急激な増加(explosion)の危険性を検出しないけれども、本発明の事後の(a posteriori)方法がそれを検出して修復するからである。
本発明の特定の履行においては、
前記エラー指示関数は、
Figure 0004988774
の形態であり、ここに、
・ Nは、長期間予測フィルタの次数であり、通常は奇数であり、
・ 利得gitは、受信されたフレームに対する前記適応長期間フィルタの適応励起利得に等しいか、または喪失されたフレームに対する先行するフレームにおける前記長期間予測フィルタの適応励起利得に等しいかであり、
・ e(n)は、受信されたフレームに対して値0を有し、喪失されたフレームに対して値1を有し、
・ Pは、適応励起期間である。
もちろん、最も簡単な状況においては、LTPフィルタの次数Nは、1に等しいものとして取られ得る。
本発明の方法の第1の履行においては、一次の長期間予測フィルタの適応励起利得gは、前記エラー指示パラメータが前記与えられた閾値より上である場合に値1に制限される。
同様に、本発明は、前記エラー指示パラメータが前記与えられた閾値よりも上である場合に1よりも高い次数の長期間予測フィルタの適応励起利得gに修正係数が適用される、ということを教示している。
第2の履行においては、前記少なくとも1つの適応励起利得は、前記エラー指示パラメータが前記閾値よりも上である場合に前記与えられた閾値の線形関数によって制限される。この長所的配列は、利得制限を一層進歩的なものとし、そして鋭敏な閾値の影響を回避する。
本発明は、また、コンピュータにおいて実行されるとき、本発明の方法のステップを実行するために、コンピュータ読取り可能媒体上に記憶された命令を含むプログラムにも関する。
最後に、本発明は、長期間予測フィルタを含むコーダによってコーディングされるオーディオ信号のためのデコーダに関し、該デコーダは、顕著的には、
・ 伝送フレーム損失を検出ためのブロックと、
・ 前記伝送フレーム損失に続くデコーディング中に累積適応励起エラーを表すエラー指示関数の値を計算するためのモジュールと、ここに、任意の値が、喪失されたフレームに対し前記適応励起利得に割当てられ、
・ エラー指示関数の前記値からエラー指示パラメータを計算するためのモジュールと、
・ 前記エラー指示パラメータを少なくとも1つの与えられた閾値と比較するための比較器と、
・ デコーダによって用いられるべき少なくとも1つの適応励起利得の値を、比較器によって供給される結果の関数として決定するよう適合された弁別器と、
を備える。
非制限的な例によって与えられる、添付図面を参照した以下の説明は、本発明が何に存するか、そして本発明が実行するために如何に減少され得るかということを明瞭に説明している。
G.729デコーダ、及びオーダN=1の長期間予測(LTP)フィルタリングの文脈において、以下に本発明を詳細に説明する。任意の次数(オーダ)NのLTPフィルタリングは、この明細書の終りに網羅(カバー)される。
図1(a)の励起コーディング・ブロック103から来る、図1(b)に示される励起信号x(n)は、適応励起信号g・x(n−p)と、固定励起信号g・c(n)との合計:
(n)=g・x(n−p)+g・c(n)
であり、ここに、
・ gは、適応励起利得またはピッチ利得であり、
・ pは、ピッチまたは期間長さの値であり、
G.729コーダは、高ピッチ付けされた音声サウンドの一層良好なモデルのための長いピッチ値(p<85)に対する1/3のステップだけの分数解像度を用い、分数ピッチを有する適応励起は、補間及び過サンプリングによって得られ、
・ gは、固定励起利得であり、
・ c(n)は、固定もしくはイノベータ・コード・ワードである。
適応励起は、過去の励起だけに依存しており、周期信号、特に音声信号を効率的にモデル化しており、ここに、励起それ自体は、実質的に周期的に反復される。固定部分c(n)は、周期間の差をモデル化するために、すなわち、適応励起と予測残留との間のエラー(誤差)を修正するために、その全励起の使用において革新的である。
上に見られるように、励起信号は、合成技術による分析を用いてコーダにおいて最適化され得る。この励起の合成フィルタリングは、従って、デコーダにおいて得られるべき結果を確認するために、量子化されたフィルタで行われる。このことは、何故、局部的に不安定な長期間フィルタリングを用いることが可能であるかを説明しており、すなわち、1よりも大きいgの値でもって、信号のアタック(the attack of a signal)をモデル化することが可能であるかを説明しており、その理由は、この不安定性によって引き起されるエネルギの増加が制御下にあるからである。さらに、この制御は、任意のフレームの損失によって妨害されるもしくは乱される。
デコーダにおいては、もしフレームが喪失するならば、もしくは、もし不正確なフレームが受信されるならば、エラー不同(dissimilation)アルゴリズムは過去の励起信号から評価される励起信号を用いる。代表的には、長期間予測(LTP)フィルタリングだけが用いられ、最後の修正されデコーディングされたピッチ値gp_FECを保持する。従って、デコーダの励起信号x(n)に妨害が注入される。引き続く有効なフレームに対して、たとえ、励起信号を発生するためにパラメータg、p、g及びc(n)のすべてを正しくデコーディングすることが可能であるとしても、得られた励起信号は、過去の励起信号x(n−p)が妨害されているので、正確ではない。喪失されたフレーム中に注入されるエラーは、従って、音声周期における長期間フィルタリングの回帰的な性質のために、特に、gが1に接近しているときに、多くのフレームに渡って後方に伝播し得る。対照的に、gが低い値を有する、もしくは非音声領域の幾つかにおいて0に等しいとき、妨害の影響は、イノベータ・コードc(n)の重みが過去におけるその重みよりも大きいので、減衰されるかもしくはキャンセルされる。
従って、伝送エラーによって引き起される適応部分における累積的エラーの大きさを評価することができることは、重要である。このため、図1(c)に示されたデコーダを、図3に従って変更することが提案される。
図3は、長期間予測(LTP)フィルタリングと並列に、デコーダが、デマルチプレクサ112(DEMUX)から来る励起信号を処理するためにブロック211〜215から成るラインを含む、ということを示す。デコーダのこの処理ラインは、また、適応励起利得を制限する本発明の方法の主なステップを示すためにも記載されている。
ブロック211は、フレームが正しく受信されたか否かを検出するためのものである。この検出ブロックの後には、モジュール212が続き、該モジュール212は、長期間LTPフィルタリングに類似した動作を行う。一層詳細にするために、モジュール212は、エラー指示関数x(n)を計算し、その値は、伝送損失に続く適応励起に渡る累積デコーディング・エラーを表す。この実施形態においては、この関数は、式:
(n)=g・x(n−p)+e(n)
によって与えられ、ここに、e(n)は、
・ 適応ループに注入されるエラーをモデル化するために、受信されないフレームまたは誤ったフレームに対して1に等しく、
・ 長期間フィルタの回帰的性質のためだけにエラーが伝播されるとき、有効なフレームに対して0に等しい。gは、
・ 受信されないフレームに対して、先行フレームのピッチ利得の値、gp_FECに等しく、
・ 有効なフレームに対して、gに等しい。
モジュール213は、次に、モジュール212によって供給される関数x(n)の値から、エラー指示パラメータSを計算する。有効なフレームに対して、比較器214は、パラメータSは、或る閾値Sを超えたか否かを確認する。閾値が超えられたならば、そしてデコーディングされたピッチ利得gが1よりも大きいならば、gの値は制限され、その理由は、この状況においては、LTPフィルタを飽和する危険性があるからである。
エラー指示パラメータSは、関数x(n)の値または最大値の合計、これらの値の二乗の平均値または合計であり得る。
比較器214の後には、弁別器215が続き、該弁別器215は、現在のフレームすなわちデコーディングされたピッチ値gまたは制限された値をブロック117に与えるためにピッチ利得の値g’を決定するよう適合されている。
パラメータSが閾値Sを超え、そしてデコーディングされたピッチ利得gが1よりも大きいならば、利得g’は、例えば、オーバーシュートの大きさに関わり無く、系統的に1に制限され得る。しかしながら、形態
g’=g+(g−1)(S−S)/S
のパラメータSの線形関数として利得g’を限定することにある一層進行的な制限が提供されることもでき、ここに、Sは、Sでg’の変動の勾配を調整するための任意の係数である。
以下の例によって示されるように、2つの閾値間の線形的制限及び第2の閾値を超える1への制限でもって2つの連続する閾値に対して利得を制限することが等しく可能である。
実際的な例を与えるために、LTPパラメータP及び有効なフレームに対するgは、40のサンプルを収容する各5msのサブフレームごとに送信される。本発明の主題であるフィルタLTPの飽和を避けるための処理も、サブフレームのタイミング・レートで行われる。エラー指示パラメータS、例えば関数x(n)の合計、は、各サブフレームごとに計算される。このパラメータの値は、3の平均値に対応する、120に制限される:
Figure 0004988774
現在のサブフレームのピッチ利得が1よりも大きく、そして、累積エラーが高いということを示す、2よりも大きいサンプルx(n)の平均値に対応する、80の閾値よりもSの値が大きいならば、ピッチ利得の値は、以下の式に従って減少される:
’=1+(g−1)・(120−S)/40
(S=120)の最大値に対して、新しいピッチ利得は、g’=1であり、そして、S(80<S<120)の他の値に対しては、1>g’>gである。
ピッチ利得の値が上述のように変更されるとき、信号x(n)のためのメモリは、新しい値g’でもって更新される。
対照的に、もし現在のサブフレームのピッチ利得が1よりも小さい、もしくは、Sの値が、長期間において低である合成フィルタにおける累積エラーに対応する、80よりも小さいならば、デコーディングされたピッチ利得の値は変更されず、g’=gである。
最後に、g’は、合成フィルタ
(n)=g’・x(n−p)+g(n)・c(n)
の励起信号を発生するために、デコーディングされたピッチ利得の代わりに用いられる。
ここで説明した実施形態においては、コーダの長期間フィルタは、一次フィルタである。しかしながら、もしコーダが、例えば、G.723.1コーダに関して一層高次数Nの長期間LTPフィルタを用いるならば、エラー指示関数を限定するために用いられるLTP擬似フィルタは、等価な一次フィルタであって良く、もしくは一層長所的には、特に同じ次数の、コーダにおいて用いられるものと同一のフィルタであって良い。一次の等価フィルタは、高い累積エラーの場合に利得を制限すること並びに必要な減衰を決定することが必要である不安定な領域を、有効なフレーム中に識別するために、常に用いられる。
パラメータSが閾値Sを超えたならば、そして等価な利得gが1よりも大きいならば、利得g’は、一次フィルタに対するのと同じ方法で計算され得る。修正係数g’/gは、次に、一層高次数のフィルタの利得gに与えられる。
G.729コーダの高レベルの図である。 図1(a)のコーダの励起コーディング・ブロックの詳細図である。 図1(a)からのコーダと関連するデコーダの図である。 図1(a)からのコーダのコーディング・パラメータを述べる表を示す図である。 本発明のデコーダの図である。
符号の説明
112 デマルチプレクサ
117 ブロック
121 適応後フィルタ
122 高域通過後処理フィルタ
211〜213 ブロック
214 比較器
215 弁別器

Claims (11)

  1. コーダとデコーダとの間の伝送フレーム損失に続いて、長期間予測フィルタを含むコーダによってコーディングされたオーディオ信号のデコーダにおける適応励起利得を制限する方法であって、
    − 伝送フレーム損失を検出するステップと、
    − 蓄積されたエラーを表す値を、前記伝送フレーム損失に続く適応励起デコーディングに供給するよう意図されたエラー指示関数を設定するステップと、
    ここに、前記エラー指示関数は、
    Figure 0004988774
    の形態であり、ここに、
    ・ x (n)は、前記エラー指示関数であり、nは、信号のサンプルを表し、
    ・ Nは、長期間予測フィルタの次数であり、
    ・ 利得g it は、受信されたフレームに対する前記適応長期間予測フィルタの適応励起利得に等しいか、または喪失されたフレームに対する先行するフレームにおける前記長期間予測フィルタの適応励起利得に等しく、
    ・ e (n)は、受信されたフレームに対して値0を有し、喪失されたフレームに対して値1を有し、
    ・ Pは、受信されたフレームに対するデコーディングされた適応励起期間、または喪失されたフレームに対する最後に正しくデコーディングされた適応励起期間であり、
    − デコーディング中に前記エラー指示関数の値を計算するステップと、
    − エラー指示関数の前記値からエラー指示パラメータを計算するステップと、
    − 前記エラー指示パラメータを少なくとも1つの与えられた閾値と比較するステップと、
    − 少なくとも1つの適応励起利得と等価な利得が与えられた値よりも大きいならば、前記エラー指示パラメータが前記少なくとも1つの与えられた閾値を超えた場合に少なくとも1つの適応励起利得に制限を適用するステップと、
    をデコーダにおいて含むことを特徴とする方法。
  2. 前記等価な利得は、一次の長期間予測フィルタの適応励起利得gであることを特徴とする請求項1に記載の方法。
  3. 前記等価な利得は、1よりも大きい次数の長期間予測フィルタの等価利得gであることを特徴とする請求項1に記載の方法。
  4. 前記エラー指示パラメータは、前記エラー指示関数のエネルギ(energy)を表示することを特徴とする請求項1乃至のいずれか1項に記載の方法。
  5. 前記表示するパラメータは、エラー指示関数の値の合計から得られることを特徴とする請求項に記載の方法。
  6. 一次の長期間予測フィルタの適応励起利得gは、前記エラー指示パラメータが前記与えられた閾値より上である場合に値1に制限されることを特徴とする請求項1乃至のいずれか1項に記載の方法。
  7. 前記エラー指示パラメータが前記与えられた閾値よりも上である場合に1よりも高い次数の長期間予測フィルタの適応励起利得gに修正係数が適用されることを特徴とする請求項1乃至のいずれか1項に記載の方法。
  8. 前記少なくとも1つの適応励起利得は、前記エラー指示パラメータが前記閾値よりも上である場合に前記与えられた閾値の線形関数によって制限されることを特徴とする請求項1乃至のいずれか1項に記載の方法。
  9. 前記適応励起利得は、利得制限器装置が装備されたコーダによって前記デコーダに供給されることを特徴とする請求項1乃至のいずれか1項に記載の方法。
  10. コンピュータにおいて実行されるとき、請求項1乃至のいずれか1項に記載の方法のステップを実行するために、コンピュータ読取り可能媒体上に記憶された命令を含むプログラム。
  11. 長期間予測フィルタを含むコーダによってコーディングされるオーディオ信号のためのデコーダであって、
    − 伝送フレーム損失を検出するためのブロック(211)と、
    − 前記伝送フレーム損失に続くデコーディング中に累積適応励起エラーを表すエラー指示関数の値を計算するためのモジュール(222)であって、
    前記エラー指示関数は、
    Figure 0004988774
    の形態であり、ここに、
    ・ x (n)は、前記エラー指示関数であり、nは、信号のサンプルを表し、
    ・ Nは、長期間予測フィルタの次数であり、
    ・ 利得g it は、受信されたフレームに対する前記適応長期間予測フィルタの適応励起利得に等しいか、または喪失されたフレームに対する先行するフレームにおける前記長期間予測フィルタの適応励起利得に等しく、
    ・ e (n)は、受信されたフレームに対して値0を有し、喪失されたフレームに対して値1を有し、
    ・ Pは、受信されたフレームに対するデコーディングされた適応励起期間、または喪失されたフレームに対する最後に正しくデコーディングされた適応励起期間である、前記モジュール(222)と、
    − エラー指示関数の前記値からエラー指示パラメータを計算するためのモジュール(213)と、
    − 前記エラー指示パラメータを少なくとも1つの与えられた閾値と比較するための比較器(214)と、
    − デコーダによって用いられるべき少なくとも1つの適応励起利得の値を、比較器(214)によって供給される結果の関数として決定するよう適合された弁別器(215)と、
    を備えたことを特徴とするデコーダ。
JP2008556824A 2006-02-28 2007-02-13 オーディオ・デコーダにおける適応励起利得を制限する方法 Expired - Fee Related JP4988774B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0650688 2006-02-28
FR0650688A FR2897977A1 (fr) 2006-02-28 2006-02-28 Procede de limitation de gain d'excitation adaptative dans un decodeur audio
PCT/FR2007/050779 WO2007099244A2 (fr) 2006-02-28 2007-02-13 Procede de limitation de gain d'excitation adaptative dans un decodeur audio

Publications (2)

Publication Number Publication Date
JP2009528563A JP2009528563A (ja) 2009-08-06
JP4988774B2 true JP4988774B2 (ja) 2012-08-01

Family

ID=36407997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008556824A Expired - Fee Related JP4988774B2 (ja) 2006-02-28 2007-02-13 オーディオ・デコーダにおける適応励起利得を制限する方法

Country Status (7)

Country Link
US (1) US8180632B2 (ja)
EP (1) EP1989705B1 (ja)
JP (1) JP4988774B2 (ja)
KR (1) KR101372460B1 (ja)
CN (1) CN101395659B (ja)
FR (1) FR2897977A1 (ja)
WO (1) WO2007099244A2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
PL4152320T3 (pl) * 2009-10-21 2024-02-19 Dolby International Ab Nadpróbkowanie w banku filtrów połączonym z modułem transpozycji
CN101969372B (zh) * 2010-10-29 2012-11-28 上海交通大学 基于帧丢失预测的蜂窝网络上行视频通信QoS优化方法
RU2560788C2 (ru) 2011-02-14 2015-08-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для обработки декодированного аудиосигнала в спектральной области
JP5849106B2 (ja) * 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
JP5800915B2 (ja) 2011-02-14 2015-10-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号のトラックのパルス位置の符号化および復号化
KR102138320B1 (ko) 2011-10-28 2020-08-11 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
US9449607B2 (en) 2012-01-06 2016-09-20 Qualcomm Incorporated Systems and methods for detecting overflow
US9842598B2 (en) 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
EP2922056A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
US5708757A (en) * 1996-04-22 1998-01-13 France Telecom Method of determining parameters of a pitch synthesis filter in a speech coder, and speech coder implementing such method
US5960386A (en) * 1996-05-17 1999-09-28 Janiszewski; Thomas John Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook
US5987406A (en) * 1997-04-07 1999-11-16 Universite De Sherbrooke Instability eradication for analysis-by-synthesis speech codecs
JP4464488B2 (ja) * 1999-06-30 2010-05-19 パナソニック株式会社 音声復号化装置及び符号誤り補償方法、音声復号化方法
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP4733939B2 (ja) * 2004-01-08 2011-07-27 パナソニック株式会社 信号復号化装置及び信号復号化方法
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
CN101138174B (zh) * 2005-03-14 2013-04-24 松下电器产业株式会社 可扩展解码装置和可扩展解码方法
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
WO2007000988A1 (ja) * 2005-06-29 2007-01-04 Matsushita Electric Industrial Co., Ltd. スケーラブル復号装置および消失データ補間方法

Also Published As

Publication number Publication date
EP1989705B1 (fr) 2012-08-15
EP1989705A2 (fr) 2008-11-12
JP2009528563A (ja) 2009-08-06
WO2007099244A2 (fr) 2007-09-07
KR20080102262A (ko) 2008-11-24
FR2897977A1 (fr) 2007-08-31
KR101372460B1 (ko) 2014-03-11
CN101395659B (zh) 2012-11-07
CN101395659A (zh) 2009-03-25
US20090204412A1 (en) 2009-08-13
US8180632B2 (en) 2012-05-15
WO2007099244A3 (fr) 2007-10-25

Similar Documents

Publication Publication Date Title
JP4988774B2 (ja) オーディオ・デコーダにおける適応励起利得を制限する方法
JP5166425B2 (ja) 音声信号中の遷移フレームの符号化のための方法およびデバイス
EP1526507B1 (en) Method for packet loss and/or frame erasure concealment in a voice communication system
US7877253B2 (en) Systems, methods, and apparatus for frame erasure recovery
EP2026330B1 (en) Device and method for lost frame concealment
EP3011555B1 (en) Reconstruction of a speech frame
JP2004508597A (ja) オーディオ信号における伝送エラーの抑止シミュレーション
RU2741518C1 (ru) Кодирование и декодирование аудиосигналов
EP3011554B1 (en) Pitch lag estimation
US8417520B2 (en) Attenuation of overvoicing, in particular for the generation of an excitation at a decoder when data is missing
Kim Adaptive encoding of fixed codebook in CELP coders
WO2020223797A1 (en) Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120426

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees