JP5618826B2 - Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法 - Google Patents

Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法 Download PDF

Info

Publication number
JP5618826B2
JP5618826B2 JP2010511454A JP2010511454A JP5618826B2 JP 5618826 B2 JP5618826 B2 JP 5618826B2 JP 2010511454 A JP2010511454 A JP 2010511454A JP 2010511454 A JP2010511454 A JP 2010511454A JP 5618826 B2 JP5618826 B2 JP 5618826B2
Authority
JP
Japan
Prior art keywords
signal
compensation signal
erasure compensation
erasure
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010511454A
Other languages
English (en)
Other versions
JP2010530078A (ja
Inventor
ウラジミール・マレノフスキー
レドワン・サラミ
Original Assignee
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴォイスエイジ・コーポレーション filed Critical ヴォイスエイジ・コーポレーション
Publication of JP2010530078A publication Critical patent/JP2010530078A/ja
Application granted granted Critical
Publication of JP5618826B2 publication Critical patent/JP5618826B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Storage Device Security (AREA)

Description

本発明は、損失フレームを補償し復元する装置および方法に関する。排他的にではないが、より詳細には、本発明は、ITU.T勧告G.711と相互運用可能な多層埋め込みコーデックでの損失フレームを補償し復元する装置および方法に関し、そのために、
−ピッチおよびエネルギー追跡、信号分類、ならびにエネルギー減衰に基づくパケット損失補償アルゴリズムと、
−デコーダにおいて、一連の損失フレーム後の音声信号の遷移を平滑化するために適用される信号再同期方法と
を使用し得る。
この方法は、補償セグメントの終わりにおける非同期補償信号から通常通り復号化された信号への切り替わりに起因する可聴アーチファクトを除去する。
主観的品質とビットレートとのトレードオフが良好で効率的な広帯域のデジタルスピーチ/オーディオ符号化技法に対する需要が、テレビ会議、マルチメディア、無線用途、およびIP電話等の様々な用途で増えつつある。最近まで、スピーチ符号化システムは、電話帯域においてのみ、すなわち200〜3400Hzの範囲内のみの信号しか処理できなかった。今日、50〜7000Hzの範囲内の信号を処理可能な広帯域システムに対する需要が増しつつある。これらシステムは、音声の了解度および自然度を増大させるため、狭帯域システムよりもはるかに高い品質を提供する。50〜7000Hzの帯域幅は、会話中の対面での発話の品質を届けるのに十分なことが分かっている。音楽等のオーディオ信号の場合、この範囲は受け入れることができるオーディオ品質を与えるが、それでもまだ20〜20000Hzの範囲で動作するCDのオーディオ品質よりは低い。
64kbpsのITU−T勧告G.711および8kbpsのITU−T勧告G.729は、パケット交換電話用途で広く使用されている2つのコーデックに関するスピーチ符号化規格である。したがって、狭帯域電話から広帯域電話への移行に当たり、これら2つの規格に対して下位相互運用可能な広帯域コーデックの開発に関心がある。このために、ITU−Tは、2006年に、8kbpsのITU−T勧告G.729と相互運用可能なコアを有する埋め込みマルチレートコーダである勧告G.729.1を承認した。同様に、2007年3月に、64kbpsのITU−T勧告G.711(μ法則およびA法則の両方)と相互運用可能な狭帯域コアに基づく埋め込み広帯域コーデックに対する新たな活動が始動した。この新たなG.711ベースの規格は、ITU−T勧告G.711広帯域拡張(G.711WBE)として知られている。
G.711WBEでは、入力信号が16kHzでサンプリングされ、次に、QMF(直交ミラーフィルタ)解析を使用して2つの帯域:0〜4000Hzの低帯域および4000〜7000Hzの高帯域に分割される。例えば、入力信号の帯域幅が50〜8000Hzの場合、低帯域および高帯域のそれぞれは50〜4000Hzおよび4000〜8000Hzであることができる。G.711WBEでは、入力広帯域信号は3つのレイヤで符号化される。第1のレイヤ(レイヤ1:コア)は、64kbpsのG.711準拠の形式で、低帯域の信号を符号化する。次に、第2のレイヤ(レイヤ2:狭帯域向上レイヤ)が、低帯域においてサンプル毎に2ビット(16キロビット/秒)を追加して、この帯域での信号品質を向上させる。最後に、第3のレイヤ(レイヤ3:広帯域拡張レイヤ)が、サンプル毎にさらに2ビットを使用して(16キロビット/秒)高帯域を符号化して、広帯域合成を生成する。ビットストリームのこの構造は埋め込まれる。すなわち、常にレイヤ1があり、その後にレイヤ2またはレイヤ3のいずれかまたは両方(レイヤ2およびレイヤ3)が続く。このようにして、復号化されるレイヤの数が多くなるほど、品質が徐々に向上する合成信号を得ることができる。例えば、図1は、G.711WBEエンコーダの一例の構造を示す概略ブロック図であり、図2は、G.711WBEデコーダの一例の構造を示す概略ブロック図であり、図3は、G.711WBEコーデックでの多層を有するビットストリームの埋め込み構造の一例の構成を示す概略図である。
ITU−T勧告G.711は、圧伸パルス符号変調(PCM)としても知られ、8ビットを使用して各入力サンプルを量子化する。まず、入力音声信号の振幅が、対数則を使用して圧縮され、7ビット(に符号のための1ビットを追加したもの)を使用して均一に量子化され、次に、伸展させて線形領域に戻す。ITU−T勧告G.711は、2つの圧縮法則:μ法則およびA法則を定義している。ITU−T勧告G.711は、電話帯域幅、すなわち200〜3400Hzの範囲内の狭帯域入力音声信号用に特に設計されたものでもある。したがって、範囲50〜4000Hz範囲内の信号に適用された場合、量子化雑音に悩まされ、量子化雑音は特に、高周波数(図4参照)で聞こえる。したがって、埋め込みG.711WBEの高帯域(4000〜7000Hz)が適宜符号化された場合であっても、合成広帯域信号の品質は、0〜4000Hz帯域を符号化するレガシーG.711の制約によりやはり不良であり得る。これは、何故レイヤ2がG.711WBE規格に追加されたかの理由である。レイヤ2は、レイヤ1での残留雑音のレベルを低減するため、狭帯域合成音声信号の全体品質を向上させる。他方、不必要に高いビットレートおよび過度の複雑性が生じる恐れがある。レイヤ1のみまたはレイヤ1+レイヤ3のみを符号化する場合に聞こえる雑音の問題も解決されない。品質は、雑音整形(noise shaping)の使用によりかなり向上させることができる。この概念は、聞き手を悩ます程度がかなり低減するように、G.711残留雑音をいくつかの知覚的基準およびマスキング効果に従って整形することである。この技法はエンコーダにおいて適用され、ITU−T勧告G.711との相互運用性に影響しない。換言すれば、レイヤ1に対応する符号化ビットストリームの部分は、レガシーG.711デコーダにより復号化することができる(適切な雑音整形により向上した品質で)。
G.711WBEコーデックの主な用途は、ボイスオーバパケットネットワークであるため、フレーム消失の場合のコーデックのロバスト性を増大させることがかなり重要になっている。ボイスオーバパケットネットワーク用途では、スピーチ信号はパケット化され、通常、各パケットが5〜20msの音声信号に対応する。パケット交換通信では、パケットの数が非常に大きくなった場合、パケット破棄がルータで発生することがあり、またはパケットが長い遅延の後に受信器に到達することがあり、遅延が受信器エンドにあるジッタバッファの長さよりも長い場合には損失したと宣言されるべきである。これらシステムでは、コーデックは通常、3〜5%のフレーム消失率である。さらに、広帯域スピーチ符号化の使用は、レガシー狭帯域スピーチ信号を使用する従来のPSTN(公衆交換電話網)との競合を可能にするために、これらシステムへの重要な資産である。したがって、パケット損失率の場合に良好な品質を維持することが非常に重要である。
ITU−T勧告G.711は通常、予測に基づく低ビットレートコーダと比較してパケット損失の影響を受けにくい。しかし、高パケット損失率では、特に、広帯域サービスから予想される高品質により、適切なパケット損失補償を導入する必要がある。
この目標を達成するために、本発明によれば、符号化音声信号のフレーム消失補償後に再同期し復元する方法であって、現在のフレームにおいて、フレーム消失後に正確に受信された信号を復号化すること、現在のフレームにおいてフレーム消失補償を拡張すること、前のフレームからの消失補償信号を使用して、拡張消失補償信号を生成すること、拡張消失補償信号を現在のフレーム内の復号化信号と相関付け、相関付けに応答して、拡張消失補償信号を復号化信号と同期させること、および現在のフレームにおいて、同期された拡張消失補償信号から復号化信号への滑らかな遷移を生み出すことを含む、方法が提供される。
本発明は、符号化音声信号のフレーム消失補償後に再同期し復元する装置であって、現在のフレームにおいてフレーム消失後に正しく受信した信号を復号化するデコーダと、前のフレームからの消失補償信号を使用して、現在のフレームにおいて拡張消失補償信号を生成する補償信号拡張器と、拡張消失補償信号と現在のフレーム内の復号化信号との相関器および相関に応答して拡張消失補償信号と復号化信号との同期器と、復号化信号と共に同期された拡張消失補償信号が供給され、現在のフレームにおいて、同期された拡張消失補償信号から復号化信号への滑らかな遷移を生み出すように構成された復元ユニットとを備える、装置にも関する。
この装置および方法は、補償信号と復号化信号との間の遷移が滑らかで連続することを保証する。したがって、これら装置および方法は、補償セグメントの終わりにおいて、非同期補償信号から通常通り復号化された信号への切り替わりに起因する可聴アーチファクトを除去する。
本発明の上記および他の目的、利点、および特徴は、添付図面を参照して単なる例として与えられる本発明の例示的な実施形態の以下の制限ではない説明を読めば、より明確になるであろう。
G.711WBEエンコーダの構造を示す概略ブロック図である。 G.711WBEデコーダの構造を示す概略ブロック図である。 G.711WBEコーデックでの多層を使用した埋め込みビットストリームの構成を示す概略図である。 信号再同期に関わる異なる要素および演算のブロック図である。 フレーム消失補償処理段階を示すグラフである。 一連のフレーム消失後の復元段階の一環としての重複加算演算(OLA)を示すグラフである。 信号再同期を示すグラフである。
例示的な実施形態の詳細な説明
本発明の非制限的で例示的な実施形態は、多層埋め込みG.711相互運用可能なコーデックでの消失フレームの補償に関する。このコーデックには、伝送中に失われたパケットのためのフレーム消失補償(FEC)メカニズムが備えられている。FECはデコーダにおいて実施され、フレーム単位で動作し、1フレーム先読みを利用する。
以前の狭帯域信号(レイヤ1、またはレイヤ1およびレイヤ2)が、開ループ(OL)ピッチ解析を行うために使用される。これは、隣接する値を利用することによりピッチ輪郭の滑らかさを保証するピッチ追跡アルゴリズムによって行われる。さらに、2つの同時ピッチ発展輪郭(pitch evolution contour)が比較され、より平滑な輪郭をもたらすトラックが選択される。
FECの効率を向上させるために、信号分類アルゴリズムが使用されて、フレームが無声、有声、または遷移(transition)として分類される。サブクラスが使用されて、分類がさらに改良される。例示的な一実施形態では、各フレームの終わりで、エネルギーおよびピッチ発展が、フレーム消失補償(FEC)の開始時に使用するために推定される。重複加算(OLA)メカニズムが、FECの開始時および終了時に使用される。安定有声信号の場合、FECアルゴリズムは、フレーム消失前に推定されたピッチおよびエネルギー発展を尊重して、音声信号の既知の最後のピッチ周期を繰り返す。無声フレームの場合、過去の合成信号を使用してLP解析を実行し、LPフィルタを計算する。乱数生成器が使用されて、LPフィルタを使用して合成される補償フレームが作成される。エネルギーは、遷移を平滑化するために調整される。長い消失の場合、漸進的なエネルギー減衰が適用される。減衰の傾きは信号のクラスおよびピッチ周期に依存する。安定信号の場合、減衰は穏やかであるが、遷移の場合には急である。
FEC後に最初の正確に受信したフレーム内で、音声信号は、拡張補償信号と正確に受信した信号との相関解析を実行することにより再同期される。この再同期は、有声信号に対してのみ実行される。フレーム消失補償が完了した後、OLAメカニズムおよびエネルギー調整を適用することを含む復元段階が開始される。FEC段階を図5に示す。
FECアルゴリズムは、パケット損失の場合に高品質の合成音声信号を維持するように設計することができる。非制限的で例示的な実施形態では、「パケット」は、合成音声信号の1フレームを作成するために使用されるビットストリームから導出される情報を指す。
FECアルゴリズムは、デコーダにおいて1フレーム先読みを利用する。この先読みの使用は、スピーチの合成フレームを生成するために、デコーダが次のフレームの情報を「見る」(または使用する)ことを意味する。したがって、損失フレームが検出された場合、補償メカニズムは消失後の最初のフレームから効率的に開始する。したがって、一連の消失後に最初の正確なパケットを受信すると、FECは、この最初に正確に受信したフレームを使用して、最後に補償されたフレームについてのいくらかの情報を取り出す。このようにして、遷移は、補償された信号の冒頭および末尾で平滑化される。
開ループピッチ解析
デコーダ内の新しいあらゆる合成フレームを使用して、ピッチ解析が実行され、FECに使用される開ループ(OL)ピッチが推定される。OLピッチ解析は、狭帯域信号に対して実行される。非制限的な例として、このOLピッチ解析は、300サンプル窓を使用する。OLピッチアルゴリズムは、ピッチラグの4つの間隔、すなわち[13,20]、[21,39]、[40,76]、および[77,144]内で行われる相関解析に基づく(8000Hzサンプリングレートで)。各間隔内の合算長は、
セクション[13,20]の場合、Lsec=50
セクション[21,39]の場合、Lsec=50
セクション[40,76]の場合、Lsec=78
セクション[77,144]の場合、Lsec=144 (1)
により与えられる。
自動相関関数が、以下の関係式
を使用して各ピッチラグ値に対して計算され、式中、s(n)は、過去の合成バッファを含むスピーチの現在の合成フレームであり、dはピッチラグ(遅延)であり、Nはフレーム長である。例えば、N=40、すなわち8000Hzのサンプリング周波数では5msである。
次に、自動相関関数は、前のフレームで決定されたOLピッチラグの近傍において三角窓により重み付けされる。これにより、過去のピッチ値の重要性が強化され、ピッチコヒーレンスが保たれる。過去のピッチ値を使用しての自動相関補強の詳細は、参照[2]に見出すことができ、この参照文献は引用により本明細書に組み込まれる。重み付き自動相関関数をC(.)と記す。
自動相関関数を三角窓で重み付けた後、4つの間隔のそれぞれ内の最大が、対応するピッチラグと共に決定される。この最大は、以下の関係式
を使用して正規化される。
これより、4つの間隔それぞれの内の正規化された重み付き自動相関関数の最大をX、X、X、Xと記し、対応するピッチラグをd、d、d、dと記す。残りのすべての処理はこれら選択された値のみを使用して実行され、それにより、全体の複雑性が低減する。
ピッチ倍数(pitch multiple)の選択を回避するために、倍数のうちの1つが、高ピッチラグ間隔内の相関最大に対応するピッチラグの近傍にある場合、低ピッチラグ間隔内の相関最大がさらに強調される。これは、ピッチラグ倍数を使用しての相互相関補強と呼ばれ、このトピックについてのより詳細は参照[2]に与えられる。したがって、相関最大の変更セットはXC0、XC1、XC2、XC3になる。最高のピッチラグ間隔は強調されないため、XC3=Xであることに留意されたい。最後に、4つの間隔のそれぞれ内の最大XCiが比較され、最高の最大に対応するピッチラグが、新たなOLピッチ値になる。以下の開示では、XC0、XC1、XC2、およびXC3の間の最高の最大をCmaxと記す。
信号の分類
適切なFEC戦略を選ぶために、デコーダにおいて、信号の分類が過去の合成信号に対して実行される。この目的は、単一のフレームを以下の5つのクラスのうちの1つに分類することである。
クラス0:UNVOICED
クラス1:UNVOICED TRANSITION
クラス2:VOICED TRANSITION
クラス3:VOICED
クラス4:ONSET
信号分類アルゴリズムは、以下のパラメータ:ピッチコヒーレンス、ゼロ交差率、最大正規化相関、スペクトル傾斜、およびエネルギー差の重み付き和として計算されるメリット関数に基づく。
最大正規化相関Cmaxについては前のセクションですでに説明した。
ゼロ交差率zcについては、この概念は当業者に周知であると考えられるため、本明細書において説明しない。
スペクトル傾斜eは以下の関係式
により与えられ、式中、合算は、最後の合成フレームで開始され、現在の合成フレームの終わりで終了する。スペクトル傾斜パラメータは、スピーチ信号の周波数分布についての情報を含む。
ピッチコヒーレンスpcは以下の関係式
により与えられ、式中、
は現在のフレーム内のOLピッチ周期であり、
、i=1,2,3は過去のフレーム内のOLピッチ周期である。
フレームの終わりのピッチ同期相対エネルギーは、関係式
により与えられ、式中、
は、合成信号の終わりで計算されるピッチ同期エネルギーであり、
は、この計算されたピッチ同期エネルギーの長期値であり、T’は現在のピッチおよび最後のOLピッチの端数の丸められた平均である。T’がNよりも小さい場合、T’は2で乗算される。長期エネルギーは、現在のフレームが、関係式
を使用してVOICEDと分類された場合のみ更新される。
各分類パラメータは、無声信号の典型的な値が0であり、有声信号の典型的な値が1であるようにスケーリングされる。線形関数がこれらの間で使用される。特定のパラメータpをスケーリングしたものpは、関係式
=k.p+c (9)
を使用して得られ、式中、定数kおよびcは、表1に従って変化する。ピッチコヒーレンスパラメータをスケーリングしたものは、<0;1>により制限される。
メリット関数は、
として定義され、式中、添え字sは、パラメータをスケーリングしたものであることを示す。
分類は、メリット関数fおよび以下のルール
If(last_clasがONSET、VOICED、またはVOICED TRANSITIONであった)
If(f<0.39)clas=UNVOICED
If(0.39≦f<0.63)clas=VOICED TRANSITION
If(0.63≦f)clas=VOICED
Else
If(f≦0.45)clas=UNVOICED
If(0.45<f≦0.56)clas=UNVOICED TRANSITION
If(0.56<f)clas=ONSET
End
を使用して実行される。
clasパラメータは現在のフレームの分類であり、last_clasは最後のフレームの分類である。
事前補償
パケット損失により現在のフレームを合成できない場合、FECアルゴリズムは、代わりに補償信号を生成し、最後に正確に合成されたフレームと補償信号の冒頭との間の平滑な遷移を保証する。これは、冒頭の前に補償信号を外挿し、重なった部分に重複加算(OLA)演算を行うことにより達成される。しかし、OLAは、最後のフレームが有声のような場合、すなわち、(clas>UNVOICED TRANSITION)の場合のみ適用される。
まず、補償信号の1つのフレームが、最後の正確なOLピッチに基づいて生成される。この補償は、最初のピッチおよびエネルギー発展を尊重し、フレームの末尾に向けていくらかのエネルギー減衰を適用する。以下の説明では、s(n)は最後に正確に合成されたフレームを示す。補償信号は、以下の関係式
(n)=s(n+N−TOL), n=0,1,...,N−1 (11)
により与えられる。
OLA演算が実行されるセグメントの長さは、OLピッチ周期の1/4である。すなわち、LOLA=TOL/4である。したがって、補償信号の追加のLOLAサンプルが、OLA演算のためにs(n)の前に生成される。これは、以下の関係式
(n)=s(n+N−TOL), n=−LOLA,...,−1,0,1,...,N−1 (12)
により反映される。
OLA演算のために、以下の線形関数が定義される。
次に、最後の正確な合成フレームの終了セグメントが、以下
s(n+N−LOLA)=s(n+N−LOLA)fOLA(n)++s(n−LOLA)[1−fOLA(n)] n=0,1,...,LOLA−1 (14)
のように変更され、外挿された補償フレームの先頭セグメントが、
sfOLA(n−LOLA)=sf(n−LOLA)(1−fOLA(n)), n=0,1,...,LOLA (15)
として変更される。
ピッチ発展
有声のような信号の場合、すなわち、clas>UNVOICED TRANSITIONの場合、合成信号の最後のピッチ周期は繰り返され、最後の正確な合成フレームの末尾において推定されるピッチ発展を尊重するように変更される。ピッチ発展の推定は、OLピッチ追跡アルゴリズムの一環である。ピッチが有意なように発展するか否かを検証するために使用されるピッチコヒーレンスフラグを計算することで開始される。ピッチコヒーレンスフラグcoh_flag(i)は、以下の2つの条件が満たされた場合に設定される。
上記テストは、i=0,−1,−2の場合、すなわち最後の3つのOLピッチ周期に対して実行される。
ピッチ発展係数delta_pitは、最後のピッチコヒーレントセグメント内の平均ピッチ差として計算される。ピッチコヒーレントセグメントは、i=0で開始される正のコヒーレンスフラグにより区切られる。したがって、coh_flag(0)およびcoh_flag(−1)が両方とも1に等しく、coh_flag(−2)が0に等しい場合、ピッチコヒーレントセグメントはi=0およびi=−1のものである。そして、これは、
と書くことができ、式中、ipcはピッチコヒーレントセグメント内の最後のインデックスである。ピッチ発展係数は、間隔<−3;3>内に制限される。
ピッチ発展係数が正の場合、補償フレームは、内部にいくつかのサンプルを挿入することによって伸張される。ピッチ発展係数が負の場合、補償フレームは、いくつかのサンプルを除去することにより短縮化される。サンプル挿入/除去アルゴリズムは、変更から生じる境界の影響がなくなるように、補償信号が1フレームよりも長いものと仮定する。これは、補償信号の外挿により保証される。
新たなあらゆる補償フレームで、ピッチ発展係数がまず、正の場合に1だけ低減され、負の場合に1だけ増大される。これにより、3つの連続したフレーム消失後、ピッチ発展が終了することが保証される。ピッチ発展係数の絶対値は、挿入または除去されるサンプルの数も定義する。すなわち、
=|delta_pit| (18)
である。
補償フレームはN+1個の領域に分割され、あらゆる領域において、最低エネルギーを有するポイントが探される。低エネルギーポイントは、
LE=arg min(sf(n)+sf(n+1)) (19)
として定義される。
すべての領域の低エネルギーポイントは
として付番される。但し、i=0,1,...,Nである。低エネルギーポイントは、サンプルを挿入または除去すべき場所を指す。
サンプルは、
により指された位置において挿入または除去され、補償フレームの残りの部分はそれに従ってシフトされる。サンプルが挿入される場合、その値は近傍の平均値として計算される。サンプルが除去される場合、新しいサンプルは、補償フレームの末尾を超えた外挿部分から除去されて、ギャップが埋められる。これにより、補償信号が常に長さNを有することが保証される。
無声フレームの補償
前のセクションにおいて述べたように、有声のような信号の場合、すなわち、clas>UNVOICED TRANSITIONの場合、合成信号の最後のピッチ周期は繰り返される。無声のような信号の場合、ピッチ発展は重要ではなく、尊重されない。
無声のような信号の場合、FECは残差領域(residual domain)において実行される。まず、線形予測(LP)解析が過去の合成信号の最後の120個のサンプルに対して行われ、LPフィルタ係数のセットα,i=0,1,...,8が検索される。LP解析は、自動相関原理およびレビンソン−ダービンアルゴリズムを使用して行われる。LP解析の詳細は、この技法が当業者に周知であると考えられるため、本明細書において与えられない。
補償無声フレームのサンプルは疑似乱数生成器により生成され、新しい各サンプルは、
x(n)=31821.x(n−1)+13849, n=1,2,...,N (20)
により与えられる。
乱数生成器はg(0)=21845(他の値を使用することも可能である)を使用して初期化される。次に、ランダム信号が、前に見つけたLP係数、すなわち、
を使用して合成される。
合成信号のエネルギーは、前のフレームのエネルギーに調整される。すなわち、
sf(n)=gSYN(n), n=0,1,...,N−1 (22)
であり、式中、gは、過去のフレームエネルギーとランダム合成フレームのエネルギーとの比の平方根として定義される。すなわち、
である。
まとめると、式(11)は、ピッチ発展に関してさらに変更される有声のような信号の補償フレームを特定し、式(22)は、無声のような信号の補償フレームを特定する。
エネルギー減衰
両方の種類の信号、すなわち、有声および無声について、補償信号のエネルギーは、消失の数が増えるにつれて徐々に減衰する。減衰アルゴリズムには、有声オフセットの検出器が備えられ、有声オフセット中に、減衰アルゴリズムは低減するエネルギー傾向を尊重しようとする。これは、発展が不適切であったいくつかのオンセットを検出することも可能であり、異なる減衰戦略を適用する。減衰アルゴリズムのパラメータは、補償信号の高い主観的品質を提供するように手調整されている。
第1の消失フレームが検出され、補償全体を通して使用される場合、一連の減衰係数が計算される。各減衰係数は、補償信号に適用される各フレームの末尾における利得関数の値を特定する。一連の減衰係数は、以下の関係式
att=[1,g(0),g(1),...,g(NATT)=0] (24)
により与えられ、NATT=20は、一連の長さである。一連は1で開始され、0で終わる。これは、補償フレームの冒頭のエネルギーが減衰されず、末尾のエネルギーが0に減衰することを示す。表2に、様々な信号クラスの減衰係数を示す。
有声のような信号(clas>VOICED TRANSITION)の場合、ピッチ同期エネルギーは、以下の関係式
により各合成フレームの末尾において計算される。
エネルギー傾向は、最小二乗(LS)手法を使用して推定される。以下の一次線形関数が、最後の5つのエネルギー値の発展を近似するために使用され、
(i)=k.t(i)+q (26)
式中、t=[4N,3N,2N,N,0]は時間インデックスのベクトルであり、i=0,1,...,4およびf(i)は近似されたエネルギー値である。係数kおよびqは、
により与えられ、式中、EFEC(.)への負のインデックスは、過去のエネルギー値を指す。平均二乗誤差が、関係式
を使用して計算され、エネルギー傾向は
trend=k.N (29)
により与えられる。
減衰アルゴリズムはこれら2つのパラメータを使用して、有声オフセットを検出する。このアルゴリズムはまず、最後の5つの正確に合成されたフレームが有声のようであると分類されたか否か、すなわち、条件clas>UNVOICED TRANSITIONを満たすか否かを検証する。さらに、減衰アルゴリズムのために、有声オフセットは以下の条件を満たさなければならない。
(Etrend<−0.1)AND(err<0.6) (30)
有声オフセットの一連の減衰係数は、
として定義される。
これは、有声オフセットの消失前に推定されたエネルギー傾向が、補償中も保たれることを保証する。
減衰アルゴリズムは、誤って、または不適切に発展したオンセットに対して異なる減衰戦略を適用する。このようなフレームを検出するために、以下の条件を満たさなければならない。
式中、インデックスは、最後に正確に合成されたフレームに対して0から始まるフレーム番号を示す。このようにして検出されたオンセットの一連の減衰係数は、
att=[1,w(0),w(1),...,w(NATT)=0] (32)
により与えられ、式中、w(.)はw(0)=1により初期化された線形関数であり、
として各フレームの終わりで更新される。
したがって、w(.)は、OLピッチ周期に依存する。ピッチ周期が短い場合、より素早く低減し、周期が長い場合、ゆっくりと低減する。
最後に、あらゆる補償フレームのサンプルは、2つの連続した減衰係数の補間である線形関数、すなわち、
sfATT(n)=sf(n)fATT(n) n=0,1,...,N−1 (34)
で乗算され、式中、fATT(.)は、各フレームの終わりにおいて、
により更新される。
式(35)での更新は、i=1(gATT(0)=1)で開始され、iは、各フレームの終わりで1だけ増分される。式(35)は、利得がフレーム全体を通して徐々に低減し、ゼロに達するまで、または消失が終わるまで、フレームからフレームに滑らかに続くことを保証する。
最後のピッチ周期の繰り返し(有声信号の場合)またはランダム信号の再合成(無声信号の場合)の後に、ピッチ発展および/またはエネルギー減衰による変更を含むFECの概念は、フレーム消失の全持続期間中、繰り返される。
信号再同期
有声フレームの補償中、式(11)でのように、過去の信号が、推定されたピッチラグを使用して繰り返される。一連の消失後の最初の良好なフレームが受信されると、ピッチの不連続性が現れ、気に障るアーチファクトが生じ得る。非制限的な実施形態は、この問題を回避するための信号再同期方法を含む。
一連の消失後の最初の良好なフレームが受信されると、信号再同期が、有声信号の場合に実行される。再同期は、最後の補償フレームおよび最初に正確に復号化されたフレームにおいて適用されて、信号遷移を平滑化し、アーチファクトの原因を回避する。開示される信号再同期の原理を図4に示す。
デコーダ401において、フレーム消失後に最初に正確に受信したフレームのビットストリーム400が復号化され、合成されて、復号化信号404を生成する。
補償信号拡張器402において、補償信号406が、前のフレーム内の補償信号405の論理的な拡張である補償アルゴリズムにより、現在のフレームにおいて生成される。より具体的には、前の損失フレーム内の補償が現在のフレームにおいて続けられる。
相互相関器403において、相互相関解析が、現在のフレーム内の2つの信号404と406との間:デコーダ401からの正確に受信したフレームの復号化信号404と拡張ユニット402により現在のフレームに拡張された補償信号406との間で実行される。遅延407が、相互相関器403の相互相関関数に基づいて抽出される。
前のフレームおよび現在のフレームの連結に対応する補償信号412が、前のフレームの補償信号405および現在のフレームの拡張補償信号406の両方を入力として受信する2フレームバッファ412により供給される。決定された遅延407に基づいて、同期器408は、補償信号412(前のフレームおよび現在のフレームの連結に対応する)をリサンプリングするリサンプラを備える。例えば、リサンプラは、遅延407が正であるか、それとも負であるかに応じて、連結された補償信号412を圧縮または伸展する圧縮器または伸展器を備える。結果として生成されるリサンプリング信号416は、2フレームバッファ410に供給される。この概念は、連結された補償信号412の位相を正確に受信されたフレームからの復号化信号404の位相とを位置合わせすることである。
同期器408での補償信号のリサンプリング(圧縮または伸展)後、前のフレームに対応するリサンプリングされた補償信号の部分409は、2フレームバッファ410を通して抽出され、出力される。現在のフレームに対応するリサンプリングされた補償信号の部分411は、2フレームバッファ410を通して抽出され、出力され、次に、復元ユニット414において、OLAアルゴリズムを使用して正確に受信したフレームの復号化信号404とクロスフェーディングされて、現在のフレーム内に合成信号415を生成する。OLAアルゴリズムについては以下の説明において詳細に説明する。
一連のパケット損失後の最初の復号化フレームにおいて、補償アルゴリズム(拡張器402)は、もう1つの補償信号406を生成する(復号化フレームが失われた場合と同じように)。次に、相互相関解析(相互相関器403)が、範囲<−5;5>内で補償信号と復号化信号との間で実行される。復号化信号をs(n)と記し、補償信号をs(n)と記す。但し、n=−N,...,0,1,...,N−1であり、Nはフレームサイズであり、この非制限的で例示的な実施形態では40に等しい。負のインデックスが過去の補償信号のサンプル、すなわち、復号化前に正確に受信したフレームを示すことに留意されたい。相関関数は、
として定義され、式中、LRSX=5が再同期間隔である。相関関数の最大が見つけられ、この最大に対応する遅延が、以下
のように検索される。
最大相関を正規化するために、以下の2つのエネルギーが、以下の関係式
を使用して計算され、
は、それらの積の平方根で除算される。
再同期は、外挿されたフレームのエネルギーと正確に受信したフレームのエネルギーとの間に大きな不一致がある場合には適用されない。したがって、エネルギー比が、以下の関係式
を使用して計算される。
再同期に続くための条件は、
[(last_clas==VOICED)AND(CRSX>0.7)AND(rRSX<2.0)]
として定義される。但し、last_clasは、補償周期の前の信号の分類である。この条件が満たされる場合、補償信号は、先に見つけられたサンプルの数に応じて伸展または短縮(圧縮)される。これが補償信号s(n)全体に対して、すなわち、
n=−N,...,0,1,...,N−1
に対して行われることに留意されたい。
信号の圧縮または伸展は、異なる方法を使用して実行することができる。例えば、「リサンプリング」関数を補間の原理に基づいて使用することができる。単純な線形補間を使用して、複雑性を低減することができる。しかし、効率は、二次補間またはスプライン補間等の異なる原理を利用することにより向上させることができる。元の信号の隣接する信号間の距離が「1」と考えられる場合、リサンプリングされた信号の隣接するサンプル間の距離は、以下
のように定義することができる。
RSXは範囲<−5;5>内でのみ変更可能であるため、Δは範囲<0.8718;1.1282>内でのみ変更可能である。
リサンプリングされた信号の値は、Δの倍数、すなわち
p(k)=kΔ(k=0,...,2N−1) (42)
により与えられる位置における元の信号の値から計算される。
上記説明において述べたように、リサンプリングは補償信号全体s(n)、n=−N,...,N−1に対して実行される。リサンプリングされた補償信号sRx(n)は、以下の関係式
により与えられ、式中、
は、p(k)の最も近いより大きな整数値であり、
はp(k)の最も近いより低い整数値である。p(k)が整数の場合、
であり、かつ
であることに留意する。リサンプリング演算の長さは、以下
のように制限される。
K<Nの場合、欠落サンプルsRx(n)、n=K,...,N−1は0に設定される。再同期後のクロスフェーディング(OLA)が、非制限的な例として、三角窓を使用し、通常、最後のサンプルは、0に近い係数で乗算されるため、これは問題ではない。再同期の原理を図7に示し、図7では、2サンプルによる拡張が実行される。
過去のフレームおよび現在のフレームsRx(n)、n=_−N,...,N−1に対する再同期された補償信号を見つけた後、過去の補償フレームは、以下の関係式
Rx(n), n=_−N,...,−1 (45)
により与えられ、現在のフレームは、復号化信号s(n)、n=0,...,N−1および再同期された補償信号sRx(n)をクロスフェーディング(重複加算)することにより与えられる。補償された過去のフレームおよびクロスフェーディングされた現在のフレームを出力する前に、さらなる処理を再同期された補償信号に適用できることに留意されたい。
クロスフェーディング(重複加算(OLA))は、現在のフレームの冒頭の特定の数のサンプルLに対して適用することがきる。クロスフェーディングされた信号は、以下の関係式
により与えられる。
非制限的な例として、三角窓がクロスフェーディング演算に使用され、窓は、以下の関係式
により与えられる。
この非制限的な例では、フレームが短い(N=40)ため、クロスフェーディング演算はフレーム全体に対して実行される。すなわち、L=Nである。
補償後の復元
補償段階が終了すると、復元段階が開始される。復元を行う理由は、補償の末尾と通常通りの合成の冒頭との間の平滑な遷移を保証することである。復元段階の長さは、信号クラスおよび補償中に使用されたピッチ周期、式(39)において計算された正規化相関、ならびに式(40)において計算されたエネルギー比に依存する。
以下の疑似コードが、復元の長さの決定に使用される。
復元は、本質的に、長さLRCVの拡張補償信号と通常通り合成された信号との間で実行されるOLA演算(図4の復元ユニット414)である。この拡張は、再同期が行われた場合、再同期された補償信号に対して実行される。OLA演算については上記の事前補償セクションにおいてすでに説明した。LRCV=Nの場合のOLAの原理および関連する重み付け関数(三角窓)のグラフ図を図6に示す。
FECおよび復元演算の順序および位置を図5に示す。この例では、復元段階は、本質的に、OLA演算であり、再同期は、一連のフレーム消失後に最初に正確に受信したフレーム内の合成信号を使用して、最後の補償フレームに対して行われる。
拡張レイヤでのFEC
これまで、説明したFECアルゴリズムは、過去の合成狭帯域信号(レイヤ1またはレイヤ1およびレイヤ2)に対して実行されてきた。フレームが失われた場合、狭帯域拡張部分(レイヤ2)は復号化もされず、補償もされなかった。これは、補償段階中および復元段階中(一連のフレーム消失後に最初に正確に受信した2つのフレーム)、レイヤ2情報が使用されないことを意味する。FEC後に最初の正確に受信した2つのフレームは、十分なデータが、レイヤ2合成の一体部分である、行われるLP解析に利用できない(120個のサンプルが必要)ため、通常の演算から省かれる。
広帯域拡張レイヤ(レイヤ3)の補償は、QMF合成広帯域信号のHF部を構成するため、必要である。HF部の補償は重要ではなく、本発明の部分ではない。
本発明について本発明の非制限的で例示的な実施形態により上記説明において説明したが、この実施形態は、本発明の主旨、性質、および範囲から逸脱せずに添付の特許請求の範囲内で、随意、変更することが可能である。
参照
[1] Pulse code modulation (PCM) of voice frequencies, ITU-T Recommendation G.711, November 1988, (http://www.itu.int)
[2] Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Options 62 and 63 for Spread Spectrum Systems, 3GPP2 Technical Specification C.S0052-A v1.0, April 2005 (http://www.3gpp2.org)
401 デコーダ
402 補償信号拡張器
403 相互相関器
404 復号化信号
405 前のフレーム内の補償信号
406 現在のフレーム内の補償信号
406 補償信号
407 遅延
408 同期器
409 前のフレームに対応するリサンプリングされた補償信号の部分
410、413 2フレームバッファ
411 現在のフレームに対応するリサンプリングされた補償信号の部分
412 前のフレームおよび現在のフレームの連結に対応する補償信号
414 復元ユニット
415 合成信号
416 リサンプリング信号

Claims (35)

  1. 符号化音声信号のフレーム消失補償後に再同期し復元する方法であって、
    フレーム消失の後、現在のフレームにおいて正確に受信された信号を復号化すること、
    前のフレームからの消失補償信号の続きを使用して、前記現在のフレーム内のフレーム消失補償を拡張して、拡張消失補償信号を生成すること、
    前記拡張消失補償信号を前記現在のフレーム内の復号化信号と相関付け、前記相関付けに応答して、前記拡張消失補償信号を前記復号化信号に同期させること、および
    前記現在のフレームにおいて、前記同期された拡張消失補償信号から前記復号化信号への平滑な遷移を生み出すこと
    を含み、
    前記拡張消失補償信号を前記復号化信号と相関付けることは、前記相関付けに対応する遅延を計算することを含み、
    前記拡張消失補償信号を前記復号化信号と同期させることは、前記計算された遅延に応
    答して、前記拡張消失補償信号をリサンプリングすることを含み、
    前記計算された遅延に応答して、前記拡張消失補償信号をリサンプリングすることは、前記計算された遅延が正であるか、それとも負であるかに応じて前記拡張消失補償
    信号を圧縮または伸展することを含む再同期し復元する方法。
  2. 前記相関付けに応答して、前記前のフレームからの前記消失補償信号を前記復号化信号と同期させることをさらに含む、請求項1に記載の再同期し復元する方法。
  3. 前記拡張消失補償信号を前記復号化信号と相関付けることは、前記拡張消失補償信号と前記復号化信号との相互相関を最大化することを含む、請求項1に記載の再同期し復元する方法。
  4. 前記前のフレームからの前記消失補償信号を前記現在のフレーム内の前記拡張消失補償信号に連結して、連結された消失補償信号を生成することをさらに含む、請求項1に記載の再同期し復元する方法。
  5. 2つのフレームに対応する周期を前記連結された消失補償信号で覆うことを含む、請求項に記載の再同期し復元する方法。
  6. 記方法は、前のフレームからの前記消失補償信号を前記現在のフレーム内の前記拡張消失補償信号に連結して、連結された消失補償信号を生成することを含み、前記拡張消失補償信号を前記現在のフレーム内の前記復号化信号と同期させること、および前記前のフレームからの前記消失補償信号を前記現在のフレーム内の前記復号化信号と同期させることは、前記計算された遅延に応答して、前記連結された消失補償信号をリサンプリングすることを含む、請求項2に記載の再同期し復元する方法。
  7. 前記計算された遅延に応答して、前記連結された消失補償信号をリサンプリングすることは、前記計算された遅延が正であるか、それとも負であるかに応じて前記連結された消失補償信号を圧縮または伸展することを含む、請求項に記載の再同期し復元する方法。
  8. 前記連結された消失補償信号を圧縮することは、前記計算された遅延の値に対応するいくつかのサンプルを除去することを含む、請求項に記載の再同期し復元する方法。
  9. 前記連結された消失補償信号を伸展することは、前記計算された遅延の値に対応するいくつかのサンプルを挿入することを含む、請求項に記載の再同期し復元する方法。
  10. 前記相関付けに応答して前記拡張消失補償信号を前記復号化信号と同期させることは、前記拡張消失補償信号の位相を前記復号化信号と位置合わせすることを含む、請求項1に記載の再同期し復元する方法。
  11. 前記前のフレームから前記消失補償信号を抽出して、前記前のフレーム内の合成信号を生成することを含む、請求項1に記載の再同期し復元する方法。
  12. 平滑な遷移を生成することは、前記拡張消失補償信号および前記現在のフレーム内の前記復号化信号に対してクロスフェーディング演算を実行することを含む、請求項1に記載の再同期し復元する方法。
  13. 平滑な遷移を生成することは、前記連結された消失補償信号および前記現在のフレーム内の前記復号化信号の重複部分に対して重複加算演算を実行することを含む、請求項に記載の再同期し復元する方法。
  14. 前記重複加算演算を実行することは、前記現在のフレーム内に合成信号を生成することを含む、請求項13に記載の再同期し復元する方法。
  15. 前記重複加算演算を実行することは、三角窓を使用することを含む、請求項13に記載の再同期し復元する方法。
  16. 前記重複加算演算を実行することは、前記重複加算演算の長さを計算することを含む、請求項13に記載の再同期し復元する方法。
  17. 前記符号化音声信号の信号分類を決定することをさらに含む、請求項1に記載の再同期し復元する方法。
  18. 前記符号化音声信号の前記信号分類を決定することは、前記符号化音声信号を無声信号、無声遷移信号、有声遷移信号、有声信号、およびオンセット信号からなる群に分類することを含む、請求項17に記載の再同期し復元する方法。
  19. 前記信号分類を決定することは、前記符号化音声信号に関連するピッチコヒーレンス、ゼロ交差率、相関、スペクトル傾斜、およびエネルギー差からなる群から選択されたパラメータを計算して、前記符号化音声信号の前記信号分類を決定することを含む、請求項17に記載の再同期し復元する方法。
  20. 有声信号の場合のみ、前記拡張消失補償信号の前記復号化信号との同期を実行することを含む、請求項1に記載の再同期し復元する方法。
  21. 前記エネルギー差を計算することは、前記拡張消失補償信号と前記現在のフレーム内の前記復号化信号とのエネルギーの比を計算することを含む、請求項19に記載の再同期し復元する方法。
  22. 符号化音声信号のフレーム消失補償後に再同期し復元する装置であって、
    フレーム消失の後、現在のフレームにおいて正確に受信された信号を復号化するデコーダと、
    前のフレームからの消失補償信号の続きを使用して、前記現在のフレームにおいて拡張消失補償信号を生成する補償信号拡張器と、
    前記拡張消失補償信号と前記現在のフレーム内の復号化信号との相関器および相関に応答する、前記復号化信号との前記拡張消失補償信号の同期器と、
    期された拡張消失補償信号が供給され、前記同期された拡張消失補償信号から前記復号化信号への平滑な遷移を前記現在のフレーム内で生成するように構成された復元ユニットと
    を備え
    前記相関器は、前記相関に対応する遅延を計算し、
    前記同期器は、前記計算された遅延に応答する、前記拡張消失補償信号のリサンプラを備え、
    前記リサンプラは、前記計算された遅延が正であるか、それとも負であるかに応じる、前記拡張消失補償信号の圧縮器または伸展器を備える再同期し復元する装置。
  23. 前記同期器は、前記相関に応答して、前記前のフレームからの前記消失補償信号も符号化信号に同期させる、請求項22に記載の再同期し復元する装置。
  24. 前記相関器は、前記拡張消失補償信号と前記復号化信号との相互相関を最大化することを含む、請求項22に記載の再同期し復元する装置。
  25. 前記前のフレームからの前記消失補償信号を前記現在のフレーム内の前記拡張消失補償信号と連結して、連結された消失補償信号を生成する手段を備える、請求項22に記載の再同期し復元する装置。
  26. 前記相関器は、前記相関に対応する遅延を計算し、前記装置は、前記前のフレームからの前記消失補償信号を前記現在のフレーム内の前記拡張消失補償信号と連結して、連結された消失補償信号を生成する手段を備え、前記同期器は、前記計算された遅延に応答して、前記連結された消失補償信号のリサンプラを備える、請求項23に記載の再同期し復元する装置。
  27. 前記計算された遅延に応答する前記連結された消失補償信号のリサンプラは、前記計算された遅延が正であるか、それとも負であるかに応じて、前記連結された消失補償信号の圧縮器または伸展器を備える、請求項26に記載の再同期し復元する装置。
  28. 前記連結された消失補償信号の圧縮器は、前記計算された遅延の値に対応するいくつかのサンプルを除去する、請求項27に記載の再同期し復元する装置。
  29. 前記連結された消失補償信号の伸展器は、前記計算された遅延の値に対応するいくつかのサンプルを挿入する、請求項27に記載の再同期し復元する装置。
  30. 前記相関に応答する前記拡張消失補償信号と前記復号化信号との同期器は、前記拡張消失補償信号の位相を前記復号化信号と位置合わせする、請求項22に記載の再同期し復元する装置。
  31. 前記前のフレームから前記消失補償信号を抽出して、前記前のフレームにおいて合成信号を生成する手段を備える、請求項22に記載の再同期し復元する装置。
  32. 前記復元ユニットは、前記拡張消失補償信号および前記現在のフレーム内の前記復号化信号に対して重複加算演算を実行する、請求項22に記載の再同期し復元する装置。
  33. 前記復元ユニットは、前記連結された消失補償信号および前記現在のフレーム内の前記復号化信号の重複部分に対して重複加算演算を実行して、前記現在のフレームにおいて合成信号を生成する、請求項25に記載の再同期し復元する装置。
  34. 前記復元ユニットは、三角窓を使用して前記重複加算演算を実行する、請求項32に記載の再同期し復元する装置。
  35. 前記符号化音声信号の信号分類を決定することをさらに含む、請求項22に記載の再同期し復元する装置。
JP2010511454A 2007-06-14 2007-12-24 Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法 Expired - Fee Related JP5618826B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US92912407P 2007-06-14 2007-06-14
US60/929,124 2007-06-14
US96005707P 2007-09-13 2007-09-13
US60/960,057 2007-09-13
PCT/CA2007/002357 WO2008151408A1 (en) 2007-06-14 2007-12-24 Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711

Publications (2)

Publication Number Publication Date
JP2010530078A JP2010530078A (ja) 2010-09-02
JP5618826B2 true JP5618826B2 (ja) 2014-11-05

Family

ID=40129163

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010511454A Expired - Fee Related JP5618826B2 (ja) 2007-06-14 2007-12-24 Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
JP2009518697A Expired - Fee Related JP5161212B2 (ja) 2007-06-14 2007-12-28 Itu−tg.711規格と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形デバイスおよび方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009518697A Expired - Fee Related JP5161212B2 (ja) 2007-06-14 2007-12-28 Itu−tg.711規格と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形デバイスおよび方法

Country Status (5)

Country Link
US (2) US20110022924A1 (ja)
EP (1) EP2160733A4 (ja)
JP (2) JP5618826B2 (ja)
CN (1) CN101765879B (ja)
WO (2) WO2008151408A1 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE490454T1 (de) * 2005-07-22 2010-12-15 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
US8335684B2 (en) * 2006-07-12 2012-12-18 Broadcom Corporation Interchangeable noise feedback coding and code excited linear prediction encoders
US20090259672A1 (en) * 2008-04-15 2009-10-15 Qualcomm Incorporated Synchronizing timing mismatch by data deletion
BRPI0910511B1 (pt) * 2008-07-11 2021-06-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para decodificar e codificar um sinal de áudio
JP5551694B2 (ja) * 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 多くのスペクトルエンベロープを計算するための装置および方法
US20100017196A1 (en) * 2008-07-18 2010-01-21 Qualcomm Incorporated Method, system, and apparatus for compression or decompression of digital signals
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
WO2010137300A1 (ja) * 2009-05-26 2010-12-02 パナソニック株式会社 復号装置及び復号方法
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
FR2961980A1 (fr) * 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
FR2969360A1 (fr) * 2010-12-16 2012-06-22 France Telecom Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique
US9026434B2 (en) 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
ES2565394T3 (es) * 2011-12-15 2016-04-04 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato, método y programa informático para evitar artefactos de recorte
US9325544B2 (en) * 2012-10-31 2016-04-26 Csr Technology Inc. Packet-loss concealment for a degraded frame using replacement data from a non-degraded frame
AU2014211520B2 (en) 2013-01-29 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-frequency emphasis for LPC-based coding in frequency domain
RU2625945C2 (ru) 2013-01-29 2017-07-19 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерирования сигнала с улучшенным спектром, используя операцию ограничения энергии
FR3001593A1 (fr) * 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
PL3011555T3 (pl) 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
MX371425B (es) * 2013-06-21 2020-01-29 Fraunhofer Ges Forschung Aparato y metodo para la ocultacion mejorada del libro de codigo adaptativo en la ocultacion similar a acelp mediante la utilizacion de una estimacion mejorada del retardo de tono.
CN107818789B (zh) 2013-07-16 2020-11-17 华为技术有限公司 解码方法和解码装置
PL3012835T3 (pl) * 2013-07-18 2019-02-28 Nippon Telegraph And Telephone Corporation Urządzenie, sposób i program do analizy predykcji liniowej, oraz nośnik zapisu
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
KR101805630B1 (ko) * 2013-09-27 2017-12-07 삼성전자주식회사 멀티 디코딩 처리 방법 및 이를 수행하기 위한 멀티 디코더
EP2980793A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and methods for encoding and decoding
US9953660B2 (en) * 2014-08-19 2018-04-24 Nuance Communications, Inc. System and method for reducing tandeming effects in a communication system
US9706317B2 (en) * 2014-10-24 2017-07-11 Starkey Laboratories, Inc. Packet loss concealment techniques for phone-to-hearing-aid streaming
EP3230980B1 (en) * 2014-12-09 2018-11-28 Dolby International AB Mdct-domain error concealment
US9712348B1 (en) * 2016-01-15 2017-07-18 Avago Technologies General Ip (Singapore) Pte. Ltd. System, device, and method for shaping transmit noise
WO2017129665A1 (en) * 2016-01-29 2017-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal
WO2017129270A1 (en) * 2016-01-29 2017-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal
MX2018010756A (es) 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio, y método relacionado y programa de computadora que usa características de una representación decodificada de una trama de audio decodificada apropiadamente.
CA3016837C (en) * 2016-03-07 2021-09-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Hybrid concealment method: combination of frequency and time domain packet loss concealment in audio codecs
KR102192998B1 (ko) * 2016-03-07 2020-12-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 상이한 주파수 대역에 대한 상이한 감쇠 인자에 따라 은닉된 오디오 프레임을 페이드 아웃하는 에러 은닉 유닛, 오디오 디코더, 및 관련 방법과 컴퓨터 프로그램
CN107356521B (zh) * 2017-07-12 2020-01-07 湖北工业大学 一种针对多电极阵列腐蚀传感器微小电流的检测装置及方法
EP3704863B1 (en) * 2017-11-02 2022-01-26 Bose Corporation Low latency audio distribution
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3553777B1 (en) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals
WO2020169754A1 (en) * 2019-02-21 2020-08-27 Telefonaktiebolaget Lm Ericsson (Publ) Methods for phase ecu f0 interpolation split and related controller

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4704730A (en) * 1984-03-12 1987-11-03 Allophonix, Inc. Multi-state speech encoder and decoder
US5550544C1 (en) * 1994-02-23 2002-02-12 Matsushita Electric Ind Co Ltd Signal converter noise shaper ad converter and da converter
EP0763818B1 (en) * 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US20070055498A1 (en) * 2000-11-15 2007-03-08 Kapilow David A Method and apparatus for performing packet loss or frame erasure concealment
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
US8473286B2 (en) * 2004-02-26 2013-06-25 Broadcom Corporation Noise feedback coding system and method for providing generalized noise shaping within a simple filter structure
JP4574320B2 (ja) * 2004-10-20 2010-11-04 日本電信電話株式会社 音声符号化方法、広帯域音声符号化方法、音声符号化装置、広帯域音声符号化装置、音声符号化プログラム、広帯域音声符号化プログラム及びこれらのプログラムを記録した記録媒体
CN1783701A (zh) * 2004-12-02 2006-06-07 中国科学院半导体研究所 一种高阶σδ噪声整形直接数字频率合成器
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
JP4758687B2 (ja) * 2005-06-17 2011-08-31 日本電信電話株式会社 音声パケット送信方法、音声パケット受信方法、それらの方法を用いた装置、プログラム、および記録媒体
US20070174047A1 (en) * 2005-10-18 2007-07-26 Anderson Kyle D Method and apparatus for resynchronizing packetized audio streams
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
JP4693185B2 (ja) * 2007-06-12 2011-06-01 日本電信電話株式会社 符号化装置、プログラム、および記録媒体
JP5014493B2 (ja) * 2011-01-18 2012-08-29 日本電信電話株式会社 符号化方法、符号化装置、およびプログラム

Also Published As

Publication number Publication date
CN101765879B (zh) 2013-10-30
WO2008151408A1 (en) 2008-12-18
US20110022924A1 (en) 2011-01-27
JP2010530078A (ja) 2010-09-02
JP2009541815A (ja) 2009-11-26
WO2008151408A8 (en) 2009-03-05
US20110173004A1 (en) 2011-07-14
EP2160733A4 (en) 2011-12-21
JP5161212B2 (ja) 2013-03-13
WO2008151410A1 (en) 2008-12-18
CN101765879A (zh) 2010-06-30
EP2160733A1 (en) 2010-03-10

Similar Documents

Publication Publication Date Title
JP5618826B2 (ja) Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
EP2277172B1 (fr) Dissimulation d'erreur de transmission dans un signal audionumerique dans une structure de decodage hierarchique
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
TWI389099B (zh) 用於在語音合成儀中藉由修改剩餘量之時間規整訊框之方法及處理器可讀媒體
JP4063670B2 (ja) 広帯域信号伝送システム
KR101940740B1 (ko) 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
EP1086451B1 (en) Method for performing frame erasure concealment
KR101957905B1 (ko) 시간 도메인 여기 신호를 기초로 하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
KR101455915B1 (ko) 일반 오디오 및 음성 프레임을 포함하는 오디오 신호용 디코더
KR20030009515A (ko) 결정된 신호 타입들로 한정된 기술들을 사용하는 신호들의시간 스케일 변경
KR101398189B1 (ko) 음성수신장치 및 음성수신방법
KR20080080235A (ko) 음성 코덱에서 효율적인 프레임 소거 은폐를 위한 방법 및장치
JP2010507121A (ja) ピッチ周期訂正を用いたデジタルオーディオ信号の損失ブロックの合成
US7302385B2 (en) Speech restoration system and method for concealing packet losses
MX2008008477A (es) Metodo y dispositivo para ocultamiento eficiente de borrado de cuadros en codec de voz
MXPA00012580A (en) Method and apparatus for performing packet loss or frame erasure concealment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130619

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130718

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140513

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140916

R150 Certificate of patent or registration of utility model

Ref document number: 5618826

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees