JP2010517083A - 符号化及び復号化の方法及び装置 - Google Patents

符号化及び復号化の方法及び装置 Download PDF

Info

Publication number
JP2010517083A
JP2010517083A JP2009546636A JP2009546636A JP2010517083A JP 2010517083 A JP2010517083 A JP 2010517083A JP 2009546636 A JP2009546636 A JP 2009546636A JP 2009546636 A JP2009546636 A JP 2009546636A JP 2010517083 A JP2010517083 A JP 2010517083A
Authority
JP
Japan
Prior art keywords
data
frame
encoded
encoding
previous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009546636A
Other languages
English (en)
Inventor
グオ、ウェイ
リウ、ペイリン
リ、ウェイ
シュー、リジン
チャン、チン
シュー、ジァンフェン
サン、シェンフー
ドゥ、チェンチョン
フー、チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2010517083A publication Critical patent/JP2010517083A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

符号化方法は、先のフレームが第1の符号化モードを使用して符号化され、現在のフレームが第2の符号化モードを使用して符号化された後で、現在のフレームと対応する先のフレームとに関連する符号化データの重複部分の決定されたデータ長に基づいて、対応する先のフレームの重複部分についてのデータ長の符号化データを取得することを含み、先のフレームから取得された符号化データと、現在のフレームの符号化データとが第2の符号化モードを使用して符号化して、符号化結果を取得する。対応する復号化方法、および符号化装置、復号化装置も提供される。

Description

本発明は、符号化および復号化技術に関し、特に、符号化および復号化の方法と、装置とに関する。
マルチメディアサービスのますます広範な展開に伴って、マルチメディアサービスのための符号化におけるより高い符号化効率とリアルタイム特性とが、マルチメディアサービスの自己特性により必要とされている。同時に、可聴音(オーディオ、音声)に対応する符号化帯域幅は、さらに拡張される必要がある。
現在、この業界で使用されている低ビットレートと高品質とを有する可聴音符号化技術としては、適応型マルチレート広帯域コーデック(AMR−WB+)技術が挙げられる。基礎となるAMR−WB+符号化器は、以下の2つの符号化モードを主として含む。
(1)音声を符号化するための、代数符号励振線形予測(ACELP)モード
(2)楽音を符号化するための、変換符号化励起(TCX)モード
AMR−WB+技術は、低ビットレートの音声符号化を拡張することからなり、特に、音声のためのACELP符号化と楽音のためのTCX符号化とを組み合わせることによって形成されたハイブリッド符号化手法である。各フレームの符号化の間、2つのモードのセグメント信号対雑音比(SEGSNR)を比較することによって、現在選択されるべき符号化モードが決定される。モード切り換え状況は、先のフレームにACELP符号化モードが使用されており、一方、現在のフレームにはTCX符号化モードが要求される、という場合である。この場合、フレーム間の不連続性をなくすために、符号化の間に、対応する方策が使用されてもよい。先のフレームの状態から取得されたゼロ入力応答は、現在のフレームの最初の部分における信号に非常に類似しているため、AMR−WB+ではモードの移行においてスムーズさを良好に維持するために、ACELP符号化フレームからTCX符号化フレームへの移行の間にゼロ入力応答を除去する実装方式を利用する。
先のフレームにACELP符号化モードが使用されており、かつ、現在のフレームにTCX符号化モードが使用されるというモード切り換え状況の場合、TCX符号化の対応する実装プロセスは、図1に示すとおりである。符号化の間、入力音声(オーディオ)信号は最初に知覚重み付けフィルタを通過し、次に、判定される。次に、知覚重み付けされた信号からウィンドウ処理された(windowed)ゼロ入力応答(ZIR)が減算され、結果として得られた信号は、さらに、適応するようウィンドウ処理され、変換領域符号化によって符号化されて、TCXモードで符号化された対応する符号ストリームが取得される。
図1に対応して、同じモード切り換え状況における、TCX復号化の対応する実装プロセスは、図2に示すとおりである。TCXモードで符号化された入力符号ストリームが変換領域復号化によって復号化され、ウィンドウ処理され、およびオーバーラッピングされた後は、ACELP符号化モードが先のフレームに使用されているため、変換領域復号化されたデータは、ウィンドウ処理されたZIRと加算され、逆知覚重み付けによって音声信号が再生され、それにより、対応するTCX復号化が達成される。
本発明を実現する間に、AMR−WB+に含まれるTCX符号化および復号化プロセスにおいて、フレーム間の不連続性をなくすために使用される符号化および復号化方式の理論的基礎は、ゼロ入力応答と現在のフレームの最初の部分における信号との間の類似性であるということを、発明者らは見出した。しかし、ゼロ入力応答が現在のフレームの最初の部分における信号に類似していない場合、フレーム間の不連続性をなくすという効果は保証されることができない。さらに、フレーム間の不連続性をなくすプロセスの間、合成重み付けフィルタのゼロ入力応答を計算することが要求されるため、そのアルゴリズムは比較的複雑であり、そのため、符号化および復号化の実装はより複雑になる。
本発明の実施形態は、符号化および復号化において、フレーム間の不連続性をなくすためのプロセスをより単純にし、それにより、符号化および復号化の実装をより単純にできるようにするための、符号化および復号化方法と装置とを提供する。
本発明の一実施形態では、符号化方法が提供され、この方法は、
先のフレームが第1の符号化モードで符号化されており、現在のフレームが第2の符号化モードで符号化される場合、現在のフレームの符号化データと先のフレームの符号化データとの間の重複(オーバーラップ)部分のデータ長に従って、先のフレームから重複部分のデータ長に対応する符号化データを取得し、
符号化結果を取得するために、取得した先のフレームからの重複部分のデータ長の符号化データと、現在のフレームの符号化データとを、第2の符号化モードで符号化することを含む。
本発明の一実施形態では、符号化装置が提供され、この装置は、符号化モード切り換え認識ユニットと、先の符号化フレーム重複データ取得ユニットと、第2の符号化ユニットとを具備し、
符号化モード切り換え認識ユニットは、先の符号化フレーム重複データ取得ユニットの動作をトリガするために、先のフレームが第1の符号化モードで符号化されており、現在のフレームが第2の符号化モードで符号化されるということを判定するように構成され、
先の符号化フレーム重複データ取得ユニットは、現在のフレームの符号化データと先のフレームの符号化データとの間の重複部分のデータ長に従って、先のフレームから重複部分のデータ長に対応する符号化データを取得するように構成され、
第2の符号化ユニットは、符号化結果を取得するために、先の符号化フレーム重複データ取得ユニットによって取得された符号化データと、現在のフレームの符号化データとを、第2の符号化モードで符号化するように構成される。
本発明の一実施形態では、復号化方法が提供され、この方法は、
受信した符号ストリームを復号化し、先のフレームが第1の復号化モードで復号化されており、現在のフレームが第2の復号化モードで復号化されていることを判定し、
現在のフレームの復号化データと先のフレームの復号化データとの間の重複部分の、定められたデータ長に従って、先のフレームから重複部分のデータ長に対応する復号化データを取得し、
復号化結果を取得するために、先のフレームから取得した復号化データと、現在のフレームの復号化データとを重畳(オーバーラッピング)することを含む。
本発明の一実施形態では、復号化装置が提供され、この装置は、復号化モード切り換え認識ユニットと、先の復号化フレーム重複データ取得ユニットと、第2の復号化ユニットとを含み、
復号化モード切り換え認識ユニットは、先の復号化フレーム重複データ取得ユニットの動作をトリガするために、復号化された符号ストリーム内の情報に従って、先のフレームが第1の復号化モードで復号化されており、現在のフレームが第2の復号化モードで復号化されていることを判定するように構成され、
先の復号化フレーム重複データ取得ユニットは、現在のフレームの復号化データと先のフレームの復号化データとの間の重複部分のデータ長に従って、先のフレームから重複部分のデータ長に対応する復号化データを取得し、前記復号化データを第2の復号化ユニットに提供するように構成され、
第2の復号化ユニットは、復号化結果を取得するために、先の復号化フレーム重複データ取得ユニットによって取得された復号化データと、現在のフレームの復号化データとを重畳(オーバーラッピング)するように構成される。
上記の本発明の実施形態による技術方式からわかるように、本発明の実施形態は、符号化および復号化プロセスの間のモード切り換えを、フィルタ計算なしで達成し得ることで、符号化および復号化プロセス全体の計算が比較的単純であることを可能にし、ソフトウェアおよびハードウェアによる実装を容易にする。同時に、本発明の実施形態により、ゼロ入力応答が現在のフレームの最初の部分における信号と類似していない場合に、フレーム間の不連続性をなくす効果は有効に保証され得る。
従来技術におけるTCX符号化プロセスの概略ブロック図である。 従来技術におけるTCX復号化プロセスの概略ブロック図である。 従来技術において、ウィンドウ処理されたZIR値を計算するプロセスで適用される、時間領域ウィンドウ関数w(n)の概略図である。 本発明の一実施形態による、TCX符号化プロセスの概略ブロック図である。 本発明の一実施形態による、TCX復号化プロセスの概略ブロック図である。 本発明の一実施形態による、入力音声フレームの構成の概略図である。 本発明の一実施形態による、ウィンドウ処理された形状の概略図である。 本発明の一実施形態による、復号化プロセスにおけるフレーム間重複平滑化の概略図である。 本発明の一実施形態による、符号化および復号化装置の概略図である。
本発明の符号化の一実施形態は、先のフレームが第1の符号化モードで符号化されていることが判定され、さらに、現在のフレームが第2の符号化モードで符号化されることになっていると判定された場合、すなわち、符号化中に符号化モードの切り換えが発生することが判定された場合、先のフレームの重複部分のデータ長の符号化データ、および、次のフレームの重複部分のデータ長の符号化データを、それぞれ、現在のフレームの符号化データと先のフレームの符号化データとの間、および、現在のフレームの符号化データと次のフレームの符号化データとの間の、重複部分の対応するデータ長に従って取得し、符号化結果を取得するために、先のフレームおよび次のフレームのデータから取得した符号化データを、現在のフレームの符号化データとともに、第2の符号化モードに基づいて符号化することを含む。重複部分のデータ長は、符号化フレームのフレーム長から決定され、符号化器内に予め設定される。符号化フレームのフレーム長が長ければ長いほど、対応する重複部分のデータ長はより長くなる。
本実施形態では、現在のフレームの符号化データと先のフレームの符号化データとの間の重複部分のデータ長は第1の長さであり、現在のフレームの符号化データと次のフレームの符号化データとの間の重複部分のデータ長は、第2の長さであると仮定される、ということを指摘しておく。そして好ましくは、第1の長さは第2の長さと同一であってもよいが、本発明の実施形態の特定の適用例では、2つの長さの値は必ずしも同じではない。
本発明の一実施形態では、具体的には、第1の符号化モードは、これに限定されないが線形予測符号化モードであってよく、第2の符号化モードは、これに限定されないが変換領域符号化であってよい。さらに、対応する実施形態は、さまざまな線形予測符号化モードと変換領域符号化モードとの間のモード切り換え(例えば、ACELP符号化からTCX符号化などのモード切り換え)を伴う符号化において適用されてもよい。
したがって、本発明における復号化の一実施形態は、受信した符号ストリームを復号化し、受信した符号ストリーム内の先のフレームが第1の復号化モードで復号化されており、現在のフレームが第2の復号化モードで復号化されていることが判定された場合、受信した符号ストリームを復号化して受信した符号ストリーム内の先のフレームは第1の復号化モードで復号化されており現在のフレームは第2の復号化モードで復号化されていることを判定しときに、先のフレームの復号化データと現在のフレームの復号化データとの間の重複部分の、定められたデータ長に従って、先のフレームから、重複部分のデータ長に対応する復号化データを取得し、復号化結果を取得するために、現在のフレームの復号化データを、先のフレームから取得した復号化データと重畳すること、具体的には、先のフレームの重複部分のデータ長の復号化データと、現在のフレームの復号化データのヘッダとが、ウィンドウ処理および重畳されることを含む。
AMR−WB+符号化を例として説明する。ACELP符号化(すなわち線形予測符号化)フレームからTCX符号化(すなわち変換領域符号化)フレームへの移行に関して、本発明の一実施形態は、ACELP符号化モードとTCX符号化モードとの間の切り換えのための、重複平滑化(オーバーラップスムージング)技術を提案する。この技術では、より良好なフレーム間スムージング効果を得ることが可能であると同時に、ビットレートは不変であることが保証される。さらに、本実施形態の適用のプロセスにおいては、合成知覚重み付けフィルタの複雑な計算は必要とされず、その結果、その計算複雑度は、従来技術におけるAMR−WB+のためのモード間スムージング技術に比較して減少する。
言い換えると、本発明の一実施形態は、2つの符号化モードの間の切り換えによって発生する、符号化への影響を減少させるために、モード間重複平滑化技術を主として使用する。この実施形態は、TCX符号化および復号化の効率を向上させ、TCX符号化および復号化プロセスによる、TCX符号化および復号化の複雑度を減少させることを意図するものである。本発明のモード間重複平滑化技術に基づく、TCX符号化および復号化の技術方式について、以下で説明する。
(I)モード間重複平滑化技術を使用するTCX符号化方式
本方式の具体的な実装は、図4に示すとおりである。TCXモードで符号化された符号ストリームを得るために、TCX符号化のための入力TCXフレーム信号は、知覚重み付けフィルタによって処理され、適応的にウィンドウ処理され、変換領域符号化によって符号化される。先のフレームがACELPモードで符号化されている場合、現在入力されているTCXフレーム信号の、次のフレームと重畳されるデータ長は、半分にされる。同時に、予約空間は、先のフレームの最後のサブフレーム内のいくつかのサンプルポイントの値を使用して補完される。すなわち、フレーム間平滑化を達成するために、現在のフレームの符号化データと、先のフレームと現在のフレームの両方の重複部分の符号化データと、次のフレームと現在のフレームの両方の重複部分の符号化データとが符号化される。
図4に示す実施形態では、ゼロ入力応答の除去はもはや必要とされず、その結果、符号化のプロセスは単純化され得ることは明白である。同時に、現在のフレームと先のフレームとの間、および、現在のフレームと次のフレームとの間で、それぞれ重複データを使用して平滑化が実行されるため、効果的なフレーム間平滑化が達成され得る。
(II)モード間重複平滑化技術を使用するTCX復号化方式
上記のTCX符号化方式に対応して、対応するTCX復号化方式の実装のブロック図は、図5に示すとおりである。復号化プロセスでは、合成音声信号を得るために、TCX復号化器は、TCX符号化器から送信されたTCXモードで符号化された符号ストリームを受信し、受信した符号ストリームに対してTCXモードで変換領域復号化とウィンドウ処理および重畳とを実行し、逆知覚重み付けフィルタを通過させる。先のフレームのためにACELP符号化モードが使用された場合、現在のフレームの復号化結果を得るために、上記の符号化器に対応する復号化器において、現在のフレームと重畳される先のフレームの復号化結果の部分との重畳を実行する処理方策が使用される。上記の符号化プロセスにおける例を参照すると、現在のフレームの重複開始部分と、先のフレームについてのACELP合成信号の最後のサブフレームとが、TCX復号化器でウィンドウ処理および重畳されて、最終的な合成音声信号がもたらされる。
本発明の実施形態の理解のために、本発明の実施形態による符号化および復号化アルゴリズムについて、すなわち、先のフレームにACELP符号化モードが使用され、現在のフレームにTCX符号化モードが使用される、符号化および復号化プロセスについて、添付の図面を参照して詳細に説明する。
(I)符号化プロセス
図4をさらに参照すると、先のフレームはACELPモードで符号化されており、現在のフレームはTCXを使用して符号化されることになっている状況の場合、利用可能なフレーム間重畳技術は、
現在のフレームの音声データを、先のフレームのACELP処理された音声データの最後のいくつかの部分(例えば、16、32、または64ポイントの発話(スピーチ)データ)とともに、現在のフレームのTCX符号化モード(例えば、256、512、または1024の符号化フレーム長を有するTCX符号化モード)に従ってTCX符号化することを含み、音声データの最後のいくつかの部分とは、符号化フレーム長に従って決定された、先のフレームと重畳される部分のデータ長を有する音声データを意味する。
対応するTCX符号化器に対する入力音声フレームの構成は図6に示すとおりであり、ここで、L_frameは現在のフレームのTCX符号化フレーム長を表し、これはTCXの3つの符号化モードに対応してそれぞれ256、512、または1024であってもよく、L1は先のフレームと重畳する音声信号の長さを表し、L2は次のフレームと重畳する音声信号のサンプル数であり、Lは現在のフレームの実際に処理される音声信号長を表す。図6におけるパラメータの値は、以下のとおりであってもよい。
L_frame=256の場合、L1=16、L2=16、L=288、
L_frame=512の場合、L1=32、L2=32、L=576、
L_frame=1024の場合、L1=64、L2=64、L=1152。
したがって、現在のフレームと先のフレームとの間で重畳される長さはTCX符号化モードの違いに伴って変化し、適応性のある効果を有する。一方で、本方法においてTCX処理される発話信号の各フレームの実際のフレーム長は、AMR−WB+における実際のフレーム長と一致しており、これにより符号化の正確さが保証される。
TCXモードで符号化される発話信号は知覚重み付けフィルタによって処理され、次に、図7に示すようにウィンドウ関数によって適応的にウィンドウ処理される。即ち、
w(n)=sin(2πn/(4L2))、n=L2,...,(2L2−1)
上式で、w(n)は、図7においてL2の区画内に示されている曲線を意味する。言い換えると、先のフレームと重畳される部分はウィンドウ処理されず、次のフレームと重畳される部分は、コサインウィンドウ関数w(n)によってウィンドウ処理される。
さらに、先のフレームと重畳される部分が設定されるため、コサインウィンドウ関数のウィンドウ長は、AMR−WB+におけるコサインウィンドウ関数のウィンドウ長の半分だけである。
加えて、次のフレームが引き続きTCXモードで符号化される場合、フレーム間平滑化の効果を保証するためには、次のフレームのフレームヘッダをウィンドウ処理するためのウィンドウ長はL2の長さと一致していなければならず、すなわち、対応する重複部分は現在のフレームと一致する長さを有していなければならない。
(II)復号化プロセス
上記の符号化プロセスに対応して、TCX復号化器は、現在のフレームのTCXモードで符号化された受信符号ストリームから、現在のフレームの合成音声信号を復号化し、先のフレームのACELPで復号化された音声信号を使用して、先頭の重複部分をウィンドウ処理および重畳して、最終的な合成音声出力を生成する。
具体的には、先のACELP符号化フレームから復号化された合成音声信号と、現在のTCX符号化フレームから復号化された音声信号は、図8に示すようにウィンドウ処理され、次に重複部分を重畳することによって最終的な合成音声信号が得られる。
図8を参照すると、重複部分に三角形のウィンドウが使用され、ACELPの最後のL1個のサンプルポイントの合成音声信号はw2(n)として表され、TCXの重複部分の合成音声信号はw1(n)として表される場合、対応する合成音声信号は、次のとおりである。
(1)w1(n)=n/L1、n=0,...L1
(2)w2(n)=(L1−n)/L1、n=0,...L1
上記のプロセスを使用して、対応するTCX復号化結果を得るための対応するTCX復号化を正常に完了することができる。
図9に示す符号化装置と復号化装置とを含む本発明の一実施形態において、符号化および復号化装置の一実施形態がさらに提供される。2つの装置の具体的な実装構成について、以下で説明する。
(I)符号化装置
この装置は、符号化モード切り換え認識ユニットと、先の符号化フレーム重複データ取得ユニットと、次の符号化フレーム重複データ取得ユニットと、第2の符号化ユニットと、を含み、
符号化モード切り換え認識ユニットは、先の符号化フレーム重複データ取得ユニットと次の符号化フレーム重複データ取得ユニットとの動作をトリガするために、先のフレームは第1の符号化モードで符号化されており、現在のフレームは第2の符号化モードで符号化されるということを判定するように構成され、
先の符号化フレーム重複データ取得ユニットは、現在のフレームの符号化データと先のフレームの符号化データとの間の重複部分の定められたデータ長に従って、先のフレームから重複部分のデータ長に対応する符号化データを取得し(例えば、先のフレームから重複部分のデータ長に対応する符号化データを取得し)、前記符号化データを変換領域符号化ユニット(すなわち第2の符号化ユニット)に提供するように構成され、
次の符号化フレーム重複データ取得ユニットは、現在のフレームの符号化データと次のフレームの符号化データとの間の重複部分の定められたデータ長に従って、次のフレームから重複部分のデータ長に対応する符号化データを取得し、前記符号化データを変換領域符号化ユニット(すなわち第2の符号化ユニット)に提供するように構成され(ここで、第2の符号化モードであるTCX符号化モードを例に取ると、本符号化においてTCXフレーム同士の間にも対応する平滑化方式が必要とされているため、このようなユニットは対応するフレーム間平滑化を実行するために本装置の本実施形態において依然として使用されうる)、
第2の符号化ユニットはフレーム間平滑化を達成するために、先の符号化フレーム重複データ取得ユニットと次の符号化フレーム重複データ取得ユニットとによって取得された符号化データを、現在のフレームの符号化データと重畳して、符号化結果を取得するように構成される。
この装置では、先のフレーム重複データ取得ユニットで使用される重複部分のデータ長と、次のフレーム重複データ取得ユニットで使用される重複部分のデータ長とは、それぞれ符号化フレームのフレーム長に従って予め決定される。具体的には、先のフレーム重複データ取得ユニットで使用される重複部分のデータ長は第1の長さであり、次のフレーム重複データ取得ユニットで使用される重複部分のデータ長は第2の長さであると仮定すると、第1の長さは第2の長さと等しいが、必ずしも等しいということには限定されない。
(II)復号化装置
この装置は、復号化モード切り換え認識ユニットと、先の復号化フレーム重複データ取得ユニットと、第2の復号化ユニットとを含み、
復号化モード切り換え認識ユニットは、受信した符号ストリームの先のフレームが第1の復号化モードで復号化されており、現在のフレームが第2の復号化モードで復号化されていることを、受信した符号ストリームを第2の復号化ユニットが復号化する間に判定して、先の復号化フレーム重複データ取得ユニットの動作をトリガするように構成され、
先の復号化フレーム重複データ取得ユニットは、現在のフレームの復号化データと先のフレームの復号化データとの間の重複部分の定められたデータ長に従って、先のフレームから重複部分のデータ長に対応する復号化データを取得し、前記復号化データを第2の復号化ユニットに提供するように構成され、
第2の復号化ユニットは、受信した符号ストリームを復号化し、先の復号化フレーム重複データ取得ユニットによって取得された復号化データを、現在のフレームの復号化データとともに、ウィンドウ処理および重畳して復号化結果を取得するように構成され、
重複部分データ長決定ユニットは、受信した符号ストリーム内の指示情報に従って、重複部分のデータ長を決定し、前記データ長を先の復号化フレーム重複データ取得ユニットに提供するように構成される。例えば、復号化器への符号ストリーム内で符号化モード(すなわち符号化フレームのフレーム長)を転送し、復号化器は符号化モードを受信したら、符号化モードに従って重複部分のデータ長の値を判定する。ただし、復号化器によって使用される重複部分のデータ長の値は、その他の指示情報を使用して指示されてもよい。
上記の装置で、第1の符号化モードは線形予測符号化モードであり、第2の符号化モードは変換領域符号化である。
本発明の実施形態は、2つの異なる符号化モードの間、または2つの異なる復号化モードの間の切り換えによって発生する問題に適用可能である、ということを指摘しておきたい。具体的には、切り換えに起因する符号化および復号化の品質の低下を平滑化するために、第1および第2の符号化モードが重畳されて符号化されることができ、これにより符号化および復号化の品質は向上する。例えば、本実施形態は、ACELP符号化モードからアドバンストオーディオ符号化(AAC)モードへの移行の平滑化に適用されてもよく、あるいは、符号励振線形予測(CELP)モードからAACモードへの移行の平滑化に適用されてもよく、あるいは、ACELP符号化モードから修正離散コサイン変換(MDCT)符号化モードへの移行の平滑化に適用されてもよく、またはその他の移行の平滑化に適用されてもよい。
上述のように、重複の計算は、復号化器において合成音声信号に対して実行されるため、良好なフレーム間平滑化効果が達成されることができる。さらに、本発明の実施形態ではフィルタ計算は必要とされず、それにより符号化および復号化プロセス全体の計算複雑度は低く保たれ、ソフトウェアおよびハードウェアによる実装は容易になる。
上記は、本発明の例示的実施形態にすぎず、したがって本発明の範囲はこのような実施形態に限定されない。本発明によって開示された技術的範囲内の、当業者によって容易に考案されることが可能なあらゆる変形形態および均等物が、本発明の範囲に含まれることが意図されている。したがって、本発明の範囲は、特許請求の範囲で規定された範囲によって解釈されるべきである。

Claims (16)

  1. 先のフレームが第1の符号化モードで符号化され、かつ、現在のフレームが第2の符号化モードで符号化される場合、前記現在のフレームの符号化データと前記先のフレームの符号化データとの間の重複部分のデータ長に従って、前記先のフレームから前記重複部分のデータ長に対応する符号化データを取得し、
    前記先のフレームからの前記重複部分のデータ長に対応する前記取得した符号化データと、前記現在のフレームの符号化データとを、前記第2の符号化モードで符号化して、符号化結果を取得すること
    を含む、符号化方法。
  2. 前記第1の符号化モードは線形予測符号化モードであり、前記第2の符号化モードは変換領域符号化であることを特徴とする、請求項1に記載の方法。
  3. 前記重複部分の前記データ長は、対応する符号化フレームのフレーム長に従って決定されることを特徴とする、請求項1に記載の方法。
  4. 前記現在のフレームの符号化データと次のフレームの符号化データとの間の重複部分の決定されたデータ長に従って、前記次のフレームから前記重複部分の決定されたデータ長に対応する符号化データを取得し、
    前記次のフレームから取得した符号化データと、前記先のフレームから取得した符号化データと、前記現在のフレームの符号化データとに対して、変換領域符号化を実行すること
    をさらに含むことを特徴とする、請求項1〜3のいずれか一項に記載の方法。
  5. 前記現在のフレームの符号化データと前記先のフレームの符号化データとの間の前記重複部分のデータ長は、前記現在のフレームの符号化データと前記次のフレームの符号化データとの間の前記重複部分のデータ長と同一であることを特徴とする、請求項4に記載の方法。
  6. 符号化モード切り換え認識ユニットと、先の符号化フレーム重複データ取得ユニットと、第2の符号化ユニットとを備える符号化装置であって、
    前記符号化モード切り換え認識ユニットは、先のフレームが第1の符号化モードで符号化されており、かつ、現在のフレームが第2の符号化モードで符号化されるということを判定して、前記先の符号化フレームの重複データ取得ユニットの動作をトリガするように構成され、
    前記先の符号化フレーム重複データ取得ユニットは、前記現在のフレームの符号化データと前記先のフレームの符号化データとの間の重複部分のデータ長に従って、前記先のフレームから前記重複部分のデータ長に対応する符号化データを取得するように構成され、
    前記第2の符号化ユニットは、前記先の符号化フレーム重複データ取得ユニットによって取得された前記符号化データと、前記現在のフレームの符号化データとを、前記第2の符号化モードで符号化して、符号化結果を取得するように構成された、符号化装置。
  7. 前記第1の符号化モードは線形予測符号化モードであり、前記第2の符号化モードは変換領域符号化であることを特徴とする、請求項6に記載の装置。
  8. 前記先の符号化フレーム重複データ取得ユニットで使用される前記重複部分のデータ長と、次の符号化フレーム重複データ取得ユニットで使用される重複部分のデータ長とは、対応する符号化フレームのフレーム長に従って予め決定されることを特徴とする、請求項6に記載の装置。
  9. 前記現在のフレームの符号化データと次のフレームの符号化データとの間の重複部分の決定されたデータ長に従って、前記次のフレームから前記重複部分のデータ長に対応する符号化データを取得し、前記符号化データを変換領域符号化ユニットに提供して符号化するように構成された、次の符号化フレーム重複データ取得ユニットをさらに備えることを特徴とする、
    請求項6〜8のいずれか一項に記載の装置。
  10. 前記先の符号化フレーム重複データ取得ユニットで使用される前記重複部分のデータ長は、前記次の符号化フレームの重複データ取得ユニットで使用される前記重複部分のデータ長と同一であることを特徴とする、請求項9に記載の装置。
  11. 受信した符号ストリームを復号化し、先のフレームが第1の復号化モードで復号化されており、かつ、現在のフレームが第2の復号化モードで復号化されていることを判定し、
    前記現在のフレームの復号化データと前記先のフレームの復号化データとの間の重複部分の決定されたデータ長に従って、前記先のフレームから前記重複部分のデータ長に対応する復号化データを取得し、
    前記先のフレームから取得した前記復号化データと、前記現在のフレームの復号化データとを重畳して復号化結果を取得すること
    を含む、復号化方法。
  12. 第1の符号化モードは線形予測符号化モードであり、第2の符号化モードは変換領域符号化であることを特徴とする、請求項11に記載の方法。
  13. 前記重複部分のデータ長は、前記受信した符号ストリーム内の指示情報に従って決定されることを特徴とする、請求項11に記載の方法。
  14. 復号化モード切り換え認識ユニットと、先の復号化フレーム重複データ取得ユニットと、第2の復号化ユニットとを備える復号化装置であって、
    前記復号化モード切り換え認識ユニットは、復号化された符号ストリーム内の情報に従って、先のフレームが第1の復号化モードで復号化されており、かつ、現在のフレームが第2の復号化モードで復号化されていることを判定して、前記先の復号化フレーム重複データ取得ユニットの動作をトリガするように構成され、
    前記先の復号化フレームの重複データ取得ユニットは、前記現在のフレームの復号化データと前記先のフレームの復号化データとの間の重複部分のデータ長に従って、前記先のフレームから前記重複部分のデータ長に対応する復号化データを取得し、前記復号化データを前記第2の復号化ユニットに提供するように構成され、
    前記第2の復号化ユニットは、前記先の復号化フレームの重複データ取得ユニットによって取得された前記復号化データと、前記現在のフレームの復号化データとを重畳して復号化結果を取得するように構成された、復号化装置。
  15. 第1の符号化モードは線形予測符号化モードであり、第2の符号化モードは変換領域符号化であることを特徴とする、請求項14に記載の装置。
  16. 受信した符号ストリーム内の指示情報に従って、前記重複部分のデータ長を決定するように構成された、重複部分データ長決定ユニットをさらに備えることを特徴とする、請求項14または15に記載の装置。
JP2009546636A 2007-01-23 2008-01-23 符号化及び復号化の方法及び装置 Pending JP2010517083A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2007100060040A CN101231850B (zh) 2007-01-23 2007-01-23 编解码方法及装置
PCT/CN2008/070170 WO2008089705A1 (fr) 2007-01-23 2008-01-23 Procédé et appareil de codage et de décodage

Publications (1)

Publication Number Publication Date
JP2010517083A true JP2010517083A (ja) 2010-05-20

Family

ID=39644144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009546636A Pending JP2010517083A (ja) 2007-01-23 2008-01-23 符号化及び復号化の方法及び装置

Country Status (5)

Country Link
US (1) US20090299757A1 (ja)
EP (1) EP2120233A4 (ja)
JP (1) JP2010517083A (ja)
CN (1) CN101231850B (ja)
WO (1) WO2008089705A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013507648A (ja) * 2009-10-08 2013-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム
US11922961B2 (en) 2014-07-28 2024-03-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
FR2936898A1 (fr) * 2008-10-08 2010-04-09 France Telecom Codage a echantillonnage critique avec codeur predictif
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US9384748B2 (en) 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
EP3352168B1 (en) 2009-06-23 2020-09-16 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
TWI430263B (zh) * 2009-10-20 2014-03-11 Fraunhofer Ges Forschung 音訊信號編碼器、音訊信號解碼器、使用混疊抵消來將音訊信號編碼或解碼之方法
CN102667923B (zh) 2009-10-20 2014-11-05 弗兰霍菲尔运输应用研究公司 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法
CA2786944C (en) 2010-01-12 2016-03-15 Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries
EP2524374B1 (en) 2010-01-13 2018-10-31 Voiceage Corporation Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering
CN102934161B (zh) * 2010-06-14 2015-08-26 松下电器产业株式会社 音频混合编码装置以及音频混合解码装置
IL295473B2 (en) 2010-07-02 2023-10-01 Dolby Int Ab After–selective bass filter
EP4398246A2 (en) * 2010-07-08 2024-07-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder using forward aliasing cancellation
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CN101968961B (zh) * 2010-09-19 2012-03-21 北京航空航天大学 一种基于faac lc模式的多路音频实时编码软件设计方法
CN101968960B (zh) * 2010-09-19 2012-07-25 北京航空航天大学 一种基于faac及faad2的多路音频实时编解码硬件设计平台
CA2929800C (en) * 2010-12-29 2017-12-19 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high-frequency bandwidth extension
EP2680599A1 (en) * 2012-06-29 2014-01-01 Thomson Licensing Provision of a personalized media content
CN109448745B (zh) * 2013-01-07 2021-09-07 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
PL2951821T3 (pl) 2013-01-29 2017-08-31 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Koncepcja kompensacji przełączania trybu kodowania
EP2980796A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
CN106816153B (zh) 2015-12-01 2019-03-15 腾讯科技(深圳)有限公司 一种数据处理方法及其终端
CN115346537A (zh) * 2021-05-14 2022-11-15 华为技术有限公司 一种音频编码、解码方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001265394A (ja) * 2000-03-17 2001-09-28 Matsushita Electric Ind Co Ltd 窓処理装置および窓処理方法
WO2005078706A1 (en) * 2004-02-18 2005-08-25 Voiceage Corporation Methods and devices for low-frequency emphasis during audio compression based on acelp/tcx
WO2005114654A1 (en) * 2004-05-19 2005-12-01 Nokia Corporation Supporting a switch between audio coder modes

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6359929B1 (en) * 1997-07-04 2002-03-19 Matsushita Electric Industrial Co., Ltd. Image predictive decoding method, image predictive decoding apparatus, image predictive coding apparatus, and data storage medium
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US6556624B1 (en) * 1999-07-27 2003-04-29 At&T Corp. Method and apparatus for accomplishing multiple description coding for video
EP1215663A1 (en) * 2000-12-15 2002-06-19 BRITISH TELECOMMUNICATIONS public limited company Encoding audio signals
CN1251509C (zh) * 2001-04-10 2006-04-12 皇家菲利浦电子有限公司 帧序列的编码方法
AU2002353343A1 (en) * 2002-01-18 2003-07-30 Koninklijke Philips Electronics N.V. Audio coding
KR101001170B1 (ko) * 2002-07-16 2010-12-15 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
JP2006330256A (ja) * 2005-05-25 2006-12-07 Kddi Corp オーディオ信号に対する電子透かし埋込み方法および検出方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001265394A (ja) * 2000-03-17 2001-09-28 Matsushita Electric Ind Co Ltd 窓処理装置および窓処理方法
WO2005078706A1 (en) * 2004-02-18 2005-08-25 Voiceage Corporation Methods and devices for low-frequency emphasis during audio compression based on acelp/tcx
WO2005114654A1 (en) * 2004-05-19 2005-12-01 Nokia Corporation Supporting a switch between audio coder modes

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013507648A (ja) * 2009-10-08 2013-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム
US11922961B2 (en) 2014-07-28 2024-03-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition

Also Published As

Publication number Publication date
WO2008089705A1 (fr) 2008-07-31
US20090299757A1 (en) 2009-12-03
CN101231850B (zh) 2012-02-29
EP2120233A1 (en) 2009-11-18
EP2120233A4 (en) 2010-01-20
CN101231850A (zh) 2008-07-30

Similar Documents

Publication Publication Date Title
JP2010517083A (ja) 符号化及び復号化の方法及び装置
JP6067601B2 (ja) 音声/音楽統合信号の符号化/復号化装置
KR101325335B1 (ko) 오디오 샘플 인코드 및 디코드용 오디오 인코더 및 디코더
TWI479478B (zh) 用以使用對齊的預看部分將音訊信號解碼的裝置與方法
US9620129B2 (en) Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
WO2009033375A1 (fr) Procédé et appareil de dissimulation d'erreur de trames pour signal de bande haute
CN109155133B (zh) 音频帧丢失隐藏的错误隐藏单元、音频解码器及相关方法
KR20170037661A (ko) Fd/lpd 전이 컨텍스트에서 프레임 손실 관리
AU2013200679B2 (en) Audio encoder and decoder for encoding and decoding audio samples
EP3002751A1 (en) Audio encoder and decoder for encoding and decoding audio samples

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120313

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120327

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121023