JP4969454B2 - スケーラブル符号化装置およびスケーラブル符号化方法 - Google Patents

スケーラブル符号化装置およびスケーラブル符号化方法 Download PDF

Info

Publication number
JP4969454B2
JP4969454B2 JP2007547981A JP2007547981A JP4969454B2 JP 4969454 B2 JP4969454 B2 JP 4969454B2 JP 2007547981 A JP2007547981 A JP 2007547981A JP 2007547981 A JP2007547981 A JP 2007547981A JP 4969454 B2 JP4969454 B2 JP 4969454B2
Authority
JP
Japan
Prior art keywords
encoded data
encoding
higher layer
frame
scalable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007547981A
Other languages
English (en)
Other versions
JPWO2007063910A1 (ja
Inventor
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2007547981A priority Critical patent/JP4969454B2/ja
Publication of JPWO2007063910A1 publication Critical patent/JPWO2007063910A1/ja
Application granted granted Critical
Publication of JP4969454B2 publication Critical patent/JP4969454B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、スケーラブル符号化装置およびスケーラブル符号化方法に関する。
IPネットワーク上での音声データ通信において、ネットワーク上のトラフィック制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号化が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データからでも音声データの復号が可能な構成をいう。
スケーラブル符号化においては、送信側で入力音声信号に対しての階層的な符号化により、コアレイヤを含む低位レイヤ(lower layer)から拡張レイヤを含む高位レイヤ(higher layer)まで複数に階層化された符号化データを伝送する。受信側では低位レイヤから任意の階層までの符号化データを用いて復号を行うことができる(例えば、非特許文献1参照)。
また、IPネットワーク上でのフレーム損失に対する制御では、高位レイヤよりも低位レイヤの符号化データの損失率を抑えることによって、フレーム損失への耐性を高めることができる。
それでも低位レイヤの符号化データが損失することを避けられない場合は、過去に受信した符号化データを用いて損失補償を行うことができる(例えば、非特許文献2参照)。つまり、入力音声信号に対しフレーム単位でスケーラブル符号化を行って得られた階層化符号化データの内、コアレイヤを含む低位レイヤの符号化データが損失して受信できなかった場合、受信側は過去に受信した過去のフレームの符号化データを用いて損失補償を行い、復号を行うことができる。従って、フレーム損失が発生した場合でも、復号信号の品質劣化をある程度抑えることができる。
ISO/IEC 14496-3:2001(E) Prt-3 Audio(MPEG-4) Subpart-3 Speech Coding(CELP) ISO/IEC 14496-3:2001(E) Prt-3 Audio(MPEG-4) Subpart-1 Main Annex1.B(Informative) Error Protection tool
過去の符号化状態に依存して符号化が行われる場合、コアレイヤを含む低位レイヤの符号化データ損失時に、損失補償を行ったフレームの次の正常フレームにおいて、送信側と受信側とで状態データの不整合が発生して復号信号の品質が劣化することがある。例えば、符号化方式としてCELP符号化を用いる場合、次フレームの符号化に用いられる状態データとしては、適応符号帳データ、LPC合成フィルタ状態データ、LPCパラメータや駆動音源ゲインパラメータの予測フィルタ状態データ(LPCパラメータや駆動音源ゲインパラメータとして予測量子化を用いる場合)等がある。これらの状態データのうち、特に、過去の符号化駆動音源信号を格納している適応符号帳については、受信側において損失補償を行ったフレームにて生成された内容が送信側での内容と大きく異なることがある。このとき、損失補償されたフレームの次のフレームが、データ損失が発生していない正常フレームであっても、受信側では、送信側と内容が異なる適応符号帳を用いてその正常フレームが復号されるため、その正常フレームにおいて復号信号の品質が劣化してしまうことがある。
本発明の目的は、データ損失が発生して損失補償がなされたフレームの次の正常フレームにおける復号信号の品質劣化を抑えることができるスケーラブル符号化装置およびスケーラブル符号化方法を提供することである。
本発明のスケーラブル符号化装置は、低位レイヤと高位レイヤとからなるスケーラブル符号化装置であって、前記低位レイヤにおける符号化を行って低位レイヤ符号化データを生成する低位レイヤ符号化手段と、前記低位レイヤ符号化データのフレーム損失に対してあらかじめ設定された損失補償を行って状態データを生成する損失補償手段と、前記高位レイヤにおける符号化を行って第1の高位レイヤ符号化データを生成する高位レイヤ第1符号化手段と、前記高位レイヤにおいて、前記状態データを用いて、音声品質の劣化を補正する符号化を行って第2の高位レイヤ符号化データを生成する高位レイヤ第2符号化手段と、前記第1の高位レイヤ符号化データまたは前記第2の高位レイヤ符号化データのいずれかを、送信用データとして選択する選択手段と、を具備する構成を採る。
本発明によれば、過去のフレームにおいてデータ損失が発生して損失補償がなされた場合でも、損失補償がなされたフレームの次の正常フレームにおける復号信号の品質劣化を抑えることができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係るスケーラブル符号化装置10の構成を示すブロック図である。スケーラブル符号化装置10は、低位レイヤに含まれるコアレイヤと高位レイヤに含まれる拡張レイヤとの2階層からなる構成を採り、入力される音声信号に対して音声フレームの単位でスケーラブル符号化処理を行う。以下、スケーラブル符号化装置10に第nフレーム(nは整数)の音声信号S(n)が入力される場合を例にとって説明する。また、スケーラブル構成が二階層からなる場合を例にとって説明する。
まず、スケーラブル符号化装置10の動作の概要について説明する。
スケーラブル符号化装置10では、まず、コアレイヤ符号化部11において、第nフレームの入力音声信号S(n)に対してコアレイヤの符号化を行ってコアレイヤ符号化データL1(n)および状態データST(n)を生成する。
次に、拡張レイヤ符号化部12の通常符号化部121で、コアレイヤの符号化により得られるデータ(L1(n)およびST(n))を基に、入力音声信号S(n)に対する拡張レイヤの通常の符号化を行って拡張レイヤ通常符号化データL2(n)を生成する。ここでの通常の符号化とは、第n−1フレームのフレーム損失を前提としない符号化をいう。また、通常符号化部121では、拡張レイヤ通常符号化データL2(n)を復号して拡
張レイヤ復号データSDL2(n)を生成する。
そして、劣化補正符号化部123で、過去のフレームの損失による現フレームの復号音声の品質劣化を補正する符号化を行って拡張レイヤ劣化補正符号化データL2'(n)を生成する。
一方、判定部125では、現フレームの拡張レイヤ符号化データとして、拡張レイヤ通常符号化データL2(n)または拡張レイヤ劣化補正符号化データL2'(n)のいずれを拡張レイヤ符号化部12から出力すべきか判定し、その判定結果フラグflag(n)を出力する。
選択部124は、判定部125での判定結果に従って、拡張レイヤ通常符号化データL2(n)または拡張レイヤ劣化補正符号化データL2'(n)のいずれかを選択して現フレームの拡張レイヤ符号化データとして出力する。
そして、送信部13は、コアレイヤ符号化データL1(n)、判定結果フラグflag(n)、および、拡張レイヤ符号化データ(L2(n)またはL2'(n))を多重して、第nフレームの送信符号化データとしてスケーラブル復号装置へ送信する。
次いで、スケーラブル符号化装置10の各部の詳細について説明する。
コアレイヤ符号化部11は、入力音声信号のコア成分となる信号に対して符号化処理を行い、コアレイヤ符号化データを生成する。コア成分となる信号とは、例えば、入力音声信号が7kHz帯域幅を有する広帯域音声信号で、帯域スケーラブル符号化の場合、この広帯域信号から帯域制限によって生成される電話帯域(3.4kHz)幅の信号をいう。スケーラブル復号装置側では、このコアレイヤ符号化データだけを用いて復号を行っても、ある程度の復号信号の品質を保証することができる。
コアレイヤ符号化部11の構成を図2に示す。
符号化部111は、第nフレームの入力音声信号S(n)を用いてコアレイヤの符号化を行い、第nフレームのコアレイヤ符号化データL1(n)を生成する。符号化部111で用いられる符号化方式は、例えばCELP方式等、過去のフレームの符号化状態に依存して現在のフレームの符号化が行われる方式であればいかなる符号化方式であってもよい。帯域スケーラブル符号化を行う場合は、符号化部111は、入力音声信号に対してダウンサンプリングおよびLPF処理を行い、上記所定帯域の信号にした後に符号化を行う。また、符号化部111は、状態データ記憶部112に記憶されている状態データST(n−1)を用いて第nフレームのコアレイヤの符号化を行うとともに、その符号化により得られる状態データST(n)を状態データ記憶部112に記憶する。状態データ記憶部112に記憶される状態データは、符号化部111で新しい状態データが得られるたびに更新される。
状態データ記憶部112は、符号化部111での符号化処理に必要な状態データを記憶する。例えば、符号化部111での符号化としてCELP符号化を用いる場合は、状態データ記憶部112は、適応符号帳データ、LPC合成フィルタ状態データ等を状態データとして記憶する。また、LPCパラメータや駆動音源ゲインパラメータ等として予測量子化が用いられる場合は、状態データ記憶部112は、さらに、LPCパラメータや駆動音源ゲインパラメータの予測フィルタ状態データを記憶する。状態データ記憶部112は、第nフレームの状態データST(n)を拡張レイヤ符号化部12の通常符号化部121に出力するとともに、第n−1フレームの状態データST(n−1)を符号化部111およ
び損失補償部114に出力する。
遅延部113は、符号化部111から第nフレームのコアレイヤ符号化データL1(n)が入力され、第n−1フレームのコアレイヤ符号化データL1(n−1)を出力する。すなわち、遅延部113が出力するL1(n−1)は、1フレーム前の符号化処理において符号化部111から入力された第n−1フレームのコアレイヤ符号化データL1(n−1)を1フレーム遅延させ、第nフレームの符号化処理において出力したものである。
損失補償部114は、第nフレームに損失が生じた場合にスケーラブル復号装置側でそのフレーム損失に対して行われる損失補償処理と同一の損失補償処理を行う。損失補償部114は、第n−1フレームのコアレイヤ符号化データL1(n−1)および状態データST(n−1)を用いて第nフレームの損失に対する損失補償処理を行う。そして、損失補償部114は、その損失補償処理によって第n−1フレームの状態データST(n−1)を第nフレームの状態データST'(n)に更新し、その更新後の状態データST'(n)を遅延部115に出力する。
遅延部115は、第nフレームの損失に対する損失補償処理により生成された第nフレームの状態データST'(n)が入力され、第n−1フレームの損失に対する損失補償処理により生成された第n−1フレームの状態データST'(n−1)を出力する。すなわち、遅延部115が出力するST'(n−1)は、1フレーム前の符号化処理において損失補償部114から入力された第n−1フレームの状態データST'(n−1)を1フレーム遅延させ、第nフレームの符号化処理において出力したものである。この状態データST'(n−1)は、図1に示す局部復号部122および判定部125に入力される。
復号部116は、コアレイヤ符号化データL1(n)を復号してコアレイヤ復号データSDL1(n)を生成する。
以上、コアレイヤ符号化部11の各部の詳細について説明した。
図1に示す拡張レイヤ符号化部12では、局部復号部122が、第nフレームのコアレイヤ符号化データL1(n)の復号を行って、コアレイヤの復号データSDL1'(n)を生成する。この際、第n−1フレームがフレーム損失補償されていることが前提となるため、局部復号部122は、復号時の状態データとして、状態データST'(n−1)を用いる。そして、局部復号部122は、復号データSDL1'(n)および状態データST'(n−1)を出力する。
劣化補正符号化部123は、第n−1フレームがフレーム損失補償されていることを前提に、復号データSDL1'(n)の音声品質の劣化を補正する符号化を行う。劣化補正符号化部123は、通常符号化部121で行われる通常の符号化と同一の符号化を、入力音声信号S(n)およびコアレイヤ符号化データL1(n)を用い、第n−1フレームのフレーム損失補償を前提とした状態データST'(n−1)を基にして、復号データSDL1'(n)に対する拡張レイヤの符号化を行い、拡張レイヤ劣化補正符号化データL2'(n)を生成する。
なお、劣化補正符号化部123では、復号データSDL1'(n)と入力音声信号S(n)との誤差信号を符号化して拡張レイヤ劣化補正符号化データL2'(n)を生成してもよい。
判定部125は、第nフレームの拡張レイヤ符号化データとして、拡張レイヤ通常符号化データL2(n)または拡張レイヤ劣化補正符号化データL2'(n)のいずれを拡張
レイヤ符号化部12から出力すべきか判定し、その判定結果フラグflag(n)を選択部124および送信部13に出力する。判定部125は、(i)第n−1フレームでのフレーム損失補償により生じる第nフレームでのコアレイヤの音声品質の劣化度合いが所定値より大きい(すなわち、第n−1フレームでのコアレイヤのフレーム損失補償能力(補償時の復号音声品質)が所定値より低い)、または、(ii)第nフレームでの拡張レイヤ符号化による音声品質の改善度合いが所定値より小さい、または、(iii)第nフレームでの拡張レイヤに対するフレーム損失補償能力(補償時の復号音声品質)が所定値より高い場合に、第nフレームの拡張レイヤ符号化データとして、拡張レイヤ劣化補正符号化データL2'(n)を拡張レイヤ符号化部12から出力すべきと判定し、その判定結果フラグflag(n)=1を出力し、それら以外の場合は、第nフレームの拡張レイヤ符号化データとして、拡張レイヤ通常符号化データL2(n)を拡張レイヤ符号化部12から出力すべきと判定し、その判定結果フラグflag(n)=0を出力する。なお、上記(i)および(ii)の双方に該当する場合に、判定部125が拡張レイヤ劣化補正符号化データL2'(n)を拡張レイヤ符号化部12から出力すべきと判定してもよい。
より具体的には、判定部125は以下に示す判定を行う。
<判定方法1>
判定部125は、局部復号部122で得られる復号データSDL1'(n)のコアレイヤ復号データSDL1(n)に対するSNRを、第n−1フレームでのフレーム損失補償により生じる第nフレームでのコアレイヤの音声品質の劣化度合いとして測定し、その差が所定値以上であれば判定結果フラグflag(n)=1を出力し、その差が所定値未満であれば判定結果フラグflag(n)=0を出力する。
<判定方法2>
音声の立ち上がり部や無声非定常子音部など前フレームからの変化が大きい音声フレームや、非定常信号の音声フレームは、過去のフレームを用いたフレーム損失補償の能力が低いため、前フレームのフレーム損失を想定した場合、これらの音声フレームについては、局部復号部122で得られる復号データSDL1'(n)の音声品質の劣化度合いも大きい。そこで、判定部125は、入力音声信号S(n−1)と入力音声信号S(n)とを比較し、それらの間でのパワーの差、ピッチ分析パラメータ(ピッチ周期、ピッチ予測ゲイン)の差、LPCスペクトルの差等が所定値以上であれば判定結果フラグflag(n)=1を出力し、それらの差が所定値未満であれば判定結果フラグflag(n)=0を出力する。
<判定方法3>
判定部125は、拡張レイヤまで符号化が行われる場合の符号化歪みが、コアレイヤのみで符号化が行われる場合の符号化歪に対してどの程度減少するかを測定し、その減少分が所定値未満であれば判定結果フラグflag(n)=1を出力し、その減少分が所定値以上であれば判定結果フラグflag(n)=0を出力する。同様に、判定部125は、拡張レイヤまで符号化が行われる場合の復号データSDL2(n)の入力音声信号S(n)に対するSNRが、コアレイヤのみで符号化が行われる場合の復号データSDL1(n)の入力音声信号S(n)に対するSNRに対してどの程度増加するかを測定し、その増加分が所定値未満であれば判定結果フラグflag(n)=1を出力し、その増加分が所定値以上であれば判定結果フラグflag(n)=0を出力するようにしてもよい。
<判定方法4>
スケーラブル符号化が帯域スケーラブル構成をとる場合、判定部125は、入力音声信号の音声帯域の偏り、すなわち、コアレイヤの対象となる低域の信号エネルギーが全帯域に占める割合を算出し、その割合が所定値以上であれば、拡張レイヤの符号化による音声
品質の改善度合いが低いと判断して判定結果フラグflag(n)=0を出力し、その割合が所定値未満であれば判定結果フラグflag(n)=1を出力する。
以上、判定部125での判定方法について説明した。このような判定を行って、拡張レイヤ劣化補正符号化データを拡張レイヤ符号化データとする場合を限定することで、フレーム損失が発生しない場合に、拡張レイヤ通常符号化データを用いた復号ができないことによる音声品質の劣化を最小限に抑えて、コアレイヤのフレーム損失耐性を向上させることができる。
選択部124は、判定部125からの判定結果フラグflag(n)に従って、拡張レイヤ通常符号化データL2(n)または拡張レイヤ劣化補正符号化データL2'(n)のいずれかを選択して送信部13に出力する。選択部124は、判定結果フラグflag(n)=0の場合は拡張レイヤ通常符号化データL2(n)を選択し、判定結果フラグflag(n)=1の場合は拡張レイヤ劣化補正符号化データL2'(n)を選択する。
次いで、図3に、フレーム損失時の処理を示す。今、送信側(スケーラブル符号化装置10)で、第nフレームの拡張レイヤの符号化において拡張レイヤ劣化補正符号化データL2'(n)が選択され、受信側(スケーラブル復号装置側)で、第n−1フレームにフレーム損失が発生して第n−1フレームが第n−2フレームを用いて損失補償された場合を想定すると、受信側の第nフレームでは、第n−1フレームのフレーム損失を前提とせずに符号化されたL1(n)の復号音声の品質劣化を、第n−1フレームのフレーム損失を前提として符号化されたL2'(n)を用いて改善することができる。
図4は、本発明の実施の形態1に係るスケーラブル復号装置20の構成を示すブロック図である。スケーラブル復号装置20は、スケーラブル符号化装置10に合わせ、コアレイヤと拡張レイヤの2階層からなる構成を採る。以下、スケーラブル復号装置20がスケーラブル符号化装置10から第nフレームの符号化データを受信し、復号処理を行う場合について説明する。
受信部21は、スケーラブル符号化装置10から、コアレイヤ符号化データL1(n)、拡張レイヤ符号化データ(拡張レイヤ通常符号化データL2(n)または拡張レイヤ劣化補正符号化データL2'(n))および判定結果フラグflag(n)が多重化された符号化データを受信し、コアレイヤ符号化データL1(n)をコアレイヤ復号部22に、拡張レイヤ符号化データを切替部232に、判定結果フラグflag(n)を復号モード制御部231に出力する。
また、コアレイヤ復号部22および拡張レイヤ復号部23の復号モード制御部231には、フレーム損失検出部(図示せず)から第nフレームのフレーム損失の有無を示すフレーム損失フラグflag_FL(n)が入力される。
以下、判定結果フラグおよびフレーム損失フラグの内容に従って行われる復号処理について図5を用いて説明する。なお、フレーム損失フラグ(flag_FL(n−1),flag_FL(n))については、‘0’がフレーム損失がないことを示し、‘1’がフレーム損失があったことを示す。
<条件1:flag_FL(n−1)=0,flag_FL(n)=0,flag(n)=0の場合>
コアレイヤ復号部22は、受信部21から入力されるコアレイヤ符号化データL1(n)を用いて復号処理を行い、第nフレームのコアレイヤ復号信号を生成する。このコアレイヤ復号信号は、拡張レイヤ復号部23の復号部233にも入力される。また、拡張レイ
ヤ復号部23では、復号モード制御部231が切替部232,235をa側に切り替える。よって、復号部233が、拡張レイヤ通常符号化データL2(n)を用いて復号処理を行い、コアレイヤおよび拡張レイヤ双方での復号結果である拡張レイヤ復号信号を出力する。
<条件2:flag_FL(n−1)=0,flag_FL(n)=0,flag(n)=1の場合>
コアレイヤ復号部22は、受信部21から入力されるコアレイヤ符号化データL1(n)を用いて復号処理を行い、第nフレームのコアレイヤ復号信号を生成する。このコアレイヤ復号信号は、拡張レイヤ復号部23の復号部233にも入力される。また、拡張レイヤ復号部23では、復号モード制御部231が切替部232,235をa側に切り替える。flag(n)=1であり、拡張レイヤ通常符号化データL2(n)は受信されていないため、復号部233は、第n−1フレームまでの拡張レイヤ通常符号化データ、それを用いて復号した拡張レイヤ復号信号、および、第nフレームのコアレイヤ復号信号(または復号に用いられる復号パラメータ等)を用いて拡張レイヤの第nフレームに対する補償処理を行い、第nフレームの拡張レイヤ復号信号を生成し、出力する。
<条件3:flag_FL(n)=1の場合>
第nフレームの符号化データは一切受信されていないため、コアレイヤ復号部22は、第n−1フレームまでのコアレイヤ符号化データ、それを用いて復号したコアレイヤ復号信号、および、復号に用いられた復号パラメータ等からコアレイヤの第nフレームに対する補償処理を行い、第nフレームのコアレイヤ復号信号を生成する。また、拡張レイヤ復号部23では、復号モード制御部231が切替部232,235をa側に切り替える。復号部233は、第n−1フレームまでの拡張レイヤ通常符号化データ、それを用いて復号した復号信号、および、第nフレームのコアレイヤ復号信号(または復号に用いられる復号パラメータ)等から拡張レイヤの第nフレームに対する補償処理を行い、第nフレームの拡張レイヤ復号信号を生成し、出力する。
<条件4:flag_FL(n−1)=1,flag_FL(n)=0,flag(n)=0の場合>
第n−1フレームでフレーム損失が発生している点において条件1と異なる。しかし、復号処理は条件1の場合と同一である。
<条件5:flag_FL(n−1)=1,flag_FL(n)=0,flag(n)=1の場合>
コアレイヤ復号部22は、受信部21から入力されるコアレイヤ符号化データL1(n)を用いて復号処理を行い、第nフレームのコアレイヤ復号信号を生成する。このコアレイヤ復号信号は、拡張レイヤ復号部23の劣化補正復号部234にも入力される。また、拡張レイヤ復号部23では、復号モード制御部231が切替部232,235をb側に切り替える。第n−1フレームにおいてフレーム損失が発生して損失補償が行われ、かつ、そのフレーム損失補償を前提にした符号化(劣化を補正する符号化)により生成された拡張レイヤ劣化補正符号化データL2'(n)が受信されるため、劣化補正復号部234は、拡張レイヤ劣化補正符号化データL2'(n)を用いて復号処理を行い、コアレイヤおよび拡張レイヤ双方での復号結果である拡張レイヤ復号信号を出力する。また、その復号処理の過程で状態データは更新され、その更新に伴い、コアレイヤ復号部22に記憶されている状態データも同様に更新される。
ここで、上記図3に示した受信側(スケーラブル復号装置側)の第nフレームでの処理は、上記条件5の場合の復号処理である。すなわち、スケーラブル復号装置20は、第n−1フレームに損失が発生したため第n−1フレームを第n−2フレームを用いて損失補
償し、第nフレームでは、第n−1フレームの損失を前提として符号化されたL2'(n)を用いて復号処理を行うことで、第n−1フレームの損失を前提とせずに符号化されたL1(n)による復号音声の品質劣化を改善することができる。
このように、本実施の形態によれば、スケーラブル符号化装置が、第nフレームに対する拡張レイヤの符号化において、第n−1フレームにおけるフレーム損失に対する損失補償を前提とした符号化を行うため、スケーラブル復号装置において、第n−1フレームに損失が発生して損失補償がなされた場合でも、伝送ビットレートを増加させることなく、第nフレームでの復号音声の品質劣化を改善することができる。
(実施の形態2)
図6は、本発明の実施の形態2に係るスケーラブル符号化装置30の構成を示すブロック図である。図6において、コアレイヤ符号化データL1(n)に代えて第n−1フレームの状態データST'(n−1)が劣化補正符号化部123に入力される点、および、局部復号部122からの出力が劣化補正符号化部123に入力されない点において、実施の形態1(図1)と異なる。
図6に示す劣化補正符号化部123は、第n−1フレームがフレーム損失補償されていることを前提に、第n−1フレームのフレーム損失補償を前提とした状態データST'(n−1)を用いて、第nフレームの入力音声信号S(n)に対する符号化を行い、拡張レイヤ劣化補正符号化データL2'(n)を生成する。つまり、本実施の形態に係る劣化補正符号化部123は、コアレイヤの符号化を前提に拡張レイヤの符号化を行うのではなく、入力音声信号に対してコアレイヤとは独立に符号化行う。
一方、本実施の形態に係るスケーラブル復号装置の構成は実施の形態1(図4)と同一であるが、上記条件5における復号処理において実施の形態1と異なる。すなわち、上記条件5に該当する場合、劣化補正復号部234が、コアレイヤ復号データに依存せずに拡張レイヤ劣化補正符号化データL2'(n)を用いて復号処理を行う点が実施の形態1と異なる。
なお、本実施の形態においては、劣化補正符号化部123は、全てリセットされた状態データを用いて入力音声信号に対する符号化を行ってもよい。このようにすることで、スケーラブル復号装置において、フレーム損失の連続発生回数に影響されることなく、スケーラブル符号化装置での符号化との整合性を維持したまま、拡張レイヤ劣化補正符号化データを用いて復号音声を生成することができる。
このように、本実施の形態によれば、劣化補正符号化部123が、コアレイヤの符号化を前提に拡張レイヤの符号化を行うのではなく、入力音声信号に対してコアレイヤとは独立に符号化行うため、スケーラブル復号装置において第n−1フレームの損失補償により第nフレームのコアレイヤ復号信号に大きな劣化が生じるような場合でも、その劣化に影響されることなく拡張レイヤ劣化補正符号化データを用いて復号音声の品質を改善することができる。
以上、本発明の各実施の形態について説明した。
なお、上記各実施の形態ではスケーラブル構成が二階層からなる場合を例にとって説明したが、本発明は、三階層以上のスケーラブル構成に対しても上記同様に実施することができる。
また、上記各実施の形態ではフレーム損失が単発で発生する場合を想定した構成につい
て説明したが、フレーム損失が連続して発生する場合を想定した構成を採ることも可能である。すなわち、劣化補正符号化部123が、第n−1フレームを含むmフレーム(m=1,2,3,…,N)で連続してフレーム損失補償がなされた前提で符号化を行い、m回連続して発生するフレーム損失に対応する拡張レイヤ劣化補正符号化データL2'_m(n)を所望フレーム数までNセットまとめて出力し、劣化補正復号部234が、実際に連続して生じたフレーム損失数kに応じた拡張レイヤ劣化補正符号化データL2'_k(n)を用いて復号を行うようにすればよい。
また、フレーム損失が単発で発生する場合を想定した上記各実施の形態の構成を用いてフレーム損失が連続して発生した場合に対応するためには、スケーラブル復号装置において、拡張レイヤ劣化補正符号化データL2'(n)を用いずに拡張レイヤでのフレーム損失補償処理を行って拡張レイヤの復号音声信号を生成するようにしてもよい。
また、劣化補正符号化部123の構成を、実施の形態1と実施の形態2とを組み合わせたものにしてもよい。すなわち、劣化補正符号化部123が、実施の形態1および2双方の符号化を行い、符号化歪みをより小さくできる拡張レイヤ劣化補正符号化データL2'(n)を選択し、選択情報と共に出力するようにしてもよい。これにより、フレーム損失が発生したフレームの次の正常フレームでの復号音声の品質劣化をより改善することができる。
また、伝送単位として1フレームまたは複数フレームで構成されるパケットが用いられるネットワーク(例えば、IPネットワーク等)に本発明を適用する場合には、上記各実施の形態における「フレーム」を「パケット」と読み替えればよい。
また、上記各実施の形態に係るスケーラブル符号化装置、スケーラブル復号装置を、移動体通信システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の無線通信装置に搭載することも可能である。
また、上記説明では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るスケーラブル符号化方法およびスケーラブル復号方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るスケーラブル符号化装置およびスケーラブル復号装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
2005年11月30日出願の特願2005−346169の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係るスケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法は音声符号化等の用途に適用することができる。
実施の形態1に係るスケーラブル符号化装置の構成を示すブロック図 実施の形態1に係るコアレイヤ符号化部の構成を示すブロック図 実施の形態1に係るフレーム損失時の処理の説明図 実施の形態1に係るスケーラブル復号装置の構成を示すブロック図 実施の形態1に係るスケーラブル復号装置の復号処理の説明図 実施の形態2に係るスケーラブル符号化装置の構成を示すブロック図

Claims (7)

  1. 低位レイヤと高位レイヤとからなるスケーラブル符号化装置であって、
    前記低位レイヤにおける符号化を行って低位レイヤ符号化データを生成する低位レイヤ符号化手段と、
    前記低位レイヤ符号化データのフレーム損失に対してあらかじめ設定された損失補償を行って状態データを生成する損失補償手段と、
    前記高位レイヤにおける符号化を行って第1の高位レイヤ符号化データを生成する高位レイヤ第1符号化手段と、
    前記高位レイヤにおいて、前記状態データを用いて、音声品質の劣化を補正する符号化を行って第2の高位レイヤ符号化データを生成する高位レイヤ第2符号化手段と、
    前記第1の高位レイヤ符号化データまたは前記第2の高位レイヤ符号化データのいずれかを、送信用データとして選択する選択手段と、
    を具備するスケーラブル符号化装置。
  2. 前記選択手段は、前記損失補償により生じる前記低位レイヤの音声品質の劣化度合いが所定値より大きい場合に、前記第2の高位レイヤ符号化データを選択する、
    請求項1記載のスケーラブル符号化装置。
  3. 前記選択手段は、前記高位レイヤでの符号化による音声品質の改善度合いが所定値より小さい場合に、前記第2の高位レイヤ符号化データを選択する、
    請求項1記載のスケーラブル符号化装置。
  4. 前記高位レイヤ第2符号化手段は、前記低位レイヤ符号化データの復号データをさらに用いて生成した高位レイヤ符号化データと、前記低位レイヤ符号化データの復号データを用いずに生成した高位レイヤ符号化データとのうち、符号化歪みをより小さくできる高位レイヤ符号化データを前記第2の高位レイヤ符号化データとする、
    請求項1記載のスケーラブル符号化装置。
  5. 請求項1記載のスケーラブル符号化装置を具備する無線通信移動局装置。
  6. 請求項1記載のスケーラブル符号化装置を具備する無線通信基地局装置。
  7. 低位レイヤと高位レイヤとからなるスケーラブル符号化装置において使用されるスケーラブル符号化方法であって、
    前記低位レイヤにおける符号化を行って低位レイヤ符号化データを生成する低位レイヤ符号化工程と、
    前記低位レイヤ符号化データのフレーム損失に対してあらかじめ設定された損失補償を行って状態データを生成する損失補償工程と、
    前記高位レイヤにおける符号化を行って第1の高位レイヤ符号化データを生成する高位レイヤ第1符号化工程と、
    前記高位レイヤにおいて、前記状態データを用いて、音声品質の劣化を補正する符号化を行って第2の高位レイヤ符号化データを生成する高位レイヤ第2符号化工程と、
    前記第1の高位レイヤ符号化データまたは前記第2の高位レイヤ符号化データのいずれかを、送信用データとして選択する選択工程と、
    を具備するスケーラブル符号化方法。
JP2007547981A 2005-11-30 2006-11-29 スケーラブル符号化装置およびスケーラブル符号化方法 Expired - Fee Related JP4969454B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007547981A JP4969454B2 (ja) 2005-11-30 2006-11-29 スケーラブル符号化装置およびスケーラブル符号化方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005346169 2005-11-30
JP2005346169 2005-11-30
PCT/JP2006/323838 WO2007063910A1 (ja) 2005-11-30 2006-11-29 スケーラブル符号化装置およびスケーラブル符号化方法
JP2007547981A JP4969454B2 (ja) 2005-11-30 2006-11-29 スケーラブル符号化装置およびスケーラブル符号化方法

Publications (2)

Publication Number Publication Date
JPWO2007063910A1 JPWO2007063910A1 (ja) 2009-05-07
JP4969454B2 true JP4969454B2 (ja) 2012-07-04

Family

ID=38092243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007547981A Expired - Fee Related JP4969454B2 (ja) 2005-11-30 2006-11-29 スケーラブル符号化装置およびスケーラブル符号化方法

Country Status (5)

Country Link
US (1) US8086452B2 (ja)
EP (1) EP1959431B1 (ja)
JP (1) JP4969454B2 (ja)
DE (1) DE602006015097D1 (ja)
WO (1) WO2007063910A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US7889103B2 (en) 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8140342B2 (en) 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8200496B2 (en) 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8219408B2 (en) 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8428936B2 (en) 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8560330B2 (en) * 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
CN103280222B (zh) * 2013-06-03 2014-08-06 腾讯科技(深圳)有限公司 音频编码、解码方法及其系统
WO2017081874A1 (ja) * 2015-11-13 2017-05-18 株式会社日立国際電気 音声通信システム
US11923981B2 (en) 2020-10-08 2024-03-05 Samsung Electronics Co., Ltd. Electronic device for transmitting packets via wireless communication connection and method of operating the same

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097295A (ja) * 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
JP2002162998A (ja) * 2000-11-28 2002-06-07 Fujitsu Ltd パケット修復処理を伴なう音声符号化方法
JP2003202898A (ja) * 2002-01-08 2003-07-18 Matsushita Electric Ind Co Ltd 音声信号送信装置、音声信号受信装置及び音声信号伝送システム
JP2003249957A (ja) * 2002-02-22 2003-09-05 Nippon Telegr & Teleph Corp <Ntt> パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム
WO2005109402A1 (ja) * 2004-05-11 2005-11-17 Nippon Telegraph And Telephone Corporation 音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体
JP2005346169A (ja) * 2004-05-31 2005-12-15 Sony Corp 情報処理装置および方法、並びにプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907070B2 (en) * 2000-12-15 2005-06-14 Microsoft Corporation Drifting reduction and macroblock-based control in progressive fine granularity scalable video coding
US7676722B2 (en) * 2004-03-31 2010-03-09 Sony Corporation Multimedia content delivery using pre-stored multiple description coded video with restart
DE602005009374D1 (de) 2004-09-06 2008-10-09 Matsushita Electric Ind Co Ltd Skalierbare codierungseinrichtung und skalierbares codierungsverfahren
BRPI0515453A (pt) 2004-09-17 2008-07-22 Matsushita Electric Ind Co Ltd aparelho de codificação escalável, aparelho de decodificação escalável, método de codificação escalável método de decodificação escalável, aparelho de terminal de comunicação, e aparelho de estação de base
EP1801785A4 (en) 2004-10-13 2010-01-20 Panasonic Corp MODULAR ENCODER, MODULAR DECODER AND MODULATING CODING METHOD
BRPI0517780A2 (pt) 2004-11-05 2011-04-19 Matsushita Electric Ind Co Ltd aparelho de decodificação escalável e aparelho de codificação escalável
US8265929B2 (en) * 2004-12-08 2012-09-11 Electronics And Telecommunications Research Institute Embedded code-excited linear prediction speech coding and decoding apparatus and method
BRPI0519454A2 (pt) 2004-12-28 2009-01-27 Matsushita Electric Ind Co Ltd aparelho de codificaÇço reescalonÁvel e mÉtodo de codificaÇço reescalonÁvel

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097295A (ja) * 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
JP2002162998A (ja) * 2000-11-28 2002-06-07 Fujitsu Ltd パケット修復処理を伴なう音声符号化方法
JP2003202898A (ja) * 2002-01-08 2003-07-18 Matsushita Electric Ind Co Ltd 音声信号送信装置、音声信号受信装置及び音声信号伝送システム
JP2003249957A (ja) * 2002-02-22 2003-09-05 Nippon Telegr & Teleph Corp <Ntt> パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム
WO2005109402A1 (ja) * 2004-05-11 2005-11-17 Nippon Telegraph And Telephone Corporation 音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体
JP2005346169A (ja) * 2004-05-31 2005-12-15 Sony Corp 情報処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
EP1959431B1 (en) 2010-06-23
EP1959431A1 (en) 2008-08-20
DE602006015097D1 (de) 2010-08-05
US20100153102A1 (en) 2010-06-17
JPWO2007063910A1 (ja) 2009-05-07
EP1959431A4 (en) 2009-12-02
US8086452B2 (en) 2011-12-27
WO2007063910A1 (ja) 2007-06-07

Similar Documents

Publication Publication Date Title
JP4969454B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP5142723B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法
US6968309B1 (en) Method and system for speech frame error concealment in speech decoding
EP1990800B1 (en) Scalable encoding device and scalable encoding method
US8060363B2 (en) Audio signal encoding
US20080208575A1 (en) Split-band encoding and decoding of an audio signal
JP5706445B2 (ja) 符号化装置、復号装置およびそれらの方法
US8688437B2 (en) Packet loss concealment for speech coding
US6230124B1 (en) Coding method and apparatus, and decoding method and apparatus
US10607624B2 (en) Signal codec device and method in communication system
US8965758B2 (en) Audio signal de-noising utilizing inter-frame correlation to restore missing spectral coefficients
CA2673745C (en) Audio quantization
US20080059154A1 (en) Encoding an audio signal
US7991611B2 (en) Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals
JP2005091749A (ja) 音源信号符号化装置、及び音源信号符号化方法
CN107077856B (zh) 音频参数量化
JP4437052B2 (ja) 音声復号化装置および音声復号化方法
JPWO2003021573A1 (ja) コーデック

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090929

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120403

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4969454

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees