JP4969454B2

JP4969454B2 - スケーラブル符号化装置およびスケーラブル符号化方法

Info

Publication number: JP4969454B2
Application number: JP2007547981A
Authority: JP
Inventors: 幸司吉田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-11-30
Filing date: 2006-11-29
Publication date: 2012-07-04
Anticipated expiration: 2026-11-29
Also published as: EP1959431B1; EP1959431A1; DE602006015097D1; US20100153102A1; JPWO2007063910A1; EP1959431A4; US8086452B2; WO2007063910A1

Description

本発明は、スケーラブル符号化装置およびスケーラブル符号化方法に関する。

ＩＰネットワーク上での音声データ通信において、ネットワーク上のトラフィック制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号化が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データからでも音声データの復号が可能な構成をいう。

スケーラブル符号化においては、送信側で入力音声信号に対しての階層的な符号化により、コアレイヤを含む低位レイヤ（lower layer）から拡張レイヤを含む高位レイヤ（higher layer）まで複数に階層化された符号化データを伝送する。受信側では低位レイヤから任意の階層までの符号化データを用いて復号を行うことができる（例えば、非特許文献１参照）。

また、ＩＰネットワーク上でのフレーム損失に対する制御では、高位レイヤよりも低位レイヤの符号化データの損失率を抑えることによって、フレーム損失への耐性を高めることができる。

それでも低位レイヤの符号化データが損失することを避けられない場合は、過去に受信した符号化データを用いて損失補償を行うことができる（例えば、非特許文献２参照）。つまり、入力音声信号に対しフレーム単位でスケーラブル符号化を行って得られた階層化符号化データの内、コアレイヤを含む低位レイヤの符号化データが損失して受信できなかった場合、受信側は過去に受信した過去のフレームの符号化データを用いて損失補償を行い、復号を行うことができる。従って、フレーム損失が発生した場合でも、復号信号の品質劣化をある程度抑えることができる。
ISO/IEC 14496-3:2001(E) Prt-3 Audio(MPEG-4) Subpart-3 Speech Coding(CELP) ISO/IEC 14496-3:2001(E) Prt-3 Audio(MPEG-4) Subpart-1 Main Annex1.B(Informative) Error Protection tool

過去の符号化状態に依存して符号化が行われる場合、コアレイヤを含む低位レイヤの符号化データ損失時に、損失補償を行ったフレームの次の正常フレームにおいて、送信側と受信側とで状態データの不整合が発生して復号信号の品質が劣化することがある。例えば、符号化方式としてＣＥＬＰ符号化を用いる場合、次フレームの符号化に用いられる状態データとしては、適応符号帳データ、ＬＰＣ合成フィルタ状態データ、ＬＰＣパラメータや駆動音源ゲインパラメータの予測フィルタ状態データ（ＬＰＣパラメータや駆動音源ゲインパラメータとして予測量子化を用いる場合）等がある。これらの状態データのうち、特に、過去の符号化駆動音源信号を格納している適応符号帳については、受信側において損失補償を行ったフレームにて生成された内容が送信側での内容と大きく異なることがある。このとき、損失補償されたフレームの次のフレームが、データ損失が発生していない正常フレームであっても、受信側では、送信側と内容が異なる適応符号帳を用いてその正常フレームが復号されるため、その正常フレームにおいて復号信号の品質が劣化してしまうことがある。

本発明の目的は、データ損失が発生して損失補償がなされたフレームの次の正常フレームにおける復号信号の品質劣化を抑えることができるスケーラブル符号化装置およびスケーラブル符号化方法を提供することである。

本発明のスケーラブル符号化装置は、低位レイヤと高位レイヤとからなるスケーラブル符号化装置であって、前記低位レイヤにおける符号化を行って低位レイヤ符号化データを生成する低位レイヤ符号化手段と、前記低位レイヤ符号化データのフレーム損失に対してあらかじめ設定された損失補償を行って状態データを生成する損失補償手段と、前記高位レイヤにおける符号化を行って第１の高位レイヤ符号化データを生成する高位レイヤ第１符号化手段と、前記高位レイヤにおいて、前記状態データを用いて、音声品質の劣化を補正する符号化を行って第２の高位レイヤ符号化データを生成する高位レイヤ第２符号化手段と、前記第１の高位レイヤ符号化データまたは前記第２の高位レイヤ符号化データのいずれかを、送信用データとして選択する選択手段と、を具備する構成を採る。

本発明によれば、過去のフレームにおいてデータ損失が発生して損失補償がなされた場合でも、損失補償がなされたフレームの次の正常フレームにおける復号信号の品質劣化を抑えることができる。

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

（実施の形態１）
図１は、本発明の実施の形態１に係るスケーラブル符号化装置１０の構成を示すブロック図である。スケーラブル符号化装置１０は、低位レイヤに含まれるコアレイヤと高位レイヤに含まれる拡張レイヤとの２階層からなる構成を採り、入力される音声信号に対して音声フレームの単位でスケーラブル符号化処理を行う。以下、スケーラブル符号化装置１０に第ｎフレーム（ｎは整数）の音声信号Ｓ（ｎ）が入力される場合を例にとって説明する。また、スケーラブル構成が二階層からなる場合を例にとって説明する。

まず、スケーラブル符号化装置１０の動作の概要について説明する。

スケーラブル符号化装置１０では、まず、コアレイヤ符号化部１１において、第ｎフレームの入力音声信号Ｓ（ｎ）に対してコアレイヤの符号化を行ってコアレイヤ符号化データＬ１（ｎ）および状態データＳＴ（ｎ）を生成する。

次に、拡張レイヤ符号化部１２の通常符号化部１２１で、コアレイヤの符号化により得られるデータ（Ｌ１（ｎ）およびＳＴ（ｎ））を基に、入力音声信号Ｓ（ｎ）に対する拡張レイヤの通常の符号化を行って拡張レイヤ通常符号化データＬ２（ｎ）を生成する。ここでの通常の符号化とは、第ｎ−１フレームのフレーム損失を前提としない符号化をいう。また、通常符号化部１２１では、拡張レイヤ通常符号化データＬ２（ｎ）を復号して拡
張レイヤ復号データＳＤ_Ｌ２（ｎ）を生成する。

そして、劣化補正符号化部１２３で、過去のフレームの損失による現フレームの復号音声の品質劣化を補正する符号化を行って拡張レイヤ劣化補正符号化データＬ２'（ｎ）を生成する。

一方、判定部１２５では、現フレームの拡張レイヤ符号化データとして、拡張レイヤ通常符号化データＬ２（ｎ）または拡張レイヤ劣化補正符号化データＬ２'（ｎ）のいずれを拡張レイヤ符号化部１２から出力すべきか判定し、その判定結果フラグｆｌａｇ（ｎ）を出力する。

選択部１２４は、判定部１２５での判定結果に従って、拡張レイヤ通常符号化データＬ２（ｎ）または拡張レイヤ劣化補正符号化データＬ２'（ｎ）のいずれかを選択して現フレームの拡張レイヤ符号化データとして出力する。

そして、送信部１３は、コアレイヤ符号化データＬ１（ｎ）、判定結果フラグｆｌａｇ（ｎ）、および、拡張レイヤ符号化データ（Ｌ２（ｎ）またはＬ２'（ｎ））を多重して、第ｎフレームの送信符号化データとしてスケーラブル復号装置へ送信する。

次いで、スケーラブル符号化装置１０の各部の詳細について説明する。

コアレイヤ符号化部１１は、入力音声信号のコア成分となる信号に対して符号化処理を行い、コアレイヤ符号化データを生成する。コア成分となる信号とは、例えば、入力音声信号が７ｋＨｚ帯域幅を有する広帯域音声信号で、帯域スケーラブル符号化の場合、この広帯域信号から帯域制限によって生成される電話帯域（３.４ｋＨｚ）幅の信号をいう。スケーラブル復号装置側では、このコアレイヤ符号化データだけを用いて復号を行っても、ある程度の復号信号の品質を保証することができる。

コアレイヤ符号化部１１の構成を図２に示す。

符号化部１１１は、第ｎフレームの入力音声信号Ｓ（ｎ）を用いてコアレイヤの符号化を行い、第ｎフレームのコアレイヤ符号化データＬ１（ｎ）を生成する。符号化部１１１で用いられる符号化方式は、例えばＣＥＬＰ方式等、過去のフレームの符号化状態に依存して現在のフレームの符号化が行われる方式であればいかなる符号化方式であってもよい。帯域スケーラブル符号化を行う場合は、符号化部１１１は、入力音声信号に対してダウンサンプリングおよびＬＰＦ処理を行い、上記所定帯域の信号にした後に符号化を行う。また、符号化部１１１は、状態データ記憶部１１２に記憶されている状態データＳＴ（ｎ−１）を用いて第ｎフレームのコアレイヤの符号化を行うとともに、その符号化により得られる状態データＳＴ（ｎ）を状態データ記憶部１１２に記憶する。状態データ記憶部１１２に記憶される状態データは、符号化部１１１で新しい状態データが得られるたびに更新される。

状態データ記憶部１１２は、符号化部１１１での符号化処理に必要な状態データを記憶する。例えば、符号化部１１１での符号化としてＣＥＬＰ符号化を用いる場合は、状態データ記憶部１１２は、適応符号帳データ、ＬＰＣ合成フィルタ状態データ等を状態データとして記憶する。また、ＬＰＣパラメータや駆動音源ゲインパラメータ等として予測量子化が用いられる場合は、状態データ記憶部１１２は、さらに、ＬＰＣパラメータや駆動音源ゲインパラメータの予測フィルタ状態データを記憶する。状態データ記憶部１１２は、第ｎフレームの状態データＳＴ（ｎ）を拡張レイヤ符号化部１２の通常符号化部１２１に出力するとともに、第ｎ−１フレームの状態データＳＴ（ｎ−１）を符号化部１１１およ
び損失補償部１１４に出力する。

遅延部１１３は、符号化部１１１から第ｎフレームのコアレイヤ符号化データＬ１（ｎ）が入力され、第ｎ−１フレームのコアレイヤ符号化データＬ１（ｎ−１）を出力する。すなわち、遅延部１１３が出力するＬ１（ｎ−１）は、１フレーム前の符号化処理において符号化部１１１から入力された第ｎ−１フレームのコアレイヤ符号化データＬ１（ｎ−１）を１フレーム遅延させ、第ｎフレームの符号化処理において出力したものである。

損失補償部１１４は、第ｎフレームに損失が生じた場合にスケーラブル復号装置側でそのフレーム損失に対して行われる損失補償処理と同一の損失補償処理を行う。損失補償部１１４は、第ｎ−１フレームのコアレイヤ符号化データＬ１（ｎ−１）および状態データＳＴ（ｎ−１）を用いて第ｎフレームの損失に対する損失補償処理を行う。そして、損失補償部１１４は、その損失補償処理によって第ｎ−１フレームの状態データＳＴ（ｎ−１）を第ｎフレームの状態データＳＴ'（ｎ）に更新し、その更新後の状態データＳＴ'（ｎ）を遅延部１１５に出力する。

遅延部１１５は、第ｎフレームの損失に対する損失補償処理により生成された第ｎフレームの状態データＳＴ'（ｎ）が入力され、第ｎ−１フレームの損失に対する損失補償処理により生成された第ｎ−１フレームの状態データＳＴ'（ｎ−１）を出力する。すなわち、遅延部１１５が出力するＳＴ'（ｎ−１）は、１フレーム前の符号化処理において損失補償部１１４から入力された第ｎ−１フレームの状態データＳＴ'（ｎ−１）を１フレーム遅延させ、第ｎフレームの符号化処理において出力したものである。この状態データＳＴ'（ｎ−１）は、図１に示す局部復号部１２２および判定部１２５に入力される。

復号部１１６は、コアレイヤ符号化データＬ１（ｎ）を復号してコアレイヤ復号データＳＤ_Ｌ１（ｎ）を生成する。

以上、コアレイヤ符号化部１１の各部の詳細について説明した。

図１に示す拡張レイヤ符号化部１２では、局部復号部１２２が、第ｎフレームのコアレイヤ符号化データＬ１（ｎ）の復号を行って、コアレイヤの復号データＳＤ_Ｌ１'（ｎ）を生成する。この際、第ｎ−１フレームがフレーム損失補償されていることが前提となるため、局部復号部１２２は、復号時の状態データとして、状態データＳＴ'（ｎ−１）を用いる。そして、局部復号部１２２は、復号データＳＤ_Ｌ１'（ｎ）および状態データＳＴ'（ｎ−１）を出力する。

劣化補正符号化部１２３は、第ｎ−１フレームがフレーム損失補償されていることを前提に、復号データＳＤ_Ｌ１'（ｎ）の音声品質の劣化を補正する符号化を行う。劣化補正符号化部１２３は、通常符号化部１２１で行われる通常の符号化と同一の符号化を、入力音声信号Ｓ（ｎ）およびコアレイヤ符号化データＬ１（ｎ）を用い、第ｎ−１フレームのフレーム損失補償を前提とした状態データＳＴ'（ｎ−１）を基にして、復号データＳＤ_Ｌ１'（ｎ）に対する拡張レイヤの符号化を行い、拡張レイヤ劣化補正符号化データＬ２'（ｎ）を生成する。

なお、劣化補正符号化部１２３では、復号データＳＤ_Ｌ１'（ｎ）と入力音声信号Ｓ（ｎ）との誤差信号を符号化して拡張レイヤ劣化補正符号化データＬ２'（ｎ）を生成してもよい。

判定部１２５は、第ｎフレームの拡張レイヤ符号化データとして、拡張レイヤ通常符号化データＬ２（ｎ）または拡張レイヤ劣化補正符号化データＬ２'（ｎ）のいずれを拡張
レイヤ符号化部１２から出力すべきか判定し、その判定結果フラグｆｌａｇ（ｎ）を選択部１２４および送信部１３に出力する。判定部１２５は、（i）第ｎ−１フレームでのフレーム損失補償により生じる第ｎフレームでのコアレイヤの音声品質の劣化度合いが所定値より大きい（すなわち、第ｎ−１フレームでのコアレイヤのフレーム損失補償能力（補償時の復号音声品質）が所定値より低い）、または、（ii）第ｎフレームでの拡張レイヤ符号化による音声品質の改善度合いが所定値より小さい、または、（iii）第ｎフレームでの拡張レイヤに対するフレーム損失補償能力（補償時の復号音声品質）が所定値より高い場合に、第ｎフレームの拡張レイヤ符号化データとして、拡張レイヤ劣化補正符号化データＬ２'（ｎ）を拡張レイヤ符号化部１２から出力すべきと判定し、その判定結果フラグｆｌａｇ（ｎ）＝１を出力し、それら以外の場合は、第ｎフレームの拡張レイヤ符号化データとして、拡張レイヤ通常符号化データＬ２（ｎ）を拡張レイヤ符号化部１２から出力すべきと判定し、その判定結果フラグｆｌａｇ（ｎ）＝０を出力する。なお、上記（i）および（ii）の双方に該当する場合に、判定部１２５が拡張レイヤ劣化補正符号化データＬ２'（ｎ）を拡張レイヤ符号化部１２から出力すべきと判定してもよい。

より具体的には、判定部１２５は以下に示す判定を行う。

＜判定方法１＞
判定部１２５は、局部復号部１２２で得られる復号データＳＤ_Ｌ１'（ｎ）のコアレイヤ復号データＳＤ_Ｌ１（ｎ）に対するＳＮＲを、第ｎ−１フレームでのフレーム損失補償により生じる第ｎフレームでのコアレイヤの音声品質の劣化度合いとして測定し、その差が所定値以上であれば判定結果フラグｆｌａｇ（ｎ）＝１を出力し、その差が所定値未満であれば判定結果フラグｆｌａｇ（ｎ）＝０を出力する。

＜判定方法２＞
音声の立ち上がり部や無声非定常子音部など前フレームからの変化が大きい音声フレームや、非定常信号の音声フレームは、過去のフレームを用いたフレーム損失補償の能力が低いため、前フレームのフレーム損失を想定した場合、これらの音声フレームについては、局部復号部１２２で得られる復号データＳＤ_Ｌ１'（ｎ）の音声品質の劣化度合いも大きい。そこで、判定部１２５は、入力音声信号Ｓ（ｎ−１）と入力音声信号Ｓ（ｎ）とを比較し、それらの間でのパワーの差、ピッチ分析パラメータ（ピッチ周期、ピッチ予測ゲイン）の差、ＬＰＣスペクトルの差等が所定値以上であれば判定結果フラグｆｌａｇ（ｎ）＝１を出力し、それらの差が所定値未満であれば判定結果フラグｆｌａｇ（ｎ）＝０を出力する。

＜判定方法３＞
判定部１２５は、拡張レイヤまで符号化が行われる場合の符号化歪みが、コアレイヤのみで符号化が行われる場合の符号化歪に対してどの程度減少するかを測定し、その減少分が所定値未満であれば判定結果フラグｆｌａｇ（ｎ）＝１を出力し、その減少分が所定値以上であれば判定結果フラグｆｌａｇ（ｎ）＝０を出力する。同様に、判定部１２５は、拡張レイヤまで符号化が行われる場合の復号データＳＤ_Ｌ２（ｎ）の入力音声信号Ｓ（ｎ）に対するＳＮＲが、コアレイヤのみで符号化が行われる場合の復号データＳＤ_Ｌ１（ｎ）の入力音声信号Ｓ（ｎ）に対するＳＮＲに対してどの程度増加するかを測定し、その増加分が所定値未満であれば判定結果フラグｆｌａｇ（ｎ）＝１を出力し、その増加分が所定値以上であれば判定結果フラグｆｌａｇ（ｎ）＝０を出力するようにしてもよい。

＜判定方法４＞
スケーラブル符号化が帯域スケーラブル構成をとる場合、判定部１２５は、入力音声信号の音声帯域の偏り、すなわち、コアレイヤの対象となる低域の信号エネルギーが全帯域に占める割合を算出し、その割合が所定値以上であれば、拡張レイヤの符号化による音声
品質の改善度合いが低いと判断して判定結果フラグｆｌａｇ（ｎ）＝０を出力し、その割合が所定値未満であれば判定結果フラグｆｌａｇ（ｎ）＝１を出力する。

以上、判定部１２５での判定方法について説明した。このような判定を行って、拡張レイヤ劣化補正符号化データを拡張レイヤ符号化データとする場合を限定することで、フレーム損失が発生しない場合に、拡張レイヤ通常符号化データを用いた復号ができないことによる音声品質の劣化を最小限に抑えて、コアレイヤのフレーム損失耐性を向上させることができる。

選択部１２４は、判定部１２５からの判定結果フラグｆｌａｇ（ｎ）に従って、拡張レイヤ通常符号化データＬ２（ｎ）または拡張レイヤ劣化補正符号化データＬ２'（ｎ）のいずれかを選択して送信部１３に出力する。選択部１２４は、判定結果フラグｆｌａｇ（ｎ）＝０の場合は拡張レイヤ通常符号化データＬ２（ｎ）を選択し、判定結果フラグｆｌａｇ（ｎ）＝１の場合は拡張レイヤ劣化補正符号化データＬ２'（ｎ）を選択する。

次いで、図３に、フレーム損失時の処理を示す。今、送信側（スケーラブル符号化装置１０）で、第ｎフレームの拡張レイヤの符号化において拡張レイヤ劣化補正符号化データＬ２'（ｎ）が選択され、受信側（スケーラブル復号装置側）で、第ｎ−１フレームにフレーム損失が発生して第ｎ−１フレームが第ｎ−２フレームを用いて損失補償された場合を想定すると、受信側の第ｎフレームでは、第ｎ−１フレームのフレーム損失を前提とせずに符号化されたＬ１（ｎ）の復号音声の品質劣化を、第ｎ−１フレームのフレーム損失を前提として符号化されたＬ２'（ｎ）を用いて改善することができる。

図４は、本発明の実施の形態１に係るスケーラブル復号装置２０の構成を示すブロック図である。スケーラブル復号装置２０は、スケーラブル符号化装置１０に合わせ、コアレイヤと拡張レイヤの２階層からなる構成を採る。以下、スケーラブル復号装置２０がスケーラブル符号化装置１０から第ｎフレームの符号化データを受信し、復号処理を行う場合について説明する。

受信部２１は、スケーラブル符号化装置１０から、コアレイヤ符号化データＬ１（ｎ）、拡張レイヤ符号化データ（拡張レイヤ通常符号化データＬ２（ｎ）または拡張レイヤ劣化補正符号化データＬ２'（ｎ））および判定結果フラグｆｌａｇ（ｎ）が多重化された符号化データを受信し、コアレイヤ符号化データＬ１（ｎ）をコアレイヤ復号部２２に、拡張レイヤ符号化データを切替部２３２に、判定結果フラグｆｌａｇ（ｎ）を復号モード制御部２３１に出力する。

また、コアレイヤ復号部２２および拡張レイヤ復号部２３の復号モード制御部２３１には、フレーム損失検出部（図示せず）から第ｎフレームのフレーム損失の有無を示すフレーム損失フラグｆｌａｇ＿ＦＬ（ｎ）が入力される。

以下、判定結果フラグおよびフレーム損失フラグの内容に従って行われる復号処理について図５を用いて説明する。なお、フレーム損失フラグ（ｆｌａｇ＿ＦＬ（ｎ−１），ｆｌａｇ＿ＦＬ（ｎ））については、‘０’がフレーム損失がないことを示し、‘１’がフレーム損失があったことを示す。

＜条件１：ｆｌａｇ＿ＦＬ（ｎ−１）＝０，ｆｌａｇ＿ＦＬ（ｎ）＝０，ｆｌａｇ（ｎ）＝０の場合＞
コアレイヤ復号部２２は、受信部２１から入力されるコアレイヤ符号化データＬ１（ｎ）を用いて復号処理を行い、第ｎフレームのコアレイヤ復号信号を生成する。このコアレイヤ復号信号は、拡張レイヤ復号部２３の復号部２３３にも入力される。また、拡張レイ
ヤ復号部２３では、復号モード制御部２３１が切替部２３２，２３５をａ側に切り替える。よって、復号部２３３が、拡張レイヤ通常符号化データＬ２（ｎ）を用いて復号処理を行い、コアレイヤおよび拡張レイヤ双方での復号結果である拡張レイヤ復号信号を出力する。

＜条件２：ｆｌａｇ＿ＦＬ（ｎ−１）＝０，ｆｌａｇ＿ＦＬ（ｎ）＝０，ｆｌａｇ（ｎ）＝１の場合＞
コアレイヤ復号部２２は、受信部２１から入力されるコアレイヤ符号化データＬ１（ｎ）を用いて復号処理を行い、第ｎフレームのコアレイヤ復号信号を生成する。このコアレイヤ復号信号は、拡張レイヤ復号部２３の復号部２３３にも入力される。また、拡張レイヤ復号部２３では、復号モード制御部２３１が切替部２３２，２３５をａ側に切り替える。ｆｌａｇ（ｎ）＝１であり、拡張レイヤ通常符号化データＬ２（ｎ）は受信されていないため、復号部２３３は、第ｎ−１フレームまでの拡張レイヤ通常符号化データ、それを用いて復号した拡張レイヤ復号信号、および、第ｎフレームのコアレイヤ復号信号（または復号に用いられる復号パラメータ等）を用いて拡張レイヤの第ｎフレームに対する補償処理を行い、第ｎフレームの拡張レイヤ復号信号を生成し、出力する。

＜条件３：ｆｌａｇ＿ＦＬ（ｎ）＝１の場合＞
第ｎフレームの符号化データは一切受信されていないため、コアレイヤ復号部２２は、第ｎ−１フレームまでのコアレイヤ符号化データ、それを用いて復号したコアレイヤ復号信号、および、復号に用いられた復号パラメータ等からコアレイヤの第ｎフレームに対する補償処理を行い、第ｎフレームのコアレイヤ復号信号を生成する。また、拡張レイヤ復号部２３では、復号モード制御部２３１が切替部２３２，２３５をａ側に切り替える。復号部２３３は、第ｎ−１フレームまでの拡張レイヤ通常符号化データ、それを用いて復号した復号信号、および、第ｎフレームのコアレイヤ復号信号（または復号に用いられる復号パラメータ）等から拡張レイヤの第ｎフレームに対する補償処理を行い、第ｎフレームの拡張レイヤ復号信号を生成し、出力する。

＜条件４：ｆｌａｇ＿ＦＬ（ｎ−１）＝１，ｆｌａｇ＿ＦＬ（ｎ）＝０，ｆｌａｇ（ｎ）＝０の場合＞
第ｎ−１フレームでフレーム損失が発生している点において条件１と異なる。しかし、復号処理は条件１の場合と同一である。

＜条件５：ｆｌａｇ＿ＦＬ（ｎ−１）＝１，ｆｌａｇ＿ＦＬ（ｎ）＝０，ｆｌａｇ（ｎ）＝１の場合＞
コアレイヤ復号部２２は、受信部２１から入力されるコアレイヤ符号化データＬ１（ｎ）を用いて復号処理を行い、第ｎフレームのコアレイヤ復号信号を生成する。このコアレイヤ復号信号は、拡張レイヤ復号部２３の劣化補正復号部２３４にも入力される。また、拡張レイヤ復号部２３では、復号モード制御部２３１が切替部２３２，２３５をｂ側に切り替える。第ｎ−１フレームにおいてフレーム損失が発生して損失補償が行われ、かつ、そのフレーム損失補償を前提にした符号化（劣化を補正する符号化）により生成された拡張レイヤ劣化補正符号化データＬ２'（ｎ）が受信されるため、劣化補正復号部２３４は、拡張レイヤ劣化補正符号化データＬ２'（ｎ）を用いて復号処理を行い、コアレイヤおよび拡張レイヤ双方での復号結果である拡張レイヤ復号信号を出力する。また、その復号処理の過程で状態データは更新され、その更新に伴い、コアレイヤ復号部２２に記憶されている状態データも同様に更新される。

ここで、上記図３に示した受信側（スケーラブル復号装置側）の第ｎフレームでの処理は、上記条件５の場合の復号処理である。すなわち、スケーラブル復号装置２０は、第ｎ−１フレームに損失が発生したため第ｎ−１フレームを第ｎ−２フレームを用いて損失補
償し、第ｎフレームでは、第ｎ−１フレームの損失を前提として符号化されたＬ２'（ｎ）を用いて復号処理を行うことで、第ｎ−１フレームの損失を前提とせずに符号化されたＬ１（ｎ）による復号音声の品質劣化を改善することができる。

このように、本実施の形態によれば、スケーラブル符号化装置が、第ｎフレームに対する拡張レイヤの符号化において、第ｎ−１フレームにおけるフレーム損失に対する損失補償を前提とした符号化を行うため、スケーラブル復号装置において、第ｎ−１フレームに損失が発生して損失補償がなされた場合でも、伝送ビットレートを増加させることなく、第ｎフレームでの復号音声の品質劣化を改善することができる。

（実施の形態２）
図６は、本発明の実施の形態２に係るスケーラブル符号化装置３０の構成を示すブロック図である。図６において、コアレイヤ符号化データＬ１（ｎ）に代えて第ｎ−１フレームの状態データＳＴ'（ｎ−１）が劣化補正符号化部１２３に入力される点、および、局部復号部１２２からの出力が劣化補正符号化部１２３に入力されない点において、実施の形態１（図１）と異なる。

図６に示す劣化補正符号化部１２３は、第ｎ−１フレームがフレーム損失補償されていることを前提に、第ｎ−１フレームのフレーム損失補償を前提とした状態データＳＴ'（ｎ−１）を用いて、第ｎフレームの入力音声信号Ｓ（ｎ）に対する符号化を行い、拡張レイヤ劣化補正符号化データＬ２'（ｎ）を生成する。つまり、本実施の形態に係る劣化補正符号化部１２３は、コアレイヤの符号化を前提に拡張レイヤの符号化を行うのではなく、入力音声信号に対してコアレイヤとは独立に符号化行う。

一方、本実施の形態に係るスケーラブル復号装置の構成は実施の形態１（図４）と同一であるが、上記条件５における復号処理において実施の形態１と異なる。すなわち、上記条件５に該当する場合、劣化補正復号部２３４が、コアレイヤ復号データに依存せずに拡張レイヤ劣化補正符号化データＬ２'（ｎ）を用いて復号処理を行う点が実施の形態１と異なる。

なお、本実施の形態においては、劣化補正符号化部１２３は、全てリセットされた状態データを用いて入力音声信号に対する符号化を行ってもよい。このようにすることで、スケーラブル復号装置において、フレーム損失の連続発生回数に影響されることなく、スケーラブル符号化装置での符号化との整合性を維持したまま、拡張レイヤ劣化補正符号化データを用いて復号音声を生成することができる。

このように、本実施の形態によれば、劣化補正符号化部１２３が、コアレイヤの符号化を前提に拡張レイヤの符号化を行うのではなく、入力音声信号に対してコアレイヤとは独立に符号化行うため、スケーラブル復号装置において第ｎ−１フレームの損失補償により第ｎフレームのコアレイヤ復号信号に大きな劣化が生じるような場合でも、その劣化に影響されることなく拡張レイヤ劣化補正符号化データを用いて復号音声の品質を改善することができる。

以上、本発明の各実施の形態について説明した。

なお、上記各実施の形態ではスケーラブル構成が二階層からなる場合を例にとって説明したが、本発明は、三階層以上のスケーラブル構成に対しても上記同様に実施することができる。

また、上記各実施の形態ではフレーム損失が単発で発生する場合を想定した構成につい
て説明したが、フレーム損失が連続して発生する場合を想定した構成を採ることも可能である。すなわち、劣化補正符号化部１２３が、第ｎ−１フレームを含むｍフレーム（ｍ＝１,２,３,…,Ｎ）で連続してフレーム損失補償がなされた前提で符号化を行い、ｍ回連続して発生するフレーム損失に対応する拡張レイヤ劣化補正符号化データＬ２'＿ｍ（ｎ）を所望フレーム数までＮセットまとめて出力し、劣化補正復号部２３４が、実際に連続して生じたフレーム損失数ｋに応じた拡張レイヤ劣化補正符号化データＬ２'＿ｋ（ｎ）を用いて復号を行うようにすればよい。

また、フレーム損失が単発で発生する場合を想定した上記各実施の形態の構成を用いてフレーム損失が連続して発生した場合に対応するためには、スケーラブル復号装置において、拡張レイヤ劣化補正符号化データＬ２'（ｎ）を用いずに拡張レイヤでのフレーム損失補償処理を行って拡張レイヤの復号音声信号を生成するようにしてもよい。

また、劣化補正符号化部１２３の構成を、実施の形態１と実施の形態２とを組み合わせたものにしてもよい。すなわち、劣化補正符号化部１２３が、実施の形態１および２双方の符号化を行い、符号化歪みをより小さくできる拡張レイヤ劣化補正符号化データＬ２'（ｎ）を選択し、選択情報と共に出力するようにしてもよい。これにより、フレーム損失が発生したフレームの次の正常フレームでの復号音声の品質劣化をより改善することができる。

また、伝送単位として１フレームまたは複数フレームで構成されるパケットが用いられるネットワーク（例えば、ＩＰネットワーク等）に本発明を適用する場合には、上記各実施の形態における「フレーム」を「パケット」と読み替えればよい。

また、上記各実施の形態に係るスケーラブル符号化装置、スケーラブル復号装置を、移動体通信システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の無線通信装置に搭載することも可能である。

また、上記説明では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るスケーラブル符号化方法およびスケーラブル復号方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るスケーラブル符号化装置およびスケーラブル復号装置と同様の機能を実現することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。

２００５年１１月３０日出願の特願２００５−３４６１６９の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明に係るスケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法は音声符号化等の用途に適用することができる。

実施の形態１に係るスケーラブル符号化装置の構成を示すブロック図実施の形態１に係るコアレイヤ符号化部の構成を示すブロック図実施の形態１に係るフレーム損失時の処理の説明図実施の形態１に係るスケーラブル復号装置の構成を示すブロック図実施の形態１に係るスケーラブル復号装置の復号処理の説明図実施の形態２に係るスケーラブル符号化装置の構成を示すブロック図

Claims

低位レイヤと高位レイヤとからなるスケーラブル符号化装置であって、
前記低位レイヤにおける符号化を行って低位レイヤ符号化データを生成する低位レイヤ符号化手段と、
前記低位レイヤ符号化データのフレーム損失に対してあらかじめ設定された損失補償を行って状態データを生成する損失補償手段と、
前記高位レイヤにおける符号化を行って第１の高位レイヤ符号化データを生成する高位レイヤ第１符号化手段と、
前記高位レイヤにおいて、前記状態データを用いて、音声品質の劣化を補正する符号化を行って第２の高位レイヤ符号化データを生成する高位レイヤ第２符号化手段と、
前記第１の高位レイヤ符号化データまたは前記第２の高位レイヤ符号化データのいずれかを、送信用データとして選択する選択手段と、
を具備するスケーラブル符号化装置。
前記選択手段は、前記損失補償により生じる前記低位レイヤの音声品質の劣化度合いが所定値より大きい場合に、前記第２の高位レイヤ符号化データを選択する、
請求項１記載のスケーラブル符号化装置。
前記選択手段は、前記高位レイヤでの符号化による音声品質の改善度合いが所定値より小さい場合に、前記第２の高位レイヤ符号化データを選択する、
請求項１記載のスケーラブル符号化装置。
前記高位レイヤ第２符号化手段は、前記低位レイヤ符号化データの復号データをさらに用いて生成した高位レイヤ符号化データと、前記低位レイヤ符号化データの復号データを用いずに生成した高位レイヤ符号化データとのうち、符号化歪みをより小さくできる高位レイヤ符号化データを前記第２の高位レイヤ符号化データとする、
請求項１記載のスケーラブル符号化装置。
請求項１記載のスケーラブル符号化装置を具備する無線通信移動局装置。
請求項１記載のスケーラブル符号化装置を具備する無線通信基地局装置。
低位レイヤと高位レイヤとからなるスケーラブル符号化装置において使用されるスケーラブル符号化方法であって、
前記低位レイヤにおける符号化を行って低位レイヤ符号化データを生成する低位レイヤ符号化工程と、
前記低位レイヤ符号化データのフレーム損失に対してあらかじめ設定された損失補償を行って状態データを生成する損失補償工程と、
前記高位レイヤにおける符号化を行って第１の高位レイヤ符号化データを生成する高位レイヤ第１符号化工程と、
前記高位レイヤにおいて、前記状態データを用いて、音声品質の劣化を補正する符号化を行って第２の高位レイヤ符号化データを生成する高位レイヤ第２符号化工程と、
前記第１の高位レイヤ符号化データまたは前記第２の高位レイヤ符号化データのいずれかを、送信用データとして選択する選択工程と、
を具備するスケーラブル符号化方法。