JP2007034230A

JP2007034230A - 音声符号化装置及び方法、並びに音声復号装置及び方法

Info

Publication number: JP2007034230A
Application number: JP2005221524A
Authority: JP
Inventors: Takashi Onuma; 孝至大沼; Yasuhiro Tokuri; 康裕戸栗; Hideaki Watanabe; 秀明渡辺; Noriteru Fujita; 式曜藤田; Kaiho Awabi; 海峰鮑; Manabu Uchino; 学内野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-07-29
Filing date: 2005-07-29
Publication date: 2007-02-08
Anticipated expiration: 2025-07-29
Also published as: CN1905010A; US20070043575A1; US8566105B2; JP4640020B2; CN1905010B

Abstract

【課題】スケーラブルロスレスストリームを生成・復号することができ、且つ、ロスレスなストリームを生成・復号する際の処理時間を短縮することが可能な音声符号化装置及びその方法、並びに音声復号装置及びその方法を提供する。
【解決手段】ロッシーコアエンコーダ部１１は、入力音声信号を不可逆圧縮してコアストリームを生成する。簡略化ロッシーコアデコーダ部１２は、コアストリームの例えば低周波数帯域のみを復号してロッシーな復号音声信号を生成する。減算器１４では、遅延された入力音声信号からロッシーな復号音声信号が減算され、残差信号が生成される。丸め処理部１５は、残差信号のビット数を丸める処理を行う。ロスレスエンハンスエンコーダ部１６は、残差信号を可逆圧縮してエンハンスストリームを生成し、ストリーム結合部１７は、コアストリームとエンハンスストリームとを結合してスケーラブルロスレスストリームを生成する。
【選択図】図１

Description

本発明は、不可逆（ロッシー）圧縮と可逆（ロスレス）圧縮とのスケーラビリティを実現する音声符号化装置及びその方法、並びに音声復号装置及びその方法に関する。

従来、入力音声信号を不可逆（ロッシー）圧縮してコア（基本層）ストリームを生成すると共に、残差信号を可逆（ロスレス）圧縮してエンハンス（拡張層）ストリームを生成し、これらを１つのストリームに結合することで、不可逆圧縮と可逆圧縮とのスケーラビリティを実現する音声符号化装置が提案されている（特許文献１参照）。音声復号装置では、コアストリームを復号することで、ロッシーな復号音声信号を生成することができ、コアストリーム及びエンハンスストリームを復号して両者を加算することで、ロスレスな復号音声信号を生成することができる。

このような従来の音声符号化装置の概略構成の一例を図１２に示す。図１２に示すように、音声符号化装置１００は、ロッシーコアエンコーダ部１０１と、ロッシーコアデコーダ部１０２と、ディレイ補正部１０３と、減算器１０４と、ロスレスエンハンスエンコーダ部１０５と、ストリーム結合部１０６とから構成されている。

この音声符号化装置１００において、ロッシーコアエンコーダ部１０１は、ＰＣＭ（Pulse Code Modulation）信号である入力音声信号を不可逆圧縮してコアストリームを生成し、ロッシーコアデコーダ部１０２は、このコアストリームを復号してロッシーな復号音声信号を生成する。減算器１０４では、ディレイ補正部１０３でロッシーコアエンコーダ部１０１及びロッシーコアデコーダ部１０２における遅延分だけ遅延された入力音声信号からロッシーな復号音声信号が減算され、残差信号が生成される。ロスレスエンハンスエンコーダ部１０５は、この残差信号を可逆圧縮してエンハンスストリームを生成し、ストリーム結合部１０６は、コアストリームとエンハンスストリームとを結合してスケーラブルロスレスストリームを生成する。

この音声符号化装置１００に対応した音声復号装置の概略構成の一例を図１３に示す。図１３に示すように、音声復号装置１１０は、ストリーム分離部１１１と、ロッシーコアデコーダ部１１２と、ロスレスエンハンスデコーダ部１１３と、加算器１１４とから構成されている。

この音声復号装置１１０において、ストリーム分離部１１１は、入力されたスケーラブルロスレスストリームをコアストリームとエンハンスストリームとに分離する。ロッシーコアデコーダ部１１２は、コアストリームを復号してロッシーなＰＣＭ信号である復号音声信号を生成して出力する。一方、ロスレスエンハンスデコーダ部１１３は、エンハンスストリームを復号して残差信号を生成する。加算器１１４では、この残差信号とロッシーな復号音声信号とが同じ時間軸で加算されてロスレスなＰＣＭ信号である復号音声信号が生成され、出力される。

ここで、音声符号化装置１００におけるロッシーコアエンコーダ部１０１の概略構成の一例を図１４に示す。図１４に示すように、ロッシーコアエンコーダ部１０１は、帯域分割フィルタ１２１と、正弦波信号抽出部１２２と、時間−周波数変換部１２３と、ビットアロケーション部１２４と、マルチプレクサ部１２５とから構成されている。

このロッシーコアエンコーダ部１０１において、帯域分割フィルタ１２１は、入力音声信号を複数の周波数帯域に分割し、正弦波信号抽出部１２２は、各周波数帯域の時間信号から正弦波信号を抽出し、正弦波信号構成用のパラメータをマルチプレクサ部１２５に供給する。時間−周波数変換部１２３は、正弦波が抽出された残りの各周波数帯域の時間信号をＭＤＣＴ（Modified Discrete Cosine Transform）により各周波数帯域のスペクトル信号に変換し、ビットアロケーション部１２４は、このスペクトル信号に対してビット割当を行って符号化し、量子化スペクトル信号を生成する。マルチプレクサ部１２５は、正弦波信号構成用のパラメータと量子化スペクトル信号とを纏めてコアストリームを生成する。

また、音声符号化装置１００におけるロッシーコアデコーダ部１０２の概略構成の一例を図１５に示す。なお、音声復号装置１１０におけるロッシーコアデコーダ部１１２も同様の構成である。図１５に示すように、ロッシーコアデコーダ部１０２は、デマルチプレクサ部１３１と、正弦波信号再構成部１３２と、スペクトル信号再構成部１３３と、周波数−時間変換部１３４と、ゲイン制御部１３５と、正弦波信号付加部１３６と、帯域合成フィルタ１３７とから構成されている。

このロッシーコアデコーダ部１０２において、デマルチプレクサ部１３１は、入力されたコアストリームを正弦波信号構成用のパラメータと量子化スペクトル信号とに分離する。正弦波信号再構成部１３２は、この正弦波信号構成用のパラメータに基づいて正弦波信号を再構成する。スペクトル信号再構成部１３３は、量子化スペクトル信号を復号して各周波数帯域のスペクトル信号を生成し、周波数−時間変換部１３４は、各周波数帯域のスペクトル信号をＩＭＤＣＴ（Inverse MDCT）により各周波数帯域の時間信号に変換し、ゲイン制御部１３５は、各周波数帯域の時間信号のゲインを調整する。正弦波信号付加部１３６は、この各周波数帯域の時間信号に対して正弦波信号を付加し、帯域合成フィルタ１３７は、全周波数帯域の時間信号を帯域合成してロッシーな復号音声信号を生成する。

米国特許出願公開第２００３／０１７１９１９号明細書

ところで、通常、ロッシーなストリームを復号するデコーダには、そのデコーダで復号した信号が満たさなければならない音質規準が定められており、その規準を満たすようにデコーダを設計する必要がある。

従来は、全体としてロスレスに圧縮されているデータの一部にロッシーに圧縮されたデータが含まれているスケーラブルロスレスストリームの生成・復号時においても、エンハンスストリームを生成・復号するためのステップの１つとして行うコアストリームの復号に、上記のような定められた音質規準を満たすのに必要な全ての処理を行うデコーダ（図１２，図１３におけるロッシーコアデコーダ１０２，１１２）が用いられていた。このため、スケーラブルロスレスストリームを生成・復号する音声符号化装置、音声復号装置においてロスレスなストリームを生成・復号する場合には、ロスレスなストリームのみを生成・復号する音声符号化装置、音声復号装置と比較して、処理時間が長くかかってしまうことになる。

本発明は、このような従来の実情に鑑みて提案されたものであり、スケーラブルロスレスストリームを生成・復号することができ、且つ、ロスレスなストリームを生成・復号する際の処理時間を短縮することが可能な音声符号化装置及びその方法、並びに音声復号装置及びその方法を提供することを目的とする。

上述した目的を達成するために、本発明に係る音声符号化装置及びその方法は、入力音声信号を複数の周波数帯域に帯域分割し、各周波数帯域の入力音声信号を時間−周波数変換してスペクトル信号とした後、不可逆圧縮してコアストリームを生成するコアストリーム符号化手段（工程）と、上記コアストリームのうち、所定の周波数帯域のスペクトル信号のみを復号して復号信号を生成するコアストリーム復号手段（工程）と、上記入力音声信号から上記復号信号を減算し、残差信号を生成する減算手段（工程）と、上記残差信号を可逆圧縮してエンハンスストリームを生成するエンハンスストリーム符号化手段（工程）と、上記コアストリームと上記エンハンスストリームとを結合してスケーラブルロスレスストリームを生成するストリーム結合手段（工程）とを備えることを特徴とする。

また、上述した目的を達成するために、本発明に係る音声復号装置及びその方法は、入力音声信号を複数の周波数帯域に帯域分割し、各周波数帯域の入力音声信号を時間−周波数変換してスペクトル信号とした後、不可逆圧縮して得られたコアストリームと、上記入力音声信号から上記コアストリームを復号した復号信号を減算した残差信号を可逆圧縮して得られたエンハンスストリームとが結合されたスケーラブルロスレスストリームを、上記コアストリームと上記エンハンスストリームとに分離するストリーム分離手段（工程）と、上記コアストリームの全周波数帯域のスペクトル信号を復号し、ロッシーな復号音声信号を生成する第１のコアストリーム復号手段（工程）と、上記コアストリームのうち、所定の周波数帯域のスペクトル信号のみを復号して復号信号を生成する第２のコアストリーム復号手段（工程）と、上記エンハンスストリームを復号し、上記残差信号を生成するエンハンスストリーム復号手段（工程）と、上記復号信号と上記残差信号とを加算してロスレスな復号音声信号を生成する加算手段（工程）とを備えることを特徴とする。

また、本発明に係る音声復号装置及びその方法は、入力音声信号を複数の周波数帯域に帯域分割し、各周波数帯域の入力音声信号を時間−周波数変換してスペクトル信号とした後、不可逆圧縮して得られたコアストリームと、上記入力音声信号から上記コアストリームを復号した復号信号を減算した残差信号を可逆圧縮して得られたエンハンスストリームとが結合されたスケーラブルロスレスストリームを、上記コアストリームと上記エンハンスストリームとに分離するストリーム分離手段（工程）と、上記コアストリームの全周波数帯域のスペクトル信号を復号してロッシーな復号音声信号を生成するか、又は上記コアストリームのうち、所定の周波数帯域のスペクトル信号のみを復号して復号信号を生成するかを切り換えるコアストリーム復号手段（工程）と、上記エンハンスストリームを復号し、上記残差信号を生成するエンハンスストリーム復号手段（工程）と、上記復号信号と上記残差信号とを加算してロスレスな復号音声信号を生成する加算手段（工程）とを備えることを特徴とする。

本発明に係る音声符号化装置及びその方法、並びに音声復号装置及びその方法によれば、エンハンスストリームを生成・復号する際に、コアストリームのうち、所定の周波数帯域のスペクトル信号しか復号しないため、エンハンスストリームを生成・復号する際の処理時間を短縮することが可能とされる。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

（第１の実施の形態）
先ず、第１の実施の形態における音声符号化装置の概略構成を図１に示す。図１に示すように、音声符号化装置１０は、ロッシーコアエンコーダ部１１と、簡略化ロッシーコアデコーダ部１２と、ディレイ補正部１３と、減算器１４と、丸め処理部１５と、ロスレスエンハンスエンコーダ部１６と、ストリーム結合部１７とから構成されている。

この音声符号化装置１０において、ロッシーコアエンコーダ部１１は、前述した図１４のような構成であり、ＰＣＭ信号である入力音声信号を不可逆圧縮して正弦波信号構成用のパラメータと量子化スペクトル信号とからなるコアストリームを生成する。ロッシーコアエンコーダ部１１は、このコアストリームを簡略化ロッシーコアデコーダ部１２及びストリーム結合部１７に供給する。

簡略化ロッシーコアデコーダ部１２は、ロッシーコアエンコーダ部１１から供給されたコアストリームを復号して復号信号を生成し、この復号信号を減算器１４に供給する。特に、簡略化ロッシーコアデコーダ部１２は、前述した図１５のような従来のロッシーコアデコーダ部よりも簡略化された処理を行うが、この点については後述する。

減算器１４では、ディレイ補正部１３でロッシーコアエンコーダ部１１及び簡略化ロッシーコアデコーダ部１２における遅延分だけ遅延された入力音声信号から復号信号が減算され、残差信号が生成される。この残差信号は、丸め処理部１５に供給される。

丸め処理部１５は、残差信号を入力音声信号及び復号信号と同じビット数に丸める処理を行い、丸め処理後の残差信号をロスレスエンハンスエンコーダ部１６に供給する。すなわち、入力音声信号及び復号信号がｎビットである場合、減算結果である残差信号はｎ＋１ビットとなるが、丸め処理部１５は、この残差信号をｎビットに丸める処理を行う。なお、この丸め処理部１５における処理については後述する。

ロスレスエンハンスエンコーダ部１６は、丸め処理部１５から供給された残差信号を可逆圧縮してエンハンスストリームを生成し、このエンハンスストリームをストリーム結合部１７に供給する。具体的に、ロスレスエンハンスエンコーダ部１６は、図２に示すように、予測器２１において、ＬＰＣ（Linear Predictive Coding）等の線形予測フィルタを用いて残差信号から予測パラメータ、及び残差信号と予測信号との差分信号を生成し、エントロピー符号化部２２において、予測パラメータと差分信号とを例えばGolomb-Rice 符号化等により符号化してエンハンスストリームを生成する。

ストリーム結合部１７は、コアストリームとエンハンスストリームとを結合してスケーラブルロスレスストリームを生成し、このスケーラブルロスレスストリームを外部に出力する。

生成されたスケーラブルロスレスストリームの構造の一例を図３に示す。図３に示すように、スケーラブルロスレスストリームは、ストリームヘッダの次にオーディオデータが続く構造となっている。ストリームヘッダは、メタデータとオーディオデータヘッダとで構成され、オーディオデータは、複数のオーディオデータフレームで構成される。オーディオデータフレームは、同期信号に続き、フレームヘッダ、コアレイヤフレームデータ、エンハンスレイヤフレームデータで構成される。但し、ロッシーコアエンコーダ部１１及び簡略化ロッシーコアデコーダ部１２で発生する遅延のため、最初のオーディオデータフレームには、エンハンスレイヤフレームデータが含まれない。

なお、この音声符号化装置１０における音声信号の処理単位は１０２４サンプル又は２０４８サンプルであり、何れの処理単位で処理が行われるかは、ロッシーコアエンコーダ部１１における処理単位に依存する。すなわち、ロッシーコアエンコーダ部１１における処理単位が１０２４サンプルであれば音声符号化装置１０全体の処理単位も１０２４サンプルとなり、ロッシーコアエンコーダ部１１における処理単位が２０４８サンプルであれば音声符号化装置１０全体の処理単位も２０４８サンプルとなる。

次に、第１の実施の形態における音声復号装置の概略構成を図４に示す。図４に示すように、音声復号装置３０は、ストリーム分離部３１と、通常版ロッシーコアデコーダ部３２と、簡略化ロッシーコアデコーダ部３３と、スイッチ３４と、ロスレスエンハンスデコーダ部３５と、加算器３６と、丸め処理部３７とから構成されている。

この音声復号装置３０において、ストリーム分離部３１は、入力されたスケーラブルロスレスストリームをコアストリームとエンハンスストリームとに分離し、コアストリームを通常版ロッシーコアデコーダ部３２又は簡略化ロッシーコアデコーダ部３３に供給すると共に、エンハンスストリームをロスレスエンハンスデコーダ部３５に供給する。コアストリームが通常版ロッシーコアデコーダ部３２及び簡略化ロッシーコアデコーダ部３３の何れに供給されるかは、スイッチ３４によって切り換えられる。具体的に、コアストリームは、ロッシーな復号音声信号を生成する場合には通常版ロッシーコアデコーダ部３２に供給され、ロスレスな復号音声信号を生成する場合には簡略化ロッシーコアデコーダ部３３に供給される。

通常版ロッシーコアデコーダ部３２は、前述した図１５のような構成であり、ストリーム分離部３１から供給されたコアストリームを復号してロッシーなＰＣＭ信号である復号音声信号を生成し、外部に出力する。

簡略化ロッシーコアデコーダ部３３は、ストリーム分離部３１から供給されたコアストリームを復号して復号信号を生成し、この復号信号を加算器３６に供給する。特に、簡略化ロッシーコアデコーダ部３３は、前述した図１５のような従来のロッシーコアデコーダ部よりも簡略化された処理を行うが、この点については後述する。

ロスレスエンハンスデコーダ部３５は、ストリーム分離部３１から供給されたエンハンスストリームを復号して残差信号を生成し、この残差信号を加算器３６に供給する。具体的に、ロスレスエンハンスデコーダ部３５は、図５に示すように、エントロピー復号部４１において、Golomb-Rice 符号化等により符号化されたエンハンスストリームを復号し、逆予測器４２において、例えばＬＰＣ合成を行うことにより残差信号を生成する。

加算器３６では、復号信号と残差信号とが同じ時間軸で加算され、ロスレスなＰＣＭ信号である復号音声信号が生成される。このロスレスな復号音声信号は、丸め処理部３７に供給される。

丸め処理部３７は、ロスレスな復号音声信号を残差信号及び復号信号と同じビット数に丸める処理を行い、丸め処理後のロッシーな復号音声信号を外部に出力する。すなわち、残差信号及び復号信号がｎビットである場合、加算結果であるロスレスな復号音声信号はｎ＋１ビットとなるが、丸め処理部３７は、このロスレスな復号音声信号をｎビットに丸める処理を行う。なお、この丸め処理部３７における処理については後述する。

続いて、丸め処理部１５，３７における処理について説明する。

入力音声信号及び復号信号がｎビットである場合、減算結果である残差信号はｎ＋１ビットとなるが、丸め処理部１５は、この残差信号をｎビットに丸める処理を行う。これにより、残差信号を効率よくエントロピー符号化できるとともに、処理ビット数がｎビット以下に限定された固定小数点ＬＳＩ等での実装が容易になる。

丸め処理部１５におけるｎビットへの丸め方法は、例えば以下の通りである。すなわち、Ｒを残差信号（ｎ＋１ビット符号付整数）、Ｚを丸め処理後の残差信号（ｎビット符号付整数）とすると、Ｍ＝２^ｎ−１として、
Ｚ＝Ｒ−２Ｍ（Ｒ≧Ｍ）
Ｚ＝Ｒ＋２Ｍ（Ｒ＜−Ｍ）
と計算する。

なお、残差信号が２の補数表現されているとすれば、単にＲの下位ｎビットを符号付き整数として取り出すだけでＺを求めることができる。２の補数表現における符号付整数とその下位ｎビットとの関係を図６に示す。正の値は反時計回りに半円上部で表現され、負の値は時計回りに半円下部で表現される。＋Ｍと−Ｍとは同じ表現であり、ＲがＭ又は−Ｍを超えると符号が反転する。

丸め処理部３７も上記と同様にして、ｎ＋１ビットのロスレスな復号音声信号をｎビットに丸める処理を行う。

一例として、ｎ＝１６ビット、Ｍ＝３２７６８の場合について説明する。

音声符号化装置１０において、入力音声信号をＸ、復号信号をＹとし、Ｘ＝３２０００，Ｙ＝−６０００とすると、減算器１４で生成される残差信号Ｒは、Ｒ＝Ｘ−Ｙ＝３８０００（２進表現：1001 0100 0111 0000）となる。丸め処理部１５では、Ｒの下位１６ビットを取り出して符号付整数にすることで、丸め処理後の残差信号ＺをＺ＝−２７５３６（２進表現：1001 0100 0111 0000）と簡単に求めることができる。

一方、音声復号装置３０において、加算器３６で生成されるロスレスな復号音声信号は、残差信号Ｚと復号信号Ｙとを加算して、Ｚ＋Ｙ＝−３３５３６（２進表現：10111 1101 0000 0000）となる。丸め処理部３７では、この下位１６ビットを取り出すことで、元の入力音声信号と同一のＸ＝３２０００（２進表現：0111 1101 0000 0000）を復元することができる。

続いて、音声符号化装置１０における簡略化ロッシーコアデコーダ部１２の概略構成を図７に示す。なお、音声復号装置３０における簡略化ロッシーコアデコーダ部３３も同様の構成である。図７に示すように、簡略化ロッシーコアデコーダ部１２は、デマルチプレクサ部４１と、スペクトル信号再構成部４２と、周波数−時間変換部４３と、ゲイン制御部４４と、帯域合成フィルタ４５とから構成されている。

この簡略化ロッシーコアデコーダ部１２において、デマルチプレクサ部４１は、入力されたコアストリームを正弦波信号構成用のパラメータと量子化スペクトル信号とに分離する。デマルチプレクサ部４１は、量子化スペクトル信号のみをスペクトル信号再構成部４２に供給する。

スペクトル信号再構成部４２は、デマルチプレクサ部４１から供給された量子化スペクトル信号を復号して各周波数帯域のスペクトル信号を生成し、生成した各周波数帯域のスペクトル信号を周波数−時間変換部４３に供給する。

周波数−時間変換部４３は、スペクトル信号再構成部４２から供給された各周波数帯域のスペクトル信号のうち、所定の周波数帯域、例えば低周波数帯域のスペクトル信号のみをＩＭＤＣＴにより時間信号に変換する。周波数−時間変換部４３は、所定の周波数帯域の時間信号をゲイン制御部４４に供給する。

ゲイン制御部４４は、周波数−時間変換部４３から供給された所定の周波数帯域の時間信号のゲインを調整し、ゲイン調整後の時間信号を帯域合成フィルタ４５に供給する。

帯域合成フィルタ４５は、ゲイン制御部４４から供給された所定の周波数帯域の時間信号を帯域合成し、復号信号を生成する。

以上のように、本実施の形態における簡略化ロッシーコアデコーダ部１２，３３では、所定の周波数帯域のスペクトル信号しか復号せず、正弦波信号の再構成も行わない。さらに、演算結果でデータ保持レジスタ（図示せず）の分解能以下の端数が発生する場合にも丸め処理を行わない。これにより、簡略化ロッシーコアデコーダ部１２，３３における処理は、従来のロッシーコアデコーダ部における処理よりも軽減されている。

したがって、このような簡略化ロッシーコアデコーダ部１２，３３を備えた音声符号化装置１０、音声復号装置３０によれば、エンハンスストリームを生成・復号する際の処理時間を短縮することが可能とされる。

（第２の実施の形態）
第１の実施の形態における簡略化ロッシーコアデコーダ部１２，３３は処理の簡略化が施されているため、定められた音質規準を満たすロッシーな復号音声信号を生成することはできない。そこで、音声復号装置３０では、ロッシーな復号音声信号を生成するために、簡略化ロッシーコアデコーダ部３３とは別に、通常版ロッシーコアデコーダ部３２を実装する必要がある。さらに、２種類のロッシーコアデコーダ部を実装することに伴い、メモリ使用量が増加する。このため、音声復号装置３０のような構成では、製品としてのコストが高くなってしまう。

そこで、第２の実施の形態における音声復号装置は、通常版ロッシーコアデコーダ部と簡略化ロッシーコアデコーダ部とを統合することにより、上記のような問題を解消する。

第２の実施の形態における音声復号装置の概略構成を図８に示す。なお、図４に示した音声復号装置３０と同様の構成については、同一の符号を付して詳細な説明を省略する。図８に示すように、音声復号装置５０は、ストリーム分離部３１と、動作モード制御部５１と、統合ロッシーコアデコーダ部５２と、ロスレスエンハンスデコーダ部３５と、加算器３６と、丸め処理部３７とから構成されている。

この音声復号装置５０において、動作モード制御部５１は、ロッシーな復号音声信号とロスレスな復号音声信号との何れを外部に出力するかに応じた動作モード信号を統合ロッシーコアデコーダ部５２に供給する。

統合ロッシーコアデコーダ部５２は、動作モード制御部５２から供給された動作モード信号に基づき、通常の処理（図４の通常版ロッシーコアデコーダ部３２の処理に相当）によりロッシーな復号音声信号を生成するか、簡略化された処理（図４の簡略化ロッシーコアデコーダ部３３の処理に相当）により復号信号を生成するかを切り換える。統合ロッシーコアデコーダ部５２は、前者の場合には、生成されたロッシーな復号音声信号を外部に出力し、後者の場合には、生成された復号信号を加算器３６に供給する。

続いて、統合ロッシーコアデコーダ部５２の概略構成を図９に示す。なお、図７に示した簡略化ロッシーコアデコーダ部３３と同様の構成については、同一の符号を付して詳細な説明を省略する。図９に示すように、統合ロッシーコアデコーダ部５２は、デマルチプレクサ部４１と、切換制御部６１と、正弦波信号再構成部６２と、スペクトル信号再構成部６３と、スイッチ６４と、周波数−時間変換部４３と、ゲイン制御部４４と、正弦波信号付加部６５と、帯域合成フィルタ４５とから構成されている。

この統合ロッシーコアデコーダ部５２において、切換制御部６１は、動作モード制御部５１から供給された動作モード信号に基づいて、正弦波信号再構成部６２、スペクトル信号再構成部６３、及びスイッチ６４に切換信号を供給し、正弦波信号再構成部６２及びスペクトル信号再構成部６３の動作を切り換えると共に、スイッチ６４のオン／オフを切り換える。

正弦波信号再構成部６２は、切換制御部６１から供給された切換信号に基づいて動作を切り換える。具体的に、正弦波信号再構成部６２は、ロッシーな復号音声信号を生成する場合にはデマルチプレクサ部４１から供給された正弦波信号構成用のパラメータを利用せず、ロスレスな復号音声信号を生成する場合には正弦波信号構成用のパラメータに基づいて正弦波信号を再構成する。

スペクトル信号再構成部６３は、デマルチプレクサ部４１から供給された量子化スペクトル信号を復号して各周波数帯域のスペクトル信号を生成する。この際、スペクトル信号再構成部６３は、切換制御部６１から供給された切換信号に基づいて、使用する逆量子化テーブルを切り換える。このスペクトル信号再構成部６３における処理の詳細については後述する。

スイッチ６４は、切換制御部６１から供給された切換信号によりオン／オフが切り換えられる。具体的に、ロッシーな復号音声信号を生成する場合にはオフに切り換えられ、ロスレスな復号音声信号を生成する場合にはオンに切り換えられる。したがって、前者の場合には所定の周波数帯域、例えば低周波数帯域のスペクトル信号のみが後段に供給され、後者の場合には全ての周波数帯域のスペクトル信号が後段に供給される。

正弦波信号付加部６５は、正弦波信号再構成部６２から正弦波信号が供給されると、各周波数帯域の時間信号に対して正弦波信号を付加する。

続いて、スペクトル信号再構成部６３の概略構成を図１０に示す。図１０に示すように、スペクトル信号再構成部６３は、再構成部７１と、テーブル記憶部７２と、スイッチ７３と、シフト部７４とから構成されている。

再構成部７１は、テーブル記憶部７２から供給された３２ビット係数テーブル、又はシフト部７４から供給された２４ビット係数テーブルを用いて、スペクトル信号の逆量子化を行う。テーブル記憶部７２及びシフト部７４の何れから係数テーブルが供給されるかは、スイッチ７３によって切り換えられる。具体的に、テーブル記憶部７２に格納された３２ビット係数テーブルは、ロッシーな復号音声信号を生成する場合にはシフト部７４に供給され、ロスレスな復号音声信号を生成する場合には再構成部７１に供給される。シフト部７４は、テーブル記憶部７２から供給された３２ビット係数テーブルの各係数データを８ビット右シフトして２４ビット係数テーブルを生成し、この２４ビット係数テーブルを再構成部７１に供給する。このように、スペクトル信号再構成部６３では、係数テーブルの共有化を図ることで、メモリ使用量を削減している。

さらに、スペクトル信号再構成部６３は、テーブル共有化のみならず、固定小数点化の基礎概念を踏まえ、ソースコードの共有化を図っている。固定小数点演算と小数点位置との関係を表す概念図を図１１（Ａ）、（Ｂ）に示す。上述のように、スペクトル信号再構成部６３では、ロッシーな復号音声信号を生成する場合には２４ビット係数テーブルを使用し、ロスレスな復号音声信号を生成する場合には３２ビット係数テーブルを使用する。信号語長の違いのため、小数点位置が変化し小数精度は変わるが、小数点位置が０ビット以上であれば、整数精度は変わらない。つまり、小数点位置を制御することで、演算精度を制御することが可能である。スペクトル信号再構成部６３は、この固定小数点化の性質を利用し、ソースコードの共有化を図っている。

以上のように、本実施の形態における統合ロッシーコアデコーダ部５２は、通常版ロッシーコアデコーダ部と簡略化ロッシーコアデコーダ部とが統合されているため、音声復号装置５０には、２種類のロッシーコアデコーダ部を実装する必要がない。これに伴い、音声復号装置５０では、メモリ使用量が削減される。実際、通常版ロッシーコアデコーダ部と簡略化ロッシーコアデコーダ部とを統合することによって、メモリ使用量を約半分（約５５％）に抑えることができる。

なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。

例えば、上述した実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、ＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。

第１の実施の形態における音声符号化装置の概略構成を示す図である。音声符号化装置におけるロスレスエンハンスエンコーダ部の内部構成を示す図である。生成されたスケーラブルロスレスストリームの構造の一例を示す図である。第１の実施の形態における音声復号装置の概略構成を示す図である。音声復号装置におけるロスレスエンハンスデコーダ部の内部構成を示す図である。２の補数表現における符号付整数とその下位ｎビットとの関係を示す図である。音声符号化装置における簡略化ロッシーコアデコーダ部の概略構成を示す図である。第２の実施の形態における音声復号装置の概略構成を示す図である。音声復号装置における統合ロッシーコアデコーダ部の概略構成を示す図である。統合ロッシーコアデコーダ部におけるスペクトル信号再構成部の概略構成を示す図である。固定小数点演算と小数点位置との関係を表す概念図である。従来の音声符号化装置の概略構成の一例を示す図である。従来の音声復号装置の概略構成の一例を示す図である。従来の音声符号化装置におけるロッシーコアエンコーダ部の概略構成の一例を示す図である。従来の音声符号化装置におけるロッシーコアデコーダ部の概略構成の一例を示す図である。

符号の説明

１０音声符号化装置、１１ロッシーコアエンコーダ部、１２簡略化ロッシーコアデコーダ部、１３ディレイ補正部、１４減算器、１５丸め処理部、１６ロスレスエンハンスエンコーダ部、１７ストリーム結合部、３０音声復号装置、３１ストリーム分離部、３２通常版ロッシーコアデコーダ部、３３簡略化ロッシーコアデコーダ部、３４スイッチ、３５ロスレスエンハンスデコーダ部、３６加算器、３７丸め処理部、４１デマルチプレクサ部、４２スペクトル信号再構成部、４３周波数−時間変換部、４４ゲイン制御部、４５帯域合成フィルタ、５０音声復号装置、５１動作モード制御部、５２統合ロッシーコアデコーダ部

Claims

入力音声信号を複数の周波数帯域に帯域分割し、各周波数帯域の入力音声信号を時間−周波数変換してスペクトル信号とした後、不可逆圧縮してコアストリームを生成するコアストリーム符号化手段と、
上記コアストリームのうち、所定の周波数帯域のスペクトル信号のみを復号して復号信号を生成するコアストリーム復号手段と、
上記入力音声信号から上記復号信号を減算し、残差信号を生成する減算手段と、
上記残差信号を可逆圧縮してエンハンスストリームを生成するエンハンスストリーム符号化手段と、
上記コアストリームと上記エンハンスストリームとを結合してスケーラブルロスレスストリームを生成するストリーム結合手段と
を備えることを特徴とする音声符号化装置。
上記コアストリーム符号化手段は、各周波数帯域の入力音声信号から正弦波信号を抽出した残りの各周波数帯域の入力音声信号を時間−周波数変換してスペクトル信号とした後、量子化して量子化スペクトル信号を生成し、上記正弦波信号の情報と上記量子化スペクトル信号とを纏めて上記コアストリームを生成し、
上記コアストリーム復号手段は、上記量子化スペクトル信号を逆量子化して各周波数帯域のスペクトル信号を生成し、上記所定の周波数帯域のスペクトル信号のみを周波数−時間変換した後、帯域合成して上記復号信号を生成する
ことを特徴とする請求項１記載の音声符号化装置。
上記残差信号のビット数を、上記入力音声信号及び上記復号信号と同じビット数に丸める処理を行う丸め処理手段をさらに備え、
上記エンハンスストリーム符号化手段は、丸め処理後の上記残差信号を可逆圧縮して上記エンハンスストリームを生成する
ことを特徴とする請求項１記載の音声符号化装置。
上記コアストリーム復号手段は、上記コアストリームのうち、低周波数帯域のスペクトル信号のみを復号することを特徴とする請求項１記載の音声符号化装置。
入力音声信号を複数の周波数帯域に帯域分割し、各周波数帯域の入力音声信号を時間−周波数変換してスペクトル信号とした後、不可逆圧縮してコアストリームを生成するコアストリーム符号化工程と、
上記コアストリームのうち、所定の周波数帯域のスペクトル信号のみを復号して復号信号を生成するコアストリーム復号工程と、
上記入力音声信号から上記復号信号を減算し、残差信号を生成する減算工程と、
上記残差信号を可逆圧縮してエンハンスストリームを生成するエンハンスストリーム符号化工程と、
上記コアストリームと上記エンハンスストリームとを結合してスケーラブルロスレスストリームを生成するストリーム結合工程と
を有することを特徴とする音声符号化方法。
入力音声信号を複数の周波数帯域に帯域分割し、各周波数帯域の入力音声信号を時間−周波数変換してスペクトル信号とした後、不可逆圧縮して得られたコアストリームと、上記入力音声信号から上記コアストリームを復号した復号信号を減算した残差信号を可逆圧縮して得られたエンハンスストリームとが結合されたスケーラブルロスレスストリームを、上記コアストリームと上記エンハンスストリームとに分離するストリーム分離手段と、
上記コアストリームの全周波数帯域のスペクトル信号を復号し、ロッシーな復号音声信号を生成する第１のコアストリーム復号手段と、
上記コアストリームのうち、所定の周波数帯域のスペクトル信号のみを復号して復号信号を生成する第２のコアストリーム復号手段と、
上記エンハンスストリームを復号し、上記残差信号を生成するエンハンスストリーム復号手段と、
上記復号信号と上記残差信号とを加算してロスレスな復号音声信号を生成する加算手段と
を備えることを特徴とする音声復号装置。
上記コアストリームは、各周波数帯域の入力音声信号から正弦波信号を抽出した残りの各周波数帯域の入力音声信号を時間−周波数変換してスペクトル信号とした後、量子化して得られた量子化スペクトル信号と、上記正弦波信号の情報とが纏められたものであり、
上記第２のコアストリーム復号手段は、上記量子化スペクトル信号を逆量子化して各周波数帯域のスペクトル信号を生成し、上記所定の周波数帯域のスペクトル信号のみを周波数−時間変換した後、帯域合成して上記復号信号を生成する
ことを特徴とする請求項６記載の音声復号装置。
上記ロスレスな復号音声信号のビット数を、上記復号信号及び上記残差信号と同じビット数に丸める処理を行う丸め処理手段をさらに備えることを特徴とする請求項６記載の音声復号装置。
上記第２のコアストリーム復号手段は、上記コアストリームのうち、低周波数帯域のスペクトル信号のみを復号することを特徴とする請求項６記載の音声復号装置。
入力音声信号を複数の周波数帯域に帯域分割し、各周波数帯域の入力音声信号を時間−周波数変換してスペクトル信号とした後、不可逆圧縮して得られたコアストリームと、上記入力音声信号から上記コアストリームを復号した復号信号を減算した残差信号を可逆圧縮して得られたエンハンスストリームとが結合されたスケーラブルロスレスストリームを、上記コアストリームと上記エンハンスストリームとに分離するストリーム分離工程と、
上記コアストリームの全周波数帯域のスペクトル信号を復号し、ロッシーな復号音声信号を生成する第１のコアストリーム復号工程と、
上記コアストリームのうち、所定の周波数帯域のスペクトル信号のみを復号して復号信号を生成する第２のコアストリーム復号工程と、
上記エンハンスストリームを復号し、上記残差信号を生成するエンハンスストリーム復号工程と、
上記復号信号と上記残差信号とを加算してロスレスな復号音声信号を生成する加算工程と
を有することを特徴とする音声復号方法。
入力音声信号を複数の周波数帯域に帯域分割し、各周波数帯域の入力音声信号を時間−周波数変換してスペクトル信号とした後、不可逆圧縮して得られたコアストリームと、上記入力音声信号から上記コアストリームを復号した復号信号を減算した残差信号を可逆圧縮して得られたエンハンスストリームとが結合されたスケーラブルロスレスストリームを、上記コアストリームと上記エンハンスストリームとに分離するストリーム分離手段と、
上記コアストリームの全周波数帯域のスペクトル信号を復号してロッシーな復号音声信号を生成するか、又は上記コアストリームのうち、所定の周波数帯域のスペクトル信号のみを復号して復号信号を生成するかを切り換えるコアストリーム復号手段と、
上記エンハンスストリームを復号し、上記残差信号を生成するエンハンスストリーム復号手段と、
上記復号信号と上記残差信号とを加算してロスレスな復号音声信号を生成する加算手段と
を備えることを特徴とする音声復号装置。
入力音声信号を複数の周波数帯域に帯域分割し、各周波数帯域の入力音声信号を時間−周波数変換してスペクトル信号とした後、不可逆圧縮して得られたコアストリームと、上記入力音声信号から上記コアストリームを復号した復号信号を減算した残差信号を可逆圧縮して得られたエンハンスストリームとが結合されたスケーラブルロスレスストリームを、上記コアストリームと上記エンハンスストリームとに分離するストリーム分離工程と、
上記コアストリームの全周波数帯域のスペクトル信号を復号してロッシーな復号音声信号を生成するか、又は上記コアストリームのうち、所定の周波数帯域のスペクトル信号のみを復号して復号信号を生成するかを切り換えるコアストリーム復号工程と、
上記エンハンスストリームを復号し、上記残差信号を生成するエンハンスストリーム復号工程と、
上記復号信号と上記残差信号とを加算してロスレスな復号音声信号を生成する加算工程と
を有することを特徴とする音声復号方法。