JP2007178529A

JP2007178529A - 符号化オーディオ信号再生装置及び符号化オーディオ信号再生方法

Info

Publication number: JP2007178529A
Application number: JP2005374423A
Authority: JP
Inventors: Akira Usami; 陽宇佐見
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-12-27
Filing date: 2005-12-27
Publication date: 2007-07-12

Abstract

【課題】符号化フレームを分割するセグメントの数が多い場合に、符号化オーディオ信号に包まれる所定の帯域のスペクトルから符号化時に削減される帯域のスペクトルを生成し、セグメントごとに生成したスペクトルのゲインを調整するための処理量が増大し、消費電力が増大するという課題を解消すること。
【解決手段】セグメント統合手段８により、符号化フレーム内の符号化オーディオ信号に包含されるセグメントの数Ｍとセグメントごとの帯域拡張データＥ１に基づいて、時系列に隣接する２つ以上のセグメントを統合して統合帯域拡張データＥ２を生成し、スペクトルのゲインを調整する際のセグメントの数を削減する。
【選択図】図１

Description

本発明は、符号化フレームを２つ以上のセグメントに分割して、セグメントごとに帯域拡張データを伝送又は記録する符号化オーディオ信号の再生装置及び再生方法に関するものである。

デジタルオーディオの分野では、コンパクトディスク（ＣＤ）に比べて１０分の１以下の低いビットレートで、高品位の音質で伝送又は記録を可能にする様々なオーディオ信号の符号化技術が多く使われる。これらのオーディオ信号の符号化技術には、例えばＩＳＯのＭＰＥＧで規格化されているＭＰＥＧ２−ＡＡＣなどの各種方式がある。

これらのオーディオ信号符号化技術では、時系列のデジタルオーディオ信号のサンプルが符号化フレームを単位として分けられて符号化処理が施され、複数の符号化データに纏められる。例えば、ＭＰＥＧ２−ＡＡＣでは、まず周波数変換処理の一つであるＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）を用い、時系列のデジタルオーディオ信号のサンプルを、所定の符号化フレームごとに、周波数軸のスペクトルに変換する。

そして、複数のスペクトルは正規化を施す周波数帯域（以下、正規化帯域と呼ぶ）ごとに纏められ、正規化及び量子化が施される。このとき、ビットレートを低減するために、人間の聴覚特性に基づき、正規化帯域ごとの量子化ビット数が決定され、正規化及び量子化が施されたスペクトルは、ハフマン符号を用いて符号化される。このようにして、ハフマン符号化を施すことにより、ビットレートは更に低減される。

符号化フレームごとに、正規化及び量子化と、ハフマン符号化が施されたスペクトルには、正規化レベルを示すスケールファクタや量子化ビット数、ハフマン符号化情報などが多重化されて符号化データとして生成される。この様にして生成された符号化データは、符号化オーディオ信号として伝送又は記録される（例えば、非特許文献１参照）。以下の説明では、上記の符号化処理をコア符号化処理と呼び、コア符号化処理により生成される符号化データをコア符号化データと呼ぶこととする。また、コア符号化データにコア符号化処理の逆の手順を行って、デジタルオーディオ信号を再生する処理をコア復号化処理と呼ぶこととする。

また、上記のコア符号化処理よりも更に低いビットレートで高音質の伝送又は記録を実現するために、上記のＭＰＥＧ２−ＡＡＣに適用可能な再生されるデジタルオーディオ信号の帯域を拡張する帯域拡張技術を用いた方式が提案されている。この方式では、入力されるデジタルオーディオ信号に対して、符号化時に予め周波数ｆ０（ｆ０は任意の周波数）より高域の周波数帯域である帯域Ｂを削減した帯域Ａ（帯域Ａは帯域Ｂより低い帯域）のスペクトルから成るデジタルオーディオ信号に上記のコア符号化処理を施してコア符号化データを生成する。入力されるデジタルオーディオ信号に含まれる帯域Ｂのスペクトルの包絡線などを帯域拡張データとしてコア符号化データに多重化して符号化オーディオ信号を生成する。ここで、帯域拡張データも正規化及び量子化、ハフマン符号化が施される。

このような符号化オーディオ信号を復号化する場合には、まずコア符号化データに対しコア復号化処理を施して、帯域Ａのスペクトルから成るデジタルオーディオ信号を復元する。帯域拡張データを用いて、帯域Ａのスペクトルから、帯域Ｂのスペクトルを生成し、ゲインを調整した後に、帯域Ａのスペクトルと合成し再生オーディオ信号を復号化する。特に、符号化フレームを複数の時間間隔に分割したセグメントごとの帯域拡張データを用いることによって、再生オーディオ信号の帯域を拡張可能としている。これにより、低いビットレートにおいても高品位な再生オーディオ信号が出力できるようにしている（例えば、非特許文献２参照）。

以下の説明では、上記の方法により伝送又は記録される符号化オーディオ信号に復号化処理を施し、再生オーディオ信号を再生し出力する符号化オーディオ信号再生装置について図面を参照しながら説明する。

以下では説明を簡単にするために、セグメントごとの帯域拡張データは、帯域Ｂのスペクトルの振幅の概形を表す包絡線とする。また、帯域Ａのスペクトルから成るデジタルオーディオ信号を狭帯域信号と呼ぶ。

図６は、従来の符号化オーディオ信号再生装置の構成ブロック図を示す。

図６において、１は、符号化オーディオ信号Ｓ１からコア符号化が施された帯域Ａのスペクトルを含むコア符号化データＳ２と、帯域Ｂのスペクトルの包絡線から成る帯域拡張データＳ３とを分離するデマルチプレクサである。２は、コア符号化が施されたコア符号化データにコア復号化処理を施して、帯域Ａの狭帯域信号Ｙ２を復元するコア復号化手段である。３は、狭帯域信号Ｙ２から帯域ＡのスペクトルＬ１を生成する分析フィルタである。４は、セグメントごとの帯域拡張データＳ３から、包絡線Ｅ１（ｍ，ｂ）を復元する帯域拡張データ復号化手段である。包絡線Ｅ１（ｍ，ｂ）は、複数のスペクトルをまとめた周波数帯域を単位として算出される。ｍはセグメントの番号を表し、ｂはこの周波数帯域の番号を表す。５は、帯域ＡのスペクトルＬ１に基づいて、帯域Ａより高い周波数帯域の帯域ＢのスペクトルＨ１を生成する高域スペクトル生成手段である。６は、セグメントごとの包絡線Ｅ１（ｍ，ｂ）に基づいて、帯域ＢのスペクトルＨ１のゲインを調整するゲイン調整手段である。７は、帯域ＡのスペクトルＬ１と、ゲインが調整された帯域ＢのスペクトルＨ２を合成して、再生オーディオ信号Ｙ１を再生する合成フィルタである。

図７は、図６の従来の符号化オーディオ信号再生装置における、各構成ブロックから出力される信号又はスペクトルの周波数軸の様子を示す図である。図７において、縦軸はスペクトルの振幅を表し、横軸は周波数をそれぞれ表す。

図７において、（ａ）は、コア復号化手段２から出力される狭帯域信号Ｙ２のスペクトルの様子を示し、周波数ｆ０までのスペクトルをもつことを表す。（ｂ）は、スペクトル生成手段５から出力される帯域ＢのスペクトルＨ１のゲインをゲイン調整手段６で調整した後のスペクトルＨ２の様子を示し、周波数ｆ０から周波数ｆ１までのスペクトルをもつことを表す。（ｃ）は、合成フィルタ６から出力される再生オーディオ信号Ｙ１のスペクトルの様子を示し、周波数帯域ｆ１までの周波数スペクトルをもつことを表す。

図８は、符号化時に入力されるデジタルオーディオ信号の帯域Ｂのスペクトルから成る時系列のサンプルと、分割するセグメントと、符号化オーディオ信号に包まれるセグメントごとの包絡線Ｅ１（ｍ，ｂ）を示す図である。

図８において、（ａ）は、帯域Ｂのスペクトルから成る時系列のサンプルの波形を示し、縦軸はサンプルの振幅を表し、横軸は時間を表す。（ｂ）は、符号化オーディオ信号に包まれるセグメントごとの包絡線Ｅ１（ｍ，ｂ）を示す。ここでは、（ａ）の帯域Ｂのスペクトルから成る時系列のサンプルの過渡特性に基づいてＭ（＝５）個のセグメントに分割される場合を示し、縦軸は周波数を表し、横軸は時間を表す。（ｂ）において、ｍはセグメントの番号を表し、０≦ｍ＜Ｍ（Ｍはセグメントの数）である。ｂは周波数帯域の番号を表す。

図８に示すように、符号化時に帯域Ｂのスペクトルから成る時系列のサンプルの過渡特性に応じて、例えば、信号レベルの時間変化の大きさに基づいてセグメントの時間境界が設定され、セグメントごとの包絡線Ｅ１（ｍ，ｂ）を帯域拡張データとして符号化した後に、符号化オーディオ信号に多重化される。図６に示す符号化オーディオ信号再生装置は、図８に示されるセグメントごとに、高域スペクトル生成手段５で生成される帯域ＢのスペクトルＨ１を包絡線Ｅ１（ｍ，ｂ）に基づいて調整し、帯域ＢのスペクトルＨ２を生成する。

図９は、図６に示す符号化オーディオ信号再生装置において、例えば高域スペクトル生成手段５で生成される帯域Ｂの周波数軸に隣接するスペクトルの間に発生するエリアシングノイズを低減するためのゲイン調整手段６の詳細構成ブロック図を示す。

ここで、例えば、帯域ＢのスペクトルＨ２を合成フィルタ７で時系列サンプルに変換して合成する際に、周波数軸に並ぶスペクトルの間に発生するエリアシングノイズを低減するために、ゲイン調整手段６でエリアシングノイズを検出してゲイン補正を行う（例えば、非特許文献２参照）。

図９において、９１は分析フィルタ３から出力される帯域ＡのスペクトルＬ１に基づいて高域スペクトル生成手段５で生成される帯域ＢのスペクトルＨ１に対して、セグメントごとに周波数軸上で隣接するスペクトルの間の反射係数Ａ１と、エリアシングノイズの大きさを示すノイズレベルＡ２を検出するエリアシング検出手段である。９２は、セグメントごとにエリアシング検出手段９１で検出される反射係数Ａ１と、エリアシングノイズのノイズレベルＡ２に基づいて、エリアシングノイズを低減する包絡線補正ゲインＡ３を算出するゲイン補正値算出手段である。９３は、セグメントごとの包絡線補正ゲインＡ３と包絡線Ｅ１（ｍ，ｂ）に基づいて、高域スペクトル生成手段５で生成される帯域ＢのスペクトルＨ１のゲインを補正するゲイン補正手段である。
「１３８１８−７：ＭＰＥＧ−２ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ，ＡＡＣ」ＩＳＯ／ＩＥＣ、１９９７年「１４４９６−３：ＢａｎｄｗｉｄｔｈＥｘｔｅｎｓｉｏｎ」ＩＳＯ／ＩＥＣ、２００１年

しかしながら、従来の構成の符号化オーディオ信号再生装置又は再生方法では、符号化フレーム内のセグメントの数が多い場合に、帯域拡張データに基づいて符号化オーディオ信号に包含される所定の帯域のスペクトルから符号化時に削減される帯域のスペクトルを生成し、このスペクトルを符号化時に削減された帯域の原信号に含まれるスペクトルに近付けるために施されるゲインの調整にかかる処理量が増大し、符号化オーディオ信号再生装置の動作クロックの周波数が高くなり、消費電力が増大するという課題があった。

上記の従来の符号化オーディオ信号再生装置の課題を解決するために、本発明の符号化オーディオ信号再生装置は、時系列のデジタルオーディオ信号のサンプルをＮ個（Ｎは正整数）まとめた符号化フレームを単位として、周波数ｆ０（ｆ０は任意の周波数）より高域の周波数帯域である帯域Ｂを削除した帯域Ａ（帯域Ａは帯域Ｂより低域の帯域）のスペクトルから成る信号に符号化処理を施して符号化データを生成するとともに、符号化フレームをＭ個（Ｍは、１以上の整数）の時間間隔に分割したセグメントごとに、復号化時に生成される帯域Ｂのスペクトルのゲインを調整する帯域拡張データを生成し、符号化データに多重化して伝送又は記録される符号化オーディオ信号を復号化して、再生オーディオ信号を再生する符号化オーディオ信号再生装置であって、入力される符号化オーディオ信号から、符号化データと、帯域拡張データとを分離するデマルチプレクサと、符号化データを復号化して、帯域Ａのスペクトルから成る信号を復元するコア復号化手段と、帯域Ａのスペクトルを生成する分析フィルタと、帯域Ｂのスペクトルを生成するスペクトル生成手段と、帯域Ｂのスペクトルのゲインを調整するゲイン調整手段と、帯域Ａのスペクトルと帯域Ｂのスペクトルを合成し再生オーディオ信号を再生する合成フィルタと、セグメントごとの帯域拡張データに基づいて、時系列の２つ以上のセグメントを統合して統合帯域拡張データを生成するセグメント統合手段と、を備えることを特徴とする。

ここで、セグメント統合手段は、予め符号化オーディオ信号に多重化される、帯域Ｂのスペクトルから成る信号のエネルギーレベルの変化量が最大となる時間境界Ｔを表す情報に基づいて、時間境界Ｔを除く時間境界を挟む２つのセグメントを統合して統合帯域拡張データを生成するようにしてもよい。

ここで、セグメント統合手段は、セグメントごとの帯域拡張データから導かれる帯域Ｂのスペクトルから成る信号のセグメントごとのエネルギーレベルの変化量に基づいて、隣接する２つのセグメントを統合して統合帯域拡張データを生成するようにしてもよい。

ここで、セグメント統合手段は、符号化フレーム内のセグメントを所定のＫ個（Ｋは、１≦Ｋ＜Ｍの整数）とする様に、隣接する２つのセグメントを統合して統合帯域データを生成するようにしてもよい。

また、上記の従来の符号化オーディオ信号再生装置の課題を解決するために、本発明の符号化オーディオ信号再生方法は、時系列のデジタルオーディオ信号のサンプルをＮ個（Ｎは正整数）まとめた符号化フレームを単位として、周波数ｆ０（ｆ０は任意の周波数）より高域の周波数帯域である帯域Ｂを削除した帯域Ａ（帯域Ａは帯域Ｂより低域の帯域）のスペクトルから成る信号に符号化処理を施して符号化データを生成するとともに、符号化フレームをＭ個（Ｍは、１以上の整数）の時間間隔に分割したセグメントごとに、復号化時に生成される帯域Ｂのスペクトルのゲインを調整する帯域拡張データを生成し、符号化データに多重化して伝送又は記録される符号化オーディオ信号を復号化して、再生オーディオ信号を再生する符号化オーディオ信号再生方法であって、入力される符号化オーディオ信号から、符号化データと、帯域拡張データとを分離するステップと、符号化データを復号化して、帯域Ａのスペクトルから成る信号を復元するステップと、帯域Ａのスペクトルを生成するステップと、帯域Ｂのスペクトルを生成するステップと、帯域Ｂのスペクトルのゲインを調整するステップと、帯域Ａのスペクトルと帯域Ｂのスペクトルを合成し再生オーディオ信号を再生するステップと、セグメントごとの帯域拡張データに基づいて、時系列の２つ以上のセグメントを統合して統合帯域拡張データを生成するステップとを、備えることを特徴とする。

本発明によれば、符号化フレーム内のセグメントの数が多い場合に、セグメントごとの帯域拡張データに基づいて、時系列の２つ以上のセグメントを統合して統合帯域拡張データを生成してセグメントの数を減らすことにより、セグメントごとの帯域拡張データに基づいて符号化オーディオ信号に包まれる所定の帯域のスペクトルから符号化時に削減される帯域のスペクトルを生成し、このスペクトルを符号化時に削減された帯域の原信号に含まれるスペクトルに近付けるために施されるゲインの調整にかかる処理量を低減し、符号化オーディオ信号再生装置の動作クロックの周波数を低くすることができ、消費電力を低減することができる。

以下本発明を実施するための最良の形態について、図面を参照しながら説明する。

（実施の形態１）
図１は、本発明の実施の形態１における符号化オーディオ信号再生装置の全体構成ブロック図を示す。

図１において、１は、符号化オーディオ信号Ｓ１からコア符号化が施された周波数ｆ０（ｆ０は任意の周波数）より低域の帯域Ａのスペクトルを含むコア符号化データＳ２と、帯域Ｂ（帯域Ｂは帯域Ａより高域の周波数帯域）のスペクトルの包絡線から成る帯域拡張データＳ３とを分離するデマルチプレクサである。２は、コア符号化が施されたコア符号化データＳ２にコア復号化処理を施して、狭帯域信号Ｙ２を復元するコア復号化手段である。３は、狭帯域信号Ｙ２から帯域ＡのスペクトルＬ１を生成する分析フィルタである。４は、符号化が施されたセグメントごとの帯域拡張データＳ３から包絡線Ｅ１（ｍ，ｂ）を復元する帯域拡張データ復号化手段である。ここで、セグメントは符号化フレームをＭ個（Ｍは、１以上の整数）に分割した時間間隔の区切りを表す。包絡線Ｅ１（ｍ，ｂ）は、周波数軸に並ぶ複数のスペクトルをまとめた周波数帯域を単位として算出される。ここで、ｍはセグメントの番号を表し、ｂはこの周波数帯域の番号を表す。５は、帯域ＡのスペクトルＬ１に基づいて、帯域Ａより高い周波数帯域の帯域ＢのスペクトルＨ１を生成する高域スペクトル生成手段である。６は、統合セグメントごとの包絡線Ｅ２（ｋ，ｂ）に基づいて、帯域ＢのスペクトルＨ１のゲインを調整するゲイン調整手段である。７は、帯域ＡのスペクトルＬ１と、ゲインが調整された帯域ＢのスペクトルＨ２を合成して、再生オーディオ信号Ｙ１を再生する合成フィルタである。８は、セグメントごとの包絡線Ｅ１（ｍ，ｂ）に基づいて、２つ以上のセグメントを統合した統合セグメントごとの包絡線Ｅ２（ｋ，ｂ）を生成するセグメント統合手段である。ここで、統合した後のセグメントの数をＫ（Ｋは、１≦Ｋ＜Ｍの整数）とした、ｋ（１≦ｋ＜Ｋ）は統合した後のセグメントの番号を表す。図１に示す符号化オーディオ信号再生装置のセグメント統合手段８を除くその他の構成ブロックは、図６に示す従来の符号化オーディオ信号再生装置の構成ブロックと同じである。

図２は、セグメント統合手段８の詳細構成ブロック図を示す。

図２において、２１は、隣接する２つのセグメントを統合するか否かの判定を行い、統合判定フラグＦ（ｍ）を設定する統合判定手段である。２２は、統合判定結果フラグＦ（ｍ）に基づいて、隣接する２つのセグメントを統合し、包絡線Ｅ２（ｋ，ｂ）を出力する統合帯域拡張データ算出手段である。

以下に、図２に示すセグメント統合手段８の動作について説明する。

統合判定手段２１は、符号化オーディオ信号Ｓ１に包含される符号化フレーム内のセグメントの数Ｍと、予め符号化オーディオ信号に多重化される、帯域Ｂのスペクトルから成る信号のエネルギーレベルの変化量が最大となる時間境界Ｔを表す情報に基づいて、２つの隣接するセグメントを統合するか否かを判定し、統合判定フラグＦ（ｍ）（１≦ｍ＜Ｍ）を設定し出力する。ここで、符号化フレーム内のセグメントの数Ｍと、時間境界Ｔは、前段の帯域拡張データ復号化手段４から得られるものとする。統合判定フラグＦ（ｍ）は、セグメント番号ｍとセグメント番号（ｍ−１）の隣接する２つのセグメントを統合するか否かを設定するフラグであって、Ｆ（ｍ）＝０の場合にはセグメント番号ｍとセグメント番号（ｍ−１）の隣接する２つのセグメントは統合されない。一方、Ｆ（ｍ）＝１の場合にはセグメント番号ｍとセグメント番号（ｍ−１）の隣接する２つのセグメントは統合される。符号化オーディオ信号に包まれるセグメントの数Ｍが１の場合には、統合判定フラグは設定されない。更に、セグメント番号ｍとセグメント番号（ｍ−１）の時間境界が、予め符号化オーディオ信号に多重化される、帯域Ｂのスペクトルから成る信号のエネルギーレベルの変化量が最大となる時間境界Ｔと等しくなる場合には、セグメント番号ｍとセグメント番号（ｍ−１）の隣接する２つのセグメントを統合しない様にＦ（ｍ）は０に設定される。統合帯域拡張データ算出手段２２は、統合判定フラグＦ（ｍ）に基づいて、２つの隣接するセグメントの包絡線Ｅ１（ｍ，ｂ）を統合して、包絡線Ｅ２（ｋ，ｂ）を出力する。ここで、例えば２つの隣接するセグメントの包絡線Ｅ１（ｍ−１，ｂ）とＥ１（ｍ，ｂ）の周波数帯域ごとの平均値を包絡線Ｅ２（ｋ，ｂ）とするようにしてもよい。

図３は、符号化時に入力されるデジタルオーディオ信号の帯域Ｂのスペクトルから成る時系列のサンプルと、符号化フレームを分割するセグメントと、符号化オーディオ信号に包まれるセグメントごとの包絡線Ｅ１（ｍ，ｂ）と、セグメント統合手段８でセグメントを統合した後の包絡線Ｅ２（ｋ，ｂ）を示す図である。

図３において、（ａ）は帯域Ｂのスペクトルから成る時系列のサンプルの波形を示し、縦軸は振幅を表し、横軸は時間を表す。（ｂ）は、符号化オーディオ信号に包まれるセグメントごとの包絡線Ｅ１（ｍ，ｂ）を示す。ここでは、（ａ）の帯域Ｂのスペクトルから成る時系列のサンプルの過渡特性に基づいてＭ（＝５）個のセグメントに分割される場合を示し、縦軸は周波数を表し、横軸は時間を表す。（ｂ）において、ｍはセグメントの番号を表し、０≦ｍ＜Ｍである。ｂは周波数帯域の番号を表す。（ｃ）は、セグメント統合手段８でセグメントを統合した後の包絡線Ｅ２（ｋ，ｂ）を示す。（ｃ）において、統合した後のセグメントの数Ｋを２とし、ｋ（０≦ｋ＜Ｋ）は統合した後のセグメントの番号を表す。すなわち、ｍ＝０，１，２，３の包絡線Ｅ１（ｍ，ｂ）は包絡線Ｅ２（０，ｂ）に統合されている。更に、セグメント番号ｍ（＝４）とセグメント番号（ｍ−１）（＝３）の時間境界が、予め符号化オーディオ信号に多重化される、帯域Ｂのスペクトルから成る信号のエネルギーレベルの変化量が最大となる時間境界Ｔと等しくなるために、セグメント番号ｍ（＝４）とセグメント番号（ｍ−１）（＝３）の隣接する２つのセグメントは統合されずに、包絡線Ｅ２（１，ｂ）は包絡線Ｅ１（４，ｂ）と同じである。

図３に示すように、符号化時に帯域Ｂのスペクトルから成る信号の過渡特性に応じて、例えば、信号レベルの時間変化の大きさに基づいてセグメントの時間境界が設定され、セグメントごとの包絡線Ｅ１（ｍ，ｂ）を帯域拡張データとして符号化した後に、符号化オーディオ信号に多重化される。図１に示す符号化オーディオ信号再生装置は、図３に示されるセグメントごとに、高域スペクトル生成手段５で生成される帯域ＢのスペクトルＨ１を包絡線Ｅ２（ｋ，ｂ）に基づいて調整し、帯域ＢのスペクトルＨ２を生成する。

上記のように、符号化フレームがＭ（＝５）個のセグメントに分割されている符号化オーディオ信号を復号化する際に、Ｋ（＝２）個のセグメントに統合して、セグメントの数を削減することにより、帯域ＡのスペクトルＬ１から生成される帯域ＢのスペクトルＨ１に対して統合したＫ（＝２）個のセグメントごとの包絡線Ｅ２（ｋ，ｂ）に基づいてゲイン調整手段６で施されるゲインの調整にかかる処理量は、Ｍ（＝５）個のセグメントごとの包絡線Ｅ１（ｍ，ｂ）に基づいて施されるゲインの調整にかかる処理量に比べて小さくするこができ、帯域ＢのスペクトルＨ１のゲインの調整を行うために必要な処理量を削減することができる。

これにより、符号化フレームの中のセグメントの数が多い場合に、セグメントごとに帯域拡張データである包絡線に基づいて帯域ＡのスペクトルＬ１から生成される帯域ＢのスペクトルＨ１のゲインを調整するための処理量が増大するのを大幅に抑えることができ、符号化オーディオ信号再生装置の動作クロックの周波数を低くすることができるため、消費電力を低減することができる。

ここで、上記した本発明の実施の形態における符号化オーディオ信号再生装置のセグメント統合手段８でセグメントの統合をした後のセグメントの数Ｋは、ユーザーによって任意に設定してもよい。また、セグメント統合手段８でセグメントの統合をした後のセグメントの数Ｋはバッテリ駆動をする場合の容量に応じて設定してもよい。或いは、会議録音などの再生音質の劣化が許容できる場合に、符号化オーディオ信号の再生時の用途に応じてユーザーが設定するようにしてもよい。

更に、上記した本発明の実施の形態における符号化オーディオ信号再生装置のそれぞれのブロックで行う処理を、デジタル信号処理装置（ＤＳＰ）のソフトウェアで実現するようにしてもよい。

（実施の形態２）
図４は、本発明の実施の形態２における符号化オーディオ信号再生装置のセグメント統合手段８の詳細構成ブロック図を示す。

尚、本発明の実施の形態２における符号化オーディオ信号再生装置の全体構成ブロック図は、図１と同じであるので説明は省略する。以下、実施の形態１と相違するセグメント統合手段８の詳細について説明する。

図４において、４１は隣接する２つのセグメントを統合するか否かの判定を行い、統合判定フラグＦ（ｍ）を設定する統合判定手段である。４２は、包絡線Ｅ１（ｍ，ｂ）に基づいてセグメントごとのエネルギーレベルＥＬ（ｍ）（０≦ｍ＜Ｍ）を算出するエネルギーレベル算出手段である。４３は、隣接する２つのセグメントのエネルギーレベルＥＬ（ｍ）の変化量Ｄ（ｍ）（１≦ｍ＜Ｍ）を算出するエネルギー変化量算出手段である。４４は、統合判定結果フラグＦ（ｍ）に基づいて、隣接する２つのセグメントを統合し包絡線Ｅ２（ｋ，ｂ）を出力する統合帯域拡張データ算出手段である。

以下に、図４に示すセグメント統合手段８の動作について説明する。

まず、エネルギーレベル算出手段４２はセグメントごとの包絡線Ｅ１（ｍ，ｂ）に基づいてエネルギーレベルＥＬ（ｍ）を算出する。ここで、例えばエネルギーレベルＥＬ（ｍ）はセグメントごとの包絡線Ｅ１（ｍ，ｂ）の最大値とする。或いは、エネルギーレベルＥＬ（ｍ）は、セグメントに包含される包絡線Ｅ１（ｍ，ｂ）の総和をセグメントの時間長で正規化した値としてもよい。エネルギー変化量算出手段４３は隣接する２つのセグメントのエネルギーレベルＥＬ（ｍ）の差の絶対値を変化量Ｄ（ｍ）として算出する。統合判定手段４１は、符号化オーディオ信号Ｓ１に包含される符号化フレーム内のセグメントの数Ｍと、隣接する２つのセグメントのエネルギーレベルＥＬ（ｍ）の変化量Ｄ（ｍ）に基づいて、２つの隣接するセグメントを統合するか否かを判定し、統合判定フラグＦ（ｍ）を設定し出力する。統合判定フラグＦ（ｍ）は、セグメント番号ｍとセグメント番号（ｍ−１）の隣接する２つのセグメントを統合するか否かを設定するフラグであって、Ｆ（ｍ）＝０の場合にはセグメント番号ｍとセグメント番号（ｍ−１）の隣接する２つのセグメントは統合されない。一方、Ｆ（ｍ）＝１の場合にはセグメント番号ｍとセグメント番号（ｍ−１）の隣接する２つのセグメントは統合される。符号化オーディオ信号に包含されるセグメントの数Ｍが１の場合には、ｍ＝０のみであるので統合判定フラグは設定されない。更に、統合判定手段４１はエネルギー変化量Ｄ（ｍ）の小さい順に所定のセグメントの数Ｋになるまで隣接する２つのセグメントを統合するように統合判定フラグＦ（ｍ）を設定する。統合帯域拡張データ算出手段４４は、統合判定フラグＦ（ｍ）に基づいて、２つの隣接するセグメントの包絡線Ｅ１（ｍ，ｂ）を統合して、包絡線Ｅ２（ｋ，ｂ）を出力する。ここで、例えば２つの隣接するセグメントの包絡線Ｅ１（ｍ−１，ｂ）とＥ１（ｍ，ｂ）の周波数帯域ごとの平均値を包絡線Ｅ２（ｋ，ｂ）とするようにしてもよい。

図５は、符号化時に入力されるデジタルオーディオ信号の帯域Ｂのスペクトルから成る時系列のサンプルと、符号化フレームを分割するセグメントと、符号化オーディオ信号に包まれるセグメントごとの包絡線Ｅ１（ｍ，ｂ）と、隣接する２つのセグメントのエネルギーレベルＥＬ（ｍ）の変化量Ｄ（ｍ）と、セグメント統合手段８でセグメントを統合した後の包絡線Ｅ２（ｋ，ｂ）の様子を示す図である。

図５において、（ａ）は帯域Ｂのスペクトルから成る時系列のサンプルの波形を示し、縦軸は振幅を表し、横軸は時間を表す。（ｂ）は、符号化オーディオ信号に包まれるセグメントごとの包絡線Ｅ１（ｍ，ｂ）を示す。ここでは、（ａ）の帯域Ｂのスペクトルから成る時系列のサンプルの過渡特性に基づいてＭ（＝５）個のセグメントに分割される場合を示し、縦軸は周波数を表し、横軸は時間を表す。（ｂ）において、ｍはセグメントの番号を表し、ｂは周波数帯域の番号を表す。（ｃ）は、隣接する２つのセグメントのエネルギーレベルＥＬ（ｍ）の変化量Ｄ（ｍ）を表し、変化量Ｄ（１）はセグメント番号ｍ（＝１）とセグメント番号（ｍ−１）（＝０）のエネルギーレベルＥＬ（ｍ）（ｍ＝０，１）の差の絶対値を表す。ｍ＝２，３，４の変化量Ｄ（ｍ）も同様にして算出される。（ｄ）は、セグメント統合手段８でセグメントを統合した後の包絡線Ｅ２（ｋ，ｂ）を示す。（ｄ）において、統合した後のセグメントの数Ｋは３とし、ｋ（０≦ｋ＜Ｋ）は統合した後の番号を表す。すなわち、ｍ＝０，１の包絡線Ｅ１（ｍ，ｂ）は包絡線Ｅ２（０，ｂ）に統合されている。また、ｍ＝２，３の包絡線Ｅ１（ｍ，ｂ）は包絡線Ｅ２（１，ｂ）に統合されている。包絡線Ｅ２（１，ｂ）は包絡線Ｅ１（４，ｂ）と同じである。

図５に示すように、符号化時に帯域Ｂのスペクトルから成る信号の過渡特性に応じて、例えば、信号レベルの時間変化の大きさに基づいてセグメントの時間境界が設定され、セグメントごとの包絡線Ｅ１（ｍ，ｂ）を帯域拡張データとして符号化した後に、符号化オーディオ信号に多重化される。図１に示す符号化オーディオ信号再生装置は、図５に示されるセグメントごとに、高域スペクトル生成手段５で生成される帯域ＢのスペクトルＨ１を包絡線Ｅ２（ｋ，ｂ）に基づいて調整し、帯域ＢのスペクトルＨ２を生成する。

上記のように、符号化フレームがＭ（＝５）個のセグメントに分割されている符号化オーディオ信号を復号化する際に、Ｋ（＝３）個のセグメントに統合して、セグメントの数を削減することにより、帯域ＡのスペクトルＬ１から生成される帯域ＢのスペクトルＨ１に対して統合したＫ（＝３）個のセグメントごとの包絡線Ｅ２（ｋ，ｂ）に基づいてゲイン調整手段６で施されるゲインの調整にかかる処理量は、Ｍ（＝５）個のセグメントごとの包絡線Ｅ１（ｍ，ｂ）に基づいて施されるゲインの調整にかかる処理量に比べて小さくするこができ、帯域ＢのスペクトルＨ１のゲインの調整を行うために必要な処理量を削減することができる。

また、セグメント統合手段８において、セグメントの統合を行う際に、セグメントごとのエネルギーレベルＥＬ（ｍ）の変化量Ｄ（ｍ）の小さい順に統合することによって、セグメントを統合した場合の音質の劣化を抑えることができる。

本発明の符号化オーディオ信号再生装置は、符号化オーディオ信号に復号化を施して再生オーディオ信号を再生し出力する際に、符号化フレームの中のセグメントの数が多くなる場合でも、セグメント統合手段により、音質の劣化を抑えながら、セグメントを統合して、符号化フレームの中の帯域拡張ブロックの数を削減することにより、セグメントごとの帯域拡張データに基づいて符号化オーディオ信号に包含される所定の帯域のスペクトルから符号化時に削減される帯域のスペクトルを生成し、このスペクトルを符号化時に削減された帯域の原信号に含まれるスペクトルに近付けるために施されるゲインの調整にかかる処理量を低減し、符号化オーディオ信号再生装置の動作クロックの周波数を低くすることができる。これにより、電力消費を低減した符号化オーディオ信号の再生装置を提供することが可能となる。このような技術は、バッテリなどで駆動する符号化オーディオ信号再生装置において好適に利用することができる。

本発明の実施の形態１における符号化オーディオ信号再生装置の全体構成ブロック図本発明の実施の形態１における符号化オーディオ信号再生装置のセグメント統合手段の詳細構成ブロック図本発明の実施の形態１における時系列のサンプルと、セグメントごとの包絡線と、セグメントを統合した後の包絡線の様子を示す図本発明の実施の形態２における符号化オーディオ信号再生装置の全体構成ブロック図本発明の実施の形態２における時系列のサンプルと、セグメントごとの包絡線と、セグメントを統合した後の包絡線の様子を示す図従来例における符号化オーディオ信号再生装置の全体構成ブロック図従来例における符号化オーディオ信号再生装置の各構成ブロックの出力のスペクトルの様子を示す図従来例における時系列のサンプルと、セグメントごとの包絡線の様子を示す図従来例におけるゲイン調整手段の詳細構成ブロック図

符号の説明

１デマルチプレクサ
２コア復号化手段
３分析フィルタ
４帯域拡張データ復号化手段
５高域スペクトル生成手段
６ゲイン調整手段
７合成フィルタ
８セグメント統合手段

Claims

時系列のデジタルオーディオ信号のサンプルをＮ個（Ｎは正整数）まとめた符号化フレームを単位として、周波数ｆ０（ｆ０は任意の周波数）より高域の周波数帯域である帯域Ｂを削除した帯域Ａ（帯域Ａは帯域Ｂより低域の周波数帯域）のスペクトルから成る信号に符号化処理を施して符号化データを生成するとともに、前記符号化フレームをＭ個（Ｍは１以上の整数）の時間間隔に分割したセグメントごとに、復号化時に生成される前記帯域Ｂのスペクトルのゲインを調整する帯域拡張データを生成し、前記符号化データに多重化して伝送又は記録される符号化オーディオ信号を復号化して、再生オーディオ信号を再生する符号化オーディオ信号再生装置であって、
入力される前記符号化オーディオ信号から、前記符号化データと、前記帯域拡張データとを分離するデマルチプレクサと、
前記符号化データを復号化して、前記帯域Ａのスペクトルから成る信号を復元するコア復号化手段と、
前記帯域Ａのスペクトルを生成する分析フィルタと、
前記帯域Ｂのスペクトルを生成するスペクトル生成手段と、
前記帯域Ｂのスペクトルのゲインを調整するゲイン調整手段と、
前記帯域Ａのスペクトルと前記帯域Ｂのスペクトルを合成し再生オーディオ信号を再生する合成フィルタと、
前記セグメントごとの帯域拡張データに基づいて、時系列の２つ以上のセグメントを統合して統合帯域拡張データを生成するセグメント統合手段と、を備える符号化オーディオ信号再生装置。
前記セグメント統合手段は、予め前記符号化オーディオ信号に多重化される、前記帯域Ｂのスペクトルから成る信号のエネルギーレベルの変化量が最大となる時間境界Ｔを表す情報に基づいて、前記時間境界Ｔを除く時間境界を挟む２つの前記セグメントを統合して統合帯域拡張データを生成する、請求項１記載の符号化オーディオ信号再生装置。
前記セグメント統合手段は、前記セグメントごとの帯域拡張データから導かれる前記帯域Ｂのスペクトルから成る信号の前記セグメントごとのエネルギーレベルの変化量に基づいて、隣接する２つの前記セグメントを統合して統合帯域拡張データを生成する、請求項１または２に記載の符号化オーディオ信号再生装置。
前記セグメント統合手段は、前記符号化フレーム内の前記セグメントを所定のＫ個（Ｋは、１≦Ｋ＜Ｍの整数）とする様に、隣接する２つの前記セグメントを統合して統合帯域データを生成する、請求項１から３のいずれかに記載の符号化オーディオ信号再生装置。
時系列のデジタルオーディオ信号のサンプルをＮ個（Ｎは正整数）まとめた符号化フレームを単位として、周波数ｆ０（ｆ０は任意の周波数）より高域の周波数帯域である帯域Ｂを削除した帯域Ａ（帯域Ａは帯域Ｂより低域の帯域）のスペクトルから成る信号に符号化処理を施して符号化データを生成するとともに、前記符号化フレームをＭ個（Ｍは、１以上の整数）の時間間隔に分割したセグメントごとに、復号化時に生成される前記帯域Ｂのスペクトルのゲインを調整する帯域拡張データを生成し、前記符号化データに多重化して伝送又は記録される符号化オーディオ信号を復号化して、再生オーディオ信号を再生する符号化オーディオ信号再生方法であって、
入力される前記符号化オーディオ信号から、前記符号化データと、前記帯域拡張データとを分離するステップと、
前記符号化データを復号化して、前記帯域Ａのスペクトルから成る信号を復元するステップと、
前記帯域Ａのスペクトルを生成するステップと、
前記帯域Ｂのスペクトルを生成するステップと、
前記帯域Ｂのスペクトルのゲインを調整するステップと、
前記帯域Ａのスペクトルと前記帯域Ｂのスペクトルを合成し再生オーディオ信号を再生するステップと、
前記セグメントごとの帯域拡張データに基づいて、時系列の２つ以上のセグメントを統合して統合帯域拡張データを生成するステップと、を備える符号化オーディオ信号再生方法。
前記セグメントごとの帯域拡張データに基づいて、時系列の２つ以上のセグメントを統合して統合帯域拡張データを生成するステップは、予め前記符号化オーディオ信号に多重化される、前記帯域Ｂのスペクトルから成る信号のエネルギーレベルの変化量が最大となる時間境界Ｔを表す情報に基づいて、前記時間境界Ｔを除く時間境界を挟む２つの前記セグメントを統合して統合帯域拡張データを生成する、請求項５記載の符号化オーディオ信号再生方法。
前記セグメントごとの帯域拡張データに基づいて、時系列の２つ以上のセグメントを統合して統合帯域拡張データを生成するステップは、前記セグメントごとの帯域拡張データから導かれる前記帯域Ｂのスペクトルから成る信号の前記セグメントごとのエネルギーレベルの変化量に基づいて、隣接する２つの前記セグメントを統合して統合帯域拡張データを生成する、請求項５または６に記載の符号化オーディオ信号再生方法。
前記セグメントごとの帯域拡張データに基づいて、時系列の２つ以上のセグメントを統合して統合帯域拡張データを生成するステップは、前記符号化フレーム内の前記セグメントを所定のＫ個（Ｋは、１≦Ｋ＜Ｍの整数）とする様に、隣接する２つの前記セグメントを統合して統合帯域データを生成する、請求項５から７のいずれかに記載の符号化オーディオ信号再生方法。