JP2007178529A - 符号化オーディオ信号再生装置及び符号化オーディオ信号再生方法 - Google Patents
符号化オーディオ信号再生装置及び符号化オーディオ信号再生方法 Download PDFInfo
- Publication number
- JP2007178529A JP2007178529A JP2005374423A JP2005374423A JP2007178529A JP 2007178529 A JP2007178529 A JP 2007178529A JP 2005374423 A JP2005374423 A JP 2005374423A JP 2005374423 A JP2005374423 A JP 2005374423A JP 2007178529 A JP2007178529 A JP 2007178529A
- Authority
- JP
- Japan
- Prior art keywords
- band
- spectrum
- audio signal
- segment
- encoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【課題】符号化フレームを分割するセグメントの数が多い場合に、符号化オーディオ信号に包まれる所定の帯域のスペクトルから符号化時に削減される帯域のスペクトルを生成し、セグメントごとに生成したスペクトルのゲインを調整するための処理量が増大し、消費電力が増大するという課題を解消すること。
【解決手段】セグメント統合手段8により、符号化フレーム内の符号化オーディオ信号に包含されるセグメントの数Mとセグメントごとの帯域拡張データE1に基づいて、時系列に隣接する2つ以上のセグメントを統合して統合帯域拡張データE2を生成し、スペクトルのゲインを調整する際のセグメントの数を削減する。
【選択図】図1
【解決手段】セグメント統合手段8により、符号化フレーム内の符号化オーディオ信号に包含されるセグメントの数Mとセグメントごとの帯域拡張データE1に基づいて、時系列に隣接する2つ以上のセグメントを統合して統合帯域拡張データE2を生成し、スペクトルのゲインを調整する際のセグメントの数を削減する。
【選択図】図1
Description
本発明は、符号化フレームを2つ以上のセグメントに分割して、セグメントごとに帯域拡張データを伝送又は記録する符号化オーディオ信号の再生装置及び再生方法に関するものである。
デジタルオーディオの分野では、コンパクトディスク(CD)に比べて10分の1以下の低いビットレートで、高品位の音質で伝送又は記録を可能にする様々なオーディオ信号の符号化技術が多く使われる。これらのオーディオ信号の符号化技術には、例えばISOのMPEGで規格化されているMPEG2−AACなどの各種方式がある。
これらのオーディオ信号符号化技術では、時系列のデジタルオーディオ信号のサンプルが符号化フレームを単位として分けられて符号化処理が施され、複数の符号化データに纏められる。例えば、MPEG2−AACでは、まず周波数変換処理の一つであるMDCT(Modified Discrete Cosine Transform)を用い、時系列のデジタルオーディオ信号のサンプルを、所定の符号化フレームごとに、周波数軸のスペクトルに変換する。
そして、複数のスペクトルは正規化を施す周波数帯域(以下、正規化帯域と呼ぶ)ごとに纏められ、正規化及び量子化が施される。このとき、ビットレートを低減するために、人間の聴覚特性に基づき、正規化帯域ごとの量子化ビット数が決定され、正規化及び量子化が施されたスペクトルは、ハフマン符号を用いて符号化される。このようにして、ハフマン符号化を施すことにより、ビットレートは更に低減される。
符号化フレームごとに、正規化及び量子化と、ハフマン符号化が施されたスペクトルには、正規化レベルを示すスケールファクタや量子化ビット数、ハフマン符号化情報などが多重化されて符号化データとして生成される。この様にして生成された符号化データは、符号化オーディオ信号として伝送又は記録される(例えば、非特許文献1参照)。以下の説明では、上記の符号化処理をコア符号化処理と呼び、コア符号化処理により生成される符号化データをコア符号化データと呼ぶこととする。また、コア符号化データにコア符号化処理の逆の手順を行って、デジタルオーディオ信号を再生する処理をコア復号化処理と呼ぶこととする。
また、上記のコア符号化処理よりも更に低いビットレートで高音質の伝送又は記録を実現するために、上記のMPEG2−AACに適用可能な再生されるデジタルオーディオ信号の帯域を拡張する帯域拡張技術を用いた方式が提案されている。この方式では、入力されるデジタルオーディオ信号に対して、符号化時に予め周波数f0(f0は任意の周波数)より高域の周波数帯域である帯域Bを削減した帯域A(帯域Aは帯域Bより低い帯域)のスペクトルから成るデジタルオーディオ信号に上記のコア符号化処理を施してコア符号化データを生成する。入力されるデジタルオーディオ信号に含まれる帯域Bのスペクトルの包絡線などを帯域拡張データとしてコア符号化データに多重化して符号化オーディオ信号を生成する。ここで、帯域拡張データも正規化及び量子化、ハフマン符号化が施される。
このような符号化オーディオ信号を復号化する場合には、まずコア符号化データに対しコア復号化処理を施して、帯域Aのスペクトルから成るデジタルオーディオ信号を復元する。帯域拡張データを用いて、帯域Aのスペクトルから、帯域Bのスペクトルを生成し、ゲインを調整した後に、帯域Aのスペクトルと合成し再生オーディオ信号を復号化する。特に、符号化フレームを複数の時間間隔に分割したセグメントごとの帯域拡張データを用いることによって、再生オーディオ信号の帯域を拡張可能としている。これにより、低いビットレートにおいても高品位な再生オーディオ信号が出力できるようにしている(例えば、非特許文献2参照)。
以下の説明では、上記の方法により伝送又は記録される符号化オーディオ信号に復号化処理を施し、再生オーディオ信号を再生し出力する符号化オーディオ信号再生装置について図面を参照しながら説明する。
以下では説明を簡単にするために、セグメントごとの帯域拡張データは、帯域Bのスペクトルの振幅の概形を表す包絡線とする。また、帯域Aのスペクトルから成るデジタルオーディオ信号を狭帯域信号と呼ぶ。
図6は、従来の符号化オーディオ信号再生装置の構成ブロック図を示す。
図6において、1は、符号化オーディオ信号S1からコア符号化が施された帯域Aのスペクトルを含むコア符号化データS2と、帯域Bのスペクトルの包絡線から成る帯域拡張データS3とを分離するデマルチプレクサである。2は、コア符号化が施されたコア符号化データにコア復号化処理を施して、帯域Aの狭帯域信号Y2を復元するコア復号化手段である。3は、狭帯域信号Y2から帯域AのスペクトルL1を生成する分析フィルタである。4は、セグメントごとの帯域拡張データS3から、包絡線E1(m,b)を復元する帯域拡張データ復号化手段である。包絡線E1(m,b)は、複数のスペクトルをまとめた周波数帯域を単位として算出される。mはセグメントの番号を表し、bはこの周波数帯域の番号を表す。5は、帯域AのスペクトルL1に基づいて、帯域Aより高い周波数帯域の帯域BのスペクトルH1を生成する高域スペクトル生成手段である。6は、セグメントごとの包絡線E1(m,b)に基づいて、帯域BのスペクトルH1のゲインを調整するゲイン調整手段である。7は、帯域AのスペクトルL1と、ゲインが調整された帯域BのスペクトルH2を合成して、再生オーディオ信号Y1を再生する合成フィルタである。
図7は、図6の従来の符号化オーディオ信号再生装置における、各構成ブロックから出力される信号又はスペクトルの周波数軸の様子を示す図である。図7において、縦軸はスペクトルの振幅を表し、横軸は周波数をそれぞれ表す。
図7において、(a)は、コア復号化手段2から出力される狭帯域信号Y2のスペクトルの様子を示し、周波数f0までのスペクトルをもつことを表す。(b)は、スペクトル生成手段5から出力される帯域BのスペクトルH1のゲインをゲイン調整手段6で調整した後のスペクトルH2の様子を示し、周波数f0から周波数f1までのスペクトルをもつことを表す。(c)は、合成フィルタ6から出力される再生オーディオ信号Y1のスペクトルの様子を示し、周波数帯域f1までの周波数スペクトルをもつことを表す。
図8は、符号化時に入力されるデジタルオーディオ信号の帯域Bのスペクトルから成る時系列のサンプルと、分割するセグメントと、符号化オーディオ信号に包まれるセグメントごとの包絡線E1(m,b)を示す図である。
図8において、(a)は、帯域Bのスペクトルから成る時系列のサンプルの波形を示し、縦軸はサンプルの振幅を表し、横軸は時間を表す。(b)は、符号化オーディオ信号に包まれるセグメントごとの包絡線E1(m,b)を示す。ここでは、(a)の帯域Bのスペクトルから成る時系列のサンプルの過渡特性に基づいてM(=5)個のセグメントに分割される場合を示し、縦軸は周波数を表し、横軸は時間を表す。(b)において、mはセグメントの番号を表し、0≦m<M(Mはセグメントの数)である。bは周波数帯域の番号を表す。
図8に示すように、符号化時に帯域Bのスペクトルから成る時系列のサンプルの過渡特性に応じて、例えば、信号レベルの時間変化の大きさに基づいてセグメントの時間境界が設定され、セグメントごとの包絡線E1(m,b)を帯域拡張データとして符号化した後に、符号化オーディオ信号に多重化される。図6に示す符号化オーディオ信号再生装置は、図8に示されるセグメントごとに、高域スペクトル生成手段5で生成される帯域BのスペクトルH1を包絡線E1(m,b)に基づいて調整し、帯域BのスペクトルH2を生成する。
図9は、図6に示す符号化オーディオ信号再生装置において、例えば高域スペクトル生成手段5で生成される帯域Bの周波数軸に隣接するスペクトルの間に発生するエリアシングノイズを低減するためのゲイン調整手段6の詳細構成ブロック図を示す。
ここで、例えば、帯域BのスペクトルH2を合成フィルタ7で時系列サンプルに変換して合成する際に、周波数軸に並ぶスペクトルの間に発生するエリアシングノイズを低減するために、ゲイン調整手段6でエリアシングノイズを検出してゲイン補正を行う(例えば、非特許文献2参照)。
図9において、91は分析フィルタ3から出力される帯域AのスペクトルL1に基づいて高域スペクトル生成手段5で生成される帯域BのスペクトルH1に対して、セグメントごとに周波数軸上で隣接するスペクトルの間の反射係数A1と、エリアシングノイズの大きさを示すノイズレベルA2を検出するエリアシング検出手段である。92は、セグメントごとにエリアシング検出手段91で検出される反射係数A1と、エリアシングノイズのノイズレベルA2に基づいて、エリアシングノイズを低減する包絡線補正ゲインA3を算出するゲイン補正値算出手段である。93は、セグメントごとの包絡線補正ゲインA3と包絡線E1(m,b)に基づいて、高域スペクトル生成手段5で生成される帯域BのスペクトルH1のゲインを補正するゲイン補正手段である。
「13818−7:MPEG−2 Advanced Audio Coding,AAC」ISO/IEC、1997年 「14496−3:Bandwidth Extension」ISO/IEC、2001年
「13818−7:MPEG−2 Advanced Audio Coding,AAC」ISO/IEC、1997年 「14496−3:Bandwidth Extension」ISO/IEC、2001年
しかしながら、従来の構成の符号化オーディオ信号再生装置又は再生方法では、符号化フレーム内のセグメントの数が多い場合に、帯域拡張データに基づいて符号化オーディオ信号に包含される所定の帯域のスペクトルから符号化時に削減される帯域のスペクトルを生成し、このスペクトルを符号化時に削減された帯域の原信号に含まれるスペクトルに近付けるために施されるゲインの調整にかかる処理量が増大し、符号化オーディオ信号再生装置の動作クロックの周波数が高くなり、消費電力が増大するという課題があった。
上記の従来の符号化オーディオ信号再生装置の課題を解決するために、本発明の符号化オーディオ信号再生装置は、時系列のデジタルオーディオ信号のサンプルをN個(Nは正整数)まとめた符号化フレームを単位として、周波数f0(f0は任意の周波数)より高域の周波数帯域である帯域Bを削除した帯域A(帯域Aは帯域Bより低域の帯域)のスペクトルから成る信号に符号化処理を施して符号化データを生成するとともに、符号化フレームをM個(Mは、1以上の整数)の時間間隔に分割したセグメントごとに、復号化時に生成される帯域Bのスペクトルのゲインを調整する帯域拡張データを生成し、符号化データに多重化して伝送又は記録される符号化オーディオ信号を復号化して、再生オーディオ信号を再生する符号化オーディオ信号再生装置であって、入力される符号化オーディオ信号から、符号化データと、帯域拡張データとを分離するデマルチプレクサと、符号化データを復号化して、帯域Aのスペクトルから成る信号を復元するコア復号化手段と、帯域Aのスペクトルを生成する分析フィルタと、帯域Bのスペクトルを生成するスペクトル生成手段と、帯域Bのスペクトルのゲインを調整するゲイン調整手段と、帯域Aのスペクトルと帯域Bのスペクトルを合成し再生オーディオ信号を再生する合成フィルタと、セグメントごとの帯域拡張データに基づいて、時系列の2つ以上のセグメントを統合して統合帯域拡張データを生成するセグメント統合手段と、を備えることを特徴とする。
ここで、セグメント統合手段は、予め符号化オーディオ信号に多重化される、帯域Bのスペクトルから成る信号のエネルギーレベルの変化量が最大となる時間境界Tを表す情報に基づいて、時間境界Tを除く時間境界を挟む2つのセグメントを統合して統合帯域拡張データを生成するようにしてもよい。
ここで、セグメント統合手段は、セグメントごとの帯域拡張データから導かれる帯域Bのスペクトルから成る信号のセグメントごとのエネルギーレベルの変化量に基づいて、隣接する2つのセグメントを統合して統合帯域拡張データを生成するようにしてもよい。
ここで、セグメント統合手段は、符号化フレーム内のセグメントを所定のK個(Kは、1≦K<Mの整数)とする様に、隣接する2つのセグメントを統合して統合帯域データを生成するようにしてもよい。
また、上記の従来の符号化オーディオ信号再生装置の課題を解決するために、本発明の符号化オーディオ信号再生方法は、時系列のデジタルオーディオ信号のサンプルをN個(Nは正整数)まとめた符号化フレームを単位として、周波数f0(f0は任意の周波数)より高域の周波数帯域である帯域Bを削除した帯域A(帯域Aは帯域Bより低域の帯域)のスペクトルから成る信号に符号化処理を施して符号化データを生成するとともに、符号化フレームをM個(Mは、1以上の整数)の時間間隔に分割したセグメントごとに、復号化時に生成される帯域Bのスペクトルのゲインを調整する帯域拡張データを生成し、符号化データに多重化して伝送又は記録される符号化オーディオ信号を復号化して、再生オーディオ信号を再生する符号化オーディオ信号再生方法であって、入力される符号化オーディオ信号から、符号化データと、帯域拡張データとを分離するステップと、符号化データを復号化して、帯域Aのスペクトルから成る信号を復元するステップと、帯域Aのスペクトルを生成するステップと、帯域Bのスペクトルを生成するステップと、帯域Bのスペクトルのゲインを調整するステップと、帯域Aのスペクトルと帯域Bのスペクトルを合成し再生オーディオ信号を再生するステップと、セグメントごとの帯域拡張データに基づいて、時系列の2つ以上のセグメントを統合して統合帯域拡張データを生成するステップとを、備えることを特徴とする。
本発明によれば、符号化フレーム内のセグメントの数が多い場合に、セグメントごとの帯域拡張データに基づいて、時系列の2つ以上のセグメントを統合して統合帯域拡張データを生成してセグメントの数を減らすことにより、セグメントごとの帯域拡張データに基づいて符号化オーディオ信号に包まれる所定の帯域のスペクトルから符号化時に削減される帯域のスペクトルを生成し、このスペクトルを符号化時に削減された帯域の原信号に含まれるスペクトルに近付けるために施されるゲインの調整にかかる処理量を低減し、符号化オーディオ信号再生装置の動作クロックの周波数を低くすることができ、消費電力を低減することができる。
以下本発明を実施するための最良の形態について、図面を参照しながら説明する。
以下では説明を簡単にするために、セグメントごとの帯域拡張データは、帯域Bのスペクトルの振幅の概形を表す包絡線とする。また、帯域Aのスペクトルから成るデジタルオーディオ信号を狭帯域信号と呼ぶ。
(実施の形態1)
図1は、本発明の実施の形態1における符号化オーディオ信号再生装置の全体構成ブロック図を示す。
図1は、本発明の実施の形態1における符号化オーディオ信号再生装置の全体構成ブロック図を示す。
図1において、1は、符号化オーディオ信号S1からコア符号化が施された周波数f0(f0は任意の周波数)より低域の帯域Aのスペクトルを含むコア符号化データS2と、帯域B(帯域Bは帯域Aより高域の周波数帯域)のスペクトルの包絡線から成る帯域拡張データS3とを分離するデマルチプレクサである。2は、コア符号化が施されたコア符号化データS2にコア復号化処理を施して、狭帯域信号Y2を復元するコア復号化手段である。3は、狭帯域信号Y2から帯域AのスペクトルL1を生成する分析フィルタである。4は、符号化が施されたセグメントごとの帯域拡張データS3から包絡線E1(m,b)を復元する帯域拡張データ復号化手段である。ここで、セグメントは符号化フレームをM個(Mは、1以上の整数)に分割した時間間隔の区切りを表す。包絡線E1(m,b)は、周波数軸に並ぶ複数のスペクトルをまとめた周波数帯域を単位として算出される。ここで、mはセグメントの番号を表し、bはこの周波数帯域の番号を表す。5は、帯域AのスペクトルL1に基づいて、帯域Aより高い周波数帯域の帯域BのスペクトルH1を生成する高域スペクトル生成手段である。6は、統合セグメントごとの包絡線E2(k,b)に基づいて、帯域BのスペクトルH1のゲインを調整するゲイン調整手段である。7は、帯域AのスペクトルL1と、ゲインが調整された帯域BのスペクトルH2を合成して、再生オーディオ信号Y1を再生する合成フィルタである。8は、セグメントごとの包絡線E1(m,b)に基づいて、2つ以上のセグメントを統合した統合セグメントごとの包絡線E2(k,b)を生成するセグメント統合手段である。ここで、統合した後のセグメントの数をK(Kは、1≦K<Mの整数)とした、k(1≦k<K)は統合した後のセグメントの番号を表す。図1に示す符号化オーディオ信号再生装置のセグメント統合手段8を除くその他の構成ブロックは、図6に示す従来の符号化オーディオ信号再生装置の構成ブロックと同じである。
図2は、セグメント統合手段8の詳細構成ブロック図を示す。
図2において、21は、隣接する2つのセグメントを統合するか否かの判定を行い、統合判定フラグF(m)を設定する統合判定手段である。22は、統合判定結果フラグF(m)に基づいて、隣接する2つのセグメントを統合し、包絡線E2(k,b)を出力する統合帯域拡張データ算出手段である。
以下に、図2に示すセグメント統合手段8の動作について説明する。
統合判定手段21は、符号化オーディオ信号S1に包含される符号化フレーム内のセグメントの数Mと、予め符号化オーディオ信号に多重化される、帯域Bのスペクトルから成る信号のエネルギーレベルの変化量が最大となる時間境界Tを表す情報に基づいて、2つの隣接するセグメントを統合するか否かを判定し、統合判定フラグF(m)(1≦m<M)を設定し出力する。ここで、符号化フレーム内のセグメントの数Mと、時間境界Tは、前段の帯域拡張データ復号化手段4から得られるものとする。統合判定フラグF(m)は、セグメント番号mとセグメント番号(m−1)の隣接する2つのセグメントを統合するか否かを設定するフラグであって、F(m)=0の場合にはセグメント番号mとセグメント番号(m−1)の隣接する2つのセグメントは統合されない。一方、F(m)=1の場合にはセグメント番号mとセグメント番号(m−1)の隣接する2つのセグメントは統合される。符号化オーディオ信号に包まれるセグメントの数Mが1の場合には、統合判定フラグは設定されない。更に、セグメント番号mとセグメント番号(m−1)の時間境界が、予め符号化オーディオ信号に多重化される、帯域Bのスペクトルから成る信号のエネルギーレベルの変化量が最大となる時間境界Tと等しくなる場合には、セグメント番号mとセグメント番号(m−1)の隣接する2つのセグメントを統合しない様にF(m)は0に設定される。統合帯域拡張データ算出手段22は、統合判定フラグF(m)に基づいて、2つの隣接するセグメントの包絡線E1(m,b)を統合して、包絡線E2(k,b)を出力する。ここで、例えば2つの隣接するセグメントの包絡線E1(m−1,b)とE1(m,b)の周波数帯域ごとの平均値を包絡線E2(k,b)とするようにしてもよい。
図3は、符号化時に入力されるデジタルオーディオ信号の帯域Bのスペクトルから成る時系列のサンプルと、符号化フレームを分割するセグメントと、符号化オーディオ信号に包まれるセグメントごとの包絡線E1(m,b)と、セグメント統合手段8でセグメントを統合した後の包絡線E2(k,b)を示す図である。
図3において、(a)は帯域Bのスペクトルから成る時系列のサンプルの波形を示し、縦軸は振幅を表し、横軸は時間を表す。(b)は、符号化オーディオ信号に包まれるセグメントごとの包絡線E1(m,b)を示す。ここでは、(a)の帯域Bのスペクトルから成る時系列のサンプルの過渡特性に基づいてM(=5)個のセグメントに分割される場合を示し、縦軸は周波数を表し、横軸は時間を表す。(b)において、mはセグメントの番号を表し、0≦m<Mである。bは周波数帯域の番号を表す。(c)は、セグメント統合手段8でセグメントを統合した後の包絡線E2(k,b)を示す。(c)において、統合した後のセグメントの数Kを2とし、k(0≦k<K)は統合した後のセグメントの番号を表す。すなわち、m=0,1,2,3の包絡線E1(m,b)は包絡線E2(0,b)に統合されている。更に、セグメント番号m(=4)とセグメント番号(m−1)(=3)の時間境界が、予め符号化オーディオ信号に多重化される、帯域Bのスペクトルから成る信号のエネルギーレベルの変化量が最大となる時間境界Tと等しくなるために、セグメント番号m(=4)とセグメント番号(m−1)(=3)の隣接する2つのセグメントは統合されずに、包絡線E2(1,b)は包絡線E1(4,b)と同じである。
図3に示すように、符号化時に帯域Bのスペクトルから成る信号の過渡特性に応じて、例えば、信号レベルの時間変化の大きさに基づいてセグメントの時間境界が設定され、セグメントごとの包絡線E1(m,b)を帯域拡張データとして符号化した後に、符号化オーディオ信号に多重化される。図1に示す符号化オーディオ信号再生装置は、図3に示されるセグメントごとに、高域スペクトル生成手段5で生成される帯域BのスペクトルH1を包絡線E2(k,b)に基づいて調整し、帯域BのスペクトルH2を生成する。
上記のように、符号化フレームがM(=5)個のセグメントに分割されている符号化オーディオ信号を復号化する際に、K(=2)個のセグメントに統合して、セグメントの数を削減することにより、帯域AのスペクトルL1から生成される帯域BのスペクトルH1に対して統合したK(=2)個のセグメントごとの包絡線E2(k,b)に基づいてゲイン調整手段6で施されるゲインの調整にかかる処理量は、M(=5)個のセグメントごとの包絡線E1(m,b)に基づいて施されるゲインの調整にかかる処理量に比べて小さくするこができ、帯域BのスペクトルH1のゲインの調整を行うために必要な処理量を削減することができる。
これにより、符号化フレームの中のセグメントの数が多い場合に、セグメントごとに帯域拡張データである包絡線に基づいて帯域AのスペクトルL1から生成される帯域BのスペクトルH1のゲインを調整するための処理量が増大するのを大幅に抑えることができ、符号化オーディオ信号再生装置の動作クロックの周波数を低くすることができるため、消費電力を低減することができる。
ここで、上記した本発明の実施の形態における符号化オーディオ信号再生装置のセグメント統合手段8でセグメントの統合をした後のセグメントの数Kは、ユーザーによって任意に設定してもよい。また、セグメント統合手段8でセグメントの統合をした後のセグメントの数Kはバッテリ駆動をする場合の容量に応じて設定してもよい。或いは、会議録音などの再生音質の劣化が許容できる場合に、符号化オーディオ信号の再生時の用途に応じてユーザーが設定するようにしてもよい。
更に、上記した本発明の実施の形態における符号化オーディオ信号再生装置のそれぞれのブロックで行う処理を、デジタル信号処理装置(DSP)のソフトウェアで実現するようにしてもよい。
(実施の形態2)
図4は、本発明の実施の形態2における符号化オーディオ信号再生装置のセグメント統合手段8の詳細構成ブロック図を示す。
図4は、本発明の実施の形態2における符号化オーディオ信号再生装置のセグメント統合手段8の詳細構成ブロック図を示す。
尚、本発明の実施の形態2における符号化オーディオ信号再生装置の全体構成ブロック図は、図1と同じであるので説明は省略する。以下、実施の形態1と相違するセグメント統合手段8の詳細について説明する。
図4において、41は隣接する2つのセグメントを統合するか否かの判定を行い、統合判定フラグF(m)を設定する統合判定手段である。42は、包絡線E1(m,b)に基づいてセグメントごとのエネルギーレベルEL(m)(0≦m<M)を算出するエネルギーレベル算出手段である。43は、隣接する2つのセグメントのエネルギーレベルEL(m)の変化量D(m)(1≦m<M)を算出するエネルギー変化量算出手段である。44は、統合判定結果フラグF(m)に基づいて、隣接する2つのセグメントを統合し包絡線E2(k,b)を出力する統合帯域拡張データ算出手段である。
以下に、図4に示すセグメント統合手段8の動作について説明する。
まず、エネルギーレベル算出手段42はセグメントごとの包絡線E1(m,b)に基づいてエネルギーレベルEL(m)を算出する。ここで、例えばエネルギーレベルEL(m)はセグメントごとの包絡線E1(m,b)の最大値とする。或いは、エネルギーレベルEL(m)は、セグメントに包含される包絡線E1(m,b)の総和をセグメントの時間長で正規化した値としてもよい。エネルギー変化量算出手段43は隣接する2つのセグメントのエネルギーレベルEL(m)の差の絶対値を変化量D(m)として算出する。統合判定手段41は、符号化オーディオ信号S1に包含される符号化フレーム内のセグメントの数Mと、隣接する2つのセグメントのエネルギーレベルEL(m)の変化量D(m)に基づいて、2つの隣接するセグメントを統合するか否かを判定し、統合判定フラグF(m)を設定し出力する。統合判定フラグF(m)は、セグメント番号mとセグメント番号(m−1)の隣接する2つのセグメントを統合するか否かを設定するフラグであって、F(m)=0の場合にはセグメント番号mとセグメント番号(m−1)の隣接する2つのセグメントは統合されない。一方、F(m)=1の場合にはセグメント番号mとセグメント番号(m−1)の隣接する2つのセグメントは統合される。符号化オーディオ信号に包含されるセグメントの数Mが1の場合には、m=0のみであるので統合判定フラグは設定されない。更に、統合判定手段41はエネルギー変化量D(m)の小さい順に所定のセグメントの数Kになるまで隣接する2つのセグメントを統合するように統合判定フラグF(m)を設定する。統合帯域拡張データ算出手段44は、統合判定フラグF(m)に基づいて、2つの隣接するセグメントの包絡線E1(m,b)を統合して、包絡線E2(k,b)を出力する。ここで、例えば2つの隣接するセグメントの包絡線E1(m−1,b)とE1(m,b)の周波数帯域ごとの平均値を包絡線E2(k,b)とするようにしてもよい。
図5は、符号化時に入力されるデジタルオーディオ信号の帯域Bのスペクトルから成る時系列のサンプルと、符号化フレームを分割するセグメントと、符号化オーディオ信号に包まれるセグメントごとの包絡線E1(m,b)と、隣接する2つのセグメントのエネルギーレベルEL(m)の変化量D(m)と、セグメント統合手段8でセグメントを統合した後の包絡線E2(k,b)の様子を示す図である。
図5において、(a)は帯域Bのスペクトルから成る時系列のサンプルの波形を示し、縦軸は振幅を表し、横軸は時間を表す。(b)は、符号化オーディオ信号に包まれるセグメントごとの包絡線E1(m,b)を示す。ここでは、(a)の帯域Bのスペクトルから成る時系列のサンプルの過渡特性に基づいてM(=5)個のセグメントに分割される場合を示し、縦軸は周波数を表し、横軸は時間を表す。(b)において、mはセグメントの番号を表し、bは周波数帯域の番号を表す。(c)は、隣接する2つのセグメントのエネルギーレベルEL(m)の変化量D(m)を表し、変化量D(1)はセグメント番号m(=1)とセグメント番号(m−1)(=0)のエネルギーレベルEL(m)(m=0,1)の差の絶対値を表す。m=2,3,4の変化量D(m)も同様にして算出される。(d)は、セグメント統合手段8でセグメントを統合した後の包絡線E2(k,b)を示す。(d)において、統合した後のセグメントの数Kは3とし、k(0≦k<K)は統合した後の番号を表す。すなわち、m=0,1の包絡線E1(m,b)は包絡線E2(0,b)に統合されている。また、m=2,3の包絡線E1(m,b)は包絡線E2(1,b)に統合されている。包絡線E2(1,b)は包絡線E1(4,b)と同じである。
図5に示すように、符号化時に帯域Bのスペクトルから成る信号の過渡特性に応じて、例えば、信号レベルの時間変化の大きさに基づいてセグメントの時間境界が設定され、セグメントごとの包絡線E1(m,b)を帯域拡張データとして符号化した後に、符号化オーディオ信号に多重化される。図1に示す符号化オーディオ信号再生装置は、図5に示されるセグメントごとに、高域スペクトル生成手段5で生成される帯域BのスペクトルH1を包絡線E2(k,b)に基づいて調整し、帯域BのスペクトルH2を生成する。
上記のように、符号化フレームがM(=5)個のセグメントに分割されている符号化オーディオ信号を復号化する際に、K(=3)個のセグメントに統合して、セグメントの数を削減することにより、帯域AのスペクトルL1から生成される帯域BのスペクトルH1に対して統合したK(=3)個のセグメントごとの包絡線E2(k,b)に基づいてゲイン調整手段6で施されるゲインの調整にかかる処理量は、M(=5)個のセグメントごとの包絡線E1(m,b)に基づいて施されるゲインの調整にかかる処理量に比べて小さくするこができ、帯域BのスペクトルH1のゲインの調整を行うために必要な処理量を削減することができる。
これにより、符号化フレームの中のセグメントの数が多い場合に、セグメントごとに帯域拡張データである包絡線に基づいて帯域AのスペクトルL1から生成される帯域BのスペクトルH1のゲインを調整するための処理量が増大するのを大幅に抑えることができ、符号化オーディオ信号再生装置の動作クロックの周波数を低くすることができるため、消費電力を低減することができる。
また、セグメント統合手段8において、セグメントの統合を行う際に、セグメントごとのエネルギーレベルEL(m)の変化量D(m)の小さい順に統合することによって、セグメントを統合した場合の音質の劣化を抑えることができる。
ここで、上記した本発明の実施の形態における符号化オーディオ信号再生装置のセグメント統合手段8でセグメントの統合をした後のセグメントの数Kは、ユーザーによって任意に設定してもよい。また、セグメント統合手段8でセグメントの統合をした後のセグメントの数Kはバッテリ駆動をする場合の容量に応じて設定してもよい。或いは、会議録音などの再生音質の劣化が許容できる場合に、符号化オーディオ信号の再生時の用途に応じてユーザーが設定するようにしてもよい。
更に、上記した本発明の実施の形態における符号化オーディオ信号再生装置のそれぞれのブロックで行う処理を、デジタル信号処理装置(DSP)のソフトウェアで実現するようにしてもよい。
本発明の符号化オーディオ信号再生装置は、符号化オーディオ信号に復号化を施して再生オーディオ信号を再生し出力する際に、符号化フレームの中のセグメントの数が多くなる場合でも、セグメント統合手段により、音質の劣化を抑えながら、セグメントを統合して、符号化フレームの中の帯域拡張ブロックの数を削減することにより、セグメントごとの帯域拡張データに基づいて符号化オーディオ信号に包含される所定の帯域のスペクトルから符号化時に削減される帯域のスペクトルを生成し、このスペクトルを符号化時に削減された帯域の原信号に含まれるスペクトルに近付けるために施されるゲインの調整にかかる処理量を低減し、符号化オーディオ信号再生装置の動作クロックの周波数を低くすることができる。これにより、電力消費を低減した符号化オーディオ信号の再生装置を提供することが可能となる。このような技術は、バッテリなどで駆動する符号化オーディオ信号再生装置において好適に利用することができる。
1 デマルチプレクサ
2 コア復号化手段
3 分析フィルタ
4 帯域拡張データ復号化手段
5 高域スペクトル生成手段
6 ゲイン調整手段
7 合成フィルタ
8 セグメント統合手段
2 コア復号化手段
3 分析フィルタ
4 帯域拡張データ復号化手段
5 高域スペクトル生成手段
6 ゲイン調整手段
7 合成フィルタ
8 セグメント統合手段
Claims (8)
- 時系列のデジタルオーディオ信号のサンプルをN個(Nは正整数)まとめた符号化フレームを単位として、周波数f0(f0は任意の周波数)より高域の周波数帯域である帯域Bを削除した帯域A(帯域Aは帯域Bより低域の周波数帯域)のスペクトルから成る信号に符号化処理を施して符号化データを生成するとともに、前記符号化フレームをM個(Mは1以上の整数)の時間間隔に分割したセグメントごとに、復号化時に生成される前記帯域Bのスペクトルのゲインを調整する帯域拡張データを生成し、前記符号化データに多重化して伝送又は記録される符号化オーディオ信号を復号化して、再生オーディオ信号を再生する符号化オーディオ信号再生装置であって、
入力される前記符号化オーディオ信号から、前記符号化データと、前記帯域拡張データとを分離するデマルチプレクサと、
前記符号化データを復号化して、前記帯域Aのスペクトルから成る信号を復元するコア復号化手段と、
前記帯域Aのスペクトルを生成する分析フィルタと、
前記帯域Bのスペクトルを生成するスペクトル生成手段と、
前記帯域Bのスペクトルのゲインを調整するゲイン調整手段と、
前記帯域Aのスペクトルと前記帯域Bのスペクトルを合成し再生オーディオ信号を再生する合成フィルタと、
前記セグメントごとの帯域拡張データに基づいて、時系列の2つ以上のセグメントを統合して統合帯域拡張データを生成するセグメント統合手段と、を備える符号化オーディオ信号再生装置。 - 前記セグメント統合手段は、予め前記符号化オーディオ信号に多重化される、前記帯域Bのスペクトルから成る信号のエネルギーレベルの変化量が最大となる時間境界Tを表す情報に基づいて、前記時間境界Tを除く時間境界を挟む2つの前記セグメントを統合して統合帯域拡張データを生成する、請求項1記載の符号化オーディオ信号再生装置。
- 前記セグメント統合手段は、前記セグメントごとの帯域拡張データから導かれる前記帯域Bのスペクトルから成る信号の前記セグメントごとのエネルギーレベルの変化量に基づいて、隣接する2つの前記セグメントを統合して統合帯域拡張データを生成する、請求項1または2に記載の符号化オーディオ信号再生装置。
- 前記セグメント統合手段は、前記符号化フレーム内の前記セグメントを所定のK個(Kは、1≦K<Mの整数)とする様に、隣接する2つの前記セグメントを統合して統合帯域データを生成する、請求項1から3のいずれかに記載の符号化オーディオ信号再生装置。
- 時系列のデジタルオーディオ信号のサンプルをN個(Nは正整数)まとめた符号化フレームを単位として、周波数f0(f0は任意の周波数)より高域の周波数帯域である帯域Bを削除した帯域A(帯域Aは帯域Bより低域の帯域)のスペクトルから成る信号に符号化処理を施して符号化データを生成するとともに、前記符号化フレームをM個(Mは、1以上の整数)の時間間隔に分割したセグメントごとに、復号化時に生成される前記帯域Bのスペクトルのゲインを調整する帯域拡張データを生成し、前記符号化データに多重化して伝送又は記録される符号化オーディオ信号を復号化して、再生オーディオ信号を再生する符号化オーディオ信号再生方法であって、
入力される前記符号化オーディオ信号から、前記符号化データと、前記帯域拡張データとを分離するステップと、
前記符号化データを復号化して、前記帯域Aのスペクトルから成る信号を復元するステップと、
前記帯域Aのスペクトルを生成するステップと、
前記帯域Bのスペクトルを生成するステップと、
前記帯域Bのスペクトルのゲインを調整するステップと、
前記帯域Aのスペクトルと前記帯域Bのスペクトルを合成し再生オーディオ信号を再生するステップと、
前記セグメントごとの帯域拡張データに基づいて、時系列の2つ以上のセグメントを統合して統合帯域拡張データを生成するステップと、を備える符号化オーディオ信号再生方法。 - 前記セグメントごとの帯域拡張データに基づいて、時系列の2つ以上のセグメントを統合して統合帯域拡張データを生成するステップは、予め前記符号化オーディオ信号に多重化される、前記帯域Bのスペクトルから成る信号のエネルギーレベルの変化量が最大となる時間境界Tを表す情報に基づいて、前記時間境界Tを除く時間境界を挟む2つの前記セグメントを統合して統合帯域拡張データを生成する、請求項5記載の符号化オーディオ信号再生方法。
- 前記セグメントごとの帯域拡張データに基づいて、時系列の2つ以上のセグメントを統合して統合帯域拡張データを生成するステップは、前記セグメントごとの帯域拡張データから導かれる前記帯域Bのスペクトルから成る信号の前記セグメントごとのエネルギーレベルの変化量に基づいて、隣接する2つの前記セグメントを統合して統合帯域拡張データを生成する、請求項5または6に記載の符号化オーディオ信号再生方法。
- 前記セグメントごとの帯域拡張データに基づいて、時系列の2つ以上のセグメントを統合して統合帯域拡張データを生成するステップは、前記符号化フレーム内の前記セグメントを所定のK個(Kは、1≦K<Mの整数)とする様に、隣接する2つの前記セグメントを統合して統合帯域データを生成する、請求項5から7のいずれかに記載の符号化オーディオ信号再生方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005374423A JP2007178529A (ja) | 2005-12-27 | 2005-12-27 | 符号化オーディオ信号再生装置及び符号化オーディオ信号再生方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005374423A JP2007178529A (ja) | 2005-12-27 | 2005-12-27 | 符号化オーディオ信号再生装置及び符号化オーディオ信号再生方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007178529A true JP2007178529A (ja) | 2007-07-12 |
Family
ID=38303813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005374423A Pending JP2007178529A (ja) | 2005-12-27 | 2005-12-27 | 符号化オーディオ信号再生装置及び符号化オーディオ信号再生方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007178529A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013044922A (ja) * | 2011-08-24 | 2013-03-04 | Sony Corp | 符号化装置および方法、並びにプログラム |
CN106023998A (zh) * | 2016-05-27 | 2016-10-12 | 北京奇虎科技有限公司 | 摄像头音频输入装置、去噪方法和摄像头 |
-
2005
- 2005-12-27 JP JP2005374423A patent/JP2007178529A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013044922A (ja) * | 2011-08-24 | 2013-03-04 | Sony Corp | 符号化装置および方法、並びにプログラム |
US9842603B2 (en) | 2011-08-24 | 2017-12-12 | Sony Corporation | Encoding device and encoding method, decoding device and decoding method, and program |
CN106023998A (zh) * | 2016-05-27 | 2016-10-12 | 北京奇虎科技有限公司 | 摄像头音频输入装置、去噪方法和摄像头 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101221918B1 (ko) | 신호 처리 방법 및 장치 | |
JP4899359B2 (ja) | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 | |
JP5942358B2 (ja) | 符号化装置および方法、復号装置および方法、並びにプログラム | |
JP4876574B2 (ja) | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 | |
JP6075743B2 (ja) | 信号処理装置および方法、並びにプログラム | |
JP2011059714A (ja) | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 | |
JP2009116371A (ja) | 符号化装置および復号化装置 | |
JP2004046179A (ja) | 少計算量で高周波数成分を復元するオーディオデコーディング法及び装置 | |
JP2006126826A (ja) | オーディオ信号符号化/復号化方法及びその装置 | |
JP2007333785A (ja) | オーディオ信号符号化装置およびオーディオ信号符号化方法 | |
JP4736812B2 (ja) | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 | |
US20100121632A1 (en) | Stereo audio encoding device, stereo audio decoding device, and their method | |
US20080106445A1 (en) | Digital Signal Processing Apparatus, Digital Signal Processing Method, Digital Signal Processing Program, Digital Signal Reproduction Apparatus and Digital Signal Reproduction Method | |
US7444289B2 (en) | Audio decoding method and apparatus for reconstructing high frequency components with less computation | |
JP2003108197A (ja) | オーディオ信号復号化装置およびオーディオ信号符号化装置 | |
JP2006293400A (ja) | 符号化装置および復号化装置 | |
JP4973397B2 (ja) | 符号化装置および符号化方法、ならびに復号化装置および復号化方法 | |
JP2007178529A (ja) | 符号化オーディオ信号再生装置及び符号化オーディオ信号再生方法 | |
JP2005114813A (ja) | オーディオ信号再生装置及び再生方法 | |
JP5724338B2 (ja) | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム | |
JP2005004119A (ja) | 音響信号符号化装置及び音響信号復号化装置 | |
JP2009031377A (ja) | オーディオデータ処理装置およびビット幅変換方法並びにビット幅変換装置 | |
JP2006023658A (ja) | オーディオ信号符号化装置及びオーディオ信号符号化方法 | |
JP2005148539A (ja) | オーディオ信号符号化装置およびオーディオ信号符号化方法 | |
JP6439843B2 (ja) | 信号処理装置および方法、並びにプログラム |