JP2014240974A

JP2014240974A - 符号化装置、符号化方法、およびプログラム

Info

Publication number: JP2014240974A
Application number: JP2014160283A
Authority: JP
Inventors: 鈴木　志朗; Shiro Suzuki; 志朗鈴木; 松村　祐樹; Yuki Matsumura; 祐樹松村; 松本　淳; Atsushi Matsumoto; 淳松本; 前田　祐児; Yuji Maeda; 祐児前田; 戸栗　康裕; Yasuhiro Tokuri; 康裕戸栗
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-08-06
Filing date: 2014-08-06
Publication date: 2014-12-25
Anticipated expiration: 2030-03-31
Also published as: JP5892395B2

Abstract

【課題】復号時の帯域拡張による遅延時間を削減するとともに、復号側のリソースの増加を抑制する。【解決手段】高域成分生成部７３は、低域スペクトルSP-Lと高域エンベロープENV-Hとを用いて擬似高域スペクトルを生成する。位相ランダム部７４は、ランダムフラグRNDに基づいて、擬似高域スペクトルの位相をランダム化する。逆MDCT部７５は、低域エンベロープENV-Lを用いて低域スペクトルSP-Lを逆正規化し、位相ランダム部７４から供給される擬似高域スペクトルと逆正規化された低域スペクトルSP-Lとを合成し、その合成結果を全帯域のスペクトルとする。本発明は、例えば、帯域拡張復号を行う復号装置に適用することができる。【選択図】図９

Description

本発明は、符号化装置、符号化方法、およびプログラムに関し、特に、復号時の帯域拡張による遅延時間を削減するとともに、復号側のリソースの増加を抑制することができるようにした符号化装置、符号化方法、およびプログラムに関する。

音声信号の符号化方法としては、一般的に、MP3（Moving Picture Experts Group Audio Layer-3）,AAC（Advanced Audio Coding）,ATRAC（Adaptive Transform Acoustic Coding）といった変換符号化方法がよく知られている。

このような符号化方法においては、符号化結果に情報量の多い高域のスペクトルを含めずに、高域のスペクトルのエンベロープのみを含めることで符号化効率を向上させることが考えられている。この場合、復号の際には、低域のスペクトルが平行移動や折り返し等により複製されることにより、高域のスペクトルが生成される。そして、生成された高域のスペクトルのエンベロープのみが符号化結果に含まれる本来の高域のスペクトルのエンベロープに近づけられることで、聴覚的な音質の向上が計られる。このような復号の技術は帯域拡張技術と呼ばれ、既に一般的に認知されている。

図１は、高域のスペクトルについてはエンベロープのみを符号化結果に含める符号化装置の構成の一例を示すブロック図である。

図１の符号化装置１０は、MDCT（Modified Discrete Cosine Transform）部１１、量子化部１２、および多重化部１３により構成される。なお、符号化装置１０は、高域スペクトルSP-Hを符号化結果に含めない点を除いて、既に一般的によく知られている変換符号化装置と同様である。なお、図の説明の簡単化のため、量子化部１２は、量子化のみならず量子化対象の抽出や正規化も行うものとする。

具体的には、符号化装置１０のMDCT部１１は、符号化装置１０に入力された音声の時間領域信号であるPCM（Pulse Code Modulation）信号に対してMDCTを行い、周波数領域信号であるスペクトルSPを生成する。MDCT部１１は、生成されたスペクトルSPを量子化部１２に供給する。

量子化部１２は、MDCT部１１から供給されるスペクトルSPの高域成分である高域スペクトルSP-Hおよび低域成分である低域スペクトルSP-Lから、それぞれエンベロープを抽出する。量子化部１２は、抽出された高域スペクトルSP-Hのエンベロープである高域エンベロープENV-Hと、低域スペクトルSP-Lのエンベロープである低域エンベロープENV-Lを量子化する。量子化部１２は、量子化された高域エンベロープENV-Hと低域エンベロープENV-Lを、多重化部１３に供給する。なお、本明細書では、説明の簡単化のため、量子化や符号化の前後の信号の名称（SP-L,SP-Hなど）を同一のものにしてある。

また、量子化部１２は、低域エンベロープENV-Lを用いて、低域スペクトルSP-Lを正規化し、正規化された低域スペクトルSP-Lに対して量子化を行い、その結果得られる低域スペクトルSP-Lを多重化部１３に供給する。

このように、量子化部１２は、スペクトルSPの低域成分については、エンベロープと正規化されたスペクトルを符号化結果に含めるが、高域成分についてはエンベロープのみを符号化結果に含める。これにより、符号化効率が向上する。

多重化部１３は、量子化部１２から供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hを多重化し、その結果得られるビットストリームを出力する。このビットストリームは、図示せぬ記録媒体に記録されたり、復号装置に伝送されたりする。

図２は、図１の符号化装置１０による符号化処理を説明するフローチャートである。この符号化処理は、例えば、符号化装置１０に音声のPCM信号が入力されたとき開始される。

図２のステップＳ１１において、MDCT部１１は、符号化装置１０に入力された音声の時間領域信号であるPCM信号に対してMDCTを行い、周波数領域信号であるスペクトルSPを生成する。MDCT部１１は、生成されたスペクトルSPを量子化部１２に供給する。

ステップＳ１２において、量子化部１２は、MDCT部１１から供給されるスペクトルSPの高域成分である高域スペクトルSP-Hおよび低域成分である低域スペクトルSP-Lから、それぞれエンベロープを抽出する。

ステップＳ１３において、量子化部１２は、低域エンベロープENV-Lを用いて、低域スペクトルSP-Lを正規化する。

ステップＳ１４において、量子化部１２は、抽出された高域エンベロープENV-H、低域エンベロープENV-L、および正規化された低域スペクトルSP-Lに対して量子化を行う。そして、量子化部１２は、量子化された高域エンベロープENV-H、低域エンベロープENV-L、および正規化された低域スペクトルSP-Lを多重化部１３に供給する。

ステップＳ１５において、多重化部１３は、量子化部１２から供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hを多重化し、その結果得られるビットストリームを出力する。そして、処理は終了する。

図３は、図１の符号化装置１０により符号化されたビットストリームを復号する復号装置の構成の一例を示すブロック図である。

図３の復号装置３０は、分解化部３１、逆量子化部３２、逆MDCT部３３、および帯域拡張部３４により構成される。

復号装置３０の分解化部３１、逆量子化部３２、および逆MDCT部３３は、通常の変換復号装置と同様に、PCM信号の低域成分のみを復元する。

具体的には、分解化部３１は、符号化装置１０により符号化されたビットストリームを取得し、低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hに分解して、逆量子化部３２に供給する。

逆量子化部３２は、分解化部３１により供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hそれぞれに対して逆量子化を行う。そして、逆量子化部３２は、逆量子化された低域エンベロープENV-Lと低域スペクトルSP-Lを逆MDCT部３３に供給し、高域エンベロープENV-Hを帯域拡張部３４に供給する。

逆MDCT部３３は、逆量子化部３２から供給される低域エンベロープENV-Lを用いて、低域スペクトルSP-Lに対して逆正規化を行う。また、逆MDCT部３３は、逆正規化された周波数領域信号である低域スペクトルSP-Lに対して逆MDCTを行い、時間領域信号であるPCM信号を得る。なお、このPCM信号は、高域成分がないPCM信号であり、聴覚的に篭った音質の音声のPCM信号である。逆MDCT部３３は、このPCM信号を帯域拡張部３４に供給する。

帯域拡張部３４は、帯域分割フィルタ４１、高域成分生成部４２、および帯域合成フィルタ４３により構成される。帯域拡張部３４は、逆MDCT部３３で得られる高域成分がないPCM信号の周波数帯域を拡張することにより、そのPCM信号の音質を向上させる帯域拡張処理を行う。

具体的には、帯域拡張部３４の帯域分割フィルタ４１は、逆MDCT部３３から供給されるPCM信号を高域成分と低域成分に分割する。そして、このPCM信号には高域成分がないので、帯域分割フィルタ４１は、分割されたPCM信号の高域成分を破棄する。また、帯域分割フィルタ４１は、分割されたPCM信号の低域成分である低域PCM信号BS-Lを高域成分生成部４２と帯域合成フィルタ４３に供給する。

高域成分生成部４２は、帯域分割フィルタ４１から供給される低域PCM信号BS-Lと、逆量子化部３２から供給される高域エンベロープENV-Hとを用いて、高域のPCM信号を生成し、擬似高域PCM信号BS-Hとする。擬似高域PCM信号BS-Hの生成方法については、例えば、本出願人が先に出願した特許文献１に記載されている。高域成分生成部４２は、擬似高域PCM信号BS-Hを帯域合成フィルタ４３に供給する。

帯域合成フィルタ４３は、帯域分割フィルタ４１から供給される低域PCM信号BS-Lと、高域成分生成部４２から供給される擬似高域PCM信号BS-Hを合成し、全帯域のPCM信号を復号結果として出力する。

以上のようにして出力される全帯域のPCM信号に対応する音声は、高域成分がないPCM信号に対応する音声に比べて、篭り感が低減され、きらびやかで聞き心地の良い音声となる。

図４は、逆MDCT部３３および帯域合成フィルタ４３から出力される信号を説明する図である。なお、図４において、横軸は周波数を表し、縦軸は信号のレベルを表している。このことは、後述する図７、図１０、および図１２乃至図１６においても同様である。

逆MDCT部３３から出力される信号は、図４Ａに示すような低域エンベロープENV-Lを用いて逆正規化された低域スペクトルSP-LのPCM信号である。また、帯域合成フィルタ４３から出力される信号は、図４Ｂに示すような低域エンベロープENV-Lを用いて逆正規化された低域スペクトルSP-LのPCM信号を低域成分として有し、高域エンベロープENV-Hと低域PCM信号BS-Lから生成された擬似高域PCM信号BS-Hを高域成分として有するPCM信号である。

図５は、図３の復号装置３０による復号処理を説明するフローチャートである。この復号処理は、例えば、符号化装置１０により符号化されたビットストリームが復号装置３０に入力されたとき開始される。

図５のステップＳ３１において、分解化部３１は、復号装置３０に入力されたビットストリームを低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hに分解し、逆量子化部３２に供給する。

ステップＳ３２において、逆量子化部３２は、分解化部３１から供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hそれぞれに対して逆量子化を行う。逆量子化部３２は、逆量子化された低域エンベロープENV-Lと低域スペクトルSP-Lを逆MDCT部３３に供給し、高域エンベロープENV-Hを帯域拡張部３４に供給する。

ステップＳ３３において、逆MDCT部３３は、逆量子化部３２から供給される低域エンベロープENV-Lを用いて、低域スペクトルSP-Lに対して逆正規化を行う。

ステップＳ３４において、逆MDCT部３３は、逆正規化された周波数領域信号である低域スペクトルSP-Lに対して逆MDCTを行い、時間領域信号であるPCM信号を得る。逆MDCT部３３は、このPCM信号を帯域拡張部３４に供給する

ステップＳ３５において、帯域拡張部３４の帯域分割フィルタ４１は、逆MDCT部３３から供給されるPCM信号を高域成分と低域成分に分割する。そして、帯域分割フィルタ４１は、分割されたPCM信号の高域成分を破棄し、分割されたPCM信号の低域成分である低域PCM信号BS-Lを高域成分生成部４２と帯域合成フィルタ４３に供給する。

ステップＳ３６において、高域成分生成部４２は、帯域分割フィルタ４１から供給される低域PCM信号BS-Lと、逆量子化部３２から供給される高域エンベロープENV-Hとを用いて、擬似高域PCM信号BS-Hを生成する。高域成分生成部４２は、擬似高域PCM信号BS-Hを帯域合成フィルタ４３に供給する。

ステップＳ３７において、帯域合成フィルタ４３は、帯域分割フィルタ４１から供給される低域PCM信号BS-Lと、高域成分生成部４２から供給される擬似高域PCM信号BS-Hを合成し、全帯域のPCM信号を得る。帯域合成フィルタ４３は、その全帯域のPCM信号を出力し、処理を終了する。

以上のような帯域拡張技術は、国際規格であるHE-AAC (High-Efficiency Advanced Audio Coding)やLPEC（商標）のステレオハイクオリティモードで既に利用されている。

上述したように、従来の帯域拡張技術では、帯域拡張処理は、低域スペクトルSP-Lの復号処理の後処理（ポストプロセス）として行われる。これにより、擬似高域PCM信号BS-Hの自由度を高めることができる。即ち、擬似高域PCM信号BS-Hを周波数領域信号である低域スペクトルSP-Lではなく、時間領域信号である低域PCM信号BS-Lから生成することができる。

なお、符号化処理や復号処理の処理ブロックサイズと、帯域拡張処理の処理ブロックサイズをそれぞれ自由に設定することで、周波数分析精度および時間分解精度をそれぞれ最適にすることができる。

また、特許文献１に記載されている方法で擬似高域PCM信号を生成する場合、高域エンベロープENV-Hからノイズ性スペクトルを生成するとともに、高域エンベロープENV-Hおよび低域PCM信号BS-Lからトーン性スペクトルを生成し、両方のスペクトルを比較するといった複雑な処理が必要となる。

このようなノイズ性スペクトルとトーン性スペクトルを生成する処理は、聴覚的に高い品質の音声を生成するために必要な、低域スペクトルと高域スペクトルのマッチング精度の向上に必須の処理であり、特許文献２および３に記載されている復号装置においても行われている。

特許第３８６１７７０号公報特許第３６４６９３８号公報特許第３６４６９３９号公報

以上のように、従来の帯域拡張技術では、帯域拡張処理が、低域スペクトルSP-Lの復号処理の後処理として行われるように研究、開発、および実用化が行われている。従って、全帯域のPCM信号は、分解化部３１、逆量子化部３２、および逆MDCT部３３による通常の復号処理が終了してから（図３の例では、時刻T0）、帯域拡張部３４による処理時間後（図３の例では、時刻T1）に出力される。

このことは、復号装置３０が単に音声のみを再生する再生装置に設けられる場合には、それほど大きな問題とはならない。しかしながら、復号装置３０が、例えば音声と同期して映像も再生する再生装置に設けられる場合、通常の復号のみを行う場合と帯域拡張も行う場合とで全帯域のPCM信号の出力時間が異なるため、映像と音声を同期して出力することが困難になる。

これを解決するためには映像の再生タイミングを遅らせる必要があるが、音声に比べ映像のバッファリングには大量のメモリが必要となるため、リソースの増大を招く。また、映像と音声の同期タイミングを予めずらしておくことも考えられるが、通常の復号のみを行うか、帯域拡張も行うかは、再生装置によるため、常に最適な同期タイミングを指定することは困難である。

また、復号装置３０は、帯域拡張のために帯域拡張部３４を新たに設ける必要があり、帯域拡張を行わない復号装置に比べてリソースが増加する。

以上により、帯域拡張を行う復号装置において、帯域拡張による遅延時間を削減するとともに、リソースの増加を抑制することが求められている。

本発明は、このような状況に鑑みてなされたものであり、復号時の帯域拡張による遅延時間を削減するとともに、復号側のリソースの増加を抑制することができるようにするものである。

本発明の一側面の符号化装置は、音声信号の高域のスペクトルに基づいて、前記高域のスペクトルの分布の偏りを表す集中度の情報を決定する決定手段と、前記音声信号のスペクトルから、前記高域のスペクトルのエンベロープを抽出する抽出手段と、前記決定手段により決定された前記集中度の情報、前記抽出手段により抽出された前記高域のスペクトルのエンベロープ、および低域のスペクトルを多重化して、符号化結果とする多重化手段とを備える符号化装置である。

本発明の一側面の符号化方法およびプログラムは、本発明の一側面の符号化装置に対応する。

本発明の一側面においては、音声信号の高域のスペクトルに基づいて、前記高域のスペクトルの分布の偏りを表す集中度の情報が決定され、前記音声信号のスペクトルから、前記高域のスペクトルのエンベロープが抽出され、決定された前記集中度の情報、抽出された前記高域のスペクトルのエンベロープ、および低域のスペクトルが多重化されて、符号化結果とされる。

本発明によれば、復号時の帯域拡張による遅延時間が削減され、復号側のリソースの増加が抑制されるように、符号化を行うことができる。

符号化装置の構成の一例を示すブロック図である。図１の符号化装置による符号化処理を説明するフローチャートである。復号装置の構成の一例を示すブロック図である。逆MDCT部および帯域合成フィルタから出力される信号を説明する図である。図３の復号装置による復号処理を説明するフローチャートである。本発明を適用した符号化装置の第１実施の形態の構成例を示すブロック図である。図６のMDCT部および量子化部から出力される信号を説明する図である図６の符号化装置による符号化処理を説明するフローチャートである。図６の符号化装置により符号化されたビットストリームを復号する復号装置の構成例を示すブロック図である。図９の逆MDCT部から出力される信号を説明する図である。位相のランダム化の有無による復号結果の差を説明する図である。高域スペクトルSP-Hの特性について説明する図である。高域スペクトルSP-Hの特性について説明する図である。高域スペクトルSP-Hの特性について説明する図である。高域スペクトルSP-Hの特性について説明する図である。高域スペクトルSP-Hの特性について説明する図である。図９の復号装置による復号処理を説明するフローチャートである。本発明を適用した復号装置の第２実施の形態の構成例を示すブロック図である。図１８の復号装置による復号処理を説明するフローチャートである。コンピュータの構成例を示す図である。

＜第１実施の形態＞
［符号化装置の第１実施の形態の構成例］
図６は、本発明を適用した符号化装置の第１実施の形態の構成例を示すブロック図である。

図６に示す構成のうち、図１の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図６の符号化装置５０の構成は、主に、量子化部１２、多重化部１３の代わりに量子化部５１、多重化部５２が設けられている点が図１の構成と異なる。符号化装置１０は、低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hの他に、ランダムフラグRND（詳細は後述する）を多重化してビットストリームを生成する。

具体的には、符号化装置５０の量子化部５１は、決定部６１、抽出部６２、正規化部６３、および部分量子化部６４により構成される。

決定部６１は、MDCT部１１から供給されるスペクトルSPのうちの高域スペクトルSP-Hに基づいて、例えば以下の式（１）により、高域スペクトルSP-Hの集中度Dを決定する。

D=max(SP-H)/ave(SP-H) ・・・（１）

なお、式（１）において、max(SP-H)は、高域スペクトルSP-Hの最大値を表し、ave(SP-H)は、高域スペクトルSP-Hの平均値を表す。

式（１）によれば、符号化対象の音声の高域成分のトーン性が高く、高域スペクトルSP-Hの分布に大きな偏りがある場合、集中度Dは大きくなり、符号化対象の音声の高域成分のノイズ性が高く、高域スペクトルSP-Hの分布が平坦である場合、集中度Dは小さくなる。

決定部６１は、集中度Dに基づいてランダムフラグRNDを決定する。このランダムフラグRNDは、後述する復号装置における帯域拡張処理時に、低域スペクトルSP-Lと高域エンベロープENV-Hから生成される高域スペクトルSP-Hに擬似するスペクトルの位相をランダム化するかどうかを表すフラグである。

例えば、集中度Dが、符号化装置５０に予め設定されている閾値より大きい場合、即ち高域スペクトルSP-Hのトーン性が高い場合、ランダムフラグRNDは、ランダム化しないことを表す0に決定される。一方、集中度Dが予め設定されている閾値以下である場合、即ち高域スペクトルSP-Hのノイズ性が高い場合、ランダムフラグRNDは、ランダム化することを表す1に決定される。決定部６１は、決定されたランダムフラグRNDを多重化部５２に供給する。

抽出部６２は、図１の量子化部１２と同様に、MDCT部１１から供給されるスペクトルSPのうちの高域スペクトルSP-Hおよび低域スペクトルSP-Lから、それぞれエンベロープを抽出する。

正規化部６３は、量子化部１２と同様に、低域エンベロープENV-Lを用いて、低域スペクトルSP-Lを正規化する。

部分量子化部６４は、正規化された低域スペクトルSP-Lに対して量子化を行い、その結果得られる低域スペクトルSP-Lを多重化部５２に供給する。また、部分量子化部６４は、量子化部１２と同様に、抽出された高域エンベロープENV-Hと低域エンベロープENV-Lを量子化する。部分量子化部６４は、量子化部１２と同様に、量子化された高域エンベロープENV-Hと低域エンベロープENV-Lを、多重化部５２に供給する。

多重化部５２は、量子化部５１の決定部６１から供給されるランダムフラグRND、並びに、部分量子化部６４から供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hを多重化する。多重化部５２は、その結果得られるビットストリームを出力する。このビットストリームは、図示せぬ記録媒体に記録されたり、復号装置に伝送されたりする。

[符号化装置における信号の説明］
図７は、図６の符号化装置５０のMDCT部１１および量子化部５１から出力される信号を説明する図である。

図７Ａに示すように、MDCT部１１から出力されるスペクトルSPは、全帯域のスペクトルである。これに対して、量子化部５１から出力されるランダムフラグRND以外の信号は、図７Ｂに示すように、低域スペクトルSP-L、低域エンベロープENV-L、および高域エンベロープENV-Hである。

[符号化装置の処理の説明］
図８は、図６の符号化装置５０による符号化処理を説明するフローチャートである。この符号化処理は、例えば、符号化装置５０に音声のPCM信号が入力されたとき開始される。

図８のステップＳ５１において、MDCT部１１は、図２のステップＳ１１の処理と同様に、符号化装置５０に入力された音声の時間領域信号であるPCM信号に対してMDCTを行い、周波数領域信号であるスペクトルSPを生成する。MDCT部１１は、生成されたスペクトルSPを量子化部５１に供給する。

ステップＳ５２において、量子化部５１の決定部６１は、MDCT部１１から供給されるスペクトルSPのうちの高域スペクトルSP-Hに基づいて、上述した式（１）により、高域スペクトルSP-Hの集中度Dを決定する。

ステップＳ５３において、決定部６１は、集中度Dに基づいてランダムフラグRNDを決定する。決定部６１は、決定されたランダムフラグRNDを多重化部５２に供給し、処理をステップＳ５４に進める。

ステップＳ５４乃至Ｓ５６の処理は、図２のステップＳ１２乃至Ｓ１４の処理と同様であるので、説明は省略する。

ステップＳ５６の処理後、ステップＳ５７において、多重化部５２は、量子化部５１から供給されるランダムフラグRND、低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hを多重化し、その結果得られるビットストリームを出力する。そして処理は終了する。

[復号装置の構成例］
図９は、図６の符号化装置５０により符号化されたビットストリームを復号する復号装置の構成例を示すブロック図である。

図９の復号装置７０は、分解化部７１、逆量子化部７２、高域成分生成部７３、位相ランダム部７４、および逆MDCT部７５により構成される。復号装置７０は、帯域拡張処理を低域スペクトルSPLの復号処理と同時に行う。

具体的には、分解化部７１（取得手段）は、図６の符号化装置５０により符号化されたビットストリームを取得する。分解化部７１は、そのビットストリームをランダムフラグRND、低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hに分解し、逆量子化部７２に供給する。

逆量子化部７２は、図３の逆量子化部３２と同様に、分解化部７１から供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hそれぞれに対して逆量子化を行う。

逆量子化部７２は、逆量子化された低域エンベロープENV-Lを逆MDCT部７５に供給し、低域スペクトルSP-Lを逆MDCT部７５と高域成分生成部７３に供給する。また、逆量子化部７２は、高域エンベロープENV-Hを高域成分生成部７３に供給し、逆量子化部７２は、ランダムフラグRNDを位相ランダム部７４に供給する。

高域成分生成部７３は、逆量子化部７２から供給される低域スペクトルSP-Lと高域エンベロープENV-Hを用いて高域のスペクトルを生成し、擬似高域スペクトルとする。具体的には、例えば、高域成分生成部７３は、低域スペクトルSP-Lを複製し、複製されたスペクトルを高域エンベロープENV-Hを用いて変形し、擬似高域スペクトルとする。

この擬似高域スペクトルの生成方法としては、例えば、本出願人が先に出願した特許文献１に記載された方法を用いることもできるし、それ以外の方法を用いることもできる。高域成分生成部７３は、生成された擬似高域スペクトルを位相ランダム部７４に供給する。

位相ランダム部７４は、逆量子化部７２から供給されるランダムフラグRNDに基づいて、高域成分生成部７３から供給される擬似高域スペクトルの位相をランダム化する。

具体的には、位相ランダム部７４は、ランダムフラグRNDがランダム化することを表す1である場合、以下の式（２）により、擬似高域スペクトルの符号（sign,+/-）をランダム化する。

SP-H(i)=-1^(rand()&0x1)×SP-H(i) ・・・（２）

なお、式（２）において、SP-Hは高域スペクトルを表し、iはスペクトル番号を表す。

式（２）によれば、「-1」をランダム関数rand()の返り値の下位1ビットの回数だけ掛け合わせることで、高域スペクトルSP-Hの符号が-1か1のどちらかにランダムに割り当てられる。

一方、ランダムフラグRNDがランダム化しないことを表す0である場合、位相ランダム部７４は、擬似高域スペクトルの位相をランダム化しない。

位相ランダム部７４は、位相がランダム化された擬似高域スペクトル、または、位相がランダム化されなかった擬似高域スペクトルを、逆MDCT部７５に供給する。

逆MDCT部７５（合成手段）は、逆量子化部７２から供給される低域エンベロープENV-Lを用いて、低域スペクトルSP-Lを逆正規化する。そして、逆MDCT部７５は、逆正規化された低域スペクトルSP-Lと位相ランダム部７４から供給される擬似高域スペクトルを合成する。逆MDCT部７５は、合成の結果得られる周波数領域信号である全帯域のスペクトルに対して逆MDCTを行い、時間領域信号である全帯域のPCM信号を得る。逆MDCT部７５は、その全帯域のPCM信号を復号結果として出力する。

以上のように、復号装置７０は、低域スペクトルSP-Lの復号と同時に、擬似高域スペクトルの生成を行う。従って、復号装置７０において復号に要する時間は、復号のみを行う通常の復号装置において復号に要する時間と略同一である。即ち、図９の復号装置７０では、ビットストリームが入力されてから、時刻T0後に復号結果を出力することができる。つまり、復号装置７０では、帯域拡張による遅延が発生しない。

[復号装置における信号の説明］
図１０は、図９の復号装置７０の逆MDCT部７５から出力される信号を説明する図である。

逆MDCT部７５から出力される信号は、図１０に示すような低域エンベロープENV-Lを用いて正規化された低域スペクトルSP-Lと、図１０に示すような高域エンベロープENV-Hと低域スペクトルSP-Lから生成された擬似高域スペクトルの合成結果の周波数変換後のPCM信号である。

[位相のランダム化による効果の説明］
図１１乃至図１６は、図９の位相ランダム部７４による位相のランダム化の効果を説明する図である。

図１１は、位相のランダム化の有無による復号結果の差を説明する図である。

図１１に示すように、図６の符号化装置５０では、フレームと呼ばれる一定の長さを有する区間毎にPCM信号が符号化されるが、そのフレームは、通常、50%ずつオーバーラップされて設定される。具体的には、図１１に示すように、J-1番目のフレームと、その次のJ番目のフレームは、0.5フレーム分だけオーバーラップして設定される。

図１１では、図１１の左側に示すように、トーン性が高いスペクトルが符号化されている場合について説明する。

この場合、図１１の右側の上段に示すように、J-1番目とJ番目のフレームのスペクトルの復号時にスペクトルの位相がランダム化されないと、J-1番目とJ番目のフレームのオーバーラップ期間のスペクトルの位相は、J-1番目とJ番目のフレームのスペクトルと符号の合成により、正確に復元される。従って、復元されたオーバーラップ期間のスペクトルは、トーン性が高いスペクトルとなる。

一方、右側の下段に示すように、J-1番目とJ番目のフレームのスペクトルの復号時にスペクトルの位相がランダム化されると、J-1番目とJ番目のフレームのスペクトルの符号は必ずしも一致しなくなる。従って、オーバーラップ期間のスペクトルの位相は、正確に復元されない。よって、復号装置７０において復元されたオーバーラップ期間の信号は、符号化前のスペクトルが有していたトーン性が崩れたスペクトルとなる。

スペクトルのトーン性が崩されると、本来特定のスペクトルに集中しているはずのエネルギーが周囲のスペクトルに漏れ出してしまう。これにより、本来のスペクトルに比べてスペクトルのピーク（山）が抑制され、周囲に漏れだしたエネルギーがスペクトルの谷のエネルギーを押し上げる。その結果、スペクトルがノイズ性を有するようになる。

以上のように、復号時に位相のランダム化が行われると、符号化前にトーン性を有していたスペクトルが、ノイズ性を有するスペクトルに変換される。

図１２乃至図１６は、高域スペクトルSP-Hの特性について説明する図である。

図１２Ａに示すように、低域スペクトルSP-Lのトーン性が高い場合、高域スペクトルSP-Hのトーン性も高いことが多い。これは、管楽器、弦楽器といった楽器類が、基本周波数とその整数倍の高調波成分を組み合わせた音波を発していることから推測することができる。

このようにトーン性の高い低域スペクトルSP-Lと高域スペクトルSP-Hからなるスペクトルが帯域拡張符号化された場合、帯域拡張復号時に、擬似高域スペクトルが低域スペクトルSP-Lを単純に折り返すことにより生成されると、図１２Ｂに示すように、擬似高域スペクトルは、トーン性の高いスペクトルとなる。従って、復号結果に対応する音声は、聴覚的に違和感が少ない音声となる。

よって、図６の符号化装置５０は、集中度Dが予め設定されている閾値よりも大きい場合、即ち符号化対象の音声の高域成分にトーン性がある場合、ランダムフラグRNDを0にする。これにより、復号装置７０では、擬似高域スペクトルの位相がランダム化されないので、復号結果に対応する音声は、聴覚的に違和感が少ない音声となる。

一方、図１３Ａおよび図１４Ａに示すように、低域スペクトルSP-Lのノイズ性が高い場合、高域になるほどよりノイズ性が高くなる。これは、ノイズ性の高い、即ち非トーン性を有する打撃音や衝撃音などの音を発するシンバルやマラカスなどの楽器において、高域の振動ほど楽器内で伝播されるため、高域の音ほど各振動要素の振幅や位相が複雑に絡み合い、ノイズ性が高くなることから推測できる。

このようにノイズ性の高い低域スペクトルSP-Lと高域スペクトルSP-Hからなるスペクトルが帯域拡張符号化された場合、図１３Ｂに示すように、帯域拡張復号時に低域スペクトルSP-Lを用いて生成される擬似高域スペクトルは、ノイズ性の高いスペクトルとなる。従って、図１３Ｂに示すように擬似高域スペクトルの位相のランダム化が行われなくても、図１４Ｂに示すようにランダム化が行われても、擬似高域スペクトルのノイズ性は高くなり、復号結果に対応する音声は、聴覚的に違和感が少ない音声となる。

しかしながら、シンバルやマラカスなどの楽器のノイズ性の高い音であっても、低域成分には、トーン的な振動成分が含まれている場合がある。また、シンバルやマラカスなどの楽器の音の周波数は主に高域であり、低域成分には別のトーン性の高い音声が含まれている可能性もある。従って、図１５Ａや図１６Ａに示すように、高域スペクトルSP-Hのノイズ性が高い場合であっても、低域スペクトルSP-Lのトーン性が高い場合がある。

このようなトーン性の高い低域スペクトルSP-Lとノイズ性の高い高域スペクトルSP-Hからなるスペクトルが帯域拡張符号化された場合、図１５Ｂに示すように、帯域拡張復号時に低域スペクトルSP-Lを用いて生成される擬似高域スペクトルには、トーン性成分が含まれている可能性がある。従って、図１５Ｂに示すように擬似高域スペクトルの位相がランダム化されないと、復号結果に対応する高域の音声が、本来のノイズ性を有さず、低域の音声と同様にトーン性を有することになり、聴覚的に違和感が多い音声となる。

これに対して、擬似高域スペクトルの位相がランダム化されると、元の擬似高域スペクトルにトーン性成分が含まれている場合であっても、図１６Ｂに示すように、ランダム化後の擬似高域スペクトルはノイズ性を有する。従って、復号結果に対応する音声は、聴覚的に違和感が少ない音声となる。

以上のように、高域スペクトルSP-Hがノイズ性を有する場合、低域スペクトルSP-Lもノイズ性を有する場合には、ランダム化は行われても行われなくてもよいが、低域スペクトルSP-Lがトーン性を有する場合には、ランダム化を行う必要がある。従って、高域スペクトルSP-Hがノイズ性を有する場合、常にランダム化が行われるようにすることで、集中度Dに基づいて聴覚的に違和感の少ない復号結果が得られるようにすることができる。

よって、図６の符号化装置５０は、集中度Dが予め設定されている閾値以下である場合、即ち符号化対象の音声の高域成分にノイズ性がある場合、ランダムフラグRNDを1にする。これにより、復号装置７０では、擬似高域スペクトルの位相がランダム化されるので、復号結果に対応する音声は、聴覚的に違和感が少ない音声となる。

なお、低域でノイズ性が高く、高域でトーン性が高い音声は自然界にほとんど存在しないため、ノイズ性の高い低域スペクトルSP-Lとトーン性の高い高域スペクトルSP-Hからなるスペクトルについては考慮しない。

[復号装置の処理の説明］
図１７は、図９の復号装置７０による復号処理を説明するフローチャートである。この復号処理は、例えば、符号化装置５０により符号化されたビットストリームが復号装置７０に入力されたとき開始される。

図１７のステップＳ７１において、分解化部７１は、符号化装置５０により符号化されたビットストリームを取得し、そのビットストリームをランダムフラグRND、低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hに分解する。分解化部７１は、ランダムフラグRND、低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hを逆量子化部７２に供給する。

ステップＳ７２において、逆量子化部７２は、分解化部７１から供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hそれぞれに対して逆量子化を行う。逆量子化部７２は、逆量子化された低域エンベロープENV-Lを逆MDCT部７５に供給し、低域スペクトルSP-Lを逆MDCT部７５と高域成分生成部７３に供給する。また、逆量子化部７２は、高域エンベロープENV-Hを高域成分生成部７３に供給し、逆量子化部７２は、ランダムフラグRNDを位相ランダム部７４に供給する。

ステップＳ７３において、高域成分生成部７３は、逆量子化部７２から供給される低域スペクトルSP-Lと高域エンベロープENV-Hを用いて擬似高域スペクトルを生成する。高域成分生成部７３は、生成された擬似高域スペクトルを位相ランダム部７４に供給する。

ステップＳ７４において、位相ランダム部７４は、逆量子化部７２から供給されるランダムフラグRNDが1であるかどうかを判定する。ステップＳ７４でランダムフラグRNDが1であると判定された場合、ステップＳ７５において、位相ランダム部７４は、上述した式（２）により、高域成分生成部７３から供給される擬似高域スペクトルの位相をランダム化する。そして、位相ランダム部７４は、位相がランダム化された擬似高域スペクトルを逆MDCT部７５に供給し、処理をステップＳ７６に進める。

一方、ステップＳ７４でランダムフラグRNDが1ではない、即ちランダムフラグRNDが0であると判定された場合、位相ランダム部７４は、擬似高域スペクトルの位相をランダム化せず、そのまま逆MDCT部７５に供給する。そして、処理はステップＳ７６に進む。

ステップＳ７６において、逆MDCT部７５は、逆量子化部３２から供給される低域エンベロープENV-Lを用いて、低域スペクトルSP-Lを逆正規化する。

ステップＳ７７において、逆MDCT部７５は、逆正規化された低域スペクトルSP-Lと位相ランダム部７４から供給される擬似高域スペクトルを合成し、その結果得られる全帯域のスペクトルに対して逆MDCTを行い、全帯域のPCM信号を得る。そして、逆MDCT部７５は、その全帯域のPCM信号を復号結果として出力し、処理を終了する。

以上のように、復号装置７０は、逆MDCT前の低域スペクトルSP-Lを用いて擬似高域スペクトルを生成し、高域スペクトルSP-Hの集中度に基づいて決定されたランダムフラグRNDにしたがって擬似高域スペクトルをランダム化することにより、符号化対象の音声のスペクトルの高域成分を復元する。

これにより、低域スペクトルSP-Lを用いて、高域スペクトルSP-Hに比較的合致するスペクトルを、符号化対象の音声のスペクトルの高域成分として復元することができる。従って、低域スペクトルSP-Lを用いて符号化対象の音声のスペクトルの高域成分を復元することにより、低域スペクトルSP-Lの復号処理と帯域拡張処理を同時に行うことができ、帯域拡張による遅延時間を削減することができる。その結果、篭らず、きらびやかで聞き心地の良い全帯域の音声のPCM信号が、復号結果として、帯域拡張処理を行わない復号装置の場合と略同一の時間経過後に出力される。

また、復号装置７０は、低域スペクトルSP-Lを用いて生成された擬似高域スペクトルの位相をランダム化することにより、ノイズ性を有する擬似高域スペクトルを生成するので、ただ単にランダムなスペクトルを擬似高域スペクトルとして生成する場合に比べて、より高域スペクトルSP-Hに合致した擬似高域スペクトルを生成することができる。

さらに、復号装置７０は、逆MDCT前にスペクトルの低域成分と高域成分を生成するので、帯域拡張処理のために、図３の復号装置３０のように帯域分割フィルタ４１および帯域合成フィルタ４３を備える必要がない。従って、図３の復号装置３０に比べて、帯域拡張処理のための処理量、回路規模、コードサイズなどのリソースを削減することができる。

＜第２実施の形態＞
［復号装置の第２実施の形態の構成例］
図１８は、本発明を適用した復号装置の第２実施の形態の構成例を示すブロック図である。

図１８に示す構成のうち、図３や図９の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図１８の復号装置１００の構成は、主に、分解化部７１、逆量子化部７２の代わりに、分解化部３１、逆量子化部３２が設けられている点、および、新たに決定部１０１が設けられている点が、図９の復号装置７０の構成と異なる。復号装置１００は、図１の符号化装置１０により符号化されたビットストリームに含まれる低域スペクトルSP-Lに基づいてランダムフラグRNDを決定する。

具体的には、決定部１０１は、逆量子化部３２により逆量子化された低域スペクトルSP-Lに基づいて、例えば、以下の式（３）により、低域スペクトルSP-Lの集中度Ｄ´を決定する。

Ｄ´=max(SP-L)/ave(SP-L) ・・・（３）

なお、式（３）において、max(SP-L)は、低域スペクトルSP-Lの最大値を表し、ave(SP-L)は、低域スペクトルSP-Lの平均値を表す。

式（３）によれば、符号化対象の音声の低域成分のトーン性が高く、低域スペクトルSP-Lの分布に大きな偏りがある場合、集中度Ｄ´は大きくなり、符号化対象の音声の低域成分のノイズ性が高く、低域スペクトルSP-Lの分布が平坦である場合、集中度Ｄ´は小さくなる。

決定部１０１は、集中度Ｄ´に基づいてランダムフラグRNDを決定する。具体的には、集中度Ｄが、復号装置１００に予め設定されている閾値よりも大きい場合、即ち低域スペクトルSP-Lのトーン性が高い場合、決定部１０１は、ランダムフラグRNDを0に決定する。一方、集中度Ｄ´が予め設定されている閾値以下である場合、即ち低域スペクトルSP-Lのノイズ性が高い場合、決定部１０１は、ランダムフラグRNDを1に決定する。そして、決定部１０１は、決定されたランダムフラグRNDを位相ランダム部７４に供給する。これにより、低域スペクトルSP-Lのトーン性が高い場合、擬似高域スペクトルの位相がランダム化されず、低域スペクトルSP-Lのノイズ性が高い場合、擬似高域スペクトルの位相がランダム化される。その結果、復号結果に対応する音声は、聴覚的に充分な音質の音声となる。

[復号装置の処理の説明］
図１９は、図１８の復号装置１００による復号処理を説明するフローチャートである。この復号処理は、例えば、図１の符号化装置１０により符号化されたビットストリームが復号装置１００に入力されたとき開始される。

図１９のステップＳ９１において、分解化部３１は、符号化装置１０により符号化されたビットストリームを低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hに分解し、逆量子化部３２に供給する。

ステップＳ９２およびＳ９３の処理は、図１７のステップＳ７２およびＳ７３の処理と同様であるので、説明は省略する。

ステップＳ９３の処理後、ステップＳ９４において、決定部１０１は、逆量子化部３２により逆量子化された低域スペクトルSP-Lに基づいて、上述した式（３）により、低域スペクトルSP-Lの集中度Ｄ´を決定する。

ステップＳ９５において、決定部１０１は、集中度Ｄ´に基づいて、ランダムフラグRNDを決定する。そして、決定部１０１は、そのランダムフラグRNDを位相ランダム部７４に供給し、処理をステップＳ９６に進める。

ステップＳ９６乃至Ｓ９９の処理は、図１７のステップＳ７４乃至Ｓ７７の処理と同様であるので、説明は省略する。

＜第３実施の形態＞
[本発明を適用したコンピュータの説明］
次に、上述した一連の符号化処理および復号処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の符号化処理および復号処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図２０は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としての記憶部２０８やROM（Read Only Memory）２０２に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブルメディア２１１に格納（記録）しておくことができる。このようなリムーバブルメディア２１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブルメディア２１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブルメディア２１１からドライブ２１０を介してコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵する記憶部２０８にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)２０１を内蔵しており、CPU２０１には、バス２０４を介して、入出力インタフェース２０５が接続されている。

CPU２０１は、入出力インタフェース２０５を介して、ユーザによって、入力部２０６が操作等されることにより指令が入力されると、それに従って、ROM２０２に格納されているプログラムを実行する。あるいは、CPU２０１は、記憶部２０８に格納されたプログラムを、RAM(Random Access Memory)２０３にロードして実行する。

これにより、CPU２０１は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU２０１は、その処理結果を、必要に応じて、例えば、入出力インタフェース２０５を介して、出力部２０７から出力、あるいは、通信部２０９から送信、さらには、記憶部２０８に記録等させる。

なお、入力部２０６は、キーボードや、マウス、マイク等で構成される。また、出力部２０７は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

５０符号化装置，５２多重化部，６１決定部，６２抽出部，６３正規化部，７０復号装置，７１分解化部，７３高域成分生成部，７４位相ランダム部，７５逆MDCT部，１００復号装置，１０１分解化部，１０１決定部

Claims

音声信号の高域のスペクトルに基づいて、前記高域のスペクトルの分布の偏りを表す集中度の情報を決定する決定手段と、
前記音声信号のスペクトルから、前記高域のスペクトルのエンベロープを抽出する抽出手段と、
前記決定手段により決定された前記集中度の情報、前記抽出手段により抽出された前記高域のスペクトルのエンベロープ、および低域のスペクトルを多重化して、符号化結果とする多重化手段と
を備える符号化装置。
前記決定手段は、前記集中度が所定の閾値より大きい場合、前記符号化結果を復号する復号装置が前記高域のスペクトルとして所定のスペクトルを生成する際に、前記集中度に基づいて、そのスペクトルをランダム化するかどうかを表す前記集中度の情報であるランダムフラグをランダム化しないことを表す情報に決定し、前記集中度が前記所定の閾値以下である場合、前記ランダムフラグをランダム化することを表す情報に決定し、
前記多重化手段は、前記ランダムフラグ、前記高域のスペクトルのエンベロープ、および前記低域のスペクトルを多重化して、前記符号化結果とする
請求項１に記載の符号化装置。
前記低域のスペクトルのエンベロープを用いて前記低域のスペクトルを正規化する正規化手段
をさらに備え、
前記抽出手段は、前記音声信号のスペクトルから、前記低域のスペクトルのエンベロープを抽出し、
前記多重化手段は、前記集中度の情報、前記高域のスペクトルのエンベロープ、および前記正規化手段により正規化された前記低域のスペクトルを多重化して、前記符号化結果とする
請求項１に記載の符号化装置。
符号化装置が、
音声信号の高域のスペクトルに基づいて、前記高域のスペクトルの分布の偏りを表す集中度の情報を決定する決定ステップと、
前記音声信号のスペクトルから、前記高域のスペクトルのエンベロープを抽出する抽出ステップと、
前記決定ステップの処理により決定された前記集中度の情報、前記抽出ステップの処理により抽出された前記高域のスペクトルのエンベロープ、および低域のスペクトルを多重化して、符号化結果とする多重化ステップと
含む符号化方法。
コンピュータに、
音声信号の高域のスペクトルに基づいて、前記高域のスペクトルの分布の偏りを表す集中度の情報を決定する決定ステップと、
前記音声信号のスペクトルから、前記高域のスペクトルのエンベロープを抽出する抽出ステップと、
前記決定ステップの処理により決定された前記集中度の情報、前記抽出ステップの処理により抽出された前記高域のスペクトルのエンベロープ、および低域のスペクトルを多重化して、符号化結果とする多重化ステップと
を含む処理を実行させるためのプログラム。