音声信号の符号化方法としては、一般的に、MP3(Moving Picture Experts Group Audio Layer-3),AAC(Advanced Audio Coding),ATRAC(Adaptive Transform Acoustic Coding)といった変換符号化方法がよく知られている。
このような符号化方法においては、符号化結果に情報量の多い高域のスペクトルを含めずに、高域のスペクトルのエンベロープのみを含めることで符号化効率を向上させることが考えられている。この場合、復号の際には、低域のスペクトルが平行移動や折り返し等により複製されることにより、高域のスペクトルが生成される。そして、生成された高域のスペクトルのエンベロープのみが符号化結果に含まれる本来の高域のスペクトルのエンベロープに近づけられることで、聴覚的な音質の向上が計られる。このような復号の技術は帯域拡張技術と呼ばれ、既に一般的に認知されている。
図1は、高域のスペクトルについてはエンベロープのみを符号化結果に含める符号化装置の構成の一例を示すブロック図である。
図1の符号化装置10は、MDCT(Modified Discrete Cosine Transform)部11、量子化部12、および多重化部13により構成される。なお、符号化装置10は、高域スペクトルSP-Hを符号化結果に含めない点を除いて、既に一般的によく知られている変換符号化装置と同様である。なお、図の説明の簡単化のため、量子化部12は、量子化のみならず量子化対象の抽出や正規化も行うものとする。
具体的には、符号化装置10のMDCT部11は、符号化装置10に入力された音声の時間領域信号であるPCM(Pulse Code Modulation)信号に対してMDCTを行い、周波数領域信号であるスペクトルSPを生成する。MDCT部11は、生成されたスペクトルSPを量子化部12に供給する。
量子化部12は、MDCT部11から供給されるスペクトルSPの高域成分である高域スペクトルSP-Hおよび低域成分である低域スペクトルSP-Lから、それぞれエンベロープを抽出する。量子化部12は、抽出された高域スペクトルSP-Hのエンベロープである高域エンベロープENV-Hと、低域スペクトルSP-Lのエンベロープである低域エンベロープENV-Lを量子化する。量子化部12は、量子化された高域エンベロープENV-Hと低域エンベロープENV-Lを、多重化部13に供給する。なお、本明細書では、説明の簡単化のため、量子化や符号化の前後の信号の名称(SP-L,SP-Hなど)を同一のものにしてある。
また、量子化部12は、低域エンベロープENV-Lを用いて、低域スペクトルSP-Lを正規化し、正規化された低域スペクトルSP-Lに対して量子化を行い、その結果得られる低域スペクトルSP-Lを多重化部13に供給する。
このように、量子化部12は、スペクトルSPの低域成分については、エンベロープと正規化されたスペクトルを符号化結果に含めるが、高域成分についてはエンベロープのみを符号化結果に含める。これにより、符号化効率が向上する。
多重化部13は、量子化部12から供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hを多重化し、その結果得られるビットストリームを出力する。このビットストリームは、図示せぬ記録媒体に記録されたり、復号装置に伝送されたりする。
図2は、図1の符号化装置10による符号化処理を説明するフローチャートである。この符号化処理は、例えば、符号化装置10に音声のPCM信号が入力されたとき開始される。
図2のステップS11において、MDCT部11は、符号化装置10に入力された音声の時間領域信号であるPCM信号に対してMDCTを行い、周波数領域信号であるスペクトルSPを生成する。MDCT部11は、生成されたスペクトルSPを量子化部12に供給する。
ステップS12において、量子化部12は、MDCT部11から供給されるスペクトルSPの高域成分である高域スペクトルSP-Hおよび低域成分である低域スペクトルSP-Lから、それぞれエンベロープを抽出する。
ステップS13において、量子化部12は、低域エンベロープENV-Lを用いて、低域スペクトルSP-Lを正規化する。
ステップS14において、量子化部12は、抽出された高域エンベロープENV-H、低域エンベロープENV-L、および正規化された低域スペクトルSP-Lに対して量子化を行う。そして、量子化部12は、量子化された高域エンベロープENV-H、低域エンベロープENV-L、および正規化された低域スペクトルSP-Lを多重化部13に供給する。
ステップS15において、多重化部13は、量子化部12から供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hを多重化し、その結果得られるビットストリームを出力する。そして、処理は終了する。
図3は、図1の符号化装置10により符号化されたビットストリームを復号する復号装置の構成の一例を示すブロック図である。
図3の復号装置30は、分解化部31、逆量子化部32、逆MDCT部33、および帯域拡張部34により構成される。
復号装置30の分解化部31、逆量子化部32、および逆MDCT部33は、通常の変換復号装置と同様に、PCM信号の低域成分のみを復元する。
具体的には、分解化部31は、符号化装置10により符号化されたビットストリームを取得し、低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hに分解して、逆量子化部32に供給する。
逆量子化部32は、分解化部31により供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hそれぞれに対して逆量子化を行う。そして、逆量子化部32は、逆量子化された低域エンベロープENV-Lと低域スペクトルSP-Lを逆MDCT部33に供給し、高域エンベロープENV-Hを帯域拡張部34に供給する。
逆MDCT部33は、逆量子化部32から供給される低域エンベロープENV-Lを用いて、低域スペクトルSP-Lに対して逆正規化を行う。また、逆MDCT部33は、逆正規化された周波数領域信号である低域スペクトルSP-Lに対して逆MDCTを行い、時間領域信号であるPCM信号を得る。なお、このPCM信号は、高域成分がないPCM信号であり、聴覚的に篭った音質の音声のPCM信号である。逆MDCT部33は、このPCM信号を帯域拡張部34に供給する。
帯域拡張部34は、帯域分割フィルタ41、高域成分生成部42、および帯域合成フィルタ43により構成される。帯域拡張部34は、逆MDCT部33で得られる高域成分がないPCM信号の周波数帯域を拡張することにより、そのPCM信号の音質を向上させる帯域拡張処理を行う。
具体的には、帯域拡張部34の帯域分割フィルタ41は、逆MDCT部33から供給されるPCM信号を高域成分と低域成分に分割する。そして、このPCM信号には高域成分がないので、帯域分割フィルタ41は、分割されたPCM信号の高域成分を破棄する。また、帯域分割フィルタ41は、分割されたPCM信号の低域成分である低域PCM信号BS-Lを高域成分生成部42と帯域合成フィルタ43に供給する。
高域成分生成部42は、帯域分割フィルタ41から供給される低域PCM信号BS-Lと、逆量子化部32から供給される高域エンベロープENV-Hとを用いて、高域のPCM信号を生成し、擬似高域PCM信号BS-Hとする。擬似高域PCM信号BS-Hの生成方法については、例えば、本出願人が先に出願した特許文献1に記載されている。高域成分生成部42は、擬似高域PCM信号BS-Hを帯域合成フィルタ43に供給する。
帯域合成フィルタ43は、帯域分割フィルタ41から供給される低域PCM信号BS-Lと、高域成分生成部42から供給される擬似高域PCM信号BS-Hを合成し、全帯域のPCM信号を復号結果として出力する。
以上のようにして出力される全帯域のPCM信号に対応する音声は、高域成分がないPCM信号に対応する音声に比べて、篭り感が低減され、きらびやかで聞き心地の良い音声となる。
図4は、逆MDCT部33および帯域合成フィルタ43から出力される信号を説明する図である。なお、図4において、横軸は周波数を表し、縦軸は信号のレベルを表している。このことは、後述する図7、図10、および図12乃至図16においても同様である。
逆MDCT部33から出力される信号は、図4Aに示すような低域エンベロープENV-Lを用いて逆正規化された低域スペクトルSP-LのPCM信号である。また、帯域合成フィルタ43から出力される信号は、図4Bに示すような低域エンベロープENV-Lを用いて逆正規化された低域スペクトルSP-LのPCM信号を低域成分として有し、高域エンベロープENV-Hと低域PCM信号BS-Lから生成された擬似高域PCM信号BS-Hを高域成分として有するPCM信号である。
図5は、図3の復号装置30による復号処理を説明するフローチャートである。この復号処理は、例えば、符号化装置10により符号化されたビットストリームが復号装置30に入力されたとき開始される。
図5のステップS31において、分解化部31は、復号装置30に入力されたビットストリームを低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hに分解し、逆量子化部32に供給する。
ステップS32において、逆量子化部32は、分解化部31から供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hそれぞれに対して逆量子化を行う。逆量子化部32は、逆量子化された低域エンベロープENV-Lと低域スペクトルSP-Lを逆MDCT部33に供給し、高域エンベロープENV-Hを帯域拡張部34に供給する。
ステップS33において、逆MDCT部33は、逆量子化部32から供給される低域エンベロープENV-Lを用いて、低域スペクトルSP-Lに対して逆正規化を行う。
ステップS34において、逆MDCT部33は、逆正規化された周波数領域信号である低域スペクトルSP-Lに対して逆MDCTを行い、時間領域信号であるPCM信号を得る。逆MDCT部33は、このPCM信号を帯域拡張部34に供給する
ステップS35において、帯域拡張部34の帯域分割フィルタ41は、逆MDCT部33から供給されるPCM信号を高域成分と低域成分に分割する。そして、帯域分割フィルタ41は、分割されたPCM信号の高域成分を破棄し、分割されたPCM信号の低域成分である低域PCM信号BS-Lを高域成分生成部42と帯域合成フィルタ43に供給する。
ステップS36において、高域成分生成部42は、帯域分割フィルタ41から供給される低域PCM信号BS-Lと、逆量子化部32から供給される高域エンベロープENV-Hとを用いて、擬似高域PCM信号BS-Hを生成する。高域成分生成部42は、擬似高域PCM信号BS-Hを帯域合成フィルタ43に供給する。
ステップS37において、帯域合成フィルタ43は、帯域分割フィルタ41から供給される低域PCM信号BS-Lと、高域成分生成部42から供給される擬似高域PCM信号BS-Hを合成し、全帯域のPCM信号を得る。帯域合成フィルタ43は、その全帯域のPCM信号を出力し、処理を終了する。
以上のような帯域拡張技術は、国際規格であるHE-AAC (High-Efficiency Advanced Audio Coding)やLPEC(商標)のステレオハイクオリティモードで既に利用されている。
上述したように、従来の帯域拡張技術では、帯域拡張処理は、低域スペクトルSP-Lの復号処理の後処理(ポストプロセス)として行われる。これにより、擬似高域PCM信号BS-Hの自由度を高めることができる。即ち、擬似高域PCM信号BS-Hを周波数領域信号である低域スペクトルSP-Lではなく、時間領域信号である低域PCM信号BS-Lから生成することができる。
なお、符号化処理や復号処理の処理ブロックサイズと、帯域拡張処理の処理ブロックサイズをそれぞれ自由に設定することで、周波数分析精度および時間分解精度をそれぞれ最適にすることができる。
また、特許文献1に記載されている方法で擬似高域PCM信号を生成する場合、高域エンベロープENV-Hからノイズ性スペクトルを生成するとともに、高域エンベロープENV-Hおよび低域PCM信号BS-Lからトーン性スペクトルを生成し、両方のスペクトルを比較するといった複雑な処理が必要となる。
このようなノイズ性スペクトルとトーン性スペクトルを生成する処理は、聴覚的に高い品質の音声を生成するために必要な、低域スペクトルと高域スペクトルのマッチング精度の向上に必須の処理であり、特許文献2および3に記載されている復号装置においても行われている。
<第1実施の形態>
[符号化装置の第1実施の形態の構成例]
図6は、本発明を適用した符号化装置の第1実施の形態の構成例を示すブロック図である。
図6に示す構成のうち、図1の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図6の符号化装置50の構成は、主に、量子化部12、多重化部13の代わりに量子化部51、多重化部52が設けられている点が図1の構成と異なる。符号化装置10は、低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hの他に、ランダムフラグRND(詳細は後述する)を多重化してビットストリームを生成する。
具体的には、符号化装置50の量子化部51は、決定部61、抽出部62、正規化部63、および部分量子化部64により構成される。
決定部61は、MDCT部11から供給されるスペクトルSPのうちの高域スペクトルSP-Hに基づいて、例えば以下の式(1)により、高域スペクトルSP-Hの集中度Dを決定する。
D=max(SP-H)/ave(SP-H) ・・・(1)
なお、式(1)において、max(SP-H)は、高域スペクトルSP-Hの最大値を表し、ave(SP-H)は、高域スペクトルSP-Hの平均値を表す。
式(1)によれば、符号化対象の音声の高域成分のトーン性が高く、高域スペクトルSP-Hの分布に大きな偏りがある場合、集中度Dは大きくなり、符号化対象の音声の高域成分のノイズ性が高く、高域スペクトルSP-Hの分布が平坦である場合、集中度Dは小さくなる。
決定部61は、集中度Dに基づいてランダムフラグRNDを決定する。このランダムフラグRNDは、後述する復号装置における帯域拡張処理時に、低域スペクトルSP-Lと高域エンベロープENV-Hから生成される高域スペクトルSP-Hに擬似するスペクトルの位相をランダム化するかどうかを表すフラグである。
例えば、集中度Dが、符号化装置50に予め設定されている閾値より大きい場合、即ち高域スペクトルSP-Hのトーン性が高い場合、ランダムフラグRNDは、ランダム化しないことを表す0に決定される。一方、集中度Dが予め設定されている閾値以下である場合、即ち高域スペクトルSP-Hのノイズ性が高い場合、ランダムフラグRNDは、ランダム化することを表す1に決定される。決定部61は、決定されたランダムフラグRNDを多重化部52に供給する。
抽出部62は、図1の量子化部12と同様に、MDCT部11から供給されるスペクトルSPのうちの高域スペクトルSP-Hおよび低域スペクトルSP-Lから、それぞれエンベロープを抽出する。
正規化部63は、量子化部12と同様に、低域エンベロープENV-Lを用いて、低域スペクトルSP-Lを正規化する。
部分量子化部64は、正規化された低域スペクトルSP-Lに対して量子化を行い、その結果得られる低域スペクトルSP-Lを多重化部52に供給する。また、部分量子化部64は、量子化部12と同様に、抽出された高域エンベロープENV-Hと低域エンベロープENV-Lを量子化する。部分量子化部64は、量子化部12と同様に、量子化された高域エンベロープENV-Hと低域エンベロープENV-Lを、多重化部52に供給する。
多重化部52は、量子化部51の決定部61から供給されるランダムフラグRND、並びに、部分量子化部64から供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hを多重化する。多重化部52は、その結果得られるビットストリームを出力する。このビットストリームは、図示せぬ記録媒体に記録されたり、復号装置に伝送されたりする。
[符号化装置における信号の説明]
図7は、図6の符号化装置50のMDCT部11および量子化部51から出力される信号を説明する図である。
図7Aに示すように、MDCT部11から出力されるスペクトルSPは、全帯域のスペクトルである。これに対して、量子化部51から出力されるランダムフラグRND以外の信号は、図7Bに示すように、低域スペクトルSP-L、低域エンベロープENV-L、および高域エンベロープENV-Hである。
[符号化装置の処理の説明]
図8は、図6の符号化装置50による符号化処理を説明するフローチャートである。この符号化処理は、例えば、符号化装置50に音声のPCM信号が入力されたとき開始される。
図8のステップS51において、MDCT部11は、図2のステップS11の処理と同様に、符号化装置50に入力された音声の時間領域信号であるPCM信号に対してMDCTを行い、周波数領域信号であるスペクトルSPを生成する。MDCT部11は、生成されたスペクトルSPを量子化部51に供給する。
ステップS52において、量子化部51の決定部61は、MDCT部11から供給されるスペクトルSPのうちの高域スペクトルSP-Hに基づいて、上述した式(1)により、高域スペクトルSP-Hの集中度Dを決定する。
ステップS53において、決定部61は、集中度Dに基づいてランダムフラグRNDを決定する。決定部61は、決定されたランダムフラグRNDを多重化部52に供給し、処理をステップS54に進める。
ステップS54乃至S56の処理は、図2のステップS12乃至S14の処理と同様であるので、説明は省略する。
ステップS56の処理後、ステップS57において、多重化部52は、量子化部51から供給されるランダムフラグRND、低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hを多重化し、その結果得られるビットストリームを出力する。そして処理は終了する。
[復号装置の構成例]
図9は、図6の符号化装置50により符号化されたビットストリームを復号する復号装置の構成例を示すブロック図である。
図9の復号装置70は、分解化部71、逆量子化部72、高域成分生成部73、位相ランダム部74、および逆MDCT部75により構成される。復号装置70は、帯域拡張処理を低域スペクトルSPLの復号処理と同時に行う。
具体的には、分解化部71(取得手段)は、図6の符号化装置50により符号化されたビットストリームを取得する。分解化部71は、そのビットストリームをランダムフラグRND、低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hに分解し、逆量子化部72に供給する。
逆量子化部72は、図3の逆量子化部32と同様に、分解化部71から供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hそれぞれに対して逆量子化を行う。
逆量子化部72は、逆量子化された低域エンベロープENV-Lを逆MDCT部75に供給し、低域スペクトルSP-Lを逆MDCT部75と高域成分生成部73に供給する。また、逆量子化部72は、高域エンベロープENV-Hを高域成分生成部73に供給し、逆量子化部72は、ランダムフラグRNDを位相ランダム部74に供給する。
高域成分生成部73は、逆量子化部72から供給される低域スペクトルSP-Lと高域エンベロープENV-Hを用いて高域のスペクトルを生成し、擬似高域スペクトルとする。具体的には、例えば、高域成分生成部73は、低域スペクトルSP-Lを複製し、複製されたスペクトルを高域エンベロープENV-Hを用いて変形し、擬似高域スペクトルとする。
この擬似高域スペクトルの生成方法としては、例えば、本出願人が先に出願した特許文献1に記載された方法を用いることもできるし、それ以外の方法を用いることもできる。高域成分生成部73は、生成された擬似高域スペクトルを位相ランダム部74に供給する。
位相ランダム部74は、逆量子化部72から供給されるランダムフラグRNDに基づいて、高域成分生成部73から供給される擬似高域スペクトルの位相をランダム化する。
具体的には、位相ランダム部74は、ランダムフラグRNDがランダム化することを表す1である場合、以下の式(2)により、擬似高域スペクトルの符号(sign,+/-)をランダム化する。
SP-H(i)=-1^(rand()&0x1)×SP-H(i) ・・・(2)
なお、式(2)において、SP-Hは高域スペクトルを表し、iはスペクトル番号を表す。
式(2)によれば、「-1」をランダム関数rand()の返り値の下位1ビットの回数だけ掛け合わせることで、高域スペクトルSP-Hの符号が-1か1のどちらかにランダムに割り当てられる。
一方、ランダムフラグRNDがランダム化しないことを表す0である場合、位相ランダム部74は、擬似高域スペクトルの位相をランダム化しない。
位相ランダム部74は、位相がランダム化された擬似高域スペクトル、または、位相がランダム化されなかった擬似高域スペクトルを、逆MDCT部75に供給する。
逆MDCT部75(合成手段)は、逆量子化部72から供給される低域エンベロープENV-Lを用いて、低域スペクトルSP-Lを逆正規化する。そして、逆MDCT部75は、逆正規化された低域スペクトルSP-Lと位相ランダム部74から供給される擬似高域スペクトルを合成する。逆MDCT部75は、合成の結果得られる周波数領域信号である全帯域のスペクトルに対して逆MDCTを行い、時間領域信号である全帯域のPCM信号を得る。逆MDCT部75は、その全帯域のPCM信号を復号結果として出力する。
以上のように、復号装置70は、低域スペクトルSP-Lの復号と同時に、擬似高域スペクトルの生成を行う。従って、復号装置70において復号に要する時間は、復号のみを行う通常の復号装置において復号に要する時間と略同一である。即ち、図9の復号装置70では、ビットストリームが入力されてから、時刻T0後に復号結果を出力することができる。つまり、復号装置70では、帯域拡張による遅延が発生しない。
[復号装置における信号の説明]
図10は、図9の復号装置70の逆MDCT部75から出力される信号を説明する図である。
逆MDCT部75から出力される信号は、図10に示すような低域エンベロープENV-Lを用いて正規化された低域スペクトルSP-Lと、図10に示すような高域エンベロープENV-Hと低域スペクトルSP-Lから生成された擬似高域スペクトルの合成結果の周波数変換後のPCM信号である。
[位相のランダム化による効果の説明]
図11乃至図16は、図9の位相ランダム部74による位相のランダム化の効果を説明する図である。
図11は、位相のランダム化の有無による復号結果の差を説明する図である。
図11に示すように、図6の符号化装置50では、フレームと呼ばれる一定の長さを有する区間毎にPCM信号が符号化されるが、そのフレームは、通常、50%ずつオーバーラップされて設定される。具体的には、図11に示すように、J-1番目のフレームと、その次のJ番目のフレームは、0.5フレーム分だけオーバーラップして設定される。
図11では、図11の左側に示すように、トーン性が高いスペクトルが符号化されている場合について説明する。
この場合、図11の右側の上段に示すように、J-1番目とJ番目のフレームのスペクトルの復号時にスペクトルの位相がランダム化されないと、J-1番目とJ番目のフレームのオーバーラップ期間のスペクトルの位相は、J-1番目とJ番目のフレームのスペクトルと符号の合成により、正確に復元される。従って、復元されたオーバーラップ期間のスペクトルは、トーン性が高いスペクトルとなる。
一方、右側の下段に示すように、J-1番目とJ番目のフレームのスペクトルの復号時にスペクトルの位相がランダム化されると、J-1番目とJ番目のフレームのスペクトルの符号は必ずしも一致しなくなる。従って、オーバーラップ期間のスペクトルの位相は、正確に復元されない。よって、復号装置70において復元されたオーバーラップ期間の信号は、符号化前のスペクトルが有していたトーン性が崩れたスペクトルとなる。
スペクトルのトーン性が崩されると、本来特定のスペクトルに集中しているはずのエネルギーが周囲のスペクトルに漏れ出してしまう。これにより、本来のスペクトルに比べてスペクトルのピーク(山)が抑制され、周囲に漏れだしたエネルギーがスペクトルの谷のエネルギーを押し上げる。その結果、スペクトルがノイズ性を有するようになる。
以上のように、復号時に位相のランダム化が行われると、符号化前にトーン性を有していたスペクトルが、ノイズ性を有するスペクトルに変換される。
図12乃至図16は、高域スペクトルSP-Hの特性について説明する図である。
図12Aに示すように、低域スペクトルSP-Lのトーン性が高い場合、高域スペクトルSP-Hのトーン性も高いことが多い。これは、管楽器、弦楽器といった楽器類が、基本周波数とその整数倍の高調波成分を組み合わせた音波を発していることから推測することができる。
このようにトーン性の高い低域スペクトルSP-Lと高域スペクトルSP-Hからなるスペクトルが帯域拡張符号化された場合、帯域拡張復号時に、擬似高域スペクトルが低域スペクトルSP-Lを単純に折り返すことにより生成されると、図12Bに示すように、擬似高域スペクトルは、トーン性の高いスペクトルとなる。従って、復号結果に対応する音声は、聴覚的に違和感が少ない音声となる。
よって、図6の符号化装置50は、集中度Dが予め設定されている閾値よりも大きい場合、即ち符号化対象の音声の高域成分にトーン性がある場合、ランダムフラグRNDを0にする。これにより、復号装置70では、擬似高域スペクトルの位相がランダム化されないので、復号結果に対応する音声は、聴覚的に違和感が少ない音声となる。
一方、図13Aおよび図14Aに示すように、低域スペクトルSP-Lのノイズ性が高い場合、高域になるほどよりノイズ性が高くなる。これは、ノイズ性の高い、即ち非トーン性を有する打撃音や衝撃音などの音を発するシンバルやマラカスなどの楽器において、高域の振動ほど楽器内で伝播されるため、高域の音ほど各振動要素の振幅や位相が複雑に絡み合い、ノイズ性が高くなることから推測できる。
このようにノイズ性の高い低域スペクトルSP-Lと高域スペクトルSP-Hからなるスペクトルが帯域拡張符号化された場合、図13Bに示すように、帯域拡張復号時に低域スペクトルSP-Lを用いて生成される擬似高域スペクトルは、ノイズ性の高いスペクトルとなる。従って、図13Bに示すように擬似高域スペクトルの位相のランダム化が行われなくても、図14Bに示すようにランダム化が行われても、擬似高域スペクトルのノイズ性は高くなり、復号結果に対応する音声は、聴覚的に違和感が少ない音声となる。
しかしながら、シンバルやマラカスなどの楽器のノイズ性の高い音であっても、低域成分には、トーン的な振動成分が含まれている場合がある。また、シンバルやマラカスなどの楽器の音の周波数は主に高域であり、低域成分には別のトーン性の高い音声が含まれている可能性もある。従って、図15Aや図16Aに示すように、高域スペクトルSP-Hのノイズ性が高い場合であっても、低域スペクトルSP-Lのトーン性が高い場合がある。
このようなトーン性の高い低域スペクトルSP-Lとノイズ性の高い高域スペクトルSP-Hからなるスペクトルが帯域拡張符号化された場合、図15Bに示すように、帯域拡張復号時に低域スペクトルSP-Lを用いて生成される擬似高域スペクトルには、トーン性成分が含まれている可能性がある。従って、図15Bに示すように擬似高域スペクトルの位相がランダム化されないと、復号結果に対応する高域の音声が、本来のノイズ性を有さず、低域の音声と同様にトーン性を有することになり、聴覚的に違和感が多い音声となる。
これに対して、擬似高域スペクトルの位相がランダム化されると、元の擬似高域スペクトルにトーン性成分が含まれている場合であっても、図16Bに示すように、ランダム化後の擬似高域スペクトルはノイズ性を有する。従って、復号結果に対応する音声は、聴覚的に違和感が少ない音声となる。
以上のように、高域スペクトルSP-Hがノイズ性を有する場合、低域スペクトルSP-Lもノイズ性を有する場合には、ランダム化は行われても行われなくてもよいが、低域スペクトルSP-Lがトーン性を有する場合には、ランダム化を行う必要がある。従って、高域スペクトルSP-Hがノイズ性を有する場合、常にランダム化が行われるようにすることで、集中度Dに基づいて聴覚的に違和感の少ない復号結果が得られるようにすることができる。
よって、図6の符号化装置50は、集中度Dが予め設定されている閾値以下である場合、即ち符号化対象の音声の高域成分にノイズ性がある場合、ランダムフラグRNDを1にする。これにより、復号装置70では、擬似高域スペクトルの位相がランダム化されるので、復号結果に対応する音声は、聴覚的に違和感が少ない音声となる。
なお、低域でノイズ性が高く、高域でトーン性が高い音声は自然界にほとんど存在しないため、ノイズ性の高い低域スペクトルSP-Lとトーン性の高い高域スペクトルSP-Hからなるスペクトルについては考慮しない。
[復号装置の処理の説明]
図17は、図9の復号装置70による復号処理を説明するフローチャートである。この復号処理は、例えば、符号化装置50により符号化されたビットストリームが復号装置70に入力されたとき開始される。
図17のステップS71において、分解化部71は、符号化装置50により符号化されたビットストリームを取得し、そのビットストリームをランダムフラグRND、低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hに分解する。分解化部71は、ランダムフラグRND、低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hを逆量子化部72に供給する。
ステップS72において、逆量子化部72は、分解化部71から供給される低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hそれぞれに対して逆量子化を行う。逆量子化部72は、逆量子化された低域エンベロープENV-Lを逆MDCT部75に供給し、低域スペクトルSP-Lを逆MDCT部75と高域成分生成部73に供給する。また、逆量子化部72は、高域エンベロープENV-Hを高域成分生成部73に供給し、逆量子化部72は、ランダムフラグRNDを位相ランダム部74に供給する。
ステップS73において、高域成分生成部73は、逆量子化部72から供給される低域スペクトルSP-Lと高域エンベロープENV-Hを用いて擬似高域スペクトルを生成する。高域成分生成部73は、生成された擬似高域スペクトルを位相ランダム部74に供給する。
ステップS74において、位相ランダム部74は、逆量子化部72から供給されるランダムフラグRNDが1であるかどうかを判定する。ステップS74でランダムフラグRNDが1であると判定された場合、ステップS75において、位相ランダム部74は、上述した式(2)により、高域成分生成部73から供給される擬似高域スペクトルの位相をランダム化する。そして、位相ランダム部74は、位相がランダム化された擬似高域スペクトルを逆MDCT部75に供給し、処理をステップS76に進める。
一方、ステップS74でランダムフラグRNDが1ではない、即ちランダムフラグRNDが0であると判定された場合、位相ランダム部74は、擬似高域スペクトルの位相をランダム化せず、そのまま逆MDCT部75に供給する。そして、処理はステップS76に進む。
ステップS76において、逆MDCT部75は、逆量子化部32から供給される低域エンベロープENV-Lを用いて、低域スペクトルSP-Lを逆正規化する。
ステップS77において、逆MDCT部75は、逆正規化された低域スペクトルSP-Lと位相ランダム部74から供給される擬似高域スペクトルを合成し、その結果得られる全帯域のスペクトルに対して逆MDCTを行い、全帯域のPCM信号を得る。そして、逆MDCT部75は、その全帯域のPCM信号を復号結果として出力し、処理を終了する。
以上のように、復号装置70は、逆MDCT前の低域スペクトルSP-Lを用いて擬似高域スペクトルを生成し、高域スペクトルSP-Hの集中度に基づいて決定されたランダムフラグRNDにしたがって擬似高域スペクトルをランダム化することにより、符号化対象の音声のスペクトルの高域成分を復元する。
これにより、低域スペクトルSP-Lを用いて、高域スペクトルSP-Hに比較的合致するスペクトルを、符号化対象の音声のスペクトルの高域成分として復元することができる。従って、低域スペクトルSP-Lを用いて符号化対象の音声のスペクトルの高域成分を復元することにより、低域スペクトルSP-Lの復号処理と帯域拡張処理を同時に行うことができ、帯域拡張による遅延時間を削減することができる。その結果、篭らず、きらびやかで聞き心地の良い全帯域の音声のPCM信号が、復号結果として、帯域拡張処理を行わない復号装置の場合と略同一の時間経過後に出力される。
また、復号装置70は、低域スペクトルSP-Lを用いて生成された擬似高域スペクトルの位相をランダム化することにより、ノイズ性を有する擬似高域スペクトルを生成するので、ただ単にランダムなスペクトルを擬似高域スペクトルとして生成する場合に比べて、より高域スペクトルSP-Hに合致した擬似高域スペクトルを生成することができる。
さらに、復号装置70は、逆MDCT前にスペクトルの低域成分と高域成分を生成するので、帯域拡張処理のために、図3の復号装置30のように帯域分割フィルタ41および帯域合成フィルタ43を備える必要がない。従って、図3の復号装置30に比べて、帯域拡張処理のための処理量、回路規模、コードサイズなどのリソースを削減することができる。
<第2実施の形態>
[復号装置の第2実施の形態の構成例]
図18は、本発明を適用した復号装置の第2実施の形態の構成例を示すブロック図である。
図18に示す構成のうち、図3や図9の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図18の復号装置100の構成は、主に、分解化部71、逆量子化部72の代わりに、分解化部31、逆量子化部32が設けられている点、および、新たに決定部101が設けられている点が、図9の復号装置70の構成と異なる。復号装置100は、図1の符号化装置10により符号化されたビットストリームに含まれる低域スペクトルSP-Lに基づいてランダムフラグRNDを決定する。
具体的には、決定部101は、逆量子化部32により逆量子化された低域スペクトルSP-Lに基づいて、例えば、以下の式(3)により、低域スペクトルSP-Lの集中度D´を決定する。
D´=max(SP-L)/ave(SP-L) ・・・(3)
なお、式(3)において、max(SP-L)は、低域スペクトルSP-Lの最大値を表し、ave(SP-L)は、低域スペクトルSP-Lの平均値を表す。
式(3)によれば、符号化対象の音声の低域成分のトーン性が高く、低域スペクトルSP-Lの分布に大きな偏りがある場合、集中度D´は大きくなり、符号化対象の音声の低域成分のノイズ性が高く、低域スペクトルSP-Lの分布が平坦である場合、集中度D´は小さくなる。
決定部101は、集中度D´に基づいてランダムフラグRNDを決定する。具体的には、集中度Dが、復号装置100に予め設定されている閾値よりも大きい場合、即ち低域スペクトルSP-Lのトーン性が高い場合、決定部101は、ランダムフラグRNDを0に決定する。一方、集中度D´が予め設定されている閾値以下である場合、即ち低域スペクトルSP-Lのノイズ性が高い場合、決定部101は、ランダムフラグRNDを1に決定する。そして、決定部101は、決定されたランダムフラグRNDを位相ランダム部74に供給する。これにより、低域スペクトルSP-Lのトーン性が高い場合、擬似高域スペクトルの位相がランダム化されず、低域スペクトルSP-Lのノイズ性が高い場合、擬似高域スペクトルの位相がランダム化される。その結果、復号結果に対応する音声は、聴覚的に充分な音質の音声となる。
[復号装置の処理の説明]
図19は、図18の復号装置100による復号処理を説明するフローチャートである。この復号処理は、例えば、図1の符号化装置10により符号化されたビットストリームが復号装置100に入力されたとき開始される。
図19のステップS91において、分解化部31は、符号化装置10により符号化されたビットストリームを低域エンベロープENV-L、低域スペクトルSP-L、および高域エンベロープENV-Hに分解し、逆量子化部32に供給する。
ステップS92およびS93の処理は、図17のステップS72およびS73の処理と同様であるので、説明は省略する。
ステップS93の処理後、ステップS94において、決定部101は、逆量子化部32により逆量子化された低域スペクトルSP-Lに基づいて、上述した式(3)により、低域スペクトルSP-Lの集中度D´を決定する。
ステップS95において、決定部101は、集中度D´に基づいて、ランダムフラグRNDを決定する。そして、決定部101は、そのランダムフラグRNDを位相ランダム部74に供給し、処理をステップS96に進める。
ステップS96乃至S99の処理は、図17のステップS74乃至S77の処理と同様であるので、説明は省略する。
<第3実施の形態>
[本発明を適用したコンピュータの説明]
次に、上述した一連の符号化処理および復号処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の符号化処理および復号処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図20は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としての記憶部208やROM(Read Only Memory)202に予め記録しておくことができる。
あるいはまた、プログラムは、リムーバブルメディア211に格納(記録)しておくことができる。このようなリムーバブルメディア211は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブルメディア211としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブルメディア211からドライブ210を介してコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵する記憶部208にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)201を内蔵しており、CPU201には、バス204を介して、入出力インタフェース205が接続されている。
CPU201は、入出力インタフェース205を介して、ユーザによって、入力部206が操作等されることにより指令が入力されると、それに従って、ROM202に格納されているプログラムを実行する。あるいは、CPU201は、記憶部208に格納されたプログラムを、RAM(Random Access Memory)203にロードして実行する。
これにより、CPU201は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU201は、その処理結果を、必要に応じて、例えば、入出力インタフェース205を介して、出力部207から出力、あるいは、通信部209から送信、さらには、記憶部208に記録等させる。
なお、入力部206は、キーボードや、マウス、マイク等で構成される。また、出力部207は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。