JP2010078915A

JP2010078915A - オーディオ復号方法、装置、及びプログラム

Info

Publication number: JP2010078915A
Application number: JP2008247213A
Authority: JP
Inventors: Masanao Suzuki; 政直鈴木; Miyuki Shirakawa; 美由紀白川; Yoshiteru Tsuchinaga; 義照土永
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-09-26
Filing date: 2008-09-26
Publication date: 2010-04-08
Anticipated expiration: 2028-09-26
Also published as: JP5326465B2; EP2169667A1; EP2169667B1; US20100080397A1; ATE540400T1; US8619999B2

Abstract

【課題】パラメトリックステレオ方式のように復号側で復号音声信号と復号補助信号とに基づいて元音声信号を再現する音声復号方式において、音質の劣化を低減させる。
【解決手段】復号音分析部１０４は、ＰＳ復号部１０３にて復号された周波数域ステレオ復号信号Ｌ(b) とＲ(b)とについて、復号された音声信号から新たに、第２類似度１０９と第２強度差１１０を算出する。スペクトル補正部１０５は、復号側にて算出された第２類似度１０９及び第２強度差１１０を、符号化側にて算出され伝送されてきた第１類似度１０７及び第１強度差１０８と比較することにより、パラメトリックステレオ化によって付加された歪みを検出し、周波数域ステレオ復号信号Ｌ(b) とＲ(b) のスペクトルを補正する。
【選択図】図１

Description

オーディオ信号を圧縮・伸張する符号化技術に関し、特に、モノラル信号から擬似ステレオ信号を生成するパラメトリックステレオ符号化技術等の、復号側で復号音声信号と復号補助信号とに基づいて元音声信号を再現する音声符号化・復号技術に関する。

パラメトリックステレオ符号化技術は、ＭＰＥＧ−４Ａｕｄｉｏ規格の１つであるＨＥ−ＡＡＣ（High-Efficiency Advanced Audio Coding ）ｖｅｒｓｉｏｎ２方式（以下、「ＨＥ−ＡＡＣｖ２」と表記する）に採用された技術であり、低ビットレートステレオ信号向けコーデックの効率を飛躍的に向上させ、モバイル機器や放送、インターネット向けに最適な音声圧縮技術である。

図１５にステレオ録音のモデルを示す。同図は、ある音源ｘ(t) から発せられた音を＃１と＃２の２本のマイク１５０１で録音する場合のモデルである。
ここで、ｃ_１ｘ(t)は＃１のマイク１５０１に到達する直接波、ｃ₂ｈ(t)*ｘ(t) は部屋の壁等で反射してから＃１のマイク１５０１に到達する反射波である。ここでｔは時間であり、ｈ(t) は部屋の伝達特性を表すインパルス応答である。また、記号「* 」は畳み込み演算を表し、ｃ_１及びｃ₂はゲインである。同様にして、ｃ₃ｘ(t) は＃２のマイク１５０１に到達する直接波であり、ｃ₄ｈ(t)*ｘ(t) は＃２のマイク１５０１に到達する反射波である。従って、＃１及び＃２のマイク１５０１で録音される信号をそれぞれ、ｌ(t),ｒ(t) とすると、ｌ(t) とｒ(t) は次式のように直接波と反射波の線形和で表すことができる。

ＨＥ−ＡＡＣｖ２デコーダでは、図１５の音源ｘ(t) に相当する信号を得られないので、次式のように、モノラル信号ｓ(t) から近似的にステレオ信号が生成される。ここで、下記数３式及び数４式の各第１項は直接波、各第２項は反射波（残響成分）を近似している。

残響成分の作成方法には様々な手法があるが、ＨＥ−ＡＡＣｖ２規格のパラメトリックステレオ（以下、随時「ＰＳ」と略す）デコード部は、モノラル信号ｓ(t) を非相関化（直交化）して残響成分ｄ(t) を作成し、次式によりステレオ信号を生成する。

ここでは説明の都合上、時間領域の処理として説明したが、ＰＳデコード部では時間・周波数領域（ＱＭＦ（Quadrature Mirror Filterbank）係数領域）で疑似ステレオ化を行うため、数５式と数６式は次のように表わされる。ｂは周波数を表すインデックスであり、ｔは時間を表すインデックスである。

次に、モノラル信号ｓ(b,t) から残響成分ｄ(b,t) を作成する方法について説明する。残響成分の生成方法としては様々な手法が存在するが、ＨＥ−ＡＡＣｖ２規格のＰＳデコード部では、モノラル信号ｓ(b,t) を、ＩＩＲ（Infinite Impulse Response）（無限インパルス応答）型のオールパスフィルタにより、図１６に示されるように非相関化（直交化）して、残響成分ｄ(b,t) に変換する。

入力信号（Ｌ，Ｒ）と、モノラル信号ｓ、及び残響成分ｄの関係を、図１７に示す。同図に示されるように、入力信号Ｌ及びＲとモノラル信号ｓのなす角度をαとし、ｃｏｓ（２α）を類似度として定義する。ＨＥ−ＡＡＣｖ２規格のエンコーダは、このαを類似度情報として符号化する。この類似度情報は、Ｌチャネル入力信号とＲチャネル入力信号の類似度を示している。

図１７では、簡単のためＬとＲの長さが等しい場合の例を示しているが、ＬとＲの長さ（ノルム）が異なる場合を考慮して、ＬとＲのノルムの比を強度差として定義し、エンコーダがそれを強度差情報として符号化する。この強度差情報は、Ｌチャネル入力信号とＲチャネル入力信号の電力比を示している。

デコーダ側において、ｓ(b,t) とｄ(b,t) からステレオ信号を生成する方法について説明する。図１８において、Ｓは復号された入力信号、Ｄはデコーダ側で得られる残響信号、Ｃ_Lは強度差から算出したＬチャネル信号のスケールファクタであり、Ｃ_Lでスケーリングされたモノラル信号が角度α方向に射影された結果と、Ｃ_Lでスケーリングされた残響信号が（π／２）−α方向に射影された結果が合成されて得られるベクトルが復号されたＬチャネル信号とされる。数式で表すと、下記数９式となる。同様に、ＲチャネルもスケールファクタＣ_R、Ｓ、Ｄ及び角度αを用いて下記数１０式により生成できる。Ｃ_LとＣ_Rの間には、Ｃ_L＋Ｃ_R＝２なる関係がある。
従って、数９式と数１０式は、下記数１１式にまとめることができる。

上記原理に基づいて動作するパラメトリックステレオ復号装置の従来例について、以下に説明する。

図１９は、従来のパラメトリックステレオ復号装置の構成図である。
まず、データ分離部１９０１は、受信される入力データを、コア符号化データとＰＳデータに分離する。

コア復号部１９０２は、上記コア符号化データを復号し、モノラル音声信号Ｓ(b) を出力する。ｂは周波数帯域のインデックスである。コア復号部としては、ＡＡＣ（Advanced
Audio Coding ）方式やＳＢＲ（Spectral Band Replication ）方式などの従来のオーディオ符号化・復号方式に基づくものを用いることができる。

モノラル音声信号Ｓ(b) とＰＳデータは、パラメトリックステレオ（ＰＳ）復号部１９０３に入力する。
ＰＳ復号部１９０３は、ＰＳデータの情報に基づいて、モノラル信号Ｓ(b) を周波数域ステレオ復号信号Ｌ(b) とＲ(b) に変換する。

周波数時間変換部１９０４（Ｌ）及び１９０４（Ｒ）はそれぞれ、Ｌチャネル周波数域復号信号Ｌ(b) 及びＲチャネル周波数域復号信号Ｒ(b) を、Ｌチャネル時間域復号信号Ｌ(t) 及びＲチャネル時間域復号信号Ｒ(t)に変換する。

図２０は、図１９のＰＳ復号部１９０３の構成図である。
図１６の説明において前述した原理に基づいて、モノラル信号Ｓ(b) に対して、遅延付加部２００１にて遅延が付加され、非相関化部２００２によって非相関化されることによ
り、残響成分Ｄ(b) が作成される。

また、ＰＳ解析部２００３が、ＰＳデータを解析することにより、類似度と強度差を抽出する。図１７の説明において前述した通り、類似度は、Ｌチャネル信号とＲチャネル信号の類似度（エンコーダ側でＬチャネル入力信号とＲチャネル入力信号とから算出され・量子化された値）を示し、強度差は、Ｌチャネル信号とＲチャネル信号の電力比（エンコーダ側でＬチャネル入力信号とＲチャネル入力信号とから算出され・量子化された値）である。

係数計算部２００４は、類似度と強度差とから、前述した数１１式に基づいて、係数行列Ｈを算出する。
ステレオ信号生成部２００５は、モノラル信号Ｓ(b) と残響成分Ｄ(b) と上記係数行列Ｈとに基づいて、前述の数１１式と等価な下記数１２式により、ステレオ信号Ｌ(b) とＲ(b) を生成する。
特開２００７−７９４８７号公報

上記パラメトリックステレオ方式の従来技術において、Ｌチャネル入力信号とＲチャネル入力信号とで相関がほとんどない音声信号、例えば２ヶ国語音声が符号化された場合について考察する。

パラメトリックステレオ方式では、復号側において、モノラル信号Ｓからステレオ信号がを作成されるため、前述の数１２式からも理解されるように、モノラル信号Ｓの性質が出力信号Ｌ’とＲ’に影響する。

例えば、元のＬチャネル入力信号とＲチャネル入力信号が全く異なる場合（類似度が０である）場合、図１９のＰＳ復号部１９０３からの出力音声は次式で算出される。

つまり、出力信号Ｌ’とＲ’にモノラル信号Ｓの成分が現れる。図２１は、それを模式的に示した図である。モノラル信号Ｓは、Ｌチャネル入力信号とＲチャネル入力信号の和なので、数１３式は、一方の信号が他方のチャネルに漏れこんでしまうことを意味する。

このため、従来のパラメトリックステレオ復号装置において、出力信号Ｌ’とＲ’を同時に聞くと、左右から似たような音が発生するため、エコーのように聞こえて音質が劣化してしまうという問題点を有していた。

本発明の課題は、パラメトリックステレオ方式のように復号側で復号音声信号と音声復
号補助情報とに基づいて元音声信号を再現する音声復号方式において、音質の劣化を低減させることにある。

第１の態様は、符号化音声データから第１の復号音声信号と第１の音声復号補助情報とを復号し、その第１の復号音声信号及び第１の音声復号補助情報に基づいて第２の復号音声信号を復号する音声復号装置、又はこれと同等の機能を実現する音声復号方法又は音声復号プログラムを前提とする。

復号音分析手段（１０４）は、第１の音声復号補助情報（１０７、１０８）に対応する第２の音声復号補助情報（１０９、１１０）を第２の復号音声信号（Ｌ(b) 、Ｒ(b) ）から算出する。

歪み検出手段（１０５、５０３）は、第２の音声復号補助情報と第１の音声復号補助情報とを比較することにより、第２の復号音声信号の復号過程で生じた歪みを検出する。
歪み補正手段（１０５、５０４）は、第２の復号音声信号において、歪み検出ステップにて検出された歪みを補正する。

第２の態様は、パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、そのモノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号する音声復号装置、又はこれと同等の機能を実現する音声復号方法又は音声復号プログラムを前提とする。パラメトリックステレオパラメータ情報は例えば、ステレオ音声チャネル間の類似度と強度差をそれぞれ示す類似度情報及び強度差情報である。

復号音分析手段（１０４）は、パラメトリックステレオパラメータ情報を第１のパラメトリックステレオパラメータ情報として、それに対応する第２のパラメトリックステレオパラメータ情報をステレオ音声復号信号（Ｌ(b) 、Ｒ(b) ）から算出する。この復号音分析手段は例えば、第１のパラメトリックステレオパラメータ情報である第１の類似度情報（１０７）及び第１の強度差情報（１０８）に対応する第２の類似度情報（１０９）及び第２の強度差情報（１１０）をステレオ音声復号信号（Ｌ(b) 、Ｒ(b) ）から算出する。

歪み検出手段（１０５、５０３）は、その第２のパラメトリックステレオパラメータ情報と第１のパラメトリックステレオパラメータ情報とを比較することにより、ステレオ音声復号信号の復号過程で生じた歪みを検出する。この歪み検出手段は例えば、第２の類似度情報と第１の類似度情報及び第２の強度差情報と第１の強度差情報とをそれぞれ周波数帯域毎に比較することにより、ステレオ音声復号信号の復号過程で生じた周波数帯域毎及びステレオ音声チャネル毎の歪みを検出する。より具体的には、この歪み検出手段は例えば、第２の類似度情報と第１の類似度情報の差分から歪み量を検出し、第２の強度差情報と第１の強度差情報の差分から歪み発生ステレオ音声チャネルを検出する。

歪み補正手段（１０５、５０４）は、ステレオ音声復号信号において、歪み検出手段にて検出された歪みを補正する。この歪み補正手段は例えば、ステレオ音声復号信号において、歪み検出手段にて検出された周波数帯域毎及びステレオ音声チャネル毎の歪みを補正する。より具体的には、この歪み補正手段は例えば、歪み量（及びステレオ音声復号信号の電力）に基づいて歪みの補正量を決定し、歪み発生ステレオ音声チャネルに基づいて補正を行うステレオ音声チャネルを決定する。

上記第２の態様の構成において、歪み補正手段によって補正が行われたステレオ音声復号信号を、時間軸方向又は周波数軸方向に平滑化する平滑化手段（１２０１、１２０２）を更に含むように構成することができる。

上記第２の態様の構成において、復号音分析手段、歪み検出手段、及び歪み補正手段は、時間周波数領域にて実行されるように構成することができる。

本発明によれば、第１のパラメトリックステレオパラメータ情報等に基づいてモノラル音声復号信号等に擬似ステレオ化等の処理を施すことによってステレオ音声復号信号等を復号する音声復号方式において、ステレオ音声復号信号から第１のパラメトリックステレオパラメータ情報等に対応する第２のパラメトリックステレオパラメータ情報等を復号側にて生成し、第１及び第２のパラメトリックステレオパラメータ情報等を比較することによって、擬似ステレオ化処理等の復号処理における歪みを検出することが可能となる。

これにより、ステレオ音声復号信号に対してエコー感等を除去するためのスペクトル補正を施すことが可能となり、復号音における音質劣化を抑制することが可能となる。

以下、図面を参照しながら、本発明を実施するための最良の形態を詳細に説明する。
原理説明
まず、本実施形態の原理について説明する。図１は、パラメトリックステレオ復号装置の実施形態の原理構成図、図２は、その概略動作を示す動作フローチャートである。以下の説明では、随時、図１の１０１〜１１０の各部と、図２のステップＳ２０１〜Ｓ２０６を参照するものとする。

まず、データ分離部１０１は、受信される入力データを、コア符号化データとＰＳデータに分離する（Ｓ２０１）。この構成は、図１９の従来技術におけるデータ分離部１９０１と同じ構成である。

コア復号部１０２は、上記コア符号化データを復号し、モノラル音声信号Ｓ(b) を出力する（Ｓ２０２）。ｂは周波数帯域のインデックスである。コア復号部としては、ＡＡＣ（Advanced Audio Coding ）方式やＳＢＲ（Spectral Band Replication ）方式などの従来のオーディオ符号化・復号方式に基づくものを用いることができる。この構成は、図１９の従来技術におけるコア復号部１９０２と同じ構成である。

モノラル音声信号Ｓ(b) とＰＳデータは、パラメトリックステレオ（ＰＳ）復号部１０３に入力する。ＰＳ復号部１０３は、ＰＳデータの情報に基づいて、モノラル信号Ｓ(b) を周波数域ステレオ信号Ｌ(b) とＲ(b) に変換する。ＰＳ復号部１０３はまた、ＰＳデータから、第１類似度１０７と第１強度差１０８を抽出する。この構成は、図１９の従来技術におけるコア復号部１９０３と同じ構成である。

復号音分析部１０４は、ＰＳ復号部１０３にて復号された周波数域ステレオ復号信号Ｌ(b) とＲ(b)とについて、復号された音声信号から新たに、第２類似度１０９と第２強度差１１０を算出する（Ｓ２０３）。

スペクトル補正部１０５は、復号側にて算出された第２類似度１０９及び第２強度差１１０を、符号化側にて算出され伝送されてきた第１類似度１０７及び第１強度差１０８と比較することにより、パラメトリックステレオ化によって付加された歪みを検出し（Ｓ２０４）、周波数域ステレオ復号信号Ｌ(b) とＲ(b) のスペクトルを補正する（Ｓ２０５）。

上述の復号音分析部１０４とスペクトル補正部１０５が、本実施形態として特徴的な部
分である。
周波数時間（Ｆ／Ｔ）変換部１０６（Ｌ）及び１０６（Ｒ）はそれぞれ、スペクトル補正されたＬチャネル周波数域復号信号及びＲチャネル周波数域復号信号を、Ｌチャネル時間域復号信号Ｌ(t) 及びＲチャネル時間域復号信号Ｒ(t)に変換する（Ｓ２０６）。この構成は、図１９の従来技術における周波数時間変換部１９０４（Ｌ）及び１９０４（Ｒ）と同じ構成である。

上述の実施形態の原理構成において、例えば、図３（ａ）に示されるように、入力ステレオ音声がジャズ音楽のようなエコー感のない音声の場合には、符号化前の類似度（符号化装置側で算出された類似度）３０１と符号化後の類似度（復号装置側でパラメトリックステレオ復号音から算出された類似度）３０２を周波数帯域毎に比較した場合、両者の差は小さい。これは、図３（ａ）に示されるジャズ音声のようなものでは、符号化前の元音声ではＬチャネルとＲチャネルの類似度が大きいため、パラメトリックステレオがうまく機能し、伝送されてきて復号されたモノラル音声Ｓ(b) から擬似的に復号されたＬチャネルとＲチャネルの類似度も大きく、この結果、両者の類似度の差は小さいものとなるためである。

一方、図３（ｂ）に示されるように、入力ステレオ音声が２ヶ国語音声（Ｌチャネル：ドイツ語、Ｒチャネル：日本語）のようなエコー感がある音声の場合には、符号化前の類似度３０１と符号化後の類似度３０２を周波数帯域毎に比較した場合、両者の差は或る周波数帯域（図３（ｂ）の３０３や３０４の部分）で大きくなる。これは、図３（ｂ）に示される２ヶ国語音声のようなものでは、符号化前の元入力音声ではＬチャネルとＲチャネルの類似度が小さいのに対して、パラメトリックステレオ復号された音声ではＬチャネル及びＲチャネル共に伝送されてきて復号されたモノラル音声Ｓ(b) から擬似的に復号されているためにＬチャネルとＲチャネルの類似度が大きくなってしまい、この結果、両者の類似度の差が大きくなるためである。これは即ち、パラメトリックステレオがうまく機能していないことを示している。

そこで、図１の原理構成では、スペクトル補正部１０５が、伝送されてきた入力データから抽出された第１類似度１０７と、復号音分析部１０４にて復号音から再計算された第２類似度１０９の差を比較し、更に伝送されてきた入力データから抽出された第１強度差１０８と、復号音分析部１０４にて復号音から再計算された第１強度差１０８の差の判定によりＬチャネルとＲチャネルのどちらを補正するか決定することにより、Ｌチャネル周波数域復号信号Ｌ(b) かＲチャネル周波数復号信号Ｒ(b) の何れか一方又は両方に対して、周波数帯域毎にスペクトル補正（スペクトル抑制）を行う。

この結果、入力ステレオ音声が、例えば図４（ａ）に示されるように、２ヶ国語音声（Ｌチャネル：ドイツ語、Ｒチャネル：日本語）のような場合には、４０１に示される周波数帯域でＬチャネルとＲチャネルの音声成分の差が大きくなる。そして、従来技術による復号音声では、図４（ｂ）に示されるように、入力音声の４０１に対応する周波数帯域４０２においてＲチャネルにＬチャネルの音声成分が歪み成分として漏れ込んで、ＬチャネルとＲチャネルを同時に聞くとエコーのように聞こえる。一方、図１の構成に基づいて得られる復号音声では、図４（ｃ）に示されるように、入力音声の４０１に対応する周波数帯域４０２においてパラメトリックステレオによってＲチャネルに漏れ込んだ歪み成分が良く抑制され、ＬチャネルとＲチャネルを同時に聞くとエコー感が低減され、主観的にはほとんど劣化を感じないという結果を得ることができる。

第１の実施形態
上述の原理構成に基づく第１の実施形態について、以下に説明する。
図５は、図１の原理構成に基づくパラメトリックステレオ復号装置の第１の実施形態の
構成図である。

図５において、図１の原理構成と同じ番号が付された部分は図１の場合と同じ機能を有するものとする。
図５では、図１のコア復号部１０２が、ＡＡＣ復号部５０１とＳＢＲ復号部５０２に具体化され、図１のスペクトル補正部１０５が、歪み検出部５０３とスペクトル補正部５０４に具体化されている。

ＡＡＣ復号部５０１は、ＡＡＣ（Advanced Audio Coding ）方式によって符号化された音声信号を復号する。ＳＢＲ復号部５０２は、ＡＡＣ復号部５０１によって復号された音声信号から更に、ＳＢＲ（Spectral Band Replication ）方式によって符号化された音声信号を復号する。

次に、第１の実施形態の特徴部分である復号音分析部１０４、歪み検出部５０３、及びスペクトル補正部５０４の更に詳細な動作について、図６〜図１０に基づいて説明する。
まず、図５において、ＰＳ復号部１０３から出力されるステレオ復号信号を、Ｌチャネル復号信号Ｌ(b,t) 、Ｒチャネル復号信号Ｒ(b,t) とする。ｂは周波数帯域を示すインデックスであり、ｔは離散時間を示すインデックスである。

図６は、ＨＥ−ＡＡＣデコーダにおける時間・周波数信号の定義を示した図である。上記Ｌ(b,t) 及びＲ(b,t) の各信号は、離散時間ｔ毎に、周波数帯域ｂによって分割された複数の信号成分から構成されている。１つの時間・周波数信号（ＱＭＦ（Quadrature Mirror Filterbank）係数に相当）をbとtを使って、上記Ｌ(b,t) 又はＲ(b,t) などと表す。図５の復号音分析部１０４、歪み検出部５０３、及びスペクトル補正部５０４は、離散時間ｔ毎に以下に示す一連の処理を実行する。なお、これら一連の処理は、第３の実施形態において後述するように、離散時間ｔ方向に平滑化されながら所定時間長毎に実行されるように構成されてもよい。

今、或る周波数帯域ｂにおけるＬチャネルとＲチャネルの強度差をＩＩＤ(b) 、類似度をＩＣＣ(b) とすると、ＩＩＤ(b) とＩＣＣ(b) は下記数１４式により計算される。ここで、Ｎは時間方向のフレーム長（図６参照）である。
この数式から理解されるように、強度差ＩＩＤ(b) は、周波数帯域ｂにおける現フレーム（０≦ｔ≦Ｎ−１）におけるＬチャネル復号信号Ｌ(b,t) の平均電力ｅ_L(b) とＲチャネル復号信号Ｒ(b,t) の平均電力ｅ_R(b) の対数比、類類似度ＩＣＣ(b) は、これら信号の相互相関である。

復号音分析部１０４は、上記類似度をＩＣＣ(b) 及び強度差ＩＩＤ(b) をそれぞれ、第２類似度１０９及び第２強度差１１０として出力する。
次に、歪み検出部５０３は、図７の動作フローチャートに基づいて、離散時間ｔ毎に、周波数帯域ｂ毎の歪み量α(b) と歪み発生チャネルｃｈ(b) の検出を行う。以下の説明では、図７のステップＳ７０１〜Ｓ７１２を随時参照するものとする。

即ち、歪み検出部５０３は、ステップＳ７０１にて周波数帯域番号を０に初期設定した後、ステップＳ７１２にて周波数帯域番号を＋１ずつ増加させながら、ステップＳ７１１にて周波数帯域番号が最大値ＮＢ−１を超えたと判定するまで、周波数帯域ｂ毎に、ステップＳ７０２〜Ｓ７１０の一連の処理を実行する。

まず、歪み検出部５０３は、図５の復号音分析部１０４から出力される第２類似度１０９の値から図５のＰＳ復号部１０３から出力される第１類似度１０７の値を減算することにより、周波数帯域ｂにおける類似度の差分を歪み量α(b) として算出する（ステップＳ７０２）。

次に、歪み検出部５０３は、歪み量α(b) と閾値Ｔｈ１とを比較する（ステップＳ７０３）。ここでは、図８（ａ）に示されるように、歪み量α(b) が閾値Ｔｈ１以下であるときに歪みなし、歪み量α(b) が閾値Ｔｈ１よりも大きいときに歪みありと判定される。これは、図３にて説明した原理に基づく。

即ち、歪み検出部５０３は、歪み量α(b) が閾値Ｔｈ１以下であるときには、歪みなしと判定して、周波数帯域ｂにおける歪み発生チャネルを示す変数ｃｈ(b) にどのチャネルも補正しないことを指示する値０を設定して、次の周波数帯域の処理に進む（ステップＳ７０３−＞Ｓ７１０−＞Ｓ７１１）。

一方、歪み検出部５０３は、歪み量α(b) が閾値Ｔｈ１よりも大きいときには、歪みありと判定して、以下のステップＳ７０４〜Ｓ７０９の処理を実行する。
まず、歪み検出部５０３は、図５の復号音分析部１０４から出力される第２強度差１１０の値から図５のＰＳ復号部１０３から出力される第１強度差１０８の値を減算することにより、周波数帯域ｂにおける強度差の差分β(b) を算出する（ステップＳ７０４）。

次に、歪み検出部５０３は、強度差の差分β(b) と閾値Ｔｈ２及び閾値−Ｔｈ２とをそれぞれ比較する（ステップＳ７０５及びＳ７０６）。ここでは、図８（ｂ）に示されるように、強度差の差分β(b) が閾値Ｔｈ２より大きいときにＬチャネルに歪みが発生しており、強度差の差分β(b) が閾値−Ｔｈ２以下であるときにＲチャネルに歪みが発生しており、強度差の差分β(b) が閾値−Ｔｈ２よりも大きく閾値Ｔｈ２以下であるときに両チャネルに歪みが発生していると推定される。

これは、前述の数１４式のＩＩＤ(b) の算出式より、強度差ＩＩＤ(b) の値が大きいということはＬチャネルの電力のほうが強いことを示しているが、その傾向が復号側のほうが符号化側よりもより強く出れば、即ち強度差の差分β(b) が閾値Ｔｈ２を超えれば、それはＬチャネルにより強い歪み成分が重畳されていることを示す。逆に、強度差ＩＩＤ(b) の値が小さいということはＲチャネルの電力の割合が強くなることを示しているが、その傾向が復号側のほうが符号化側よりもより強く出れば、即ち強度差の差分β(b) が閾値−Ｔｈ２を下回れば、それはＲチャネルにより強い歪み成分が重畳されていることを示す。

即ち、歪み検出部５０３は、強度差の差分β(b) が閾値Ｔｈ２より大きいときには、Ｌチャネルに歪みが発生していると判定して、歪み発生チャネル変数ｃｈ(b) に値Ｌを設定して、次の周波数帯域の処理に進む（ステップＳ７０５−＞Ｓ７０９−＞Ｓ７１１）。

また、歪み検出部５０３は、強度差の差分β(b) が閾値−Ｔｈ２以下であるときには、Ｒチャネルに歪みが発生していると判定して、歪み発生チャネル変数ｃｈ(b) に値Ｒを設定して、次の周波数帯域の処理に進む（ステップＳ７０５−＞Ｓ７０６−＞Ｓ７０８−＞Ｓ７１１）。

歪み検出部５０３は、強度差の差分β(b) が閾値−Ｔｈ２より大きく閾値Ｔｈ２以下であるときには、両チャネルに歪みが発生していると判定して、歪み発生チャネル変数ｃｈ(b) に値ＬＲを設定して、次の周波数帯域の処理に進む（ステップＳ７０５−＞Ｓ７０６−＞Ｓ７０７−＞Ｓ７１１）。

以上のようにして、歪み検出部５０３が、離散時間ｔ毎に、周波数帯域ｂ毎の歪み量α(b) と歪み発生チャネルｃｈ(b) を検出した後、これらの数値がスペクトル補正部５０４に通知され、これらの数値に基づいて、スペクトル補正部５０４が、周波数帯域ｂ毎にスペクトル補正を行う。

まず、スペクトル補正部５０４は、周波数帯域ｂ毎に、図９（ａ）に示されるような、歪み量α(b) からスペクトル補正量γ(b) を算出するための固定的なテーブルを内部に保有している。

次に、スペクトル補正部５０４は、周波数帯域ｂ毎に、上記テーブルを参照しながら歪み量α(b) に対応するスペクトル補正量γ(b) を算出し、ＰＳ復号部１０３から入力するＬチャネル復号信号Ｌ(b,t) 又はＲチャネル復号信号Ｒ(b,t) のうち、歪み発生チャネル変数ｃｈ(b) が示すチャネルに対して、図９（ｂ）−＞（ｃ）に示されるように、周波数帯域ｂのスペクトル値をスペクトル補正量γ(b)分だけ減衰させる補正を行う。

そして、スペクトル補正部５０４は、このようにして補正が行われた後の周波数帯域ｂ毎のＬチャネル復号信号Ｌ’(b,t)又はＲチャネル復号信号Ｒ’(b,t)を出力する。
図１０は、図５のデータ分離部１０１に入力される入力データのデータフォーマット例を示す図である。

図１０は、ＨＥ−ＡＡＣｖ２デコーダにおける、ＭＰＥＧ−４オーディオで採用されたＡＤＴＳ（Audio Data Transport Stream ）形式のデータフォーマットである。
入力データは、大きく分けるとＡＤＴＳヘッダ１００１、モノラル音声ＡＡＣ符号化データであるＡＡＣデータ１００２、拡張データ領域（ＦＩＬＬエレメント）１００３とから構成される。

ＦＩＬＬエレメント１００３の一部に、モノラル音声ＳＢＲ符号化データであるＳＢＲデータ１００４と、ＳＢＲ用拡張データ（ｓｂｒ＿ｅｘｔｅｎｓｉｏｎ）１００５が格納される。

ｓｂｒ＿ｅｘｔｅｎｓｉｏｎ１００５の中に、パラメトリックステレオ用のＰＳデータが格納される。ＰＳデータの中に、第１類似度１０７や第１強度差１０８といったＰＳデコード処理に必要なパラメータが格納される。

第２の実施形態
次に、第２の実施形態について説明する。
第２の実施形態の構成は、スペクトル補正部５０４の動作以外は図５に示される第１の実施形態の構成と同一なので、その構成図は省略する。

第１の実施形態では、スペクトル補正部５０４において、歪み量α(b) から補正量γ(b) を決定する際に用いられる対応関係は固定であったが、第２の実施形態では、復号音の電力に応じて最適な対応関係が選択される。

即ち、図１１に示されるように、復号音の電力が大きい場合は、歪み量に対する補正量が大きくなり、復号音の電力が小さい場合は、歪み量に対する補正量が小さくなるような、複数の対応関係が用いられる。
ここで、「復号音の電力」とは、Ｌチャネル復号信号Ｌ(b,t) 又はＲチャネル復号信号Ｒ(b,t) のうち、補正対象となったチャネルの周波数帯域ｂにおける電力を指す。

第３の実施形態
次に、第３の実施形態について説明する。
図１２は、パラメトリックステレオ復号装置の第３の実施形態の構成図である。
図１２において、図５の第１の実施形態の構成と同じ番号が付された部分は図５の場合と同じ機能を有するものとする。

図１２の構成が図５の構成と異なる点は、スペクトル補正部５０４から出力される補正復号信号Ｌ’(b,t)とＲ’(b,t)を時間軸方向に平滑化するためのスペクトル保持部１２０２とスペクトル平滑化部１２０２を有する点である。

まず、スペクトル保持部１２０２は、離散時間ｔ毎に、スペクトル補正部５０４から出力されるＬチャネル補正復号信号Ｌ’(b,t)とＲチャネル補正復号信号Ｒ’(b,t)を順次保持しながら、１離散時間前のｔ−１におけるＬチャネル補正復号信号Ｌ’(b,t-1)とＲチャネル補正復号信号Ｒ’(b,t-1)をスペクトル平滑化部１２０２へ出力する。

スペクトル平滑化部１２０２は、スペクトル補正部５０４から出力される離散時間ｔにおけるＬチャネル補正復号信号Ｌ’(b,t)及びＲチャネル補正復号信号Ｒ’(b,t)を用いて、スペクトル保持部１２０２から入力される１離散時間前のｔ−１におけるＬチャネル補正復号信号Ｌ’(b,t-1)及びＲチャネル補正復号信号Ｒ’(b,t-1)を平滑化して、Ｌチャネル補正平滑化復号信号Ｌ”(b,t-1)及びＲチャネル補正平滑化復号信号Ｒ”(b,t-1)として、Ｆ／Ｔ変換部１０６（Ｌ）及び１０６（Ｒ）へ出力する。

スペクトル平滑化部１２０２における平滑化の方法は任意であるが、例えばスペクトル保持部１２０２からの出力とスペクトル補正部５０４からの出力との加重和を求める方法を用いることができる。

また、過去の複数フレームのスペクトル補正部５０４の出力がスペクトル保持部１２０２に格納され、これら複数フレーム分の出力と現フレームのスペクトル補正部５０４の出力との加重和が取られて平滑化が行われてもよい。

更に、時間方向の平滑化に限らず、スペクトル補正部５０４の出力に対して、周波数帯域ｂの方向に平滑化処理が行われてもよい。即ち、スペクトル補正部５０４の出力のある周波数帯域ｂのスペクトルに対し、その前後の周波数帯域ｂ−１やｂ＋１との加重和が取られて平滑化が行われてもよい。また、加重和が取られる際に、隣接する複数個の周波数帯域のスペクトル補正部５０４の出力のスペクトルが用いられてもよい。

第４の実施形態
最後に、第４の実施形態について説明する。
図１３は、パラメトリックステレオ復号装置の第４の実施形態の構成図である。

図１３において、図５の第１の実施形態の構成と同じ番号が付された部分は図５の場合と同じ機能を有するものとする。
図１３の構成が図５の構成と異なる点は、時間周波数（Ｆ／Ｔ）変換部１０６（Ｌ）及び１０６（Ｒ）の代わりに、ＱＭＦ処理部１３０１（Ｌ）及び１３０１（Ｒ）が使用される点である。

ＱＭＦ処理部１３０１（Ｌ）及び１３０１（Ｒ）は、スペクトル補正されたステレオ復号信号Ｌ’(b,t)とＲ’(b,t)を時間領域のステレオ復号信号Ｌ(t) とＲ(t) に変換するために、ＱＭＦ（Quadrature Mirror Filterbank）を用いた処理を行う。

まず、ＱＭＦ係数に対するスペクトル補正方法について説明する。
第１の実施形態の場合と同様に、あるフレームＮの周波数帯域ｂにおけるＬチャネルのスペクトル補正量γ_L(b) を計算し、スペクトルL(b,t) に対して次式により補正を行う。ここで、ＨＥ−ＡＡＣｖ２デコーダのＱＭＦ係数は、複素数であることに留意する。
同様に、Ｒチャネルに対するスペクトル補正量γ_R(b) を求め、スペクトルＲ(b,t) を次式により補正する。

上記の処理により、ＱＭＦ係数が補正される。第４の実施形態では、フレーム内のスペクトル補正量を一定として説明したが、過去のフレーム又は隣接する前後のフレームのスペクトル補正量を用いて、現フレームのスペクトル補正量が平滑化されてもよい。

次に、補正されたスペクトルをＱＭＦにより時間領域の信号に変換する方法を以下に示す。数式中の記号ｊは虚数単位である。ここでは、周波数方向の分解能（周波数帯域ｂの数）は、６４とした。

第１〜第４の実施形態に対する補足
図１４は、上記第１〜第４の実施形態によって実現されるシステムを実現できるコンピュータのハードウェア構成の一例を示す図である。

図１４に示されるコンピュータは、ＣＰＵ１４０１、メモリ１４０２、入力装置１４０３、出力装置１４０４、外部記憶装置１４０５、可搬記録媒体１４０９が挿入される可搬記録媒体駆動装置１４０６、及びネットワーク接続装置１４０７を有し、これらがバス１４０８によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。

ＣＰＵ１４０１は、当該コンピュータ全体の制御を行う。メモリ１４０２は、プログラムの実行、データ更新等の際に、外部記憶装置１４０５（或いは可搬記録媒体１４０９）に記憶されているプログラム又はデータを一時的に格納するＲＡＭ等のメモリである。ＣＵＰ１４０１は、プログラムをメモリ１４０２に読み出して実行することにより、全体の制御を行う。

入力装置１４０３は、例えば、キーボード、マウス等及びそれらのインタフェース制御装置とからなる。入力装置１４０３は、ユーザによるキーボードやマウス等による入力操作を検出し、その検出結果をＣＰＵ１４０１に通知する。

出力装置１４０４は、表示装置、印刷装置等及びそれらのインタフェース制御装置とからなる。出力装置１４０４は、ＣＰＵ１４０１の制御によって送られてくるデータを表示装置や印刷装置に出力する。

外部記憶装置１４０５は、例えばハードディスク記憶装置である。主に各種データやプログラムの保存に用いられる。
可搬記録媒体駆動装置１４０６は、光ディスクやＳＤＲＡＭ、コンパクトフラッシュ（登録商標）等の可搬記録媒体１４０９を収容するもので、外部記憶装置１４０５の補助の役割を有する。

ネットワーク接続装置１４０７は、例えばＬＡＮ（ローカルエリアネットワーク）又はＷＡＮ（ワイドエリアネットワーク）の通信回線を接続するための装置である。
前述の第１〜第４の実施形態によるパラメトリックステレオ復号装置のシステムは、それに必要な機能を搭載したプログラムをＣＰＵ１４０１が実行することで実現される。そのプログラムは、例えば外部記憶装置１４０５や可搬記録媒体１４０９に記録して配布してもよく、或いはネットワーク接続装置１４０７によりネットワークから取得できるようにしてもよい。

以上の第１〜第４の実施形態は、パラメトリックステレオ方式の復号装置に本発明を適用したものであるが、本発明は、パラメトリックステレオ方式に限定されるものではなく、サラウンド方式やその他の、復号音声信号に音声復号補助情報を組み合わせて復号を行う様々な方式に適用することが可能である。

以上の第１〜第４の実施形態に関して、更に以下の付記を開示する。
（付記１）
符号化音声データから第１の復号音声信号と第１の音声復号補助情報とを復号し、該第１の復号音声信号及び第１の音声復号補助情報に基づいて第２の復号音声信号を復号する音声復号方法において、
前記第１の音声復号補助情報に対応する第２の音声復号補助情報を前記第２の復号音声信号から算出する復号音分析ステップと、
該第２の音声復号補助情報と前記第１の音声復号補助情報とを比較することにより、前記第２の復号音声信号の復号過程で生じた歪みを検出する歪み検出ステップと、
前記第２の復号音声信号において、前記歪み検出ステップにて検出された歪みを補正する歪み補正ステップと、
を含むことを特徴とするオーディオ復号方法。
（付記２）
パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、該モノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号する音声復号方法において、
前記パラメトリックステレオパラメータ情報を第１のパラメトリックステレオパラメータ情報として、それに対応する第２のパラメトリックステレオパラメータ情報を前記ステレオ音声復号信号から算出する復号音分析ステップと、
該第２のパラメトリックステレオパラメータ情報と前記第１のパラメトリックステレオパラメータ情報とを比較することにより、前記ステレオ音声復号信号の復号過程で生じた歪みを検出する歪み検出ステップと、
前記ステレオ音声復号信号において、前記歪み検出ステップにて検出された歪みを補正する歪み補正ステップと、
を含むことを特徴とするオーディオ復号方法。
（付記３）
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度を示す類似度情報であり、
前記復号音分析ステップは、前記第１のパラメトリックステレオパラメータ情報である第１の類似度情報に対応する第２の類似度情報を前記ステレオ音声復号信号から算出し、
前記歪み検出ステップは、前記第２の類似度情報と前記第１の類似度情報とを周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎の歪みを検出し、
前記歪み補正ステップは、前記ステレオ音声復号信号において、前記歪み検出ステップにて検出された前記周波数帯域毎の歪みを補正する、
ことを特徴とする付記２に記載のオーディオ復号方法。
（付記４）
前記歪み検出ステップは、前記第２の類似度情報と前記第１の類似度情報の差分から歪み量を検出する、
ことを特徴とする付記３に記載のオーディオ復号方法。
（付記５）
前記歪み補正ステップは、前記歪み量に基づいて前記歪みの補正量を決定する、
ことを特徴とする付記４に記載のオーディオ復号方法。
（付記６）
前記歪み補正ステップは、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて前記歪みの補正量を決定する、
ことを特徴とする付記４に記載のオーディオ復号方法。
（付記７）
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度と強度差をそれぞれ示す類似度情報及び強度差情報であり、
前記復号音分析ステップは、前記第１のパラメトリックステレオパラメータ情報である第１の類似度情報及び第１の強度差情報に対応する第２の類似度情報及び第２の強度差情報を前記ステレオ音声復号信号から算出し、
前記歪み検出ステップは、前記第２の類似度情報と前記第１の類似度情報及び前記第２の強度差情報と前記第１の強度差情報とをそれぞれ前記周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを検出し、
前記歪み補正ステップは、前記ステレオ音声復号信号において、前記歪み検出ステップにて検出された前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを補正する、
ことを特徴とする付記２に記載のオーディオ復号方法。
（付記８）
前記歪み検出ステップは、前記第２の類似度情報と前記第１の類似度情報の差分から歪み量を検出し、前記第２の強度差情報と前記第１の強度差情報の差分から歪み発生ステレオ音声チャネルを検出する、
ことを特徴とする付記７に記載のオーディオ復号方法。
（付記９）
前記歪み補正ステップは、前記歪み量に基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする付記８に記載のオーディオ復号方法。
（付記１０）
前記歪み補正ステップは、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする付記８に記載のオーディオ復号方法。
（付記１１）
前記歪み補正ステップによって補正が行われたステレオ音声復号信号を、時間軸方向又は周波数軸方向に平滑化する平滑化ステップを更に含む、
ことを特徴とする付記２乃至１０の何れか１項に記載のオーディオ復号方法。
（付記１２）
前記復号音分析ステップ、前記歪み検出ステップ、及び前記歪み補正ステップは、時間
周波数領域にて実行される、
ことを特徴とする付記２乃至１１の何れか１項に記載のオーディオ復号方法。
（付記１３）
符号化音声データから第１の復号音声信号と第１の音声復号補助情報とを復号し、該第１の復号音声信号及び第１の音声復号補助情報に基づいて第２の復号音声信号を復号する音声復号装置において、
前記第１の音声復号補助情報に対応する第２の音声復号補助情報を前記第２の復号音声信号から算出する復号音分析手段と、
該第２の音声復号補助情報と前記第１の音声復号補助情報とを比較することにより、前記第２の復号音声信号の復号過程で生じた歪みを検出する歪み検出手段と、
前記第２の復号音声信号において、前記歪み検出手段にて検出された歪みを補正する歪み補正手段と、
を含むことを特徴とするオーディオ復号装置。
（付記１４）
パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、該モノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号する音声復号装置において、
前記パラメトリックステレオパラメータ情報を第１のパラメトリックステレオパラメータ情報として、それに対応する第２のパラメトリックステレオパラメータ情報を前記ステレオ音声復号信号から算出する復号音分析手段と、
該第２のパラメトリックステレオパラメータ情報と前記第１のパラメトリックステレオパラメータ情報とを比較することにより、前記ステレオ音声復号信号の復号過程で生じた歪みを検出する歪み検出手段と、
前記ステレオ音声復号信号において、前記歪み検出手段にて検出された歪みを補正する歪み補正手段と、
を含むことを特徴とするオーディオ復号装置。
（付記１５）
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度を示す類似度情報であり、
前記復号音分析手段は、前記第１のパラメトリックステレオパラメータ情報である第１の類似度情報に対応する第２の類似度情報を前記ステレオ音声復号信号から算出し、
前記歪み検出手段は、前記第２の類似度情報と前記第１の類似度情報とを周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎の歪みを検出し、
前記歪み補正手段は、前記ステレオ音声復号信号において、前記歪み検出手段にて検出された前記周波数帯域毎の歪みを補正する、
ことを特徴とする付記１４に記載のオーディオ復号装置。
（付記１６）
前記歪み検出手段は、前記第２の類似度情報と前記第１の類似度情報の差分から歪み量を検出する、
ことを特徴とする付記１５に記載のオーディオ復号装置。
（付記１７）
前記歪み補正手段は、前記歪み量に基づいて前記歪みの補正量を決定する、
ことを特徴とする付記１６に記載のオーディオ復号装置。
（付記１８）
前記歪み補正手段は、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて前記歪みの補正量を決定する、
ことを特徴とする付記１６に記載のオーディオ復号装置。
（付記１９）
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度と強度差をそれぞれ示す類似度情報及び強度差情報であり、
前記復号音分析手段は、前記第１のパラメトリックステレオパラメータ情報である第１の類似度情報及び第１の強度差情報に対応する第２の類似度情報及び第２の強度差情報を前記ステレオ音声復号信号から算出し、
前記歪み検出手段は、前記第２の類似度情報と前記第１の類似度情報及び前記第２の強度差情報と前記第１の強度差情報とをそれぞれ前記周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを検出し、
前記歪み補正手段は、前記ステレオ音声復号信号において、前記歪み検出手段にて検出された前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを補正する、
ことを特徴とする付記１４に記載のオーディオ復号装置。
（付記２０）
前記歪み検出手段は、前記第２の類似度情報と前記第１の類似度情報の差分から歪み量を検出し、前記第２の強度差情報と前記第１の強度差情報の差分から歪み発生ステレオ音声チャネルを検出する、
ことを特徴とする付記１７に記載のオーディオ復号装置。
（付記２１）
前記歪み補正手段は、前記歪み量に基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする付記２０に記載のオーディオ復号装置。
（付記２２）
前記歪み補正手段は、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする付記２０に記載のオーディオ復号装置。
（付記２３）
前記歪み補正手段によって補正が行われたステレオ音声復号信号を、時間軸方向又は周波数軸方向に平滑化する平滑化手段を更に含む、
ことを特徴とする付記１４乃至２２の何れか１項に記載のオーディオ復号装置。
（付記２４）
前記復号音分析手段、前記歪み検出手段、及び前記歪み補正手段は、時間周波数領域にて実行される、
ことを特徴とする付記１４乃至２３の何れか１項に記載のオーディオ復号装置。
（付記２５）
符号化音声データから第１の復号音声信号と第１の音声復号補助情報とを復号し、該第１の復号音声信号及び第１の音声復号補助情報に基づいて第２の復号音声信号を復号するコンピュータに、
前記第１の音声復号補助情報に対応する第２の音声復号補助情報を前記第２の復号音声信号から算出する復号音分析機能と、
該第２の音声復号補助情報と前記第１の音声復号補助情報とを比較することにより、前記第２の復号音声信号の復号過程で生じた歪みを検出する歪み検出機能と、
前記第２の復号音声信号において、前記歪み検出機能にて検出された歪みを補正する歪み補正機能と、
を実行させるためのプログラム。
（付記２６）
パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、該モノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号するコンピュータに、
前記パラメトリックステレオパラメータ情報を第１のパラメトリックステレオパラメータ情報として、それに対応する第２のパラメトリックステレオパラメータ情報を前記ステレオ音声復号信号から算出する復号音分析機能と、
該第２のパラメトリックステレオパラメータ情報と前記第１のパラメトリックステレオパラメータ情報とを比較することにより、前記ステレオ音声復号信号の復号過程で生じた歪みを検出する歪み検出機能と、
前記ステレオ音声復号信号において、前記歪み検出機能にて検出された歪みを補正する歪み補正機能と、
を実行させるためのプログラム。
（付記２７）
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度を示す類似度情報であり、
前記復号音分析機能は、前記第１のパラメトリックステレオパラメータ情報である第１の類似度情報に対応する第２の類似度情報を前記ステレオ音声復号信号から算出し、
前記歪み検出機能は、前記第２の類似度情報と前記第１の類似度情報とを周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎の歪みを検出し、
前記歪み補正機能は、前記ステレオ音声復号信号において、前記歪み検出機能にて検出された前記周波数帯域毎の歪みを補正する、
ことを特徴とする付記２６に記載のプログラム。
（付記２８）
前記歪み検出機能は、前記第２の類似度情報と前記第１の類似度情報の差分から歪み量を検出する、
ことを特徴とする付記２７に記載のプログラム。
（付記２９）
前記歪み補正機能は、前記歪み量に基づいて前記歪みの補正量を決定する、
ことを特徴とする付記２８に記載のプログラム。
（付記３０）
前記歪み補正機能は、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて前記歪みの補正量を決定する、
ことを特徴とする付記２８に記載のプログラム。
（付記３１）
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度と強度差をそれぞれ示す類似度情報及び強度差情報であり、
前記復号音分析機能は、前記第１のパラメトリックステレオパラメータ情報である第１の類似度情報及び第１の強度差情報に対応する第２の類似度情報及び第２の強度差情報を前記ステレオ音声復号信号から算出し、
前記歪み検出機能は、前記第２の類似度情報と前記第１の類似度情報及び前記第２の強度差情報と前記第１の強度差情報とをそれぞれ前記周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを検出し、
前記歪み補正機能は、前記ステレオ音声復号信号において、前記歪み検出機能にて検出された前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを補正する、
ことを特徴とする付記２６に記載のプログラム。
（付記３２）
前記歪み検出機能は、前記第２の類似度情報と前記第１の類似度情報の差分から歪み量を検出し、前記第２の強度差情報と前記第１の強度差情報の差分から歪み発生ステレオ音声チャネルを検出する、
ことを特徴とする付記２９に記載のプログラム。
（付記３３）
前記歪み補正機能は、前記歪み量に基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする付記３２に記載のプログラム。
（付記３４）
前記歪み補正機能は、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする付記３２に記載のプログラム。
（付記３５）
前記歪み補正機能によって補正が行われたステレオ音声復号信号を、時間軸方向又は周波数軸方向に平滑化する平滑化機能を更に含む、
ことを特徴とする付記２６乃至３４の何れか１項に記載のプログラム。
（付記３６）
前記復号音分析機能、前記歪み検出機能、及び前記歪み補正機能は、時間周波数領域にて実行される、
ことを特徴とする付記２６乃至３５の何れか１項に記載のプログラム。

パラメトリックステレオ復号装置の実施形態の原理構成図である。パラメトリックステレオ復号装置の実施形態の原理動作を示す動作フローチャートである。パラメトリックステレオ復号装置の実施形態の原理説明図である。パラメトリックステレオ復号装置の実施形態の効果説明図である。パラメトリックステレオ復号装置の第１の実施形態の構成図である。ＨＥ−ＡＡＣデコーダにおける時間・周波数信号の定義を示した図である。歪み検出部５０３の制御動作を示す動作フローチャートである。歪み量と歪み発生チャネルの検出動作の説明図である。スペクトル補正部５０４の制御動作の説明図である。入力データのデータフォーマット例を示す図である。第２の実施形態の説明図である。パラメトリックステレオ復号装置の第３の実施形態の構成図である。パラメトリックステレオ復号装置の第４の実施形態の構成図である。第１〜第４の実施形態によって実現されるシステムを実現できるコンピュータのハードウェア構成の一例を示す図である。ステレオ録音のモデルを示す図である。非相関化の説明図である。入力信号（Ｌ，Ｒ）と、モノラル信号ｓ、及び残響成分ｄの関係図である。ｓ(b,t) とｄ(b,t) からステレオ信号を生成する方法の説明図である。従来のパラメトリックステレオ復号装置の構成図である。図１９のＰＳ復号部１９０３の構成図である。従来技術の問題点の説明図である。

符号の説明

１０１、１９０１データ分離部
１０２、１９０２コア復号部
１０３、１９０３ＰＳ復号部
１０４復号音分析部
１０５、５０４スペクトル補正部
１０６（Ｌ）、１０６（Ｒ）、１９０４（Ｌ）、１９０４（Ｒ）周波数時間（Ｆ／Ｔ
）変換部
１０７第１類似度
１０８第１強度差
１０９第２類似度
１１０第２強度差
５０１ＡＡＣ復号部
５０２ＳＢＲ復号部
５０３歪み検出部
５０４スペクトル補正部
１００１ＡＤＴＳヘッダ
１００２ＡＡＣデータ
１００３ＦＩＬＬエレメント
１００４ＳＢＲデータ
１００５ｓｂｒ＿ｅｘｔｅｎｓｉｏｎ
１００６ＰＳデータ
１２０１スペクトル保持部
１２０２スペクトル平滑化部
１３０１（Ｌ）及び１３０１（Ｒ）ＱＭＦ処理部
１４０１ＣＰＵ
１４０２メモリ
１４０３入力装置
１４０４出力装置
１４０５外部記憶装置
１４０６可搬記録媒体駆動装置
１４０７ネットワーク接続装置
１４０８バス
１４０９可搬記録媒体
１５０１マイク
２００１遅延付加部
２００２非相関化部
２００３ＰＳ解析部
２００４係数計算部
２００５ステレオ信号生成部

Claims

符号化音声データから第１の復号音声信号と第１の音声復号補助情報とを復号し、該第１の復号音声信号及び第１の音声復号補助情報に基づいて第２の復号音声信号を復号する音声復号方法において、
前記第１の音声復号補助情報に対応する第２の音声復号補助情報を前記第２の復号音声信号から算出する復号音分析ステップと、
該第２の音声復号補助情報と前記第１の音声復号補助情報とを比較することにより、前記第２の復号音声信号の復号過程で生じた歪みを検出する歪み検出ステップと、
前記第２の復号音声信号において、前記歪み検出ステップにて検出された歪みを補正する歪み補正ステップと、
を含むことを特徴とするオーディオ復号方法。
パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、該モノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号する音声復号方法において、
前記パラメトリックステレオパラメータ情報を第１のパラメトリックステレオパラメータ情報として、それに対応する第２のパラメトリックステレオパラメータ情報を前記ステレオ音声復号信号から算出する復号音分析ステップと、
該第２のパラメトリックステレオパラメータ情報と前記第１のパラメトリックステレオパラメータ情報とを比較することにより、前記ステレオ音声復号信号の復号過程で生じた歪みを検出する歪み検出ステップと、
前記ステレオ音声復号信号において、前記歪み検出ステップにて検出された歪みを補正する歪み補正ステップと、
を含むことを特徴とするオーディオ復号方法。
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度と強度差をそれぞれ示す類似度情報及び強度差情報であり、
前記復号音分析ステップは、前記第１のパラメトリックステレオパラメータ情報である第１の類似度情報及び第１の強度差情報に対応する第２の類似度情報及び第２の強度差情報を前記ステレオ音声復号信号から算出し、
前記歪み検出ステップは、前記第２の類似度情報と前記第１の類似度情報及び前記第２の強度差情報と前記第１の強度差情報とをそれぞれ前記周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを検出し、
前記歪み補正ステップは、前記ステレオ音声復号信号において、前記歪み検出ステップにて検出された前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを補正する、
ことを特徴とする請求項２に記載のオーディオ復号方法。
前記歪み検出ステップは、前記第２の類似度情報と前記第１の類似度情報の差分から歪み量を検出し、前記第２の強度差情報と前記第１の強度差情報の差分から歪み発生ステレオ音声チャネルを検出する、
ことを特徴とする請求項３に記載のオーディオ復号方法。
前記歪み補正ステップは、前記歪み量に基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする請求項４に記載のオーディオ復号方法。
前記歪み補正ステップは、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて
前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする請求項４に記載のオーディオ復号方法。
前記歪み補正ステップによって補正が行われたステレオ音声復号信号を、時間軸方向又は周波数軸方向に平滑化する平滑化ステップを更に含む、
ことを特徴とする請求項２乃至６の何れか１項に記載のオーディオ復号方法。
前記復号音分析ステップ、前記歪み検出ステップ、及び前記歪み補正ステップは、時間周波数領域にて実行される、
ことを特徴とする請求項２乃至７の何れか１項に記載のオーディオ復号方法。
パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、該モノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号する音声復号装置において、
前記パラメトリックステレオパラメータ情報を第１のパラメトリックステレオパラメータ情報として、それに対応する第２のパラメトリックステレオパラメータ情報を前記ステレオ音声復号信号から算出する復号音分析手段と、
該第２のパラメトリックステレオパラメータ情報と前記第１のパラメトリックステレオパラメータ情報とを比較することにより、前記ステレオ音声復号信号の復号過程で生じた歪みを検出する歪み検出手段と、
前記ステレオ音声復号信号において、前記歪み検出手段にて検出された歪みを補正する歪み補正手段と、
を含むことを特徴とするオーディオ復号装置。
パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、該モノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号するコンピュータに、
前記パラメトリックステレオパラメータ情報を第１のパラメトリックステレオパラメータ情報として、それに対応する第２のパラメトリックステレオパラメータ情報を前記ステレオ音声復号信号から算出する復号音分析機能と、
該第２のパラメトリックステレオパラメータ情報と前記第１のパラメトリックステレオパラメータ情報とを比較することにより、前記ステレオ音声復号信号の復号過程で生じた歪みを検出する歪み検出機能と、
前記ステレオ音声復号信号において、前記歪み検出機能にて検出された歪みを補正する歪み補正機能と、
を実行させるためのプログラム。