JP2010078915A - オーディオ復号方法、装置、及びプログラム - Google Patents

オーディオ復号方法、装置、及びプログラム Download PDF

Info

Publication number
JP2010078915A
JP2010078915A JP2008247213A JP2008247213A JP2010078915A JP 2010078915 A JP2010078915 A JP 2010078915A JP 2008247213 A JP2008247213 A JP 2008247213A JP 2008247213 A JP2008247213 A JP 2008247213A JP 2010078915 A JP2010078915 A JP 2010078915A
Authority
JP
Japan
Prior art keywords
audio
distortion
stereo
decoded
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008247213A
Other languages
English (en)
Other versions
JP5326465B2 (ja
Inventor
Masanao Suzuki
政直 鈴木
Miyuki Shirakawa
美由紀 白川
Yoshiteru Tsuchinaga
義照 土永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008247213A priority Critical patent/JP5326465B2/ja
Priority to EP09169818A priority patent/EP2169667B1/en
Priority to AT09169818T priority patent/ATE540400T1/de
Priority to US12/563,890 priority patent/US8619999B2/en
Publication of JP2010078915A publication Critical patent/JP2010078915A/ja
Application granted granted Critical
Publication of JP5326465B2 publication Critical patent/JP5326465B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】パラメトリックステレオ方式のように復号側で復号音声信号と復号補助信号とに基づいて元音声信号を再現する音声復号方式において、音質の劣化を低減させる。
【解決手段】復号音分析部104は、PS復号部103にて復号された周波数域ステレオ復号信号L(b) とR(b)とについて、復号された音声信号から新たに、第2類似度109と第2強度差110を算出する。スペクトル補正部105は、復号側にて算出された第2類似度109及び第2強度差110を、符号化側にて算出され伝送されてきた第1類似度107及び第1強度差108と比較することにより、パラメトリックステレオ化によって付加された歪みを検出し、周波数域ステレオ復号信号L(b) とR(b) のスペクトルを補正する。
【選択図】図1

Description

オーディオ信号を圧縮・伸張する符号化技術に関し、特に、モノラル信号から擬似ステレオ信号を生成するパラメトリックステレオ符号化技術等の、復号側で復号音声信号と復号補助信号とに基づいて元音声信号を再現する音声符号化・復号技術に関する。
パラメトリックステレオ符号化技術は、MPEG−4 Audio規格の1つであるHE−AAC(High-Efficiency Advanced Audio Coding ) version 2 方式(以下、「HE−AAC v2」と表記する)に採用された技術であり、低ビットレートステレオ信号向けコーデックの効率を飛躍的に向上させ、モバイル機器や放送、インターネット向けに最適な音声圧縮技術である。
図15にステレオ録音のモデルを示す。同図は、ある音源x(t) から発せられた音を#1と#2の2本のマイク1501で録音する場合のモデルである。
ここで、cx(t)は#1のマイク1501に到達する直接波、c2 h(t)*x(t) は部屋の壁等で反射してから#1のマイク1501に到達する反射波である。ここでtは時間であり、h(t) は部屋の伝達特性を表すインパルス応答である。また、記号「* 」は畳み込み演算を表し、c及びc2 はゲインである。同様にして、c3 x(t) は#2のマイク1501に到達する直接波であり、c4 h(t)*x(t) は#2のマイク1501に到達する反射波である。従って、#1及び#2のマイク1501で録音される信号をそれぞれ、l(t),r(t) とすると、l(t) とr(t) は次式のように直接波と反射波の線形和で表すことができる。
HE−AAC v2 デコーダでは、図15の音源x(t) に相当する信号を得られないので、次式のように、モノラル信号s(t) から近似的にステレオ信号が生成される。ここで、下記数3式及び数4式の各第1項は直接波、各第2項は反射波(残響成分)を近似している。
残響成分の作成方法には様々な手法があるが、HE−AAC v2 規格のパラメトリックステレオ(以下、随時「PS」と略す)デコード部は、モノラル信号s(t) を非相関化(直交化)して残響成分d(t) を作成し、次式によりステレオ信号を生成する。
ここでは説明の都合上、時間領域の処理として説明したが、PSデコード部では時間・周波数領域(QMF(Quadrature Mirror Filterbank)係数領域)で疑似ステレオ化を行うため、数5式と数6式は次のように表わされる。bは周波数を表すインデックスであり、tは時間を表すインデックスである。
次に、モノラル信号s(b,t) から残響成分d(b,t) を作成する方法について説明する。残響成分の生成方法としては様々な手法が存在するが、HE−AAC v2 規格のPSデコード部では、モノラル信号s(b,t) を、IIR(Infinite Impulse Response)(無限インパルス応答)型のオールパスフィルタにより、図16に示されるように非相関化(直交化)して、残響成分d(b,t) に変換する。
入力信号(L,R)と、モノラル信号s、及び残響成分dの関係を、図17に示す。同図に示されるように、入力信号L及びRとモノラル信号sのなす角度をαとし、cos(2α)を類似度として定義する。HE−AAC v2 規格のエンコーダは、このαを類似度情報として符号化する。この類似度情報は、Lチャネル入力信号とRチャネル入力信号の類似度を示している。
図17では、簡単のためLとRの長さが等しい場合の例を示しているが、LとRの長さ(ノルム)が異なる場合を考慮して、LとRのノルムの比を強度差として定義し、エンコーダがそれを強度差情報として符号化する。この強度差情報は、Lチャネル入力信号とRチャネル入力信号の電力比を示している。
デコーダ側において、s(b,t) とd(b,t) からステレオ信号を生成する方法について説明する。図18において、Sは復号された入力信号、Dはデコーダ側で得られる残響信号、CL は強度差から算出したLチャネル信号のスケールファクタであり、CL でスケーリングされたモノラル信号が角度α方向に射影された結果と、CL でスケーリングされた残響信号が(π/2)−α方向に射影された結果が合成されて得られるベクトルが復号されたLチャネル信号とされる。数式で表すと、下記数9式となる。同様に、RチャネルもスケールファクタCR 、S、D及び角度αを用いて下記数10式により生成できる。CL とCR の間には、CL +CR =2なる関係がある。
従って、数9式と数10式は、下記数11式にまとめることができる。
上記原理に基づいて動作するパラメトリックステレオ復号装置の従来例について、以下に説明する。
図19は、従来のパラメトリックステレオ復号装置の構成図である。
まず、データ分離部1901は、受信される入力データを、コア符号化データとPSデータに分離する。
コア復号部1902は、上記コア符号化データを復号し、モノラル音声信号S(b) を出力する。bは周波数帯域のインデックスである。コア復号部としては、AAC(Advanced
Audio Coding )方式やSBR(Spectral Band Replication )方式などの従来のオーディオ符号化・復号方式に基づくものを用いることができる。
モノラル音声信号S(b) とPSデータは、パラメトリックステレオ(PS)復号部1903に入力する。
PS復号部1903は、PSデータの情報に基づいて、モノラル信号S(b) を周波数域ステレオ復号信号L(b) とR(b) に変換する。
周波数時間変換部1904(L)及び1904(R)はそれぞれ、Lチャネル周波数域復号信号L(b) 及びRチャネル周波数域復号信号R(b) を、Lチャネル時間域復号信号L(t) 及びRチャネル時間域復号信号R(t)に変換する。
図20は、図19のPS復号部1903の構成図である。
図16の説明において前述した原理に基づいて、モノラル信号S(b) に対して、遅延付加部2001にて遅延が付加され、非相関化部2002によって非相関化されることによ
り、残響成分D(b) が作成される。
また、PS解析部2003が、PSデータを解析することにより、類似度と強度差を抽出する。図17の説明において前述した通り、類似度は、Lチャネル信号とRチャネル信号の類似度(エンコーダ側でLチャネル入力信号とRチャネル入力信号とから算出され・量子化された値)を示し、強度差は、Lチャネル信号とRチャネル信号の電力比(エンコーダ側でLチャネル入力信号とRチャネル入力信号とから算出され・量子化された値)である。
係数計算部2004は、類似度と強度差とから、前述した数11式に基づいて、係数行列Hを算出する。
ステレオ信号生成部2005は、モノラル信号S(b) と残響成分D(b) と上記係数行列Hとに基づいて、前述の数11式と等価な下記数12式により、ステレオ信号L(b) とR(b) を生成する。
特開2007−79487号公報
上記パラメトリックステレオ方式の従来技術において、Lチャネル入力信号とRチャネル入力信号とで相関がほとんどない音声信号、例えば2ヶ国語音声が符号化された場合について考察する。
パラメトリックステレオ方式では、復号側において、モノラル信号Sからステレオ信号がを作成されるため、前述の数12式からも理解されるように、モノラル信号Sの性質が出力信号L’とR’に影響する。
例えば、元のLチャネル入力信号とRチャネル入力信号が全く異なる場合(類似度が0である)場合、図19のPS復号部1903からの出力音声は次式で算出される。
つまり、出力信号L’とR’にモノラル信号Sの成分が現れる。図21は、それを模式的に示した図である。モノラル信号Sは、Lチャネル入力信号とRチャネル入力信号の和なので、数13式は、一方の信号が他方のチャネルに漏れこんでしまうことを意味する。
このため、従来のパラメトリックステレオ復号装置において、出力信号L’とR’を同時に聞くと、左右から似たような音が発生するため、エコーのように聞こえて音質が劣化してしまうという問題点を有していた。
本発明の課題は、パラメトリックステレオ方式のように復号側で復号音声信号と音声復
号補助情報とに基づいて元音声信号を再現する音声復号方式において、音質の劣化を低減させることにある。
第1の態様は、符号化音声データから第1の復号音声信号と第1の音声復号補助情報とを復号し、その第1の復号音声信号及び第1の音声復号補助情報に基づいて第2の復号音声信号を復号する音声復号装置、又はこれと同等の機能を実現する音声復号方法又は音声復号プログラムを前提とする。
復号音分析手段(104)は、第1の音声復号補助情報(107、108)に対応する第2の音声復号補助情報(109、110)を第2の復号音声信号(L(b) 、R(b) )から算出する。
歪み検出手段(105、503)は、第2の音声復号補助情報と第1の音声復号補助情報とを比較することにより、第2の復号音声信号の復号過程で生じた歪みを検出する。
歪み補正手段(105、504)は、第2の復号音声信号において、歪み検出ステップにて検出された歪みを補正する。
第2の態様は、パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、そのモノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号する音声復号装置、又はこれと同等の機能を実現する音声復号方法又は音声復号プログラムを前提とする。 パラメトリックステレオパラメータ情報は例えば、ステレオ音声チャネル間の類似度と強度差をそれぞれ示す類似度情報及び強度差情報である。
復号音分析手段(104)は、パラメトリックステレオパラメータ情報を第1のパラメトリックステレオパラメータ情報として、それに対応する第2のパラメトリックステレオパラメータ情報をステレオ音声復号信号(L(b) 、R(b) )から算出する。この復号音分析手段は例えば、第1のパラメトリックステレオパラメータ情報である第1の類似度情報(107)及び第1の強度差情報(108)に対応する第2の類似度情報(109)及び第2の強度差情報(110)をステレオ音声復号信号(L(b) 、R(b) )から算出する。
歪み検出手段(105、503)は、その第2のパラメトリックステレオパラメータ情報と第1のパラメトリックステレオパラメータ情報とを比較することにより、ステレオ音声復号信号の復号過程で生じた歪みを検出する。この歪み検出手段は例えば、第2の類似度情報と第1の類似度情報及び第2の強度差情報と第1の強度差情報とをそれぞれ周波数帯域毎に比較することにより、ステレオ音声復号信号の復号過程で生じた周波数帯域毎及びステレオ音声チャネル毎の歪みを検出する。より具体的には、この歪み検出手段は例えば、第2の類似度情報と第1の類似度情報の差分から歪み量を検出し、第2の強度差情報と第1の強度差情報の差分から歪み発生ステレオ音声チャネルを検出する。
歪み補正手段(105、504)は、ステレオ音声復号信号において、歪み検出手段にて検出された歪みを補正する。この歪み補正手段は例えば、ステレオ音声復号信号において、歪み検出手段にて検出された周波数帯域毎及びステレオ音声チャネル毎の歪みを補正する。より具体的には、この歪み補正手段は例えば、歪み量(及びステレオ音声復号信号の電力)に基づいて歪みの補正量を決定し、歪み発生ステレオ音声チャネルに基づいて補正を行うステレオ音声チャネルを決定する。
上記第2の態様の構成において、歪み補正手段によって補正が行われたステレオ音声復号信号を、時間軸方向又は周波数軸方向に平滑化する平滑化手段(1201、1202)を更に含むように構成することができる。
上記第2の態様の構成において、復号音分析手段、歪み検出手段、及び歪み補正手段は、時間周波数領域にて実行されるように構成することができる。
本発明によれば、第1のパラメトリックステレオパラメータ情報等に基づいてモノラル音声復号信号等に擬似ステレオ化等の処理を施すことによってステレオ音声復号信号等を復号する音声復号方式において、ステレオ音声復号信号から第1のパラメトリックステレオパラメータ情報等に対応する第2のパラメトリックステレオパラメータ情報等を復号側にて生成し、第1及び第2のパラメトリックステレオパラメータ情報等を比較することによって、擬似ステレオ化処理等の復号処理における歪みを検出することが可能となる。
これにより、ステレオ音声復号信号に対してエコー感等を除去するためのスペクトル補正を施すことが可能となり、復号音における音質劣化を抑制することが可能となる。
以下、図面を参照しながら、本発明を実施するための最良の形態を詳細に説明する。
原理説明
まず、本実施形態の原理について説明する。図1は、パラメトリックステレオ復号装置の実施形態の原理構成図、図2は、その概略動作を示す動作フローチャートである。以下の説明では、随時、図1の101〜110の各部と、図2のステップS201〜S206を参照するものとする。
まず、データ分離部101は、受信される入力データを、コア符号化データとPSデータに分離する(S201)。この構成は、図19の従来技術におけるデータ分離部1901と同じ構成である。
コア復号部102は、上記コア符号化データを復号し、モノラル音声信号S(b) を出力する(S202)。bは周波数帯域のインデックスである。コア復号部としては、AAC(Advanced Audio Coding )方式やSBR(Spectral Band Replication )方式などの従来のオーディオ符号化・復号方式に基づくものを用いることができる。この構成は、図19の従来技術におけるコア復号部1902と同じ構成である。
モノラル音声信号S(b) とPSデータは、パラメトリックステレオ(PS)復号部103に入力する。PS復号部103は、PSデータの情報に基づいて、モノラル信号S(b) を周波数域ステレオ信号L(b) とR(b) に変換する。PS復号部103はまた、PSデータから、第1類似度107と第1強度差108を抽出する。この構成は、図19の従来技術におけるコア復号部1903と同じ構成である。
復号音分析部104は、PS復号部103にて復号された周波数域ステレオ復号信号L(b) とR(b)とについて、復号された音声信号から新たに、第2類似度109と第2強度差110を算出する(S203)。
スペクトル補正部105は、復号側にて算出された第2類似度109及び第2強度差110を、符号化側にて算出され伝送されてきた第1類似度107及び第1強度差108と比較することにより、パラメトリックステレオ化によって付加された歪みを検出し(S204)、周波数域ステレオ復号信号L(b) とR(b) のスペクトルを補正する(S205)。
上述の復号音分析部104とスペクトル補正部105が、本実施形態として特徴的な部
分である。
周波数時間(F/T)変換部106(L)及び106(R)はそれぞれ、スペクトル補正されたLチャネル周波数域復号信号及びRチャネル周波数域復号信号を、Lチャネル時間域復号信号L(t) 及びRチャネル時間域復号信号R(t)に変換する(S206)。この構成は、図19の従来技術における周波数時間変換部1904(L)及び1904(R)と同じ構成である。
上述の実施形態の原理構成において、例えば、図3(a)に示されるように、入力ステレオ音声がジャズ音楽のようなエコー感のない音声の場合には、符号化前の類似度(符号化装置側で算出された類似度)301と符号化後の類似度(復号装置側でパラメトリックステレオ復号音から算出された類似度)302を周波数帯域毎に比較した場合、両者の差は小さい。これは、図3(a)に示されるジャズ音声のようなものでは、符号化前の元音声ではLチャネルとRチャネルの類似度が大きいため、パラメトリックステレオがうまく機能し、伝送されてきて復号されたモノラル音声S(b) から擬似的に復号されたLチャネルとRチャネルの類似度も大きく、この結果、両者の類似度の差は小さいものとなるためである。
一方、図3(b)に示されるように、入力ステレオ音声が2ヶ国語音声(Lチャネル:ドイツ語、Rチャネル:日本語)のようなエコー感がある音声の場合には、符号化前の類似度301と符号化後の類似度302を周波数帯域毎に比較した場合、両者の差は或る周波数帯域(図3(b)の303や304の部分)で大きくなる。これは、図3(b)に示される2ヶ国語音声のようなものでは、符号化前の元入力音声ではLチャネルとRチャネルの類似度が小さいのに対して、パラメトリックステレオ復号された音声ではLチャネル及びRチャネル共に伝送されてきて復号されたモノラル音声S(b) から擬似的に復号されているためにLチャネルとRチャネルの類似度が大きくなってしまい、この結果、両者の類似度の差が大きくなるためである。これは即ち、パラメトリックステレオがうまく機能していないことを示している。
そこで、図1の原理構成では、スペクトル補正部105が、伝送されてきた入力データから抽出された第1類似度107と、復号音分析部104にて復号音から再計算された第2類似度109の差を比較し、更に伝送されてきた入力データから抽出された第1強度差108と、復号音分析部104にて復号音から再計算された第1強度差108の差の判定によりLチャネルとRチャネルのどちらを補正するか決定することにより、Lチャネル周波数域復号信号L(b) かRチャネル周波数復号信号R(b) の何れか一方又は両方に対して、周波数帯域毎にスペクトル補正(スペクトル抑制)を行う。
この結果、入力ステレオ音声が、例えば図4(a)に示されるように、2ヶ国語音声(Lチャネル:ドイツ語、Rチャネル:日本語)のような場合には、401に示される周波数帯域でLチャネルとRチャネルの音声成分の差が大きくなる。そして、従来技術による復号音声では、図4(b)に示されるように、入力音声の401に対応する周波数帯域402においてRチャネルにLチャネルの音声成分が歪み成分として漏れ込んで、LチャネルとRチャネルを同時に聞くとエコーのように聞こえる。一方、図1の構成に基づいて得られる復号音声では、図4(c)に示されるように、入力音声の401に対応する周波数帯域402においてパラメトリックステレオによってRチャネルに漏れ込んだ歪み成分が良く抑制され、LチャネルとRチャネルを同時に聞くとエコー感が低減され、主観的にはほとんど劣化を感じないという結果を得ることができる。
第1の実施形態
上述の原理構成に基づく第1の実施形態について、以下に説明する。
図5は、図1の原理構成に基づくパラメトリックステレオ復号装置の第1の実施形態の
構成図である。
図5において、図1の原理構成と同じ番号が付された部分は図1の場合と同じ機能を有するものとする。
図5では、図1のコア復号部102が、AAC復号部501とSBR復号部502に具体化され、図1のスペクトル補正部105が、歪み検出部503とスペクトル補正部504に具体化されている。
AAC復号部501は、AAC(Advanced Audio Coding )方式によって符号化された音声信号を復号する。SBR復号部502は、AAC復号部501によって復号された音声信号から更に、SBR(Spectral Band Replication )方式によって符号化された音声信号を復号する。
次に、第1の実施形態の特徴部分である復号音分析部104、歪み検出部503、及びスペクトル補正部504の更に詳細な動作について、図6〜図10に基づいて説明する。
まず、図5において、PS復号部103から出力されるステレオ復号信号を、Lチャネル復号信号L(b,t) 、Rチャネル復号信号R(b,t) とする。bは周波数帯域を示すインデックスであり、tは離散時間を示すインデックスである。
図6は、HE−AACデコーダにおける時間・周波数信号の定義を示した図である。上記L(b,t) 及びR(b,t) の各信号は、離散時間t毎に、周波数帯域bによって分割された複数の信号成分から構成されている。1つの時間・周波数信号(QMF(Quadrature Mirror Filterbank)係数に相当)をbとtを使って、上記L(b,t) 又はR(b,t) などと表す。図5の復号音分析部104、歪み検出部503、及びスペクトル補正部504は、離散時間t毎に以下に示す一連の処理を実行する。なお、これら一連の処理は、第3の実施形態において後述するように、離散時間t方向に平滑化されながら所定時間長毎に実行されるように構成されてもよい。
今、或る周波数帯域bにおけるLチャネルとRチャネルの強度差をIID(b) 、類似度をICC(b) とすると、IID(b) とICC(b) は下記数14式により計算される。ここで、Nは時間方向のフレーム長(図6参照)である。
この数式から理解されるように、強度差IID(b) は、周波数帯域bにおける現フレーム(0≦t≦N−1)におけるLチャネル復号信号L(b,t) の平均電力eL (b) とRチャネル復号信号R(b,t) の平均電力eR (b) の対数比、類類似度ICC(b) は、これら信号の相互相関である。
復号音分析部104は、上記類似度をICC(b) 及び強度差IID(b) をそれぞれ、第2類似度109及び第2強度差110として出力する。
次に、歪み検出部503は、図7の動作フローチャートに基づいて、離散時間t毎に、周波数帯域b毎の歪み量α(b) と歪み発生チャネルch(b) の検出を行う。以下の説明では、図7のステップS701〜S712を随時参照するものとする。
即ち、歪み検出部503は、ステップS701にて周波数帯域番号を0に初期設定した後、ステップS712にて周波数帯域番号を+1ずつ増加させながら、ステップS711にて周波数帯域番号が最大値NB−1を超えたと判定するまで、周波数帯域b毎に、ステップS702〜S710の一連の処理を実行する。
まず、歪み検出部503は、図5の復号音分析部104から出力される第2類似度109の値から図5のPS復号部103から出力される第1類似度107の値を減算することにより、周波数帯域bにおける類似度の差分を歪み量α(b) として算出する(ステップS702)。
次に、歪み検出部503は、歪み量α(b) と閾値Th1とを比較する(ステップS703)。ここでは、図8(a)に示されるように、歪み量α(b) が閾値Th1以下であるときに歪みなし、歪み量α(b) が閾値Th1よりも大きいときに歪みありと判定される。これは、図3にて説明した原理に基づく。
即ち、歪み検出部503は、歪み量α(b) が閾値Th1以下であるときには、歪みなしと判定して、周波数帯域bにおける歪み発生チャネルを示す変数ch(b) にどのチャネルも補正しないことを指示する値0を設定して、次の周波数帯域の処理に進む(ステップS703−>S710−>S711)。
一方、歪み検出部503は、歪み量α(b) が閾値Th1よりも大きいときには、歪みありと判定して、以下のステップS704〜S709の処理を実行する。
まず、歪み検出部503は、図5の復号音分析部104から出力される第2強度差110の値から図5のPS復号部103から出力される第1強度差108の値を減算することにより、周波数帯域bにおける強度差の差分β(b) を算出する(ステップS704)。
次に、歪み検出部503は、強度差の差分β(b) と閾値Th2及び閾値−Th2とをそれぞれ比較する(ステップS705及びS706)。ここでは、図8(b)に示されるように、強度差の差分β(b) が閾値Th2より大きいときにLチャネルに歪みが発生しており、強度差の差分β(b) が閾値−Th2以下であるときにRチャネルに歪みが発生しており、強度差の差分β(b) が閾値−Th2よりも大きく閾値Th2以下であるときに両チャネルに歪みが発生していると推定される。
これは、前述の数14式のIID(b) の算出式より、強度差IID(b) の値が大きいということはLチャネルの電力のほうが強いことを示しているが、その傾向が復号側のほうが符号化側よりもより強く出れば、即ち強度差の差分β(b) が閾値Th2を超えれば、それはLチャネルにより強い歪み成分が重畳されていることを示す。逆に、強度差IID(b) の値が小さいということはRチャネルの電力の割合が強くなることを示しているが、その傾向が復号側のほうが符号化側よりもより強く出れば、即ち強度差の差分β(b) が閾値−Th2を下回れば、それはRチャネルにより強い歪み成分が重畳されていることを示す。
即ち、歪み検出部503は、強度差の差分β(b) が閾値Th2より大きいときには、Lチャネルに歪みが発生していると判定して、歪み発生チャネル変数ch(b) に値Lを設定して、次の周波数帯域の処理に進む(ステップS705−>S709−>S711)。
また、歪み検出部503は、強度差の差分β(b) が閾値−Th2以下であるときには、Rチャネルに歪みが発生していると判定して、歪み発生チャネル変数ch(b) に値Rを設定して、次の周波数帯域の処理に進む(ステップS705−>S706−>S708−>S711)。
歪み検出部503は、強度差の差分β(b) が閾値−Th2より大きく閾値Th2以下であるときには、両チャネルに歪みが発生していると判定して、歪み発生チャネル変数ch(b) に値LRを設定して、次の周波数帯域の処理に進む(ステップS705−>S706−>S707−>S711)。
以上のようにして、歪み検出部503が、離散時間t毎に、周波数帯域b毎の歪み量α(b) と歪み発生チャネルch(b) を検出した後、これらの数値がスペクトル補正部504に通知され、これらの数値に基づいて、スペクトル補正部504が、周波数帯域b毎にスペクトル補正を行う。
まず、スペクトル補正部504は、周波数帯域b毎に、図9(a)に示されるような、歪み量α(b) からスペクトル補正量γ(b) を算出するための固定的なテーブルを内部に保有している。
次に、スペクトル補正部504は、周波数帯域b毎に、上記テーブルを参照しながら歪み量α(b) に対応するスペクトル補正量γ(b) を算出し、PS復号部103から入力するLチャネル復号信号L(b,t) 又はRチャネル復号信号R(b,t) のうち、歪み発生チャネル変数ch(b) が示すチャネルに対して、図9(b)−>(c)に示されるように、周波数帯域bのスペクトル値をスペクトル補正量γ(b)分だけ減衰させる補正を行う。
そして、スペクトル補正部504は、このようにして補正が行われた後の周波数帯域b毎のLチャネル復号信号L’(b,t)又はRチャネル復号信号R’(b,t)を出力する。
図10は、図5のデータ分離部101に入力される入力データのデータフォーマット例を示す図である。
図10は、HE−AAC v2デコーダにおける、MPEG−4オーディオで採用されたADTS(Audio Data Transport Stream )形式のデータフォーマットである。
入力データは、大きく分けるとADTSヘッダ1001、モノラル音声AAC符号化データであるAACデータ1002、拡張データ領域(FILLエレメント)1003とから構成される。
FILLエレメント1003の一部に、モノラル音声SBR符号化データであるSBRデータ1004と、SBR用拡張データ(sbr_extension)1005が格納される。
sbr_extension1005の中に、パラメトリックステレオ用のPSデータが格納される。PSデータの中に、第1類似度107や第1強度差108といったPSデコード処理に必要なパラメータが格納される。
第2の実施形態
次に、第2の実施形態について説明する。
第2の実施形態の構成は、スペクトル補正部504の動作以外は図5に示される第1の実施形態の構成と同一なので、その構成図は省略する。
第1の実施形態では、スペクトル補正部504において、歪み量α(b) から補正量γ(b) を決定する際に用いられる対応関係は固定であったが、第2の実施形態では、復号音の電力に応じて最適な対応関係が選択される。
即ち、図11に示されるように、復号音の電力が大きい場合は、歪み量に対する補正量が大きくなり、復号音の電力が小さい場合は、歪み量に対する補正量が小さくなるような、複数の対応関係が用いられる。
ここで、「復号音の電力」とは、Lチャネル復号信号L(b,t) 又はRチャネル復号信号R(b,t) のうち、補正対象となったチャネルの周波数帯域bにおける電力を指す。
第3の実施形態
次に、第3の実施形態について説明する。
図12は、パラメトリックステレオ復号装置の第3の実施形態の構成図である。
図12において、図5の第1の実施形態の構成と同じ番号が付された部分は図5の場合と同じ機能を有するものとする。
図12の構成が図5の構成と異なる点は、スペクトル補正部504から出力される補正復号信号L’(b,t)とR’(b,t)を時間軸方向に平滑化するためのスペクトル保持部1202とスペクトル平滑化部1202を有する点である。
まず、スペクトル保持部1202は、離散時間t毎に、スペクトル補正部504から出力されるLチャネル補正復号信号L’(b,t)とRチャネル補正復号信号R’(b,t)を順次保持しながら、1離散時間前のt−1におけるLチャネル補正復号信号L’(b,t-1)とRチャネル補正復号信号R’(b,t-1)をスペクトル平滑化部1202へ出力する。
スペクトル平滑化部1202は、スペクトル補正部504から出力される離散時間tにおけるLチャネル補正復号信号L’(b,t)及びRチャネル補正復号信号R’(b,t)を用いて、スペクトル保持部1202から入力される1離散時間前のt−1におけるLチャネル補正復号信号L’(b,t-1)及びRチャネル補正復号信号R’(b,t-1)を平滑化して、Lチャネル補正平滑化復号信号L”(b,t-1)及びRチャネル補正平滑化復号信号R”(b,t-1)として、F/T変換部106(L)及び106(R)へ出力する。
スペクトル平滑化部1202における平滑化の方法は任意であるが、例えばスペクトル保持部1202からの出力とスペクトル補正部504からの出力との加重和を求める方法を用いることができる。
また、過去の複数フレームのスペクトル補正部504の出力がスペクトル保持部1202に格納され、これら複数フレーム分の出力と現フレームのスペクトル補正部504の出力との加重和が取られて平滑化が行われてもよい。
更に、時間方向の平滑化に限らず、スペクトル補正部504の出力に対して、周波数帯域bの方向に平滑化処理が行われてもよい。即ち、スペクトル補正部504の出力のある周波数帯域bのスペクトルに対し、その前後の周波数帯域b−1やb+1との加重和が取られて平滑化が行われてもよい。また、加重和が取られる際に、隣接する複数個の周波数帯域のスペクトル補正部504の出力のスペクトルが用いられてもよい。
第4の実施形態
最後に、第4の実施形態について説明する。
図13は、パラメトリックステレオ復号装置の第4の実施形態の構成図である。
図13において、図5の第1の実施形態の構成と同じ番号が付された部分は図5の場合と同じ機能を有するものとする。
図13の構成が図5の構成と異なる点は、時間周波数(F/T)変換部106(L)及び106(R)の代わりに、QMF処理部1301(L)及び1301(R)が使用される点である。
QMF処理部1301(L)及び1301(R)は、スペクトル補正されたステレオ復号信号L’(b,t)とR’(b,t)を時間領域のステレオ復号信号L(t) とR(t) に変換するために、QMF(Quadrature Mirror Filterbank)を用いた処理を行う。
まず、QMF係数に対するスペクトル補正方法について説明する。
第1の実施形態の場合と同様に、あるフレームNの周波数帯域bにおけるLチャネルのスペクトル補正量γL (b) を計算し、スペクトルL(b,t) に対して次式により補正を行う。ここで、HE−AAC v2デコーダのQMF係数は、複素数であることに留意する。
同様に、Rチャネルに対するスペクトル補正量γR (b) を求め、スペクトルR(b,t) を次式により補正する。
上記の処理により、QMF係数が補正される。第4の実施形態では、フレーム内のスペクトル補正量を一定として説明したが、過去のフレーム又は隣接する前後のフレームのスペクトル補正量を用いて、現フレームのスペクトル補正量が平滑化されてもよい。
次に、補正されたスペクトルをQMFにより時間領域の信号に変換する方法を以下に示す。数式中の記号jは虚数単位である。ここでは、周波数方向の分解能(周波数帯域bの数)は、64とした。
第1〜第4の実施形態に対する補足
図14は、上記第1〜第4の実施形態によって実現されるシステムを実現できるコンピュータのハードウェア構成の一例を示す図である。
図14に示されるコンピュータは、CPU1401、メモリ1402、入力装置1403、出力装置1404、外部記憶装置1405、可搬記録媒体1409が挿入される可搬記録媒体駆動装置1406、及びネットワーク接続装置1407を有し、これらがバス1408によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。
CPU1401は、当該コンピュータ全体の制御を行う。メモリ1402は、プログラムの実行、データ更新等の際に、外部記憶装置1405(或いは可搬記録媒体1409)に記憶されているプログラム又はデータを一時的に格納するRAM等のメモリである。CUP1401は、プログラムをメモリ1402に読み出して実行することにより、全体の制御を行う。
入力装置1403は、例えば、キーボード、マウス等及びそれらのインタフェース制御装置とからなる。入力装置1403は、ユーザによるキーボードやマウス等による入力操作を検出し、その検出結果をCPU1401に通知する。
出力装置1404は、表示装置、印刷装置等及びそれらのインタフェース制御装置とからなる。出力装置1404は、CPU1401の制御によって送られてくるデータを表示装置や印刷装置に出力する。
外部記憶装置1405は、例えばハードディスク記憶装置である。主に各種データやプログラムの保存に用いられる。
可搬記録媒体駆動装置1406は、光ディスクやSDRAM、コンパクトフラッシュ(登録商標)等の可搬記録媒体1409を収容するもので、外部記憶装置1405の補助の役割を有する。
ネットワーク接続装置1407は、例えばLAN(ローカルエリアネットワーク)又はWAN(ワイドエリアネットワーク)の通信回線を接続するための装置である。
前述の第1〜第4の実施形態によるパラメトリックステレオ復号装置のシステムは、それに必要な機能を搭載したプログラムをCPU1401が実行することで実現される。そのプログラムは、例えば外部記憶装置1405や可搬記録媒体1409に記録して配布してもよく、或いはネットワーク接続装置1407によりネットワークから取得できるようにしてもよい。
以上の第1〜第4の実施形態は、パラメトリックステレオ方式の復号装置に本発明を適用したものであるが、本発明は、パラメトリックステレオ方式に限定されるものではなく、サラウンド方式やその他の、復号音声信号に音声復号補助情報を組み合わせて復号を行う様々な方式に適用することが可能である。
以上の第1〜第4の実施形態に関して、更に以下の付記を開示する。
(付記1)
符号化音声データから第1の復号音声信号と第1の音声復号補助情報とを復号し、該第1の復号音声信号及び第1の音声復号補助情報に基づいて第2の復号音声信号を復号する音声復号方法において、
前記第1の音声復号補助情報に対応する第2の音声復号補助情報を前記第2の復号音声信号から算出する復号音分析ステップと、
該第2の音声復号補助情報と前記第1の音声復号補助情報とを比較することにより、前記第2の復号音声信号の復号過程で生じた歪みを検出する歪み検出ステップと、
前記第2の復号音声信号において、前記歪み検出ステップにて検出された歪みを補正する歪み補正ステップと、
を含むことを特徴とするオーディオ復号方法。
(付記2)
パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、該モノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号する音声復号方法において、
前記パラメトリックステレオパラメータ情報を第1のパラメトリックステレオパラメータ情報として、それに対応する第2のパラメトリックステレオパラメータ情報を前記ステレオ音声復号信号から算出する復号音分析ステップと、
該第2のパラメトリックステレオパラメータ情報と前記第1のパラメトリックステレオパラメータ情報とを比較することにより、前記ステレオ音声復号信号の復号過程で生じた歪みを検出する歪み検出ステップと、
前記ステレオ音声復号信号において、前記歪み検出ステップにて検出された歪みを補正する歪み補正ステップと、
を含むことを特徴とするオーディオ復号方法。
(付記3)
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度を示す類似度情報であり、
前記復号音分析ステップは、前記第1のパラメトリックステレオパラメータ情報である第1の類似度情報に対応する第2の類似度情報を前記ステレオ音声復号信号から算出し、
前記歪み検出ステップは、前記第2の類似度情報と前記第1の類似度情報とを周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎の歪みを検出し、
前記歪み補正ステップは、前記ステレオ音声復号信号において、前記歪み検出ステップにて検出された前記周波数帯域毎の歪みを補正する、
ことを特徴とする付記2に記載のオーディオ復号方法。
(付記4)
前記歪み検出ステップは、前記第2の類似度情報と前記第1の類似度情報の差分から歪み量を検出する、
ことを特徴とする付記3に記載のオーディオ復号方法。
(付記5)
前記歪み補正ステップは、前記歪み量に基づいて前記歪みの補正量を決定する、
ことを特徴とする付記4に記載のオーディオ復号方法。
(付記6)
前記歪み補正ステップは、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて前記歪みの補正量を決定する、
ことを特徴とする付記4に記載のオーディオ復号方法。
(付記7)
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度と強度差をそれぞれ示す類似度情報及び強度差情報であり、
前記復号音分析ステップは、前記第1のパラメトリックステレオパラメータ情報である第1の類似度情報及び第1の強度差情報に対応する第2の類似度情報及び第2の強度差情報を前記ステレオ音声復号信号から算出し、
前記歪み検出ステップは、前記第2の類似度情報と前記第1の類似度情報及び前記第2の強度差情報と前記第1の強度差情報とをそれぞれ前記周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを検出し、
前記歪み補正ステップは、前記ステレオ音声復号信号において、前記歪み検出ステップにて検出された前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを補正する、
ことを特徴とする付記2に記載のオーディオ復号方法。
(付記8)
前記歪み検出ステップは、前記第2の類似度情報と前記第1の類似度情報の差分から歪み量を検出し、前記第2の強度差情報と前記第1の強度差情報の差分から歪み発生ステレオ音声チャネルを検出する、
ことを特徴とする付記7に記載のオーディオ復号方法。
(付記9)
前記歪み補正ステップは、前記歪み量に基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする付記8に記載のオーディオ復号方法。
(付記10)
前記歪み補正ステップは、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする付記8に記載のオーディオ復号方法。
(付記11)
前記歪み補正ステップによって補正が行われたステレオ音声復号信号を、時間軸方向又は周波数軸方向に平滑化する平滑化ステップを更に含む、
ことを特徴とする付記2乃至10の何れか1項に記載のオーディオ復号方法。
(付記12)
前記復号音分析ステップ、前記歪み検出ステップ、及び前記歪み補正ステップは、時間
周波数領域にて実行される、
ことを特徴とする付記2乃至11の何れか1項に記載のオーディオ復号方法。
(付記13)
符号化音声データから第1の復号音声信号と第1の音声復号補助情報とを復号し、該第1の復号音声信号及び第1の音声復号補助情報に基づいて第2の復号音声信号を復号する音声復号装置において、
前記第1の音声復号補助情報に対応する第2の音声復号補助情報を前記第2の復号音声信号から算出する復号音分析手段と、
該第2の音声復号補助情報と前記第1の音声復号補助情報とを比較することにより、前記第2の復号音声信号の復号過程で生じた歪みを検出する歪み検出手段と、
前記第2の復号音声信号において、前記歪み検出手段にて検出された歪みを補正する歪み補正手段と、
を含むことを特徴とするオーディオ復号装置。
(付記14)
パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、該モノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号する音声復号装置において、
前記パラメトリックステレオパラメータ情報を第1のパラメトリックステレオパラメータ情報として、それに対応する第2のパラメトリックステレオパラメータ情報を前記ステレオ音声復号信号から算出する復号音分析手段と、
該第2のパラメトリックステレオパラメータ情報と前記第1のパラメトリックステレオパラメータ情報とを比較することにより、前記ステレオ音声復号信号の復号過程で生じた歪みを検出する歪み検出手段と、
前記ステレオ音声復号信号において、前記歪み検出手段にて検出された歪みを補正する歪み補正手段と、
を含むことを特徴とするオーディオ復号装置。
(付記15)
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度を示す類似度情報であり、
前記復号音分析手段は、前記第1のパラメトリックステレオパラメータ情報である第1の類似度情報に対応する第2の類似度情報を前記ステレオ音声復号信号から算出し、
前記歪み検出手段は、前記第2の類似度情報と前記第1の類似度情報とを周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎の歪みを検出し、
前記歪み補正手段は、前記ステレオ音声復号信号において、前記歪み検出手段にて検出された前記周波数帯域毎の歪みを補正する、
ことを特徴とする付記14に記載のオーディオ復号装置。
(付記16)
前記歪み検出手段は、前記第2の類似度情報と前記第1の類似度情報の差分から歪み量を検出する、
ことを特徴とする付記15に記載のオーディオ復号装置。
(付記17)
前記歪み補正手段は、前記歪み量に基づいて前記歪みの補正量を決定する、
ことを特徴とする付記16に記載のオーディオ復号装置。
(付記18)
前記歪み補正手段は、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて前記歪みの補正量を決定する、
ことを特徴とする付記16に記載のオーディオ復号装置。
(付記19)
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度と強度差をそれぞれ示す類似度情報及び強度差情報であり、
前記復号音分析手段は、前記第1のパラメトリックステレオパラメータ情報である第1の類似度情報及び第1の強度差情報に対応する第2の類似度情報及び第2の強度差情報を前記ステレオ音声復号信号から算出し、
前記歪み検出手段は、前記第2の類似度情報と前記第1の類似度情報及び前記第2の強度差情報と前記第1の強度差情報とをそれぞれ前記周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを検出し、
前記歪み補正手段は、前記ステレオ音声復号信号において、前記歪み検出手段にて検出された前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを補正する、
ことを特徴とする付記14に記載のオーディオ復号装置。
(付記20)
前記歪み検出手段は、前記第2の類似度情報と前記第1の類似度情報の差分から歪み量を検出し、前記第2の強度差情報と前記第1の強度差情報の差分から歪み発生ステレオ音声チャネルを検出する、
ことを特徴とする付記17に記載のオーディオ復号装置。
(付記21)
前記歪み補正手段は、前記歪み量に基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする付記20に記載のオーディオ復号装置。
(付記22)
前記歪み補正手段は、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする付記20に記載のオーディオ復号装置。
(付記23)
前記歪み補正手段によって補正が行われたステレオ音声復号信号を、時間軸方向又は周波数軸方向に平滑化する平滑化手段を更に含む、
ことを特徴とする付記14乃至22の何れか1項に記載のオーディオ復号装置。
(付記24)
前記復号音分析手段、前記歪み検出手段、及び前記歪み補正手段は、時間周波数領域にて実行される、
ことを特徴とする付記14乃至23の何れか1項に記載のオーディオ復号装置。
(付記25)
符号化音声データから第1の復号音声信号と第1の音声復号補助情報とを復号し、該第1の復号音声信号及び第1の音声復号補助情報に基づいて第2の復号音声信号を復号するコンピュータに、
前記第1の音声復号補助情報に対応する第2の音声復号補助情報を前記第2の復号音声信号から算出する復号音分析機能と、
該第2の音声復号補助情報と前記第1の音声復号補助情報とを比較することにより、前記第2の復号音声信号の復号過程で生じた歪みを検出する歪み検出機能と、
前記第2の復号音声信号において、前記歪み検出機能にて検出された歪みを補正する歪み補正機能と、
を実行させるためのプログラム。
(付記26)
パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、該モノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号するコンピュータに、
前記パラメトリックステレオパラメータ情報を第1のパラメトリックステレオパラメータ情報として、それに対応する第2のパラメトリックステレオパラメータ情報を前記ステレオ音声復号信号から算出する復号音分析機能と、
該第2のパラメトリックステレオパラメータ情報と前記第1のパラメトリックステレオパラメータ情報とを比較することにより、前記ステレオ音声復号信号の復号過程で生じた歪みを検出する歪み検出機能と、
前記ステレオ音声復号信号において、前記歪み検出機能にて検出された歪みを補正する歪み補正機能と、
を実行させるためのプログラム。
(付記27)
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度を示す類似度情報であり、
前記復号音分析機能は、前記第1のパラメトリックステレオパラメータ情報である第1の類似度情報に対応する第2の類似度情報を前記ステレオ音声復号信号から算出し、
前記歪み検出機能は、前記第2の類似度情報と前記第1の類似度情報とを周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎の歪みを検出し、
前記歪み補正機能は、前記ステレオ音声復号信号において、前記歪み検出機能にて検出された前記周波数帯域毎の歪みを補正する、
ことを特徴とする付記26に記載のプログラム。
(付記28)
前記歪み検出機能は、前記第2の類似度情報と前記第1の類似度情報の差分から歪み量を検出する、
ことを特徴とする付記27に記載のプログラム。
(付記29)
前記歪み補正機能は、前記歪み量に基づいて前記歪みの補正量を決定する、
ことを特徴とする付記28に記載のプログラム。
(付記30)
前記歪み補正機能は、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて前記歪みの補正量を決定する、
ことを特徴とする付記28に記載のプログラム。
(付記31)
前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度と強度差をそれぞれ示す類似度情報及び強度差情報であり、
前記復号音分析機能は、前記第1のパラメトリックステレオパラメータ情報である第1の類似度情報及び第1の強度差情報に対応する第2の類似度情報及び第2の強度差情報を前記ステレオ音声復号信号から算出し、
前記歪み検出機能は、前記第2の類似度情報と前記第1の類似度情報及び前記第2の強度差情報と前記第1の強度差情報とをそれぞれ前記周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを検出し、
前記歪み補正機能は、前記ステレオ音声復号信号において、前記歪み検出機能にて検出された前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを補正する、
ことを特徴とする付記26に記載のプログラム。
(付記32)
前記歪み検出機能は、前記第2の類似度情報と前記第1の類似度情報の差分から歪み量を検出し、前記第2の強度差情報と前記第1の強度差情報の差分から歪み発生ステレオ音声チャネルを検出する、
ことを特徴とする付記29に記載のプログラム。
(付記33)
前記歪み補正機能は、前記歪み量に基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする付記32に記載のプログラム。
(付記34)
前記歪み補正機能は、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
ことを特徴とする付記32に記載のプログラム。
(付記35)
前記歪み補正機能によって補正が行われたステレオ音声復号信号を、時間軸方向又は周波数軸方向に平滑化する平滑化機能を更に含む、
ことを特徴とする付記26乃至34の何れか1項に記載のプログラム。
(付記36)
前記復号音分析機能、前記歪み検出機能、及び前記歪み補正機能は、時間周波数領域にて実行される、
ことを特徴とする付記26乃至35の何れか1項に記載のプログラム。
パラメトリックステレオ復号装置の実施形態の原理構成図である。 パラメトリックステレオ復号装置の実施形態の原理動作を示す動作フローチャートである。 パラメトリックステレオ復号装置の実施形態の原理説明図である。 パラメトリックステレオ復号装置の実施形態の効果説明図である。 パラメトリックステレオ復号装置の第1の実施形態の構成図である。 HE−AACデコーダにおける時間・周波数信号の定義を示した図である。 歪み検出部503の制御動作を示す動作フローチャートである。 歪み量と歪み発生チャネルの検出動作の説明図である。 スペクトル補正部504の制御動作の説明図である。 入力データのデータフォーマット例を示す図である。 第2の実施形態の説明図である。 パラメトリックステレオ復号装置の第3の実施形態の構成図である。 パラメトリックステレオ復号装置の第4の実施形態の構成図である。 第1〜第4の実施形態によって実現されるシステムを実現できるコンピュータのハードウェア構成の一例を示す図である。 ステレオ録音のモデルを示す図である。 非相関化の説明図である。 入力信号(L,R)と、モノラル信号s、及び残響成分dの関係図である。 s(b,t) とd(b,t) からステレオ信号を生成する方法の説明図である。 従来のパラメトリックステレオ復号装置の構成図である。 図19のPS復号部1903の構成図である。 従来技術の問題点の説明図である。
符号の説明
101、1901 データ分離部
102、1902 コア復号部
103、1903 PS復号部
104 復号音分析部
105、504 スペクトル補正部
106(L)、106(R)、1904(L)、1904(R) 周波数時間(F/T
)変換部
107 第1類似度
108 第1強度差
109 第2類似度
110 第2強度差
501 AAC復号部
502 SBR復号部
503 歪み検出部
504 スペクトル補正部
1001 ADTSヘッダ
1002 AACデータ
1003 FILLエレメント
1004 SBRデータ
1005 sbr_extension
1006 PSデータ
1201 スペクトル保持部
1202 スペクトル平滑化部
1301(L)及び1301(R) QMF処理部
1401 CPU
1402 メモリ
1403 入力装置
1404 出力装置
1405 外部記憶装置
1406 可搬記録媒体駆動装置
1407 ネットワーク接続装置
1408 バス
1409 可搬記録媒体
1501 マイク
2001 遅延付加部
2002 非相関化部
2003 PS解析部
2004 係数計算部
2005 ステレオ信号生成部

Claims (10)

  1. 符号化音声データから第1の復号音声信号と第1の音声復号補助情報とを復号し、該第1の復号音声信号及び第1の音声復号補助情報に基づいて第2の復号音声信号を復号する音声復号方法において、
    前記第1の音声復号補助情報に対応する第2の音声復号補助情報を前記第2の復号音声信号から算出する復号音分析ステップと、
    該第2の音声復号補助情報と前記第1の音声復号補助情報とを比較することにより、前記第2の復号音声信号の復号過程で生じた歪みを検出する歪み検出ステップと、
    前記第2の復号音声信号において、前記歪み検出ステップにて検出された歪みを補正する歪み補正ステップと、
    を含むことを特徴とするオーディオ復号方法。
  2. パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、該モノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号する音声復号方法において、
    前記パラメトリックステレオパラメータ情報を第1のパラメトリックステレオパラメータ情報として、それに対応する第2のパラメトリックステレオパラメータ情報を前記ステレオ音声復号信号から算出する復号音分析ステップと、
    該第2のパラメトリックステレオパラメータ情報と前記第1のパラメトリックステレオパラメータ情報とを比較することにより、前記ステレオ音声復号信号の復号過程で生じた歪みを検出する歪み検出ステップと、
    前記ステレオ音声復号信号において、前記歪み検出ステップにて検出された歪みを補正する歪み補正ステップと、
    を含むことを特徴とするオーディオ復号方法。
  3. 前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度と強度差をそれぞれ示す類似度情報及び強度差情報であり、
    前記復号音分析ステップは、前記第1のパラメトリックステレオパラメータ情報である第1の類似度情報及び第1の強度差情報に対応する第2の類似度情報及び第2の強度差情報を前記ステレオ音声復号信号から算出し、
    前記歪み検出ステップは、前記第2の類似度情報と前記第1の類似度情報及び前記第2の強度差情報と前記第1の強度差情報とをそれぞれ前記周波数帯域毎に比較することにより、前記ステレオ音声復号信号の復号過程で生じた前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを検出し、
    前記歪み補正ステップは、前記ステレオ音声復号信号において、前記歪み検出ステップにて検出された前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪みを補正する、
    ことを特徴とする請求項2に記載のオーディオ復号方法。
  4. 前記歪み検出ステップは、前記第2の類似度情報と前記第1の類似度情報の差分から歪み量を検出し、前記第2の強度差情報と前記第1の強度差情報の差分から歪み発生ステレオ音声チャネルを検出する、
    ことを特徴とする請求項3に記載のオーディオ復号方法。
  5. 前記歪み補正ステップは、前記歪み量に基づいて前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
    ことを特徴とする請求項4に記載のオーディオ復号方法。
  6. 前記歪み補正ステップは、前記歪み量と前記ステレオ音声復号信号の電力とに基づいて
    前記歪みの補正量を決定し、前記歪み発生ステレオ音声チャネルに基づいて補正を行う前記ステレオ音声チャネルを決定する、
    ことを特徴とする請求項4に記載のオーディオ復号方法。
  7. 前記歪み補正ステップによって補正が行われたステレオ音声復号信号を、時間軸方向又は周波数軸方向に平滑化する平滑化ステップを更に含む、
    ことを特徴とする請求項2乃至6の何れか1項に記載のオーディオ復号方法。
  8. 前記復号音分析ステップ、前記歪み検出ステップ、及び前記歪み補正ステップは、時間周波数領域にて実行される、
    ことを特徴とする請求項2乃至7の何れか1項に記載のオーディオ復号方法。
  9. パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、該モノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号する音声復号装置において、
    前記パラメトリックステレオパラメータ情報を第1のパラメトリックステレオパラメータ情報として、それに対応する第2のパラメトリックステレオパラメータ情報を前記ステレオ音声復号信号から算出する復号音分析手段と、
    該第2のパラメトリックステレオパラメータ情報と前記第1のパラメトリックステレオパラメータ情報とを比較することにより、前記ステレオ音声復号信号の復号過程で生じた歪みを検出する歪み検出手段と、
    前記ステレオ音声復号信号において、前記歪み検出手段にて検出された歪みを補正する歪み補正手段と、
    を含むことを特徴とするオーディオ復号装置。
  10. パラメトリックステレオ方式により符号化された音声データからモノラル音声復号信号とパラメトリックステレオパラメータ情報を復号し、該モノラル音声復号信号及びパラメトリックステレオパラメータ情報に基づいてステレオ音声復号信号を復号するコンピュータに、
    前記パラメトリックステレオパラメータ情報を第1のパラメトリックステレオパラメータ情報として、それに対応する第2のパラメトリックステレオパラメータ情報を前記ステレオ音声復号信号から算出する復号音分析機能と、
    該第2のパラメトリックステレオパラメータ情報と前記第1のパラメトリックステレオパラメータ情報とを比較することにより、前記ステレオ音声復号信号の復号過程で生じた歪みを検出する歪み検出機能と、
    前記ステレオ音声復号信号において、前記歪み検出機能にて検出された歪みを補正する歪み補正機能と、
    を実行させるためのプログラム。
JP2008247213A 2008-09-26 2008-09-26 オーディオ復号方法、装置、及びプログラム Expired - Fee Related JP5326465B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2008247213A JP5326465B2 (ja) 2008-09-26 2008-09-26 オーディオ復号方法、装置、及びプログラム
EP09169818A EP2169667B1 (en) 2008-09-26 2009-09-09 Parametric stereo audio decoding method and apparatus
AT09169818T ATE540400T1 (de) 2008-09-26 2009-09-09 Verfahren und vorrichtung zur parametrischen stereo-audiodekodierung
US12/563,890 US8619999B2 (en) 2008-09-26 2009-09-21 Audio decoding method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008247213A JP5326465B2 (ja) 2008-09-26 2008-09-26 オーディオ復号方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2010078915A true JP2010078915A (ja) 2010-04-08
JP5326465B2 JP5326465B2 (ja) 2013-10-30

Family

ID=41508849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008247213A Expired - Fee Related JP5326465B2 (ja) 2008-09-26 2008-09-26 オーディオ復号方法、装置、及びプログラム

Country Status (4)

Country Link
US (1) US8619999B2 (ja)
EP (1) EP2169667B1 (ja)
JP (1) JP5326465B2 (ja)
AT (1) ATE540400T1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011048792A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 音響信号処理装置、音響符号化装置および音響復号装置
JP2013050540A (ja) * 2011-08-30 2013-03-14 Fujitsu Ltd オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
EP2434783B1 (en) * 2010-09-24 2014-06-11 Panasonic Automotive Systems Europe GmbH Automatic stereo adaptation
US9299355B2 (en) * 2011-08-04 2016-03-29 Dolby International Ab FM stereo radio receiver by using parametric stereo
RU2627102C2 (ru) 2013-01-29 2017-08-03 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
WO2014126689A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06236198A (ja) * 1993-02-09 1994-08-23 Nec Corp 音質主観評価予測方式
JPH10294668A (ja) * 1997-04-22 1998-11-04 Matsushita Electric Ind Co Ltd オーディオ符号化データ復号化方法、オーディオ符号化データ復号化装置、及び記録媒体
JP2002223167A (ja) * 2001-01-25 2002-08-09 Sony Corp データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP2002525897A (ja) * 1998-09-16 2002-08-13 テレフオンアクチーボラゲツト エル エム エリクソン 線形予測合成解析符号化方法と符号化器
JP2006067367A (ja) * 2004-08-27 2006-03-09 Matsushita Electric Ind Co Ltd 符号化オーディオ信号の編集装置
JP2008519306A (ja) * 2004-11-04 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号の組のエンコード及びデコード

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082220B2 (en) 2001-01-25 2006-07-25 Sony Corporation Data processing apparatus
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
RU2419249C2 (ru) * 2005-09-13 2011-05-20 Кониклейке Филипс Электроникс Н.В. Аудиокодирование
JP4512016B2 (ja) 2005-09-16 2010-07-28 日本電信電話株式会社 ステレオ信号符号化装置、ステレオ信号符号化方法、プログラム及び記録媒体
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06236198A (ja) * 1993-02-09 1994-08-23 Nec Corp 音質主観評価予測方式
JPH10294668A (ja) * 1997-04-22 1998-11-04 Matsushita Electric Ind Co Ltd オーディオ符号化データ復号化方法、オーディオ符号化データ復号化装置、及び記録媒体
JP2002525897A (ja) * 1998-09-16 2002-08-13 テレフオンアクチーボラゲツト エル エム エリクソン 線形予測合成解析符号化方法と符号化器
JP2002223167A (ja) * 2001-01-25 2002-08-09 Sony Corp データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP2006067367A (ja) * 2004-08-27 2006-03-09 Matsushita Electric Ind Co Ltd 符号化オーディオ信号の編集装置
JP2008519306A (ja) * 2004-11-04 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号の組のエンコード及びデコード

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011048792A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 音響信号処理装置、音響符号化装置および音響復号装置
JP5422664B2 (ja) * 2009-10-21 2014-02-19 パナソニック株式会社 音響信号処理装置、音響符号化装置および音響復号装置
US9026236B2 (en) 2009-10-21 2015-05-05 Panasonic Intellectual Property Corporation Of America Audio signal processing apparatus, audio coding apparatus, and audio decoding apparatus
JP2013050540A (ja) * 2011-08-30 2013-03-14 Fujitsu Ltd オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Also Published As

Publication number Publication date
JP5326465B2 (ja) 2013-10-30
EP2169667A1 (en) 2010-03-31
EP2169667B1 (en) 2012-01-04
US20100080397A1 (en) 2010-04-01
ATE540400T1 (de) 2012-01-15
US8619999B2 (en) 2013-12-31

Similar Documents

Publication Publication Date Title
JP5326465B2 (ja) オーディオ復号方法、装置、及びプログラム
JP6698903B2 (ja) 高次アンビソニックス信号表現を圧縮又は圧縮解除するための方法又は装置
KR102219752B1 (ko) 채널 간 시간 차를 추정하기 위한 장치 및 방법
JP5267362B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
JP5485909B2 (ja) オーディオ信号処理方法及び装置
JP5292498B2 (ja) 周波数領域のウィナーフィルターを用いた空間オーディオコーディングのための時間エンベロープの整形
JP4347698B2 (ja) パラメトリックオーディオ符号化
KR20180056662A (ko) 2차 채널을 인코딩하기 위하여 1차 채널의 코딩 파라메타들을 이용하여 스테레오 사운드 신호를 인코딩하는 방법 및 시스템
JP5737077B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP2015520411A5 (ja)
US20230419976A1 (en) Apparatus for Encoding or Decoding an Encoded Multichannel Signal Using a Filling Signal Generated by a Broad Band Filter
WO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法
JP5309944B2 (ja) オーディオ復号装置、方法、及びプログラム
JPWO2010140350A1 (ja) ダウンミックス装置、符号化装置、及びこれらの方法
JP2004184975A (ja) 少ない計算量で高周波数成分を復元するオーディオデコーディング方法及び装置
WO2012006942A1 (zh) 一种音频数据的编码方法及装置
US11176954B2 (en) Encoding and decoding of multichannel or stereo audio signals
JP4454603B2 (ja) 信号処理方法、信号処理装置及びプログラム
JP4454604B2 (ja) 信号処理方法、信号処理装置及びプログラム
JP5189760B2 (ja) 信号処理方法、信号処理装置及びプログラム
JP4767289B2 (ja) 信号処理方法、信号処理装置及びプログラム
JP4767290B2 (ja) 信号処理方法、信号処理装置及びプログラム
EP3252763A1 (en) Low-delay audio coding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130708

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees