JP2010139671A - オーディオ復号装置、方法、及びプログラム - Google Patents

オーディオ復号装置、方法、及びプログラム Download PDF

Info

Publication number
JP2010139671A
JP2010139671A JP2008315150A JP2008315150A JP2010139671A JP 2010139671 A JP2010139671 A JP 2010139671A JP 2008315150 A JP2008315150 A JP 2008315150A JP 2008315150 A JP2008315150 A JP 2008315150A JP 2010139671 A JP2010139671 A JP 2010139671A
Authority
JP
Japan
Prior art keywords
information
signal
decoded
coefficient
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008315150A
Other languages
English (en)
Other versions
JP5309944B2 (ja
Inventor
Miyuki Shirakawa
美由紀 白川
Masanao Suzuki
政直 鈴木
Yoshiteru Tsuchinaga
義照 土永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008315150A priority Critical patent/JP5309944B2/ja
Priority to US12/634,527 priority patent/US8374882B2/en
Publication of JP2010139671A publication Critical patent/JP2010139671A/ja
Application granted granted Critical
Publication of JP5309944B2 publication Critical patent/JP5309944B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】パラメトリックステレオ方式のように復号側で復号音声信号と復号補助信号とに基づき元音声信号を再現する音声復号方式において音質の劣化を低減させる。
【解決手段】受信処理部は、音声データから受信音声信号と音声復号補助情報とを得る。係数計算部は、第1の音声復号補助情報から係数情報を計算する。復号音分析部は、音声復号補助情報を第1の音声復号補助情報として、その情報及び受信音声信号に基づいて復号音声信号を復号し、第1の音声復号補助情報に対応する第2の音声復号補助情報を算出する。歪み検出部は、第2の音声復号補助情報と第1の音声復号補助情報とを比較により、復号音声信号の復号過程で生じた歪み量を検出する。係数補正部は、係数情報を、歪み検出部にて検出された歪み量に基づいて補正し、その係数情報を出力信号生成部に与える。出力信号生成部は、係数情報と受信音声信号とに基づいて復号された出力音声信号を生成する。
【選択図】図1

Description

オーディオ信号を圧縮・伸張する符号化技術に関し、特に、モノラル信号から擬似ステレオ信号を生成するパラメトリックステレオ符号化技術等の、復号側で復号音声信号と復号補助信号とに基づいて元音声信号を再現する音声符号化・復号技術に関する。
パラメトリックステレオ符号化技術は、MPEG−4 Audio規格の1つであるHE−AAC(High-Efficiency Advanced Audio Coding ) version 2 方式(以下、「HE−AAC v2」と表記する)に採用された技術であり、低ビットレートステレオ信号向けコーデックの効率を飛躍的に向上させ、モバイル機器や放送、インターネット向けに最適な音声圧縮技術である。
図16にステレオ録音のモデルを示す。同図は、ある音源x(t) から発せられた音を#1と#2の2本のマイク1601で録音する場合のモデルである。
ここで、cx(t)は#1のマイク1601に到達する直接波、c2 h(t)*x(t) は部屋の壁等で反射してから#1のマイク1601に到達する反射波である。ここでtは時間であり、h(t) は部屋の伝達特性を表すインパルス応答である。また、記号「* 」は畳み込み演算を表し、c及びc2 はゲインである。同様にして、c3 x(t) は#2のマイク1601に到達する直接波であり、c4 h(t)*x(t) は#2のマイク1601に到達する反射波である。従って、#1及び#2のマイク1601で録音される信号をそれぞれ、l(t),r(t) とすると、l(t) とr(t) は次式のように直接波と反射波の線形和で表すことができる。
HE−AAC v2 デコーダでは、図16の音源x(t) に相当する信号を得られないので、次式のように、モノラル信号s(t) から近似的にステレオ信号が生成される。ここで、下記数3式及び数4式の各第1項は直接波、各第2項は反射波(残響成分)を近似している。
残響成分の作成方法には様々な手法があるが、HE−AAC v2 規格のパラメトリックステレオ(以下、随時「PS」と略す)デコード部は、モノラル信号s(t) を非相関化(直交化)して残響信号d(t) を作成し、次式によりステレオ信号を生成する。
ここでは説明の都合上、時間領域の処理として説明したが、PSデコード部では時間・周波数領域(QMF(Quadrature Mirror Filterbank)係数領域)で疑似ステレオ化を行うため、数5式と数6式は次のように表わされる。bは周波数を表すインデックスであり、tは時間を表すインデックスである。
次に、モノラル信号s(b,t) から残響信号d(b,t) を作成する方法について説明する。残響成分の生成方法としては様々な手法が存在するが、HE−AAC v2 規格のPSデコード部では、モノラル信号s(b,t) を、IIR(Infinite Impulse Response)(無限インパルス応答)型のオールパスフィルタにより、図17に示されるように非相関化(直交化)して、残響信号d(b,t) に変換する。
入力信号(L,R)と、モノラル信号s、及び残響信号dの関係を、図18に示す。同図に示されるように、入力信号L及びRとモノラル信号Sのなす角度をαとし、cos(2α)を類似度として定義する。HE−AAC v2 規格のエンコーダは、このαを類似度情報として符号化する。この類似度情報は、Lチャネル入力信号とRチャネル入力信号の類似度を示している。
図18では、簡単のためLとRの長さが等しい場合の例を示しているが、LとR長さ(ノルム)が異なる場合を考慮して、LとRノルムの比を強度差として定義し、エンコーダがそれを強度差情報として符号化する。この強度差情報は、Lチャネル入力信号とRチャネル入力信号の電力比を示している。
デコーダ側において、s(b,t) とd(b,t) からステレオ信号を生成する方法について説明する。図19において、Sは復号された入力信号、Dはデコーダ側で得られる残響信号、Cl は強度差から算出したLチャネル信号のスケールファクタであり、Cl でスケーリングされたモノラル信号が角度α方向に射影された結果と、Cl でスケーリングされた残響信号が(π/2)−α方向に射影された結果が合成されて得られるベクトルが復号されたLチャネル信号とされる。数式で表すと、下記数9式となる。同様に、RチャネルもスケールファクタCr 、s、d及び角度αを用いて下記数10式により生成できる。Cl とCr の間には、Cl +Cr =2なる関係がある。
従って、数9式と数10式は、下記数11式及び数12式にまとめることができる。
上記原理に基づいて動作するパラメトリックステレオ復号装置について、以下に説明する。
図20は、パラメトリックステレオ復号装置の基本構成図である。
まず、データ分離部2001は、受信される入力データを、コア符号化データとPSデータに分離する。
コア復号部2002は、上記コア符号化データを復号し、モノラル音声信号S(b,t) を出力する。bは周波数帯域のインデックスである。コア復号部としては、AAC(Advanced Audio Coding )方式やSBR(Spectral Band Replication )方式などの従来のオーディオ符号化・復号方式に基づくものを用いることができる。
モノラル音声信号S(b,t) とPSデータは、パラメトリックステレオ(PS)復号部2003に入力する。
PS復号部2003は、PSデータの情報に基づいて、モノラル音声信号S(b,t) を周波数域ステレオ復号信号L(b,t) とR(b,t) に変換する。
周波数時間変換部2004(L)及び2004(R)はそれぞれ、Lチャネル周波数域復号信号L(b,t) 及びRチャネル周波数域復号信号R(b,t) を、Lチャネル時間域復号信号L(t) 及びRチャネル時間域復号信号R(t)に変換する。
図21は、図20のPS復号部2003の従来技術における構成図である。
図16〜図19の説明において前述した原理に基づいて、モノラル信号S(b,t) に対して、遅延付加部2101にて遅延が付加され、非相関化部2102によって非相関化されることにより、残響信号D(b,t) が作成される。
また、PS解析部2103が、PSデータを解析することにより、類似度と強度差を抽出する。図18の説明において前述した通り、類似度は、Lチャネル信号とRチャネル信号の類似度(エンコーダ側でLチャネル入力信号とRチャネル入力信号とから算出され、量子化された値)を示し、強度差は、Lチャネル信号とRチャネル信号の電力比(エンコーダ側でLチャネル入力信号とRチャネル入力信号とから算出され、量子化された値)を示している。
係数計算部2104は、類似度と強度差とから、前述した数12式に基づいて、係数行列Hを算出する。
ステレオ信号生成部2105は、モノラル信号S(b,t) と残響信号D(b,t) と上記係数行列Hとに基づいて、前述の数11式と等価な下記数13式により、ステレオ信号L(b,t) とR(b,t) を生成する。なお、図21及び数13式では、時間サフィックスtは省略されている。
特開2007−79487号公報
上記パラメトリックステレオ方式の従来技術において、Lチャネル入力信号とRチャネル入力信号とで相関がほとんどない音声信号、例えば2ヶ国語音声が符号化された場合について考察する。
パラメトリックステレオ方式では、復号側において、モノラル信号Sからステレオ信号が作成されるため、前述の数13式からも理解されるように、モノラル信号Sの性質が出力信号L’とR’に影響する。
例えば、元のLチャネル入力信号とRチャネル入力信号が全く異なる場合(類似度が0である)場合、図20のPS復号部2003からの出力音声は次式で算出される。
つまり、出力信号L’とR’にモノラル信号Sの成分が現れる。図22は、それを模式的に示した図である。モノラル信号Sは、Lチャネル入力信号LとRチャネル入力信号Rの和なので、数14式は、一方の信号が他方のチャネルに漏れこんでしまうことを意味する。
このため、従来のパラメトリックステレオ復号装置において、出力信号L’とR’を同時に聞くと、左右から似たような音が発生するため、エコーのように聞こえて音質が劣化してしまうという問題点を有していた。
課題は、パラメトリックステレオ方式のように復号側で受信音声信号と音声復号補助情報とに基づいて元音声信号を再現する音声復号方式において、音質の劣化を低減させることにある。
受信処理部101は、符号化された音声データから受信音声信号と音声復号補助情報とを得る。より具体的には、受信処理部101は、パラメトリックステレオ方式により符号化された音声データからモノラル音声信号及び残響音声信号とパラメトリックステレオパラメータ情報とを得る。
係数計算部102は、第1の音声復号補助情報から係数情報を計算する。より具体的には、係数計算部102は、パラメトリックステレオパラメータ情報から係数情報を計算する。
復号音分析部104は、音声復号補助情報を第1の音声復号補助情報として、その情報及び受信音声信号に基づいて復号音声信号を復号し、その復号音声信号から第1の音声復号補助情報に対応する第2の音声復号補助情報を算出する。より具体的には、復号音分析部104は、パラメトリックステレオパラメータ情報を第1のパラメトリックステレオパラメータ情報として、その情報とモノラル音声復号信号及び残響音声信号とに基づいて復号音声信号を復号し、その復号音声信号から第1のパラメトリックステレオパラメータ情報に対応する第2のパラメトリックステレオパラメータ情報を算出する。
歪み検出部105は、第2の音声復号補助情報と第1の音声復号補助情報とを比較することにより、復号音声信号の復号過程で生じた歪み量を検出する。より具体的には、歪み検出部105は、第2のパラメトリックステレオパラメータ情報と第1のパラメトリックステレオパラメータ情報とを比較することにより、復号音声信号の復号過程で生じた歪み量を検出する。
係数補正部106は、係数情報を、歪み検出部にて検出された歪み量に基づいて補正し、その補正された係数情報を出力信号生成部に与える。
出力信号生成部103は、補正された係数情報と受信音声信号とに基づいて復号された出力音声信号を生成する。より具体的には、出力信号生成部103は、補正された係数情報とモノラル音声信号及び残響音声信号とに基づいて復号されたステレオ出力音声信号を生成する
上述の構成において、パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度を示す類似度情報、及びステレオ音声チャネル間の信号の強度差を示す強度差情報である。
この場合、復号音分析部104は、第1のパラメトリックステレオパラメータ情報である第1の類似度情報及び第1の強度差情報にそれぞれ対応する第2の類似度情報及び第2の強度差情報を、復号音声信号からそれぞれ算出する。
更に、歪み検出部105は、第2の類似度情報及び第2の強度差情報と第1の類似度情報及び第1の強度差情報とを周波数帯域毎に比較することにより、復号音声信号の復号過程で生じた周波数帯域毎及びステレオ音声チャネル毎の歪み量、及び歪みが発生した音声チャネルを検出する。
そして、係数補正部106は、歪み検出部105にて検出された音声チャネルに対応する係数情報を、歪み検出部105にて検出された周波数帯域毎及びステレオ音声チャネル毎の歪み量に基づいて補正する。
上述の態様において、係数補正部106によって補正が行われた係数情報を、時間軸方向又は周波数軸方向に平滑化する係数情報平滑化部を更に含むように構成することができる。
また、復号音分析部104、歪み検出部105、及び係数補正部106は、時間周波数領域にて実行されるように構成することができる。
第1のパラメトリックステレオパラメータ情報等に基づいてモノラル音声復号信号等に擬似ステレオ化等の処理を施すことによってステレオ音声復号信号等を復号する音声復号方式において、ステレオ音声復号信号から第1のパラメトリックステレオパラメータ情報等に対応する第2のパラメトリックステレオパラメータ情報等を復号側にて生成し、第1及び第2のパラメトリックステレオパラメータ情報等を比較することによって、擬似ステレオ化処理等の復号処理における歪みを検出することが可能となる。
これにより、ステレオ音声復号信号に対してエコー感等を除去するための係数補正を施すことが可能となり、復号音における音質劣化を抑制することが可能となる。
以下、図面を参照しながら、最良の実施形態について詳細に説明する。
第1の実施形態
図1は、第1の実施形態の構成図である。
受信処理部101は、符号化された音声データから受信音声信号と音声復号補助情報とを得る。より具体的には、受信処理部101は、パラメトリックステレオ方式により符号化された音声データからモノラル音声信号及び残響音声信号とパラメトリックステレオパラメータ情報とを得る。
係数計算部102は、第1の音声復号補助情報から係数情報を計算する。より具体的には、係数計算部102は、パラメトリックステレオパラメータ情報から係数情報を計算する。
復号音分析部104は、音声復号補助情報を第1の音声復号補助情報として、その情報及び受信音声信号に基づいて復号音声信号を復号し、その復号音声信号から第1の音声復号補助情報に対応する第2の音声復号補助情報を算出する。より具体的には、復号音分析部104は、パラメトリックステレオパラメータ情報を第1のパラメトリックステレオパラメータ情報として、その情報とモノラル音声復号信号及び残響音声信号とに基づいて復号音声信号を復号し、その復号音声信号から第1のパラメトリックステレオパラメータ情報に対応する第2のパラメトリックステレオパラメータ情報を算出する。
歪み検出部105は、第2の音声復号補助情報と第1の音声復号補助情報とを比較することにより、復号音声信号の復号過程で生じた歪み量を検出する。より具体的には、歪み検出部105は、第2のパラメトリックステレオパラメータ情報と第1のパラメトリックステレオパラメータ情報とを比較することにより、復号音声信号の復号過程で生じた歪み量を検出する。
係数補正部106は、係数情報を、歪み検出部にて検出された歪み量に基づいて補正し、その補正された係数情報を出力信号生成部に与える。
出力信号生成部103は、補正された係数情報と受信音声信号とに基づいて復号された出力音声信号を生成する。より具体的には、出力信号生成部103は、補正された係数情報とモノラル音声信号及び残響音声信号とに基づいて復号されたステレオ出力音声信号を生成する
上述の構成において、パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度を示す類似度情報、及びステレオ音声チャネル間の信号の強度差を示す強度差情報である。
この場合、復号音分析部104は、第1のパラメトリックステレオパラメータ情報である第1の類似度情報及び第1の強度差情報にそれぞれ対応する第2の類似度情報及び第2の強度差情報を、復号音声信号からそれぞれ算出する。
更に、歪み検出部105は、第2の類似度情報及び第2の強度差情報と第1の類似度情報及び第1の強度差情報とを周波数帯域毎に比較することにより、復号音声信号の復号過程で生じた周波数帯域毎及びステレオ音声チャネル毎の歪み量、及び歪みが発生した音声チャネルを検出する。
そして、係数補正部106は、歪み検出部105にて検出された音声チャネルに対応する係数情報を、歪み検出部105にて検出された周波数帯域毎及びステレオ音声チャネル毎の歪み量に基づいて補正する。
第2の実施形態
図2は、パラメトリックステレオ復号装置の第2の実施形態の構成図である。また、図3は、第2の実施形態の動作を示す動作フローチャートである。以下の説明では、随時、図2の201〜212の各部と、図3のステップS301〜S311を参照するものとする。
図2のデータ分離部201、SBR復号部203、AAC復号部202、遅延付加部205、非相関化部206、及びパラメトリックステレオ解析部(PS解析部)207は、図1の受信処理部101に対応している。図2の係数計算部208は、図1の係数計算部102に対応している。図2のステレオ信号生成部212は、図1の出力信号生成部103に対応している。図2の復号音分析部209は、図1の復号音分析部104に対応している。図2の歪み検出部210は、図1の歪み検出部105に対応している。そして、図2の係数補正部211は、図1の係数補正部106に対応している。
まず、図2のデータ分離部201は、受信される入力データを、コア符号化データとパラメトリックステレオ(PS)データに分離する(図3のステップS301)。
次に、図2のAAC復号部202は、データ分離部201から入力されるコア符号化データから、AAC(Advanced Audio Coding )方式によって符号化された音声信号を復号する。SBR復号部203は、AAC復号部202によって復号された音声信号から更に、SBR(Spectral Band Replication )方式によって符号化された音声信号を復号し、モノラル音声信号S(b,t) を出力する(図3のステップS302)。bは周波数帯域のインデックスである。
モノラル音声信号S(b,t) とPSデータは、パラメトリックステレオ(PS)復号部204に入力する。
PS復号部204では、図16〜図19の説明において前述した原理に基づいて、モノ
ラル信号S(b,t) に対して、図2に示される遅延付加部205にて遅延が付加され(図3のステップS303)、その出力が非相関化部206によって非相関化されることにより(図3のステップS304)、残響信号D(b,t) が作成される。
一方、図2に示されるパラメトリックステレオ解析部(PS解析部)207は、データ分離部201から入力されるPSデータから、第1類似度iic(b) と第1強度差iid(b) を抽出する(図3のステップS305)。図18の説明において前述した通り、第1類似度iic(b) は、Lチャネル信号とRチャネル信号の類似度(エンコーダ側でLチャネル入力信号とRチャネル入力信号とから算出され、量子化された値)を示し、第1強度差iid(b) は、Lチャネル信号とRチャネル信号の電力比(エンコーダ側でLチャネル入力信号とRチャネル入力信号とから算出され、量子化された値)を示している。
図2に示される係数計算部208は、第1類似度iic(b) と第1強度差iid(b) とから、係数行列H(b) を算出する(図3のステップS306)。
次に、図2の復号音分析部209が、SBR復号部203から出力されるモノラル信号S(b,t) と、非相関化部206から出力される残響信号D(b,t) と、係数計算部208から出力される係数行列H(b) とに基づいて、復号音を復号して分析し、第2類似度iic′(b) と第2強度差iid′(b) を算出する(図3のステップS307)。
続いて、図2の歪み検出部210は、復号側にて算出された第2類似度iic′(b) 及び第2強度差iid′(b)を、符号化側にて算出され伝送されてきた第1類似度iic(b)
及び第1強度差iid(b)と比較することにより、パラメトリックステレオ化によって付加された歪みを検出する(図3のステップS308)。
そして、図2の係数補正部211は、係数計算部208から出力されている係数行列H(b) を、歪み検出部210が検出した歪みデータに基づいて補正し、補正係数行列H′(b) を出力する(図3のステップS309)。
ステレオ信号生成部212は、モノラル信号S(b,t) と残響信号D(b,t) と上記補正係数行列H′(b) とに基づいて、ステレオ信号L(b,t) とR(b,t) を生成する(図3のステップS310)。
周波数時間変換部213(L)及び213(R)はそれぞれ、補正係数行列H′(b) によってスペクトル補正されたLチャネル周波数域復号信号及びRチャネル周波数域復号信号を、Lチャネル時間域復号信号L(t) 及びRチャネル時間域復号信号R(t)に変換し、各々を出力する(図3のステップS311)。
上述の第2の実施形態の構成において、例えば、図4(a)に示されるように、入力ステレオ音声がジャズ音楽のようなエコー感のない音声の場合には、符号化前の類似度(符号化装置側で算出された類似度)401と符号化後の類似度(復号装置側でパラメトリックステレオ復号音から算出された類似度)402を周波数帯域毎に比較した場合、両者の差は小さい。これは、図4(a)に示されるジャズ音声のようなものでは、符号化前の元音声ではLチャネルとRチャネルの類似度が大きいため、パラメトリックステレオがうまく機能し、伝送されてきて復号されたモノラル音声S(b,t) から擬似的に復号されたLチャネルとRチャネルの類似度も大きく、この結果、両者の類似度の差は小さいものとなるためである。
一方、図4(b)に示されるように、入力ステレオ音声が2ヶ国語音声(Lチャネル:ドイツ語、Rチャネル:日本語)のようなエコー感がある音声の場合には、符号化前の類似度401と符号化後の類似度402を周波数帯域毎に比較した場合、両者の差は或る周
波数帯域(図4(b)の403や404の部分)で大きくなる。これは、図4(b)に示される2ヶ国語音声のようなものでは、符号化前の元入力音声ではLチャネルとRチャネルの類似度が小さいのに対して、パラメトリックステレオ復号された音声ではLチャネル及びRチャネル共に伝送されてきて復号されたモノラル音声S(b,t) から擬似的に復号されているためにLチャネルとRチャネルの類似度が大きくなってしまい、この結果、両者の類似度の差が大きくなるためである。これは即ち、パラメトリックステレオがうまく機能していないことを示している。
そこで、図2の第2の実施形態では、歪み検出部210が、伝送されてきた入力データから抽出された第1類似度iic(b) と、復号音分析部209にて復号音から再計算された第2類似度iic′(b) とを比較して歪み量を検出する。更に、歪み検出部210は、伝送されてきた入力データから抽出された第1強度差iid(b)と、復号音分析部209にて復号音から再計算された第2強度差iid′(b)の差の判定によりLチャネルとRチャネルのどちらを補正するかを決定する。この処理に基づいて、係数補正部211が、該当する周波数インデックスbについて、係数行列H(b) を補正し、補正係数行列H′(b) を算出する。
この結果、入力ステレオ音声が、例えば図5(a)に示されるように、2ヶ国語音声(Lチャネル:ドイツ語、Rチャネル:日本語)のような場合には、501に示される周波数帯域でLチャネルとRチャネルの音声成分の差が大きくなる。そして、従来技術による復号音声では、図5(b)に示されるように、入力音声の501に対応する周波数帯域502においてRチャネルにLチャネルの音声成分が歪み成分として漏れ込んで、LチャネルとRチャネルを同時に聞くとエコーのように聞こえる。一方、図2の構成に基づいて得られる復号音声では、図5(c)に示されるように、入力音声の501に対応する周波数帯域502においてパラメトリックステレオによってRチャネルに漏れ込んだ歪み成分が良く抑制される。この結果、LチャネルとRチャネルを同時に聞くとエコー感が低減され、主観的にはほとんど劣化を感じないという結果を得ることができる。
以上の処理を実現するための図2の復号音分析部209、歪み検出部210、及び係数補正部211の詳細な動作について、以下に説明する。
まず、特には図示しない符号化装置側で符号化される前のステレオ入力信号を、Lチャネル信号L(b,t) 、Rチャネル信号R(b,t) とする。bは周波数帯域を示すインデックスであり、tは離散時間を示すインデックスである。
図6は、HE−AACデコーダにおける時間・周波数信号の定義を示した図である。上記L(b,t) 及びR(b,t) の各信号は、離散時間t毎に、周波数帯域bによって分割された複数の信号成分から構成されている。1つの時間・周波数信号(QMF(Quadrature Mirror Filterbank)係数に相当)をbとtを使って、上記L(b,t) 又はR(b,t) などと表す。
今、パラメトリックステレオ符号化装置側から伝送されてきてパラメトリックステレオ復号装置側にて抽出される或る周波数帯域bにおける第1強度差iid(b) と第1類似度iic(b)は、下記数15式により計算される。ここで、Nは時間方向のフレーム長(図6参照)である。
この数式から理解されるように、第1強度差iid(b) は、周波数帯域bにおける現フレーム(0≦t≦N−1)におけるLチャネル信号L(b,t) の平均電力eL (b) とRチャネル信号R(b,t) の平均電力eR (b) の対数比、第1類似度iic(b) は、これら信号の相互相関である。
前述した図18の関係より、Lチャネル信号L(b,t) 及びRチャネル信号R(b,t)と、第1類似度iic(b) 及び第1強度差iid(b) との関係は、図7(a)に示されるごとくとなる。即ち、Lチャネル信号L(b,t) 及びRチャネル信号R(b,t) は、パラメトリックステレオ復号装置側にて得られるモノラル信号S(b,t) とそれぞれ角度α(=α(b) )の角度をなし、cos(2α)が第1類似度iic(b) として定義される。即ち、次式が成り立つ。
また、Lチャネル信号L(b,t) とRチャネル信号R(b,t) のノルム比が、第1強度差iid(b) として定義される。なお、図7では、時間サフィックスtは省略されている。
これより、図2の係数計算部208は、前述した数12式に基づいて、係数行列H(b) を算出することができる。数12式において、角度αは、数16式より、図2のPS解析部207より出力される第1類似度iic(b) を用いて、次式にて計算できる。
また、数12式におけるスケールファクタCl 及びCr は、図2のPS解析部207より出力される第1強度差iid(b) を用いて、次式にて計算できる。
続いて、図2の復号音分析部209は、SBR復号部203から出力されるモノラル信号S(b,t) 、非相関化部206から出力される残響信号D(b,t) 、及び係数計算部208から出力される係数行列H(b) に基づいて、前述した数11式が計算される。この結果、復号Lチャネル信号L′(b,t) と復号Rチャネル信号R′(b,t) を復号することができる。
そして、復号音分析部209は、上記復号Lチャネル信号L′(b,t) 及び復号Rチャネル信号R′(b,t) から、周波数帯域bにおける第2強度差iid′(b) と第2類似度iic′(b) を、前述の数15式と同様にして、次式により計算する。
数15式の場合と同様に、ここでも、前述した図18の関係より、復号Lチャネル信号L′(b,t) 及び復号Rチャネル信号R′(b,t)と、第2類似度iic′(b) 及び第2強度差iid′(b) との関係は、図7(b)に示されるごとくとなる。復号Lチャネル信号L′(b,t) 及び復号Rチャネル信号R′(b,t) は、パラメトリックステレオ復号装置側にて得られるモノラル信号S(b,t) とそれぞれ角度α′の角度をなし、cos(2α′(b))が第2類似度iic′(b)として定義される。即ち、次式が成り立つ。
また、復号Lチャネル信号L′(b,t) と復号Rチャネル信号R′(b,t) のノルム比が、第2強度差iid′(b) として定義される。
ここで、パラメトリックステレオ化前のLチャネル信号L(b,t) 及びRチャネル信号R
(b,t) と、第1類似度iic(b) 及び第1強度差iid(b) との関係は、図7(a)に示した。一方、パラメトリックステレオ化後の復号Lチャネル信号L′(b,t) 及び復号Rチャネル信号R′(b,t)と、第2類似度iic′(b) 及び第2強度差iid′(b) との関係は、図7(b)に示した。両図を合成したものが図7(c)である。なお、時間サフィックスtは省略されている。図7(c)より、パラメトリックステレオ化の前後では、モノラル信号S(b,t) と残響信号D(b,t) とで定義される座標平面上で、以下のような関係がある。
・Lチャネル信号L(b,t) と復号Lチャネル信号L′(b,t) は、角度αとα′の差角に関連する角度θl だけずれている。Rチャネル信号R(b,t) と復号Rチャネル信号R′(b,t) も、角度αとα′の差角に関連する角度θr だけずれている。これを歪み量1とする。実用的には、歪み量1=θ=θl =θr として差し支えない。
・Lチャネル信号L(b,t) と復号Lチャネル信号L′(b,t) は、振幅Xl だけずれている。Rチャネル信号R(b,t) と復号Rチャネル信号R′(b,t) も、振幅Xr だけずれている。これを歪み量2とする。実用的には、歪み量2=X=Xl =Xr として差し支えない。
上述の知見より、まず、図2に示される歪み検出部210が、周波数帯域b毎に、第1類似度iic(b) 及び第2類似度iic′(b) から歪み量1=θを検出し、第1強度差iid(b) 及び第2強度差iid′(b) から歪み量2=Xを検出する。次に、係数補正部211が、周波数帯域b毎に、係数計算部208から出力される係数行列H(b) を、歪み検出部210が算出した歪み量1=θ及び歪み量2=Xに基づいて補正し、補正係数行列H′(b) を生成する。そして、ステレオ信号生成部212が、周波数帯域b毎に、係数補正部211が生成した補正係数行列H′(b) を使って、モノラル信号S(b,t) 及び残響信号D(b,t) に基づいて、Lチャネル信号L(b,t) 及びRチャネル信号R(b,t) を復号する。これらの信号においては、図7(c)に示される歪み量1=θ=θl =θr と、歪み量2=X=Xl =Xr が補正されているため、パラメトリックステレオ符号化前の元のLチャネル及びRチャネルのステレオ信号が良く復元される。
歪み検出部210での歪み量1=θの具体的な検出方式について、以下に説明する。
数20式より、角度α′(図8(a)参照)は、復号音分析部209が算出した周波数帯域bにおける第2類似度iic′(b) を用いて、次式により計算できる。
また、角度α(図8(a)参照)は、PS解析部207が算出した周波数帯域bにおける第1類似度iic(b) を用いて、前述した数17式により計算できる。
数21式及び数17式より、周波数帯域bにおける歪み量1=θ(=θ(b) )(図8(b)参照)は、次式により算出される。
即ち、歪み検出部210は、PS解析部207が算出した周波数帯域bにおける第1類似度iic(b) と、復号音分析部209が算出した周波数帯域bにおける第2類似度ii
c′(b) を用いて、数22式を計算する。この結果、周波数帯域bにおける歪み量1=θ(=θ(b) )が算出される。
なお、歪み量1=θは、次のようにして算出されてもよい。即ちまず、歪み検出部210は、周波数帯域bにおける第1類似度iic(b) と、周波数帯域bにおける第2類似度iic′(b) とから、周波数帯域bにおける類似度の差分を、次式により算出する。
歪み検出部210は、予め算出されている類似度差分と歪み量1との関係を示す変換テーブルを用いて、数23式により算出した類似度差分A(b) に対する歪み量1=θ=θ(b) を算出する。このために、歪み検出部210は、例えば図8(c)に示されるような変換テーブルを、固定的に保持しておくことができる。
次に、歪み検出部210での歪み量2=X(図7(c)参照)の具体的な検出方式について、以下に説明する。
まず、歪み検出部210は、予め算出されている類似度差分と歪み量2の関係に基づいて、前述の数23式により算出した類似度差分A(b)に対する歪み量2=γ(b) を算出する。このために、歪み検出部210は、例えば図9(a)に示されるような変換テーブルを、固定的に保持しておくことができる。この歪み量2=γ(b) は、図9(b)に示されるように、周波数帯域bにおける補正前の復号音声のスペクトルの電力を、γ(b) [dB]だけ減衰(−γ(b) )させるような物理量である。
次に、歪み検出部210は、上述のスペクトル電力補正を、係数行列H(b) に対する補正として実現するために、歪み量2=γ(b) [dB]を、次式によって変換し、この結果得られる物理量Xを、歪み量2として出力する。
続いて、係数補正部211での係数行列H(b) の補正処理の具体的な方式について、以下に説明する。
係数補正部211は、係数計算部208にて前述した数12式、数17式、及び数18式に基づいて算出されている係数行列H(b) に対する補正係数行列H′(b) を、次式によって算出する。
ここで、角度αは、前述した数17式に基づいて係数計算部208が算出したものが用いられ、スケールファクタCl 及びCr は、前述した数18式に基づいて係数計算部208が算出したものが用いられる。また、角度補正量θ=θl =θr と、電力補正量X=Xl =Xr は、歪み検出部210が出力する歪み量1及び歪み量2である。
以上のようにして係数補正部211が算出した補正係数行列H′(=H′(b) )を使って、ステレオ信号生成部212は、SBR復号部203から出力されるモノラル信号S(b,t) 及び非相関化部206から出力される残響信号D(b,t) に対して、次式に基づいて、Lチャネル信号L(b,t) とRチャネル信号R(b,t) を復号する。
以上説明したパラメトリックステレオ復号装置における一連の動作を、周波数帯域b毎に補正の有無を判断しながら実行する場合の歪み検出部210及び係数補正部211の更に具体的な動作について、以下に説明する。
図10は、歪み検出部210及び係数補正部211が実行する制御動作を示す動作フローチャートである。以下の説明では、図10のステップS1001〜S1014を随時参照するものとする。
歪み検出部210及び係数補正部211は、ステップS1001にて周波数帯域番号を0に初期設定した後、ステップS1015にて周波数帯域番号を+1ずつ増加させながら、ステップS1014にて周波数帯域番号が最大値NB−1を超えたと判定するまで、周波数帯域b毎に、ステップS1002〜S1013の一連の処理を実行する。
まず、歪み検出部210は、前述の数23式により、類似度差分A(b)を算出する(ステップS1002)。
次に、歪み検出部210は、類似度差分A(b) と閾値Th1とを比較する(ステップS1003)。ここでは、図11(a)に示されるように、類似度差分A(b) が閾値Th1以下であるときに歪みなし、類似度差分A(b) が閾値Th1よりも大きいときに歪みありと判定される。これは、図4にて説明した原理に基づく。
即ち、歪み検出部210は、類似度差分A(b) が閾値Th1以下であるときには、歪みなしと判定して、周波数帯域bにおける歪み発生チャネルを示す変数ch(b) にどのチャネルも補正しないことを指示する値0を設定して、ステップS1013に進む(ステップS1003−>S1010−>S1013)。
一方、歪み検出部210は、類似度差分A(b) が閾値Th1よりも大きいときには、歪みありと判定して、以下のステップS1004〜S1009の処理を実行する。
まず、歪み検出部210は、次式により、図2の復号音分析部209から出力される第2強度差iid′(b) の値から図2のPS解析部207から出力される第1強度差iid(b)の値を減算する。
この結果、周波数帯域bにおける強度差の差分B(b) が算出される(ステップS1004
)。
次に、歪み検出部210は、強度差の差分B(b) と閾値Th2及び閾値−Th2とをそれぞれ比較する(ステップS1005及びS1006)。ここでは、図11(b)に示されるように、強度差の差分B(b) が閾値Th2より大きいときにLチャネルに歪みが発生しており、強度差の差分B(b) が閾値−Th2以下であるときにRチャネルに歪みが発生しており、強度差の差分B(b) が閾値−Th2よりも大きく閾値Th2以下であるときに両チャネルに歪みが発生していると推定される。
これは、前述の数15式のiid(b) の算出式より、強度差iid(b) の値が大きいということはLチャネルの電力のほうが強いことを示している。そして、その傾向が復号側のほうが符号化側よりもより強く出れば、即ち強度差の差分B(b) が閾値Th2を超えれば、それはLチャネルにより強い歪み成分が重畳されていることを示す。逆に、強度差iid(b) の値が小さいということはRチャネルの電力の割合が強くなることを示している。そして、その傾向が復号側のほうが符号化側よりもより強く出れば、即ち強度差の差分B(b) が閾値−Th2を下回れば、それはRチャネルにより強い歪み成分が重畳されていることを示す。
即ち、歪み検出部210は、強度差の差分B(b) が閾値Th2より大きいときには、Lチャネルに歪みが発生していると判定して、歪み発生チャネル変数ch(b) に値Lを設定して、ステップS1011の処理に進む(ステップS1005−>S1009−>S1011)。
また、歪み検出部210は、強度差の差分B(b) が閾値−Th2以下であるときには、Rチャネルに歪みが発生していると判定して、歪み発生チャネル変数ch(b) に値Rを設定して、ステップS1011の処理に進む(ステップS1005−>S1006−>S1008−>S1011)。
歪み検出部210は、強度差の差分B(b) が閾値−Th2より大きく閾値Th2以下であるときには、両チャネルに歪みが発生していると判定して、歪み発生チャネル変数ch(b) に値LRを設定して、ステップS1011の処理に進む(ステップS1005−>S1006−>S1007−>S1011)。
上述のステップS1007〜S1009の何れかの処理の後、歪み検出部210は、歪み量1を算出する。ここでは、前述したように、歪み検出部210は、PS解析部207が算出した周波数帯域bにおける第1類似度iic(b) と、復号音分析部209が算出した周波数帯域bにおける第2類似度iic′(b) を用いて、数22式を計算する。この結果、周波数帯域bにおける歪み量1=θ(=θ(b) )が算出される。
続いて、歪み検出部210は、歪み量2を算出する。ここでは、前述したように、歪み検出部210は、予め算出されている類似度差分と歪み量2の関係に基づいて、ステップS1002にて算出した類似度差分A(b)に対する物理量γ(b) を算出する。更に、歪み検出部210は、前述した数24式に基づいて、物理量γ(b) に対応する歪み量2=Xを算出する。
以上のようにして、歪み検出部210が、周波数帯域bに対する歪み発生チャネルch(b) と、歪み量1及び歪み量2を検出した後、それらの情報が、係数補正部211に通知される(ステップS1011−>S1012−>S1013)。
係数補正部211は、歪み発生チャネルに値LRがセットされている場合には、角度補
正量θl =θr =θ(歪み量1)、電力補正量Xl =Xr =X(歪み量2)として、前述の数25式に基づいて、補正係数行列H′(b) を算出する。
また、係数補正部211は、歪み発生チャネルに値Rがセットされている場合には、角度補正量θr =θ(歪み量1)、θl =0、電力補正量Xr =X(歪み量2)、Xl =1として、前述の数25式に基づいて、補正係数行列H′(b) を算出する。
同様に、係数補正部211は、歪み発生チャネルに値Lがセットされている場合には、角度補正量θl =θ(歪み量1)、θr =0、電力補正量Xl =X(歪み量2)、Xr =1として、前述の数25式に基づいて、補正係数行列H′(b) を算出する。
更に、係数補正部211は、歪み発生チャネルに値0がセットされている場合には、角度補正量θl =θr =0、電力補正量Xl =Xr =1として、前述の数25式に基づいて、補正係数行列H′(b) を算出する。即ち、この場合には、補正は行われない。
図12は、図2のデータ分離部101に入力される入力データのデータフォーマット例を示す図である。
図12は、HE−AAC v2デコーダにおける、MPEG−4オーディオで採用されたADTS(Audio Data Transport Stream )形式のデータフォーマットである。
入力データは、大きく分けるとADTSヘッダ1201、モノラル音声AAC符号化データであるAACデータ1202、拡張データ領域(FILLエレメント)1203とから構成される。
FILLエレメント1203の一部に、モノラル音声SBR符号化データであるSBRデータ1204と、SBR用拡張データ(sbr_extension)1205が格納される。
sbr_extension1205の中に、パラメトリックステレオ用のPSデータ1206が格納される。PSデータの中に、第1類似度iic(b) や第1強度差iid(b) といったPSデコード処理に必要なパラメータが格納される。
第3の実施形態
次に、第3の実施形態について説明する。
第3の実施形態の構成は、係数補正部211の動作以外は図2に示される第2の実施形態の構成と同一なので、その構成図は省略する。
第2の実施形態では、係数補正部211において、類似度差分A(b) からγ(b) を決定する際に用いられる対応関係は固定であったが、第3の実施形態では、復号音の電力に応じて最適な対応関係が選択される。
即ち、図13に示されるように、復号音の電力が大きい場合は、歪み量に対する補正量が大きくなり、復号音の電力が小さい場合は、歪み量に対する補正量が小さくなるような、複数の対応関係が用いられる。
ここで、「復号音の電力」とは、復号音分析部209にて算出される復号Lチャネル信号L′(b,t)又は復号Rチャネル信号R′(b,t)のうち、補正対象となったチャネルの周波数帯域bにおける電力を指す。
第4の実施形態
次に、第4の実施形態について説明する。
図14は、パラメトリックステレオ復号装置の第4の実施形態の構成図である。
図14において、図2の第1の実施形態の構成と同じ番号が付された部分は図2の場合と同じ機能を有するものとする。
図14の構成が図2の構成と異なる点は、係数補正部211から出力される補正係数行列H′(b)を時間軸方向に平滑化するための係数保持部1401と係数平滑化部1402を備える点である。
まず、係数保持部1401は、離散時間t毎に、係数補正部211から出力される補正係数行列(以下これを「H′(b,t) 」とする)を順次保持しながら、1離散時間前のt−1における補正係数行列(以下これを「H′(b,t-1) 」とする)を係数平滑化部1402へ出力する。
係数平滑化部1402は、係数補正部211から出力される離散時間tにおける補正係数行列H′(b,t)を用いて、係数保持部1401から入力される1離散時間前のt−1における補正係数行列H′(b,t-1) を構成する各係数(数25式参照)を平滑化して、平滑された補正係数行列H″(b,t-1)として、ステレオ信号生成部212へ出力する。
係数平滑化部1402における平滑化の方法は任意であるが、例えば、各係数毎に、係数保持部1401からの出力と係数補正部211からの出力との加重和を求める方法を用いることができる。
また、過去の複数フレームの係数補正部211の出力が係数保持部1401に格納され、これら複数フレーム分の出力と現フレームの係数補正部211の出力との加重和が取られて平滑化が行われてもよい。
更に、時間方向の平滑化に限らず、係数補正部211の出力に対して、周波数帯域bの方向に平滑化処理が行われてもよい。即ち、係数補正部211の出力のある周波数帯域bの補正係数行列H′(b) を構成する各係数に対し、その前後の周波数帯域b−1やb+1との加重和が取られて平滑化が行われてもよい。また、加重和が取られる際に、隣接する複数個の周波数帯域の係数補正部211の出力の補正係数行列が用いられてもよい。
第1〜第4の実施形態に対する補足
図15は、上記第1〜第4の実施形態によって実現されるシステムを実現できるコンピュータのハードウェア構成の一例を示す図である。
図15に示されるコンピュータは、CPU1501、メモリ1502、入力装置1503、出力装置1504、外部記憶装置1505、可搬記録媒体1509が挿入される可搬記録媒体駆動装置1506、及びネットワーク接続装置1507を有し、これらがバス1508によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。
CPU1501は、当該コンピュータ全体の制御を行う。メモリ1502は、プログラムの実行、データ更新等の際に、外部記憶装置1505(或いは可搬記録媒体1509)に記憶されているプログラム又はデータを一時的に格納するRAM等のメモリである。CUP1501は、プログラムをメモリ1502に読み出して実行することにより、全体の制御を行う。
入力装置1503は、例えば、キーボード、マウス等及びそれらのインタフェース制御装置とからなる。入力装置1503は、ユーザによるキーボードやマウス等による入力操作を検出し、その検出結果をCPU1501に通知する。
出力装置1504は、表示装置、印刷装置等及びそれらのインタフェース制御装置とからなる。出力装置1504は、CPU1501の制御によって送られてくるデータを表示装置や印刷装置に出力する。
外部記憶装置1505は、例えばハードディスク記憶装置である。主に各種データやプログラムの保存に用いられる。
可搬記録媒体駆動装置1506は、光ディスクやSDRAM、コンパクトフラッシュ(登録商標)等の可搬記録媒体1509を収容するもので、外部記憶装置1505の補助の役割を有する。
ネットワーク接続装置1507は、例えばLAN(ローカルエリアネットワーク)又はWAN(ワイドエリアネットワーク)の通信回線を接続するための装置である。
前述の第1〜第4の実施形態によるパラメトリックステレオ復号装置のシステムは、それに必要な機能を搭載したプログラムをCPU1501が実行することで実現される。そのプログラムは、例えば外部記憶装置1505や可搬記録媒体1509に記録して配布してもよく、或いはネットワーク接続装置1507によりネットワークから取得できるようにしてもよい。
以上の第1〜第4の実施形態は、パラメトリックステレオ方式の復号装置に本発明を適用したものであるが、本発明は、パラメトリックステレオ方式に限定されるものではなく、サラウンド方式やその他の、復号音声信号に音声復号補助情報を組み合わせて復号を行う様々な方式に適用することが可能である。
第1の実施形態の構成図である。 第2の実施形態の構成図である。 第2の実施形態の動作を示す動作フローチャートである。 パラメトリックステレオ復号装置の実施形態の動作説明図である。 パラメトリックステレオ復号装置の実施形態の効果説明図である。 HE−AACデコーダにおける時間・周波数信号の定義を示した図である。 歪み量検出・係数補正動作の説明図(その1)である。 歪み量検出・係数補正動作の説明図(その2)である。 歪み量検出・係数補正動作の説明図(その3)である。 歪み検出部210及び係数補正部211の制御動作を示す動作フローチャートである。 歪み量と歪み発生チャネルの検出動作の説明図である。 入力データのデータフォーマット例を示す図である。 第3の実施形態の説明図である。 パラメトリックステレオ復号装置の第4の実施形態の構成図である。 第1〜第4の実施形態によって実現されるシステムを実現できるコンピュータのハードウェア構成の一例を示す図である。 ステレオ録音のモデルを示す図である。 非相関化の説明図である。 入力信号(L,R)と、モノラル信号s、及び残響信号dの関係図である。 S(b,t) とD(b,t) からステレオ信号を生成する方法の説明図である。 パラメトリックステレオ復号装置の基本構成図である。 図20のPS復号部2003の従来技術における構成図である。 従来技術の問題点の説明図である。
符号の説明
101 受信処理部
102、208、2104 係数計算部
103 出力信号生成部
104、209 復号音分析部
105、210 歪み検出部
106、211 係数補正部
201、2001 データ分離部
202 AAC復号部
203 SBR復号部
204、2003 パラメトリックステレオ(PS)復号部
205、2101 遅延付加部
206、2102 非相関化部
207、2103 パラメトリックステレオ解析部(PS解析部)
212、2105 ステレオ信号生成部
213、214、2004 周波数時間変換部
1201 ADTSヘッダ
1202 AACデータ
1203 FILLエレメント
1204 SBRデータ
1205 sbr_extension
1206 PSデータ
1401 係数保持部
1402 係数平滑化部
1501 CPU
1502 メモリ
1503 入力装置
1504 出力装置
1505 外部記憶装置
1506 可搬記録媒体駆動装置
1507 ネットワーク接続装置
1508 バス
1509 可搬記録媒体
1601 マイク
2002 コア復号部
iic(b) 第1類似度
iid(b) 第1強度差
iic′(b) 第2類似度
iid′(b) 第2強度差

Claims (8)

  1. 符号化された音声データから受信音声信号と音声復号補助情報とを得る受信処理部と、該第1の音声復号補助情報から係数情報を計算する係数計算部と、該係数情報と前記受信音声信号とに基づいて復号された出力音声信号を生成する出力信号生成部とを備える音声復号装置において、
    前記音声復号補助情報を第1の音声復号補助情報として、該情報及び前記受信音声信号に基づいて復号音声信号を復号し、該復号音声信号から前記第1の音声復号補助情報に対応する第2の音声復号補助情報を算出する復号音分析部と、
    該第2の音声復号補助情報と前記第1の音声復号補助情報とを比較することにより、前記復号音声信号の復号過程で生じた歪み量を検出する歪み検出部と、
    前記係数情報を、前記歪み検出部にて検出された歪み量に基づいて補正し、該補正された係数情報を前記出力信号生成部に与える係数補正部と、
    を含むことを特徴とするオーディオ復号装置。
  2. パラメトリックステレオ方式により符号化された音声データからモノラル音声信号及び残響音声信号とパラメトリックステレオパラメータ情報とを得る受信処理部と、該パラメトリックステレオパラメータ情報から係数情報を計算する係数計算部と、該係数情報と前記モノラル音声信号及び残響音声信号とに基づいて復号されたステレオ出力音声信号を生成する出力信号生成部とを備える音声復号装置において、
    前記パラメトリックステレオパラメータ情報を第1のパラメトリックステレオパラメータ情報として、該情報と前記モノラル音声復号信号及び残響音声信号とに基づいて復号音声信号を復号し、該復号音声信号から前記第1のパラメトリックステレオパラメータ情報に対応する第2のパラメトリックステレオパラメータ情報を算出する復号音分析部と、
    該第2のパラメトリックステレオパラメータ情報と前記第1のパラメトリックステレオパラメータ情報とを比較することにより、前記復号音声信号の復号過程で生じた歪み量を検出する歪み検出部と、
    前記係数情報を、前記歪み検出部にて検出された歪み量に基づいて補正し、該補正された係数情報を前記出力信号生成部に与える係数補正部と、
    を含むことを特徴とするオーディオ復号装置。
  3. 前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の類似度を示す類似度情報であり、
    前記復号音分析部は、前記第1のパラメトリックステレオパラメータ情報である第1の類似度情報に対応する第2の類似度情報を前記復号音声信号から算出し、
    前記歪み検出部は、前記第2の類似度情報と前記第1の類似度情報を周波数帯域毎に比較することにより、前記復号音声信号の復号過程で生じた前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪み量を検出し、
    前記係数補正部は、前記係数情報を、前記歪み検出部にて検出された前記周波数帯域毎及び前記ステレオ音声チャネル毎の歪み量に基づいて補正する、
    ことを特徴とする請求項2に記載のオーディオ復号装置。
  4. 前記パラメトリックステレオパラメータ情報はステレオ音声チャネル間の信号の強度差を示す強度差情報を更に含み、
    前記復号音分析部は、前記第1のパラメトリックステレオパラメータ情報である第1の強度差情報に対応する第2の強度差情報を前記復号音声信号から算出し、
    前記歪み検出部は、前記第2の強度差情報と前記第1の強度差情報とを前記周波数帯域毎に比較することにより、前記周波数帯域毎に歪みが発生した音声チャネルを検出し、
    前記係数補正部は、前記周波数帯域毎に、前記歪み検出部にて検出された音声チャネルに対応する前記係数情報を補正する、
    ことを特徴とする請求項3に記載のオーディオ復号装置。
  5. 前記係数補正部によって補正が行われた前記係数情報を、時間軸方向又は周波数軸方向に平滑化する係数情報平滑化部を更に含む、
    ことを特徴とする請求項2乃至4の何れか1項に記載のオーディオ復号装置。
  6. 前記復号音分析部、前記歪み検出部、及び前記係数補正部は、時間周波数領域にて実行される、
    ことを特徴とする請求項2乃至5の何れか1項に記載のオーディオ復号装置。
  7. パラメトリックステレオ方式により符号化された音声データからモノラル音声信号及び残響音声信号とパラメトリックステレオパラメータ情報とを得る受信処理ステップと、該パラメトリックステレオパラメータ情報から係数情報を計算する係数計算ステップと、該係数情報と前記モノラル音声信号及び残響音声信号とに基づいて復号されたステレオ出力音声信号を生成する出力信号生成ステップとを実行する音声復号方法において、
    前記パラメトリックステレオパラメータ情報を第1のパラメトリックステレオパラメータ情報として、該情報と前記モノラル音声復号信号及び残響音声信号とに基づいて復号音声信号を復号し、該復号音声信号から前記第1のパラメトリックステレオパラメータ情報に対応する第2のパラメトリックステレオパラメータ情報を算出する復号音分析ステップと、
    該第2のパラメトリックステレオパラメータ情報と前記第1のパラメトリックステレオパラメータ情報とを比較することにより、前記復号音声信号の復号過程で生じた歪み量を検出する歪み検出ステップと、
    前記係数情報を、前記歪み検出ステップにて検出された歪み量に基づいて補正し、該補正された係数情報を前記出力信号生成ステップに与える係数補正ステップと、
    を含むことを特徴とするオーディオ復号方法。
  8. パラメトリックステレオ方式により符号化された音声データからモノラル音声信号及び残響音声信号とパラメトリックステレオパラメータ情報とを得る受信処理ステップと、該パラメトリックステレオパラメータ情報から係数情報を計算する係数計算ステップと、該係数情報と前記モノラル音声信号及び残響音声信号とに基づいて復号されたステレオ出力音声信号を生成する出力信号生成ステップとを実行するコンピュータに、
    前記パラメトリックステレオパラメータ情報を第1のパラメトリックステレオパラメータ情報として、該情報と前記モノラル音声復号信号及び残響音声信号とに基づいて復号音声信号を復号し、該復号音声信号から前記第1のパラメトリックステレオパラメータ情報に対応する第2のパラメトリックステレオパラメータ情報を算出する復号音分析ステップと、
    該第2のパラメトリックステレオパラメータ情報と前記第1のパラメトリックステレオパラメータ情報とを比較することにより、前記復号音声信号の復号過程で生じた歪み量を検出する歪み検出ステップと、
    前記係数情報を、前記歪み検出ステップにて検出された歪み量に基づいて補正し、該補正された係数情報を前記出力信号生成ステップに与える係数補正ステップと、
    を実行させるためのプログラム。
JP2008315150A 2008-12-11 2008-12-11 オーディオ復号装置、方法、及びプログラム Expired - Fee Related JP5309944B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008315150A JP5309944B2 (ja) 2008-12-11 2008-12-11 オーディオ復号装置、方法、及びプログラム
US12/634,527 US8374882B2 (en) 2008-12-11 2009-12-09 Parametric stereophonic audio decoding for coefficient correction by distortion detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008315150A JP5309944B2 (ja) 2008-12-11 2008-12-11 オーディオ復号装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2010139671A true JP2010139671A (ja) 2010-06-24
JP5309944B2 JP5309944B2 (ja) 2013-10-09

Family

ID=42241604

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008315150A Expired - Fee Related JP5309944B2 (ja) 2008-12-11 2008-12-11 オーディオ復号装置、方法、及びプログラム

Country Status (2)

Country Link
US (1) US8374882B2 (ja)
JP (1) JP5309944B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013050540A (ja) * 2011-08-30 2013-03-14 Fujitsu Ltd オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5326465B2 (ja) * 2008-09-26 2013-10-30 富士通株式会社 オーディオ復号方法、装置、及びプログラム
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
RU2612581C2 (ru) * 2012-11-15 2017-03-09 Нтт Докомо, Инк. Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
CN112929047B (zh) * 2021-01-26 2022-07-12 明峰医疗系统股份有限公司 一种低噪声数字ct音频交互系统及控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06236198A (ja) * 1993-02-09 1994-08-23 Nec Corp 音質主観評価予測方式
JPH10294668A (ja) * 1997-04-22 1998-11-04 Matsushita Electric Ind Co Ltd オーディオ符号化データ復号化方法、オーディオ符号化データ復号化装置、及び記録媒体
JP2002223167A (ja) * 2001-01-25 2002-08-09 Sony Corp データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP2002525897A (ja) * 1998-09-16 2002-08-13 テレフオンアクチーボラゲツト エル エム エリクソン 線形予測合成解析符号化方法と符号化器
JP2006067367A (ja) * 2004-08-27 2006-03-09 Matsushita Electric Ind Co Ltd 符号化オーディオ信号の編集装置
JP2008519306A (ja) * 2004-11-04 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号の組のエンコード及びデコード

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7266501B2 (en) * 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
EP1292036B1 (en) * 2001-08-23 2012-08-01 Nippon Telegraph And Telephone Corporation Digital signal decoding methods and apparatuses
DE60311794C5 (de) * 2002-04-22 2022-11-10 Koninklijke Philips N.V. Signalsynthese
EP1500083B1 (en) * 2002-04-22 2006-06-28 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
JP4714416B2 (ja) * 2002-04-22 2011-06-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 空間的オーディオのパラメータ表示
JP3579047B2 (ja) * 2002-07-19 2004-10-20 日本電気株式会社 オーディオ復号装置と復号方法およびプログラム
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
KR101079066B1 (ko) * 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US7756713B2 (en) * 2004-07-02 2010-07-13 Panasonic Corporation Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information
WO2006022190A1 (ja) * 2004-08-27 2006-03-02 Matsushita Electric Industrial Co., Ltd. オーディオエンコーダ
EP1851866B1 (en) * 2005-02-23 2011-08-17 Telefonaktiebolaget LM Ericsson (publ) Adaptive bit allocation for multi-channel audio encoding
JP5461835B2 (ja) * 2005-05-26 2014-04-02 エルジー エレクトロニクス インコーポレイティド オーディオ信号の符号化/復号化方法及び符号化/復号化装置
AU2006255662B2 (en) * 2005-06-03 2012-08-23 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
RU2419249C2 (ru) * 2005-09-13 2011-05-20 Кониклейке Филипс Электроникс Н.В. Аудиокодирование
JP2007079487A (ja) 2005-09-16 2007-03-29 Sharp Corp 光学部品および光学装置
US7734053B2 (en) * 2005-12-06 2010-06-08 Fujitsu Limited Encoding apparatus, encoding method, and computer product
ATE476732T1 (de) * 2006-01-09 2010-08-15 Nokia Corp Steuerung der dekodierung binauraler audiosignale
KR100921453B1 (ko) * 2006-02-07 2009-10-13 엘지전자 주식회사 부호화/복호화 장치 및 방법
JP4285531B2 (ja) * 2006-11-29 2009-06-24 ソニー株式会社 信号処理装置、信号処理方法、プログラム
WO2008069594A1 (en) * 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP2008261999A (ja) * 2007-04-11 2008-10-30 Toshiba Corp オーディオ復号装置
JP5098530B2 (ja) * 2007-09-12 2012-12-12 富士通株式会社 復号化装置、復号化方法および復号化プログラム
JP5326465B2 (ja) * 2008-09-26 2013-10-30 富士通株式会社 オーディオ復号方法、装置、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06236198A (ja) * 1993-02-09 1994-08-23 Nec Corp 音質主観評価予測方式
JPH10294668A (ja) * 1997-04-22 1998-11-04 Matsushita Electric Ind Co Ltd オーディオ符号化データ復号化方法、オーディオ符号化データ復号化装置、及び記録媒体
JP2002525897A (ja) * 1998-09-16 2002-08-13 テレフオンアクチーボラゲツト エル エム エリクソン 線形予測合成解析符号化方法と符号化器
JP2002223167A (ja) * 2001-01-25 2002-08-09 Sony Corp データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP2006067367A (ja) * 2004-08-27 2006-03-09 Matsushita Electric Ind Co Ltd 符号化オーディオ信号の編集装置
JP2008519306A (ja) * 2004-11-04 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号の組のエンコード及びデコード

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013050540A (ja) * 2011-08-30 2013-03-14 Fujitsu Ltd オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US8831960B2 (en) 2011-08-30 2014-09-09 Fujitsu Limited Audio encoding device, audio encoding method, and computer-readable recording medium storing audio encoding computer program for encoding audio using a weighted residual signal

Also Published As

Publication number Publication date
JP5309944B2 (ja) 2013-10-09
US20100153120A1 (en) 2010-06-17
US8374882B2 (en) 2013-02-12

Similar Documents

Publication Publication Date Title
JP6698903B2 (ja) 高次アンビソニックス信号表現を圧縮又は圧縮解除するための方法又は装置
JP6641018B2 (ja) チャネル間時間差を推定する装置及び方法
JP5326465B2 (ja) オーディオ復号方法、装置、及びプログラム
TWI788833B (zh) 用於音場之高階保真立體音響表示的壓縮與解壓縮方法及裝置
CN112262433B (zh) 用于估计通道间时间差的装置、方法或计算机程序
JP2015520411A5 (ja)
EP3891735B1 (en) Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using direct component compensation
KR100763919B1 (ko) 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2 채널의 바이노럴 신호로 복호화하는 방법 및 장치
JP5309944B2 (ja) オーディオ復号装置、方法、及びプログラム
JP4842147B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
WO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
JP2007187749A (ja) マルチチャンネル符号化における頭部伝達関数をサポートするための新装置
KR20210071972A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
AU2020291776B2 (en) Packet loss concealment for dirac based spatial audio coding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130617

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees