JP7491393B2 - 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 - Google Patents

音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 Download PDF

Info

Publication number
JP7491393B2
JP7491393B2 JP2022560571A JP2022560571A JP7491393B2 JP 7491393 B2 JP7491393 B2 JP 7491393B2 JP 2022560571 A JP2022560571 A JP 2022560571A JP 2022560571 A JP2022560571 A JP 2022560571A JP 7491393 B2 JP7491393 B2 JP 7491393B2
Authority
JP
Japan
Prior art keywords
channel
sound signal
signal
decoded sound
monaural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022560571A
Other languages
English (en)
Other versions
JPWO2022097237A1 (ja
Inventor
亮介 杉浦
健弘 守谷
優 鎌本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2022097237A1 publication Critical patent/JPWO2022097237A1/ja
Application granted granted Critical
Publication of JP7491393B2 publication Critical patent/JP7491393B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Description

本発明は、符号を復号して得た音信号を後処理する技術に関する。
モノラル符号とステレオ符号を効率良く用いてステレオ音信号を符号化/復号する技術としては、特許文献1の技術がある。特許文献1には、モノラル信号を表すモノラル符号と、ステレオ信号のモノラル信号からの差分を表すステレオ符号と、を符号化側で得て、復号側では符号化側に対応する復号処理を行うことでモノラル復号音信号とステレオ復号音信号を得るスケーラブル符号化/復号方式が開示されている(図7と8を参照)。
優先度が異なる2つの回線に接続された端末で音信号を符号化して伝送して復号する技術としては、特許文献2の技術がある。特許文献2には、最低限の品質を確保するための符号を優先度が高いパケットに含めて伝送し、それ以外の符号を優先度が低いパケットに含めて伝送する技術が開示されている(図1などを参照)。
特許文献2のシステムで特許文献1のスケーラブル符号化/復号方式を用いる場合には、送信側で、モノラル符号を優先度が高いパケットに含め、ステレオ符号を優先度が低いパケットに含めるようにすればよい。このようにすることで、受信側では、優先度が高いパケットのみが到着している場合にはモノラル符号のみを用いてモノラル復号音信号を得て、優先度が高いパケットに加えて優先度が低いパケットも到着している場合にはモノラル符号とステレオ符号の両方を用いてステレオ復号音信号を得ることができる。
国際公開第2006/070751号 特開2005-117132号公報
優先度が異なる2つの回線に接続された端末で通信を行う場合には、スケーラブル符号化/復号方式を用いるのではなく、互いに独立したモノラル符号化/復号方式とステレオ符号化/復号方式を用いるケースも想定される。また、優先度が同じ1つの回線で互いに独立したモノラル符号化/復号方式とステレオ符号化/復号方式を用いるケースも想定される。これらのケースでは、受信側では、ステレオ符号に加えてモノラル符号も到着しているか否かに関わらず、ステレオ復号音信号を得るためにはステレオ符号のみを用いることなる。すなわち、モノラル復号と独立したステレオ復号を受信側で行うケースでは、同じ音信号に由来する互いに独立したモノラル符号とステレオ符号が入力されていたとしても、受信側の装置が出力するステレオの音信号を得る処理にモノラル符号に含まれる情報が生かされていないという課題がある。
そこで本発明では、復号音信号を得る元となった符号とは異なる符号であり、かつ、同じ音信号に由来する符号である別符号、から得られた音信号がある場合に、その別符号から得られた音信号を用いて復号音信号を改善することを目的とする。
本発明の一態様は、フレームごとに、ステレオ符号CSを復号して得たステレオの各チャネルの復号音信号である第nチャネル復号音信号^Xn(nは1以上N以下の各整数)と、前記ステレオ符号CSとは異なる符号であるモノラル符号CMを復号して得たモノラルの復号音信号であるモノラル復号音信号^XMと、を少なくとも用いて、前記ステレオの前記各チャネルの音信号である第nチャネル精製済復号音信号~Xnを得る音信号精製方法であって、前記第nチャネル復号音信号^Xnは、前記モノラル符号CMを復号して得た情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して得たものであり、フレームごとに、1以上N以下の全ての第nチャネル復号音信号^Xnを少なくとも用いて、前記ステレオの全チャネルに共通する信号である復号音共通信号^YMを得る復号音共通信号推定ステップと、フレームごとに、前記復号音共通信号^YMと、ステレオのチャネル間の関係を表す情報であるチャネル間関係情報と、を用いたアップミックス処理により、前記復号音共通信号^YMを各チャネル用にアップミックスした信号である第nチャネルアップミックス済共通信号^YMnを得る復号音共通信号アップミックスステップと、フレームごとに、前記モノラル復号音信号^XMと、ステレオのチャネル間の関係を表す情報と、を用いたアップミックス処理により、前記モノラル復号音信号^XMを各チャネル用にアップミックスした信号である第nチャネルアップミックス済モノラル復号音信号^XMnを得るモノラル復号音アップミックスステップと、前記各チャネルnについて、フレームごとに、対応するサンプルtごとに、第nチャネル精製重みαMnと前記第nチャネルアップミックス済モノラル復号音信号^XMnのサンプル値^xMn(t)とを乗算した値αMn×^xMn(t)と、前記第nチャネル精製重みαMnを1から減算した値(1-αMn)と前記第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値(1-αMn)×^yMn(t)と、を加算した値~yMn(t)=(1-αMn)×^yMn(t)+αMn×^xMn(t)による系列を第nチャネル精製済アップミックス済信号~YMnとして得る第nチャネル信号精製ステップと、前記各チャネルnについて、フレームごとに、前記第nチャネル復号音信号^Xnの前記第nチャネルアップミックス済共通信号^YMnに対する正規化された内積値を第nチャネル分離結合重みβnとして得る第nチャネル分離結合重み推定ステップと、前記各チャネルnについて、フレームごとに、対応するサンプルtごとに、前記第nチャネル復号音信号^Xnのサンプル値^xn(t)から、前記第nチャネル分離結合重みβnと前記第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値βn×^yMn(t)を減算し、前記第nチャネル分離結合重みβnと前記第nチャネル精製済アップミックス済信号~YMnのサンプル値~yMn(t)とを乗算した値βn×~yMn(t)を加算した値~xn(t)=^xn(t)-βn×^yMn(t)+βn×~yMn(t)による系列を前記第nチャネル精製済復号音信号~Xnとして得る第nチャネル分離結合ステップと、を含む。
本発明によれば、復号音信号を得る元となった符号とは異なる符号であり、かつ、同じ音信号に由来する符号である別符号、から得られた音信号がある場合に、その別符号から得られた音信号を用いて復号音信号を改善することができる。
音信号精製装置1101の例を示すブロック図である。 音信号精製装置1101の処理の例を示す流れ図である。 第nチャネル精製重み推定部1111-nの処理の例を示す流れ図である。 第nチャネル精製重み推定部1111-nの処理の例を示す流れ図である。 音信号精製装置1102の例を示すブロック図である。 音信号精製装置1102の処理の例を示す流れ図である。 音信号精製装置1103の例を示すブロック図である。 音信号精製装置1103の処理の例を示す流れ図である。 音信号精製装置1201の例を示すブロック図である。 音信号精製装置1201の処理の例を示す流れ図である。 音信号精製装置1202の例を示すブロック図である。 音信号精製装置1202の処理の例を示す流れ図である。 音信号精製装置1203の例を示すブロック図である。 音信号精製装置1203の処理の例を示す流れ図である。 音信号精製装置1301の例を示すブロック図である。 音信号精製装置1301の処理の例を示す流れ図である。 音信号精製装置1302の例を示すブロック図である。 音信号精製装置1302の処理の例を示す流れ図である。 音信号高域補償装置201の例を示すブロック図である。 音信号高域補償装置201/202の処理の例を示す流れ図である。 音信号高域補償装置202の例を示すブロック図である。 音信号高域補償装置203の例を示すブロック図である。 音信号高域補償装置203の処理の例を示す流れ図である。 音信号後処理装置301の例を示すブロック図である。 音信号後処理装置301の処理の例を示す流れ図である。 音信号後処理装置302の例を示すブロック図である。 音信号後処理装置302の処理の例を示す流れ図である。 音信号復号装置601の例を示すブロック図である。 音信号復号装置601の処理の例を示す流れ図である。 音信号復号装置602の例を示すブロック図である。 音信号復号装置602の処理の例を示す流れ図である。 符号化装置500と復号装置600の例を示すブロック図である。 本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。
各実施形態の説明に先立って、この明細書における表記方法について説明する。
ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
<発明の適用先となる符号化装置と復号装置>
まず、各実施形態を説明する前に、発明の適用先となる符号化装置と復号装置について、ステレオのチャネル数が2である場合の例を用いて説明する。
≪符号化装置500≫
適用先となる符号化装置500は、図32に例示する通り、ダウンミックス部510とモノラル符号化部520とステレオ符号化部530を含む。符号化装置500は、例えば20msの所定の時間長のフレーム単位で、入力された2チャネルステレオの時間領域の音信号を符号化して、後述するモノラル符号CMとステレオ符号CSを得て出力する。符号化装置に入力される2チャネルステレオの時間領域の音信号は、例えば、音声や音楽などの音を2個のマイクロホンそれぞれで収音してAD変換して得られたディジタルの音声信号又は音響信号であり、左チャネルの入力音信号である第一チャネル入力音信号と右チャネルの入力音信号である第二チャネル入力音信号から成る。符号化装置500が出力する符号であるモノラル符号CMとステレオ符号CSは復号装置600へ入力される。符号化装置500は、各フレームについて上述した各部が以下の処理を行う。例えば、フレーム長は20msであり、サンプリング周波数は32kHzである。フレーム当たりのサンプル数をTとすると、この例であれば、Tは640である。
[ダウンミックス部510]
ダウンミックス部510には、符号化装置500に入力された第一チャネル入力音信号と第二チャネル入力音信号が入力される。ダウンミックス部510は、第一チャネル入力音信号と第二チャネル入力音信号から、第一チャネル入力音信号と第二チャネル入力音信号が混合された信号であるダウンミックス信号を得て出力する。ダウンミックス部510は、例えば、下記の第1の方法や第2の方法でダウンミックス信号を得る。
[[ダウンミックス信号を得る第1の方法]]
第1の方法では、ダウンミックス部510は、第一チャネル入力音信号X1={x1(1), x1(2), ..., x1(T)}と第二チャネル入力音信号X2={x2(1), x2(2), ..., x2(T)}の対応するサンプルごとのサンプル値の平均値による系列をダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}として得る(ステップS510A)。すなわち、各サンプル番号(各サンプルのインデックス)をtとすると、xM(t)=(x1(t)+x2(t))/2である。
[[ダウンミックス信号を得る第2の方法]]
第2の方法では、ダウンミックス部510は、以下のステップS510B-1からステップS510B-3を行う。
ダウンミックス部510は、まず、第一チャネル入力音信号と第二チャネル入力音信号から、チャネル間時間差τを得る(ステップS510B-1)。チャネル間時間差τは、同じ音信号が第一チャネル入力音信号と第二チャネル入力音信号のどちらにどれくらい先に含まれているかを表す情報である。ダウンミックス部510は、チャネル間時間差τを周知の何れの方法で求めてもよく、例えば、第2実施形態で後述するチャネル間関係情報推定部1132に例示した方法で求めればよい。第2実施形態で後述するチャネル間関係情報推定部1132に例示した方法をダウンミックス部510が用いると、同じ音信号が第二チャネル入力音信号よりも先に第一チャネル入力音信号に含まれている場合にはチャネル間時間差τは正の値となり、同じ音信号が第一チャネル入力音信号よりも先に第二チャネル入力音信号に含まれている場合にはチャネル間時間差τは負の値となる。
ダウンミックス部510は、次に、第一チャネル入力音信号のサンプル列と、チャネル間時間差τ分だけ当該サンプル列より後にずれた位置にある第二チャネル入力音信号のサンプル列と、の相関値をチャネル間相関係数γとして得る(ステップS510B-2)。
ダウンミックス部510は、次に、ダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}に、第一チャネル入力音信号X1={x1(1), x1(2), ..., x1(T)}と第二チャネル入力音信号X2={x2(1), x2(2), ..., x2(T)}のうちの先行しているチャネルの入力音信号のほうが、チャネル間相関係数γが大きいほど大きく含まれるように、第一チャネル入力音信号と第二チャネル入力音信号を重み付け平均してダウンミックス信号を得て出力する(ステップS510B-3)。例えば、ダウンミックス部510は、対応する各サンプル番号tに対して、チャネル間相関係数γで定まる重みを用いて第一チャネル入力音信号x1(t)と第二チャネル入力音信号x2(t)を重み付け加算したものをダウンミックス信号xM(t)とすればよい。具体的には、ダウンミックス部510は、チャネル間時間差τが正の値である場合、すなわち第一チャネルが先行している場合には、xM(t)=((1+γ)/2)×x1(t)+((1-γ)/2)×x2(t)を、チャネル間時間差τが負の値である場合、すなわち第二チャネルが先行している場合には、xM(t)=((1-γ)/2)×x1(t)+((1+γ)/2)×x2(t)を、ダウンミックス信号xM(t)として得ればよい。ダウンミックス部510は、チャネル間時間差τが0である場合、すなわち何れのチャネルも先行していない場合には、各サンプル番号tについて、第一チャネル入力音信号x1(t)と第二チャネル入力音信号x2(t)を平均したxM(t)=(x1(t)+x2(t))/2をダウンミックス信号xM(t)とすればよい。
[モノラル符号化部520]
モノラル符号化部520には、ダウンミックス部510が出力したダウンミックス信号が入力される。モノラル符号化部520は、入力されたダウンミックス信号を所定の符号化方式でbMビットで符号化してモノラル符号CMを得て出力する。すなわち、入力されたTサンプルのダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}からbMビットのモノラル符号CMを得て出力する。符号化方式としては、どのようなものを用いてもよく、例えば3GPP EVS規格のような符号化方式を用いればよい。
[ステレオ符号化部530]
ステレオ符号化部530には、符号化装置500に入力された第一チャネル入力音信号と第二チャネル入力音信号が入力される。ステレオ符号化部530は、第一チャネル入力音信号と第二チャネル入力音信号を所定の符号化方式で合計bsビットで符号化してステレオ符号CSを得て出力する。すなわち、Tサンプルの第一チャネル入力音信号X1={x1(1), x1(2), ..., x1(T)}と、Tサンプルの第二チャネル入力音信号X2={x2(1), x2(2), ..., x2(T)}と、から合計bSビットのステレオ符号CSを得て出力する。符号化方式としては、どのようなものを用いてもよく、例えばMPEG-4 AAC規格のステレオ復号方式に対応するステレオ符号化方式を用いてもよいし、入力された第一チャネル入力音信号と第二チャネル入力音信号それぞれを独立して符号化する符号化方式を用いてもよい。何れの符号化方式を用いた場合でも、符号化により得られた符号を全て合わせたものをステレオ符号CSとすればよい。
モノラル符号CMは上述した通りにモノラル符号化部520が得た符号であり、ステレオ符号CSは上述した通りにステレオ符号化部530が得た符号であるので、モノラル符号CMとステレオ符号CSは、重複した符号を含まない異なる符号である。すなわち、モノラル符号CMはステレオ符号CSとは異なる符号であり、ステレオ符号CSはモノラル符号CMとは異なる符号である。
≪復号装置600≫
適用先となる復号装置600は、図32に例示する通り、モノラル復号部610とステレオ復号部620を含む。復号装置600は、対応する符号化装置500と同じ時間長のフレーム単位で、入力されたモノラル符号CMを復号してモノラルの時間領域の復号音信号であるモノラル復号音信号を得て出力し、入力されたステレオ符号CSを復号して2チャネルステレオの時間領域の復号音信号である第一チャネル復号音信号と第二チャネル復号音信号を得て出力する。復号装置600は、各フレームについて上述した各部が以下の処理を行う。
[モノラル復号部610]
モノラル復号部610には、復号装置600に入力されたモノラル符号CMが入力される。モノラル復号部610は、モノラル符号CMを所定の復号方式で復号してモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}を得て出力する。すなわち、モノラル復号部610は、ステレオ符号CSを復号して得られた情報もステレオ符号CSも用いずに、ステレオ符号CSとは異なる符号であるモノラル符号CMを復号して、モノラル復号音信号^XMを得る。所定の復号方式としては、対応する符号化装置500のモノラル符号化部520で用いた符号化方式に対応する復号方式を用いる。モノラル符号CMのビット数はbMである。
[ステレオ復号部620]
ステレオ復号部620には、復号装置600に入力されたステレオ符号CSが入力される。ステレオ復号部620は、ステレオ符号CSを所定の復号方式で復号して、左チャネルの復号音信号である第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と、右チャネルの復号音信号である第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}と、を得て出力する。すなわち、ステレオ復号部620は、モノラル符号CMを復号して得られた情報もモノラル符号CMも用いずに、モノラル符号CMとは異なる符号であるステレオ符号CSを復号して、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を得る。所定の復号方式としては、対応する符号化装置500のステレオ符号化部530で用いた符号化方式に対応する復号方式を用いる。ステレオ符号CSの合計ビット数はbSである。
符号化装置500と復号装置600は上述した通りに動作するので、モノラル符号CMは、ステレオ符号CSが由来する音信号と同じ音信号(すなわち、符号化装置500に入力された第一チャネル入力音信号X1と第二チャネル入力音信号X2)に由来する符号ではあるが、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を得る元となった符号(すなわち、ステレオ符号CS)とは異なる符号である。
<第1実施形態>
第1実施形態の音信号精製装置は、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。以下、第1実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて説明する。
≪音信号精製装置1101≫
第1実施形態の音信号精製装置1101は、図1に例示する通り、第一チャネル精製重み推定部1111-1と第一チャネル信号精製部1121-1と第二チャネル精製重み推定部1111-2と第二チャネル信号精製部1121-2を含む。音信号精製装置1101は、例えば20msの所定の時間長のフレーム単位で、ステレオの各チャネルについて、モノラル復号音信号と当該チャネルの復号音信号から、当該チャネルの復号音信号を改善した音信号である精製済復号音信号を得て出力する。音信号精製装置1101にフレーム単位で入力される各チャネルの復号音信号は、例えば、上述した復号装置600のステレオ復号部620が、モノラル符号CMを復号して得られた情報もモノラル符号CMも用いずに、モノラル符号CMとは異なる符号であるbSビットのステレオ符号CSを復号して得たTサンプルの第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}とTサンプルの第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}である。音信号精製装置1101にフレーム単位で入力されるモノラルの復号音信号は、例えば、上述した復号装置600のモノラル復号部610が、ステレオ符号CSを復号して得られた情報もステレオ符号CSも用いずに、ステレオ符号CSとは異なる符号であるbMビットのモノラル符号CMを復号して得たTサンプルのモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}である。モノラル符号CMは、ステレオ符号CSが由来する音信号と同じ音信号(すなわち、符号化装置500に入力された第一チャネル入力音信号X1と第二チャネル入力音信号X2)に由来する符号ではあるが、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を得る元となった符号(すなわち、ステレオ符号CS)とは異なる符号である。第一チャネルのチャネル番号n(チャネルのインデックスn)を1とし、第二チャネルのチャネル番号nを2とすると、音信号精製装置1101は、各フレームについて、図2に例示するステップS1111-nとステップS1121-nを各チャネルについて行う。すなわち、以降では、特に断りがない限りは、“-n”が付された各部/各ステップは、各チャネルに対応するものが存在し、具体的には、“-n”に代えて“-1”が付された第一チャネル用の各部/各ステップと、“-n”に代えて“-2”が付された第二チャネルの各部/各ステップと、が存在する。同様に、以降では、特に断りがない限りは、添え字などに“n”との記載が付されているものは、各チャネル番号に対応するものが存在することを表し、具体的には、“n”に代えて“1”が付された第一チャネルに対応するものと、“n”に代えて“2”が付された第二チャネルに対応するものと、が存在する。
[第nチャネル精製重み推定部1111-n]
第nチャネル精製重み推定部1111-nは、第nチャネル精製重みαnを得て出力する(ステップ1111-n)。第nチャネル精製重み推定部1111-nは、後述する量子化誤差を最小化する原理に基づく方法で第nチャネル精製重みαnを得る。量子化誤差を最小化する原理とこの原理に基づく方法については後述する。第nチャネル精製重み推定部1111-nには、必要に応じて、図1に一点鎖線で示すように、音信号精製装置1101に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号精製装置1101に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、が入力される。第nチャネル精製重み推定部1111-nが得る第nチャネル精製重みαnは、0以上1以下の値である。ただし、第nチャネル精製重み推定部1111-nは、フレームごとに後述する方法で第nチャネル精製重みαnを得るので、全てのフレームで第nチャネル精製重みαnが0や1になることはない。すなわち、第nチャネル精製重みαnが0より大きく1未満の値となるフレームが存在する。言い換えると、全てのフレームのうちの少なくとも何れかのフレームでは、第nチャネル精製重みαnは0より大きく1未満の値である。
[第nチャネル信号精製部1121-n]
第nチャネル信号精製部1121-nには、音信号精製装置1101に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号精製装置1101に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、第nチャネル精製重み推定部1111-nが出力した第nチャネル精製重みαnと、が入力される。第nチャネル信号精製部1121-nは、対応するサンプルtごとに、第nチャネル精製重みαnとモノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αn×^xM(t)と、第nチャネル精製重みαnを1から減算した値(1-αn)と第nチャネル復号音信号^Xnのサンプル値^xn(t)とを乗算した値(1-αn)×^xn(t)と、を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得て出力する(ステップS1121-n)。すなわち、~xn(t)=(1-αn)×^xn(t)+αn×^xM(t)である。
[量子化誤差を最小化する原理]
以下、量子化誤差を最小化する原理について説明する。ステレオ符号化部530とステレオ復号部620で用いる符号化方式/復号方式次第では、各チャネルの入力音信号の符号化に用いるビット数は陽に定まっていないこともあり得るが、以下では、第nチャネルの入力音信号Xnの符号化に用いるビット数がbnであるとして説明する。
上述した各装置の各部の処理における符号のビット数と信号の概要は以下の通りである。音信号精製装置1101の適用先となる符号化装置500のステレオ符号化部530は、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}を符号化してbnビットの符号を得る。音信号精製装置1101の適用先となる符号化装置500のモノラル符号化部520は、ダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}を符号化してbMビットの符号を得る。音信号精製装置1101の適用先となる復号装置600のステレオ復号部620は、bnビットの符号から第nチャネルの復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}を得る。音信号精製装置1101の適用先となる復号装置600のモノラル復号部610は、bMビットの符号からモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}を得る。音信号精製装置1101の第nチャネル信号精製部1121-nは、対応するサンプルtごとに、第nチャネル精製重みαnとモノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αn×^xM(t)と、第nチャネル精製重みαnを1から減算した値(1-αn)と第nチャネル復号音信号^Xnのサンプル値^xn(t)とを乗算した値(1-αn)×^xn(t)と、を加算した値~xn(t)=(1-αn)×^xn(t)+αn×^xM(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得る。音信号精製装置1101は、以上の処理で得られる第nチャネル精製済復号音信号~Xnが有する量子化誤差のエネルギーが小さくなるように設計されるべきである。
入力信号を符号化・復号して得られる復号信号が有する量子化誤差(以下、便宜的に「符号化により生じる量子化誤差」ともいう)のエネルギーは、多くの場合、入力信号のエネルギーにおおよそ比例し、符号化に用いるサンプルごとのビット数の値に対して指数的に小さくなる傾向にある。したがって、第nチャネルの入力音信号Xnの符号化により生じる量子化誤差のサンプルあたりの平均エネルギーは正の数σn 2を用いて下記の式(1)のように推定できる。また、ダウンミックス信号XMの符号化により生じる量子化誤差のサンプルあたりの平均エネルギーは正の数σM 2を用いて下記の式(2)のように推定できる。
Figure 0007491393000001

Figure 0007491393000002
ここで仮に、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}が同一の系列とみなせるほど各サンプル値が近い値となっているとする。例えば、第1チャネルの入力音信号X1={x1(1), x1(2), ..., x1(T)}と第2チャネルの入力音信号X2={x2(1), x2(2), ..., x2(T)}が、背景雑音や反響が多くない環境下で、2個のマイクロホンから等距離にある音源が発した音を収音して得たものであるケースなどが、この条件に相当する。第nチャネルの復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}の各サンプル値に(1-αn)を乗算して得た値からなる信号のエネルギーはダウンミックス信号のエネルギーの(1-αn)2倍で表せることから、式(1)のσn 2は上記のσM 2を用いて(1-α)2×σM 2と置き換えることができるため、第nチャネルの復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}の各サンプル値に(1-αn)を乗算して得た値の系列{(1-αn)×^xn(1), (1-αn)×^xn(2), ..., (1-αn)×^xn(T)}が有する量子化誤差のサンプルあたりの平均エネルギーは下記の式(3)のように推定できる。
Figure 0007491393000003

また、モノラル復号音信号^XMの各サンプル値にαnを乗算して得た値の系列{αn×xM(1), αn×xM(2), ..., αn×xM(T)}が有する量子化誤差のサンプルあたりの平均エネルギーは、下記の式(4)のように推定できる。
Figure 0007491393000004
第nチャネルの入力音信号の符号化により生じる量子化誤差と、ダウンミックス信号の符号化により生じる量子化誤差と、が互いに相関を持たないと仮定すると、第nチャネル精製済復号音信号~Xn={~xn(1), ~xn (2), ..., ~xn(T)}が有する量子化誤差のサンプルあたりの平均エネルギーは式(3)と式(4)の和で推定される。第nチャネル精製済復号音信号~Xn={~xn(1), ~xn (2), ..., ~xn(T)}が有する量子化誤差のエネルギーを最小化する第nチャネル精製重みαnは、下記の式(5)のように求められる。
Figure 0007491393000005
つまり、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}が同一の系列とみなせるほど各サンプル値が近い値となっている条件において第nチャネル精製済復号音信号が有する量子化誤差を最小化するためには、第nチャネル精製重み推定部1111-nは第nチャネル精製重みαnを式(5)で求めればよい。
[量子化誤差を最小化する原理に基づく方法]
以下、上述した量子化誤差を最小化する原理に基づいて第nチャネル精製重みαnを得る方法の具体例を説明する。
[[第1例]]
第1例は、上述した量子化誤差を最小化する原理によって第nチャネル精製重みαnを得る例である。第1例の第nチャネル精製重み推定部1111-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて、式(5)により第nチャネル精製重みαnを得る。第nチャネル精製重み推定部1111-nがビット数bnとビット数bMを特定する方法は全ての例で共通するので、最後の具体例である第7例の後で説明する。
[[第2例]]
第2例は、第1例で得られる第nチャネル精製重みαnと類似する特徴をもつ第nチャネル精製重みαnを得る例である。第2例の第nチャネル精製重み推定部1111-nは、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnとモノラル符号CMのビット数bMを少なくとも用いて、0より大きく1未満の値であり、bnとbMが等しいときには0.5であり、bnがbMよりも多いほど0.5より0に近い値であり、bMがbnよりも多いほど0.5より1に近い値を、第nチャネル精製重みαnとして得る。
[[第3例]]
第3例は、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}が同一の系列とみなせない場合も考慮して第nチャネル精製重みαnを得る例である。第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}が同一の系列とみなせるほどには各サンプル値が近い値を有しない場合には、上述した重み付き平均(1-αn)×^xn(t)+αn×^xM(t)により得られる信号は、量子化誤差がない場合でも第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とは異なる波形となってしまう。したがって、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}に全く相関がない場合には、上述した重み付き平均の処理を行わずに、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}をそのまま第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}としたほうが、精度を維持できる。
したがって、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}が同一の系列とみなせない場合も考慮すると、第nチャネル信号精製部1121-nは、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}とモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}の間の相関に応じて、相関が高いほど上記の式(5)で得られる値に近く、相関が低いほど0に近い値である第nチャネル精製重みαnに基づいた重み付き平均(1-αn)×^xn(t)+αn×^xM(t)により第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}を得られるようにするとよい。上記の相関としては、例えば、下記の式(6)で表されるように、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}のモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}に対する正規化された内積値rnを用いることができる。
Figure 0007491393000006
そこで、第3例の第nチャネル精製重み推定部1111-nは、式(6)により得られる正規化された内積値rnを用いて、第nチャネル精製重みαnを下記の式(7)により得る。
Figure 0007491393000007

例えば、第nチャネル精製重み推定部1111-nは、図3に示すステップS1111-1-nからステップS1111-3-nを行う。第nチャネル精製重み推定部1111-nは、まず、第nチャネル復号音信号^Xnとモノラル復号音信号^XMから、式(6)により正規化された内積値rnを得る(ステップS1111-1-n)。第nチャネル精製重み推定部1111-nは、また、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、から下記の式(8)により補正係数cnを得る(ステップS1111-2-n)。
Figure 0007491393000008

第nチャネル精製重み推定部1111-nは、次に、ステップS1111-1-nで得た正規化された内積値rnとステップS1111-2-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαnとして得る(ステップS1111-3-n)。すなわち、第3例の第nチャネル精製重み推定部1111-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて式(8)により得られる補正係数cnと、第nチャネル復号音信号^Xnのモノラル復号音信号^XMに対する正規化された内積値rnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
[[第4例]]
第4例は、第3例で得られる第nチャネル精製重みαnと類似する特徴をもつ第nチャネル精製重みαnを得る例である。第4例の第nチャネル精製重み推定部1111-nは、第nチャネル復号音信号^Xnと、モノラル復号音信号^XMと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を少なくとも用いて、0以上1以下の値であり、第nチャネル復号音信号^Xnとモノラル復号音信号^XMの間の相関が高いほど1に近い値であり、当該相関が低いほど0に近い値であるrnと、0より大きく1未満の値であり、bnとbMが同じであるときには0.5であり、bnがbMよりも多いほど0.5より0に近く、bnがbMよりも少ないほど0.5より1に近い値である補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
[[第5例]]
第5例は、第3例の正規化された内積値に代えて、過去のフレームの入力の値も考慮した値を用いる例である。第5例は、第nチャネル精製重みαnのフレーム間の急激な変動を少なくして、当該変動に由来して精製済復号音信号に生じるノイズを低減するものである。例えば、第5例の第nチャネル精製重み推定部1111-nは、図4に示す通り、下記のステップS1111-11-nからステップS1111-13-nと、第3例と同様のステップS1111-2-nとステップS1111-3-nと、を行う。
第nチャネル精製重み推定部1111-nは、まず、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、前のフレームで用いた内積値En(-1)と、を用いて、下記の式(9)により、現在のフレームで用いる内積値En(0)を得る(ステップS1111-11-n)。
Figure 0007491393000009

ここで、εnは、0より大きく1未満の予め定めた値であり、第nチャネル精製重み推定部1111-n内に予め記憶されている。なお、第nチャネル精製重み推定部1111-nは、得た内積値En(0)を、「前のフレームで用いた内積値En(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1111-n内に記憶する。
第nチャネル精製重み推定部1111-nは、また、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、前のフレームで用いたモノラル復号音信号のエネルギーEM(-1)と、を用いて、下記の式(10)により、現在のフレームで用いるモノラル復号音信号のエネルギーEM(0)を得る(ステップ1111-12-n)。
Figure 0007491393000010

ここで、εMは、0より大きく1未満で予め定めた値であり、第nチャネル精製重み推定部1111-n内に予め記憶されている。なお、第nチャネル精製重み推定部1111-nは、得たモノラル復号音信号のエネルギーEM(0)を、「前のフレームで用いたモノラル復号音信号のエネルギーEM(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1111-n内に記憶する。なお、第1精製重み推定部1111-1でも第2精製重み推定部1111-2でもEM(0)の値は同じであるため、第1精製重み推定部1111-1と第2精製重み推定部1111-2の何れか一方でEM(0)を得て、得たEM(0)をもう一方の第n精製重み推定部1111-nで用いるようにしてもよい。
第nチャネル精製重み推定部1111-nは、次に、ステップS1111-11-nで得た現在のフレームで用いる内積値En(0)と、ステップS1111-12-nで得た現在のフレームで用いるモノラル復号音信号のエネルギーEM(0)を用いて、正規化された内積値rnを下記の式(11)で得る(ステップS1111-13-n)。
Figure 0007491393000011
第nチャネル精製重み推定部1111-nは、また、式(8)により補正係数cnを得る(ステップS1111-2-n)。第nチャネル精製重み推定部1111-nは、次に、ステップS1111-13-nで得た正規化された内積値rnとステップS1111-2-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαnとして得る(ステップS1111-3-n)。
すなわち、第5例の第nチャネル精製重み推定部1111-nは、第nチャネル復号音信号^Xnの各サンプル値^xn(t)とモノラル復号音信号^XMの各サンプル値^xM(t)と前フレームの内積値En(-1)とを用いて式(9)により得られる内積値En(0)と、モノラル復号音信号^XMの各サンプル値^xM(t)と前フレームのモノラル復号音信号のエネルギーEM(-1)とを用いて式(10)により得られるモノラル復号音信号のエネルギーEM(0)と、を用いて式(11)により得られる正規化された内積値rnと、フレーム当たりのサンプル数Tとステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnとモノラル符号CMのビット数bMとを用いて式(8)により得られる補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
なお、上記のεn及びεMは、1に近いほど正規化された内積値rnには過去のフレームの第nチャネル復号音信号とモノラル復号音信号の影響が含まれやすくなり、正規化された内積値rnや、正規化された内積値rnにより得られる第nチャネル精製重みαnのフレーム間の変動は小さくなる。
[[第6例]]
例えば、第一チャネル入力音信号に含まれている音声や音楽などの音と、第二チャネル入力音信号に含まれている音声や音楽などの音と、が異なる場合には、モノラル復号音信号には第一チャネル入力音信号の成分も第二チャネル入力音信号の成分も含まれる。このため、第一チャネル精製重みα1として大きな値を用いるほど、第一チャネル精製済復号音信号の中に本来聴こえるはずのない第二チャネルの入力音信号に由来する音が含まれているように聴こえてしまうという課題がある。同様に、第二チャネル精製重みα2として大きな値を用いるほど、第二チャネル精製済復号音信号の中に本来聴こえるはずのない第一チャネルの入力音信号に由来する音が含まれているように聴こえてしまうという課題がある。そこで、聴覚品質を考慮して、第6例の第nチャネル精製重み推定部1111-nは、上述した各例により求まる各チャネルの第nチャネル精製重みαnより小さい値を、第nチャネル精製重みαnとして得る。例えば、第3例または第5例に基づく第6例の第nチャネル精製重み推定部1111-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、0より大きく1未満の予め定めた値であるλとを乗算した値λ×cn×rnを第nチャネル精製重みαnとして得る。
[[第7例]]
第6例で説明した聴覚品質の課題が生じるのは第一チャネル入力音信号と第二チャネル入力音信号の相関が小さいときであって、この課題は第一チャネル入力音信号と第二チャネル入力音信号の相関が大きいときにはあまり生じない。そこで、第7例の第nチャネル精製重み推定部1111-nは、第6例の予め定めた値に代えて、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であるチャネル間相関係数γを用いて、第一チャネル復号音信号と第二チャネル復号音信号の相関が大きいほど、精製済復号音信号が有する量子化誤差のエネルギーを小さくすることを優先し、第一チャネル復号音信号と第二チャネル復号音信号の相関が小さいほど、聴覚品質の劣化を抑えることを優先する。以下、第7例が第3例及び第5例と異なる点について説明する。
[[[第7例のチャネル間関係情報推定部1131]]]
第7例の音信号精製装置1101は、図1に破線で示すようにチャネル間関係情報推定部1131も含む。チャネル間関係情報推定部1131には、音信号精製装置1101に入力された第一チャネル復号音信号と、音信号精製装置1101に入力された第二チャネル復号音信号と、が少なくとも入力される。第7例のチャネル間関係情報推定部1131は、第一チャネル復号音信号と第二チャネル復号音信号を少なくとも用いてチャネル間相関係数γを得て出力する(ステップS1131)。チャネル間相関係数γは、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であり、第一チャネル復号音信号のサンプル列{^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号のサンプル列{^x2(1), ^x2(2), ..., ^x2(T)}の相関係数γ0であってもよいし、時間差を考慮した相関係数、例えば、第一チャネル復号音信号のサンプル列と、τサンプルだけ当該サンプル列より後にずれた位置にある第二チャネル復号音信号のサンプル列と、の相関係数γτであってもよい。なお、チャネル間関係情報推定部1131は、チャネル間相関係数γを、周知の何れの方法で得てもよいし、後述する第2実施形態のチャネル間関係情報推定部1132で説明する方法で得てもよい。なお、チャネル間相関係数γを得る方法次第では、図1に二点鎖線で示すように、音信号精製装置1101に入力されたモノラル復号音信号も、チャネル間関係情報推定部1131に入力される。
このτは、ある空間に配置した第一チャネル用のマイクロホンで収音した音をAD変換して得られた音信号が第一チャネル入力音信号X1であり、当該空間に配置した第二チャネル用のマイクロホンで収音した音をAD変換して得られた音信号が第二チャネル入力音信号X2である、と仮定したときの、当該空間で主に音を発している音源から第一チャネル用のマイクロホンへの到達時間と、当該音源から第二チャネル用のマイクロホンへの到達時間と、の差(いわゆる到来時間差)に相当する情報である。以降では、このτをチャネル間時間差と呼ぶ。チャネル間関係情報推定部1131は、チャネル間時間差τを、第一チャネル入力音信号X1に対応する復号音信号である第一チャネル復号音信号^X1と第二チャネル入力音信号X2に対応する復号音信号である第二チャネル復号音信号^X2とから、周知の何れの方法で求めてもよく、第2実施形態のチャネル間関係情報推定部1132で説明する方法などで求めればよい。すなわち、上述した相関係数γτは、音源から第一チャネル用のマイクロホンに到達して収音された音信号と、当該音源から第二チャネル用のマイクロホンに到達して収音された音信号と、の相関係数に相当する情報である。
[[[第7例の第nチャネル精製重み推定部1111-n]]]
第7例の第nチャネル精製重み推定部1111-nは、第3例と第5例のステップS1111-3-nに代えて、第3例のステップS1111-1-nまたは第5例のステップSS1111-13-nで得た正規化された内積値rnと、ステップS1111-2-nで得た補正係数cnと、ステップS1131で得たチャネル間相関係数γと、を乗算した値γ×cn×rnを第nチャネル精製重みαnとして得る(ステップS1111-3’-n)。すなわち、第7例の第nチャネル精製重み推定部1111-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であるチャネル間相関係数γと、を乗算した値γ×cn×rnを第nチャネル精製重みαnとして得る。
なお、第nチャネル精製重み推定部1111-nは、第3例から第7例で第nチャネル精製重みαnを得る際に、第nチャネル復号音信号^Xnやモノラル復号音信号^XMの代わりに、これらのそれぞれにフィルタにかけて得られる信号を用いてもよい。当該フィルタは、例えば予め定めたローパスフィルタでもよいし、第nチャネル復号音信号^Xnやモノラル復号音信号^XMを分析して得られる線形予測係数を用いた線形予測フィルタでもよい。フィルタにかけることで、第nチャネル復号音信号^Xnやモノラル復号音信号^XMの各周波数成分に重みをかけることができ、第nチャネル精製重みαnを求めるときに聴感的に重要な周波数成分の寄与を大きくすることができる。
[モノラル符号CMのビット数bMを特定する方法]
モノラル復号部610が用いる復号方式におけるモノラル符号CMのビット数bMが全てのフレームで同じである場合には(すなわち、モノラル復号部610が用いる復号方式が固定ビットレートの復号方式である場合には)、第nチャネル精製重み推定部1111-n内の図示しない記憶部にモノラル符号CMのビット数bMを記憶しておけばよい。モノラル復号部610が用いる復号方式におけるモノラル符号CMのビット数bMがフレームによって異なることがある場合には(すなわち、モノラル復号部610が用いる復号方式が可変ビットレートの復号方式である場合には)、モノラル復号部610がモノラル符号CMのビット数bMを出力するようにして、ビット数bMが第nチャネル精製重み推定部1111-nに入力されるようにすればよい。
[ステレオ符号CSのビット数のうちのビット数bnを特定する方法]
ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnが全てのフレームで同じである場合には、第nチャネル精製重み推定部1111-n内の図示しない記憶部にステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnを記憶しておけばよい。ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnがフレームによって異なることがある場合には、ステレオ復号部620がビット数bnを出力するようにして、ビット数bnが第nチャネル精製重み推定部1111-nに入力されるようにすればよい。ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnが陽に定まっていない場合には、第nチャネル精製重み推定部1111-nは、例えば、下記の第1の方法や第2の方法により得た値をbnとして用いればよい。なお、第1の方法でも第2の方法でも、ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsが全てのフレームで同じである場合には、第nチャネル精製重み推定部1111-n内の図示しない記憶部にステレオ符号CSのビット数bSを記憶しておけばよく、ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsがフレームによって異なることがある場合には、ステレオ復号部620がビット数bSを出力するようにして、ビット数bSが第nチャネル精製重み推定部1111-nに入力されるようにすればよい。
[[ステレオ符号CSのビット数のうちのビット数bnを特定する第1の方法]]
第nチャネル精製重み推定部1111-nは、ステレオ符号CSのビット数bsをチャネル数で除算して得られる値(すなわち、2チャネルステレオの場合には、bs/2、bsの2分の1)をbnとして用いる。すなわち、ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsが全てのフレームで同じである場合には、第nチャネル精製重み推定部1111-n内の図示しない記憶部にステレオ符号CSのビット数bSをチャネル数で除算して得た値をビット数bnとして記憶しておけばよい。ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsがフレームによって異なることがある場合には、第nチャネル精製重み推定部1111-nがビット数bsをチャネル数で除算した値をbnとして得るようにすればよい。
[[ステレオ符号CSのビット数のうちのビット数bnを特定する第2の方法]]
第nチャネル精製重み推定部1111-nは、音信号精製装置1101に入力された全チャネルの復号音信号を用いて、ステレオ符号CSのビット数bsをチャネル数で除算して得た値と、第nチャネルの復号音信号^Xnのエネルギーと全チャネルの復号音信号のエネルギーの相乗平均との比の対数値に比例する値と、を加算した値をbnとして得る。一般にステレオ符号化では、各チャネルの入力音信号に対して各信号のエネルギーの対数値に比例したビット数を割り当てることで効率よく圧縮を行うことができる。このことから、ステレオ符号化部530が用いる符号化方式とステレオ復号部620が用いる復号方式においてもステレオ符号CSにおいて前述したビット数の割り当てがされていると想定してビット数bnを推定するのが第2の方法である。より具体的には、例えば、第nチャネル精製重み推定部1111-nは、第1チャネル復号音信号^X1のエネルギーe1と第2チャネルの復号音信号^X2のエネルギーe2を用いた下記の式(12)によりビット数bnを得ればよい。
Figure 0007491393000012
[第1実施形態の変形例]
音信号精製装置1101がチャネル間相関係数γを用いる場合でも、復号装置600のステレオ復号部620がチャネル間相関係数γを得た場合には、音信号精製装置1101にはチャネル間関係情報推定部1131を備えずに、復号装置600のステレオ復号部620が得たチャネル間相関係数γが音信号精製装置1101に入力されるようにして、音信号精製装置1101は入力されたチャネル間相関係数γを用いるようにしてもよい。
また、音信号精製装置1101がチャネル間相関係数γを用いる場合でも、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力したチャネル間関係情報符号CCにチャネル間相関係数γを表す符号が含まれる場合には、音信号精製装置1101にはチャネル間関係情報推定部1131を備えずに、チャネル間関係情報符号CCに含まれるチャネル間相関係数γを表す符号が音信号精製装置1101に入力されるようにして、音信号精製装置1101には図示しないチャネル間関係情報復号部を備えて、チャネル間関係情報復号部がチャネル間相関係数γを表す符号を復号してチャネル間相関係数γを得て出力するようにしてもよい。
<第2実施形態>
第2実施形態の音信号精製装置も、第1実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第2実施形態の音信号精製装置が第1実施形態の音信号精製装置と異なる点は、モノラルの復号音信号そのものではなく、モノラルの復号音信号を各チャネル用にアップミックスした信号を用いることである。以下、第2実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第1実施形態の音信号精製装置と異なる点を中心に説明する。
≪音信号精製装置1102≫
第2実施形態の音信号精製装置1102は、図5に例示する通り、チャネル間関係情報推定部1132とモノラル復号音アップミックス部1172と第一チャネル精製重み推定部1112-1と第一チャネル信号精製部1122-1と第二チャネル精製重み推定部1112-2と第二チャネル信号精製部1122-2を含む。音信号精製装置1102は、各フレームについて、図6に例示する通り、ステップS1132とステップS1172と、各チャネルについてのステップS1112-nとステップS1122-nと、を行う。
[チャネル間関係情報推定部1132]
チャネル間関係情報推定部1132には、音信号精製装置1102に入力された第一チャネル復号音信号^X1と、音信号精製装置1102に入力された第二チャネル復号音信号^X2と、が少なくとも入力される。チャネル間関係情報推定部1132は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いてチャネル間関係情報を得て出力する(ステップS1132)。チャネル間関係情報は、ステレオのチャネル間の関係を表す情報である。チャネル間関係情報の例は、チャネル間時間差τ、チャネル間相関係数γ、である。チャネル間関係情報推定部1132は、複数種類のチャネル間関係情報を得てもよく、例えばチャネル間時間差τとチャネル間相関係数γを得てもよい。
チャネル間時間差τは、ある空間に配置した第一チャネル用のマイクロホンで収音した音をAD変換して得られた音信号が第一チャネル入力音信号X1であり、当該空間に配置した第二チャネル用のマイクロホンで収音した音をAD変換して得られた音信号が第二チャネル入力音信号X2である、と仮定したときの、当該空間で主に音を発している音源から第一チャネル用のマイクロホンへの到達時間と、当該音源から第二チャネル用のマイクロホンへの到達時間と、の差(いわゆる到来時間差)に相当する情報である。なお、到来時間差だけではなく、どちらのマイクロホンに早く到達しているかに相当する情報もチャネル間時間差τに含めるために、チャネル間時間差τは、何れか一方の音信号を基準として正の値も負の値も取り得るものとする。チャネル間関係情報推定部1132は、チャネル間時間差τを、第一チャネル入力音信号X1に対応する復号音信号である第一チャネル復号音信号^X1と第二チャネル入力音信号X2に対応する復号音信号である第二チャネル復号音信号^X2とから得る。すなわち、チャネル間関係情報推定部1132が得るチャネル間時間差τは、同じ音信号が第一チャネル復号音信号^X1と第二チャネル復号音信号^X2のどちらにどれくらい先に含まれているかを表す情報である。以下では、同じ音信号が第二チャネル復号音信号^X2よりも第一チャネル復号音信号^X1に先に含まれている場合には、第一チャネルが先行しているともいい、同じ音信号が第一チャネル復号音信号^X1よりも第二チャネル復号音信号^X2に先に含まれている場合には、第二チャネルが先行しているともいう。
チャネル間関係情報推定部1132は、チャネル間時間差τを周知の何れの方法で求めてもよい。例えば、チャネル間関係情報推定部1132は、予め定めたτmaxからτminまで(例えば、τmaxは正の数、τminは負の数)の各候補サンプル数τcandについて、第一チャネル復号音信号^X1のサンプル列と、候補サンプル数τcand分だけ当該サンプル列より後にずれた位置にある第二チャネル復号音信号^X2のサンプル列と、の相関の大きさを表す値(以下、相関値という)γcandを計算して、相関値γcandが最大となる候補サンプル数τcandをチャネル間時間差τとして得る。すなわち、この例では、第一チャネルが先行している場合にはチャネル間時間差τは正の値であり、第二チャネルが先行している場合にはチャネル間時間差τは負の値である。すなわち、チャネル間時間差τの絶対値|τ|は、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|であり、先行しているチャネルがもう一方のチャネルに対してどれくらい先行しているかを表す値(先行しているサンプル数)である。また、チャネル間時間差τが正の値であるか負の値であるかは、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報である。したがって、チャネル間関係情報推定部1132は、チャネル間時間差τに代えて、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報と、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報と、を得てもよい。
例えば、チャネル間関係情報推定部1132は、フレーム内のサンプルのみを用いて相関値γcandを計算する場合には、τcandが正の値の場合には、第二チャネル復号音信号^X2の部分サンプル列{^x2(1+τcand), ^x2(2+τcand), ..., ^x2(T)}と、候補サンプル数τcand分だけ当該部分サンプル列より前にずれた位置にある第一チャネル復号音信号^X1の部分サンプル列{^x1(1), ^x1(2), ..., ^x1(T-τcand)}と、の相関係数の絶対値を相関値γcandとして計算し、τcandが負の値の場合には、第一チャネル復号音信号^X1の部分サンプル列{^x1(1-τcand), ^x1(2-τcand), ..., ^x1(T)}と、候補サンプル数(-τcand)分だけ当該部分サンプル列より前にずれた位置にある第二チャネル復号音信号^X2の部分サンプル列{^x2(1), ^x2(2), ..., ^x2(T+τcand)}と、の相関係数の絶対値を相関値γcandとして計算すればよい。もちろん、相関値γcandを計算するために現在のフレームの復号音信号のサンプル列に連続する過去の復号音信号の1個以上のサンプルも用いてもよく、この場合には、チャネル間関係情報推定部1132は、過去のフレームの復号音信号のサンプル列を予め定めたフレーム数分だけチャネル間関係情報推定部1132内の図示しない記憶部に記憶しておくようにすればよい。
また例えば、相関係数の絶対値に代えて、以下のように信号の位相の情報を用いて相関値γcandを計算してもよい。この例においては、チャネル間関係情報推定部1132は、まず、第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}を下記の式(21)のようにフーリエ変換することにより、0からT-1の各周波数kにおける周波数スペクトルf1(k)を得る。
Figure 0007491393000013

チャネル間関係情報推定部1132は、また、第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}を下記の式(22)のようにフーリエ変換することにより、0からT-1の各周波数kにおける周波数スペクトルf2(k)を得る。
Figure 0007491393000014

チャネル間関係情報推定部1132は、次に、0からT-1の各周波数kの周波数スペクトルf1(k)とf2(k)を用いて、下記の式(23)により、各周波数kにおける位相差のスペクトルφ(k)を得る。
Figure 0007491393000015

チャネル間関係情報推定部1132は、次に、0からT-1の位相差のスペクトルを逆フーリエ変換することにより、下記の式(24)のようにτmaxからτminまでの各候補サンプル数τcandについて位相差信号ψ(τcand)を得る。
Figure 0007491393000016

ここで得られた位相差信号ψ(τcand)の絶対値は、第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}の時間差の尤もらしさに対応したある種の相関を表すものである。そこで、チャネル間関係情報推定部1132は、次に、各候補サンプル数τcandに対する位相差信号ψ(τcand)の絶対値を相関値γcandとして得る。チャネル間関係情報推定部1132は、次に、位相差信号ψ(τcand)の絶対値である相関値γcandが最大となる候補サンプル数τcandをチャネル間時間差τとして得る。
なお、チャネル間関係情報推定部1132は、相関値γcandとして位相差信号ψ(τcand)の絶対値をそのまま用いることに代えて、例えば各τcandについて位相差信号ψ(τcand)の絶対値に対するτcand前後にある複数個の候補サンプル数それぞれについて得られた位相差信号の絶対値の平均との相対差のように、正規化された値を用いてもよい。具体的には、チャネル間関係情報推定部1132は、各τcandについて、予め定めた正の数τrangeを用いて、下記の式(25)により平均値を得て、得られた平均値ψccand)と位相差信号ψ(τcand)を用いて下記の式(26)により得られる正規化された相関値をγcandとして得てもよい。
Figure 0007491393000017

Figure 0007491393000018

なお、式(26)により得られる正規化された相関値は、0以上1以下の値であり、τcandがチャネル間時間差として尤もらしいほど1に近く、τcandがチャネル間時間差として尤もらしくないほど0に近い性質を示す値である。
予め定めた各候補サンプル数は、τmaxからτminまでの各整数値であってもよいし、τmaxからτminまでの間にある分数値や小数値を含んでいてもよいし、τmaxからτminまでの間にある何れかの整数値を含まないでもよい。また、τmax=-τminであってもよいし、そうでなくてもよい。また、何れかのチャネルが必ず先行しているような特殊な復号音信号を対象とする場合には、τmaxもτminも正の数としたり、τmaxもτminも負の数としたりしてもよい。
なお、音信号精製装置1102が第1実施形態で説明した第7例で第nチャネル精製重みαnを得る場合には、チャネル間関係情報推定部1132は、さらに、第一チャネル復号音信号のサンプル列と、チャネル間時間差τ分だけ当該サンプル列より後にずれた位置にある第二チャネル復号音信号のサンプル列と、の相関値、すなわち、τmaxからτminまでの各候補サンプル数τcandについて計算した相関値γcandのうちの最大値、をチャネル間相関係数γとして出力する。
また例えば、チャネル間関係情報推定部1132は、モノラル復号音信号も用いてチャネル間相関係数γを得てもよい。この場合には、図5に二点鎖線で示すように、音信号精製装置1102に入力されたモノラル復号音信号も、チャネル間関係情報推定部1132に入力される。チャネル間関係情報推定部1132は、第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と、第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}と、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}を用いて、モノラル復号音信号^XMを第一チャネル復号音信号^X1と第二チャネル復号音信号^X2との重み付き和で近似するとしたときの最も適切な重みをチャネル間相関係数γとして得てもよい。つまり、チャネル間関係情報推定部1132は、-1以上1以下のwcandのうち下記の式(27)により得られる値が最小となる重みwcandをチャネル間相関係数γとして得てもよい。
Figure 0007491393000019

チャネル間の相関が高い場合、つまり、符号化装置500に入力された第一チャネル入力音信号と符号化装置500に入力された第二チャネル入力音信号が時間差を合わせれば似た波形である場合には、符号化装置500のダウンミックス部510において効率よくダウンミックスがされていると想定すると、モノラル復号音信号は、第一チャネル復号音信号と第二チャネル復号音信号のうち先行するチャネルの復号音信号と時間的に同期する信号を多く含む。したがって、式(27)により得られるチャネル間相関係数γは、第一チャネル復号音信号に含まれる音信号が先行している場合には1に近い値であり、第二チャネル復号音信号に含まれる音信号が先行している場合には-1に近い値であり、チャネル間の相関が低いほど絶対値が小さくなる。このことから、式(27)により得られる値が最小となる重みwcandをチャネル間相関係数γとして用いることができる。なお、この方法では、チャネル間関係情報推定部1132は、チャネル間時間差τを得ずにチャネル間相関係数γを得ることが可能である。
[モノラル復号音アップミックス部1172]
モノラル復号音アップミックス部1172には、音信号精製装置1102に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、チャネル間関係情報推定部1132が出力したチャネル間関係情報と、が入力される。モノラル復号音アップミックス部1172は、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}とチャネル間関係情報を用いたアップミックス処理を行うことにより、モノラル復号音信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}を得て出力する(ステップS1172)。モノラル復号音アップミックス部1172が用いるチャネル間関係情報は、ステレオのチャネル間の関係を表す情報であり、1種類であっても複数種類であってもよい。モノラル復号音アップミックス部1172は、例えば以下のように、チャネル間時間差τ、または、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報と第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報と、を用いたアップミックス処理を行えばよい。
[[チャネル間時間差τを用いたアップミックス処理の例]]
モノラル復号音アップミックス部1172は、第一チャネルが先行している場合(すなわち、チャネル間時間差τが正の値である場合、または、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報が第一チャネルが先行していることを表す場合)には、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}をそのまま第一チャネルアップミックス済モノラル復号音信号^XM1={^xM1(1), ^xM1(2), ..., ^xM1(T)}として出力し、モノラル復号音信号を|τ|サンプル(チャネル間時間差τの絶対値分のサンプル数、チャネル間時間差τが表す大きさ分のサンプル数)遅らせた信号{^xM(1-|τ|), ^xM(2-|τ|), ..., ^xM(T-|τ|)}を第二チャネルアップミックス済モノラル復号音信号^XM2={^xM2(1), ^xM2(2), ..., ^xM2(T)}として出力する。モノラル復号音アップミックス部1172は、第二チャネルが先行している場合(すなわち、チャネル間時間差τが負の値である場合、または、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報が第二チャネルが先行していることを表す場合)には、モノラル復号音信号を|τ|サンプル遅らせた信号{^xM(1-|τ|), ^xM(2-|τ|), ..., ^xM(T-|τ|)}を第一チャネルアップミックス済モノラル復号音信号^XM1={^xM1(1), ^xM1(2), ..., ^xM1(T)}として出力し、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}をそのまま第二チャネルアップミックス済モノラル復号音信号^XM2={^xM2(1), ^xM2(2), ..., ^xM2(T)}として出力する。モノラル復号音アップミックス部1172は、何れのチャネルも先行していない場合(すなわち、チャネル間時間差τが0である場合、または、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報が何れのチャネルも先行していないことを表す場合)には、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}をそのまま第一チャネルアップミックス済モノラル復号音信号^XM1={^xM1(1), ^xM1(2), ..., ^xM1(T)}と第二チャネルアップミックス済モノラル復号音信号^XM2={^xM2(1), ^xM2(2), ..., ^xM2(T)}として出力する。すなわち、モノラル復号音アップミックス部1172は、第一チャネルと第二チャネルのうちの上述した到達時間が短いほうのチャネルについては、入力されたモノラル復号音信号をそのまま当該チャネルのアップミックス済モノラル復号音信号として出力し、第一チャネルと第二チャネルのうちの上述した到達時間が長いほうのチャネルについては、入力されたモノラル復号音信号をチャネル間時間差τの絶対値|τ|だけ遅らせた信号を当該チャネルのアップミックス済モノラル復号音信号として出力する。なお、モノラル復号音アップミックス部1172ではモノラル復号音信号を遅延させた信号を得るために過去のフレームのモノラル復号音信号を用いることから、モノラル復号音アップミックス部1172内の図示しない記憶部には、過去のフレームで入力されたモノラル復号音信号を予め定めたフレーム数分だけ記憶しておく。
[第nチャネル精製重み推定部1112-n]
第nチャネル精製重み推定部1112-nは、第nチャネル精製重みαnを得て出力する(ステップS1112-n)。第nチャネル精製重み推定部1112-nは、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法と同様の方法で、第nチャネル精製重みαnを得る。第nチャネル精製重み推定部1112-nが得る第nチャネル精製重みαnは、0以上1以下の値である。ただし、第nチャネル精製重み推定部1112-nは、フレームごとに後述する方法で第nチャネル精製重みαnを得るので、全てのフレームで第nチャネル精製重みαnが0や1になることはない。すなわち、第nチャネル精製重みαnが0より大きく1未満の値となるフレームが存在する。言い換えると、全てのフレームのうちの少なくとも何れかのフレームでは、第nチャネル精製重みαnは0より大きく1未満の値である。
具体的には、下記の第1例から第7例のように、第nチャネル精製重み推定部1112-nは、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法においてモノラル復号音信号^XMを用いている箇所は、モノラル復号音信号^XMに代えて第nチャネルアップミックス済モノラル復号音信号^XMnを用いて、第nチャネル精製重みαnを得る。当然ながら、第nチャネル精製重み推定部1112-nは、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法においてモノラル復号音信号^XMに基づいて得られる値を用いている箇所は、モノラル復号音信号^XMに基づいて得られる値に代えて第nチャネルアップミックス済モノラル復号音信号^XMnに基づいて得られる値を用いる。例えば、第nチャネル精製重み推定部1112-nは、現在のフレームのモノラル復号音信号のエネルギーEM(0)に代えて現在のフレームの第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を用い、前のフレームのモノラル復号音信号のエネルギーEM(-1)に代えて前のフレームの第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)を用いる。
[[第1例]]
第1例の第nチャネル精製重み推定部1112-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて、下記の式(2-5)により第nチャネル精製重みαnを得る。
Figure 0007491393000020
[[第2例]]
第2例の第nチャネル精製重み推定部1112-nは、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を少なくとも用いて、0より大きく1未満の値であり、bnとbMが等しいときには0.5であり、bnがbMよりも多いほど0.5より0に近い値であり、bMがbnよりも多いほど0.5より1に近い値を、第nチャネル精製重みαnとして得る。
[[第3例]]
第3例の第nチャネル精製重み推定部1112-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて
Figure 0007491393000021

より得られる補正係数cnと、第nチャネル復号音信号^Xnの第nチャネルアップミックス済モノラル復号音信号^XMnに対する正規化された内積値rnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
第3例の第nチャネル精製重み推定部1112-nは、例えば、下記のステップS1112-31-nからステップS1112-33-nを行うことで第nチャネル精製重みαnを得る。第nチャネル精製重み推定部1112-nは、まず、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}から、下記の式(2-6)により第nチャネル復号音信号^Xnの第nチャネルアップミックス済モノラル復号音信号^XMnに対する正規化された内積値rnを得る(ステップS1112-31-n)。
Figure 0007491393000022

第nチャネル精製重み推定部1112-nは、また、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて、式(2-8)により補正係数cnを得る(ステップS1112-32-n)。第nチャネル精製重み推定部1112-nは、次に、ステップS1112-31-nで得た正規化された内積値rnとステップS1112-32-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαnとして得る(ステップS1112-33-n)。
[[第4例]]
第4例の第nチャネル精製重み推定部1112-nは、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数をbnとし、モノラル符号CMのビット数をbMとして、0以上1以下の値であり、第nチャネル復号音信号^Xnと第nチャネルアップミックス済モノラル復号音信号^XMnの間の相関が高いほど1に近い値であり、当該相関が低いほど0に近い値であるrnと、0より大きく1未満の値であり、bnとbMが同じであるときには0.5であり、bnがbMよりも多いほど0.5より0に近く、bnがbMよりも少ないほど0.5より1に近い値である補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
[[第5例]]
第5例の第nチャネル精製重み推定部1112-nは、例えば、下記のステップS1112-51-nからステップS1112-55-nを行うことで第nチャネル精製重みαnを得る。
第nチャネル精製重み推定部1112-nは、まず、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、前のフレームで用いた内積値En(-1)と、を用いて、下記の式(2-9)により、現在のフレームで用いる内積値En(0)を得る(ステップS1112-51-n)。
Figure 0007491393000023

ここで、εnは、0より大きく1未満の予め定めた値であり、第nチャネル精製重み推定部1112-n内に予め記憶されている。なお、第nチャネル精製重み推定部1112-nは、得た内積値En(0)を、「前のフレームで用いた内積値En(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1112-n内に記憶する。
第nチャネル精製重み推定部1112-nは、また、第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、前のフレームで用いた第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)と、を用いて、下記の式(2-10)により、現在のフレームで用いる第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を得る(ステップS1112-52-n)。
Figure 0007491393000024

ここで、εMnは、0より大きく1未満で予め定めた値であり、第nチャネル精製重み推定部1112-n内に予め記憶されている。なお、第nチャネル精製重み推定部1112-nは、得た第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を、「前のフレームで用いた第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1112-n内に記憶する。
第nチャネル精製重み推定部1112-nは、次に、ステップS1112-51-nで得た現在のフレームで用いる内積値En(0)と、ステップS1112-52-nで得た現在のフレームで用いる第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を用いて、正規化された内積値rnを下記の式(2-11)で得る(ステップS1112-53-n)。
Figure 0007491393000025
第nチャネル精製重み推定部1112-nは、また、式(2-8)により補正係数cMを得る(ステップS1112-54-n)。第nチャネル精製重み推定部1112-nは、次に、ステップS1112-53-nで得た正規化された内積値rnとステップS1112-54-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαnとして得る(ステップS1112-55-n)。
すなわち、第5例の第nチャネル精製重み推定部1112-nは、第nチャネル復号音信号^Xnの各サンプル値^xn(t)と第nチャネルアップミックス済モノラル復号音信号^XMnの各サンプル値^xMn(t)と前フレームの内積値En(-1)とを用いて式(2-9)により得られる内積値En(0)と、第nチャネルアップミックス済モノラル復号音信号^XMnの各サンプル値^xMn(t)と前フレームの第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)とを用いて式(2-10)により得られる第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)と、を用いて式(2-11)により得られる正規化された内積値rnと、フレーム当たりのサンプル数Tとステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnとモノラル符号CMのビット数bMとを用いて式(2-8)により得られる補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
[[第6例]]
第6例の第nチャネル精製重み推定部1112-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、0より大きく1未満の予め定めた値であるλと、を乗算した値λ×cn×rnを第nチャネル精製重みαnとして得る。
[[第7例]]
第7例の第nチャネル精製重み推定部1112-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であるチャネル間相関係数γと、を乗算した値γ×cn×rnを第nチャネル精製重みαnとして得る。
[第nチャネル信号精製部1122-n]
第nチャネル信号精製部1122-nには、音信号精製装置1102に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、モノラル復号音アップミックス部1172が出力した第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、第nチャネル精製重み推定部1112-nが出力した第nチャネル精製重みαnと、が入力される。第nチャネル信号精製部1122-nは、対応するサンプルtごとに、第nチャネル精製重みαnと第nチャネルアップミックス済モノラル復号音信号^XMnのサンプル値^xMn(t)とを乗算した値αn×^xMn(t)と、第nチャネル精製重みαnを1から減算した値(1-αn)と第nチャネル復号音信号^Xnのサンプル値^xn(t)とを乗算した値(1-αn)×^xn(t)と、を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn (2), ..., ~xn(T)}として得て出力する(ステップS1122-n)。すなわち、~xn(t)=(1-αn)×^xn(t)+αn×^xMn(t)である。
<第3実施形態>
第3実施形態の音信号精製装置も、第1実施形態と第2実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第3実施形態の音信号精製装置が第2実施形態の音信号精製装置と異なる点は、チャネル間関係情報を復号音信号からではなく符号から得ることである。以下、第3実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第2実施形態の音信号精製装置と異なる点を説明する。
≪音信号精製装置1103≫
第3実施形態の音信号精製装置1103は、図7に例示する通り、チャネル間関係情報復号部1143とモノラル復号音アップミックス部1172と第一チャネル精製重み推定部1112-1と第一チャネル信号精製部1122-1と第二チャネル精製重み推定部1112-2と第二チャネル信号精製部1122-2を含む。音信号精製装置1103は、各フレームについて、図8に例示する通り、ステップS1143とステップS1172と、各チャネルについてのステップS1112-nとステップS1122-nと、を行う。第3実施形態の音信号精製装置1103が第2実施形態の音信号精製装置1102と異なる点は、チャネル間関係情報推定部1132に代えてチャネル間関係情報復号部1143を備えて、ステップS1132に代えてステップS1143を行うことである。また、第3実施形態の音信号精製装置1103には、各フレームのチャネル間関係情報符号CCも入力される。チャネル間関係情報符号CCは、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力した符号であってもよいし、上述した符号化装置500のステレオ符号化部530が得て出力したステレオ符号CSに含まれる符号であってもよい。以下、第3実施形態の音信号精製装置1103が第2実施形態の音信号精製装置1102と異なる点について説明する。
[チャネル間関係情報復号部1143]
チャネル間関係情報復号部1143には、音信号精製装置1103に入力されたチャネル間関係情報符号CCが入力される。チャネル間関係情報復号部1143は、チャネル間関係情報符号CCを復号してチャネル間関係情報を得て出力する(ステップS1143)。チャネル間関係情報復号部1143が得るチャネル間関係情報は、第2実施形態のチャネル間関係情報推定部1132が得るチャネル間関係情報と同じである。
[第3実施形態の変形例]
チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、ステップS1143で得られるのと同じチャネル間関係情報が、復号装置600のステレオ復号部620内で復号により得られている。したがって、チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、復号装置600のステレオ復号部620が得たチャネル間関係情報が第3実施形態の音信号精製装置1103に入力されるようにして、第3実施形態の音信号精製装置1103はチャネル間関係情報復号部1143を備えずにステップS1143を行わないようにしてもよい。
また、チャネル間関係情報符号CCの一部だけがステレオ符号CSに含まれる符号である場合には、チャネル間関係情報符号CCのうちのステレオ符号CSに含まれる符号を復号装置600のステレオ復号部620が復号して得たチャネル間関係情報が第3実施形態の音信号精製装置1103に入力されるようにして、第3実施形態の音信号精製装置1103のチャネル間関係情報復号部1143は、ステップS1143として、チャネル間関係情報符号CCのうちのステレオ符号CSに含まれない符号を復号して、音信号精製装置1103に入力されなかったチャネル間関係情報を得て出力するようにすればよい。
また、音信号精製装置1103の各部が用いるチャネル間関係情報のうちの一部に対応する符号がチャネル間関係情報符号CCに含まれない場合には、第3実施形態の音信号精製装置1103にはチャネル間関係情報推定部1132も備えて、チャネル間関係情報推定部1132がステップS1132も行うようにすればよい。この場合には、チャネル間関係情報推定部1132は、ステップS1132として、音信号精製装置1103の各部が用いるチャネル間関係情報のうちのチャネル間関係情報符号CCを復号しても得られないチャネル間関係情報を、第2実施形態のステップS1132と同様に得て出力すればよい。
<第4実施形態>
第4実施形態の音信号精製装置も、第1実施形態から第3実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。以下、第4実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、上述した各実施形態の音信号精製装置を適宜参照して説明する。
第4実施形態の音信号精製装置1201は、図9に例示する通り、復号音共通信号推定部1251と共通信号精製重み推定部1211と共通信号精製部1221と第一チャネル分離結合重み推定部1281-1と第一チャネル分離結合部1291-1と第二チャネル分離結合重み推定部1281-2と第二チャネル分離結合部1291-2を含む。音信号精製装置1201は、例えば20msの所定の時間長のフレーム単位で、ステレオの復号音の全チャネルに共通する信号である復号音共通信号について、復号音共通信号とモノラル復号音信号から、復号音共通信号を改善した音信号である精製済共通信号を得て、ステレオの各チャネルについて、復号音共通信号と精製済共通信号と当該チャネルの復号音信号とから、当該チャネルの復号音信号を改善した音信号である精製済復号音信号を得て出力する。音信号精製装置1201にフレーム単位で入力される各チャネルの復号音信号は、例えば、上述した復号装置600のステレオ復号部620が、モノラル符号CMを復号して得られた情報もモノラル符号CMも用いずに、モノラル符号CMとは異なる符号であるbSビットのステレオ符号CSを復号して得たTサンプルの第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}とTサンプルの第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}である。音信号精製装置1201にフレーム単位で入力されるモノラルの復号音信号は、例えば、上述した復号装置600のモノラル復号部610が、ステレオ符号CSを復号して得られた情報もステレオ符号CSも用いずに、ステレオ符号CSとは異なる符号であるbMビットのモノラル符号CMを復号して得たTサンプルのモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}である。モノラル符号CMは、ステレオ符号CSが由来する音信号と同じ音信号(すなわち、符号化装置500に入力された第一チャネル入力音信号X1と第二チャネル入力音信号X2)に由来する符号ではあるが、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を得る元となった符号(すなわち、ステレオ符号CS)とは異なる符号である。第一チャネルのチャネル番号nを1とし、第二チャネルのチャネル番号nを2とすると、音信号精製装置1201は、各フレームについて、図10に例示する通り、ステップS1251とステップS1211とステップS1221と、各チャネルについてのステップS1281-nとステップS1291-nと、を行う。
[復号音共通信号推定部1251]
復号音共通信号推定部1251には、音信号精製装置1201に入力された第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}が少なくとも入力される。復号音共通信号推定部1251は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いて、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}を得て出力する(ステップS1251)。復号音共通信号推定部1251は、例えば、下記の何れかの方法を用いればよい。
[[復号音共通信号を得る第1の方法]]
第1の方法では、復号音共通信号推定部1251は、音信号精製装置1201に入力されたモノラル復号音信号^XMも用いて、復号音共通信号^YMを得て出力する。すなわち、第1の方法を用いる場合には、復号音共通信号推定部1251には、音信号精製装置1201に入力された第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}とモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}が入力される。復号音共通信号推定部1251は、まず、ステレオの全チャネルの復号音信号の重み付き平均(第1から第Nまでの全チャネルの復号音信号^X1, ..., ^XNの重み付き平均)とモノラル復号音信号の差が最小となる重み係数を得る(ステップS1251A-1)。例えば、復号音共通信号推定部1251は、-1以上1以下のwcandのうち下記の式(41)により得られる値が最小となるwcandを重み係数wとして得る。
Figure 0007491393000026

復号音共通信号推定部1251は、次に、ステップS1251A-1で得た重み係数を用いたステレオの全チャネルの復号音信号の重み付き平均(第1から第Nまでの全チャネルの復号音信号^X1, ..., ^XNの重み付き平均)を復号音共通信号として得る(ステップS1251A-2)。例えば、復号音共通信号推定部1251は、各サンプル番号tについて、下記の式(42)により復号音共通信号^yM(t)を得る。
Figure 0007491393000027
[[復号音共通信号を得る第2の方法]]
第2の方法は、符号化装置500のダウンミックス部510が[[ダウンミックス信号を得る第2の方法]]でダウンミックス信号を得た場合に対応する方法である。第2の方法では、復号音共通信号推定部1251は、後述するステップS1251Bを行うことで復号音共通信号^YMを得る。第2の方法を用いる場合には、音信号精製装置1201は、後述するステップS1251Bで用いるチャネル間相関係数γと先行チャネル情報を得るために、図9に破線で示すようにチャネル間関係情報推定部1231も含み、復号音共通信号推定部1251がステップS1251Bを行う前にチャネル間関係情報推定部1231が下記のステップS1231を行う。
[[[チャネル間関係情報推定部1231]]]
チャネル間関係情報推定部1231には、音信号精製装置1201に入力された第一チャネル復号音信号^X1と、音信号精製装置1201に入力された第二チャネル復号音信号^X2と、が少なくとも入力される。チャネル間関係情報推定部1231は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いてチャネル間相関係数γと先行チャネル情報をチャネル間関係情報として得て出力する(ステップS1231)。チャネル間相関係数γは、第一チャネル復号音信号と第二チャネル復号音信号の相関係数である。先行チャネル情報は、第一チャネルと第二チャネルの何れが先行しているかを表す情報である。例えば、チャネル間関係情報推定部1231は、下記のステップS1231-1からステップS1231-3を行う。
チャネル間関係情報推定部1231は、まず、第2実施形態のチャネル間関係情報推定部1132の説明箇所で例示した方法でチャネル間時間差τを得る(ステップS1231-1)。チャネル間関係情報推定部1231は、次に、第一チャネル復号音信号と、チャネル間時間差τ分だけ当該サンプル列より後にずれた位置にある第二チャネル復号音信号のサンプル列と、の相関値、すなわち、τmaxからτminまでの各候補サンプル数τcandについて計算した相関値γcandのうちの最大値、をチャネル間相関係数γとして得て出力する(ステップS1231-2)。チャネル間関係情報推定部1231は、また、チャネル間時間差τが正の値である場合には、第一チャネルが先行していることを表す情報を先行チャネル情報として得て出力し、チャネル間時間差τが負の値である場合には、第二チャネルが先行していることを表す情報を先行チャネル情報として得て出力する(ステップS1231-3)。チャネル間関係情報推定部1231は、チャネル間時間差τが0である場合には、第一チャネルが先行していることを表す情報を先行チャネル情報として得て出力してもよいし、第二チャネルが先行していることを表す情報を先行チャネル情報として得て出力してもよいが、何れのチャネルも先行していないことを表す情報を先行チャネル情報として得て出力するとよい。
[[[復号音共通信号推定部1251]]]
復号音共通信号推定部1251には、音信号精製装置1201に入力された第一チャネル復号音信号^X1と、音信号精製装置1201に入力された第二チャネル復号音信号^X2と、チャネル間関係情報推定部1231が出力したチャネル間相関係数γと、チャネル間関係情報推定部1231が出力した先行チャネル情報と、が入力される。復号音共通信号推定部1251は、復号音共通信号^YMに、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2のうちの先行しているチャネルの復号音信号のほうが、チャネル間相関係数γが大きいほど大きく含まれるように、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を重み付け平均して復号音共通信号^YMを得て出力する(S1251B)。
例えば、復号音共通信号推定部1251は、対応する各サンプル番号tに対して、チャネル間相関係数γで定まる重みを用いて第一チャネル復号音信号^x1(t)と第二チャネル復号音信号^x2(t)を重み付け加算したものを復号音共通信号^yM(t)とすればよい。具体的には、復号音共通信号推定部1251は、先行チャネル情報が第一チャネルが先行していることを表す情報である場合、すなわち、第一チャネルが先行している場合には、各サンプル番号tについて、^yM(t)=((1+γ)/2)×^x1(t)+((1-γ)/2)×^x2(t)を復号音共通信号^yM(t)として得ればよい。すなわち、復号音共通信号推定部1251は、第一チャネルが先行している場合には、^yM(t)=((1+γ)/2)×^x1(t)+((1-γ)/2)×^x2(t)による系列を復号音共通信号^YMとして得ればよい。復号音共通信号推定部1251は、先行チャネル情報が第二チャネルが先行していることを表す情報である場合、すなわち、第二チャネルが先行している場合には、各サンプル番号tについて、^yM(t)=((1-γ)/2)×^x1(t)+((1+γ)/2)×^x2(t)を復号音共通信号^yM(t)として得ればよい。すなわち、復号音共通信号推定部1251は、第二チャネルが先行している場合には、^yM(t)=((1-γ)/2)×^x1(t)+((1+γ)/2)×^x2(t)による系列を復号音共通信号^YMとして得ればよい。なお、復号音共通信号推定部1251は、先行チャネル情報が何れのチャネルも先行していないことを表す場合には、各サンプル番号tについて、第一チャネル復号音信号^x1(t)と第二チャネル復号音信号^x2(t)を平均した^yM(t)=(^x1(t)+^x2(t))/2を復号音共通信号^yM(t)として得ればよい。すなわち、復号音共通信号推定部1251は、何れのチャネルも先行していない場合には、^yM(t)=(^x1(t)+^x2(t))/2による系列を復号音共通信号^YMとして得ればよい。
[共通信号精製重み推定部1211]
共通信号精製重み推定部1211は、共通信号精製重みαMを得て出力する(ステップ1211)。共通信号精製重み推定部1211は、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法と同様の方法で、共通信号精製重みαMを得る。共通信号精製重み推定部1211が得る共通信号精製重みαMは、0以上1以下の値である。ただし、共通信号精製重み推定部1211は、フレームごとに後述する方法で共通信号精製重みαMを得るので、全てのフレームで共通信号精製重みαMが0や1になることはない。すなわち、共通信号精製重みαMが0より大きく1未満の値となるフレームが存在する。言い換えると、全てのフレームのうちの少なくとも何れかのフレームでは、共通信号精製重みαMは0より大きく1未満の値である。
具体的には、下記の第1例から第7例のように、共通信号精製重み推定部1211は、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法において第nチャネル復号音信号^Xnを用いている箇所は、第nチャネル復号音信号^Xnに代えて復号音共通信号^YMを用いて、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法においてステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnを用いている箇所は、ビット数bnに代えてステレオ符号CSのビット数のうちの共通信号に相当するビット数bmを用いて、共通成分信号重みαMを得る。すなわち、下記の第1例から第7例ではモノラル符号CMのビット数bMとステレオ符号CSのビット数のうちの共通信号に相当するビット数bmを用いる。モノラル符号CMのビット数bMを特定する方法は第1実施形態と同じであるので、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmを特定する方法を第1例から第7例を説明する前に説明する。共通信号精製重み推定部1211には、必要に応じて、図9に一点鎖線で示すように、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、音信号精製装置1101に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、が入力される。
[ステレオ符号CSのビット数のうちのビット数bmを特定する方法]
[[ステレオ符号CSのビット数のうちのビット数bmを特定する第1の方法]]
共通信号精製重み推定部1211は、ステレオ符号CSのビット数bsと予め定めた0より大きく1未満の値とを乗算した値をbmとして用いる。すなわち、ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsが全てのフレームで同じである場合には、共通信号精製重み推定部1211内の図示しない記憶部にステレオ符号CSのビット数bSと予め定めた0より大きく1未満の値とを乗算した値をビット数bmとして記憶しておけばよい。ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsがフレームによって異なることがある場合には、共通信号精製重み推定部1211がビット数bsと予め定めた0より大きく1未満の値とを乗算した値をbmとして得るようにすればよい。例えば、共通信号精製重み推定部1211は、チャネル数の逆数を予め定めた0より大きく1未満の値として用いればよい。すなわち、共通信号精製重み推定部1211は、ステレオ符号CSのビット数bsをチャネル数で除算した値をbmとして用いてもよい。
[[ステレオ符号CSのビット数のうちのビット数bmを特定する第2の方法]]
共通信号精製重み推定部1211は、チャネル間相関係数γを用いてフレーム毎にbmを推定してもよい。チャネル間の相関が高い場合には、ステレオ符号CSのビット数bSのうちの大半がチャネル間で共通する信号成分を表現するために用いられ、チャネル間の相関が低い場合には、チャネル数に対して均等に近いビット数が用いられていると予想される。したがって、第2の方法においては、共通信号精製重み推定部1211は、チャネル間相関係数γが1に近いほど、ビット数bsに近い値をbmとして得て、チャネル間相関係数γが0に近いほど、bsをチャネル数で除算した値に近い値をbmとして得るようにすればよい。なお、第2の方法を用いる場合には、音信号精製装置1201は、チャネル間相関係数γを得るために図9に破線で示すようにチャネル間関係情報推定部1231も含み、チャネル間関係情報推定部1231は[[復号音共通成分信号を得る第2の方法]]の説明箇所や第2実施形態のチャネル間関係情報推定部1132の説明箇所で上述したようにチャネル間相関係数γを得る。
[[第1例]]
第1例の共通信号精製重み推定部1211は、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を用いて、下記の式(4-5)により共通信号精製重みαMを得る。
Figure 0007491393000028
[[第2例]]
第2例の共通信号精製重み推定部1211は、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を少なくとも用いて、0より大きく1未満の値であり、bmとbMが等しいときには0.5であり、bmがbMよりも多いほど0.5より0に近い値であり、bMがbmよりも多いほど0.5より1に近い値を、共通信号精製重みαMとして得る。
[[第3例]]
第3例の共通信号精製重み推定部1211は、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMとを用いて、
Figure 0007491393000029

により得られる補正係数cMと、復号音共通信号^YMのモノラル復号音信号^XMに対する正規化された内積値rMと、を乗算した値cM×rMを共通信号精製重みαMとして得る。
第3例の共通信号精製重み推定部1211は、例えば、下記のステップS1211-31-nからステップS1211-33-nを行うことで共通信号精製重みαMを得る。共通信号精製重み推定部1211は、まず、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}とモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}から、下記の式(4-6)により復号音共通信号^YMのモノラル復号音信号^XMに対する正規化された内積値rMを得る(ステップS1211-31-n)。
Figure 0007491393000030

共通信号精製重み推定部1211は、また、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を用いて、式(4-8)により補正係数cMを得る(ステップS1211-32-n)。共通信号精製重み推定部1211は、次に、ステップS1211-31-nで得た正規化された内積値rMとステップS1211-32-nで得た補正係数cMとを乗算した値cM×rMを共通信号精製重みαMとして得る(ステップS1211-33-n)。
[[第4例]]
第4例の共通信号精製重み推定部1211は、ステレオ符号CSのビット数のうちの共通信号に相当するビット数をbmとし、モノラル符号CMのビット数をbMとして、0以上1以下の値であり、復号音共通信号^YMとモノラル復号音信号^XMの間の相関が高いほど1に近い値であり、当該相関が低いほど0に近い値であるrMと、0より大きく1未満の値であり、bmとbMが同じであるときには0.5であり、bmがbMよりも多いほど0.5より0に近く、bmがbMよりも少ないほど0.5より1に近い値である補正係数cMと、を乗算した値cM×rMを共通信号精製重みαMとして得る。
[[第5例]]
第5例の共通信号精製重み推定部1211は、下記のステップS1211-51からステップS1211-55を行うことで共通信号精製重みαMを得る。
共通信号精製重み推定部1211は、まず、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、前のフレームで用いた内積値Em(-1)と、を用いて、下記の式(4-9)により、現在のフレームで用いる内積値Em(0)を得る(ステップS1211-51)。
Figure 0007491393000031

ここで、εmは、0より大きく1未満の予め定めた値であり、共通信号精製重み推定部1211内に予め記憶されている。なお、共通信号精製重み推定部1211は、得た内積値Em(0)を、「前のフレームで用いた内積値Em(-1)」として次のフレームで用いるために、共通信号精製重み推定部1211内に記憶する。
共通信号精製重み推定部1211は、また、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、前のフレームで用いたモノラル復号音信号のエネルギーEM(-1)と、を用いて、下記の式(4-10)により、現在のフレームで用いるモノラル復号音信号のエネルギーEM(0)を得る(ステップS1211-52)。
Figure 0007491393000032

ここで、εMは、0より大きく1未満で予め定めた値であり、共通信号精製重み推定部1211内に予め記憶されている。なお、共通信号精製重み推定部1211は、得たモノラル復号音信号のエネルギーEM(0)を、「前のフレームで用いたモノラル復号音信号のエネルギーEM(-1)」として次のフレームで用いるために、共通信号精製重み推定部1211内に記憶する。
共通信号精製重み推定部1211は、次に、ステップS1211-51で得た現在のフレームで用いる内積値Em(0)と、ステップS1211-52で得た現在のフレームで用いるモノラル復号音信号のエネルギーEM(0)を用いて、正規化された内積値rMを下記の式(4-11)で得る(ステップS1211-53)。
Figure 0007491393000033
共通信号精製重み推定部1211は、また、式(4-8)により補正係数cMを得る(ステップS1211-54)。共通信号精製重み推定部1211は、次に、ステップS1211-53で得た正規化された内積値rMとステップS1211-54で得た補正係数cMとを乗算した値cM×rMを共通信号精製重みαMとして得る(ステップS1211-55)。
すなわち、第5例の共通信号精製重み推定部1211は、復号音共通信号^YMの各サンプル値^yM(t)とモノラル復号音信号^XMの各サンプル値^xM(t)と前フレームの内積値Em(-1)とを用いて式(4-9)により得られる内積値Em(0)と、モノラル復号音信号^XMの各サンプル値^xM(t)と前フレームのモノラル復号音信号のエネルギーEM(-1)とを用いて式(4-10)により得られるモノラル復号音信号のエネルギーEM(0)と、を用いて式(4-11)により得られる正規化された内積値rMと、フレーム当たりのサンプル数Tとステレオ符号CSのビット数のうちの共通信号に相当するビット数bmとモノラル符号CMのビット数bMとを用いて式(4-8)により得られる補正係数cMと、を乗算した値cM×rMを共通信号精製重みαMとして得る。
[[第6例]]
第6例の共通信号精製重み推定部1211は、第3例で説明した正規化された内積値rMと補正係数cM、または、第5例で説明した正規化された内積値rMと補正係数cM、と、0より大きく1未満の予め定めた値であるλと、を乗算した値λ×cM×rMを共通信号精製重みαMとして得る。
[[第7例]]
第7例の共通信号精製重み推定部1211は、第3例で説明した正規化された内積値rMと補正係数cM、または、第5例で説明した正規化された内積値rMと補正係数cM、と、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であるチャネル間相関係数γと、を乗算した値γ×cM×rMを共通信号精製重みαMとして得る。第7例の音信号精製装置1201は、チャネル間相関係数γを得るために図9に破線で示すようにチャネル間関係情報推定部1231も含み、チャネル間関係情報推定部1231は、[[復号音共通成分信号を得る第2の方法]]の説明箇所や第2実施形態のチャネル間関係情報推定部1132の説明箇所で上述したようにチャネル間相関係数γを得る。
[共通信号精製部1221]
共通信号精製部1221には、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、音信号精製装置1201に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、共通信号精製重み推定部1211が出力した共通信号精製重みαMと、が入力される。共通信号精製部1221は、対応するサンプルtごとに、共通信号精製重みαMとモノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αM×^xM(t)と、共通信号精製重みαMを1から減算した値(1-αM)と復号音共通信号^YMのサンプル値^yM(t)とを乗算した値(1-αM)×^yM(t)と、を加算した値~yM(t)による系列を精製済共通信号~YM={~yM(1), ~yM(2), ..., ~yM(T)}として得て出力する(ステップS1221)。すなわち、~yM(t)=(1-αM)×^yM(t)+αM×^xM(t)である。
[第nチャネル分離結合重み推定部1281-n]
第nチャネル分離結合重み推定部1281-nには、音信号精製装置1201に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、が入力される。第nチャネル分離結合重み推定部1281-nは、第nチャネル復号音信号^Xnと復号音共通信号^YMとから、第nチャネル復号音信号^Xnの復号音共通信号^YMに対する正規化された内積値を第nチャネル分離結合重みβnとして得る(ステップS1281-n)。第nチャネル分離結合重みβnは、具体的には式(43)の通りである。
Figure 0007491393000034
[第nチャネル分離結合部1291-n]
第nチャネル分離結合部1291-nには、音信号精製装置1201に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、共通信号精製部1221が出力した精製済共通信号~YM={~yM(1), ~yM(2), ..., ~yM(T)}と、第nチャネル分離結合重み推定部1281-nが出力した第nチャネル分離結合重みβnと、が入力される。第nチャネル分離結合部1291-nは、対応するサンプルtごとに、第nチャネル復号音信号^Xnのサンプル値^xn(t)から、第nチャネル分離結合重みβnと復号音共通信号^YMのサンプル値^yM(t)とを乗算した値βn×^yM(t)を減算し、第nチャネル分離結合重みβnと精製済共通信号~YMのサンプル値~yM(t)とを乗算した値βn×~yM(t)を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得て出力する(ステップS1291-n)。すなわち、~xn(t)=^xn(t)-βn×^yM(t)+βn×~yM(t)である。
[第4実施形態の変形例]
音信号精製装置1201がチャネル間関係情報を用いる場合であって、音信号精製装置1201が用いるチャネル間関係情報の少なくとも何れかを復号装置600のステレオ復号部620が得た場合には、復号装置600のステレオ復号部620が得たチャネル間関係情報が音信号精製装置1201に入力されるようにして、音信号精製装置1201は入力されたチャネル間関係情報を用いるようにしてもよい。
また、音信号精製装置1201がチャネル間関係情報を用いる場合であって、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力したチャネル間関係情報符号CCに音信号精製装置1201が用いるチャネル間関係情報の少なくとも何れかが含まれる場合には、チャネル間関係情報符号CCに含まれる音信号精製装置1201が用いるチャネル間関係情報を表す符号が音信号精製装置1201に入力されるようにして、音信号精製装置1201には図示しないチャネル間関係情報復号部を備えて、チャネル間関係情報復号部がチャネル間関係情報を表す符号を復号してチャネル間関係情報を得て出力するようにしてもよい。
すなわち、音信号精製装置1201が用いる全てのチャネル間関係情報が、音信号精製装置1201に入力されるかチャネル間関係情報復号部で得らえた場合には、音信号精製装置1201にはチャネル間関係情報推定部1231を備えないでよい。
<第5実施形態>
第5実施形態の音信号精製装置は、第4実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第5実施形態の音信号精製装置が第4実施形態の音信号精製装置と異なる点は、モノラル復号音信号そのものではなく、モノラル復号音信号を各チャネル用にアップミックスした信号を用いることと、復号音共通信号そのものではなく、復号音共通信号を各チャネル用にアップミックスした信号を用いること、である。以下、第5実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第4実施形態の音信号精製装置と異なる点を中心に、上述した各実施形態の音信号精製装置を適宜参照して、説明する。
≪音信号精製装置1202≫
第5実施形態の音信号精製装置1202は、図11に例示する通り、チャネル間関係情報推定部1232と復号音共通信号推定部1251と共通信号精製重み推定部1211と共通信号精製部1221と復号音共通信号アップミックス部1262と精製済共通信号アップミックス部1272と第一チャネル分離結合重み推定部1282-1と第一チャネル分離結合部1292-1と第二チャネル分離結合重み推定部1282-2と第二チャネル分離結合部1292-2を含む。音信号精製装置1202は、各フレームについて、図12に例示する通り、ステップS1232とステップS1251とステップS1211とステップS1221とステップS1262とステップS1272と、各チャネルについてのステップS1282-nとステップS1292-nと、を行う。
[チャネル間関係情報推定部1232]
チャネル間関係情報推定部1232には、音信号精製装置1202に入力された第一チャネル復号音信号^X1と、音信号精製装置1202に入力された第二チャネル復号音信号^X2と、が少なくとも入力される。チャネル間関係情報推定部1232は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いてチャネル間関係情報を得て出力する(ステップS1232)。チャネル間関係情報は、ステレオのチャネル間の関係を表す情報である。チャネル間関係情報の例は、チャネル間時間差τ、チャネル間相関係数γ、先行チャネル情報、である。チャネル間関係情報推定部1232は、複数種類のチャネル間関係情報を得てもよく、例えばチャネル間時間差τとチャネル間相関係数γと先行チャネル情報を得てもよい。チャネル間関係情報推定部1232がチャネル間時間差τを得る方法とチャネル間相関係数γを得る方法としては、例えば、第2実施形態のチャネル間関係情報推定部1132の説明箇所で上述した方法を用いればよい。復号音共通信号推定部1251が先行チャネル情報を用いる場合には、チャネル間関係情報推定部1232は先行チャネル情報を得る。チャネル間関係情報推定部1232が先行チャネル情報を得る方法としては、例えば、第4実施形態のチャネル間関係情報推定部1231の説明箇所で上述した方法を用いればよい。なお、チャネル間関係情報推定部1132の説明箇所で上述した方法で得たチャネル間時間差τには、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報と第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報とが含まれているので、チャネル間関係情報推定部1232が先行チャネル情報も得て出力する場合には、チャネル間時間差τに代えて、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報を得て出力してもよい。
[復号音共通信号推定部1251]
復号音共通信号推定部1251は、第4実施形態の復号音共通信号推定部1251と同様に、復号音共通成分信号^YMを得て出力する(ステップS1251)。
[共通信号精製重み推定部1211]
共通信号精製重み推定部1211は、第4実施形態の共通信号精製重み推定部1211と同様に、共通信号精製重みαMを得て出力する(ステップ1211)。
[共通信号精製部1221]
共通信号精製部1221は、第4実施形態の共通信号精製部1221と同様に、精製済共通信号~YMを得て出力する(ステップS1221)。
[復号音共通信号アップミックス部1262]
復号音共通信号アップミックス部1262には、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、チャネル間関係情報推定部1232が出力したチャネル間関係情報と、が少なくとも入力される。復号音共通信号アップミックス部1262は、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}とチャネル間関係情報を少なくとも用いたアップミックス処理を行うことにより、復号音共通信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}を得て出力する(ステップS1262)。復号音共通信号アップミックス部1262は、例えば以下の第1の方法または第2の方法で第nチャネルアップミックス済共通信号^YMnを得ればよい。
[[第nチャネルアップミックス済共通信号を得る第1の方法]
復号音共通信号アップミックス部1262は、第2実施形態のモノラル復号音アップミックス部1172と同じ処理を、モノラル復号音信号^XMを復号音共通信号^YMと読み替え、第nチャネルアップミックス済モノラル復号音信号^XMnを第nチャネルアップミックス済共通信号^YMnと読み替えて行うことで、第nチャネルアップミックス済共通信号^YMnを得る。すなわち、復号音共通信号アップミックス部1262は、第一チャネルが先行している場合には、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}をそのまま第一チャネルアップミックス済共通信号^YM1={^yM1(1), ^yM1(2), ..., ^yM1(T)}として出力し、復号音共通信号を|τ|サンプル遅らせた信号{^yM(1-|τ|), ^yM(2-|τ|), ..., ^yM(T-|τ|)}を第二チャネルアップミックス済共通信号^YM2={^yM2(1), ^yM2(2), ..., ^yM2(T)}として出力する。復号音共通信号アップミックス部1262は、第二チャネルが先行している場合には、復号音共通信号を|τ|サンプル遅らせた信号{^yM(1-|τ|), ^yM(2-|τ|), ..., ^yM(T-|τ|)}を第一チャネルアップミックス済共通信号^YM1={^yM1(1), ^yM1(2), ..., ^yM1(T)}として出力し、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}をそのまま第二チャネルアップミックス済共通信号^YM2={^yM2(1), ^yM2(2), ..., ^yM2(T)}として出力する。復号音共通信号アップミックス部1262は、何れのチャネルも先行していない場合には、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}をそのまま第一チャネルアップミックス済共通信号^YM1={^yM1(1), ^yM1(2), ..., ^yM1(T)}と第二チャネルアップミックス済共通信号^YM2={^yM2(1), ^yM2(2), ..., ^yM2(T)}として出力する。
[[第nチャネルアップミックス済共通信号を得る第2の方法]
チャネル間の相関が小さい場合には、第1の方法のような復号音共通信号^YMへの時間差の付与だけでは、良好な第nチャネルアップミックス済共通信号^YMnを得られないことがある。そこで、復号音共通信号アップミックス部1262が、チャネル間の相関を考慮して、復号音共通信号^YMと各チャネルの復号音信号^Xnとの重み付き平均をとって第nチャネルアップミックス済共通信号^YMnを得るのが第2の方法である。第2の方法では、復号音共通信号アップミックス部1262は、第1の方法で得られる第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}それぞれを暫定第nチャネルアップミックス済共通信号Y'Mn={y'Mn(1), y'Mn(2), ..., y'Mn(T)}として(すなわち、第1の方法と同じ処理を、第nチャネルアップミックス済共通信号^YMnを暫定第nチャネルアップミックス済共通信号Y'Mnと読み替えて行うことで暫定第nチャネルアップミックス済共通信号Y'Mn={y'Mn(1), y'Mn(2), ..., y'Mn(T)}を得て)、対応するサンプルtごとに、第nチャネル復号音^xn(t)と暫定第nチャネルアップミックス済共通信号y'Mn(t)とチャネル間相関係数γを用いて以下の式(51)により得られる^yMn(n)による系列を第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}として得る。
Figure 0007491393000035

なお、復号音共通信号アップミックス部1262が第2の方法を行う場合には、図11に破線で示すように、音信号精製装置1202に入力された第一チャネル復号音信号と音信号精製装置1202に入力された第二チャネル復号音信号も復号音共通成分アップミックス部1262に入力される。
[精製済共通信号アップミックス部1272]
精製済共通信号アップミックス部1272には、共通信号精製部1221が出力した精製済共通信号~YM={~yM(1), ~yM(2), ..., ~yM(T)}と、チャネル間関係情報推定部1232が出力したチャネル間関係情報と、が入力される。精製済共通信号アップミックス部1272は、精製済共通信号~YM={~yM(1), ~yM(2), ..., ~yM(T)}とチャネル間関係情報を用いたアップミックス処理を行うことにより、精製済共通信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済精製済信号~YMn={~yMn(1), ~yMn(2), ..., ~yMn(T)}を得て出力する(ステップS1272)。精製済共通信号アップミックス部1272は、第2実施形態のモノラル復号音アップミックス部1172と同じ処理を、モノラル復号音信号^XMを精製済共通信号~YMと読み替え、第nチャネルアップミックス済モノラル復号音信号^XMnを第nチャネルアップミックス済精製済信号~YMnと読み替えて行えばよい。
[第nチャネル分離結合重み推定部1282-n]
第nチャネル分離結合重み推定部1282-nには、音信号精製装置1202に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号アップミックス部1262が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、が入力される。第nチャネル分離結合重み推定部1282-nは、第nチャネル復号音信号^Xnと第nチャネルアップミックス済共通信号^YMnとから、第nチャネル復号音信号^Xnの第nチャネルアップミックス済共通信号^YMnに対する正規化された内積値を第nチャネル分離結合重みβnとして得て出力する(ステップS1282-n)。第nチャネル分離結合重みβnは、具体的には式(52)の通りである。
Figure 0007491393000036
[第nチャネル分離結合部1292-n]
第nチャネル分離結合部1292-nには、音信号精製装置1202に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号アップミックス部1262が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、精製済共通信号アップミックス部1272が出力した第nチャネルアップミックス済精製済信号~YMn={~yMn(1), ~yMn(2), ..., ~yMn(T)}と、第nチャネル分離結合重み推定部1282-nが出力した第nチャネル分離結合重みβnと、が入力される。第nチャネル分離結合部1292-nは、対応するサンプルtごとに、第nチャネル復号音信号^Xnのサンプル値^xn(t)から、第nチャネル分離結合重みβnと第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値βn×^yMm(t)を減算し、第nチャネル分離結合重みβnと第nチャネルアップミックス済精製済信号~YMnのサンプル値~yMn(t)とを乗算した値βn×~yMn(t)を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得て出力する(ステップS1292-n)。すなわち、~xn(t)=^xn(t)-βn×^yMn(t)+βn×~yMn(t)である。
<第6実施形態>
第6実施形態の音信号精製装置も、第4実施形態と第5実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第6実施形態の音信号精製装置が第5実施形態の音信号精製装置と異なる点は、チャネル間関係情報を復号音信号からではなく符号から得ることである。以下、第6実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第5実施形態の音信号精製装置と異なる点を説明する。
≪音信号精製装置1203≫
第6実施形態の音信号精製装置1203は、図13に例示する通り、チャネル間関係情報復号部1243と復号音共通信号推定部1251と共通信号精製重み推定部1211と共通信号精製部1221と復号音共通信号アップミックス部1262と精製済共通信号アップミックス部1272と第一チャネル分離結合重み推定部1282-1と第一チャネル分離結合部1292-1と第二チャネル分離結合重み推定部1282-2と第二チャネル分離結合部1292-2を含む。音信号精製装置1203は、各フレームについて、図14に例示する通り、ステップS1243とステップS1251とステップS1211とステップS1221とステップS1262とステップS1272と、各チャネルについてのステップS1282-nとステップS1292-nと、を行う。第6実施形態の音信号精製装置1203が第5実施形態の音信号精製装置1202と異なる点は、チャネル間関係情報推定部1232に代えてチャネル間関係情報復号部1243を備えて、ステップS1232に代えてステップS1243を行うことである。また、第6実施形態の音信号精製装置1203には、各フレームのチャネル間関係情報符号CCも入力される。チャネル間関係情報符号CCは、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力した符号であってもよいし、上述した符号化装置500のステレオ符号化部530が得て出力したステレオ符号CSに含まれる符号であってもよい。以下、第6実施形態の音信号精製装置1203が第5実施形態の音信号精製装置1202と異なる点について説明する。
[チャネル間関係情報復号部1243]
チャネル間関係情報復号部1243には、音信号精製装置1203に入力されたチャネル間関係情報符号CCが入力される。チャネル間関係情報復号部1243は、チャネル間関係情報符号CCを復号してチャネル間関係情報を得て出力する(ステップS1243)。チャネル間関係情報復号部1243が得るチャネル間関係情報は、第5実施形態のチャネル間関係情報推定部1232が得るチャネル間関係情報と同じである。
[第6実施形態の変形例]
チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、ステップS1243で得られるのと同じチャネル間関係情報が、復号装置600のステレオ復号部620内で復号により得られている。したがって、チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、復号装置600のステレオ復号部620が得たチャネル間関係情報が第6実施形態の音信号精製装置1203に入力されるようにして、第6実施形態の音信号精製装置1203はチャネル間関係情報復号部1243を備えずにステップS1243を行わないようにしてもよい。
また、チャネル間関係情報符号CCの一部だけがステレオ符号CSに含まれる符号である場合には、チャネル間関係情報符号CCのうちのステレオ符号CSに含まれる符号を復号装置600のステレオ復号部620が復号して得たチャネル間関係情報が第6実施形態の音信号精製装置1203に入力されるようにして、第6実施形態の音信号精製装置1203のチャネル間関係情報復号部1243は、ステップS1243として、チャネル間関係情報符号CCのうちのステレオ符号CSに含まれない符号を復号して、音信号精製装置1203に入力されなかったチャネル間関係情報を得て出力するようにすればよい。
また、音信号精製装置1203の各部が用いるチャネル間関係情報のうちの一部に対応する符号がチャネル間関係情報符号CCに含まれない場合には、第6実施形態の音信号精製装置1203にはチャネル間関係情報推定部1232も備えて、チャネル間関係情報推定部1232がステップS1232も行うようにすればよい。この場合には、チャネル間関係情報推定部1232は、音信号精製装置1203の各部が用いるチャネル間関係情報のうちのチャネル間関係情報符号CCを復号しても得られないチャネル間関係情報を、第5実施形態のステップS1232と同様に得て出力すればよい。
<第7実施形態>
第7実施形態の音信号精製装置も、第1実施形態から第6実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。以下、第7実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、上述した各実施形態の音信号精製装置を適宜参照して説明する。
第7実施形態の音信号精製装置1301は、図15に例示する通り、チャネル間関係情報推定部1331と復号音共通信号推定部1351と復号音共通信号アップミックス部1361とモノラル復号音アップミックス部1371と第一チャネル精製重み推定部1311-1と第一チャネル信号精製部1321-1と第一チャネル分離結合重み推定部1381-1と第一チャネル分離結合部1391-1と第二チャネル精製重み推定部1311-2と第二チャネル信号精製部1321-2と第二チャネル分離結合重み推定部1381-2と第二チャネル分離結合部1391-2を含む。音信号精製装置1301は、例えば20msの所定の時間長のフレーム単位で、ステレオの各チャネルについて、ステレオの復号音の全チャネルに共通する信号である復号音共通信号をアップミックスして得た信号であるアップミックス済共通信号と、モノラル復号音信号をアップミックスして得たアップミックス済モノラル復号音信号と、からアップミックス済共通信号を改善した音信号である精製済アップミックス済信号を得て、復号音信号とアップミックス済共通信号と精製済アップミックス済信号とから、復号音信号を改善した音信号である精製済復号音信号を得て出力する。音信号精製装置1301にフレーム単位で入力される各チャネルの復号音信号は、例えば、上述した復号装置600のステレオ復号部620が、モノラル符号CMを復号して得られた情報もモノラル符号CMも用いずに、モノラル符号CMとは異なる符号であるbSビットのステレオ符号CSを復号して得たTサンプルの第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}とTサンプルの第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}である。音信号精製装置1301にフレーム単位で入力されるモノラルの復号音信号は、例えば、上述した復号装置600のモノラル復号部610が、ステレオ符号CSを復号して得られた情報もステレオ符号CSも用いずに、ステレオ符号CSとは異なる符号であるbMビットのモノラル符号CMを復号して得たTサンプルのモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}である。モノラル符号CMは、ステレオ符号CSが由来する音信号と同じ音信号(すなわち、符号化装置500に入力された第一チャネル入力音信号X1と第二チャネル入力音信号X2)に由来する符号ではあるが、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を得る元となった符号(すなわち、ステレオ符号CS)とは異なる符号である。第一チャネルのチャネル番号nを1とし、第二チャネルのチャネル番号nを2とすると、音信号精製装置1301は、各フレームについて、図16に例示する通り、ステップS1331とステップS1351とステップS1361とステップS1371と、各チャネルについてのステップS1311-nとステップS1321-nとステップS1381-nとステップS1391-nと、を行う。
[チャネル間関係情報推定部1331]
チャネル間関係情報推定部1331には、音信号精製装置1301に入力された第一チャネル復号音信号^X1と、音信号精製装置1301に入力された第二チャネル復号音信号^X2と、が少なくとも入力される。チャネル間関係情報推定部1331は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いてチャネル間関係情報を得て出力する(ステップS1331)。チャネル間関係情報は、ステレオのチャネル間の関係を表す情報である。チャネル間関係情報の例は、チャネル間時間差τ、チャネル間相関係数γ、先行チャネル情報、である。チャネル間関係情報推定部1331は、複数種類のチャネル間関係情報を得てもよく、例えばチャネル間時間差τとチャネル間相関係数γと先行チャネル情報を得てもよい。チャネル間関係情報推定部1331がチャネル間時間差τを得る方法とチャネル間相関係数γを得る方法としては、例えば、第2実施形態のチャネル間関係情報推定部1132の説明箇所で上述した方法を用いればよい。復号音共通信号推定部1351が先行チャネル情報を用いる場合には、チャネル間関係情報推定部1331は先行チャネル情報を得る。チャネル間関係情報推定部1331が先行チャネル情報を得る方法としては、例えば、第4実施形態のチャネル間関係情報推定部1231の説明箇所で上述した方法を用いればよい。なお、チャネル間関係情報推定部1132の説明箇所で上述した方法で得たチャネル間時間差τには、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報と第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報とが含まれているので、チャネル間関係情報推定部1331が先行チャネル情報も得て出力する場合には、チャネル間時間差τに代えて、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報を得て出力してもよい。
[復号音共通信号推定部1351]
復号音共通信号推定部1351には、音信号精製装置1301に入力された第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}が少なくとも入力される。復号音共通信号推定部1351は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いて、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}を得て出力する(ステップS1351)。復号音共通信号推定部1351が復号音共通信号^YMを得る方法としては、例えば、第4実施形態の復号音共通信号推定部1251の説明箇所で上述した方法を用いればよい。
[復号音共通信号アップミックス部1361]
復号音共通信号アップミックス部1361には、復号音共通信号推定部1351が出力した復号音共通成分信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、チャネル間関係情報推定部1331が出力したチャネル間関係情報と、が少なくとも入力される。復号音共通信号アップミックス部1361は、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}とチャネル間関係情報を少なくとも用いたアップミックス処理を行うことにより、復号音共通信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}を得て出力する(ステップS1361)。復号音共通信号アップミックス部1361は、第5実施形態の復号音共通信号アップミックス部1262と同じ処理を行えばよい。すなわち、例えば、第5実施形態の復号音共通信号アップミックス部1262の説明箇所で上述した第1の方法または第2の方法を行えばよい。なお、復号音共通信号アップミックス部1262が第2の方法を行う場合には、図15に破線で示すように、音信号精製装置1301に入力された第一チャネル復号音信号と音信号精製装置1301に入力された第二チャネル復号音信号も復号音共通信号アップミックス部1361に入力される。
[モノラル復号音アップミックス部1371]
モノラル復号音アップミックス部1371には、音信号精製装置1301に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、チャネル間関係情報推定部1331が出力したチャネル間関係情報と、が入力される。モノラル復号音アップミックス部1371は、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}とチャネル間関係情報を用いたアップミックス処理を行うことにより、モノラル復号音信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}を得て出力する(ステップS1371)。モノラル復号音アップミックス部1371は、第2実施形態のモノラル復号音アップミックス部1172と同じ処理を行えばよい。
[第nチャネル精製重み推定部1311-n]
第nチャネル精製重み推定部1311-nは、第nチャネル精製重みαMnを得て出力する(ステップ1311-n)。第nチャネル精製重み推定部1311-nは、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法と同様の方法で、第nチャネル精製重みαMnを得る。第nチャネル精製重み推定部1311-nが得る第nチャネル精製重みαMnは、0以上1以下の値である。ただし、第nチャネル精製重み推定部1311-nは、フレームごとに後述する方法で第nチャネル精製重みαMnを得るので、全てのフレームで第nチャネル精製重みαMnが0や1になることはない。すなわち、第nチャネル精製重みαMnが0より大きく1未満の値となるフレームが存在する。言い換えると、全てのフレームのうちの少なくとも何れかのフレームでは、第nチャネル精製重みαMnは0より大きく1未満の値である。
具体的には、下記の第1例から第7例のように、第nチャネル精製重み推定部1311-nは、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法において第nチャネル復号音信号^Xnを用いている箇所は、第nチャネル復号音信号^Xnに代えて第nチャネルアップミックス済共通信号^YMnを用いて、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法においてモノラル復号音信号^XMを用いている箇所は、モノラル復号音信号^XMに代えて第nチャネルアップミックス済モノラル復号音信号^XMnを用いて、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法においてステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnを用いている箇所は、ビット数bnに代えてステレオ符号CSのビット数のうちの共通信号に相当するビット数bmを用いて、第nチャネル精製重みαMnを得る。すなわち、下記の第1例から第7例ではモノラル符号CMのビット数bMとステレオ符号CSのビット数のうちの共通信号に相当するビット数bmを用いる。モノラル符号CMのビット数bMを特定する方法は第1実施形態と同じであり、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmを特定する方法は第4実施形態と同じである。第nチャネル精製重み推定部1311-nには、必要に応じて、図15に一点鎖線で示すように、復号音共通信号アップミックス部1361が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、モノラル復号音アップミックス部1371が出力した第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、が入力される。
[[第1例]]
第1例の第nチャネル精製重み推定部1311-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を用いて、下記の式(7-5)により第nチャネル精製重みαMnを得る。
Figure 0007491393000037

なお、第1例で得られる第nチャネル精製重みαMnは全てのチャネルで同じ値であるので、音信号精製装置1301が、各チャネルの第nチャネル精製重み推定部1311-nに代えて、全てのチャネルに共通する精製重み推定部1311を備えて、精製重み推定部1311が式(7-5)により全てのチャネルに共通する第nチャネル精製重みαMnを得るようにしてもよい。
[[第2例]]
第2例の第nチャネル精製重み推定部1311-nは、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を少なくとも用いて、0より大きく1未満の値であり、bmとbMが等しいときには0.5であり、bmがbMよりも多いほど0.5より0に近い値であり、bMがbmよりも多いほど0.5より1に近い値を、第nチャネル精製重みαMnとして得る。なお、第2例で得られる第nチャネル精製重みαMnは全てのチャネルで同じ値であってもよいので、音信号精製装置1301が、各チャネルの第nチャネル精製重み推定部1311-nに代えて、全てのチャネルに共通する精製重み推定部1311を備えて、精製重み推定部1311が上述した条件を満たす全てのチャネルに共通する第nチャネル精製重みαMnを得るようにしてもよい。
[[第3例]]
第3例の第nチャネル精製重み推定部1311-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMとを用いて、
Figure 0007491393000038

により得られる補正係数cnと、第nチャネルアップミックス済共通信号^YMnの第nチャネルアップミックス済モノラル復号音信号^XMnに対する正規化された内積値rnと、を乗算した値cn×rnを第nチャネル精製重みαMnとして得る。
第3例の第nチャネル精製重み推定部1311-nは、例えば、下記のステップS1311-31-nからステップS1311-33-nを行うことで第nチャネル精製重みαMnを得る。第nチャネル精製重み推定部1311-nは、まず、第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}から、下記の式(7-6)により第nチャネルアップミックス済共通信号^YMnの第nチャネルアップミックス済モノラル復号音信号^XMnに対する正規化された内積値rnを得る(ステップS1311-31-n)。
Figure 0007491393000039

第nチャネル精製重み推定部1311-nは、また、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を用いて、式(7-8)により補正係数cnを得る(ステップS1311-32-n)。第nチャネル精製重み推定部1311-nは、次に、ステップS1311-31-nで得た正規化された内積値rnとステップS1311-32-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαMnとして得る(ステップS1311-33-n)。
[[第4例]]
第4例の第nチャネル精製重み推定部1311-nは、ステレオ符号CSのビット数のうちの共通信号に相当するビット数をbmとし、モノラル符号CMのビット数をbMとして、0以上1以下の値であり、第nチャネルアップミックス済共通信号^YMnと第nチャネルアップミックス済モノラル復号音信号^XMnの間の相関が高いほど1に近い値であり、当該相関が低いほど0に近い値であるrnと、0より大きく1未満の値であり、bmとbMが同じであるときには0.5であり、bmがbMよりも多いほど0.5より0に近く、bmがbMよりも少ないほど0.5より1に近い値である補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαMnとして得る。
[[第5例]]
第5例の第nチャネル精製重み推定部1311-nは、下記のステップS1311-51-nからステップS1311-55-nを行うことで第nチャネル精製重みαMnを得る。
第nチャネル精製重み推定部1311-nは、まず、第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、前のフレームで用いた内積値En(-1)と、を用いて、下記の式(7-9)により、現在のフレームで用いる内積値En(0)を得る(ステップS1311-51-n)。
Figure 0007491393000040

ここで、εnは、0より大きく1未満の予め定めた値であり、第nチャネル精製重み推定部1311-n内に予め記憶されている。なお、第nチャネル精製重み推定部1311-nは、得た内積値En(0)を、「前のフレームで用いた内積値En(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1311-n内に記憶する。
第nチャネル精製重み推定部1311-nは、また、第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、前のフレームで用いた第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)と、を用いて、下記の式(7-10)により、現在のフレームで用いる第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を得る(ステップS1311-52-n)。
Figure 0007491393000041

ここで、εMnは、0より大きく1未満で予め定めた値であり、第nチャネル精製重み推定部1311-n内に予め記憶されている。なお、第nチャネル精製重み推定部1311-nは、得た第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を、「前のフレームで用いた第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1311-n内に記憶する。
第nチャネル精製重み推定部1311-nは、次に、ステップS1311-51-nで得た現在のフレームで用いる内積値En(0)と、ステップS1311-52-nで得た現在のフレームで用いる第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を用いて、正規化された内積値rnを下記の式(7-11)で得る(ステップS1311-53-n)。
Figure 0007491393000042
第nチャネル精製重み推定部1311-nは、また、式(7-8)により補正係数cnを得る(ステップS1311-54-n)。第nチャネル精製重み推定部1311-nは、次に、ステップS1311-53-nで得た正規化された内積値rnとステップS1311-54-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαMnとして得る(ステップS1311-55-n)。
すなわち、第5例の第nチャネル精製重み推定部1311-nは、第nチャネルアップミックス済共通信号^YMnの各サンプル値^yMn(t)と第nチャネルアップミックス済モノラル復号音信号^XMnの各サンプル値^xMn(t)と前フレームの内積値En(-1)とを用いて式(7-9)により得られる内積値En(0)と、第nチャネルアップミックス済モノラル復号音信号^XMnの各サンプル値^xMn(t)と前フレームの第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)とを用いて式(7-10)により得られる第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)と、を用いて式(7-11)により得られる正規化された内積値rnと、フレーム当たりのサンプル数Tとステレオ符号CSのビット数のうちの共通信号に相当するビット数bmとモノラル符号CMのビット数bMとを用いて式(7-8)により得られる補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαMnとして得る。
[[第6例]]
第6例の第nチャネル精製重み推定部1311-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、0より大きく1未満の予め定めた値であるλと、を乗算した値λ×cn×rnを第nチャネル精製重みαMnとして得る。
[[第7例]]
第7例の第nチャネル精製重み推定部1311-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、チャネル間関係情報推定部1331が得たチャネル間相関係数γと、を乗算した値γ×cn×rnを第nチャネル精製重みαMnとして得る。
[第nチャネル信号精製部1321-n]
第nチャネル信号精製部1321-nには、復号音共通信号アップミックス部1361が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、モノラル復号音アップミックス部1371が出力した第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、第nチャネル精製重み推定部1311-nが出力した第nチャネル精製重みαMnと、が入力される。第nチャネル信号精製部1321-nは、対応するサンプルtごとに、第nチャネル精製重みαMnと第nチャネルアップミックス済モノラル復号音信号^XMnのサンプル値^xMn(t)とを乗算した値αMn×^xMn(t)と、第nチャネル精製重みαMnを1から減算した値(1-αMn)と第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値(1-αMn)×^yMn(t)と、を加算した値~yMn(t)による系列を第nチャネル精製済アップミックス済信号~YMn={~yMn(1), ~yMn(2), ..., ~yMn(T)}として得て出力する(ステップS1321-n)。すなわち、~yMn(t)=(1-αMn)×^yMn(t)+αMn×^xMn(t)である。
[第nチャネル分離結合重み推定部1381-n]
第nチャネル分離結合重み推定部1381-nには、音信号精製装置1301に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号アップミックス部1361が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、が入力される。第nチャネル分離結合重み推定部1381-nは、第nチャネル復号音信号^Xnと第nチャネルアップミックス済共通信号^YMnとから、第nチャネル復号音信号^Xnの第nチャネルアップミックス済共通信号^YMnに対する正規化された内積値を第nチャネル分離結合重みβnとして得て出力する(ステップS1381-n)。第nチャネル分離結合重みβnは、具体的には式(71)の通りである。
Figure 0007491393000043
[第nチャネル分離結合部1391-n]
第nチャネル分離結合部1391-nには、音信号精製装置1301に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号アップミックス部1361が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、第nチャネル信号精製部1321-nが出力した第nチャネル精製済アップミックス済信号~YMn={~yMn(1), ~yMn(2), ..., ~yMn(T)}と、第nチャネル分離結合重み推定部1381-nが出力した第nチャネル分離結合重みβnと、が入力される。第nチャネル分離結合部1391-nは、対応するサンプルtごとに、第nチャネル復号音信号^Xnのサンプル値^xn(t)から、第nチャネル分離結合重みβnと第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値βn×^yMm(t)を減算し、第nチャネル分離結合重みβnと第nチャネル精製済アップミックス済信号~YMnのサンプル値~yMn(t)とを乗算した値βn×~yMn(t)を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得て出力する(ステップS1391-n)。すなわち、~xn(t)=^xn(t)-βn×^yMn(t)+βn×~yMn(t)である。
<第8実施形態>
第8実施形態の音信号精製装置も、第7実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第8実施形態の音信号精製装置が第7実施形態の音信号精製装置と異なる点は、チャネル間関係情報を復号音信号からではなく符号から得ることである。以下、第8実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第7実施形態の音信号精製装置と異なる点を説明する。
≪音信号精製装置1302≫
第8実施形態の音信号精製装置1302は、図17に例示する通り、チャネル間関係情報復号部1342と復号音共通信号推定部1351と復号音共通信号アップミックス部1361とモノラル復号音アップミックス部1371と第一チャネル精製重み推定部1311-1と第一チャネル信号精製部1321-1と第一チャネル分離結合重み推定部1381-1と第一チャネル分離結合部1391-1と第二チャネル精製重み推定部1311-2と第二チャネル信号精製部1321-2と第二チャネル分離結合重み推定部1381-2と第二チャネル分離結合部1391-2を含む。音信号精製装置1302は、各フレームについて、図18に例示する通り、ステップS1342とステップS1351とステップS1361とステップS1371と、各チャネルについてのステップS1311-nとステップS1321-nとステップS1381-nとステップS1391-nと、を行う。第8実施形態の音信号精製装置1302が第7実施形態の音信号精製装置1301と異なる点は、チャネル間関係情報推定部1331に代えてチャネル間関係情報復号部1342を備えて、ステップS1331に代えてステップS1342を行うことである。また、第8実施形態の音信号精製装置1302には、各フレームのチャネル間関係情報符号CCも入力される。チャネル間関係情報符号CCは、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力した符号であってもよいし、上述した符号化装置500のステレオ符号化部530が得て出力したステレオ符号CSに含まれる符号であってもよい。以下、第8実施形態の音信号精製装置1302が第7実施形態の音信号精製装置1301と異なる点について説明する。
[チャネル間関係情報復号部1342]
チャネル間関係情報復号部1342には、音信号精製装置1302に入力されたチャネル間関係情報符号CCが入力される。チャネル間関係情報復号部1342は、チャネル間関係情報符号CCを復号してチャネル間関係情報を得て出力する(ステップS1342)。チャネル間関係情報復号部1342が得るチャネル間関係情報は、第7実施形態のチャネル間関係情報推定部1331が得るチャネル間関係情報と同じである。
[第8実施形態の変形例]
チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、ステップS1342で得られるのと同じチャネル間関係情報が、復号装置600のステレオ復号部620内で復号により得られている。したがって、チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、復号装置600のステレオ復号部620が得たチャネル間関係情報が第8実施形態の音信号精製装置1302に入力されるようにして、第8実施形態の音信号精製装置1302はチャネル間関係情報復号部1342を備えずにステップS1342を行わないようにしてもよい。
また、チャネル間関係情報符号CCの一部だけがステレオ符号CSに含まれる符号である場合には、チャネル間関係情報符号CCのうちのステレオ符号CSに含まれる符号を復号装置600のステレオ復号部620が復号して得たチャネル間関係情報が第8実施形態の音信号精製装置1302に入力されるようにして、第8実施形態の音信号精製装置1302のチャネル間関係情報復号部1342は、ステップS1342として、チャネル間関係情報符号CCのうちのステレオ符号CSに含まれない符号を復号して、音信号精製装置1302に入力されなかったチャネル間関係情報を得て出力するようにすればよい。
また、音信号精製装置1302の各部が用いるチャネル間関係情報のうちの一部に対応する符号がチャネル間関係情報符号CCに含まれない場合には、第8実施形態の音信号精製装置1302にはチャネル間関係情報推定部1331も備えて、チャネル間関係情報推定部1331がステップS1331も行うようにすればよい。この場合には、チャネル間関係情報推定部1331は、ステップS1331として、音信号精製装置1302の各部が用いるチャネル間関係情報のうちのチャネル間関係情報符号CCを復号しても得られないチャネル間関係情報を、第7実施形態のステップS1331と同様に得て出力すればよい。
<第9実施形態>
入力音信号を符号化・復号して得られる復号音信号は、符号化処理による歪みによって高い周波数成分の位相が入力音信号に対して回転している。モノラル復号音信号を得た符号化/復号方式とステレオの各チャネルの復号音信号を得た符号化/復号方式とは独立した異なる符号化/復号方式であることから、モノラル復号部610が得たモノラル復号音信号とステレオ復号部620が得たステレオの各チャネルの復号音信号の高域成分は相関が小さく、上述した音信号精製装置の信号精製部や各チャネルの分離結合部における時間領域での重み付き加算の処理(以下、便宜的に「時間領域での信号精製処理」という)により高域成分のエネルギーが低下してしまうことがあり、これにより各チャネルの精製済復号音信号がこもって聴こえる場合がある。信号精製処理前の信号の高域成分を用いて高域のエネルギーを補償することでこのこもりを解消するのが、第9実施形態の音信号高域補償装置である。
なお、高域成分のエネルギーの低下によって音信号がこもって聴こえる場合があるのは、上述した音信号精製装置による時間領域での信号精製処理を各チャネルの復号音信号に対して施して得た精製済復号音信号に限られず、上述した音信号精製装置による信号精製処理以外の時間領域での信号処理を各チャネルの復号音信号に対して施して得られた音信号もこもって聴こえる場合がある。第9実施形態の音信号高域補償装置では、上述した音信号精製装置による時間領域での信号精製処理であるか否かに関わらず、時間領域での信号処理前の信号の高域成分を用いて高域のエネルギーを補償することで、こもりを解消することができる。
以下では、上述した音信号精製装置による信号精製処理を各チャネルの復号音信号に対して施して得た精製済復号音信号に限らず、時間領域での信号処理を各チャネルの復号音信号に対して施して得られた音信号も便宜的に精製済復号音信号と呼んで、第9実施形態の音信号高域補償装置について、ステレオのチャネルの個数が2である場合の例を用いて説明する。
≪音信号高域補償装置201≫
第9実施形態の音信号高域補償装置201は、図19に例示する通り、第一チャネル高域補償利得推定部211-1と第一チャネル高域補償部221-1と第二チャネル高域補償利得推定部211-2と第二チャネル高域補償部221-2を含む。音信号高域補償装置201には、上述した何れかの音信号精製装置が出力した第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2と、復号装置600のステレオ復号部620が出力した第一チャネル復号音信号^X1と第二チャネル復号音信号^X2と、が入力される。音信号高域補償装置201は、例えば20msの所定の時間長のフレーム単位で、ステレオの各チャネルについて、当該チャネルの精製済復号音信号と当該チャネルの復号音信号を用いて、当該チャネルの精製済復号音信号の高域のエネルギーを補償した音信号である当該チャネルの補償済復号音信号を得て出力する。第一チャネルのチャネル番号n(チャネルのインデックスn)を1とし、第二チャネルのチャネル番号nを2とすると、音信号高域補償装置201は、各フレームについて、図20に例示するステップS211-nとステップS221-nを各チャネルについて行う。なお、ここでいう高域とは、符号化処理によっても位相がある程度は維持される低い周波数の帯域(いわゆる「低域」)、ではない帯域のことである。高域は、低域と比べて、入力音信号と復号音信号の位相が違っていても、聴感上の差異は知覚されにくいため、符号化処理により約2kHz以上の成分は位相が回転していることが多い。したがって、音信号高域補償装置201は、例えば、周波数が約2kHz以上の成分を高域として扱えばよい。ただし、約2kHz以上を高域とするのは必須ではなく、音信号高域補償装置201は、各信号に含まれる可能性がある周波数帯域を2つに分割する予め定めた周波数以上の成分を高域として扱えばよい。これは以降の実施形態や変形例でも同様である。なお、音信号高域補償装置201に入力される第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2が上述した何れかの音信号精製装置が出力した信号であるのは必須ではなく、復号装置600のステレオ復号部620が出力した第一チャネル復号音信号^X1と第二チャネル復号音信号^X2に対して時間領域の信号処理を施して得られた音信号である第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2であればよい。これも以降の実施形態や変形例でも同様である。
[第nチャネル高域補償利得推定部211-n]
第nチャネル高域補償利得推定部211-nには、音信号高域補償装置201に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置201に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、が入力される。第nチャネル高域補償利得推定部211-nは、第nチャネル復号音信号^Xnと第nチャネル精製済復号音信号~Xnから第nチャネル高域補償利得ρnを得て出力する(ステップS211-n)。第nチャネル高域補償利得ρnは、後述する第nチャネル高域補償部221-nが得る第nチャネル補償済復号音信号~X'nの高域のエネルギーを、第nチャネル復号音信号^Xnの高域のエネルギーに、近付けるための値である。第nチャネル高域補償利得推定部211-nが第nチャネル高域補償利得ρnを得る方法については後述する。
[第nチャネル高域補償部221-n]
第nチャネル高域補償部221-nには、信号高域補償装置201に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置201に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、第nチャネル高域補償利得推定部211-nが出力した第nチャネル高域補償利得ρnと、が入力される。第nチャネル高域補償部221-nは、第nチャネル精製済復号音信号~Xnと、第nチャネル復号音信号^Xnの高域成分に第nチャネル高域補償利得ρnを乗算した信号と、を加算した信号を第nチャネル補償済復号音信号~X'n={~x'n(1), ~x'n(2), ..., ~x'n(T)}として得て出力する(ステップS221-n)。
例えば、第nチャネル高域補償部221-nは、第nチャネル復号音信号^Xnをハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得て、対応するサンプルtごとに、第nチャネル精製済復号音信号~Xnのサンプル値~xn(t)と、第nチャネル高域補償利得ρnと第nチャネル補償用信号^X'nのサンプル値^x'n(t)とを乗算した値ρn×x'n(t)と、を加算した値~x'n(t)による系列を第nチャネル補償済復号音信号~X'n={~x'n(1), ~x'n(2), ..., ~x'n(T)}として得て出力する。すなわち、~x'n(t)=~xn(t)+ρn×^x'n(t)である。ハイパスフィルタとしては、各信号に含まれる可能性がある周波数帯域を2つに分割する予め定めた周波数以上を通過帯域とするハイパスフィルタを用いればよく、例えば、周波数が2kHz以上の成分を高域として扱う場合には、2kHz以上を通過帯域とするハイパスフィルタを用いればよい。
[第nチャネル高域補償利得推定部211-nが第nチャネル高域補償利得ρnを得る方法]
第nチャネル高域補償利得推定部211-nは、例えば下記の第1の方法や第2の方法で第nチャネル高域補償利得ρnを得る。
[[第nチャネル高域補償利得ρnを得る第1の方法]]
第1の方法では、第nチャネル高域補償利得推定部211-nは、第nチャネル精製済復号音信号~Xnの高域のエネルギーが第nチャネル復号音信号^Xnの高域のエネルギーよりも小さいほど大きな値の第nチャネル高域補償利得ρnを得る。例えば、第nチャネル高域補償利得推定部211-nは、第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnを第nチャネル復号音信号^Xnの高域のエネルギー^EXnで除算した値を1から減算した値(1-~EXn/^EXn)の平方根を第nチャネル高域補償利得ρnとして得る。すなわち、第nチャネル高域補償利得推定部211-nは、第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnと、第nチャネル復号音信号^Xnの高域のエネルギー^EXnと、を用いて下記の式(91)により第nチャネル高域補償利得ρnを得る。
Figure 0007491393000044
[[第nチャネル高域補償利得ρnを得る第2の方法]]
信号をハイパスフィルタに通すと、信号の各周波数成分の位相が回転する。そのため、第nチャネル補償用信号^X'nと第nチャネル精製済復号音信号~Xnでは高域成分の位相が合わず、第1の方法で得た第nチャネル高域補償利得ρnを用いて第nチャネル高域補償部221-nが各サンプルtについて~x'n(t)=~xn(t)+ρn×^x'n(t)との加算をして第nチャネル補償済復号音信号~X'nを得ても、第nチャネル補償用信号^X'nの高域成分と第nチャネル精製済復号音信号~Xnの高域成分が打ち消し合うことで、第nチャネル補償済復号音信号~X'nの高域のエネルギーが第nチャネル復号音信号^Xnの高域のエネルギーに想定していたほど近付かない可能性がある。そこで、上述した加算で高域成分が打ち消し合うことがあったとしても、第nチャネル補償済復号音信号~X'nの高域のエネルギーを第nチャネル復号音信号^Xnの高域のエネルギーに近付けられるようにしたのが第2の方法である。第2の方法では、第nチャネル高域補償利得推定部211-nは、例えば下記のステップS211-21-nからステップS211-23-nを行うことで、第nチャネル高域補償利得ρnを得る。
第nチャネル高域補償利得推定部211-nは、まず、第nチャネル復号音信号^Xnを第nチャネル高域補償部221-nが用いるのと同じ特性のハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得る(ステップS211-21-n)。第nチャネル高域補償利得推定部211-nは、次に、対応するサンプルtごとに、第nチャネル精製済復号音信号~Xnのサンプル値~xn(t)と、第nチャネル補償用信号^X'nのサンプル値^x'n(t)と、を加算した値~x"n(t)による系列を第nチャネル暫定加算信号~X"n={~x"n(1), ~x"n(2), ..., ~x"n(T)}として得る(ステップS211-22-n)。すなわち、~x"n(t)=~xn(t)+^x'n(t)である。第nチャネル高域補償利得推定部211-nは、次に、第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnが第nチャネル復号音信号^Xnの高域のエネルギー^EXnよりも小さいほど大きな値であり、かつ、第nチャネル精製済復号音信号~Xnの高域のエネルギーと第nチャネル暫定加算信号~X"nの高域のエネルギーとの差が第nチャネル復号音信号^Xnの高域のエネルギー^EXnよりも小さいほど大きな値である、第nチャネル高域補償利得ρnを得る(ステップS211-23-n)。例えば、第nチャネル高域補償利得推定部211-nは、第nチャネル復号音信号^Xnの高域のエネルギー^EXnと、第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnと、第nチャネル暫定加算信号~X"nの高域のエネルギー~EX"nから第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnを減算した値(~EX"n-~EXn)と、を用いて、下記の式(92)により第nチャネル高域補償利得ρnを得る。
Figure 0007491393000045

ただし、^ρn 2は下記の式(92a)により得られる値であり、μnは下記の式(92b)により得られる値である。
Figure 0007491393000046

Figure 0007491393000047
もし、第nチャネル補償用信号^X'nの高域成分と第nチャネル精製済復号音信号~Xnの高域成分が加算によりエネルギーを打ち消し合わない場合には、第nチャネル暫定加算信号~X"nの高域のエネルギー~EX"nから第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnを減算した値(~EX"n-~EXn)は第nチャネル復号音信号^Xnの高域のエネルギー^EXnと等しくなるため、μnは0となり、式(92)で得られる第nチャネル高域補償利得ρnは[[第nチャネル高域補償利得ρnを得る第1の方法]]の式(91)で得られる第nチャネル高域補償利得ρnと等しくなる。また、第nチャネル補償用信号^X'nの高域成分と第nチャネル精製済復号音信号~Xnの高域成分が加算によりエネルギーを打ち消し合うほどμnは0より大きな値となり、式(92)で得られる第nチャネル高域補償利得ρnは[[第nチャネル高域補償利得ρnを得る第1の方法]]の式(91)で得られる第nチャネル高域補償利得ρnよりも大きな値となる。したがって、第nチャネル補償用信号^X'nの高域成分と第nチャネル精製済復号音信号~Xnの高域成分は加算によりエネルギーの何らかの打ち消し合いは生じると想定されることからすると、第2の方法では、第nチャネル高域補償利得推定部211-nは、式(91)で得られる値より大きな値を第nチャネル高域補償利得ρnとして得ているともいえる。
なお、第nチャネル高域補償利得推定部211-nは、式(92)に代えて、下記の式(93)や下記の式(94)で第nチャネル高域補償利得ρnを得てもよい。式(94)のAは予め定めた正の値であり、1の近傍の値であることが望ましい。
Figure 0007491393000048

Figure 0007491393000049
上述した第2の方法の例では、第nチャネル高域補償部221-nが用いるのと同じ第nチャネル補償用信号^X'nを第nチャネル高域補償利得推定部211-nがステップS211-21-nで得ている。したがって、第nチャネル高域補償利得推定部211-nがステップS211-21-nで得た第nチャネル補償用信号^X'nを出力するようにして、第nチャネル高域補償部221-nには、信号高域補償装置201に入力された第nチャネル復号音信号^Xnに代えて、第nチャネル高域補償利得推定部211-nが出力した第nチャネル補償用信号^X'nが入力されるようにしてもよい。この場合には、第nチャネル高域補償部221-nは第nチャネル補償用信号^X'nを得るハイパスフィルタ処理は行わないでよい。また逆に、第nチャネル高域補償部221-nがハイパスフィルタ処理により得た第nチャネル補償用信号^X'nを出力するようにして、第nチャネル高域補償利得推定部211-nには、第nチャネル高域補償部221-nが出力した第nチャネル補償用信号^X'nも入力されるようにしてもよい。この場合には、第nチャネル高域補償利得推定部211-nは、第nチャネル補償用信号^X'nを得るハイパスフィルタ処理は行わないでよい。もちろん、信号高域補償装置201に図示しないハイパスフィルタ部を備えて、ハイパスフィルタ部が第nチャネル復号音信号^Xnをハイパスフィルタに通して第nチャネル補償用信号^X'nを得て出力し、第nチャネル高域補償利得推定部211-nと第nチャネル高域補償部221-nに第nチャネル補償用信号^X'nが入力されるようにして、第nチャネル高域補償利得推定部211-nと第nチャネル高域補償部221-nが第nチャネル補償用信号^X'nを得るハイパスフィルタ処理を行わないようにしてもよい。すなわち、信号高域補償装置201は、第nチャネル復号音信号^Xnをハイパスフィルタに通した信号を第nチャネル補償用信号^X'nとして第nチャネル高域補償利得推定部211-nと第nチャネル高域補償部221-nが用いることができる構成であれば、どのような構成を採用してもよい。
<第10実施形態>
符号化装置500のモノラル符号化部520がステレオ符号化部530の各チャネルよりも高いビットレートで符号化を行っている場合には、復号装置600のモノラル復号部610が得たモノラル復号音信号^XMを基にした第nチャネルモノラル復号音アップミックス信号^XMnのほうが、復号装置600のステレオ復号部620が得た第nチャネル復号音信号^Xnよりも音質が高く、高域の補償に用いる信号として適している場合がある。そこで、第9実施形態の音信号高域補償装置が高域の補償に用いた第nチャネル復号音信号^Xnに代えて第nチャネルモノラル復号音アップミックス信号^XMnを高域の補償に用いるのが第10実施形態の音信号高域補償装置である。以下、第10実施形態の音信号高域補償装置について、ステレオのチャネルの個数が2である場合の例を用いて、第9実施形態の音信号高域補償装置と異なる点を中心に説明する。
≪音信号高域補償装置202≫
第10実施形態の音信号高域補償装置202は、図21に例示する通り、第一チャネル高域補償利得推定部212-1と第一チャネル高域補償部222-1と第二チャネル高域補償利得推定部212-2と第二チャネル高域補償部222-2を含む。音信号高域補償装置202には、上述した何れかの音信号精製装置が出力した第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2と、復号装置600のステレオ復号部620が出力した第一チャネル復号音信号^X1と第二チャネル復号音信号^X2と、上述した何れかの音信号精製装置が出力した第一チャネルアップミックス済モノラル復号音信号^XM1と第二チャネルアップミックス済モノラル復号音信号^XM2と、が入力される。
すなわち、音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合に、モノラル復号音アップミックス部が得た各チャネルのアップミックス済モノラル復号音信号^XMnを音信号精製装置が出力して音信号高域補償装置202に入力されるようにする。なお、音信号精製装置がモノラル復号音アップミックス部を備えない場合については第10実施形態の変形例で後述する。
音信号高域補償装置202は、例えば20msの所定の時間長のフレーム単位で、ステレオの各チャネルについて、当該チャネルの精製済復号音信号と当該チャネルの復号音信号と当該チャネルのアップミックス済モノラル復号音信号を用いて、当該チャネルの精製済復号音信号の高域のエネルギーを補償した音信号である当該チャネルの補償済復号音信号を得て出力する。第一チャネルのチャネル番号n(チャネルのインデックスn)を1とし、第二チャネルのチャネル番号nを2とすると、音信号高域補償装置202は、各フレームについて、図20に例示するステップS212-nとステップS222-nを各チャネルについて行う。
[第nチャネル高域補償利得推定部212-n]
第nチャネル高域補償利得推定部212-nには、音信号高域補償装置202に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置202に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、が少なくとも入力される。第nチャネル高域補償利得推定部212-nは、第nチャネル復号音信号^Xnと第nチャネル精製済復号音信号~Xnを少なくとも用いて第nチャネル高域補償利得ρnを得て出力する(ステップS212-n)。第nチャネル高域補償利得推定部212-nは、例えば第9実施形態で説明した第1の方法や下記の第2の方法で第nチャネル高域補償利得ρnを得る。
[[第nチャネル高域補償利得ρnを得る第2の方法]]
第2の方法は、第9実施形態の第2の方法で第nチャネル復号音信号^Xnから第nチャネル補償用信号^X'nを得ていた処理に代えて、第nチャネルアップミックス済モノラル復号音信号^XMnから第nチャネル補償用信号^X'nを得る処理を行う方法である。このため、第2の方法を用いる場合には、図21に破線で示したように、第nチャネル高域補償利得推定部212-nには、音信号高域補償装置202に入力された第nチャネルアップミックス済モノラル復号音信号^XMnも入力される。第2の方法では、第nチャネル高域補償利得推定部212-nは、例えば、第9実施形態の第2の方法のステップS211-21-nに代えて下記のステップS212-21-nを行ってから、第9実施形態の第2の方法と同じステップS211-22-nとステップS211-23-nを行うことで、第nチャネル高域補償利得ρnを得る。すなわち、第nチャネル高域補償利得推定部212-nは、まず、第nチャネルアップミックス済モノラル復号音信号^XMnを第nチャネル高域補償部222-nが用いるのと同じ特性のハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得て(ステップS212-21-n)、次に第9実施形態の第2の方法の説明箇所で上述したステップS211-22-nとステップS211-23-nを行う。
[第nチャネル高域補償部222-n]
第nチャネル高域補償部222-nは、第9実施形態の第nチャネル高域補償部221-nが用いた第nチャネル復号音信号^Xnに代えて、第nチャネルアップミックス済モノラル復号音信号^XMnを用いて第nチャネル補償済復号音信号~X'nを得る。第nチャネル高域補償部222-nには、信号高域補償装置202に入力された第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、音信号高域補償装置202に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、第nチャネル高域補償利得推定部212-nが出力した第nチャネル高域補償利得ρnと、が入力される。第nチャネル高域補償部222-nは、第nチャネル精製済復号音信号~Xnと、第nチャネルアップミックス済モノラル復号音信号^XMnの高域成分に第nチャネル高域補償利得ρnを乗算した信号と、を加算した信号を第nチャネル補償済復号音信号~X'n={~x'n(1), ~xn' (2), ..., ~x'n(T)}として得て出力する(ステップS222-n)。
例えば、第nチャネル高域補償部222-nは、第nチャネルアップミックス済モノラル復号音信号^XMnをハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得て、対応するサンプルtごとに、第nチャネル精製済復号音信号~Xnのサンプル値~xn(t)と、第nチャネル高域補償利得ρnと第nチャネル補償用信号^X'nのサンプル値^x'n(t)とを乗算した値ρn×x'n(t)と、を加算した値~x'n(t)による系列を第nチャネル補償済復号音信号~X'n={~x'n(1), ~x'n(2), ..., ~x'n(T)}として得て出力する。すなわち、~x'n(t)=~xn(t)+ρn×^x'n(t)である。
なお、第9実施形態と同様に、第nチャネル高域補償利得推定部212-nが[[第nチャネル高域補償利得ρnを得る第2の方法]]に例示した方法を用いる場合には、第nチャネル高域補償利得推定部212-nと第nチャネル高域補償部222-nの何れか一方が第nチャネルアップミックス済モノラル復号音信号^XMnをハイパスフィルタに通して第nチャネル補償用信号^X'nを得て出力するようにして、もう一方では、第nチャネル補償用信号^X'nを得るハイパスフィルタ処理を行わずに、他方が得た第nチャネル補償用信号^X'nを用いるようにしてもよい。また、信号高域補償装置202に図示しないハイパスフィルタ部を備えて、ハイパスフィルタ部が第nチャネルアップミックス済モノラル復号音信号^XMnをハイパスフィルタに通して第nチャネル補償用信号^X'nを得て出力するようにして、第nチャネル高域補償利得推定部212-nと第nチャネル高域補償部222-nは、第nチャネル補償用信号^X'nを得るハイパスフィルタ処理を行わずに、ハイパスフィルタ部が得た第nチャネル補償用信号^X'nを用いるようにしてもよい。すなわち、信号高域補償装置202は、第nチャネルアップミックス済モノラル復号音信号^XMnをハイパスフィルタに通した信号を第nチャネル補償用信号^X'nとして第nチャネル高域補償利得推定部212-nと第nチャネル高域補償部222-nが用いることができる構成であれば、どのような構成を採用してもよい。
[第10実施形態の変形例]
第10実施形態では音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合について説明したが、音信号精製装置がモノラル復号音アップミックス部を備えずに各チャネルのアップミックス済モノラル復号音信号^XMnを得ていない場合には、音信号精製装置202は、第10実施形態で用いた各チャネルのアップミックス済モノラル復号音信号^XMnに代えて、復号装置600のモノラル復号部610が出力したモノラル復号音信号^XMを用いればよい。また、音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合でも、音信号精製装置202は、第10実施形態で用いた各チャネルのアップミックス済モノラル復号音信号^XMnに代えて、復号装置600のモノラル復号部610が出力したモノラル復号音信号^XMを用いてもよい。
<第11実施形態>
第nチャネル復号音信号^Xnと第nチャネルアップミックス済モノラル復号音信号^XMnの何れを高域の補償に用いるかをビットレートに応じて選択してもよい。この形態を第11実施形態として、ステレオのチャネルの個数が2である場合の例を用いて、第9実施形態の音信号高域補償装置及び第10実施形態の音信号高域補償装置と異なる点を中心に説明する。
≪音信号高域補償装置203≫
第11実施形態の音信号高域補償装置203は、図22に例示する通り、第一チャネル信号選択部233-1と第一チャネル高域補償利得推定部213-1と第一チャネル高域補償部223-1と第二チャネル信号選択部233-2と第二チャネル高域補償利得推定部213-2と第二チャネル高域補償部223-2を含む。音信号高域補償装置203には、上述した何れかの音信号精製装置が出力した第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2と、復号装置600のステレオ復号部620が出力した第一チャネル復号音信号^X1と第二チャネル復号音信号^X2と、上述した何れかの音信号精製装置が出力した第一チャネルアップミックス済モノラル復号音信号^XM1と第二チャネルアップミックス済モノラル復号音信号^XM2と、ビットレート情報と、が入力される。
ビットレート情報は、各フレームについてのモノラル符号化部520とモノラル復号部610のビットレートに対応する情報と、ステレオ符号化部530とステレオ復号部620のチャネル当たりのビットレートに対応する情報、である。各フレームについてのモノラル符号化部520とモノラル復号部610のビットレートに対応する情報は、例えば、各フレームのモノラル符号CMのビット数bMである。各フレームについてのステレオ符号化部530とステレオ復号部620のビットレートに対応する情報は、例えば、各フレームのステレオ符号CSのビット数bsのうちの各チャネルのビット数bnである。なお、ビット数bMやビット数bnが全てのフレームで同じである場合には、音信号高域補償装置203にビットレート情報を入力する必要は無く、第一チャネル信号選択部233-1内の図示しない記憶部と第二チャネル信号選択部233-2内の図示しない記憶部にビットレート情報を予め記憶しておけばよい。
音信号高域補償装置203は、例えば20msの所定の時間長のフレーム単位で、ステレオの各チャネルについて、当該チャネルの精製済復号音信号と当該チャネルの復号音信号と当該チャネルのアップミックス済モノラル復号音信号とビットレート情報を用いて、当該チャネルの精製済復号音信号の高域のエネルギーを補償した音信号である当該チャネルの補償済復号音信号を得て出力する。第一チャネルのチャネル番号n(チャネルのインデックスn)を1とし、第二チャネルのチャネル番号nを2とすると、音信号高域補償装置203は、各フレームについて、図23に例示するステップS233-nとステップS213-nとステップS223-nを各チャネルについて行う。
[第nチャネル信号選択部233-n]
第nチャネル信号選択部233-nには、音信号高域補償装置203に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置203に入力された第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、音信号高域補償装置203に入力されたビットレート情報が入力される。ただし、第nチャネル信号選択部233-n内の図示しない記憶部にビットレート情報が予め記憶されている場合には、ビットレート情報は入力されなくてよい。第nチャネル信号選択部233-nは、ステレオ符号化部530とステレオ復号部620のチャネル当たりのビットレートのほうがモノラル符号化部520とモノラル復号部610のビットレートよりも高い場合、すなわち、bnがbMより大きい場合には、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}を選択して第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}として出力し、ステレオ符号化部530とステレオ復号部620のチャネル当たりのビットレートのほうがモノラル符号化部520とモノラル復号部610のビットレートよりも低い場合、すなわち、bnがbMより小さい場合には、第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}を選択して第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}として出力する(ステップS233-n)。第nチャネル信号選択部233-nは、モノラル符号化部520とモノラル復号部610のビットレートとステレオ符号化部530とステレオ復号部620のチャネル当たりのビットレートが同じである場合、すなわち、bMとbnが同じ値である場合には、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}の何れを選択して第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}として出力してもよい。
[第nチャネル高域補償利得推定部213-n]
第nチャネル高域補償利得推定部213-nには、音信号高域補償装置203に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置203に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、が少なくとも入力される。第nチャネル高域補償利得推定部213-nは、第nチャネル復号音信号^Xnと第nチャネル精製済復号音信号~Xnを少なくとも用いて第nチャネル高域補償利得ρnを得て出力する(ステップS213-n)。第nチャネル高域補償利得推定部213-nは、例えば第9実施形態で説明した第1の方法や下記の第2の方法で第nチャネル高域補償利得ρnを得る。
[[第nチャネル高域補償利得ρnを得る第2の方法]]
第2の方法を用いる場合には、図22に破線で示したように、第nチャネル高域補償利得推定部213-nには、第nチャネル信号選択部233-nが得た第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}も入力される。第2の方法では、第nチャネル高域補償利得推定部213-nは、例えば、第9実施形態の第2の方法のステップS211-21-nに代えて下記のステップS213-21-nを行ってから、第9実施形態の第2の方法と同じステップS211-22-nとステップS211-23-nを行うことで、第nチャネル高域補償利得ρnを得る。すなわち、第nチャネル高域補償利得推定部213-nは、まず、第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}を第nチャネル高域補償部223-nが用いるのと同じ特性のハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得て(ステップS213-21-n)、次に第9実施形態の第2の方法の説明箇所で上述したステップS211-22-nとステップS211-23-nを行う。
[第nチャネル高域補償部223-n]
第nチャネル高域補償部223-nは、第nチャネル選択信号^XSnを用いて第nチャネル補償済復号音信号~X'nを得る。第nチャネル高域補償部223-nには、第nチャネル信号選択部233-nが得た第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}と、音信号高域補償装置203に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、第nチャネル高域補償利得推定部213-nが出力した第nチャネル高域補償利得ρnと、が入力される。第nチャネル高域補償部223-nは、第nチャネル精製済復号音信号~Xnと、第nチャネル選択信号^XSnの高域成分に第nチャネル高域補償利得ρnを乗算した信号と、を加算した信号を第nチャネル補償済復号音信号~X'n={~x'n(1), ~xn' (2), ..., ~x'n(T)}として得て出力する(ステップS223-n)。
例えば、第nチャネル高域補償部223-nは、第nチャネル選択信号^XSnをハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得て、対応するサンプルtごとに、第nチャネル精製済復号音信号~Xnのサンプル値~xn(t)と、第nチャネル高域補償利得ρnと第nチャネル補償用信号^X'nのサンプル値^x'n(t)とを乗算した値ρn×x'n(t)と、を加算した値~x'n(t)による系列を第nチャネル補償済復号音信号~X'n={~x'n(1), ~x'n(2), ..., ~x'n(T)}として得て出力する。すなわち、~x'n(t)=~xn(t)+ρn×^x'n(t)である。
なお、第9実施形態及び第10実施形態と同様に、第nチャネル高域補償利得推定部213-nが[[第nチャネル高域補償利得ρnを得る第2の方法]]に例示した方法を用いる場合には、第nチャネル高域補償利得推定部213-nと第nチャネル高域補償部223-nの何れか一方が第nチャネル選択信号^XSnをハイパスフィルタに通して第nチャネル補償用信号^X'nを得て出力するようにして、もう一方では、第nチャネル補償用信号^X'nを得るハイパスフィルタ処理を行わずに、他方が得た第nチャネル補償用信号^X'nを用いるようにしてもよい。また、信号高域補償装置203に図示しないハイパスフィルタ部を備えて、ハイパスフィルタ部が第nチャネル選択信号^XSnをハイパスフィルタに通して第nチャネル補償用信号^X'nを得て出力するようにして、第nチャネル高域補償利得推定部213-nと第nチャネル高域補償部223-nは、第nチャネル補償用信号^X'nを得るハイパスフィルタ処理を行わずに、ハイパスフィルタ部が得た第nチャネル補償用信号^X'nを用いるようにしてもよい。すなわち、信号高域補償装置203は、第nチャネル選択信号^XSnをハイパスフィルタに通した信号を第nチャネル補償用信号^X'nとして第nチャネル高域補償利得推定部213-nと第nチャネル高域補償部223-nが用いることができる構成であれば、どのような構成を採用してもよい。
[第11実施形態の変形例]
第11実施形態では音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合について説明したが、音信号精製装置がモノラル復号音アップミックス部を備えずに各チャネルのアップミックス済モノラル復号音信号^XMnを得ていない場合には、音信号精製装置203は、第11実施形態で用いた各チャネルのアップミックス済モノラル復号音信号^XMnに代えて、復号装置600のモノラル復号部610が出力したモノラル復号音信号^XMを用いればよい。また、音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合でも、音信号精製装置203は、第11実施形態で用いた各チャネルのアップミックス済モノラル復号音信号^XMnに代えて、復号装置600のモノラル復号部610が出力したモノラル復号音信号^XMを用いてもよい。
<第12実施形態>
第12実施形態として、上述した各実施形態及び変形例に基づく様々な形態を説明する。
[チャネル数]
上述した各実施形態及び変形例では、説明を簡単化するために、2個のチャネルを扱う例で説明した。しかし、チャネル数はこの限りではなく2以上であればよい。このチャネル数をN(Nは2以上の整数)とすると、上述した各実施形態及び変形例は、チャネル数の2をNと読み替えて実施することができる。具体的には、上述した各実施形態及び変形例において、“-n”が付された各部/各ステップは、1からNまでの各チャネルに対応するN個のものを含めるようにし、添え字などの“n”との記載が付されているものは、1からNまでの各チャネル番号に対応するN通りのものを含めるようにすることで、チャネル数Nの音信号精製装置やチャネル数Nの音信号高域補償装置とすることができる。ただし、上述した音信号精製装置の各実施形態及び変形例のうちのチャネル間時間差τやチャネル間相関係数γを用いて例示した処理を含む部分については、2個のチャネルに限定されることがある。
[音信号後処理装置]
第1実施形態から第8実施形態及び各変形例の何れかの音信号精製装置は、復号により得られた音信号を処理する装置であるので、音信号後処理装置であるといえる。すなわち、図24に例示するように、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかが音信号後処理装置301であるともいえる(図25もあわせて参照)。また、図24に例示するように、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかを音信号精製部として含む装置が音信号後処理装置301であるともいえる。
同様に、第1実施形態から第8実施形態及び各変形例の何れかの音信号精製装置と第9実施形態から第11実施形態及び各変形例の何れかの音信号高域補償装置を組み合わせた装置も、復号により得られた音信号を処理する装置であるので、音信号後処理装置であるといえる。すなわち、図26に例示するように、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかと、第9実施形態から第11実施形態及び各変形例の音信号高域補償装置201、202、203の何れかと、を組み合わせた装置が音信号後処理装置302であるともいえる(図27もあわせて参照)。また、図26に例示するように、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかを音信号精製部として含み、第9実施形態から第11実施形態及び各変形例の音信号高域補償装置201、202、203の何れかを音信号高域補償部として含む装置が音信号後処理装置302であるともいえる。
[音信号復号装置]
第1実施形態から第8実施形態及び各変形例の何れかの音信号精製装置は、モノラル復号部610とステレオ復号部620とともに音信号復号装置に含めることができる。すなわち、図28に例示するように、モノラル復号部610と、ステレオ復号部620と、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかと、を含むように音信号復号装置601を構成してもよい(図29もあわせて参照)。また、図28に例示するように、モノラル復号部610とステレオ復号部620に加えて、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかを音信号精製部として含むように音信号復号装置601を構成してもよい。
同様に、第1実施形態から第8実施形態及び各変形例の何れかの音信号精製装置と第9実施形態から第11実施形態及び各変形例の何れかの音信号高域補償装置を組み合わせたものも、モノラル復号部610とステレオ復号部620とともに音信号復号装置に含めることができる。すなわち、図30に例示するように、モノラル復号部610と、ステレオ復号部620と、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかと、第9実施形態から第11実施形態及び各変形例の音信号高域補償装置201、202、203の何れかと、を含むように音信号復号装置602を構成してもよい(図31もあわせて参照)。また、図30に例示するように、モノラル復号部610とステレオ復号部620に加えて、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかを音信号精製部として含み、第9実施形態から第11実施形態及び各変形例の音信号高域補償装置201、202、203の何れかを音信号高域補償部として含むように音信号復号装置602を構成してもよい。
[プログラム及び記録媒体]
上述した各装置の各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図33に示すコンピュータ5000の記憶部5020に読み込ませ、演算処理部5010、入力部5030、出力部5040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部5050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部5050に格納されたプログラムを記憶部5020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部5020に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。さらに、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、実行の順を入れ替えてもよい場合には、記載の順とは逆順に時系列に実行されるとしてもよい。

Claims (15)

  1. フレームごとに、ステレオ符号CSを復号して得たステレオの各チャネルの復号音信号である第nチャネル復号音信号^Xn(nは1以上N以下の各整数)と、前記ステレオ符号CSとは異なる符号であるモノラル符号CMを復号して得たモノラルの復号音信号であるモノラル復号音信号^XMと、を少なくとも用いて、前記ステレオの前記各チャネルの音信号である第nチャネル精製済復号音信号~Xnを得る音信号精製方法であって、
    前記第nチャネル復号音信号^Xnは、前記モノラル符号CMを復号して得た情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して得たものであり、
    フレームごとに、1以上N以下の全ての第nチャネル復号音信号^Xnを少なくとも用いて、前記ステレオの全チャネルに共通する信号である復号音共通信号^YMを得る復号音共通信号推定ステップと、
    フレームごとに、前記復号音共通信号^YMと、ステレオのチャネル間の関係を表す情報であるチャネル間関係情報と、を用いたアップミックス処理により、前記復号音共通信号^YMを各チャネル用にアップミックスした信号である第nチャネルアップミックス済共通信号^YMnを得る復号音共通信号アップミックスステップと、
    フレームごとに、前記モノラル復号音信号^XMと、ステレオのチャネル間の関係を表す情報と、を用いたアップミックス処理により、前記モノラル復号音信号^XMを各チャネル用にアップミックスした信号である第nチャネルアップミックス済モノラル復号音信号^XMnを得るモノラル復号音アップミックスステップと、
    前記各チャネルnについて、フレームごとに、対応するサンプルtごとに、第nチャネル精製重みαMnと前記第nチャネルアップミックス済モノラル復号音信号^XMnのサンプル値^xMn(t)とを乗算した値αMn×^xMn(t)と、前記第nチャネル精製重みαMnを1から減算した値(1-αMn)と前記第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値(1-αMn)×^yMn(t)と、を加算した値~yMn(t)=(1-αMn)×^yMn(t)+αMn×^xMn(t)による系列を第nチャネル精製済アップミックス済信号~YMnとして得る第nチャネル信号精製ステップと、
    前記各チャネルnについて、フレームごとに、前記第nチャネル復号音信号^Xnの前記第nチャネルアップミックス済共通信号^YMnに対する正規化された内積値を第nチャネル分離結合重みβnとして得る第nチャネル分離結合重み推定ステップと、
    前記各チャネルnについて、フレームごとに、対応するサンプルtごとに、前記第nチャネル復号音信号^Xnのサンプル値^xn(t)から、前記第nチャネル分離結合重みβnと前記第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値βn×^yMn(t)を減算し、前記第nチャネル分離結合重みβnと前記第nチャネル精製済アップミックス済信号~YMnのサンプル値~yMn(t)とを乗算した値βn×~yMn(t)を加算した値~xn(t)=^xn(t)-βn×^yMn(t)+βn×~yMn(t)による系列を前記第nチャネル精製済復号音信号~Xnとして得る第nチャネル分離結合ステップと、
    を含むことを特徴とする音信号精製方法。
  2. 請求項1に記載の音信号精製方法であって、
    前記復号音共通信号推定ステップは、
    第1から第Nまでの全チャネルの前記復号音信号^X1, ..., ^XNの重み付き平均と前記モノラル復号音信号^XMの差が最小となる重み係数を得て、
    得た前記重み係数を用いた第1から第Nまでの全チャネルの前記復号音信号^X1, ..., ^XNの重み付き平均を前記復号音共通信号^YMとして得る
    ことを特徴とする音信号精製方法。
  3. 請求項1または2に記載の音信号精製方法であって、
    前記チャネル数Nは2であり、
    前記チャネル間関係情報には、第1チャネルと第2チャネルのチャネル間の時間差に対応するサンプル数|τ|を表す情報と、第1チャネルと第2チャネルの何れが先行しているかを表す情報が含まれており、
    前記復号音共通信号アップミックスステップは、
    第1チャネルが先行している場合には、前記復号音共通信号をそのまま前記第1チャネルアップミックス済共通信号^YM1として得て、前記復号音共通信号を|τ|サンプル遅らせた信号を前記第2チャネルアップミックス済共通信号^YM2として得て、
    第2チャネルが先行している場合には、前記復号音共通信号を|τ|サンプル遅らせた信号を前記第1チャネルアップミックス済共通信号^YM1として得て、前記復号音共通信号をそのまま前記第2チャネルアップミックス済共通信号^YM2として得る
    ことを特徴とする音信号精製方法。
  4. 請求項1から3の何れかに記載の音信号精製方法であって、
    前記各チャネルnについて、フレームごとに、
    前記フレーム当たりのサンプル数Tと、前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、前記モノラル符号CMのビット数bMと、を用いて、
    Figure 0007491393000050

    により前記第nチャネル精製重みαMnを得る第nチャネル精製重み推定ステップ
    を更に含むことを特徴とする音信号精製方法。
  5. 請求項1から3の何れかに記載の音信号精製方法であって、
    前記各チャネルnについて、フレームごとに、
    前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、前記モノラル符号CMのビット数bMと、を少なくとも用いて、0より大きく1未満の値であり、bmとbMが等しいときには0.5であり、bmがbMよりも多いほど0.5より0に近い値であり、bMがbmよりも多いほど0.5より1に近い値を、前記第nチャネル精製重みαMnとして得る第nチャネル精製重み推定ステップ
    を更に含むことを特徴とする音信号精製方法。
  6. 請求項1から3の何れかに記載の音信号精製方法であって、
    前記各チャネルnについて、フレームごとに、
    前記第nチャネルアップミックス済共通信号^YMnの前記第nチャネルアップミックス済モノラル復号音信号^XMnに対する正規化された内積値rnと、
    前記フレーム当たりのサンプル数Tと、前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、前記モノラル符号CMのビット数bMと、を用いて
    Figure 0007491393000051

    により得られる補正係数cnと、
    を乗算した値cn×rnを前記第nチャネル精製重みαMnとして得る第nチャネル精製重み推定ステップ
    を更に含むことを特徴とする音信号精製方法。
  7. 請求項1から3の何れかに記載の音信号精製方法であって、
    前記各チャネルnについて、フレームごとに、
    前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数をbmとし、前記モノラル符号CMのビット数をbMとして、
    前記第nチャネルアップミックス済共通信号^YMnと前記第nチャネルアップミックス済モノラル復号音信号^XMnの間の相関が高いほど1に近い値であり、前記相関が低いほど0に近い値であるrnと、
    0より大きく1未満の値であり、bmとbMが同じであるときには0.5であり、bmがbMよりも多いほど0.5より0に近く、bmがbMよりも少ないほど0.5より1に近い値である補正係数cnと、
    を乗算した値cn×rnを前記第nチャネル精製重みαMnとして得る第nチャネル精製重み推定ステップ
    を更に含むことを特徴とする音信号精製方法。
  8. 請求項1から3の何れかに記載の音信号精製方法であって、
    Tは前記フレーム当たりのサンプル数であり、εnとεMnはそれぞれ0より大きく1未満の値であり、
    前記各チャネルnについて、フレームごとに、
    前記第nチャネルアップミックス済共通信号^YMnの各サンプル値^yMn(t)と前記第nチャネルアップミックス済モノラル復号音信号^XMnの各サンプル値^xMn(t)と前フレームの内積値En(-1)とを用いて
    Figure 0007491393000052

    により得られる内積値En(0)と、
    前記第nチャネルアップミックス済モノラル復号音信号^XMnの各サンプル値^xMn(t)と前フレームの前記第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)とを用いて
    Figure 0007491393000053

    により得られる前記第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)と、を用いて
    Figure 0007491393000054

    により得られる正規化された内積値rnと、
    前記フレーム当たりのサンプル数Tと、前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、前記モノラル符号CMのビット数bMとを用いて
    Figure 0007491393000055

    により得られる補正係数cnと、
    を乗算した値cn×rnを前記第nチャネル精製重みαMnとして得る第nチャネル精製重み推定ステップ
    を更に含むことを特徴とする音信号精製方法。
  9. 請求項6または8に記載の音信号精製方法であって、
    前記第nチャネル精製重み推定ステップは、
    前記正規化された内積値rnと、前記補正係数cnと、0より大きく1未満の予め定めた値であるλと、を乗算した値λ×cn×rnを前記第nチャネル精製重みαMnとして得る
    ことを特徴とする音信号精製方法。
  10. 請求項6または8に記載の音信号精製方法であって、
    前記チャネル数Nは2であり、
    前記第nチャネル精製重み推定ステップは、
    前記正規化された内積値rnと、前記補正係数cnと、前記第1チャネル復号音信号と前記第2チャネル復号音信号の相関係数であるチャネル間相関係数γと、を乗算した値γ×cn×rnを前記第nチャネル精製重みαMnとして得る
    ことを特徴とする音信号精製方法。
  11. 請求項1から10の何れかに記載の音信号精製方法を音信号精製ステップとして含む音信号復号方法であって、
    前記モノラル符号CMを復号して得られた情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して前記各チャネルnの前記第nチャネル復号音信号^Xnを得るステレオ復号ステップと、
    前記モノラル符号CMを復号して前記モノラル復号音信号^XMを得るモノラル復号ステップと、
    を更に含むことを特徴とする音信号復号方法。
  12. フレームごとに、ステレオ符号CSを復号して得たステレオの各チャネルの復号音信号である第nチャネル復号音信号^Xn(nは1以上N以下の各整数)と、前記ステレオ符号CSとは異なる符号であるモノラル符号CMを復号して得たモノラルの復号音信号であるモノラル復号音信号^XMと、を少なくとも用いて、前記ステレオの前記各チャネルの音信号である第nチャネル精製済復号音信号~Xnを得る音信号精製装置であって、
    前記第nチャネル復号音信号^Xnは、前記モノラル符号CMを復号して得た情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して得たものであり、
    フレームごとに、1以上N以下の全ての第nチャネル復号音信号^Xnを少なくとも用いて、前記ステレオの全チャネルに共通する信号である復号音共通信号^YMを得る復号音共通信号推定部と、
    フレームごとに、前記復号音共通信号^YMと、ステレオのチャネル間の関係を表す情報であるチャネル間関係情報と、を用いたアップミックス処理により、前記復号音共通信号^YMを各チャネル用にアップミックスした信号である第nチャネルアップミックス済共通信号^YMnを得る復号音共通信号アップミックス部と、
    フレームごとに、前記モノラル復号音信号^XMと、ステレオのチャネル間の関係を表す情報と、を用いたアップミックス処理により、前記モノラル復号音信号^XMを各チャネル用にアップミックスした信号である第nチャネルアップミックス済モノラル復号音信号^XMnを得るモノラル復号音アップミックス部と、
    前記各チャネルnについて、フレームごとに、対応するサンプルtごとに、第nチャネル精製重みαMnと前記第nチャネルアップミックス済モノラル復号音信号^XMnのサンプル値^xMn(t)とを乗算した値αMn×^xMn(t)と、前記第nチャネル精製重みαMnを1から減算した値(1-αMn)と前記第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値(1-αMn)×^yMn(t)と、を加算した値~yMn(t)=(1-αMn)×^yMn(t)+αMn×^xMn(t)による系列を第nチャネル精製済アップミックス済信号~YMnとして得る第nチャネル信号精製部と、
    前記各チャネルnについて、フレームごとに、前記第nチャネル復号音信号^Xnの前記第nチャネルアップミックス済共通信号^YMnに対する正規化された内積値を第nチャネル分離結合重みβnとして得る第nチャネル分離結合重み推定部と、
    前記各チャネルnについて、フレームごとに、対応するサンプルtごとに、前記第nチャネル復号音信号^Xnのサンプル値^xn(t)から、前記第nチャネル分離結合重みβnと前記第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値βn×^yMn(t)を減算し、前記第nチャネル分離結合重みβnと前記第nチャネル精製済アップミックス済信号~YMnのサンプル値~yMn(t)とを乗算した値βn×~yMn(t)を加算した値~xn(t)=^xn(t)-βn×^yMn(t)+βn×~yMn(t)による系列を前記第nチャネル精製済復号音信号~Xnとして得る第nチャネル分離結合部と、
    を含むことを特徴とする音信号精製装置。
  13. 請求項12に記載の音信号精製装置を音信号精製部として含む音信号復号装置であって、
    前記モノラル符号CMを復号して得られた情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して前記各チャネルnの前記第nチャネル復号音信号^Xnを得るステレオ復号部と、
    前記モノラル符号CMを復号して前記モノラル復号音信号^XMを得るモノラル復号部と、
    を更に含むことを特徴とする音信号復号装置。
  14. 請求項1から10の何れかに記載の音信号精製方法または請求項11に記載の音信号復号方法をコンピュータに実行させるためのプログラム。
  15. 請求項1から10の何れかに記載の音信号精製方法または請求項11に記載の音信号復号方法をコンピュータに実行させるためのプログラムを記録した記録媒体。
JP2022560571A 2020-11-05 2020-11-05 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 Active JP7491393B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/041400 WO2022097237A1 (ja) 2020-11-05 2020-11-05 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JPWO2022097237A1 JPWO2022097237A1 (ja) 2022-05-12
JP7491393B2 true JP7491393B2 (ja) 2024-05-28

Family

ID=81456990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022560571A Active JP7491393B2 (ja) 2020-11-05 2020-11-05 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体

Country Status (3)

Country Link
US (1) US20230377585A1 (ja)
JP (1) JP7491393B2 (ja)
WO (1) WO2022097237A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005117132A (ja) 2003-10-03 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> 音声信号パケット通信方法、音声信号パケット送信方法、受信方法、これらの装置、そのプログラムおよび記録媒体
JP2005202052A (ja) 2004-01-14 2005-07-28 Nec Corp チャンネル数可変オーディオ配信システム、オーディオ配信装置、オーディオ受信装置
WO2006070751A1 (ja) 2004-12-27 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
WO2007116809A1 (ja) 2006-03-31 2007-10-18 Matsushita Electric Industrial Co., Ltd. ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
WO2020152394A1 (en) 2019-01-22 2020-07-30 Nokia Technologies Oy Audio representation and associated rendering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005117132A (ja) 2003-10-03 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> 音声信号パケット通信方法、音声信号パケット送信方法、受信方法、これらの装置、そのプログラムおよび記録媒体
JP2005202052A (ja) 2004-01-14 2005-07-28 Nec Corp チャンネル数可変オーディオ配信システム、オーディオ配信装置、オーディオ受信装置
WO2006070751A1 (ja) 2004-12-27 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
WO2007116809A1 (ja) 2006-03-31 2007-10-18 Matsushita Electric Industrial Co., Ltd. ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
WO2020152394A1 (en) 2019-01-22 2020-07-30 Nokia Technologies Oy Audio representation and associated rendering

Also Published As

Publication number Publication date
US20230377585A1 (en) 2023-11-23
JPWO2022097237A1 (ja) 2022-05-12
WO2022097237A1 (ja) 2022-05-12

Similar Documents

Publication Publication Date Title
EP3268957B1 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP2020170188A (ja) パラメトリック・マルチチャネル・エンコードのための方法
TW201737244A (zh) 音訊信號解碼
JP2024023484A (ja) 音信号ダウンミックス方法、音信号ダウンミックス装置及びプログラム
JP7491393B2 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
JP7491394B2 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
JP7491395B2 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
JP2022539571A (ja) ステレオエンコーディング方法及び装置、並びにステレオデコーディング方法及び装置
WO2021181977A1 (ja) 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
WO2022097236A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097234A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097241A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097244A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097233A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097242A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097235A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097240A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097243A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2023032065A1 (ja) 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム
JP7380837B2 (ja) 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体
JP7380838B2 (ja) 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体
WO2013146895A1 (ja) 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240429

R150 Certificate of patent or registration of utility model

Ref document number: 7491393

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150