JP6139419B2 - 符号化装置、復号装置、符号化方法、復号方法、およびプログラム - Google Patents
符号化装置、復号装置、符号化方法、復号方法、およびプログラム Download PDFInfo
- Publication number
- JP6139419B2 JP6139419B2 JP2014000144A JP2014000144A JP6139419B2 JP 6139419 B2 JP6139419 B2 JP 6139419B2 JP 2014000144 A JP2014000144 A JP 2014000144A JP 2014000144 A JP2014000144 A JP 2014000144A JP 6139419 B2 JP6139419 B2 JP 6139419B2
- Authority
- JP
- Japan
- Prior art keywords
- tensor
- sequence
- decoding
- encoding
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 168
- 238000004364 calculation method Methods 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 44
- 238000000513 principal component analysis Methods 0.000 claims description 38
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 description 81
- 238000012545 processing Methods 0.000 description 38
- 238000012546 transfer Methods 0.000 description 20
- 239000013598 vector Substances 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 18
- 230000008859 change Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 235000019580 granularity Nutrition 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000002087 whitening effect Effects 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
[概要]
観測信号とは、信号源から発せられた時系列信号である源信号が何らかの伝達特性を有する空間を得て複数個のセンサで観測して得られる信号である。観測信号(マルチチャネル信号)の系列は、時間領域の信号であっても周波数領域の信号であっても、源信号の系列や伝達特性の系列等の互いに時間変化量が異なる要素の合成として表すことができる。例えば、伝達特性が定常である範囲内において、周波数領域では、マルチチャネル信号の系列を表す行列を、伝達特性等を表す行列と、源信号等の系列を表す行列との積で表すことができる。
<符号化装置>
図1に例示するように、第1実施形態の符号化装置11は、周波数変換部111、固有空間算出部112、固有信号符号化部113、およびテンソル符号化部114を有する。固有信号符号化部113は、周波数逆変換部1131、線形予測部1132、および符号化部1133を含む。テンソル符号化部114は、中心化部1141、固有空間算出部1142(第2固有空間算出部)、および符号化部1143,1144(コアテンソル符号化部,基底群符号化部)を含む。符号化装置11は、例えば、CPU(central processing unit)、RAM(random-access memory)等から構成される汎用または専用のコンピュータに所定のプログラムが読み込まれることによって構成される装置である。
図2に例示するように、第1実施形態の復号装置12は、周波数逆変換部121、信号再構成部122、固有信号復号部123、およびテンソル復号部124を有する。固有信号復号部123は、周波数変換部1231、フィルタ処理部1232、および復号部1233を含む。テンソル復号部124は、加算部1241、テンソル再構成部1242、および復号部1243,1244(コアテンソル復号部,基底群復号部)を含む。復号装置12は、例えば、CPU、RAM等から構成される汎用または専用のコンピュータに所定のプログラムが読み込まれることによって構成される装置である。
或る空間内に、既知または未知の単数個または複数個の音源と、D個のマイクロホン(例えば、マイクロホンアレー)とが存在し、当該音源から発せられた時系列信号である音源信号が、室内音響伝達特性を有する空間を経て当該D個のマイクロホンで観測されるとする。各マイクロホンでそれぞれ観測された観測信号から得られるデジタル観測信号を要素とするD次元の時間領域信号を「時間領域のマルチチャネル信号xmut∈RD」と表現する。ここで、Dは2以上の整数(例えば、D=64)の定数であり、tは離散時間を表すインデックスであり、uは所定の時間区間であるフレームを表すインデックスであり、mは複数個のフレームから構成されるサブブロックを表すインデックスである。インデックスtに対応する離散時間を「離散時間t」と表記し、インデックスuに対応するフレームを「フレームu」と表記し、インデックスmに対応するサブブロックを「サブブロックm」と表記する。また、Rは実数集合を表し、RDはD次元の実数集合を表し、α∈βはαがβに属することを表す。なお、各マイクロホンに対応する処理系統を「チャネル」と呼ぶことにする。
符号化装置11(図1)の周波数変換部111は、時間領域のマルチチャネル信号xmut∈RDを入力とし、所定の時間区間であるフレームnごとの時間領域のマルチチャネル信号xmutに対応するD次元の周波数領域の信号である「周波数領域のマルチチャネル信号Xkmn∈CD」を得て出力する。なお、nはフレームに対応するインデックスであり、インデックスnに対応するフレームを「フレームn」と表記する。フレームnの長さは、例えば、後述する初期反射音が含まれる時間(例えば、数百ミリ秒)とする。フレームnはサブブロックmに属するものとする。kは離散周波数(周波数ビン)に対応するインデックスであり、インデックスkに対応する離散周波数を「離散周波数k」と表記する。Cは複素数集合を表し、CDはD次元の複素数集合を表す。なお、時間領域の信号の周波数領域の信号への変換方式に特に限定はなく、例えば、短時間フーリエ変換(STFT: short-time Fourier transform)や修正離散コサイン変換(MDCT: modified discrete cosine transform)等の周知の変換方式を用いることができる。
固有空間算出部112は、周波数領域のマルチチャネル信号Xkmn∈CDを入力とし、当該周波数領域のマルチチャネル信号Xkmnに周波数毎の主成分分析(KL展開)を含む第一処理を行うことで、次元縮約された信号の系列である固有信号Skmn∈Cdの系列と、基底の系列であるテンソルAm∈Ci1×i2×i3の系列とを得て出力する。この処理はサブブロックm単位で行われる。以下に、図4Aから図4Cを用いてこの処理の具体例を示す。
例えば、第一処理が主成分分析のみである場合、固有空間算出部112は、行列DNXkmに対応する共分散行列のD個の固有値から大きい順にd個の固有値を選択し、選択したd個の固有値に対応するd個の固有ベクトルを行ベクトルとするd行D列(d×D)の行列dDMを求め、その共役転置行列{dDM}Hを行列DdAkmとする。ただし、dは仮想音源数(直接音の個数+初期反射音の個数)に相当するD以下の正整数(例えば、d=2)である。dは、(1)所定の閾値を越えた上記の固有値の個数(仮想音源数の推定値)であってもよいし、(2)予め人為的に定められた値であってもよい。(1)の場合では、離散周波数ごとに仮想音源数の推定値が相違するため、例えば、全離散周波数帯域で最大の推定値をdとする。dが予め定められた値でない場合には、dを表す符号が復号装置12に送られる。また、行列dDMと行列DNXkmとからdDM DNXkmを求めて行列dNSkmとする。
主成分分析と白色化処理とを第一処理としてもよい。この場合、固有空間算出部112は、〔第一処理の例1〕で説明した行列dDMを白色化した行列dDW=ddΛdDMに対する{dDW}−1={ddΛdDM}−1={dDM}H{ddΛ}−1を行列DdAkmとする。ただし、ddΛは、上述のように選択されたd個の固有値λ1,…,λdに対応する(λ1)−1/2,…,(λd)−1/2を対角成分とするd行d列の対角行列である。また、行列dDM と行列DNXkmとからdDM DNXkmを求めて行列dNSkmとする。
主成分分析と白色化処理と独立成分分析(ICA: Independent Component Analysis)とを第一処理としてもよい。この場合、固有空間算出部112は、〔第一処理の例1〕で説明した行列dDMを白色化した行列dDMに分離フィルタFを適用したdDI=FddΛdDMに対する{dDI}−1={FddΛdDM}−1を行列DdAkmとする。また、行列dDM と行列DNXkmとからdDM DNXkmを求めて行列dNSkmとする(第一処理の例の説明終わり)。
固有信号符号化部113は、入力された固有信号Skm1,…,SkmNの系列を符号化して固有信号符号Csを得て出力する。ここでは一例として、固有信号を時間領域信号に変換した後、線形予測符号化を行う例を示す。
まず周波数逆変換部1131は、入力された全離散周波数k=1,…,Kの固有信号Skm1,…,SkmNの系列を時間領域に変換し、各サブブロックmで時間領域の固有信号smnt∈Rdの系列(n=1,…,N)を得て出力する。なお、時間領域への変換方式には限定はなく、周波数変換部111の処理の逆変換等、周波数領域の系列を時間領域の系列に変換できる方法であれば、どのような方法が用いられてもよい。時間領域への変換方式の例は、逆離散フーリエ変換(IDFT: inverse discrete Fourier transform)、短時間逆フーリエ変換(ISTFT: inverse short-time Fourier transform)、逆修正離散コサイン変換(IMDCT: inverse modified discrete cosine transform)等である。
線形予測部1132は、入力された時間領域の固有信号smnt∈Rdの系列を、サブブロック内で複数区間(区間長はビット割当ての都合上、全体的な符号化効率を鑑みて決定する)に分割し、それぞれの区間内の固有信号smntに対して線形予測分析を適用し、各区間での合成フィルタを特定するための線形予測情報infoを得て出力する。合成フィルタを特定するための線形予測情報infoに特に限定はないが、例えば、線形予測部1132は、各区間の固有信号smntに対応する線形予測係数を算出し、線形予測係数を線スペクトル対係数に変換し、当該線スペクトル対係数を量子化して得られる量子化済み線スペクトル対係数を線形予測情報infoとして出力する。また、それぞれの区間内の固有信号smntを線形予測情報infoに対応する線形予測係数である量子化済み線形予測係数で予測して残差信号rを得て出力する。
符号化部1133は、入力された線形予測情報infoと残差信号rとを公知の符号化方式に則って符号化し、固有信号符号(ビット列)Csを得て出力する。
テンソル符号化部114は、入力されたテンソルAm∈Ci1×i2×i3の系列を符号化してテンソル符号(CB,CU)を得て出力する。ここでは一例として、テンソルAmに対応する系列に主成分分析を含む第二処理を適用し、次元縮約されたテンソルの系列であるコアテンソルの系列と、少なくとも一つの基底から構成される基底群とを得、当該コアテンソルの系列を符号化してコアテンソル符号を得、当該基底群を符号化して基底群符号を得る例を示す。コアテンソルの系列と基底群とは、別々に符号化される。また、本形態のテンソルの系列Amの符号化は、時間方向への予測も周波数方向への予測も含まない符号化方式に則って行われる。
中心化部1141は、入力されたテンソルAmの系列の標本平均E[Am]∈Ci1×i2×i3を計算し、入力されたテンソルAmの系列から当該標本平均E[Am]を減じた中心化後のテンソルcAm=Am−E[Am]の系列(「テンソルAmに対応する系列」に相当)を計算し、中心化後のテンソルcAmと標本平均E[Am]とを出力する。なお、標本平均E[Am]は、複数個のサブブロックごと(例えば、ブロックごと)のテンソルAmの平均である。例えば、ブロックごとのテンソルAmの平均が標本平均E[Am]である場合、E[Am]=(A1+…+AM)/Mである。
固有空間算出部1142は、入力された中心化後のテンソルcAm∈Ci1×i2×i3の系列に主成分分析を含む第二処理を適用し、次元縮約されたテンソルの系列であるコアテンソルBmの系列と、少なくとも一つの基底から構成される基底群Uとを得て出力する。「主成分分析を含む第二処理」の例は、主成分分析、一般化X次元主成分分析(Xは2以上の整数)、多重線形主成分分析などであるが、本形態では、「主成分分析を含む第二処理」として「一般化3次元主成分分析(G3D−PCA)」を用い、「中心化後のテンソルcAm∈Ci1×i2×i3の系列」から、「コアテンソルBm∈Cj1×j2×j3の系列」と「モード1の基底行列U(1)∈Ci1×j1」と「モード2の基底行列U(2)∈Ci2×j2」と「モード3の基底行列U(3)∈Ci3×j3」とを得て出力する。すなわち、本形態の基底群Uは基底行列U(1),U(2),U(3)の3個の基底(すなわち、複数個の基底)からなる。基底行列は直交行列であり、j1,j2,j3は、j1≦i1,j2≦i2,j3≦i3を満たす予め定められた正整数である(j1=i1かつj2=i2かつj3=i3である場合を除く)。固有空間算出部1142は、この処理により、サブブロックmごとにコアテンソルBmを得、ブロックごとに基底行列U(1),U(2),U(3)を得る。なお、一般化3次元主成分分析は、以下のコスト関数を最小化するように3個の基底行列U(1),U(2),U(3)を求め、さらにこれらの基底行列U(1),U(2),U(3)に対してこのコスト関数を最小化するコアテンソルBm∈Cj1×j2×j3を求める手法である(図5参照)。ただし、||・||は・のノルムを表す。ただし、コスト関数における「×q」はコアテンソルとモードqの基底行列のq-モード積を表す。なお、q-モード積の定義およびその演算方法は周知であり、その詳細は、例えば、「L. De Lathauwer, B. De Moor, and J. Vandewalle, “A multilinear singular value decomposition,” SIAM J. Matrix Anal. Appl., 21(2):1253{1278, 2000.」等に開示されている。
符号化部1143は、入力されたコアテンソルBmの系列を公知の符号化方式に則って符号化し、コアテンソル符号(ビット列)CBを得て出力する。
符号化部1144bは、入力された基底行列U(1),U(2),U(3)および標本平均E[Am]の系列を公知の符号化方式に則って符号化し、基底群符号(ビット列)CUを得て出力する。
復号装置12(図2)には、固有信号符号Cs、ならびに、コアテンソル符号CBおよび基底群符号CUを含むテンソル符号(CB,CU)が入力される。復号装置12は、テンソル符号(CB,CU)を復号して復号テンソルAm’∈Ci1×i2×i3の系列を得、固有信号符号Csを復号して復号固有信号Skmn’∈Cdの系列を得、得られた復号テンソルの系列を基底の系列として、得られた復号固有信号の系列を適用して次元復元された復号マルチチャネル信号Xkmn’∈CDの系列(複数チャネルの時系列信号に対応する周波数領域の復号マルチチャネル信号の系列)を得、その時間領域信号である復号マルチチャネル信号xmnt’∈RDを出力する。例えば、復号装置12は、符号化装置11における固有空間算出部112でのテンソルAmの推定、固有空間算出部1142での「モード1の基底行列U(1)」と「モード2の基底行列U(2)」と「モード3の基底行列U(3)」の推定、「線形予測情報」の推定箇所を除く、すべての処理の逆演算を行うことで、復号マルチチャネル信号Xkmn’の系列を得て出力する。
固有信号復号部123は、固有信号符号化部113での符号化処理に対応する復号処理によって、入力された固有信号符号Csを復号し、復号固有信号Skmn’∈Cdの系列を得て出力する。本形態の固有信号符号Csの復号は、時間方向または周波数方向への予測を含む復号方式に則って行われる。ここでは一例として、固有信号符号化部113で固有信号を時間領域信号に変換した後、線形予測符号化が行われた場合に対応する復号処理を例示する。
まず、復号部1233は、符号化部1133での符号化方式に対応する方式に則って、入力された固有信号符号Csを復号し、復号線形予測情報info’と復号残差信号r’とを得て出力する。なお、復号線形予測情報info’と復号残差信号r’は、符号化部1133に入力された線形予測情報infoと残差信号rのそれぞれと同じものである。
フィルタ処理部1232は、入力された復号残差信号r’に対して、復号線形予測情報info’によって定まる合成フィルタを適用することで、時間領域の復号固有信号smnt’∈Rdの系列を得て出力する。
周波数変換部1231は、入力された時間領域の復号固有信号smnt’をフレームnごとに周波数領域に変換し、周波数領域の復号固有信号Skmn’∈Cdの系列を得て出力する。なお、周波数領域への変換方式に特に限定はなく、例えば、前述した周波数変換部111と同じ変換方式を用いることができる。
テンソル復号部124は、テンソル符号化部114での符号化処理に対応する復号処理によって、入力されたテンソル符号(CB,CU)を復号し、復号テンソルAm’∈Ci1×i2×i3の系列を得て出力する。本形態のテンソル符号(CB,CU)の復号は、時間方向への予測も周波数方向への予測も含まない復号方式に則って行われる。ここでは一例として、テンソル符号化部114でコアテンソルの系列と基底群とが別々に符号化された場合の復号処理を説明する。
復号部1243は、符号化部1143での符号化方式に対応する方式に則って、入力されたコアテンソル符号CBを復号し、
サブブロックm毎に復号コアテンソルBm’∈Cj1×j2×j3の系列を得て出力する。
復号部1244は、符号化部1144での符号化方式に対応する方式に則って、入力された基底群符号CUを復号し、
少なくとも一つの基底から構成される復号基底群U’、および復号標本平均E[Am]’∈Ci1×i2×i3の系列を得て出力する。復号基底群U’はブロック毎に得られ、復号標本平均E[Am]’はサブブロックm毎に得られる。本形態では、復号基底群U’として「モード1の復号基底行列U(1)’∈Ci1×j1」と「モード2の復号基底行列U(2)’∈Cj2×i2」と「モード3の復号基底行列U(3)’∈Cj3×i3」(複数個の基底から構成される復号基底群)が得られる。
テンソル再構成部1242は、入力された「モード1の復号基底行列U(1)’」と「モード2の復号基底行列U(2)’」と「モード3の復号基底行列U(3)’」(復号基底群U’)に、入力された復号コアテンソルBm’∈Cj1×j2×j3の系列を適用することで得られる中心化後の復号テンソルcAm’∈Ci1×i2×i3の系列を得て出力する。例えば、テンソル再構成部1242は、中心化後の復号テンソルcAm’=Bm’ ×1 U(1)’ ×2 U(2)’ ×3U(3)’の系列を得て出力する。
加算部1241は、入力された中心化後の復号テンソルcAm’の系列と復号標本平均E[Am]’とを加算し、サブブロックm毎に復号テンソルAm’∈Ci1×i2×i3の系列(中心化後の復号テンソルcAm’の系列に対応する系列)を得て出力する。すなわち、加算部1241は、Am’=cAm’+E[Am]’の系列を出力する。
信号再構成部122は、入力された復号テンソルAm’∈Ci1×i2×i3の系列に、入力された復号固有信号Skmn’∈Cdの系列を適用し、次元復元された復号マルチチャネル信号Xkmn’∈CDの系列を得て出力する。すなわち、まず信号再構成部122は、復号テンソルAm’を全離散周波数k=1,…,Kに対応するD×dのサイズ(=マイクロホン数D×仮想音源数dのサイズ)を持つ行列DdAkm’の集合{DdA1m’,…,DdAKm’}に分解する(図4B参照)。次に、信号再構成部122は、入力された行列DdAkm(前述の〔第一処理の例1〕の場合には、各サブブロックmにおける固有ベクトルからなる行列)の系列に、復号固有信号Skmn’をn列目(n=1,…,N)の列ベクトルとするd行N列の行列dNSkm’の系列を掛け合わせ、D行N列の行列DNXkm’=DdAkm’ dNSkm’の系列を得る。信号再構成部122は、得られた行列DNXkm’を構成する各n列目(n=1,…,N)のD次元の列ベクトルXkmn’の系列を、各フレームnの復号マルチチャネル信号Xkmn’の系列として出力する(図4A参照)。
周波数逆変換部121は、入力された復号マルチチャネル信号Xkm1’,…,XkmN’の系列を時間領域に変換し、各サブブロックmのフレームn=1,…,Nでの時間領域の復号マルチチャネル信号xm1t’,…,xmNt’∈RDの系列を得て出力する。なお、時間領域への変換方式には限定はなく、例えば、周波数逆変換部1131と同じ変換方式を用いることができる。
本形態は第1実施形態の変形例であり、「主成分分析を含む第二処理」として「一般化3次元主成分分析(G3D−PCA)」を用いることに代えて「1次元の主成分分析(PCA)」を用いる形態である。以下では、これまで説明した事項との相違点を中心に説明し、既に説明した事項については既述した参照符号を用いて説明を省略する。
図1に例示するように、第2実施形態の符号化装置21は、周波数変換部111、固有空間算出部112、固有信号符号化部113、およびテンソル符号化部214を有する。テンソル符号化部214は、中心化部1141、固有空間算出部2142(第2固有空間算出部)、および符号化部2143,2144(コアテンソル符号化部,基底群符号化部)を含む。
図2に例示するように、第2実施形態の復号装置22は、周波数逆変換部121、信号再構成部122、固有信号復号部123、およびテンソル復号部224を有する。テンソル復号部224は、加算部1241、テンソル再構成部2242、および復号部2243,2244(コアテンソル復号部,基底群復号部)を含む。
第1実施形態との相違点であるテンソル符号化部214の固有空間算出部2142、および符号化部2143,2144の処理のみを説明する。
≪固有空間算出部2142≫
固有空間算出部2142は、入力された中心化後のテンソルcAm∈Ci1×i2×i3を構成する「i1次元ベクトルの系列」に1次元の主成分分析(PCA)を適用し、それぞれに対応する「コアベクトル(コアテンソル)1Bm∈Cj1の系列」と「モード1の基底行列(基底群)1U(1)∈Ci1×j1」とを得て出力する(図6A)。i1は、Dであってもよいし、dであってもよいし、Kであってもよい。例えば、i1=Dである場合、「中心化後のテンソルcAm∈Ci1×i2×i3を構成するi1次元ベクトルの系列」は、各(k,q)の組についての中心化後のベクトル(D次元直交基底)cAkmq∈CD(ただし、q=1,…,d)の系列である。以下ではi1=Dである場合を例にとって説明する。この場合、固有空間算出部2142は、以下のコスト関数を最小化するように基底行列1U(1)を求め、さらにこの基底行列1U(1)に対してこのコスト関数を最小化するコアベクトル1Bm∈Cj1を求める(図6A参照)。なお、基底行列1U(1)は、ブロックごとに各(k,q)の組についてそれぞれ得られ、コアベクトル1Bmは、サブブロックmごとに各(k,q)の組についてそれぞれ得られる。
符号化部2143は、入力されたコアベクトル1Bmの系列を公知の符号化方式に則って符号化し、コアテンソル符号(ビット列)CBを得て出力する。
符号化部2144は、入力された基底行列1U(1)および標本平均E[Am]の系列を公知の符号化方式に則って符号化し、基底群符号(ビット列)CUを得て出力する。
第1実施形態との相違点であるテンソル復号部224のテンソル再構成部2242、および復号化部2243,2244の処理のみを説明する。
復号部2243は、符号化部2143での符号化方式に対応する方式に則って、入力されたコアテンソル符号CBを復号し、サブブロックm毎に各(k,q)の組について復号コアベクトル(復号コアテンソル)1Bm’∈Cj1の系列を得て出力する。
復号部2244は、符号化部2144での符号化方式に対応する方式に則って、入力された基底群符号CUを復号し、各(k,q)の組についての復号基底行列(復号基底群)1U(1)’∈Ci1×j1、および復号標本平均E[Am]’∈Ci1×i2×i3の系列を得て出力する。
テンソル再構成部2242は、入力された「復号基底行列1U(1)’∈Ci1×j1」に、入力された復号コアベクトル1Bm’∈Cj1の系列を適用することで得られる中心化後の復号テンソルcAm’∈Ci1×i2×i3の系列を得て出力する。例えば、テンソル再構成部2242は、サブブロックmごとに、すべての(k,q)についての中心化後の復号ベクトルcAkmq=1Bm’ ×1 1U(1)’を統合し、サブブロックmごとの中心化後の復号テンソルcAm’の系列を得て出力する。
本形態は第1実施形態の変形例であり、「主成分分析を含む第二処理」として「一般化3次元主成分分析(G3D−PCA)」を用いることに代えて「一般化2次元主成分分析(G2D−PCA)」を用いる形態である。以下では、これまで説明した事項との相違点を中心に説明し、既に説明した事項については既述した参照符号を用いて説明を省略する。
図1に例示するように、第3実施形態の符号化装置31は、周波数変換部111、固有空間算出部112、固有信号符号化部113、およびテンソル符号化部314を有する。テンソル符号化部314は、中心化部1141、固有空間算出部3142(第2固有空間算出部)、および符号化部3143,3144(コアテンソル符号化部,基底群符号化部)を含む。
図2に例示するように、第3実施形態の復号装置32は、周波数逆変換部121、信号再構成部122、固有信号復号部123、およびテンソル復号部324を有する。テンソル復号部324は、加算部1241、テンソル再構成部3242、および復号部3243,3244(コアテンソル復号部,基底群復号部)を含む。
第1実施形態との相違点であるテンソル符号化部314の固有空間算出部3142、および符号化部3143,3144の処理のみを説明する。
≪固有空間算出部3142≫
固有空間算出部3142は、入力された中心化後のテンソルcAm∈Ci1×i2×i3を構成する「i1×i2行列の系列」に一般化2次元主成分分析(G2D−PCA)を適用し、それぞれに対応する「コア行列(コアテンソル)2Bm∈Cj1×j2の系列」、ならびに「モード1の基底行列2U(1)∈Ci1×j1」および「モード2の基底行列2U(2)∈Ci2×j2」(基底群)を得て出力する(図6B)。i1は、Dであってもよいし、dであってもよいし、Kであってもよい。また、i2は、i1=Dであれば、dであってもよいし、Kであってもよい。例えば、i1=Dかつi2=Kである場合、「中心化後のテンソルcAm∈Ci1×i2×i3を構成するi1×i2行列の系列」は、各qについての中心化後のD次元直交基底cAkmq∈CDをk列目の列ベクトルとする、中心化後のD×K行列cAmq∈CD×K(ただし、q=1,…,d)の系列である。以下ではi1=Dかつi2=Kである場合を例にとって説明する。この場合、固有空間算出部3142は、以下のコスト関数を最小化するように基底行列2U(1),2U(2)を求め、さらにこれらの基底行列2U(1),2U(2)に対してこのコスト関数を最小化するコア行列2Bm∈Cj1×j2を求める(図6B参照)。なお、基底行列2U(1),2U(2)は、ブロックごとに各qについてそれぞれ得られ、コア行列2Bmは、サブブロックmごとに各qについてそれぞれ得られる。
符号化部3143は、入力されたコア行列2Bmの系列を公知の符号化方式に則って符号化し、コアテンソル符号(ビット列)CBを得て出力する。
符号化部3144は、入力された基底行列2U(1),2U(2)および標本平均E[Am]の系列を公知の符号化方式に則って符号化し、基底群符号(ビット列)CUを得て出力する。
第1実施形態との相違点であるテンソル復号部324のテンソル再構成部3242、および復号部3243,3244の処理のみを説明する。
復号部3243は、符号化部3143での符号化方式に対応する方式に則って、入力されたコアテンソル符号CBを復号し、サブブロックm毎に各qについて復号コア行列(復号コアテンソル)2Bm’∈Cj1×j2の系列を得て出力する。
復号部3244は、符号化部3144での符号化方式に対応する方式に則って、入力された基底群符号CUを復号し、各qについての復号基底行列2U(1)’∈Ci1×j1,2U(2)’∈Cj2×i2(復号基底群)、および復号標本平均E[Am]’∈Ci1×i2×i3の系列を得て出力する。
テンソル再構成部3242は、入力された「復号基底行列2U(1)’,2U(2)’」に、入力された復号コア行列2Bm’∈Cj1×j2の系列を適用することで得られる中心化後の復号テンソルcAm’∈Ci1×i2×i3の系列を得て出力する。例えば、テンソル再構成部3242は、すべてのqについての中心化後の復号行列cAkm=2Bm’ ×1 2U(1)’ ×22U(2)’を統合し、サブブロックmごとの中心化後の復号テンソルcAm’の系列を得て出力する。
本形態は第1実施形態の変形例であり、固有空間算出部の処理で生じる誤差も符号化し、符号化装置全体としてロスレス符号化を実現するものである。以下では、これまで説明した事項との相違点を中心に説明し、既に説明した事項については既述した参照符号を用いて説明を省略する。
図7に例示するように、第4実施形態の符号化装置41は、周波数変換部111、固有空間算出部412、固有信号符号化部113、テンソル符号化部414、および誤差符号化部415を有する。固有信号符号化部113は、周波数逆変換部1131、線形予測部1132、および符号化部1133を含む。テンソル符号化部414は、中心化部1141、固有空間算出部4142、符号化部1143,1144および誤差符号化部4145を含む。
図8に例示するように、第4実施形態の復号装置42は、周波数逆変換部121、信号再構成部422、固有信号復号部123、テンソル復号部424、および誤差復号部425を有する。固有信号復号部123は、周波数変換部1231、フィルタ処理部1232、および復号部1233を含む。テンソル復号部424は、加算部1241、テンソル再構成部1242、復号部1243,1244、および誤差復号部4245を含む。
第1実施形態との実質的な相違点である固有空間算出部412、誤差符号化部415、固有空間算出部4142、誤差符号化部4145を中心に説明する。
固有空間算出部412は、まず、固有空間算出部112と同様に、周波数領域のマルチチャネル信号Xkmn∈CDを入力とし、当該周波数領域のマルチチャネル信号Xkmnに周波数毎の主成分分析(KL展開)を含む第一処理を行うことで、次元縮約された信号の系列である固有信号Skmn∈Cdの系列と、基底の系列であるテンソルAm∈Ci1×i2×i3の系列とを得て出力する。固有空間算出部412は、さらに、DNXkmとDdAkm dNSkmとの差分である誤差DNe1kmの系列も得て出力する。
誤差符号化部415は、入力された誤差DNe1kmの系列を公知のエントロピー符号化方式に則って符号化し、誤差信号符号Ce1を得て出力する。
固有空間算出部4142は、まず、固有空間算出部1142と同様に、コアテンソルBmの系列と、少なくとも一つの基底から構成される基底群Uとを得て出力する。固有空間算出部4142は、さらに、cAmとBm ×1U(1) ×2 U(2) ×3 U(3)との差分である誤差e2の系列も得て出力する。
誤差符号化部4145は、入力された誤差e2の系列を公知のエントロピー符号化方式に則って符号化し、誤差信号符号Ce2を得て出力する。
第1実施形態との実質的な相違点である誤差復号部425,4245、テンソル再構成部4242、信号再構成部422を中心に説明する。
≪誤差復号部4245≫
誤差復号部4245は、誤差符号化部4145でのエントロピー符号化方式に対応する復号方式に則って、入力された誤差信号符号Ce2を復号し、復号誤差e2’の系列を得て出力する。
テンソル再構成部4242は、テンソル再構成部1242と同様に、入力された「モード1の復号基底行列U(1)’」と「モード2の復号基底行列U(2)’」と「モード3の復号基底行列U(3)’」(復号基底群U’)に、入力された復号コアテンソルBm’∈Cj1×j2×j3の系列を適用する。本形態では、これによって得られる系列を「第2復号テンソルcAm’’∈Ci1×i2×i3の系列」とする。テンソル再構成部4242は、さらに、当該第2復号テンソルcAm’’の系列と入力された復号誤差e2’の系列との和を、中心化後の復号テンソルcAm’∈Ci1×i2×i3の系列として得て出力する。例えば、テンソル再構成部4242は、Bm’ ×1 U(1)’ ×2U(2)’ ×3 U(3)’の系列と復号誤差e2’の系列との和の系列を、中心化後の復号テンソルcAm’の系列として得て出力する。
誤差復号部425は、誤差符号化部415でのエントロピー符号化方式に対応する復号方式に則って、入力された誤差信号符号Ce1を復号し、復号誤差e1’の系列を得て出力する。
信号再構成部422は、まず、信号再構成部122と同様に、入力された復号テンソルAm’∈Ci1×i2×i3の系列に、入力された復号固有信号Skmn’∈Cdの系列を適用する。本形態では、これによって得られる系列を「次元復元された第2復号マルチチャネル信号Xkmn’’∈CDの系列」とする。信号再構成部422は、さらに、当該第2復号マルチチャネル信号Xkmn’’の系列と入力された復号誤差e1’の系列との和の系列を、次元復元された復号マルチチャネル信号Xkmn’∈CDの系列として得て出力する。
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述した一般化2次元主成分分析や一般化3次元主成分分析に代えて、多重線形主成分分析を用いてもよい。また、固有信号符号化部113およびテンソル符号化部114,214,314の符号化方式、ならびに固有信号復号部123およびテンソル復号部124,224,324の復号方式は、上述の実施形態の方式に限定されない。また、各実施形態では、テンソルの系列からテンソルの系列の標本平均を減じた中心化後のテンソルの系列を符号化する方法を例示した。しかしながら、テンソルの系列を中心化することなく符号化してもよいし、テンソルの系列に対し、中心化に加えてその他の処理を行って得られた系列を符号化してもよい。また、各実施形態では、各サブブロックにN個のフレームが含まれることとした。しかしながら、サブブロックに属するフレームの個数は固定であっても固定でなくてもよく、また、サブフレームごとに異なる個数のフレームが含まれてもよい。上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
12,22,32 復号装置
Claims (15)
- 入力された複数チャネルの時系列信号に対応する周波数領域のマルチチャネル信号の系列に周波数毎の主成分分析を含む第一処理を行い、次元縮約された信号の系列である固有信号の系列と、基底の系列であるテンソルの系列とを得る固有空間算出部と、
前記固有信号の系列を符号化して固有信号符号を得る固有信号符号化部と、
前記テンソルの系列を符号化してテンソル符号を得るテンソル符号化部と、を有し、
前記テンソル符号化部は、
前記テンソルに対応する系列に主成分分析を含む第二処理を適用し、次元縮約されたテンソルの系列であるコアテンソルの系列と、少なくとも一つの基底から構成される基底群とを得る第2固有空間算出部と、
前記コアテンソルの系列を符号化してコアテンソル符号を得るコアテンソル符号化部と、
前記基底群を符号化して基底群符号を得る基底群符号化部と、
を含む、符号化装置。 - 請求項1の符号化装置であって、
前記テンソル符号化部は、前記テンソルの系列から前記テンソルの系列の標本平均を減じた中心化後のテンソルの系列を、前記テンソルに対応する系列として得る中心化部をさらに含む、符号化装置。 - 請求項1または2の符号化装置であって、
前記基底群が複数個の基底から構成される、符号化装置。 - 請求項1から3の何れかの符号化装置であって、
前記マルチチャネル信号および前記固有信号は、所定の時間区間であるフレーム毎に得られ、
前記テンソルおよび前記コアテンソルは、複数個のフレームから構成されるサブブロック毎に得られ、
前記基底群は、複数個のサブブロックから構成されるブロック毎に得られる、符号化装置。 - 入力された複数チャネルの音響信号である時系列信号に対応する周波数領域のマルチチャネル信号の系列に周波数毎の主成分分析を含む第一処理を行い、次元縮約された信号の系列である固有信号の系列と、基底の系列であるテンソルの系列とを得る固有空間算出部と、
前記固有信号の系列を符号化して固有信号符号を得る固有信号符号化部と、
前記テンソルの系列を符号化してテンソル符号を得るテンソル符号化部と、を有し、
前記固有信号符号化部は、時間方向と周波数方向との少なくとも一方への予測を含む符号化方式に則って、前記固有信号の系列を符号化し、
前記テンソル符号化部は、時間方向への予測も周波数方向への予測も含まない符号化方式に則って、前記テンソルの系列を符号化する、符号化装置。 - 入力されたテンソル符号を復号して復号テンソルの系列を得るテンソル復号部と、
入力された固有信号符号を復号して復号固有信号の系列を得る固有信号復号部と、
前記テンソル復号部で得られた前記復号テンソルの系列を基底の系列として、前記固有信号復号部で得られた前記復号固有信号の系列を適用して、次元復元された復号マルチチャネル信号の系列を得る信号再構成部と
を有し、
前記テンソル符号は、コアテンソル符号と基底群符号とを含み、
前記テンソル復号部は、
前記コアテンソル符号を復号して復号コアテンソルの系列を得るコアテンソル復号部と、
前記基底群符号を復号して復号基底群を得る基底群復号部と、
前記コアテンソル復号部で得られた前記復号基底群を基底として、前記コアテンソル復号部で得られた前記復号コアテンソルの系列を適用して、前記復号テンソルの系列に対応する系列を得るテンソル再構成部と、
を含む、復号装置。 - 請求項6の復号装置であって、
前記コアテンソル復号部は、前記基底群符号を復号してさらに復号標本平均を得、
前記テンソル復号部は、前記テンソル再構成部で得られた前記復号テンソルの系列に対応する系列と、前記コアテンソル復号部で得られた前記復号標本平均と、を加算して前記復号テンソルの系列を得る加算部を、さらに含む、復号装置。 - 請求項6または7の復号装置であって、
前記復号基底群が複数個の基底から構成される、復号装置。 - 請求項6から8の何れかの復号装置であって、
前記復号マルチチャネル信号および前記復号固有信号は、所定の時間区間であるフレーム毎に得られ、
前記復号テンソルおよび前記復号コアテンソルは、複数個のフレームから構成されるサブブロック毎に得られ、
前記復号基底群は、複数個のサブブロックから構成されるブロック毎に得られる、復号装置。 - 音響信号を復元する復号装置であって、
入力されたテンソル符号を復号して復号テンソルの系列を得るテンソル復号部と、
入力された固有信号符号を復号して復号固有信号の系列を得る固有信号復号部と、
前記テンソル復号部で得られた前記復号テンソルの系列を基底の系列として、前記固有信号復号部で得られた前記復号固有信号の系列を適用して、次元復元された復号マルチチャネル信号の系列を得る信号再構成部と、を有し、
前記固有信号復号部は、時間方向と周波数方向との少なくとも一方への予測を含む復号方式に則って、前記固有信号符号を復号し、
前記テンソル復号部は、時間方向への予測も周波数方向への予測も含まない復号方式に則って、前記テンソル符号を復号する、復号装置。 - 入力された複数チャネルの時系列信号に対応する周波数領域のマルチチャネル信号の系列に周波数毎の主成分分析を含む第一処理を行い、次元縮約された信号の系列である固有信号の系列と、基底の系列であるテンソルの系列とを得る固有空間算出ステップと、
前記固有信号の系列を符号化して固有信号符号を得る固有信号符号化ステップと、
前記テンソルの系列を符号化してテンソル符号を得るテンソル符号化ステップと、
を有し、
前記テンソル符号化ステップは、
前記テンソルに対応する系列に主成分分析を含む第二処理を適用し、次元縮約されたテンソルの系列であるコアテンソルの系列と、少なくとも一つの基底から構成される基底群とを得る第2固有空間算出ステップと、
前記コアテンソルの系列を符号化してコアテンソル符号を得るコアテンソル符号化ステップと、
前記基底群を符号化して基底群符号を得る基底群符号化ステップと、
を含む、符号化方法。 - 入力された複数チャネルの音響信号である時系列信号に対応する周波数領域のマルチチャネル信号の系列に周波数毎の主成分分析を含む第一処理を行い、次元縮約された信号の系列である固有信号の系列と、基底の系列であるテンソルの系列とを得る固有空間算出ステップと、
前記固有信号の系列を符号化して固有信号符号を得る固有信号符号化ステップと、
前記テンソルの系列を符号化してテンソル符号を得るテンソル符号化ステップと、を有し、
前記固有信号符号化ステップは、時間方向と周波数方向との少なくとも一方への予測を含む符号化方式に則って、前記固有信号の系列を符号化し、
前記テンソル符号化ステップは、時間方向への予測も周波数方向への予測も含まない符号化方式に則って、前記テンソルの系列を符号化する、符号化方法。 - 入力されたテンソル符号を復号して復号テンソルの系列を得るテンソル復号ステップと、
入力された固有信号符号を復号して復号固有信号の系列を得る固有信号復号ステップと、
前記テンソル復号ステップで得られた前記復号テンソルの系列を基底の系列として、前記固有信号復号ステップで得られた前記復号固有信号の系列を適用して、次元復元された復号マルチチャネル信号の系列を得る信号再構成ステップと、を有し、
前記テンソル符号は、コアテンソル符号と基底群符号とを含み、
前記テンソル復号ステップは、
前記コアテンソル符号を復号して復号コアテンソルの系列を得るコアテンソル復号ステップと、
前記基底群符号を復号して復号基底群を得る基底群復号ステップと、
前記コアテンソル復号ステップで得られた前記復号基底群を基底として、前記コアテンソル復号ステップで得られた前記復号コアテンソルの系列を適用して、前記復号テンソルの系列に対応する系列を得るテンソル再構成ステップと、
を含む、復号方法。 - 音響信号を復元する復号方法であって、
入力されたテンソル符号を復号して復号テンソルの系列を得るテンソル復号ステップと、
入力された固有信号符号を復号して復号固有信号の系列を得る固有信号復号ステップと、
前記テンソル復号ステップで得られた前記復号テンソルの系列を基底の系列として、前記固有信号復号ステップで得られた前記復号固有信号の系列を適用して、次元復元された復号マルチチャネル信号の系列を得る信号再構成ステップと、を有し、
前記固有信号復号ステップは、時間方向と周波数方向との少なくとも一方への予測を含む復号方式に則って、前記固有信号符号を復号し、
前記テンソル復号ステップは、時間方向への予測も周波数方向への予測も含まない復号方式に則って、前記テンソル符号を復号する、復号方法。 - 請求項1から5の何れかの符号化装置、または、請求項6から10の何れかの復号装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014000144A JP6139419B2 (ja) | 2014-01-06 | 2014-01-06 | 符号化装置、復号装置、符号化方法、復号方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014000144A JP6139419B2 (ja) | 2014-01-06 | 2014-01-06 | 符号化装置、復号装置、符号化方法、復号方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015129785A JP2015129785A (ja) | 2015-07-16 |
JP6139419B2 true JP6139419B2 (ja) | 2017-05-31 |
Family
ID=53760572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014000144A Expired - Fee Related JP6139419B2 (ja) | 2014-01-06 | 2014-01-06 | 符号化装置、復号装置、符号化方法、復号方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6139419B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106981292B (zh) * | 2017-05-16 | 2020-04-14 | 北京理工大学 | 一种基于张量建模的多路空间音频信号压缩和恢复方法 |
AU2022202470A1 (en) * | 2022-04-13 | 2023-11-02 | Canon Kabushiki Kaisha | Method, apparatus and system for encoding and decoding a tensor |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5425066B2 (ja) * | 2008-06-19 | 2014-02-26 | パナソニック株式会社 | 量子化装置、符号化装置およびこれらの方法 |
US8942989B2 (en) * | 2009-12-28 | 2015-01-27 | Panasonic Intellectual Property Corporation Of America | Speech coding of principal-component channels for deleting redundant inter-channel parameters |
-
2014
- 2014-01-06 JP JP2014000144A patent/JP6139419B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015129785A (ja) | 2015-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4689625B2 (ja) | 信号解析及び合成のための適応型混合変換 | |
KR101428487B1 (ko) | 멀티 채널 부호화 및 복호화 방법 및 장치 | |
KR101634979B1 (ko) | 임계적으로 샘플링된 필터뱅크에서 모델 기반 예측 | |
US20090018824A1 (en) | Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method | |
JP5802412B2 (ja) | 符号化する方法、復号化する方法、オーディオ信号符号化器及び装置 | |
KR102460820B1 (ko) | Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치 | |
RU2016140233A (ru) | Кодер, декодер и способ кодирования и декодирования | |
KR102327149B1 (ko) | Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치 | |
Gunawan et al. | Speech compression using compressive sensing on a multicore system | |
JP5280607B2 (ja) | 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体 | |
US8825494B2 (en) | Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program | |
KR102556096B1 (ko) | 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법 | |
KR20120009150A (ko) | 다채널 오디오 신호 부호화/복호화 장치 및 방법 | |
JP6139419B2 (ja) | 符号化装置、復号装置、符号化方法、復号方法、およびプログラム | |
JP6146069B2 (ja) | データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム | |
KR20220048252A (ko) | 학습 모델을 이용한 오디오 신호의 부호화 및 복호화 방법 및 장치와 학습 모델의 트레이닝 방법 및 장치 | |
RU2716911C2 (ru) | Способ и устройство для кодирования множественных аудиосигналов и способ и устройство для декодирования смеси множественных аудиосигналов с улучшенным разделением | |
US20230048402A1 (en) | Methods of encoding and decoding, encoder and decoder performing the methods | |
CN108701462A (zh) | 加权矩阵系数的自适应量化 | |
EP2993665A1 (en) | Method and apparatus for coding or decoding subband configuration data for subband groups | |
JP5336942B2 (ja) | 符号化方法、復号方法、符号化器、復号器、プログラム | |
US9800986B2 (en) | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation | |
KR20220005379A (ko) | 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법 | |
KR20210133551A (ko) | 적응형 주파수 복원 기법 기반 오디오 부호화 방법 | |
JPH09230898A (ja) | 音響信号変換符号化方法及び復号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170427 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6139419 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |