JP6139419B2 - 符号化装置、復号装置、符号化方法、復号方法、およびプログラム - Google Patents

符号化装置、復号装置、符号化方法、復号方法、およびプログラム Download PDF

Info

Publication number
JP6139419B2
JP6139419B2 JP2014000144A JP2014000144A JP6139419B2 JP 6139419 B2 JP6139419 B2 JP 6139419B2 JP 2014000144 A JP2014000144 A JP 2014000144A JP 2014000144 A JP2014000144 A JP 2014000144A JP 6139419 B2 JP6139419 B2 JP 6139419B2
Authority
JP
Japan
Prior art keywords
tensor
sequence
decoding
encoding
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014000144A
Other languages
English (en)
Other versions
JP2015129785A (ja
Inventor
圭吾 若山
圭吾 若山
翔一 小山
翔一 小山
島内 末廣
末廣 島内
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014000144A priority Critical patent/JP6139419B2/ja
Publication of JP2015129785A publication Critical patent/JP2015129785A/ja
Application granted granted Critical
Publication of JP6139419B2 publication Critical patent/JP6139419B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、ある環境で得られたマルチチャネル信号の符号化および復号に関する。
マルチチャネルオーディオ信号の符号化とは、多数のマイクロホンで取得した音響信号を、時間方向と空間方向の冗長性を取り除くモデルを用いて、効率的に表現する技術である(例えば、非特許文献1参照)。音響信号による音場の再現を想定する場合、音響伝達特性の変動を考慮した符号化方式が必要となる。従来技術では、時間領域もしくは周波数領域の信号に対してKL(Karhunen-Loeve)展開を適用してチャネル間相関を低減し、マルチチャネルオーディオ信号を効率良く符号化する。
Yang, Dai, et al. "High-fidelity multichannel audio coding with Karhunen-Loeve transform." Speech and Audio Processing, IEEE Transactions on 11.4 (2003): 365-380.
しかしながら、従来技術では、音源信号と音響伝達特性に内在するパラメータとの時間変化量の相違を考慮していないという問題点があった。このような問題は、マルチチャネルオーディオ信号を符号化する場合のみならず、多数のセンサで得られたマルチチャネル信号を符号化する際に共通するものである。
本発明は、源信号と伝達特性に内在するパラメータとの時間変化量の相違を考慮し、マルチチャネル信号を効率良く符号化することを課題とする。
入力された複数チャネルの時系列信号に対応する周波数領域のマルチチャネル信号の系列に周波数毎の主成分分析を含む第一処理を行い、次元縮約された信号の系列である固有信号の系列と、基底の系列であるテンソルの系列とを得、当該固有信号の系列を符号化して固有信号符号を得、当該テンソルの系列を符号化してテンソル符号を得る。
本発明では、固有信号の系列とテンソルの系列とをそれぞれ符号化するため、マルチチャネル信号を効率良く符号化できる。
図1は、実施形態の符号化装置の構成を例示するためのブロック図である。 図2は、実施形態の復号装置の構成を例示するためのブロック図である。 図3は、音源信号と音響伝達特性との時間変化量の違いを例示するための概念図である。 図4Aは、1段目の固有空間算出部での処理を例示するための概念図であり、図4Bは、固有空間算出部で得られたテンソルの系列を例示するための概念図であり、図4Cは、ブロックあたりのテンソルの系列を例示するための概念図である。 図5は、2段目の固有空間算出部での処理を例示するための概念図である。 図6Aおよび6Bは、2段目の固有空間算出部での処理の変形例を例示する ための概念図である。 図7は、実施形態の符号化装置の構成を例示するためのブロック図である。 図8は、実施形態の復号装置の構成を例示するためのブロック図である。
以下、図面を参照して本発明の実施形態を説明する。
[概要]
観測信号とは、信号源から発せられた時系列信号である源信号が何らかの伝達特性を有する空間を得て複数個のセンサで観測して得られる信号である。観測信号(マルチチャネル信号)の系列は、時間領域の信号であっても周波数領域の信号であっても、源信号の系列や伝達特性の系列等の互いに時間変化量が異なる要素の合成として表すことができる。例えば、伝達特性が定常である範囲内において、周波数領域では、マルチチャネル信号の系列を表す行列を、伝達特性等を表す行列と、源信号等の系列を表す行列との積で表すことができる。
源信号の例は、音声や楽曲等の音響信号や超音波信号や体内の生体信号などの時系列信号であり、センサの例はマイクロホンや超音波センサや医療センサなどであり、伝達特性の例は空間伝達特性や体内の伝達特性などであるが、いずれの場合も、源信号は伝達特性や信号源数に比べて時間変化量が大きい場合が多い。また、伝達特性等には複数のパラメータが内在するが、それらのパラメータの種別に応じて時間変化量が異なる場合も多い。図3は、源信号が音響信号(音源信号)である場合における、音源信号、音源数、および伝達特性(音響伝達特性)の時間変化量の違いを例示する。この例のように、音源信号の時間変化量は、音響伝達特性に内在する音源位置、指向特性、音源の移動、音速(温度に依存)、周囲の壁等の反射係数、および部屋の形状・寸法等のパラメータの時間変化量や音源数の時間変化量よりも大きいことが多い。また、音源位置、指向特性、音源の移動、音速(温度に依存)、周囲の壁等の反射係数、および部屋の形状・寸法等のパラメータや音源数にも、種別に応じた時間変化量の相違がみられる。
各実施形態では、このような時間変化量の相違に着目し、周波数ごとの主成分分析(KL展開)を含む第一処理によって、周波数領域のマルチチャネル信号の系列を、源信号成分や信号源数成分を表す系列と伝達特性や信号源数成分を表す系列とに緩く分離し、それらを別々に符号化する。すなわち、本実施形態では、入力された複数チャネルの時系列信号に対応する周波数領域のマルチチャネル信号の系列に周波数毎の主成分分析を含む第一処理を行い、次元縮約された信号の系列である固有信号の系列と、基底の系列であるテンソルの系列とを得、当該固有信号の系列を符号化して固有信号符号を得、当該テンソルの系列を符号化してテンソル符号を得る。なお、当該テンソルの系列と当該固有信号の系列とは別々に符号化される。ここで、固有信号の系列は源信号成分や信号源数成分に緩く対応し、テンソルの系列は伝達特性や信号源数成分の系列に緩く対応する。このように分離された系列を別々に符号化することで、それぞれの系列に応じて効率的な符号化を採用することができ、全体としてマルチチャネル信号を効率良く符号化できる。
さらに好ましくは、主成分分析を含む第二処理によって、伝達関数成分の系列に緩く対応するテンソルの系列を、さらに、時間変化量が大きな成分の系列と時間変化量が小さな成分の系列とに緩く分離し、それらを別々に符号化する。すなわち、好ましくは、このテンソルに対応する系列に主成分分析を含む第二処理を適用し、次元縮約されたテンソルの系列であるコアテンソルの系列と、少なくとも一つの基底から構成される基底群とを得、当該コアテンソルの系列を符号化してコアテンソル符号を得、当該基底群を符号化して基底群符号を得る。なお、当該コアテンソルの系列と当該基底群とは別々に符号化される。なお、「テンソルに対応する系列」は、例えば、テンソルの系列からテンソルの系列の標本平均を減じた中心化後のテンソルの系列である。また、基底群は、例えば複数個の基底から構成される。ここで、コアテンソルの系列は時間変化量が大きな成分の系列(例えば、音源位置,指向特性、音源や物の移動等に対応)に緩く対応し、基底群は時間変化量が小さな成分の系列(例えば、音速、反射係数、部屋の形状・寸法等に対応)に緩く対応する。このようにテンソルに対応する系列をさらに分離し、分離された系列を別々に符号化することで、それぞれの系列の特徴に応じてより効率的な符号化を採用することができ、全体としてマルチチャネル信号をより効率良く符号化できる。
また、好ましくは、マルチチャネル信号および固有信号は、所定の時間区間であるフレーム毎に得られ、テンソルおよびコアテンソルは、複数個のフレームから構成されるサブブロック毎に得られ、基底群は、複数個のサブブロックから構成されるブロック毎に得られる。これにより、時間変化量の大きさに応じ、段階的に異なる粒度の情報が符号化される。すなわち、時間変化量が大きな固有信号はフレームごとの粒度で復号が可能なように符号化され、時間変化量が小さなテンソルはサブブロックごとの粒度で復号が可能なように符号化される。さらに、テンソルから分離された時間変化量が比較的大きなコアテンソルはサブブロックごとの粒度で復号が可能なように符号化され、それよりも時間変化量が小さな基底群はブロックごろの粒度で復号が可能なように符号化される。これにより、源信号や源信号数や伝達特性に内在するパラメータの時間的、空間的な冗長性を削減することができ、マルチチャネル信号を効率的に符号化することができる。
また、波形信号である音響信号等の源信号成分は伝達特性に比べて時間方向や周波数方向の相関が強い場合が多く、線形予測等の予測を含む符号化方式を用いることが好ましい。そのため、固有信号の系列の符号化は、時間方向と周波数方向との少なくとも一方への予測を含む符号化方式に則って行われることが望ましい。一方、テンソルの系列の符号化は、時間方向への予測も周波数方向への予測も含まない符号化方式に則って行われることが望ましい。
固有信号の系列を符号化して得られる固有信号符号、およびテンソルの系列を符号化して得られるテンソル符号(例えば、コアテンソルを符号化して得られるコアテンソル符号と、基底群を符号化して得られる基底群符号とを含む)は、上記の符号化に対応する復号処理によって復号される。
以下に各実施形態を詳細に説明する。以降では、源信号が音響信号(オーディオ信号)であり、信号源が音源であり、センサがマイクロホンである場合について説明する。
[第1実施形態]
<符号化装置>
図1に例示するように、第1実施形態の符号化装置11は、周波数変換部111、固有空間算出部112、固有信号符号化部113、およびテンソル符号化部114を有する。固有信号符号化部113は、周波数逆変換部1131、線形予測部1132、および符号化部1133を含む。テンソル符号化部114は、中心化部1141、固有空間算出部1142(第2固有空間算出部)、および符号化部1143,1144(コアテンソル符号化部,基底群符号化部)を含む。符号化装置11は、例えば、CPU(central processing unit)、RAM(random-access memory)等から構成される汎用または専用のコンピュータに所定のプログラムが読み込まれることによって構成される装置である。
<復号装置>
図2に例示するように、第1実施形態の復号装置12は、周波数逆変換部121、信号再構成部122、固有信号復号部123、およびテンソル復号部124を有する。固有信号復号部123は、周波数変換部1231、フィルタ処理部1232、および復号部1233を含む。テンソル復号部124は、加算部1241、テンソル再構成部1242、および復号部1243,1244(コアテンソル復号部,基底群復号部)を含む。復号装置12は、例えば、CPU、RAM等から構成される汎用または専用のコンピュータに所定のプログラムが読み込まれることによって構成される装置である。
<符号化処理>
或る空間内に、既知または未知の単数個または複数個の音源と、D個のマイクロホン(例えば、マイクロホンアレー)とが存在し、当該音源から発せられた時系列信号である音源信号が、室内音響伝達特性を有する空間を経て当該D個のマイクロホンで観測されるとする。各マイクロホンでそれぞれ観測された観測信号から得られるデジタル観測信号を要素とするD次元の時間領域信号を「時間領域のマルチチャネル信号xmut∈R」と表現する。ここで、Dは2以上の整数(例えば、D=64)の定数であり、tは離散時間を表すインデックスであり、uは所定の時間区間であるフレームを表すインデックスであり、mは複数個のフレームから構成されるサブブロックを表すインデックスである。インデックスtに対応する離散時間を「離散時間t」と表記し、インデックスuに対応するフレームを「フレームu」と表記し、インデックスmに対応するサブブロックを「サブブロックm」と表記する。また、Rは実数集合を表し、RはD次元の実数集合を表し、α∈βはαがβに属することを表す。なお、各マイクロホンに対応する処理系統を「チャネル」と呼ぶことにする。
≪周波数変換部111≫
符号化装置11(図1)の周波数変換部111は、時間領域のマルチチャネル信号xmut∈Rを入力とし、所定の時間区間であるフレームnごとの時間領域のマルチチャネル信号xmutに対応するD次元の周波数領域の信号である「周波数領域のマルチチャネル信号Xkmn∈C」を得て出力する。なお、nはフレームに対応するインデックスであり、インデックスnに対応するフレームを「フレームn」と表記する。フレームnの長さは、例えば、後述する初期反射音が含まれる時間(例えば、数百ミリ秒)とする。フレームnはサブブロックmに属するものとする。kは離散周波数(周波数ビン)に対応するインデックスであり、インデックスkに対応する離散周波数を「離散周波数k」と表記する。Cは複素数集合を表し、CはD次元の複素数集合を表す。なお、時間領域の信号の周波数領域の信号への変換方式に特に限定はなく、例えば、短時間フーリエ変換(STFT: short-time Fourier transform)や修正離散コサイン変換(MDCT: modified discrete cosine transform)等の周知の変換方式を用いることができる。
≪固有空間算出部112≫
固有空間算出部112は、周波数領域のマルチチャネル信号Xkmn∈Cを入力とし、当該周波数領域のマルチチャネル信号Xkmnに周波数毎の主成分分析(KL展開)を含む第一処理を行うことで、次元縮約された信号の系列である固有信号Skmn∈Cの系列と、基底の系列であるテンソルA∈Ci1×i2×i3の系列とを得て出力する。この処理はサブブロックm単位で行われる。以下に、図4Aから図4Cを用いてこの処理の具体例を示す。
サブブロックmにN個のフレームn=1,…,N(ただしN≧1、例えばN≧2)が含まれるとする。固有空間算出部112は、サブブロックm単位で離散周波数kごとに、主成分分析を含む第一処理によって、「行列DNkm」から「行列Ddkm」と「行列dNkm」を求める。第一処理は、DNkmDdkm dNkmの関係を満たすことを目標として行われる処理である(図4A)。なお、「行列DNkm」は、N個のマルチチャネル信号Xkm1,…,XkmN∈Cを列ベクトルとするD行N列の行列であり、「行列Ddkm」は、d個のD次元直交基底Akm1,…,Akmd∈Cを列ベクトルとするD行d列の行列であり、「行列dNkm」は、d次元に次元縮約されたN個の固有信号Skm1,…,SkmN∈Cを列ベクトルとするd行N列の行列である。また、サブブロックの長さは、主成分分析を含む第一処理で十分な統計量が得られる長さを下限とし、符号へのビット割当ての都合上、全体的な符号化効率を鑑みて決定する(例えば、数秒)。
〔第一処理の例1〕
例えば、第一処理が主成分分析のみである場合、固有空間算出部112は、行列DNkmに対応する共分散行列のD個の固有値から大きい順にd個の固有値を選択し、選択したd個の固有値に対応するd個の固有ベクトルを行ベクトルとするd行D列(d×D)の行列dDMを求め、その共役転置行列{dDM}を行列Ddkmとする。ただし、dは仮想音源数(直接音の個数+初期反射音の個数)に相当するD以下の正整数(例えば、d=2)である。dは、(1)所定の閾値を越えた上記の固有値の個数(仮想音源数の推定値)であってもよいし、(2)予め人為的に定められた値であってもよい。(1)の場合では、離散周波数ごとに仮想音源数の推定値が相違するため、例えば、全離散周波数帯域で最大の推定値をdとする。dが予め定められた値でない場合には、dを表す符号が復号装置12に送られる。また、行列dDMと行列DNkmとからdDDNkmを求めて行列dNkmとする。
〔第一処理の例2〕
主成分分析と白色化処理とを第一処理としてもよい。この場合、固有空間算出部112は、〔第一処理の例1〕で説明した行列dDMを白色化した行列dDW=ddΛdDMに対する{dDW}−1={ddΛdDM}−1={dDM}ddΛ}−1を行列Ddkmとする。ただし、ddΛは、上述のように選択されたd個の固有値λ,…,λに対応する(λ−1/2,…,(λ−1/2を対角成分とするd行d列の対角行列である。また、行列dDM と行列DNkmとからdDDNkmを求めて行列dNkmとする。
〔第一処理の例3〕
主成分分析と白色化処理と独立成分分析(ICA: Independent Component Analysis)とを第一処理としてもよい。この場合、固有空間算出部112は、〔第一処理の例1〕で説明した行列dDMを白色化した行列dDMに分離フィルタFを適用したdDI=FddΛdDMに対する{dDI}−1={FddΛdDM}−1を行列Ddkmとする。また、行列dDM と行列DNkmとからdDDNkmを求めて行列dNkmとする(第一処理の例の説明終わり)。
固有空間算出部112は、すべての離散周波数k=1,…,K(ただし、Kは離散周波数の総数、すなわち周波数ビン数を表す整数である。K≧1、例えばK≧2である。)に対応する行列Ddkmの集合(「マイクロホン数D」×「仮想音源数d」のサイズを持つ行列Ddkmの集合、言い換えると、行列Dd1m,…,DdKmを統合して得られるもの。〔第一処理の例1〕の場合には、各サブブロックmにおける全離散周波数k=1,…,Kでの固有ベクトルの集合となる。)を、サブブロックmに対応するテンソルA∈Ci1×i2×i3とみなす(図4B)。なお、集合{i1,i2,i3}=集合{D,d,K}であり、例えば、i1=D,i2=d,i3=Kであることが望ましい。固有空間算出部112は、各ブロックを構成するすべてのサブブロックm=1,…,Mに対応するテンソルAの系列A,…,Aをテンソル符号化部114(図1)に送る(図4C)。各ブロックの長さは、後述する固有空間算出部1142での主成分分析を含む第二処理で十分な統計量が得られる長さを下限とし、符号へのビット割当ての都合上、全体的な符号化効率を鑑みて決定する(例えば、数十秒)。また、固有空間算出部112は、各ブロックを構成するすべてのサブブロックm=1,…,M、およびすべての離散周波数k=1,…,Kに対応する固有信号Skm1,…,SkmNの系列を固有信号符号化部113に送る。
≪固有信号符号化部113≫
固有信号符号化部113は、入力された固有信号Skm1,…,SkmNの系列を符号化して固有信号符号Cを得て出力する。ここでは一例として、固有信号を時間領域信号に変換した後、線形予測符号化を行う例を示す。
≪周波数逆変換部1131≫
まず周波数逆変換部1131は、入力された全離散周波数k=1,…,Kの固有信号Skm1,…,SkmNの系列を時間領域に変換し、各サブブロックmで時間領域の固有信号smnt∈Rの系列(n=1,…,N)を得て出力する。なお、時間領域への変換方式には限定はなく、周波数変換部111の処理の逆変換等、周波数領域の系列を時間領域の系列に変換できる方法であれば、どのような方法が用いられてもよい。時間領域への変換方式の例は、逆離散フーリエ変換(IDFT: inverse discrete Fourier transform)、短時間逆フーリエ変換(ISTFT: inverse short-time Fourier transform)、逆修正離散コサイン変換(IMDCT: inverse modified discrete cosine transform)等である。
≪線形予測部1132≫
線形予測部1132は、入力された時間領域の固有信号smnt∈Rの系列を、サブブロック内で複数区間(区間長はビット割当ての都合上、全体的な符号化効率を鑑みて決定する)に分割し、それぞれの区間内の固有信号smntに対して線形予測分析を適用し、各区間での合成フィルタを特定するための線形予測情報infoを得て出力する。合成フィルタを特定するための線形予測情報infoに特に限定はないが、例えば、線形予測部1132は、各区間の固有信号smntに対応する線形予測係数を算出し、線形予測係数を線スペクトル対係数に変換し、当該線スペクトル対係数を量子化して得られる量子化済み線スペクトル対係数を線形予測情報infoとして出力する。また、それぞれの区間内の固有信号smntを線形予測情報infoに対応する線形予測係数である量子化済み線形予測係数で予測して残差信号rを得て出力する。
≪符号化部1133≫
符号化部1133は、入力された線形予測情報infoと残差信号rとを公知の符号化方式に則って符号化し、固有信号符号(ビット列)Cを得て出力する。
なお、上述した固有信号符号化部113での符号化方式は本発明を限定するものではなく、ロッシー符号化方式であってもロスレス符号化方式(エントロピー符号化)であってもよいし、何れかの符号化方式のうちのどのような符号化方式を用いるかは用途に応じて決定すればよい。例えば、線形予測部1132を省略し、「時間領域の固有信号smntの系列」、もしくは、「時間領域の固有信号smntの系列」の修正離散コサイン変換(MDCT)で得られたMDCT係数を、符号化部1133の入力としても良い。ただし、固有信号符号化部113での符号化方式は、時間方向と周波数方向の少なくとも一方への予測を含む符号化方式であることが望ましく、例えば、時間方向への予測を含む符号化方式の他の例としてG.729符号化方式(例えば「ITU-T G.729(03/96):Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP)」等参照)を用いてもよいし、周波数方向への予測を含む符号化の例としてMPEG-4 TwinVQ符号化方式(例えば、「TwinVQ:International Standard: ISO/IEC 14496-3,Information technology-Coding of audio-visual objects-, Part 3: Audio」等参照)を用いてもよい。固有信号符号化部113での符号化方式が時間方向と周波数方向の少なくとも一方への予測を含む符号化方式であることが望ましい理由は、時間領域の固有信号が、時間領域の波形信号である源信号との相関が強いからである。なお、G.729符号化方式やMPEG-4 TwinVQ符号化方式はロッシー符号化方式の例である。エントロピー符号化方式としては、例えば、ライス符号化方式やハフマン符号化方式等を用いることができる。後述するその他のエントロピー符号化方式についても同様である。
≪テンソル符号化部114≫
テンソル符号化部114は、入力されたテンソルA∈Ci1×i2×i3の系列を符号化してテンソル符号(C,C)を得て出力する。ここでは一例として、テンソルAに対応する系列に主成分分析を含む第二処理を適用し、次元縮約されたテンソルの系列であるコアテンソルの系列と、少なくとも一つの基底から構成される基底群とを得、当該コアテンソルの系列を符号化してコアテンソル符号を得、当該基底群を符号化して基底群符号を得る例を示す。コアテンソルの系列と基底群とは、別々に符号化される。また、本形態のテンソルの系列Aの符号化は、時間方向への予測も周波数方向への予測も含まない符号化方式に則って行われる。
≪中心化部1141≫
中心化部1141は、入力されたテンソルAの系列の標本平均E[A]∈Ci1×i2×i3を計算し、入力されたテンソルAの系列から当該標本平均E[A]を減じた中心化後のテンソル=A−E[A]の系列(「テンソルAに対応する系列」に相当)を計算し、中心化後のテンソルと標本平均E[A]とを出力する。なお、標本平均E[A]は、複数個のサブブロックごと(例えば、ブロックごと)のテンソルAの平均である。例えば、ブロックごとのテンソルAの平均が標本平均E[A]である場合、E[A]=(A+…+A)/Mである。
≪固有空間算出部1142≫
固有空間算出部1142は、入力された中心化後のテンソル∈Ci1×i2×i3の系列に主成分分析を含む第二処理を適用し、次元縮約されたテンソルの系列であるコアテンソルBの系列と、少なくとも一つの基底から構成される基底群Uとを得て出力する。「主成分分析を含む第二処理」の例は、主成分分析、一般化X次元主成分分析(Xは2以上の整数)、多重線形主成分分析などであるが、本形態では、「主成分分析を含む第二処理」として「一般化3次元主成分分析(G3D−PCA)」を用い、「中心化後のテンソル∈Ci1×i2×i3の系列」から、「コアテンソルB∈Cj1×j2×j3の系列」と「モード1の基底行列U(1)∈Ci1×j1」と「モード2の基底行列U(2)∈Ci2×j2」と「モード3の基底行列U(3)∈Ci3×j3」とを得て出力する。すなわち、本形態の基底群Uは基底行列U(1),U(2),U(3)の3個の基底(すなわち、複数個の基底)からなる。基底行列は直交行列であり、j1,j2,j3は、j1≦i1,j2≦i2,j3≦i3を満たす予め定められた正整数である(j1=i1かつj2=i2かつj3=i3である場合を除く)。固有空間算出部1142は、この処理により、サブブロックmごとにコアテンソルBを得、ブロックごとに基底行列U(1),U(2),U(3)を得る。なお、一般化3次元主成分分析は、以下のコスト関数を最小化するように3個の基底行列U(1),U(2),U(3)を求め、さらにこれらの基底行列U(1),U(2),U(3)に対してこのコスト関数を最小化するコアテンソルB∈Cj1×j2×j3を求める手法である(図5参照)。ただし、||・||は・のノルムを表す。ただし、コスト関数における「×」はコアテンソルとモードqの基底行列のq-モード積を表す。なお、q-モード積の定義およびその演算方法は周知であり、その詳細は、例えば、「L. De Lathauwer, B. De Moor, and J. Vandewalle, “A multilinear singular value decomposition,” SIAM J. Matrix Anal. Appl., 21(2):1253{1278, 2000.」等に開示されている。
Figure 0006139419
≪符号化部1143≫
符号化部1143は、入力されたコアテンソルBの系列を公知の符号化方式に則って符号化し、コアテンソル符号(ビット列)Cを得て出力する。
≪符号化部1144≫
符号化部1144bは、入力された基底行列U(1),U(2),U(3)および標本平均E[A]の系列を公知の符号化方式に則って符号化し、基底群符号(ビット列)Cを得て出力する。
なお、上述したテンソル符号化部114での符号化方式は本発明を限定するものではなく、ロッシー符号化方式であってもロスレス符号化方式(エントロピー符号化)であってもよいし、何れかの符号化方式のうちのどのような符号化方式が用いられてもよい。ただし、テンソル符号化部114での符号化方式は、時間方向への予測も周波数方向への予測も含まない符号化方式であることが望ましい。その理由は、テンソルの系列A、コアテンソルBの系列、基底行列U(1),U(2),U(3)、標本平均E[A]の系列、は何れも時間領域の波形信号である源信号との相関が低いからである。なお、符号化部1143での符号化方式は用途に応じて決定すればよく、符号化部1144の符号化方式としてはロッシー符号化方式よりはロスレス符号化方式を採用したほうが良い。
<復号処理>
復号装置12(図2)には、固有信号符号C、ならびに、コアテンソル符号Cおよび基底群符号Cを含むテンソル符号(C,C)が入力される。復号装置12は、テンソル符号(C,C)を復号して復号テンソルA’∈Ci1×i2×i3の系列を得、固有信号符号Cを復号して復号固有信号Skmn’∈Cの系列を得、得られた復号テンソルの系列を基底の系列として、得られた復号固有信号の系列を適用して次元復元された復号マルチチャネル信号Xkmn’∈Cの系列(複数チャネルの時系列信号に対応する周波数領域の復号マルチチャネル信号の系列)を得、その時間領域信号である復号マルチチャネル信号xmnt’∈Rを出力する。例えば、復号装置12は、符号化装置11における固有空間算出部112でのテンソルAの推定、固有空間算出部1142での「モード1の基底行列U(1)」と「モード2の基底行列U(2)」と「モード3の基底行列U(3)」の推定、「線形予測情報」の推定箇所を除く、すべての処理の逆演算を行うことで、復号マルチチャネル信号Xkmn’の系列を得て出力する。
≪固有信号復号部123≫
固有信号復号部123は、固有信号符号化部113での符号化処理に対応する復号処理によって、入力された固有信号符号Cを復号し、復号固有信号Skmn’∈Cの系列を得て出力する。本形態の固有信号符号Cの復号は、時間方向または周波数方向への予測を含む復号方式に則って行われる。ここでは一例として、固有信号符号化部113で固有信号を時間領域信号に変換した後、線形予測符号化が行われた場合に対応する復号処理を例示する。
≪復号部1233≫
まず、復号部1233は、符号化部1133での符号化方式に対応する方式に則って、入力された固有信号符号Cを復号し、復号線形予測情報info’と復号残差信号r’とを得て出力する。なお、復号線形予測情報info’と復号残差信号r’は、符号化部1133に入力された線形予測情報infoと残差信号rのそれぞれと同じものである。
≪フィルタ処理部1232≫
フィルタ処理部1232は、入力された復号残差信号r’に対して、復号線形予測情報info’によって定まる合成フィルタを適用することで、時間領域の復号固有信号smnt’∈Rの系列を得て出力する。
≪周波数変換部1231≫
周波数変換部1231は、入力された時間領域の復号固有信号smnt’をフレームnごとに周波数領域に変換し、周波数領域の復号固有信号Skmn’∈Cの系列を得て出力する。なお、周波数領域への変換方式に特に限定はなく、例えば、前述した周波数変換部111と同じ変換方式を用いることができる。
≪テンソル復号部124≫
テンソル復号部124は、テンソル符号化部114での符号化処理に対応する復号処理によって、入力されたテンソル符号(C,C)を復号し、復号テンソルA’∈Ci1×i2×i3の系列を得て出力する。本形態のテンソル符号(C,C)の復号は、時間方向への予測も周波数方向への予測も含まない復号方式に則って行われる。ここでは一例として、テンソル符号化部114でコアテンソルの系列と基底群とが別々に符号化された場合の復号処理を説明する。
≪復号部1243≫
復号部1243は、符号化部1143での符号化方式に対応する方式に則って、入力されたコアテンソル符号Cを復号し、
サブブロックm毎に復号コアテンソルB’∈Cj1×j2×j3の系列を得て出力する。
≪復号部1244≫
復号部1244は、符号化部1144での符号化方式に対応する方式に則って、入力された基底群符号Cを復号し、
少なくとも一つの基底から構成される復号基底群U’、および復号標本平均E[A]’∈Ci1×i2×i3の系列を得て出力する。復号基底群U’はブロック毎に得られ、復号標本平均E[A]’はサブブロックm毎に得られる。本形態では、復号基底群U’として「モード1の復号基底行列U(1)’∈Ci1×j1」と「モード2の復号基底行列U(2)’∈Cj2×i2」と「モード3の復号基底行列U(3)’∈Cj3×i3」(複数個の基底から構成される復号基底群)が得られる。
≪テンソル再構成部1242≫
テンソル再構成部1242は、入力された「モード1の復号基底行列U(1)’」と「モード2の復号基底行列U(2)’」と「モード3の復号基底行列U(3)’」(復号基底群U’)に、入力された復号コアテンソルB’∈Cj1×j2×j3の系列を適用することで得られる中心化後の復号テンソル’∈Ci1×i2×i3の系列を得て出力する。例えば、テンソル再構成部1242は、中心化後の復号テンソル’=B’ ×(1)’ ×(2)’ ×(3)’の系列を得て出力する。
≪加算部1241≫
加算部1241は、入力された中心化後の復号テンソル’の系列と復号標本平均E[A]’とを加算し、サブブロックm毎に復号テンソルA’∈Ci1×i2×i3の系列(中心化後の復号テンソル’の系列に対応する系列)を得て出力する。すなわち、加算部1241は、A’=’+E[A]’の系列を出力する。
≪信号再構成部122≫
信号再構成部122は、入力された復号テンソルA’∈Ci1×i2×i3の系列に、入力された復号固有信号Skmn’∈Cの系列を適用し、次元復元された復号マルチチャネル信号Xkmn’∈Cの系列を得て出力する。すなわち、まず信号再構成部122は、復号テンソルA’を全離散周波数k=1,…,Kに対応するD×dのサイズ(=マイクロホン数D×仮想音源数dのサイズ)を持つ行列Ddkm’の集合{Dd1m’,…,DdKm’}に分解する(図4B参照)。次に、信号再構成部122は、入力された行列Ddkm(前述の〔第一処理の例1〕の場合には、各サブブロックmにおける固有ベクトルからなる行列)の系列に、復号固有信号Skmn’をn列目(n=1,…,N)の列ベクトルとするd行N列の行列dNkm’の系列を掛け合わせ、D行N列の行列DNkm’=DdkmdNkm’の系列を得る。信号再構成部122は、得られた行列DNkm’を構成する各n列目(n=1,…,N)のD次元の列ベクトルXkmn’の系列を、各フレームnの復号マルチチャネル信号Xkmn’の系列として出力する(図4A参照)。
≪周波数逆変換部121≫
周波数逆変換部121は、入力された復号マルチチャネル信号Xkm1’,…,XkmN’の系列を時間領域に変換し、各サブブロックmのフレームn=1,…,Nでの時間領域の復号マルチチャネル信号xm1t’,…,xmNt’∈Rの系列を得て出力する。なお、時間領域への変換方式には限定はなく、例えば、周波数逆変換部1131と同じ変換方式を用いることができる。
なお、上述した固有信号復号部123での復号方式やテンソル復号部124での復号方式は本発明を限定するものではなく、符号化装置11の固有信号符号化部113やテンソル符号化部114の符号化方式に対応する復号方式であれば、どのような復号方式が用いられてもよい。ただし、固有信号復号部123での復号方式の復号方式は、時間方向と周波数方向の少なくとも一方への予測を含む復号方式であることが望ましく、テンソル復号部124での復号方式は、時間方向への予測も周波数方向への予測も含まない復号方式であることが望ましい。
[第2実施形態]
本形態は第1実施形態の変形例であり、「主成分分析を含む第二処理」として「一般化3次元主成分分析(G3D−PCA)」を用いることに代えて「1次元の主成分分析(PCA)」を用いる形態である。以下では、これまで説明した事項との相違点を中心に説明し、既に説明した事項については既述した参照符号を用いて説明を省略する。
<符号化装置>
図1に例示するように、第2実施形態の符号化装置21は、周波数変換部111、固有空間算出部112、固有信号符号化部113、およびテンソル符号化部214を有する。テンソル符号化部214は、中心化部1141、固有空間算出部2142(第2固有空間算出部)、および符号化部2143,2144(コアテンソル符号化部,基底群符号化部)を含む。
<復号装置>
図2に例示するように、第2実施形態の復号装置22は、周波数逆変換部121、信号再構成部122、固有信号復号部123、およびテンソル復号部224を有する。テンソル復号部224は、加算部1241、テンソル再構成部2242、および復号部2243,2244(コアテンソル復号部,基底群復号部)を含む。
<符号化処理>
第1実施形態との相違点であるテンソル符号化部214の固有空間算出部2142、および符号化部2143,2144の処理のみを説明する。
≪固有空間算出部2142≫
固有空間算出部2142は、入力された中心化後のテンソル∈Ci1×i2×i3を構成する「i1次元ベクトルの系列」に1次元の主成分分析(PCA)を適用し、それぞれに対応する「コアベクトル(コアテンソル)∈Cj1の系列」と「モード1の基底行列(基底群)(1)∈Ci1×j1」とを得て出力する(図6A)。i1は、Dであってもよいし、dであってもよいし、Kであってもよい。例えば、i1=Dである場合、「中心化後のテンソル∈Ci1×i2×i3を構成するi1次元ベクトルの系列」は、各(k,q)の組についての中心化後のベクトル(D次元直交基底)kmq∈C(ただし、q=1,…,d)の系列である。以下ではi1=Dである場合を例にとって説明する。この場合、固有空間算出部2142は、以下のコスト関数を最小化するように基底行列(1)を求め、さらにこの基底行列(1)に対してこのコスト関数を最小化するコアベクトル∈Cj1を求める(図6A参照)。なお、基底行列(1)は、ブロックごとに各(k,q)の組についてそれぞれ得られ、コアベクトルは、サブブロックmごとに各(k,q)の組についてそれぞれ得られる。
Figure 0006139419
≪符号化部2143≫
符号化部2143は、入力されたコアベクトルの系列を公知の符号化方式に則って符号化し、コアテンソル符号(ビット列)Cを得て出力する。
≪符号化部2144≫
符号化部2144は、入力された基底行列(1)および標本平均E[A]の系列を公知の符号化方式に則って符号化し、基底群符号(ビット列)Cを得て出力する。
なお、上述したテンソル符号化部214での符号化方式は本発明を限定するものではなく、ロッシー符号化方式であってもロスレス符号化方式(エントロピー符号化)であってもよいし、何れかの符号化方式のうちのどのような符号化方式が用いられてもよい。ただし、テンソル符号化部214での符号化方式は、時間方向への予測も周波数方向への予測も含まない符号化方式であることが望ましい。その理由は、テンソルの系列A、コアベクトルの系列、基底行列(1)、標本平均E[A]の系列、は何れも時間領域の波形信号である源信号との相関が低いからである。なお、符号化部2143での符号化方式は用途に応じて決定すればよく、符号化部2144の符号化方式としてはロッシー符号化方式よりはロスレス符号化方式を採用したほうが良い。
<復号処理>
第1実施形態との相違点であるテンソル復号部224のテンソル再構成部2242、および復号化部2243,2244の処理のみを説明する。
≪復号部2243≫
復号部2243は、符号化部2143での符号化方式に対応する方式に則って、入力されたコアテンソル符号Cを復号し、サブブロックm毎に各(k,q)の組について復号コアベクトル(復号コアテンソル)’∈Cj1の系列を得て出力する。
≪復号部2244≫
復号部2244は、符号化部2144での符号化方式に対応する方式に則って、入力された基底群符号Cを復号し、各(k,q)の組についての復号基底行列(復号基底群)(1)’∈Ci1×j1、および復号標本平均E[A]’∈Ci1×i2×i3の系列を得て出力する。
≪テンソル再構成部2242≫
テンソル再構成部2242は、入力された「復号基底行列(1)’∈Ci1×j1」に、入力された復号コアベクトル’∈Cj1の系列を適用することで得られる中心化後の復号テンソル’∈Ci1×i2×i3の系列を得て出力する。例えば、テンソル再構成部2242は、サブブロックmごとに、すべての(k,q)についての中心化後の復号ベクトルkmq’ × (1)’を統合し、サブブロックmごとの中心化後の復号テンソル’の系列を得て出力する。
なお、上述したテンソル復号部224での復号方式は本発明を限定するものではなく、符号化装置21のテンソル符号化部214の符号化方式に対応する復号方式であれば、どのような復号方式が用いられてもよい。
[第3実施形態]
本形態は第1実施形態の変形例であり、「主成分分析を含む第二処理」として「一般化3次元主成分分析(G3D−PCA)」を用いることに代えて「一般化2次元主成分分析(G2D−PCA)」を用いる形態である。以下では、これまで説明した事項との相違点を中心に説明し、既に説明した事項については既述した参照符号を用いて説明を省略する。
<符号化装置>
図1に例示するように、第3実施形態の符号化装置31は、周波数変換部111、固有空間算出部112、固有信号符号化部113、およびテンソル符号化部314を有する。テンソル符号化部314は、中心化部1141、固有空間算出部3142(第2固有空間算出部)、および符号化部3143,3144(コアテンソル符号化部,基底群符号化部)を含む。
<復号装置>
図2に例示するように、第3実施形態の復号装置32は、周波数逆変換部121、信号再構成部122、固有信号復号部123、およびテンソル復号部324を有する。テンソル復号部324は、加算部1241、テンソル再構成部3242、および復号部3243,3244(コアテンソル復号部,基底群復号部)を含む。
<符号化処理>
第1実施形態との相違点であるテンソル符号化部314の固有空間算出部3142、および符号化部3143,3144の処理のみを説明する。
≪固有空間算出部3142≫
固有空間算出部3142は、入力された中心化後のテンソル∈Ci1×i2×i3を構成する「i1×i2行列の系列」に一般化2次元主成分分析(G2D−PCA)を適用し、それぞれに対応する「コア行列(コアテンソル)∈Cj1×j2の系列」、ならびに「モード1の基底行列(1)∈Ci1×j1」および「モード2の基底行列(2)∈Ci2×j2」(基底群)を得て出力する(図6B)。i1は、Dであってもよいし、dであってもよいし、Kであってもよい。また、i2は、i1=Dであれば、dであってもよいし、Kであってもよい。例えば、i1=Dかつi2=Kである場合、「中心化後のテンソル∈Ci1×i2×i3を構成するi1×i2行列の系列」は、各qについての中心化後のD次元直交基底kmq∈Cをk列目の列ベクトルとする、中心化後のD×K行列mq∈CD×K(ただし、q=1,…,d)の系列である。以下ではi1=Dかつi2=Kである場合を例にとって説明する。この場合、固有空間算出部3142は、以下のコスト関数を最小化するように基底行列(1)(2)を求め、さらにこれらの基底行列(1)(2)に対してこのコスト関数を最小化するコア行列∈Cj1×j2を求める(図6B参照)。なお、基底行列(1)(2)は、ブロックごとに各qについてそれぞれ得られ、コア行列は、サブブロックmごとに各qについてそれぞれ得られる。
Figure 0006139419
≪符号化部3143≫
符号化部3143は、入力されたコア行列の系列を公知の符号化方式に則って符号化し、コアテンソル符号(ビット列)Cを得て出力する。
≪符号化部3144≫
符号化部3144は、入力された基底行列(1)(2)および標本平均E[A]の系列を公知の符号化方式に則って符号化し、基底群符号(ビット列)Cを得て出力する。
なお、上述したテンソル符号化部314での符号化方式は本発明を限定するものではなく、ロッシー符号化方式であってもロスレス符号化方式(エントロピー符号化)であってもよいし、何れかの符号化方式のうちのどのような符号化方式が用いられてもよい。ただし、テンソル符号化部314での符号化方式は、時間方向への予測も周波数方向への予測も含まない符号化方式であることが望ましい。その理由は、テンソルの系列A、コアベクトルの系列、基底行列(1)(2)、標本平均E[A]の系列、は何れも時間領域の波形信号である源信号との相関が低いからである。なお、符号化部3143での符号化方式は用途に応じて決定すればよく、符号化部3144の符号化方式としてはロッシー符号化方式よりはロスレス符号化方式を採用したほうが良い。
<復号処理>
第1実施形態との相違点であるテンソル復号部324のテンソル再構成部3242、および復号部3243,3244の処理のみを説明する。
≪復号部3243≫
復号部3243は、符号化部3143での符号化方式に対応する方式に則って、入力されたコアテンソル符号Cを復号し、サブブロックm毎に各qについて復号コア行列(復号コアテンソル)’∈Cj1×j2の系列を得て出力する。
≪復号部3244≫
復号部3244は、符号化部3144での符号化方式に対応する方式に則って、入力された基底群符号Cを復号し、各qについての復号基底行列(1)’∈Ci1×j1(2)’∈Cj2×i2(復号基底群)、および復号標本平均E[A]’∈Ci1×i2×i3の系列を得て出力する。
≪テンソル再構成部3242≫
テンソル再構成部3242は、入力された「復号基底行列(1)’,(2)’」に、入力された復号コア行列’∈Cj1×j2の系列を適用することで得られる中心化後の復号テンソル’∈Ci1×i2×i3の系列を得て出力する。例えば、テンソル再構成部3242は、すべてのqについての中心化後の復号行列km’ ×1 2(1)’ ×22(2)’を統合し、サブブロックmごとの中心化後の復号テンソル’の系列を得て出力する。
なお、上述したテンソル復号部324での復号方式は本発明を限定するものではなく、符号化装置31のテンソル符号化部314の符号化方式に対応する復号方式であれば、どのような復号方式が用いられてもよい。
[第4実施形態]
本形態は第1実施形態の変形例であり、固有空間算出部の処理で生じる誤差も符号化し、符号化装置全体としてロスレス符号化を実現するものである。以下では、これまで説明した事項との相違点を中心に説明し、既に説明した事項については既述した参照符号を用いて説明を省略する。
<符号化装置>
図7に例示するように、第4実施形態の符号化装置41は、周波数変換部111、固有空間算出部412、固有信号符号化部113、テンソル符号化部414、および誤差符号化部415を有する。固有信号符号化部113は、周波数逆変換部1131、線形予測部1132、および符号化部1133を含む。テンソル符号化部414は、中心化部1141、固有空間算出部4142、符号化部1143,1144および誤差符号化部4145を含む。
<復号装置>
図8に例示するように、第4実施形態の復号装置42は、周波数逆変換部121、信号再構成部422、固有信号復号部123、テンソル復号部424、および誤差復号部425を有する。固有信号復号部123は、周波数変換部1231、フィルタ処理部1232、および復号部1233を含む。テンソル復号部424は、加算部1241、テンソル再構成部1242、復号部1243,1244、および誤差復号部4245を含む。
<符号化処理>
第1実施形態との実質的な相違点である固有空間算出部412、誤差符号化部415、固有空間算出部4142、誤差符号化部4145を中心に説明する。
≪固有空間算出部412≫
固有空間算出部412は、まず、固有空間算出部112と同様に、周波数領域のマルチチャネル信号Xkmn∈Cを入力とし、当該周波数領域のマルチチャネル信号Xkmnに周波数毎の主成分分析(KL展開)を含む第一処理を行うことで、次元縮約された信号の系列である固有信号Skmn∈Cの系列と、基底の系列であるテンソルA∈Ci1×i2×i3の系列とを得て出力する。固有空間算出部412は、さらに、DNkmDdkm dNkmとの差分である誤差DNe1kmの系列も得て出力する。
≪誤差符号化部415≫
誤差符号化部415は、入力された誤差DNe1kmの系列を公知のエントロピー符号化方式に則って符号化し、誤差信号符号Ce1を得て出力する。
≪固有空間算出部4142≫
固有空間算出部4142は、まず、固有空間算出部1142と同様に、コアテンソルBの系列と、少なくとも一つの基底から構成される基底群Uとを得て出力する。固有空間算出部4142は、さらに、とB ×(1) ×(2) ×(3)との差分である誤差e2の系列も得て出力する。
≪誤差符号化部4145≫
誤差符号化部4145は、入力された誤差e2の系列を公知のエントロピー符号化方式に則って符号化し、誤差信号符号Ce2を得て出力する。
なお、第4実施形態の符号化装置41の符号化部1133、1143,1144で用いる符号化方式はロスレス符号化方式(エントロピー符号化方式)とする。
<復号処理>
第1実施形態との実質的な相違点である誤差復号部425,4245、テンソル再構成部4242、信号再構成部422を中心に説明する。
≪誤差復号部4245≫
誤差復号部4245は、誤差符号化部4145でのエントロピー符号化方式に対応する復号方式に則って、入力された誤差信号符号Ce2を復号し、復号誤差e2’の系列を得て出力する。
≪テンソル再構成部4242≫
テンソル再構成部4242は、テンソル再構成部1242と同様に、入力された「モード1の復号基底行列U(1)’」と「モード2の復号基底行列U(2)’」と「モード3の復号基底行列U(3)’」(復号基底群U’)に、入力された復号コアテンソルB’∈Cj1×j2×j3の系列を適用する。本形態では、これによって得られる系列を「第2復号テンソル’’∈Ci1×i2×i3の系列」とする。テンソル再構成部4242は、さらに、当該第2復号テンソル’’の系列と入力された復号誤差e2’の系列との和を、中心化後の復号テンソル’∈Ci1×i2×i3の系列として得て出力する。例えば、テンソル再構成部4242は、B’ ×(1)’ ×(2)’ ×(3)’の系列と復号誤差e2’の系列との和の系列を、中心化後の復号テンソル’の系列として得て出力する。
≪誤差復号部425≫
誤差復号部425は、誤差符号化部415でのエントロピー符号化方式に対応する復号方式に則って、入力された誤差信号符号Ce1を復号し、復号誤差e1’の系列を得て出力する。
≪信号再構成部422≫
信号再構成部422は、まず、信号再構成部122と同様に、入力された復号テンソルA’∈Ci1×i2×i3の系列に、入力された復号固有信号Skmn’∈Cの系列を適用する。本形態では、これによって得られる系列を「次元復元された第2復号マルチチャネル信号Xkmn’’∈Cの系列」とする。信号再構成部422は、さらに、当該第2復号マルチチャネル信号Xkmn’’の系列と入力された復号誤差e1’の系列との和の系列を、次元復元された復号マルチチャネル信号Xkmn’∈Cの系列として得て出力する。
[その他の変形例等]
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述した一般化2次元主成分分析や一般化3次元主成分分析に代えて、多重線形主成分分析を用いてもよい。また、固有信号符号化部113およびテンソル符号化部114,214,314の符号化方式、ならびに固有信号復号部123およびテンソル復号部124,224,324の復号方式は、上述の実施形態の方式に限定されない。また、各実施形態では、テンソルの系列からテンソルの系列の標本平均を減じた中心化後のテンソルの系列を符号化する方法を例示した。しかしながら、テンソルの系列を中心化することなく符号化してもよいし、テンソルの系列に対し、中心化に加えてその他の処理を行って得られた系列を符号化してもよい。また、各実施形態では、各サブブロックにN個のフレームが含まれることとした。しかしながら、サブブロックに属するフレームの個数は固定であっても固定でなくてもよく、また、サブフレームごとに異なる個数のフレームが含まれてもよい。上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述の構成をコンピュータによって実現する場合、各部が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータ(ハードウェアプロセッサ)で実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
11,21,31 符号化装置
12,22,32 復号装置

Claims (15)

  1. 入力された複数チャネルの時系列信号に対応する周波数領域のマルチチャネル信号の系列に周波数毎の主成分分析を含む第一処理を行い、次元縮約された信号の系列である固有信号の系列と、基底の系列であるテンソルの系列とを得る固有空間算出部と、
    前記固有信号の系列を符号化して固有信号符号を得る固有信号符号化部と、
    前記テンソルの系列を符号化してテンソル符号を得るテンソル符号化部と、を有し、
    前記テンソル符号化部は、
    前記テンソルに対応する系列に主成分分析を含む第二処理を適用し、次元縮約されたテンソルの系列であるコアテンソルの系列と、少なくとも一つの基底から構成される基底群とを得る第2固有空間算出部と、
    前記コアテンソルの系列を符号化してコアテンソル符号を得るコアテンソル符号化部と、
    前記基底群を符号化して基底群符号を得る基底群符号化部と、
    を含む、符号化装置。
  2. 請求項の符号化装置であって、
    前記テンソル符号化部は、前記テンソルの系列から前記テンソルの系列の標本平均を減じた中心化後のテンソルの系列を、前記テンソルに対応する系列として得る中心化部をさらに含む、符号化装置。
  3. 請求項またはの符号化装置であって、
    前記基底群が複数個の基底から構成される、符号化装置。
  4. 請求項からの何れかの符号化装置であって、
    前記マルチチャネル信号および前記固有信号は、所定の時間区間であるフレーム毎に得られ、
    前記テンソルおよび前記コアテンソルは、複数個のフレームから構成されるサブブロック毎に得られ、
    前記基底群は、複数個のサブブロックから構成されるブロック毎に得られる、符号化装置。
  5. 入力された複数チャネルの音響信号である時系列信号に対応する周波数領域のマルチチャネル信号の系列に周波数毎の主成分分析を含む第一処理を行い、次元縮約された信号の系列である固有信号の系列と、基底の系列であるテンソルの系列とを得る固有空間算出部と、
    前記固有信号の系列を符号化して固有信号符号を得る固有信号符号化部と、
    前記テンソルの系列を符号化してテンソル符号を得るテンソル符号化部と、を有し、
    前記固有信号符号化部は、時間方向と周波数方向との少なくとも一方への予測を含む符号化方式に則って、前記固有信号の系列を符号化し、
    記テンソル符号化部は、時間方向への予測も周波数方向への予測も含まない符号化方式に則って、前記テンソルの系列を符号化する、符号化装置。
  6. 入力されたテンソル符号を復号して復号テンソルの系列を得るテンソル復号部と、
    入力された固有信号符号を復号して復号固有信号の系列を得る固有信号復号部と、
    前記テンソル復号部で得られた前記復号テンソルの系列を基底の系列として、前記固有信号復号部で得られた前記復号固有信号の系列を適用して、次元復元された復号マルチチャネル信号の系列を得る信号再構成部と
    を有し、
    記テンソル符号は、コアテンソル符号と基底群符号とを含み、
    前記テンソル復号部は、
    前記コアテンソル符号を復号して復号コアテンソルの系列を得るコアテンソル復号部と、
    前記基底群符号を復号して復号基底群を得る基底群復号部と、
    前記コアテンソル復号部で得られた前記復号基底群を基底として、前記コアテンソル復号部で得られた前記復号コアテンソルの系列を適用して、前記復号テンソルの系列に対応する系列を得るテンソル再構成部と、
    を含む、復号装置。
  7. 請求項の復号装置であって、
    前記コアテンソル復号部は、前記基底群符号を復号してさらに復号標本平均を得、
    前記テンソル復号部は、前記テンソル再構成部で得られた前記復号テンソルの系列に対応する系列と、前記コアテンソル復号部で得られた前記復号標本平均と、を加算して前記復号テンソルの系列を得る加算部を、さらに含む、復号装置。
  8. 請求項またはの復号装置であって、
    前記復号基底群が複数個の基底から構成される、復号装置。
  9. 請求項からの何れかの復号装置であって、
    前記復号マルチチャネル信号および前記復号固有信号は、所定の時間区間であるフレーム毎に得られ、
    前記復号テンソルおよび前記復号コアテンソルは、複数個のフレームから構成されるサブブロック毎に得られ、
    前記復号基底群は、複数個のサブブロックから構成されるブロック毎に得られる、復号装置。
  10. 音響信号を復元する復号装置であって、
    入力されたテンソル符号を復号して復号テンソルの系列を得るテンソル復号部と、
    入力された固有信号符号を復号して復号固有信号の系列を得る固有信号復号部と、
    前記テンソル復号部で得られた前記復号テンソルの系列を基底の系列として、前記固有信号復号部で得られた前記復号固有信号の系列を適用して、次元復元された復号マルチチャネル信号の系列を得る信号再構成部と、を有し、
    前記固有信号復号部は、時間方向と周波数方向との少なくとも一方への予測を含む復号方式に則って、前記固有信号符号を復号し、
    記テンソル復号部は、時間方向への予測も周波数方向への予測も含まない復号方式に則って、前記テンソル符号を復号する、復号装置。
  11. 入力された複数チャネルの時系列信号に対応する周波数領域のマルチチャネル信号の系列に周波数毎の主成分分析を含む第一処理を行い、次元縮約された信号の系列である固有信号の系列と、基底の系列であるテンソルの系列とを得る固有空間算出ステップと、
    前記固有信号の系列を符号化して固有信号符号を得る固有信号符号化ステップと、
    前記テンソルの系列を符号化してテンソル符号を得るテンソル符号化ステップと、
    を有し、
    前記テンソル符号化ステップは、
    前記テンソルに対応する系列に主成分分析を含む第二処理を適用し、次元縮約されたテンソルの系列であるコアテンソルの系列と、少なくとも一つの基底から構成される基底群とを得る第2固有空間算出ステップと、
    前記コアテンソルの系列を符号化してコアテンソル符号を得るコアテンソル符号化ステップと、
    前記基底群を符号化して基底群符号を得る基底群符号化ステップと、
    を含む、符号化方法。
  12. 入力された複数チャネルの音響信号である時系列信号に対応する周波数領域のマルチチャネル信号の系列に周波数毎の主成分分析を含む第一処理を行い、次元縮約された信号の系列である固有信号の系列と、基底の系列であるテンソルの系列とを得る固有空間算出ステップと、
    前記固有信号の系列を符号化して固有信号符号を得る固有信号符号化ステップと、
    前記テンソルの系列を符号化してテンソル符号を得るテンソル符号化ステップと、を有し、
    前記固有信号符号化ステップは、時間方向と周波数方向との少なくとも一方への予測を含む符号化方式に則って、前記固有信号の系列を符号化し、
    前記テンソル符号化ステップは、時間方向への予測も周波数方向への予測も含まない符号化方式に則って、前記テンソルの系列を符号化する、符号化方法。
  13. 入力されたテンソル符号を復号して復号テンソルの系列を得るテンソル復号ステップと、
    入力された固有信号符号を復号して復号固有信号の系列を得る固有信号復号ステップと、
    前記テンソル復号ステップで得られた前記復号テンソルの系列を基底の系列として、前記固有信号復号ステップで得られた前記復号固有信号の系列を適用して、次元復元された復号マルチチャネル信号の系列を得る信号再構成ステップとを有し、
    前記テンソル符号は、コアテンソル符号と基底群符号とを含み、
    前記テンソル復号ステップは、
    前記コアテンソル符号を復号して復号コアテンソルの系列を得るコアテンソル復号ステップと、
    前記基底群符号を復号して復号基底群を得る基底群復号ステップと、
    前記コアテンソル復号ステップで得られた前記復号基底群を基底として、前記コアテンソル復号ステップで得られた前記復号コアテンソルの系列を適用して、前記復号テンソルの系列に対応する系列を得るテンソル再構成ステップと、
    を含む、復号方法。
  14. 音響信号を復元する復号方法であって、
    入力されたテンソル符号を復号して復号テンソルの系列を得るテンソル復号ステップと、
    入力された固有信号符号を復号して復号固有信号の系列を得る固有信号復号ステップと、
    前記テンソル復号ステップで得られた前記復号テンソルの系列を基底の系列として、前記固有信号復号ステップで得られた前記復号固有信号の系列を適用して、次元復元された復号マルチチャネル信号の系列を得る信号再構成ステップと、を有し、
    前記固有信号復号ステップは、時間方向と周波数方向との少なくとも一方への予測を含む復号方式に則って、前記固有信号符号を復号し、
    前記テンソル復号ステップは、時間方向への予測も周波数方向への予測も含まない復号方式に則って、前記テンソル符号を復号する、復号方法。
  15. 請求項1からの何れかの符号化装置、または、請求項から1の何れかの復号装置としてコンピュータを機能させるためのプログラム。
JP2014000144A 2014-01-06 2014-01-06 符号化装置、復号装置、符号化方法、復号方法、およびプログラム Expired - Fee Related JP6139419B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014000144A JP6139419B2 (ja) 2014-01-06 2014-01-06 符号化装置、復号装置、符号化方法、復号方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014000144A JP6139419B2 (ja) 2014-01-06 2014-01-06 符号化装置、復号装置、符号化方法、復号方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2015129785A JP2015129785A (ja) 2015-07-16
JP6139419B2 true JP6139419B2 (ja) 2017-05-31

Family

ID=53760572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014000144A Expired - Fee Related JP6139419B2 (ja) 2014-01-06 2014-01-06 符号化装置、復号装置、符号化方法、復号方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6139419B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106981292B (zh) * 2017-05-16 2020-04-14 北京理工大学 一种基于张量建模的多路空间音频信号压缩和恢复方法
AU2022202470A1 (en) * 2022-04-13 2023-11-02 Canon Kabushiki Kaisha Method, apparatus and system for encoding and decoding a tensor

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5425066B2 (ja) * 2008-06-19 2014-02-26 パナソニック株式会社 量子化装置、符号化装置およびこれらの方法
US8942989B2 (en) * 2009-12-28 2015-01-27 Panasonic Intellectual Property Corporation Of America Speech coding of principal-component channels for deleting redundant inter-channel parameters

Also Published As

Publication number Publication date
JP2015129785A (ja) 2015-07-16

Similar Documents

Publication Publication Date Title
JP4689625B2 (ja) 信号解析及び合成のための適応型混合変換
KR101428487B1 (ko) 멀티 채널 부호화 및 복호화 방법 및 장치
KR101634979B1 (ko) 임계적으로 샘플링된 필터뱅크에서 모델 기반 예측
US20090018824A1 (en) Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method
JP5802412B2 (ja) 符号化する方法、復号化する方法、オーディオ信号符号化器及び装置
KR102460820B1 (ko) Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
RU2016140233A (ru) Кодер, декодер и способ кодирования и декодирования
KR102327149B1 (ko) Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
Gunawan et al. Speech compression using compressive sensing on a multicore system
JP5280607B2 (ja) 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体
US8825494B2 (en) Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program
KR102556096B1 (ko) 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법
KR20120009150A (ko) 다채널 오디오 신호 부호화/복호화 장치 및 방법
JP6139419B2 (ja) 符号化装置、復号装置、符号化方法、復号方法、およびプログラム
JP6146069B2 (ja) データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
KR20220048252A (ko) 학습 모델을 이용한 오디오 신호의 부호화 및 복호화 방법 및 장치와 학습 모델의 트레이닝 방법 및 장치
RU2716911C2 (ru) Способ и устройство для кодирования множественных аудиосигналов и способ и устройство для декодирования смеси множественных аудиосигналов с улучшенным разделением
US20230048402A1 (en) Methods of encoding and decoding, encoder and decoder performing the methods
CN108701462A (zh) 加权矩阵系数的自适应量化
EP2993665A1 (en) Method and apparatus for coding or decoding subband configuration data for subband groups
JP5336942B2 (ja) 符号化方法、復号方法、符号化器、復号器、プログラム
US9800986B2 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
KR20220005379A (ko) 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법
KR20210133551A (ko) 적응형 주파수 복원 기법 기반 오디오 부호화 방법
JPH09230898A (ja) 音響信号変換符号化方法及び復号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170427

R150 Certificate of patent or registration of utility model

Ref document number: 6139419

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees