JP2018196133A - サラウンドオーディオ信号処理のための装置及び方法 - Google Patents

サラウンドオーディオ信号処理のための装置及び方法 Download PDF

Info

Publication number
JP2018196133A
JP2018196133A JP2018136700A JP2018136700A JP2018196133A JP 2018196133 A JP2018196133 A JP 2018196133A JP 2018136700 A JP2018136700 A JP 2018136700A JP 2018136700 A JP2018136700 A JP 2018136700A JP 2018196133 A JP2018196133 A JP 2018196133A
Authority
JP
Japan
Prior art keywords
parameters
signal
core
ambience
rendering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018136700A
Other languages
English (en)
Other versions
JP6652990B2 (ja
Inventor
ゾンシャン リュウ
Zongxian Liu
ゾンシャン リュウ
田中 直也
Naoya Tanaka
直也 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2018136700A priority Critical patent/JP6652990B2/ja
Publication of JP2018196133A publication Critical patent/JP2018196133A/ja
Application granted granted Critical
Publication of JP6652990B2 publication Critical patent/JP6652990B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】任意のデジタル化及び圧縮化オーディオ信号記憶若しくは送信アプリケーション及びオーディオ再生アプリケーションのためのレンダリングにて、用いられ得るオーディオ信号の符号化及び復号化するための装置、方法を提供する。【解決手段】サラウンドオーディオ信号をデコードする装置は、ビットストリームを空間パラメータ及びコアパラメータに解凍するビットストリームデマルチプレクサと、コアパラメータをコア信号のセットにデコードするコアデコーダのセットと、空間パラメータと再生スピーカのレイアウト情報を用いてレンダリングマトリクスを導出するマトリクス導出ユニットと、レンダリングマトリクスを用いて、デコードされたコア信号を再生信号にレンダリングするレンダリング器とを含む。【選択図】図1

Description

本発明は、サラウンドオーディオ信号処理システムに関し、特に、任意のデジタル化及び圧縮化オーディオ信号記憶若しくは送信アプリケーションにて、及びオーディオ再生アプリケーションのためのレンダリングにて、用いられ得るオーディオ信号の符号化及び復号化に関する。
音楽を聴くときや音声付きの映像を見るとき、オーディオ/及びビデオシーンのより良い感覚を得られるので、高程度のオーディオエンベロップメントを有することが聴衆(観衆)にとって望ましい。オーディオエンベロップメントの意味は、没入型3Dオーディオ、及び正確なオーディオ定位を含む。没入型3Dオーディオとは、オーディオシステムが空間の任意の位置にてサウンドソースを仮想化できるということを意味する。正確なオーディオ定位とは、オーディオシステムが方向と距離との両方の観点でオリジナルのオーディオシーンと正確に調整してサウンドソースを配置することができるということを意味する[1]。
オーディオエンベロップメントの感覚は、3Dオーディオシステムにより提供され得るのであり、該3Dオーディオシステムは、多数のラウドスピーカを使用する。スピーカは聴衆(観衆)を取り囲み,かつ,高、中、低の鉛直位置に配置され得る。
三つのタイプのインプット信号及びフォーマットが3Dオーディオシステムで共通して用いられる:チャネルベースのインプット、オブジェクトベースのインプット、及び高次アンビソニックスである。
チャネルベースのインプットは、今日の2D及び3Dオーディオ信号生成処理及びメディア(例えば、22.2、9.1、8.1、7.1、5.1など)で共通して用いられ、個々の生成されるオーディオ信号チャネルは、指定位置のラウドスピーカを直接駆動するように意図されている。
オブジェクトベースのインプットに対しては、個々の生成されるオーディオ信号チャネルは、実際に利用可能なラウドスピーカの数や位置とは無関係に、指定の空間位置にてレンダリングされるように意図されるオーディオソースを、表す。
高次アンビソニックス(HOA)に対しては、個々の生成されるオーディオ信号チャネルは、実際に利用可能なラウドスピーカの数や位置とは無関係に、サウンドシーン全体の全般的描写の一部である。
三つのフォーマットの間で、HOAフォーマットは、非標準のスピーカレイアウトを含む、任意の再生セットアップへアンビソニック信号をレンダリングできるオーディオシーンの表現である。
MPEG−H 3Dオーディオ標準化のためのモデルなどの、先行技術では、HOAフォーマットに対しては、デコーダサイドで、HOA信号は、まずデコードされたコア信号から再構築され、続いてスピーカセットアップにレンダリングされる。
図1は、HOAフォーマットのための、MPEG−H 3Dオーディオ標準化のモデル内のデコーダを示す。
まず、インプットビットストリームは、AAC−ファミリモノエンコーダにより本来生成されるNビットストリームと、加えてこれらのビットストリームから全体のHOA表現を組み立て直すのに必要とされるパラメータとに、デマルチプレスクされる(101)。
マルチチャネル知覚復号コンポーネント(102、103及び104)では、Nビットストリームは、AAC−ファミリモノデコーダにより個別にデコードされてN信号を生成する。
後続の空間復号化コンポーネントでは、まず、これらの信号の実際値の範囲が逆ゲインコントロール処理(105)により再構築される。次のステップでは、N信号が再分配され、Mのプレドミナント信号と、よりアンビエントなHOAコンポーネント(105)を表す(N−M)のHOA係数信号を提供する。
(N−M)のHOA係数信号の固定のサブセットは再相関される。これはHOA符号化ステージにおける脱相関を反対にすることである(107)。
次に、(N−M)のHOA係数信号の全ては、アンビエントなHOAコンポーネント(107)を作成するのに用いられる。
プレドミナントのHOAコンポーネントは、Mのプレドミナントの信号及び対応するパラメータから、合成される。
最後に、プレドミナント及びアンビエントのHOAコンポーネントは、所望の完全なHOA表現(108)に組み立てられ、更に所与のラウドスピーカセットアップ(109)にレンダリングされる。
プレドミナントサウンド合成、アンビエンス合成、HOAコンポジション及びレンダリングの詳細なプロセスを、以下説明する。
プレドミナントサウンド合成(PSS)ブロック(106)では、プレドミナントコンポーネントのHOA表現は、二つの方法のいずれかから計算される。これらの方法は、「方向ベースの」及び「ベクトルベースの」と称される。
ベクトルベースのPSSでは、プレドミナントのサウンドは、ベクトルベースの信号XVEC(k)から計算される。XVEC(k)信号は、それらの空間特性からデカップルされた時間領域オーディオ信号を表す。再構築されたHOA係数は、ベクトルベースの信号XVEC(k)を対応する複数の変換ベクトル(MVEC(k)の多重ベクトルにより表される)と乗じることにより計算される。よってMVEC(k)は、対応するXVEC(k)の時間領域オーディオ信号の(指向性や幅などの)空間特性を含む。計算は以下のようになる。
Figure 2018196133
ここで、
VEC(k)は、デコードされたベクトルベースの、プレドミナントサウンドを示す。
VEC(k)は、ベクトルベースのプレドミナントサウンドからHOA係数を再構築するマトリクスを示す。
VEC(k)は、ベクトルベースのプレドミナントサウンドから再構築されたHOA係数を示す。
方向ベースのPSSでは、HOA係数は、全ての方向ベースのプレドミナントのサウンド信号XPS(k)から計算される。タプルセットMDIR(k)を用いて、計算は以下のようになる。
Figure 2018196133
ここで、
PS(k)は、デコードされた方向ベースの、プレドミナントサウンドを示す。
DIR(k)は、方向ベースのプレドミナントサウンドからHOA係数を再構築するマトリクスを示す。
DIR(k)は、方向ベースのプレドミナントサウンドから再構築されたHOA係数を示す。
アンビエンス合成では、アンビエントHOAコンポーネントフレームCAMB(k)は、参考文献[2]によると、以下のように得られる。
1)アンビエントHOAコンポーネントの第1のOMIN係数は以下で得られる。
Figure 2018196133
ここで、
MINは、アンビエントHOA係数の最小数を示す。
ΨMINは、ある固定の所定方向に関するモードマトリクスを示す。
I,AMB,n(k)は、デコードされたアンビエントサウンド信号を示す。
2)アンビエントHOAコンポーネントの残りの係数のサンプル値は、以下に従って計算される。
Figure 2018196133
最後に、HOAコンポジション内で、アンビエントHOAコンポーネント及びプレドミナントHOAコンポーネントは、重ね合わされて、デコードされたHOAフレームを提供する。方向ベースのプレドミナント合成に対して予測が作動していなければ、デコードされたHOAフレームC(k)は以下により計算される。
Figure 2018196133
(方向ベースの合成に対するもの)
Figure 2018196133
(ベクトルベースの合成に対するもの)
ここで、
VEC(k)は、ベクトルベースのプレドミナントサウンドから再構築されたHOA係数を示す。
DIR(k)は、方向ベースのプレドミナントサウンドから再構築されたHOA係数を示す。
AMB(k)は、アンビエント信号から再構築されたHOA係数を示す。
C(k)は、最終的な再構築されたHOA係数を示す。
近距離補償が適用されないならば、デコードされたHOA係数C(k)は、レンダリングマトリクスDによる乗算により、ラウドスピーカ信号W(k)の表現に変換される。
Figure 2018196133
ここで、
C(k)は、最終的な再構築されたHOA係数を示す。
W(k)は、ラウドスピーカ信号を示す。
Dha、レンダリングマトリクスを示す。
上記処理の複雑さを計算するために、以下の注記を記載する。
1)HOA信号のオーダはOHOAであり、HOA係数の数は(OHOA+1)である。
2)再生スピーカの数はLである。
3)コア信号チャネルのトータル数はNである。
4)プレドミナントサウンドチャネルの数はMである。
5)アンビエントサウンドチャネルの数はN−Mである。
プレドミナントのサウンド合成のためのコンプレキシティ(演算量)は
Figure 2018196133
ここで、
COMPSSは、プレドミナントサウンド合成のための演算量を示す。
Mは、プレドミナントサウンドチャネルの数を示す。
HOAは、HOAのオーダを示す。
は、サンプリング周波数を示す。
レンダリングのための演算量は
Figure 2018196133
ここで、
COMRENDERは、レンダリングのための演算量を示す。
Lは、再生スピーカの数を示す。
HOAは、HOAのオーダを示す。
は、サンプリング周波数を示す。
HOA係数の数は、通常のHOAフォーマットにて非常に大きく、例としてOHOA=4ならば、HOA係数の数は(4+1)=25である。
また、3Dオーディオのより良好な感覚を有するために、再生チャネルの数も非常に大きく、例えば、22.2セットアップは、24スピーカの全体で有する。
オーディオ信号のためのサンプリング周波数は、通常、44.1kHz若しくは48kHzである。
例として、M=4、OHOA=4、L=24及びFs=48kHzに対して、プレドミナントサウンド合成及びレンダリングのための演算量を見積もると、
Figure 2018196133
Figure 2018196133
例から、合成及びレンダリングプロセスの両方が非常に複雑であることが分かり、よって複雑性(演算量)を削減することが望ましい。
HOAコンポジションプロセス(式(1)及び(2))に示すように、プレドミナントサウンド合成は、以下に従って為される。
Figure 2018196133
(ベクトルベースの合成に対するもの)
Figure 2018196133
(方向ベースの合成に対するもの)
アンビエントサウンド合成は、以下に従って為される。
Figure 2018196133
レンダリングは、(式(7))に従って為される。
Figure 2018196133
HOAコンポジション及びレンダリングプロセスはチャネルコンバージョンの一つのプロセスに組み合わされる。
Figure 2018196133
(ベクトルベースの合成に対するもの)
Figure 2018196133
(方向ベースの合成に対するもの)
例として、OHOA=4、M=4、N=8、L=24及びFs=48kHzに対して、プレドミナントサウンド合成及びレンダリングのための演算量を見積もると、
Figure 2018196133
上例から、本発明のアイデアを実装することにより、演算量は大きく削減することができる。
MPEG−H 3D オーディオモデルでは、インプットシーケンスの一部に対する予測コンポーネントと、一部条件のためのレンダリング前の近距離補償がある。本発明は、予測コンポーネントが存在するときの、若しくは近距離補償が実施されるときの、条件には適合されない。
MPEG−H 3D オーディオモデルでは、連続するフレーム間の(方向ベースの合成のための)方向の変化によるアーチファクトを回避するために、方向信号からのHAO表現の計算は、重複加算のコンセプトに基づく。
よって、アクティブの方向信号のHOA表現CDIR(k)は、フェードアウトコンポーネントとフェードインコンポーネントとの合計として計算される。
Figure 2018196133
HOAドメインにてフェードイン及びフェードアウトが為される際、本発明の方法に対してどれが課題をもたらすか。この課題を解決するために、以下のアイデアが想到される。
1)X’PS(k−1)=XPS(k−1)wout;X’PS(k)=XPS(k)winを規定する。
2)式(11)を以下のように修正する:
Figure 2018196133
上記原理は、フェードイン及びフェードアウトがベクトルベースの合成に対してHOAドメインで為されるならば、ベクトルベースの合成に適用され得る。
フェードイン及びフェードアウトがベクトルベースの合成に対してベクトルドメインで為されるならば、以下の通りとなる。
1)X’VEC(k)=woutVEC(k−1)+winVEC(k)を規定する。
2)式(10)を以下のように修正する:
Figure 2018196133
図1は、HOAインプットのMPEG−H 3Dオーディオ標準のデコーダ図である。 図2は、本発明の実施の形態1のデコーダ図である。 図3は、本発明の実施の形態2のデコーダ図である。 図4は、本発明の実施の形態3のデコーダ図である。 図5は、本発明の実施の形態4のデコーダ図である。 図6Aは、本発明の実施の形態5の一つのデコーダ図である。 図6Bは、本発明の実施の形態5の別のデコーダ図である。 図7Aは、本発明の実施の形態6の一つのデコーダ図である。 図7Bは、本発明の実施の形態6の別のデコーダ図である。 図8は、本発明の実施の形態7のビットストリームの例を示す。 図9は、本発明の実施の形態7のデコーダ図である。 図10は、本発明の実施の形態8のエンコーダ図である。 図11は、本発明の実施の形態9のエンコーダ図である。 図12は、本発明の実施の形態10のエンコーダ図である。
以下の実施形態は、種々の進歩性の原理のための例示に過ぎない。当然ながら、本明細書の詳細な説明の変形例は当業者には明白なものであろう。当業者は、本発明の精神から乖離すること無く本発明を修正して適用することができるものである。
1.実施の形態1
本発明の実施の形態1として、本発明に係るサラウンドサウンドデコーダは、ビットストリームを空間パラメータ及びコアパラメータに解凍するビットストリームデマルチプレクサと;コアパラメータをコア信号のセットにデコードするコアデコーダのセットと;空間パラメータと再生スピーカのレイアウトとからレンダリングマトリクスを導出するマトリクス導出ユニットと;レンダリングマトリクスを用いて、デコードされたコア信号を再生信号にレンダリングするレンダリング器と;を含む。
図2は、実施の形態1に係る前述のデコーダを示す。
ビットストリームデマルチプレクサ(200)は、ビットストリームを空間パラメータ及びコアパラメータに解凍する。
コアデコーダのセット(201、202、203)は、コアパラメータをコア信号のセットにデコードするが、デコーダは、MPEG−1 Audio Layer IIIやAACやHE−AACやDolby AC−3やMPEG USACスタンダードなどの、任意の現存の若しくは新しいコーデックであればよい。
マトリクス導出ユニット(204)は、空間パラメータと再生スピーカのレイアウトとからレンダリングマトリクスを計算する。レンダリングは、以下のパラメータの一部若しくはすべてを用いて導出され得る。
ターゲットスピーカの数(5.1、7.1、10.1若しくは22.2...)、
スピーカの位置(スイートスポットからの距離、水平角及び仰角)、
球面モデリングの位置(水平及び仰角)、
HOAオーダ(一次(4のHOA係数)、二次(9のHOA係数)若しくは三次(16のHOA係数)....)、及び、
HOAデコンポジションパラメータ(方向ベースのデコンポジション若しくはPCAまたはSVD)。
VBAP(ベクトルベースの振幅パニング)[3]、若しくはDBAP(方向ベースの振幅パニング)[4]、又はHOAフォーマットのためのMPEG−H 3Dに対する公表参照モデルに記載された方法[2]などの、所望のスピーカレイアウトへの再構築されたインプット信号から、レンダリングマトリクスを導出するのに利用可能な技術がある。
例として、インプット信号が四次HOAであるならば、球面空間の25の方向を覆うための25のHOA係数を有し、再生スピーカセットアップはスタンダード22.2チャネルセットアップである。レンダリングマトリクスは、25のHOA係数を24のスピーカチャネルにマップする。
VBAPがレンダリングマトリクスを導出するのに用いられると、VBAPは、22.2スピーカセットアップのラウドスピーカを指示する24の単位ベクトルl,...,l24のセットを用い、三角形のメッシュがラウドスピーカ間で形成される。25のHOA球面方向pの各々に対しては、スピーカにより形成される三角形の一つの中にある。三角形を形成する三つのスピーカは、アクティブのスピーカであるように選択され、球面方向pは、それらラウドスピーカの線形の組み合わせにより計算され得る。
Figure 2018196133
ここで、
pは、HOA球面方向を示す。
は、ラウドスピーカベクトルを示す。
は、lに適用される倍率を示す。
{n,n,n}は、アクティブのラウドスピーカの三重項を示す。
では、ベクトル空間は、3のベクトルベースにより形成される。このことにより以下の解が導かれる。
Figure 2018196133
ここで、
pは、HOA球面方向を示す。
は、ラウドスピーカベクトルを示す。
は、lに適用される倍率を示す。
{n,n,n}は、アクティブのラウドスピーカの三重項を示す。
上述の手順は、25のHOA球面方向の全てに対して繰り返され、個々の球面方向に対する全てのゲインパラメータが導出可能であり、レンダリングマトリクスDを形成し得る。
HOA係数からラウドスピーカアウトプットへのレンダリングは、以下の式で説明可能である。
Figure 2018196133
ここで、
C’(k)は、完全再構築されたオーディオ信号を示す。
W(k)は、ラウドスピーカ信号を示す。
Dは、レンダリングマトリクスを示す。
しかしながら、本発明では、完全再構築されたオーディオ信号は利用可能ではない。再構築されるオーディオ信号が以下の式に従って導出され得ることを仮定する。
Figure 2018196133
ここで、
C’(k)は、完全再構築されたオーディオ信号を示す。
S’(k)は、デコードされた信号を示す。
Mは、変換マトリクスを示す。
式(17)と式(18)とを組み合わせることにより以下のようになる。
Figure 2018196133
ここで、
C’(k)は、完全再構築されたオーディオ信号を示す。
W(k)は、ラウドスピーカ信号を示す。
Dは、レンダリングマトリクスを示す。
Mは、変換マトリクスを示す。
D’は、新しいレンダリングマトリクスを示す。
上述のアプローチ以外に、デコードされたコア信号及びスピーカレイアウト情報を直接用いて、レンダリングマトリクスを導出することが可能である。
上述の手順及び式は、本発明をいかに実装するかに関する例として示すものであり、当業者であれば、発明の精神から乖離することなくこの発明を修正して適用することができるであろう。
最後に、レンダリング器(205)は、レンダリングマトリクスを用いて、デコードされたコア信号を再生信号にレンダリングする。
効果:この実施の形態では、サラウンドサウンド信号が、単独のステップで所望のスピーカレイアウトに再構築されてレンダリングされるのであり、このことにより、効率性は改善され演算量は大きく削減される。
2.実施の形態2
本発明に係るサラウンドサウンドデコーダは、ビットストリームをプレドミナントサウンドパラメータ、アンビエンスパラメータ、チャネル割り当てパラメータ、及びコアパラメータに解凍するビットストリームデマルチプレクサと;コアパラメータをコア信号のセットにデコードするコアデコーダのセットと;チャネル割り当てパラメータに従って、デコードされたコア信号をプレドミナントサウンド及びアンビエンスに割り当てる、プレドミナントサウンドアンビエンススイッチと;プレドミナントサウンドパラメータと再生スピーカのレイアウトとからプレドミナントサウンドレンダリングマトリクスを導出するマトリクス導出ユニットと;アンビエンスパラメータと再生スピーカのレイアウトとからアンビエンスレンダリングマトリクスを導出するマトリクス導出ユニットと;レンダリングマトリクスを用いて、プレドミナントサウンドを再生信号にレンダリングするプレドミナントサウンドレンダリング器と;レンダリングマトリクスを用いて、アンビエンスを再生信号にレンダリングするアンビエンスレンダリング器と;レンダリングされたプレドミナントサウンド及びアンビエントサウンドを用いて、再生信号を構成するアウトプット信号構成ユニットと;を含む。
図3は、実施の形態2に係る前述のデコーダを示す。
ビットストリームデマルチプレクサ(300)は、ビットストリームをプレドミナントサウンドパラメータ、アンビエンスパラメータ、チャネル割り当てパラメータ、及びコアパラメータに解凍する。
コアデコーダのセット(301、302、303)は、コアパラメータをコア信号のセットにデコードするが、デコーダは、MPEG−1 Audio Layer IIIやAACやHE−AACやDolby AC−3やMPEG USACスタンダードなどの、任意の現存の若しくは新しいコーデックであればよい。
プレドミナントサウンド/アンビエンススイッチ(304)は、チャネル割り当てパラメータに従って、デコードされたコア信号をプレドミナントサウンド又はアンビエンスに割り当てる。
レンダリングマトリクス計算ユニット(305)は、プレドミナントサウンドパラメータと再生スピーカのレイアウトとからレンダリングマトリクスを計算する。本実施の形態では、詳細な導出は省略し、プレドミナントサウンドから導出されるレンダリングマトリクスはD’であると、仮定する。
プレドミナントサウンドレンダリング器(306)は、PSレンダリングマトリクスを用いて、デコードされたプレドミナントサウンドを再生信号に変換する。
Figure 2018196133
ただし、
ps(k)は、プレドミナントサウンドから導出された再生信号を示す。
ps(k)は、デコードされたプレドミナントサウンド信号を示す。
D’は、PSレンダリングマトリクスを示す。
レンダリングマトリクス計算ユニット(307)は、アンビエンスパラメータと再生スピーカのレイアウトとからレンダリングマトリクスを計算する。本実施の形態では、詳細な導出は省略し、アンビエントサウンドから導出されるレンダリングマトリクスはDAMBであると、仮定する。
アンビエントサウンドが、エンコーディング前に或る他のフォーマットに変換されるか他の方法で処理されたならば、レンダリング前に、信号を後処理して元のアンビエントサウンドを再構築するようにしてもよい。
アンビエンスレンダリング器(308)は、アンビエンスレンダリングマトリクスを用いて、デコードされたアンビエントサウンドを再生信号に変換する。
Figure 2018196133
ただし、
AMB(k)は、アンビエントサウンドから導出された再生信号を示す。
AMB(k)は、デコードされたアンビエントサウンド信号を示す。
AMBは、アンビエンスレンダリングマトリクスを示す。
アウトプット信号構成ユニットは、レンダリングされたプレドミナントサウンド及びアンビエントサウンドを用いて、再生信号を構成する。
Figure 2018196133
ただし、
AMB(k)は、アンビエントサウンドから導出された再生信号を示す。
ps(k)は、プレドミナントサウンドから導出された再生信号を示す。
W(k)は、最終的な再生信号を示す。
効果:この実施の形態では、プレドミナントサウンド信号が、たった一つのステップで所望のスピーカレイアウトに再構築されてレンダリングされるのであり、このことにより、効率性は改善され演算量は大きく削減される。
3.実施の形態3
本発明に係るサラウンドサウンドデコーダは、ビットストリームを空間パラメータ、及びコアパラメータに解凍するビットストリームデマルチプレクサと;コアパラメータをコア信号のセットにデコードするコアデコーダのセットと;空間パラメータと再生スピーカのレイアウトとからレンダリングマトリクスを導出するマトリクス導出ユニットと;前フレームと現フレームのデコードされたコア信号に関してウインドウイングを実行するウインドウイングユニットと;ウインドウされた前フレームのデコードされたコア信号及びウインドウされた現フレームのデコードされたコア信号を、導出された平滑化コア信号に合計する総和ユニットと;レンダリングマトリクスを用いて、平滑化コア信号を再生信号にレンダリングするレンダリング器と;を含む。
フレーム境界に亘る人工音を避けるために、オーディオ信号処理でウインドウイングを適用することが一般的である。
図4に示すように、ウインドウイングはデコードされたコア信号(404)に適用され、式(17)及び式(18)は以下のように修正される。
Figure 2018196133
ここで、
C’(k)は、完全再構築されたオーディオ信号を示す。
S’(k)は、現フレームに対するデコードされた信号を示す。
S’(k−1)は、前フレームに対するデコードされた信号を示す。
wincurは、現フレームに対するウインドウイング関数を示す。
winpreは、前フレームに対するウインドウイング関数を示す。
Mは、変換マトリクスを示す。
Figure 2018196133
ここで、
S’(k)は、現フレームに対するデコードされた信号を示す。
S’(k−1)は、前フレームに対するデコードされた信号を示す。
wincurは、現フレームに対するウインドウイング関数を示す。
winpreは、前フレームに対するウインドウイング関数を示す。
W(k)は、ラウドスピーカ信号を示す。
D’は、レンダリングマトリクスを示す。
効果:この実施の形態では、ウインドウイングは、フレーム境界に亘る人工音を回避するために適用される。
4.実施の形態4
本発明に係るサラウンドサウンドデコーダは、ビットストリームをプレドミナントサウンドパラメータ、アンビエンスパラメータ、チャネル割り当てパラメータ、及びコアパラメータに解凍するビットストリームデマルチプレクサと;コアパラメータをコア信号のセットにデコードするコアデコーダのセットと;チャネル割り当てパラメータに従って、デコードされたコア信号をプレドミナントサウンド及びアンビエンスに割り当てる、プレドミナントサウンドアンビエンススイッチと;プレドミナントサウンドパラメータと再生スピーカのレイアウトとからプレドミナントサウンドレンダリングマトリクスを導出するマトリクス導出ユニットと;アンビエンスパラメータと再生スピーカのレイアウトとからアンビエンスレンダリングマトリクスを導出するマトリクス導出ユニットと;前フレームと現フレームのプレドミナントサウンド信号に関してウインドウイングを実行するウインドウイングユニットと;レンダリングマトリクスを用いて、平滑化されたプレドミナントサウンドを再生信号にレンダリングするプレドミナントサウンドレンダリング器と;レンダリングされたプレドミナントサウンド及びアンビエンスサウンドを用いて、再生信号を構成するアウトプット信号構成ユニットと;を含む。
図5に示すように、フレーム境界に亘ってサウンドフィールドの連続且つ平坦な発生を保証するために、ウインドウイングがプレドミナントサウンドに適用される(506)。
ウインドウイングがプレドミナントサウンドに適用されるので、式(20)は以下のように修正される:
Figure 2018196133
ただし、
ps(k)は、プレドミナントサウンドから導出された再生信号を示す。
ps(k)は、現フレームに対するデコードされたプレドミナントサウンド信号を示す。
ps(k−1)は、前フレームに対するデコードされたプレドミナントサウンド信号を示す。
D’は、PSレンダリングマトリクスを示す。
効果:この実施の形態では、フレーム境界に亘ってサウンドフィールドの連続且つ平坦な発生を保証するために、ウインドウイングが適用される。
5.実施の形態5
図6Aに示すように、本発明に係るサラウンドサウンドデコーダは、ビットストリームを空間パラメータ、及びコアパラメータに解凍するビットストリームデマルチプレクサと;コアパラメータをコア信号のセットにデコードするコアデコーダ(601、602及び603)のセットと;空間パラメータと再生スピーカのレイアウトとから現状のフレームのデコードされた信号に対するレンダリングマトリクスを導出するマトリクス導出ユニット(604)と;レンダリングマトリクスを用いて、現状のフレームのデコードされたコア信号に関してウインドウイングとレンダリングを実行するウインドウイング及びレンダリングユニット(605)と;レンダリングマトリクスを用いて、前フレームのデコードされたコア信号に関してウインドウイングとレンダリングを実行するウインドウイング及びレンダリングユニット(606)と;前フレームの再生信号と現フレームの再生信号とを加えて最終的な再生信号を形成する加算ユニット(607)と;を含む。
フレーム境界に亘る人工音を避けるために、オーディオ信号処理でウインドウイングを適用することが一般的である。
実施の形態1において、前フレーム及び現フレームのデコードされたコア信号は異なる空間方向を有するので,ウインドウイングはデコードされたコア信号に適用され得ないとすると、ウインドウイングは再構築されたHOA係数に適用されなければならない。
すると式(18)は以下のように修正される:
Figure 2018196133
ただし、
S’(k)は、現フレームに対するデコードされた信号を示す。
S’(k−1)は、前フレームに対するデコードされた信号を示す。
S’’(k)は、現フレームに対するウインドウイングされた信号を示す。
S’’(k−1)は、前フレームに対するウインドウイングされた信号を示す。
wincurは、現フレームに対するウインドウイング関数を示す。
winpreは、前フレームに対するウインドウイング関数を示す。
W(k)は、ラウドスピーカ信号を示す。
D’curは、現フレームに対する新しいレンダリングマトリクスを示す。
D’preは、前フレームに対する新しいレンダリングマトリクスを示す。
C’(k)は、現フレームに対する、完全再構築されたオーディオ信号を示す。
C’(k−1)は、前フレームに対する、完全再構築されたオーディオ信号を示す。
Dは、レンダリングマトリクスを示す。
curは、現フレームに対する変換マトリクスを示す。
preは、前フレームに対する変換マトリクスを示す。
図6Aに示すように、ウインドウイングとレンダリングは、最初に、現フレームのデコードされたコア信号及び前フレームのデコードされたコア信号に関して、独立して(605及び606)為され、続いて前フレームのレンダリングされた信号と現フレームのレンダリングされた信号とが共に加えられて、最終的なアウトプットを形成する(607)。
前フレームのデコードされたコア信号に対するウインドウイング&レンダリングに対しては、前フレームのレンダリングマトリクスが利用可能であるならば/格納されているならば、前フレームの計算から拾い上げることが可能である。利用可能でないならば/格納されていないならば、レンダリングマトリクスは、(604)と同じやり方にしたがって計算され得るが、但し前フレームの空間パラメータ及びスピーカレイアウト情報を用いる。
別の方法を図6Bに示す。最初に、レンダリングが、現フレームのデコードされた信号(615)に関して為され、続いてウインドウイングが、前フレームのレンダリングされた信号及び現フレームのレンダリングされた信号に関して為され、最終的に、ウインドウイングされた前フレームのレンダリングされた信号と現フレームのレンダリングされた信号とが共に加えられて、最終的なアウトプットを形成する(616)。
効果:この実施の形態では、ウインドウイングは、フレーム境界に亘る人工音を避けるために適用される。
6.実施の形態6
図7Aに示すように、本発明に係るサラウンドサウンドデコーダは、ビットストリームをプレドミナントサウンドパラメータ、アンビエンスパラメータ、チャネル割り当てパラメータ、及びコアパラメータに解凍するビットストリームデマルチプレクサ(700)と;コアパラメータをコア信号のセットにデコードするコアデコーダ(701、702及び703)のセットと;チャネル割り当てパラメータに従って、デコードされたコア信号をプレドミナントサウンド及びアンビエンスに割り当てる、プレドミナントサウンドアンビエンススイッチ(704)と;プレドミナントサウンドパラメータと再生スピーカのレイアウトとから現フレームのプレドミナントサウンド信号に対するプレドミナントサウンドレンダリングマトリクスを導出するマトリクス導出ユニット(705)と;現フレームのプレドミナントサウンド信号に関してウインドウイングとレンダリングを実行するウインドウイング及びレンダリングユニット(706)と;前フレームのプレドミナントサウンド信号に関してウインドウイングとレンダリングを実行するウインドウイング及びレンダリングユニット(707)と;前フレームのレンダリングされたプレドミナントサウンドと現フレームのプレドミナントサウンドとを加えてレンダリングされたプレドミナントサウンドを形成する加算ユニット(708)と;アンビエンスパラメータと再生スピーカのレイアウトとからアンビエンスレンダリングマトリクスを導出するマトリクス導出ユニット(709)と;レンダリングマトリクスを用いて、アンビエンスを再生信号にレンダリングするアンビエンスレンダリング器(710)と;レンダリングされたプレドミナントサウンド及びアンビエントサウンドを用いて、再生信号を構成するアウトプット信号構成ユニット(711)と;を含む。
実施の形態2では、前フレーム及び現フレームのプレドミナントサウンド信号は異なる空間方向を有するので、デコードされたプレドミナントサウンド信号にウインドウイングを適用できないとすれば、再構築されたHOA係数にウインドウイングを適用しなければならない。
すると式(19)は以下のように修正される:
Figure 2018196133
ただし、
C’PS(k)は、現フレームに対するデコードされたプレドミナントサウンド信号を示す。
C’PS(k−1)は、前フレームに対するデコードされたプレドミナントサウンド信号を示す。
C’’PS(k)は、現フレームに対するウインドウイングされたプレドミナントサウンド信号を示す。
C’’PS(k−1)は、前フレームに対するウインドウイングされたプレドミナントサウンド信号を示す。
wincurは、現フレームに対するウインドウイング関数を示す。
winpreは、前フレームに対するウインドウイング関数を示す。
PS(k)は、プレドミナントサウンドからのラウドスピーカ信号を示す。
D’curは、現フレームに対する新しいレンダリングマトリクスを示す。
D’preは、前フレームに対する新しいレンダリングマトリクスを示す。
C’(k)は、現フレームに対する、再構築されたオーディオ信号を示す。
C’(k−1)は、前フレームに対する、再構築されたオーディオ信号を示す。
Dは、レンダリングマトリクスを示す。
curは、現フレームに対する変換マトリクスを示す。
preは、前フレームに対する変換マトリクスを示す。
図7Aに示すように、ウインドウイングとレンダリングは、最初に、現フレームのデコードされたプレドミナントサウンド信号及び前フレームのデコードされたプレドミナントサウンド信号に関して、独立して(706及び707)為され、続いて前フレームのレンダリングされた信号と現フレームのレンダリングされた信号とが共に加えられて、最終的なプレドミナントサウンドのアウトプットを形成する(708)。
前フレームのプレドミナントサウンドに対するウインドウイング&レンダリングに対しては、前フレームのPSマトリクスが利用可能であるならば/格納されているならば、前フレームの計算から拾い上げることが可能である。利用可能でないならば/格納されていないならば、PSレンダリングマトリクスは、(705)と同じやり方にしたがって計算され得るが、但し従前の前フレームの空間パラメータ及びスピーカレイアウト情報を用いる。
別の方法を図7Bに示す。最初に、レンダリングが、現フレームのデコードされたプレドミナントのサウンド信号(716)に関して為され、続いてウインドウイングが、前フレームのレンダリングされた信号及び現フレームのレンダリングされた信号に関して為され、最終的に、ウインドウイングされた前フレームのレンダリングされた信号と現フレームのレンダリングされた信号とが共に加えられて、最終的なプレドミナントサウンドのアウトプットを形成する(717)。
効果:この実施の形態では、フレーム境界に亘ってサウンドフィールドの連続且つ平坦な発生を保証するために、ウインドウイングが適用される。
7.実施の形態7
本発明に係るサラウンドサウンドデコーダは、ビットストリームをレンダリングフラグ、プレドミナントサウンドパラメータ、アンビエンスパラメータ、チャネル割り当てパラメータ、及びコアパラメータに解凍するビットストリームデマルチプレクサと;コアパラメータをコア信号のセットにデコードするコアデコーダのセットと;チャネル割り当てパラメータに従って、デコードされたコア信号をプレドミナントサウンド及びアンビエンスに割り当てる、プレドミナントサウンドアンビエンススイッチと;レンダリングフラグにより特定される計算方法を利用してプレドミナントサウンドパラメータと再生スピーカのレイアウトとからプレドミナントサウンドレンダリングマトリクスを導出するマトリクス導出ユニットと;アンビエンスパラメータと再生スピーカのレイアウトとからアンビエンスレンダリングマトリクスを導出するマトリクス導出ユニットと;レンダリングマトリクスを用いて、プレドミナントサウンドを再生信号にレンダリングするプレドミナントサウンドレンダリング器と;レンダリングマトリクスを用いて、アンビエンスを再生信号にレンダリングするアンビエンスレンダリング器と;レンダリングされたプレドミナントサウンド及びアンビエントサウンドを用いて、再生信号を構成するアウトプット信号構成ユニットと;を含む。
この実施の形態では、ビットストリームに、発明されたアイデアの実装を実用的でなくする何らかの他のデータがビットストリーム内に存在するかどうかを示すレンダリングフラグがある。
図8は、例として一つのビットストリームを示す。
ビットストリームに、PSパラメータデータ、アンビエンスパラメータデータ、チャネル割り当てパラメータデータ、及びコアコーダデータのみが在るとき、低演算量の構成及びレンダリングを達成するために発明されたアイデアを使用することが推奨され、従って、レンダリングフラグLC_RENDER_FLAGが1にセットされる。
ビットストリームに、予測データ及び近距離補償データが在るとき、発明されたアイデアを使用することが実用的ではなくなり、従来のデコード化、構成及びレンダリングのツールを使用することが推奨され、従って、レンダリングフラグLC_RENDER_FLAGが0にセットされる。
図9は、この実施の形態の前述のデコーダを示す。
ビットストリームデマルチプレクサ(901)は、ビットストリームをLC_RENDER_FLAG及び他のパラメータに解凍する。
LC_RENDER_FLAGが1に等しいならば、本発明のデコーダ(902)は、低演算量の解法を完成するために、デコード化、構成及びレンダリングを実行するように選択される。
LC_RENDER_FLAGが0に等しいならば、従来のデコーダ(903)は、デコード化、構成及びレンダリングを実行するように選択される。
効果:この実施の形態では、ビットストリームの非互換性の課題が解決される。
8.実施の形態8
この実施の形態では、エンコーダは、インプット信号を分析してインプット信号を空間パラメータ及びN生成信号にエンコードする空間エンコーダと;N生成信号をコアパラメータのセットにエンコードするコアエンコーダのセットと;空間パラメータ及びコアパラメータをビットストリームにパックするビットストリームマルチプレクサと;を含む。
本発明に係るサラウンドサウンドデコーダは、ビットストリームを空間パラメータ、及びコアパラメータに解凍するビットストリームデマルチプレクサと;コアパラメータをコア信号のセットにデコードするコアデコーダのセットと;空間パラメータと再生スピーカのレイアウトとからレンダリングマトリクスを導出するマトリクス導出ユニットと;レンダリングマトリクスを用いて、デコードされたコア信号を再生信号にレンダリングするレンダリング器と:を含む。
図10は、この実施の形態の前述のエンコーダ及びデコーダを示す。
空間エンコーダ(1001)は、インプット信号を分析し、インプット信号を空間パラメータ及びN生成信号にエンコードする。
空間エンコーディングは、オーディオシーンの分析に基づいて、インプットオーディオシーン内にてどれだけ多くのサウンドソース若しくはオーディオオブジェクトが在るか決定し、サウンドソース若しくはオーディオオブジェクトをどのように抽出してエンコードするか判別し得る。例として、サウンドソース若しくはオーディオオブジェクトを抽出するのに主成分解析(PCA)が用いられNサウンドソースが抽出されてエンコードされるようにしても良い。このプロセスの間に、PCAパラメータ及びNオーディオ信号が導出される。PCAパラメータ及びN生成オーディオ信号がエンコードされてデコーダ側に送られる。
生成信号は、以下の式に従って導出され得る。
Figure 2018196133
ここで、
C(k)は、インプットオーディオ信号を示す。
S(k)は、生成されたオーディオ信号を示す。
Mは、変換マトリクスを示す。
コアエンコーダのセット(1002、1003、1004)は、N生成信号をコアパラメータのセットにエンコードするが、エンコーダは、MPEG−1 Audio Layer IIIやAACやHE−AACやDolby AC−3やMPEG USACスタンダードなどの、任意の現存の若しくは新しいコーデックであればよい。
ビットストリームマルチプレクサ(1005)は、空間パラメータ及びコアパラメータをビットストリームにパックする。
対応するデコーダは、図2に示すデコーダであってもよい。
9.実施の形態9
本発明の実施の形態9では、エンコーダは、インプット信号を分析して、インプット信号を、複数のプレドミナントサウンド及び複数のアンビエンスサウンドに、更に、対応するプレドミナントサウンドパラメータ及びアンビエンスパラメータに、エンコードする、オーディオシーン分析及び空間エンコーダと;コアデコーダを割り当ててプレドミナントサウンド及びアンビエンスサウンドをエンコードするチャネル割り当てユニットと;プレドミナントサウンドとアンビエンスサウンドとの両方をコアパラメータのセットにエンコードすることを含む、Nチャネルオーディオ信号をエンコードするコアエンコーダのセットと;プレドミナントサウンドパラメータ、アンビエンスパラメータ、チャネル割り当て情報、及びコアパラメータをビットストリームにパックするビットストリームマルチプレクサと;を含む。
本発明に係るサラウンドサウンドデコーダは、ビットストリームをプレドミナントサウンドパラメータ、アンビエンスパラメータ、チャネル割り当てパラメータ、及びコアパラメータに解凍するビットストリームデマルチプレクサと;コアパラメータをコア信号のセットにデコードするコアデコーダのセットと;デコードされたコア信号をプレドミナントサウンド及びアンビエンスに割り当てる、プレドミナントサウンドアンビエンススイッチと;プレドミナントサウンドパラメータと再生スピーカのレイアウトとからプレドミナントサウンドのレンダリングマトリクスを導出するマトリクス導出ユニットと;アンビエンスパラメータと再生スピーカのレイアウトとからアンビエンスレンダリングマトリクスを導出するマトリクス導出ユニットと;レンダリングマトリクスを用いて、プレドミナントサウンドを再生信号にレンダリングするプレドミナントサウンドレンダリング器と;レンダリングマトリクスを用いて、アンビエンスを再生信号にレンダリングするアンビエンスレンダリング器と;レンダリングされたプレドミナントサウンド及びアンビエンスサウンドを用いて、再生信号を構成するアウトプット信号構成ユニットと;を含む。
図11は、第2の実施の形態の、前述のエンコーダを示す。
エンコーダは、インプット信号を分析して、インプット信号を複数のプレドミナントサウンド及び複数のアンビエンスサウンドに、更に、対応するプレドミナントサウンドパラメータ及びアンビエンスパラメータに、エンコードする、オーディオシーン分析及び空間エンコーダと;コアデコーダを割り当ててプレドミナントサウンド及びアンビエンスサウンドをエンコードするチャネル割り当てユニットと;プレドミナントサウンドとアンビエンスサウンドとの両方をコアパラメータのセットにエンコードすることを含む、Nチャネルオーディオ信号をエンコードするコアエンコーダのセットと;プレドミナントサウンドパラメータ、アンビエンスパラメータ、チャネル割り当て情報、及びコアパラメータをビットストリームにパックするビットストリームマルチプレクサと;を含む。
オーディオシーン分析及び空間エンコーダ(1101)は、インプット信号を分析して、インプット信号を複数のプレドミナントサウンド及び複数のアンビエンスサウンドに、更に、対応するプレドミナントサウンドパラメータ及びアンビエンスパラメータに、エンコードする。
オーディオシーン分析及び空間エンコーディングは、オーディオシーンの分析を行い、インプットオーディオシーン内にてどれだけ多くのサウンドソース若しくはオーディオオブジェクトが在るか決定し、サウンドソース若しくはオーディオオブジェクトをどのように抽出してエンコードするか判別する。例として、サウンドソース若しくはオーディオオブジェクトを抽出するのに主成分解析(PCA)が用いられMサウンドソースが抽出されてエンコードされるようにしても良い。このプロセスの間に、PCAパラメータ及びMプレドミナントのサウンド信号が導出される。PCAパラメータ及びMプレドミナントのオーディオ信号がエンコードされてデコーダ側に送られる。
生成信号は、以下の式に従って導出され得る。
Figure 2018196133
ここで、
C(k)は、インプットオーディオ信号を示す。
PS(k)は、生成されたオーディオ信号を示す。
Mは、変換マトリクスを示す。
オーディオシーン分析及び空間エンコーダは、アンビエント信号と名付け得る、インプット信号とプレドミナントサウンド信号からの合成信号との間の残余を、抽出しエンコードするようにしても良い。空間エンコードは、インプット信号とプレドミナントサウンド信号からの合成信号との間の差分から、アンビエント信号を抽出する。プレドミナントサウンドの合成は、以下の式に従って為され得る。
Figure 2018196133
ここで、
C’(k)は、プレドミナントサウンドから、再構築されるオーディオ信号を示す。
PS(k)は、デコードされたプレドミナントサウンド信号を示す。
Mは、変換マトリクスを示す。
アンビエント信号は、以下の式に従って導出され得る。
Figure 2018196133
ここで、
C’(k)は、プレドミナントサウンドから、再構築されるオーディオ信号を示す。
C(k)は、インプットオーディオ信号を示す。
AMB(k)は、アンビエンス信号を示す。
全てのアンビエント信号のうち、アンビエント信号のどれがエンコードされるべきかが決定された。アンビエント信号は、より効率的にエンコードされ得るように、他のフォーマットに処理されても若しくは変換されてもよい。
チャネル割り当てユニット(1101)は、コアエンコーダを割り当ててプレドミナントサウンド及びアンビエンスサウンドをエンコードする。送信されるアンビエントHOA係数のシーケンスの選択、それらの割り当て、及び、所与のNチャネルへのプレドミナントサウンド信号の割り当てについての情報は、デコーダ側に送られる。
コアエンコーダのセット(1102、1103、1104)は、Mプレドミナントサウンド信号及び(N−M)アンビエント信号をコアパラメータのセットにエンコードするが、エンコーダは、MPEG−1 Audio Layer IIIやAACやHE−AACやDolby AC−3やMPEG USACスタンダードなどの、任意の現存の若しくは新しいコーデックであればよい。
ビットストリームマルチプレクサ(1105)は、プレドミナントサウンドパラメータ、アンビエンスパラメータ、チャネル割り当て情報、及びコアパラメータをビットストリームにパックする。
対応するデコーダは、図3に示すデコーダであってもよい。
10.実施の形態10
図12は、この実施の形態の、前述のエンコーダを示す。
オーディオシーン分析及び空間エンコーダ(1201)は、インプット信号を分析してインプット信号をエンコードする。
オーディオシーン分析及び空間エンコーディングは、オーディオシーンの分析を行い、生成されたパラメータが発明されたアイデアと互換性があるか判別し、LC_RENDER_FLAGを送信することにより前記判別を反映する。
PSパラメータデータ、アンビエンスパラメータデータ、チャネル割り当てのパラメータデータ、及びコアコーダデータなどの、全ての生成されたパラメータが、発明されたアイデアと互換性があるならば、低演算量の構成及びレンダリングを達成するために、発明されたアイデアをデコーダ側内で使用することが推奨され、従って、レンダリングフラグLC_RENDER_FLAGが1にセットされる。
全ての生成されたパラメータが、発明されたアイデアと互換性があるというわけではないならば、発明されたアイデアを使用することが実用的ではなく、従来のデコーディング、構成及びレンダリングのツールをデコーダ側内で使用することが推奨され、従って、レンダリングフラグLC_RENDER_FLAGが0にセットされる。
効果:この実施の形態では、ビットストリーム非互換性の課題が解決される。
参考文献
[1]ISO/IEC JTC1/SC29/WG11/N13411 “Call for Proposals for 3D Audio”
[2]ISO/IEC JTC1/SC29/WG11/N14264 “WD1−HOA Text of MPEG−H 3D Audio”
[3]V. Pulkki, ”Virtual Sound Source Positioning Using Vector Base Amplitude Panning,” J. Audio Eng. Soc., vol. 45, 1997
[4]T. Lossius, P. Baltazar, and T. d. l. Hogue, ”DBAP - Distancebased amplitude panning,” in International Computer Music Conference (ICMC). Montreal, 2009.

Claims (6)

  1. サラウンドオーディオ信号をデコードする装置であって、
    プレドミナントサウンドパラメータ、アンビエンスパラメータ、チャネル割り当てパラメータ、コアパラメータ、及びレンダリングフラグをインプットするインプットユニットと、前記レンダリングフラグは、発明されたアイデアの実装を実用的でなくする何らかの他のデータがビットストリーム内に存在するかどうかを示し、
    コアパラメータをコア信号のセットにデコードするコアデコーダのセットと、
    チャネル割り当てパラメータに従って、デコードされたコア信号をプレドミナントサウンド及びアンビエンスに割り当てる、プレドミナントサウンドアンビエンススイッチと、
    プレドミナントサウンドパラメータと再生スピーカのレイアウト情報を用いてプレドミナントサウンドレンダリングマトリクスを導出するマトリクス導出ユニットと、
    アンビエンスパラメータと再生スピーカのレイアウト情報を用いてアンビエンスレンダリングマトリクスを導出するマトリクス導出ユニットと、
    プレドミナントサウンドレンダリングマトリクスを用いて、プレドミナントサウンドを再生信号にレンダリングするプレドミナントサウンドレンダリング器と、
    アンビエンスレンダリングマトリクスを用いて、アンビエンスを再生信号にレンダリングするアンビエンスレンダリング器と、
    レンダリングされたプレドミナントサウンド及びレンダリングされたアンビエントサウンドを用いて、再生信号を構成するアウトプット信号構成ユニットと;
    を含む、装置。
  2. 前記コアデコーダは、MPEG−1 Audio Layer III、AAC、HE−AAC、Dolby AC−3、若しくはMPEG USAC標準に対応する、請求項1に記載の装置。
  3. 前記サラウンドオーディオ信号は、高次のアンビソニック信号である、請求項1に記載の装置。
  4. 前記空間パラメータは、主成分解析(PCA)、特異値分解(SVD)、QRデコンポジション、若しくはカルフネン−ロエベ(Karhunen−Loeve)変換(KLT)のパラメータを含む、請求項1に記載の装置。
  5. 前記マトリクス導出は、ターゲットスピーカの数、スピーカの位置、球面モデリングの位置(水平及び仰角)、HOAオーダ、及び、HOAデコンポジションパラメータから成るパラメータ群の、一部または全てを用いて、為される、請求項1に記載の装置。
  6. サラウンドオーディオ信号をエンコードする装置であって、
    インプット信号のオーディオシーン分析結果に基づいて、インプット信号を、複数のプレドミナントサウンドと対応するプレドミナントサウンドパラメータ、及び複数のアンビエンスサウンドと対応するアンビエンスパラメータに、エンコードする、空間エンコーダと、
    コアデコーダを割り当ててプレドミナントのサウンド及びアンビエンスサウンドをエンコードするチャネル割り当てユニットと、
    デコーダ側内で用いられるレンダリングフラグを決定するレンダリングフラグ決定ユニットと、前記レンダリングフラグは、発明されたアイデアの実装を実用的でなくする何らかの他のデータがビットストリーム内に存在するかどうかを示し、
    プレドミナントサウンドとアンビエンスサウンドとの両方をコアパラメータのセットにエンコードすることを含む、生成されたオーディオ信号をエンコードするコアエンコーダのセットと、レンダリングフラグ、プレドミナントサウンドパラメータ、アンビエンスパラメータ、チャネル割り当て情報、及びコアパラメータをアウトプットするアウトプットユニットと、
    を含む、装置。
JP2018136700A 2018-07-20 2018-07-20 サラウンドオーディオ信号処理のための装置及び方法 Active JP6652990B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018136700A JP6652990B2 (ja) 2018-07-20 2018-07-20 サラウンドオーディオ信号処理のための装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018136700A JP6652990B2 (ja) 2018-07-20 2018-07-20 サラウンドオーディオ信号処理のための装置及び方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016558831A Division JP6374980B2 (ja) 2014-03-26 2014-03-26 サラウンドオーディオ信号処理のための装置及び方法

Publications (2)

Publication Number Publication Date
JP2018196133A true JP2018196133A (ja) 2018-12-06
JP6652990B2 JP6652990B2 (ja) 2020-02-26

Family

ID=64570727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018136700A Active JP6652990B2 (ja) 2018-07-20 2018-07-20 サラウンドオーディオ信号処理のための装置及び方法

Country Status (1)

Country Link
JP (1) JP6652990B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010013450A1 (ja) * 2008-07-29 2010-02-04 パナソニック株式会社 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
JP2010507114A (ja) * 2006-10-16 2010-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
JP2010515099A (ja) * 2006-12-27 2010-05-06 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 情報ビットストリーム変換を含む多様なチャネルで構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法
JP2013541275A (ja) * 2010-09-08 2013-11-07 ディーティーエス・インコーポレイテッド 拡散音の空間的オーディオの符号化及び再生
WO2013171083A1 (en) * 2012-05-14 2013-11-21 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics signal representation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010507114A (ja) * 2006-10-16 2010-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
JP2010515099A (ja) * 2006-12-27 2010-05-06 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 情報ビットストリーム変換を含む多様なチャネルで構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法
WO2010013450A1 (ja) * 2008-07-29 2010-02-04 パナソニック株式会社 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
JP2013541275A (ja) * 2010-09-08 2013-11-07 ディーティーエス・インコーポレイテッド 拡散音の空間的オーディオの符号化及び再生
WO2013171083A1 (en) * 2012-05-14 2013-11-21 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics signal representation

Also Published As

Publication number Publication date
JP6652990B2 (ja) 2020-02-26

Similar Documents

Publication Publication Date Title
JP6374980B2 (ja) サラウンドオーディオ信号処理のための装置及び方法
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
EP3444815B1 (en) Multiplet-based matrix mixing for high-channel count multichannel audio
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
JP5520300B2 (ja) マイクロホン信号に基づいて一組の空間手がかりを供給する装置、方法およびコンピュータ・プログラムと2チャンネルのオーディオ信号および一組の空間手がかりを供給する装置
JP5081838B2 (ja) オーディオ符号化及び復号
TWI441164B (zh) 音訊信號解碼器、用以將音訊信號解碼之方法、以及運用級聯音訊物件處理級之電腦程式
EP2000001B1 (en) Method and arrangement for a decoder for multi-channel surround sound
CN109166587B (zh) 处理信道信号的编码/解码装置及方法
EP2976769B1 (en) Method and apparatus for enhancing directivity of a 1st order ambisonics signal
CN112492501B (zh) 使用呈现变换参数的音频编码和解码
EP3569000B1 (en) Dynamic equalization for cross-talk cancellation
KR20220044973A (ko) 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
US20240119949A1 (en) Encoding/decoding apparatus for processing channel signal and method therefor
JP6686015B2 (ja) オーディオ信号のパラメトリック混合
CN112823534B (zh) 信号处理设备和方法以及程序
JP6652990B2 (ja) サラウンドオーディオ信号処理のための装置及び方法
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200124

R150 Certificate of patent or registration of utility model

Ref document number: 6652990

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150