JP6279569B2

JP6279569B2 - マルチチャンネルオーディオ信号のレンダリングを改善する方法及び装置

Info

Publication number: JP6279569B2
Application number: JP2015522115A
Authority: JP
Inventors: ウーボルト，オリヴァー; ベーム，ヨーハネス; ジャックス，ピーター
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2012-07-19
Filing date: 2013-07-19
Publication date: 2018-02-14
Anticipated expiration: 2033-07-19
Also published as: CN104471641B; KR102131810B1; KR20220113842A; KR20230137492A; US20240127831A1; JP2015527610A; KR20200084918A; US20220020382A1; US11798568B2; KR20150032718A; KR20210006011A; US9984694B2; KR102429953B1; CN104471641A; US11081117B2; KR102581878B1; TWI590234B; US9589571B2; US10460737B2; US20180247656A1

Description

本発明は、オーディオ圧縮の技術分野に属し、具体的には、マルチチャンネルオーディオ信号及び音場指向（ｓｏｕｎｄ−ｆｉｅｌｄｏｒｉｅｎｔｅｄ）オーディオシーン（例えば、ＨｉｇｈｅｒＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ（ＨＯＡ））の圧縮に属する。

現在、マルチチャンネルオーディオ信号の圧縮方式は、入力録音資料（ａｕｄｉｏｍａｔｅｒｉａｌ）がどのように生成されたりミックスされたりしたか、明示的には考慮していない。既知のオーディオ圧縮技術では、圧縮するコンテンツの音源やミキシングタイプを考慮していない。既知のアプローチでは、「ブラインド（ｂｌｉｎｄ）」信号変換を行い、それによりマルチチャンネル信号をその信号成分に分解し、それを量子化及び符号化する。このようなアプローチの欠点は、上記の信号分解の計算が多く、オーディオシーンの一シーンに対し、最適かつ最高効率の信号分解を見いだすことは困難であり間違いやすい。

本発明は、マルチチャンネルオーディオレンダリングを改善する方法と装置とに関する。

上記の少なくとも幾つかの欠点は、シーン合成の特性に関する事前情報が無いことによることが分かっている。特に、空間的オーディオコンテンツ、例えばマルチチャンネルオーディオまたはＨｉｇｈｅｒ−ＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ（ＨＯＡ）コンテンツの場合、圧縮方式を適合させるために、この事前情報は有用である。例えば、圧縮アルゴリズムにおける共通の前処理は、オーディオシーン分析であり、これはオリジナルコンテンツやオリジナルコンテンツミックスから有向音源やオーディオオブジェクトを抽出することを目的としている。このような有向音源またはオーディオオブジェクトは、残差空間的オーディオコンテンツとは別に符号化できる。

一実施形態において、前処理されたオーディオデータをエンコードする方法は、前処理されたオーディオデータをエンコードするステップと、オーディオ前処理を示す補助データをエンコードするステップとを有する。

一実施形態において、本発明は、エンコードされたオーディオデータをデコードする方法に関し、該方法は、エンコードされたオーディオデータがエンコード前に前処理されていると判断するステップと、前記オーディオデータをデコードするステップと、受信したデータから前処理に関する情報を抽出するステップと、抽出された前処理情報に応じて、デコードされたオーディオデータを後処理するステップとを有する。エンコードされたオーディオデータがエンコード前に前処理されていると判断するステップは、オーディオデータを分析するステップ、または付属するメタデータを分析するステップにより実現できる。

本発明の一実施形態において、前処理されたオーディオデータをエンコードするエンコーダは、前処理されたオーディオデータをエンコードする第１のエンコーダと、オーディオ前処理を示す補助データをエンコードする第２のエンコーダとを有する。

本発明の一実施形態において、エンコードされたオーディオデータをデコードするデコーダは、エンコードされたオーディオデータがエンコード前に前処理されていると判断するアナライザと、前記オーディオデータをデコードする第１のデコーダと、受信データから、前処理に関する情報を抽出するデータストリームパーサユニットまたはデータストリーム抽出ユニットと、抽出された前処理情報に応じて、デコードされたオーディオデータを後処理するステップとを有する。

本発明の一実施形態において、コンピュータ読み取り可能媒体は、コンピュータに、上記の方法のうちの少なくとも一つによる方法を実行させる実行可能命令を記憶している。

本発明の一般的アイデアは、マルチチャンネルオーディオ圧縮システムの次の拡張のうちの少なくとも一つに基づく：
一実施形態では、マルチチャンネルオーディオ圧縮及び／またはレンダリングシステムは、マルチチャンネルオーディオ信号ストリーム（例えば、ＰＣＭストリーム）と、チャンネルまたは対応スピーカの関連する空間的位置と、マルチチャンネルオーディオ信号ストリームに適用されたミキシングのタイプを示すメタデータとを含むインタフェースを有する。ミキシングタイプは、例えば、ＨＯＡまたはＶＢＡＰパンニング（ｐａｎｎｉｎｇ）の（以前の）利用または構成及び／または任意の詳細、具体的な録音手法、または同等の情報を示す。インタフェースは信号送信チェーンへの入力インタフェースであり得る。ＨＯＡコンテンツの場合、スピーカの空間的位置は、仮想的スピーカの位置であってもよい。

一実施形態では、マルチチャンネル圧縮コーデックのビットストリームは、仮想的または実際のスピーカ位置に関する上記のメタデータとオリジナルのミキシング情報とをデコーダとその後のレンダリングアルゴリズムに送信するためのシグナリング情報を含む。それにより、デコーディング側において適用されるレンダリング手法を、送信されたコンテンツのエンコーディング側における具体的なミキシング特性に適合できる。

一実施形態において、メタデータの利用は任意的であって、オンとオフを切り替えることができる。すなわち、オーディオコンテンツは、メタデータを使わない単純モードでデコード及びレンダリングできるが、単純モードではデコーディング及び／またはレンダリングは最適化されない。強化モードにおいては、メタデータを用いることにより、最適化されたデコーディング及び／またはレンダリングを実現できる。この実施形態では、デコーダ／レンダラーは２つのモードの間で切り替えられる。

添付した図面を参照して、本発明の有利な実施形態例を説明する。
既知のマルチチャンネル伝送システムの構成を示す図である。本発明の一実施形態による、マルチチャンネル伝送システムの構成を示す図である。本発明の一態様によるスマートデコーダを示す図である。ＨＯＡ信号のマルチチャンネル伝送システムの構成を示す図である。ＤＳＨＴの空間サンプリングポイントを示す図である。エンコーダとデコーダの組み立てブロックで用いられるコードブックの球面サンプリング位置の例を示す図である。改善されたマルチチャンネルオーディオエンコーダの一実施形態を示す図である。

図１は、マルチチャンネルオーディオ符号化の既知のアプローチを示す図である。オーディオプロダクション段階１０からのオーディオデータは、マルチチャンネルオーディオエンコーダ２０でエンコードされ、伝送され、マルチチャンネルオーディオデコーダ３０でデコードされる。メタデータが明示的に伝送され（またはその情報が黙示的に含められ）、空間的オーディオ成分に関係する。このような従来のメタデータは、スピーカの空間的位置に関する情報に限定され、例えばあるフォーマット（例えば、ステレオや「５．１サラウンドサウンド」としても知られるＩＴＵ−ＲＢＳ．７７５−１）の形式のもの、またはスピーカ位置を示すテーブルによるものに限定されている。空間的オーディオミックス／レコーディングがどのように生成されたかに関する情報は、マルチチャンネルオーディオエンコーダ２０には送信されず、そのためこのような情報をマルチチャンネルオーディオエンコーダ２０において信号の圧縮に利用することはできない。

しかし、マルチチャンネル空間的オーディオ符号化器が、Ｈｉｇｈｅｒ−ＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ（ＨＯＡ）フォーマットから得られたコンテンツと、固定マイクロホンセットアップでのレコーディングと、任意のパンニングアルゴリズム（ｐａｎｎｉｎｇａｌｇｏｒｉｔｈｍｓ）でのマルチチャンネルミックスとのうち少なくとも一つを処理する場合、これらの場合には圧縮方式によりミキシングの特徴が利用できるので、コンテンツの音源やミキシングタイプのうち少なくとも一方についての知識は、特に重要であることが分かっている。また、オリジナルのマルチチャンネルオーディオコンテンツは、付加的なミキシング情報の表示（ｉｎｄｉｃａｔｉｏｎ）の恩恵を受け得る。エンコーディング効率をよくするために、用いるパンニング方法（例えば、Ｖｅｃｔｏｒ−ＢａｓｅｄＡｍｐｌｉｔｕｄｅＰａｎｎｉｎｇ（ＶＢＡＰ）やその詳細など）を示すことは有利である。有利にも、オーディオシーン分析及びその後のエンコーディングステップの信号モデルをこの情報に基づいて適応させることができる。これにより、圧縮システムが、レート歪み性能及び計算量の点でより効率的になる。

具体的にＨＯＡコンテンツの場合には、球面調和関数が複素数値であるか実数値であるか、規格化方式に複数の異なるものがある等、多くの異なる協定があるという問題がある。生成方式が異なるＨＯＡ間の非互換性を避けるため、共通フォーマットを規定することが有用である。これは、ＤｉｓｃｒｅｔｅＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓＴｒａｎｓｆｏｒｍ（ＤＳＨＴ）などの変換を用いて、ＨＯＡ時間領域係数のその等価空間表現（これはマルチチャンネル表現である）への変換を介して、実現できる。ＤＳＨＴが、空間サンプリング位置（これは仮想的スピーカ位置と等価であると考え得る）の規則的な球状分布から生成される。ＤＳＨＴに関する定義と詳細は後で説明する。ＨＯＡの他の定義を用いた任意のシステムは、空間領域で確定されたこの共通フォーマットから、自分自信のＨＯＡ係数表現を導き出すことができる。後でより詳しく説明するように、上記共通フォーマットの信号の圧縮は、仮想スピーカ信号がオリジナルのＨＯＡ信号を表すという事前の知識から大きな利益を受ける。

さらに、このミキシング情報等はデコーダやレンダラーにも有用である。一実施形態では、ミキシング情報等はビットストリームに含まれる。用いられるレンダリングアルゴリズムを、ＨＯＡやＶＢＡＰなどのオリジナルミキシングに適応させて、柔軟なスピーカ位置に対するダウンミックスやレンダリングをよくすることができる。

図２は、本発明の一実施形態によるマルチチャンネルオーディオ伝送システムの拡張を示す。この拡張は、オーディオコンテンツのプロダクション段階１０に適用されたミキシングタイプ、録音タイプ、編集タイプ、合成タイプなどのうち少なくとも一つを記述するメタデータを付加することにより実現される。この情報は、デコーダ出力まで存続（ｃａｒｒｉｅｄｔｈｒｏｕｇｈ）し、効率を上げるためにマルチチャンネル圧縮コーデック４０、５０内で用いられる。空間的オーディオミックス／レコーディングがどのように生成されたかに関する情報は、マルチチャンネルオーディオエンコーダ４０には送信され、そのため信号の圧縮に利用することができる。

このメタデータ情報をどのように使えるかに関する一例として、入力資料のミキシングタイプに応じて、マルチチャンネルコーデックにより、異なる符号化モードを起動できる。例えば、一実施形態では、エンコーダ入力においてＨＯＡミキシングが指示（ｉｎｄｉｃａｔｅ）されているとき、（式（３）ないし（１６）を参照して）後で説明するように、符号化モードをＨＯＡ用エンコーディング／デコーディング原理（ＨＯＡモード）に切り替え、一方入力信号のミキシングタイプがＨＯＡではない、または未知のものであるときには、異なる（例えば、従来の）マルチチャンネル符号化技術を用いる。ＨＯＡモードでは、エンコーディングは、一実施形態では、ＤＳＨＴブロックから始まり、ＤＳＨＴがオリジナルのＨＯＡ係数を回復し、その後にＨＯＡ用エンコーディングプロセスが始まる。他の一実施形態では、比較のため、ＤＳＨＴとは異なる離散変換を用いる。

図３は、本発明の一実施形態による「スマート」レンダリングシステムを示す。これは、デコーダ端末にあるＭ台のスピーカに対して、デコードされたＮチャンネルの柔軟なダウンミックス、アップミックス、またはリミックスをするために、本発明のメタデータを用いる。ミキシング、録音などのタイプに関するメタデータは、効率的かつ高品質なレンダリングを実現するように、複数のモードのうちの一つを選択するのに利用できる。マルチチャンネルエンコーダ５０は、入力オーディオデータにおけるミックスタイプに関するメタデータに応じて、最適なエンコーディングを行い、エンコードされたＮオーディオチャンネルとスピーカ位置に関する情報だけでなく、例えば「ミックスタイプ（ｔｙｐｅｏｆｍｉｘ）」情報も、デコーダ６０にエンコード／提供する。（受信側において）デコーダ６０は、Ｍオーディオチャンネルのための出力信号を生成するため、受信側で利用できるスピーカの実際のスピーカ位置（これは送信側（すなわち、エンコーダ）には未知である）を用いる。一実施形態では、ＮはＭとは異なる。一実施形態では、ＮはＭと等しいか、またはＭと異なるが、受信側における実際のスピーカ位置は、エンコーダ５０及びオーディオプロダクション１０において仮定されたスピーカ位置とは異なる。エンコーダ５０またはオーディオプロダクション１０は、例えば、標準的なスピーカ位置を仮定しているかも知れない。

図４は、ＨＯＡコンテンツの効率的な伝送に本発明をどのように使えるかを示す。入力ＨＯＡ係数を、逆ＤＳＨＴ（ｉＤＳＨＴ）４１０を介して、空間領域に変換する。結果として得られたＮオーディオチャンネル、その（仮想的）空間位置、及びインジケーション（ｉｎｄｉｃａｔｉｏｎ）（例えば、「ＨＯＡｍｉｘｅｄ」フラグなどのフラグ）が、圧縮エンコーダであるマルチチャンネルオーディオエンコーダ４２０に提供される。圧縮エンコーダは、その入力信号がＨＯＡにより得られたもの（ＨＯＡ−ｄｅｒｉｖｅｄ）であるとの事前情報を利用できる。オーディオエンコーダ４２０と、オーディオデコーダ４３０またはオーディオレンダラーとの間のインタフェースは、Ｎ個のオーディオチャンネルとその（仮想的）空間位置と上記のインジケーションを含む。デコーディング側において逆プロセスを行う。すなわち、デコーディング４３０の後に、コンテンツをエンコードする前に適用された関連動作の情報を用いるＯＳＨＴ４４０を適用することにより、ＨＯＡ表現を回復できる。この情報（ｋｎｏｗｌｅｄｇｅ）は、インタフェースを通して、本発明によるメタデータの形式で受信される。

この発明の範囲内にある幾つかの種類の（しかし必ずしもすべてではない）メタデータは、例えば、少なくとも次のもののうちの一つである：
−オリジナルコンテンツがＨＯＡコンテンツから求められたことのインジケーション、及び少なくとも次のものの一つ：
・ＨＯＡ表現の次数（ｏｒｄｅｒ）；
・２Ｄ、３Ｄまたは半球形表現のインジケーション；及び
・空間サンプリングポイントの位置（適応的または固定）
−オリジナルコンテンツがＶＢＡＰを用いて合成的にミックスされた（ｍｉｘｅｄｓｙｎｔｈｅｔｉｃａｌｌｙ）とのインジケーション（ｉｎｄｉｃａｔｉｏｎ）及びスピーカのＶＢＡＰタプル（ペア）または３個の組の割り当て；及び
−オリジナルコンテンツが固定された離散的なマイクロホンで録音されたことのインジケーション、及び少なくとも次のものの一つ：
・録音セット上の一以上のマイクロホンの一以上の位置及び方向；及び
・例えば、カージオイド（ｃａｒｄｏｉｄ）、無指向性、スーパーカージオイド（ｓｕｐｅｒ−ｃａｒｄｏｉｄ）などの、一以上の種類のマイクロホン。

本発明の主な利点は少なくとも次の通りである。

入力資料の信号特性に関するより良い情報（ｋｎｏｗｌｅｄｇｅ）により、より効率的な圧縮方式が得られる。エンコーダは、この事前情報を利用して、オーディオシーン分析を改善する（例えば、ミクストコンテンツの音源モデルを適合させる）ことができる。ミクストコンテンツの音源モデル（ｓｏｕｒｃｅｍｏｄｅｌ）の一例は、オーディオプロダクション段階１０において信号源が修正、編集または合成された場合である。このようなオーディオプロダクション段階１０は、通常、マルチチャンネルオーディオ信号を生成するために用いられ、マルチチャンネルオーディオエンコーダブロック２０の前に位置される。このようなオーディオプロダクション段階１０は、（図示していないが）図２においても、新しいエンコーディングブロック４０の前にあると仮定する。従来、編集情報は失われ、エンコーダには送られず、そのため利用できない。本発明により、この情報を保存することが可能となる。オーディオプロダクション段階１０の例には、録音と編集、合成サウンド、またはスピーカ位置に合成的にマッピングされた複数の音源などのマルチマイクロホン情報が含まれる。

本発明の他の一利点は、送信及びデコードされたコンテンツのレンダリングを大幅に改善できることであり、特に、利用できるスピーカ数が利用できるチャンネル数と異なる（いわゆる、ダウンミックス及びアップミックスのシナリオ）など条件が悪いシナリオ、及びスピーカ位置がフレキシブルである場合に改善できる。後者の場合、スピーカ位置に応じた再マッピングが必要となる。

他のもう一つの利点は、ＨＯＡなど音場関連フォーマットのオーディオデータを、高音質レンダリングに必要な重要なデータを喪失することなく、チャンネルベースのオーディオ伝送システムで送信できることである。

本発明によるメタデータの送信により、デコーディング側において、最適なデコーディング及び／またはレンダリングが可能となり、特に、空間的分解が行われるときはそうである。一般的な空間的分解はＫａｒｈｕｎｅｎ−Ｌｏｅｖｅ変換（ＫＬＴ）など様々な手段により得られ、（本発明によるメタデータを用いて）最適な分解も少ない計算量で可能であり、同時に、音質のよいマルチチャンネル出力信号を提供する（例えば、レンダリング中に、より容易に、一つひとつのチャンネルをスピーカ位置に適合またはマッピングでき、マッピングがより正確になる）。これは特に都合がよいのは、チャンネル数がレンダリング中のミキシング（マトリックス化）段階で修正（増大または減少）されたとき、または一以上のスピーカ位置が修正されたとき（特に、マルチチャンネルの各チャンネルが、あるスピーカ位置に適合された場合）である。

次に、ＨｉｇｈｅｒＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ（ＨＯＡ）とＤｉｓｃｒｅｔｅＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓＴｒａｎｓｆｏｒｍ（ＤＳＨＴ）とを説明する。

ＨＯＡ信号は、知覚的符号化器（ｐｅｒｃｅｐｔｕａｌｃｏｄｅｒｓ）による圧縮の前に、例えばＤｉｓｃｒｅｔｅＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓＴｒａｎｓｆｏｒｍ（ＤＳＨＴ）により、空間領域に変換できる。このようなマルチチャンネルオーディオ信号表現の伝送または記憶には、通常は、適当なマルチチャンネル圧縮手法を必要とする。通常、チャンネル独立した知覚的復号を行ってから、復号されたＩ個の信号
［外１］

を新しいＪ個の信号
［外２］

にマトリクス化（ｍａｔｒｉｘｉｎｇ）する。マトリクス化との用語は、復号された信号
［外３］

を重み付けして付加またはミキシングすることを意味する。すべての信号
［外４］

及びすべての新しい信号
［外５］

を、

によりベクトルとして構成する。「マトリクス化（ｍａｔｒｉｘｉｎｇ）」との用語は、
［外６］

がマトリクス演算

により
［外７］

から数学的に得られることによる。ここで、Ａはミキシング加重により構成されたミキシングマトリクスを示す。「ミキシング」及び「マトリクス化」との用語は、ここでは同義語的に用いられる。ミキシング／マトリクス化は、任意のスピーカセットアップに対するオーディオ信号のレンダリングを目的として用いられる。マトリクスが依存し、それゆえレンダリング時のマトリクス化に用いられるマトリクスが依存する個々のスピーカセットアップは、通常、知覚的符号化段階においては知られていない。

次のセクションでは、ＨｉｇｈｅｒＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ（ＨＯＡ）を簡単に紹介し、処理（データレート圧縮）される信号を定義する。

ＨｉｇｈｅｒＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ（ＨＯＡ）は、コンパクトな関心エリア内の音場の記述に基づく。関心エリアには音源が無いものと仮定する。その場合、時間ｔにおける、関心エリア内の点ｘ＝［ｒ，θ，φ］^Ｔにおける音圧ｐ（ｔ，ｘ）の時空間的振る舞いは、同次波動方程式により物理的に完全に決定される。時間に関する音圧のフーリエ変換、すなわち、

（ここで、ωは角振動数を表す（
［外８］

は
［外９］

に対応する））は、

により球面調和関数（ＳＨｓ）の級数に展開できることを示せる。

式（４）において、ｃ_ｓは音速を示し、ｋ＝ω／ｃ_ｓは角波数を示す。さらに、ｊ_ｎ（）は第１種の次数ｎの球面ベッセル関数を示し、Ｙ_ｎ ^ｍ（）は次数（ｏｒｄｅｒ）ｎであり度数（ｄｅｇｒｅｅ）ｍである球面調和関数（ＳＨ）を示す。音場に関する完全な情報は、実際に、音場係数Ａ_ｎ ^ｍ（ｋ）中に含まれている。留意点として、ＳＨは一般的に複素数値関数である。しかし、その適当な線形結合をとることにより、実数値関数を求め、これらの関数に関する展開をすることも可能である。

式（４）の圧力音場記述に関して、音源場（ｓｏｕｒｃｅｆｉｅｌｄ）は

として定義できる。音源場または振幅密度［９］Ｄ（ｋｃ_ｓ，Ω）は角波数と角方向Ω＝［θ，φ］^Ｔに依存する。音源場（ｓｏｕｒｃｅｆｉｅｌｄ）は、ファーフィールド／ニアフィールドの離散／連続な音源を含み得る［１］。音源場係数Ｂ_ｎ ^ｍは、［１］によれば、音源場係数Ａ_ｎ ^ｍ

に関連する。ここで、ｈ_ｎ ^（２）は第２種球面ハンケル関数であり、ｒ_ｓは原点からの音源距離である。ニアフィールドに関して、留意すべき点として、（ｅ^−ｉｋｒに関する）入来波に対して、正の振動数と第２種の球面ハンケル関数ｈ_ｎ ^（２）を用いている。

ＨＯＡ領域の信号は、音源場または音場の係数の逆フーリエ変換として、周波数領域または時間領域で表すことができる。次の説明では、有限数の音源場係数

の時間領域表現の利用を仮定する。式（５）の無限級数はｎ＝Ｎで断ち切られる。断ち切りは空間的帯域幅制限に対応している。係数（またはＨＯＡチャンネル）の数は、

で与えられ、または２次元のみの記述の場合には、Ｏ_２Ｄ＝２Ｎ＋１により与えられる。係数ｂ_ｎ ^ｍは、スピーカにより後で再生するための一つの時間サンプルｍのオーディオ情報を含む。これらの係数は記憶または送信され、データレート圧縮にかけられる。係数の単一の時間サンプル（ｓｉｎｇｌｅｔｉｍｅｓａｍｐｌｅ）ｍは、Ｏ_３Ｄ個の要素を有するベクトルｂ（ｍ）

により表すことができ、Ｍ個の時間サンプルのブロックはマトリクスＢ

により表すことができる。

音場の２次元表現は、円形調和関数（ｃｉｒｃｕｌａｒｈａｒｍｏｎｉｃｓ）を用いた展開により求めることができる。これは、θ＝π／２、係数の異なる加重、及びＯ_２Ｄ係数（ｍ＝±ｎ）に減宿したセットを用いた、上述の一般的記述の特殊な場合と見ることができる。よって、次の検討はすべて２次元表現にも当てはまり、球面との用語は円との用語に置き換えればよい。

次に、ＨＯＡ係数領域からチャンネルベースの空間領域への変換及びその逆について説明する。式（５）は、単位球上のｌ個の離散的空間的サンプル位置Ω_ｌ＝［θ_ｌ，φ_ｌ］Ｔの時間領域ＨＯＡ係数を用いて、

と書き換えられる。
Ｌ_ｓｄ＝（Ｎ＋１）２球面サンプル位置Ω_ｌを仮定すると、これはＨＯＡデータブロックＢのベクトル表示で

と書き換えられる。ここで、
［外１０］

であり、
［外１１］

はＬ_ｓｄマルチチャンネル信号の単一の時間サンプルを表し、行列
［外１２］

であり、ベクトル
［外１３］

である。球面サンプル位置を非常に均一（ｒｅｇｕｌａｒ）に選択すると、

となるマトリクスΨ_ｆが存在する。ここで、ＩはＯ_３Ｄ行Ｏ_３Ｄ列の単位行列である。式（１２）に対応する変換は

で定義できる。式（１４）は、Ｌ_ｓｄ球面信号を係数領域に変換し、前方変換

として書き換えることができる。ここで、ＤＳＨＴ｛｝はＤｉｓｃｒｅｔｅＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓＴｒａｎｓｆｏｒｍを示す。対応する逆変換は、Ｏ_３Ｄ係数信号を空間領域に変換し、Ｌ_ｓｄチャンネルベースの信号を構成する。式（１２）は

となる。

球面位置の数Ｌ_ｓｄがＨＯＡ係数の数Ｏ_３Ｄ（式（８）参照）に一致するＤＳＨＴを次に説明する。最初に、デフォルトの球面サンプルグリッドを選択する。Ｍ個の時間サンプルのブロックについて、球面サンプルグリッドを回転して、

の対数が最小化されるようにする。ここで、
［外１４］

は、ΣＷ_ｓｄ（マトリクスの行インデックスがｌであり列インデックスがｊである）の要素の絶対値であり、
［外１５］

は、ΣＷ_ｓｄの対角要素である。可視化すると、これは図５に示したＤＳＨＴの球面サンプリンググリッドに対応する。

ＤＳＨＴの好適な球面サンプル位置と、そのような位置を求める手順は周知である。サンプリンググリッドの例を図６に示す。具体的に、図６は、エンコーダとデコーダの構成ブロックｐＥとｐＤで用いられるコードブックの球面サンプリング位置の例を示しており、図６（ａ）はＬ_ｓｄ＝４の場合であり、図６（ｂ）はＬ_ｓｄ＝９の場合であり、図６（ｃ）はＬ_ｓｄ＝１６の場合であり、図６（ｄ）はＬ_ｓｄ＝２５の場合である。このようなコードブックは、なかんずく、予め決められた空間的スピーカ構成に応じたレンダリングに用いることができる。

図７は、図４に示した改善されたマルチチャンネルオーディオエンコーダ４２０の一実施形態を示す図である。これはＤＳＨＴブロック４２１を含む。このブロックは、（ブロック４１０を反転するため）ブロック４１０の逆ＤＳＨＴの逆であるＤＳＨＴを計算する。ブロック４２１の目的は、その出力７０において、逆ＤＳＨＴブロック４１０の入力と実質的に同じ信号を出力することである。この信号７０の処理はさらに最適化できる。信号７０は、ＭＤＣＴブロック４２２に提供されるオーディオ成分だけでなく、一以上の支配的オーディオ信号成分や支配的オーディオ信号成分の一以上のロケーションを示す信号部分７１も含む。これらは、少なくとも１つの最強な音源の方向の検出（４２４）と、ｉＤＳＨＴの適応的回転の回転パラメータの計算４２５とに用いられる。一実施形態では、これは時間的に可変である。すなわち、検出４２４と計算４２５は、確定された離散的時間ステップにおいて継続的に再適応される。ｉＤＳＨＴの適応的回転マトリクスを計算し、その適応的ｉＤＳＨＴをｉＤＳＨＴブロック４２３で実行する。回転の効果は、ｉＤＳＨＴ４２３のサンプリンググリッドが回転して、面の一つ（すなわち、単一の空間的サンプル位置）が最強の音源方向（これは時間的に可変である）に一致するようになることである。これにより、ｉＤＳＨＴブロック４２３におけるオーディオ信号のエンコードがより効率的になり、そのためより良いものになる。ＭＤＣＴブロック４２２は、オーディオフレームセグメントの時間的重なりの補償に有利である。ｉＤＳＨＴブロック４２３はエンコードされたオーディオ信号７４を提供し、回転パラメータ計算ブロック４２５は前処理情報７５（の少なくとも一部）として、回転パラメータを提供する。また、前処理情報７５はその他の情報を含んでいてもよい。

さらに、本発明は次の実施形態にも関連する。

一実施形態において、
本発明は、チャンネルベースの３次元オーディオ表現を送信及び／または記憶し、処理する方法に関する。該方法は、前記チャンネルベースのオーディオ情報とともにサイド情報を送信／記憶するステップを有する。前記サイド情報は、チャンネルベースオーディオ情報のミキシングタイプと意図されたスピーカ位置を示し、前記ミキシングタイプは前の処理段階において（ミキシングスタジオなどにおいて）オーディオコンテンツミックスされたアルゴリズムを示し、前記スピーカ位置は前の処理段階におけるスピーカの位置（ミキシングスタジオなどにおける理想的位置）または仮想的位置を示す。前記データ構造とチャンネルベースオーディオ情報を受け取った後のさらに別の処理ステップにおいて、ミキシング及びスピーカ位置情報を利用する。

一実施形態において、本発明は、チャンネルベース３次元オーディオ表現を送信及び／または記憶し、処理する装置は、チャンネルベースオーディオ情報とともにサイド情報（ＳＩ）を送信する手段（または記憶する手段）を有する。前記サイド情報は、チャンネルベースオーディオ情報のミキシングタイプと意図されたスピーカ位置を示し、前記ミキシングタイプは前の処理段階において（ミキシングスタジオなどにおいて）オーディオコンテンツミックスされたアルゴリズムをシグナリングし、前記スピーカ位置は前の処理段階におけるスピーカの位置（ミキシングスタジオなどにおける理想的位置）または仮想的位置を示す。前記装置は、さらに、前記データ構造とチャンネルベースオーディオ情報を受け取った後に、ミキシング及びスピーカ位置情報を利用するプロセッサを有する。

一実施形態において、本発明は、ミキシング情報が、ＨＯＡコンテンツ、ＨＯＡ次数（ｏｒｄｅｒ）、及び以前ＨＯＡ３次元オーディオをチャンネルベース表現に変換するのに用いた理想的球面サンプリンググリッドに関する仮想的スピーカ位置情報をシグナリングする３次元オーディオシステムに関する。送信されたチャンネルベースオーディオ情報とそれに伴うサイド情報（ＳＩ）を受信／読み出しした後、ＳＩを用いてチャンネルベースオーディオをＨＯＡフォーマットに再エンコードする。前記再エンコーディングは、前記球面サンプリング位置とそれをチャンネルベースコンテンツ（ＤＳＨＴ）とかけるマトリクスからモードマトリクスΨを計算することにより行われる。

一実施形態において、上記システム／方法は、異なるＨＯＡフォーマットの不明確性を避けるために用いられる。プロダクション側における第１のＨＯＡフォーマットのＨＯＡ３次元オーディオコンテンツは、第１のフォーマットに関連しＳＩで配信されたｉＤＳＨＴを用いて、関連チャンネルベースの３次元オーディオ表現に変換される。受信されたチャンネルベースオーディオ情報は、ＳＩと第２のフォーマットに関連するＤＳＨＴとを用いて、第２のＨＯＡフォーマットに変換される。システムの一実施形態では、第１のＨＯＡフォーマットは複素数値のＨＯＡ表現を用い、第２のＨＯＡフォーマットは実数値のＨＯＡ表現を用いる。システムの一実施形態では、第１のＨＯＡフォーマットは複素数値のＨＯＡ表現を用い、第２のＨＯＡフォーマットは実数値のＨＯＡ表現を用いる。

一実施形態において、本発明は、ミキシング情報を用いて、レート圧縮、信号エンハンスメントまたはレンダリングにおいて用いた信号から有向３次元オーディオ成分を分離（オーディオオブジェクト抽出）する３次元オーディオシステムに関する。一実施形態では、さらに別のステップは、ＨＯＡ、ＨＯＡ次数（ｏｒｄｅｒ）、及びＨＯＡ３Ｄオーディオをチャンネルベース表現に変換するのに用いられた、関連する理想的球面サンプリンググリッドをシグナリングするステップと、ＨＯＡ表現を回復するステップと、ブロックベース共分散法の利用により主信号方向を決定することにより有向成分を抽出するステップとである。前記方向は、ＨＯＡが有向信号をこれらの方向にデコードする。一実施形態では、さらに別のステップは、ＶｅｃｔｏｒＢａｓｅＡｍｐｌｉｔｕｄｅＰａｎｎｉｎｇ（ＶＢＡＰ）と関連スピーカ位置情報とをシグナリングする、スピーカ位置情報を用いてスピーカトリプレット（ｓｐｅａｋｅｒｔｒｉｐｌｅｔｓ）を決定し、共分散法を用いて前記トリプレットチャンネルから相関した信号を抽出する。３Ｄオーディオシステムの一実施形態では、有向信号と、信号抽出に関して記憶された信号（ＨＯＡ信号、ＶＢＡＰトリプレット（ペア））とから、残差信号を生成する。

一実施形態において、本発明は、ＨＯＡ残差信号の次数（ｏｒｄｅｒ）を低減して低減された次数の信号と有向信号を圧縮するステップと、残差のトリプレットチャンネルをモノストリームにミキシングして関連する相関情報を提供するステップと、前記情報と圧縮されたモノ信号とを、圧縮された有向信号とともに送信するステップとにより、残差信号のデータレート圧縮を実行するシステムに関する。

データレート圧縮を実行するシステムの一実施形態において、主信号方向とチャンネル領域の無相関残差信号とを用いて、抽出された有向信号をスピーカにパンニング（ｐａｎ）する、オーディオをスピーカにレンダリングするのに用いられる。

本発明により、概して、オーディオコンテンツミキシング特性のシグナル化が可能となる。本発明は、オーディオ装置で、具体的にはオーディオエンコーディング装置、オーディオミキシング装置、及びオーディオデコーディング装置で用いることができる。

留意点として、単純にＤＳＨＴとして示したが、当業者には言うまでもなく、ＤＳＨＴ以外の他のタイプの変換を構成または適用することもできる。これらはすべて本発明の精神と範囲内で想定されている。さらに、上記の説明において例としてＨＯＡフォーマットについて説明したが、本発明は、当業者には言うまでもなく、Ａｍｂｉｓｏｎｉｃｓ以外の他のタイプの音場関連フォーマットで用いることもでる。これらはすべて本発明の精神と範囲内で想定されている。

本発明の基本的かつ新規な特徴を好ましい実施形態に適用して図示し、説明し、指摘したが、言うまでもなく、本発明の精神から離れることなく、当業者は、説明した装置と方法における、開示した装置の形体や詳細事項、及びその動作の様々な省略、代替、変更を行うことができる。いうまでもなく、本発明を例示によって説明した。本発明の範囲から逸脱することなく細かい点で修正を加えることは可能である。同じ結果を達成する実質的に同じ方法で実質的に同じ機能を実行するこれらの要素のすべての組み合わせは、本発明の範囲内にある。説明した一実施形態から他の実施形態への要素の置き換えも、完全に想定の範囲内である。

参照文献
T. D. Abhayapala著「Generalized framework for spherical microphone arrays: Spatial and frequency decomposition」(In Proc. IEEE International Conference on Acoustics, Speech, 25 and Signal Processing (ICASSP), (accepted) Vol. X, pp., April 2008, Las Vegas, USA. James R. Driscoll及びDennis M. Healy Jr.著「Computing Fourier transforms and convolutions on the 2-sphere」(Advances in Applied Mathematics, 15:202-250, 1994)

Claims

オーディオデータをエンコードする方法であって、
オーディオデータについて、少なくとも３つの異なるタイプのうちのタイプを検出するステップであって、前記少なくとも３つの異なるタイプは、第１のＨｉｇｈｅｒ−ＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ（ＨＯＡ）フォーマットと、複数のマイクロホンの一セットアップを用いたマイクロホン録音と、パンニングによりミックスされたマルチチャンネルオーディオストリームとを含む、ステップと、
前記オーディオデータが第１のＨＯＡフォーマットを有するとの判定に基づいて、逆ＤｉｓｃｒｅｔｅＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓＴｒａｎｓｆｏｒｍ（ｉＤＳＨＴ）に基づいて、第１のＨＯＡフォーマットのオーディオデータの係数を、第２のＨＯＡフォーマットの係数に変換するステップと、
前記第２のＨＯＡフォーマットの前記係数と、少なくとも仮想的または実際のスピーカ位置に関するメタデータを示す補助データと、前記オーディオデータに関する情報とをエンコードするステップであって、前記情報は第１のＨＯＡフォーマットの詳細、複数のマイクロホンのセットアップ、及び前記パンニングの詳細のうち少なくとも一つの詳細を含む、ステップとを有する、
方法。
前記オーディオデータと前記補助データの少なくとも一部とは、前記オーディオデータのオーディオプロダクション段階から得られ、得られた前記補助データの少なくとも一部は修正情報、編集情報及び合成情報のうち少なくとも一つを含む、請求項１に記載の方法。
前記オーディオプロダクション段階は録音、ミキシング、及びサウンド合成のうち少なくとも一つを実行するように構成されている、請求項２に記載の方法。
前記補助データは、オーディオコンテンツが、ＨＯＡコンテンツと、ＨＯＡコンテンツ表現のオーダー、２次元、３次元、または半球表現、及び空間的サンプリングポイントの位置のうち少なくとも一つとから得られたことを示す、
請求項１ないし３いずれか一項に記載の方法。
前記補助データは、オーディオコンテンツが、ベクトルベースの振幅パンニング（ＶＢＡＰ）と、ラウドスピーカのＶＢＡＰタプルまたはトリプレットの割り当てとを用いて、合成的にミックスされたことを示す、
請求項１ないし４いずれか一項に記載の方法。
前記補助データは、オーディオコンテンツが、固定された離散的マイクロホンで録音されたことと、録音セットの一以上のマイクロホンの一以上の位置と方向及び一以上のマイクロホンの種類のうち少なくとも一方とを示す、
請求項１ないし５いずれか一項に記載の方法。
エンコードされたオーディオデータをデコードする方法であって、
エンコードされたオーディオデータを受け取るステップと、
前記オーディオデータをデコードするステップであって、少なくとも仮想的または実際のラウドスピーカ位置に関するメタデータを決定するステップと、前記オーディオデータに関する情報と、複数のマイクロホンのセットアップに関する詳細を含むミキシング情報と、パンニングの詳細とをミキシングするステップとを含み、前記オーディオデータの係数は、前記オーディオデータが第１のＨＯＡフォーマットを有するとのインディケータに基づき、ＤｉｓｃｒｅｔｅＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓＴｒａｎｓｆｏｒｍ（ＤＳＨＴ）に基づき、第２のＨＯＡフォーマットから第１のＨＯＡフォーマットに変換される、ステップとを有する、
方法。
前記メタデータは、ＨＯＡコンテンツ表現のオーダーと、２次元、３次元、または半球表現と、空間サンプリングポイントの位置とのうちの少なくとも一つに関する、請求項７に記載の方法。
前記メタデータは、オーディオコンテンツがＶＢＡＰと、スピーカのＶＢＡＰタプルまたはトリプレットの割り当てとに基づいてミックスされたことを示す、
請求項７に記載の方法。
前記メタデータは、オーディオコンテンツが固定された離散的マイクロホンで録音されたことと、一以上のマイクロホンの一以上の少なくとも位置と方向、及びマイクロホンのタイプのうち少なくとも１つとを示す、
請求項７に記載の方法。
メタデータは任意的である、
請求項１に記載の方法。
オーディオデータをエンコードする装置であって、
オーディオデータは少なくとも３つの異なるタイプのうちのタイプを有し、前記少なくとも３つの異なるタイプは、第１のＨｉｇｈｅｒ−ＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓ（ＨＯＡ）フォーマットと、複数のマイクロホンの一セットアップを用いたマイクロホン録音と、パンニングによりミックスされたマルチチャンネルオーディオストリームとを含み、
前記装置は、
オーディオデータが第１のＨＯＡフォーマットを有するとの判定に基づき、前記オーディオデータの係数を、第１のＨＯＡフォーマットから共通のＨＯＡフォーマットの係数に変換する逆ＤｉｓｃｒｅｔｅＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓＴｒａｎｓｆｏｒｍ（ｉＤＳＨＴ）ブロックと、
前記オーディオデータが第１のＨＯＡフォーマットを有するとき、前記共通のＨＯＡフォーマットの前記係数をエンコードし、少なくとも仮想的または実際のスピーカ位置に関するメタデータと、オーディオデータに関するミキシング情報とを示す補助データをエンコードするエンコーダであって、前記ミキシング情報は第１のＨＯＡフォーマットの詳細、複数のマイクロホンのセットアップ、及び前記パンニングの詳細のうち少なくとも一つの詳細を含む、エンコーダとを有する、
装置。
エンコーダは、ＤＳＨＴブロックと、ＭＤＣＴブロックと、逆ＤＳＨＴを実行する第２の逆ＤＳＨＴブロックと、音源方向検出ブロックと、パラメータ計算ブロックとを有し、
ＤＳＨＴブロックは、前記逆ＤＳＨＴブロックにより実行されるｉＤＳＨＴの逆であるＤＳＨＴを決定するように構成され、ＭＤＣＴブロックと、音源方向検出ブロックと、パラメータ計算ブロックとに出力を提供し、
ＭＤＣＴブロックは、オーディオフレームセグメントの時間的オーバーラップを補償するように構成され、第２の逆ＤＳＨＴブロックに出力を提供し、
音源方向検出ブロックは、ＤＳＨＴブロックの出力中の一以上の最強音源方向を検出するように構成され、パラメータ計算ブロックに出力を提供し、
パラメータ計算ブロックは、回転パラメータを計算し、第２の逆ＤＳＨＴブロックに回転パラメータを提供するように構成され、回転パラメータは、第２の逆ＤＳＨＴブロックの逆ＤＳＨＴのサンプリンググリッドの空間的サンプル位置を、検出された一以上の最強音源方向の一つにマッピングする回転を確定し、
第２の逆ＤＳＨＴブロックは、パラメータ計算ブロックから受け取った回転パラメータから適応的回転マトリクスを決定し、適応的逆ＤＳＨＴを決定するように構成され、適応的逆ＤＳＨＴは適応的回転マトリクスによる回転と逆ＤＳＨＴとを含む、
請求項１２に記載の装置。
エンコードされたオーディオデータをデコードする装置であって、
エンコードされたオーディオデータがエンコード前に前処理されていると判断するアナライザと、
前記オーディオデータをデコードする第１のデコーダであって、少なくとも仮想的または実際のラウドスピーカ位置に関するメタデータを決定し、前記オーディオデータに関する情報と、複数のマイクロホンのセットアップに関する詳細を含むミキシング情報と、パンニングの詳細とをミキシングし、前記オーディオデータの係数は、前記オーディオデータが第１のＨＯＡフォーマットを有するとのインディケータに基づき、ＤｉｓｃｒｅｔｅＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓＴｒａｎｓｆｏｒｍ（ＤＳＨＴ）に基づき、第２のＨＯＡフォーマットから第１のＨＯＡフォーマットに変換される、第１のデコーダとを有する、
装置。
プロセッサに請求項１ないし１１いずれか一項に記載の方法を実行させるコンピュータプログラム。