JP7441057B2

JP7441057B2 - オーディオオーサリング装置、オーディオレンダリング装置、送信装置、受信装置、及び方法

Info

Publication number: JP7441057B2
Application number: JP2020010038A
Authority: JP
Inventors: 岳大杉本; 弘樹久保; 訓史大出; 周北島; 一穂小野; 敦郎伊藤; 智康小森
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2019-01-25
Filing date: 2020-01-24
Publication date: 2024-02-29
Anticipated expiration: 2040-01-24
Also published as: JP2020120377A

Description

本発明は、オーディオオーサリング装置、オーディオレンダリング装置、送信装置、受信装置、及び方法に関し、特に、マルチチャンネルのオーディオ信号（音声信号、音響信号）について、メタデータを用いてオーディオ信号をオーサリングし、また、各再生装置のレンダリング性能に合わせてオーディオ信号をレンダリングする技術に関する。なお、本発明において、マルチチャンネルとは、５．１ｃｈ（channel）以上のチャンネルを有するオーディオ信号を意味する。

近年、多数の音響チャンネルを用いることにより、三次元音響のような高い臨場感の音響再生を実現する音響システムが提案されている。例えば、５．１ｃｈサラウンドのような音響システムによるホームシアターシステムが、家庭用として登場している。また、２０１８年１２月に放送が開始されたスーパーハイビジョン（ＳＨＶ）放送においては、２２．２ｃｈというマルチチャンネルの音響システムが採用されている。

図１５に、２２．２ｃｈのチャンネル配置［非特許文献１］を示す。２２．２ｃｈは、上層に、TpFL，TpFR，TpFC，TpC，TpBL，TpBR，TpSiL，TpSiR，TpBCの９個のスピーカ（チャンネル）を備え、中層に、FL，FR，FC，BL，BR，FLc，FRc，BC，SiL，SiRの１０個のスピーカを備え、さらに、下層に、BtFC，BtFL，BtFRの３個のスピーカと、LFE1及びLFE2の重低音専用サブウーファーを備えている。

また、図１６に、５．１．２ｃｈのチャンネル配置［非特許文献２］を示す。５．１．２ｃｈは、上層に、LtfとRtfの２つのスピーカ（チャンネル）を備え、中層に、C，L，R，LS，RSの５個のスピーカと、LFEの重低音専用サブウーファーを備えている。

２２．２ｃｈ音響などのマルチチャンネル音響システムは、番組制作時と同じスピーカ配置の環境で聴取することで制作意図を正確に再現できる。しかしながら、２２．２ｃｈ音響以外にも７．１．４ｃｈ、５．１．２ｃｈなど様々な音声フォーマットが市場に混在する中、家庭に全ての音声フォーマットを再生可能なオーディオ環境を構築することは非現実的である。そこで、各家庭でのスピーカ配置に応じてマルチチャンネル音響をレンダリングして再生する方法が考案・運用されてきた［特許文献１－３］。

従来のレンダリングは、所定の手続き（処理）に従って、マルチチャンネルのオーディオ信号を、設置されているスピーカの数に合わせて変換するものであり、ダウンミックスのようなチャンネル数を少なくする変換を容易に行うことができる。このレンダリング手法により、例えば、２２．２ｃｈのオーディオ信号を、家庭内の５．１．２ｃｈの音響システム環境で簡易に再現することができる。

特許６２３９１４５号公報特許６４１２９３１号公報特許６１２３０１６号公報

ARIB STD-B59、「三次元マルチチャンネル音響方式スタジオ規格」2.0版、（2016年） ISO/IEC 23008-3:2015、"Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio"、（2015年） ARIB STD-B32、「デジタル放送における映像符号化、音声符号化及び多重化方式」3.11版、（2018年） Rec. ITU-R BS.2076、"Audio Definition Model"、（2015年） V. Plukki、J. Audio Eng. Soc. 、（1997年）、vol.45 no.6、pp.456-466

これまでのレンダリング手法は、番組内容や制作意図とは関係なく、予め統一的に定められた手続きによって一様にマルチチャネル音響をレンダリングするものである。しかし、番組内容と無関係にマルチチャンネル音響を変換する手法では、時として制作者の意図に反したレンダリングになる。特にマルチチャンネル音響において、各オーディオ信号の空間における再生位置・相対関係は番組デザインの根幹に関わる重要なファクターであり、従来のレンダリング手法では制作意図を大きく歪める可能性がある。

例えば、上層チャンネルが前後感を演出するために使用されている２２．２ｃｈ番組（例えば、前方から後方へ通過する飛行物体の音響）を、上層チャネルが前方にのみ配置された再生環境（例えば５．１．２ｃｈ）で再生する場合に、２２．２ｃｈ番組の上層チャンネルをすべて５．１．２ｃｈの前方の上層チャンネルから再生すると、番組の制作意図を全く無視した再生音場になってしまう。

既存の音声符号化方式［非特許文献２，３］においては、ダウンミックス係数を送出することで、制作者の意図通りのレンダリングを受信装置でおこなうための枠組みが存在する。しかしこの手法では、想定されるあらゆる音声フォーマットへのダウンミックス係数を送出する必要があり、実用的ではない。同様に、サイマル放送による複数の音声フォーマットへの対応にも、伝送容量の制約による限界があり、現実的ではない。また、同様の課題はオブジェクトベース音響においても存在する。

すなわち、再生されるべき位置情報を明示的／暗示的に関わらず付与されたオーディオ信号に関して、再生環境の制約によってその位置情報に基づくレンダリングが自明でない場合に、制作者の意図を汲んだレンダリングを実現するための仕組みが必要とされている。

従って、上記のような問題点に鑑みてなされた本発明の目的は、番組制作時のオーディオ環境と異なる再生環境であっても、番組制作者の意図を歪めることなく最適なレンダリングが可能になるような、オーディオオーサリング装置、オーディオレンダリング装置、送信装置、受信装置、及び方法を提供することにある。

上記課題を解決するために本発明に係るオーディオオーサリング装置は、マルチチャンネルのオーディオ信号と、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとが入力され、前記マルチチャンネルのオーディオ信号に前記再生位置メタデータと前記優先レンダリング位置メタデータとを関連付けるメタデータ関連付け部を備え、前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定することを特徴とする。

また、前記優先レンダリング位置メタデータは、複数のオーディオ信号をグループ化し、第１のオーディオ信号の優先レンダリング位置と第２のオーディオ信号の優先レンダリング位置とを関連付けて設定可能なことが望ましい。

上記課題を解決するために本発明に係る送信装置は、上記のオーディオオーサリング装置と、符号化装置とを備えた送信装置であって、前記符号化装置は、前記オーディオオーサリング装置の出力を前記オーディオ信号と前記再生位置メタデータと前記優先レンダリング位置メタデータとに分離する分離部と、前記オーディオ信号と前記再生位置メタデータと前記優先レンダリング位置メタデータをそれぞれ符号化する符号化部と、を備え、符号化された前記オーディオ信号と符号化された前記再生位置メタデータ及び前記優先レンダリング位置メタデータとを多重化して又は関連付けて伝送することを特徴とする。

上記課題を解決するために本発明に係るオーディオレンダリング装置は、マルチチャンネルのオーディオ信号と、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとに基づいて、レンダリングを行うオーディオレンダリング装置であって、前記オーディオ信号ごとに、前記再生位置メタデータと再生環境のレンダリングエリアメタデータに基づき、前記再生位置メタデータに基づくレンダリングの可否を判定するレンダリング可否判定部と、前記レンダリング可否判定部の否決を受けて、前記優先レンダリング位置メタデータと前記レンダリングエリアメタデータから前記オーディオ信号の新たなレンダリング位置を決定するレンダリング位置決定部であって、前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定するデータである、レンダリング位置決定部と、前記再生位置メタデータを前記新たなレンダリング位置に置換する再生位置メタデータ置換部と、前記オーディオ信号を、前記再生位置メタデータ又は置換済みの再生位置メタデータに基づいてレンダリングするレンダリング部と、を備えることを特徴とする。

上記課題を解決するために本発明に係る受信装置は、復号装置と、上記のオーディオレンダリング装置とを備えた受信装置であって、前記復号装置は、受信した信号を、符号化された前記オーディオ信号と符号化された前記再生位置メタデータと符号化された前記優先レンダリング位置メタデータとに分離する分離部と、符号化された前記オーディオ信号と符号化された前記再生位置メタデータと符号化された前記優先レンダリング位置メタデータをそれぞれ復号する復号部とを備え、復号された前記マルチチャンネルのオーディオ信号と前記再生位置メタデータと前記優先レンダリング位置メタデータとを、前記オーディオレンダリング装置に出力することを特徴とする。

上記課題を解決するために本発明に係るマルチチャンネルのオーディオ信号をオーサリングする方法は、マルチチャンネルのオーディオ信号に対して、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとを生成し、前記マルチチャンネルのオーディオ信号に前記再生位置メタデータと前記優先レンダリング位置メタデータとを関連付け、前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定することを特徴とする。

上記課題を解決するために本発明に係るマルチチャンネルのオーディオ信号をレンダリングする方法は、マルチチャンネルのオーディオ信号と、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとに基づいて、マルチチャンネルのオーディオ信号をレンダリングする方法であって、前記オーディオ信号ごとに、前記再生位置メタデータと再生環境のレンダリングエリアメタデータに基づき、前記再生位置メタデータに基づくレンダリングの可否を判定し、レンダリングの前記判定の否決を受けて、前記優先レンダリング位置メタデータと前記レンダリングエリアメタデータから前記オーディオ信号の新たなレンダリング位置を決定し、前記オーディオ信号を、前記再生位置メタデータ又は前記新たなレンダリング位置に基づいてレンダリングし、前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定するデータであることを特徴とする。

本発明におけるオーディオオーサリング装置、送信装置、及び方法によれば、再生環境の制約を考慮することなく、自由な番組制作・演出が可能になる。

また、本発明におけるオーディオレンダリング装置、受信装置、及び方法によれば、番組制作時の音声フォーマットと異なる再生環境であっても、番組制作者の意図に沿ったレンダリングが可能になり、あらゆる再生環境において聴取者が番組の演出意図を享受できる。

本発明のオーディオオーサリング装置のブロック図の一例である。２２．２ｃｈ音響方式の各チャンネルの割当てを示す図である。オブジェクトベース音響における再生位置メタデータの設定方法の一例を示す図である。本発明の送信装置のブロック図の一例である。本発明のオーディオレンダリング装置のブロック図の一例である。本発明の受信装置のブロック図の一例である。優先レンダリング位置メタデータを用いて、再生位置を決定する一例を示す図である。優先レンダリング位置メタデータを用いて、再生位置を決定する別の例を示す図である。オーディオレンダリングのフローチャートの一例である。優先レンダリング位置メタデータのビットストリームシンタックスの例である。左右方向の属性値のインデックスの例を示す図である。前後方向の属性値のインデックスの例を示す図である。上下方向の属性値のインデックスの例を示す図である。グルーピングされる属性のインデックスの例を示す図である。２２．２ｃｈのチャンネル配置を示す図である。５．１．２ｃｈのチャンネル配置を示す図である。

オーサリングされたオーディオ信号として２２．２ｃｈ音響、再生環境として５．１．２ｃｈを例に取り、以下、本発明の実施の形態について説明する。なお、以下の説明において、「オーディオ信号」は、「マルチチャンネルオーディオ信号」のように複数のチャンネルを含むオーディオ信号全体を意味する場合と、「各オーディオ信号」のように個々のチャンネルを意味する場合とがある。

２２．２ｃｈと５．１．２ｃｈのチャンネル配置は、それぞれ図１５、図１６示すとおりである。チャンネル位置を極座標表示した場合の各層の仰角・俯角については各種規格によって異なる値が用いられるが、本発明において数値の差が問題になることはないため、ここでは上層を＋３０°、中層を０°、下層を－３０°としておく。

図１に、本発明のオーディオオーサリング装置のブロック図の一例を示す。本実施形態では、２２．２ｃｈのオーディオ信号をオーサリングする装置を例として説明するが、オーディオ信号は２２．２ｃｈに限られず、任意のマルチチャンネルのオーディオ信号であってよく、また、オブジェクトベースのオーディオ信号であってもよい。オーディオオーサリング装置１０には、２２．２ｃｈオーディオ信号、２２．２ｃｈオーディオ信号の各チャンネル（２４個）の再生位置メタデータ、２２．２ｃｈオーディオ信号の各チャンネルの優先レンダリング位置メタデータが入力される。

オーディオオーサリング装置１０は、メタデータ関連付け部１１を備えている。メタデータ関連付け部１１は、オーディオ信号と各メタデータを関連付ける。関連付けの手段としては、オーディオ信号に直接メタデータを重畳してもよいし、メタデータのみを別信号・別ファイルとして一括管理［非特許文献４］してもよい。その後、メタデータ関連付け部１１は、オーディオオーサリング装置１０の出力として、オーサリングされた（一まとまりの信号として構成された）２２．２ｃｈオーディオ信号を出力する。

本発明のオーディオオーサリング装置１０から出力された信号は、各チャンネルのオーディオ信号に再生位置の情報が関連付けられたマルチチャンネルオーディオ信号となる。

次に、各メタデータについて説明する。再生位置メタデータとは、オーディオ信号の再生されるべき位置に関するメタデータのことであり、各チャンネルの理想的な再生位置（空間座標）の情報を示すメタデータである。これは、番組制作時のオーディオ環境におけるマイクロホン、スピーカ、又は音源の位置情報等に基づいて設定することができる。また、規格等で設定されていてもよい。なお、再生位置メタデータは、必ずしも、具体的な再生位置の記述である必要はなく、所定の規格等に基づき、各チャンネルの再生位置を特定し得る情報であれば、どのような形態であってもよい。例えば、２２．２ｃｈの規格を前提として、２２．２ｃｈオーディオ信号の並び順をもって再生位置メタデータに代替することができる。

図２に、２２．２ｃｈ音響方式の各チャンネルの割当てを示す。一般にチャンネルベース音響においては、再生位置メタデータ（スピーカ設置範囲）は、図２［非特許文献１の表２－１］で規定された２２．２ｃｈ音響のように、方位角と仰角の組み合わせで表現される。

また、図３に、オブジェクトベース音響における再生位置メタデータの設定方法の一例を示す。オブジェクトベース音響においては、再生位置メタデータは、図３［非特許文献２のTable 68及びFigure 22］に記載されるように方位角と仰角、場合によっては距離も含めた組み合わせで表現される。

次に、優先レンダリング位置メタデータに関して詳述する。優先レンダリング位置メタデータは、再生空間において、再生位置メタデータに応じて実音源または仮想音源としてレンダリングする方法が明示的に存在しない場合のための、各オーディオ信号のレンダリング位置の優先順位を示すメタデータである。すなわち、再生位置メタデータに基づく適切なレンダリングができない場合に、各オーディオ信号について許容可能な代替的な再生位置を指示するメタデータである。

本実施形態では、優先レンダリング位置メタデータは、任意に再生空間を分割した領域ごとの属性値を用いて設定するものとする。ここでは、極座標系に則って設定するが、直交座標系であっても同様の属性値の設定は可能である。

水平面内における左右方向の属性値は、例えば方位角φの範囲によって、次のように規定する。
l：左、left 15°≦φ≦165°
c：中央、center －15°<φ<15°
r：右、right －165°≦φ≦－15°

なお、ここでの角度範囲及び属性区分の設定は単なる一例であり、例えば、左右方向の属性区分を、左、中左、中央、中右、右の５つに区分してもよい。これらの区分・属性値は、オーサリング側とレンダリング側で共通の設定とすることにより、適宜規定することができる。

水平面内における前後方向の属性値は、例えば方位角φの範囲によって、次のように規定する。
f：前、front －60°<φ<60°
s：横、side 60°≦φ≦120°、－120°≦φ≦－60°
b：後、back 120°<φ≦180°、－180°≦φ<－120°

空間の上下方向の属性値は、例えば仰角θの範囲（ただし、θ=0°の方向は極座標系の水平面方向とする）によって、次のように規定することができる。
T：天頂、top 60°<θ≦90°
U：上層、upper 30°≦θ≦60°
M：中層、middle －30°<θ<30°
B：下層、bottom －60°≦θ≦－30°

このルールに従って２２．２ｃｈ音響のTpBL（再生位置：φ＝135°，θ＝30°）の属性値を表すと、左右、前後、上下それぞれに対応する属性値は、l，b，Uとなる。

一例として、TpBLのレンダリング時の優先レンダリング位置を、属性別・優先順位別に次のように設定するものとする。
左右方向： (1)左 (2)中央
前後方向： (1)後 (2)横 (3)前
上下方向： (1)上層 (2)中層 (3)下層

上記優先レンダリング位置を属性値で記述すると、
[l/c，b/s/f，U/M/B]
となる。本実施形態では、優先レンダリング位置メタデータを、上記のように属性値で、優先順に／で区切って記述することとする。なお、属性値の記述順は、ここでは左右、前後、上下としたが、異なる順序としてもよく、また、どの要素の属性値であるかを示すフラグを併用してもよい。

制約条件が存在しない場合の全属性値として*を用いることもできる。
[l/c，b/s/f，*]
上記のように記述した場合、上下方向に関してはどの層にレンダリングしても構わないことを示し、上下方向の情報はレンダリング時の制約条件に含める必要がないことを意味する。また、l/cの制約条件は、l，cどちらへのレンダリングも不可能な場合、当該オーディオ信号は不再生（ミュート）になることを示す。一方、l/*と記述した場合は、lへのレンダリングが不可能な場合にはその他のどの位置（c又はr）にレンダリングしても構わないことを意味する。

さらに、レンダリング禁止位置を￢（not sign）で指定することもできる。例えば、下層にレンダリングさせない場合、
[l/c，b/s，￢B]
とすることでレンダリング禁止位置を指定できる。なお、全属性値及び禁止位置を示す記号は上記のものに限らず、適宜設定することができる。

優先レンダリング位置メタデータの別の使い方として、
(1)左・後・上層 (2)左・後・中層
のように、左右方向、前後方向、上下方向を組み合わせて優先レンダリング位置を指示する場合、次のように表示することができる。
[(lbU)/(lbM)]
この場合、lbUが示すレンダリング位置である[左・後・上層]へのレンダリングが最優先され、その次にlbMが示す[左・後・中層]へのレンダリングが選択されることを示す。また、全属性値*を用いると、
[(lb*)/(***)]
のように[左・後]にレンダリングできない場合はどこにレンダリングしても構わない、という優先レンダリング位置の設定も可能になる。

前述の優先レンダリング位置メタデータを組み合わせて[￢(lbU)]のように記述すると、[左・後・上層]へのレンダリングを禁止することができる。

グループ化した複数のオーディオ信号が、全てそのメタデータに基づいてレンダリング可能な場合にのみレンダリングするためのグループフラグを用いることもできる。ここでグループフラグをg（）とし、TpFL（再生位置：φ＝45°，θ＝30°）とTpBL（再生位置：φ＝135°，θ＝30°）に関する優先レンダリング位置がグループ化されている場合について説明する。当該チャンネルの優先レンダリング位置をそれぞれ
TpFL： [l，f，g(U/M)]
TpBL： [l，b，g(U/M)]
とすると、上下方向の制約条件のg(U/M)は、TpFLとTpBLの両チャンネルが、上層（U）（優先度１）または中層（M）（優先度２）に同時にレンダリングできる場合のみレンダリングすることを示す。このグループ化の例は、両者が同じ高さで再生されることが重要であるときに用いられる。

このグループ化された優先レンダリング位置メタデータに基づいてレンダリングを行う場合は、２２．２ｃｈのTpFLは再生位置メタデータに合わせて５．１．２ｃｈのLtfにレンダリングできるが、２２．２ｃｈのTpBLを再生位置メタデータに合わせてレンダリングできるエリアが５．１．２ｃｈにないため（なぜなら、[l，b，U]に対応するレンダリングエリアを実現するスピーカは、５．１．２ｃｈに存在しない）、優先度１のg(U)の条件をTpFL、TpBLが同時に満たすことができない。したがって、TpFL、TpBLともに優先度２の中層（M）でレンダリングすることになる。

図４に、本発明の送信装置のブロック図の一例を示す。本発明の送信装置１００は、オーディオオーサリング装置１０と符号化装置２０を組み合わせた構成を備えている。オーディオオーサリング装置１０の構成は、図１に示したものと同じである。符号化装置２０は、分離部２１と、各データの符号化部２２～２４と、多重化部２５とを備えている。なお、この実施形態では、２２．２ｃｈのオーディオ信号を処理するものとするが、他のマルチチャンネル音響方式や、オブジェクトベース音響等にも適用可能であることは言うまでもない。

オーディオオーサリング装置１０には、２２．２ｃｈオーディオ信号、２２．２ｃｈオーディオ信号の各チャンネル（２４個）の再生位置メタデータ、２２．２ｃｈオーディオ信号の各チャンネルの優先レンダリング位置メタデータが入力され、オーサリングされた２２．２ｃｈオーディオ信号を、符号化装置２０に出力する。

分離部２１は、入力された、オーサリングされた２２．２ｃｈオーディオ信号を、再生位置メタデータ、優先レンダリング位置メタデータ、２２．２ｃｈオーディオ信号に分離する。

メタデータ符号化部２２は、再生位置メタデータを符号化する。また、メタデータ符号化部２３は、優先レンダリング位置メタデータを符号化する。そして、オーディオ信号符号化部２４は、２２．２ｃｈオーディオ信号を所定の符号化方式で符号化する。

次に、多重化部２５は、符号化された再生位置メタデータ、符号化された優先レンダリング位置メタデータ、符号化された２２．２ｃｈオーディオ信号を多重化し、ビットストリームとして出力する。

符号化された再生位置メタデータ及び符号化された優先レンダリング位置メタデータの形式としては、ＭＰＥＧ（Moving Picture Experts Group）－４ＡＡＣ（Advanced Audio Coding）、ＭＰＥＧ－ＤＵＳＡＣ（Unified Speech and Audio Coding）で規定されたＤＳＥ（Data Stream Element）［非特許文献３］、またはMPEG-H 3D Audio［非特許文献２］で規定されたＭＡＥ（Metadata Audio Element）等に適合した形式が想定されるが、この方法に限定するものではない。

また、本実施形態では、送信装置１００は多重化されたビットストリームを出力しているが、符号化されたメタデータは必ずしも符号化されたオーディオ信号に重畳または多重化して取り扱う必要はなく、オーディオ信号とメタデータを異なる経路（例えば放送波とインターネット）で伝送することも可能である。すなわち、符号化されたメタデータは符号化されたオーディオ信号に関連付けされて伝送すればよい。なお、本実施形態では、オーディオオーサリング装置１０と符号化装置２０を組み合わせて送信装置１００を構成することを前提に説明したが、送信装置１００に入力された再生位置メタデータ、優先レンダリング位置メタデータ、及び２２．２ｃｈオーディオ信号をオーサリングすることなく、それぞれを直接符号化し、多重化又は関連付けして出力することも可能である。

ここで、オーディオオーサリング方法についてまとめる。

各オーディオ信号の再生されるべき位置（一般には極座標として）を示したメタデータを生成する。なお、チャンネルベース音響の場合は、オーディオ信号の並び順をもってメタデータに代替することもある。再生空間において、再生位置メタデータに応じた実音源または仮想音源としてレンダリングする方法が明示的に存在しない場合のために、各オーディオ信号のレンダリング位置の優先順位を示すメタデータを生成する。そして、各オーディオ信号と各メタデータを関連付ける。関連付けは、オーディオ信号に直接メタデータを重畳してもよいし、メタデータのみを一括して管理してもよい。

次に、図５に、本発明のオーディオレンダリング装置のブロック図の一例を示す。オーディオレンダリング装置３０は、オーディオ再生装置が有する一機能として位置付けることもできる。本発明のオーディオレンダリング装置３０は、符号化されて伝送されたオーディオ信号を処理することに限られず、オーディオ信号作成環境で生成されたオーディオ信号とメタデータを直接入力し、レンダリング処理を行うことも想定している。

オーディオレンダリング装置３０は、レンダリング可否判定部３１、レンダリング位置決定部３２、再生位置メタデータ置換部３３、及びレンダリング部３４を備えており、再生位置メタデータ、優先レンダリング位置メタデータ、２２．２ｃｈオーディオ信号が入力される。これらのデータ及び信号は、オーディオ信号をオーサリングする際に用いたデータ及び信号に等しい。また、オーディオレンダリング装置３０には、再生環境におけるレンダリング可能なエリアを示したレンダリングエリアメタデータが、予め入力されているものとする。なお、この実施形態では、２２．２ｃｈのオーディオ信号を処理するものとするが、他のマルチチャンネル音響方式や、オブジェクトベース音響等にも適用可能である。

レンダリング可否判定部３１は、再生位置メタデータとレンダリングエリアメタデータに基づいて、各オーディオ信号（例えば、２２．２ｃｈのオーディオ信号それぞれ）に関してレンダリングの可否（再生位置メタデータの指定する位置で信号再生が可能か否か）を判定する。なお、レンダリング可否の判定は、オーディオレンダリング装置３０の仕様及び／又は性能に依存し、必ずしもスピーカがレンダリングエリアに存在することが条件とはならない。レンダリング可と判定された場合（safe）、再生位置メタデータは、レンダリング部３４に出力される。また、レンダリング不可と判定された場合（fail）、レンダリング不可の情報が、レンダリング位置決定部３２に出力される。

レンダリング位置決定部３２は、優先レンダリング位置メタデータとレンダリングエリアメタデータに基づいて新たなレンダリング位置を決定する。優先レンダリング位置メタデータの優先順序に従って、順次、再生位置の可能性を調べ、再生可能なレンダリング位置を決定する。決定した新たなレンダリング位置は、再生位置メタデータ置換部３３に出力される。グループフラグが存在する場合は、グループ化された複数のオーディオ信号に対するレンダリング位置決定を並行しておこなう。

再生位置メタデータ置換部３３は、レンダリング位置決定部３２で決定した新たなレンダリング位置に基づいて、元の再生位置メタデータを置換する。置換済みの再生位置メタデータは、レンダリング部３４に出力される。

レンダリング部３４は、再生位置メタデータ又は置換済みの再生位置メタデータ（新たなレンダリング位置）とオーディオ信号が入力され、レンダリングの処理を行う。具体的には、予め組み込まれたレンダリング則（例えば、ＶＢＡＰ（Vector Base Amplitude Panning）［非特許文献５]や各オーディオ信号を直接スピーカに割り当てる方法など）に従って、再生位置メタデータの情報、又は再生位置メタデータ置換部３３で置換された新たな再生位置メタデータに従ってレンダリング先スピーカを決定し、分配するオーディオ信号のレベルや位相・周波数特性等を決定する。そして、レンダリングされたオーディオ信号を、再生デバイスであるスピーカ４０（４０₁～４０_n）に出力する。

なお、上記オーディオレンダリング装置３０では、再生位置メタデータ置換部３３で元の再生位置メタデータを新たなレンダリング位置に置換したが、この置換処理を省略して、レンダリング位置決定部３２で決定した新たなレンダリング位置を直接レンダリング部３４に入力し、新たなレンダリング位置に基づいてレンダリングを行ってもよい。

図６に、本発明の受信装置のブロック図の一例を示す。本発明の受信装置２００は、復号装置５０とオーディオレンダリング装置３０を組み合わせた構成を備えている。オーディオレンダリング装置３０の構成は、図５に示したとおりである。復号装置５０は、分離部５１と、各データの復号部５２～５４を備えている。受信装置２００は、送信側から、符号化されたオーディオ信号と符号化されたメタデータを含むビットストリームを受信する。

復号装置５０の分離部５１は、入力されたビットストリームを、符号化された再生位置メタデータ、符号化された優先レンダリング位置メタデータ、符号化された２２．２ｃｈオーディオ信号に分離する。なお、この実施形態では、２２．２ｃｈのオーディオ信号を処理するものとするが、他のマルチチャンネル音響方式や、オブジェクトベース音響等であってもよい。

メタデータ復号部５２は、符号化された再生位置メタデータを復号処理し、再生位置メタデータを生成する。また、メタデータ復号部５３は、符号化された優先レンダリング位置メタデータを復号処理し、優先レンダリング位置メタデータを生成する。そして、オーディオ信号復号部５４は、所定の復号処理により２２．２ｃｈオーディオ信号を生成する。復号された再生位置メタデータ、優先レンダリング位置メタデータ、２２．２ｃｈオーディオ信号は、オーディオレンダリング装置３０に出力される。

オーディオレンダリング装置３０の構成及び処理内容は、図５で説明したとおりであり、入力された再生位置メタデータ、優先レンダリング位置メタデータ、及び２２．２ｃｈオーディオ信号と、別途入力されるレンダリングエリアメタデータとに基づいて、レンダリングされたオーディオ信号を、再生デバイスであるスピーカ４０（４０₁～４０_n）に出力する。

なお、本発明は、送信装置１００と受信装置２００との組み合わせによる運用が想定されるが、符号化装置２０及び復号装置５０を除いた、前述のオーディオオーサリング装置１０とオーディオレンダリング装置３０の組み合わせでも運用可能である。

次に、優先レンダリング位置メタデータを用いて、再生位置を置換する処理について、具体的に例を用いて説明する。

（例１）
図７に、優先レンダリング位置メタデータを用いて、再生位置を決定する一例を示す。ここでは、２２．２ｃｈのBC（再生位置φ=180°，θ=0°）を、５．１．２ｃｈの再生環境にレンダリングする場合を考える。

図７には、２２．２ｃｈのBCチャンネル（ハッチング表示されたスピーカ）と、５．１．２ｃｈの中層のレンダリングエリア及び再生スピーカの関係が図示されている。BCの優先レンダリング位置は[c，b/f，M]であるとする。図７のレンダリングエリア（グレーで示された領域）内にBCの再生位置（φ=180°，θ=0°）が存在しないため、優先度１のbはスキップされ、優先度２のfが採用されることになる。その結果、[c，f，M]に対応するレンダリングエリア内で適切なレンダリング先として、Cスピーカ（○印）が選択される。

（例２）
２２．２ｃｈのBtFL（再生位置φ=45°，θ=－30°）を、優先レンダリング位置[l，f，B]で５．１．２ｃｈにレンダリングする場合を考える。この場合、再生環境に下層のスピーカがないため、レンダリング可否判定部３１はレンダリング不可と判定する。さらにレンダリング位置決定部３２も優先レンダリング位置メタデータに基づいてレンダリング不可と判定し、BtFLのオーディオ信号は不再生（ミュート）になる。

（例３）
２２．２ｃｈのTpFL（再生位置φ=45°，θ=30°）とTpBL（再生位置φ=135°，θ=30°）をレンダリングする場合を考える。どちらのチャンネルも左及び上層にレンダリングすることを優先させるなら、TpFLの優先レンダリング位置メタデータを[l，*，U]、TpBLの優先レンダリング位置メタデータを[l，*，U]と記述することになる。この条件で５．１．２ｃｈへレンダリングする場合、TpFL、TpBLは共にLtfへレンダリングされる。

（例４）
図８に、優先レンダリング位置メタデータを用いて、再生位置を決定する別の例を示す。ここでは、２２．２ｃｈを５．１．２ｃｈの再生環境にレンダリングする際に、２２．２ｃｈのTpSiL（再生位置φ=90°，θ=30°）とTpBL（再生位置φ=135°，θ=30°）の前後関係を維持したまま同一の層にレンダリングしたい場合を考える。

図８には、TpSiL，TpBLチャンネル（ハッチング表示されたスピーカ）と、５．１．２ｃｈの上層と中層のレンダリングエリア及び再生スピーカの関係が図示されている。本例では再生環境で実際に設置された５．１．２ｃｈのLSとRSは90°と－90°であったと仮定している。TpSiLの優先レンダリング位置メタデータを[l，g₁(s/f)，g₂(U/M)]、TpBLの優先レンダリング位置メタデータを[l，g₁(b/s），g₂(U/M)]とする。

図８の左の５．１．２ｃｈの上層においてはレンダリングエリアにTpSiL及びTpBLが含まれず、レンダリング不可である。次にg₂ に従って中層でのレンダリングを検討する。g₁に従ったレンダリングを検討するとTpSiLのg₁(s)はLSにレンダリング可能だが、TpBLのg₁(b)がレンダリング不可である。そこでg₁における第２の優先順位に従ってTpSiLをg₁(f)、TpBLをg₁(s)の条件でレンダリングすることを考えると、それぞれLとLSのスピーカ（○印）から再生でき、レンダリング可能である。

このように、５．１．２ｃｈのように上層の後方にチャンネルを持たない音声フォーマットにおいて、前後情報の縮減を防ぐことができる。また、前と横にしかレンダリングエリアがない再生環境においては、前述の優先レンダリング位置メタデータによってTpSiLを前、TpBLを横にレンダリングできることになり、元の２２．２ｃｈ時の前後情報を維持することができる。

なお、ここでは、２２．２ｃｈの信号を５．１．２ｃｈで再生する例を説明したが、例示した２２．２ｃｈ及び５．１．２ｃｈ以外のマルチチャンネル音響方式や、複数のオーディオ信号を扱うオブジェクトベース音響等にも適用可能である。

図９は、オーディオレンダリングのフローチャートの一例である。オーディオレンダリングは、以下のステップ１～９を行う。

ステップ１（Ｓ１）：オーディオ信号を取得する。

ステップ２（Ｓ２）：再生位置メタデータを取得する。

ステップ３（Ｓ３）：再生環境におけるレンダリングエリアメタデータを取得する。なお、ステップ１～３は、どのような順で行ってもよい。

ステップ４（Ｓ４）：各データを取得した後、レンダリングエリアメタデータと再生位置メタデータとを対比し、再生位置メタデータに従ってレンダリングが可能かどうか判定する。なお、この判定はチャンネルごとに行う。レンダリング可能な場合はステップ８に進み、レンダリング不可の場合はステップ５に進む。

ステップ５（Ｓ５）：優先レンダリング位置メタデータを取得する。

ステップ６（Ｓ６）：レンダリングエリアメタデータと優先レンダリング位置メタデータとを対比し、優先レンダリング位置メタデータに従ってレンダリング可能かどうか判定する。なお、この判定はチャンネルがグループ化されている場合はグループごとに行う。レンダリング可能な場合は、新たなレンダリング位置を決定してステップ８に進み、レンダリング不可の場合はステップ７に進む。

ステップ７（Ｓ７）：優先レンダリング位置メタデータを用いてもレンダリング不可の場合は、当該オーディオ信号は不再生とし、処理を終了する。

ステップ８（Ｓ８）：再生位置メタデータ又は新たなレンダリング位置に基づいてオーディオ信号をレンダリングし、レンダリング先のスピーカを決定する。

ステップ９（Ｓ９）：決定されたスピーカに基づき、所定のレンダリング手法により各オーディオ信号の位相・音量調整等を行い、レンダリングを行う。その後、処理を終了する。

図９のフローチャートに基づいて、オーディオレンダリング方法についてまとめる。

オーディオ信号ごとに、再生位置メタデータと各再生装置固有のレンダリングエリアメタデータに基づき、再生位置メタデータに基づくレンダリングの可否を判定する。レンダリング可否判定の否決を受けて、優先レンダリング位置メタデータとレンダリングエリアメタデータから新たなレンダリング位置を決定する。再生位置メタデータ又は新たなレンダリング位置に基づいてオーディオ信号をレンダリングし、再生デバイスに出力する。

図１０は、優先レンダリング位置メタデータのビットストリームシンタックスの例である。この例では、優先レンダリング位置メタデータを扱うシンタックスとしてrendering_priority（）を規定する。

シンタックスの記述内容について説明する。

rendering_priority_statusは優先レンダリング位置メタデータの有無を示すフラグであり、“0”で無、“1"で有を示す。“0"の場合は、後続の一連のsyntaxは無効となる。
rendering_priority_typeは、優先レンダリングの記述形式を示しており、“0”で属性値ごとの記述、“1”でレンダリングエリアごとの記述を表す。
num_component_lrは、水平面内における左右方向の属性値の数、num_component_fbは、水平面内における前後方向の属性値の数、num_component_ubは、空間における上下方向の属性値の数を格納する。
component_lr_indexは水平面内における左右方向の属性値のインデックスを格納し、例えば図１１のように関連付ける。
component_fb_indexは水平面内における前後方向の属性値のインデックスを格納し、例えば図１２のように関連付ける。
component_ub_indexは空間における上下方向の属性値のインデックスを格納し、例えば図１３のように関連付ける。
group_statusは優先レンダリング位置メタデータにおけるグルーピングの有無を示すフラグであり、“0”で無、“1”で有を示す。“0”の場合は、グルーピングに係るsyntaxは無効となる。
num_groupは当該オーディオ信号の優先レンダリング位置メタデータのうち、グルーピングされるメタデータの数を示す。
group_classは当該オーディオ信号の優先レンダリング位置メタデータ内のグループの通し番号を示す。
group_component_indexはグルーピングされる属性のインデックスを示し、例えば図１４のように関連付けられる。
group_component_rankはグルーピングされる属性値の優先順位を示す。
num_areaは優先レンダリング位置メタデータに記述されるレンダリングエリアの個数を示す。
area_lr_indexはレンダリングエリアにおける左右方向の属性値の優先順位ごとのインデックスを格納し、例えば図１１と同様に関連づける。
area_fb_indexはレンダリングエリアにおける前後方向の属性値の優先順位ごとのインデックスを格納し、例えば図１２と同様に関連づける。
area_ub_indexはレンダリングエリアにおける上下方向の属性値の優先順位ごとのインデックスを格納し、例えば図１３と同様に関連づける。

上記のようなシンタックスを利用して、優先レンダリング位置メタデータを記述することができる。

なお、上述したオーディオオーサリング装置１０、オーディオレンダリング装置３０、送信装置１００及び受信装置２００として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、各装置の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録可能である。

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１０オーディオオーサリング装置
１１メタデータ関連付け部
２０符号化装置
２１分離部
２２，２３メタデータ符号化部
２４オーディオ信号符号化部
２５多重化部
３０オーディオレンダリング装置
３１レンダリング可否判定部
３２レンダリング位置決定部
３３再生位置メタデータ置換部
３４レンダリング部
４０スピーカ
５０復号装置
５１分離部
５２，５３メタデータ復号部
５４オーディオ信号復号部
１００送信装置
２００受信装置

Claims

マルチチャンネルのオーディオ信号と、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとが入力され、
前記マルチチャンネルのオーディオ信号に前記再生位置メタデータと前記優先レンダリング位置メタデータとを関連付けるメタデータ関連付け部を備え、
前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定することを特徴とする、オーディオオーサリング装置。
請求項１に記載のオーディオオーサリング装置において、前記優先レンダリング位置メタデータは、複数のオーディオ信号をグループ化し、第１のオーディオ信号の優先レンダリング位置と第２のオーディオ信号の優先レンダリング位置とを関連付けて設定可能なことを特徴とする、オーディオオーサリング装置。
請求項１又は２に記載のオーディオオーサリング装置と、符号化装置とを備えた送信装置であって、
前記符号化装置は、
前記オーディオオーサリング装置の出力を前記オーディオ信号と前記再生位置メタデータと前記優先レンダリング位置メタデータとに分離する分離部と、
前記オーディオ信号と前記再生位置メタデータと前記優先レンダリング位置メタデータをそれぞれ符号化する符号化部と、を備え、
符号化された前記オーディオ信号と符号化された前記再生位置メタデータ及び前記優先レンダリング位置メタデータとを多重化して又は関連付けて伝送することを特徴とする、送信装置。
マルチチャンネルのオーディオ信号と、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとに基づいて、レンダリングを行うオーディオレンダリング装置であって、
前記オーディオ信号ごとに、前記再生位置メタデータと再生環境のレンダリングエリアメタデータに基づき、前記再生位置メタデータに基づくレンダリングの可否を判定するレンダリング可否判定部と、
前記レンダリング可否判定部の否決を受けて、前記優先レンダリング位置メタデータと前記レンダリングエリアメタデータから前記オーディオ信号の新たなレンダリング位置を決定するレンダリング位置決定部であって、前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定するデータである、レンダリング位置決定部と、
前記再生位置メタデータを前記新たなレンダリング位置に置換する再生位置メタデータ置換部と、
前記オーディオ信号を、前記再生位置メタデータ又は置換済みの再生位置メタデータに基づいてレンダリングするレンダリング部と、
を備えることを特徴とする、オーディオレンダリング装置。
復号装置と、請求項４に記載のオーディオレンダリング装置とを備えた受信装置であって、
前記復号装置は、
受信した信号を、符号化された前記オーディオ信号と符号化された前記再生位置メタデータと符号化された前記優先レンダリング位置メタデータとに分離する分離部と、
符号化された前記オーディオ信号と符号化された前記再生位置メタデータと符号化された前記優先レンダリング位置メタデータをそれぞれ復号する復号部とを備え、
復号された前記マルチチャンネルのオーディオ信号と前記再生位置メタデータと前記優先レンダリング位置メタデータとを、前記オーディオレンダリング装置に出力することを特徴とする、受信装置。
マルチチャンネルのオーディオ信号に対して、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとを生成し、
前記マルチチャンネルのオーディオ信号に前記再生位置メタデータと前記優先レンダリング位置メタデータとを関連付け、
前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定することを特徴とする、マルチチャンネルのオーディオ信号をオーサリングする方法。
マルチチャンネルのオーディオ信号と、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとに基づいて、マルチチャンネルのオーディオ信号をレンダリングする方法であって、
前記オーディオ信号ごとに、前記再生位置メタデータと再生環境のレンダリングエリアメタデータに基づき、前記再生位置メタデータに基づくレンダリングの可否を判定し、
レンダリングの前記判定の否決を受けて、前記優先レンダリング位置メタデータと前記レンダリングエリアメタデータから前記オーディオ信号の新たなレンダリング位置を決定し、
前記オーディオ信号を、前記再生位置メタデータ又は前記新たなレンダリング位置に基づいてレンダリングし、
前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定するデータであることを特徴とする、マルチチャンネルのオーディオ信号をレンダリングする方法。