JP2017215595A

JP2017215595A - 音響信号再生装置

Info

Publication number: JP2017215595A
Application number: JP2017132946A
Authority: JP
Inventors: 渡辺　馨; Kaoru Watanabe; 馨渡辺; 大出　訓史; Norifumi Oide; 訓史大出; 郁子澤谷; Ikuko Sawatani; ジェヒョンユ; Jaehyoun Yoo; テジンイ; Te-Jin Yi; キョンオクカン; Kyeong Ok Kang
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp; Electronics and Telecommunications Research Institute ETRI
Current assignee: Japan Broadcasting Corp; Electronics and Telecommunications Research Institute ETRI
Priority date: 2017-07-06
Filing date: 2017-07-06
Publication date: 2017-12-07
Anticipated expiration: 2033-01-23
Also published as: JP6670802B2

Abstract

【課題】「複数の音響空間層を持つ音響信号」の形式に対応した音響信号記述法、音響信号記述法に対応した音響信号作成装置及び音響信号受信装置を提供する。
【解決手段】複数の音響空間層を表現できる音響信号記述法であって、音響空間層の数と、音響空間層のタイプと、言語情報と、を含む。音響空間層のタイプは、音響空間層が、言語に係らず使用されるインターナショナルサウンドの音響空間層であるか、特定の言語で構成される音響空間層であるか、を示す。
【選択図】図１

Description

この発明は、複数チャンネルのスピーカによる音響再生のため、メタデータを用いて音
響信号に関する情報を表現する音響信号記述法、音響信号作成装置、音響信号再生装置に
関する。

2チャンネル音響方式、5.1チャンネル音響方式や、5.1チャンネル音響方式を超えた「3
次元(立体)音響方式」など複数の音響方式の形式で番組制作が行われている。これらの音
響方式を共通のフォーマットで表現することで、次世代オーディオシステムに適用可能で
あり種々の方面への活用が可能な柔軟なシステムとすることができる。オーディオ関連の
国際標準化団体であるITU-Rでは、ITU-R勧告としてadvanced multichannel audio system
に対する要求条件を定めている（非特許文献１）。

"Performance requirements for an advanced multichannel stereophonic sound system for use with or without accompanying picture", ITU-R勧告BS.1909

種々の音響方式を表現可能な共通のフォーマットとして、「単一の音響空間層を持つ音
響信号」の検討は進んでいる。しかし、番組制作において、番組交換時の受取先や家庭の
環境に合わせて受信した音響信号の変形・変換・入替を容易に行うことができるように「
複数の音響空間層を持つ音響信号」の形式で音響番組制作を行う場合がある。例えば、番
組交換の受取先や家庭においては、番組制作と同一条件の映像ディスプレイサイズを用い
ない場合があり、受取先の映像環境に合わせて音響信号の変形が必要とされる。また、番
組の再生言語の選択や受取先の要望に合わせてナレーション信号の再生位置の調整を行い
たいことがある。従来、「複数の音響空間層を持つ音響信号」の記述法については検討さ
れていなかった。

したがって、かかる点に鑑みてなされた本発明の目的は、「複数の音響空間層を持つ音
響信号」の形式に対応した音響信号記述法及び当該音響信号記述法に対応した音響信号作
成装置及び音響信号再生装置を提供することにある。

上述した諸課題を解決すべく、本発明に係る音響信号記述法は、複数の音響空間層を表
現できる音響信号記述法であって、音響空間層の数と、音響空間層のタイプと、言語情報
と、を含むものである。

また、前記音響空間層のタイプは、音響空間層が、言語に係らず使用されるインターナ
ショナルサウンドの音響空間層であるか、特定の言語で構成される音響空間層であるか、
を示す、ことが好ましい。

さらに、本発明に係る音響信号記述法は、複数の音響空間層を表現できる音響信号記述
法であって、音響空間層の数と、各音響空間層が映像に連動するかどうかを示す映像リン
ク識別子と、を含むものである。

さらに、本発明に係る音響信号作成装置は、複数の音響空間層を表現できる音響信号記
述法による音響信号を作成する音響信号作成装置であって、音響空間層の数と、音響空間
層のタイプと、言語情報とを含むメタデータを作成するメタデータ付加部と、入力音響信
号及び前記メタデータに基づき前記音響信号記述法による前記音響信号を作成するコーデ
ィング部と、前記音響信号をビットストリームに多重化するマルチプレクサと、を備える
ものである。

さらに、本発明に係る音響信号再生装置は、複数の音響空間層を表現できる音響信号記
述法による音響信号を再生する音響信号再生装置であって、視聴者の環境情報を入力する
環境情報入力部と、前記音響信号に含まれる音響空間層の数、音響空間層のタイプ、及び
言語情報と、前記環境情報とに応じて、前記音響信号を変換して再生するレンダリング再
生部と、を備えるものである。

また、前記音響空間層のタイプは、音響空間層が、言語に係らず使用されるインターナ
ショナルサウンドの音響空間層であるか、特定の言語で構成される音響空間層であるか、
を示し、前記レンダリング再生部は、前記環境情報入力部により選択された前記特定の言
語の音響信号を、前記インターナショナルサウンドに加算して再生することが好ましい。

さらに、本発明に係る他の音響信号作成装置は、複数の音響空間層を表現できる音響信
号記述法による音響信号を作成する音響信号作成装置であって、音響空間層の数と、各音
響空間層が映像に連動するかどうかを示す映像リンク識別子とを含むメタデータを作成す
るメタデータ付加部と、入力音響信号及び前記メタデータに基づき前記音響信号記述法に
よる前記音響信号を作成するコーディング部と、前記音響信号をビットストリームに多重
化するマルチプレクサと、を備えるものである。

さらに、本発明に係る他の音響信号再生装置は、複数の音響空間層を表現できる音響信
号記述法による音響信号を再生する音響信号再生装置であって、視聴者の環境情報を入力
する環境情報入力部と、前記音響信号に含まれる音響空間層の数及び各音響空間層が映像
に連動するかどうかを示す映像リンク識別子と、前記環境情報とに応じて、前記音響信号
を変換して再生するレンダリング再生部と、を備えるものである。

また、前記レンダリング再生部は、前記映像リンク識別子が、音響空間層が映像に連動
することを示す場合、当該音響空間層の音響信号に、前記環境情報入力部からの映像ディ
スプレイの情報に基づくレンダリング処理を施して再生する、ことが好ましい。

本発明に係る音響信号記述法、音響信号作成装置及び音響信号再生装置によれば、「複
数の音響空間層を持つ音響信号」の表現や、当該音響信号を用いた番組作成及び視聴が可
能となる。

本発明の一実施形態に係るExtended structure descriptorの構造の一例を示す図である。本発明の一実施形態に係る音響信号作成装置の構成を示す図である。本発明の一実施形態に係る音響信号再生装置の構成を示す図である。ナレーション言語選択に関する複数音響空間層の概念図である。番組作成環境と視聴環境とのディスプレイの違いを示す図である。映像音声の一致不一致に関する複数音響空間層の概念図である。 Basic structure descriptorの構造の一例を示す図である。

以降、諸図面を参照しながら、本発明の実施態様を詳細に説明する。

本発明は、「単一の音響空間層を持つ音響信号」を表現する記述法（以下「Basic stru
cture descriptor」という）を拡張し、「複数の音響空間層を持つ音響信号」を表現する
記述法（以下「Extended structure descriptor」という）とするものである。Basic str
ucture descriptorについて、本件出願人は韓国特許出願（10-2012-0112984）を行ってお
り、本件の理解のため、以下、Basic structure descriptorを概説する。

マルチチャンネルの音響空間層を表現するためには、どのチャンネルをどの位置から再
生するかを記述しなければならない。この記述情報をdescriptorと呼び、この記述情報は
メタデータとして該当マルチチャンネル音響信号のヘッダ又はマルチチャンネルを構成す
る各オーディオチャンネルのヘッダに記述される。

表１は、Basic structure descriptorの用語を説明する表である。Basic structure de
scriptorは、例えばマルチチャンネル音響の完プロ番組（complete mix、再生に必要な音
が全て収録された番組）の作成・交換に使用される。

Sound Essenceは、番組に関する記述、Sound-fieldに関する記述（名称）、その他関連
する記述で構成される。

Sound-fieldは、図７に示すとおり、階層的な構成をもつSound-field configurationで
記述する。

Sound Channelは、Channel labelによる記述、及び／又は、Channel Positionによる記
述で記述する。

これ以降、Basic structure descriptorの各記述子（descriptor）を説明する。なお、
多様な交換シナリオを想定し、一部記述子には重複する項目があるが、番組作成者などは
、交換シナリオ毎に適宜必要な記述子を選択することができる。

Basic structure descriptorは、(A)Sound Essence descriptorsと、(B)Sound-field c
onfiguration descriptorsと、(C)Sound Channel descriptorsとを含む。

表２は、Basic structure descriptorにおける(A)Sound Essence descriptorsを示す表
である。

表３は、Basic structure descriptor における(B)Sound-field configuration descri
ptorsを示す表である。

表４は、Basic structure descriptor における(C)Sound Channel descriptorsを示す
表である。

表５は、Sound Channel descriptorsが含むChannel label dataの記述子であるC.1 Cha
nnel label descriptorsを示す表である。

表６は、Sound Channel descriptorsが含むChannel position dataの記述子であるC.2
Channel position descriptorsを示す表である。

本発明は、上記で述べた「単一の音響空間層を持つ音響信号」の記述法であるBasic St
ructure Descriptorsを拡張し、「複数の音響空間層を持つ音響信号」の記述法であるExt
ended Structure Descriptorsとするものである。

表７は、Extended structure descriptorの用語を説明する表である。

Extended structure descriptorにおけるSound-fieldは、図１の通り、階層的な構成を
もつ複数のSound-field-layer configuration(Group of sound-field configuration) (S
ound space configuration)で記述する。

表８は、Extended structure descriptor における(A)Sound Essence descriptorsを示
す表である。

表９は、Extended structure descriptor におけるA.2 Sound-field descriptorsを示
す表である。

Extended structure descriptorにおける（B）Sound-field configuration descriptor
sと、（C）Sound Channel descriptorsについては、Basic structure descriptorと同一
であるため、説明を省略する。

図２は、本発明の一実施形態に係る音響信号作成装置の構成を示す図である。音響信号
作成装置は、番組制作において、番組交換の受取先や家庭での環境に合わせて受信した音
響信号の変形・変換・入替を「容易に」行うことができるように「複数の音響空間層を持
つ音響信号」の形式であるExtended structure descriptorによる音響番組制作を行う。
音響信号作成装置は、Extended structure descriptorを、メタデータとして該当音響フ
ォーマット信号のヘッダまたは各音響信号を構成する各ヘッダに入れて、番組交換や家庭
への伝送を行う。音響信号作成装置は、ミキシング部１１と、メタデータ付加部１２と、
コーディング部１３と、マルチプレクサ１４と、モニタリング部１５とを備える。

ミキシング部１１は、音響ソース信号（Audio Source 1〜M）をミキシングし「複数の
音響空間層を持つ音響信号制作システム」から出力されるSpatial anchor、Commentary、
Dialogue、Object signalsを含む複数の音響空間層の音響ミキシング信号をコーディング
部１３に出力する。

メタデータ付加部１２は、Spatial anchor、Commentary、Dialogue、Object signalsを
含む複数の音響空間層のExtended structure descriptorに記述するメタデータを作成し
、コーディング部１３に出力する。

コーディング部１３は、ミキシング部１１からの音響ミキシング信号と、メタデータ付
加部１２からのメタデータに基づき、Extended structure descriptorによる音響信号を
作成し、当該音響信号を符号化してマルチプレクサ１４に出力する。

マルチプレクサ１４は、放送又は伝送により信号を音響信号再生装置に伝えるため、コ
ーディング部１３からの符号化されたExtended structure descriptorによる音響信号を
ビットストリームに多重化する。マルチプレクサ１４は、多重化したビットストリームを
電波またはＩＰ回線等で家庭など遠隔地に伝送する。

モニタリング部１５は、音響信号及びメタデータの内容確認に用いられる。

図３は、本発明の一実施形態に係る音響信号再生装置の構成を示す図である。音響信号
再生装置は、スピーカ配置情報や再生するナレーション音像の位置情報などの再生システ
ムの情報入力により、受信した音響信号に含まれるメタデータを利用して、制作した臨場
感に匹敵する高品質音響を保持しつつ、使用者の希望するナレーション言語やナレーショ
ン再生位置にナレーション音声を制御して再現する。また、音響信号再生装置は、制作条
件と異なるサイズの映像ディスプレイを設置した視聴環境においては、制作した臨場感に
匹敵する高品質音響を保持しつつ、かつ映像と音像位置の一致が必要な「映音一致音源」
の音響空間層については映像ディスプレイにあわせるように音像の空間位置を制御するこ
とで映像ディスプレイにあった音響を再現する。音響信号再生装置は、デマルチプレクサ
２１と、デコーディング部２２と、レンダリング再生部２３と、環境情報入力部２４と、
モニタリング部２５とを備える。

デマルチプレクサ２１は、放送又は伝送により受信したビットストリームに多重化され
たExtended structure descriptorによる音響信号より、各音響空間層の音響信号及びメ
タデータを分離してデコーディング部２２に出力する。

デコーディング部２２は、デマルチプレクサ２１からの符号化された音響信号及びメタ
データをデコードし、Spatial anchor、Commentary、Dialogue、Object signals、メタデ
ータを含む信号をレンダリング再生部２３に出力する。

レンダリング再生部２３は、Extended structure descriptorに基づき、本来の音響信
号をそのまま再生したり、視聴環境（例えばスピーカのチャネル数、ディスプレイサイズ
）に基づくダウンミックスなどの音響信号変換を行ってから音響信号を再生したりする。
すなわち、レンダリング再生部２３は、Extended structure descriptorに基づき、番組
作成時と異なる音響再生環境において、音響信号の入替え、変形及び変換などのレンダリ
ング処理をするものである。

環境情報入力部２４は、Extended structure descriptorとして記載されるメタデータ
の情報を視聴者に対して表示し、また、視聴者側にて、視聴者の環境情報として、多重音
声の言語選択、再生システム情報（スピーカ構成、ディスプレイサイズ）などの入力を受
け付け、入力された情報をレンダリング再生部２３に出力する。

モニタリング部２５は、レンダリング再生部２３による再生結果の確認や番組の視聴に
用いられる。

以下、音響信号作成装置及び音響信号再生装置の具体的な使用形態について述べる。例
えば、本発明に係る音響信号作成装置及び音響信号再生装置によれば、家庭視聴の環境に
合わせて、ナレーション言語の選択やナレーション再生位置を容易に制御することが可能
となる。また、本発明に係る音響信号作成装置及び音響信号再生装置によれば、標準制作
条件と異なるサイズの映像ディスプレイを設置した視聴環境において、制作した臨場感に
匹敵する高品質音響を保持しつつ、かつ映像と音像位置の一致が必要な「映音一致音源」
の音響空間層については映像ディスプレイにあわせるように音像の空間位置を容易に制御
して再生することが可能となる。

（作成形態１：複数言語に関する音響空間層を含む信号作成）
「複数の音響空間層を持つ音響信号」の形式であるExtended Structure descriptorを
用いて番組制作を行う一例として、日本語や韓国語ナレーション・せりふ用の音響信号の
ほか、英語など多言語用の音響信号を制作する場合について示す。この例では、言語にか
かわらず使用するいわゆるインターナショナルサウンド(Spatial anchor)で構成される音
響空間層と特定言語で構成されるナレーション・せりふで構成される複数の音響空間層(C
ommentary, Dialogue)からなる「複数の音響空間層を持つ音響信号」の形式で音響信号制
作システムが構成される。

この場合、メタデータ付加部１２は、Extended Structure descriptorに則り、表１０
に示すメタデータを該当マルチチャンネル音響フォーマット信号のヘッダまたはマルチチ
ャンネルを構成する各オーディオチャンネルの各ヘッダに付随する。

（再生形態１：複数言語に関する音響空間層を含む信号再生）
使用者側ではスピーカ配置情報や再生するナレーション音像の位置情報などの再生シス
テムの情報を入力して、使用者が任意に再生する位置の変更など音響信号を操作する。例
えば家庭視聴環境において、制作した臨場感に匹敵する高品質音響を保持しつつ、希望す
るナレーション言語やナレーション再生位置などに関し、音響信号を制御して再現する。

この機能を実現するため、受信する使用者側では、環境情報入力部２４により、再生し
たいナレーション言語やナレーション再生位置など希望するナレーション音声の情報、ス
ピーカの配置情報など再生システムの情報を入力する。レンダリング再生部２３は、メタ
データに記載されている制作されているナレーション言語の中から指定された「ナレーシ
ョン言語」層の音響信号を選択し、言語にかかわらず使用するいわゆるインターナショナ
ルサウンドを加算して再生する。また、レンダリング再生部２３は、希望するナレーショ
ン再生位置とスピーカの配置情報および制作されている「ナレーション言語」層の音響信
号を選択し、指定するナレーション再生位置から得られるようにレンダリング処理を施し
て制作した臨場感に匹敵する音質が得られるように信号に変換したのち、言語にかかわら
ず使用するいわゆるインターナショナルサウンドを加算して再生する。

図４は、言語にかかわらず使用するいわゆるインターナショナルサウンド(Spatial anc
hor)の音響空間層と「ナレーション言語」(Commentary, Dialogue)の音響空間層からなる
複数の音響空間層の概念図を示す。

（作成形態２：映像と音声との一致不一致に関する音響空間層を含む番組作成）
「複数の音響空間層を持つ音響信号」の形式であるExtended Structure descriptorを
用いて番組制作を行う一例として、「映像と音の位置の一致が必要な音」と「映像の位置
に直接係らない音」を別個に制作記録する例を示す。音響信号には、俳優のせりふや画面
内の物体から放射される音のように画面の中の「映像と音の位置の一致が必要な音」のほ
かに、番組全体の臨場感を高めるための効果音など「映像の位置に直接係らない音」があ
り、「映像と音の位置の一致が必要な音」と「映像の位置に直接係らない音」を別個に制
作記録する場合がある。この例では、「映像と音の位置の一致が必要な音」で構成される
音響空間層と「映像の位置に直接係らない音」からなる「複数の音響空間層を持つ音響信
号」の形式で音響信号制作システムが構成される。

この場合、メタデータ付加部１２は、Extended Structure descriptorに則り、表１１
に示すメタデータを該当マルチチャンネル音響フォーマット信号のヘッダまたはマルチチ
ャンネルを構成する各オーディオチャンネルの各ヘッダに付随する。

（再生形態２：映像と音声との一致不一致に関する音響空間層を含む番組再生）
音響信号再生装置は、例えば、図５のような制作条件と異なるサイズの映像ディスプレ
イを設置した視聴環境においては、制作した臨場感に匹敵する高品質音響を保持しつつ、
かつ映像と音像位置の一致が必要な「映音一致音源」の音響空間層については映像ディス
プレイにあわせるように音像の空間位置を制御して再現する。

この機能を実現するため、受信する使用者側では、環境情報入力部２４により、映像デ
ィスプレイの配置情報など再生システムの情報を入力する。レンダリング再生部２３は、
メタデータに記載されている制作時の映像ディスプレイ・スピーカ配置条件と受信使用者
側の映像ディスプレイ・スピーカ配置が同一条件であれば受信した音響信号の変形・変換
を行わず「映像と音の位置の一致が必要な音」と「映像の位置に直接係らない音」を加算
して再生する。一方、レンダリング再生部２３は、映像ディスプレイかスピーカ配置のど
ちらか一方が同一条件でない場合、レンダリング処理またはダウンミックス処理を施して
制作した臨場感に匹敵する音質が得られるように信号に変換したのち、加算して再生する
。映像ディスプレイサイズが異なり、スピーカ配置が同一の場合には、レンダリング再生
部２３は、「映像と音の位置の一致が望ましい音」の層の音響信号は、映像ディスプレイ
サイズと音像の幅が同一となるようにレンダリング処理を施す。レンダリング再生部２３
は、レンダリング処理を施した「映像と音の位置の一致が望ましい音」と変形・変換を行
わない「映像の位置に直接係らない音」を加算して再生する。ここで「映像と音の位置の
一致が望ましい音」の音像幅を映像ディスプレイサイズと合わせるためのレンダリング処
理は「映音一致音源」の音響空間層のChannel position data内で定義される Spatial po
sition dataのAzimuth angleとElevation angleの空間位置情報を利用することで容易に
行うことができる。

図６は、「映音一致音源」の音響空間層(Video linked object)「映像の位置に直接係
らない」音響空間層(Spatial anchor, Dialogue)からなる複数の音響空間層の概念図を示
す。

このように、本実施形態によれば、Extended Structure descriptorは、音響空間層の
数と、音響空間層のタイプと、言語情報と、を含む。これにより、「複数の音響空間層を
持つ音響信号」の形式に対応した音響信号記述法が実現される。

また、音響空間層のタイプは、音響空間層が、言語に係らず使用されるインターナショ
ナルサウンドの音響空間層であるか、特定の言語で構成される音響空間層であるか、を示
す、ことが好ましい。これにより、例えば家庭視聴環境において、制作した臨場感に匹敵
する高品質音響を保持しつつ、希望するナレーション言語やナレーション再生位置などに
関し、音響信号を制御して再現することが可能になる。

さらに、本実施形態によれば、Extended Structure descriptorは、音響空間層の数と
、各音響空間層が映像に連動するかどうかを示す映像リンク識別子と、を含む。これによ
り、例えば制作条件と異なるサイズの映像ディスプレイを設置した視聴環境において、制
作した臨場感に匹敵する高品質音響を保持しつつ、かつ映像と音像位置の一致が必要な「
映音一致音源」の音響空間層については映像ディスプレイにあわせるように音像の空間位
置を制御して再現することが可能になる。

さらに、本実施形態に係る音響信号作成装置及び音響信号再生装置によれば、Extended
Structure descriptorで記述された音響信号を作成及び再生することが可能になる。ま
た、本発明の範囲は、Extended Structure descriptorで記述された音響信号を電波また
はIP回線等で家庭など遠隔地に伝送する装置、Extended Structure descriptorで記述さ
れた音響信号を記憶媒体に蓄積、記録する装置、Extended Structure descriptorで記述
された音響信号が蓄積、記録された記憶媒体をも含むものである。

本発明の一実施形態に係る音響信号作成装置は、音響空間層の数と、音響空間層のタイ
プと、言語情報とを含むメタデータを作成し、入力音響信号及びメタデータに基づきExte
nded Structure descriptorによる音響信号を作成し、当該音響信号をビットストリーム
に多重化する。また、本発明の一実施形態に係る音響信号再生装置は、音響信号に含まれ
る音響空間層の数、音響空間層のタイプ、及び言語情報と、視聴者の環境情報とに応じて
、音響信号を変換して再生する。これにより、「複数の音響空間層を持つ音響信号」を用
いた番組作成及び視聴が可能となる。特に、音響信号再生装置は、視聴者により選択され
た特定の言語の音響信号を、インターナショナルサウンドに加算して再生する。これによ
り、受信したメタデータを用いて視聴者が任意に言語選択などの操作を行い、制作時の臨
場感に匹敵する高品質音を保持しつつ、適切なナレーション言語やナレーション再生位置
の入替・変形を行うことが可能となる。

また、本発明の一実施形態に係る音響信号作成装置は、音響空間層の数と、各音響空間
層が映像に連動するかどうかを示す映像リンク識別子とを含むメタデータを作成し、入力
音響信号及びメタデータに基づきExtended Structure descriptorによる音響信号を作成
し、当該音響信号をビットストリームに多重化する。また、本発明の一実施形態に係る音
響信号再生装置は、音響信号に含まれる音響空間層の数及び各音響空間層が映像に連動す
るかどうかを示す映像リンク識別子と、視聴者の環境情報とに応じて、音響信号を変換し
て再生する。これにより、「複数の音響空間層を持つ音響信号」を用いた番組作成及び視
聴が可能となる。特に、音響信号再生装置は、映像リンク識別子が、音響空間層が映像に
連動することを示す場合、当該音響空間層の音響信号に、視聴者の映像ディスプレイの情
報に基づくレンダリング処理を施して再生する。これにより、視聴者側の映像ディスプレ
イ情報など再生システムの情報を入力し、メタデータに記載されている制作時の映像ディ
スプレイ情報を利用して、制作した臨場感に匹敵する高品質音を保持しつつ、かつ映像と
音像位置の一致が必要な「映音一致音源」の音響空間層については映像ディスプレイにあ
わせるように音像の空間位置を変形・変換することが可能になる。

本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々
の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正
は本発明の範囲に含まれることに留意されたい。例えば、各部材、各手段、各ステップな
どに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の手段やステ
ップなどを１つに組み合わせたり、或いは分割したりすることが可能である。

本発明によれば、「複数の音響空間層を持つ音響信号」の表現や、当該音響信号を用い
た番組作成及び視聴が可能となり、各種次世代オーディオシステムでの相互運用が実現さ
れ、番組作成時と異なる音響再生環境においても容易に音響信号の入替え、変形及び変換
することができる。

１１ミキシング部
１２メタデータ付加部
１３コーディング部
１４マルチプレクサ
１５モニタリング部
２１デマルチプレクサ
２２デコーディング部
２３レンダリング再生部
２４環境情報入力部
２５モニタリング部

この発明は、複数チャンネルのスピーカによる音響再生のため、メタデータを用いて音響信号に関する情報を表現する音響信号再生装置に関する。

したがって、かかる点に鑑みてなされた本発明の目的は、「複数の音響空間層を持つ音響信号」の形式に対応した音響信号を再生する音響信号再生装置を提供することにある。

本発明に係る音響信号再生装置は、音響信号を再生する音響信号再生装置であって、ビットストリームを逆多重化して、複数の音響空間構成（Sound-field configuration）を構成する音響信号とメタデータを出力するデマルチプレクサと、前記メタデータに基づいて前記音響信号をレンダリング処理するレンダリング再生部と、を含み、前記メタデータは、前記音響信号を再生するために予め準備された音響チャンネルの名称を示す音響チャンネルラベル情報、前記音響信号を再生して音響空間を再現するためのスピーカの予め定義された構成又は配置に関する情報、各音響チャンネルが再生される空間位置に対応する方位角（azimuth angle）及び仰角（elevation angle）の情報、及び前記各音響チャンネルが再生される空間位置の許容範囲（Tolerance of Spatial position）に関する情報を含むものである。

さらに、本発明に係る他の音響信号再生装置は、音響信号を再生する音響信号再生装置であって、ビットストリームを逆多重化して、複数の音響空間構成（Sound-field configuration）を構成する音響信号とメタデータを出力するデマルチプレクサと、前記メタデータに基づいて前記音響信号をレンダリング処理するレンダリング再生部と、を含み、前記メタデータは、移動する音響オブジェクトに関する情報、スピーカ配置に対応する音響チャンネル割当（channel allocation）のマッピング情報、各音響チャンネルに対応するスピーカの距離位置データ（Distance position data）、ダウンミキシングを実行するためのダウンミキシング係数（Down-mixing Coefficients）の情報、当該音響チャンネルで伝送される音響信号の指向特性（channel component directivity）の種類に関する情報、及びダイアログの言語に関する情報を含むものである。

本発明に係る音響信号再生装置によれば、「複数の音響空間層を持つ音響信号」の表現や、当該音響信号を用いた番組作成及び視聴が可能となる。

Claims

複数の音響空間層を表現できる音響信号記述法であって、
音響空間層の数と、
音響空間層のタイプと、
言語情報と、を含む音響信号記述法。
前記音響空間層のタイプは、音響空間層が、言語に係らず使用されるインターナショナ
ルサウンドの音響空間層であるか、特定の言語で構成される音響空間層であるか、を示す
、請求項１に記載の音響信号記述法。
複数の音響空間層を表現できる音響信号記述法であって、
音響空間層の数と、
各音響空間層が映像に連動するかどうかを示す映像リンク識別子と、を含む音響信号記
述法。
複数の音響空間層を表現できる音響信号記述法による音響信号を作成する音響信号作成
装置であって、
音響空間層の数と、音響空間層のタイプと、言語情報とを含むメタデータを作成するメ
タデータ付加部と、
入力音響信号及び前記メタデータに基づき前記音響信号記述法による前記音響信号を作
成するコーディング部と、
前記音響信号をビットストリームに多重化するマルチプレクサと、
を備える音響信号作成装置。
複数の音響空間層を表現できる音響信号記述法による音響信号を再生する音響信号再生
装置であって、
視聴者の環境情報を入力する環境情報入力部と、
前記音響信号に含まれる音響空間層の数、音響空間層のタイプ、及び言語情報と、前記
環境情報とに応じて、前記音響信号を変換して再生するレンダリング再生部と、を備える
音響信号再生装置。
前記音響空間層のタイプは、音響空間層が、言語に係らず使用されるインターナショナ
ルサウンドの音響空間層であるか、特定の言語で構成される音響空間層であるか、を示し
、
前記レンダリング再生部は、前記環境情報入力部により選択された前記特定の言語の音
響信号を、前記インターナショナルサウンドに加算して再生する、請求項５に記載の音響
信号再生装置。
複数の音響空間層を表現できる音響信号記述法による音響信号を作成する音響信号作成
装置であって、
音響空間層の数と、各音響空間層が映像に連動するかどうかを示す映像リンク識別子と
を含むメタデータを作成するメタデータ付加部と、
入力音響信号及び前記メタデータに基づき前記音響信号記述法による前記音響信号を作
成するコーディング部と、
前記音響信号をビットストリームに多重化するマルチプレクサと、
を備える音響信号作成装置。
複数の音響空間層を表現できる音響信号記述法による音響信号を再生する音響信号再生
装置であって、
視聴者の環境情報を入力する環境情報入力部と、
前記音響信号に含まれる音響空間層の数及び各音響空間層が映像に連動するかどうかを
示す映像リンク識別子と、前記環境情報とに応じて、前記音響信号を変換して再生するレ
ンダリング再生部と、を備える音響信号再生装置。
前記レンダリング再生部は、前記映像リンク識別子が、音響空間層が映像に連動するこ
とを示す場合、当該音響空間層の音響信号に、前記環境情報入力部からの映像ディスプレ
イの情報に基づくレンダリング処理を施して再生する、請求項８に記載の音響信号再生装
置。