JP6407155B2 - オーディオデータ生成装置及びオーディオデータ再生装置 - Google Patents

オーディオデータ生成装置及びオーディオデータ再生装置 Download PDF

Info

Publication number
JP6407155B2
JP6407155B2 JP2015536716A JP2015536716A JP6407155B2 JP 6407155 B2 JP6407155 B2 JP 6407155B2 JP 2015536716 A JP2015536716 A JP 2015536716A JP 2015536716 A JP2015536716 A JP 2015536716A JP 6407155 B2 JP6407155 B2 JP 6407155B2
Authority
JP
Japan
Prior art keywords
channel
descriptor
audio
information
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015536716A
Other languages
English (en)
Other versions
JP2015534656A (ja
Inventor
ジェヒョン ユ
ジェヒョン ユ
テジン イ
テジン イ
キョンオク カン
キョンオク カン
渡辺 馨
馨 渡辺
大出 訓史
訓史 大出
郁子 澤谷
郁子 澤谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Priority claimed from PCT/KR2013/009112 external-priority patent/WO2014058275A1/ko
Publication of JP2015534656A publication Critical patent/JP2015534656A/ja
Application granted granted Critical
Publication of JP6407155B2 publication Critical patent/JP6407155B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Description

以下の説明は、オーディオデータを生成する方法及びオーディオデータを再生する方法に関する。
近年、3DTVやUHDTVなどのような次世代TVシステム開発と共に、オーディオシステムに対する様々なオーディオ技術が開発されている。これはITU−R Recommend BS.775で定義した5.1チャネル方式より複数のラウドスピーカを用いるマルチチャネルオーディオシステムに対する技術である。
しかし、最近発表されたマルチチャネルオーディオシステムは、独自の方式でマルチチャネルオーディオ信号を表現しているため、特定オーディオ機器を利用しなければ、マルチチャネルオーディオ信号を充分再生することができない問題を抱えている。
したがって、様々なマルチチャネルオーディオ信号を表現しながら、次世代オーディオシステムに適用可能なマルチチャネルオーディオ表現法又は技術法の定義が求められる。
一実施形態に係るオーディオデータ再生装置は、オーディオデータ生成装置によって生成されたビットストリームからマルチチャネルオーディオ信号に関するディスクリプタを抽出するディスクリプタ抽出部と、前記抽出したディスクリプタに基づいて前記マルチチャネルオーディオ信号を再生する再生部とを含む。
一実施形態に係るオーディオデータ再生装置において、前記ディスクリプタは、前記マルチチャネルオーディオ信号に含まれたオーディオ信号に関する情報を含んでもよい。
一実施形態に係るオーディオデータ再生装置において、前記ディスクリプタは、サウンドエッセンスディスクリプタ、サウンドフィールド構成ディスクリプタ、及びサウンドチャネルディスクリプタのうち少なくとも1つを含んでもよい。
一実施形態に係るオーディオデータ再生装置において、前記サウンドチャネルディスクリプタは、チャネルラベルディスクリプタ及びチャネル位置ディスクリプタのうち少なくとも1つを含んでもよい。
一実施形態に係るオーディオデータ再生装置において、前記チャネルラベルディスクリプタは、オーディオ信号の配置順序、オーディオチャネルのラベル、及びチャネルコンポーネントオブジェクトのタイプのうち少なくとも1つに関する情報を含んでもよい。
一実施形態に係るオーディオデータ再生装置において、前記オーディオチャネルのラベルは、水平チャネルラベル、垂直チャネルラベル、距離チャネルラベル、及びオブジェクトチャネルラベルのうち少なくとも1つを含んでもよい。
一実施形態に係るオーディオデータ再生装置において、前記チャネルコンポーネントオブジェクトのタイプは、チャネルコンポーネントの周波数特性情報、チャネルコンポーネントの方向性情報、及び動きのあるオブジェクトに関する情報のうち少なくとも1つを含んでもよい。
一実施形態に係るオーディオデータ再生装置において、前記チャネル位置ディスクリプタは、オーディオ信号の配置順序、空間位置データ、距離位置データ、空間位置の許容範囲、距離位置の許容範囲、及びチャネルコンポーネントオブジェクトのタイプのうち少なくとも1つに関する情報を含んでもよい。
一実施形態に係るオーディオデータ再生装置において、前記空間位置データは、オーディオ信号が再生する空間上の位置を示す方位角及び仰角のうち少なくとも1つに関する情報を含んでもよい。前記空間位置データは、オーディオ信号再生空間における位置を示す時間の動き情報(moving information of time)に関する情報を含んでもよい。
一実施形態に係るオーディオデータ再生装置において、前記空間位置の許容範囲に関する情報は、水平方向の許容範囲、垂直方向の許容範囲、及び空間的位置許容範囲の動き情報(moving information of spatial position tolerance)のうち少なくとも1つに関する情報を含んでもよい。
一実施形態に係るオーディオデータ再生装置において、前記距離位置の許容範囲に関する情報は、距離位置許容範囲(tolerance of the distance position)、及び距離位置許容範囲の動き情報(moving information of distance position tolerance)のうち少なくとも1つに関する情報を含んでもよい。
一実施形態に係るオーディオデータ再生装置において、前記チャネルコンポーネントオブジェクトのタイプは、チャネルコンポーネントの周波数特性情報及びチャネルコンポーネントの方向性情報のうち少なくとも1つを含んでもよい。
一実施形態に係るオーディオデータ再生装置において、前記ディスクリプタに含まれた情報を画面上に表示する表示部をさらに含んでもよい。
一実施形態に係るオーディオデータ生成装置は、マルチチャネルオーディオ信号を表現するためのディスクリプタを生成するディスクリプタ生成部と、前記ディスクリプタと前記マルチチャネルオーディオ信号をビットストリームに生成するビットストリーム生成部とを含む。
一実施形態に係るオーディオデータ生成装置において、前記ビットストリーム生成部は、前記ディスクリプタ及び前記マルチチャネルオーディオ信号を符号化し、多重化してビットストリームを生成してもよい。
一実施形態に係るオーディオデータ生成装置は、前記生成されたビットストリームをオーディオデータ再生装置に送信する送信部をさらに含んでもよい。
一実施形態に係るオーディオデータ再生方法は、オーディオデータ生成装置によって生成されたビットストリームからマルチチャネルオーディオ信号を表現するためのディスクリプタを抽出するステップと、前記抽出したディスクリプタに基づいて前記マルチチャネルオーディオ信号を再生するステップとを含み、前記ディスクリプタは、前記マルチチャネルオーディオ信号に含まれたオーディオ信号に関する情報を含んでもよい。
一実施形態に係るオーディオデータ生成方法は、マルチチャネルオーディオ信号を表現するためのディスクリプタを生成するステップと、前記ディスクリプタと前記マルチチャネルオーディオ信号をビットストリームに生成するステップとを含み、前記ディスクリプタは、前記マルチチャネルオーディオ信号に含まれたオーディオ信号に関する情報を含んでもよい。
一実施形態に係る生成されたオーディオデータを再生する動作を説明するための図である。 一実施形態に係るオーディオデータ生成装置の細部構成を示す図である。 一実施形態に係るオーディオデータ再生装置の細部構成を示す図である。 一実施形態に係るオーディオデータを生成する一例を説明するための図である。 一実施形態に係るオーディオデータを再生する一例を説明するための図である。 一実施形態に係るオーディオデータ生成方法の動作を示すフローチャートである。 一実施形態に係るオーディオデータ再生方法の動作を示すフローチャートである。
以下、実施形態を添付する図面を参照しながら詳細に説明する。以下の特定した構造的ないし機能的な説明は、単に発明の実施形態を説明するための目的で例示されたものであり、発明の範囲が本文に説明された実施形態に限定されるものと解釈されることはない。一実施形態に係るオーディオデータ生成方法はオーディオデータ生成装置によって行われてもよく、オーディオデータ再生方法はオーディオデータ再生装置によって行われてもよい。各図面に提示された同一の参照符号は同一の部材を示す。
図1は、一実施形態に係る生成されたオーディオデータを再生する動作を説明するための図である。
図1を参照すると、オーディオデータ生成装置110は、マルチチャネルオーディオ信号を含むオーディオデータを生成する。マルチチャネルオーディオ信号は、チャネルベースオーディオ信号及びオブジェクトベースオーディオ信号を含む。例えば、マルチチャネルオーディオ信号は、10.2チャネル、22.2チャネルなどのマルチチャネル音響コンテンツを示す。オーディオデータ生成装置110は、オーディオデータ、オーディオデータを再生するために必要なメタデータをビットストリームに生成する。メタデータは、マルチチャネルオーディオ信号を表現できるディスクリプタ(descriptor)を含んでもよい。ディスクリプタは、マルチチャネルオーディオ信号に含まれたオーディオ信号の再生位置などに関する情報を含んでもよい。ディスクリプタは、いかなるオーディオチャネルがどのような位置で再生するかを示す情報などを含んでもよい。オーディオデータ生成装置110は、生成されたビットストリームをオーディオデータ再生装置120に送信する。
オーディオデータ再生装置120は、ビットストリームからマルチチャネルオーディオ信号及びメタデータを抽出する。オーディオデータ再生装置120は、メタデータに含まれたディスクリプタに基づいてマルチチャネルオーディオ信号を再生する。例えば、オーディオデータ再生装置120は、ディスクリプタに含まれた再生情報に基づいてマルチチャネルオーディオ信号をレンダリングしてもよい。オーディオデータ再生装置120は、オーディオデータ再生装置120の再生環境に応じてマルチチャネルオーディオ信号をミキシングし、ミキシングされたマルチチャネルオーディオ信号を再生する。
図2は、一実施形態に係るオーディオデータ生成装置210の細部構成を示す図である。
図2を参照すると、オーディオデータ生成装置210は、ディスクリプタ生成部220及びビットストリーム生成部230を含む。オーディオデータ生成装置210は送信部240及びマルチチャネルオーディオ信号生成部250をさらに含んでもよい。
マルチチャネルオーディオ信号生成部250は、マルチチャネルオーディオ信号を生成する。例えば、マルチチャネルオーディオ信号生成部250は、複数のチャネルオーディオ信号、オブジェクトオーディオ信号、または、チャネルオーディオ信号及びオブジェクトオーディオ信号を用いてマルチチャネルオーディオ信号を生成してもよい。
ディスクリプタ生成部220は、マルチチャネルオーディオ信号を表現するためのディスクリプタを生成する。ディスクリプタは、マルチチャネルオーディオ信号に含まれたオーディオ信号の再生位置に関する情報などを含んでもよい。生成されたディスクリプタは、メタデータを用いてマルチチャネルオーディオフォーマット信号のヘッダに格納されたり、又はマルチチャネルオーディオ信号を構成するそれぞれのオーディオチャネルの各ヘッダに格納される。メタデータは、活用性によって何種類に区分されるが、マルチチャネル音響コンテンツを構成、交換するために適用されることを基本構造(basic structure)と定義する。例えば、基本構造ディスクリプタは、マルチチャネル音響コンテンツ(complete mix)の製造、交換に用いてもよい。
以下、一実施形態に係るディスクリプタの基本構造を説明するようにする。
ディスクリプタで用いられる用語は次の表1のように定義する。
サウンドエッセンス(Sound Essence)はプログラムに関する表現、音場(Sound−field)に関する表現(又は、名称)、その他に関連する情報を記述する。サウンドフィールド(Sound−field)は、階層的な構成を有するサウンドフィールド構成(Sound−field configuration)によって表現されてもよい。サウンドフィールド構成は、複数のサウンドチャネル(Sound Channel)で構成される。サウンドチャネルは、チャネルラベル(Channel label)及びチャネル位置(Channel position)のうち少なくとも1つによる表現で記述される。ディスクリプタ生成部220は、マルチチャネル音響コンテンツが交換される様々なシナリオに応じて必要なディスクリプタを選択する。
ディスクリプタは、サウンドエッセンスディスクリプタ、サウンドフィールド構成ディスクリプタ、及びサウンドチャネルディスクリプタのうち少なくとも1つを含んでもよい。
サウンドエッセンスディスクリプタは、プログラムの名前、サウンドエッセンスのタイプ、サウンドフィールド構成の名前、及び音の大きさ値のうち少なくとも1つに関する情報を含んでもよい。
一実施形態に係るサウンドエッセンスディスクリプタの構成は、次の表2のように示すことができる。
サウンドフィールド構成ディスクリプタは、マルチチャネル配列データを記述する。サウンドフィールド構成ディスクリプタは、サウンドフィールド構成の名前(name of Sound−field configuration)、オーディオチャネルの個数(the number of audio channels)、マルチチャネルオーディオ信号の配列(multichannel sound arrangement description)、オーディオチャネルの割当(list of channel allocation)、タウンミキシング係数(down−mixing coefficient)のうち少なくとも1つに関する情報を含んでもよい。
一実施形態に係るサウンドフィールド構成ディスクリプタの構成は、次の表3のように示すことができる。
サウンドチャネルディスクリプタは、チャネルラベルディスクリプタ(channel label descriptors)及びチャネル位置ディスクリプタ(channel position descriptors)のうち少なくとも1つを含んでもよい。
一実施形態に係るサウンドチャネルディスクリプタの指示子は、次の表4のよう示すことができる。
チャネルラベルディスクリプタは、チャネルラベルデータを記述する。チャネルラベルディスクリプタは、オーディオ信号の配置順序(allocation number)、オーディオチャネルのラベル(channel label)及びチャネルコンポーネントオブジェクトのタイプ(type of channel component object)のうち少なくとも1つに関する情報を含んでもよい。
オーディオチャネルのラベルは、水平チャネルラベル、垂直チャネルラベル、距離チャネルラベル、及びオブジェクトチャネルラベルのうち少なくとも1つを含んでもよい。
チャネルコンポーネントオブジェクトのタイプは、チャネルコンポーネントの周波数特性情報(Nominal frequency range)、チャネルコンポーネントの方向性情報(Type of channel component directivity)、及び動きのあるオブジェクトに関する情報(Moving information)のうち少なくとも1つを含んでもよい。
一実施形態に係るチャネルラベルディスクリプタの構成は、次の表5のように示すことができる。
チャネル位置ディスクリプタは、チャネル位置データを記述する。チャネル位置ディスクリプタは、オーディオ信号の配置順序(allocation number)、空間位置データ(spatial position data)、距離位置データ(distance position data)、空間位置の許容範囲(tolerance of spatial position)、距離位置の許容範囲(tolerance of distance position)、及びチャネルコンポーネントオブジェクトのタイプ(type of channel component object)のうち少なくとも1つに関する情報を含んでもよい。
空間位置データは、オーディオ信号が再生する空間上の位置を示す方位角及び仰角のうち少なくとも1つに関する情報を含んでもよい。
距離位置データは、オーディオ再生空間の中心からオーディオ信号が再生する空間上の位置までの距離を示す。空間位置データは、オーディオ信号再生空間における位置を示す時間の動き情報(moving information of time)に関する情報を含んでもよい。
空間位置の許容範囲に関する情報は、水平方向の許容範囲、垂直方向の許容範囲、及び空間的位置許容範囲の動き情報(moving information of spatial position tolerance)のうち少なくとも1つに関する情報を含んでもよい。
距離位置の許容範囲に関する情報は、オーディオ再生空間の中心からオーディオ信号が再生する空間上の位置までの距離許容範囲、及び動きのあるオブジェクトに関する距離位置許容範囲の動き情報(moving information of distance position tolerance)のうち少なくとも1つに関する情報を含んでもよい。
チャネルコンポーネントオブジェクトのタイプは、チャネルコンポーネントの周波数特性情報及びチャネルコンポーネントの方向性情報のうち少なくとも1つを含んでもよい。
一実施形態に係るチャネル位置ディスクリプタの構成は、次の表6のように示すことができる。
次は、22.2チャネルでマルチチャネルオーディオ信号を記述するためのディスクリプタ構成の一例を示す。
<第1実施形態>
<第2実施形態>
上記のようなディスクリプタ技術方法によって次世代マルチチャネルオーディオ信号を一般の家庭や他国、スタジオでUHDTVなどのような次世代A/Vシステムで活用することができる。
ビットストリーム生成部230は、ディスクリプタとマルチチャネルオーディオ信号をビットストリームに生成する。ビットストリーム生成部230は、ディスクリプタマルチチャネルオーディオ信号を符号化し、多重化してビットストリームを生成する。
送信部240は、生成されたビットストリームをオーディオデータ再生装置に送信する。
図3は、一実施形態に係るオーディオデータ再生装置310の細部構成を示す図である。
図3を参照すると、オーディオデータ再生装置310は、ディスクリプタ抽出部320及び再生部330を含む。オーディオデータ再生装置310は表示部340及びマルチチャネルオーディオ信号抽出部350をさらに含んでもよい。
マルチチャネルオーディオ信号抽出部350は、オーディオデータ生成装置によって生成されたビットストリームからマルチチャネルオーディオ信号を抽出してもよい。
ディスクリプタ抽出部320は、ビットストリームからマルチチャネルオーディオ信号に関するディスクリプタを抽出する。ディスクリプタ抽出部320は、マルチチャネルオーディオフォーマット信号のヘッダ又はマルチチャネルオーディオ信号を構成するそれぞれのオーディオチャネルのヘッダでディスクリプタを抽出する。ディスクリプタは、マルチチャネルオーディオ信号に含まれたオーディオ信号の再生位置に関する情報を含んでもよい。ディスクリプタは、サウンドエッセンスディスクリプタ、サウンドフィールド構成ディスクリプタ、及びサウンドチャネルディスクリプタのうち少なくとも1つを含んでもよい。ディスクリプタに関する内容は、図2と関連して記載された内容を参考する。
再生部330は、抽出したディスクリプタに基づいてマルチチャネルオーディオ信号を再生する。再生部330は、ディスクリプタに記述されたマルチチャネルオーディオ信号の再生情報に基づいてマルチチャネルオーディオ信号を再生する。再生部330は、ディスクリプタに含まれた再生位置情報に基づいて、マルチチャネルオーディオ信号に含まれたそれぞれのオーディオ信号をレンダリングする。
再生部330は、オーディオデータ再生装置310のユーザ環境情報に基づいて、マルチチャネルオーディオ信号をタウンミキシングする。例えば、再生部330は、22.2チャネルでミキシングされたオーディオデータを10.2チャネル環境のオーディオデータ再生装置310で再生するために、22.2チャネルのオーディオデータを10.2チャネルのオーディオデータにダウンミキシングしてもよい。ユーザ環境情報は、オーディオ再生装置のチャネル環境、ラウドスピーカ配置情報などを含む。
表示部340は、メタデータ又はディスクリプタに含まれた情報を画面上に表示する。例えば、表示部340は、オーディオ信号の再生位置情報、再生しているオーディオ信号の識別情報などを表示してもよい。
図4は、一実施形態に係るオーディオデータを生成する一例を説明するための図である。
オーディオデータ生成装置は、オーディオデータを受信する受信端でオーディオ信号の修正、変換、交換などを容易に実行するよう、基本構造のディスクリプタに基づいてオーディオデータを生成する。オーディオデータ生成装置は、ディスクリプタ情報をマルチチャネルオーディオフォーマット信号のヘッダ又はマルチチャネルを構成するそれぞれのオーディオチャネルのヘッダに格納させた後、受信端に送信してもよい。
一実施形態に係るオーディオデータ生成装置は、ミキシング部420、コーディング部460、及び多重化部470を含む。ミキシング部420は、様々なオーディオソース410をミキシングしてチャネルベースオーディオ信号430、オブジェクトベースオーディオ信号440を出力する。コーディング部460は、ディスクリプタを含むメタデータ450及びマルチチャネルオーディオ信号をコーディングする。マルチチャネルオーディオ信号は、チャネルベースオーディオ信号430だけではなく、オブジェクトベースオーディオ信号440を含んでもよい。ディスクリプタは、マルチチャネルの構成を表現する情報を含む。マルチチャネルコーディング部460は、様々な方式を用いてオーディオ信号とディスクリプタを別にコーディングしたり、又はマルチチャネルオーディオ信号とディスクリプタをともにコーディングしてもよい。多重化部470は、コーディングされたマルチチャネルオーディオ信号とメタデータ450を多重化してビットストリームを生成する。
図5は、一実施形態に係るオーディオデータを再生する一例を説明するための図である。
オーディオデータ再生装置は、逆多重化部510、デコーディング部520、レンダリング部560、表示部580を含む。
逆多重化部510は、受信したビットストリームを逆多重化する。デコーディング部520は、逆多重化されたビットストリームを復号化してマルチチャネルオーディオ信号とメタデータ550をレンダリング部560に出力する。マルチチャネルオーディオ信号は、チャネルベースオーディオ信号530、オブジェクトベースオーディオ信号540を含む。レンダリング部560は、メタデータ550に基づいてマルチチャネルオーディオ信号を再生する。レンダリング部560は、ラウドスピーカの配置情報又はオブジェクトベースオーディオ信号の位置情報などに基づいて、マルチチャネルオーディオ信号を再生する。ラウドスピーカの配置情報、オブジェクトベースオーディオ信号の位置情報は、ユーザによってオーディオデータ再生装置に入力されてもよい。
オーディオデータ再生装置のユーザ環境情報570に基づいて、マルチチャネルオーディオ信号を再生する。オーディオデータ再生装置は、オーディオデータ再生装置の再生環境に応じて、本来のマルチチャネルオーディオ信号をそのまま再生したり、又はマルチチャネルオーディオ信号をタウンミキシングしてもよい。マルチチャネルオーディオ信号は、オーディオデータ再生装置の再生環境に合わせて再生してもよい。
オーディオデータ再生装置が初期のミキシングステップで22.2チャネルに製造された信号が、再生環境の10.2チャネル構造に合わせてタウンミキシングする方法の一例は、下記の表7のように示すことができる。ダウンミキシング係数ディスクリプタは、その他にも様々なマルチャンネル間の変換を記述する。
レンダリング部560は、マルチチャネルオーディオ信号を構成するオーディオ信号はディスクリプタのチャネル位置データに定義されたように、オーディオ信号の配置順序に応じてチャネル順に空間位置データに提示された方位角及び仰角情報に基づいて再生する。レンダリング部560は、チャネルコンポーネントオブジェクトのタイプの動きのあるオブジェクトに関する情報(又は、空間位置の許容範囲の再生時間による音像定位やMoving Information of position)に記述されている時間の動き情報に基づいて、オブジェクトベースオーディオ信号を再生する。一例によると、ユーザは、任意にオブジェクトベースオーディオ信号がレンダリングされる空間上の位置を制御することができる。
表示部580は、ディスクリプタに記述された情報を画面上に表示する。ユーザは、ディスクリプタの空間位置の許容範囲情報を用いて、最適の再生位置に比べて本人のスピーカ配置などの環境がどれほど流動的であるかを確認し、ディスクリプタのチャネルラベル情報を用いて個別チャネルの名前情報を確認する。マルチチャネルオーディオ信号にオブジェクトベースオーディオ信号が含まれている場合、ユーザは、チャネルラベルのオブジェクトチャネルラベルを介して当該オブジェクトベースオーディオ信号がどのような音の情報であるかを確認する。
図6は、一実施形態に係るオーディオデータ生成方法の動作を示すフローチャートである。
ステップ610で、オーディオデータ生成装置はマルチチャネルオーディオ信号を表現するためのディスクリプタを生成する。ディスクリプタは、マルチチャネルオーディオ信号に含まれたオーディオ信号の再生位置に関する情報を含む。オーディオデータ生成装置は、生成されたディスクリプタをメタデータを用いて、マルチチャネルオーディオフォーマット信号のヘッダに格納したり、又はマルチチャネルオーディオ信号を構成するそれぞれのオーディオチャネルの各ヘッダに格納してもよい。ディスクリプタは、サウンドエッセンスディスクリプタ、サウンドフィールド構成ディスクリプタ、及びサウンドチャネルディスクリプタのうち少なくとも1つを含んでもよい。
ステップ620で、オーディオデータ生成装置は、ディスクリプタとマルチチャネルオーディオ信号をビットストリームに生成する。オーディオデータ生成装置は、ディスクリプタマルチチャネルオーディオ信号を符号化し、多重化してビットストリームを生成してもよい。
ステップ630で、オーディオデータ生成装置は、生成されたビットストリームをオーディオデータ再生装置に送信する。
図7は、一実施形態に係るオーディオデータ再生方法の動作を示すフローチャートである。
ステップ710で、オーディオデータ再生装置は、オーディオデータ生成装置によって生成されたビットストリームからマルチチャネルオーディオ信号を表現するためのディスクリプタを抽出する。オーディオデータ再生装置は、マルチチャネルオーディオフォーマット信号のヘッダ又はマルチチャネルオーディオ信号を構成するそれぞれのオーディオチャネルのヘッダでディスクリプタを抽出してもよい。
ステップ720で、オーディオデータ再生装置は、抽出したディスクリプタに基づいてマルチチャネルオーディオ信号を再生する。オーディオデータ再生装置は、ディスクリプタに記述されたマルチチャネルオーディオ信号の再生情報に基づいてマルチチャネルオーディオ信号を再生してもよい。オーディオデータ再生装置は、ディスクリプタに含まれた再生位置情報に基づいて、マルチチャネルオーディオ信号に含まれたそれぞれのオーディオ信号をレンダリングしてもよい。オーディオデータ再生装置は、オーディオ再生装置のチャネル環境、ラウドスピーカ配置情報などのようなユーザ環境情報に応じて、マルチチャネルオーディオ信号をダウンミキシングしてもよい。
一実施形態によると、オーディオデータ再生装置は、メタデータ又はディスクリプタに含まれた情報を画面上に表示できる。オーディオデータ再生装置は、オーディオ信号の再生位置情報、再生しているオーディオ信号の識別情報などを表示できる。
実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうち1つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。プログラム命令の例には、コンパイラによって作られるような機械語コードだけでなく、インタープリタなどを用いてコンピュータによって実行できる高級言語コードが含まれる。前記したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアモジュールとして作動するように構成されてもよく、その逆も同様である。
上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。
したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。
110:オーディオデータ生成装置
120:オーディオデータ再生装置

Claims (10)

  1. オーディオデータ生成装置によって生成されたビットストリームからマルチチャネルオーディオ信号に関するディスクリプタを抽出するディスクリプタ抽出部と、
    前記抽出したディスクリプタに基づいて前記マルチチャネルオーディオ信号を再生する再生部と、
    を含み、
    前記ディスクリプタは、前記マルチチャネルオーディオ信号に含まれたオーディオ信号に関する情報を含み、
    前記マルチチャネルオーディオ信号は、
    チャネルベースオーディオ信号とオブジェクトベースオーディオ信号とを含み、
    前記ディスクリプタは、
    (i)オーディオチャネルのラベルに関する情報、(ii)オーディオ再生空間の中心からオーディオ信号が再生する空間上の位置までの距離に関する情報、及び(iii)動きのあるオブジェクトに基づく時間と位置に関する情報を含むオーディオデータ再生装置。
  2. 前記マルチチャネルオーディオ信号は、
    22.2チャネルのマルチチャネルオーディオ信号を含み、
    前記22.2チャネルは、
    FL、FR、FC、L、BL、BR、FLc、FRc、BC、R、SiL、SiR、TpFL、TpFR、TpFC、TpC、TpBR、TpBL、TpSiL、TpSiR、TpBC、BtFC、BtFL、及びBtFRのチャネルラベルを有するチャネルを含む請求項1に記載のオーディオデータ再生装置。
  3. 前記ディスクリプタは、
    サウンドチャネルディスクリプタを含み、
    前記サウンドチャネルディスクリプタは、チャネルラベルディスクリプタ及びチャネル位置ディスクリプタのうち少なくとも1つを含むことを特徴とする請求項に記載のオーディオデータ再生装置。
  4. 前記チャネルラベルディスクリプタは、オーディオ信号の配置順序、オーディオチャネルのラベル、及びチャネルコンポーネントオブジェクトのタイプのうち少なくとも1つに関する情報を含み、
    前記オーディオチャネルのラベルは、水平チャネルラベル、垂直チャネルラベル、距離チャネルラベル、及びオブジェクトチャネルラベルのうち少なくとも1つを含み、
    前記チャネルコンポーネントオブジェクトのタイプは、チャネルコンポーネントの周波数特性情報、チャネルコンポーネントの方向性情報、及び動きのあるオブジェクトに関する情報のうち少なくとも1つを含むことを特徴とする請求項3に記載のオーディオデータ再生装置。
  5. 前記チャネル位置ディスクリプタは、オーディオ信号の配置順序、空間位置データ、距離位置データ、空間位置の許容範囲、距離位置の許容範囲、及びチャネルコンポーネントオブジェクトのタイプのうち少なくとも1つに関する情報を含むことを特徴とする請求項3に記載のオーディオデータ再生装置。
  6. 前記空間位置データは、オーディオ信号が再生する空間上の位置を示す方位角及び仰角のうち少なくとも1つに関する情報を含み、
    前記空間位置の許容範囲に関する情報は、水平方向の許容範囲、垂直方向の許容範囲、及び再生時間による音像定位のうち少なくとも1つに関する情報を含み、
    前記距離位置の許容範囲に関する情報は、オーディオ再生空間の中心からオーディオ信号が再生する空間上の位置までの距離及び動きのあるオブジェクトに関する情報のうち少なくとも1つに関する情報を含み、
    前記チャネルコンポーネントオブジェクトのタイプは、チャネルコンポーネントの周波数特性情報及びチャネルコンポーネントの方向性情報のうち少なくとも1つを含むことを特徴とする請求項5に記載のオーディオデータ再生装置。
  7. 前記ディスクリプタは、
    サウンドエッセンスディスクリプタと、サウンドフィールド構成ディスクリプタとを含み、
    前記サウンドエッセンスディスクリプタは、プログラムの名前、サウンドエッセンスのタイプ、サウンドフィールド構成の名前、及び音の大きさ値のうち少なくとも1つに関する情報を含み、
    前記サウンドフィールド構成ディスクリプタは、サウンドフィールド構成の名前、オーディオチャネルの個数、マルチチャネルオーディオ信号の配列、オーディオチャネルの割当、タウンミキシング係数のうち少なくとも1つに関する情報を含むことを特徴とする請求項に記載のオーディオデータ再生装置。
  8. マルチチャネルオーディオ信号を表現するためのディスクリプタを生成するディスクリプタ生成部と、
    前記ディスクリプタと前記マルチチャネルオーディオ信号をビットストリームに生成するビットストリーム生成部と、
    を含み、
    前記ディスクリプタは、前記マルチチャネルオーディオ信号に含まれたオーディオ信号に関する情報を含み、
    前記マルチチャネルオーディオ信号は、
    チャネルベースオーディオ信号とオブジェクトベースオーディオ信号とを含み、
    前記ディスクリプタは、
    (i)オーディオチャネルのラベルに関する情報、(ii)オーディオ再生空間の中心からオーディオ信号が再生する空間上の位置までの距離に関する情報、及び(iii)動きのあるオブジェクトに基づく時間と位置に関する情報を含むオーディオデータ生成装置。
  9. 前記ディスクリプタは、
    サウンドエッセンスディスクリプタ、サウンドフィールド構成ディスクリプタ、及びサウンドチャネルディスクリプタのうち少なくとも1つを含むことを特徴とする請求項8に記載のオーディオデータ生成装置。
  10. 前記ディスクリプタは、空間位置データ、距離位置データ、空間位置の許容範囲、距離位置の許容範囲、及びチャネルコンポーネントオブジェクトのタイプのうち少なくとも1つに関する情報を含むことを特徴とする請求項8に記載のオーディオデータ生成装置。
JP2015536716A 2012-10-11 2013-10-11 オーディオデータ生成装置及びオーディオデータ再生装置 Active JP6407155B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
KR10-2012-0112984 2012-10-11
KR20120112984 2012-10-11
KR1020130102544A KR20140046980A (ko) 2012-10-11 2013-08-28 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR10-2013-0102544 2013-08-28
KR10-2013-0121247 2013-10-11
KR1020130121247A KR102149411B1 (ko) 2012-10-11 2013-10-11 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
PCT/KR2013/009112 WO2014058275A1 (ko) 2012-10-11 2013-10-11 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2015534656A JP2015534656A (ja) 2015-12-03
JP6407155B2 true JP6407155B2 (ja) 2018-10-17

Family

ID=50653786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015536716A Active JP6407155B2 (ja) 2012-10-11 2013-10-11 オーディオデータ生成装置及びオーディオデータ再生装置

Country Status (3)

Country Link
US (2) US9836269B2 (ja)
JP (1) JP6407155B2 (ja)
KR (2) KR20140046980A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140046980A (ko) 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
WO2015050001A1 (ja) * 2013-10-04 2015-04-09 ソニー株式会社 ファイル生成装置および方法、並びにファイル再生装置および方法
CN105992120B (zh) * 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
JP6663490B2 (ja) * 2016-05-31 2020-03-11 シャープ株式会社 スピーカシステム、音声信号レンダリング装置およびプログラム
US11064453B2 (en) * 2016-11-18 2021-07-13 Nokia Technologies Oy Position stream session negotiation for spatial audio applications
KR101964359B1 (ko) 2017-11-14 2019-04-01 네오컨버전스 주식회사 딥러닝용 오디오 데이터 생성방법 및 장치
KR102556092B1 (ko) 2018-03-20 2023-07-18 한국전자통신연구원 지향성 마이크를 이용한 음향 이벤트 검출 방법, 그리고 지향성 마이크를 이용한 음향 이벤트 검출 장치
WO2019199040A1 (ko) * 2018-04-10 2019-10-17 가우디오랩 주식회사 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59100677A (ja) * 1982-11-30 1984-06-09 Victor Co Of Japan Ltd 多重記録方式及び多重記録再生方式
IL134979A (en) * 2000-03-09 2004-02-19 Be4 Ltd A system and method for optimizing three-dimensional hearing
DE10355146A1 (de) * 2003-11-26 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Tieftonkanals
US8116465B2 (en) * 2004-04-28 2012-02-14 Sony Corporation Measuring apparatus and method, and recording medium
WO2006004048A1 (ja) * 2004-07-06 2006-01-12 Matsushita Electric Industrial Co., Ltd. オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプログラム
KR101118214B1 (ko) * 2004-09-21 2012-03-16 삼성전자주식회사 청취 위치를 고려한 2채널 가상 음향 재생 방법 및 장치
US7928311B2 (en) * 2004-12-01 2011-04-19 Creative Technology Ltd System and method for forming and rendering 3D MIDI messages
JP4466453B2 (ja) * 2005-04-26 2010-05-26 ソニー株式会社 音響装置、時間遅延算出方法および時間遅延算出プログラム
EP1908057B1 (en) * 2005-06-30 2012-06-20 LG Electronics Inc. Method and apparatus for decoding an audio signal
CA2620030C (en) 2005-08-30 2011-08-23 Lg Electronics Inc. Method and apparatus for decoding an audio signal
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
EP2595152A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transkoding apparatus
CA2645915C (en) * 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
KR101336237B1 (ko) * 2007-03-02 2013-12-03 삼성전자주식회사 멀티 채널 스피커 시스템의 멀티 채널 신호 재생 방법 및장치
JP5291096B2 (ja) 2007-06-08 2013-09-18 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
US8189857B2 (en) * 2007-09-07 2012-05-29 EDH Holding (Pty) Ltd Methods and processes for detecting a mark on a playing surface and for tracking an object
JP5883561B2 (ja) 2007-10-17 2016-03-15 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ アップミックスを使用した音声符号器
KR101003415B1 (ko) 2007-10-17 2010-12-23 엘지전자 주식회사 Dmb 신호의 디코딩 방법 및 이의 디코딩 장치
KR101435815B1 (ko) 2007-11-28 2014-08-29 엘지전자 주식회사 방송 시스템 및 오디오 데이터 처리 방법
TWI455064B (zh) 2007-12-20 2014-10-01 Thomson Licensing 聲影文件突起映圖之決定方法和裝置
US20090238371A1 (en) * 2008-03-20 2009-09-24 Francis Rumsey System, devices and methods for predicting the perceived spatial quality of sound processing and reproducing equipment
KR101596504B1 (ko) * 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
EP2194527A3 (en) * 2008-12-02 2013-09-25 Electronics and Telecommunications Research Institute Apparatus for generating and playing object based audio contents
WO2011020065A1 (en) * 2009-08-14 2011-02-17 Srs Labs, Inc. Object-oriented audio streaming system
EP3184046B1 (en) * 2009-10-09 2020-04-08 Auckland Uniservices Limited Tinnitus treatment system and method
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
KR20120048312A (ko) * 2010-11-05 2012-05-15 삼성전자주식회사 모바일 장치 및 그 제어방법
KR20120071072A (ko) 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
US9245514B2 (en) * 2011-07-28 2016-01-26 Aliphcom Speaker with multiple independent audio streams
CN102595317B (zh) * 2012-02-27 2015-11-18 歌尔声学股份有限公司 一种通讯信号自适配传输方法和系统
KR20140046980A (ko) * 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법

Also Published As

Publication number Publication date
US9836269B2 (en) 2017-12-05
JP2015534656A (ja) 2015-12-03
KR20140046980A (ko) 2014-04-21
US20180060019A1 (en) 2018-03-01
KR102149411B1 (ko) 2020-08-31
KR20140047005A (ko) 2014-04-21
US10282160B2 (en) 2019-05-07
US20150281842A1 (en) 2015-10-01

Similar Documents

Publication Publication Date Title
JP6407155B2 (ja) オーディオデータ生成装置及びオーディオデータ再生装置
CN101981617B (zh) 多对象音频信号的附加信息比特流产生方法和装置
EP2094032A1 (en) Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
CN104054126A (zh) 空间音频渲染和编码
JP2014525048A (ja) 3次元オーディオサウンドトラックの符号化及び再生
JP6174326B2 (ja) 音響信号作成装置及び音響信号再生装置
KR102533824B1 (ko) 동적 포맷 변환을 지원하는 오디오 메타데이터 제공 장치 및 오디오 데이터 재생 장치, 상기 장치가 수행하는 방법 그리고 상기 동적 포맷 변환들이 기록된 컴퓨터에서 판독 가능한 기록매체
US20140310010A1 (en) Apparatus for encoding and apparatus for decoding supporting scalable multichannel audio signal, and method for apparatuses performing same
KR101915258B1 (ko) 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR20230007971A (ko) 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
KR20150028147A (ko) 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
KR102370672B1 (ko) 오디오 데이터 제공 방법 및 장치, 오디오 메타데이터 제공 방법 및 장치, 오디오 데이터 재생 방법 및 장치
JP6204683B2 (ja) 音響信号再生装置、音響信号作成装置
KR102370348B1 (ko) 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법
JP6670802B2 (ja) 音響信号再生装置
KR102421292B1 (ko) 오디오 객체 신호 재생 시스템 및 그 방법
KR20180121452A (ko) 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR20220030983A (ko) 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180918

R150 Certificate of patent or registration of utility model

Ref document number: 6407155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250