JP2011510589A - オーディオ信号の処理方法及び装置 - Google Patents

オーディオ信号の処理方法及び装置 Download PDF

Info

Publication number
JP2011510589A
JP2011510589A JP2010544229A JP2010544229A JP2011510589A JP 2011510589 A JP2011510589 A JP 2011510589A JP 2010544229 A JP2010544229 A JP 2010544229A JP 2010544229 A JP2010544229 A JP 2010544229A JP 2011510589 A JP2011510589 A JP 2011510589A
Authority
JP
Japan
Prior art keywords
preset
information
matrix
audio signal
output channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010544229A
Other languages
English (en)
Other versions
JP5319704B2 (ja
Inventor
オー,ヒェン−オ
ウォン ジュン,ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Priority claimed from PCT/KR2009/000367 external-priority patent/WO2009093867A2/en
Publication of JP2011510589A publication Critical patent/JP2011510589A/ja
Application granted granted Critical
Publication of JP5319704B2 publication Critical patent/JP5319704B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Circuits Of Receivers In General (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オーディオ信号及びプリセット情報を受信する段階と、該プリセット情報から、オブジェクトの出力チャネルに対する寄与の程度を表すプリセットマトリクスを取得する段階と、該プリセットマトリクスを用いて前記オブジェクトの出力レベルを調節する段階と、を含むことを特徴とするオーディオ信号の処理方法が開示される。これによれば、それぞれのオブジェクトに対するユーザの設定なしに、既に設定されたプリセットメタデータを参考にしてオーディオ信号に適用するプリセットメタデータを選択し、選択されたプリセットメタデータと対応するプリセットレンダリングデータを用いて、オーディオ信号に含まれたオブジェクトのレベルを容易に調節することができる。
【選択図】図2

Description

本発明は、オーディオ信号の処理方法及び装置に関連し、より詳細には、オーディオ信号を処理するための装置とその方法に関連する。本発明は、広範囲のアプリケーションに適合するが、デジタル媒体、放送信号などで受信されたオーディオ信号の処理に特に適合する。
一般的に、複数個のオブジェクトを含むオーディオ信号を、モノまたはステレオ信号にダウンミックスしてダウンミックス信号を生成する過程において、オブジェクトからパラメータ(情報)が抽出される。それらのパラメータ(情報)は、ダウンミックスされた信号をデコーディングする過程で用いられ、オブジェクトのパニング(panning)とゲイン(gain)は、ユーザの選択によって制御することができる。
しかし、ダウンミックス信号に含まれているオブジェクトは、ユーザの選択によって適切に調節しなければならない。ユーザがオブジェクトを制御する場合は、直接オブジェクトを制御しなければならず、不便であり、専門家によって制御してもらう場合に比べて、複数のオブジェクトを含むオーディオ信号を、環境に応じて最適の状態として再現することは困難である。
従って、本発明は、関連する技術の制限と不利点に伴う1つ以上の問題点を実質的に取り除くためのオーディオ信号を処理する装置、及びその方法を対象とする。
本発明の目的は、プリセットメタデータ及びプリセットレンダリングデータを含むプリセット情報を用いて、オーディオ信号に含まれたオブジェクトを調節することができるオーディオ信号処理方法及び装置を提供することにある。
本発明の他の目的は、プリセットレンダリングデータタイプがマトリクスである場合、オーディオ信号の出力チャネル情報に基づいてプリセットレンダリングデータを決定しオーディオ信号に適用することによって、出力チャネルにおけるオブジェクトのレベルを調節するオーディオ信号処理方法及び装置を提供することにある。
また、本発明のさらに他の目的は、オブジェクトを調節するプリセットレンダリングマトリクスを、エンコーダから伝送されたモノタイプ・プリセットレンダリングマトリクスまたはゲイン情報から段階的に生成するオーディオ信号処理方法及び装置を提供することにある。
本発明の更なる特徴と利点は、以下の明細書内で説明され、一部は明細書から明らかとなり、又は本発明の実施により知ることができる。本発明の目的とその他の利点は、明細書の記載、請求の範囲、添付図面内で具体的に示される構成により実現、及び達成される。
上記目的を達成するために、本発明によるオーディオ信号処理方法は、少なくとも一つのオブジェクトを含むオーディオ信号及びプリセット情報を受信する段階と、前記プリセット情報からプリセットマトリクスを取得する段階であって、前記プリセットマトリクスが、前記オブジェクトの出力チャネルに対する寄与の程度(contribution degree)を表すものである段階と、前記プリセットマトリクスを用いて、出力チャネルによって前記オブジェクトの出力レベルを調節する段階と、前記出力レベルの調節されたオブジェクトを含むオーディオ信号を出力する段階と、を含み、前記プリセット情報は、前記プリセット情報が含まれたか否かを表すプリセット存在情報及び前記プリセット情報の個数を表すプリセット個数情報に基づいて取得され、前記プリセットマトリクスは、前記プリセット情報がマトリクスで表現されたか否かを表すプリセットタイプ情報に基づいて取得されることを特徴とする。
本発明によれば、前記プリセットマトリクスは、前記出力チャネルがモノ、ステレオ及びマルチチャネルのうち一つであることを表す出力チャネル情報に基づいて取得されることを特徴とする。
本発明によれば、前記プリセットタイプ情報は、1ビットで表現されることを特徴とする。
本発明によれば、前記プリセットマトリクスの次元は、前記オブジェクトの個数及び前記出力チャネルの個数に基づいて決定されることを特徴とする。
本発明の他の側面によるオーディオ信号処理装置によれば、少なくとも一つのオブジェクトを含むオーディオ信号を受信するオーディオ信号受信部と、プリセット情報のプリセットメタデータを取得するプリセットメタデータ受信部と、前記オブジェクトの出力チャネルに対する寄与の程度を表すプリセットマトリクスを取得するプリセットレンダリングデータ受信部であって、前記プリセットレンダリングデータ受信部は、前記プリセットメタデータに対応する前記プリセットマトリクスであるプリセットレンダリングデータ受信部と、前記プリセットメタデータを表示するディスプレイ部と、前記プリセットメタデータのうち一つを選択する信号を受信する入力部と、前記選択されたプリセットメタデータに対応する前記プリセットマトリクスを用いて、出力チャネルによって前記オブジェクトの出力レベルを調節するオブジェクト調節部と、前記出力レベルの調節されたオブジェクトを含むオーディオ信号を出力する出力部と、を含むことを特徴とする。本発明によれば、前記出力部が、前記オーディオ信号を出力する場合、前記ディスプレイ部は、前記選択されたプリセットメタデータを表示することを特徴とする。
本発明によれば、前記ディスプレイ部は、前記オブジェクトの出力レベルをさらに表示することを特徴とする。
本発明によれば、前記プリセットマトリクスは、前記出力チャネルがモノ、ステレオ及びマルチチャネルのうち一つであることを表す出力チャネル情報に基づいて取得されることを特徴とする。
本発明によれば、前記プリセット情報は、前記プリセット情報の個数を表すプリセット個数情報に基づいて取得され、前記プリセットマトリクスは、前記プリセット情報がマトリクスで表現されたか否かを表すプリセットタイプ情報に基づいて取得されることを特徴とする。
本発明によれば、前記プリセット情報は、前記オブジェクトに適用される前記プリセットマトリクスの存在有無を表すプリセットオブジェクト適用情報をさらに含むことを特徴とする。
本発明によれば、前記ディスプレイ部は、前記プリセットオブジェクト適用情報に基づいて、前記オブジェクトに適用される前記プリセットマトリクスが存在するか否かをさらに表示することを特徴とする。
本発明によれば、前記ディスプレイ部は、前記プリセットメタデータをテキスト形態で表現することを特徴とする。
当然のことであるが、前記の一般的な記載と以下の詳細な説明の両方は、典型例、及び説明であり、請求項に記載される本発明の更なる説明を提供することを目的としている。
本発明は、下記のような効果及び利点を提供する。
第一に、オブジェクトに対するユーザの設定なしに、既に設定されたプリセット情報のうち一つを選択することによって容易にオブジェクトの出力チャネルのレベルを調節することができる。
第二に、プリセット情報を表現するプリセットメタデータを、メタデータの長さを示すプリセット長さ情報に基づいてテキスト形態で表現することによって、余分のコーディングを減らすことができる。
第三に、プリセットレンダリングデータのタイプがマトリクスである場合、オーディオ信号の出力チャネル情報に基づいて、プリセットレンダリングデータを示すプリセットマトリクスを決定することによって、オブジェクトの出力チャネルのレベルをより正確で効率的に調節することができる。
第四に、プリセットマトリクスを段階的に生成することによって、エンコーダから伝送されるビット率を減少させることができる。
第五に、複数個のオブジェクトのうち一部のオブジェクトのみを調節できるプリセットマトリクスを用いることによって、余分のコーディングを減少させることができる。
本発明の更なる理解を提供するために添付され、組み込まれ、及び本明細書の一部を構成する図面は、本発明の実施例を説明し、明細書と共に、本発明の原理を説明する。
本発明の実施例によるオーディオ信号に含まれたオブジェクトに適用されるプリセット情報の概念図である。 本発明の実施例によるオーディオ信号処理装置を示す図である。 本発明の実施例によるオーディオ信号処理装置におけるプリセット情報受信部を示す図である。 本発明の実施例によるオーディオ信号処理方法を示すフローチャートである。 本発明の実施例によるシンタックス(syntax)を示す図である。 本発明の他の実施例によるシンタックスを示す図である。 本発明のさらに他の実施例によるシンタックスを示す図である。 本発明のさらに他の実施例によるプリセットレンダリングデータ受信部を示す図である。 本発明のさらに他の実施例によるシンタックスを示す図である。 本発明のさらに他の実施例によるオーディオ信号処理装置を示す図である。 本発明の実施例によるプリセット情報受信部が具現された製品の概略的な構成を示す図である。 図11に示す製品に該当する端末及びサーバー間の関係を示す図である。 本発明の実施例によるプリセット情報受信部が具現されたデジタルTVの概略的な構成を示す図である。 本発明の一実施例によるプリセット情報受信部を含む製品のディスプレイ部を示す図である。
以下、添付の図面を参照しつつ、本発明の好ましい実施例について詳細に説明する。本明細書及び請求の範囲に使われた用語や単語は、通常的または辞書的な意味に限定して解析してはならず、発明者は自身の発明を最善の方法で説明するために用語の概念を適切に定義することができるという原則に立って、本発明の技術的思想に符合する意味及び概念として解釈しなければならない。したがって、本明細書に記載された実施例と図面に示された構成は、本発明の最も好ましい一実施例に過ぎないもので、本発明の技術的思想を全部代弁するものではないので、本出願時点においてこれらに代替可能な様々な均等物及び変形例がありうることが理解される。
特に、本明細書で、情報(information)は、値(values)、パラメータ(parameters)、係数(coefficients)、成分(elements)などを総称する用語と解釈され、オブジェクト(object)は、ギター(guitar)、ボーカル(vocal)、ピアノ(piano)等を含め、オーディオ信号を構成するソース(source)信号のそれぞれを示すものと解釈される。これらの意味は場合によって異なって解釈され、これらによって発明が限定されることはない。
本発明は、複数個のオブジェクトを含むオーディオ信号をデコーディングする方法において、これらオブジェクトを調節するための既に設定された情報のうち一つを用いることによって当該オーディオ信号を効果的にデコーディングする方法を提供する。
図1は、本発明の実施例による、オーディオ信号に含まれたオブジェクトに適用されるプリセット情報の概念図である。本明細書では、オブジェクトを調節するための既に設定された情報をプリセット情報(preset information)とする。プリセット情報は、オーディオ信号の特性または聴取環境によって選択しうる様々なモードを表すことができ、複数個とすることができる。また、プリセット情報は、プリセット情報の属性などを表現するためのメタデータ(metadata)と、オブジェクトを調節するために適用されるレンダリングデータ(rendering data)とを含む。メタデータは、テキスト形態で表示することができ、プリセット情報の属性(例えば、コンサートホールモード、カラオケモード、ニュースモード等)を表す他に、プリセット情報の作成者、作成日、適用されるプリセット情報を有するオブジェクト名などとして、当該プリセット情報を表すための関連情報を含むことができる。一方、レンダリングデータは、実質的にオブジェクトに適用されるデータであり、様々な形態を有することができ、特にマトリクス形態を有することができる。
図1を参照すると、プリセット情報1(preset 1)は、音楽信号をコンサートホールで聞くような音場感を提供するコンサートホールモード(concert hall mode)とすることができ、プリセット情報2(preset 2)は、オーディオ信号のうちボーカル(vocal)オブジェクトのレベルを減少させたカラオケモード(karaoke mode)とすることができ、プリセット情報n(preset n)は、音声オブジェクトのレベルを増加させたニュースモード(news mode)とすることができる。また、プリセット情報2(preset 2)は、メタデータ2とレンダリングデータ2を含む。仮に、ユーザからプリセット情報2が選択されると、メタデータ2であるカラオケモード(karaoke mode)がディスプレイ部内で実現され、メタデータ2に関するレンダリングデータ2がオブジェクトに適用されてレベルを調節することができる。
この時、レンダリングデータがマトリクス形態であれば、レンダリングデータは、モノマトリクス(mono matrix)、ステレオマトリクス(stereo matrix)、マルチチャネルマトリクス(multi-channel matrix)を含むことができる。モノマトリクスは、オブジェクトの出力チャネルがモノである場合に適用されるレンダリングデータであり、ステレオマトリクスは、オブジェクトの出力チャネルがステレオである場合に適用されるレンダリングデータであり、マルチチャネルマトリクスは、オブジェクトの出力チャネルがマルチチャネルである場合に適用されるレンダリングデータである。オブジェクトの出力チャネルが決定されると、該決定された出力チャネルを用いてマトリクスが決定される。その後、該マトリクスをオブジェクトに適用してレベルを調節することができる。
このように、プリセット情報に含まれたメタデータ及びレンダリングデータを用いて当該オブジェクトを調節し、適用されたプリセット情報の属性または特徴を表現することによって、ユーザの所望する効果を有するオーディオ信号を効率的に提供することが可能になる。
図2は、本発明の実施例によるオーディオ信号処理装置200を示す図である。
図2を参照すると、本発明の実施例によるオーディオ信号処理装置200は、プリセット情報生成部210、プリセット情報受信部220、オブジェクト調節部230を含むことができる。
プリセット情報生成部210は、オーディオ信号に含まれたオブジェクトを調節するためのプリセット情報を生成するもので、メタデータ生成部212及びプリセットレンダリングデータ生成部214を含むことができる。メタデータ生成部212は、プリセット情報を表現するテキスト情報を受信してプリセットメタデータ(preset metadata)を生成することができる。このプリセットメタデータは、上記の通り、プリセット情報の特性または属性を表現するための情報でありうる。この時、メタデータ生成部212は、プリセットメタデータの文字長さの数を表すプリセット長さ情報(preset length information)をさらに生成することができる。このプリセット長さ情報は、バイト(byte)で表すことができるが、これに限定されることはない。
一方、オブジェクトのレベルを調節するためのゲイン及びオブジェクトのパニング(panning)のための情報が、プリセットレンダリングデータ生成部214に入力される場合、当該オブジェクトに適用されるプリセットレンダリングデータ(preset rendering data)を生成することができる。プリセットレンダリングデータは、オブジェクトごとに生成することができ、様々なタイプにすることができ、例えば、マトリクス形態などで具現されたプリセットマトリクス(preset matrix)とすることができる。また、プリセットレンダリングデータ生成部214は、プリセットレンダリングデータがマトリクス形態とされているかを表すプリセットタイプ情報(preset_type_flag)をさらに生成することができる。また、オブジェクトの出力チャネルが何本かを表す出力チャネル情報(output channel information)をさらに生成することもできる。
メタデータ生成部212で生成されたプリセット長さ情報及びプリセットメタデータと、プリセットレンダリングデータ生成部214で生成されたプリセットタイプ情報、出力チャネル情報、及びプリセットレンダリングデータは、一つのビットストリームに含めて伝送することができ、特に、オーディオ信号を含むビットストリームの補助領域(ancillary region)に含めて伝送することができる。
一方、プリセット情報生成部210は、プリセット長さ情報、プリセットメタデータ、プリセットタイプ情報、出力チャネル情報、及びプリセットレンダリングデータがビットストリームに含まれていることを表すプリセット存在情報(preset exist information)をさらに生成することができる。このプリセット存在情報は、プリセット情報に関する情報がどの領域に含まれているかを表すコンテナタイプ(container type)にしても良く、フラグタイプ(flag type)にしても良いが、これに限定されない。
また、プリセット情報生成部210は、複数個のプリセット情報を生成することができ、それぞれのプリセット情報は、プリセット長さ情報、プリセットメタデータ、プリセットタイプ情報、出力チャネル情報、及びプリセットレンダリングデータを含む。ここで、プリセット情報生成部210は、プリセット情報の個数を表すプリセット個数情報(preset number information)をさらに生成することができる。
プリセット情報受信部220は、プリセット情報生成部210で生成されて伝送されたプリセット情報を受信するもので、メタデータ受信部222及びプリセットレンダリングデータ受信部224を含むことができる。
メタデータ受信部222は、プリセットメタデータを受信して出力し、プリセットレンダリングデータ受信部224は、プリセットレンダリングデータ(例えば、プリセットマトリクス)を受信する。これについての詳細は、図3及び図4を参照して後述される。
オブジェクト調節部230は、複数個のオブジェクトを含むオーディオ信号と、プリセットレンダリングデータ受信部224で生成されたプリセットレンダリングデータとを受信する。このプリセットレンダリングデータは、オブジェクトに適用されてオブジェクトのレベルを調節したり、オブジェクトの位置を調節したりすることができる。
図3は、本発明のオーディオ信号処理装置200のプリセット情報受信部220に含まれるメタデータ受信部310及びプリセットレンダリングデータ受信部320の概略的な構成を示す図である。
メタデータ受信部310は、プリセット長さ情報受信部312及びプリセットメタデータ受信部314を含む。プリセット長さ情報受信部312は、プリセット情報を表現するためのプリセットメタデータの長さを表すプリセット長さ情報(preset length information)を受信し、該プリセットメタデータの長さを得る。以降、プリセットメタデータ受信部314は、プリセット長さ情報が表す長さ分のビットストリームを読んで当該プリセットメタデータを受信する。また、プリセットメタデータ受信部314は、プリセット情報の種類または属性がわかるメタデータであるプリセットメタデータを、テキスト形式に変換して出力する。
プリセットレンダリングデータ受信部320は、プリセットタイプフラグ受信部322、出力チャネル情報受信部324、及びプリセットマトリクス受信部326を含む。プリセットデータタイプフラグ受信部322は、プリセットレンダリングデータがマトリクス形態なのかを表すプリセットタイプフラグ(preset_type_flag)を受信し、プリセットタイプフラグの意味は、下記の表1の通りである。
Figure 2011510589
プリセットタイプフラグが、プリセットレンダリングデータのタイプがマトリクスである場合を表すならば、出力チャネル情報受信部324は、オーディオ信号に含まれたオブジェクトが何本の出力チャネルで再生されるかを表す出力チャネル情報を受信する。この出力チャネル情報は、モノチャネル、ステレオチャネル、またはマルチチャネル(5.1チャネル)を含むことができるが、これに限定されない。
プリセットマトリクス受信部326は、出力チャネル情報に基づいて、該オブジェクトの出力チャネルに対する寄与の程度を表し、プリセットメタデータに対応するプリセットマトリクスを受信し、出力する。この場合、プリセットマトリクスは、モノプリセットマトリクス、ステレオプリセットマトリクスまたはマルチチャネルプリセットマトリクスのうち一つであり、このプリセットマトリクスの次元は、オブジェクトの数及び出力チャネルの数に基づいて決定することができ、プリセットマトリクスは、(オブジェクトの数)*(出力チャネルの数)の形態を有することができる。例えば、オーディオ信号に含まれたオブジェクトがn個であり、出力チャネル情報受信部324からの出力チャネルが5.1チャネル、すなわち、6個のチャネルである場合、プリセットマトリクス受信部326は、n*6の形態で具現された下記の等式1のプリセットマルチチャネルマトリクスを出力することができる。
Figure 2011510589
ここで、マトリクス成分(ma,b)は、a番目のオブジェクトがb番目のチャネルに含まれる程度を表すゲイン値である。その後、このプリセットマルチチャネルマトリクスはオーディオ信号に適用され、該当のオブジェクトのレベルを調節することができる。
このように、本発明のプリセット情報受信部220は、プリセット長さ情報を用いて必要な分のビットストリームを読んで、効率的にプリセットメタデータを表現し、プリセットマトリクスを出力チャネル情報に基づいて取得することによって、オーディオ信号に含まれたオブジェクトのゲインなどを効果的に調節することができる。
図4は、本発明の実施例によるオーディオ信号処理方法を示すフローチャートである。
図4を参照すると、少なくとも1つのオブジェクトを含むオーディオ信号を受信する(S410)。また、オブジェクトのゲインまたはパニングなどを調節するために、既に設定されたプリセット情報が存在するか否かを表すプリセット存在情報(preset exist information)を受信し(S415)、プリセット情報が存在する場合、既に設定されたプリセット情報が何個(n)かを表すプリセット個数情報を受信する(S420)。このプリセット個数情報は、プリセット情報が存在することを仮定しているので、(実際存在するプリセット個数)−1個で表現することができる。その後、プリセット情報を表現するためのメタデータが何ビット(または、バイト)を有するかを表すプリセット長さ情報を受信する(S430)。受信されたプリセット長さ情報に基づいてプリセットメタデータを受信し(S435)、例えば、カラオケモード、コンサートホールモード、ニュースモードなどを出力する(S437)。プリセットメタデータはテキスト形態とすることができ、上記の通り、プリセット情報の音場効果を表現するメタデータの他にも、プリセット作成者、作成日、プリセット情報で調節されたオブジェクト名などを開示するメタデータとすることもできるが、これに限定されない。
続いて、プリセット情報に含まれたプリセットレンダリングデータのタイプを表すプリセットタイプ情報を受信する(S440)。プリセットタイプ情報に基づいてプリセットデータのタイプがマトリクスなのか否かを判断し(S445)、マトリクスであると(S445のYes)、オブジェクトの出力チャネルが何本かを表す出力チャネル情報を受信する(S450)。エンコーディングされたプリセットマトリクスの中から、出力チャネル情報に基づいて該当するプリセットマトリクスを受信する(S455)。例えば、オブジェクトの出力チャネルがステレオである場合、受信されたプリセットマトリクスは、(オブジェクトの数)*2の形態を有するステレオプリセットマトリクスになりうる。
上記の段階で受信されたプリセット長さ情報、プリセットメタデータ、プリセットタイプ情報、出力チャネル情報、及びプリセットマトリクスを含むプリセット情報(i番目)が、プリセット個数情報が表すプリセット情報の個数(n)よりも小さいか判断する(S460)。仮に、プリセット個数情報よりも小さい場合(S460のYes)、S430段階に戻り、次のプリセット情報(i+1番目)のプリセット長さ情報を受信する段階を反復する。仮に、プリセット個数情報と同一の場合(S460のNo)、プリセットマトリクスをオーディオ信号に適用してオブジェクトのレベルを調節する(S465)。一方、プリセットタイプがマトリクスでない場合(S445のNo)、エンコーダで設定されたマトリクス以外の形式で具現されたプリセットデータを受信し(S457)、受信されたプリセットデータをオーディオ信号に適用してオブジェクトのレベルを調節する(S468)。その後、調節されたオブジェクトを含むオーディオ信号を出力することができる。
プリセットマトリクスを適用してオブジェクトを調節する段階(S465)は、ユーザの選択によって決定されたプリセットマトリクスを用いることができる(図示せず)。ユーザは、プリセットメタデータを出力する段階(S437)で出力されたプリセットメタデータを参考して、所望のプリセット情報を選択することができる。例えば、ユーザが、プリセットメタデータのうち、カラオケモードと表現されたメタデータを選択する場合、出力チャネル情報に基づいて受信されたプリセットマトリクス(S455)のうち、カラオケモードであるプリセットメタデータに対応するプリセットマトリクスが選択される。その後、選択されたカラオケモードに対応するプリセットマトリクスがオーディオ信号に適用されることでオブジェクトのレベルを調節し、調節されたオブジェクトを含むオーディオ信号が出力される。
図5は、本発明の一実施例によるオーディオ信号処理方法を示すシンタックス(syntax)を表現したものである。
図5を参照すると、プリセット情報に関する情報は、ビットストリームのヘッダー(header)領域に存在することができる。ビットストリームのヘッダー領域からプリセット個数情報(bsNumPresets)を得ることができる。
プリセット個数情報が存在する場合(if(bsNumPresets))、プリセット個数情報が表すプリセット情報の個数を取得する(numPresets=bsNumPresets+1)。例えば、プリセット個数情報は、プリセット情報が1個存在する場合、bsNumPresetsを0に設定できる。この場合、プリセット情報の実際の個数は、(プリセット個数情報)+1と認識され、使用される。まず、プリセット個数情報をビットストリームから受信することができる。
また、プリセット個数情報に基づいてプリセット情報(i番目のプリセット情報)ごとにプリセットレンダリングデータのタイプを表す情報を得ることができる(bsPresetType[i])。仮に、プリセットレンダリングデータをマトリクスタイプで伝送する場合を特定プリセットタイプと定義する場合(マトリクスタイプである時、bsPresetType[i]が伝送される場合)、プリセットレンダリングデータのタイプを表す情報は、プリセットレンダリングデータがマトリクスタイプで生成されて伝送されたかを表す上記プリセットタイプ情報(preset_type_flag)でありうる。プリセットタイプ情報は、1ビットで表現することができる。
また、i番目のプリセット情報に含まれたプリセットレンダリングデータがマトリクスタイプである場合(bsPresetType[i])、出力チャネルが何本のチャネルを有するかを表す出力チャネル情報(bsPresetCh[i])を取得し、出力チャネル情報に基づいて、オーディオ信号に含まれたオブジェクトのレベルを調節するためのプリセットマトリクスを取得する(getRenderingMatrix())。
図6は、本発明の他の実施例によるオーディオ信号処理方法を示すシンタックス(syntax)を表現したものである。プリセット情報は、ヘッダー領域に含まれて、全てのフレームで同一に適用されることができるが、時間によって可変(以下、‘時変(time-variable)’という。)して適用されることによって、オブジェクトのレベルを効果的に調節することができる。プリセット情報が時変する場合には、フレームごとにプリセット情報に関する情報が含まれなければならない。したがって、プリセット情報がフレームごとに含まれたか否かを表す情報をヘッダーに含めることによって、効果的にビットストリームを構成することができる。
図6を参照すると、プリセット情報がフレームごとに含まれたか否かを表現するシンタックスが示される。図5に示すオーディオ信号の処理方法を示すシンタックス(syntax)と略同様であり、ただし、出力チャネル情報(bsPresetCh[i])を取得した後、プリセット情報が時間的に可変して、すなわち、フレームごとに含まれたか否かを表すプリセット時変フラグ情報(bsPresetTimeVarying[i])を含むことができる。このプリセット時変フラグ情報がビットストリームのヘッダー領域に含まれた場合、ビットストリームのフレーム領域に含まれたプリセットマトリクス及びプリセットメタデータを用いてオブジェクトのレベルを調節する。プリセット時変フラグ情報がヘッダーに存在する場合、フレームごとにプリセット情報の更新があるか否かを判断し、更新がない場合はそのまま(keep)利用し、更新がある場合は、読み込み(read)などの別のフラグを含めて効率的にビットストリームを構成することも可能である。
また、ビットストリームにプリセット情報が含まれているか否かを表すプリセット存在情報(bsPresetExtsts)を含むことができる。仮に、プリセット存在情報が、プリセット情報がビットストリームに含まれていないと表す場合は、プリセット個数情報(bsNumPresets)、プリセットタイプ情報(bsPresetType[i])、出力チャネル情報(bsPresetCh[i])、及びプリセット時変フラグ情報(bsPresetTimeVarying[i])を取得するループ(loop)を行わなくて済む。このプリセット存在情報は、場合によってはシンタックス構文で省略可能である。
図7は、本発明のさらに他の実施例によるオーディオ信号処理方法を示すシンタックスを表現したものである。上記のプリセットマトリクスは、(オブジェクトの数)*(出力チャネルの数)の形態を有するマトリクスであり、オブジェクトの出力チャネルに対する寄与の程度を表す。この場合、上記オブジェクトのうちの一部オブジェクトに関する情報のみを受信して用いる方が、伝送されるビット数を減少させる側面で効率的であるといえる。したがって、本発明のさらに他の実施例では、プリセット情報を用いて所望のオブジェクトのみを調節するオーディオ信号処理方法のシンタックスを提案する。
図7を参照すると、オブジェクトのそれぞれに対してオブジェクトのレベルを調節するためのプリセット情報が適用されるか否かを表すプリセットオブジェクト適用情報(bsPresetObject[i][j])をシンタックスにさらに含むことができる。プリセットオブジェクト適用情報を用いることによって、プリセット情報が該当のオブジェクトに関する情報を含んでいるか否かを知らせることが可能になる。プリセットオブジェクト適用情報は、ビットストリームのヘッダー領域に存在しても良く、図6に示すように、プリセット情報が時変する場合には、フレームに存在しても良い。図7に示すように、各オブジェクトに対して、プリセット情報に該当のオブジェクトに関する情報を含むか否かを知らせることもでき、含むか否かを表すオブジェクトインデックスをビットストリームに含めることもできる。仮に、オブジェクトインデックスを用いる場合には、終了文字(exit character)を使ってより便利にビットストリームを構成することができる。
ハフマンテーブル(Huffman table)などを用いてロスレスコーディング(lossless coding)において符号化を行う場合、終了文字は、実際のパラメータの数よりもテーブルを1だけ大きく設計し、さらに割り当てられたパラメータを終了パラメータと定義することができる。この時、終了パラメータがビットストリームから取得されると、該当の情報を全部受信したと定義して用いることができる。例えば、プリセット情報が、総10個のオブジェクトうち2個のオブジェクトに関する情報のみを含む場合(3番オブジェクト及び8番オブジェクトに関する情報)は、3番オブジェクト及び8番オブジェクトに該当するハフマンインデックスと終了パラメータに該当するハフマンインデックスを順に伝送することによって効果的にビットストリームを構成することができる。
図8は、本発明のさらに他の実施例であるプリセットマトリクスを段階的に生成するプリセットレンダリングデータ受信部の概略的な構成を示す図である。
図8を参照すると、プリセットレンダリングデータ受信部320は、プリセットタイプフラグ受信部322、出力チャネル情報受信部324、及びプリセットマトリクス決定部326を含む。その他の構成要素は、図2及び図3のプリセットレンダリングデータ受信部224,320と同じ構成及び効果を有するので、その詳細な説明は省略する。
一方、図8に示すように、プリセットマトリクス決定部326は、モノタイプ・プリセットマトリクス受信部810、ステレオタイプ・プリセットマトリクス生成部820、及びマルチチャネルタイプ・プリセットマトリクス生成部830を含む。
モノタイプ・プリセットマトリクス受信部810は、プリセット情報生成部(図示せず)から、(オブジェクトの数)形態のマトリクスで表現されるモノプリセットマトリクスを受信する。仮に、出力チャネル情報受信部324から受信された出力チャネル情報がモノである場合、モノプリセットマトリクスはそのまま出力され、オーディオ信号に適用されてオブジェクトのレベルを調節することができる。
一方、出力チャネル情報がステレオである場合には、ステレオタイプ・プリセットマトリクス生成部820にモノプリセットマトリクスが入力され、チャネル拡張情報をさらに受信して、(オブジェクトの数)*2形態のステレオプリセットマトリクスを生成する。仮に、出力チャネル情報がマルチチャネルを表す場合には、ステレオプリセットマトリクスと多チャネル拡張情報がマルチチャネルタイプ・プリセットマトリクス生成部830に入力され、(オブジェクトの数)*6の形態を有するマルチチャネルプリセットマトリクスを生成する。
このように、エンコーダでモノプリセットマトリクスのみを生成し、チャネル拡張情報を用いてプリセットマトリクス決定部326で段階的にプリセットマトリクスを生成することによって、再生環境がステレオのみに限定される場合、伝送されるビット数を節約することができ、ステレオまたはマルチチャネルのためのプリセットマトリクスを重複して伝送しなくて済む。
また、本発明のさらに他の実施例によるオーディオ信号処理方法は、プリセット情報を伝送する際に、ゲイン値を伝送し、必要に応じて、正規化したプリセットマトリクスを伝送する方法を提案する。これは、オーディオ信号に含まれたオブジェクトを調節するためにゲインのみを必要とする場合には、ゲイン値のみを伝送し、容易にプリセットマトリクス全体を伝送する方法として拡張することができる。例えば、上記の等式1のようなプリセットマトリクスを伝送するためには、n*6個のゲイン情報をまず伝送しなければならない。このゲイン情報は、下記の等式2で計算することができる
Figure 2011510589
ここで、iはオブジェクト、jは出力チャネル、nCHは出力チャネルの数を表す。Giはオブジェクトの数だけ存在するので、一つのプリセット情報に対してn個が必要とされる。
ゲイン情報に加えてパニング情報を必要とする場合、正規化したプリセットマトリクス(normalized preset matrix)をさらに用いる。この正規化したプリセットマトリクスは、下記の等式3のように定義することができる。
Figure 2011510589
Figure 2011510589
図9は、上記のプリセット情報にゲイン情報とパニングに関する情報を別途に含めて伝送する場合のシンタックスを表現したものである。このようなゲイン情報及びパニング情報は、ヘッダー領域またはフレーム領域に含めることができる。
図9を参照すると、イタリック体で表現された部分は、実際プリセット情報値をビットストリームから受信するものである。様々なノイズレスコーディング方式(noiseless coding scheme)を利用することができ、図9では関数として表現した。例えば、フレーム領域にそれらの情報が存在する場合、プリセット情報が存在するか否かを判断し、存在する場合にプリセット個数情報を受信する。その後、まず、ゲイン情報を受信し、この情報は、該当のオブジェクトをどのゲイン値で再生するかを表す。この場合、ゲイン情報は、上記のG_iであっても良く、外部入力値によってオーディオ信号のレベルが調節された場合に生成される任意ダウンミックスゲイン(arbitrary downmix gain)(以下、ADGとする)であっても良い。
さらに取得されるパニング情報は、様々な形態でありうる。このパニング情報は、上記の正規化したプリセットマトリクスであっても良く、ステレオパニング情報及びマルチチャネルパニング情報に区分されていても良い。
図10は、本発明のさらに他の実施例によるオーディオ信号処理装置を示す図である。
図10を参照すると、本発明の別の実施例によるオーディオ信号処理装置は、主に、ダウンミキシング部1010、オブジェクト情報生成部1020、プリセット情報生成部1030、ダウンミックス信号処理部1040、情報処理部1050、及びマルチチャネルデコーディング部1060を含む。
まず、複数個のオブジェクトは、ダウンミキシング部1010に入力されて、モノまたはステレオダウンミックス信号として生成される。また、複数個のオブジェクトは、オブジェクト情報生成部1020に入力されて、オブジェクトのレベルを表すオブジェクトレベル情報(object level information)、ダウンミックス信号に含まれるオブジェクトのゲイン値及び/またはステレオダウンミックス信号の場合に、ダウンミックスチャネルに含まれるオブジェクトの程度を表すオブジェクトゲイン情報(object gain information)、オブジェクト間の関連有無を表すオブジェクト相関情報(object correlation information)を含むオブジェクト情報(object information)を生成する。
その後、ダウンミックス信号及びオブジェクト情報は、プリセット情報生成部1030に入力されて、オブジェクトのレベルを調節するためのプリセットレンダリングデータとプリセット情報を表現するためのプリセットメタデータとを含むプリセット情報を生成する。このプリセットレンダリングデータ及びプリセットメタデータが生成される過程は、図1乃至図9のオーディオ信号処理装置及び方法で説明した通りであるから、その詳細な説明は省略する。オブジェクト情報生成部1020で生成されたオブジェクト情報とプリセット情報生成部1030で生成されたプリセット情報は、SAOCビットストリームに含めて伝送することができる。
情報処理部1050は、オブジェクト情報処理部1051及びプリセット情報受信部1052を含み、SAOCビットストリームを受信する。
プリセット情報受信部1052は、SAOCビットストリームから上記のプリセット存在情報、プリセット個数情報、プリセット長さ情報、プリセットメタデータ、プリセットタイプ情報、出力チャネル情報、及びプリセットマトリクスを受信し、その他図1乃至図9のオーディオ信号処理方法及び装置で説明された様々な実施例による方法を用いる。プリセット情報受信部1052は、プリセットメタデータとプリセットマトリクスを出力し、オブジェクト情報処理部1051はこれらを受信して、SAOCビットストリームに含まれたオブジェクト情報と一緒に用いて、ダウンミックス信号を前処理(pre-processing)するためのダウンミックス処理情報(downmix processing information)とダウンミックス信号をアップミキシングするためのマルチチャネル情報(multi-channel information)を生成する。
その後、ダウンミックス処理情報は、ダウンミックス信号処理部1040に入力されて、ダウンミックス信号に含まれたオブジェクトのパニングを行うことができる。このように前処理されたダウンミックス信号は、情報処理部1050から出力されたマルチチャネル情報と一緒にマルチチャネルデコーディング部1060に入力されてアップミキシングされることで、マルチチャネルオーディオ信号を生成することができる。
このように、本発明のオーディオ信号処理装置は、複数個のオブジェクトを含むオーディオ信号を、オブジェクト情報を用いてマルチチャネル信号にデコーディングする際に、既に設定されたプリセット情報を用いることによって、容易にオブジェクトのレベルを調節することができる。また、この時、オブジェクトに適用されるプリセットマトリクスは、出力チャネル情報に基づいて受信されたマトリクス形態のデータを用いることによってオブジェクトのレベル調節を効果的に行い、エンコーダ端から伝送されるプリセット長さ情報に基づいてプリセット情報を表現するためのプリセットメタデータを出力することによってコーディング効率を高めることができる。
図11は、本発明の一実施例によるメタデータ受信部及びプリセットレンダリングデータ受信部を含むプリセット情報受信部が具現された製品の概略的な構成を示す図であり、図12は、本発明の実施例によるプリセット情報受信部が具現された製品間の関係を示す図である。
図11を参照すると、有線/無線通信部1110は、有線/無線通信方式を通じてビットストリームを受信する。特に、有線/無線通信部1110は、有線通信部1111、赤外線通信部1112、ブルートゥース1113、無線LAN通信部1114のうち、一つ以上を含むことができる。
ユーザ認証部1120は、ユーザ情報を受信してユーザ認証を行うもので、指紋認識部1121、虹彩認識部1122、顔面認識部1123、及び音声認識部1124のうち一つ以上を含むことができ、それぞれは、指紋、虹彩情報、顔面輪郭情報、音声情報を受信してユーザ情報に変換し、ユーザ情報及び既存に登録されているユーザデータとの一致有無を判断して、ユーザ認証を行うことができる。
入力部1130は、ユーザが各種の命令を入力するための入力装置であり、キーパッド部1131、タッチパッド部1132、リモコン部1133のうち一つ以上を含むことができるが、本発明はこれに限定されない。一方、後述するメタデータ受信部1141から出力される複数個のプリセット情報に対するプリセットメタデータが、ディスプレイ部1162を通じて画面に視覚化される場合に、入力部1130を介してユーザがプリセットメタデータを選択でき、選択されたプリセットメタデータに関する情報が制御部1150に入力される。
信号デコーディング部1140は、メタデータ受信部1141及びプリセットレンダリングデータ受信部1142を含む。メタデータ受信部1141は、プリセット長さ情報を受信し、これに基づいてプリセットメタデータを受信する。また、プリセットレンダリングデータ受信部1142は、プリセットタイプ情報によってプリセット情報がマトリクスと表現された場合、出力チャネル情報を受信し、これに基づいてプリセットレンダリングデータであるプリセットマトリクスを受信する。信号デコーディング部1140は、受信したビットストリーム、プリセットメタデータ、及びプリセットマトリクスを用いてオーディオ信号をデコーディングして出力信号を生成し、当該プリセットメタデータをテキストの形態で出力する。
制御部1150は、入力装置から入力信号を受信し、信号デコーディング部1140と出力部1160のプロセス全般を制御する。上記の通り、制御部1150に入力部1130から選択されたプリセットメタデータに関する情報が入力される場合、プリセットレンダリングデータ受信部1142は、選択されたプリセットメタデータに対応するプリセットマトリクスを受信し、これを用いてオーディオ信号をデコーディングする。
出力部1160は、信号デコーディング部1140により生成された出力信号などが出力される構成要素であり、スピーカー部1161及びディスプレイ部1162を含むことができる。出力信号がオーディオ信号の場合、出力信号はスピーカー部1161から出力され、ビデオ信号の場合、出力信号はディスプレイ部1162から出力される。また、制御部1150から入力されたプリセットメタデータをディスプレイ部1162を通じて画面に視覚化する。
図12は、図11に示す製品に該当する端末及びサーバー間の関係を示す図である。
図12の(A)を参照すると、第1端末1210及び第2端末1220は互いに有線/無線通信部を通じてデータやビットストリームを両方向に通信できることがわかる。
図12の(B)を参照すると、サーバー1230及び第1端末1240も同様、互いに有線/無線通信を行うことがわかる。
図13は、本発明の一実施例によるメタデータ受信部及びプリセットレンダリングデータ受信部を含むプリセット情報受信部が具現された放送信号デコーディング装置1300の概略的な構成を示す図である。
図13を参照すると、デマルチプレクサ1320は、チューナー1310からTV放送と関連したデータを受信する。受信されたデータはデマルチプレクサ1320で分離され、データデコーダ1330でデコーディングされる。一方、デマルチプレクサ1320で分離されたデータは、HDDのような記憶媒体1350に記憶されることができる。デマルチプレクサ1320で分離されたデータは、オーディオデコーダ1341及びビデオデコーダ1342を含むデコーダ1340に入力されて、オーディオ信号及びビデオ信号がデコーディングされる。オーディオデコーダ1341は、本発明の一実施例によるメタデータ受信部1341A及びプリセットレンダリングデータ受信部1341Bを含み、メタデータ受信部1341Aは、プリセット長さ情報を受信し、これに基づいてプリセットメタデータを受信する。また、プリセットレンダリングデータ受信部1341Bは、プリセットタイプ情報によってプリセット情報がマトリクスと表現された場合、出力チャネル情報を受信し、これに基づいてプリセットレンダリングデータであるプリセットマトリクスを受信する。オーディオデコーダ1341は、受信したビットストリーム、プリセットメタデータ、及びプリセットマトリクスを用いてオーディオ信号をデコーディングして出力信号を生成し、該プリセットメタデータをテキスト形態で出力する。
ディスプレイ部1370は、ビデオデコーダ1342から出力されたビデオ信号とオーディオデコーダ1341から出力されたプリセットメタデータを画面に視覚化する。また、ディスプレイ部1370は、スピーカー部(図示せず)を含み、オーディオデコーダ1341から出力されるオブジェクトのレベルがプリセットマトリクスを用いて調節されたオーディオ信号を、ディスプレイ部1370に含まれたスピーカー部から出力する。また、デコーダ1340でデコーディングされたデータは、HDDのような記憶媒体1350に記憶することができる。
一方、信号デコーディング装置1300は、ユーザから情報を受信して、受信されたデータを制御できるアプリケーションマネージャー1360をさらに含むことができる。
アプリケーションマネージャー1360は、ユーザインターフェースマネージャー1361及びサービスマネージャー1362を含む。ユーザインターフェースマネージャー1361は、ユーザから情報を受信するためのインターフェース(interface)を制御する。例えば、ディスプレイ部1370に視覚化されるテキストの書体、画面の明るさ、メニュー構成などを制御することができる。一方、サービスマネージャー1362は、デコーダ1340及びディスプレイ部1370で放送信号をデコーディングして出力する場合、受信する放送信号を、ユーザから入力される情報を用いて制御することができる。例えば、放送チャネルの設定、アラーム機能設定、成人認証機能などを提供することができる。アプリケーションマネージャー1360から出力されるデータは、デコーダ1340の他に、ディスプレイ部1370にも伝送して用いることができる。
図14は、本発明の一実施例によるプリセット情報受信部を含む製品のディスプレイ部を示す図である。ディスプレイ部は、ビットストリームに含まれた全てのプリセットメタデータを視覚化することができる。例えば、図14に示すように、カラオケモード、コンサートホールモード、及びニュースモードが画面上に全て視覚化される。
これらのプリセットメタデータのうち一つをユーザが選択する場合、ディスプレイ部は、カラオケモードに対応するプリセットマトリクスが複数個のオブジェクトに適用されることによって、レベルの調節されたオブジェクトを画面に視覚化する。例えば、ユーザがカラオケモードを選択する場合、ボーカルオブジェクトのレベルが最低に設定されたものが視覚化されることができる。また、ユーザがニュースモードを選択する場合には、オーディオ信号に適用されるプリセットマトリクスは、ボーカルオブジェクト以外のオブジェクトのレベルを減少させることとなる。
図14を参照すると、ニュースモードが選択された場合、ディスプレイ部は、ボーカルオブジェクトのレベルが、カラオケモード時におけるボーカルオブジェクトのレベルよりも増加し、その他オブジェクトのレベルは最低に設定されたものが視覚化される。
したがって、ディスプレイ部にプリセット情報を表現するプリセットメタデータの他、プリセットマトリクスによって調節されたオブジェクトのレベルを視覚化することによって、ユーザは、所望のプリセットモードを適切に選択し、所望の音場感を有するオーディオ信号を聴取することが可能になる。
本発明は、オーディオ信号のエンコーディング及びデコーディングに適用することができる。
以上のように、本発明はたとえ限定された実施例及び図面によって説明されたが、本発明は、それらに限定されず、本発明の属する技術分野における通常の知識を有する者にとっては、本発明の技術思想と添付の特許請求の範囲及びその均等範囲内で様々な修正及び変形が可能であることは明らかである。

Claims (15)

  1. 少なくとも一つのオブジェクトを含むオーディオ信号及びプリセット情報を受信する段階と、
    前記プリセット情報から、前記オブジェクトの出力チャネルに対する寄与の程度を表すプリセットマトリクスを取得する段階と、
    前記プリセットマトリクスを用いて、前記出力チャネルに従い前記オブジェクトの出力レベルを調節する段階と、
    出力レベルの調節された前記オブジェクトを含むオーディオ信号を出力する段階と、
    を含み、
    前記プリセット情報は、該プリセット情報が存在することを表すプリセット存在情報、及び該プリセット情報の個数を表すプリセット個数情報に基づいて取得され、
    前記プリセットマトリクスは、前記プリセット情報がマトリクスで表現されていることを表すプリセットタイプ情報に基づいて取得されることを特徴とするオーディオ信号処理方法。
  2. 前記プリセットマトリクスは、前記出力チャネルがモノ、ステレオ及びマルチチャネルのうち一つであることを表す出力チャネル情報に基づいて取得されることを特徴とする、請求項1に記載のオーディオ信号処理方法。
  3. 前記プリセットタイプ情報は、1ビットで表現されることを特徴とする、請求項2に記載のオーディオ信号処理方法。
  4. 前記プリセットマトリクスの次元は、前記オブジェクトの個数及び前記出力チャネルの個数に基づいて決定されることを特徴とする、請求項1に記載のオーディオ信号処理方法。
  5. 少なくとも一つのオブジェクトを含むオーディオ信号を受信するオーディオ信号受信部と、
    プリセット情報からプリセットメタデータを受信するプリセットメタデータ受信部と、
    前記プリセット情報から、前記オブジェクトの出力チャネルに対する寄与の程度を表すプリセットマトリクスを取得するプリセットレンダリングデータ受信部と、
    前記プリセットマトリクスを用いて、前記出力チャネルに従い前記オブジェクトの出力レベルを調節するオブジェクト調節部と、
    出力レベルの調節された前記オブジェクトを含むオーディオ信号を出力する出力部と、
    を含み、
    前記プリセットマトリクスは、前記プリセット情報がマトリクスで表現されていることを表すプリセットタイプ情報に基づいて取得されることを特徴とするオーディオ信号処理装置。
  6. 前記プリセットレンダリングデータ受信部は、前記出力チャネルがモノ、ステレオ及びマルチチャネルのうち一つであることを表す出力チャネル情報に基づいて前記プリセットマトリクスを取得することを特徴とする、請求項5に記載のオーディオ信号処理装置。
  7. 前記プリセットタイプ情報は、1ビットで表現されることを特徴とする、請求項6に記載のオーディオ信号処理装置。
  8. 前記プリセットマトリクスの次元は、前記オブジェクトの個数及び前記出力チャネルの個数に基づいて決定されることを特徴とする、請求項5に記載のオーディオ信号処理装置。
  9. デジタルオーディオデータを記憶し、コンピュータで読み取り可能な記憶媒体であって、
    前記デジタルオーディオデータは、少なくとも一つのオブジェクトを含むオーディオ信号及びプリセット情報を含み、
    前記プリセット情報は、前記プリセット情報を表現するプリセットメタデータ、前記プリセット情報が存在することを表すプリセット存在情報、前記プリセット情報の個数を表すプリセット個数情報、前記オブジェクトの出力チャネルに対する寄与の程度を表すプリセットマトリクス及び前記プリセット情報がマトリクスで表現されていることを表すプリセットタイプ情報を含み、
    前記プリセット情報は、前記プリセット存在情報及び前記プリセット個数情報に基づいて取得され、
    前記プリセットマトリクスは、前記プリセットタイプ情報に基づいて取得されることを特徴とする記憶媒体。
  10. 前記プリセットマトリクスは、前記出力チャネルがモノ、ステレオ及びマルチチャネルのうち一つであることを表す出力チャネル情報に基づいて取得されることを特徴とする、請求項9に記載の記憶媒体。
  11. 前記プリセットタイプ情報は、1ビットで表現されることを特徴とする、請求項10に記載の記憶媒体。
  12. 前記プリセットマトリクスの次元は、前記オブジェクトの個数及び前記出力チャネルの個数に基づいて決定されることを特徴とする、請求項9に記載の記憶媒体。
  13. 少なくとも一つのオブジェクトをダウンミックスしてオーディオ信号を生成するオーディオ信号生成部と、
    プリセット情報のプリセットメタデータを生成するメタデータ生成部と、
    前記オブジェクトの出力チャネルに対する寄与の程度を表すプリセットマトリクス及び前記プリセット情報がマトリクスで表現されていることを表すプリセットタイプ情報を生成するプリセットレンダリングデータ生成部と、
    を含むことを特徴とするオーディオ信号処理装置。
  14. 前記プリセットレンダリングデータ生成部は、前記出力チャネルがモノ、ステレオ及びマルチチャネルのうち一つであることを表す出力チャネル情報をさらに生成することを特徴とする、請求項13に記載のオーディオ信号処理装置。
  15. 少なくとも一つのオブジェクトをダウンミックスしてオーディオ信号を生成する段階と、
    プリセット情報の存在有無を表すプリセット存在情報を生成する段階と、
    前記プリセット情報の個数を表すプリセット個数情報を生成する段階と、
    前記プリセット情報を表現するプリセットメタデータを生成する段階と、
    前記オブジェクトの出力チャネルに対する寄与の程度を表すプリセットマトリクスを生成する段階と、
    前記プリセット情報がマトリクスで表現されていることを表すプリセットタイプ情報を生成する段階と、
    を含むことを特徴とするオーディオ信号処理方法。
JP2010544229A 2008-01-23 2009-01-23 オーディオ信号の処理方法及び装置 Active JP5319704B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US2305108P 2008-01-23 2008-01-23
US61/023,051 2008-01-23
KR1020090005506A KR101024924B1 (ko) 2008-01-23 2009-01-22 오디오 신호의 처리 방법 및 이의 장치
KR10-2009-0005506 2009-01-22
PCT/KR2009/000367 WO2009093867A2 (en) 2008-01-23 2009-01-23 A method and an apparatus for processing audio signal

Publications (2)

Publication Number Publication Date
JP2011510589A true JP2011510589A (ja) 2011-03-31
JP5319704B2 JP5319704B2 (ja) 2013-10-16

Family

ID=41402183

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010544229A Active JP5319704B2 (ja) 2008-01-23 2009-01-23 オーディオ信号の処理方法及び装置
JP2010544228A Expired - Fee Related JP5249354B2 (ja) 2008-01-23 2009-01-23 オーディオ信号の処理方法及び装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2010544228A Expired - Fee Related JP5249354B2 (ja) 2008-01-23 2009-01-23 オーディオ信号の処理方法及び装置

Country Status (9)

Country Link
JP (2) JP5319704B2 (ja)
KR (2) KR101024924B1 (ja)
CN (2) CN101926181B (ja)
AT (2) ATE481830T1 (ja)
AU (1) AU2009206856B2 (ja)
CA (1) CA2712941C (ja)
DE (2) DE602009000167D1 (ja)
MX (1) MX2010007997A (ja)
RU (1) RU2450440C1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013511738A (ja) * 2009-11-20 2013-04-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム
JP2015518182A (ja) * 2012-05-07 2015-06-25 ドルビー・インターナショナル・アーベー レイアウト及びフォーマットに依存しない3dオーディオ再生のための方法及び装置
JP2017536020A (ja) * 2014-10-10 2017-11-30 ドルビー ラボラトリーズ ライセンシング コーポレイション 伝送に関知しない呈示ベースのプログラム・ラウドネス

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP3074970B1 (en) * 2013-10-21 2018-02-21 Dolby International AB Audio encoder and decoder
CN106463124B (zh) * 2014-03-24 2021-03-30 三星电子株式会社 用于渲染声信号的方法和设备,以及计算机可读记录介质
JP2021530723A (ja) 2018-07-02 2021-11-11 ドルビー ラボラトリーズ ライセンシング コーポレイション 没入的オーディオ信号を含むビットストリームを生成またはデコードするための方法および装置
KR102049603B1 (ko) * 2018-10-30 2019-11-27 한국전자통신연구원 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR102220521B1 (ko) * 2019-11-21 2021-02-25 한국전자통신연구원 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR102370348B1 (ko) * 2019-11-21 2022-03-04 한국전자통신연구원 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003531555A (ja) * 2000-04-19 2003-10-21 ソニック ソリューションズ 3次元空間高調波を保存するマルチチャンネルサラウンドサウンドマスタリングおよび再生方法
JP2005242126A (ja) * 2004-02-27 2005-09-08 Dainippon Printing Co Ltd 音響信号の再生装置
WO2006027138A1 (de) * 2004-09-03 2006-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung eines codierten multikanalsignals und decodierung eines codierten multikanalsignals
WO2006056910A1 (en) * 2004-11-23 2006-06-01 Koninklijke Philips Electronics N.V. A device and a method to process audio data, a computer program element and computer-readable medium
WO2006132857A2 (en) * 2005-06-03 2006-12-14 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
WO2007027055A1 (en) * 2005-08-30 2007-03-08 Lg Electronics Inc. A method for decoding an audio signal
WO2007083958A1 (en) * 2006-01-19 2007-07-26 Lg Electronics Inc. Method and apparatus for decoding a signal
WO2007128523A1 (en) * 2006-05-04 2007-11-15 Lg Electronics Inc. Enhancing audio with remixing capability
WO2007136187A1 (en) * 2006-05-19 2007-11-29 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
JP2009506706A (ja) * 2005-08-30 2009-02-12 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
JP2009524104A (ja) * 2006-01-19 2009-06-25 エルジー エレクトロニクス インコーポレイティド 信号デコーディング方法及び装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5798818A (en) * 1995-10-17 1998-08-25 Sony Corporation Configurable cinema sound system
US6704421B1 (en) * 1997-07-24 2004-03-09 Ati Technologies, Inc. Automatic multichannel equalization control system for a multimedia computer
KR100542129B1 (ko) 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
EP1427252A1 (en) * 2002-12-02 2004-06-09 Deutsche Thomson-Brandt Gmbh Method and apparatus for processing audio signals from a bitstream
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US9992599B2 (en) * 2004-04-05 2018-06-05 Koninklijke Philips N.V. Method, device, encoder apparatus, decoder apparatus and audio system
KR100644617B1 (ko) * 2004-06-16 2006-11-10 삼성전자주식회사 7.1 채널 오디오 재생 방법 및 장치
EP1851656A4 (en) * 2005-02-22 2009-09-23 Verax Technologies Inc SYSTEM AND METHOD FOR FORMATTING MULTIMODE CONTENT OF SOUNDS AND METADATA
KR20070005468A (ko) * 2005-07-05 2007-01-10 엘지전자 주식회사 부호화된 오디오 신호의 생성방법, 그 부호화된 오디오신호를 생성하는 인코딩 장치 그리고 그 부호화된 오디오신호를 복호화하는 디코딩 장치
KR20070031212A (ko) * 2005-09-14 2007-03-19 엘지전자 주식회사 오디오 신호의 인코딩/디코딩 방법 및 장치
KR20070044352A (ko) * 2005-10-24 2007-04-27 엘지전자 주식회사 오디오 신호의 인코딩 및 디코딩 방법, 및 이를 구현하기위한 장치
KR100802179B1 (ko) * 2005-12-08 2008-02-12 한국전자통신연구원 프리셋 오디오 장면을 이용한 객체기반 3차원 오디오서비스 시스템 및 그 방법
JP2007178590A (ja) * 2005-12-27 2007-07-12 Ntt Docomo Inc 目的信号抽出装置、目的信号抽出方法、及び、プログラム
KR20070092164A (ko) * 2006-03-07 2007-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 오디오 신호 처리 장치
JP4399835B2 (ja) 2006-07-07 2010-01-20 日本ビクター株式会社 音声符号化方法及び音声復号化方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003531555A (ja) * 2000-04-19 2003-10-21 ソニック ソリューションズ 3次元空間高調波を保存するマルチチャンネルサラウンドサウンドマスタリングおよび再生方法
JP2005242126A (ja) * 2004-02-27 2005-09-08 Dainippon Printing Co Ltd 音響信号の再生装置
JP2008511848A (ja) * 2004-09-03 2008-04-17 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化されたマルチチャネル信号を発生するための装置および方法並びに符号化されたマルチチャネル信号を復号化するための装置および方法
WO2006027138A1 (de) * 2004-09-03 2006-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung eines codierten multikanalsignals und decodierung eines codierten multikanalsignals
WO2006056910A1 (en) * 2004-11-23 2006-06-01 Koninklijke Philips Electronics N.V. A device and a method to process audio data, a computer program element and computer-readable medium
JP2008521046A (ja) * 2004-11-23 2008-06-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声データ処理装置及び方法、コンピュータプログラム要素並びにコンピュータ可読媒体
WO2006132857A2 (en) * 2005-06-03 2006-12-14 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
JP2008543227A (ja) * 2005-06-03 2008-11-27 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション サイド情報を有するチャンネルの再構成
JP2009506706A (ja) * 2005-08-30 2009-02-12 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
WO2007027055A1 (en) * 2005-08-30 2007-03-08 Lg Electronics Inc. A method for decoding an audio signal
WO2007083958A1 (en) * 2006-01-19 2007-07-26 Lg Electronics Inc. Method and apparatus for decoding a signal
JP2009524104A (ja) * 2006-01-19 2009-06-25 エルジー エレクトロニクス インコーポレイティド 信号デコーディング方法及び装置
WO2007128523A1 (en) * 2006-05-04 2007-11-15 Lg Electronics Inc. Enhancing audio with remixing capability
JP2010507927A (ja) * 2006-05-04 2010-03-11 エルジー エレクトロニクス インコーポレイティド リミキシング性能を持つ改善したオーディオ
WO2007136187A1 (en) * 2006-05-19 2007-11-29 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
JP2009537876A (ja) * 2006-05-19 2009-10-29 韓國電子通信研究院 プリセットオーディオシーンを用いたオブジェクトベースの3次元オーディオサービスシステム及びその方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013511738A (ja) * 2009-11-20 2013-04-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム
JP2015518182A (ja) * 2012-05-07 2015-06-25 ドルビー・インターナショナル・アーベー レイアウト及びフォーマットに依存しない3dオーディオ再生のための方法及び装置
US9378747B2 (en) 2012-05-07 2016-06-28 Dolby International Ab Method and apparatus for layout and format independent 3D audio reproduction
JP2017536020A (ja) * 2014-10-10 2017-11-30 ドルビー ラボラトリーズ ライセンシング コーポレイション 伝送に関知しない呈示ベースのプログラム・ラウドネス
US11062721B2 (en) 2014-10-10 2021-07-13 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness

Also Published As

Publication number Publication date
JP5319704B2 (ja) 2013-10-16
KR20090081342A (ko) 2009-07-28
AU2009206856B2 (en) 2013-05-30
KR100998913B1 (ko) 2010-12-08
RU2450440C1 (ru) 2012-05-10
CA2712941C (en) 2015-06-16
DE602009000167D1 (de) 2010-10-28
CN101926094A (zh) 2010-12-22
CN101926181B (zh) 2014-05-21
KR101024924B1 (ko) 2011-03-31
DE602009000166D1 (de) 2010-10-28
CN101926094B (zh) 2013-07-17
ATE481830T1 (de) 2010-10-15
JP5249354B2 (ja) 2013-07-31
MX2010007997A (es) 2010-08-31
CN101926181A (zh) 2010-12-22
AU2009206856A1 (en) 2009-07-30
RU2010134915A (ru) 2012-02-27
ATE481829T1 (de) 2010-10-15
KR20090081341A (ko) 2009-07-28
CA2712941A1 (en) 2009-07-30
JP2011511307A (ja) 2011-04-07

Similar Documents

Publication Publication Date Title
JP5319704B2 (ja) オーディオ信号の処理方法及び装置
US9787266B2 (en) Method and an apparatus for processing an audio signal
JP5258967B2 (ja) オーディオ信号の処理方法及び装置
KR101171314B1 (ko) 오디오 신호의 처리 방법 및 이의 장치
JP5249408B2 (ja) オーディオ信号の処理方法及び装置
EP2083584B1 (en) A method and an apparatus for processing an audio signal
JP5457430B2 (ja) オーディオ信号の処理方法及び装置
KR101061128B1 (ko) 오디오 신호 처리 방법 및 이의 장치
JP5406276B2 (ja) オーディオ信号の処理方法及び装置
EP2111062B1 (en) A method and an apparatus for processing an audio signal

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130711

R150 Certificate of patent or registration of utility model

Ref document number: 5319704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250