JP2011511307A - オーディオ信号の処理方法及び装置 - Google Patents

オーディオ信号の処理方法及び装置 Download PDF

Info

Publication number
JP2011511307A
JP2011511307A JP2010544228A JP2010544228A JP2011511307A JP 2011511307 A JP2011511307 A JP 2011511307A JP 2010544228 A JP2010544228 A JP 2010544228A JP 2010544228 A JP2010544228 A JP 2010544228A JP 2011511307 A JP2011511307 A JP 2011511307A
Authority
JP
Japan
Prior art keywords
preset
information
audio signal
matrix
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010544228A
Other languages
English (en)
Other versions
JP5249354B2 (ja
Inventor
オー,ヒェン−オー
ウォン ジュン,ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Priority claimed from PCT/KR2009/000366 external-priority patent/WO2009093866A2/en
Publication of JP2011511307A publication Critical patent/JP2011511307A/ja
Application granted granted Critical
Publication of JP5249354B2 publication Critical patent/JP5249354B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Circuits Of Receivers In General (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

少なくとも一つのオブジェクトを含むオーディオ信号を受信するオーディオ信号受信部と、プリセット情報から、プリセットメタデータを受信するプリセットメタデータ受信部と、前記プリセット情報からプリセットマトリクスを獲得するプリセットレンダリングデータ受信部と、前記プリセットメタデータを表示するディスプレイ部と、前記プリセットメタデータのうち一つを選択する命令語を受信する入力部と、前記選択されたプリセットメタデータに対応する前記プリセットマトリクスを用いて、出力チャンネルによって前記オブジェクトの出力レベルを調節するオブジェクト調節部と、を含むことを特徴とするオーディオ信号の処理装置が開示される。この装置によれば、それぞれのオブジェクトに対するユーザの設定なしに、予め設定されたプリセットメタデータを参照してオーディオ信号に適用するプリセットメタデータを選択し、選択されたプリセットメタデータに対応するプリセットレンダリングデータを用いて、オーディオ信号に含まれているオブジェクトのレベルを容易に調節することができる。
【選択図】図11

Description

本発明は、オーディオ信号の処理方法及び装置に係り、より詳細には、広範囲の適用に好適でありながらも、特に、デジタル媒体、放送信号などで受信されたオーディオ信号の処理に好適なオーディオ信号の処理方法及び装置に関するものである。
複数個のオブジェクトを含むオーディオ信号を、モノ信号またはステレオ信号にダウンミックスしてダウンミックス信号を生成する過程において、オブジェクトからパラメータが抽出される。それらのパラメータは、ダウンミックスされた信号をデコーディングする過程で用いられ、オブジェクトのパニング(panning)とゲイン(gain)は、ユーザの選択によってコントロールすることができる。
ダウンミックス信号に含まれているオブジェクトは、ユーザの選択によって適切に調節しなければならない。しかし、ユーザがオブジェクトを制御する場合は、直接オブジェクトを制御しなければならず、面倒であり、専門家によって制御してもらう場合に比べて、複数のオブジェクトを含むオーディオ信号を、環境に応じて最適の状態として再現することは困難である。
したがって、本発明は、当分野における制限や欠点に起因する一つまたは複数の問題を実質的に防止するオーディオ信号処理方法及び装置を目的とする。
本発明の目的は、プリセットメタデータ及びプリセットレンダリングデータを含むプリセット情報を用いて、オーディオ信号に含まれるオブジェクトを調節することができるオーディオ信号処理方法及び装置を提供することにある。
本発明の他の目的は、プリセットレンダリングデータタイプがマトリクスである場合、オーディオ信号の出力チャンネル情報に基づいてプリセットレンダリングデータを決定し、このプリセットレンダリングデータをオーディオ信号に適用することによって、出力チャンネルにおけるオブジェクトのレベルを調節するオーディオ信号処理方法及び装置を提供することにある。
また、本発明のさらに他の目的は、オブジェクトを調節するプリセットレンダリングマトリクスを、エンコーダから伝送されたモノタイププリセットレンダリングマトリクスまたはゲイン情報から段階的に生成するオーディオ信号処理方法及び装置を提供することにある。
本発明の他の特徴および利点は、以下の記載で述べるが、その一部については、明細書の記載から明らかになるであろうし、あるいは、本発明の実施によって分かるであろう。本発明の目的および他の利点は、明細書および特許請求の範囲の書面ならびに添付図面で特に示された構成によって、実現され達成されるであろう。
上記目的を達成するために、本発明によるオーディオ信号処理方法は、少なくとも一つのオブジェクトを含むオーディオ信号及びプリセット情報を受信する段階と、前記プリセット情報からプリセットマトリクスを獲得する段階であって、前記プリセットマトリクスが、前記オブジェクトが出力チャンネルに含まれる程度を示すものである段階と、前記プリセットマトリクスを用いて、出力チャンネルによって前記オブジェクトの出力レベルを調節する段階と、前記出力レベルの調節されたオブジェクトを含むオーディオ信号を出力する段階と、を含み、前記プリセット情報は、前記プリセット情報が含まれているか否かを表すプリセット存在情報及び前記プリセット情報の個数を表すプリセット個数情報に基づいて獲得され、前記プリセットマトリクスは、前記プリセット情報がマトリクスで表現されているか否かを表すプリセットタイプ情報に基づいて獲得されることを特徴とする。
本発明によれば、前記プリセットマトリクスは、前記出力チャンネルがモノ、ステレオ及びマルチチャンネルのうち一つであることを表す出力チャンネル情報に基づいて獲得されることを特徴とする。
本発明によれば、前記プリセットタイプ情報は、1ビットで表現されることを特徴とする。
本発明によれば、前記プリセットマトリクスの次元は、前記オブジェクトの個数及び前記出力チャンネルの個数に基づいて決定されることを特徴とする。
本発明の他の側面によるオーディオ信号処理装置によれば、少なくとも一つのオブジェクトを含むオーディオ信号を受信するオーディオ信号受信部と、プリセット情報のプリセットメタデータを獲得するプリセットメタデータ受信部と、前記オブジェクトが出力チャンネルに含まれる程度を表すプリセットマトリクスを獲得するプリセットレンダリングデータ受信部であって、前記プリセットマトリクスは、前記プリセットメタデータに対応するプリセットレンダリングデータ受信部と、前記プリセットメタデータを表示するディスプレイ部と、前記プリセットメタデータのうち一つを選択する信号を受信する入力部と、前記選択されたプリセットメタデータに対応する前記プリセットマトリクスを用いて、出力チャンネルによって前記オブジェクトの出力レベルを調節するオブジェクト調節部と、前記出力レベルの調節されたオブジェクトを含むオーディオ信号を出力する出力部と、を含むことを特徴とする。
本発明によれば、前記出力部が、前記オーディオ信号を出力する場合、前記ディスプレイ部は、前記選択されたプリセットメタデータを表示することを特徴とする。
本発明によれば、前記ディスプレイ部は、前記オブジェクトの出力レベルをさらに表示することを特徴とする。
本発明によれば、前記プリセットマトリクスは、前記出力チャンネルがモノ、ステレオ及びマルチチャンネルのうちの一つであることを表す出力チャンネル情報に基づいて獲得されることを特徴とする。
本発明によれば、前記プリセット情報は、前記プリセット情報の個数を表すプリセット個数情報に基づいて獲得され、前記プリセットマトリクスは、前記プリセット情報がマトリクスで表現されているか否かを表すプリセットタイプ情報に基づいて獲得されることを特徴とする。
本発明によれば、前記プリセット情報は、前記オブジェクトに適用される前記プリセットマトリクスが存在するか否かを表すプリセットオブジェクト適用情報をさらに含むことを特徴とする。
本発明によれば、前記ディスプレイ部は、前記プリセットオブジェクト適用情報に基づいて、前記オブジェクトに適用される前記プリセットマトリクスが存在するか否かをさらに表示することを特徴とする。
本発明によれば、前記ディスプレイ部は、前記プリセットメタデータをテキスト形態で表現することを特徴とする。
本発明は、下記のような効果及び利点を提供する。
第一に、オブジェクトに対するユーザの設定なしに、予め設定されたプリセット情報のうち一つを選択することによって容易にオブジェクトの出力チャンネルのレベルを調節することができる。
第二に、プリセット情報を表現するプリセットメタデータを、メタデータの長さを示すプリセット長さ情報に基づいてテキスト形態で表現することによって、不必要なコーディングを減らすことができる。
第三に、プリセットレンダリングデータのタイプがマトリクスである場合、オーディオ信号の出力チャンネル情報に基づいて、プリセットレンダリングデータを示すプリセットマトリクスを決定することによって、オブジェクトの出力チャンネルのレベルをより正確で効率よく調節することができる。
第四に、プリセットマトリクスを段階的に生成することによって、エンコーダから伝送されるビットレートを減少させることができる。
第五に、複数個のオブジェクトのうち一部のオブジェクトのみを調節できるプリセットマトリクスを用いることによって、不必要なコーディングを減少させることができる。
添付図面は、本発明をさらに理解するために包含されており、本明細書に組み込まれて本明細書の一部を構成する。これらの添付図面は、本発明の実施形態を例示し、明細書の記載と共に本明細書の原理を説明するためのものである。
本発明の実施例によるオーディオ信号に含まれたオブジェクトに適用されるプリセット情報の概念図である。 本発明の実施例によるオーディオ信号処理装置を示す図である。 本発明の実施例によるオーディオ信号処理装置におけるプリセット情報受信部を示す図である。 本発明の実施例によるオーディオ信号処理方法を示すフローチャートである。 本発明の実施例によるシンタックス(syntax)を示す図である。 本発明の他の実施例によるシンタックスを示す図である。 本発明のさらに他の実施例によるシンタックスを示す図である。 本発明のさらに他の実施例によるプリセットレンダリングデータ受信部を示す図である。 本発明のさらに他の実施例によるシンタックスを示す図である。 本発明のさらに他の実施例によるオーディオ信号処理装置を示す図である。 本発明の実施例によるプリセット情報受信部が具現された製品の概略的な構成を示す図である。 図11に示す製品に該当する端末及びサーバー間の関係を示す図である。 本発明の実施例によるプリセット情報受信部が具現されたデジタルTVの概略的な構成を示す図である。 本発明の一実施例によるプリセット情報受信部を含む製品のディスプレイ部を示す図である。
以下の本発明に関する概略説明とそれに続く詳細説明は、共に、実施例とその説明であり、特許請求の範囲に記載された本発明をさらに説明するためのものであることを理解されたい。
以下、添付の図面を参照しつつ、本発明の好ましい実施例について詳細に説明する。本明細書及び請求の範囲に使われた用語や単語は、通常的または辞書的な意味に限定して解析してはならず、発明者は自身の発明を最善の方法で説明するために用語の概念を適切に定義することができるという原則に立って、本発明の技術的思想に符合する意味及び概念として解釈しなければならない。したがって、本明細書に記載された実施例と図面に示された構成は、本発明の最も好ましい一実施例に過ぎないもので、本発明の技術的思想を全部代弁するものではないので、本出願時点においてこれらに代替可能な様々な均等物及び変形例がありうることが理解される。
特に、本明細書で、情報(information)は、値(values)、パラメータ(parameters)、係数(coefficients)、成分(elements)などを総称する用語と解釈され、オブジェクト(object)は、ギター(guitar)、ボーカル(vocal)、ピアノ(piano)等を含め、オーディオ信号を構成するソース(source)信号のそれぞれを示すものと解釈される。これらの意味は場合によって異なって解釈され、これらによって発明が限定されることはない。
本発明は、複数個のオブジェクトを含むオーディオ信号をデコーディングする方法において、これらのオブジェクトを調節するための予め設定された情報のうち一つを用いることによって当該オーディオ信号を効果的にデコーディングする方法を提供する。
図1は、本発明の実施例による、オーディオ信号に含まれたオブジェクトに適用されるプリセット情報の概念図である。本明細書では、オブジェクトを調節するための予め設定された情報をプリセット情報(preset information)とする。プリセット情報は、オーディオ信号の特性または聴取環境によって選択しうる様々なモードを表すことができ、複数個とすることができる。また、プリセット情報は、プリセット情報の属性などを表現するためのメタデータ(metadata)と、オブジェクトを調節するために適用されるレンダリングデータ(rendering data)とを含む。メタデータは、テキスト形態で表示することができ、プリセット情報の属性(例えば、コンサートホールモード、カラオケモード、ニュースモード等)を表す他に、プリセット情報の作成者、作成日、プリセット情報が適用されるオブジェクト名などを含め、当該プリセット情報を表現するための関連情報を含むことができる。一方、レンダリングデータは、実質的にオブジェクトに適用されるデータであり、様々な形態を有することができ、特にマトリクス形態を有することができる。
図1を参照すると、プリセット情報1(preset 1)は、音楽信号をコンサートホールで聞くような音場感を提供するコンサートホールモード(concert hall mode)とすることができ、プリセット情報2(preset 2)は、オーディオ信号のうちボーカル(vocal)オブジェクトのレベルを減少させたカラオケモード(karaoke mode)とすることができ、プリセット情報n(preset n)は、音声オブジェクトのレベルを増加させたニュースモード(news mode)とすることができる。また、プリセット情報2(preset 2)は、メタデータ2とレンダリングデータ2を含む。仮に、ユーザからプリセット情報2が選択されると、メタデータ2であるカラオケモード(karaoke mode)がディスプレイ部に表示され、メタデータ2に関するレンダリングデータ2がオブジェクトに適用されてレベルを調節することができる。
この場合、レンダリングデータがマトリクス形態であれば、レンダリングデータは、モノマトリクス(mono matrix)、ステレオマトリクス(stereo matrix)、マルチチャンネルマトリクス(multi-channel matrix)を含むことができる。モノマトリクスは、オブジェクトの出力チャンネルがモノである場合に適用されるレンダリングデータであり、ステレオマトリクスは、オブジェクトの出力チャンネルがステレオである場合に適用されるレンダリングデータであり、マルチチャンネルマトリクスは、オブジェクトの出力チャンネルがマルチチャンネルである場合に適用されるレンダリングデータである。オブジェクトの出力チャンネルが決定されると、該決定された出力チャンネルを用いてマトリクスが決定される。その後、該マトリクスをオブジェクトに適用してレベルを調節することができる。
このように、プリセット情報に含まれたメタデータ及びレンダリングデータを用いて当該オブジェクトを調節し、適用されたプリセット情報の属性または特徴を表現することによって、ユーザの所望する効果を有するオーディオ信号を効率よく提供することが可能になる。
図2は、本発明の実施例によるオーディオ信号処理装置200を示す図である。
図2を参照すると、オーディオ信号処理装置200は、プリセット情報生成部210、プリセット情報受信部220、オブジェクト調節部230を含むことがある。
プリセット情報生成部210は、オーディオ信号に含まれたオブジェクトを調節するためのプリセット情報を生成するもので、メタデータ生成部212及びプリセットレンダリングデータ生成部214を含むことができる。メタデータ生成部212は、プリセット情報を表現するテキスト情報を受信してプリセットメタデータ(preset metadata)を生成することができる。このプリセットメタデータは、上記の通り、プリセット情報の特性または属性を表現するための情報でありうる。この場合、メタデータ生成部212は、プリセットメタデータの文字の長さの数を表すプリセット長さ情報(preset length information)をさらに生成することができる。このプリセット長さ情報は、バイト(byte)で表すことができるが、これに限定されることはない。
一方、オブジェクトのレベルを調節するためのゲイン及びオブジェクトのパニング(panning)のための情報が、プリセットレンダリングデータ生成部214に入力される場合、当該オブジェクトに適用されるプリセットレンダリングデータ(preset rendering data)を生成することができる。プリセットレンダリングデータは、オブジェクトごとに生成することができ、様々なタイプにすることができ、例えば、マトリクス形態などで具現されたプリセットマトリクス(preset matrix)とすることができる。また、プリセットレンダリングデータ生成部214は、プリセットレンダリングデータがマトリクス形態で表現されているか否かを表すプリセットタイプ情報(preset_type_flag)をさらに生成することができる。また、オブジェクトの出力チャンネルが何本かを表す出力チャンネル情報(output channel information)をさらに生成することもできる。
メタデータ生成部212で生成されたプリセット長さ情報及びプリセットメタデータと、プリセットレンダリングデータ生成部214で生成されたプリセットタイプ情報、出力チャンネル情報、及びプリセットレンダリングデータは、一つのビットストリームに含めて伝送することができ、特に、オーディオ信号を含むビットストリームの補助領域(ancillary region)に含めて伝送することができる。
一方、プリセット情報生成部210は、プリセット長さ情報、プリセットメタデータ、プリセットタイプ情報、出力チャンネル情報、及びプリセットレンダリングデータがビットストリームに含まれていることを表すプリセット存在情報(preset exist information)をさらに生成することができる。このプリセット存在情報は、プリセット情報に関する情報がどの領域に含まれているかを表すコンテナタイプ(container type)にしてもよく、フラグタイプ(flag type)にしてもよいが、これに限定されない。
また、プリセット情報生成部210は、複数個のプリセット情報を生成することができ、それぞれのプリセット情報は、プリセット長さ情報、プリセットメタデータ、プリセットタイプ情報、出力チャンネル情報、及びプリセットレンダリングデータを含む。ここで、プリセット情報生成部210は、プリセット情報の個数を表すプリセット個数情報(preset number information)をさらに生成することができる。
プリセット情報受信部220は、プリセット情報生成部210で生成されて伝送されたプリセット情報を受信するもので、メタデータ受信部222及びプリセットレンダリングデータ受信部224を含むことができる。
メタデータ受信部222は、プリセットメタデータを受信して出力し、プリセットレンダリングデータ受信部224は、プリセットレンダリングデータ(例えば、プリセットマトリクス)を受信する。これについての詳細は、図3及び図4を参照して後述される。
オブジェクト調節部230は、複数個のオブジェクトを含むオーディオ信号と、プリセットレンダリングデータ受信部224で生成されたプリセットレンダリングデータとを受信する。このプリセットレンダリングデータは、オブジェクトに適用されてオブジェクトのレベルを調節したり、オブジェクトの位置を調節したりすることができる。
図3は、本発明のオーディオ信号処理装置200のプリセット情報受信部220に含まれるメタデータ受信部310及びプリセットレンダリングデータ受信部320の概略的な構成を示す図である。
メタデータ受信部310は、プリセット長さ情報受信部312及びプリセットメタデータ受信部314を含む。プリセット長さ情報受信部312は、プリセット情報を表現するためのプリセットメタデータの長さを表すプリセット長さ情報(preset length information)を受信し、該プリセットメタデータの長さを獲得する。続いて、プリセットメタデータ受信部314は、プリセット長さ情報が表す長さ分のビットストリームを読んで当該プリセットメタデータを受信する。また、プリセットメタデータ受信部314は、プリセット情報の種類または属性がわかるメタデータであるプリセットメタデータを、テキスト形式に変換して出力する。
プリセットレンダリングデータ受信部320は、プリセットタイプフラグ受信部322、出力チャンネル情報受信部324、及びプリセットマトリクス受信部326を含む。プリセットデータタイプフラグ受信部322は、プリセットレンダリングデータがマトリクス形態なのか否かを表すプリセットタイプフラグ(preset_type_flag)を受信する。プリセットタイプフラグの意味は、下記の表1の通りである。
Figure 2011511307
プリセットタイプフラグが、プリセットレンダリングデータのタイプがマトリクスである場合を表していると、出力チャンネル情報受信部324は、オーディオ信号に含まれたオブジェクトが何本の出力チャンネルで再生されるかを表す出力チャンネル情報を受信する。この出力チャンネル情報は、モノチャンネル、ステレオチャンネル、またはマルチチャンネル(5.1チャンネル)を含んでもよいが、これに限定されない。
プリセットマトリクス受信部326は、入力された出力チャンネル情報を用いて、該オブジェクトに適用されるプリセットマトリクスを受信して出力する。このプリセットマトリクスは、モノプリセットマトリクス、ステレオプリセットマトリクスまたはマルチチャンネルプリセットマトリクスのうち一つであり、このプリセットマトリクスの次元は、オブジェクトの数及び出力チャンネルの数に基づいて決定することができ、プリセットマトリクスは、(オブジェクトの数)*(出力チャンネルの数)の形態を有することができる。例えば、オーディオ信号に含まれたオブジェクトがn個であり、出力チャンネル情報受信部324からの出力チャンネルが5.1チャンネル、すなわち、6個のチャンネルである場合、プリセットマトリクス受信部326は、n*6の形態で具現された下記の式1のプリセットマルチチャンネルマトリクスを出力することができる。
[式1]
Figure 2011511307
ここで、マトリクス成分(ma,b)は、a番目のオブジェクトがb番目のチャンネルに含まれる程度を表すゲイン値である。その後、このプリセットマルチチャンネルマトリクスはオーディオ信号に適用され、該当のオブジェクトのレベルを調節することができる。
このように、本発明のプリセット情報受信部220は、プリセット長さ情報を用いて必要な分のビットストリームを読んで、効率よくプリセットメタデータを表現し、プリセットマトリクスを出力チャンネル情報に基づいて獲得することによって、オーディオ信号に含まれたオブジェクトのゲインなどを効果的に調節することができる。
図4は、本発明の実施例によるオーディオ信号処理方法を示すフローチャートである。
図4を参照すると、少なくとも1つのオブジェクトを含むオーディオ信号を受信する(S410)。また、オブジェクトのゲインまたはパニングなどを調節するために、予め設定されたプリセット情報が存在するか否かを表すプリセット存在情報(preset exist information)を受信し(S415)、プリセット情報が存在する場合、予め設定されたプリセット情報が何個(n)かを表すプリセット個数情報を受信する(S420)。このプリセット個数情報は、プリセット情報が存在することを仮定しているので、(実際存在するプリセット個数)−1個で表現することができる。その後、プリセット情報を表現するためのメタデータが何ビット(または、バイト)を有するかを表すプリセット長さ情報を受信する(S430)。受信されたプリセット長さ情報に基づいてプリセットメタデータを受信し(S435)、例えば、カラオケモード、コンサートホールモード、ニュースモードなどを出力する(S437)。プリセットメタデータはテキスト形態とすることができ、上記の通り、プリセット情報の音場効果を表現するメタデータの他にも、プリセット作成者、作成日、プリセット情報で調節されたオブジェクト名などを表現するメタデータとすることもできるが、これに限定されない。
続いて、プリセット情報に含まれたプリセットレンダリングデータのタイプを表すプリセットタイプ情報を受信する(S440)。プリセットタイプ情報に基づいてプリセットデータのタイプがマトリクスなのか否かを判断し(S445)、マトリクスであると(S445のYes)、オブジェクトの出力チャンネルが何本かを表す出力チャンネル情報を受信する(S450)。エンコーディングされたプリセットマトリクスの中から、出力チャンネル情報に基づいて該当するプリセットマトリクスを受信する(S455)。例えば、オブジェクトの出力チャンネルがステレオである場合、受信されたプリセットマトリクスは、(オブジェクトの数)*2の形態を有するステレオプリセットマトリクスになりうる。
上記の段階で受信されたプリセット長さ情報、プリセットメタデータ、プリセットタイプ情報、出力チャンネル情報、及びプリセットマトリクスを含むプリセット情報(i番目)が、プリセット個数情報が表すプリセット情報の個数(n)よりも小さいか判断する(S460)。プリセット個数情報よりも小さい場合(S460のYes)、S430段階に戻り、次のプリセット情報(i+1番目)のプリセット長さ情報を受信する段階を反復する。プリセット個数情報と同一の場合(S460のNo)、プリセットマトリクスをオーディオ信号に適用してオブジェクトのレベルを調節する(S465)。一方、プリセットタイプがマトリクスでない場合(S445のNo)、エンコーダで設定されたマトリクス以外の形式で具現されたプリセットデータを受信し(S457)、受信されたプリセットデータをオーディオ信号に適用してオブジェクトのレベルを調節する(S468)。その後、調節されたオブジェクトを含むオーディオ信号を出力することができる(S470)。
プリセットマトリクスを適用してオブジェクトを調節する段階(S465)は、ユーザの選択によって決定されたプリセットマトリクスを用いることができる(図示せず)。ユーザは、プリセットメタデータを出力する段階(S437)で出力されたプリセットメタデータを参考して、所望のプリセット情報を選択することができる。例えば、ユーザが、プリセットメタデータのうち、カラオケモードと表現されたメタデータを選択する場合、出力チャンネル情報に基づいて受信されたプリセットマトリクス(S455)のうち、カラオケモードであるプリセットメタデータに対応するプリセットマトリクスが選択される。その後、選択されたカラオケモードに対応するプリセットマトリクスがオーディオ信号に適用されることでオブジェクトのレベルを調節し、調節されたオブジェクトを含むオーディオ信号が出力される。
図5は、本発明の一実施例によるオーディオ信号処理方法を示すシンタックス(syntax)を表現したものである。
図5を参照すると、プリセット情報に関する情報は、ビットストリームのヘッダー(header)領域に存在することがある。ビットストリームのヘッダー領域からプリセット個数情報(bsNumPresets)を獲得することができる。
例えば、プリセット個数情報が存在する場合(if(bsNumPresets))、プリセット個数情報が表すプリセット情報の個数を獲得する(numPresets=bsNumPresets+1)。例えば、プリセット個数情報は、プリセット情報が1個存在する場合、bsNumPresetsを0に設定でき、この場合、実際プリセット情報の個数は、(プリセット個数情報)+1と把握して用いることができる。まず、プリセット個数情報をビットストリームから受信することができる。
また、プリセット個数情報に基づいてプリセット情報(i番目のプリセット情報)ごとにプリセットレンダリングデータのタイプを表す情報を獲得することができる(bsPresetType[i])。仮に、プリセットレンダリングデータをマトリクスタイプで伝送する場合を特定プリセットタイプと定義する場合(マトリクスタイプである時、bsPresetType[i]が伝送される場合)、プリセットレンダリングデータのタイプを表す情報は、プリセットレンダリングデータがマトリクスタイプで生成されて伝送されたかを表す上記プリセットタイプ情報(preset_type_flag)でありうる。プリセットタイプ情報は、1ビットで表現することができる。
また、i番目のプリセット情報に含まれたプリセットレンダリングデータがマトリクスタイプである場合(bsPresetType[i])、出力チャンネルが何本のチャンネルを有するかを表す出力チャンネル情報(bsPresetCh[i])を獲得し、出力チャンネル情報に基づいて、オーディオ信号に含まれたオブジェクトのレベルを調節するためのプリセットマトリクスを獲得する(getRenderingMatrix())。
図6は、本発明の他の実施例によるオーディオ信号処理方法を示すシンタックス(syntax)を表現したものである。プリセット情報は、ヘッダー領域に含まれて、全てのフレームで同一に適用されてもよいが、時間によって変化(以下、「時変(time-variable)」という。)して適用されることによって、オブジェクトのレベルを効果的に調節することができる。プリセット情報が時変する場合には、フレームごとにプリセット情報に関する情報が含まれなければならない。したがって、プリセット情報がフレームごとに含まれているか否かを表す情報をヘッダーに含めることによって、効果的にビットストリームを構成することができる。
図6を参照すると、プリセット情報がフレームごとに含まれるか否かを表現するシンタックスが示されるが、図5に示すオーディオ信号の処理方法を示すシンタックス(syntax)と略同様である。ただし、図6に示すシンタックスは、出力チャンネル情報(bsPresetCh[i])を獲得した後、プリセット情報が時間的に変化するか否か、すなわち、フレームごとに含まれているか否かを表すプリセット時変フラグ情報(bsPresetTimeVarying[i])を含んでもよい。このプリセット時変フラグ情報がビットストリームのヘッダー領域に含まれている場合、ビットストリームのフレーム領域に含まれたプリセットマトリクス及びプリセットメタデータを用いてオブジェクトのレベルを調節する。プリセット時変フラグ情報がヘッダーに存在する場合、フレームごとにプリセット情報の更新があるか否かを判断し、更新がない場合はそのまま(keep)利用し、更新がある場合は、読み込み(read)などの別のフラグを含めて効率よくビットストリームを構成することも可能である。
また、ビットストリームにプリセット情報が含まれているか否かを表すプリセット存在情報(bsPresetExists)を含むことができる。仮に、プリセット存在情報が、プリセット情報がビットストリームに含まれていないと表す場合は、プリセット個数情報(bsNumPresets)、プリセットタイプ情報(bsPresetType[i])、出力チャンネル情報(bsPresetCh[i])、及びプリセット時変フラグ情報(bsPresetTimeVarying[i])を獲得するループ(loop)を行わなくて済む。このプリセット存在情報は、場合によってはシンタックス構文で省略可能である。
図7は、本発明のさらに他の実施例によるオーディオ信号処理方法を示すシンタックスを表現したものである。上記のプリセットマトリクスは、(オブジェクトの数)*(出力チャンネルの数)の形態を有するマトリクスであり、オーディオ信号に含まれた全てのオブジェクトのレベルがどのように調節されて出力チャンネルに含まれるかを表す。しかし、上記オブジェクトのうちの一部のオブジェクトに関する情報のみを受信して用いる方が、伝送されるビット数を減少させる側面で効率的であるといえる。したがって、本発明のさらに他の実施例では、プリセット情報を用いて所望のオブジェクトのみを調節するオーディオ信号処理方法のシンタックスを提案する。
図7を参照すると、オブジェクトのそれぞれに対してオブジェクトのレベルを調節するためのプリセット情報が適用されるか否かを表すプリセットオブジェクト適用情報(bsPresetObject[i][j])をシンタックスにさらに含むことができる。プリセットオブジェクト適用情報を用いることによって、プリセット情報が該当のオブジェクトに関する情報を含んでいるか否かを知らせることが可能になる。プリセットオブジェクト適用情報は、ビットストリームのヘッダー領域に存在してもよく、図6に示すように、プリセット情報が時変する場合には、フレームに存在してもよい。図7に示すように、各オブジェクトに対して、プリセット情報に該当のオブジェクトに関する情報を含むか否かを知らせることもでき、含むか否かを表すオブジェクトインデックスをビットストリームに含めることもできる。仮に、オブジェクトインデックスを用いる場合には、終了文字(exit character)を使ってより便利にビットストリームを構成することができる。
終了文字は、ロスレスコーディング(lossless coding)でハフマンテーブル(Huffman table)などを用いて符号化を行う場合、実際のパラメータの数よりもテーブルを1だけ大きく設計し、さらに割り当てられたパラメータを終了パラメータとして定義することができる。この場合、終了パラメータがビットストリームから獲得されると、該当の情報を全部受信したと定義して用いることができる。例えば、プリセット情報が、総10個のオブジェクトうち2個のオブジェクトに関する情報のみを含む場合(3番オブジェクト及び8番オブジェクトに関する情報)は、3番オブジェクト及び8番オブジェクトに該当するハフマンインデックスと終了パラメータに該当するハフマンインデックスを順に伝送することによって効果的にビットストリームを構成することができる。
図8は、本発明のさらに他の実施例であるプリセットマトリクスを段階的に生成するプリセットレンダリングデータ受信部の概略的な構成を示す図である。
図8を参照すると、プリセットレンダリングデータ受信部320は、プリセットタイプフラグ受信部322、出力チャンネル情報受信部324、及びプリセットマトリクス決定部326を含む。その他の構成要素は、図2及び図3のプリセットレンダリングデータ受信部224,320と同じ構成及び効果を有するので、その詳細な説明は省略する。
一方、図8に示すように、プリセットマトリクス決定部326は、モノタイププリセットマトリクス受信部810、ステレオタイププリセットマトリクス生成部820、及びマルチチャンネルタイププリセットマトリクス生成部830を全て含む。
モノタイププリセットマトリクス受信部810は、プリセット情報生成部(図示せず)から、(オブジェクトの数)の形態のマトリクスで表現されるモノプリセットマトリクスを受信する。仮に、出力チャンネル情報受信部324から受信された出力チャンネル情報がモノである場合、モノプリセットマトリクスはそのまま出力され、オーディオ信号に適用されてオブジェクトのレベルを調節することができる。
一方、出力チャンネル情報がステレオである場合には、ステレオタイププリセットマトリクス生成部820にモノプリセットマトリクスが入力され、チャンネル拡張情報をさらに受信して、(オブジェクトの数)*2の形態のステレオプリセットマトリクスを生成する。仮に、出力チャンネル情報がマルチチャンネルを表す場合には、ステレオプリセットマトリクスとマルチチャンネル拡張情報がマルチチャンネルタイププリセットマトリクス生成部830に入力され、(オブジェクトの数)*6の形態を有するマルチチャンネルプリセットマトリクスを生成する。
このように、エンコーダでモノプリセットマトリクスのみを生成し、チャンネル拡張情報を用いてプリセットマトリクス決定部326で段階的にプリセットマトリクスを生成する。したがって、再生環境がステレオのみに限定される場合、伝送されるビット数を節約することができ、ステレオまたはマルチチャンネルのためのプリセットマトリクスを重複して伝送しなくて済む。
また、本発明のさらに他の実施例によるオーディオ信号処理方法は、プリセット情報を伝送する際に、ゲイン値を伝送し、必要に応じて、正規化したプリセットマトリクスを伝送する方法を提案する。これは、オーディオ信号に含まれたオブジェクトを調節するためにゲインのみを必要とする場合には、ゲイン値のみを伝送し、容易にプリセットマトリクス全体を伝送する方法として拡張することができる。例えば、上記の式1のようなプリセットマトリクスを伝送するためには、n*6個のゲイン情報をまず伝送しなければならない。このゲイン情報は、下記の式2で計算することができる。
[式2]
Figure 2011511307
ここで、iはオブジェクト、jは出力チャンネル、nCHは出力チャンネルの数を表す。Giはオブジェクトの数だけ存在するので、一つのプリセット情報に対してn個が必要とされる。
ゲイン情報に加えてパニング情報を必要とする場合、正規化したプリセットマトリクス(normalized preset matrix)をさらに用いる。この正規化したプリセットマトリクスは、下記の式3のように定義することができる。
[式3]
Figure 2011511307
上記の方法のように、ゲイン情報及び正規化したプリセットマトリクスを用いる場合、n*6個のゲイン情報を伝送しなければならない。しかし、正規化特性によって
Figure 2011511307
のような特性を有し、
Figure 2011511307
のlog10値が常に0より小さいまたは等しいので、ゲイン情報の量子化のためにチャンネルレベル差情報(Channel Level Difference Information)のテーブルを用いる場合、従来に比べて半分のテーブルしか使用しない。したがって、ゲイン情報を別に伝送せずに、正規化していないプリセットマトリクスを受信して用いる場合に比べて、伝送されるビットレート及び利用されるデータの量を節約することができる。また、プリセット情報にゲイン情報のみを含めることもできるので、プリセット情報をスケーラブル(scalable)に使用することができる。
図9は、上記のプリセット情報にゲイン情報とパニングに関する情報を別途に含めて伝送する場合のシンタックスを表現したものである。このようなゲイン情報及びパニング情報は、ヘッダー領域またはフレーム領域に含めることができる。
図9を参照すると、イタリック体で表現された部分は、実際のプリセット情報値をビットストリームから受信するものである。様々なノイズレスコーディング方式(noiseless coding scheme)を利用することができ、図9では関数として表現した。例えば、フレーム領域にそれらの情報が存在する場合、プリセット情報が存在するか否かを判断し、存在する場合にプリセット個数情報を受信する。その後、まず、ゲイン情報を受信し、この情報は、該当のオブジェクトをどのゲイン値で再生するかを表す。この場合、ゲイン情報は、上記のG_iであってもよく、外部入力値によってオーディオ信号のレベルが調節された場合に生成されるADG(arbitrary downmix gain)であってもよい。
さらに獲得されるパニング情報は、様々な形態でありうる。このパニング情報は、上記の正規化したプリセットマトリクスであってもよく、ステレオパニング情報及びマルチチャンネルパニング情報に区分されていてもよい。
図10は、本発明のさらに他の実施例によるオーディオ信号処理装置を示す図である。
オーディオ信号処理装置は、主に、ダウンミキシング部1010、オブジェクト情報生成部1020、プリセット情報生成部1030、ダウンミックス信号処理部1040、情報処理部1050、及びマルチチャンネルデコーディング部1060を含む。
複数個のオブジェクトは、ダウンミキシング部1010に入力されて、モノまたはステレオダウンミックス信号として生成される。また、複数個のオブジェクトは、オブジェクト情報生成部1020に入力されて、オブジェクトのレベルを表すオブジェクトレベル情報(object level information)と、ダウンミックス信号に含まれるオブジェクトのゲイン値及び/またはステレオダウンミックス信号の場合に、ダウンミックスチャンネルに含まれるオブジェクトの程度を表すオブジェクトゲイン情報(object gain information)と、オブジェクト間の関連の有無を表すオブジェクト相関情報(object correlation information)を含むオブジェクト情報(object information)とを生成する。
その後、ダウンミックス信号及びオブジェクト情報は、プリセット情報生成部1030に入力されて、オブジェクトのレベルを調節するためのプリセットレンダリングデータとプリセット情報を表現するためのプリセットメタデータとを含むプリセット情報を生成する。このプリセットレンダリングデータ及びプリセットメタデータが生成される過程は、図1乃至図9のオーディオ信号処理装置及び方法で説明した通りであるから、その詳細な説明は省略する。オブジェクト情報生成部1020で生成されたオブジェクト情報とプリセット情報生成部1030で生成されたプリセット情報は、SAOCビットストリームに含めて伝送することができる。
情報処理部1050は、オブジェクト情報処理部1051及びプリセット情報受信部1052を含み、SAOCビットストリームを受信する。
プリセット情報受信部1052は、SAOCビットストリームから上記のプリセット存在情報、プリセット個数情報、プリセット長さ情報、プリセットメタデータ、プリセットタイプ情報、出力チャンネル情報、及びプリセットマトリクスを受信し、図1乃至図9のオーディオ信号処理方法及び装置で説明された様々な実施例による方法を用いる。プリセット情報受信部1052は、プリセットメタデータとプリセットマトリクスを出力し、オブジェクト情報処理部1051はこれらを受信して、SAOCビットストリームに含まれたオブジェクト情報と一緒に用いて、ダウンミックス信号を前処理(pre-processing)するためのダウンミックス処理情報(downmix processing information)とダウンミックス信号をアップミキシングするためのマルチチャンネル情報(multi-channel information)を生成する。
その後、ダウンミックス処理情報は、ダウンミックス信号処理部1040に入力されて、ダウンミックス信号に含まれているオブジェクトのパニングを行うことができる。このように前処理されたダウンミックス信号は、情報処理部1050から出力されたマルチチャンネル情報と一緒にマルチチャンネルデコーディング部1060に入力されてアップミキシングされることで、マルチチャンネルオーディオ信号を生成することができる。
このように、本発明のオーディオ信号処理装置は、複数個のオブジェクトを含むオーディオ信号を、オブジェクト情報を用いてマルチチャンネル信号にデコーディングする際に、予め設定されたプリセット情報を用いることによって、容易にオブジェクトのレベルを調節することができる。また、この場合、オブジェクトに適用されるプリセットマトリクスは、出力チャンネル情報に基づいて受信されたマトリクス形態のデータを用いることによってオブジェクトのレベル調節を効果的に行い、エンコーダ側から伝送されるプリセット長さ情報に基づいてプリセット情報を表現するためのプリセットメタデータを出力することによってコーディング効率を高めることができる。
図11は、本発明の一実施例によるメタデータ受信部及びプリセットレンダリングデータ受信部を含むプリセット情報受信部が具現された製品の概略的な構成を示す図であり、図12は、本発明の実施例によるプリセット情報受信部が具現された製品間の関係を示す図である。
図11を参照すると、有無線通信部1110は、有無線通信方式を通じてビットストリームを受信する。特に、有無線通信部1110は、有線通信部1111、赤外線通信部1112、ブルートゥース(Bluetooth(登録商標))1113、無線LAN通信部1114のうち、少なくとも一つを含むことがある。
ユーザ認証部1120は、ユーザ情報を受信してユーザ認証を行うもので、指紋認識部1121、虹彩認識部1122、顔認識部1123、及び音声認識部1124のうち少なくとも一つを含むことができ、それぞれは、指紋、虹彩情報、顔輪郭情報、音声情報を受信してユーザ情報に変換し、ユーザ情報及び既に登録されているユーザデータと一致するか否かを判断して、ユーザ認証を行うことができる。
入力部1130は、ユーザが各種の命令を入力するための入力装置であり、キーパッド部1131、タッチパッド部1132、リモコン部1133のうち少なくとも一つを含むことができるが、本発明はこれに限定されない。一方、後述するメタデータ受信部1141から出力される複数個のプリセット情報に対するプリセットメタデータが、ディスプレイ部1162を通じて画面に表示される場合に、入力部1130を介してユーザがプリセットメタデータを選択でき、選択されたプリセットメタデータに関する情報が制御部1150に入力される。
信号デコーディング部1140は、メタデータ受信部1141及びプリセットレンダリングデータ受信部1142を含む。メタデータ受信部1141は、プリセット長さ情報を受信し、これに基づいてプリセットメタデータを受信する。また、プリセットレンダリングデータ受信部1142は、プリセットタイプ情報によってプリセット情報がマトリクスと表現された場合、出力チャンネル情報を受信し、これに基づいてプリセットレンダリングデータであるプリセットマトリクスを受信する。信号デコーディング部1140は、受信したビットストリーム、プリセットメタデータ、及びプリセットマトリクスを用いてオーディオ信号をデコーディングして出力信号を生成し、当該プリセットメタデータをテキストの形態で出力する。
制御部1150は、入力装置から入力信号を受信し、信号デコーディング部1140と出力部1160のプロセス全般を制御する。上記の通り、制御部1150に入力部1130から選択されたプリセットメタデータに関する情報が入力される場合、プリセットレンダリングデータ受信部1142は、選択されたプリセットメタデータに対応するプリセットマトリクスを受信し、これを用いてオーディオ信号をデコーディングする。
出力部1160は、信号デコーディング部1140により生成された出力信号などが出力される構成要素であり、スピーカ部1161及びディスプレイ部1162を含むことができる。出力信号がオーディオ信号の場合、出力信号はスピーカ部1161から出力され、ビデオ信号の場合、出力信号はディスプレイ部1162から出力される。また、制御部1150から入力されたプリセットメタデータをディスプレイ部1162を通じて画面に表示する。
図12は、図11に示す製品に該当する端末及びサーバー間の関係を示す図である。
図12(A)を参照すると、第1端末1210及び第2端末1220は互いに有無線通信部を通じてデータやビットストリームを両方向に通信できることがわかる。
図12(B)を参照すると、サーバー1230及び第1端末1240も同様に、互いに有無線通信を行うことがわかる。
図13は、本発明の一実施例によるメタデータ受信部及びプリセットレンダリングデータ受信部を含むプリセット情報受信部が具現された放送信号デコーディング装置1300の概略的な構成を示す図である。
図13を参照すると、デマルチプレクサ1320は、チューナ1310からTV放送と関連したデータを受信する。受信されたデータはデマルチプレクサ1320で分離され、データデコーダ1330でデコーディングされる。一方、デマルチプレクサ1320で分離されたデータは、HDDのような記憶媒体1350に記憶されることができる。デマルチプレクサ1320で分離されたデータは、オーディオデコーダ1341及びビデオデコーダ1342を含むデコーダ1340に入力されて、オーディオ信号及びビデオ信号がデコーディングされる。オーディオデコーダ1341は、本発明の一実施例によるメタデータ受信部1341A及びプリセットレンダリングデータ受信部1341Bを含み、メタデータ受信部1341Aは、プリセット長さ情報を受信し、これに基づいてプリセットメタデータを受信する。また、プリセットレンダリングデータ受信部1341Bは、プリセットタイプ情報によってプリセット情報がマトリクスで表現されている場合、出力チャンネル情報を受信し、これに基づいてプリセットレンダリングデータであるプリセットマトリクスを受信する。オーディオデコーダ1341は、受信したビットストリーム、プリセットメタデータ、及びプリセットマトリクスを用いてオーディオ信号をデコーディングして出力信号を生成し、該プリセットメタデータをテキスト形態で出力する。
ディスプレイ部1370は、ビデオデコーダ1342から出力されたビデオ信号とオーディオデコーダ1341から出力されたプリセットメタデータを画面に表示する。また、ディスプレイ部1370は、スピーカ部(図示せず)を含み、オーディオデコーダ1341から出力されるオブジェクトのレベルがプリセットマトリクスを用いて調節されたオーディオ信号を、ディスプレイ部1370に含まれるスピーカ部から出力する。また、デコーダ1340でデコーディングされたデータは、HDDのような記憶媒体1350に記憶することができる。
一方、信号デコーディング装置1300は、ユーザから情報を受信して、受信されたデータを制御できるアプリケーションマネージャ1360をさらに含むことができる。
アプリケーションマネージャ1360は、ユーザインタフェースマネージャ1361及びサービスマネージャ1362を含む。ユーザインタフェースマネージャ1361は、ユーザから情報を受信するためのインタフェース(interface)を制御する。例えば、ディスプレイ部1370に表示されるテキストの書体、画面の明るさ、メニュー構成などを制御することができる。一方、サービスマネージャ1362は、デコーダ1340及びディスプレイ部1370で放送信号をデコーディングして出力する場合、受信する放送信号を、ユーザから入力される情報を用いて制御することができる。例えば、放送チャンネルの設定、アラーム機能設定、成人認証機能などを提供することができる。アプリケーションマネージャ1360から出力されるデータは、デコーダ1340の他に、ディスプレイ部1370にも伝送して用いることができる。
図14は、本発明の一実施例によるプリセット情報受信部を含む製品のディスプレイ部を示す図である。ディスプレイ部は、ビットストリームに含まれた全てのプリセットメタデータを表示することができる。例えば、図14に示すように、オーディオ信号に対応するプリセットメタデータであるカラオケモード、コンサートホールモード、及びニュースモードを画面に全部表示する。
これらのプリセットメタデータのうち一つをユーザが選択する場合、ディスプレイ部は、カラオケモードに対応するプリセットマトリクスが複数個のオブジェクトに適用されることによって、レベルの調節されたオブジェクトを画面に表示する。例えば、ユーザがカラオケモードを選択する場合、ボーカルオブジェクトのレベルが最低に設定されたものが表示されることがある。また、ユーザがニュースモードを選択する場合には、オーディオ信号に適用されるプリセットマトリクスは、ボーカルオブジェクト以外のオブジェクトのレベルを減少させることとなる。
図14を参照すると、ニュースモードが選択された場合、ディスプレイ部は、ボーカルオブジェクトのレベルが、カラオケモード時におけるボーカルオブジェクトのレベルよりも増加し、その他のオブジェクトのレベルは最低に設定されたものが表示されている。
したがって、ディスプレイ部にプリセット情報を表現するプリセットメタデータの他、プリセットマトリクスによって調節されたオブジェクトのレベルを表示することによって、ユーザは、所望のプリセットモードを適切に選択し、所望の音場感を有するオーディオ信号を聴取することが可能になる。
以上、本発明の実施形態を参照しながら本発明について説明および例示したが、当分野の技術者にとって、本発明の主旨および範囲から逸脱することなく様々な修正および変形が可能であることは明らかである。したがって、本発明は、添付の特許請求の範囲およびその均等範囲内の本発明の修正および変形を含むものである。
本発明は、オーディオ信号のエンコーディング及びデコーディングに適用することができる。

Claims (14)

  1. 少なくとも一つのオブジェクトを含むオーディオ信号を受信するオーディオ信号受信部と、
    少なくとも一つのプリセット情報から、少なくとも一つのプリセットメタデータを獲得するプリセットメタデータ受信部と、
    前記プリセット情報のそれぞれから、前記オブジェクトが出力チャンネルに含まれる程度を表し、前記プリセットメタデータのそれぞれに対応するプリセットマトリクスを獲得するプリセットレンダリングデータ受信部と、
    前記プリセットメタデータを表示するディスプレイ部と、
    前記少なくとも一つのプリセットメタデータのうち一つを選択する命令を受信する入力部と、
    前記選択されたプリセットメタデータに対応する前記プリセットマトリクスを用いて、出力チャンネルによって前記オブジェクトの出力レベルを調節するオブジェクト調節部と、
    前記出力レベルの調節されたオブジェクトを含むオーディオ信号を出力する出力部と、
    を含むことを特徴とするオーディオ信号処理装置。
  2. 前記出力部が前記オーディオ信号を出力する場合、前記ディスプレイ部は、前記選択されたプリセットメタデータを表示することを特徴とする、請求項1に記載のオーディオ信号処理装置。
  3. 前記ディスプレイ部は、前記オブジェクトの出力レベルをさらに表示することを特徴とする、請求項2に記載のオーディオ信号処理装置。
  4. 前記プリセットマトリクスは、前記出力チャンネルがモノ、ステレオ及びマルチチャンネルのうちの一つであることを表す出力チャンネル情報に基づいて獲得されることを特徴とする、請求項1に記載のオーディオ信号処理装置。
  5. 前記プリセット情報は、前記プリセット情報の個数を表すプリセット個数情報に基づいて獲得され、前記プリセットマトリクスは、前記プリセット情報がマトリクスで表現されているか否かを表すプリセットタイプ情報に基づいて獲得されることを特徴とする、請求項1に記載のオーディオ信号処理装置。
  6. 前記プリセット情報は、前記オブジェクトに適用される前記プリセットマトリクスが存在するか否かを表すプリセットオブジェクト適用情報をさらに含むことを特徴とする、請求項1に記載のオーディオ信号処理装置。
  7. 前記ディスプレイ部は、前記プリセットオブジェクト適用情報に基づいて前記オブジェクトに適用される前記プリセットマトリクスが存在するか否かをさらに表示することを特徴とする、請求項6に記載のオーディオ信号処理装置。
  8. 前記ディスプレイ部は、前記プリセットメタデータをテキスト形態で表現することを特徴とする、請求項1に記載のオーディオ信号処理装置。
  9. 少なくとも一つのオブジェクトを含むオーディオ信号を受信する段階と、
    プリセットメタデータ及びプリセットマトリクスを含む少なくとも一つのプリセット情報を受信する段階と、
    前記プリセットメタデータを表示し、前記プリセットメタデータのうちの一つを選択する段階と、
    前記選択されたプリセットメタデータに対応し、前記オブジェクトが出力チャンネルに含まれる程度を表す前記プリセットマトリクスを、前記プリセット情報から獲得する段階と、
    前記選択されたプリセットメタデータに対応する前記プリセットマトリクスを用いて、出力チャンネルによって前記オブジェクトの出力レベルを調節する段階と、
    前記出力レベルの調節されたオブジェクトを含むオーディオ信号を出力する段階と、
    を含むことを特徴とするオーディオ信号処理方法。
  10. 前記選択されたプリセットメタデータを表示する段階をさらに含むことを特徴とする、請求項9に記載のオーディオ信号処理方法。
  11. 前記オブジェクトの出力レベルを調節する段階の後に、
    前記オブジェクトの出力レベルを表示する段階をさらに含むことを特徴とする、請求項10に記載のオーディオ信号処理方法。
  12. 前記プリセットマトリクスは、前記出力チャンネルがモノ、ステレオ及びマルチチャンネルのうちの一つであることを表す出力チャンネル情報に基づいて獲得されることを特徴とする、請求項9に記載のオーディオ信号処理方法。
  13. 前記プリセット情報は、前記プリセット情報の個数を表すプリセット個数情報に基づいて獲得され、
    前記プリセットマトリクスは、前記プリセット情報がマトリクスで表現されているか否かを表すプリセットタイプ情報に基づいて獲得されることを特徴とする、請求項9に記載のオーディオ信号処理方法。
  14. 前記プリセット情報は、前記オブジェクトに適用される前記プリセットマトリクスが存在するか否かを表すプリセットオブジェクト適用情報をさらに含み、
    前記プリセットメタデータを表示し、前記プリセットメタデータのうちの一つを選択する段階は、前記プリセットオブジェクト適用情報に基づいて前記オブジェクトに適用される前記プリセットマトリクスが存在するか否かをさらに表示することを特徴とする、請求項9に記載のオーディオ信号処理方法。
JP2010544228A 2008-01-23 2009-01-23 オーディオ信号の処理方法及び装置 Expired - Fee Related JP5249354B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US2305108P 2008-01-23 2008-01-23
US61/023,051 2008-01-23
KR10-2009-0005507 2009-01-22
KR1020090005507A KR100998913B1 (ko) 2008-01-23 2009-01-22 오디오 신호의 처리 방법 및 이의 장치
PCT/KR2009/000366 WO2009093866A2 (en) 2008-01-23 2009-01-23 A method and an apparatus for processing an audio signal

Publications (2)

Publication Number Publication Date
JP2011511307A true JP2011511307A (ja) 2011-04-07
JP5249354B2 JP5249354B2 (ja) 2013-07-31

Family

ID=41402183

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010544229A Active JP5319704B2 (ja) 2008-01-23 2009-01-23 オーディオ信号の処理方法及び装置
JP2010544228A Expired - Fee Related JP5249354B2 (ja) 2008-01-23 2009-01-23 オーディオ信号の処理方法及び装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2010544229A Active JP5319704B2 (ja) 2008-01-23 2009-01-23 オーディオ信号の処理方法及び装置

Country Status (9)

Country Link
JP (2) JP5319704B2 (ja)
KR (2) KR101024924B1 (ja)
CN (2) CN101926181B (ja)
AT (2) ATE481830T1 (ja)
AU (1) AU2009206856B2 (ja)
CA (1) CA2712941C (ja)
DE (2) DE602009000167D1 (ja)
MX (1) MX2010007997A (ja)
RU (1) RU2450440C1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY154641A (en) * 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
EP2848009B1 (en) 2012-05-07 2020-12-02 Dolby International AB Method and apparatus for layout and format independent 3d audio reproduction
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP3074970B1 (en) * 2013-10-21 2018-02-21 Dolby International AB Audio encoder and decoder
CN106463124B (zh) * 2014-03-24 2021-03-30 三星电子株式会社 用于渲染声信号的方法和设备,以及计算机可读记录介质
EP4372746A2 (en) * 2014-10-10 2024-05-22 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
JP2021530723A (ja) 2018-07-02 2021-11-11 ドルビー ラボラトリーズ ライセンシング コーポレイション 没入的オーディオ信号を含むビットストリームを生成またはデコードするための方法および装置
KR102049603B1 (ko) * 2018-10-30 2019-11-27 한국전자통신연구원 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR102220521B1 (ko) * 2019-11-21 2021-02-25 한국전자통신연구원 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR102370348B1 (ko) * 2019-11-21 2022-03-04 한국전자통신연구원 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242126A (ja) * 2004-02-27 2005-09-08 Dainippon Printing Co Ltd 音響信号の再生装置
WO2006027138A1 (de) * 2004-09-03 2006-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung eines codierten multikanalsignals und decodierung eines codierten multikanalsignals
WO2007128523A1 (en) * 2006-05-04 2007-11-15 Lg Electronics Inc. Enhancing audio with remixing capability
WO2007136187A1 (en) * 2006-05-19 2007-11-29 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5798818A (en) * 1995-10-17 1998-08-25 Sony Corporation Configurable cinema sound system
US6704421B1 (en) * 1997-07-24 2004-03-09 Ati Technologies, Inc. Automatic multichannel equalization control system for a multimedia computer
CA2406926A1 (en) * 2000-04-19 2001-11-01 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions
KR100542129B1 (ko) 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
EP1427252A1 (en) * 2002-12-02 2004-06-09 Deutsche Thomson-Brandt Gmbh Method and apparatus for processing audio signals from a bitstream
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US9992599B2 (en) * 2004-04-05 2018-06-05 Koninklijke Philips N.V. Method, device, encoder apparatus, decoder apparatus and audio system
KR100644617B1 (ko) * 2004-06-16 2006-11-10 삼성전자주식회사 7.1 채널 오디오 재생 방법 및 장치
KR101243687B1 (ko) * 2004-11-23 2013-03-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 데이터를 처리하기 위한 디바이스 및 방법, 컴퓨터프로그램 요소 및 컴퓨터-판독가능한 매체
EP1851656A4 (en) * 2005-02-22 2009-09-23 Verax Technologies Inc SYSTEM AND METHOD FOR FORMATTING MULTIMODE CONTENT OF SOUNDS AND METADATA
MX2007015118A (es) * 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
KR20070005468A (ko) * 2005-07-05 2007-01-10 엘지전자 주식회사 부호화된 오디오 신호의 생성방법, 그 부호화된 오디오신호를 생성하는 인코딩 장치 그리고 그 부호화된 오디오신호를 복호화하는 디코딩 장치
KR20070031212A (ko) * 2005-09-14 2007-03-19 엘지전자 주식회사 오디오 신호의 인코딩/디코딩 방법 및 장치
EP1922721A4 (en) * 2005-08-30 2011-04-13 Lg Electronics Inc AUDIO SIGNAL DECODING METHOD
US8577483B2 (en) * 2005-08-30 2013-11-05 Lg Electronics, Inc. Method for decoding an audio signal
KR20070044352A (ko) * 2005-10-24 2007-04-27 엘지전자 주식회사 오디오 신호의 인코딩 및 디코딩 방법, 및 이를 구현하기위한 장치
KR100802179B1 (ko) * 2005-12-08 2008-02-12 한국전자통신연구원 프리셋 오디오 장면을 이용한 객체기반 3차원 오디오서비스 시스템 및 그 방법
JP2007178590A (ja) * 2005-12-27 2007-07-12 Ntt Docomo Inc 目的信号抽出装置、目的信号抽出方法、及び、プログラム
WO2007083958A1 (en) * 2006-01-19 2007-07-26 Lg Electronics Inc. Method and apparatus for decoding a signal
KR100885700B1 (ko) * 2006-01-19 2009-02-26 엘지전자 주식회사 신호 디코딩 방법 및 장치
KR20070092164A (ko) * 2006-03-07 2007-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 오디오 신호 처리 장치
JP4399835B2 (ja) 2006-07-07 2010-01-20 日本ビクター株式会社 音声符号化方法及び音声復号化方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242126A (ja) * 2004-02-27 2005-09-08 Dainippon Printing Co Ltd 音響信号の再生装置
WO2006027138A1 (de) * 2004-09-03 2006-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung eines codierten multikanalsignals und decodierung eines codierten multikanalsignals
JP2008511848A (ja) * 2004-09-03 2008-04-17 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化されたマルチチャネル信号を発生するための装置および方法並びに符号化されたマルチチャネル信号を復号化するための装置および方法
WO2007128523A1 (en) * 2006-05-04 2007-11-15 Lg Electronics Inc. Enhancing audio with remixing capability
JP2010507927A (ja) * 2006-05-04 2010-03-11 エルジー エレクトロニクス インコーポレイティド リミキシング性能を持つ改善したオーディオ
WO2007136187A1 (en) * 2006-05-19 2007-11-29 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
JP2009537876A (ja) * 2006-05-19 2009-10-29 韓國電子通信研究院 プリセットオーディオシーンを用いたオブジェクトベースの3次元オーディオサービスシステム及びその方法

Also Published As

Publication number Publication date
JP5319704B2 (ja) 2013-10-16
KR20090081342A (ko) 2009-07-28
AU2009206856B2 (en) 2013-05-30
KR100998913B1 (ko) 2010-12-08
RU2450440C1 (ru) 2012-05-10
CA2712941C (en) 2015-06-16
DE602009000167D1 (de) 2010-10-28
CN101926094A (zh) 2010-12-22
CN101926181B (zh) 2014-05-21
KR101024924B1 (ko) 2011-03-31
DE602009000166D1 (de) 2010-10-28
CN101926094B (zh) 2013-07-17
ATE481830T1 (de) 2010-10-15
JP5249354B2 (ja) 2013-07-31
MX2010007997A (es) 2010-08-31
CN101926181A (zh) 2010-12-22
AU2009206856A1 (en) 2009-07-30
RU2010134915A (ru) 2012-02-27
JP2011510589A (ja) 2011-03-31
ATE481829T1 (de) 2010-10-15
KR20090081341A (ko) 2009-07-28
CA2712941A1 (en) 2009-07-30

Similar Documents

Publication Publication Date Title
JP5249354B2 (ja) オーディオ信号の処理方法及び装置
US9787266B2 (en) Method and an apparatus for processing an audio signal
EP2083584B1 (en) A method and an apparatus for processing an audio signal
JP5249408B2 (ja) オーディオ信号の処理方法及び装置
JP5258967B2 (ja) オーディオ信号の処理方法及び装置
KR101171314B1 (ko) 오디오 신호의 처리 방법 및 이의 장치
JP5457430B2 (ja) オーディオ信号の処理方法及び装置
KR20080050231A (ko) 믹스신호의 인터페이스 표시 방법 및 장치
JP2022551535A (ja) オーディオ符号化のための装置及び方法
KR101062351B1 (ko) 오디오 신호 처리 방법 및 이의 장치
JP5406276B2 (ja) オーディオ信号の処理方法及び装置
EP2111062B1 (en) A method and an apparatus for processing an audio signal

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130411

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees