JP2015531078A - オーディオ信号処理方法および装置 - Google Patents

オーディオ信号処理方法および装置 Download PDF

Info

Publication number
JP2015531078A
JP2015531078A JP2015523022A JP2015523022A JP2015531078A JP 2015531078 A JP2015531078 A JP 2015531078A JP 2015523022 A JP2015523022 A JP 2015523022A JP 2015523022 A JP2015523022 A JP 2015523022A JP 2015531078 A JP2015531078 A JP 2015531078A
Authority
JP
Japan
Prior art keywords
signal
channel
downmix
group
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015523022A
Other languages
English (en)
Other versions
JP6045696B2 (ja
Inventor
オ・ヒョンオ
ソン・チョンオク
ソン・ミョンソク
チョン・セウォン
イ・テギュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intellectual Discovery Co Ltd
Original Assignee
Intellectual Discovery Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020120084230A external-priority patent/KR101950455B1/ko
Priority claimed from KR1020120084229A external-priority patent/KR101949756B1/ko
Priority claimed from KR1020120084231A external-priority patent/KR102059846B1/ko
Priority claimed from KR1020120083944A external-priority patent/KR101949755B1/ko
Application filed by Intellectual Discovery Co Ltd filed Critical Intellectual Discovery Co Ltd
Publication of JP2015531078A publication Critical patent/JP2015531078A/ja
Application granted granted Critical
Publication of JP6045696B2 publication Critical patent/JP6045696B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本発明は、オブジェクトオーディオ信号処理方法および装置に関するものであって、複数のオブジェクト信号を定められた方法によって分類した第1オブジェクト信号グループと第2オブジェクト信号グループを生成するステップと、第1オブジェクト信号グループに対して第1ダウンミックス信号を生成するステップと、第2オブジェクト信号グループに対して第2ダウンミックス信号を生成するステップと、第1オブジェクト信号グループに含まれたオブジェクト信号に対して、第1ダウンミックス信号に対応して第1オブジェクト抽出情報を生成するステップと、第2オブジェクト信号グループに含まれたオブジェクト信号に対して、第2ダウンミックス信号に対応して第2オブジェクト抽出情報を生成するステップとを含むオーディオ信号処理方法が提供できる。

Description

本発明は、オブジェクトオーディオ信号処理方法および装置に関するものであって、より詳細には、オブジェクトオーディオ信号の符号化および復号化を行ったり、3次元空間にレンダリングするための方法および装置に関するものである。
3Dオーディオとは、既存のサラウンドオーディオで提供する水平面上のサウンド場面(2D)に、高さ方向にさらに他の軸(dimension)を提供することにより、言葉通り3次元空間での臨場感のあるサウンドを提供するための一連の信号処理、伝送、符号化、再生技術などを通称する。特に、3Dオーディオを提供するためには、従来より多い数のスピーカを用いたり、あるいは少ない数のスピーカを用いても、スピーカが存在しない仮想の位置で音像が結ばれるようにするレンダリング技術が広く要求される。
3Dオーディオは、今後発売される超高解像度テレビ(UHDTV)に対応するオーディオソリューションになることが予想され、高品質のインフォテインメント空間に進化している車両でのサウンドを含めて、その他、劇場サウンド、個人用3Dテレビ、タブレット、スマートフォン、クラウドゲームなど多様に応用されることが予想される。
3Dオーディオは、まず、最大22.2チャンネルまで、従来より多いチャンネルの信号を伝送することが必要であるが、このためには、これに適した圧縮伝送技術が要求される。従来のMP3、AAC、DTS、AC3などの高音質符号化の場合、主に5.1チャンネル未満のチャンネルのみを伝送するのに最適化されていた。
また、22.2チャンネル信号を再生するためには、24個のスピーカシステムを設置した聴取空間に対するインフラが必要であるが、市場へ短期間の拡散が容易でないので、22.2チャンネル信号を、それより小さい数のスピーカを有する空間で効果的に再生するための技術、逆に、既存のステレオ、あるいは5.1チャンネルの音源を、それより多い数のスピーカである10.1チャンネル、22.2チャンネル環境で再生できるようにする技術、ひいては、規定されたスピーカ位置と規定された聴取室環境でない所でも元の音源が提供するサウンド場面を提供できるようにする技術、そして、ヘッドホン聴取環境においても3Dサウンドを楽しめるようにする技術などが要求される。これらの技術を、本願では、通称、レンダリング(rendering)といい、詳細には、それぞれダウンミックス、アップミックス、柔軟なレンダリング(flexible rendering)、バイノーラルレンダリング(binaural rendering)などと呼ぶ。
一方、このようなサウンド場面を効果的に伝送するための代案として、オブジェクトベースの信号伝送方策が必要である。音源によって、チャンネルベースで伝送するより、オブジェクトベースで伝送することがより有利な場合があるだけでなく、オブジェクトベースで伝送する場合、ユーザが任意にオブジェクトの再生の大きさと位置を制御することができるなど、インタラクティブな音源の聴取を可能にする。これによって、オブジェクト信号を高伝送率で圧縮することのできる効果的な伝送方法が必要である。
また、前記チャンネルベースの信号とオブジェクトベースの信号とが混合された形態の音源も存在することができ、これによって新たな形態の聴取経験を提供することもできる。したがって、チャンネル信号とオブジェクト信号をともに効果的に伝送し、これを効果的にレンダリングするための技術も必要である。
本発明の一態様によれば、複数のオブジェクト信号を定められた方法によって分類した第1オブジェクト信号グループと第2オブジェクト信号グループを生成するステップと、第1オブジェクト信号グループに対して第1ダウンミックス信号を生成するステップと、第2オブジェクト信号グループに対して第2ダウンミックス信号を生成するステップと、第1オブジェクト信号グループに含まれたオブジェクト信号に対して、第1ダウンミックス信号に対応して第1オブジェクト抽出情報を生成するステップと、第2オブジェクト信号グループに含まれたオブジェクト信号に対して、第2ダウンミックス信号に対応して第2オブジェクト抽出情報を生成するステップとを含むオーディオ信号処理方法が提供できる。
本発明の他の態様によれば、第1ダウンミックス信号と第2ダウンミックス信号を含む複数のダウンミックス信号を受信するステップと、第1ダウンミックス信号に対応する、第1オブジェクト信号グループに対する第1オブジェクト抽出情報を受信するステップと、第2ダウンミックス信号に対応する、第2オブジェクト信号グループに対する第2オブジェクト抽出情報を受信するステップと、第1ダウンミックス信号と第1オブジェクト抽出情報を用いて、第1オブジェクト信号グループに属するオブジェクト信号を生成するステップと、第2ダウンミックス信号と第2オブジェクト抽出情報を用いて、第2オブジェクト信号グループに属するオブジェクト信号を生成するステップとを含むオーディオ信号処理方法が提供できる。
本発明によれば、オーディオ信号を効果的に表現し、符号化し、伝送および格納することができ、多様な再生環境および機器を介して高品質のオーディオ信号を再生することができる。
本発明の効果が前記効果に制限されるわけではなく、言及されていない効果は、本明細書および添付した図面から本発明の属する技術分野における通常の知識を有する者に明確に理解できる。
同じ視聴距離で映像の大きさに応じた視聴角度を説明するための図である。 マルチチャンネルの一例として22.2chのスピーカ配置構成図である。 聞き手が3Dオーディオを聴取する聴取空間上での各サウンドオブジェクトの位置を示す概念図である。 図3に示されたオブジェクトに対して、本発明によるグルーピング方法を用いてオブジェクト信号グループを形成した例示的構成図である。 本発明によるオブジェクトオーディオ信号符号化器の一実施例に対する構成図である。 本発明の一実施例による復号化装置の例示的な構成図である。 本発明による符号化方法によって符号化して生成したビット列の一実施例である。 本発明によるオブジェクトおよびチャンネル信号復号化システムをブロック図に示す一実施例である。 本発明による他の形態のオブジェクトおよびチャンネル信号復号化システムのブロック図である。 本発明による復号化システムの一実施例である。 本発明による複数のオブジェクト信号に対するマスキング閾値を説明するための図である。 本発明による複数のオブジェクト信号に対するマスキング閾値を算出する符号化器の一実施例である。 5.1チャンネルセットアップに対してITU−R勧告案による配置と、任意の位置に配置された場合を説明するための図である。 本発明によるオブジェクトのビット列に対する復号化器とこれを用いたフレキシブルレンダリングシステムが接続された一実施例の構造である。 本発明によるオブジェクトのビット列に対する復号化とレンダリングを実現した他の実施例の構造である。 復号化器とレンダラとの間の伝送計画を決定して伝送する構造を示す図である。 22.2チャンネルシステムにおいて、全面配置スピーカのうち、ディスプレイによって不在のスピーカをその周辺チャンネルを用いて再生する概念を説明するための概念図である。 本発明による不在スピーカ位置への音源配置のための処理方法の一実施例である。 各バンドで生成された信号をテレビの周辺に配置されたスピーカとマッピングさせる一実施例である。 本発明の一実施例によるオーディオ信号処理装置が実現された製品の関係を示す図である。
本発明の一態様によれば、複数のオブジェクト信号を定められた方法によって分類した第1オブジェクト信号グループと第2オブジェクト信号グループを生成するステップと、第1オブジェクト信号グループに対して第1ダウンミックス信号を生成するステップと、第2オブジェクト信号グループに対して第2ダウンミックス信号を生成するステップと、第1オブジェクト信号グループに含まれたオブジェクト信号に対して、第1ダウンミックス信号に対応して第1オブジェクト抽出情報を生成するステップと、第2オブジェクト信号グループに含まれたオブジェクト信号に対して、第2ダウンミックス信号に対応して第2オブジェクト抽出情報を生成するステップとを含むオーディオ信号処理方法が提供できる。
ここで、前記オーディオ信号処理方法は、前記第1オブジェクト信号グループと第2オブジェクト信号グループは、混合されて1つのサウンド場面をなす信号をさらに含むことができる。
また、前記オーディオ信号処理方法は、前記第1オブジェクト信号グループと第2オブジェクト信号グループは、同じ時間に再生される信号で構成できる。
本発明において、第1オブジェクト信号グループと第2オブジェクト信号グループは、1つのオブジェクト信号のビット列に符号化できる。
ここで、前記第1ダウンミックス信号を生成するステップは、前記第1オブジェクト信号グループに含まれたオブジェクト信号に対して各オブジェクト別ダウンミックスゲイン情報を適用して得られ、前記オブジェクト別ダウンミックスゲイン情報は、前記第1オブジェクト抽出情報に含まれる。
ここで、前記オーディオ信号処理方法は、前記第1オブジェクト抽出情報と前記第2オブジェクト抽出情報を符号化するステップをさらに含むことができる。
本発明において、前記オーディオ信号処理方法は、前記第1オブジェクト信号グループと第2オブジェクト信号グループを含む前記オブジェクト信号全体に対するグローバルゲイン情報を生成するステップをさらに含み、前記グローバルゲイン情報は、前記オブジェクト信号のビット列に符号化できる。
本発明の他の態様によれば、第1ダウンミックス信号と第2ダウンミックス信号を含む複数のダウンミックス信号を受信するステップと、第1ダウンミックス信号に対応する、第1オブジェクト信号グループに対する第1オブジェクト抽出情報を受信するステップと、第2ダウンミックス信号に対応する、第2オブジェクト信号グループに対する第2オブジェクト抽出情報を受信するステップと、第1ダウンミックス信号と第1オブジェクト抽出情報を用いて、第1オブジェクト信号グループに属するオブジェクト信号を生成するステップと、第2ダウンミックス信号と第2オブジェクト抽出情報を用いて、第2オブジェクト信号グループに属するオブジェクト信号を生成するステップとを含むオーディオ信号処理方法が提供できる。
ここで、前記オーディオ信号処理方法は、前記第1オブジェクト信号グループに属するオブジェクト信号のうちの少なくとも1つのオブジェクト信号と、前記第2オブジェクト信号グループに属する少なくとも1つのオブジェクト信号を用いて出力オーディオ信号を生成するステップをさらに含むことができる。
ここで、前記第1オブジェクト抽出情報と第2オブジェクト抽出情報は、1つのビット列から受信することができる。
また、前記オーディオ信号処理方法は、第1オブジェクト抽出情報から第1オブジェクト信号グループに属した少なくとも1つのオブジェクト信号に対するダウンミックスゲイン情報が得られ、前記ダウンミックスゲイン情報を用いて前記少なくとも1つのオブジェクト信号を生成することができる。
さらに、前記オーディオ信号処理方法は、グローバルゲイン情報を受信するステップをさらに含み、前記グローバルゲイン情報は、前記第1オブジェクト信号グループと前記第2オブジェクト信号グループにすべて適用されるゲイン値であってよい。
また、前記第1オブジェクト信号グループに属するオブジェクト信号のうちの少なくとも1つのオブジェクト信号と、前記第2オブジェクト信号グループに属する少なくとも1つのオブジェクト信号は、同じ時間帯に再生できる。
本明細書に記載された実施例は、本発明の属する技術分野における通常の知識を有する者に本発明の思想を明確に説明するためのものであるので、本発明が本明細書に記載された実施例によって限定されるものではなく、本発明の範囲は、本発明の思想を逸脱しない修正例または変形例を含むと解釈されなければならない。
本明細書で使用される用語と添付した図面は、本発明を容易に説明するためのものであり、図面に示された形状は、必要に応じて本発明の理解のために誇張されて表示されたものであるので、本発明が本明細書で使用される用語と添付した図面によって限定されるものではない。
本明細書において、本発明にかかる公知の構成または機能に対する具体的な説明が本発明の要旨をあいまいにし得ると判断された場合に、これに関する詳細な説明は必要に応じて省略する。
本発明において、次の用語は次のような基準により解釈され得、記載されていない用語でも下記の趣旨によって解釈され得る。コーディングは、場合によって、エンコーディングまたはデコーディングと解釈され得、情報(information)は、値(values)、パラメータ(parameter)、係数(coefficients)、成分(elements)などをすべて網羅する用語であって、場合によって、意味は異なって解釈できるが、本発明はこれに限定されない。
以下、本発明の実施例によるオブジェクトオーディオ信号の処理方法および装置に関して説明する。
図1は、同じ視聴距離上で映像の大きさ(例:UHDTVおよびHDTV)に応じた視聴角度を説明するための図である。ディスプレイの作製技術が発展し、消費者の要求に応じて映像の大きさが大型化する傾向にある。図1に示されているように、HDTV(1920*1080ピクセルの映像)の場合に比べて、UHDTV(7680*4320ピクセルの映像)は、約16倍大きくなった映像である。HDTVが居間の壁面に設置され、視聴者が一定の視聴距離をおいて居間のソファーに座った場合、視聴角度が約30度となり得る。しかし、同じ視聴距離でUHDTVが設置された場合、視聴角度は約100度に達する。このように高画質高解像度の大型スクリーンが設置された場合、この大型コンテンツにふさわしいような高い実在感と臨場感を有するサウンドが提供されることが好ましい。視聴者がまるで現場にいるのとほぼ同じ環境を提供するためには、1−2個のサラウンドチャンネルスピーカが存在するだけでは足りないことがある。したがって、より多いスピーカおよびチャンネル数を有するマルチチャンネルオーディオ環境が要求されることがある。
前記説明のように、ホームシアター環境のほか、個人3Dテレビ(personal 3DTV)、スマートフォンテレビ、22.2チャンネルのオーディオプログラム、自動車、3D video、テレプレゼンスルーム(telepresence room)、クラウドベースのゲーム(cloud−based gaming)などがあり得る。
図2は、マルチチャンネルの一例として22.2chのスピーカ配置を示す図である。22.2chは音場感を高めるためのマルチチャンネル環境の一例であってよいし、本発明は、特定のチャンネル数または特定のスピーカ配置に限定されない。図2を参照すれば、最も高いレイヤ(top layer)1010に計9個のチャンネルが提供できる。前面に3個、中間位置に3個、サラウンド位置に3個の計9個のスピーカが配置されていることが分かる。中間レイヤ(middle layer)1020には、前面に5個、中間位置に2個、サラウンド位置に計3個のスピーカが配置できる。前面の5個のスピーカのうち、中央位置の3個は、テレビスクリーン内に含まれてよい。底(bottom layer)1030には、前面に計3個のチャンネルおよび2個のLFEチャンネル1040が設けられてよい。
このように、最大数十個のチャンネルに達するマルチチャンネル信号を伝送し再生するにあたり、高い演算量が必要であり得る。また、通信環境などを考慮する時、高い圧縮率が要求されることがある。それだけでなく、一般家庭では、マルチチャンネル(例:22.2ch)のスピーカ環境を備える場合は多くなく、2chまたは5.1chのセットアップを有する聴取者が多いため、すべてのユーザに共通に伝送する信号がマルチチャンネルをそれぞれエンコーディングして送る場合には、そのマルチチャンネルを2chおよび5.1chに再変換して再生しなければならない場合、通信的な非効率が発生するだけでなく、22.2chのPCM信号を格納しなければならないため、メモリ管理における非効率が発生することがある。
図3は、聞き手110が3Dオーディオを聴取する聴取空間上130で3次元のサウンド場面を構成する各サウンドオブジェクト120の位置を示す概念図である。図3を参照すれば、図式化の便宜上、各オブジェクト120が点ソース(point source)であると示したが、点ソースのほか、平面波(plain wave)形態の音源や、アンビエント(ambient)音源(サウンド場面の空間を認識できる全方位に行き渡っている余音)などもあり得る。
図4は、図3の図式化されたオブジェクトに対して、本発明によるグルーピング方法を用いてオブジェクト信号グループ410、420を形成したことを示す。本発明によれば、オブジェクト信号に対する符号化あるいは処理をする上で、オブジェクト信号グループを形成して、グルーピングされたオブジェクトを単位で符号化したり処理することが特徴である。この時、符号化の場合、オブジェクトを個別信号として独立符号化(discrete coding)する場合や、オブジェクト信号に対するパラメトリック符号化をする場合を含む。特に、本発明によれば、オブジェクト信号に対するパラメータ符号化のためのダウンミックス信号の生成と、ダウンミックスに対応するオブジェクトのパラメータ情報を生成するにあたり、グルーピングされたオブジェクトを単位として生成することが特徴である。すなわち、従来の例として、SAOC符号化技術の場合、サウンド場面を構成するすべてのオブジェクトを1つのダウンミックス信号(この時、ダウンミックス信号は、モノ(1チャンネル)、あるいはステレオ(2チャンネル)であってよいが、便宜上、1つのダウンミックス信号と表現する)とそれに対応するオブジェクトパラメータ情報と表現したが、このような方法を、本発明で考慮するシナリオのように、20個のオブジェクト以上、多くて200個、500個を、1つのダウンミックスとそれに対応するパラメータで表現する場合、所望の水準の音質を提供するアップミックスおよびレンダリングが事実上不可能である。これによって、本発明では、符号化対象になるオブジェクトをグループ化し、グループ単位でダウンミックスを生成する方法を利用する。グループ単位でダウンミックスされる過程で、各オブジェクトがダウンミックスされる時、ダウンミックスゲインが適用可能であり、適用されたオブジェクト別ダウンミックスゲインは、付加情報として各グループに対するビット列に含まれる。一方、符号化の効率性あるいは全体ゲインに対する効果的な制御のために、各グループに共通に適用されるグローバルゲインと各グループ別オブジェクトに限定して適用されるオブジェクトグループゲインが使用可能であり、これらは符号化されてビット列に含まれて受信段に伝送される。
グループを形成する第一の方法は、サウンド場面上で、各オブジェクトの位置を考慮して、近いオブジェクト同士でグループを形成する方法である。図4のオブジェクトグループ410、420は、このような方法で形成した一例である。これは、パラメータ符号化の不完全性により各オブジェクトの間に発生するクロストーク歪みや、オブジェクトを第3の位置に移動したり大きさを変更するレンダリングを行う時に発生する歪みが、聞き手110になるべく聞こえないようにするための方法である。同じ位置にあるオブジェクトに発生した歪みは、相対的にマスキングによって聞き手に聞こえない可能性が高い。同じ理由で個別符号化をする場合も、空間的に類似の位置にあるオブジェクト間のグルーピングにより付加情報を共有するなどの効果を期待することができる。
図5は、本発明の一実施例によるオブジェクトオーディオ信号符号化器500を示すブロック図である。図示のように、オブジェクトオーディオ信号符号化器500は、オブジェクトグルーピング部550と、ダウンミキサおよびパラメータ符号化器520、540とを含むことができる。オブジェクトグルーピング部550は、本発明の実施例により、複数のオブジェクトをグルーピングして、少なくとも1つのオブジェクト信号グループを生成する。図5の実施例では、第1オブジェクト信号グループ510および第2オブジェクト信号グループ530が生成されたことを示したが、本発明の実施例において、オブジェクト信号グループの数はこれに限定しない。この時、各オブジェクト信号グループは、図4の例で説明した方法のように空間的な類似度を考慮して生成されてもよく、音色、周波数分布、音圧などの信号特性によって区分して生成されてもよい。ダウンミキサおよびパラメータ符号化器520、540は、生成された各グループごとにダウンミックスを行い、この過程でダウンミックスされたオブジェクトを復元するのに必要なパラメータを生成する。各グループごとに生成されたダウンミックス信号は、AAC、MP3のようなチャンネル別ウェーブフォーム(waveform)を符号化するウェーブフォーム符号化器560を介して追加的に符号化される。これを一般にコアコーデック(Core codec)と呼ぶ。また、各ダウンミックス信号間のカップリングなどによる符号化が行われてよい。各符号化器520、540、560を介して生成された信号は、MUX570を介して1つのビット列として形成されて伝送される。したがって、ダウンミキサおよびパラメータ符号化器520、540とウェーブフォーム符号化器560を介して生成されたビット列は、すべて1つのサウンド場面をなす構成オブジェクトを符号化した信号と見なすことができる。また、生成されたビット列内の互いに異なるオブジェクトグループに属したオブジェクト信号は、同じ時間フレームを有して符号化され、したがって、同じ時間帯に再生される特徴を有したりする。一方、オブジェクトグルーピング部550で生成したグルーピング情報は、符号化されて受信段に伝達されることが可能である。
図6は、本発明の一実施例によるオブジェクトオーディオ信号復号化器600を示すブロック図である。オブジェクトオーディオ信号復号化器600は、図5の実施例により符号化されて伝送された信号を復号化することができる。復号化過程は、符号化の逆過程であって、DEMUX610は、符号化器からビット列を受信し、ビット列から少なくとも1つのオブジェクトパラメータセットとウェーブフォーム符号化された信号を抽出する。仮に、図5のオブジェクトグルーピング部550が生成したグルーピング情報がビット列に含まれる場合、DEMUX610は、ビット列から当該グルーピング情報を抽出することができる。ウェーブフォーム復号化器620は、ウェーブフォーム復号化を行って複数のダウンミックス信号を生成し、生成された複数のダウンミックス信号は、それぞれ対応するオブジェクトパラメータセットとともに、アップミキサおよびパラメータ復号化器630、650に入力される。アップミキサおよびパラメータ復号化器630、650は、入力されたダウンミックス信号をそれぞれアップミキシングして、少なくとも1つのオブジェクト信号グループ640、660に復号化する。この時、各オブジェクト信号グループ640、660の復元には、ダウンミックス信号およびこれに対応するオブジェクトパラメータセットが用いられる。図6の実施例において、複数のダウンミックス信号が存在するため、複数のパラメータ復号化が必要である。図6では、第1ダウンミックス信号および第2ダウンミックス信号がそれぞれ第1オブジェクト信号グループ640および第2オブジェクト信号グループ660に復号化されることを示したが、本発明の実施例で抽出されたダウンミックス信号の個数および対応するオブジェクト信号グループの数はこれに限定しない。一方、オブジェクトデグルーピング部670は、グルーピング情報を用いて、各オブジェクト信号グループを個別オブジェクト信号にデグルーピングすることができる。
本発明の実施例によれば、伝送されたビット列にグローバルゲインおよびオブジェクトグループゲインが含まれている場合、これらを適用して正常なオブジェクト信号の大きさを復元することができる。一方、レンダリングあるいはトランスコーディング過程でこのゲイン値は制御が可能であり、グローバルゲインの調整により全体信号の大きさを、オブジェクトグループゲインの調整によりグループ別信号の大きさを調整することができる。例えば、再生スピーカ単位でオブジェクトグルーピングが行われた場合、後述の柔軟なレンダリングを実現するためにゲインを調整する時、オブジェクトグループゲインの調整により容易に実現することができる。
図5および図6において、複数のパラメータ符号化器あるいは復号化器は、説明の便宜上、並列に処理されるように示されたが、1つのシステムを介して順次に複数のオブジェクトグループに対する符号化あるいは復号化を行うことも可能である。
オブジェクトグループを形成する他の方法は、互いに相関度の低いオブジェクト同士で1つのグループにグルーピングする方法である。これは、パラメータ符号化の特徴で、相関度の高いオブジェクトはダウンミックスからそれぞれを分離しにくい特徴を考慮したものである。この時、ダウンミックス時、ダウンミックスゲインなどのパラメータを調整して、グルーピングされた各オブジェクトがより相関性が遠くなるようにする符号化方法も可能である。この時、使用されたパラメータは、復号化時、信号の復元に使用できるように伝送されることが好ましい。
オブジェクトグループを形成するさらに他の方法は、互いに相関度の高いオブジェクトを1つのグループにグルーピングする方法である。これは、相関度の高いオブジェクトの場合、パラメータを用いた分離に困難があるが、そのような活用度が高くない応用で圧縮効率を高めるための方法である。多様なスペクトルを有する複雑な信号の場合、コアコーデックでの信号処理にそれだけビットを多く要するため、相関度の高いオブジェクトをまとめて1つのコアコーデックを活用すれば符号化効率が高い。
オブジェクトグループを形成するさらに他の方法は、オブジェクト間のマスキングの有無を判断して符号化することである。例えば、オブジェクトAがオブジェクトBをマスキングする関係にある場合、2つの信号を1つのダウンミックスに含めてコアコーデックで符号化すると、オブジェクトBは符号化過程で省略されてよい。この場合、復号化段でパラメータを用いてオブジェクトBを得る場合、歪みが大きい。したがって、このような関係を有するオブジェクトAとオブジェクトBは、別のダウンミックスに含めることが好ましい。反面、オブジェクトAとオブジェクトBがマスキングの関係にあるものの、2つのオブジェクトを分離してレンダリングする必要がない応用や、少なくともマスキングされたオブジェクトに対する別途処理の必要がない場合は、逆にオブジェクトAとBを1つのダウンミックスに含ませることが好ましい。したがって、応用に応じて選択方法が異なり得る。例えば、符号化過程において、好ましいサウンド場面上で特定のオブジェクトがマスキングされて無くなったり、少なくとも微弱な場合であれば、これをオブジェクトリストから除外し、マスカーになるオブジェクトに含ませたり、2つのオブジェクトを合わせて1つのオブジェクトとして表現する方式で実現することができる。
オブジェクトグループを形成するさらに他の方法は、平面波ソースオブジェクトやアンビエントソースオブジェクトなどの、点ソースオブジェクトでないものを分離して別途にグループ化することである。このようなソースは、点ソースと異なる特性でよって、他の形態の圧縮符号化方法やパラメータが必要であり、したがって、別途に分離して処理することが好ましい。
本発明の実施例によれば、グルーピング情報は、前述のオブジェクトグループが形成された方法に関する情報を含むことができる。オーディオ信号復号化器は、伝送されたグルーピング情報を参照して、復号化されたオブジェクト信号グループを元のオブジェクトに還元するオブジェクトデグルーピングを行うことができる。
図7は、本発明による符号化方法によって符号化して生成したビット列の一実施例である。図7を参照すれば、符号化されたチャンネルあるいはオブジェクトデータが伝送される主ビット列700が、チャンネルグループ720、730、740、あるいはオブジェクトグループ750、760、770の順に整列されていることが分かる。各チャンネルグループには、チャンネルグループに属した個別チャンネルが設定された順序によって整列されて配置される。図面符号721、731、751は、それぞれチャンネル1、チャンネル8、チャンネル92の信号を示す例である。また、ヘッダ710に各グループのビット列内での位置情報であるチャンネルグループポジション情報CHG_POS_INFO711、オブジェクトグループポジション情報OBJ_POS_INFO712を含んでいるため、これを参照すれば、ビット列を順次に復号化しなくても、所望のグループのデータのみを優先復号化することができる。したがって、復号化器は、一般的にグループ単位で先に到着したデータから復号化を行うが、他の政策や理由によって復号化する順序を任意に変更することができる。また、図7は、主ビット列700のほか、別途に、主な復号化関連情報とともに、各チャンネルあるいはオブジェクトに対するメタデータ703、704を盛り込んでいる副ビット列701を例示する。副ビット列は、主ビット列が伝送される途中に間欠的に伝送されたり、別の伝送チャンネルを介して伝送されてよい。一方、チャンネルとオブジェクト信号に続いて、選択的にANC(Ancillary data)780が含まれてよい。
(オブジェクトグループ別にビット割当する方法)
複数のグループ別にダウンミックスを生成し、各グループ別に独立したパラメトリックオブジェクト符号化を行うにあたり、各グループで使用されるビット数は互いに異なり得る。グループ別ビットを割り当てる基準は、グループ内に含まれたオブジェクトの数、グループ内のオブジェクト間のマスキング効果を考慮した有効オブジェクト数、人の空間解像度を考慮した位置に応じた加重値、オブジェクトの音圧の大きさ、オブジェクト間相関度、サウンド場面上のオブジェクトの重要度などを考慮することができる。例えば、A、B、Cの3つの空間的オブジェクトグループを有する場合、それぞれグループのobject信号が3、2、1個ずつ含まれていれば、割り当てられたビットは3a1(n−x)、2a2(n−y)、a3nに割り当てられてよい。ここで、x,yは、各グループ内でオブジェクト間、そしてオブジェクト内でマスキング効果によってビットをより少なく割り当ててもよい程度を示し、a1、a2、a3は、グループ別に前記言及した多様な要素によって決定できる。
(オブジェクトグループ内での主オブジェクト、副オブジェクト位置情報の符号化)
一方、オブジェクト情報の場合、プロデューサーが生成した意図によって勧告したり、他のユーザが提案するミックス情報などを、オブジェクトの位置および大きさ情報としてメタデータを介して伝達する手段を有することが好ましい。本発明では、これを、便宜上、プリセット情報と呼ぶ。オブジェクトが時間に応じて位置可変するダイナミックオブジェクトの場合、プリセット情報を介して伝送されるべき位置情報の情報量が少なくない。例えば、1000個のオブジェクトに対して毎フレーム可変する位置情報を伝送すれば、非常に大きいデータ量になる。したがって、オブジェクトの位置情報も効果的に伝送することが好ましい。そこで、本発明では、主オブジェクトと副オブジェクトという定義を利用して、位置情報の効果的な符号化方法を用いる。
主オブジェクトは、オブジェクトの位置情報を3次元空間上の絶対的な座標値で表現するオブジェクトを意味する。副オブジェクトは、3次元空間上の位置を主オブジェクトに対する相対的な値で表現して、位置情報を有するオブジェクトを意味する。したがって、副オブジェクトの位置情報を知るためには、対応する主オブジェクトが何であるかを知らなければならない。本発明の実施例によれば、グルーピングを行う場合、特に空間上の位置を基準としてグルーピングをする場合、同一グループ内に1つのオブジェクトを主オブジェクト、残りのオブジェクトを副オブジェクトとして位置情報を表現する方法で実現可能である。符号化のためのグルーピングがないか、これを用いることが副オブジェクト位置情報の符号化に有利でない場合、位置情報符号化のための別の集合を形成することができる。副オブジェクト位置情報を相対的に表現することを、絶対値で表現するより有利にするためには、グループあるいは集合内に属するオブジェクトは空間上で一定範囲内に位置することが好ましい。
本発明の他の位置情報の符号化方法は、主オブジェクトに対する相対的な表現の代わりに、固定されたスピーカ位置に関する相対情報として各オブジェクトの位置情報を表現することである。例えば、22チャンネルスピーカの指定された位置値を基準として、オブジェクトの相対的位置情報を表現する。この時、基準として使用するスピーカの個数と位置値などは、現在のコンテンツで設定した値を参照することができる。
本発明の他の実施例によれば、位置情報を絶対値あるいは相対値で表現した後、量子化を行うが、量子化ステップは、絶対位置を基準として可変的であることを特徴とする。例えば、聞き手の正面付近は、側面あるいは後面に比べて、位置に対する区別能力がはるかに高いことが知られているため、正面領域に対する解像度は、側面領域に対する解像度より高いように量子化ステップを設定することが好ましい。同様に、人は、方位に対する解像度が、高低に対する解像度より高いため、方位角に対する量子化を、高度に対する解像度より高くすることが好ましい。
本発明のさらに他の実施例では、位置が時変するダイナミックオブジェクトの場合、主オブジェクトあるいは他の基準点に対する相対的な位置値を表現する代わりに、当該オブジェクトの前の位置値に対する相対的な値で表現することが可能である。したがって、ダイナミックオブジェクトに対する位置情報は、時間的に前、空間的に隣りの基準点のうちのいずれを基準としたかを区別するためのフラグ情報をともに伝送することが好ましい。
(復号化器全体のアーキテクチャ)
図8は、本発明によるオブジェクトおよびチャンネル信号復号化システム800をブロック図に示す一実施例である。システム800は、オブジェクト信号801、チャンネル信号802、あるいはオブジェクト信号とチャンネル信号との組み合わせを受けることができる。また、オブジェクト信号あるいはチャンネル信号は、それぞれウェーブフォーム符号化(801、802)されたり、パラメトリック符号化(803、804)されていてよい。復号化システム800は、大きく、3DA復号化部860と、3DAレンダリング部870とに区分され、3DAレンダリング部870は、任意の外部システムあるいはソリューションが使用されてもよい。したがって、3DA復号化部860と3DAレンダリング部870は、外部と容易に互換される標準化されたインタフェースを提供することが好ましい。
図9は、本発明のさらに他の形態のオブジェクトおよびチャンネル信号復号化システム900のブロック図である。同様に、本システム900は、オブジェクト信号901、チャンネル信号902、あるいはオブジェクト信号とチャンネル信号との組み合わせを受けることができる。また、オブジェクト信号あるいはチャンネル信号は、それぞれウェーブフォーム符号化(901、902)されたり、パラメトリック符号化(903、904)されていてよい。図8のシステム800と比較する時、相違点は、図9の復号化システム900では、それぞれ分離されていた個別オブジェクト復号化器810と個別チャンネル復号化器820、そしてパラメトリックチャンネル復号化器840とパラメトリックオブジェクト復号化器830が、それぞれ1つの個別復号化器910とパラメトリック復号化器920に統合された点である。また、図9の復号化システム900には、3DAレンダリング部940と、便利かつ標準化されたインタフェースのためのレンダラインタフェース部930が追加された。レンダラインタフェース部930は、内部あるいは外部に存在する3DAレンダラ940からユーザ環境情報、レンダラバージョンなどを受信し、これに互換される形態のチャンネル信号あるいはオブジェクト信号を生成して、3DA Renderer940に伝達する役割を果たす。また、チャンネル数、オブジェクト別の名前などのように再生に必要な付加情報をユーザに提供するために必要なメタデータを標準化された形式で生成して、3DA Renderer940に伝達することができる。レンダラインタフェース部930は、後述の順序制御部1630を含むことができる。
パラメトリック復号化器920は、オブジェクト信号あるいはチャンネル信号を生成するためにダウンミックス信号が必要であるが、必要なダウンミックス信号は、個別復号化器910を介して復号化されて入力される。オブジェクトおよびチャンネル信号復号化システムに対応する符号化器は、様々なタイプになっていてよいし、図8および図9に表現された形態のビット列801、802、803、804、901、902、903、904のうちの少なくとも1つを生成できれば、互換される符号化器と見なすことができる。また、本発明によれば、図8および図9に提示された復号化システムは、過去のシステムあるいはビット列との互換性を保障するようにデザインされた。例えば、AACで符号化された個別チャンネルのビット列が入力された場合、当該ビット列は、個別(チャンネル)復号化器を介して復号化されて、3DAレンダラに送られてよい。MPS(MPEG Surround)ビット列の場合、ダウンミックス信号とともに送られるが、ダウンミックスされた後、AACで符号化された信号は、個別(チャンネル)復号化器を介して復号化されてパラメトリックチャンネル復号化器に伝達され、パラメトリックチャンネル復号化器は、まるでMPEG Surround復号化器のように動作する。SAOC(Spatial Audio Object Coding)で符号化されたビット列の場合も同様に動作する。図8のシステム800において、SAOCビット列は、従来のように、SAOCトランスコーダ830でトランスコーディングされた後、MPEG Surroundデコーダ840を介して個別チャンネルにレンダリングされる構造を有する。このためには、SAOCトランスコーダ830は、再生チャンネル環境情報を受けて、これに合うように最適化されたチャンネル信号を生成して伝送することが好ましい。したがって、本発明のオブジェクトおよびチャンネル信号復号化システムは、従来のSAOCビット列を受けて復号化するが、ユーザあるいは再生環境に特化したレンダリングを行うことができる。図9のシステム900では、SAOCビット列が入力される場合、MPSビット列に変換するトランスコーディング動作の代わりに、直ちにチャンネルあるいはレンダリングに適した個別オブジェクト形態に変換する方法で実現される。したがって、トランスコーディングする構造に比べて演算量が低く、音質の面においても有利である。図9において、オブジェクト復号化器の出力をchannelでのみ表示したが、個別オブジェクト信号としてレンダラインタフェース930に伝達されてもよい。また、図9でのみ表記されたが、図8の場合を含めて、パラメトリックビット列上にレジデュアル信号が含まれた場合、これに対する復号化は個別復号化器を介して復号化されることが特徴である。
(チャンネルに対する個別、パラメータ組み合わせ、レジデュアル)
図10は、本発明の他の実施例によるエンコーダおよびデコーダの構成を示す図である。
図10は、デコーダのスピーカセットアップがそれぞれ異なる場合に、スケーラブルなコーディングのための構造を示す。
エンコーダは、ダウンミキシング部210を含み、デコーダは、第1デコーディング部230〜第3デコーディング部250のうちの1つ以上と、デマルチプレキシング部220とを含む。
ダウンミキシング部210は、マルチチャンネルに相当する入力信号(CH_N)をダウンミキシングすることにより、ダウンミックス信号(DMX)を生成する。この過程で、アップミックスパラメータ(UP)およびアップミックスレジデュアル(UR)のうちの1つ以上を生成する。その後、ダウンミックス信号(DMX)、アップミックスパラメータ(UP)(およびアップミックスレジデュアル(UR))をマルチプレキシングすることにより、1以上のビットストリームを生成し、デコーダに伝送する。
ここで、アップミックスパラメータ(UP)は、1以上のチャンネルを2以上のチャンネルにアップミキシングするために必要なパラメータであって、空間パラメータおよびチャンネル間位相差(IPD)などが含まれてよい。
そして、アップミックスレジデュアル(UR)は、原信号の入力信号(CH_N)と復元された信号との差であるレジデュアル信号に相当する。ここで、復元された信号は、ダウンミックス信号(DMX)にアップミックスパラメータ(UP)を適用してアップミキシングされた信号であってもよいし、ダウンミキシング部210によってダウンミキシングされていないチャンネルがdiscreteな方式でエンコーディングされた信号であってよい。
デコーダのデマルチプレキシング部220は、1以上のビットストリームからダウンミックス信号(DMX)およびアップミックスパラメータ(UP)を抽出し、アップミックスレジデュアル(UR)をさらに抽出することができる。ここで、レジデュアル信号は、ダウンミックス信号に対する個別符号化と類似の方法で符号化できる。したがって、レジデュアル信号の復号化は、図8あるいは図9に提示されたシステムでは、個別(チャンネル)復号化器を介して行われることが特徴である。
デコーダは、スピーカセットアップ環境に応じて、第1デコーディング部230〜第3デコーディング部250のうちの1つ(または1つ以上)を選択的に含むことができる。デバイスの種類(スマートフォン、ステレオテレビ、5.1chホームシアター、22.2chホームシアターなど)に応じて、ラウドスピーカのセットアップ環境が多様であり得る。このように多様な環境にもかかわらず、22.2chなどのマルチチャンネル信号を生成するためのビットストリームおよびデコーダが選択的でなければ、22.2chの信号をすべて復元した後に、スピーカの再生環境に応じて、再びダウンミックスしなければならない。この場合、復元およびダウンミックスに必要な演算量が非常に高いだけでなく、遅延が発生することもある。
しかし、本発明の他の実施例によれば、各デバイスのセットアップ環境に応じて、デコーダが第1デコーディング部〜第3デコーディング部のうちの1つ(または1つ以上)を選択的に備えることにより、前記のような不都合を解消することができる。
第1デコーディング部230は、ダウンミックス信号(DMX)のみをデコーディングする構成であって、チャンネル数の増加を伴わない。すなわち、第1デコーディング部230は、ダウンミックス信号がモノの場合、モノチャンネル信号を出力し、ステレオの場合、ステレオ信号を出力するものである。第1デコーディング部230は、スピーカチャンネル数が1つまたは2つの、ヘッドホンが備えられた装置、スマートフォン、テレビなどに好適であり得る。
一方、第2デコーディング部240は、ダウンミックス信号(DMX)およびアップミックスパラメータ(UP)を受信し、これに基づいて、パラメトリックMチャンネル(PM)を生成する。第2デコーディング部240は、第1デコーディング部230に比べて出力チャンネル数が増加する。しかし、アップミックスパラメータ(UP)が総Mチャンネルまでのアップミックスに相当するパラメータのみが存在する場合、第2デコーディング部240は、原チャンネル数(N)に及ばないMチャンネル数の信号を出力することができる。例えば、エンコーダの入力信号である原信号が22.2ch信号であり、Mチャンネルは5.1ch、7.1chチャンネルなどであってよい。
第3デコーディング部250は、ダウンミックス信号(DMX)およびアップミックスパラメータ(UP)だけでなく、アップミックスレジデュアル(UR)まで受信する。第2デコーディング部240は、Mチャンネルのパラメトリックチャンネルを生成するのに対し、第3デコーディング部250は、これにアップミックスレジデュアル信号(UR)まで追加的に適用することにより、N個のチャンネルの復元された信号を出力することができる。
各デバイスは、第1デコーディング部〜第3デコーディング部のうちの1つ以上を選択的に備え、ビットストリームの中からアップミックスパラメータ(UP)およびアップミックスレジデュアル(UR)を選択的にパーシングすることにより、各スピーカセットアップ環境に合わせた信号を直ちに生成することにより、複雑度および演算量を低減することができる。
(マスキングを考慮したオブジェクトのウェーブフォーム符号化)
本発明によるオブジェクトのウェーブフォーム符号化器(以下、ウェーブフォーム(waveform)符号化器は、チャンネルオーディオ信号あるいはオブジェクトオーディオ信号を各チャンネルあるいはオブジェクト別に独立して復号化可能に符号化する場合をいい、パラメトリック符号化/復号化に相対する概念で、さらに個別(discrete)符号化/復号化とも呼ぶ)は、オブジェクトのサウンド場面上の位置を考慮してビット割当する。これは、心理音響のBMLD(Binaural Masking Level Difference)現象とオブジェクト信号符号化の特徴を利用したものである。
BMLD現象を説明するために、既存のオーディオ符号化方法で使用していたMS(Mid−Side)ステレオ符号化を説明すれば、次の通りである。すなわち、心理音響におけるマスキング現象は、マスキングを発生させるマスカー(Masker)と、マスキングになるマスキー(Maskee)とが空間的に同一方向にある時に可能であるのがBMLDである。ステレオオーディオ信号の2チャンネルのオーディオ信号の間の相関性が非常に高く、その大きさが等しい場合、その音に対する像(音像)が2つのスピーカの間の中央に結ばれ、相関性がない場合、各スピーカから独立した音が出て、その像がそれぞれスピーカに結ばれる。仮に、相関性が最大である入力信号に対して各チャンネルを独立して符号化(dual mono)する場合、オーディオ信号の音像は中央に、量子化雑音の音像は各スピーカに別に結ばれることとなる。すなわち、各チャンネルにおける量子化雑音は互いに相関性がないため、その像が各スピーカに別に結ばれるのである。したがって、マスキーになるべき量子化雑音が空間的不一致によってマスキングされず、結局、人に歪みとして聞こえる問題が発生する。和差符号化は、このような問題を解決すべく、2つのチャンネル信号を加えた信号(Mid信号)と引いた信号(Difference)を生成した後、これを用いて心理音響モデルを行い、これを用いて量子化する。このような方法によれば、発生した量子化雑音の音像がオーディオ信号の音像と同じ位置に結ばれる。
従来のチャンネル符号化の場合、各チャンネルは、再生されるスピーカにマッピングされ、当該スピーカの位置は固定されて互いに離れているため、チャンネル間のマスキングは考慮できなかった。しかし、各オブジェクトを独立して符号化する場合は、当該オブジェクトのサウンド場面上の位置に応じてマスキングされるか否かが異なり得る。したがって、他のオブジェクトによって、現在符号化されるオブジェクトがマスキングされるか否かを判断して、それによってビットを割り当てて符号化することが好ましい。
図11は、オブジェクト1とオブジェクト2に対するそれぞれの信号と、これら信号から取得できるマスキング閾値1110、1120と、オブジェクト1とオブジェクト2とを合わせた信号に対するマスキング閾値1130を示す。オブジェクト1とオブジェクト2が少なくとも聞き手の位置を基準として同一の位置、あるいはBMLDの問題が発生しないだけの範囲内に位置すると見なすと、聞き手に当該信号によってマスキングされる領域は1130のようになるので、オブジェクト1に含まれたS2信号は完全にマスキングされて聞こえない信号となるはずである。そのため、オブジェクト1を符号化する過程において、オブジェクト2に対するマスキング閾値を考慮して符号化することが好ましい。マスキングス閾値は互いに加算的に合わされる性質があるので、結局、オブジェクト1とオブジェクト2に対するそれぞれのマスキング閾値を加える方法で求めることができる。あるいは、マスキング閾値を計算する過程自体も演算量が非常に高いので、オブジェクト1とオブジェクト2とを予め合わせて生成した信号を用いて、1つのマスキング閾値を計算してオブジェクト1とオブジェクト2をそれぞれ符号化することも好ましい。
図12は、図11のような例示の内容を実現するために、本発明による複数のオブジェクト信号に対するマスキング閾値を算出する符号化器1200の一実施例である。2つのオブジェクト信号が入力されると、これに対するSUM1210で和信号を生成する。和信号を入力として、心理音響モデル演算部1230では、オブジェクト1、オブジェクト2に対応するマスキング閾値をそれぞれ算出する。この時、図12に示さないが、心理音響モデル演算部1230の入力として、和信号のほか、オブジェクト1とオブジェクト2の信号も追加的に提供できる。生成されたマスキング閾値1を用いてオブジェクト信号1に対するウェーブフォーム符号化1220が行われ、符号化されたオブジェクト信号1を出力し、マスキング閾値2を用いてオブジェクト信号2に対するウェーブフォーム符号化1240が行われ、符号化されたオブジェクト信号2を出力する。
本発明の他のマスキング閾値算出方法は、2つのオブジェクト信号の位置が聴音覚を基準として完全に一致しない場合、2つのオブジェクトに対するマスキング閾値を加える代わりに、2つのオブジェクトが空間上に離れた程度を考慮してマスキングレベルを減衰して反映することも可能である。すなわち、オブジェクト1に対するマスキング閾値をM1(f)、オブジェクト2に対するマスキング閾値をM2(f)とする時、各オブジェクトを符号化するのに使用する最終ジョイントマスキング閾値M1’(f)、M2’(f)は、次のような関係を有するように生成される。
この時、A(f)は、2つのオブジェクトの間の空間上の位置と距離、および2つのオブジェクトの属性などにより生成される減衰ファクターであって、0.0=<A(f)=<1.0の範囲を有する。
人の方向に対する解像度は、正面を基準として左右へいくほど悪くなり、後方へいく時にさらに悪くなる特性を有するが、したがって、オブジェクトの絶対的位置は、A(f)を決定するさらに他の要素として作用することができる。
本発明の他の実施例では、2つのオブジェクトのうちの1つのオブジェクトに対しては自身のマスキング閾値のみを用い、他のオブジェクトに対してのみ相手オブジェクトに対するマスキング閾値を持ってくる方法で実現することができる。これを、それぞれ独立オブジェクト、依存オブジェクトという。自分自身のマスキング閾値のみを利用するオブジェクトは、相手オブジェクトに関係なく高音質符号化されるため、当該オブジェクトから空間的に分離されるレンダリングが行われても音質が保存される利点を有することができる。オブジェクト1を独立オブジェクト、オブジェクト2を依存オブジェクトとすれば、次のような式でマスキング閾値が表現される。
独立オブジェクトと依存オブジェクトの有無は、各オブジェクトに対する付加情報として復号化およびレンダラに伝達することが好ましい。
本発明のさらに他の実施例では、2つのオブジェクトが空間上で一定程度類似する場合、マスキング閾値のみを合わせて生成するのではなく、信号自体を1つのオブジェクトに合わせて処理することも可能である。
本発明のさらに他の実施例では、特にパラメータ符号化を行う場合、2つの信号の相関度と2つの信号の空間上の位置を考慮して、1つのオブジェクトに合わせて処理することが好ましい。
(トランスコーディングの特徴)
本発明のさらに他の実施例では、カップリングされたオブジェクトを含むビット列をより低いビット率にトランスコーディングするために、データの大きさを低減するために、オブジェクトの数字を低減しなければならない場合(すなわち、複数のオブジェクトを1つにダウンミックスして1つのオブジェクトで表現する場合)、カップリングされたオブジェクトに対して1つのオブジェクトで表現することが好ましい。
以上のオブジェクト間のカップリングによる符号化を説明するにあたり、説明の便宜のために、2つのオブジェクトのみをカップリングする場合のみを例に挙げたが、2つ以上の多数のオブジェクトに対するカップリングも類似の方法で実現可能である。
(柔軟なレンダリング必要)
3Dオーディオのために必要な技術のうち、柔軟なレンダリングは、3Dオーディオの品質を最上に引き上げるために解決すべき重要な課題の一つである。居間の構造、家具の配置に応じて、5.1チャンネルスピーカの位置が非常に不定形的なのは周知の事実である。このような不定形的位置にスピーカが存在しても、コンテンツ制作者の意図したサウンド場面を提供できるようにしなければならない。このためには、ユーザごとにまちまちの再生環境でのスピーカ環境を知らなければならないのとともに、規格に応じた位置対比の差を補正するためのレンダリング技術が必要である。すなわち、伝送されたビット列をデコーディングすることでコーデックの役割が終わるのではなく、これをユーザの再生環境に合わせて最適化変形する過程に対する一連の技術が要求される。
図13は、5.1チャンネルセットアップに対して、ITU−R勧告案によって配置されたスピーカ(灰色)1310と、任意の位置に配置されたスピーカ(白色)1320を示す。実際の居間環境では、このようにITU−R勧告案対比、スピーカの方向角と距離がすべて異なる問題が発生することがある(図に示さないが、スピーカの高さにも差があり得る。)。このように異なるスピーカ位置で元のチャンネル信号をそのまま再生する場合、理想的な3Dサウンド場面を提供しにくい。
(フレキシブルレンダリング)
信号の大きさを基準として、2つのスピーカの間の音源の方向情報を決定するAmplitude Panningや、3次元空間上で3つのスピーカを用いて音源の方向を決定するのに広く使用されるVBAP(Vector−Based Amplitude Panning)を用いると、オブジェクト別に伝送されたオブジェクト信号に対しては相対的に便利にフレキシブルレンダリングを実現できることが分かる。チャンネルの代わりにオブジェクト信号を伝送することの利点の一つである。
(オブジェクトの復号化とレンダリング構造)
図14は、本発明によるオブジェクトのビット列に対する復号化器とこれを用いたフレキシブルレンダリングシステムが接続された2つの実施例の構造1400、1401を示す。前述のように、オブジェクトの場合、所望のサウンド場面に合わせてオブジェクトを音源に位置させることが容易である利点があり、ここでは、ミックス(Mix)部1420でミキシング行列で表現された位置情報を受信して、優先チャンネル信号に変更する。すなわち、サウンド場面に対する位置情報を、出力チャンネルに対応するスピーカからの相対的な情報として表現されるのである。この時、実際にスピーカの個数と位置が定められた位置に存在しない場合、当該位置情報(Speaker Config)を用いて再びレンダリングする過程が必要である。下記に記述するように、チャンネル信号を再び異なる形態のチャンネル信号にレンダリングすることは、オブジェクトを最終チャンネルに直接レンダリングする場合より実現しにくい。
図15は、本発明によるオブジェクトのビット列に対する復号化とレンダリングを実現した他の実施例の構造1500を示す。図14の場合と比較すると、ビット列から復号化とともに最終スピーカ環境に合わせたフレキシブルレンダリング1510を直接実現することである。すなわち、ミキシング行列に基づいて定形のチャンネルで行うミキシングと、該生成された定形チャンネルからフレキシブルスピーカにレンダリングする過程の2つのステップを経る代わりに、ミキシング行列とスピーカ位置情報1520を用いて1つのレンダリング行列あるいはレンダリングパラメータを生成し、これを用いてオブジェクト信号を対象スピーカに直ちにレンダリングするのである。
(チャンネルで付けてフレキシブルレンダリング)
一方、チャンネル信号が入力として伝送され、当該チャンネルに対応するスピーカの位置が任意の位置に変更された場合、オブジェクト信号に対するパニング手法のような方法が適用されにくく、別のチャンネルマッピングプロセスが必要である。より大きい問題は、このようにオブジェクト信号とチャンネル信号に対してレンダリングのために必要な過程と解決方法が異なるため、オブジェクト信号とチャンネル信号が同時に伝送され、2つの信号をミックスした形態のサウンド場面を演出しようとする場合は、空間の不整合による歪みが発生しやすいというのである。このような問題を解決するために、本発明の他の実施例では、オブジェクトに対するフレキシブルレンダリングを別途に行わず、チャンネル信号にミックスを先に行った後、チャンネル信号に対するフレキシブルレンダリングを行うようにする。HRTFを用いたレンダリングなども同様の方法で実現されることが好ましい。
(復号化段のダウンミックス:パラメータ伝送あるいは自動生成)
ダウンミックスレンダリングにおいて、マルチチャンネルコンテンツをそれより少ない数の出力チャンネルを介して再生する場合、今まではM−Nダウンミックスマトリクス(Mは入力チャンネル数、Nは出力チャンネル数)を用いて実現することが一般的であった。すなわち、5.1チャンネルコンテンツをステレオで再生する時、与えられた数式によってダウンミックスを行う方式で実現される。しかし、このようなダウンミックス実現方法は、まず、ユーザの再生スピーカ環境が5.1チャンネルだけであるにもかかわらず、伝送された22.2チャンネルに相当するすべてのビット列を復号化しなければならない演算量の問題が発生する。携帯機器での再生のためのステレオ信号生成のためにも、22.2チャンネル信号をすべて復号化しなければならないとすれば、その演算量の負担が非常に高いだけでなく、おびただしい量のメモリの無駄使い(22.2チャンネル復号化されたオーディオ信号の格納)が発生する。
(ダウンミックスの代案としてのトランスコーディング)
これに対する代案として、巨大な22.2チャンネルの原ビット列から効果的なトランスコーディングにより、目標機器あるいは目標の再生空間に適した数のビット列に切り替える方法を考えることができる。例えば、クラウドサーバに格納された22.2チャンネルコンテンツであれば、クライアント端末から再生環境情報を受信し、これに合わせて変換して伝送するシナリオが実現可能である。
(復号化順序あるいはダウンミックス順序;順序制御部)
一方、復号化器とレンダリングが分離されているシナリオの場合、例えば、22.2チャンネルのオーディオ信号とともに、50個のオブジェクト信号を復号化して、これをレンダラに伝達しなければならない場合が発生することがある。この時、伝送されるオーディオ信号は、復号化が完了した高データ率の信号であるので、復号化器とレンダラとの間に非常に大きい帯域幅を要求する問題がある。したがって、一度にこのように多いデータを同時に伝送することは好ましくなく、効果的な伝送計画を立てることが好ましい。そして、これに合わせて復号化器が復号化順序を決定して伝送することが好ましい。図16は、このように復号化器とレンダラとの間の伝送計画を決定して伝送する構造1600を示すブロック図である。
順序制御部1630は、ビット列に対する復号化により付加情報を取得し、メタデータとレンダラ1620から再生環境、レンダリング情報などを受信する。次に、順序制御部1630は、前記受信された情報を用いて、復号化順序、復号化された信号をレンダラ1620に伝送する伝送順序および単位などの統制情報を決定し、決定された統制情報を復号化器1610とレンダラ1620に再び伝達する。例えば、レンダラ1620で特定のオブジェクトを完全に除去するように命令した場合、このオブジェクトは、レンダラ1620への伝送が不要な上に、復号化もする必要がない。あるいは、他の例として特定のオブジェクトを特定のチャンネルにのみレンダリングする状況の場合、当該オブジェクトを別途に伝送する代わりに、伝送される当該チャンネルに予めダウンミックスして伝送すれば伝送帯域が減少するはずである。他の実施例として、サウンド場面を空間的にグルーピングして、各グループごとにレンダリングに必要な信号をともに伝送すれば、レンダラの内部のバッファで不要に待機する信号の量を最小化することができる。一方、レンダラ1620によって一度に収容可能なデータの大きさが異なり得るが、このような情報も順序制御部1630に通知して、これに合わせて復号化器1610が復号化タイミングおよび伝送量を決定することができる。
一方、順序制御部1630による復号化の統制は、符号化段に伝達され、符号化過程まで統制することができる。すなわち、符号化器で不要な信号を符号化時に除外したり、オブジェクト、チャンネルに対するグルーピングを決定することなどが可能である。
(音声高速道路)
一方、ビット列のうち、双方向通信の音声に相当するオブジェクトが含まれてよい。双方向通信は、他のコンテンツと異なり、時間遅延に非常に敏感であるため、これに相当するオブジェクトあるいはチャンネル信号が受信された場合、これを優先してレンダラに伝送しなければならない。これに相当するオブジェクトあるいはチャンネル信号は、別のフラグなどで表示することができる。まず、伝送オブジェクトは、他のオブジェクト/チャンネルと異なり、同じフレームに入っている他のオブジェクト/チャンネル信号と再生時間(presentation time)において独立した特性を有する。
(AV整合およびPhantom Center)
UHDTV、すなわち超高解像度テレビを考慮する時、発生する新たな問題の一つとして、一般にNear Fieldと呼ぶ状況がある。すなわち、一般的なユーザ環境(居間)の視聴距離を考慮する時、再生されるスピーカからの聞き手までの距離が各スピーカの間の距離より短くなることによって、各スピーカが点音源として動作する点と、広くて大きいスクリーンによって中央部にスピーカが不在する状況でビデオに同期化した音オブジェクトの空間解像度が非常に高くてはじめて、高品質の3Dオーディオサービスが可能であるという点である。
従来の30度程度の視聴角度では、左右に配置されたステレオスピーカがNear Field状況に置かれず、画面上のオブジェクトの移動(例えば、左から右へ移動する自動車)に合わせたサウンド場面を提供するに十分である。しかし、視聴角度が100度に達するUHDTV環境では、左右の解像度だけでなく、画面の上下を構成する追加の解像度が必要である。例えば、画面上の2人の登場人物がいる場合、現在のHDTVでは、2人の声がすべて真ん中から発話されるかように聞こえても、現実感において大きな問題に感じられないが、UHDTVの大きさにおいては、画面とそれに対応する声の不一致が新たな形態の歪みとして認識されるはずである。
これに対する解決方策の一つとして、22.2チャンネルスピーカconfigurationの形態が挙げられる。図2は、22.2チャンネル配置の一例である。図2によれば、前面部に計11個のスピーカを配置して、前面の左右および上下の空間解像度を大きく高めている。従来3個のスピーカが担当していた中問層に5個のスピーカを配置する。そして、上位階層3個、下位階層に3個を追加することで音の高低も十分に対応できるようにした。このような配置を利用すれば、従来に比べて前面の空間解像度が高くなるため、それだけビデオ信号との整合に有利になる。しかし、LCD、OLEDなどのディスプレイ素子を用いる現在のテレビにおいて、スピーカが存在すべき位置をディスプレイが占める問題がある。すなわち、ディスプレイ自体が音を提供したり、あるいは音を貫通する素子の性格を有しない限り、ディスプレイ領域の外部に存在するスピーカを用いて、画面内の各オブジェクト位置に整合された音を提供しなければならない問題が存在する。図2において、少なくともFLc、FC、FRcに相当するスピーカは、ディスプレイと重複した位置に配置される。
図17は、22.2チャンネルシステムにおいて、全面配置スピーカのうち、ディスプレイによって不在のスピーカをその周辺チャンネルを用いて再生する概念を説明するための概念図である。FLc、FC、FRcの不在に対応するために、点線で表示した円のように追加のスピーカをディスプレイの上下周辺部に配置する場合も考慮することができる。図17によれば、FLcを生成するのに使用可能な周辺チャンネルは7個あり得る。この7個のスピーカを用いて仮想ソースを生成する原理で不在のスピーカ位置に相当する音を再生することができる。
周辺スピーカを用いて仮想ソースを生成する方法として、VBAPやHAAS Effect(先行効果)のような技術および性質を利用することができる。あるいは、周波数帯域に応じて互いに異なるパニング手法を適用することができる。ひいては、HRTFを用いた方位角の変更および高さ調整などを考慮することができる。例えば、BtFCを用いてFCを代替する場合、上昇性質を有するHRTFを適用してFCチャンネル信号をBtFCに加える方法で実現することができる。HRTFの観察を通じて把握できる性質は、音の高さを調整するためには、高周波数帯域の特定Nullの位置(これは、人によって異なる)を制御しなければならないということである。しかし、人によって異なるNullを一般化して実現するためには、高周波数帯域を広く拡大したり縮小する方法で高さ調整を実現することができる。このような方法を用いると、代わりにフィルタの影響で信号に歪みが発生する欠点がある。
本発明による不在スピーカ位置への音源配置のための処理方法は、図18に示されている通りである。図18によれば、ファントムスピーカ位置に対応するチャンネル信号が入力信号として使用され、入力信号は、3つのバンドに分割するサブバンドフィルタ部1810を経る。スピーカアレイがない方法で実現されてもよいが、この場合、3つのバンドの代わりに、2つのバンドに区分したり、3つのバンドに分割した代わりに、上位2つのバンドに対してそれぞれ異なる処理を経る方法で実現されてもよい。1番目バンド(SL、S1)は、低周波帯域で相対的に位置に鈍い代わりに、大きさの大きいスピーカを介して再生することが好ましいため、ウーファあるいはサブウーファを介して再生できる信号である。この時、先行効果を利用するために、1番目バンドの信号は、時間遅延フィルタ部1820によって遅延されることがある。この時、時間遅延は、他のバンドでの処理過程で発生するフィルタの時間遅延を補償するためではなく、他のバンド信号対比より遅く再生されるようにするために、すなわち、先行効果を提供するための追加的な時間遅延を提供する。
2番目バンド(SM、S2〜S5)は、ファントムスピーカ周辺の(テレビのディスプレイのベゼルおよびその周辺に配置されるスピーカ)スピーカを介して再生されるのに使用される信号であって、少なくとも2つのスピーカに分割されて再生され、VBAPなどのパニングアルゴリズム1830を適用するための係数が生成されて適用される。したがって、2番目バンドの出力が再生されるスピーカの個数と位置(ファントムスピーカに対して相対的な)を正確に提供してはじめて、これを通したパニング効果が向上することができる。この時、VBAPパニングのほか、HRTFを考慮したフィルタの適用や、時間パニング効果を提供するために、互いに異なる位相フィルタあるいは時間遅延フィルタを適用することも可能である。このようにバンドを分けてHRTFを適用する時に得られるさらに他の利点は、HRTFによって発生する信号歪みの範囲を処理する帯域内に制限することができる点である。
3番目バンド(SH、S6〜S_N)は、スピーカアレイが存在する場合、これを用いて再生される信号を生成するためであり、スピーカアレイ制御部1840で少なくとも3つのスピーカを介した音源仮想化のためのアレイ信号処理技術を適用することができる。あるいは、WFS(Wave Field Synthesis)により生成される係数を適用することができる。この時、3番目バンドと2番目バンドは実際に同じバンドであってもよい。
図19は、各バンドで生成された信号をテレビ周辺に配置されたスピーカとマッピングさせる一実施例を示す。図19によれば、2番目バンド(S2〜S5)および3番目バンド(S6〜S_N)に対応するスピーカの個数および位置情報は相対的に正確に定義された位置になければならず、その位置情報は、図18の処理システムに提供されることが好ましい。
図20は、本発明の一実施例によるオーディオ信号処理装置が実現された製品の関係を示す図である。まず、図20を参照すれば、有無線通信部310は、有無線通信方式によりビットストリームを受信する。具体的には、有無線通信部310は、有線通信部310A、赤外線通信部310B、ブルートゥース部310C、無線RAN通信部310Dのうちの1つ以上を含むことができる。
ユーザ認証部320は、ユーザ情報を受信してユーザ認証を行うものであって、指紋認識部320A、虹彩認識部320B、顔認識部320C、および音声認識部320Dのうちの1つ以上を含むことができるが、それぞれ指紋、虹彩情報、顔輪郭情報、音声情報を受信して、ユーザ情報に変換し、ユーザ情報および既に登録されているユーザデータと一致するか否かを判断して、ユーザ認証を行うことができる。
入力部330は、ユーザが様々な種類の命令を入力するための入力装置であって、キーパッド部330A、タッチパッド部330B、リモコン部330Cのうちの1つ以上を含むことができるが、本発明はこれに限定されない。
信号コーディングユニット340は、有無線通信部310を介して受信されたオーディオ信号および/またはビデオ信号に対してエンコーディングまたはデコーディングを行い、時間ドメインのオーディオ信号を出力する。前記信号コーディングユニット340は、オーディオ信号処理装置345を含むことができる。この時、オーディオ信号処理装置345は、先に説明した本発明の実施例(すなわち、一実施例によるデコーダ600、および他の実施例によるエンコーダおよびデコーダ1400)に相当するものであって、このようにオーディオ処理装置345およびこれを含む信号コーディングユニット340は、1つ以上のプロセッサによって実現できる。
制御部350は、入力装置から入力信号を受信し、信号コーディングユニット340および出力部360のすべてのプロセスを制御する。出力部360は、信号デコーディングユニット340によって生成された出力信号などが出力される構成要素であって、スピーカ部360Aと、ディスプレイ部360Bとを含むことができる。出力信号がオーディオ信号の時、出力信号はスピーカに出力され、ビデオ信号の時、出力信号はディスプレイを介して出力される。
本発明によるオーディオ信号処理方法は、コンピュータで実行されるためのプログラムに作成され、コンピュータ読み取り可能な記録媒体に格納されてよいし、本発明によるデータ構造を有するマルチメディアデータもコンピュータ読み取り可能な記録媒体に格納されてよい。前記コンピュータ読み取り可能な記録媒体は、コンピュータシステムによって読み込まれるデータが格納されるすべての種類の格納装置を含む。コンピュータ読み取り可能な記録媒体の例には、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置などがあり、また、キャリアウエーブ(例えば、インターネットを介した伝送)の形態で実現されるものも含む。さらに、前記エンコーディング方法によって生成されたビットストリームは、コンピュータ読み取り可能な記録媒体に格納されたり、有/無線通信網を用いて伝送可能である。
以上、本発明は、限定された実施例と図面によって説明されたが、本発明はこれによって限定されず、本発明の属する技術分野における通常の知識を有する者によって本発明の技術思想と以下に記載される特許請求の範囲の均等範囲内で多様な修正および変形が可能であることは当然である。
上述のように、発明を実施するための形態において、関連事項を記述した。
本発明は、オーディオ信号をエンコーディングおよびデコーディングしたり、オーディオ信号に多様な処理をする過程に適用可能である。

Claims (6)

  1. 第1ダウンミックス信号と第2ダウンミックス信号を含む複数のダウンミックス信号を受信するステップと、
    第1ダウンミックス信号に対応する、第1オブジェクト信号グループに対する第1オブジェクト抽出情報を受信するステップと、
    第2ダウンミックス信号に対応する、第2オブジェクト信号グループに対する第2オブジェクト抽出情報を受信するステップと、
    第1ダウンミックス信号と第1オブジェクト抽出情報を用いて、第1オブジェクト信号グループに属するオブジェクト信号を生成するステップと、
    第2ダウンミックス信号と第2オブジェクト抽出情報を用いて、第2オブジェクト信号グループに属するオブジェクト信号を生成するステップとを含むことを特徴とする、オーディオ信号処理方法。
  2. 前記第1オブジェクト信号グループに属するオブジェクト信号のうちの少なくとも1つのオブジェクト信号と、前記第2オブジェクト信号グループに属する少なくとも1つのオブジェクト信号を用いて、出力オーディオ信号を生成するステップをさらに含むことを特徴とする、請求項1に記載のオーディオ信号処理方法。
  3. 前記第1オブジェクト抽出情報と第2オブジェクト抽出情報は、1つのビット列から受信することを特徴とする、請求項1に記載のオーディオ信号処理方法。
  4. 第1オブジェクト抽出情報から第1オブジェクト信号グループに属した少なくとも1つのオブジェクト信号に対するダウンミックスゲイン情報が得られ、前記ダウンミックスゲイン情報を用いて前記少なくとも1つのオブジェクト信号を生成することを特徴とする、請求項1に記載のオーディオ信号処理方法。
  5. グローバルゲイン情報を受信するステップをさらに含み、前記グローバルゲイン情報は、前記第1オブジェクト信号グループと前記第2オブジェクト信号グループにすべて適用されるゲイン値であることを特徴とする、請求項1に記載のオーディオ信号処理方法。
  6. 前記第1オブジェクト信号グループに属するオブジェクト信号のうちの少なくとも1つのオブジェクト信号と、前記第2オブジェクト信号グループに属する少なくとも1つのオブジェクト信号は、同じ時間帯に再生されることを特徴とする、請求項1に記載のオーディオ信号処理方法。
JP2015523022A 2012-07-31 2013-07-26 オーディオ信号処理方法および装置 Active JP6045696B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
KR1020120084230A KR101950455B1 (ko) 2012-07-31 2012-07-31 오디오 신호 처리 방법 및 장치
KR10-2012-0084231 2012-07-31
KR10-2012-0083944 2012-07-31
KR1020120084229A KR101949756B1 (ko) 2012-07-31 2012-07-31 오디오 신호 처리 방법 및 장치
KR10-2012-0084229 2012-07-31
KR10-2012-0084230 2012-07-31
KR1020120084231A KR102059846B1 (ko) 2012-07-31 2012-07-31 오디오 신호 처리 방법 및 장치
KR1020120083944A KR101949755B1 (ko) 2012-07-31 2012-07-31 오디오 신호 처리 방법 및 장치
PCT/KR2013/006732 WO2014021588A1 (ko) 2012-07-31 2013-07-26 오디오 신호 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2015531078A true JP2015531078A (ja) 2015-10-29
JP6045696B2 JP6045696B2 (ja) 2016-12-14

Family

ID=50028215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015523022A Active JP6045696B2 (ja) 2012-07-31 2013-07-26 オーディオ信号処理方法および装置

Country Status (5)

Country Link
US (2) US9564138B2 (ja)
EP (1) EP2863657B1 (ja)
JP (1) JP6045696B2 (ja)
CN (1) CN104541524B (ja)
WO (1) WO2014021588A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015527611A (ja) * 2012-08-03 2015-09-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチチャネル・ダウンミックス/アップミックス構成のためのパラメトリックコンセプトを採用したマルチインスタンス方式の空間音響オブジェクト符号化用のデコーダおよびその方法
JP2016072891A (ja) * 2014-09-30 2016-05-09 シャープ株式会社 音声出力制御装置および音声出力制御方法
JP2018125883A (ja) * 2018-04-04 2018-08-09 シャープ株式会社 音響信号処理装置
WO2020008890A1 (ja) * 2018-07-04 2020-01-09 ソニー株式会社 情報処理装置および方法、並びにプログラム
JPWO2018180531A1 (ja) * 2017-03-28 2020-02-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2020045126A1 (ja) * 2018-08-30 2020-03-05 ソニー株式会社 情報処理装置および方法、並びにプログラム
WO2020171049A1 (ja) * 2019-02-19 2020-08-27 公立大学法人秋田県立大学 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
JP2021507314A (ja) * 2018-01-18 2021-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション 音場表現信号を符号化する方法及びデバイス
JP2023008889A (ja) * 2021-06-28 2023-01-19 ネイバー コーポレーション ユーザカスタム型の臨場感を実現するためのオーディオコンテンツを処理するコンピュータシステムおよびその方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431312B2 (en) 2004-08-10 2022-08-30 Bongiovi Acoustics Llc System and method for digital signal processing
US10848118B2 (en) 2004-08-10 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10158337B2 (en) 2004-08-10 2018-12-18 Bongiovi Acoustics Llc System and method for digital signal processing
US10701505B2 (en) 2006-02-07 2020-06-30 Bongiovi Acoustics Llc. System, method, and apparatus for generating and digitally processing a head related audio transfer function
US11202161B2 (en) 2006-02-07 2021-12-14 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
US10848867B2 (en) 2006-02-07 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US9883318B2 (en) 2013-06-12 2018-01-30 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
EP3657823A1 (en) 2013-11-28 2020-05-27 Dolby Laboratories Licensing Corporation Position-based gain adjustment of object-based audio and ring-based channel audio
CN104915184B (zh) * 2014-03-11 2019-05-28 腾讯科技(深圳)有限公司 调节音效的方法和装置
KR102443054B1 (ko) * 2014-03-24 2022-09-14 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP6243770B2 (ja) * 2014-03-25 2017-12-06 日本放送協会 チャンネル数変換装置
JP6313641B2 (ja) * 2014-03-25 2018-04-18 日本放送協会 チャンネル数変換装置
WO2015147619A1 (ko) 2014-03-28 2015-10-01 삼성전자 주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
EP3131313A4 (en) * 2014-04-11 2017-12-13 Samsung Electronics Co., Ltd. Method and apparatus for rendering sound signal, and computer-readable recording medium
US10820883B2 (en) 2014-04-16 2020-11-03 Bongiovi Acoustics Llc Noise reduction assembly for auscultation of a body
CN112802496A (zh) 2014-12-11 2021-05-14 杜比实验室特许公司 元数据保留的音频对象聚类
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
CN107787584B (zh) 2015-06-17 2020-07-24 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和装置
US10325610B2 (en) * 2016-03-30 2019-06-18 Microsoft Technology Licensing, Llc Adaptive audio rendering
WO2018017394A1 (en) * 2016-07-20 2018-01-25 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference
US10779106B2 (en) * 2016-07-20 2020-09-15 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference
CN110447243B (zh) * 2017-03-06 2021-06-01 杜比国际公司 基于音频数据流渲染音频输出的方法、解码器系统和介质
WO2019004524A1 (ko) * 2017-06-27 2019-01-03 엘지전자 주식회사 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치
CN114708874A (zh) 2018-05-31 2022-07-05 华为技术有限公司 立体声信号的编码方法和装置
US10959035B2 (en) 2018-08-02 2021-03-23 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices
US11659332B2 (en) 2019-07-30 2023-05-23 Dolby Laboratories Licensing Corporation Estimating user location in a system including smart audio devices
GB2586461A (en) * 2019-08-16 2021-02-24 Nokia Technologies Oy Quantization of spatial audio direction parameters
GB2586586A (en) * 2019-08-16 2021-03-03 Nokia Technologies Oy Quantization of spatial audio direction parameters
CN114424586A (zh) * 2019-09-17 2022-04-29 诺基亚技术有限公司 空间音频参数编码和相关联的解码
CN110841278A (zh) * 2019-11-14 2020-02-28 珠海金山网络游戏科技有限公司 一种云游戏实现方法及装置
US11832079B2 (en) * 2021-03-30 2023-11-28 Harman Becker Automotive Systems Gmbh System and method for providing stereo image enhancement of a multi-channel loudspeaker setup
CN114666763B (zh) * 2022-05-24 2022-08-26 东莞市云仕电子有限公司 车载无线耳机系统、控制方法及车载无线系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010507114A (ja) * 2006-10-16 2010-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
JP2010511912A (ja) * 2006-12-07 2010-04-15 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
JP2010529500A (ja) * 2007-06-08 2010-08-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
WO2010109918A1 (ja) * 2009-03-26 2010-09-30 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
JP2011501823A (ja) * 2007-10-17 2011-01-13 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ アップミックスを使用した音声符号器
US20120183148A1 (en) * 2011-01-14 2012-07-19 Korea Electronics Technology Institute System for multichannel multitrack audio and audio processing method thereof

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1946294A2 (en) 2005-06-30 2008-07-23 LG Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US20070253557A1 (en) * 2006-05-01 2007-11-01 Xudong Song Methods And Apparatuses For Processing Audio Streams For Use With Multiple Devices
EP2071564A4 (en) * 2006-09-29 2009-09-02 Lg Electronics Inc METHOD AND DEVICES FOR CODING AND DECODING OBJECT-BASED AUDIO SIGNALS
MY145497A (en) 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
EP2095365A4 (en) * 2006-11-24 2009-11-18 Lg Electronics Inc METHOD FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS AND APPARATUS THEREOF
EP2115739A4 (en) * 2007-02-14 2010-01-20 Lg Electronics Inc METHODS AND APPARATUSES FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS
US8639498B2 (en) * 2007-03-30 2014-01-28 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
JP5310506B2 (ja) * 2009-03-26 2013-10-09 ヤマハ株式会社 オーディオミキサ
KR101842411B1 (ko) * 2009-08-14 2018-03-26 디티에스 엘엘씨 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
KR101756838B1 (ko) * 2010-10-13 2017-07-11 삼성전자주식회사 다채널 오디오 신호를 다운 믹스하는 방법 및 장치
TW202339510A (zh) * 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010507114A (ja) * 2006-10-16 2010-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
JP2010511912A (ja) * 2006-12-07 2010-04-15 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
JP2010529500A (ja) * 2007-06-08 2010-08-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
JP2011501823A (ja) * 2007-10-17 2011-01-13 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ アップミックスを使用した音声符号器
WO2010109918A1 (ja) * 2009-03-26 2010-09-30 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
US20120183148A1 (en) * 2011-01-14 2012-07-19 Korea Electronics Technology Institute System for multichannel multitrack audio and audio processing method thereof

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176812B2 (en) 2012-08-03 2019-01-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
JP2015527611A (ja) * 2012-08-03 2015-09-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチチャネル・ダウンミックス/アップミックス構成のためのパラメトリックコンセプトを採用したマルチインスタンス方式の空間音響オブジェクト符号化用のデコーダおよびその方法
JP2016072891A (ja) * 2014-09-30 2016-05-09 シャープ株式会社 音声出力制御装置および音声出力制御方法
JP7230799B2 (ja) 2017-03-28 2023-03-01 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2018180531A1 (ja) * 2017-03-28 2020-02-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2021507314A (ja) * 2018-01-18 2021-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション 音場表現信号を符号化する方法及びデバイス
US11322164B2 (en) 2018-01-18 2022-05-03 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
JP2018125883A (ja) * 2018-04-04 2018-08-09 シャープ株式会社 音響信号処理装置
JPWO2020008890A1 (ja) * 2018-07-04 2021-08-02 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
CN112352278A (zh) * 2018-07-04 2021-02-09 索尼公司 信息处理装置和方法以及程序
WO2020008890A1 (ja) * 2018-07-04 2020-01-09 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP7276337B2 (ja) 2018-07-04 2023-05-18 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
US11790925B2 (en) 2018-07-04 2023-10-17 Sony Corporation Information processing device and method, and program
JPWO2020045126A1 (ja) * 2018-08-30 2021-08-10 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
WO2020045126A1 (ja) * 2018-08-30 2020-03-05 ソニー株式会社 情報処理装置および方法、並びにプログラム
US11368806B2 (en) 2018-08-30 2022-06-21 Sony Corporation Information processing apparatus and method, and program
US11849301B2 (en) 2018-08-30 2023-12-19 Sony Group Corporation Information processing apparatus and method, and program
WO2020171049A1 (ja) * 2019-02-19 2020-08-27 公立大学法人秋田県立大学 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
JPWO2020171049A1 (ja) * 2019-02-19 2021-11-25 公立大学法人秋田県立大学 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
JP7232546B2 (ja) 2019-02-19 2023-03-03 公立大学法人秋田県立大学 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
JP2023008889A (ja) * 2021-06-28 2023-01-19 ネイバー コーポレーション ユーザカスタム型の臨場感を実現するためのオーディオコンテンツを処理するコンピュータシステムおよびその方法

Also Published As

Publication number Publication date
EP2863657B1 (en) 2019-09-18
US9564138B2 (en) 2017-02-07
EP2863657A1 (en) 2015-04-22
CN104541524A (zh) 2015-04-22
US9646620B1 (en) 2017-05-09
WO2014021588A1 (ko) 2014-02-06
US20150194158A1 (en) 2015-07-09
US20170125023A1 (en) 2017-05-04
CN104541524B (zh) 2017-03-08
EP2863657A4 (en) 2016-03-16
JP6045696B2 (ja) 2016-12-14

Similar Documents

Publication Publication Date Title
JP6045696B2 (ja) オーディオ信号処理方法および装置
TWI744341B (zh) 使用近場/遠場渲染之距離聲相偏移
US11488610B2 (en) Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
TWI700687B (zh) 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式
CA2645912C (en) Methods and apparatuses for encoding and decoding object-based audio signals
KR20140128564A (ko) 음상 정위를 위한 오디오 시스템 및 방법
EP3487189A1 (en) Apparatus and method for screen related audio object remapping
US20200013426A1 (en) Synchronizing enhanced audio transports with backward compatible audio transports
CN105075293A (zh) 音频设备及其音频提供方法
JP2015509212A (ja) 空間オーディオ・レンダリング及び符号化
KR102148217B1 (ko) 위치기반 오디오 신호처리 방법
JP2021513108A (ja) ハイブリッドエンコーダ/デコーダ空間解析を使用する音響シーンエンコーダ、音響シーンデコーダおよびその方法
KR20220084113A (ko) 오디오 인코딩을 위한 장치 및 방법
US11081116B2 (en) Embedding enhanced audio transports in backward compatible audio bitstreams
JP2015529046A (ja) オーディオ信号処理方法および装置
KR102059846B1 (ko) 오디오 신호 처리 방법 및 장치
KR101949756B1 (ko) 오디오 신호 처리 방법 및 장치
GB2580899A (en) Audio representation and associated rendering
US11062713B2 (en) Spatially formatted enhanced audio data for backward compatible audio bitstreams
KR101949755B1 (ko) 오디오 신호 처리 방법 및 장치
KR101950455B1 (ko) 오디오 신호 처리 방법 및 장치
JP6652990B2 (ja) サラウンドオーディオ信号処理のための装置及び方法
KR20140128565A (ko) 오디오 신호 처리 방법 및 장치
KR20150111114A (ko) 오디오 신호 처리 방법
KR20150111117A (ko) 오디오 신호 처리 장치 및 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161115

R150 Certificate of patent or registration of utility model

Ref document number: 6045696

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250