JP2015531078A

JP2015531078A - オーディオ信号処理方法および装置

Info

Publication number: JP2015531078A
Application number: JP2015523022A
Authority: JP
Inventors: オ・ヒョンオ; ソン・チョンオク; ソン・ミョンソク; チョン・セウォン; イ・テギュ
Original assignee: Intellectual Discovery Co Ltd
Current assignee: Intellectual Discovery Co Ltd
Priority date: 2012-07-31
Filing date: 2013-07-26
Publication date: 2015-10-29
Anticipated expiration: 2033-07-26
Also published as: EP2863657B1; US9564138B2; EP2863657A1; CN104541524A; US9646620B1; WO2014021588A1; US20150194158A1; US20170125023A1; CN104541524B; EP2863657A4; JP6045696B2

Abstract

本発明は、オブジェクトオーディオ信号処理方法および装置に関するものであって、複数のオブジェクト信号を定められた方法によって分類した第１オブジェクト信号グループと第２オブジェクト信号グループを生成するステップと、第１オブジェクト信号グループに対して第１ダウンミックス信号を生成するステップと、第２オブジェクト信号グループに対して第２ダウンミックス信号を生成するステップと、第１オブジェクト信号グループに含まれたオブジェクト信号に対して、第１ダウンミックス信号に対応して第１オブジェクト抽出情報を生成するステップと、第２オブジェクト信号グループに含まれたオブジェクト信号に対して、第２ダウンミックス信号に対応して第２オブジェクト抽出情報を生成するステップとを含むオーディオ信号処理方法が提供できる。

Description

本発明は、オブジェクトオーディオ信号処理方法および装置に関するものであって、より詳細には、オブジェクトオーディオ信号の符号化および復号化を行ったり、３次元空間にレンダリングするための方法および装置に関するものである。

３Ｄオーディオとは、既存のサラウンドオーディオで提供する水平面上のサウンド場面（２Ｄ）に、高さ方向にさらに他の軸（ｄｉｍｅｎｓｉｏｎ）を提供することにより、言葉通り３次元空間での臨場感のあるサウンドを提供するための一連の信号処理、伝送、符号化、再生技術などを通称する。特に、３Ｄオーディオを提供するためには、従来より多い数のスピーカを用いたり、あるいは少ない数のスピーカを用いても、スピーカが存在しない仮想の位置で音像が結ばれるようにするレンダリング技術が広く要求される。

３Ｄオーディオは、今後発売される超高解像度テレビ（ＵＨＤＴＶ）に対応するオーディオソリューションになることが予想され、高品質のインフォテインメント空間に進化している車両でのサウンドを含めて、その他、劇場サウンド、個人用３Ｄテレビ、タブレット、スマートフォン、クラウドゲームなど多様に応用されることが予想される。

３Ｄオーディオは、まず、最大２２．２チャンネルまで、従来より多いチャンネルの信号を伝送することが必要であるが、このためには、これに適した圧縮伝送技術が要求される。従来のＭＰ３、ＡＡＣ、ＤＴＳ、ＡＣ３などの高音質符号化の場合、主に５．１チャンネル未満のチャンネルのみを伝送するのに最適化されていた。

また、２２．２チャンネル信号を再生するためには、２４個のスピーカシステムを設置した聴取空間に対するインフラが必要であるが、市場へ短期間の拡散が容易でないので、２２．２チャンネル信号を、それより小さい数のスピーカを有する空間で効果的に再生するための技術、逆に、既存のステレオ、あるいは５．１チャンネルの音源を、それより多い数のスピーカである１０．１チャンネル、２２．２チャンネル環境で再生できるようにする技術、ひいては、規定されたスピーカ位置と規定された聴取室環境でない所でも元の音源が提供するサウンド場面を提供できるようにする技術、そして、ヘッドホン聴取環境においても３Ｄサウンドを楽しめるようにする技術などが要求される。これらの技術を、本願では、通称、レンダリング（ｒｅｎｄｅｒｉｎｇ）といい、詳細には、それぞれダウンミックス、アップミックス、柔軟なレンダリング（ｆｌｅｘｉｂｌｅｒｅｎｄｅｒｉｎｇ）、バイノーラルレンダリング（ｂｉｎａｕｒａｌｒｅｎｄｅｒｉｎｇ）などと呼ぶ。

一方、このようなサウンド場面を効果的に伝送するための代案として、オブジェクトベースの信号伝送方策が必要である。音源によって、チャンネルベースで伝送するより、オブジェクトベースで伝送することがより有利な場合があるだけでなく、オブジェクトベースで伝送する場合、ユーザが任意にオブジェクトの再生の大きさと位置を制御することができるなど、インタラクティブな音源の聴取を可能にする。これによって、オブジェクト信号を高伝送率で圧縮することのできる効果的な伝送方法が必要である。

また、前記チャンネルベースの信号とオブジェクトベースの信号とが混合された形態の音源も存在することができ、これによって新たな形態の聴取経験を提供することもできる。したがって、チャンネル信号とオブジェクト信号をともに効果的に伝送し、これを効果的にレンダリングするための技術も必要である。

本発明の一態様によれば、複数のオブジェクト信号を定められた方法によって分類した第１オブジェクト信号グループと第２オブジェクト信号グループを生成するステップと、第１オブジェクト信号グループに対して第１ダウンミックス信号を生成するステップと、第２オブジェクト信号グループに対して第２ダウンミックス信号を生成するステップと、第１オブジェクト信号グループに含まれたオブジェクト信号に対して、第１ダウンミックス信号に対応して第１オブジェクト抽出情報を生成するステップと、第２オブジェクト信号グループに含まれたオブジェクト信号に対して、第２ダウンミックス信号に対応して第２オブジェクト抽出情報を生成するステップとを含むオーディオ信号処理方法が提供できる。

本発明の他の態様によれば、第１ダウンミックス信号と第２ダウンミックス信号を含む複数のダウンミックス信号を受信するステップと、第１ダウンミックス信号に対応する、第１オブジェクト信号グループに対する第１オブジェクト抽出情報を受信するステップと、第２ダウンミックス信号に対応する、第２オブジェクト信号グループに対する第２オブジェクト抽出情報を受信するステップと、第１ダウンミックス信号と第１オブジェクト抽出情報を用いて、第１オブジェクト信号グループに属するオブジェクト信号を生成するステップと、第２ダウンミックス信号と第２オブジェクト抽出情報を用いて、第２オブジェクト信号グループに属するオブジェクト信号を生成するステップとを含むオーディオ信号処理方法が提供できる。

本発明によれば、オーディオ信号を効果的に表現し、符号化し、伝送および格納することができ、多様な再生環境および機器を介して高品質のオーディオ信号を再生することができる。

本発明の効果が前記効果に制限されるわけではなく、言及されていない効果は、本明細書および添付した図面から本発明の属する技術分野における通常の知識を有する者に明確に理解できる。

同じ視聴距離で映像の大きさに応じた視聴角度を説明するための図である。マルチチャンネルの一例として２２．２ｃｈのスピーカ配置構成図である。聞き手が３Ｄオーディオを聴取する聴取空間上での各サウンドオブジェクトの位置を示す概念図である。図３に示されたオブジェクトに対して、本発明によるグルーピング方法を用いてオブジェクト信号グループを形成した例示的構成図である。本発明によるオブジェクトオーディオ信号符号化器の一実施例に対する構成図である。本発明の一実施例による復号化装置の例示的な構成図である。本発明による符号化方法によって符号化して生成したビット列の一実施例である。本発明によるオブジェクトおよびチャンネル信号復号化システムをブロック図に示す一実施例である。本発明による他の形態のオブジェクトおよびチャンネル信号復号化システムのブロック図である。本発明による復号化システムの一実施例である。本発明による複数のオブジェクト信号に対するマスキング閾値を説明するための図である。本発明による複数のオブジェクト信号に対するマスキング閾値を算出する符号化器の一実施例である。５．１チャンネルセットアップに対してＩＴＵ−Ｒ勧告案による配置と、任意の位置に配置された場合を説明するための図である。本発明によるオブジェクトのビット列に対する復号化器とこれを用いたフレキシブルレンダリングシステムが接続された一実施例の構造である。本発明によるオブジェクトのビット列に対する復号化とレンダリングを実現した他の実施例の構造である。復号化器とレンダラとの間の伝送計画を決定して伝送する構造を示す図である。２２．２チャンネルシステムにおいて、全面配置スピーカのうち、ディスプレイによって不在のスピーカをその周辺チャンネルを用いて再生する概念を説明するための概念図である。本発明による不在スピーカ位置への音源配置のための処理方法の一実施例である。各バンドで生成された信号をテレビの周辺に配置されたスピーカとマッピングさせる一実施例である。本発明の一実施例によるオーディオ信号処理装置が実現された製品の関係を示す図である。

ここで、前記オーディオ信号処理方法は、前記第１オブジェクト信号グループと第２オブジェクト信号グループは、混合されて１つのサウンド場面をなす信号をさらに含むことができる。

また、前記オーディオ信号処理方法は、前記第１オブジェクト信号グループと第２オブジェクト信号グループは、同じ時間に再生される信号で構成できる。

本発明において、第１オブジェクト信号グループと第２オブジェクト信号グループは、１つのオブジェクト信号のビット列に符号化できる。

ここで、前記第１ダウンミックス信号を生成するステップは、前記第１オブジェクト信号グループに含まれたオブジェクト信号に対して各オブジェクト別ダウンミックスゲイン情報を適用して得られ、前記オブジェクト別ダウンミックスゲイン情報は、前記第１オブジェクト抽出情報に含まれる。

ここで、前記オーディオ信号処理方法は、前記第１オブジェクト抽出情報と前記第２オブジェクト抽出情報を符号化するステップをさらに含むことができる。

本発明において、前記オーディオ信号処理方法は、前記第１オブジェクト信号グループと第２オブジェクト信号グループを含む前記オブジェクト信号全体に対するグローバルゲイン情報を生成するステップをさらに含み、前記グローバルゲイン情報は、前記オブジェクト信号のビット列に符号化できる。

ここで、前記オーディオ信号処理方法は、前記第１オブジェクト信号グループに属するオブジェクト信号のうちの少なくとも１つのオブジェクト信号と、前記第２オブジェクト信号グループに属する少なくとも１つのオブジェクト信号を用いて出力オーディオ信号を生成するステップをさらに含むことができる。

ここで、前記第１オブジェクト抽出情報と第２オブジェクト抽出情報は、１つのビット列から受信することができる。

また、前記オーディオ信号処理方法は、第１オブジェクト抽出情報から第１オブジェクト信号グループに属した少なくとも１つのオブジェクト信号に対するダウンミックスゲイン情報が得られ、前記ダウンミックスゲイン情報を用いて前記少なくとも１つのオブジェクト信号を生成することができる。

さらに、前記オーディオ信号処理方法は、グローバルゲイン情報を受信するステップをさらに含み、前記グローバルゲイン情報は、前記第１オブジェクト信号グループと前記第２オブジェクト信号グループにすべて適用されるゲイン値であってよい。

また、前記第１オブジェクト信号グループに属するオブジェクト信号のうちの少なくとも１つのオブジェクト信号と、前記第２オブジェクト信号グループに属する少なくとも１つのオブジェクト信号は、同じ時間帯に再生できる。

本明細書に記載された実施例は、本発明の属する技術分野における通常の知識を有する者に本発明の思想を明確に説明するためのものであるので、本発明が本明細書に記載された実施例によって限定されるものではなく、本発明の範囲は、本発明の思想を逸脱しない修正例または変形例を含むと解釈されなければならない。

本明細書で使用される用語と添付した図面は、本発明を容易に説明するためのものであり、図面に示された形状は、必要に応じて本発明の理解のために誇張されて表示されたものであるので、本発明が本明細書で使用される用語と添付した図面によって限定されるものではない。

本明細書において、本発明にかかる公知の構成または機能に対する具体的な説明が本発明の要旨をあいまいにし得ると判断された場合に、これに関する詳細な説明は必要に応じて省略する。

本発明において、次の用語は次のような基準により解釈され得、記載されていない用語でも下記の趣旨によって解釈され得る。コーディングは、場合によって、エンコーディングまたはデコーディングと解釈され得、情報（ｉｎｆｏｒｍａｔｉｏｎ）は、値（ｖａｌｕｅｓ）、パラメータ（ｐａｒａｍｅｔｅｒ）、係数（ｃｏｅｆｆｉｃｉｅｎｔｓ）、成分（ｅｌｅｍｅｎｔｓ）などをすべて網羅する用語であって、場合によって、意味は異なって解釈できるが、本発明はこれに限定されない。

以下、本発明の実施例によるオブジェクトオーディオ信号の処理方法および装置に関して説明する。

図１は、同じ視聴距離上で映像の大きさ（例：ＵＨＤＴＶおよびＨＤＴＶ）に応じた視聴角度を説明するための図である。ディスプレイの作製技術が発展し、消費者の要求に応じて映像の大きさが大型化する傾向にある。図１に示されているように、ＨＤＴＶ（１９２０＊１０８０ピクセルの映像）の場合に比べて、ＵＨＤＴＶ（７６８０＊４３２０ピクセルの映像）は、約１６倍大きくなった映像である。ＨＤＴＶが居間の壁面に設置され、視聴者が一定の視聴距離をおいて居間のソファーに座った場合、視聴角度が約３０度となり得る。しかし、同じ視聴距離でＵＨＤＴＶが設置された場合、視聴角度は約１００度に達する。このように高画質高解像度の大型スクリーンが設置された場合、この大型コンテンツにふさわしいような高い実在感と臨場感を有するサウンドが提供されることが好ましい。視聴者がまるで現場にいるのとほぼ同じ環境を提供するためには、１−２個のサラウンドチャンネルスピーカが存在するだけでは足りないことがある。したがって、より多いスピーカおよびチャンネル数を有するマルチチャンネルオーディオ環境が要求されることがある。

前記説明のように、ホームシアター環境のほか、個人３Ｄテレビ（ｐｅｒｓｏｎａｌ３ＤＴＶ）、スマートフォンテレビ、２２．２チャンネルのオーディオプログラム、自動車、３Ｄｖｉｄｅｏ、テレプレゼンスルーム（ｔｅｌｅｐｒｅｓｅｎｃｅｒｏｏｍ）、クラウドベースのゲーム（ｃｌｏｕｄ−ｂａｓｅｄｇａｍｉｎｇ）などがあり得る。

図２は、マルチチャンネルの一例として２２．２ｃｈのスピーカ配置を示す図である。２２．２ｃｈは音場感を高めるためのマルチチャンネル環境の一例であってよいし、本発明は、特定のチャンネル数または特定のスピーカ配置に限定されない。図２を参照すれば、最も高いレイヤ（ｔｏｐｌａｙｅｒ）１０１０に計９個のチャンネルが提供できる。前面に３個、中間位置に３個、サラウンド位置に３個の計９個のスピーカが配置されていることが分かる。中間レイヤ（ｍｉｄｄｌｅｌａｙｅｒ）１０２０には、前面に５個、中間位置に２個、サラウンド位置に計３個のスピーカが配置できる。前面の５個のスピーカのうち、中央位置の３個は、テレビスクリーン内に含まれてよい。底（ｂｏｔｔｏｍｌａｙｅｒ）１０３０には、前面に計３個のチャンネルおよび２個のＬＦＥチャンネル１０４０が設けられてよい。

このように、最大数十個のチャンネルに達するマルチチャンネル信号を伝送し再生するにあたり、高い演算量が必要であり得る。また、通信環境などを考慮する時、高い圧縮率が要求されることがある。それだけでなく、一般家庭では、マルチチャンネル（例：２２．２ｃｈ）のスピーカ環境を備える場合は多くなく、２ｃｈまたは５．１ｃｈのセットアップを有する聴取者が多いため、すべてのユーザに共通に伝送する信号がマルチチャンネルをそれぞれエンコーディングして送る場合には、そのマルチチャンネルを２ｃｈおよび５．１ｃｈに再変換して再生しなければならない場合、通信的な非効率が発生するだけでなく、２２．２ｃｈのＰＣＭ信号を格納しなければならないため、メモリ管理における非効率が発生することがある。

図３は、聞き手１１０が３Ｄオーディオを聴取する聴取空間上１３０で３次元のサウンド場面を構成する各サウンドオブジェクト１２０の位置を示す概念図である。図３を参照すれば、図式化の便宜上、各オブジェクト１２０が点ソース（ｐｏｉｎｔｓｏｕｒｃｅ）であると示したが、点ソースのほか、平面波（ｐｌａｉｎｗａｖｅ）形態の音源や、アンビエント（ａｍｂｉｅｎｔ）音源（サウンド場面の空間を認識できる全方位に行き渡っている余音）などもあり得る。

図４は、図３の図式化されたオブジェクトに対して、本発明によるグルーピング方法を用いてオブジェクト信号グループ４１０、４２０を形成したことを示す。本発明によれば、オブジェクト信号に対する符号化あるいは処理をする上で、オブジェクト信号グループを形成して、グルーピングされたオブジェクトを単位で符号化したり処理することが特徴である。この時、符号化の場合、オブジェクトを個別信号として独立符号化（ｄｉｓｃｒｅｔｅｃｏｄｉｎｇ）する場合や、オブジェクト信号に対するパラメトリック符号化をする場合を含む。特に、本発明によれば、オブジェクト信号に対するパラメータ符号化のためのダウンミックス信号の生成と、ダウンミックスに対応するオブジェクトのパラメータ情報を生成するにあたり、グルーピングされたオブジェクトを単位として生成することが特徴である。すなわち、従来の例として、ＳＡＯＣ符号化技術の場合、サウンド場面を構成するすべてのオブジェクトを１つのダウンミックス信号（この時、ダウンミックス信号は、モノ（１チャンネル）、あるいはステレオ（２チャンネル）であってよいが、便宜上、１つのダウンミックス信号と表現する）とそれに対応するオブジェクトパラメータ情報と表現したが、このような方法を、本発明で考慮するシナリオのように、２０個のオブジェクト以上、多くて２００個、５００個を、１つのダウンミックスとそれに対応するパラメータで表現する場合、所望の水準の音質を提供するアップミックスおよびレンダリングが事実上不可能である。これによって、本発明では、符号化対象になるオブジェクトをグループ化し、グループ単位でダウンミックスを生成する方法を利用する。グループ単位でダウンミックスされる過程で、各オブジェクトがダウンミックスされる時、ダウンミックスゲインが適用可能であり、適用されたオブジェクト別ダウンミックスゲインは、付加情報として各グループに対するビット列に含まれる。一方、符号化の効率性あるいは全体ゲインに対する効果的な制御のために、各グループに共通に適用されるグローバルゲインと各グループ別オブジェクトに限定して適用されるオブジェクトグループゲインが使用可能であり、これらは符号化されてビット列に含まれて受信段に伝送される。

グループを形成する第一の方法は、サウンド場面上で、各オブジェクトの位置を考慮して、近いオブジェクト同士でグループを形成する方法である。図４のオブジェクトグループ４１０、４２０は、このような方法で形成した一例である。これは、パラメータ符号化の不完全性により各オブジェクトの間に発生するクロストーク歪みや、オブジェクトを第３の位置に移動したり大きさを変更するレンダリングを行う時に発生する歪みが、聞き手１１０になるべく聞こえないようにするための方法である。同じ位置にあるオブジェクトに発生した歪みは、相対的にマスキングによって聞き手に聞こえない可能性が高い。同じ理由で個別符号化をする場合も、空間的に類似の位置にあるオブジェクト間のグルーピングにより付加情報を共有するなどの効果を期待することができる。

図５は、本発明の一実施例によるオブジェクトオーディオ信号符号化器５００を示すブロック図である。図示のように、オブジェクトオーディオ信号符号化器５００は、オブジェクトグルーピング部５５０と、ダウンミキサおよびパラメータ符号化器５２０、５４０とを含むことができる。オブジェクトグルーピング部５５０は、本発明の実施例により、複数のオブジェクトをグルーピングして、少なくとも１つのオブジェクト信号グループを生成する。図５の実施例では、第１オブジェクト信号グループ５１０および第２オブジェクト信号グループ５３０が生成されたことを示したが、本発明の実施例において、オブジェクト信号グループの数はこれに限定しない。この時、各オブジェクト信号グループは、図４の例で説明した方法のように空間的な類似度を考慮して生成されてもよく、音色、周波数分布、音圧などの信号特性によって区分して生成されてもよい。ダウンミキサおよびパラメータ符号化器５２０、５４０は、生成された各グループごとにダウンミックスを行い、この過程でダウンミックスされたオブジェクトを復元するのに必要なパラメータを生成する。各グループごとに生成されたダウンミックス信号は、ＡＡＣ、ＭＰ３のようなチャンネル別ウェーブフォーム（ｗａｖｅｆｏｒｍ）を符号化するウェーブフォーム符号化器５６０を介して追加的に符号化される。これを一般にコアコーデック（Ｃｏｒｅｃｏｄｅｃ）と呼ぶ。また、各ダウンミックス信号間のカップリングなどによる符号化が行われてよい。各符号化器５２０、５４０、５６０を介して生成された信号は、ＭＵＸ５７０を介して１つのビット列として形成されて伝送される。したがって、ダウンミキサおよびパラメータ符号化器５２０、５４０とウェーブフォーム符号化器５６０を介して生成されたビット列は、すべて１つのサウンド場面をなす構成オブジェクトを符号化した信号と見なすことができる。また、生成されたビット列内の互いに異なるオブジェクトグループに属したオブジェクト信号は、同じ時間フレームを有して符号化され、したがって、同じ時間帯に再生される特徴を有したりする。一方、オブジェクトグルーピング部５５０で生成したグルーピング情報は、符号化されて受信段に伝達されることが可能である。

図６は、本発明の一実施例によるオブジェクトオーディオ信号復号化器６００を示すブロック図である。オブジェクトオーディオ信号復号化器６００は、図５の実施例により符号化されて伝送された信号を復号化することができる。復号化過程は、符号化の逆過程であって、ＤＥＭＵＸ６１０は、符号化器からビット列を受信し、ビット列から少なくとも１つのオブジェクトパラメータセットとウェーブフォーム符号化された信号を抽出する。仮に、図５のオブジェクトグルーピング部５５０が生成したグルーピング情報がビット列に含まれる場合、ＤＥＭＵＸ６１０は、ビット列から当該グルーピング情報を抽出することができる。ウェーブフォーム復号化器６２０は、ウェーブフォーム復号化を行って複数のダウンミックス信号を生成し、生成された複数のダウンミックス信号は、それぞれ対応するオブジェクトパラメータセットとともに、アップミキサおよびパラメータ復号化器６３０、６５０に入力される。アップミキサおよびパラメータ復号化器６３０、６５０は、入力されたダウンミックス信号をそれぞれアップミキシングして、少なくとも１つのオブジェクト信号グループ６４０、６６０に復号化する。この時、各オブジェクト信号グループ６４０、６６０の復元には、ダウンミックス信号およびこれに対応するオブジェクトパラメータセットが用いられる。図６の実施例において、複数のダウンミックス信号が存在するため、複数のパラメータ復号化が必要である。図６では、第１ダウンミックス信号および第２ダウンミックス信号がそれぞれ第１オブジェクト信号グループ６４０および第２オブジェクト信号グループ６６０に復号化されることを示したが、本発明の実施例で抽出されたダウンミックス信号の個数および対応するオブジェクト信号グループの数はこれに限定しない。一方、オブジェクトデグルーピング部６７０は、グルーピング情報を用いて、各オブジェクト信号グループを個別オブジェクト信号にデグルーピングすることができる。

本発明の実施例によれば、伝送されたビット列にグローバルゲインおよびオブジェクトグループゲインが含まれている場合、これらを適用して正常なオブジェクト信号の大きさを復元することができる。一方、レンダリングあるいはトランスコーディング過程でこのゲイン値は制御が可能であり、グローバルゲインの調整により全体信号の大きさを、オブジェクトグループゲインの調整によりグループ別信号の大きさを調整することができる。例えば、再生スピーカ単位でオブジェクトグルーピングが行われた場合、後述の柔軟なレンダリングを実現するためにゲインを調整する時、オブジェクトグループゲインの調整により容易に実現することができる。

図５および図６において、複数のパラメータ符号化器あるいは復号化器は、説明の便宜上、並列に処理されるように示されたが、１つのシステムを介して順次に複数のオブジェクトグループに対する符号化あるいは復号化を行うことも可能である。

オブジェクトグループを形成する他の方法は、互いに相関度の低いオブジェクト同士で１つのグループにグルーピングする方法である。これは、パラメータ符号化の特徴で、相関度の高いオブジェクトはダウンミックスからそれぞれを分離しにくい特徴を考慮したものである。この時、ダウンミックス時、ダウンミックスゲインなどのパラメータを調整して、グルーピングされた各オブジェクトがより相関性が遠くなるようにする符号化方法も可能である。この時、使用されたパラメータは、復号化時、信号の復元に使用できるように伝送されることが好ましい。

オブジェクトグループを形成するさらに他の方法は、互いに相関度の高いオブジェクトを１つのグループにグルーピングする方法である。これは、相関度の高いオブジェクトの場合、パラメータを用いた分離に困難があるが、そのような活用度が高くない応用で圧縮効率を高めるための方法である。多様なスペクトルを有する複雑な信号の場合、コアコーデックでの信号処理にそれだけビットを多く要するため、相関度の高いオブジェクトをまとめて１つのコアコーデックを活用すれば符号化効率が高い。

オブジェクトグループを形成するさらに他の方法は、オブジェクト間のマスキングの有無を判断して符号化することである。例えば、オブジェクトＡがオブジェクトＢをマスキングする関係にある場合、２つの信号を１つのダウンミックスに含めてコアコーデックで符号化すると、オブジェクトＢは符号化過程で省略されてよい。この場合、復号化段でパラメータを用いてオブジェクトＢを得る場合、歪みが大きい。したがって、このような関係を有するオブジェクトＡとオブジェクトＢは、別のダウンミックスに含めることが好ましい。反面、オブジェクトＡとオブジェクトＢがマスキングの関係にあるものの、２つのオブジェクトを分離してレンダリングする必要がない応用や、少なくともマスキングされたオブジェクトに対する別途処理の必要がない場合は、逆にオブジェクトＡとＢを１つのダウンミックスに含ませることが好ましい。したがって、応用に応じて選択方法が異なり得る。例えば、符号化過程において、好ましいサウンド場面上で特定のオブジェクトがマスキングされて無くなったり、少なくとも微弱な場合であれば、これをオブジェクトリストから除外し、マスカーになるオブジェクトに含ませたり、２つのオブジェクトを合わせて１つのオブジェクトとして表現する方式で実現することができる。

オブジェクトグループを形成するさらに他の方法は、平面波ソースオブジェクトやアンビエントソースオブジェクトなどの、点ソースオブジェクトでないものを分離して別途にグループ化することである。このようなソースは、点ソースと異なる特性でよって、他の形態の圧縮符号化方法やパラメータが必要であり、したがって、別途に分離して処理することが好ましい。

本発明の実施例によれば、グルーピング情報は、前述のオブジェクトグループが形成された方法に関する情報を含むことができる。オーディオ信号復号化器は、伝送されたグルーピング情報を参照して、復号化されたオブジェクト信号グループを元のオブジェクトに還元するオブジェクトデグルーピングを行うことができる。

図７は、本発明による符号化方法によって符号化して生成したビット列の一実施例である。図７を参照すれば、符号化されたチャンネルあるいはオブジェクトデータが伝送される主ビット列７００が、チャンネルグループ７２０、７３０、７４０、あるいはオブジェクトグループ７５０、７６０、７７０の順に整列されていることが分かる。各チャンネルグループには、チャンネルグループに属した個別チャンネルが設定された順序によって整列されて配置される。図面符号７２１、７３１、７５１は、それぞれチャンネル１、チャンネル８、チャンネル９２の信号を示す例である。また、ヘッダ７１０に各グループのビット列内での位置情報であるチャンネルグループポジション情報ＣＨＧ＿ＰＯＳ＿ＩＮＦＯ７１１、オブジェクトグループポジション情報ＯＢＪ＿ＰＯＳ＿ＩＮＦＯ７１２を含んでいるため、これを参照すれば、ビット列を順次に復号化しなくても、所望のグループのデータのみを優先復号化することができる。したがって、復号化器は、一般的にグループ単位で先に到着したデータから復号化を行うが、他の政策や理由によって復号化する順序を任意に変更することができる。また、図７は、主ビット列７００のほか、別途に、主な復号化関連情報とともに、各チャンネルあるいはオブジェクトに対するメタデータ７０３、７０４を盛り込んでいる副ビット列７０１を例示する。副ビット列は、主ビット列が伝送される途中に間欠的に伝送されたり、別の伝送チャンネルを介して伝送されてよい。一方、チャンネルとオブジェクト信号に続いて、選択的にＡＮＣ（Ａｎｃｉｌｌａｒｙｄａｔａ）７８０が含まれてよい。

（オブジェクトグループ別にビット割当する方法）
複数のグループ別にダウンミックスを生成し、各グループ別に独立したパラメトリックオブジェクト符号化を行うにあたり、各グループで使用されるビット数は互いに異なり得る。グループ別ビットを割り当てる基準は、グループ内に含まれたオブジェクトの数、グループ内のオブジェクト間のマスキング効果を考慮した有効オブジェクト数、人の空間解像度を考慮した位置に応じた加重値、オブジェクトの音圧の大きさ、オブジェクト間相関度、サウンド場面上のオブジェクトの重要度などを考慮することができる。例えば、Ａ、Ｂ、Ｃの３つの空間的オブジェクトグループを有する場合、それぞれグループのｏｂｊｅｃｔ信号が３、２、１個ずつ含まれていれば、割り当てられたビットは３ａ１（ｎ−ｘ）、２ａ２（ｎ−ｙ）、ａ３ｎに割り当てられてよい。ここで、ｘ，ｙは、各グループ内でオブジェクト間、そしてオブジェクト内でマスキング効果によってビットをより少なく割り当ててもよい程度を示し、ａ１、ａ２、ａ３は、グループ別に前記言及した多様な要素によって決定できる。

（オブジェクトグループ内での主オブジェクト、副オブジェクト位置情報の符号化）
一方、オブジェクト情報の場合、プロデューサーが生成した意図によって勧告したり、他のユーザが提案するミックス情報などを、オブジェクトの位置および大きさ情報としてメタデータを介して伝達する手段を有することが好ましい。本発明では、これを、便宜上、プリセット情報と呼ぶ。オブジェクトが時間に応じて位置可変するダイナミックオブジェクトの場合、プリセット情報を介して伝送されるべき位置情報の情報量が少なくない。例えば、１０００個のオブジェクトに対して毎フレーム可変する位置情報を伝送すれば、非常に大きいデータ量になる。したがって、オブジェクトの位置情報も効果的に伝送することが好ましい。そこで、本発明では、主オブジェクトと副オブジェクトという定義を利用して、位置情報の効果的な符号化方法を用いる。

主オブジェクトは、オブジェクトの位置情報を３次元空間上の絶対的な座標値で表現するオブジェクトを意味する。副オブジェクトは、３次元空間上の位置を主オブジェクトに対する相対的な値で表現して、位置情報を有するオブジェクトを意味する。したがって、副オブジェクトの位置情報を知るためには、対応する主オブジェクトが何であるかを知らなければならない。本発明の実施例によれば、グルーピングを行う場合、特に空間上の位置を基準としてグルーピングをする場合、同一グループ内に１つのオブジェクトを主オブジェクト、残りのオブジェクトを副オブジェクトとして位置情報を表現する方法で実現可能である。符号化のためのグルーピングがないか、これを用いることが副オブジェクト位置情報の符号化に有利でない場合、位置情報符号化のための別の集合を形成することができる。副オブジェクト位置情報を相対的に表現することを、絶対値で表現するより有利にするためには、グループあるいは集合内に属するオブジェクトは空間上で一定範囲内に位置することが好ましい。

本発明の他の位置情報の符号化方法は、主オブジェクトに対する相対的な表現の代わりに、固定されたスピーカ位置に関する相対情報として各オブジェクトの位置情報を表現することである。例えば、２２チャンネルスピーカの指定された位置値を基準として、オブジェクトの相対的位置情報を表現する。この時、基準として使用するスピーカの個数と位置値などは、現在のコンテンツで設定した値を参照することができる。

本発明の他の実施例によれば、位置情報を絶対値あるいは相対値で表現した後、量子化を行うが、量子化ステップは、絶対位置を基準として可変的であることを特徴とする。例えば、聞き手の正面付近は、側面あるいは後面に比べて、位置に対する区別能力がはるかに高いことが知られているため、正面領域に対する解像度は、側面領域に対する解像度より高いように量子化ステップを設定することが好ましい。同様に、人は、方位に対する解像度が、高低に対する解像度より高いため、方位角に対する量子化を、高度に対する解像度より高くすることが好ましい。

本発明のさらに他の実施例では、位置が時変するダイナミックオブジェクトの場合、主オブジェクトあるいは他の基準点に対する相対的な位置値を表現する代わりに、当該オブジェクトの前の位置値に対する相対的な値で表現することが可能である。したがって、ダイナミックオブジェクトに対する位置情報は、時間的に前、空間的に隣りの基準点のうちのいずれを基準としたかを区別するためのフラグ情報をともに伝送することが好ましい。

（復号化器全体のアーキテクチャ）
図８は、本発明によるオブジェクトおよびチャンネル信号復号化システム８００をブロック図に示す一実施例である。システム８００は、オブジェクト信号８０１、チャンネル信号８０２、あるいはオブジェクト信号とチャンネル信号との組み合わせを受けることができる。また、オブジェクト信号あるいはチャンネル信号は、それぞれウェーブフォーム符号化（８０１、８０２）されたり、パラメトリック符号化（８０３、８０４）されていてよい。復号化システム８００は、大きく、３ＤＡ復号化部８６０と、３ＤＡレンダリング部８７０とに区分され、３ＤＡレンダリング部８７０は、任意の外部システムあるいはソリューションが使用されてもよい。したがって、３ＤＡ復号化部８６０と３ＤＡレンダリング部８７０は、外部と容易に互換される標準化されたインタフェースを提供することが好ましい。

図９は、本発明のさらに他の形態のオブジェクトおよびチャンネル信号復号化システム９００のブロック図である。同様に、本システム９００は、オブジェクト信号９０１、チャンネル信号９０２、あるいはオブジェクト信号とチャンネル信号との組み合わせを受けることができる。また、オブジェクト信号あるいはチャンネル信号は、それぞれウェーブフォーム符号化（９０１、９０２）されたり、パラメトリック符号化（９０３、９０４）されていてよい。図８のシステム８００と比較する時、相違点は、図９の復号化システム９００では、それぞれ分離されていた個別オブジェクト復号化器８１０と個別チャンネル復号化器８２０、そしてパラメトリックチャンネル復号化器８４０とパラメトリックオブジェクト復号化器８３０が、それぞれ１つの個別復号化器９１０とパラメトリック復号化器９２０に統合された点である。また、図９の復号化システム９００には、３ＤＡレンダリング部９４０と、便利かつ標準化されたインタフェースのためのレンダラインタフェース部９３０が追加された。レンダラインタフェース部９３０は、内部あるいは外部に存在する３ＤＡレンダラ９４０からユーザ環境情報、レンダラバージョンなどを受信し、これに互換される形態のチャンネル信号あるいはオブジェクト信号を生成して、３ＤＡＲｅｎｄｅｒｅｒ９４０に伝達する役割を果たす。また、チャンネル数、オブジェクト別の名前などのように再生に必要な付加情報をユーザに提供するために必要なメタデータを標準化された形式で生成して、３ＤＡＲｅｎｄｅｒｅｒ９４０に伝達することができる。レンダラインタフェース部９３０は、後述の順序制御部１６３０を含むことができる。

パラメトリック復号化器９２０は、オブジェクト信号あるいはチャンネル信号を生成するためにダウンミックス信号が必要であるが、必要なダウンミックス信号は、個別復号化器９１０を介して復号化されて入力される。オブジェクトおよびチャンネル信号復号化システムに対応する符号化器は、様々なタイプになっていてよいし、図８および図９に表現された形態のビット列８０１、８０２、８０３、８０４、９０１、９０２、９０３、９０４のうちの少なくとも１つを生成できれば、互換される符号化器と見なすことができる。また、本発明によれば、図８および図９に提示された復号化システムは、過去のシステムあるいはビット列との互換性を保障するようにデザインされた。例えば、ＡＡＣで符号化された個別チャンネルのビット列が入力された場合、当該ビット列は、個別（チャンネル）復号化器を介して復号化されて、３ＤＡレンダラに送られてよい。ＭＰＳ（ＭＰＥＧＳｕｒｒｏｕｎｄ）ビット列の場合、ダウンミックス信号とともに送られるが、ダウンミックスされた後、ＡＡＣで符号化された信号は、個別（チャンネル）復号化器を介して復号化されてパラメトリックチャンネル復号化器に伝達され、パラメトリックチャンネル復号化器は、まるでＭＰＥＧＳｕｒｒｏｕｎｄ復号化器のように動作する。ＳＡＯＣ（ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ）で符号化されたビット列の場合も同様に動作する。図８のシステム８００において、ＳＡＯＣビット列は、従来のように、ＳＡＯＣトランスコーダ８３０でトランスコーディングされた後、ＭＰＥＧＳｕｒｒｏｕｎｄデコーダ８４０を介して個別チャンネルにレンダリングされる構造を有する。このためには、ＳＡＯＣトランスコーダ８３０は、再生チャンネル環境情報を受けて、これに合うように最適化されたチャンネル信号を生成して伝送することが好ましい。したがって、本発明のオブジェクトおよびチャンネル信号復号化システムは、従来のＳＡＯＣビット列を受けて復号化するが、ユーザあるいは再生環境に特化したレンダリングを行うことができる。図９のシステム９００では、ＳＡＯＣビット列が入力される場合、ＭＰＳビット列に変換するトランスコーディング動作の代わりに、直ちにチャンネルあるいはレンダリングに適した個別オブジェクト形態に変換する方法で実現される。したがって、トランスコーディングする構造に比べて演算量が低く、音質の面においても有利である。図９において、オブジェクト復号化器の出力をｃｈａｎｎｅｌでのみ表示したが、個別オブジェクト信号としてレンダラインタフェース９３０に伝達されてもよい。また、図９でのみ表記されたが、図８の場合を含めて、パラメトリックビット列上にレジデュアル信号が含まれた場合、これに対する復号化は個別復号化器を介して復号化されることが特徴である。

（チャンネルに対する個別、パラメータ組み合わせ、レジデュアル）
図１０は、本発明の他の実施例によるエンコーダおよびデコーダの構成を示す図である。

図１０は、デコーダのスピーカセットアップがそれぞれ異なる場合に、スケーラブルなコーディングのための構造を示す。

エンコーダは、ダウンミキシング部２１０を含み、デコーダは、第１デコーディング部２３０〜第３デコーディング部２５０のうちの１つ以上と、デマルチプレキシング部２２０とを含む。

ダウンミキシング部２１０は、マルチチャンネルに相当する入力信号（ＣＨ＿Ｎ）をダウンミキシングすることにより、ダウンミックス信号（ＤＭＸ）を生成する。この過程で、アップミックスパラメータ（ＵＰ）およびアップミックスレジデュアル（ＵＲ）のうちの１つ以上を生成する。その後、ダウンミックス信号（ＤＭＸ）、アップミックスパラメータ（ＵＰ）（およびアップミックスレジデュアル（ＵＲ））をマルチプレキシングすることにより、１以上のビットストリームを生成し、デコーダに伝送する。

ここで、アップミックスパラメータ（ＵＰ）は、１以上のチャンネルを２以上のチャンネルにアップミキシングするために必要なパラメータであって、空間パラメータおよびチャンネル間位相差（ＩＰＤ）などが含まれてよい。

そして、アップミックスレジデュアル（ＵＲ）は、原信号の入力信号（ＣＨ＿Ｎ）と復元された信号との差であるレジデュアル信号に相当する。ここで、復元された信号は、ダウンミックス信号（ＤＭＸ）にアップミックスパラメータ（ＵＰ）を適用してアップミキシングされた信号であってもよいし、ダウンミキシング部２１０によってダウンミキシングされていないチャンネルがｄｉｓｃｒｅｔｅな方式でエンコーディングされた信号であってよい。

デコーダのデマルチプレキシング部２２０は、１以上のビットストリームからダウンミックス信号（ＤＭＸ）およびアップミックスパラメータ（ＵＰ）を抽出し、アップミックスレジデュアル（ＵＲ）をさらに抽出することができる。ここで、レジデュアル信号は、ダウンミックス信号に対する個別符号化と類似の方法で符号化できる。したがって、レジデュアル信号の復号化は、図８あるいは図９に提示されたシステムでは、個別（チャンネル）復号化器を介して行われることが特徴である。

デコーダは、スピーカセットアップ環境に応じて、第１デコーディング部２３０〜第３デコーディング部２５０のうちの１つ（または１つ以上）を選択的に含むことができる。デバイスの種類（スマートフォン、ステレオテレビ、５．１ｃｈホームシアター、２２．２ｃｈホームシアターなど）に応じて、ラウドスピーカのセットアップ環境が多様であり得る。このように多様な環境にもかかわらず、２２．２ｃｈなどのマルチチャンネル信号を生成するためのビットストリームおよびデコーダが選択的でなければ、２２．２ｃｈの信号をすべて復元した後に、スピーカの再生環境に応じて、再びダウンミックスしなければならない。この場合、復元およびダウンミックスに必要な演算量が非常に高いだけでなく、遅延が発生することもある。

しかし、本発明の他の実施例によれば、各デバイスのセットアップ環境に応じて、デコーダが第１デコーディング部〜第３デコーディング部のうちの１つ（または１つ以上）を選択的に備えることにより、前記のような不都合を解消することができる。

第１デコーディング部２３０は、ダウンミックス信号（ＤＭＸ）のみをデコーディングする構成であって、チャンネル数の増加を伴わない。すなわち、第１デコーディング部２３０は、ダウンミックス信号がモノの場合、モノチャンネル信号を出力し、ステレオの場合、ステレオ信号を出力するものである。第１デコーディング部２３０は、スピーカチャンネル数が１つまたは２つの、ヘッドホンが備えられた装置、スマートフォン、テレビなどに好適であり得る。

一方、第２デコーディング部２４０は、ダウンミックス信号（ＤＭＸ）およびアップミックスパラメータ（ＵＰ）を受信し、これに基づいて、パラメトリックＭチャンネル（ＰＭ）を生成する。第２デコーディング部２４０は、第１デコーディング部２３０に比べて出力チャンネル数が増加する。しかし、アップミックスパラメータ（ＵＰ）が総Ｍチャンネルまでのアップミックスに相当するパラメータのみが存在する場合、第２デコーディング部２４０は、原チャンネル数（Ｎ）に及ばないＭチャンネル数の信号を出力することができる。例えば、エンコーダの入力信号である原信号が２２．２ｃｈ信号であり、Ｍチャンネルは５．１ｃｈ、７．１ｃｈチャンネルなどであってよい。

第３デコーディング部２５０は、ダウンミックス信号（ＤＭＸ）およびアップミックスパラメータ（ＵＰ）だけでなく、アップミックスレジデュアル（ＵＲ）まで受信する。第２デコーディング部２４０は、Ｍチャンネルのパラメトリックチャンネルを生成するのに対し、第３デコーディング部２５０は、これにアップミックスレジデュアル信号（ＵＲ）まで追加的に適用することにより、Ｎ個のチャンネルの復元された信号を出力することができる。

各デバイスは、第１デコーディング部〜第３デコーディング部のうちの１つ以上を選択的に備え、ビットストリームの中からアップミックスパラメータ（ＵＰ）およびアップミックスレジデュアル（ＵＲ）を選択的にパーシングすることにより、各スピーカセットアップ環境に合わせた信号を直ちに生成することにより、複雑度および演算量を低減することができる。

（マスキングを考慮したオブジェクトのウェーブフォーム符号化）
本発明によるオブジェクトのウェーブフォーム符号化器（以下、ウェーブフォーム（ｗａｖｅｆｏｒｍ）符号化器は、チャンネルオーディオ信号あるいはオブジェクトオーディオ信号を各チャンネルあるいはオブジェクト別に独立して復号化可能に符号化する場合をいい、パラメトリック符号化／復号化に相対する概念で、さらに個別（ｄｉｓｃｒｅｔｅ）符号化／復号化とも呼ぶ）は、オブジェクトのサウンド場面上の位置を考慮してビット割当する。これは、心理音響のＢＭＬＤ（ＢｉｎａｕｒａｌＭａｓｋｉｎｇＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅ）現象とオブジェクト信号符号化の特徴を利用したものである。

ＢＭＬＤ現象を説明するために、既存のオーディオ符号化方法で使用していたＭＳ（Ｍｉｄ−Ｓｉｄｅ）ステレオ符号化を説明すれば、次の通りである。すなわち、心理音響におけるマスキング現象は、マスキングを発生させるマスカー（Ｍａｓｋｅｒ）と、マスキングになるマスキー（Ｍａｓｋｅｅ）とが空間的に同一方向にある時に可能であるのがＢＭＬＤである。ステレオオーディオ信号の２チャンネルのオーディオ信号の間の相関性が非常に高く、その大きさが等しい場合、その音に対する像（音像）が２つのスピーカの間の中央に結ばれ、相関性がない場合、各スピーカから独立した音が出て、その像がそれぞれスピーカに結ばれる。仮に、相関性が最大である入力信号に対して各チャンネルを独立して符号化（ｄｕａｌｍｏｎｏ）する場合、オーディオ信号の音像は中央に、量子化雑音の音像は各スピーカに別に結ばれることとなる。すなわち、各チャンネルにおける量子化雑音は互いに相関性がないため、その像が各スピーカに別に結ばれるのである。したがって、マスキーになるべき量子化雑音が空間的不一致によってマスキングされず、結局、人に歪みとして聞こえる問題が発生する。和差符号化は、このような問題を解決すべく、２つのチャンネル信号を加えた信号（Ｍｉｄ信号）と引いた信号（Ｄｉｆｆｅｒｅｎｃｅ）を生成した後、これを用いて心理音響モデルを行い、これを用いて量子化する。このような方法によれば、発生した量子化雑音の音像がオーディオ信号の音像と同じ位置に結ばれる。

従来のチャンネル符号化の場合、各チャンネルは、再生されるスピーカにマッピングされ、当該スピーカの位置は固定されて互いに離れているため、チャンネル間のマスキングは考慮できなかった。しかし、各オブジェクトを独立して符号化する場合は、当該オブジェクトのサウンド場面上の位置に応じてマスキングされるか否かが異なり得る。したがって、他のオブジェクトによって、現在符号化されるオブジェクトがマスキングされるか否かを判断して、それによってビットを割り当てて符号化することが好ましい。

図１１は、オブジェクト１とオブジェクト２に対するそれぞれの信号と、これら信号から取得できるマスキング閾値１１１０、１１２０と、オブジェクト１とオブジェクト２とを合わせた信号に対するマスキング閾値１１３０を示す。オブジェクト１とオブジェクト２が少なくとも聞き手の位置を基準として同一の位置、あるいはＢＭＬＤの問題が発生しないだけの範囲内に位置すると見なすと、聞き手に当該信号によってマスキングされる領域は１１３０のようになるので、オブジェクト１に含まれたＳ２信号は完全にマスキングされて聞こえない信号となるはずである。そのため、オブジェクト１を符号化する過程において、オブジェクト２に対するマスキング閾値を考慮して符号化することが好ましい。マスキングス閾値は互いに加算的に合わされる性質があるので、結局、オブジェクト１とオブジェクト２に対するそれぞれのマスキング閾値を加える方法で求めることができる。あるいは、マスキング閾値を計算する過程自体も演算量が非常に高いので、オブジェクト１とオブジェクト２とを予め合わせて生成した信号を用いて、１つのマスキング閾値を計算してオブジェクト１とオブジェクト２をそれぞれ符号化することも好ましい。

図１２は、図１１のような例示の内容を実現するために、本発明による複数のオブジェクト信号に対するマスキング閾値を算出する符号化器１２００の一実施例である。２つのオブジェクト信号が入力されると、これに対するＳＵＭ１２１０で和信号を生成する。和信号を入力として、心理音響モデル演算部１２３０では、オブジェクト１、オブジェクト２に対応するマスキング閾値をそれぞれ算出する。この時、図１２に示さないが、心理音響モデル演算部１２３０の入力として、和信号のほか、オブジェクト１とオブジェクト２の信号も追加的に提供できる。生成されたマスキング閾値１を用いてオブジェクト信号１に対するウェーブフォーム符号化１２２０が行われ、符号化されたオブジェクト信号１を出力し、マスキング閾値２を用いてオブジェクト信号２に対するウェーブフォーム符号化１２４０が行われ、符号化されたオブジェクト信号２を出力する。

本発明の他のマスキング閾値算出方法は、２つのオブジェクト信号の位置が聴音覚を基準として完全に一致しない場合、２つのオブジェクトに対するマスキング閾値を加える代わりに、２つのオブジェクトが空間上に離れた程度を考慮してマスキングレベルを減衰して反映することも可能である。すなわち、オブジェクト１に対するマスキング閾値をＭ１（ｆ）、オブジェクト２に対するマスキング閾値をＭ２（ｆ）とする時、各オブジェクトを符号化するのに使用する最終ジョイントマスキング閾値Ｍ１’（ｆ）、Ｍ２’（ｆ）は、次のような関係を有するように生成される。

この時、Ａ（ｆ）は、２つのオブジェクトの間の空間上の位置と距離、および２つのオブジェクトの属性などにより生成される減衰ファクターであって、０．０＝＜Ａ（ｆ）＝＜１．０の範囲を有する。

人の方向に対する解像度は、正面を基準として左右へいくほど悪くなり、後方へいく時にさらに悪くなる特性を有するが、したがって、オブジェクトの絶対的位置は、Ａ（ｆ）を決定するさらに他の要素として作用することができる。

本発明の他の実施例では、２つのオブジェクトのうちの１つのオブジェクトに対しては自身のマスキング閾値のみを用い、他のオブジェクトに対してのみ相手オブジェクトに対するマスキング閾値を持ってくる方法で実現することができる。これを、それぞれ独立オブジェクト、依存オブジェクトという。自分自身のマスキング閾値のみを利用するオブジェクトは、相手オブジェクトに関係なく高音質符号化されるため、当該オブジェクトから空間的に分離されるレンダリングが行われても音質が保存される利点を有することができる。オブジェクト１を独立オブジェクト、オブジェクト２を依存オブジェクトとすれば、次のような式でマスキング閾値が表現される。

独立オブジェクトと依存オブジェクトの有無は、各オブジェクトに対する付加情報として復号化およびレンダラに伝達することが好ましい。

本発明のさらに他の実施例では、２つのオブジェクトが空間上で一定程度類似する場合、マスキング閾値のみを合わせて生成するのではなく、信号自体を１つのオブジェクトに合わせて処理することも可能である。

本発明のさらに他の実施例では、特にパラメータ符号化を行う場合、２つの信号の相関度と２つの信号の空間上の位置を考慮して、１つのオブジェクトに合わせて処理することが好ましい。

（トランスコーディングの特徴）
本発明のさらに他の実施例では、カップリングされたオブジェクトを含むビット列をより低いビット率にトランスコーディングするために、データの大きさを低減するために、オブジェクトの数字を低減しなければならない場合（すなわち、複数のオブジェクトを１つにダウンミックスして１つのオブジェクトで表現する場合）、カップリングされたオブジェクトに対して１つのオブジェクトで表現することが好ましい。

以上のオブジェクト間のカップリングによる符号化を説明するにあたり、説明の便宜のために、２つのオブジェクトのみをカップリングする場合のみを例に挙げたが、２つ以上の多数のオブジェクトに対するカップリングも類似の方法で実現可能である。

（柔軟なレンダリング必要）
３Ｄオーディオのために必要な技術のうち、柔軟なレンダリングは、３Ｄオーディオの品質を最上に引き上げるために解決すべき重要な課題の一つである。居間の構造、家具の配置に応じて、５．１チャンネルスピーカの位置が非常に不定形的なのは周知の事実である。このような不定形的位置にスピーカが存在しても、コンテンツ制作者の意図したサウンド場面を提供できるようにしなければならない。このためには、ユーザごとにまちまちの再生環境でのスピーカ環境を知らなければならないのとともに、規格に応じた位置対比の差を補正するためのレンダリング技術が必要である。すなわち、伝送されたビット列をデコーディングすることでコーデックの役割が終わるのではなく、これをユーザの再生環境に合わせて最適化変形する過程に対する一連の技術が要求される。

図１３は、５．１チャンネルセットアップに対して、ＩＴＵ−Ｒ勧告案によって配置されたスピーカ（灰色）１３１０と、任意の位置に配置されたスピーカ（白色）１３２０を示す。実際の居間環境では、このようにＩＴＵ−Ｒ勧告案対比、スピーカの方向角と距離がすべて異なる問題が発生することがある（図に示さないが、スピーカの高さにも差があり得る。）。このように異なるスピーカ位置で元のチャンネル信号をそのまま再生する場合、理想的な３Ｄサウンド場面を提供しにくい。

（フレキシブルレンダリング）
信号の大きさを基準として、２つのスピーカの間の音源の方向情報を決定するＡｍｐｌｉｔｕｄｅＰａｎｎｉｎｇや、３次元空間上で３つのスピーカを用いて音源の方向を決定するのに広く使用されるＶＢＡＰ（Ｖｅｃｔｏｒ−ＢａｓｅｄＡｍｐｌｉｔｕｄｅＰａｎｎｉｎｇ）を用いると、オブジェクト別に伝送されたオブジェクト信号に対しては相対的に便利にフレキシブルレンダリングを実現できることが分かる。チャンネルの代わりにオブジェクト信号を伝送することの利点の一つである。

（オブジェクトの復号化とレンダリング構造）
図１４は、本発明によるオブジェクトのビット列に対する復号化器とこれを用いたフレキシブルレンダリングシステムが接続された２つの実施例の構造１４００、１４０１を示す。前述のように、オブジェクトの場合、所望のサウンド場面に合わせてオブジェクトを音源に位置させることが容易である利点があり、ここでは、ミックス（Ｍｉｘ）部１４２０でミキシング行列で表現された位置情報を受信して、優先チャンネル信号に変更する。すなわち、サウンド場面に対する位置情報を、出力チャンネルに対応するスピーカからの相対的な情報として表現されるのである。この時、実際にスピーカの個数と位置が定められた位置に存在しない場合、当該位置情報（ＳｐｅａｋｅｒＣｏｎｆｉｇ）を用いて再びレンダリングする過程が必要である。下記に記述するように、チャンネル信号を再び異なる形態のチャンネル信号にレンダリングすることは、オブジェクトを最終チャンネルに直接レンダリングする場合より実現しにくい。

図１５は、本発明によるオブジェクトのビット列に対する復号化とレンダリングを実現した他の実施例の構造１５００を示す。図１４の場合と比較すると、ビット列から復号化とともに最終スピーカ環境に合わせたフレキシブルレンダリング１５１０を直接実現することである。すなわち、ミキシング行列に基づいて定形のチャンネルで行うミキシングと、該生成された定形チャンネルからフレキシブルスピーカにレンダリングする過程の２つのステップを経る代わりに、ミキシング行列とスピーカ位置情報１５２０を用いて１つのレンダリング行列あるいはレンダリングパラメータを生成し、これを用いてオブジェクト信号を対象スピーカに直ちにレンダリングするのである。

（チャンネルで付けてフレキシブルレンダリング）
一方、チャンネル信号が入力として伝送され、当該チャンネルに対応するスピーカの位置が任意の位置に変更された場合、オブジェクト信号に対するパニング手法のような方法が適用されにくく、別のチャンネルマッピングプロセスが必要である。より大きい問題は、このようにオブジェクト信号とチャンネル信号に対してレンダリングのために必要な過程と解決方法が異なるため、オブジェクト信号とチャンネル信号が同時に伝送され、２つの信号をミックスした形態のサウンド場面を演出しようとする場合は、空間の不整合による歪みが発生しやすいというのである。このような問題を解決するために、本発明の他の実施例では、オブジェクトに対するフレキシブルレンダリングを別途に行わず、チャンネル信号にミックスを先に行った後、チャンネル信号に対するフレキシブルレンダリングを行うようにする。ＨＲＴＦを用いたレンダリングなども同様の方法で実現されることが好ましい。

（復号化段のダウンミックス：パラメータ伝送あるいは自動生成）
ダウンミックスレンダリングにおいて、マルチチャンネルコンテンツをそれより少ない数の出力チャンネルを介して再生する場合、今まではＭ−Ｎダウンミックスマトリクス（Ｍは入力チャンネル数、Ｎは出力チャンネル数）を用いて実現することが一般的であった。すなわち、５．１チャンネルコンテンツをステレオで再生する時、与えられた数式によってダウンミックスを行う方式で実現される。しかし、このようなダウンミックス実現方法は、まず、ユーザの再生スピーカ環境が５．１チャンネルだけであるにもかかわらず、伝送された２２．２チャンネルに相当するすべてのビット列を復号化しなければならない演算量の問題が発生する。携帯機器での再生のためのステレオ信号生成のためにも、２２．２チャンネル信号をすべて復号化しなければならないとすれば、その演算量の負担が非常に高いだけでなく、おびただしい量のメモリの無駄使い（２２．２チャンネル復号化されたオーディオ信号の格納）が発生する。

（ダウンミックスの代案としてのトランスコーディング）
これに対する代案として、巨大な２２．２チャンネルの原ビット列から効果的なトランスコーディングにより、目標機器あるいは目標の再生空間に適した数のビット列に切り替える方法を考えることができる。例えば、クラウドサーバに格納された２２．２チャンネルコンテンツであれば、クライアント端末から再生環境情報を受信し、これに合わせて変換して伝送するシナリオが実現可能である。

（復号化順序あるいはダウンミックス順序；順序制御部）
一方、復号化器とレンダリングが分離されているシナリオの場合、例えば、２２．２チャンネルのオーディオ信号とともに、５０個のオブジェクト信号を復号化して、これをレンダラに伝達しなければならない場合が発生することがある。この時、伝送されるオーディオ信号は、復号化が完了した高データ率の信号であるので、復号化器とレンダラとの間に非常に大きい帯域幅を要求する問題がある。したがって、一度にこのように多いデータを同時に伝送することは好ましくなく、効果的な伝送計画を立てることが好ましい。そして、これに合わせて復号化器が復号化順序を決定して伝送することが好ましい。図１６は、このように復号化器とレンダラとの間の伝送計画を決定して伝送する構造１６００を示すブロック図である。

順序制御部１６３０は、ビット列に対する復号化により付加情報を取得し、メタデータとレンダラ１６２０から再生環境、レンダリング情報などを受信する。次に、順序制御部１６３０は、前記受信された情報を用いて、復号化順序、復号化された信号をレンダラ１６２０に伝送する伝送順序および単位などの統制情報を決定し、決定された統制情報を復号化器１６１０とレンダラ１６２０に再び伝達する。例えば、レンダラ１６２０で特定のオブジェクトを完全に除去するように命令した場合、このオブジェクトは、レンダラ１６２０への伝送が不要な上に、復号化もする必要がない。あるいは、他の例として特定のオブジェクトを特定のチャンネルにのみレンダリングする状況の場合、当該オブジェクトを別途に伝送する代わりに、伝送される当該チャンネルに予めダウンミックスして伝送すれば伝送帯域が減少するはずである。他の実施例として、サウンド場面を空間的にグルーピングして、各グループごとにレンダリングに必要な信号をともに伝送すれば、レンダラの内部のバッファで不要に待機する信号の量を最小化することができる。一方、レンダラ１６２０によって一度に収容可能なデータの大きさが異なり得るが、このような情報も順序制御部１６３０に通知して、これに合わせて復号化器１６１０が復号化タイミングおよび伝送量を決定することができる。

一方、順序制御部１６３０による復号化の統制は、符号化段に伝達され、符号化過程まで統制することができる。すなわち、符号化器で不要な信号を符号化時に除外したり、オブジェクト、チャンネルに対するグルーピングを決定することなどが可能である。

（音声高速道路）
一方、ビット列のうち、双方向通信の音声に相当するオブジェクトが含まれてよい。双方向通信は、他のコンテンツと異なり、時間遅延に非常に敏感であるため、これに相当するオブジェクトあるいはチャンネル信号が受信された場合、これを優先してレンダラに伝送しなければならない。これに相当するオブジェクトあるいはチャンネル信号は、別のフラグなどで表示することができる。まず、伝送オブジェクトは、他のオブジェクト／チャンネルと異なり、同じフレームに入っている他のオブジェクト／チャンネル信号と再生時間（ｐｒｅｓｅｎｔａｔｉｏｎｔｉｍｅ）において独立した特性を有する。

（ＡＶ整合およびＰｈａｎｔｏｍＣｅｎｔｅｒ）
ＵＨＤＴＶ、すなわち超高解像度テレビを考慮する時、発生する新たな問題の一つとして、一般にＮｅａｒＦｉｅｌｄと呼ぶ状況がある。すなわち、一般的なユーザ環境（居間）の視聴距離を考慮する時、再生されるスピーカからの聞き手までの距離が各スピーカの間の距離より短くなることによって、各スピーカが点音源として動作する点と、広くて大きいスクリーンによって中央部にスピーカが不在する状況でビデオに同期化した音オブジェクトの空間解像度が非常に高くてはじめて、高品質の３Ｄオーディオサービスが可能であるという点である。

従来の３０度程度の視聴角度では、左右に配置されたステレオスピーカがＮｅａｒＦｉｅｌｄ状況に置かれず、画面上のオブジェクトの移動（例えば、左から右へ移動する自動車）に合わせたサウンド場面を提供するに十分である。しかし、視聴角度が１００度に達するＵＨＤＴＶ環境では、左右の解像度だけでなく、画面の上下を構成する追加の解像度が必要である。例えば、画面上の２人の登場人物がいる場合、現在のＨＤＴＶでは、２人の声がすべて真ん中から発話されるかように聞こえても、現実感において大きな問題に感じられないが、ＵＨＤＴＶの大きさにおいては、画面とそれに対応する声の不一致が新たな形態の歪みとして認識されるはずである。

これに対する解決方策の一つとして、２２．２チャンネルスピーカｃｏｎｆｉｇｕｒａｔｉｏｎの形態が挙げられる。図２は、２２．２チャンネル配置の一例である。図２によれば、前面部に計１１個のスピーカを配置して、前面の左右および上下の空間解像度を大きく高めている。従来３個のスピーカが担当していた中問層に５個のスピーカを配置する。そして、上位階層３個、下位階層に３個を追加することで音の高低も十分に対応できるようにした。このような配置を利用すれば、従来に比べて前面の空間解像度が高くなるため、それだけビデオ信号との整合に有利になる。しかし、ＬＣＤ、ＯＬＥＤなどのディスプレイ素子を用いる現在のテレビにおいて、スピーカが存在すべき位置をディスプレイが占める問題がある。すなわち、ディスプレイ自体が音を提供したり、あるいは音を貫通する素子の性格を有しない限り、ディスプレイ領域の外部に存在するスピーカを用いて、画面内の各オブジェクト位置に整合された音を提供しなければならない問題が存在する。図２において、少なくともＦＬｃ、ＦＣ、ＦＲｃに相当するスピーカは、ディスプレイと重複した位置に配置される。

図１７は、２２．２チャンネルシステムにおいて、全面配置スピーカのうち、ディスプレイによって不在のスピーカをその周辺チャンネルを用いて再生する概念を説明するための概念図である。ＦＬｃ、ＦＣ、ＦＲｃの不在に対応するために、点線で表示した円のように追加のスピーカをディスプレイの上下周辺部に配置する場合も考慮することができる。図１７によれば、ＦＬｃを生成するのに使用可能な周辺チャンネルは７個あり得る。この７個のスピーカを用いて仮想ソースを生成する原理で不在のスピーカ位置に相当する音を再生することができる。

周辺スピーカを用いて仮想ソースを生成する方法として、ＶＢＡＰやＨＡＡＳＥｆｆｅｃｔ（先行効果）のような技術および性質を利用することができる。あるいは、周波数帯域に応じて互いに異なるパニング手法を適用することができる。ひいては、ＨＲＴＦを用いた方位角の変更および高さ調整などを考慮することができる。例えば、ＢｔＦＣを用いてＦＣを代替する場合、上昇性質を有するＨＲＴＦを適用してＦＣチャンネル信号をＢｔＦＣに加える方法で実現することができる。ＨＲＴＦの観察を通じて把握できる性質は、音の高さを調整するためには、高周波数帯域の特定Ｎｕｌｌの位置（これは、人によって異なる）を制御しなければならないということである。しかし、人によって異なるＮｕｌｌを一般化して実現するためには、高周波数帯域を広く拡大したり縮小する方法で高さ調整を実現することができる。このような方法を用いると、代わりにフィルタの影響で信号に歪みが発生する欠点がある。

本発明による不在スピーカ位置への音源配置のための処理方法は、図１８に示されている通りである。図１８によれば、ファントムスピーカ位置に対応するチャンネル信号が入力信号として使用され、入力信号は、３つのバンドに分割するサブバンドフィルタ部１８１０を経る。スピーカアレイがない方法で実現されてもよいが、この場合、３つのバンドの代わりに、２つのバンドに区分したり、３つのバンドに分割した代わりに、上位２つのバンドに対してそれぞれ異なる処理を経る方法で実現されてもよい。１番目バンド（ＳＬ、Ｓ１）は、低周波帯域で相対的に位置に鈍い代わりに、大きさの大きいスピーカを介して再生することが好ましいため、ウーファあるいはサブウーファを介して再生できる信号である。この時、先行効果を利用するために、１番目バンドの信号は、時間遅延フィルタ部１８２０によって遅延されることがある。この時、時間遅延は、他のバンドでの処理過程で発生するフィルタの時間遅延を補償するためではなく、他のバンド信号対比より遅く再生されるようにするために、すなわち、先行効果を提供するための追加的な時間遅延を提供する。

２番目バンド（ＳＭ、Ｓ２〜Ｓ５）は、ファントムスピーカ周辺の（テレビのディスプレイのベゼルおよびその周辺に配置されるスピーカ）スピーカを介して再生されるのに使用される信号であって、少なくとも２つのスピーカに分割されて再生され、ＶＢＡＰなどのパニングアルゴリズム１８３０を適用するための係数が生成されて適用される。したがって、２番目バンドの出力が再生されるスピーカの個数と位置（ファントムスピーカに対して相対的な）を正確に提供してはじめて、これを通したパニング効果が向上することができる。この時、ＶＢＡＰパニングのほか、ＨＲＴＦを考慮したフィルタの適用や、時間パニング効果を提供するために、互いに異なる位相フィルタあるいは時間遅延フィルタを適用することも可能である。このようにバンドを分けてＨＲＴＦを適用する時に得られるさらに他の利点は、ＨＲＴＦによって発生する信号歪みの範囲を処理する帯域内に制限することができる点である。

３番目バンド（ＳＨ、Ｓ６〜Ｓ＿Ｎ）は、スピーカアレイが存在する場合、これを用いて再生される信号を生成するためであり、スピーカアレイ制御部１８４０で少なくとも３つのスピーカを介した音源仮想化のためのアレイ信号処理技術を適用することができる。あるいは、ＷＦＳ（ＷａｖｅＦｉｅｌｄＳｙｎｔｈｅｓｉｓ）により生成される係数を適用することができる。この時、３番目バンドと２番目バンドは実際に同じバンドであってもよい。

図１９は、各バンドで生成された信号をテレビ周辺に配置されたスピーカとマッピングさせる一実施例を示す。図１９によれば、２番目バンド（Ｓ２〜Ｓ５）および３番目バンド（Ｓ６〜Ｓ＿Ｎ）に対応するスピーカの個数および位置情報は相対的に正確に定義された位置になければならず、その位置情報は、図１８の処理システムに提供されることが好ましい。

図２０は、本発明の一実施例によるオーディオ信号処理装置が実現された製品の関係を示す図である。まず、図２０を参照すれば、有無線通信部３１０は、有無線通信方式によりビットストリームを受信する。具体的には、有無線通信部３１０は、有線通信部３１０Ａ、赤外線通信部３１０Ｂ、ブルートゥース部３１０Ｃ、無線ＲＡＮ通信部３１０Ｄのうちの１つ以上を含むことができる。
ユーザ認証部３２０は、ユーザ情報を受信してユーザ認証を行うものであって、指紋認識部３２０Ａ、虹彩認識部３２０Ｂ、顔認識部３２０Ｃ、および音声認識部３２０Ｄのうちの１つ以上を含むことができるが、それぞれ指紋、虹彩情報、顔輪郭情報、音声情報を受信して、ユーザ情報に変換し、ユーザ情報および既に登録されているユーザデータと一致するか否かを判断して、ユーザ認証を行うことができる。

入力部３３０は、ユーザが様々な種類の命令を入力するための入力装置であって、キーパッド部３３０Ａ、タッチパッド部３３０Ｂ、リモコン部３３０Ｃのうちの１つ以上を含むことができるが、本発明はこれに限定されない。

信号コーディングユニット３４０は、有無線通信部３１０を介して受信されたオーディオ信号および／またはビデオ信号に対してエンコーディングまたはデコーディングを行い、時間ドメインのオーディオ信号を出力する。前記信号コーディングユニット３４０は、オーディオ信号処理装置３４５を含むことができる。この時、オーディオ信号処理装置３４５は、先に説明した本発明の実施例（すなわち、一実施例によるデコーダ６００、および他の実施例によるエンコーダおよびデコーダ１４００）に相当するものであって、このようにオーディオ処理装置３４５およびこれを含む信号コーディングユニット３４０は、１つ以上のプロセッサによって実現できる。

制御部３５０は、入力装置から入力信号を受信し、信号コーディングユニット３４０および出力部３６０のすべてのプロセスを制御する。出力部３６０は、信号デコーディングユニット３４０によって生成された出力信号などが出力される構成要素であって、スピーカ部３６０Ａと、ディスプレイ部３６０Ｂとを含むことができる。出力信号がオーディオ信号の時、出力信号はスピーカに出力され、ビデオ信号の時、出力信号はディスプレイを介して出力される。

本発明によるオーディオ信号処理方法は、コンピュータで実行されるためのプログラムに作成され、コンピュータ読み取り可能な記録媒体に格納されてよいし、本発明によるデータ構造を有するマルチメディアデータもコンピュータ読み取り可能な記録媒体に格納されてよい。前記コンピュータ読み取り可能な記録媒体は、コンピュータシステムによって読み込まれるデータが格納されるすべての種類の格納装置を含む。コンピュータ読み取り可能な記録媒体の例には、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ記憶装置などがあり、また、キャリアウエーブ（例えば、インターネットを介した伝送）の形態で実現されるものも含む。さらに、前記エンコーディング方法によって生成されたビットストリームは、コンピュータ読み取り可能な記録媒体に格納されたり、有／無線通信網を用いて伝送可能である。

以上、本発明は、限定された実施例と図面によって説明されたが、本発明はこれによって限定されず、本発明の属する技術分野における通常の知識を有する者によって本発明の技術思想と以下に記載される特許請求の範囲の均等範囲内で多様な修正および変形が可能であることは当然である。

上述のように、発明を実施するための形態において、関連事項を記述した。

本発明は、オーディオ信号をエンコーディングおよびデコーディングしたり、オーディオ信号に多様な処理をする過程に適用可能である。

Claims

第１ダウンミックス信号と第２ダウンミックス信号を含む複数のダウンミックス信号を受信するステップと、
第１ダウンミックス信号に対応する、第１オブジェクト信号グループに対する第１オブジェクト抽出情報を受信するステップと、
第２ダウンミックス信号に対応する、第２オブジェクト信号グループに対する第２オブジェクト抽出情報を受信するステップと、
第１ダウンミックス信号と第１オブジェクト抽出情報を用いて、第１オブジェクト信号グループに属するオブジェクト信号を生成するステップと、
第２ダウンミックス信号と第２オブジェクト抽出情報を用いて、第２オブジェクト信号グループに属するオブジェクト信号を生成するステップとを含むことを特徴とする、オーディオ信号処理方法。
前記第１オブジェクト信号グループに属するオブジェクト信号のうちの少なくとも１つのオブジェクト信号と、前記第２オブジェクト信号グループに属する少なくとも１つのオブジェクト信号を用いて、出力オーディオ信号を生成するステップをさらに含むことを特徴とする、請求項１に記載のオーディオ信号処理方法。
前記第１オブジェクト抽出情報と第２オブジェクト抽出情報は、１つのビット列から受信することを特徴とする、請求項１に記載のオーディオ信号処理方法。
第１オブジェクト抽出情報から第１オブジェクト信号グループに属した少なくとも１つのオブジェクト信号に対するダウンミックスゲイン情報が得られ、前記ダウンミックスゲイン情報を用いて前記少なくとも１つのオブジェクト信号を生成することを特徴とする、請求項１に記載のオーディオ信号処理方法。
グローバルゲイン情報を受信するステップをさらに含み、前記グローバルゲイン情報は、前記第１オブジェクト信号グループと前記第２オブジェクト信号グループにすべて適用されるゲイン値であることを特徴とする、請求項１に記載のオーディオ信号処理方法。
前記第１オブジェクト信号グループに属するオブジェクト信号のうちの少なくとも１つのオブジェクト信号と、前記第２オブジェクト信号グループに属する少なくとも１つのオブジェクト信号は、同じ時間帯に再生されることを特徴とする、請求項１に記載のオーディオ信号処理方法。