JP7286876B2 - 変換パラメータによるオーディオ符号化/復号化 - Google Patents

変換パラメータによるオーディオ符号化/復号化 Download PDF

Info

Publication number
JP7286876B2
JP7286876B2 JP2022517390A JP2022517390A JP7286876B2 JP 7286876 B2 JP7286876 B2 JP 7286876B2 JP 2022517390 A JP2022517390 A JP 2022517390A JP 2022517390 A JP2022517390 A JP 2022517390A JP 7286876 B2 JP7286876 B2 JP 7286876B2
Authority
JP
Japan
Prior art keywords
binaural
presentation
playback
audio
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022517390A
Other languages
English (en)
Other versions
JP2022548697A (ja
Inventor
イエローン ブリーバールト,ディルク
ブランドメイヤー,アレックス
アン キャリー クラム,ポピー
スティール ジョイナー,マクレガー
エス. マグラス,デイヴィッド
ファネッリ,アンドレア
ジェイ. ウィルソン,ロンダ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022548697A publication Critical patent/JP2022548697A/ja
Application granted granted Critical
Publication of JP7286876B2 publication Critical patent/JP7286876B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Description

本発明は、1つ以上のオーディオ成分を含むオーディオコンテンツの符号化及び復号化に関係がある。
没入型エンターテイメントコンテンツは、通常、映画館、ホームオーディオシステム及びヘッドホンなどの対象再生システムにわたるオーディオの作成、コーディング、分配及び再生のために、チャネル又はオブジェクトベースのフォーマットを用いる。チャネルベースのフォーマット及びオブジェクトベースのフォーマットは両方とも、オーディオが再生されている対象システムのために再生を最適化するために、ダウンミキシングなどの種々のレンダリングストラテジを用いる。
ヘッドホン再生の場合に、図1に表されている、1つの可能性のあるレンダリングソリューションは、頭部インパルス応答(head-related impulse responses,HRIS)(時間領域)又は頭部伝達関数(head-related transfer functions,HRTF)(周波数領域)を使用して、マルチチャネルスピーカ再生システムをシミュレートする。HRIR及びHRTFは、音がスピーカからリスナーの鼓膜へ伝わるものとして。音響環境の様々な局面をシミュレートする。具体的に、これらの応答は、両耳間時間差(interaural time differences,ITD)や両耳間レベル差(interaural level differences,ITL)などの特定のキューと、環境内での音の空間的位置に関するリスナーの知覚を知らせるスペクトルキューとを導入する。残響キューの更なるシミュレーションは、リスナーに対する音の知覚距離を知らせ、部屋又は他の環境の具体的な物理特性に関する情報を提供することができる。結果として得られる2チャネル信号は、オーディオコンテンツのバイノーラル再生プレゼンテーションと呼ばれる。
しかし、このアプローチは、いくつかの課題を提示する。第1に、データネットワーク上での没入型コンテンツフォーマット(高チャネルカウント又はオブジェクトベース)の配信は、伝送のためのバンド幅の増大及びこの配信の関連コスト/技術的制限に関連している。第2に、再生デバイスでHRIR/HRTFを活用することは、配信されたコンテンツにおいてチャネル又はオブジェクトごとに信号処理が適用されることを必要とする。これは、レンダリングの複雑性が、配信されるチャネル/オブジェクトごとに線形に増大することを暗示する。処理出力及びバッテリ寿命が限られているモバイルデバイスは、ヘッドホンオーディオ再生のために使用されるデバイスであることが多いため、そのようなレンダリングシナリオでは、バッテリ寿命が短縮され、他のアプリケーション(すなわち、グラフィック/ビデオレンダリング)に利用可能な処理が制限されることになる。
デバイス側の要求を減らすための1つの解決策は、送信前にHRIR/HRTFによる畳み込みを実行して(「バイノーラル事前レンダリング(binaural pre-rendering)」)、デバイスでのオーディオレンダリングの計算の複雑さと、送信に必要な全体的なバンド幅との両方を減らす(つまり、より多くのチャネル又はオブジェクト数の代わりに、2つのオーディオチャネルを配信する)。ただし、バイノーラル事前レンダリングには追加的な制約が付随する。コンテンツに導入された様々な空間キュー(ITDD、ILD、及びスペクトルキュー)は、ラウドスピーカでオーディオを再生するときにも存在し、有効にこれらのキューが2回適用されることになり、最終的なオーディオ再生に不要なアーティファクトを導入する。
国際公開第2017/035281号(特許文献1)には、再生システムがコンテンツ生成/符号化中に想定された指定レイアウトに一致しないときに、第1信号表現を第2信号表現に変換するための変換パラメータの形でメタデータを使用する方法が開示されている。この方法の適用の具体例は、ステレオラウドスピーカ対を対象とした信号表現としてオーディオを符号化し、この信号表現がヘッドホン再生を対象とした信号プレゼンテーションに変換されることを可能にするメタデータ(パラメータ)を導入することである。この場合に、メタデータは、HRIR/BRIR畳み込みプロセスから生じる空間キューを導入する。このアプローチによれば、再生デバイスは、比較的に低いコスト(バンド幅及び処理出力)で2つの異なる信号プレゼンテーションへのアクセスを有する。
国際公開第2017/035281号
有意な改善を示すものの、特許文献1のアプローチにはいくつかの欠点がある。例えば、音の空間的位置を知覚する人間の能力を表すITD、ILD及びスペクトルキューは、個々の身体的特性の違いにより、個人間で異なっている。具体的に、耳、頭部、及び導体のサイズ及び形状がキューの性質を決定し、全てのキューが個人間で実質的に異なる可能性がある。各個人は、空間聴覚の目的で、身体と音響環境との相互作用から生じる特定のキューを最適に活用することを時間をかけて学んできた。従って、メタデータパラメータによってもたらされるプレゼンテーション変換は、変換によって復号化プロセス中に導入される空間キューが音響環境との自然に発生する相互作用に一致しないということで、かなりの数の個人にとってヘッドホンでの最適なオーディオ再生につながらない場合がある。
費用効率的な方法で再生デバイスにおける信号プレゼンテーションの改善された個別化をもたらす満足な解決法を提供することが望まれている。
従って、本発明の目的は、再生デバイスにおける信号プレゼンテーションの改善された個別化を提供することである。更なる目的は、再生品質及び効率を最適化するとともに、ヘッドホン再生中にチャネル及びオブジェクトベースの空間オーディオコンテンツの創造的意図を保つことである。
本発明の第1の態様に従って、この及び他の目的は、1つ以上のオーディオ成分を含む入力オーディオコンテンツを符号化する方法であって、各オーディオ成分が空間的位置に関連する、前記方法において、
前記入力オーディオコンテンツのオーディオ再生プレゼンテーションをレンダリングするステップであり、前記オーディオ再生プレゼンテーションがオーディオ再生システムでの再生を目的とする、ステップと、
M組の伝達関数を前記入力オーディオコンテンツに適用することによってM個のバイノーラル表現の組を決定するステップであり、前記M組の伝達関数が個別的なバイノーラル再生プロファイルの集合に基づく、ステップと、
前記オーディオ再生プレゼンテーションから前記M個のバイノーラル表現のM個の近似への変換を可能にするM組の変換パラメータを計算するステップであり、前記M組の変換パラメータが、前記M個のバイノーラル表現と前記M個の近似との間の差を最適化することによって決定される、ステップと、
前記オーディオ再生プレゼンテーション及び前記M組の変換パラメータを、デコーダへの伝送のために符号化するステップと
を有する方法によって達成される。
本発明の第2の態様に従って、この及び他の目的は、個人化されたバイノーラル再生プレゼンテーションをオーディオビットストリームから復号する方法であって、
オーディオ再生システムでの再生を目的としたオーディオ再生プレゼンテーションを受け取り復号するステップと、
前記オーディオ再生プレゼンテーションからM個のバイノーラル表現のM個の近似への変換を可能にするM組の変換パラメータを受け取り復号するステップであり、前記M組の変換パラメータが、前記M個のバイノーラル表現と、前記オーディオ再生プレゼンテーションへの前記変換パラメータの適用によって生成された前記M個の近似との間の差を最小限にするようエンコーダによって決定されたものである、ステップと、
前記M組の変換パラメータを、変換パラメータの個人化された組に結合するステップと、
前記変換パラメータの個人化された組を前記オーディオ再生プレゼンテーションに適用して、前記個人化されたバイノーラル再生プレゼンテーションを生成するステップと
を有する方法によって達成される。
本発明の第3の態様に従って、この及び他の目的は、1つ以上のオーディオ成分を含む入力オーディオコンテンツを符号化するエンコーダであって、各オーディオ成分が空間的位置に関連する、前記エンコーダにおいて、
前記入力オーディオコンテンツのオーディオ再生プレゼンテーションをレンダリングする第1レンダラであり、前記オーディオ再生プレゼンテーションがオーディオ再生システムでの再生を目的とする、前記第1レンダラと、
M組の伝達関数を前記入力オーディオコンテンツに適用することによってM個のバイノーラル表現の組を決定する第2レンダラであり、前記M組の伝達関数が個別的なバイノーラル再生プロファイルの集合に基づく、前記第2レンダラと、
前記オーディオ再生プレゼンテーションから前記M個のバイノーラル表現のM個の近似への変換を可能にするM組の変換パラメータを計算するパラメータ推定モジュールであり、前記M組の変換パラメータが、前記M個のバイノーラル表現と前記M個の近似との間の差を最適化することによって決定される、前記パラメータ推定モジュールと、
前記オーディオ再生プレゼンテーション及び前記M組の変換パラメータを、デコーダへの伝送のために符号化する符号化モジュールと
を有するエンコーダによって達成される。
本発明の第4の態様に従って、この及び他の目的は、個人化されたバイノーラル再生プレゼンテーションをオーディオビットストリームから復号するデコーダであって、
前記オーディオビットストリームを受け取り、オーディオ再生システムでの再生を対象としたオーディオ再生プレゼンテーションと、前記オーディオ再生プレゼンテーションからM個のバイノーラル表現のM個の近似への変換を可能にするM組の変換パラメータとを復号する復号化モジュールであり、前記M組の変換パラメータが、前記M個のバイノーラル表現と、前記オーディオ再生プレゼンテーションへの前記変換パラメータの適用によって生成された前記M個の近似との間の差を最小限にするようエンコーダによって決定されたものである、前記復号化モジュール、
前記M組の変換パラメータを、変換パラメータの個人化された組に結合する処理モジュールと、
前記変換パラメータの個人化された組を前記オーディオ再生プレゼンテーションに適用して、前記個人化されたバイノーラル再生プレゼンテーションを生成するプレゼンテーション変換モジュールと
を有するデコーダによって達成される。
本発明のいくつかの態様に従って、エンコーダ側で、複数の変換パラメータセット(複数のメタデータストリーム)は、入力されたオーディオのレンダリングされた再生プレゼンテーションとともに符号化される。複数のメタデータストリームは、入力された没入型オーディオコンテンツのバイノーラル表現の組を、複数の(個別的な)聴覚プロファイル、デバイス伝達関数、HRTF又は個人間のHRTFの差を表すプロファイルを用いて決定することと、次いで、再生プレゼンテーションを発端として表現を近似するよう必要な変換パラメータを計算することとによって導出される変換パラメータ又はレンダリング係数の別個の組を表す。
本発明のいくつかの態様に従って、デコーダ(再生)側で、変換パラメータは、個々のリスナーのために彼らの聴覚プロファイル、選択されたヘッドホンデバイス及び/又はリスナー特有の空間キュー(ITD、ILD、スペクトルキュー)に関して最適化されたバイノーラル再生プレゼンテーションを提供するよう再生プレゼンテーションを変換するために使用される。これは、メタデータストリームに存在するデータの選択又は結合によって達成され得る。より具体的には、個人化されたプレゼンテージョンが、ユーザ特有の選択又は結合ルールの適用によって取得される。
変換パラメータを用いて、符号化された再生プレゼンテーションからのバイノーラル再生プレゼンテーションの近似を可能にする概念は、それ自体は目新しいものではなく、参照により本願に援用される上記の特許文献1でいくらか詳細に論じられている。
本発明の実施形態によれば、複数の、そのような変換パラメータセットは、個人化(personalization)を可能にするために用いられる。個人化されたバイノーラルプレゼンテーションは、その後に、所与のユーザのために、その所与のユーザの聴覚プロファイル、再生デバイス及びHRTFを可能な限り近く一致させることに関して実現され得る。
本発明は、バイノーラルプレゼンテーションが、従来の再生プレゼンテーションよりも大幅に、個人化からの恩恵を受け、変換パラメータの概念がそのような個人化の提供に対する費用効率的なアプローチを提供するという認識に基づいている。
本発明は、本発明の目下好適な実施形態を示す添付の図面を参照して、より詳細に記載される。
バイノーラル再生プレゼンテーションへのオーディオデータのレンダリングを表す。 本発明の実施形態に従うエンコーダ/デコーダシステムを概略的に示す。 本発明の更なる実施形態に従うエンコーダ/デコーダシステムを概略的に示す。
以下で開示されているシステム及び方法は、ソフトウェア、ファームウェア、ハードウェア又はそれらの組み合わせとして実装されてよい。ハードウェア実装では、タスクの分割は、物理ユニットへの分割に必ずしも対応しない。それとは反対に、1つの物理コンポーネントが複数の機能を備えていることがあり、1つのタスクがいくつかの物理コンポーネントによって協調して実行されることがある。あるコンポーネント又は全てのコンポーネントは、デジタル信号プロセッサ又はマイクロプロセッサによって実行されるソフトウェアとして実装されても、あるいは、ハードウェアとして又は特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(又は非一時的な媒体)及び通信媒体(又は一時的な媒体)を有し得るコンピュータ可読媒体で配布されてもよい。当業者によく知られているように、「コンピュータ記憶媒体」という用語は、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータなどの情報の記憶のための如何なる方法又は技術でも実装された揮発性及び不揮発性の両方のリムーバブル及び非リムーバブル媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ若しくは他のメモリ技術、CD-ROM、デジタル・バーサタイル・ディスク(DVD)若しくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又は他の磁気記憶デバイス、又は所望の情報を記憶するために使用可能であって、コンピュータによってアクセス可能であるあらゆる他の媒体を含むが、これらに限られない。更に、通信媒体が、通常、搬送波又は他の輸送メカニズムなどの変調されたデータ信号でコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータを具体化し、そして、如何なる情報配信媒体も含むことは、当業者によく知られている。
ここで開示されている実施形態は、ステレオ又はヘッドホン(バイノーラル)再生に適しているチャネル及び/又はオブジェクトベースのオーディオの低ビットレートかつ低複雑性の符号化/復号化のための方法を提供する。これは、(1)特定のオーディオ再生システム(例えば、ラウドスピーカ、しかしこの限りでない。)を対象としたオーディオ再生プレゼンテーションをレンダリングすることと、(2)ヘッドホンでの再生を対象としたバイノーラルプレゼンテーションの組へのそのオーディオ再生プレゼンテーションの変換を可能にする追加のメタデータを加えることとによって、達成される。バイノーラルプレゼンテーションは、定義上、2チャネルプレゼンテーション(ヘッドホン用)であるが、オーディオ再生プレゼンテーションは、原理上、いくつでもチャネルを有することができる(例えば、ステレオラウドスピーカプレゼンテーション用には2、又は5.1ラウドスピーカプレゼンテーション用には5)。しかし、具体的な実施形態の以下の記載では、オーディオ再生プレゼンテーションは、常に2チャネルプレゼンテーション(ステレオ又はバイノーラル)である。
以下の開示で、「バイノーラル表現」という表現は、バイノーラル情報を表す信号対のためにも使用されるが、必ずしもそれ自体が再生を目的しているとは限らない。例えば、いくつかの実施形態において、バイノーラルプレゼンテーション(presentation)は、バイノーラル表現(representations)の結合によって、又はバイノーラルプレゼンテーションとバイノーラル表現とを結合することによって、達成され得る。
[個別的に最適化されたバイノーラルオーディオのラウドスピーカ互換配信]
図2に表されている第1実施形態において、エンコーダ11は、マルチチャネル又はオブジェクトベースの(没入型)オーディオコンテンツ10を再生プレゼンテーションZ、ここでは、2つのラウドスピーカでの再生を対象とした2チャネル(ステレオ)プレゼンテーションにレンダリングする第1レンダリングモジュール12を含む。エンコーダ11は、データベース14に記憶されているHRTF(又はその導出されたデータ)を用いて、オーディオコンテンツをM個のバイノーラルプレゼンテーションYm(m=1,・・・,M)の組にレンダリングする第2レンダリングモジュール13を更に含む。エンコーダ11は、再生プレゼンテーションZ及びM個のバイノーラルプレゼンテーションYmの組を受け取るよう接続されており、バイノーラルプレゼンテーションYmの夫々についてのプレゼンテーション変換パラメータWmの組を計算するよう構成されたパラメータ推定モジュール15を更に有する。プレゼンテーション変換パラメータWmは、ラウドスピーカプレゼンテーションZからのM個のバイノーラルプレゼンテーションの近似を可能にする。最後に、エンコーダ11は、再生プレゼンテーションZ及びパラメータセットWmを、符号化されたビットストリーム20に結合する実際の符号化モジュール16を含む。
図2は、デコーダ21を更に表す。デコーダ21は、ビットストリーム20を再生プレゼンテーションZ及びM個のパラメータセットWmに復号する復号化モジュール22を含む。デコーダ21は、m組の変換パラメータを受け、M個のパラメータセットWmの選択又は結合であるひと組の変換パラメータW’を出力するよう構成される処理モジュール23を更に有する。処理モジュール23によって実行される選択又は結合は、結果として得られるバイノーラルプレゼンテーションY’を現在のリスナーのために最適化するよう構成される。それは、前に記憶されたユーザプロファイル24に基づいても、あるいは、ユーザにより制御されたプロセスであってもよい。
プレゼンテーション変換モジュール25は、変換パラメータW’をオーディオプレゼンテーションZに適用して、推定(個人化)されたバイノーラルプレゼンテーションY’を供給するよう構成される。
図2のエンコーダ/デコーダでの処理について、これより、更に詳細に論じる。
離散時間サンプルインデックスnを有する入力チャネル又はオブジェクトx[n]の組を考えると、ここではラウドスピーカチャネルの組である対応する再生プレゼンテーションZは、レンダラ12において、スピーカsに対するオブジェクト/チャネルiのゲインを表す振幅パニング(amplitude panning)ゲインgs,iを用いて生成される:
Figure 0007286876000001
入力コンテンツがチャネル又はオブジェクトベースであるか否かに応じて、振幅パニングゲインgs,iは、一定であるか(チャネルベース)、あるいは、時間変化するか(オブジェクトベース)(関連する時間変化する位置メタデータの関数として)のどちらかである。
並行して、ヘッドホンプレゼンテーション信号対Ym={Yl,m,Yr,m}が、レンダラ13において、各入力i及び各プレゼンテーションmについて一対のフィルタh{l,r},m,iを用いてレンダリングされる:
Figure 0007286876000002
ここで、(○)は、畳み込み演算子である。各入力i及び各プレゼンテーションmについてのフィルタh{l,r},m,iの対は、方位角(azimuth angle)(α)及び仰角(elevation angle)(θ)によって与えられる音源から両耳までの、プレゼンテーションmごとの音響伝達関数(頭部伝達関数,HRTF)を記述するM個のHRTFセットh{l,r},m(α,θ)から導出される。一例として、様々なプレゼンテーションmは、個々のリスナーを参照してもよく、HRTFセットは、各リスナーの人体測定特性の差を反映する。便宜上、あるプレゼンテーションのN個の時間連続的なサンプルのフレームは、次の通りに表記される:
Figure 0007286876000003
上記の特許文献1で記載されているように、推定モジュール15は、プレゼンテーションYmとその推定(ハット付き)Ymとの間の平均平方二乗誤差(RMSE)を最小化することによって、プレゼンテーションmについてのプレゼンテーション変換データWmを計算する:
Figure 0007286876000004
これは、次を与える:
Figure 0007286876000005
ここで、(*)は、複素共役転置演算子であり、イプシロンは、正則化パラメータである。プレゼンテーションmごとのプレゼンテーション変換データWmは、エンコーダ出力ビットストリーム20を形成するように、符号化モジュール16によって、再生プレゼンテーションZとともに符号化される。
デコーダ側では、復号化モジュール22が、ビットストリーム20を再生プレゼンテーションZ及びプレゼンテーション変換データWmに復号する。処理ブロック23は、ユーザ入力又は前に記憶されたユーザプロファイル24に基づき、個人化されたプレゼンテーション変換W’を供給するようプレゼンテーション変換データWmの全て又は一部を使用又は結合する。近似された個人化された出力バイノーラルプレゼンテーションY’が、次いで:
Figure 0007286876000006
によって与えられる。
一例で、ブロック23での処理は、単純に、M個のパラメータセットWmからの1つの選択である。しかし、個人化されたプレゼンテーション変換W’は、代替的に、M組のプレゼンテーション変換係数Wmの加重線形結合として定式化さえ得る:
Figure 0007286876000007
ここで、重みamは、少なくとも2人のリスナーについて異なっている。
個人化されたプレゼンテーション変換W’は、モジュール25において、推定された個人化されたバイノーラルプレゼンテーションY’を供給するよう、復号された再生プレゼンテーションZに適用される。
変換は、線形ゲインN×2行列の適用であってよく、Nは、オーディオ再生プレゼンテーションにおけるチャネルの数であり、行列の要素は、変換パラメータによって形成される。この場合に、変換が2チャネルラウドスピーカプレゼンテーションから2チャネルバイノーラルプレゼンテーションへであるとき、行列は2×2行列になる。
個人化されたバイノーラルプレゼンテーションY’は、ヘッドホンの組26へ出力されてよい。
[デフォルトのバイノーラルプレゼンテーションをサポートする個別的なプレゼンテーション]
ラウドスピーカ互換プレゼンテーションが不要である場合には、再生プレゼンテーションは、ラウドスピーカプレゼンテーションの代わりに、バイノーラルプレゼンテーションであってよい。このバイノーラルプレゼンテーションは、デフォルトのHRTFで、例えば、全てのリスナーのための万能的(on-size-fits-all)解決法を提供することを目的としているHRTFで、レンダリングされてよい。デフォルトのHRTF
Figure 0007286876000008
の例は、ダミー頭部又はマネキンから測定又は導出されるものである。デフォルトのHRTFセットの他の例は、個々のリスナーからのセット全体で平均化されたセットである。その場合に、信号対Zは:
Figure 0007286876000009
によって与えられる。
[カノニカルHRTFセットに基づいた実施形態]
他の実施形態では、複数のバイノーラルプレゼンテーションを生成するために使用されるHRTFは、それらが広範な人体測定の変動性をカバーするように選択される。その場合に、エンコーダで使用されるHRTFは、それらのHRTFセットのうちの1つ以上の組み合わせがリスナーの幅広い集団にわたる如何なる既存のHRTFセットも記述することができるということで、カノニカル(canonical)HRTFセットと呼ばれ得る。カノニカルHRTFの数は、周波数によって異なることがある。カノニカルHRTFセットは、HRTFセットをクラスタリングし、外れ値を識別し、多変量密度推定を行い、頭部の直径及び耳介のサイズなどの人体測定属性の極値を使用することによって、決定され得る。
カノニカルHRTFを用いて生成されたビットストリームは、個人化されたプレゼンテーションを復号化及び再生するための選択又は結合ルールを必要とする。特定のリスナーのHRTFが知られており、左(l)及び右(r)の耳並びに方向iについてのh’{l,r},iによって与えられる場合に、例えば、ある距離基準に基づいてリスナーのHRTFセットに最も類似している復号化のためのカノニカルHRTFセットm’を使用することを選択することができる。例えば:
Figure 0007286876000010
代替的に、HRTFセットmとリスナーのHRTFh’{l,r},iとの間の相関などの類似性メトリックに基づいて、カノニカルHRTFにわたって重みamを用いて加重平均を計算することができる:
Figure 0007286876000011
[HRTF基底関数の限られた組を使用する実施形態]
カノニカルHRTFを使用する代わりに、HRTFの母集団は、固定基底関数の組と、特定のHRTFセットを再構成するためのユーザ依存の重みの組とに分解されてもよい。この概念は、それ自体は目新しいものではなく、文献に記載されている。そのような直交基底関数を計算する1つの方法は、論文Zhang, Mengfan & Ge, Zhongshu & Liu, Tiejun & Wu, Xihong & Qu, Tianshu著,Modeling of Individual HRTFs based on Spatial Principal Component Analysis(2019年)で論じられている主成分分析(principal component analysis,PCA)を使用することである。
プレゼンテーション変換という観点でのこのような基底関数の適用は今までになく、限られた数のプレゼンテーション変換データセットを使用して個人化のための高い精度を取得することができる。
例となる実施形態として、個人化されたHRTFセット
Figure 0007286876000012
は、基底関数mごとに重みamを用いたHRTF基底関数bl,m,i、br,m,iの加重和によって構成され得る:
Figure 0007286876000013
レンダリングのために、個人化されたバイノーラルプレゼンテーションは、次いで:
Figure 0007286876000014
によって与えられる。
和を並べ替えると、これは、基底関数の夫々から生成された寄与の加重和と同じであることが分かる:
Figure 0007286876000015
基底関数寄与は、バイノーラル情報を表すが、それらが、リスナー間の差しか表さないために、単独で聞かれることを意図されていないという意味で、プレゼンテーションではない。それらは、バイノーラル差分表現と呼ばれ得る。
図3のエンコーダ/デコーダシステムを参照して、エンコーダ31において、バイノーラルレンダラ32は、データベース14からの選択されたHRTFセットを入力オーディオ10に適用することによって一次(デフォルト)バイノーラル表現Zをレンダリングする。並行して、レンダラ33は:
Figure 0007286876000016
に従って、データベース34からの基底関数を入力オーディオ10に適用することによって様々なバイノーラル差分表現をレンダリングする。
m組の変換係数Wmは、モジュール35によって、複数のバイノーラル表現を基底関数寄与で置換することによって、上述されたのと同じように計算される:
Figure 0007286876000017
符号化モジュール36は、(デフォルト)バイノーラル表現Z及びm組の変換パラメータWmを符号化して、ビットストリーム40に含める。
デコーダ側では、変換パラメータが、バイノーラル差分表現の近似を計算するために使用され得る。これらは、次いで、個人化されたバイノーラル差分(ハット付き)Yを供給するよう、個々のリスナー間で異なる重みamを用いて加重和として結合され得る:
Figure 0007286876000018
あるいは、更に簡単に、同じ結合技術が、プレゼンテーション変換係数に適用されてもよい:
Figure 0007286876000019
従って、個人化されたバイノーラル差分を生成するための個人化されたプレゼンテーション変換行列(ハット付き)W’は:
Figure 0007286876000020
によって与えられる。
図3のデコーダ41に表されているのが、このアプローチである。ビットストリーム40は、復号化モジュール42で復号され、m個のパラメータセットWmは、個人化されたプレゼンテーション変換(ハット付き)W’を取得するよう、処理ブロック43において、個人プロファイル情報44を用いて処理される。変換(ハット付き)W’は、プレゼンテーション変換モジュール45において、個人化されたバイノーラル差分
Figure 0007286876000021
を取得するよう、デフォルトのバイノーラルプレゼンテーションに適用される。上記と同様に、変換(ハット付き)W’は、線形ゲイン2×2行列であってよい。
個人化されたバイノーラルプレゼンテーションY’は、:
Figure 0007286876000022
に従って、このバイノーラル差分をデフォルトのバイノーラルプレゼンテーションZに適用することによって、最終的に取得される。
これを記載する他の方法は:
Figure 0007286876000023
に従って、全体の個人化変換W’を定義することである。
類似しているが代替的であるアプローチにおいて、第1のプレゼンテーション変換データの組(バー付き)Wは、ラウドスピーカ再生を対象とした第1再生プレゼンテーションZをバイノーラルプレゼンテーションに変換し得る。このとき、バイノーラルプレゼンテーションは、個人化されていないデフォルトのバイノーラルプレゼンテーションである。
この場合に、ビットストリーム40は、ステレオ再生プレゼンテーションと、プレゼンテーション変換パラメータ(バー付き)Wと、上述されたようにバイノーラル差分を表すm組の変換パラメータWmとを含む。デコーダでは、デフォルトの(一次)バイノーラルプレゼンテーションが、第1のプレゼンテーション変換パラメータの組(バー付き)Wを再生プレゼンテーションZに適用することによって取得される。個人化されたバイノーラル差分は、図3を参照して記載されているのと同じようにして取得され、この個人化されたバイノーラル差分は、デフォルトのバイノーラルプレゼンテーションに加えられる。この場合に、全体の変換行列W’は:
Figure 0007286876000024
になる。
[複数のプレゼンテーション変換データセットの選択及び効率的なコーディング]
プレゼンテーション変換データWmは、通常、プレゼンテーション又は基底関数の範囲に対して、時間及び周波数の関数として計算される。更なるデータ削減技術がなければ、変換データに関連した、結果として得られるデータレートは、相当なものになる可能性がある。
しばしば適用される1つの技術は、差動コーディング(differential coding)を用いることである。変換データセットが、時間、周波数、又は変換セットmのいずれかにわたって差分値を計算するときに、より低いエントロピを有している場合には、ビットレートの大幅な削減が達成され得る。そのような差動コーディングは、あらゆるフレームに対して、ビットレート最小化制約に基づいて、時間、周波数、及び/又はプレゼンテーション差分エントロピーコーディングを適用するための選択を行うことができるという意味で、動的に適用され得る。
プレゼンテーション変換メタデータの伝送ビットレートを低減するための他の方法は、プレゼンテーション変換セットの数を周波数により変化させることである。例えば、HRTFのPCA分析により、個々のHRFTは、低周波数で少数の基底関数を使用して正確に再構成可能であり、高周波数ではより多くの基底関数を必要とすることが明らかになった。
その上、エンコーダは、プレゼンテーション変換データの特定の組を動的に、例えば、時間及び周波数の関数として、送信又は破棄することを選択することができる。例えば、基底関数プレゼンテーションのいくつかは、処理されているコンテンツに応じて、特定のフレーム又は周波数範囲で非常に低い信号エネルギを有する場合がある。
特定の基本プレゼンテーション信号のエネルギが低い理由の直感的な例の1つは、リスナーの前にある1つのオブジェクトがアクティブであるシーンである。このようなコンテンツの場合、リスナーの頭部のサイズを表す如何なる基底関数も、プレゼンテーション全体にほとんど影響しない。このようなコンテンツの場合、バイノーラルレンダリングはリスナー間で非常に似ているからである。従って、この単純なケースでは、エンコーダは、そのような母集団の違いを表す基底関数プレゼンテーション変換データを破棄することを選択してもよい。
より一般的には、基底関数プレゼンテーションyl,m、yr,mが:
Figure 0007286876000025
としてレンダリングされる場合に、各基底関数プレゼンテーションのエネルギσ を計算することができる:
Figure 0007286876000026
ここで、<・>は、期待値演算子である。その後に、対応するエネルギσ が特定の閾値を下回る場合には、関連する基底関数プレゼンテーション変換データWmを破棄することができる。この閾値は、例えば、絶対エネルギ閾値又は相対エネルギ閾値(他の基底関数プレゼンテーションエネルギに対する)であってよく、あるいは、レンダリングされたシーンについて推定された聴覚マスキング曲線に基づいてもよい。
[むすび]
特許文献1に記載されているように、上記のプロセスは、通常、時間及び周波数の関数
として用いられる。そのために、プレゼンテーション変換係数Wmの別個の組が、通常、多数の周波数バンド及び時間フレームについて、計算及び伝送される。時間及び周波数において必要なセグメンテーションを提供する適切な変換又はフィルタバンクには、離散フーリエ変換(discrete Fourier transform)、直交ミラーフィルタバンク(quadrature mirror filter banks,QMF)、聴覚フィルタバンク、ウェーブレット変換、などがある。DFTの場合には、サンプルインデックスnはDFTビンインデックスを表し得る。一般性を失うことなく、表記を簡単にするために、時間及び周波数インデックスは、本明細書の全体を通じて省略されている。
プレゼンテーション変換データが2つ以上の周波数バンドについて生成及び伝送される場合に、セット数はバンド間で変化し得る。例えば、低周波数では、2又は3のプレゼンテーション変換データセットしか送信しなくてもよい。高周波数では、他方で、HRTFデータが、低周波数(例えば、1kHz未満)でよりも高周波数(例えば、4kHz超)で被験者間でかなり大きい分散を通常は示すという事実により、プレゼンテーション変換データセットの数は、大幅に多くなる可能性がある。
その上、プレゼンテーション変換データセットの数は、時間によって変化し得る。バイノーラル信号がリスナー間で事実上同じであるフレーム又はサブバンドが存在する場合があるので、変換パラメータの組は1つで十分である。潜在的なより複雑な性質の他のフレームでは、より多数のプレゼンテーション変換データセットが、全てのユーザの全ての可能なHRTFのカバレッジを提供するために必要とされる。
ここで使用されるように、別段指定されない限りは、共通のオブジェクトを記載するための序数形容詞「第1」、「第2」、「第3」などの使用は、同じオブジェクトの異なるインスタンスが参照されていることを単に示しており、そのように記載されているオブジェクトが時間的に、空間的に、順位付け、又は何らかの他の方法で所与の順序になければならないことを暗示する意図はない。
以下の特許請求の範囲及び本明細書中の記載において、「有する」(comprising)、「から成る」(comprised of)、又は「有する」(which comprises)との用語のうちのいずれか1つは、続く要素/特徴を少なくとも含むが他を除外しないことを意味する非限定的用語(open term)である。よって、「有する」(comprising)との用語は、特許請求の範囲で使用される場合に、その後に挙げられている手段又は要素又はステップを限定するものとして解釈されるべきではない。例えば、「A及びBを有するデバイス」(a device comprising A and B)との表現の範囲は、要素A及びBからのみ成るデバイスに限定されるべきではない。本明細書で使用される「含む」(including)又は「含む」(which includes若しくはthat includes)との用語のうちのいずれか1つも、その用語に続く要素/特徴を少なくとも含むが他を除外しないことをやはり意味する非限定的用語である。よって、「含む」(including)は、「有する」(comprising)と同義であり、それを意味する。
ここで使用されるように、「例となる」(exemplary)という用語は、品質を示すのではなく、例を与える意味で使用される。すなわち、「例となる実施形態」は、必然的に例となる品質の実施形態であるのとは対照的に、例として与えられている実施形態である。
当然ながら、本発明の例となる実施形態の上記の記載において、本発明の様々な特徴は、開示を合理化し、様々な発明態様のうちの1つ以上の理解を助ける目的で、単一の実施形態、図、又はその説明にまとめられることがある。ただし、この開示の方法は、請求されている発明が各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映していると解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、発明の態様は、前述の単一の開示された実施形態の全ての特徴よりも少ない特徴にある。従って、詳細な説明に続く特許請求の範囲は、これにより、この詳細な説明に明示的に組み込まれ、各請求項は、本発明の別個の実施形態としてそれ自体で成り立つ。
更に、ここで記載されているいくつかの実施形態は、他の実施形態に含まれるいくつかの特徴を含むが他の特徴を含まず、一方で、異なる実施形態の特徴の組み合わせは、本発明の範囲内にあり、当業者によって理解されるように、異なる実施形態を形成するよう意図される。例えば、以下の特許請求の範囲では、請求されている実施形態のいずれかが、任意の組み合わせで使用されてもよい。
更に、実施形態のいくつかは、コンピュータシステムのプロセッサによって又は機能を実行する他の手段によって実装され得る方法又は方法の要素の組み合わせとして本明細書で記載される。よって、そのような方法又は方法の要素を実行する必須の命令を持ったプロセッサは、方法又は方法の要素を実行する手段を形成する。更に、装置の実施形態の、本明細書で記載される要素は、本発明を実行するためにその要素によって実行される機能を実行する手段の例である。
本明細書で与えられている説明では、多数の具体的な詳細が示されている。しかし、本発明の実施形態は、これらの具体的な詳細によらずとも実施され得ることが理解される。他の事例では、よく知られている方法、構造及び技術は、この説明の理解を不明りょうにしないように示されていない。
同様に、留意されるべきは、「結合される」(coupled)との用語は、特許請求の範囲で使用される場合に、直接的な接続にのみ限定するものとして解釈されるべきではない。「結合される」及び「接続される」(connected)という用語は、それらの派生物とともに、使用されることがある。理解されるべきは、これらの用語は互いに同義語として意図されたものではないことである。よって、「デバイスBへ結合されたデバイスA」(a device A coupled to a device B)との表現の範囲は、デバイスAの出力がデバイスBの入力へ直接に接続されるデバイス又はシステムに限定されるべきではない。それは、Aの出力とBの入力との間に、他のデバイス又は手段を含む経路を含んでもよい経路が存在することを意味する。「結合される」は、2つ以上の要素が直接的な物理的又は電気的接触状態にあること、あるいは、2つ以上の要素が互いに直接に接してはないが、それでもなお互いに協働又は相互作用することを意味し得る。
このように、本発明の具体的な実施形態が記載されてきたが、当業者は、他の及び更なる変更が、本発明の精神から逸脱せずに、それらの実施形態に行われてもよく、全てのそのような変更及び改良は発明の範囲内にあるものとして請求されることが意図される、と認識するだろう。例えば、上記の如何なる式も、使用される可能性がある手順の代表的なものにすぎない。ブロック図に機能を追加又は削除したり、機能ブロック間で操作を交換したりすることもできる。ステップは、本発明の範囲内で説明される方法に追加又は削除され得る。例えば、図示されている実施形態では、エンドポイントデバイスは、一対のオンイヤーヘッドホンとして図示されている。しかしながら、本発明は、インイヤーヘッドホン及び補聴器などの他のエンドポイントデバイスにも適用可能である。
[関連出願への相互参照]
本願は、2019年9月23日付けで出願された米国特許仮出願第62/904,070号と、2020年6月2日付けで出願された米国特許仮出願第63/033,367号とに対する優先権を主張するものである。これらの出願は、参照によって本願に援用される。

Claims (29)

  1. 1つ以上のオーディオ成分を含む入力オーディオコンテンツを符号化する方法であって、各オーディオ成分が空間的位置に関連する、前記方法において、
    前記入力オーディオコンテンツのオーディオ再生プレゼンテーションをレンダリングするステップであり、前記オーディオ再生プレゼンテーションがオーディオ再生システムでの再生を目的とする、ステップと、
    M組の伝達関数を前記入力オーディオコンテンツに適用することによってM個のバイノーラル表現の組を決定するステップであり、前記M組の伝達関数が個別的なバイノーラル再生プロファイルの集合に基づく、ステップと、
    前記オーディオ再生プレゼンテーションから前記M個のバイノーラル表現のM個の近似への変換を可能にするM組の変換パラメータを計算するステップであり、前記M組の変換パラメータが、前記M個のバイノーラル表現と前記M個の近似との間の差を最適化することによって決定される、ステップと、
    前記オーディオ再生プレゼンテーション及び前記M組の変換パラメータを、デコーダへの伝送のために符号化するステップと
    を有する方法。
  2. 前記M個のバイノーラル表現は、ヘッドホンでの再生を目的とするM個の個別的なバイノーラル再生プレゼンテーションであり、
    前記M個の個別的なバイノーラル再生プレゼンテーションは、M個の個別的な再生プロファイルに対応する、
    請求項1に記載の方法。
  3. 前記M個のバイノーラル表現は、ヘッドホンでの再生を目的とするM個のカノニカルバイノーラル再生プレゼンテーションであり、
    前記M個のカノニカルバイノーラル再生プレゼンテーションは、個別的な再生プロファイルのより大きい集合に相当する、
    請求項1に記載の方法。
  4. 前記M組の伝達関数は、M組の頭部伝達関数である、
    請求項1に記載の方法。
  5. 前記オーディオ再生プレゼンテーションは、ヘッドホンで再生されることを目的としている一次バイノーラル再生プレゼンテーションであり、
    前記M個のバイノーラル表現は、前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているM個の信号対である、
    請求項1に記載の方法。
  6. 前記オーディオ再生プレゼンテーションは、ラウドスピーカシステムを対象とし、
    前記M個のバイノーラル表現は、
    ヘッドホンで再生されることを目的としている一次バイノーラル再生プレゼンテーションと、
    前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているM-1個の信号対と
    を含む、
    請求項1に記載の方法。
  7. 前記M個の信号対は、M個の主成分分析(PCA)基底関数によってレンダリングされる、
    請求項5に記載の方法。
  8. 前記伝達関数の組の数Mは、異なる周波数バンドごとに異なる、
    請求項1に記載の方法。
  9. 変換パラメータの個人化された組を前記オーディオ再生プレゼンテーションに適用するステップが、線形ゲインN×2行列を前記オーディオ再生プレゼンテーションに適用することによって実行され、
    Nは、前記オーディオ再生プレゼンテーションにおけるチャネルの数であり、
    前記行列の要素は、前記変換パラメータによって形成される、
    請求項1に記載の方法。
  10. 個人化されたバイノーラル再生プレゼンテーションをオーディオビットストリームから復号する方法であって、
    オーディオ再生システムでの再生を目的としたオーディオ再生プレゼンテーションを受け取り復号するステップと、
    前記オーディオ再生プレゼンテーションからM個のバイノーラル表現のM個の近似への変換を可能にするM組の変換パラメータを受け取り復号するステップであり、前記M組の変換パラメータが、前記M個のバイノーラル表現と、前記オーディオ再生プレゼンテーションへの前記変換パラメータの適用によって生成された前記M個の近似との間の差を最小限にするようエンコーダによって決定されたものである、ステップと、
    前記M組の変換パラメータを、変換パラメータの個人化された組に結合するステップと、
    前記変換パラメータの個人化された組を前記オーディオ再生プレゼンテーションに適用して、前記個人化されたバイノーラル再生プレゼンテーションを生成するステップと
    を有する方法。
  11. 前記M組の変換パラメータを結合するステップは、当該M組のうちの1つとして、個人化された組を選択することを含む、
    請求項10に記載の方法。
  12. 前記M組の変換パラメータを結合するステップは、当該M組の線形結合として、個人化された組を形成することを含む、
    請求項10に記載の方法。
  13. 前記オーディオ再生プレゼンテーションは、ヘッドホンで再生されることを目的としている一次バイノーラル再生プレゼンテーションであり、
    前記M組の変換パラメータは、前記オーディオ再生プレゼンテーションから、前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているM個の信号対への変換を可能にし、
    前記変換パラメータの個人化された組を前記一次バイノーラル再生プレゼンテーションに適用するステップは、
    前記変換パラメータの個人化された組を前記一次バイノーラル再生プレゼンテーションへ線形ゲイン2×2行列として適用することによって、個人化されたバイノーラル差分を形成することと、
    前記個人化されたバイノーラル差分と、前記一次バイノーラル再生プレゼンテーションとを足し合わせることと
    を含む、
    請求項10に記載の方法。
  14. 前記オーディオ再生プレゼンテーションは、ラウドスピーカで再生されることを目的とし、
    前記M組の変換パラメータのうちの第1組は、前記オーディオ再生プレゼンテーションから一次バイノーラル再生プレゼンテーションの近似への変換を可能にし、変換パラメータの残りの組は、前記オーディオ再生プレゼンテーションから、前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているM-1個の信号対への変換を可能にし、
    前記変換パラメータの個人化された組を前記一次バイノーラル再生プレゼンテーションに適用するステップは、
    前記第1組の変換パラメータを前記オーディオ再生プレゼンテーションに適用することによって一次バイノーラル再生プレゼンテーションを形成することと、
    前記変換パラメータの個人化された組を前記一次バイノーラル再生プレゼンテーションに線形ゲイン2×2行列として適用することによって、個人化されたバイノーラル差分を形成することと、
    前記個人化されたバイノーラル差分と、前記一次バイノーラル再生プレゼンテーションとを足し合わせることと
    を含む、
    請求項10に記載の方法。
  15. 前記第1組の変換パラメータを前記オーディオ再生プレゼンテーションに適用するステップは、線形ゲインN×2行列を前記オーディオ再生プレゼンテーションに適用することによって実行され、
    Nは、前記オーディオ再生プレゼンテーションにおけるチャネルの数であり、前記行列の要素は、前記変換パラメータによって形成される、
    請求項14に記載の方法。
  16. 1つ以上のオーディオ成分を含む入力オーディオコンテンツを符号化するエンコーダであって、各オーディオ成分が空間的位置に関連する、前記エンコーダにおいて、
    前記入力オーディオコンテンツのオーディオ再生プレゼンテーションをレンダリングする第1レンダラであり、前記オーディオ再生プレゼンテーションがオーディオ再生システムでの再生を目的とする、前記第1レンダラと、
    M組の伝達関数を前記入力オーディオコンテンツに適用することによってM個のバイノーラル表現の組を決定する第2レンダラであり、前記M組の伝達関数が個別的なバイノーラル再生プロファイルの集合に基づく、前記第2レンダラと、
    前記オーディオ再生プレゼンテーションから前記M個のバイノーラル表現のM個の近似への変換を可能にするM組の変換パラメータを計算するパラメータ推定モジュールであり、前記M組の変換パラメータが、前記M個のバイノーラル表現と前記M個の近似との間の差を最適化することによって決定される、前記パラメータ推定モジュールと、
    前記オーディオ再生プレゼンテーション及び前記M組の変換パラメータを、デコーダへの伝送のために符号化する符号化モジュールと
    を有するエンコーダ。
  17. 前記第2レンダラは、ヘッドホンでの再生を目的とするM個の個別的なバイノーラル再生プレゼンテーションをレンダリングするよう構成され、
    前記M個の個別的なバイノーラル再生プレゼンテーションは、M個の個別的な再生プロファイルに対応する、
    請求項16に記載のエンコーダ。
  18. 前記第2レンダラは、ヘッドホンでの再生を目的とするM個のカノニカルバイノーラル再生プレゼンテーションをレンダリングするよう構成され、
    前記M個のカノニカルバイノーラル再生プレゼンテーションは、個別的な再生プロファイルのより大きい集合に相当する、
    請求項16に記載のエンコーダ。
  19. 前記第1レンダラは、ヘッドホンで再生されることを目的としている一次バイノーラル再生プレゼンテーションをレンダリングするよう構成され、
    前記第2レンダラは、前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているM個の信号対をレンダリングするよう構成される、
    請求項16に記載のエンコーダ。
  20. 前記第1レンダラは、ラウドスピーカシステムを対象としたオーディオ再生プレゼンテーションをレンダリングするよう構成され、
    前記第2レンダラは、
    ヘッドホンで再生されることを目的としている一次バイノーラル再生プレゼンテーションと、
    前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているM-1個の信号対と
    をレンダリングするよう構成される、
    請求項16に記載のエンコーダ。
  21. 個人化されたバイノーラル再生プレゼンテーションをオーディオビットストリームから復号するデコーダであって、
    前記オーディオビットストリームを受け取り、オーディオ再生システムでの再生を対象としたオーディオ再生プレゼンテーションと、前記オーディオ再生プレゼンテーションからM個のバイノーラル表現のM個の近似への変換を可能にするM組の変換パラメータとを復号する復号化モジュールであり、前記M組の変換パラメータが、前記M個のバイノーラル表現と、前記オーディオ再生プレゼンテーションへの前記変換パラメータの適用によって生成された前記M個の近似との間の差を最小限にするようエンコーダによって決定されたものである、前記復号化モジュール、
    前記M組の変換パラメータを、変換パラメータの個人化された組に結合する処理モジュールと、
    前記変換パラメータの個人化された組を前記オーディオ再生プレゼンテーションに適用して、前記個人化されたバイノーラル再生プレゼンテーションを生成するプレゼンテーション変換モジュールと
    を有するデコーダ。
  22. 前記処理モジュールは、前記M組のうちの1つを前記個人化された組として選択するよう構成される、
    請求項21に記載のデコーダ。
  23. 前記処理モジュールは、個人化された組を前記M組の線形結合として形成するよう構成される、
    請求項21に記載のデコーダ。
  24. 前記オーディオ再生プレゼンテーションは、ヘッドホンで再生されることを目的としている一次バイノーラル再生プレゼンテーションであり、
    前記M組の変換パラメータは、前記オーディオ再生プレゼンテーションから、前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているM個の信号対への変換を可能にし、
    前記プレゼンテーション変換モジュールは、
    前記変換パラメータの個人化された組を前記一次バイノーラル再生プレゼンテーションへ線形ゲイン2×2行列として適用することによって、個人化されたバイノーラル差分を形成し、
    前記個人化されたバイノーラル差分と、前記一次バイノーラル再生プレゼンテーションとを足し合わせる
    よう構成される、
    請求項21に記載のデコーダ。
  25. 前記オーディオ再生プレゼンテーションは、ラウドスピーカで再生されることを目的とし、
    前記M組の変換パラメータのうちの第1組は、前記オーディオ再生プレゼンテーションから一次バイノーラル再生プレゼンテーションの近似への変換を可能にし、変換パラメータの残りの組は、前記オーディオ再生プレゼンテーションから、前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているM-1個の信号対への変換を可能にし、
    前記プレゼンテーション変換モジュールは、
    前記第1組の変換パラメータを前記オーディオ再生プレゼンテーションに適用することによって一次バイノーラル再生プレゼンテーションを形成し、
    前記変換パラメータの個人化された組を前記一次バイノーラル再生プレゼンテーションに線形ゲイン2×2行列として適用することによって、個人化されたバイノーラル差分を形成し、
    前記個人化されたバイノーラル差分と、前記一次バイノーラル再生プレゼンテーションとを足し合わせる
    よう構成される、
    請求項21に記載のデコーダ。
  26. プロセッサによって実行される場合に請求項1乃至9のうちいずれか一項に記載の方法を実行するよう構成されたコンピュータプログラムコード部分を含むコンピュータプログラム。
  27. 一時的なコンピュータ可読媒体に記憶されている、
    請求項26に記載のコンピュータプログラム。
  28. プロセッサによって実行される場合に請求項10乃至15のうちいずれか一項に記載の方法を実行するよう構成されたコンピュータプログラムコード部分を含むコンピュータプログラム。
  29. 一時的なコンピュータ可読媒体に記憶されている、
    請求項28に記載のコンピュータプログラム。
JP2022517390A 2019-09-23 2020-09-22 変換パラメータによるオーディオ符号化/復号化 Active JP7286876B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962904070P 2019-09-23 2019-09-23
US62/904,070 2019-09-23
US202063033367P 2020-06-02 2020-06-02
US63/033,367 2020-06-02
PCT/US2020/052056 WO2021061675A1 (en) 2019-09-23 2020-09-22 Audio encoding/decoding with transform parameters

Publications (2)

Publication Number Publication Date
JP2022548697A JP2022548697A (ja) 2022-11-21
JP7286876B2 true JP7286876B2 (ja) 2023-06-05

Family

ID=72753008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022517390A Active JP7286876B2 (ja) 2019-09-23 2020-09-22 変換パラメータによるオーディオ符号化/復号化

Country Status (5)

Country Link
US (1) US20220366919A1 (ja)
EP (1) EP4035426A1 (ja)
JP (1) JP7286876B2 (ja)
CN (1) CN114503608B (ja)
WO (1) WO2021061675A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023220024A1 (en) * 2022-05-10 2023-11-16 Dolby Laboratories Licensing Corporation Distributed interactive binaural rendering

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090043591A1 (en) 2006-02-21 2009-02-12 Koninklijke Philips Electronics N.V. Audio encoding and decoding
WO2017035281A2 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
JP2018502535A (ja) 2014-12-04 2018-01-25 ガウディ オーディオ ラボラトリー,インコーポレイティド バイノーラルレンダリングのためのオーディオ信号処理装置及びその方法
US20180233156A1 (en) 2015-08-25 2018-08-16 Dolby Laboratories Licensing Corporation Audio Decoder and Decoding Method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005223713A (ja) * 2004-02-06 2005-08-18 Sony Corp 音響再生装置、音響再生方法
EP2489206A1 (fr) * 2009-10-12 2012-08-22 France Telecom Traitement de donnees sonores encodees dans un domaine de sous-bandes
US9426589B2 (en) * 2013-07-04 2016-08-23 Gn Resound A/S Determination of individual HRTFs
US10390171B2 (en) * 2018-01-07 2019-08-20 Creative Technology Ltd Method for generating customized spatial audio with head tracking

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090043591A1 (en) 2006-02-21 2009-02-12 Koninklijke Philips Electronics N.V. Audio encoding and decoding
JP2009527970A (ja) 2006-02-21 2009-07-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化及び復号
JP2018502535A (ja) 2014-12-04 2018-01-25 ガウディ オーディオ ラボラトリー,インコーポレイティド バイノーラルレンダリングのためのオーディオ信号処理装置及びその方法
WO2017035281A2 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
US20180233156A1 (en) 2015-08-25 2018-08-16 Dolby Laboratories Licensing Corporation Audio Decoder and Decoding Method
JP2018529121A (ja) 2015-08-25 2018-10-04 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法

Also Published As

Publication number Publication date
CN114503608A (zh) 2022-05-13
US20220366919A1 (en) 2022-11-17
CN114503608B (zh) 2024-03-01
WO2021061675A1 (en) 2021-04-01
EP4035426A1 (en) 2022-08-03
JP2022548697A (ja) 2022-11-21

Similar Documents

Publication Publication Date Title
JP4874555B2 (ja) 聴覚情景の後部残響音ベースの合成
KR101215872B1 (ko) 송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의파라메트릭 코딩
KR102149216B1 (ko) 오디오 신호 처리 방법 및 장치
US8976972B2 (en) Processing of sound data encoded in a sub-band domain
US11798567B2 (en) Audio encoding and decoding using presentation transform parameters
RU2643630C1 (ru) Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи
US8880413B2 (en) Binaural spatialization of compression-encoded sound data utilizing phase shift and delay applied to each subband
JP5227946B2 (ja) フィルタ適応周波数分解能
EP3895451B1 (en) Method and apparatus for processing a stereo signal
US10764709B2 (en) Methods, apparatus and systems for dynamic equalization for cross-talk cancellation
US11950078B2 (en) Binaural dialogue enhancement
JP7286876B2 (ja) 変換パラメータによるオーディオ符号化/復号化
Baumgarte et al. Design and evaluation of binaural cue coding schemes
US11470435B2 (en) Method and device for processing audio signals using 2-channel stereo speaker
KR20050060552A (ko) 입체 음향 시스템 및 입체 음향 구현 방법
KR102195976B1 (ko) 오디오 신호 처리 방법 및 장치
EA042232B1 (ru) Кодирование и декодирование звука с использованием параметров преобразования представления
Aarts Applications of DSP for sound reproduction improvement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220419

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230524

R150 Certificate of patent or registration of utility model

Ref document number: 7286876

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150