JP2022539217A - 離散指向性情報の表現、符号化、および復号化のための方法、装置、およびシステム - Google Patents

離散指向性情報の表現、符号化、および復号化のための方法、装置、およびシステム Download PDF

Info

Publication number
JP2022539217A
JP2022539217A JP2021578040A JP2021578040A JP2022539217A JP 2022539217 A JP2022539217 A JP 2022539217A JP 2021578040 A JP2021578040 A JP 2021578040A JP 2021578040 A JP2021578040 A JP 2021578040A JP 2022539217 A JP2022539217 A JP 2022539217A
Authority
JP
Japan
Prior art keywords
directional
unit vectors
unit
directivity
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021578040A
Other languages
English (en)
Inventor
テレンティブ,レオン
ファーシュ,クリストフ
フィッシャー,ダニエル
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2022539217A publication Critical patent/JP2022539217A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本開示は、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを処理する方法に関する。指向性情報は、第1のセットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含む。本開示は、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを符号化および復号化する方法にさらに関する。【選択図】図3

Description

関連出願への相互参照
本願は、以下の優先権出願:2019年7月2日に出願された米国仮出願第62/869,622号(参照番号:D19038USP1)および2019年7月2日に出願された欧州出願第19183862.2号(参照番号:D19038EP)に基づく優先権を主張するものであり、両出願の開示内容を全て本願に援用する。
本開示は、少なくとも1つの音源についての離散指向性(discrete directivity)情報(指向性データ)を含むオーディオコンテンツを処理および符号化するための方法および装置を提供することに関する。特に、本開示は、離散指向性情報の表現、符号化、および復号化に関する。
現実世界の音源は、自然または人工(例えば、スピーカ、楽器、声、機械装置)のどちらについても、非等方的に音を放射する。音源の複雑な放射パターン(または、「指向性」)の特徴付けを行うことは、特にビデオゲームおよび仮想/拡張現実アプリケーションなどのインタラクティブな環境下において、適切なレンダリングを行うために極めて重要であり得る。これらの環境において、ユーザは、一般に、方向性(directional)オーディオオブジェクトの周囲を歩行し、したがって、生成された音に対するユーザの聴覚立体感(auditory perspective)を変化させることによって、方向性オーディオオブジェクトと相互作用することができる。ユーザはまた、仮想オブジェクトをつかみ、動的に回転させることができ得るが、やはり、対応する音源の放射パターンの異なる方向におけるレンダリングが必要となる。音源から聴取者への直接伝播効果のよりリアルなレンダリングに加えて、放射特性も、音源とその環境(例えば、ビデオゲームにおける仮想環境)とのより高次の音響結合において大きな役割を果たすことになるので、反響音に影響を与える。その結果、知覚される距離などの他の空間的な手がかりに影響を与えることになる。
音源の放射パターンまたはそのパラメトリック表現は、メタデータとして、6自由度(6DoF)オーディオレンダラに送信される必要がある。放射パターンは、例えば、球調和分解または離散ベクトルデータによって表すことができる。
しかし、従来の離散指向性表現を直接に適用することは、6DoFレンダリングに対して最適未満であることが分かっている。
したがって、方向性音源の離散指向性データ(指向性情報)の改善された表現および/または改善された符号化方式のための方法および装置が求められている。
本開示の一局面は、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを処理する方法に関する。方法は、符号化の場合には、エンコーダにおいて行われ得る。あるいは、方法は、レンダリングの前に、デコーダにおいて行われ得る。音源は、例えば、方向性音源であり得る、かつ/または、オーディオオブジェクトに関係し得る。指向性情報は、離散指向性情報であり得る。さらに、指向性情報は、オーディオオブジェクトについてのメタデータの一部であり得る。指向性情報は、第1のセットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含み得る。第1の指向性単位ベクトルは、3D球体の表面上に非一様に分散され得る。単位ベクトルとは、単位長さのベクトルを意味する。方法は、所望の表現正確さ(representation accuracy)(向き表現正確さ)に基づいて、3D球体の表面に配置するための単位ベクトルの個数を、カウント数として、決定する工程を含み得る。決定する工程はまた、3D球体の表面上に配置するための、生成されるべき単位ベクトルの個数を、所望の表現正確さに基づいて決定することに関係すると言え得る。決定された単位ベクトルの個数は、単位ベクトルからなる1セットのカーディナリティ(cardinality)として定義され得る。所望の表現正確さは、例えば、所望の角度正確さまたは所望の方向正確さであり得る。さらに、所望の表現正確さは、所望の角度分解能(例えば、度単位)に対応し得る。方法は、決定された個数の単位ベクトルを3D球体の表面上に分散させるために、所定の配置アルゴリズム(arrangement algorithm)を使用することによって第2のセットの第2の指向性単位ベクトルを生成する工程をさらに含み得る。所定の配置アルゴリズムは、単位ベクトルを3D球体の表面上に近似的に一様に球分散させるためのアルゴリズムであり得る。所定の配置アルゴリズムは、配置/生成されるべき単位ベクトルの個数に応じてスケール変化し得る(すなわち、個数は、所定の配置アルゴリズムの制御パラメータであり得る)。方法は、第2の指向性単位ベクトルについて、1グループの第1の指向性単位ベクトルのうちの、それぞれの第2の指向性単位ベクトルに最も近い1つ以上の第1の指向性単位ベクトルの第1の指向性ゲインに基づいて、関連する第2の指向性ゲインを決定する工程をさらに含み得る。第1の指向性単位ベクトルのグループは、第1のセットの第1の指向性単位ベクトルにおける、適切なサブグループまたは適切なサブセットであり得る。
上記のような構成において、本提案による方法は、オブジェクト・ツー・聴取者向き変化(object-to-listener orientation change)に対して「一様な応答」を提供するために、補間の必要なく、デコーダにおいてレンダリングすることを可能にする離散指向性情報の表現(すなわち、決定された個数および第2の指向性ゲイン)を提供する。さらに、知覚関連指向性単位ベクトルは、表現内には格納されないが、デコーダにおいて計算できるため、離散指向性情報の表現は、低ビットレートで符号化できる。最後に、本提案による方法は、レンダリング時の計算複雑性を低減できる。
いくつかの実施形態において、単位ベクトルの個数は、単位ベクトルが、所定の配置アルゴリズムによって3D球体の表面上に分散された際に、第1のセットの第1の指向性単位ベクトルによって示される方向を最大で所望の表現正確さで近似するように、決定されてもよい。
いくつかの実施形態において、単位ベクトルの個数は、単位ベクトルが所定の配置アルゴリズムによって3D球体の表面上に分散された際に、第1のセットにおける第1の指向性単位ベクトルのそれぞれについて、単位ベクトルのうちの、それぞれの第1の指向性単位ベクトルに対する方向差が所望の表現正確さよりも小さい少なくとも1つの単位ベクトルが存在するように、決定されてもよい。方向差は、例えば、角距離であり得る。方向差は、適切な方向差基準(norm)に関して定義され得る。
いくつかの実施形態において、単位ベクトルの個数を決定する工程は、表現正確さと、所定の配置アルゴリズムによって3D球体の表面上に分散され、第1のセットの第1の指向性単位ベクトルによって示される方向を最大でそれぞれの表現正確さで近似する、対応の単位ベクトルの個数との予め確立された関数的関係を使用する工程を含んでもよい。
いくつかの実施形態において、関連する第2の指向性ゲインを所与の第2の指向性単位ベクトルについて決定する工程は、第2の指向性ゲインを、所与の第2の指向性単位ベクトルに最も近い(本開示の趣旨において、近さは、適切な距離基準によって定義される)第1の指向性単位ベクトルに関連する第1の指向性ゲインに設定する工程を含んでもよい。あるいは、この決定は、例えば、ステレオ投射または三角測量を含み得る。
いくつかの実施形態において、所定の配置アルゴリズムは、3D球体上の第1の点から、第1の点に対向する、3D球体上の第2の点に延びるらせん状経路を3D球体の表面上に重ね合わせ、単位ベクトルをらせん状経路に沿って連続して配置する工程を含んでもよい。ここで、単位ベクトルの個数に基づいて、らせん状経路の間隔、および/または、らせん状経路に沿って隣り合うそれぞれ2つの単位ベクトル間のオフセットが決定され得る。
いくつかの実施形態において、単位ベクトルの個数を決定する工程は、単位ベクトルの個数を所定の個数のうちの1つにマッピングする(丸める)工程をさらに含んでもよい。所定の個数は、ビットストリームパラメータによって送信できる。例えば、ビットストリームパラメータは、directivity_precisionパラメータなどの2ビットパラメータであり得る。符号化の場合、方法は、決定された個数をビットストリームパラメータの値に符号化する工程を含み得る。
いくつかの実施形態において、所望の表現正確さは、人である聴取者(例えば、人である基準聴取者)の知覚指向性感度閾値のモデルに基づいて決定されてもよい。
いくつかの実施形態において、第2のセットの第2の指向性単位ベクトルのカーディナリティは、第1のセットの第1の指向性単位ベクトルのカーディナリティよりも小さくてもよい。これは、所望の表現正確さが第1のセットの第1の指向性単位ベクトルによって提供される表現正確さよりも小さいことを含意し得る。
いくつかの実施形態において、第1および第2の指向性単位ベクトルは、球座標系またはデカルト座標系において表されてもよい。例えば、第1の指向性単位ベクトルは、方位-仰角平面内に一様に分散され得る。これは、3D球体の表面上の非一様(球)分散を含意する。第2の指向性単位ベクトルは、3D球体の表面上に(準)一様に分散されるような様態で、方位-仰角平面内に非一様に分散され得る。
いくつかの実施形態において、第1のセットの第1の指向性単位ベクトルおよび関連する第1の指向性ゲインによって表される指向性情報は、SOFA(Spatially Oriented Format for Acoustics)フォーマットで格納されてもよい。SOFAフォーマットは、Audio Engineering Societyによって規格さされたフォーマット(例えば、AES69-2015を参照)を含む。付加として、または、代替として、第2のセットの第1の指向性単位ベクトルおよび関連する第2の指向性ゲインによって表される指向性情報がSOFAフォーマットで格納されてもよい。
いくつかの実施形態において、方法は、オーディオコンテンツを符号化する方法であってもよく、決定された単位ベクトルの個数を第2の指向性ゲインとともにビットストリーム内に符号化する工程をさらに含んでもよい。方法は、ビットストリームを出力する工程をさらに含んでもよい。これは、本提案による方法の少なくとも一部がエンコーダ側で行われることを仮定する。
本開示の別の局面は、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化する方法に関する。指向性情報は、3D球体の表面上に近似的に一様に分散された単位ベクトルの個数を示す個数(例えば、カウント数)と、各そのような単位ベクトルについて、関連する指向性ゲインとを含み得る。単位ベクトルは、所定の配置アルゴリズムによって、3D球体の表面上に分散されると仮定され得る。ここで、所定の配置アルゴリズムは、単位ベクトルを3D球体の表面上に近似的に一様に球分散させるためのアルゴリズムであり得る。方法は、オーディオコンテンツを含むビットストリームを受信する工程を含み得る。方法は、個数および指向性ゲインをビットストリームから抽出する工程をさらに含み得る。方法は、上記個数の単位ベクトルを3D球体の表面上に分散させるために、所定の配置アルゴリズムを使用することによって1セットの指向性指向性単位ベクトルを決定(例えば、生成)する工程をさらに含み得る。この意味において、単位ベクトルの個数は、所定の配置アルゴリズムの制御パラメータとして機能し得る。方法は、各指向性単位ベクトルをその指向性ゲインに関連づける工程をさらに含み得る。この局面は、本提案による方法がエンコーダ側とデコーダ側との間で分散されることを仮定する。
いくつかの実施形態において、方法は、音源から聴取者位置の方向を指す所与のターゲット指向性単位ベクトルについて、1グループの指向性単位ベクトルのうちの、ターゲット指向性単位ベクトルに最も近い1つ以上の指向性単位ベクトルの関連する指向性ゲインに基づいて、ターゲット指向性単位ベクトルについてのターゲット指向性ゲインを決定する工程をさらに含んでもよい。指向性単位ベクトルのグループは、指向性単位ベクトルのセットの適切なサブグループまたは適切なサブセットであり得る。
いくつかの実施形態において、ターゲット指向性単位ベクトルについてのターゲット指向性ゲインを決定する工程は、ターゲット指向性ゲインを、ターゲット指向性単位ベクトルに最も近い指向性単位ベクトルに関連する指向性ゲインに設定する工程を含んでもよい。
本開示の別の局面は、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化する方法に関する。指向性情報は、第1セットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含み得る。方法は、オーディオコンテンツを含むビットストリームを受信する工程を含み得る。方法は、ビットストリームから、第1のセットの指向性単位ベクトルおよび関連する第1の指向性ゲインを抽出する工程をさらに含み得る。方法は、3D球体の表面上に配置するための単位ベクトルの個数を、カウント数として、所望の表現正確さに基づいて決定する工程をさらに含み得る。方法は、決定された個数の単位ベクトルを3D球体の表面上に分散させるために、所定の配置アルゴリズムを使用することによって第2のセットの第2の指向性単位ベクトルを生成する工程をさらに含み得る。ここで、所定の配置アルゴリズムは、単位ベクトルを3D球体の表面上に近似的に一様に球分散させるためのアルゴリズムであり得る。方法は、第2の指向性単位ベクトルについて、1グループの第1の指向性単位ベクトルのうちの、それぞれの第2の指向性単位ベクトルに最も近い1つ以上の第1の指向性単位ベクトルの第1の指向性ゲインに基づいて、関連する第2の指向性ゲインを決定する工程をさらに含み得る。方法は、音源から聴取者位置の方向を指す所与のターゲット指向性単位ベクトルについて、1グループの第2の指向性単位ベクトルのうちの、ターゲット指向性単位ベクトルに最も近い1つ以上の第2の指向性単位ベクトルの関連する第2の指向性ゲインに基づいて、ターゲット指向性単位ベクトルについてのターゲット指向性ゲインを決定する工程をさらに含み得る。第2の指向性単位ベクトルのグループは、第2のセットの第2の指向性単位ベクトルにおける適切なサブグループまたは適切なサブセットであり得る。この局面は、本提案による方法のすべてがデコーダ側において行われることを仮定する。
いくつかの実施形態において、ターゲット指向性単位ベクトルについてのターゲット指向性ゲインを決定する工程は、ターゲット指向性ゲインを、ターゲット指向性単位ベクトルに最も近い第2の指向性単位ベクトルに関連する第2の指向性ゲインに設定する工程を含んでもよい。
いくつかの実施形態において、方法は、ビットストリームから、第2のセットの指向性単位ベクトルが生成されるべきかどうかの指示を抽出する工程をさらに含んでもよい。この指示は、1ビットのフラグ、例えば、directivity_typeパラメータであり得る。方法は、指示が第2のセットの指向性単位ベクトルが生成されるべきであることを示す場合、単位ベクトルの個数を決定し、第2のセットの第2の指向性単位ベクトルを生成する工程をさらに含んでもよい。そうでなければ、単位ベクトルの個数および(第2の)指向性ゲインは、ビットストリームから抽出され得る。
本開示の別の局面は、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを処理するための装置に関する。指向性情報は、第1セットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含み得る。装置は、上記第1の局面およびその実施形態のいずれかの方法の工程を行うように構成されたプロセッサを含み得る。
本開示の別の局面は、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化する装置である。指向性情報は、3D球体の表面上に近似的に一様に分散された単位ベクトルの個数(例えば、カウント数)を示す個数と、各そのような単位ベクトルについて、関連する指向性ゲインとを含み得る。単位ベクトルは、所定の配置アルゴリズムによって、3D球体の表面上に分散されると仮定され得る。ここで、所定の配置アルゴリズムは、単位ベクトルを3D球体の表面上に近似的に一様に球分散させるためのアルゴリズムであり得る。装置は、上記第2の局面およびその実施形態のいずれかの方法の工程を行うように構成されたプロセッサを含み得る。
本開示の別の局面は、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化する装置に関する。指向性情報は、第1セットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含み得る。装置は、上記第3の局面およびその実施形態のいずれかの方法の工程を行うように構成されたプロセッサを含み得る。
本開示の別の局面は、プロセッサによって実行された際に、プロセッサに上記第1~3の局面およびその実施形態のいずれかのうちのいずれか1つの方法を行わせる命令を含むコンピュータプログラムに関する。
本開示の別の局面は、先行する局面のコンピュータプログラムを格納するコンピュータ読み取り可能媒体に関する。
本開示の別の局面は、プロセッサに対する命令を格納するメモリに接続されたプロセッサを含むオーディオデコーダに関する。プロセッサは、上記の局面または実施形態のそれぞれ1つに係る方法を行うように構成され得る。
本開示の別の局面は、プロセッサに対する命令を格納するメモリに接続されたプロセッサを含むオーディオエンコーダに関する。プロセッサは、上記の局面または実施形態のそれぞれ1つに係る方法を行うように構成され得る。
本開示のさらに局面は、対応するコンピュータプログラムおよびコンピュータ読み取り可能記憶媒体に関する。
方法工程および装置特徴が様々に相互に交換可能であることが理解される。特に、開示された方法の詳細は、その方法の工程の一部または全部を実行するように構成された装置として実装でき、その逆もしかりであることが当業者に理解される。特に、方法に関して言及されたそれぞれの文言は、対応する装置に同様に適用されること、またその逆もしかりであることが理解される。
以下に、本開示の実施形態の例を添付の図面を参照して説明する。図面において、同様または類似の要素は、同様の参照番号で示す。
図1Aは、離散指向性単位ベクトルおよび関連する指向性ゲインを含む指向性情報の表現の例を模式的に例示する図である。 図1Bは、離散指向性単位ベクトルおよび関連する指向性ゲインを含む指向性情報の表現の例を模式的に例示する図である。 図1Cは、離散指向性単位ベクトルおよび関連する指向性ゲインを含む指向性情報の表現の例を模式的に例示する図である。 図2は、指向性単位ベクトルおよびそれに関連する指向性ゲインの例を模式的に例示する図である。 図3は、所望の表現正確さに従う3D球体の表面上の指向性単位ベクトルの配置の例を模式的に例示する図である。 図4は、所望の表現正確さに従う3D球体の表面上の指向性単位ベクトルの配置の別の例を模式的に例示する図である。 図5は、単位ベクトルを3D球体の表面上に配置するための所与の配置アルゴリズムを仮定する場合の、単位ベクトルの個数と、得られる表現正確さとの関係を模式的に例示するグラフである。 図6は、単位ベクトルを3D球体の表面上に配置するための所与の配置アルゴリズムを仮定する場合の、単位ベクトルの個数と、得られる表現正確さとのモデル化された関係を模式的に例示するグラフである。 図7Aは、本開示の実施形態に係る、離散指向性単位ベクトルおよび関連する指向性ゲインを含む指向性情報の表現の例を模式的に例示する図である。 図7Bは、本開示の実施形態に係る、離散指向性単位ベクトルおよび関連する指向性ゲインを含む指向性情報の表現の例を模式的に例示する図である。 図7Cは、本開示の実施形態に係る、離散指向性単位ベクトルおよび関連する指向性ゲインを含む指向性情報の表現の例を模式的に例示する図である。 図8Aは、異なる表現正確さについての離散指向性情報の従来の表現を模式的に例示する図である。 図8Bは、本開示の実施形態に係る、異なる表現正確さについての離散指向性情報の表現を模式的に例示する図である。 図9は、本開示の実施形態に係る、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを処理または符号化する方法を、フローチャートの形態で模式的に例示する図である。 図10は、本開示の実施形態に係る、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化する方法の例を、フローチャートの形態で模式的に例示する図である。 図11は、本開示の実施形態に係る、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化する方法の別の例を、フローチャートの形態で模式的に例示する図である。 図12は、本開示の実施形態に係る、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを処理または符号化するための装置を模式的に例示する図である。 図13は、本開示の実施形態に係る、少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化するための装置を模式的に例示する図である。
上記のように、本開示において、同一または同様の要素は、同一または同様の参照番号によって示され、簡潔となるように繰り返しとなる説明は省略する。
音源についての指向性データ(指向性情報)を含むオーディオフォーマットは、オーディオコンテンツの6DoFレンダリングのために使用できる。これらのオーディオフォーマットのうちのいくつかにおいて、指向性データは、方向(例えば、方位、仰角)および大きさ(例えば、ゲイン)からなる1セットの離散ベクトルとして格納される(例えば、SOFAフォーマットで)離散指向性データである。しかし、上記のように、6DoFレンダリングのためにそのような従来の離散指向性表現を直接に適用することは、最適未満であることが分かっている。特に、従来の離散指向性表現について、ベクトル方向は、典型的には、3D空間において著しく非等距離間隔的であるため、レンダリング(例えば、6DoFレンダリング)の際に、ベクトル方向間の補間が必要となる。さらに、指向性データは、冗長性および無関係性を含むので、表現を符号化するためのビットストリームサイズが大きくなる。
音源の離散指向性情報の従来の表現の一例を図1A、図1B、および図1Cにおいて模式的に例示する。従来の表現は、複数の離散指向性単位ベクトル10および関連する指向性ゲイン15を含む。図1Aは、3D球体の表面に配置された指向性単位ベクトル10の3D図を図示する。本例において、これらの指向性単位ベクトル10は、方位-仰角平面内に一様に(すなわち、等距離に)配置されるので、3D球体の表面上において、一様でない球状配置となる。このことは、図1Bにおいて見て取れる。図1Bは、指向性単位ベクトル10が配置された3D球体を上から見た図を図示する。最後に、図1Cは、指向性単位ベクトル10についての指向性ゲイン15を図示し、これにより、音源の放射パターン(または、「指向性」)を示す。
方向は、デコーダ側(例えば、算出式、表、または他の予め演算されたルックアップ情報)において計算できるので、離散指向性情報の表現を向上できるが、そのような従来の表現は、心理音響学的観点からは不必要に微細な方向サンプリングを含み得る。
本開示は、1セットM個の離散音響源指向性ゲイン
Figure 2022539217000002
を含む音源(音響源)についての離散指向性情報の初期(例えば、従来)表現を仮定する。データ
Figure 2022539217000003
は、非一様に分散した指向性単位ベクトル
Figure 2022539217000004
上で定義される。ここで、各指向性単位ベクトル
Figure 2022539217000005
は、自身に関連する指向性ゲイン
Figure 2022539217000006
を有する。指向性単位ベクトルは、単位長さの指向性ベクトルである。指向性単位ベクトル
Figure 2022539217000007
、210、および、それに関連する指向性ゲイン
Figure 2022539217000008
を図2に模式的に例示する。そこにおいて、指向性単位ベクトル
Figure 2022539217000009
は、単位球体である3D球体の表面230上に配置される。1セットの指向性単位ベクトル
Figure 2022539217000010
は、本開示の趣旨において、第1のセットの第1の指向性単位ベクトルと称され得る。指向性ゲイン
Figure 2022539217000011
は、第1の指向性ベクトルのそれぞれに関連する第1の指向性ゲインと称され得る。
上記のように、指向性単位ベクトル
Figure 2022539217000012
の非一様な分散は、オブジェクト・ツー・聴取者向き変化において「一様な応答」を達成するために、デコーダ側での指向性ゲイン
Figure 2022539217000013
の補間を必要とする。
この問題に対処するために、本開示は、等価な(例えば、主観的に区別できない(subjectively non-distinguishable))6DoFオーディオレンダリング出力を生成するやり方で元のデータ
Figure 2022539217000014
を近似する最適化された指向性表現
Figure 2022539217000015
を提供することを目的とする。ここで、指向性単位ベクトル
Figure 2022539217000016
および/または指向性単位ベクトル
Figure 2022539217000017
は、例えば、球座標系またはデカルト座標系において表され得る。
最適化された表現
Figure 2022539217000018
は、指向性ベクトル
Figure 2022539217000019
の準一様分散上で定義される。これにより、ビットストリームサイズBsは、より小さくなる。すなわち、
Figure 2022539217000020
であり、かつ/または、演算上効率の良い復号化処理を可能にする。本開示の趣旨において、準一様とは、最大で所与の(例えば、所望の)表現正確さである一様を意味する。
そうするために、本開示は、オブジェクト・ツー・聴取者向きが一様な確率分散に対して任意であり、オブジェクト・ツー・聴取者向き表現正確さ(すなわち、所望の表現正確さ)が既知であり、例えば、人である聴取者(例えば、人である基準聴取者)の主観的指向性感度閾値に基づいて定義されると仮定する。
本開示は、少なくとも以下の技術的利点を提供する。第1の技術的利点は、3D空間(方位-仰角平面内ではない)における一様な指向性表現を利用する指向性情報のパラメータ化による利点に関する。第2の技術的利点は、指向性知覚に寄与しない(すなわち、向き表現正確さより低い)元のデータ
Figure 2022539217000021
に含まれる指向性情報の棄却から来る利点である。
一様な指向性表現は、簡単ではない。なぜなら、3D空間における
Figure 2022539217000022
個の方向の一様分散問題(例えば、3D単位球体の表面上でN個の点を等距離に間隔づけること)は、一般に、N>4の任意の数の場合、正確に解くことは不可能であり、かつ、3D単位球体上において(準)等距離に分散する点を生成する数値近似法は、非常に複雑であることが多い(例えば、反復的であり、確率論的であり、計算量が多い)からである。
元のデータ
Figure 2022539217000023
において無関係性および冗長性を低減することも簡単ではない。なぜなら、それは、心理音響学的な考慮に基づいた向き表現正確さの定義に大きく関係するからである。
少なくともこれらの技術的利点に基づいて、本開示は、デコーダ側での指向性ゲインの補間を回避し、6DoFレンダリングされた出力から得られる心理音響学的な指向性知覚を劣化させることなくビットレートを著しく低減することを可能にする一様な指向性表現の効率的な近似方法を提案する。
図9に、本開示の実施形態に係る、少なくとも1つの音源(例えば、オーディオオブジェクト)についての(離散的な)指向性情報を含むオーディオコンテンツを処理(または、符号化)する方法900の一例をフローチャートの形態で例示する。指向性情報は、上記において定義した指向性情報Gに関係すると仮定する。すなわち、第1のセットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含むとする。指向性情報Gは、音源(例えば、オーディオオブジェクト)についてのメタデータの一部として、オーディオコンテンツに含まれ得る。
初期工程(フローチャートに図示せず)として、方法900は、オーディオコンテンツを取得し得る。第1のセットの第1の指向性ベクトルおよび関連する第1の指向性ゲインによって表される指向性情報は、SOFAフォーマットで格納され得る。
工程S910において、3D球体の表面上の配置のための単位ベクトルの個数Nは、所望の表現正確さDに基づいて、カウント数として決定(例えば、計算)される。これは、(準)等距離に分散した方向または(指向性)単位ベクトル(例えば、所与の向き表現正確さDに基づく)の個数Nの決定(例えば、計算に基づく)に関係し得る。ここで、準等距離に分散されるとは、最大で表現正確さDで等距離に分散されることを意味すると理解される。表現正確さDは、例えば、角度正確さまたは方向正確さに対応し得る。この意味において、表現正確さは、角度分解能に対応し得る。いくつかの実装例において、所望の表現正確さは、人である聴取者(例えば、人である基準聴取者)の知覚指向性閾値のモデルに基づいて決定され得る。
特に、この工程の出力は、1つの整数、すなわち、指向性単位ベクトルの個数Nである。実際の指向性単位ベクトル生成は、後述の工程S920において行われる。言い換えると、工程S910は、生成されるべき1セットの指向性単位ベクトルのカーディナリティを決定する。単位ベクトルの個数Nは、N個の単位ベクトルを、例えば、所定の配置アルゴリズムによって、3D(単位)球体の表面上で(準)等距離に分散させた場合に、
Figure 2022539217000024
個の単位ベクトルが、最大で所望の表現正確さDで、第1のセットの第1の指向性ベクトルによって示される方向を近似するように、決定され得る。したがって、所定の配置アルゴリズムは、3D球体の表面上において単位ベクトルを近似的に一様に球分散させる(例えば、最大で表現正確さで)ためのアルゴリズムであり得る。そのような配置アルゴリズムの例は、後述する。換言すると、単位ベクトルの個数Nは、単位ベクトルが3D球体の表面上に所定の配置アルゴリズムによって分散された場合に、第1のセットにおける第1の指向性単位ベクトルのそれぞれについて、単位ベクトルのうちのうちの、それぞれの第1の指向性単位ベクトルに対する方向差が所望の表現正確さDよりも小さい少なくとも1つの単位ベクトルが存在するように、決定され得る。個数Nは、所定の配置アルゴリズムのためのスケーラ(すなわち、制御パラメータ)として機能し得る。すなわち、所定の配置アルゴリズムは、3D球体の表面上において任意個数の単位ベクトルを配置することに適し得る。
上記において、方向差は、例えば、角距離(例えば、角度)であり得る。方向差は、適切な方向差基準(norm)(例えば、関与する指向性単位ベクトルのスカラー積に応じた方向差基準)に関して定義され得る。
工程S920において、決定された個数Nの単位ベクトルを3D球体の表面上に分散させるために、所定の配置アルゴリズムを使用することによって、第2のセットの第2の指向性単位ベクトルが生成される。上記のように、所定の配置アルゴリズムは、単位ベクトルを3D球体の表面上において近似的に一様に球分散させるためのアルゴリズムである。第2の指向性単位ベクトルは、上記において定義した指向性単位ベクトル
Figure 2022539217000025
に対応し得る。したがって、この工程は、スケーラNによって制御される所定の配置アルゴリズムを使用して、指向性ベクトル
Figure 2022539217000026
を決定(例えば、計算に基づく)することに関係し得る。好ましくは、第2のセットの第2の指向性単位ベクトルのカーディナリティは、第1のセットの第1の指向性単位ベクトルのカーディナリティよりも小さい。これは、所望の表現正確さDが第1のセットの第1の指向性単位ベクトルによって与えられる表現正確さよりも小さいことを仮定する。
工程S930において、第2の指向性単位ベクトルについて、第1の指向性ゲインに基づいて、関連する第2の指向性ゲインが決定(例えば、計算)される。例えば、この決定は、第2の指向性単位ベクトルについて、1グループの第1の指向性単位ベクトルのうちの、当該第2の指向性単位ベクトルに最も近い1つ以上の第1の指向性単位ベクトルの第1の指向性ゲインに基づき得る。例えば、この決定は、ステレオ投射または三角測量を含み得る。特に簡単な実装例において、所与の第2の指向性単位ベクトルについての第2の指向性ゲインは、当該所与の第2の指向性ベクトルに最も近い(すなわち、当該所与の第2の指向性ベクトルへの方向距離が最も短い)第1の指向性単位ベクトルに関連する第1の指向性ゲインに設定される。一般に、この工程は、
Figure 2022539217000027
上で定義された元のデータGの
Figure 2022539217000028
上で定義された指向性近似
Figure 2022539217000029
を見つけることに関係し得る。第2のセットの第2の指向性ベクトルおよび関連する第2の指向性ゲインによって表される指向性情報は、SOFAフォーマットで存在し得る(例えば、格納され得る)。
方法900が符号化方法である場合、方法900は、後述の工程S940およびS950をさらに包含する。この場合、方法900は、エンコーダにおいて行われ得る。
工程S940において、決定された単位ベクトルの個数Nが第2の指向性ゲインとともにビットストリーム内に符号化される。これは、データ
Figure 2022539217000030
および個数Nを含むビットストリームを符号化することに関係し得る。第2のセットの第2の指向性ベクトルおよび関連する第2の指向性ゲインによって表される指向性情報は、SOFAフォーマットで存在し得る(例えば、格納され得る)。
工程S950において、ビットストリームは、出力される。例えば、ビットストリームは、デコーダに送信されるために、または、適切な記憶媒体に格納されるために出力され得る。
図10に、本開示の実施形態に係る、少なくとも1つの音源(例えば、オーディオオブジェクト)についての(離散的な)指向性情報を含むオーディオコンテンツを復号化する方法1000の例をフローチャートの形態で例示する。方法1000は、デコーダにおいて行われ得る。オーディオコンテンツは、例えば、後述の方法900の工程S910~S950によって、ビットストリーム内に符号化され得る。したがって、指向性情報は、3D球体の表面上に近似的に一様に分散された単位ベクトルの個数を示す個数N、および、各そのような単位ベクトルについての関連する指向性ゲイン(の表現)を含み得る。関連する指向性ゲインは、上記において定義した第2の指向性ゲイン(データ
Figure 2022539217000031
))であり得る。単位ベクトルは、所定の配置アルゴリズム(例えば、オーディオコンテンツを処理/符号化するために使用されたものと同じ所定の配置アルゴリズム)によって、3D球体の表面上に分散されると仮定され得る。ここで、所定の配置アルゴリズムは、単位ベクトルを3D球体の表面上に近似的に一様に球分散させるためのアルゴリズムである。
工程S1010において、オーディオコンテンツを含むビットストリームが受信される。
工程S1020において、ビットストリームから個数Nおよび指向性ゲインが抽出される(例えば、デマルチプレクサによって)。この工程は、データ
Figure 2022539217000032
および個数Nを含むビットストリームを復号化して、データ
Figure 2022539217000033
および個数Nを取得することに関係し得る。
工程S1030において、N個の単位ベクトルを3D球体の表面上に分散させるために、所定の配置アルゴリズムを使用することによって1セットの指向性単位ベクトルが決定される(例えば、生成される)。この工程は、上記工程S920と同じ様態で進行し得る。この工程において決定された各指向性単位ベクトルは、工程S1020においてビットストリームから抽出された指向性ゲインのうちの、自身に関連する指向性ゲインを有する。オーディオコンテンツの処理/符号化およびオーディオコンテンツの復号化において同じ所定の配置アルゴリズムが使用されると仮定すると、工程S1030において生成される指向性単位ベクトルは、工程S920において生成される第2の指向性単位ベクトルと同じ順序で決定される。このとき、工程S940において第2の指向性ゲインをビットストリーム内に順序付けられたセットとして符号化することによって、工程S1030において、指向性ゲインを、生成された指向性単位ベクトルのうちのそれぞれの指向性単位ベクトルに曖昧性なく割り当てることが可能になる。
工程S1040において、音源から聴取者の位置の方向を指す所与のターゲット指向性単位ベクトルについて、指向性単位ベクトルの関連する指向性ゲインに基づいて、当該ターゲット指向性単位ベクトルについてのターゲット指向性ゲインが決定(例えば、計算)される。例えば、ターゲット指向性ゲインは、1グループの指向性単位ベクトルうちの、ターゲット指向性単位ベクトルに最も近い1つ以上の指向性単位ベクトルの関連する指向性ゲインに基づいて決定(例えば、計算)され得る。
例えば、この決定は、ステレオ投射または三角測量を含み得る。特に簡単な実装例において、ターゲット指向性単位ベクトルについてのターゲット指向性ゲインは、ターゲット指向性ベクトルに最も近い指向性単位ベクトル(すなわち、ターゲット指向性ベクトルへの方向距離が最も短い指向性単位ベクトル)に関連するに指向性ゲインに設定される。一般に、この工程は、オーディオ指向性モデリングに対して
Figure 2022539217000034
上で定義された
Figure 2022539217000035
を使用することに関係し得る。
あるいは、上記に概要を記載した工程は、エンコーダ側とデコーダ側との間で異なるように分散できる。例えば、エンコーダが上記に列挙した方法900の動作を行うことができない状況の場合(例えば、提案された近似の正確さ(表現正確さ)をデコーダ側だけで定義できる場合)、必要な工程は、デコーダ側だけで行うことができる。このとき、ビットストリームサイズがより小さくなるわけではないが、レンダリングのためのデコーダ側において計算複雑性を節約するという利点を依然として有する。
図11に、本開示の実施形態に係る、少なくとも1つの音源(例えば、オーディオオブジェクト)についての(離散的な)指向性情報を含むオーディオコンテンツを復号化する方法1100の対応する例をフローチャートの形態で例示する。指向性情報は、上記において定義した指向性情報Gに関係すると仮定する。すなわち、第1のセットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含むとする。この意味において、方法1000とは反対に、方法1100は、指向性情報が本開示に係る方法によってまだ最適化されていないオーディオコンテンツを入力として受け取る。指向性情報Gは、オーディオコンテンツ内に、音源(例えば、オーディオオブジェクト)についてのメタデータの一部として含まれ得る。
工程S1110において、オーディオコンテンツを含むビットストリームが受信される。あるいは、オーディオコンテンツは、用途の場合に応じて、任意の他の可能な手段によって得られ得る。
工程S1120において、ビットストリームから第1のセットの指向性単位ベクトルおよび関連する第1の指向性ゲインが抽出される(または、用途の場合に応じて、任意の他の可能な手段によって得られる)。一例において、指向性ベクトルおよび関連する第1の指向性ゲインは、ビットストリームから多重分離(de-multiplex)され得る。
工程S1130において、3D球体の表面上での配置のためのベクトルの個数が所望の表現正確さに基づいてカウント数として決定される。この工程は、上記工程S910と同じ様態で進行し得る。
工程S1140において、決定された個数の単位ベクトルを3D球体の表面上に分散させるために、所定の配置アルゴリズムを使用することによって第2のセットの第2の指向性単位ベクトルが生成される。所定の配置アルゴリズムは、単位ベクトルを3D球体の表面上に近似的に一様に球分散させるためのアルゴリズムである。この工程は、上記工程S920と同じ様態で進行し得る。
工程S1150において、第2の指向性単位ベクトルについて、第1の指向性ゲインに基づいて、関連する第2の指向性ゲインが決定される。例えば、関連する第2の指向性ゲインは、第2の指向性単位ベクトルについて、1グループの第1の指向性単位ベクトのうちの、それぞれの第2の指向性単位ベクトルに最も近い1つ以上の指向性単位ベクトの第1の指向性ゲインに基づいて決定され得る。したがって、この工程は、上記工程S930と同じ様態で進行し得る。
工程S1160において、音源から聴取者の位置の方向を指す所与のターゲット指向性単位ベクトルについて、第2の指向性ゲインに基づいて、当該ターゲット指向性単位ベクトルについてのターゲット指向性ゲインが決定される。例えば、ターゲット指向性ゲインは、ターゲット指向性単位ベクトルについて、1グループの第2の指向性単位ベクトルのうちで、ターゲット指向性単位ベクトルに最も近い1つ以上の第2の指向性単位ベクトルの関連する第2の指向性ゲインに基づいて決定され得る。この工程は、上記工程S1040と同じ様態で進行し得る。
特に簡単な実装例において、ターゲット指向性単位ベクトルについてのターゲット指向性ゲインは、ターゲット指向性ベクトルに最も近い(すなわち、ターゲット指向性ベクトルへの方向距離が最も短い)第2の指向性単位ベクトルに関連する第2の指向性ゲインに設定される。
工程がエンコーダ側およびデコーダ側において行われるという柔軟性があり得るので、デコーダがどの工程を行うべきか(または、換言すると、指向性データがどのフォーマットを有しているか)をデコーダに送信することがさらに示唆される。これは、例えば、下記の表1に示す指向性表現送信のためのビットストリームシンタックスを使用して、1ビットの情報を用いて容易に行うことが可能である。指向性表現送信のための可能なビットストリーム変数定義を下記の表2に示す。
Figure 2022539217000036
Figure 2022539217000037
上記に従い、本開示の実施形態に係る、オーディオコンテンツを復号化する方法は、ビットストリームから、第2のセットの指向性単位ベクトルが生成されるべきかどうかの指示を抽出する工程を包含し得る。さらに、方法は、指示が第2のセットの指向性単位ベクトルが生成されるべきであることを示す場合(のみ)、単位ベクトルの個数を決定し、第2のセットの第2の指向性単位ベクトルを生成する工程を包含し得る。この指示は、1ビットのフラグ、例えば、上記に定義したdirectivity_typeパラメータであり得る。
本開示に係る方法を使用して、オブジェクト・ツー・聴取者向き変化に対して「一様な応答」を提供するために、6DoFレンダリング時に補間の必要がない離散指向性データの表現を生成できる。さらに、知覚的に関係する指向性単位ベクトル
Figure 2022539217000038
が格納されず、計算されるので、表現の送信において低ビットレートを達成できる。
本開示に係る方法によって達成できる音源の離散指向性データの表現の例を図7A、図7B、および図7Cに模式的に例示する。この表現は、図1A、図1B、および図1Cに模式的に例示した表現と比較されるべきである。図7Aは、3D球体の表面上に配置された(第2の)指向性単位ベクトル
Figure 2022539217000039
、20、の3D図を図示する。これらの指向性単位ベクトル20は、3D球体の表面上に空間的に一様に分散される。これは、方位-仰角平面内の非一様な分散を含意する。このことは、図7Bにおいて見て取れる。図7Bは指向性単位ベクトル20が配置された3D球体を上から見た図である。最後に、図7Cは、(第2の)指向性単位ベクトル20についての(第2の)指向性ゲイン25を図示する。これにより、音源の放射パターン(または、「指向性」)の指示が与えられる。このパターンの包絡線は、図1Cに図示するパターンの包絡線と実質的に同一であり、同じ量の関連心理音響学情報を含む。
図8Aおよび図8Bは、異なる
Figure 2022539217000040
個の指向性単位ベクトル(および対応する向き表現正確さD)について、音源の離散指向性データの従来の表現と、本開示の実施形態に係る表現とを比較するさらなる例を図示する。図8A(上側)は、従来の表現
Figure 2022539217000041
を例示する。図8B(下側)は、本開示の実施形態に係る表現
Figure 2022539217000042
を例示する。最も左のパネルは、
Figure 2022539217000043
かつ
Figure 2022539217000044
の場合に関係する。左から2番目のパネルは、
Figure 2022539217000045
かつ
Figure 2022539217000046
の場合に関係する。左から3番目のパネルは、
Figure 2022539217000047
かつ
Figure 2022539217000048
の場合に関係する。最も右のパネルは、
Figure 2022539217000049
および
Figure 2022539217000050
の場合に関係する。
本開示の実施形態に係る方法の上記方法工程の具体的な実装例を次に記載する。
これらの具体的な実装例について、
Figure 2022539217000051
個の離散音響源指向性測定値(推定値)Gの元のセットが以下の放射パターンフォーマットによって与えられると仮定する。
Figure 2022539217000052
ここで、
Figure 2022539217000053
は、音響源に対する離散仰角
Figure 2022539217000054
および方位角
Figure 2022539217000055
であり、Mは、角度対
Figure 2022539217000056

Figure 2022539217000057
の総数である。上記のように、M個の離散音響源指向性測定値の元のセットは、第1のセットの第1の指向性単位ベクトルおよび関連する第1の指向性ゲインに対応し得る。
上記仮定を用いると、方法900の工程S920(または、方法1100の工程S1140)は、以下のように進行し得る。
3D空間における一様な指向性分散(すなわち、3D単位球体上の位置)を近似するN個の指向性ベクトル
Figure 2022539217000058
を計算(すなわち、生成)するために、任意の適切な数値近似方法(配置アルゴリズム)が使用され得る(例えば、D.P.Hardina,T.Michaelsab,E.B.Saff“A Comparison of Popular Point Configurations on S”(2016)Dolomites Research Notes on Approximation: Volume 9, Pages 16-49を参照のこと)。しかし、本開示は、限定を意図しないが、Kogan,Jonathan“A New Computationally Efficient Method for Spacing n Points on a Sphere”(2017)Rose-Hulman Undergraduate Mathematics Journal:Volume 18,Issue 2,Article 5に基づくある特定の近似方法(配置アルゴリズム)を考慮することを提案する。これを選択する理由は、その方法の計算複雑性が低いこと、その方法が単一の制御パラメータ
Figure 2022539217000059
に依存すること、かつ、その制御パラメータNに制限がないこと(
Figure 2022539217000060
において)を含む。
以下の式(例えば、エンコーダおよびデコーダにおいて解かれる)は、
Figure 2022539217000061
を定義し、ビットストリームにおいて
Figure 2022539217000062
の明示的な格納を回避する。
Figure 2022539217000063
ここで、座標
Figure 2022539217000064
は、以下のように定義される各パラメータ
Figure 2022539217000065
について計算される:
Figure 2022539217000066
ここで、startおよびstepパラメータは、以下のように得られる。
Figure 2022539217000067
より一般的には、所定の配置アルゴリズムは、らせん状経路(spiraling path)を3D球体の表面上に重ね合わせることを含み得る。らせん状経路は、球体上の第1の点(例えば、一方の極)から、第1の点に対向する、球体上の第2の点(例えば、他方の極)に延びる。次いで、所定の配置アルゴリズムは、単位ベクトルをらせん状経路に沿って連続して配置し得る。らせん状経路の間隔、および、らせん状経路に沿ってそれぞれ2つの隣り合う単位ベクトル間のオフセット(例えば、段差)は、単位ベクトルの個数Nに基づいて決定され得る。
MatLab関数の以下の例を使用して、指向性ベクトル
Figure 2022539217000068
を生成できる。
Figure 2022539217000069
MatLabスクリプトの以下の例を使用して、デカルト座標系においてベクトル
Figure 2022539217000070
を表すことができる。
Figure 2022539217000071
上記仮定を用いると、方法900の工程S910(または、方法1100の工程S1130)は、以下のように進行し得る。
指向性ベクトル
Figure 2022539217000072
を計算するために、以下に定義される向き表現正確さ値Dに基づいて、制御パラメータ
Figure 2022539217000073
を規定する必要がある。
Figure 2022539217000074
平易に言えば、任意の(∀)方向
Figure 2022539217000075
に対して、対応する方向
Figure 2022539217000076
(例えば、工程S920の方法よって定義される)が
Figure 2022539217000077
から向き表現正確さD以下の値だけ異なるような少なくとも1つの(記号:上下左右が転倒したF)インデックス
Figure 2022539217000078
が存在する。
これを図3に模式的に例示する。図3において、指向性単位ベクトル
Figure 2022539217000079
、20、のうちの最も近い指向性単位ベクトルからの最大距離310は、所望の表現正確さDよりも短い。これは、3D球体の表面がそれぞれの指向性単位ベクトル
Figure 2022539217000080
の周囲で複数のセルに細分割され、各セルがそのセルの指向性単位ベクトル
Figure 2022539217000081
に、いずれの他の指向性単位ベクトル
Figure 2022539217000082
よりも近いすべての方向を含むと仮定する場合、最も近い指向性単位ベクトル
Figure 2022539217000083
に対するセル境界上のいずれの方向の方向差も所望の表現正確さDより大きくないことを確実にすることによって実現できる。
したがって、表現正確さ(向き表現正確さ)値Dは、図4に模式的に例示する最悪の場合を表す。音放射パターンGは、1つの方向
Figure 2022539217000084
に対してゼロでない値を有し、他のすべての方向に対してゼロ:
Figure 2022539217000085
であるように定義される。この場合、向き表現正確さD(例えば、度単位で表される)を有する指向性放射パターン
Figure 2022539217000086
は、半径D、410、を有する円錐420を表す。
いくつかの実装例において、単位ベクトルの個数Nを決定する工程は、表現正確さDと、対応する単位ベクトルの個数Nとの予め確立された関数的関係を使用する工程を含み得る。当該単位ベクトルは、所定の配置アルゴリズムによって3D球体の表面上に分散され、第1のセットの第1の指向性単位ベクトル(例えば、
Figure 2022539217000087
)によって示される方向をそれぞれ最大で表現正確さDで近似する。
例えば、そのような関数的関係は、例えば、図3を参照して例示したやり方で異なる個数Nの指向性単位ベクトルを表面に分散させ、その結果の表現正確さを決定することを繰り返す、ブルートフォース(brute force)法によって得ることができる。式(2)~式(4)を参照して上記に記載した配置アルゴリズムについて、図5(円形マーカ510)のグラフにおいて例示した
Figure 2022539217000088
および
Figure 2022539217000089
の関係が得られる。この関係は、線形関数を使用して近似できる(図5における連続線520)。
Figure 2022539217000090
したがって、本例において、単位球体上に準等距離に分散された点Nの、所望の指向性表現正確さDを達成するための必要最小個数Nは、以下の関数的関係N=N(D)によって計算できる。
Figure 2022539217000091
ここで、INTEGERは、近傍の整数への適切なマッピング手順を示す。
この方法は、N<~2000の場合の効率範囲を有し、得られる向き表現正確さDは、主観的指向性感度閾値
Figure 2022539217000092
に対応する。図6は、この関係610を対数-対数スケールで例示する。このグラフにおける破線の長方形は、N<~2000の場合の効率範囲を例示する。また、単位ベクトルの個数Nと表現正確さDとのモデル化された関係を、選択された値について、下記の表3に例示する。
Figure 2022539217000093
方法900の工程S930(または、方法1100の工程S1150)は、以下のように進行し得る。

Figure 2022539217000094
上で定義された元のデータG(例えば、第1のセットの第1の指向性単位ベクトルおよび関連する第1の指向性ゲイン)の
Figure 2022539217000095
上で定義された指向性データ近似
Figure 2022539217000096
(例えば、関連する第2の指向性ゲイン)を得るために、任意の近似(例えば、ステレオ投射)方法を使用できる。この演算をエンコーダ側(例えば、方法900の工程S930)において行う場合、計算複雑性に大きな役割はない。
他方、指向性データ近似
Figure 2022539217000097
(例えば、第2の指向性ゲイン)を決定するための特に簡単な手順は、各指向性単位ベクトル
Figure 2022539217000098
(例えば、第2の指向性単位ベクトル)について、それぞれの指向性単位ベクトル
Figure 2022539217000099
に対して方向差が最も小さい指向性単位ベクトル
Figure 2022539217000100
(例えば、第1の指向性単位ベクトル)の指向性ゲイン
Figure 2022539217000101

Figure 2022539217000102
)(例えば、第1の指向性ゲイン)を選ぶことである。指向性単位ベクトル
Figure 2022539217000103
の「最も近傍のもの」を選ぶことは、下記にしたがって進行し得る。
Figure 2022539217000104
ビットストリーム符号化(例えば、方法900の工程S940において)およびビットストリーム復号化(例えば、方法1000の工程S1020において)は、以下の考慮にしたがって進行し得る。
生成されたビットストリームは、指向性ベクトル
Figure 2022539217000105
生成処理(例えば、方法1000の工程S1030において)および対応するセットの指向性ゲイン
Figure 2022539217000106
を制御するために、符号化スカラー値Nを含む必要がある。
指向性データ
Figure 2022539217000107
を搬送するために、2つの可能なモードがある。
1つの可能なモード(第1のモード)は、指向性ゲイン
Figure 2022539217000108
の完全なセットを符号化することである。この場合、ビットストリームは、例えば、ビットストリーム内における順序に従って、対応する方向
Figure 2022539217000109
に割り当てられたN個のゲイン値
Figure 2022539217000110
の完全な配列を含むことになる。
別の可能なモード(第2のモード)は、部分的なサブセットをビットストリーム、
Figure 2022539217000111

Figure 2022539217000112

Figure 2022539217000113
に符号化することである。この場合、ビットストリームは、例えば、ビットストリーム内での明示的なインデックス
Figure 2022539217000114
送信(すなわち、サブセットにおけるインデックス
Figure 2022539217000115
の送信)によって示された対応の方向
Figure 2022539217000116
に割り当てられた1配列Nsubset個のゲイン値
Figure 2022539217000117
を含むだけとなる。
両方の可能なモードに対するビットストリームサイズBsは、以下のように推定できる。第1のモードについて、ビットストリームサイズBsは、以下のように推定され得る。
Figure 2022539217000118
第2のモードについて、ビットストリームサイズBsは、以下のように推定され得る。
Figure 2022539217000119
ここで、演算子[x]は、値xを符号化するのに必要なメモリ量を表す。
Figure 2022539217000120
についてより良いビットストリーム符号化効率を達成するために、いくつかの実装例において、数値近似方法(例えば、カーブフィッティング)を使用できる。本開示の1つの特別な利点は、1D近似方法を適用することが可能なことである(データGが1Dらせん状経路si上に定義され、かつ、一様に分散されるからである)。この場合の、方位-仰角平面
Figure 2022539217000121
内に一様に分散された指向性単位ベクトルを使用した離散指向性情報の従来表現は、2D近似方法を適用すること、および、境界条件を考慮することが必要となるであろう。
Figure 2022539217000122
についてより良いビットストリーム符号化効率を達成するために、いくつかの実装例において、単位ベクトルの個数Nを決定する工程は、例えば、1セットの所定の個数のうちの最も近い個数に丸めることによって、単位ベクトルの個数Nを1セットの所定の数のうちの1つにマッピングする工程を含み得る。次いで、所定の個数は、ビットストリームパラメータ(例えば、ビットストリームパラメータdirectivity_precision)によって、デコーダに送信できる。この場合、ビットストリームパラメータの値と所定の個数のうちの対応する個数との間の関係についてエンコーダ側とデコーダ側との間で取り決め(agreement)があり得る。この取り決めは、例えば、エンコーダ側およびデコーダ側において同一のルックアップテーブルを格納することによって確立され得る。
換言すると、より良いビットストリーム符号化効率を達成するために、
Figure 2022539217000123
について、最適なバイナリ表現(例えば、
Figure 2022539217000124
=2ビット)および正確さDが得られる、予め選択された設定を使用することが推奨され得る。
Figure 2022539217000125
指向性サイズ送信のためのビットストリームシンタックスの例を下記の表5に示す。
Figure 2022539217000126
指向性サイズ送信のための可能なビットストリーム変数定義の例を下記の表6に示す。
Figure 2022539217000127
6DoFレンダリングにおける方法のオーディオ指向性モデリング(例えば、方法1000の工程S1040または方法1100の工程S1160において)は、以下のように進行し得る。
各所与のオブジェクト・ツー・聴取者相対方向P(ターゲット指向性ベクトル)について、最も近い方向ベクトル
Figure 2022539217000128
に対応するインデックス
Figure 2022539217000129
を以下のように決定する。
Figure 2022539217000130
次いで、音源を聴取者位置にレンダリングするために、対応する指向性ゲイン
Figure 2022539217000131
がこのオブジェクト信号に適用される。
なお、音源の放射パターンは、表記や説明の便宜のために、広帯域であり、一定であり、かつS空間のすべてを範囲に含むと仮定してきた。しかし、本開示は、同様に、スペクトル周波数依存放射パターンに適用可能である(例えば、上記本提案による方法を帯域単位で行うことによって)。さらに、本開示は、同様に、時間依存放射パターン、および、任意のサブセットの方向を含む放射パターンに適用可能である。
さらになお、本開示において記載の概念や方式は、周波数および時間が変化する様態で規定され得るか、空間または時間領域において直接に適用され得るか、グローバルにももしくはオブジェクトに依存する様態でも定義され得るか、オーディオレンダラにハードコード化され得るか、または、対応する入力インタフェースを介して規定され得る。
本明細書に記載される方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装され得る。ある種のコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサ上で動作するソフトウェアとして実装されてもよい。他のコンポーネントは、ハードウェアとして、および/または、特定用途向け集積回路として実装されてもよい。上述の方法およびシステムに現れる信号は、ランダムアクセスメモリまたは光記憶媒体などの媒体に格納されてもよい。それらは、無線ネットワーク、衛星ネットワーク、ワイヤレスネットワークまたは有線ネットワーク、例えば、インターネットなどのネットワークを介して転送されてもよい。本明細書に記載される方法およびシステムを利用する典型的なデバイスは、オーディオ信号を格納および/またはレンダリングするために使用される携帯型電子デバイスまたは他の民生用装置である。
図12は、本開示の実施形態に係る、オーディオコンテンツを符号化するための装置1200(例えば、エンコーダ)の例を模式的に例示する。装置1200は、インタフェースシステム1210と、制御システム1220とを備え得る。インタフェースシステム1210は、1つ以上のネットワークインタフェース、制御システムとメモリシステムとの間の1つ以上のインタフェース、制御システムと別のデバイスとの間の1つ以上のインタフェース、および/または、1つ以上の外部デバイスインタフェースを含み得る。制御システム1220は、汎用シングルもしくはマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)もしくは他のプログラマブルロジックデバイス、離散ゲートもしくはトランジスタロジック、または離散ハードウエアコンポーネントのうちの少なくとも1つを含み得る。したがって、いくつかの実装例において、制御システム1220は、1つ以上のプロセッサと、当該1つ以上のプロセッサに動作可能に接続された1つ以上の非一時的な記憶媒体とを含み得る。
いくつかのそのような例によると、制御システム1220は、インタフェースシステム120を介して、処理/符号化されるべきオーディオコンテンツを受信するように構成され得る。制御システム1220は、所望の表現正確さに基づいて、3D球体の表面に配置するための単位ベクトルの個数をカウント数として決定すること(例えば、上記工程S910におけるように)、決定された個数の単位ベクトルを3D球体の表面上に分散させるために、所定の配置アルゴリズムを使用することによって第2のセットの第2の指向性単位ベクトルを生成すること(ここで、所定の配置アルゴリズムは、単位ベクトルを3D球体の表面上に近似的に一様に球分散させるためのアルゴリズムである)(例えば、上記工程S920におけるように)、第2の指向性単位ベクトルについて、1グループの第1の指向性単位ベクトルのうちの、それぞれの第2の指向性単位ベクトルに最も近い1つ以上の第1の指向性単位ベクトルの第1の指向性ゲインに基づいて、関連する第2の指向性ゲインを決定すること(例えば、上記工程S930におけるように)、および、決定された個数を第2の指向性ゲインとともにビットストリーム内に符号化すること(例えば、上記工程S940におけるように)を行うようにさらに構成され得る。制御システム1220は、インタフェースシステムを介して、ビットストリームを出力するように(例えば、上記工程S950におけるように)さらに構成され得る。
図13は、本開示の実施形態に係るオーディオコンテンツを復号化するための装置1300(例えば、デコーダ)の例を模式的に例示する。装置1300は、インタフェースシステム1310と、制御システム1320とを備え得る。インタフェースシステム1310は、1つ以上のネットワークインタフェース、制御システムとメモリシステムとの間の1つ以上のインタフェース、制御システムと別のデバイスとの間の1つ以上のインタフェース、および/または、1つ以上の外部デバイスインタフェースを含み得る。制御システム1320は、汎用シングルもしくはマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)もしくは他のプログラマブルロジックデバイス、離散ゲートもしくはトランジスタロジック、または離散ハードウエアコンポーネントのうちの少なくとも1つを含み得る。したがって、いくつかの実装例において、制御システム1320は、1つ以上のプロセッサと、当該1つ以上のプロセッサに動作可能に接続された1つ以上の非一時的な記憶媒体とを含み得る。
いくつかのそのような例によると、制御システム1320は、インタフェースシステム1310を介して、オーディオコンテンツを含むビットストリームを受信するように構成され得る。制御システム1320は、個数および指向性ゲインをビットストリームから抽出すること(例えば、上記工程S1010におけるように)、当該個数の単位ベクトルを3D球体の表面上に分散させるために、所定の配置アルゴリズムを使用することによって1セットの指向性単位ベクトルを生成すること(例えば、上記工程S1020におけるように)、および、音源から聴取者位置の方向を指す所与のターゲット指向性単位ベクトルについて、1グループの指向性単位ベクトルのうちの、ターゲット指向性単位ベクトルに最も近い1つ以上の指向性単位ベクトルの関連する指向性ゲインに基づいて、ターゲット指向性単位ベクトルについてのターゲット指向性ゲインを決定すること(例えば、上記工程S1030におけるように)を行うようにさらに構成され得る。
また、いくつかのそのような例によると、制御システム1320は、インタフェースシステム1310を介して、オーディオコンテンツを含むビットストリームを受信するように(例えば、上記工程S111におけるように)構成され得る。制御システム1320は、第1のセットの指向性ベクトルおよび関連する第1の指向性ゲインをビットストリームから抽出すること(例えば、上記工程S1120おけるように)、所望の表現正確さに基づいて、3D球体の表面に配置するための単位ベクトルの個数をカウント数として決定すること(例えば、上記工程S1130におけるように)、決定された個数の単位ベクトルを3D球体の表面上に分散させるために、所定の配置アルゴリズムを使用することによって第2のセットの第2の指向性単位ベクトルを生成すること(ここで、所定の配置アルゴリズムは、単位ベクトルを3D球体の表面上に近似的に一様に球分散させるためのアルゴリズムである)(例えば、上記工程S1140におけるように)、第2の指向性単位ベクトルについて、1グループの第1の指向性単位ベクトルのうちの、それぞれの第2の指向性単位ベクトルに最も近い1つ以上の第1の指向性単位ベクトルの第1の指向性ゲインに基づいて、関連する第2の指向性ゲインを決定すること(例えば、上記工程S1150におけるように)、および、音源から聴取者位置の方向を指す所与のターゲット指向性単位ベクトルについて、1グループの第2の指向性単位ベクトルのうちの、ターゲット指向性単位ベクトルに最も近い第2の指向性単位ベクトルの関連する第2の指向性ゲインに基づいて、ターゲット指向性単位ベクトルについてのターゲット指向性ゲインを決定すること(例えば、上記工程S1160おけるように)を行うようにさらに構成され得る。
いくつかの例において、上記装置1200および1300のいずれかまたはそれぞれは、単一のデバイス内に実装され得る。しかし、いくつかの実装例において、装置は、1つより多いデバイス内に実装され得る。いくつかのそのような実装例において、制御システムの機能は、1つより多いデバイス内に含まれ得る。いくつかの例において、装置は、他のデバイスのコンポーネントであり得る。
特に断らない限り、以下の記載から明らかなように、本開示全体にわたり、「処理」、「演算」、「計算」、「決定」、「分析」などの用語を使用した記載は、電子量などの物理量として表されるデータを同様に物理量で表される他のデータに操作および/または変換する、コンピュータもしくはコンピューティングシステム、または、同様の電子コンピューティングデバイスの動作および/または処理を指すことが理解される。
同様に、用語「プロセッサ」は、例えば、レジスタおよび/またはメモリからの電子データを処理して、その電子データを別の電子データ(例えば、レジスタおよび/またはメモリに格納され得る)に変換する任意のデバイスまたはデバイスの一部を指し得る。「コンピュータ」または「コンピューティングマシン」または「コンピューティングプラットフォーム」は、1つまたは複数のプロセッサを含み得る。
本明細書に記載する方法論は、一例示の実施形態において、1つまたは複数のプロセッサによって実行された際に本明細書に記載する方法の少なくとも1つを実行する命令セットを含むコンピュータ可読(マシン可読)コードを受け入れる1つまたは複数のプロセッサによって実行可能である。実行されるべき動作を指定する命令セット(シーケンシャルまたはその他)を実行できる任意のプロセッサが含まれる。したがって、一例は、1つまたは複数のプロセッサを含む典型的な処理システムである。各プロセッサは、CPU、グラフィックス処理ユニット、およびプログラマブルDSPユニットのうちの1つ以上を含み得る。処理システムは、メインRAMおよび/またはスタティックRAMおよび/またはROMを含むメモリサブシステムをさらに含み得る。コンポーネント間の通信のために、バスサブシステムが含まれ得る。処理システムはさらに、ネットワークによって接続されたプロセッサを有する分散処理システムであり得る。処理システムがディスプレイを必要とする場合、そのようなディスプレイは、例えば、液晶ディスプレイ(LCD)またはブラウン管ディスプレイ(CRT)などであり得る。手動データ入力が必要な場合、処理システムはまた、キーボードなどの英数字入力ユニット、マウスなどのポインティング制御デバイス、などのうちの1つ以上などの入力デバイスを含む。処理システムはまた、ディスクドライブユニットなどの格納システムを含み得る。いくつかの構成例において、処理システムは、サウンド出力デバイスと、ネットワークインタフェースデバイスとを含み得る。したがって、メモリサブシステムは、1つまたは複数のプロセッサによって実行された際に、本明細書に記載する方法のうちの1つ以上を実行させる命令セットを含むコンピュータ可読コード(例えば、ソフトウェア)を保持するコンピュータ読み取り可能キャリア媒体を含む。本方法がいくつかの要素、例えばいくつかの工程を含む場合、特に断らない限り、そのような要素の順序付けが一切含意されていないことに留意されたい。ソフトウェアはハードディスク内に存在してもよく、あるいは、コンピュータシステムによる実行中に、RAM内および/またはプロセッサ内に、完全にまたは少なくとも部分的に、存在してもよい。したがって、メモリおよびプロセッサはまた、コンピュータ可読コードを保持するコンピュータ読み取り可能キャリア媒体を構成する。さらに、コンピュータ読み取り可能キャリア媒体は、コンピュータプログラム製品を形成してもよく、または、コンピュータプログラム製品に含まれてもよい。
代替の例示の実施形態では、1つまたは複数のプロセッサは、独立型(standalone)デバイスとして動作するか、または、ネットワーク化された展開において、他のプロセッサに接続(例えば、ネットワークを介して接続)されてもよく、1つまたは複数のプロセッサは、サーバ-ユーザネットワーク環境におけるサーバまたはユーザマシンの能力を有して、または、ピアツーピアまたは分散ネットワーク環境におけるピアマシンとして動作してもよい。1つまたは複数のプロセッサは、パーソナルコンピュータ(PC)、タブレットPC、情報携帯端末(PDA)、携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチもしくはブリッジ、またはそのマシンによって実行されるべき動作を指定する1セットの命令(シーケンシャルまたはその他)を実行できる任意のマシンを形成してもよい。
また、用語「機械(machine)」は、本明細書に記載される方法論のいずれか1つ以上を実行するための命令セット(または複数のセット)を個別にまたは合わせて実行する機械の任意の集合を含むと解釈されることに留意されたい。
したがって、本明細書で説明される方法のそれぞれの1つの例示の実施形態は、1つまたは複数のプロセッサ、例えば、ウェブサーバ構成の一部である1つまたは複数のプロセッサ上で実行するための命令セット、例えば、コンピュータプログラムを保持するコンピュータ読み取り可能キャリア媒体の形態である。したがって、当業者によって理解されるように、本開示の例示の実施形態は、方法、専用装置などの装置、データ処理システムなどの装置、または、コンピュータ読み取り可能キャリア媒体、例えば、コンピュータプログラム製品として実現されてもよい。コンピュータ読み取り可能キャリア媒体は、1つまたは複数のプロセッサ上で実行された際に、プロセッサに方法を実装させる命令セットを含むコンピュータ可読コードを保持する。したがって、本開示の態様は、方法、完全にハードウェアの例示の実施形態、完全にソフトウェアの例示の実施形態、または、ソフトウェアおよびハードウェアの局面を組み合わせた例示の実施形態の形態をとり得る。さらに、本開示は、媒体内に実現されたコンピュータ可読プログラムコードを保持するキャリア媒体(例えば、コンピュータ読み取り可能記憶媒体上のコンピュータプログラム製品)の形態をとり得る。
ソフトウェアは、さらに、ネットワークインタフェースデバイスを介して、ネットワークを通じて送受信されてもよい。キャリア媒体は例示の実施形態では単一の媒体であるが、用語「キャリア媒体」は、1つまたは複数の命令セットを格納する単一の媒体または複数の媒体(例えば、集中型または分散型データベース、ならびに/または、関連のキャッシュおよびサーバ)を含むものと解釈されるべきである。用語「キャリア媒体」はまた、1つまたは複数のプロセッサによって実行される命令セットを格納、符号化、または保持することができ、1つまたは複数のプロセッサに本開示の方法論のうちの任意の1つ以上を実行させる任意の媒体を含むと解釈されるべきである。キャリア媒体は、不揮発性媒体、揮発性媒体、および伝送媒体を含むが、これらに限定されず、多くの形態をとり得る。不揮発性媒体には、例えば、光ディスク、磁気ディスク、および光磁気ディスクが含まれる。揮発性媒体には、メインメモリなどのダイナミックメモリが含まれる。伝送媒体には、バスサブシステムを備えるワイヤを含む、同軸ケーブル、銅線、および光ファイバが含まれる。伝送媒体はまた、電波および赤外線データ通信中に生成されるような音波または光波の形態をとり得る。したがって、例えば、用語「キャリア媒体」は、ソリッドステートメモリ、光媒体および磁気媒体において実現されるコンピュータ製品、少なくとも1つのプロセッサまたは1つ以上のプロセッサによって検出可能であり、実行されたときに方法を実装する命令セットを表す伝搬信号を担持する媒体、および1つまたは複数のプロセッサのうちの少なくとも1つのプロセッサによって検出可能であり、命令セットを表す伝搬信号を担持するネットワーク内の伝送媒体を含むが、これらに限定されない、と解釈されるべきである。
記載の方法の工程は、ストレージに格納された命令(例えば、コンピュータ可読コード)を実行する処理(例えば、コンピュータ)システムの適切なプロセッサ(または、複数のプロセッサ)によって、一例示の実施形態において、実行されることが理解される。また、本開示がいずれの特定の実装またはプログラミング手法にも限定されず、かつ、本開示が本明細書で説明される機能を実装するための任意の適切な手法を使用して実装され得ることが理解される。本開示は、いずれの特定のプログラミング言語またはオペレーティングシステムにも限定されない。
本開示全体を通して、「一例示の実施形態」、「いくつかの例示の実施形態」または「例示の実施形態」と言及することは、例示の実施形態に関連して記載された特定の特徴、構造または性質が本開示の少なくとも1つの例示の実施形態に含まれることを意味する。したがって、本開示全体を通して、様々な箇所における「一例示の実施形態において」、「いくつかの例示の実施形態において」または「例示の実施形態において」という語句の出現は、必ずしもすべてが同じ例示の実施形態を言及するわけではない。さらに、特定の特徴、構造または性質は、1つ以上の例示の実施形態において、本開示から当業者に明らかであるように、任意の適切な様態で組み合わせられ得る。
本明細書で使用されているように、特に断らない限り、共通のオブジェクトを記述するための序数形容詞「第1」、「第2」、「第3」などの使用は、同様のオブジェクトの異なる例が参照されていることを示すにすぎず、そのように記述されたオブジェクトが、時間的、空間的、順位、または任意の他の様態で、所与の並びにされなければならないことを含意することを意図しない。
以下の特許請求の範囲および本明細書において、用語「備える」または「包含する」はいずれも、その用語が係る要素/特徴を少なくとも含むが、他を除外しないことを意味するオープンな(open)用語である。したがって、用語「備える」または「包含する」は、特許請求の範囲で使用される場合、それが係って列挙される手段または要素または工程を限定すると解釈されるべきではない。例えば、AとBとを備えるデバイスという表現の範囲は、要素AおよびBのみからなるデバイスに限定されるべきではない。本明細書で使用されているように、用語「含む」または「含まれる」はいずれもまた、その用語が係る要素/特徴を少なくとも含むことを意味するが、他を除外しないオープンな用語である。したがって、「含む」は、「備える」と同義であり、それを意味する。
本開示の例示の実施形態の上記の説明では、本開示を簡素化し、様々な発明の局面のうちの1つ以上の理解を助けるために、本開示の様々な特徴が単一の例示の実施形態、図、またはそれらの説明においてひとまとめにされることがあることを理解されたい。しかし、この開示方法は、特許請求の範囲が各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、以下の特許請求の範囲が反映させるように、本発明の局面は、前述の開示された単一の例示の実施形態のすべての特徴よりも少ない特徴が存在する。したがって、本明細書に続く特許請求の範囲は、本明細書に明確に組み込まれ、各請求項はそれ自体だけで本開示の別個の例示の実施形態として存在する。
さらに、本明細書に記載されるいくつかの例示の実施形態は、他の例示の実施形態に含まれる特徴のうちのいくつかを含み、その他を含まないが、異なる例示の実施形態の特徴の組合せが本開示の範囲内にあって、かつ、異なる例示の実施形態を形成することを意味することが当業者に理解される。例えば、以下の特許請求の範囲において、請求される実施形態はいずれも、任意の組み合わせで使用できる。
本明細書において提供される説明では、多くの具体的な詳細が記載されている。しかし、本開示の例示の実施形態は、これらの特定の詳細を用いずに実施され得ることが理解される。他の例では、この説明の理解を不明瞭にしないために、周知の方法、構造および技術の詳細は、省略されている。
したがって、開示の最良の形態であると考えられる事項を説明してきたが、開示の趣旨から逸脱することなく、他のおよびさらなる変更がそれらに対して行われ得ること、そして、すべてのそのような変形および変更が開示の範囲内にあると請求することが意図されることが当業者に認識される。例えば、上記に与えられた式はいずれも、使用され得る手順を代表するものにすぎない。ブロック図に機能が追加されてもよいし、ブロック図から機能が削除されてもよく、動作は、機能ブロック間で相互に交換されてもよい。工程は、本開示の範囲内で説明された方法に対して追加または削除されてもよい。
本発明の様々な態様は、以下に列挙する例示の実施形態(enumerated example embodiments:EEE)から理解され得る。
1.少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを処理する方法であって、前記指向性情報は、第1のセットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含み、前記方法は、
3D球体の表面上に配置するための単位ベクトルの個数を、カウント数として、決定する工程であって、前記単位ベクトルの個数は、所望の表現正確さに関係する、工程と、
前記決定された個数の単位ベクトルを前記3D球体の前記表面上に分散させるために、所定の配置アルゴリズムを使用することによって第2のセットの第2の指向性単位ベクトルを生成する工程であって、前記所定の配置アルゴリズムは、前記単位ベクトルを前記3D球体の前記表面上に近似的に一様に球分散させるためのアルゴリズムである、工程と、
前記第2の指向性単位ベクトルについて、1グループの第1の指向性単位ベクトルのうちの、それぞれの前記第2の指向性単位ベクトルに最も近い1つ以上の第1の指向性単位ベクトルの第1の指向性ゲインに基づいて、関連する第2の指向性ゲインを決定する工程と、
を包含する、方法。
2.EEE1に記載の方法であって、前記単位ベクトルの個数は、前記単位ベクトルが、前記所定の配置アルゴリズムによって前記3D球体の前記表面上に分散された際に、前記第1のセットの第1の指向性単位ベクトルによって示される前記方向を最大で前記所望の表現正確さで近似するように、決定される、方法。
3.EEE1または2に記載の方法であって、前記単位ベクトルの個数は、前記単位ベクトルが前記所定の配置アルゴリズムによって前記3D球体の前記表面上に分散された際に、前記第1のセットにおける前記第1の指向性単位ベクトルのそれぞれについて、前記単位ベクトルのうちの、それぞれの前記第1の指向性単位ベクトルに対する方向差が前記所望の表現正確さよりも小さい少なくとも1つの単位ベクトルが存在するように、決定される、方法。
4.先行するEEEのいずれか1つに記載の方法であって、前記単位ベクトルの個数を決定する工程は、表現正確さと、前記所定の配置アルゴリズムによって前記3D球体の前記表面上に分散され、前記第1のセットの第1の指向性単位ベクトルによって示される前記方向を最大でそれぞれの前記表現正確さで近似する、対応の単位ベクトルの個数との予め確立された関数的関係を使用する工程を含む、方法。
5.先行するEEEのいずれか1つに記載の方法であって、前記関連する第2の指向性ゲインを所与の第2の指向性単位ベクトルについて決定する工程は、
前記第2の指向性ゲインを、前記所与の第2の指向性単位ベクトルに最も近い前記第1の指向性単位ベクトルに関連する前記第1の指向性ゲインに設定する工程
を含む、方法。
6.先行するEEEのいずれか1つに記載の方法であって、前記所定の配置アルゴリズムは、前記3D球体上の第1の点から、前記第1の点に対向する、前記3D球体上の第2の点に延びるらせん状経路を前記3D球体の前記表面上に重ね合わせ、前記単位ベクトルを前記らせん状経路に沿って連続して配置する工程を含み、
前記単位ベクトルの個数に基づいて、前記らせん状経路の間隔、および、前記らせん状経路に沿って隣り合うそれぞれ2つの単位ベクトル間のオフセットが決定される、
方法。
7.先行するEEEのいずれか1つに記載の方法であって、前記単位ベクトルの個数を決定する工程は、前記単位ベクトルの個数を所定の個数のうちの1つにマッピングする工程であって、前記所定の個数は、ビットストリームパラメータによって送信できる、工程をさらに含む、方法。
8.先行するEEEのいずれか1つに記載の方法であって、前記所望の表現正確さは、人である聴取者の知覚指向性感度閾値のモデルに基づいて決定される、方法。
9.先行するEEEのいずれか1つに記載の方法であって、前記第2のセットの第2の指向性単位ベクトルのカーディナリティは、前記第1のセットの第1の指向性単位ベクトルのカーディナリティよりも小さい、方法。
10.先行するEEEのいずれか1つに記載の方法であって、前記第1および第2の指向性単位ベクトルは、球座標系またはデカルト座標系において表される、方法。
11.先行するEEEのいずれか1つに記載の方法であって、前記第1のセットの第1の指向性単位ベクトルおよび関連する第1の指向性ゲインによって表される前記指向性情報は、SOFAフォーマットで格納され、かつ/または
前記第2のセットの第1の指向性単位ベクトルおよび関連する第2の指向性ゲインによって表される前記指向性情報は、SOFAフォーマットで格納される、
方法。
12.先行するEEEのいずれか1つに記載の方法であって、前記方法は、前記オーディオコンテンツを符号化する方法であって、
前記決定された単位ベクトルの個数を前記第2の指向性ゲインとともにビットストリーム内に符号化する工程と、
前記ビットストリームを出力する工程と、
をさらに包含する、方法。
13.少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化する方法であって、前記指向性情報は、3D球体の表面上に近似的に一様に分散された単位ベクトルの個数を示す個数と、各そのような単位ベクトルについて、関連する指向性ゲインとを含み、前記単位ベクトルは、所定の配置アルゴリズムによって、前記3D球体の前記表面上に分散されると仮定され、前記所定の配置アルゴリズムは、前記単位ベクトルを前記3D球体の前記表面上に近似的に一様に球分散させるためのアルゴリズムであり、前記方法は、
前記オーディオコンテンツを含むビットストリームを受信する工程と、
前記個数および前記指向性ゲインを前記ビットストリームから抽出する工程と、
前記個数の単位ベクトルを前記3D球体の前記表面上に分散させるために、前記所定の配置アルゴリズムを使用することによって1セットの指向性単位ベクトルを生成する工程と、
を包含する、方法。
14.先行するEEEに記載の方法であって、
前記音源から聴取者位置の方向を指す所与のターゲット指向性単位ベクトルについて、1グループの指向性単位ベクトルのうちの、前記ターゲット指向性単位ベクトルに最も近い1つ以上の指向性単位ベクトルの関連する指向性ゲインに基づいて、前記ターゲット指向性単位ベクトルについてのターゲット指向性ゲインを決定する工程
をさらに包含する方法。
15.先行するEEEに記載の方法であって、前記ターゲット指向性単位ベクトルについての前記ターゲット指向性ゲインを決定する工程は、
前記ターゲット指向性ゲインを、前記ターゲット指向性単位ベクトルに最も近い前記指向性単位ベクトルに関連する前記指向性ゲインに設定する工程
を包含する、方法。
16.少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化する方法であって、前記指向性情報は、第1セットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含み、前記方法は、
前記オーディオコンテンツを含むビットストリームを受信する工程と、
前記第1のセットの指向性単位ベクトルおよび前記関連する第1の指向性ゲインを前記ビットストリームから抽出する工程と、
3D球体の表面上に配置するための単位ベクトルの個数を、カウント数として、決定する工程であって、前記単位ベクトルの個数は、所望の表現正確さに関係する、工程と、
前記決定された個数の単位ベクトルを前記3D球体の前記表面上に分散させるために、所定の配置アルゴリズムを使用することによって第2のセットの第2の指向性単位ベクトルを生成する工程であって、前記所定の配置アルゴリズムは、前記単位ベクトルを前記3D球体の前記表面上に近似的に一様に球分散させるためのアルゴリズムである、工程と、
前記第2の指向性単位ベクトルについて、1グループの第1の指向性単位ベクトルのうちの、それぞれの前記第2の指向性単位ベクトルに最も近い1つ以上の第1の指向性単位ベクトルの第1の指向性ゲインに基づいて、関連する第2の指向性ゲインを決定する工程と、
前記音源から聴取者位置の方向を指す所与のターゲット指向性単位ベクトルについて、1グループの第2の指向性単位ベクトルのうちの、前記ターゲット指向性単位ベクトルに最も近い1つ以上の第2の指向性単位ベクトルの関連する第2の指向性ゲインに基づいて、前記ターゲット指向性単位ベクトルについてのターゲット指向性ゲインを決定する工程と、
を包含する、方法。
17.EEE16に記載の方法であって、前記ターゲット指向性単位ベクトルについての前記ターゲット指向性ゲインを決定する工程は、
前記ターゲット指向性ゲインを、前記ターゲット指向性単位ベクトルに最も近い前記第2の指向性単位ベクトルに関連する前記第2の指向性ゲインに設定する工程
を包含する、方法。
18.EEE16に記載の方法は、
前記第2のセットの指向性単位ベクトルが生成されるべきかどうかの指示を前記ビットストリームから抽出する工程と、
前記指示が前記第2のセットの指向性単位ベクトルが生成されるべきであることを示す場合、前記単位ベクトルの個数を決定し、前記第2のセットの第2の指向性単位ベクトルを生成する工程と、
をさらに包含する、方法。
19.少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを処理するための装置であって、前記指向性情報は、第1のセットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含み、前記装置は、EEE1~12のいずれか1つに記載の方法の工程を行うように構成されたプロセッサを備える、
装置。
20.少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化するための装置であって、前記指向性情報は、3D球体の表面上に近似的に一様に分散された単位ベクトルの個数を示す個数と、各そのような単位ベクトルについて、関連する指向性ゲインとを含み、前記単位ベクトルは、所定の配置アルゴリズムによって、前記3D球体の前記表面上に分散されると仮定され、前記所定の配置アルゴリズムは、前記単位ベクトルを前記3D球体の前記表面上に近似的に一様に球分散させるためのアルゴリズムであり、前記装置は、EEE13~15のいずれか1つに記載の方法の工程を行うように構成されたプロセッサを備える、
装置。
21.少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化するための装置であって、前記指向性情報は、第1セットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含み、前記装置は、EEE16~18のいずれか1つに記載の方法の工程を行うように構成されたプロセッサを備える、
装置。
22.プロセッサによって実行された際に、前記プロセッサにEEE1~18のいずれか1つに記載の方法を行わせる命令を含むコンピュータプログラム。
23.EEE22に記載のコンピュータプログラムを格納するコンピュータ読み取り可能媒体。

Claims (21)

  1. 少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを処理する方法であって、前記指向性情報は、第1のセットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含み、前記方法は、
    3D球体の表面上に配置するための単位ベクトルの個数を、カウント数として、決定する工程であって、前記単位ベクトルの個数は、所望の表現正確さに関係する、工程と、
    前記決定された個数の単位ベクトルを前記3D球体の前記表面上に分散させるために、所定の配置アルゴリズムを使用することによって第2のセットの第2の指向性単位ベクトルを生成する工程であって、前記所定の配置アルゴリズムは、前記単位ベクトルを前記3D球体の前記表面上に近似的に一様に球分散させるためのアルゴリズムである、工程と、
    前記第2の指向性単位ベクトルについて、1グループの第1の指向性単位ベクトルのうちの、それぞれの前記第2の指向性単位ベクトルに最も近い1つ以上の第1の指向性単位ベクトルの第1の指向性ゲインに基づいて、関連する第2の指向性ゲインを決定する工程と、を包含する、方法。
  2. 前記単位ベクトルの個数は、前記単位ベクトルが、前記所定の配置アルゴリズムによって前記3D球体の前記表面上に分散された際に、前記第1のセットの第1の指向性単位ベクトルによって示される前記方向を最大で前記所望の表現正確さで近似するように、決定され、かつ/または、
    前記単位ベクトルの個数は、前記単位ベクトルが前記所定の配置アルゴリズムによって前記3D球体の前記表面上に分散された際に、前記第1のセットにおける前記第1の指向性単位ベクトルのそれぞれについて、前記単位ベクトルのうちの、それぞれの前記第1の指向性単位ベクトルに対する方向差が前記所望の表現正確さよりも小さい少なくとも1つの単位ベクトルが存在するように、決定される、請求項1に記載の方法。
  3. 前記単位ベクトルの個数を決定する工程は、表現正確さと、前記所定の配置アルゴリズムによって前記3D球体の前記表面上に分散され、前記第1のセットの第1の指向性単位ベクトルによって示される前記方向を最大でそれぞれの前記表現正確さで近似する、対応の単位ベクトルの個数との予め確立された関数的関係を使用する工程を含む、請求項1または2に記載の方法。
  4. 前記関連する第2の指向性ゲインを所与の第2の指向性単位ベクトルについて決定する工程は、
    前記第2の指向性ゲインを、前記所与の第2の指向性単位ベクトルに最も近い前記第1の指向性単位ベクトルに関連する前記第1の指向性ゲインに設定する工程
    を含む、請求項1から3のいずれかに記載の方法。
  5. 前記所定の配置アルゴリズムは、前記3D球体上の第1の点から、前記第1の点に対向する、前記3D球体上の第2の点に延びるらせん状経路を前記3D球体の前記表面上に重ね合わせ、前記単位ベクトルを前記らせん状経路に沿って連続して配置する工程を含み、
    前記単位ベクトルの個数に基づいて、前記らせん状経路の間隔、および、前記らせん状経路に沿って隣り合うそれぞれ2つの単位ベクトル間のオフセットが決定される、請求項1から4のいずれかに記載の方法。
  6. 前記単位ベクトルの個数を決定する工程は、前記単位ベクトルの個数を所定の個数のうちの1つにマッピングする工程であって、前記所定の個数は、ビットストリームパラメータによって送信できる、工程をさらに含む、請求項1から5のいずれかに記載の方法。
  7. 前記所望の表現正確さは、人である聴取者の知覚指向性感度閾値のモデルに基づいて決定される、請求項1から6のいずれかに記載の方法。
  8. 前記第2のセットの第2の指向性単位ベクトルのカーディナリティは、前記第1のセットの第1の指向性単位ベクトルのカーディナリティよりも小さい、請求項1から7のいずれかに記載の方法。
  9. 前記第1および第2の指向性単位ベクトルは、球座標系またはデカルト座標系において表される、請求項1から8のいずれかに記載の方法。
  10. 前記第1のセットの第1の指向性単位ベクトルおよび関連する第1の指向性ゲインによって表される前記指向性情報は、SOFAフォーマットで格納され、かつ/または
    前記第2のセットの第1の指向性単位ベクトルおよび関連する第2の指向性ゲインによって表される前記指向性情報は、SOFAフォーマットで格納される、請求項1から9のいずれかに記載の方法。
  11. 前記方法は、前記オーディオコンテンツを符号化する方法であって、
    前記決定された単位ベクトルの個数を前記第2の指向性ゲインとともにビットストリーム内に符号化する工程と、
    前記ビットストリームを出力する工程と、
    をさらに包含する、請求項1から10のいずれかに記載の方法。
  12. 少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化する方法であって、前記指向性情報は、3D球体の表面上に近似的に一様に分散された単位ベクトルの個数を示す個数と、各そのような単位ベクトルについて、関連する指向性ゲインとを含み、前記単位ベクトルは、所定の配置アルゴリズムによって、前記3D球体の前記表面上に分散されると仮定され、前記所定の配置アルゴリズムは、前記単位ベクトルを前記3D球体の前記表面上に近似的に一様に球分散させるためのアルゴリズムであり、前記方法は、
    前記オーディオコンテンツを含むビットストリームを受信する工程と、
    前記個数および前記指向性ゲインを前記ビットストリームから抽出する工程と、
    前記個数の単位ベクトルを前記3D球体の前記表面上に分散させるために、前記所定の配置アルゴリズムを使用することによって1セットの指向性単位ベクトルを生成する工程と、を包含する、方法。
  13. 前記音源から聴取者位置の方向を指す所与のターゲット指向性単位ベクトルについて、1グループの指向性単位ベクトルのうちの、前記ターゲット指向性単位ベクトルに最も近い1つ以上の指向性単位ベクトルの関連する指向性ゲインに基づいて、前記ターゲット指向性単位ベクトルについてのターゲット指向性ゲインを決定する工程をさらに包含する、請求項1から12のいずれかに記載の方法。
  14. 少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化する方法であって、前記指向性情報は、第1セットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含み、前記方法は、
    前記オーディオコンテンツを含むビットストリームを受信する工程と、
    前記第1のセットの指向性単位ベクトルおよび前記関連する第1の指向性ゲインを前記ビットストリームから抽出する工程と、
    3D球体の表面上に配置するための単位ベクトルの個数を、カウント数として、決定する工程であって、前記単位ベクトルの個数は、所望の表現正確さに関係する、工程と、
    前記決定された個数の単位ベクトルを前記3D球体の前記表面上に分散させるために、所定の配置アルゴリズムを使用することによって第2のセットの第2の指向性単位ベクトルを生成する工程であって、前記所定の配置アルゴリズムは、前記単位ベクトルを前記3D球体の前記表面上に近似的に一様に球分散させるためのアルゴリズムである、工程と、
    前記第2の指向性単位ベクトルについて、1グループの第1の指向性単位ベクトルのうちの、それぞれの前記第2の指向性単位ベクトルに最も近い1つ以上の第1の指向性単位ベクトルの第1の指向性ゲインに基づいて、関連する第2の指向性ゲインを決定する工程と、
    前記音源から聴取者位置の方向を指す所与のターゲット指向性単位ベクトルについて、1グループの第2の指向性単位ベクトルのうちの、前記ターゲット指向性単位ベクトルに最も近い1つ以上の第2の指向性単位ベクトルの関連する第2の指向性ゲインに基づいて、前記ターゲット指向性単位ベクトルについてのターゲット指向性ゲインを決定する工程と、
    を包含する、方法。
  15. 前記ターゲット指向性単位ベクトルについての前記ターゲット指向性ゲインを決定する工程は、
    前記ターゲット指向性ゲインを、前記ターゲット指向性単位ベクトルに最も近い前記第2の指向性単位ベクトルに関連する前記第2の指向性ゲインに設定する工程を包含する、請求項13または14に記載の方法。
  16. 前記第2のセットの指向性単位ベクトルが生成されるべきかどうかの指示を前記ビットストリームから抽出する工程と、
    前記指示が前記第2のセットの指向性単位ベクトルが生成されるべきであることを示す場合、前記単位ベクトルの個数を決定し、前記第2のセットの第2の指向性単位ベクトルを生成する工程と、
    をさらに包含する、請求項14、または、請求項14に従属する場合の請求項15に記載の方法。
  17. 請求項1から16のいずれかに記載の方法を行うように構成されたプロセッサを備える装置。
  18. 少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化する装置であって、前記指向性情報は、3D球体の表面上に近似的に一様に分散された単位ベクトルの個数を示す個数と、各そのような単位ベクトルについて、関連する指向性ゲインとを含み、前記単位ベクトルは、所定の配置アルゴリズムによって、前記3D球体の前記表面上に分散されると仮定され、前記所定の配置アルゴリズムは、前記単位ベクトルを前記3D球体の前記表面上に近似的に一様に球分散させるためのアルゴリズムであり、前記装置は、請求項12、13、15のいずれかに記載の方法の工程を実行するように構成されたプロセッサを備える、装置。
  19. 少なくとも1つの音源についての指向性情報を含むオーディオコンテンツを復号化する装置であって、前記指向性情報は、第1セットの、指向性方向を表す第1の指向性単位ベクトルおよび関連する第1の指向性ゲインを含み、前記装置は、請求項14から16のいずれかに記載の方法の工程を実行するように構成されたプロセッサを備える、装置。
  20. プロセッサによって実行された際に、前記プロセッサに請求項1から16のいずれかに記載の方法を実行させる命令を含むコンピュータプログラム。
  21. 請求項20に記載のコンピュータプログラムを格納するコンピュータ読み取り可能媒体。
JP2021578040A 2019-07-02 2020-06-30 離散指向性情報の表現、符号化、および復号化のための方法、装置、およびシステム Pending JP2022539217A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962869622P 2019-07-02 2019-07-02
EP19183862 2019-07-02
US62/869,622 2019-07-02
EP19183862.2 2019-07-02
PCT/EP2020/068380 WO2021001358A1 (en) 2019-07-02 2020-06-30 Methods, apparatus and systems for representation, encoding, and decoding of discrete directivity data

Publications (1)

Publication Number Publication Date
JP2022539217A true JP2022539217A (ja) 2022-09-07

Family

ID=71138767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021578040A Pending JP2022539217A (ja) 2019-07-02 2020-06-30 離散指向性情報の表現、符号化、および復号化のための方法、装置、およびシステム

Country Status (13)

Country Link
US (1) US11902769B2 (ja)
EP (1) EP3994689B1 (ja)
JP (1) JP2022539217A (ja)
KR (1) KR20220028021A (ja)
CN (3) CN114127843B (ja)
AU (1) AU2020299973A1 (ja)
BR (1) BR112021026522A2 (ja)
CA (1) CA3145444A1 (ja)
CL (1) CL2021003533A1 (ja)
IL (1) IL289261B1 (ja)
MX (1) MX2021016056A (ja)
TW (1) TW202117705A (ja)
WO (1) WO2021001358A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024520456A (ja) * 2021-05-27 2024-05-24 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. オーディオ指向性コーディング

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030170006A1 (en) 2002-03-08 2003-09-11 Bogda Peter B. Versatile video player
CA2552125C (en) 2005-07-19 2015-09-01 General Mills Marketing, Inc. Dough compostions for extended shelf life baked articles
DE102007018484B4 (de) 2007-03-20 2009-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen
MY146431A (en) 2007-06-11 2012-08-15 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
EP2374124B1 (fr) 2008-12-15 2013-05-29 France Telecom Codage perfectionne de signaux audionumériques multicanaux
JP2011221688A (ja) 2010-04-07 2011-11-04 Sony Corp 認識装置、認識方法、およびプログラム
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
AR085361A1 (es) 2011-02-14 2013-09-25 Fraunhofer Ges Forschung Codificacion y decodificacion de posiciones de los pulsos de las pistas de una señal de audio
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
EP2600637A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
US9131305B2 (en) 2012-01-17 2015-09-08 LI Creative Technologies, Inc. Configurable three-dimensional sound system
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9197962B2 (en) * 2013-03-15 2015-11-24 Mh Acoustics Llc Polyhedral audio system based on at least second-order eigenbeams
CN104464739B (zh) 2013-09-18 2017-08-11 华为技术有限公司 音频信号处理方法及装置、差分波束形成方法及装置
EP2863386A1 (en) 2013-10-18 2015-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
EP2960903A1 (en) 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
US10693936B2 (en) 2015-08-25 2020-06-23 Qualcomm Incorporated Transporting coded audio data
CN106093866A (zh) 2016-05-27 2016-11-09 南京大学 一种适用于空心球阵列的声源定位方法
CN109891502B (zh) 2016-06-17 2023-07-25 Dts公司 一种近场双耳渲染方法、系统及可读存储介质
CN105976822B (zh) 2016-07-12 2019-12-03 西北工业大学 基于参数化超增益波束形成器的音频信号提取方法及装置
MC200185B1 (fr) * 2016-09-16 2017-10-04 Coronal Audio Dispositif et procédé de captation et traitement d'un champ acoustique tridimensionnel
EP3297298B1 (en) 2016-09-19 2020-05-06 A-Volute Method for reproducing spatially distributed sounds
CN108419174B (zh) 2018-01-24 2020-05-22 北京大学 一种基于扬声器阵列的虚拟听觉环境可听化实现方法及系统

Also Published As

Publication number Publication date
EP3994689A1 (en) 2022-05-11
BR112021026522A2 (pt) 2022-02-15
TW202117705A (zh) 2021-05-01
EP3994689B1 (en) 2024-01-03
CN116978387A (zh) 2023-10-31
AU2020299973A1 (en) 2022-01-27
CN114127843B (zh) 2023-08-11
IL289261A (en) 2022-02-01
CL2021003533A1 (es) 2022-08-19
US20220377484A1 (en) 2022-11-24
MX2021016056A (es) 2022-03-11
US11902769B2 (en) 2024-02-13
CN114127843A (zh) 2022-03-01
IL289261B1 (en) 2024-03-01
KR20220028021A (ko) 2022-03-08
CN116959461A (zh) 2023-10-27
CA3145444A1 (en) 2021-01-07
WO2021001358A1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
JP7400910B2 (ja) 音声処理装置および方法、並びにプログラム
US11887608B2 (en) Methods, apparatus and systems for encoding and decoding of directional sound sources
KR102643006B1 (ko) 오디오 렌더링을 위한 사전 렌더링된 신호를 위한 방법, 장치 및 시스템
JP2022539217A (ja) 離散指向性情報の表現、符号化、および復号化のための方法、装置、およびシステム
CN111937413A (zh) 信息处理设备、方法和程序
CN111869241B (zh) 用于使用多通道扬声器系统的空间声音再现的装置和方法
RU2812145C2 (ru) Способы, устройство и системы для представления, кодирования и декодирования дискретных данных направленности
TW201937944A (zh) 用以轉換音訊物件之物件位置的設備、音訊串流供應器、音訊內容產生系統、音訊播放設備、方法及電腦程式
US20240212693A1 (en) Methods, apparatus and systems for encoding and decoding of directional sound sources
US20230262407A1 (en) Methods, apparatus and systems for a pre-rendered signal for audio rendering
JP2017212560A (ja) 音声処理装置、音声処理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240604