JP2022553913A - 空間オーディオ表現およびレンダリング - Google Patents

空間オーディオ表現およびレンダリング Download PDF

Info

Publication number
JP2022553913A
JP2022553913A JP2022521423A JP2022521423A JP2022553913A JP 2022553913 A JP2022553913 A JP 2022553913A JP 2022521423 A JP2022521423 A JP 2022521423A JP 2022521423 A JP2022521423 A JP 2022521423A JP 2022553913 A JP2022553913 A JP 2022553913A
Authority
JP
Japan
Prior art keywords
data set
audio signal
predefined
binaural
dataset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022521423A
Other languages
English (en)
Inventor
ビルカモ ユハ
ライティネン ミッコ-ビッレ
Original Assignee
ノキア テクノロジーズ オサケユイチア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オサケユイチア filed Critical ノキア テクノロジーズ オサケユイチア
Publication of JP2022553913A publication Critical patent/JP2022553913A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】空間オーディオ表現およびレンダリング。【解決手段】少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得し、バイノーラルレンダリバイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットを取得し、レンダリングに関連する少なくとも1つのデータセットを取得し、少なくとも1つのデータセットおよび少なくとも1つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいて、バイノーラルオーディオ信号を生成するように構成された手段を含む装置。【選択図】図1

Description

本出願は空間オーディオ表現およびレンダリングのための装置および方法に関する。ただし、オーディオデコーダのためのオーディオ表現に限定されるものではない。
低ビットレート動作からトランスペアレンシーまでの範囲の多数の動作点をサポートするイマーシブ(Immersive)オーディオコーデックが実装されている。このようなコーデックの一例は、仮想現実(VR)のためのイマーシブ音声およびオーディオのようなイマーシブサービスでの使用を含む3GPP(登録商標)4G/5Gネットワークのような通信ネットワーク上での使用に適するように設計されているイマーシブ音声およびオーディオサービス(IVAS)コーデックである。この音声コーデックは、音声、音楽、汎用音声の符号化、復号、レンダリングを扱うことが期待される。さらに、音場および音源に関する空間情報を含むチャネルベースのオーディオおよびシーンベースのオーディオ入力をサポートすることが期待される。コーデックはまた、様々な伝送条件下で会話サービスを可能にし、高いエラーロバスト性をサポートするために、短い待ち時間で動作することが期待される。
入力信号は、いくつかのサポートされたフォーマットのうちの1つで(およびフォーマットのいくつかの許容された組み合わせで)IVASエンコーダに提示され得る。例えば、モノラルオーディオ信号(メタデータなし)は、EVS(Enhanced Voice Service)エンコーダを使用して符号化され得る。他の入力フォーマットは、新たなIVAS符号化ツールを利用することができる。IVASのために提案される1つの入力フォーマットは、メタデータ支援空間オーディオ(MASA)フォーマットであり、エンコーダは例えば、フォーマットの効率的な送信のためにモノラルおよびステレオ符号化ツールとメタデータ符号化ツールとの組み合わせを利用することができる。MASAは、空間オーディオ処理に適したパラメトリック空間オーディオフォーマットである。パラメータ空間オーディオ処理はオーディオ信号処理の分野であり、音(または音シーン)の空間的側面は、パラメータのセットを使用して記述される。例えば、マイクロホンアレイからのパラメトリック空間オーディオキャプチャでは、例えば周波数帯域における直接-全体比や周囲-全体エネルギー比として表される、マイクロホンアレイの信号から、周波数帯域における音の方向や、周波数帯域において捕捉された音の方向性部分と無方向性部分の相対的なエネルギーなどのパラメータのセットを推定することは、典型かつ有効な選択である。これらのパラメータは、マイクロフォンアレイの位置における捕捉された音の知覚空間特性をよく記述することが知られている。これらのパラメータは、それに応じて空間音の合成、バイノーラルでのヘッドホン、ラウドスピーカ、またはアンビソニック(Ambisonics)のような他のフォーマットに利用することができる。
例えば、オーディオ信号および空間メタデータの2つのチャネル(ステレオ)が存在し得る。空間メタデータは、さらに時間周波数パラメータ区間における音の到来方向を記述する方向インデックス、レベル/位相差、方位指数のエネルギー比率を表す直接対全エネルギー比(Direct-to-total energy ratio)、拡散性、方向指数を表すエネルギーの広がりを表す拡散コヒーレンスなどのコヒーレンス、周囲の方向に対する無指向性音のエネルギー比を表す拡散全エネルギー比(Diffuse-to-total energy ratio)、無指向性音の周囲の方向に対するコヒーレンスを表すサラウンドコヒーレンス、エネルギー比の合計が1であることが必要である残響(マイクノイズなど)音のエネルギー比を表す残響対全エネルギー比、指標の方向から発生した音の距離をメートル単位で対数スケールで表す距離、マルチチャンネルラウドスピーカー信号に関する共分散マトリクス、またはこれらの共分散マトリクスに関連する任意のデータ、特定のデコーダを導く他のパラメータ、例えば、中心予測係数や1対2復号化係数(MPEGサラウンドなどで使用)のようなパラメータを定義することができる。これらのパラメータのいずれも、周波数帯域で決定することができる。
日常環境において自然なオーディオシーンを聞くことは、特定の方向の音についてだけではない。背景の雰囲気がなくても、耳に到達する音のエネルギーの大部分は直接音からではなく、音響環境からの間接音(すなわち、反射や残響)であることが典型的である。離散的な反射および残響を含む室内効果に基づいて、リスナーは他の特徴の中でも音源距離および室内(room)特性(小型、大きい、ウェット、残響)を聴覚的に知覚し、室内は、オーディオコンテンツの知覚される感覚を追加する。言い換えれば、音響環境は、空間音の本質的かつ知覚的に関連する特徴である。
リスナーは(例えば、無響室とは対照的に)通常の室内で音楽を聴き、音楽(例えば、ステレオまたは5.1含有量)は、通常の残響を有する室内で聴かれることが期待される方法で典型的に生成され、これは音に対する包絡および広がりを作り出す。無響室で通常の音楽を聴くことは、室内効果の欠如のために不快であることが知られている。したがって、通常の音楽は、通常の室内で残響を伴って聴かれることになる(基本的には常に聴かれる)。
第1態様によれば、少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得することと、バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得することと、バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットを取得することと、少なくとも1つのデータセットおよび少なくとも1つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成することとを備える手段を備える装置が提供される。
バイノーラルレンダリングに関連する少なくとも1つのデータセットは、バイノーラルルームインパルス応答または伝達関数のセット、頭部関連インパルス応答または伝達関数のセット、バイノーラルルームインパルス応答または伝達関数に基づくデータセット、および頭部関連インパルス応答または伝達関数に基づくデータセットのうちの少なくとも1つを備えることができる。
バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットは、事前定義されたバイノーラルルームインパルス応答または伝達関数のセットと、事前定義された頭部関連インパルス応答または伝達関数のセットと、バイノーラルルームインパルス応答または伝達関数に基づく事前定義されたデータセットと、取り込まれた頭部関連インパルス応答または伝達関数に基づく事前定義されたデータセットとのうちの少なくとも1つを備えることができる。
本願手段は、少なくとも1つのデータセットを第1部分と第2部分とに分割するようにさらに構成されてもよく、手段は少なくとも1つのデータセットの第1部分と少なくとも1つの事前定義されたデータセットとの第1部分の組合せを生成するように構成されてもよい。
少なくとも1つのデータセットおよび少なくとも1つの事前定義されたデータセットの少なくとも一部と空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成するように構成された手段は、少なくとも1つのデータセットの第1部分と少なくとも1つの事前定義されたデータセットと空間オーディオ信号との組合せに基づいて第1部分バイノーラルオーディオ信号を生成するように構成され得る。
少なくとも1つのデータセットの少なくとも一部と少なくとも1つの事前定義されたデータセットとの組合せを生成するように構成された手段は、少なくとも1つのデータセットの第2部分と少なくとも1つの事前定義されたデータセットの少なくとも一部との組合せと、少なくとも1つのデータセットの第2部分がヌルセットである少なくとも1つの事前定義されたデータセットの少なくとも一部と、少なくとも1つのデータセットの第2部分が実質的に誤りを有する、雑音が多い、または破損していると判定された少なくとも1つの事前定義されたデータセットの少なくとも一部とのうちの1つを含む第2部分組合せを生成するようにさらに構成され得る。
少なくとも1つのデータセットの少なくとも一部と少なくとも1つの事前定義されたデータセットとの組合せに基づいてバイノーラルオーディオ信号を生成するように構成された手段、および空間オーディオ信号は、第2部分組合せと空間オーディオ信号とに基づいて第2部分バイノーラルオーディオ信号を生成するように構成され得る。
少なくとも1つのデータセットの少なくとも一部と少なくとも1つの事前定義されたデータセットとの組合せに基づいてバイノーラルオーディオ信号を生成するように構成された手段、および空間オーディオ信号は、第1部分のバイノーラルオーディオ信号と第2部分のバイノーラルオーディオ信号とを結合するように構成され得る。
少なくとも1つのデータセットを第1部分と第2部分とに分割するように構成された手段は、決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオフ機能を有する第1ウィンドウ機能を生成するように構成されてもよく、第1ウィンドウ機能は第1部分を生成するために少なくとも1つのデータセットに適用され、決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオン機能を有する第2ウィンドウ機能を生成し、第2ウィンドウ機能は第2部分を生成するために少なくとも1つのデータセットに適用される。
手段は、少なくとも1つのデータセットの少なくとも一部と、少なくとも1つの事前定義されたデータセットとの組合せを生成するように構成され得る。
少なくとも1つのデータセットおよび少なくとも1つの事前定義データセットの少なくとも一部の組合せを生成するように構成された手段は、少なくとも1つのデータセットの選択に基づいて初期組合せデータセットを生成し、決定されたしきい値より大きい方向差を有する初期組合せデータセットの少なくとも1つの一対の隣接する要素によって定義された初期組合せデータセット内の少なくとも1つのギャップを決定し、各ギャップについて、
少なくとも1つの事前定義データセット内で、ギャップ内に位置する方向を有する少なくとも1つの事前定義データセットの要素を識別し、少なくとも1つの事前定義データセットの識別された要素と初期組合せデータセットとを結合するように構成され得る。
決定された閾値は、方位閾値と、仰角閾値とを含んでもよい。
少なくとも1つのデータセットの少なくとも一部と少なくとも1つの事前定義されたデータセットとの組合せは方向の範囲にわたって定義されてもよく、方向の範囲にわたって、組合せは定義されたしきい値を超える方向ギャップを含まない。
少なくとも1つのデータセットの少なくとも1つの部分は、実質的な誤りがないこと、
実質的なノイズがないこと、および実質的な破損がないことのうちの少なくとも1つで少なくとも1つのデータセットの要素であってもよい。
少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連付けられた空間メタデータとを備える空間オーディオ信号を取得するように構成された手段は、さらなる機器から空間オーディオ信号を受信するように構成され得る。
バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得するように構成された手段は、さらなる機器から少なくとも1つのデータセットを受信するように構成され得る。
第2態様によれば、少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得するステップと、
バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得するステップと、バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットを取得するステップと、少なくとも1つのデータセットおよび少なくとも1つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成するステップとを含む方法が提供される。
バイノーラルレンダリングに関連する少なくとも1つのデータセットは、バイノーラルルームインパルス応答または伝達関数のセット、頭部関連インパルス応答または伝達関数のセット、バイノーラルルームインパルス応答または伝達関数に基づくデータセット、および頭部関連インパルス応答または伝達関数に基づくデータセットのうちの少なくとも1つを備えることができる。
バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットは、事前定義されたバイノーラルルームインパルス応答または伝達関数のセットと、事前定義された頭部関連インパルス応答または伝達関数のセットと、バイノーラルルームインパルス応答または伝達関数に基づく事前定義されたデータセットと、取り込まれた頭部関連インパルス応答または伝達関数に基づく事前定義されたデータセットとのうちの少なくとも1つを備えることができる。
本方法は、少なくとも1つのデータセットを第1部分と第2部分とに分割するステップと、少なくとも1つのデータセットの第1部分と少なくとも1つの事前定義されたデータセットとの第1部分の組合せを生成するステップとをさらに含むことができる。
少なくとも1つのデータセットと少なくとも1つの事前定義データセットと空間オーディオ信号の少なくとも一部との組み合わせに基づいてバイノーラルオーディオ信号を生成することは、少なくとも1つのデータセットの第1部分と、少なくとも1つの事前定義データセットと空間オーディオ信号との組み合わせに基づいて、第1部分バイノーラルオーディオ信号を生成することを含み得る。
少なくとも1つのデータセットの少なくとも一部と少なくとも1つの事前定義されたデータセットの少なくとも一部との組み合わせを生成することは、少なくとも1つのデータセットの第2部分と少なくとも1つの事前定義されたデータセットの少なくとも一部との組み合わせと、少なくとも1つのデータセットの第2部分がヌルセットである少なくとも1つの事前定義されたデータセットの少なくとも一部と、少なくとも1つのデータセットの第2部分が実質的に誤りを有する、ノイズが多い、または破損していると判定される少なくとも1つの事前定義されたデータセットの少なくとも一部とのうちの1つを備える第2部分組み合わせを生成することをさらに備えることができる。
少なくとも1つのデータセットと少なくとも1つの予め規定されたデータセットとの少なくとも一部の組み合わせに基づいてバイノーラル音声信号を生成すること、および空間音声信号は、第2部分の組み合わせおよび空間音声信号に基づいて第2部分のバイノーラル音声信号を生成することを含み得る。
少なくとも1つのデータセットと少なくとも1つの予め規定されたデータセットとの少なくとも一部の組み合わせに基づいてバイノーラル信号を生成すること、および空間オーディオ信号は、第1部分バイノーラルオーディオ信号と第2部分バイノーラルオーディオ信号とを組み合わせることを含み得る。
少なくとも1つのデータセットを第1部分と第2部分とに分割することは、決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオフ機能を有する第1ウィンドウ機能を生成することであって、第1ウィンドウ機能は第1部分を生成するために少なくとも1つのデータセットに適用されることと、決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオン機能を有する第2ウィンドウ機能を生成することと、第2ウィンドウ機能は第2部分を生成するために少なくとも1つのデータセットに適用されることとを備えることができる。
この方法は、少なくとも1つのデータセットの少なくとも一部と、少なくとも1つの事前定義データセットとの組み合わせを生成することを含む。
少なくとも1つのデータセットおよび少なくとも1つの事前定義データセットの少なくとも一部の組合せを生成するステップは、少なくとも1つのデータセットの選択に基づいて初期組合せデータセットを生成するステップと、初期組合せデータセットの少なくとも1つの一対の隣接する要素によって定義される初期組合せデータセット内の少なくとも1つのギャップを、決定されたしきい値よりも大きい方向差で決定するステップと、各ギャップについて、少なくとも1つの事前定義データセット内で、ギャップ内に位置する方向を有する少なくとも1つの事前定義データセットの要素を識別するステップと、少なくとも1つの事前定義データセットの識別された要素と、初期組合せデータセットとを結合するステップとを含むことができる。
決定された閾値は、方位閾値と、仰角閾値とを含んでもよい。
少なくとも1つのデータセットの少なくとも一部と少なくとも1つの事前定義されたデータセットとの組合せは、方向の範囲にわたって定義されてもよく、方向の範囲にわたって、組合せは定義されたしきい値を超える方向ギャップを含まない。
少なくとも1つのデータセットの少なくとも1つの部分は、実質的な誤りがないこと、
実質的なノイズがないこと、および実質的な破損がないことのうちの少なくとも1つで少なくとも1つのデータセットの要素であってもよい。
少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連付けられた空間メタデータとを備える空間オーディオ信号を取得することは、さらなる装置から空間オーディオ信号を受信することを備えることができる。
バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得することは、さらなる装置から少なくとも1つのデータセットを受信することを備えることができる。
第3の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つの記憶装置とを備える装置が提供され、少なくとも1つの記憶装置およびコンピュータプログラムコードは少なくとも1つのプロセッサを用いて、装置に、少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得させ、バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得させ、バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットを取得させ、少なくとも1つのデータセットおよび少なくとも1つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成させるように構成される。
バイノーラルレンダリングに関連する少なくとも1つのデータセットは、バイノーラルルームインパルス応答または伝達関数のセット、頭部関連インパルス応答または伝達関数のセット、バイノーラルルームインパルス応答または伝達関数に基づくデータセット、および頭部関連インパルス応答または伝達関数に基づくデータセットのうちの少なくとも1つを備えることができる。
バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットは、事前定義されたバイノーラルルームインパルス応答または伝達関数のセットと、事前定義された頭部関連インパルス応答または伝達関数のセットと、バイノーラルルームインパルス応答または伝達関数に基づく事前定義されたデータセットと、取り込まれた頭部関連インパルス応答または伝達関数に基づく事前定義されたデータセットとのうちの少なくとも1つを備えることができる。
装置はさらに、少なくとも1つのデータセットを第1部分と第2部分とに分割し、少なくとも1つのデータセットの第1部分と少なくとも1つの事前定義データセットとの第1部分の組み合わせを生成するようにされてもよい。
少なくとも1つのデータセットおよび少なくとも1つの事前定義されたデータセットの少なくとも一部と空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成させる装置は、少なくとも1つのデータセットの第1部分と少なくとも1つの事前定義されたデータセットと空間オーディオ信号との組合せに基づいて第1部分バイノーラルオーディオ信号を生成させることができる。
少なくとも1つのデータセットの少なくとも一部と少なくとも1つの事前定義されたデータセットとの組合せを生成させる装置は、少なくとも1つのデータセットの第2部分と少なくとも1つの事前定義されたデータセットの少なくとも一部との組合せと、少なくとも1つのデータセットの第2部分がヌルセットである少なくとも1つの事前定義されたデータセットの少なくとも一部と、少なくとも1つのデータセットの第2部分が実質的に誤りを有する、ノイズが多い、または破損していると判定される少なくとも1つの事前定義されたデータセットの少なくとも一部とのうちの1つを含む第2部分組合せを生成させることができる。
少なくとも1つのデータセットの少なくとも一部と少なくとも1つの事前定義データセットとの組み合わせ、および空間音声信号に基づいてバイノーラル音声信号を生成する装置は、第2部分の組み合わせと空間音声信号とに基づいて第2部分のバイノーラル音声信号を生成するようにしてもよい。
少なくとも1つのデータセットの少なくとも一部と少なくとも1つの事前定義データセットとの組み合わせ、および空間オーディオ信号に基づいてバイノーラルオーディオ信号を生成する本装置は、第1部分のバイノーラルオーディオ信号と第2部分のバイノーラルオーディオ信号とを組み合わせるようにさせてもよい。
少なくとも1つのデータセットを第1部分と第2部分とに分割する装置は、決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオフ機能を有する第1ウィンドウ機能を生成するようにされてもよく、第1ウィンドウ機能は第1部分を生成するために少なくとも1つのデータセットに適用され、決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオン機能を有する第2ウィンドウ機能を生成し、第2ウィンドウ機能は第2部分を生成するために少なくとも1つのデータセットに適用される。
装置は、少なくとも1つのデータセットの少なくとも一部と、少なくとも1つの事前定義データセットとの組み合わせを生成するようにされてもよい。
少なくとも1つのデータセットおよび少なくとも1つの事前定義データセットの少なくとも一部の組合せを生成させる装置は少なくとも1つのデータセットの選択に基づいて初期組合せデータセットを生成させ、決定されたしきい値より大きい方向差を有する初期組合せデータセットの少なくとも1つの一対の隣接する要素によって定義された初期組合せデータセット内の少なくとも1つのギャップを決定し、各ギャップについて、少なくとも1つの事前定義データセット内で、ギャップ内に位置する方向を有する少なくとも1つの事前定義データセットの要素を識別し、少なくとも1つの事前定義データセットの識別された要素と初期組合せデータセットとを結合させることができる。
決定された閾値は、方位閾値と、仰角閾値とを含んでもよい。
少なくとも1つのデータセットの少なくとも一部と少なくとも1つの事前定義されたデータセットとの組合せは方向の範囲にわたって定義されてもよく、方向の範囲にわたって、組合せは定義されたしきい値を超える方向ギャップを含まない。
少なくとも1つのデータセットの少なくとも1つの部分は、実質的な誤りがないこと、実質的なノイズがないこと、および実質的な破損がないことのうちの少なくとも1つで少なくとも1つのデータセットの要素であってもよい。
少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連付けられた空間メタデータとを備える空間オーディオ信号を取得するようにされた装置は、さらなる装置から空間オーディオ信号を受信するようにされてもよい。
バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得するようにされた装置は、さらなる装置から少なくとも1つのデータセットを受信するようにされてもよい。
第4の態様によれば、少なくとも1つのオーディオ信号および少なくとも1つのオーディオ信号に関連する空間メタデータを含む空間オーディオ信号を得るように構成された回路を得るステップと、バイノーラルレンダリングに関連する少なくとも1つのデータセットを得るように構成された回路を得るステップと、バイノーラルレンダリングに関連する少なくとも1つの事前定義データセットを得るように構成された回路を得るステップと、少なくとも1つのデータセットおよび少なくとも1つの事前定義データセットの少なくとも一部と、前記少なくとも1つの事前定義データセットと、前記空間オーディオ信号との組み合わせに基づいて、バイノーラルオーディオ信号を生成するように構成された回路を生成するステップとを含む装置が提供される。
第5の態様によれば、少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得することと、バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得することと、バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットを取得することと、少なくとも1つのデータセットおよび少なくとも1つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成することと、を装置に実行させるための命令[またはプログラム命令を備えるコンピュータ可読媒体]を備えるコンピュータプログラムが提供される。
第6の態様によれば、少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得することと、バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得することと、バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットを取得することと、少なくとも1つのデータセットおよび少なくとも1つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成することと、を装置に実行させるためのプログラム命令を備える非一時的コンピュータ可読媒体が提供される。
第7の態様によれば、少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得するための手段と、バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得するための手段と、バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットを取得するための手段と、少なくとも1つのデータセットおよび少なくとも1つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成するための手段とを備える装置が提供される。
第8の態様によれば、少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得することと、バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得することと、バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットを取得することと、少なくとも1つのデータセットおよび少なくとも1つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成することと、を装置に実行させるためのプログラム命令を備えるコンピュータ可読媒体が提供される。
上述の方法の動作を実行するように構成された装置。
コンピュータに上述の方法を実行させるためのプログラム命令を含むコンピュータプログラム。
媒体に記憶されたコンピュータプログラム製品は、装置に本明細書に記載された方法を実行させることができる。
電子デバイスは、本明細書で説明されるような装置を備えることができる。
チップセットは、本明細書に記載されるような装置を備えてもよい。
本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。
本出願をより良く理解するために、添付の図面を例として参照する。
図1は、いくつかの実施形態を実施するのに適した装置のシステムを概略的に示す。 図2は、いくつかの実施形態に従う例示的な装置の動作のフロー図を示す。 図3は、いくつかの実施形態による、図1に示されるような合成プロセッサを概略的に示す。 図4はいくつかの実施形態に従う、図3に示されるような例示的な装置の動作のフロー図を示す。 図5は、いくつかの実施形態による前期/後期部分分割器の例を示す。 図6は、いくつかの実施形態による、組み合わされた前期パートレンダリングデータを生成するための例示的な方法の流れ図を示す。 図7は、いくつかの実施形態によるレンダリングデータの例示的な補間または曲線フィッティングを示す。 図8はいくつかの実施形態による、図3に示されるような初期および後期レンダラの例をさらに詳細に示す。 図9は、前の図に示される装置を実装するのに適したデバイスの例を示す。
以下に、ロードされたバイノーラルデータセットを使用して、(搬送)オーディオ信号(複数可)およびオーディオ信号(複数可)に関連する空間メタデータを含む空間オーディオストリーム(または空間オーディオ信号)をレンダリングするための適切な装置および可能なメカニズムをさらに詳細に説明する。その目的はバイノーラルレンダラに最適以下の方向分解能を持つHRTFとBRIRの負荷を可能にすると同時に、最適な再生音質(正確な方向知覚と低域なし音色)を提供することである。これは、リスナーが個々のHRTF/BRIRをロードする場合に重要であり、これは通常、高い指向性解像度では測定できない。
個別に測定されたHRTF/BRIRを使用することは、局在化を改善し、音色を高めることが示されている。したがって、リスナーは、バイノーラルレンダラ(および/またはIVASなどのバイノーラルレンダラを含むコーデック)に対する個々の応答をロードすることに関心があり得る。しかしながら、そのような応答を得ることは一般的ではないので(この出願を作成する時点で)、それらを測定する規則的または標準化された方法はない。結果として、それらは様々な方法で測定されてもよく、これは任意の方向分解能を有する応答にもつながり得る(すなわち、応答の数、および利用可能な応答のデータポイント間の間隔は様々な測定方法の間で著しく異なり得る)。実際には、高い空間忠実度で全ての方向にオーディオをレンダリングすることを目的とする既知のバイノーラルレンダリング方法において予想されるよりも少ないHRTFが利用可能であり得る。
この多様な効果は、空間オーディオ信号のレンダリングに使用されるBRIRデータベースの文脈において、より明らかである。それらは典型的には専門的に生成されたデータセットに対してさえも、HRTFデータベースよりも下側指向性分解能を有する(そして典型的には利用者提供データセットにおいてより下側分解能を有する)。これには、通常の部屋にカスタムバイノーラル測定システムを設置することが困難であり、非常に時間がかかるという実用的な理由がある。したがって、典型的には、例えば、5.1および/または7.1+4などの共通マルチチャネルスピーカレイアウトに対応する、数個のデータポイントのみが利用可能である。HRTF/BRIRデータセットのスパース性は、バイノーラルレンダリングの課題を引き起こす。例えば、HRTF/BRIRデータセットは水平方向のみを含むことができ、一方、レンダリングは、レンダリング高さもサポートする必要があることがある。レンダラはデータセットがまばらである方向(例えば、5.1バイノーラルレンダリングデータセットが180度でHRTF/BRIRを有していない)にも、サウンドを正確にレンダリングする必要がある。さらに、レンダリングは任意の軸上でのヘッドトラッキングを必要とすることがあり、したがって、良好な空間精度で任意の方向にレンダリングすることが関連するようになる。データセットがまばらであるときのデータポイント間の補間は原則としてオプションであるが、まばらなデータポイントによる補間はサウンドの音色の着色、不正確で非点状の定位などの深刻な人工産物をもたらす可能性がある。さらに、利用者提供データセットはまた、破損する可能性があり、例えば、それは、低いSNRを有するか、またはバイノーラルでなければ、バイノーラルレンダリングの品質(例えば、音色、空間精度、外部化)に影響を及ぼす、歪んだまたは破損した応答を有する可能性がある。
さらに、ロードされたデータセットがHRTFデータセットである場合、定義により、データセットは無響空間にのみ伝達関数を含み、反射も残響も含まない。しかしながら、部屋効果(反射及び/または残響を含む)をレンダリングすることは、マルチチャネル信号(例えば、5.1)のような特定の信号タイプで有益であることが知られている。マルチチャネル信号は、通常の部屋で残響を伴って聴かれるように生成される。無響空間(HRTFレンダリングがそれに対応する)で聴かれる場合、それらは、広さおよび包絡を欠いていると知覚され、したがって、知覚されるオーディオ品質を低下させる。したがって、バイノーラルレンダラは、(ロードされたデータセットがHRTFデータセットであっても)すべての場合において部屋効果の追加をサポートすべきである。
したがって、この概念は、任意の解像度、および潜在的に測定品質問題を有するHRTFおよびBRIRセットをロードすることを可能にするレンダラが提供される概念である。さらに、いくつかの実施形態で説明したレンダラは、任意の方向に音源を有することができるデータフォーマットからバイノーラルオーディオをレンダリングするように構成される(MASAフォーマットおよび/または頭部追跡バイノーラライゼーションなど)。さらに、いくつかの実施形態では、レンダラが任意のロードされたHRTFおよびBRIRデータセットからの添加の部屋応答を伴って、および伴わずに、バイノーラルオーディオをレンダリングするように構成される。
さらに、実施形態は高指向性解像度データセット(すべての場合、特にリスナーによってロードされたデータセットでは保証できない)を必要とせずに動作するように構成することができ、さらに、任意の方向に対して良好な品質を有するバイノーラルレンダリングを実施する(音色の彩色および最適以下の空間化をもたらす)。
実施形態はロードされたバイノーラルデータセット(例えば、HRTFおよびBRIRに基づく)を使用する、搬送オーディオ信号(複数可)および空間メタデータを含む空間オーディオストリームのバイノーラルレンダリングに関する。したがって、実施形態は、低い指向性分解能を有するバイノーラルデータセットを用いてさえも、良好な指向性精度および無色の音色を有するバイノーラル空間オーディオを生成することができる方法を説明する。さらに、いくつかの実施形態では、これはロードされたバイノーラルデータセットを事前定義バイノーラルデータセットと組み合わせ(知覚マッチング手順を含む)、組み合わせられたバイノーラルデータセットを使用して空間オーディオストリームをバイノーラル出力にレンダリングすることによって達成することができる。
いくつかの実施形態では、バイノーラルレンダラが例えば、デコーダ(IVASデコーダなど)の一部であってもよい。したがって、それは、バイノーラル出力にレンダリングされる空間オーディオストリームを受信または取り出すことができる。さらに、バイノーラルレンダラは、バイノーラルデータセットの負荷をサポートする。これらのバイノーラルデータセットは例えば、聴取者によってロードされてもよく、例えば、聴取者のために調整された個々の応答を含んでもよい。
バイノーラルレンダラはさらに、いくつかの実施形態では、事前定義バイノーラルデータセットを含む。典型的な状態では、事前定義バイノーラルレンダリングデータセットが空間的に正確であることを特徴とし、この手段、空間的に密であるBRIR/HRTFデータセットに基づく。したがって、事前定義されたデータセットは、レンダラーに事前に存在する、確実な高品質のデフォルトデータセットを表す。
ロードされたバイノーラル・レンダリング・データ・セットは(例えば、個人的な応答であるように)レンダリングに使用されるように選択された応答からなることができるが、ある意味では次善である。次善とは、例えば、下記を意味することができる。
・ データセットは(例えば、22.2または5.1方向に対応する)スパースな測定セットに基づく。いくつかの方向(例えば、仰角、側面)は、応答を有さない場合がある。本発明は単一の(バイノーラルの)応答と同じくらい低い負荷を可能にし、依然として任意の方向へのレンダリングを提供する。
・ データセットは、ノイズまたは破損した測定手順の影響を受ける。
いくつかの実施形態では、ロードされたバイノーラルデータセットが、例えば、以下によって、事前定義データセットと組み合わされる。
・ ロードされたデータがまばらである方向(すなわち、データセットにおける大きな角度ギャップ)において、事前定義されたデータを実質的に利用するように、ロードされたデータセットに事前定義されたデータセットを追加する。
・ ロードされたバイノーラル・レンダリング・データを、事前定義バイノーラル・レンダリング・データと部分的にまたは完全に置き換える。
加えて、実施形態は、例えば、以下によって、結合されたデータセットに対して知覚マッチング手順を実行する実装を説明する。
・ ロードされたデータセットに基づいて、結合されたデータセットのスペクトル特性を調整する。
・ ロードされたデータセットに基づいて、結合されたデータセットの両耳間位相/時間プロパティを調整する。
したがって、結果として得られるバイノーラル・データ・セットは空間的に密であり、ロードされたバイノーラル・データ・セットの特徴に一致することができる。空間オーディオは、このデータセットを使用してレンダリングされる。その結果、聴取者は、正確な指向性知覚および無色の音色を有する個別化されたバイノーラル空間オーディオ再生を得る。
いくつかの実施形態では、ロードされたデータセットがHRTFデータセットであり、バイノーラル残響がレンダリングされる必要がある場合、バイノーラル残響をレンダリングするために、事前定義バイノーラル残響データ(または「後期パートレンダリングデータ」)が使用される。
さらに、いくつかの実施形態では、事前定義データセットがBRIRデータセットである場合、事前定義データセットの前期の部分は本明細書で詳細に説明するように、処理動作で使用されるように抽出される。
いくつかの実施形態では、ロードされたデータセットがBRIRデータセットである場合、ロードされたデータセットの前期の部分が抽出されて、本明細書で詳細に説明されるような処理動作で使用される。
さらに、いくつかの実施形態では、バイノーラル残響をレンダリングする必要がある場合、バイノーラル残響をレンダリングするために使用されるように、ロードされたデータセットの後半部分が抽出される。いくつかの実施形態ではそれは直接使用されてもよく、または事前定義後期残響バイノーラルデータが、それがロードされたデータセットの特徴(例えば、残響時間またはスペクトル特性)に一致するように修正されてもよい。
図1を参照すると、いくつかの実施形態による、オーディオキャプチャおよびレンダリングを実施するための例示的な装置およびシステムが示されている。
システム199は、エンコーダ/アナライザ101部分およびデコーダ/シンセサイザ105部分とともに示されている。
いくつかの実施形態におけるエンコーダ/アナライザ101部分は、入力オーディオ信号110を受信するように構成されたオーディオ信号入力を含む。入力オーディオ信号は、例えば、携帯電話に搭載された2つ以上のマイクロフォン、例えばBフォーマットマイクロフォンまたはアイゲンマイク(Eigenmike)のような他のマイクロフォンアレイ、アンビソニック信号、例えば、一次アンビソニック(FOA)、高次アンビソニック(HOA)、ラウドスピーカサラウンドミックスおよび/またはオブジェクトなど、任意の適切なソースから得ることができる。入力オーディオ信号110は、分析プロセッサ111および輸送信号発生器113に供給されてもよい。
エンコーダ/アナライザ101部分は、分析プロセッサ111を含むことができる。分析プロセッサ111は、適切なメタデータ112を生成する入力オーディオ信号に対して空間分析を実行するように構成される。したがって、分析プロセッサ111の目的は、周波数帯域における空間メタデータを推定することである。前述の入力タイプのすべてについて、適切な空間メタデータ、例えば、周波数帯域における方向および直接対総エネルギー比(または拡散性、すなわち、周囲対総比などの同様のパラメータ)を生成するための既知の方法が存在する。これらの方法は本明細書で詳述されるが、いくつかの例は入力信号に対して適切な時間周波数変換を実行し、次いで、入力が携帯電話マイクロフォンアレイであるときの周波数帯域において、マイクロフォン間相関を最大化するマイクロフォンペアの遅延値を推定し、その遅延に対応する方向値を定式化すること(GB特許出願第1619573.7号およびPCT特許出願第PCT/FI2017/050778号に記載されるように)、および相関値に基づいて比率パラメータを定式化することを含み得る。
メタデータにはさまざまな形式があり、空間メタデータやその他のメタデータを含めることができる。空間メタデータの典型的なパラメータ化は、各周波数帯域θ(k,n)における1つの方向パラメータと、各周波数帯域r(k,n)における関連する直接対総エネルギー比であり、ここで、kは、周波数帯域インデックスであり、nは、時間フレームインデックスである。方向および比率を決定または推定することは、オーディオ信号が得られる装置または実装に依存する。例えば、メタデータは、GB特許出願第1619573.7号およびPCT特許出願第PCT/FI2017/050778号に記載されている方法を使用して、空間オーディオキャプチャ(SPAC)を使用して取得または推定することができる。言い換えれば、この特定の状況では、空間オーディオパラメータが音場を特徴付けることを目的とするパラメータを含む。一部の実施形態では、生成されるパラメータが周波数帯域ごとに異なる場合がある。したがって、例えば、帯域Xではすべてのパラメータが生成され、送信されるが、帯域Yではパラメータのうちの1つだけが生成され、送信され、さらに、帯域Zではパラメータは生成または送信されない。これの実際的な例は、最高帯域のようないくつかの周波数帯域に対して、パラメータのいくつかが知覚上の理由のために必要とされないことであり得る。
入力がFOA信号またはBフォーマットマイクロフォンである場合、分析プロセッサ111は、方向パラメータが作成される強度ベクトルなどのパラメータを決定し、強度ベクトル長さを全体的な音場エネルギー推定値と比較して比パラメータを決定するように構成することができる。この方法は、指向性オーディオ符号化(Directional Audio Coding:DirAC)として文献で知られている。
入力がHOA信号である場合、分析プロセッサは、信号のFOAサブセットを取り、上記の方法を使用するか、またはHOA信号を複数のセクタに分割するかのいずれかを行うことができ、その各セクタにおいて、上記の方法が利用される。このセクタベースの方法は、高次DirAC(HO-DirAC)として文献で知られている。この場合、周波数帯域当たり2つ以上の同時方向パラメータが存在する。
入力がラウドスピーカサラウンドミックスおよび/またはオブジェクトである場合、解析プロセッサ111は信号を(球面調和エンコードゲインの使用を介して)FOA信号に変換し、上述のように方向および比パラメータを解析するように構成されてもよい。
したがって、分析プロセッサ111の出力は、周波数帯域で決定された空間メタデータである。空間メタデータは周波数帯域における方向および比率を含むことができるが、先に列挙したメタデータタイプのいずれかを有することもできる。空間メタデータは、時間、また頻度的に変化することができる。
いくつかの実施形態では、空間分析がシステム199の外部で実施することができる。例えば、いくつかの実施形態では、オーディオ信号に関連する空間メタデータが別個のビットストリームとしてエンコーダに提供されてもよい。いくつかの実施形態では、空間メタデータが空間(方向)インデックス値のセットとして提供されてもよい。
エンコーダ/分析器101部分は、搬送信号発生器113を備えることができる。搬送信号発生器113は入力信号を受信し、適切な搬送音声信号114を生成するように構成される。搬送オーディオ信号は、ステレオまたはモノラルオーディオ信号であることができる。搬送オーディオ信号114の生成は、以下に要約されるような公知方法を使用して実施することができる。
入力が携帯電話マイクロフォンアレイ音声信号である場合、搬送信号発生器113は、左右のマイクロフォン対を選択し、自動利得制御、マイクロフォン雑音除去、風雑音除去、および等化などの適当な処理を信号対に適用するように構成されてもよい。
入力がFOA/HOA信号またはBフォーマットマイクロフォンである場合、トランスポート信号生成器113は、2つの対向するカージオイド信号などの左右方向に向かう指向性ビーム信号を定式化するように構成され得る。
入力がラウドスピーカーのサラウンドミックスおよび/またはオブジェクトである場合、搬送信号発生器113は、左辺チャネルを左ダウンミックスチャネルに組み合わせ、右辺については同じダウンミックス信号を発生させ、適切なゲインで両方の搬送チャネルにセンターチャネルを追加するように構成することができる。
いくつかの実施形態では、トランスポート信号発生器113が入力をバイパスするように構成される。例えば、解析および合成が中間符号化なしに、単一の処理ステップで同じ装置で行われる状況もある。トランスポートチャネルの数はまた、任意の適切な数であり得る(むしろ、実施例において議論されるように、1つまたは2つのチャネル)。
いくつかの実施形態では、エンコーダ/アナライザ部101がエンコーダ/マルチプレクサ115を備えることができる。エンコーダ/マルチプレクサ115は、搬送オーディオ信号114およびメタデータ112を受信するように構成することができる。エンコーダ/マルチプレクサ115はさらに、エンコードされた、または圧縮された形態のメタデータ情報および搬送オーディオ信号を生成するように構成され得る。いくつかの実施形態では、エンコーダ/マルチプレクサ115は、さらに、伝送または記憶の前に、単一のデータストリーム116にインターリーブし、多重化し、またはエンコードされたオーディオ信号内にメタデータを埋め込むことができる。多重化は、任意の適切なスキームを使用して実施することができる。
エンコーダ/マルチプレクサ115は例えば、IVASエンコーダ、または任意の他の適切なエンコーダとして実装することができる。したがって、エンコーダ/マルチプレクサ115はオーディオ信号およびメタデータを符号化し、ビットストリーム116(たとえば、IVASビットストリーム)を形成するように構成される。
次いで、このビットストリーム116は鎖線によって示されるように、送信/格納103され得る。いくつかの実施形態では、エンコーダ/マルチプレクサ115は存在しない(したがって、以下で説明するように、デコーダ/デマルチプレクサ121は存在しない)。
システム199はさらに、デコーダ/シンセサイザ部105を含むことができる。デコーダ/シンセサイザ部105は、ビットストリーム116を受信し、取り出し、または他の方法で取得し、ビットストリームから、リスナー/リスナー再生装置に提示される適切なオーディオ信号を生成するように構成される。
デコーダ/シンセサイザ部105は、ビットストリームを受信し、符号化されたストリームを逆多重化し、次いでオーディオ信号を復号してトランスポート信号124およびメタデータ122を得るように構成されたデコーダ/デマルチプレクサ121を備えることができる。
さらに、いくつかの実施形態では、上述したように、デマルチプレクサ/デコーダ121が存在しなくてもよい(例えば、エンコーダ/アナライザ部101およびデコーダ/シンセサイザ105の両方が同じ装置内に位置するので、関連するエンコーダ/マルチプレクサ115が存在しない場合)。
デコーダ/シンセサイザ部105は、合成プロセッサ123を備えることができる。合成プロセッサ123は、搬送オーディオ信号124、空間メタデータ122、および、BRIRまたはHRTFに対応するロード済バイノーラルレンダリング・データセット126を取得するように構成され、ヘッドホンを介して再生することができるバイノーラル出力信号128を生成する。
このシステムの動作は図2に示すようなフロー・ダイアグラムに関して要約され、図2はステップ201に示すような入力オーディオ信号の受信の例を示している。
次に、流れ図は、ステップ203によって図2に示されるような空間メタデータを生成するための入力オーディオ信号の分析(空間)を示す。
次いで、ステップ204によって、図2に示すように、入力オーディオ信号から搬送オーディオ信号が生成される。
生成された搬送オーディオ信号およびメタデータは次に、ステップ205によって図2に示されるように多重化され得る。これは、図2に任意の破線のボックスとして示されている。
符号化された信号はステップ207によって図2に示されるように、搬送オーディオ信号および空間メタデータを生成するために、さらに逆多重化され、復号化されることができる。これは、任意の破線のボックスとしても示されている。
次に、ステップ209によって図2に示すように、バイノーラルオーディオ信号を、搬送オーディオ信号、空間メタデータ、および、BRIRまたはHRTFに対応するバイノーラルレンダリング・データセットに基づいて合成することができる。
次いで、合成されたバイノーラルオーディオ信号を、ステップ211によって図2に示すように、適当な出力装置、例えばヘッドフォンのセットに出力することができる。
図3を参照すると、合成プロセッサ123がさらに詳細に示されている。
いくつかの実施形態では、合成プロセッサ123が前期/後期部分分割器301を備える。前期/後期部分分割器301は、バイノーラルレンダリングデータセット126(BRIRまたはHRTFに対応する)を受信するように構成される。いくつかの実施形態では、バイノーラルレンダリングデータセットが任意の適切な形態であってもよい。例えば、いくつかの実施形態では、データセットが判定された方向のセットについて、HRTF(頭部伝達関数)、HRIR(頭部関連インパルス応答)、BRIR(バイノーラル室内インパルス応答)、またはBRTF(バイノーラル室伝達関数)の形態である。いくつかの実施形態では、データセットがHRTF、HRIR、BRIR、またはBRTFに基づくパラメータ化されたデータセットである。パラメトリゼーションは例えば、Barkバンドのような周波数帯における時間差およびスペクトルであり得る。さらに、いくつかの実施形態では、データセットが別の領域に変換された、例えば球面調和関数に変換された、HRTF、HRIR、BRIR、またはBRTFであってもよい。
以下の例では、レンダリングデータが決定された方向のセットに対するHRIRまたはBRIR(すなわち、時間領域インパルス応答一対のセット)の典型的な形式である。応答がHRTFまたはBRTFである場合、それらは、例えば、以下の処理のためにHRIRまたはBRIRに逆時間周波数変換され得る。他の例も記載されている。
前期/後期部分分割器301は、ロードされたバイノーラルレンダリングデータを、前期パートレンダリングデータコンバイナ303に供給されるロードされた前期データ302と、遅期パートレンダリングデータコンバイナ305に供給されるロードされた遅期データ304とに定義されるパートに分割するように構成される。
データセットがHRIRデータのみを含むいくつかの実施形態では、これはロードされた前期データ302として直接提供される。ロードされた前期データ302は、いくつかの実施形態ではこの時点で周波数領域に変換され得る。このような例でロードされた遅延データ304は、遅延部分が存在しないことのみを示す。
データ・セットがBRIRデータ・セットであるいくつかの実施形態では、ウィンドウ処理を適用して、ロードされた前期データ302に対する応答を、大部分が指向性(直接部分および潜在的に第1反射を含む)であり、ロードされた遅いデータ304が大部分が残響であるように分割することができる。分割は、例えば、以下のステップで実行することができる。
第1に、BRIRの最大エネルギーの時間を測定する(これにより、最初に到達する音の時間の近似値が得られる)。
第2に、ウィンドウ関数を設計する。図5に、設計ウィンドウ関数の例を示す。図5は例えば、前期の部分を抽出するための第1ウィンドウ551を備えるウィンドウ関数を示す。このウィンドウ関数は最大エネルギー501の時間の後に、定義されたオフセット503時間まで単一である。第1ウィンドウ551の関数は、その後ゼロになるまで、クロスオーバ505の時間を通して減少する。
ウィンドウ関数は、交差505時間の開始までゼロ値を有する後期部分を抽出するための第2ウィンドウ553をさらに備える。第2ウィンドウ553の関数値はクロスオーバ505の時間を通じて1まで増加し、その後は1である。
これは、適切な機能の一例に過ぎず、他の機能を使用することができる。いくつかの実施形態では、オフセット時間が例えば、5msとすることができ、クロスオーバ時間は例えば、2msとすることができる。第3に、ウィンドウ関数をBRIRに適用して、ウィンドウ化された前期の部分およびウィンドウ化された後期部分を得ることができる。
第4に、ウィンドウ化された前期部分は、ロードされた前期データ302として前期部分レンダリングデータコンバイナ303に提供される。いくつかの実施形態では、ロードされた前期データがこの時点で周波数領域に変換されてもよい。
第5に、ウィンドウ化された遅れ部分は、ロードされた遅れデータ304として遅れ部分レンダリング・データ・コンバイナ305に供給される。
いくつかの実施形態では合成プロセッサはまた、事前定義された前期データ300および事前定義された後期データ392を含み、これらは事前定義されたHRIR、BRIRなどの応答に基づいて、上述したのと同等のステップで生成された可能性がある。データセットが遅い部分を含まないこれらの実施形態では、事前定義遅い部分392が遅い部分が存在しないことのみを示す。
いくつかの実施形態では、合成プロセッサ123が前期パートレンダリングデータコンバイナ303を備える。前期の部分レンダリングデータ結合器303は、事前定義された前期のデータ300およびロードされた前期のデータ302を受信するように構成される。前期パートレンダリングデータコンバイナ303は、ロードされた前期データが空間的に密であるかどうかを評価するように構成される。
例えば、いくつかの実施形態では、前期の部分レンダリングデータコンバイナ303が水平方向の密度基準に基づいて、データが空間的に密であるかどうかを判定するように構成される。これらの実施形態では、前期パートレンダリングデータコンバイナが応答の水平解像度が十分に密であることをチェックすることができる。例えば、水平応答間の最大アジマスギャップは、閾値よりも大きくない。この水平応答距離閾値は例えば、10度とすることができる。
例えば、いくつかの実施形態では、前期パートレンダリングデータコンバイナ303が高度密度基準に基づいて、データが空間的に密であるかどうかを判定するように構成される。これらの実施形態では、前期パートレンダリングデータコンバイナが最も近い応答が閾値よりも角度的に離れている、仰角での方向がないことをチェックすることができる。この垂直方向応答距離閾値は例えば、10度または20度とすることができる。
これらの条件が満たされる場合、前期部分レンダリングデータ結合器303は、結合された初期部分レンダリングデータ306として、修正なしにロードされた初期データ302を初期部分レンダラー307に提供するように構成される。
条件が満たされない場合、初期部分レンダリングデータ結合器303は結合された初期部分レンダリングデータを形成するために、事前定義された初期データ300も使用するように構成される。
本明細書で説明される例では、事前定義前期データ300が上述のように、水平方向の密度基準および仰角密度基準を満たすと仮定される。さらに、本明細書に記載される実施形態では結合が適切な密度基準を満たさないロードされたデータセットに基づくが、結合は上記の密度基準が満たされたが、ロードされたデータが別個の欠陥を有する、例えば、データのSNRが不良であるか、さもなければデータが破損している状況でも実施され得る。
前期の部分レンダリング・データ・コンバイナ303は例えば、図6に記載されるような方法でデータを結合するように構成することができる。このアプローチでは、ロードされた前期のレンダリング・データ302がロードされたデータが存在するそれらの方向でサウンドをレンダリングするために使用され、他の方向では事前に定義された前期のデータ300である。このアプローチはロードされた前期データが高品質の測定値(例えば、良好なSNR、有効な測定手順)を含むことが知られているが、それがまばらであるため、いくつかの方向に付加される必要がある場合に有用である。
図6は、これらの実施形態による、ロードされた前期部分データ302と事前定義された前期部分データ300との組み合わせの流れ図を示す。
第1動作はステップ601によって図6に示されるように、ロードされた前期データのコピーとして予備的に組み合わされた前期データを生成する動作である。言い換えれば、前期部分レンダリングデータ結合器303はロードされた前期データを結合前期部分レンダリングデータ306に単にコピーすることによって、最初に、予備的に結合された前期データを生成する。
次の動作はギャップが閾値よりも大きい場合に、結合されたデータに水平ギャップがあるかどうかを評価する動作である。これは、図6のステップ603に示されている。
このようなギャップが見つかった場合、事前定義前期データ300から結合された前期部分データ306への応答がギャップに追加される。これは、図6のステップ605に示されている。
次いで、動作は、ステップ603に戻る矢印によって示されるさらなる評価チェックにループバックすることができる。言い換えれば、必要な場合の評価および充填の手順は、閾値よりも大きい結合データに水平方向のギャップがなくなるまで繰り返される。
組み合わされたデータに元の水平方向のギャップがなかった場合、またはギャップが埋められた場合、前期パートレンダリングデータコンバイナ303は、事前定義された前期データのすべての方向をチェックするように構成することができる。言い換えれば、この動作は事前定義前期データから、組み合わされた前期部分データにおける最も近いデータ点に対して最大の角度差を有する方向を見つけ、この差がステップ607によって図6に示されるように、しきい値よりも大きいかどうかを判定する動作である。
差が閾値より大きい場合、ステップ609によって図6に示すように、対応する応答が、事前定義前期部分データ300から組み合わされた前期部分データ306に追加される。
次いで、動作はステップ607に戻り、ここで、前記の最大角度差推定値が閾値より大きい限り、手順が繰り返される。
角度差が閾値よりも小さい場合、ステップ611によって、図6に示すように、組み合わされた前期部分データが出力される。
いくつかの実施形態では、前期パートレンダリングデータコンバイナ603がロードされた前期パートデータ602を使用せずに、事前定義前期パートデータ600を結合された前期パートデータとして直接使用するように構成される。このアプローチはロードされたデータセットに最適以下(例えば、不十分なSNR、不適切な測定手順)が存在し得る場合に有用である。
したがって、結果として得られる組み合わされた前期データ306は、前述の水平および垂直密度基準が満たされるような密度を有するデータ点(応答方向)を有する。
いくつかの実施形態では、前期パーツレンダリングデータコンバイナ303が事前定義前期データ300からの結合された前期パーツデータ306におけるデータポイントに知覚マッチング手順を適用するように構成される。
したがって、いくつかの実施形態では、前期パートレンダリングデータコンバイナ303がスペクトルマッチングを実行するように構成される。
予備ステップとして、元の予め定義され、ロードされた前期データセットのすべてのデータポイント(方向)のエネルギーが、周波数帯域において測定される。
Figure 2022553913000002
ここで、HRTFloaded(b,ch,q)はロードされた前期部分データ302の複素利得であり、HRTFpre(b,ch,q)は、事前定義前期部分データ300の複素利得であり、bは、ビンインデックス(ここでb∈kは、「すべてのビンが帯域kに属する」ことを意味する)であり、chは、チャンネル(すなわち、耳)インデックスであり、qlは、は、ロードされた前期データセットにおけるレスポンスのインデックスであり、事qpは、前定義前期データセットにおけるインデックスである。
たとえ表現HRTFが使用されたとしても、応答は無響ではないかもしれないが、BRIR応答の前期の部分に対応するかもしれない。いくつかの実施形態では、HRTF(b,ch,q)は、組み合わされた前期部分データ306の複素利得を、対応するデータセットインデックスとして示す。
いくつかの実施形態では、2つの角度値が定義される。
αl,c(q,q)は、ロードされた前期データセットにおける、q番目データポイントと、結合された前期データセットにおける、q番目データポイントとの間の角度差であり、
αp,c(q,q)は、事前定義前期データセットにおけるq番目データポインと、結合された前期データセットにおけるq番目データポイントとの間の角度差である。
次に、いくつかの実施形態では、以下の動作が事前定義前期部分データ300から発信される結合された前期部分データにおける各データ点に対して実行される。
最初に、ロードされた初期データセットの加重平均エネルギー値を見つける。
Figure 2022553913000003
ここで、Qはロードされた前期データセットにおけるデータポイントの数であり、w(αl,c(q,q))は、αl,c(q,q)が減少すると増加する重み付け式である。
たとえば、
Figure 2022553913000004
である。
第2に、事前定義初期データセットの重み付けされたエネルギー値を見つける。
Figure 2022553913000005
ここで、Qは事前定義された初期データセットのデータポイントの数である。
第3に、平均エネルギーを補正するための等化ゲインを定式化する。
Figure 2022553913000006
第4に、帯域kに属するすべてのビンbについて、等化利得gEQ(k)を、(事前定義前期部分データから生じた)組み合わされた前期データにおけるq番目応答に適用する。
Figure 2022553913000007
次いで、上記の動作を、事前定義前期部分データから生じた組み合わされた前期部分データにおけるすべてのインデックスについて、およびすべての周波数帯域kについて繰り返すことができる。
いくつかの実施形態では、前期パートレンダリングデータコンバイナがデータセット間の最大両耳間時間遅延差の差を考慮する位相/時間マッチングを任意選択で適用するように構成される。例えば、位相/時間マッチングのために、以下の動作を実行することができる。
最初に、水平面にある初期の部分応答から、低周波数範囲(例えば、1.5kHzまで)でのバイノーラル間時間差(ITD)を推定する。バイノーラル間時間差は例えば、左右の耳応答の(この周波数範囲における)群遅延のメジアンの差によって見つけることができる。推定されたITD値は、ITD(θ)で標示され、ここで、θは、方位値であり、p=1…Pであり、Pは、水平面における応答の数である。
第2に、事前定義前期部分データセットに由来する応答インデックスpと、ロードされた前期部分データセットに由来する応答インデックスpとを別々に、ITDデータに正弦曲線ITDmaxsinθをフィットさせ、ここで、ITDmaxは解くべき変数である。フィッティングは0.7~1.0ミリ秒(または何らかの他の間隔)からのITDmax値(例えば、100)を試験し、どの値が最小の差eを提供するかを試験することによって、簡単に実行することができる。
Figure 2022553913000008
ITDmaxは、事前定義データセットに由来するインデックスpから推定することができ、結果は、ITDmax,preであり、また、ロードされたデータセットに由来するインデックスpであり、結果は、ITDmax,loadedである。図7には、正弦曲線(点線)を例示的なITDデータ(円として示す)にフィッティングする2つの例が示されている。
第3に、ITDスケーリング項を、
Figure 2022553913000009
のように見つける。
第4に、少なくとも低周波数範囲(例えば、1.5kHzまで)において、事前定義前期部分データセットから発信された結合データにおける応答を、
Figure 2022553913000010
によって更新する。ここで、qは応答インデックスであり、θは、応答方位角であり、φは、応答仰角であり、bは、ビンインデックスであり、chは、チャネル(または耳)インデックスであり、f(b)は、周波数ビンの中心周波数(Hz)であり、s(ch)は、ch=1のとき1であり、および、ch=2のとき、-1である関数である。
上記の例では、水平応答を使用して、ITDを決定し、ITDmaxを見出す。いくつかの実施形態では、例えば、応答が水平面にない(しかし、代わりに、例えば、均一な球面分布にある)場合、全ての応答、または特定の仰角範囲における応答が、ITDmax決定のために選択され得る。次いで、前述の誤差測度は例えば、
Figure 2022553913000011
のように修正され得る。
組み合わされた前期パートレンダリングデータは、その後、前期パートレンダラ307に出力されてもよい。
いくつかの実施形態では、たとえ、表現HRTF´´(b,ch)が使用されたとしても、応答は無響ではなく、BRIR応答の前期の部分に対応し得る。
いくつかの実施形態では、合成プロセッサ123がレイトパートレンダリングデータコンバイナ305を備える。遅延部分レンダリングデータ結合器305は事前定義された遅延部分データ392およびロードされた遅延部分データ304を受信し、遅延部分レンダラ309に出力される結合された遅延部分レンダリングデータ312を生成するように構成され得る。
いくつかの実施形態では、事前定義済みおよびロードされた後期パートレンダリングデータがそれらが存在する場合、BRIRに基づく後期パートウィンドウ化応答を含む。そのような実施形態における後期パートレンダリングデータコンバイナ305は、以下のように構成され得る。
まず、ロードされた遅延部品データ304が存在するか否かを判定する。ロードされた遅延部分データ304が存在する場合、ロードされた遅延部分データ304を結合された遅延部分レンダリングデータ312として直接使用する。一例として、利用可能なすべての応答は、後半パートレンダー309に転送され、その後、これらの応答の使用方法を決定する。いくつかの実施形態では、応答のサブセットが選択され(例えば、1つの応答ペアが左に向かい、別の応答ペアが右に向かう)、組み合わされた後期パートレンダリングデータ312として使用され、後期パートレンダラ309に転送されてもよい。
ロードされた遅延部分データ304が存在せず、事前定義された遅延部分データ392が存在する場合、事前定義された遅延部分データを結合された遅延部分レンダリングデータ312として使用する。しかしながら、この場合、結合された遅延部分レンダリングデータ312に等化を適用する。イコライゼーション・ゲインは、例えば、
Figure 2022553913000012
によって周波数帯域で得られる。
等化利得は例えば、組み合わされた遅延部分レンダリングデータ312を周波数変換し、周波数領域で等化利得を適用し、その結果を時間領域に逆変換することによって適用することができる。
ロードされた遅れ部分データ304も事前定義遅れ部分データ392も存在しない場合、組み合わされた遅れ部分レンダリングデータ312は、遅れ残響データが存在しないことを示すだけである。これは、遅延部分レンダリングが実施されると、後述するように、遅延部分レンダラ309におけるデフォルトの遅延部分レンダリング手順をトリガする。
組み合わされた後期パートレンダリングデータ312は、その後、後期パートレンダラ309に提供される。
いくつかの実施形態では、合成プロセッサ123が前期の部分レンダラ307と後期部分レンダラ309とに分割され得るレンダラを備える。前期部分レンダラ307は図8に関してさらに詳細に示されており、前期部分レンダラ307は搬送オーディオ信号122、空間メタデータ124、合成前期部分レンダリングデータ306を受信し、合成器311への適切なバイノーラル前期部分信号308を生成するように構成されている。
いくつかの実施形態において図8にさらに詳細に示される前期の部分レンダラ307は、時間周波数変換器801を備える。時間周波数トランス801は(時間領域)搬送音声信号122を受信し、それらを時間周波数領域に変換するように構成される。適切な変換は例えば、短時間フーリエ変換(STFT)および複素変調直交ミラーフィルタバンク(QMF)を含む。結果として得られる信号は、x(b,n)として示され得る。ここで、iは、チャネルインデックス、bは、時間周波数変換の周波数ビンインデックス、および、nは、時間インデックスである時間周波数信号は、例えば、ここではベクトル形式で表現される(例えば、ベクトル形式が2つのチャネルの場合)
Figure 2022553913000013
次に、以下の処理動作を、時間周波数領域内で、周波数帯域にわたって実施することができる。周波数帯域は、適用された時間周波数トランスフォーマー(フィルターバンク)の1つまたは複数の周波数ビン(個々の周波数成分)とすることができる。いくつかの実施形態では、周波数帯がバーク周波数帯のような知覚的に関連した解像度に近似することができ、この解像度は高周波数よりも低周波数においてスペクトル的により選択的である。あるいは、いくつかの実装形態では周波数帯域が周波数ビンに対応することができる。周波数帯域は、典型的には空間メタデータが分析プロセッサによって決定された周波数帯域(または近似周波数帯域)である。各周波数帯kは、最低周波数ビンblow(k)および最高周波数ビンbhigh(k)に関して定義され得る。
いくつかの実施形態における時間周波数搬送信号802は、共分散マトリクス推定器807およびミキサ811に供給され得る。
前期部分レンダラ307は、いくつかの実施形態では共分散マトリクス推定器807を備える。共分散マトリクス推定器807は時間周波数領域搬送信号802を受信し時間周波数搬送信号の共分散マトリクスと、それらの全体的エネルギー推定値(周波数帯域内)を推定するように構成される。共分散マトリクスは例えば、いくつかの実施形態では、
Figure 2022553913000014
のように推定することができる。ここで、上付き文字Hは共役転置を示す。共分散マトリクスの推定は、いくつかの時間指数nにわたるIIR平均またはFIR平均のような時間的平均化を含み得る。推定共分散マトリクス810は、混合ルール決定器809に出力することができる。
また、共分散マトリクス推定器807は、全体のエネルギー推定値E(k,n)808、すなわち、C(k,n)の対角値の和を生成し、この全体のエネルギー推定値を目標共分散マトリクス決定器805に提供するように構成することができる。
いくつかの実施形態では、前期パートレンダラー307は、HRTF決定器833からなる。HRTF決定器833は、HRTFの好適に密なセットである結合された初期パートレンダリングデータ306を受信してもよい。HRTF決定器は、角度θ(k,n)および周波数帯域kについて2x1複素値頭部関連伝達関数(HRTF)h(θ(k,n),k)を決定するように構成される。いくつかの実施形態では、HRTF決定器833は、角度θ(k,n)が得られる空間メタデータ124を受信し、出力HRTFデータ336に対するHRTFを決定するように構成される。
例えば、HRTF決定器833は、帯域kの中間周波数におけるHRTFを決定することができる。リスナーの頭の向きの追跡が関与する場合、方向パラメータθ(k,n)は、現在の頭の向きを考慮するために、HRTFを得る前に修正され得る。いくつかの実施形態では、HRTF決定器833は、各バンドkの拡散場共分散マトリクスを決定してもよく、これは、例えば、d=1...Dである方向θの均等に分布したセットを取ることによって、結合された初期部分レンダリングデータ306に基づいて策定されてもよく、拡散場共分散マトリクスを以下のように推定することによっても、決定することができる。
Figure 2022553913000015
Dは、拡散場の共分散マトリクスを次のように推定する。拡散場共分散マトリクスは、判定されたHRTFに加えて、出力HRTFデータ336の一部として提供することができる。
HRTF決定器833は、任意の適切な方法(方向θ(k,n)に対するHRTFが決定されるとき)を使用することによって、HRTFの補間を適用してもよい。例えば、いくつかの実施形態では、1組のHRTFが周波数の関数として、両耳間レベル差および左耳および右耳のエネルギーに分解される。次いで、所与の角度におけるHRTFが必要とされるとき、HRTFセットにおける最も近い既存のデータ点が見出され、所与の角度における遅延およびエネルギーが補間される。これらのエネルギー及び遅延は次に、使用される複素乗算器として変換することができる。
いくつかの実施形態では、HRTFがHRTFデータセットを、周波数帯における一組の球面調和ビーム形成マトリクスに変換することによって、補間される。次に、ある周波数に対する任意の角度に対するHRTFを、その角度に対する球面調和重みベクトルを定式化し、そのベクトルをその周波数のビーム成形マトリクスと掛けることにより決定することができる。結果は、再び2×1HRTFベクトルである。
いくつかの実施形態では、HRTF決定器833が利用可能なHRTFデータポイントから最も近いHRTFを単に選択する。
いくつかの実施形態では、前期部分レンダラ307がターゲット共分散マトリクス決定器805を備える。ターゲット共分散マトリクス決定器805は、この例では少なくとも1つの方向パラメータθ(k,n)と、少なくとも1つの直接対総エネルギー比パラメータr(k,n)と、総エネルギー推定値E(k,n)808と、HRTFh(θ(k,n),k)および拡散場共分散マトリクスC(k)からなるHRTFデータ336とを備えることができる空間メタデータ124を受信するように構成される。次に、共分散マトリクス決定器805は、空間メタデータ124、データ306、および全体エネルギー推定値808に基づいてターゲット共分散マトリクス806を決定するように構成される。例えば、対象共分散マトリクス決定器805は、次式により対象共分散マトリクスを定式化することができる。
Figure 2022553913000016
次に、目標共分散マトリクスC(k,n)806を混合規則決定器809に供給することができる。
いくつかの実施形態では、前期の部分レンダラ307が混合規則決定器809を備える。混合ルール決定器809は、ターゲット共分散マトリクス806及び推定共分散マトリクス810を受け取るように構成される。混合ルール決定器809は、ターゲット共分散マトリクスC(k,n)806および測定された共分散マトリクスC(k,n)810に基づいて混合マトリクスM(k,n)812を生成するように構成される。
いくつかの実施形態では、混合マトリクスが「空間オーディオの時間周波数処理のための最適化共分散領域フレームワーク(Optimized covariance domain framework for time-frequency processing of spatial audio)」、J Vilkamo、T Backstrom、A Kuntz-Journal of Audio Engineering Society 61、no.6(2013):403-411に記載されている方法に基づいて生成される。
いくつかの実施形態では、混合規則決定器809が混合マトリクスの生成を導くプロトタイプマトリクス
Figure 2022553913000017
を決定するように構成される。
まとめると、共分散マトリクスC(k,n)を持つ信号に適用すると、混合マトリクスM(k,n)を提供することができる。それは、最小二乗最適化の方法で、共分散マトリクスC(k,n)を持つ信号を生成する。マトリクスQは、このようなミキシングにおける信号コンテンツをガイドする。この例ではマトリクスは単に恒等マトリクスであるということになる。左右の処理された信号が元の左右の信号にできるだけ似ているはずだからである。言い換えれば、設計は処理された出力のためにC(k,n)を取得しながら、信号を最小限に変更することである。混合マトリクスM(k,n)は、各周波数帯kに対して定式化され、ミキサー811に提供される。ヘッドトラッキングが関係するいくつかの実施形態では、マトリクスQがヘッド方向に基づいて適合させることができる。例えば、ユーザが180度回転すると、マトリクスQは対角線でゼロであり、非対角線で1である。この手段は実際には左側の出力チャネルが元の右側チャネル(180度の頭部回転の場合)にできるだけ似ているべきであり、逆もまた同様である。
前期の部分レンダラ307は、いくつかの実施形態ではミキサー811を備える。ミキサー811は、オーディオ信号802およびミキシングマトリクス812を受信する。ミキサー811は、各周波数ビンb内の時間周波数オーディオ信号(入力信号)を処理して、2つの処理された(初期の部分)時間周波数信号814を生成するように構成される。これは、例えば、以下の式に基づいて形成することができる。
Figure 2022553913000018
バンドkは、ビンbが存在するバンドである。
上記の手順は、入力信号x(b,n)が所望の目標共分散マトリクス特性を有する出力信号y(b,n)をレンダリングするために、それらの間に適切なインコヒーレンスを有することを仮定する。状況によっては、入力信号が例えば、単一のチャネル搬送信号のみが存在する場合、または、そうでなければ信号が高度に相関している場合、適切なチャネル間インコヒーレンスを有さない。したがって、いくつかの実施形態では、相関除去動作が実装されて、x(b,n)に基づいて相関除去された信号を生成し、上の方程式の信号y(b,n)に追加される特定の残留信号に非相関信号を混合する。このような残留信号を得る手順は公知であり、例えば、上記の基準に記載されている。
処理されたバイノーラル(前期の部分)時間周波数信号y(b,n)814は、逆T/F変圧器813に供給される。
いくつかの実施形態では、前期の部分レンダラ307がバイノーラル(前期の部分)時間周波数信号y(b,n)814を受信し、T/F変成器801によって印加される印加された時間周波数変換に対応する逆時間周波数変換を印加するように構成された逆T/F変成器813を含む。逆数T/F変成器813の出力はバイノーラル(前期の部分)信号308であり、これは、(図3に示すように)結合器311に渡される。
組み合わされた後期パートレンダリングデータ312が後期パート応答が、存在しないという表示のみである場合、後期パートレンダラ309は、デフォルトのバイノーラル後期パート応答を使用してバイノーラル後期パート信号310を生成するように構成される。例えば、後半部レンダラ309は、バイノーラル拡散技術分野バイノーラル間相関、および典型的なリスニングルームに対応する事前定義されたセットに従った減衰時間およびスペクトルを有するように処理された一対のホワイトノイズ応答を生成することができる。前述のパラメータの各々は、周波数の関数として定義されてもよい。いくつかの実施形態において、これらのセットは、ユーザ定義可能であってもよい。
いくつかの実施形態では、遅延パートレンダリング309が遅延パートレンダリングがレンダリングされるべきか否かを決定する指示を受信することもできる。遅延部分レンダリングが必要でない場合、遅延部分レンダラ309は出力を提供しない。後期パートレンダリングが必要な場合、後期パートレンダラ309は適当な方法に従って残響を生成し、追加するように構成される。
例えば、いくつかの実施形態では、後期部分バイノーラル出力を生成するためにコンボルバが適用される。コンボリューションを実行するために、いくつかの信号処理構造が知られている。畳み込みは、FFT畳み込みまたは部分FFT畳み込みを用いて効率的に適用することができ、例えば、Gardner、William G.「入出力遅延なしで効率的な畳み込み(Efficient convolution without input/output delay)」、Audio Engineering Society Convention 97. Audio Engineering Society,1994。
いくつかの実施形態では、後期パート・レンダラ309が(後期パート・レンダリング・データ・コンバイナ305から)多くの方向から後期パートBRIR応答を受信することができる。レンダリング用のBRIRペアを選択するには、少なくとも次の手順を実行する必要がある。例えば、ある実施形態では、搬送オーディオ信号が1一対の残響応答で処理される単一のチャネルに加算される。BRIRの典型的なセットにおけるように、いくつかの方向からの応答があり、応答は、中央前部BRIRテールのような、セットにおける応答対の1つとして選択されてもよい。残響応答はまた、複数の方向からのBRIRに基づく結合(例えば、平均化)応答であってもよい。いくつかの実施形態では搬送オーディオチャネル(例えば、2つのチャネル)は異なる一対の残響応答で処理される。畳み込みの結果は、2チャネルバイノーラル遅延部分出力を得るために一緒に合計される(左右の耳出力は別々に)。2つのトランスポートチャンネルのこの例では、左側トランスポート信号の残響特性を、例えば左側90度のBRIR(または利用可能な最も近いレスポンス)から選択し、それに対応して右辺を選択することができる。この場合も、残響応答は複数の方向からのBRIRに基づいて組み合わせる(例えば、平均化する)ことができる。
バイノーラル遅延部分信号は次に、結合器311ブロックに供給されることができる。
いくつかの実施形態では、合成プロセッサが前期パートレンダラ307からバイノーラル前期パート信号308を受信し、後期パートレンダラ309からバイノーラル後期パート信号310を受信し、これらを(左および右チャネルについて別々に)結合または合計するように構成された結合器311を備えることができる。この信号はヘッドホンで再生されることがある。
図4を参照すると、合成プロセッサの動作を示す流れ図が示されている。
流れ図は、ステップ401によって図4に示される搬送オーディオ信号、空間メタデータ、およびロードされたバイノーラルレンダリングデータセットなどの入力を受信する動作を示す。
さらに、この方法はステップ403によって図4に示すように、ロードされたバイノーラルレンダリングデータセットから前期/遅期パートレンダリングデータセットを決定することを含む。
ステップ405によって、図4に、決定されたロードされた初期パーツレンダリングデータと事前に決定された初期パーツレンダリングデータに基づく初期パーツレンダリングデータの生成を示す。
決定されたロードされた遅延部分レンダリングデータと事前に決定された遅延部分レンダリングデータに基づく遅延部分レンダリングデータの生成は、ステップ406によって図4に示される。
さらに、ステップ407によって図4に示されるように、前期パートレンダリングデータ、ならびに搬送オーディオ信号および空間メタデータに基づくバイノーラルレンダリングが存在し得る。
さらに、ステップ408によって図4に示されるように、後期パートレンダリングデータ、および搬送オーディオ信号(およびオプションとして後期レンダリング制御信号)に基づくバイノーラルレンダリングが存在し得る。
次いで、ステップ409によって、図4に示すように、前期レンダリング信号と遅期レンダリング信号とを組み合わせるか、または合計することができる。
次いで、組み合わせられたバイノーラルオーディオ信号は、ステップ411によって、図4に示されるように出力されてもよい。
上記では、バイノーラルレンダリングデータセットが1組の方向からの応答からなる状況例を説明した。これは典型的な形式であるが、バイノーラルデータは他の形式であってもよい。例えば、レンダリング・データ(事前定義及び/またはロードされた)は、球面調和領域にあることができる。例えば、HRTFデータセットをフィルタまたは複素値球面調和係数として近似することが可能であることが知られている。アンビソニック信号がこのようなフィルタまたはゲインで処理されると、結果はバイノーラライズされたオーディオ信号になる。そのような実施形態では、ロードされたバイノーラルレンダリングデータが球面調和領域にあるとき、それは方向の任意の離散セットに対応しない。換言すれば、密度の考慮もはや重要ではない。しかしながら、そのロードされたレンダリングデータセットに他の品質問題(例えば、ノイズ)がある場合、それは、事前定義レンダリングデータで置き換えることができ、前述の知覚マッチング手順を使用することができる。
いくつかの実施形態では、事前定義された前期部分レンダリングデータが球調和領域(例えば、第3または第4次のアムビソニック領域)に格納される。これは、そのようなデータセットがアンビソニックオーディオをバイノーラル出力にレンダリングするため、および任意の角度についてHRTFを決定するための両方に使用され得るからである。次に、ユーザがパーソナライズされたHRIRまたはBRIR(例えば、スパースセット)をシステムにロードすると、以下のステップを実行して、組み合わされた前期パートレンダリングデータを決定することができる。
第1に、事前定義(球面調和領域)レンダリングデータに基づいて、HRTFのセット、例えば、球面的に等間隔のHRTFデータセットを決定する。
第2に、上述のように、結合および知覚マッチング手順を実行する。
第3に、例えば、最小二乗法で組み合わされた前期部分レンダリングデータセットを近似する球面調和ゲインを見つけることによって、結果として得られる組み合わされた前期部分レンダリングデータセットを球面調和領域に戻す。
レンダリングデータはパラメータ化された形成、すなわち、いかなるドメインにおいても応答としてではなく、記憶することができる。例えば、これは、左右の耳エネルギーおよび両耳間時間差の形成で、1組の方向に格納されてもよい。この場合、パラメータ化された形式はHRTFに直接変換することができ、以前に例示したすべての手順を適用することができる。また、後期パートレンダリングデータは例えば、残響時間及び周波数の関数としてのスペクトルとしてパラメータ化することができる。
本明細書で詳細に説明する概念は、ロードされたデータセットが空間的にスパースであっても、高密度データセットを生成する方法を示す。レンダリング段階において、音が特定の角度にレンダリングされる必要があるとき、システムは、
組み合わせた前期データセットから最も近い応答を選択する(特に密集した前期データセットが生成されている場合)こと、
公知方法(例)を使用して、最も近いデータポイント間を補間する。振幅パニングを実行するかのように、最も近いデータポイントにわたる(時間または周波数領域における)応答の重量平均を公式化すること、
例えば、エネルギーとITDを別々に補間することによって、パラメトリックな方法でデータ点間を補間し、球面調和領域(SHD)において前期描画データを使用すること(これは、本質的に、任意の方向への補間も手段する)、
のうちの1つを行うことができる。
いくつかの実施形態では、本発明で作成された結合バイノーラルレンダリングデータセットが球面調和領域(SHD)、時間領域、周波数領域、および/またはパラメトリック領域などの任意の領域に格納または使用されてもよい。
本明細書で説明される例では、後期パートレンダリングが後期パート応答および畳み込みに基づいていた例示的な状況が説明された。しかしながら、例えば、より効率的な方法で残響を実行する多数の既存の残響器構造が存在する。
フィードバック遅延ネットワーク(FDN)を実装することができる。FDNは、複数の相互接続されたフィードバックループにおいて信号を循環させ、遅延残響を出力する残響信号処理構造である。
「『残響器(The reverberator)』 Vilkamo、J.、Neugebauer、Band Plogsties、J.、2012.Sparse frequency-domain reverberator、Journal of Audio Engineering Society、59(12)、pp.936-943)」、はFDNよりも単純なループ構造を使用するが、多数の周波数帯域を有する。
2つの実質的にインコヒーレントな残響応答(例えば、上記のいずれか)を生成することができる任意の残響器を、バイノーラル遅延部分信号を生成するために使用することができる。典型的には残響器構造が実質的にインコヒーレントな信号を発生し、次いで、これらの信号は周波数依存的に混合され、残響音場において人間にとって自然であるバイノーラル間相関を得る。後期パートレンダリングデータがBRIR後期パート応答の形成である場合、幾つかの残響器(例えば、上記出版物のもの)を用いて、残響パラメータを調整して、BRIR後期パート応答を近似することが可能である。これは、典型的にはBRIR後部応答の対応する特徴に適合するように、残響器の周波数及びスペクトル利得に応じて残響時間をセットする手段である。
いくつかの実施形態では、組み合わされた後期パートレンダリングデータが典型的には、例えば、畳み込みが使用される場合、後期パートレンダラが使用する特定の信号処理構造に関連する形式である。上述のような残響器が使用される場合、後期パートレンダリングデータは、周波数の関数としての残響時間のような構成パラメータの形成である。このようなパラメータは、ユーザがレンダリングに使用されるBRIRデータセットをロードする場合、残響応答から推定することができる。
ある実施形態では、知覚マッチング手順がデータセット上で実行する代わりに、空間オーディオレンダリング中に実行することができる。
この例では、混合マトリクスが入力が2チャネル搬送オーディオ信号であることに基づいて定義される。しかしながら、これらの方法は、任意の数の搬送オーディオチャネルのための実施形態に適合させることができる。
ロードされたバイノーラルレンダリングデータセットと共に、事前定義バイノーラルレンダリングデータセットをどのように使用するかが上述されている。これは、いくつかの実施形態では高品質の事前定義バイノーラルレンダリングデータセットを使用することによって、ロードされたバイノーラルレンダリングデータセットに従ってバイノーラルレンダリングの再生品質を改善することができる。
前述の説明は処理が単一の処理エンティティ上で行われる状況(バイノーラル・レンダリング・データ・セットの負荷およびバイノーラル・オーディオ出力のレンダリングを処理する)を暗示することができるが、処理は複数の処理エンティティ上で行うことができることを理解されたい。例えば、処理の一部はオフラインであり、処理の一部はリアルタイムであり得るので、処理は異なるソフトウェアモジュールおよび/または装置上で行われ得る。
したがって、処理ステップを2つ以上の異なる装置またはソフトウェアモジュールに分散させることができることは、当業者には明らかである。1つの実際的な例では、処理ステップのいくつかを、コンピュータ上で実行される第1プログラム内で実施することが可能であり、一方、処理の他の部分は別のプログラム、例えば、別個のコンピュータまたは携帯電話上で実行されるオーディオ処理ライブラリ内で実施することができる。
バイノーラルレンダリングデータセットの分析に関連するステップはデータ可視化が可能であり、したがって、応答特徴推定のいずれかにおける潜在的なエラーを検出することが可能である任意の適切なプラットフォーム上で実行され得る。
実用的な例として、処理の一部を実行するために適切なプログラムを使用する場合、関連するステップは、以下を含むことができる。
・ バイノーラルルームインパルス応答(BRIR)のセットがプログラムにロードされる、
・ プログラムにおいて、BRIRデータセットは早い部分と遅い部分とに分割される、
・ プログラムにおいて、早い部分と遅い部分のスペクトル情報が推定される、
・ プログラムにおいて、周波数の関数としての残響時間(例えば、BRIRセットの平均)が推定される、
・ スペクトル情報および残響時間はプログラムからエクスポートされ、オーディオ処理ソフトウェアモジュールに組み込まれ、ここで、ソフトウェアモジュールは事前定義されたHRTFデータセットおよび構成可能な残響器を有する、
・ オーディオ処理ソフトウェアが事前定義されたHRTFデータセットに基づいて処理のスペクトルを変更するためにスペクトル情報を使用することを可能にされる、
・ オーディオ処理ソフトウェアが残響時間(およびスペクトル情報)を使用して、残響器を構成することを可能にされる、
・ ソフトウェアは例えば、携帯電話上でコンパイルされ、実行され、したがって、ルーム効果がロードされたBRIRデータセットに基づくが、事前定義HRTFデータセットも使用することによって、ルーム効果を有するバイノーラルオーディオをレンダリングすることが可能になる。
上記において、「結合バイノーラルデータセット」は、事前定義HRTFデータセットと、ロードされたBRIRデータセットに基づいて検索されたスペクトル情報と、ロードされたBRIRデータセットに基づいて検索された残響パラメータとからなる。上記のこの例によって示されるように、当業者は、様々な方法で様々なプラットフォームに処理を分配することができることが理解される。
図9に関して、上述したように、システムの装置部品のいずれかとして使用され得る例示的な電子装置。デバイスは、任意の適切な電子デバイスまたは装置であることができる。例えば、いくつかの実施形態では、デバイス1700がモバイルデバイス、ユーザ装置、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。この装置は例えば、図1に示すようにエンコーダ/アナライザ部101またはデコーダ/シンセサイザ部105、または上述のような任意の機能ブロックを実装するように構成することができる。
いくつかの実施形態では、デバイス1700が少なくとも1つのプロセッサまたは中央処理装置1707を備える。
プロセッサ1707は、本明細書で説明されるような方法などの様々なプログラムコードを実行するように構成され得る。
いくつかの実施形態では、装置1700が記憶装置1711を備える。
いくつかの実施形態では、少なくとも1つのプロセッサ1707が記憶装置1711に結合される。記憶装置1711は、任意の適切な記憶手段とすることができる。
ある実施形態では、記憶装置1711がプロセッサ1707上に実装可能なプログラムコードを格納するためのプログラムコードセクションを含む。さらに、いくつかの実施形態では、記憶装置1711が、データ、例えば、本明細書で説明される実施形態にしたがって処理された、または処理されるべきデータを格納するための格納されたデータセクションをさらに備えることができる。プログラム・コード・セクション内に記憶された実施されたプログラム・コードおよび記憶されたデータ・セクション内に記憶されたデータは、メモリ・プロセッサ結合を介して必要なときにいつでもプロセッサ1707によって検索することができる。
いくつかの実施形態では、装置1700がユーザインターフェース1705を備える。ユーザインターフェース1705は、いくつかの実施形態ではプロセッサ1707に結合することができる。いくつかの実施形態では、プロセッサ1707がユーザインターフェース1705の動作を制御し、ユーザインターフェース1705から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース1705がユーザが、例えばキーパッドを介してデバイス1700にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインターフェース1705がユーザが装置1700から情報を取得することを可能にすることができる。例えば、ユーザインターフェース1705は、装置1700からユーザに情報を表示するように構成されたディスプレイを備えることができる。ユーザインターフェース1705は、いくつかの実施形態では情報を装置1700に入力することを可能にすることと、装置1700のユーザに情報をさらに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。いくつかの実施形態では、ユーザインターフェース1705が通信するためのユーザインターフェースであることができる。
いくつかの実施形態では、装置1700が入力/出力ポート1709を備える。入出力ポート1709は、いくつかの実施形態ではトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ1707に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の好適なトランシーバまたは送信機および/または受信機手段は、いくつかの実施形態では有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成することができる。
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバが適切なユニバーサル移動通信システム(UMTS)プロトコル、例えばIEEE802.Xのような無線ローカルエリアネットワーク(WLAN)プロトコル、Bluetooth(登録商標)のような適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA)を使用することができる。
トランシーバ入出力ポート1709は、信号を受信するように構成されてもよい。
いくつかの実施形態では、装置1700が合成装置の少なくとも一部として使用されてもよい。入力/出力ポート1709は、ヘッドホン(ヘッドトラック式または非トラック式ヘッドホンであることができる)または同様のものに結合されてもよい。
一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実施することができる。例えば、いくつかの態様はハードウェアで実装されてもよく、他の態様はコントローラ、マイクロプロセッサ、または他の計算装置によって実行されてもよいファームウェアまたはソフトウェアで実装されてもよいが、本発明はそれに限定されない。本発明の様々な態様はブロック図、フローチャートとして、またはいくつかの他の絵画的表現を使用して図示および目的され得るが、本明細書で目的されるこれらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他の計算装置、あるいはそれらのいくつかの組合せで実装され得ることをよく理解されたい。
本発明の実施形態は、モバイルデバイスのデータプロセッサによって、実行可能なコンピュータソフトウェアで実現することができる。例えば、プロセッサ・エンティティのような、またはハードウェアによって、またはソフトウェアとハードウェアの組み合わせによって実装される。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表すことができることに留意されたい。このソフトウェアは、メモリチップなどの物理媒体、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー(登録商標)ディスクなどの磁気媒体、およびたとえばDVDやそのデータの別形のCDなどの光学媒体に格納することができる。
メモリは、ローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよびリムーバブルメモリなど、任意の適切なデータ記憶技術を使用して実装することができる。データプロセッサは、ローカル技術環境に適した任意のタイプとすることができ、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの1つ以上を含むことができる。
本発明の実施形態は、集積回路モジュールなどの様々な部品で実施することができる。集積回路の設計は高度に自動化された処理によるものであり、大規模である。論理レベルの設計を、エッチングされ、半導体基板上に形成される準備ができている整った半導体回路設計に変換するための、複雑で強力なソフトウェアツールが利用可能である。
カリフォルニア州サンノゼにあるSynopsys、Incof Mountain View、California and Cadence Designから提供されているようなプログラムは設計の十分に確立されたルール、および予め記憶された設計モジュールのライブラリを用いて、導体を自動的にルーティングし、半導体チップ上の部品の位置を特定する。
半導体回路の設計が完了すると、標準化された電子フォーマット(例えば、Opus、GDSIIなど)の結果として得られる設計は、製造のために半導体製造施設または「ファブ」に送信されてもよい。
前述の説明は、本発明の例示的な実施形態の完全かつ有益な説明を、例示的かつ非限定的な例として提供した。
しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になるのであろう。
しかしながら、本発明の教示の全てのそのような同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。

Claims (22)

  1. 少なくとも1つのオーディオ信号と、該少なくとも1つのオーディオ信号に関連付けられた空間メタデータとを含む空間オーディオ信号を取得し、
    バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得し、
    バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットを取得し、
    前記少なくとも1つのデータセットの少なくとも一部および前記少なくとも1つの事前定義されたデータセットと、前記空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成する
    ように構成された手段を備える装置。
  2. バイノーラルレンダリングに関連する前記少なくとも1つのデータセットは、
    バイノーラル室内インパルス応答または伝達関数のセット、
    頭部に関連するインパルス応答または伝達関数のセット、
    バイノーラル室内インパルス応答または伝達関数に基づくデータセット、および、
    頭部関連インパルス応答または伝達関数に基づくデータセット
    のうちの少なくとも1つを含む、
    請求項1に記載の装置。
  3. バイノーラルレンダリングに関連する前記少なくとも1つの事前定義データセットは、
    事前定義バイノーラル室内インパルス応答または伝達関数のセット、
    事前定義頭部関連インパルス応答または伝達関数のセット、
    バイノーラル室内インパルス応答または伝達関数に基づく事前定義データセット、
    および、捕捉された頭部関連インパルス応答または伝達関数に基づく事前定義データセット、
    のうちの少なくとも1つを含む、
    請求項1または2に記載の装置。
  4. 前記手段はさらに、前記少なくとも1つのデータセットを第1部分と第2部分とに分割するように構成され、
    前記手段は、前記少なくとも1つのデータセットの前記第1部分と前記少なくとも1つの事前定義データセットとの第1部分の組合せを生成するように構成される、
    請求項1ないし3のいずれか1項に記載の装置。
  5. 前記少なくとも1つのデータセットおよび前記少なくとも1つの事前定義データセットの少なくとも一部と、および、前記空間オーディオ信号と、の組合せに基づいてバイノーラルオーディオ信号を生成するように構成された前記手段は、
    前記少なくとも1つのデータセットの前記第1部分および前記少なくとも1つの事前定義データセットと、前記空間オーディオ信号と、の組合せに基づいて、第1部分バイノーラルオーディオ信号を生成するように構成されている、
    請求項4に記載の装置。
  6. 前記少なくとも1つのデータセットの少なくとも一部と、前記少なくとも1つの事前定義されたデータセットとの組合せを生成するように構成された手段は、
    前記少なくとも1つのデータセットの前記第2部分と、前記少なくとも1つの事前定義データセットの前記少なくとも一部との組み合わせと、
    前記少なくとも1つのデータセットの前記第2部分がヌルセットである前記少なくとも1つの事前定義データセットの少なくとも一部と、
    少なくとも1つのデータセットの第2部分が実質的に、誤りを有するか、ノイズが多いか、または破損していると判定される少なくとも1つの事前定義データセットの少なくとも一部と、
    のうちの1つを含む第2部分組合せを生成するようにさらに構成される、
    請求項4および5のいずれか1項に記載の装置。
  7. 前記少なくとも1つのデータセットの少なくとも一部と、前記少なくとも1つの事前定義データセットとの組み合わせ、および、前記空間オーディオ信号に基づいてバイノーラルオーディオ信号を生成するように構成された前記手段は、
    前記第2部分組み合わせおよび前記空間オーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成するように構成される、
    請求項6に記載の装置。
  8. 請求項5に従属するときに、前記少なくとも1つのデータセットの少なくとも一部と前記少なくとも1つの事前定義データセットとの組合せ、および前記空間オーディオ信号に基づいてバイノーラルオーディオ信号を生成するように構成された前記手段は、
    前記第1部分のバイノーラルオーディオ信号と前記第2部分のバイノーラルオーディオ信号とを結合するように構成される、
    請求項7に記載の装置。
  9. 前記少なくとも1つのデータセットを第1部分と第2部分とに分割するように構成された前記手段は、
    決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオフ機能を有する第1ウィンドウ機能を生成し、ここで、該第1ウィンドウ機能は、前記第1部分を生成するために少なくとも1つのデータセットに適用され、
    決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオン機能を有する第2ウィンドウ機能を生成するように構成され、ここで、該第2ウィンドウ機能は、前記第2部分を生成するために、前記少なくとも1つのデータセットに適用されるものである、
    請求項4ないし8のいずれか1項に記載の装置。
  10. 前記手段は、前記少なくとも1つのデータセットの少なくとも一部と、前記少なくとも1つの事前定義データセットとの組合せを生成するように構成される、請求項1ないし9のいずれか1項に記載の機器。
  11. 前記少なくとも1つのデータセットの少なくとも一部と、前記少なくとも1つの事前定義されたデータセットとの組合せを生成するように構成された前記手段は、
    前記少なくとも1つのデータセットの選択に基づいて初期結合データセットを生成し、
    決定されたしきい値より大きい方向差を有する初期結合データセットの隣接要素の少なくとも1つのペアによって定義される該初期結合データセット内の少なくとも1つのギャップを決定し、
    ギャップごとに、
    前記少なくとも1つの事前定義されたデータセット内で、該ギャップ内に位置する方向を有する前記少なくとも1つの事前定義されたセットの要素を識別し、
    前記少なくとも1つの事前定義されたデータセットの識別された要素と前記初期結合データセットとを結合するように構成される、
    請求項10に記載の装置。
  12. 前記決定された閾値は、方位角閾値および仰角閾値を含む、請求項10または11に記載の装置。
  13. 前記少なくとも1つのデータセットの少なくとも一部と前記少なくとも1つの事前定義されたデータセットとの組み合わせが、方向の範囲にわたって定義され、
    前記方向の範囲にわたって、前記組み合わせが、定義された閾値を超える方向ギャップを含まない、請求項1ないし12のいずれか1項に記載の装置。
  14. 前記少なくとも1つのデータセットの少なくとも一部が、実質的な誤りがない、実質的なノイズがない、実質的な破損がない、のうちの少なくとも1つである前記少なくとも1つのデータセットの要素である、請求項1ないし12のいずれか1項に記載の装置。
  15. 前記少なくとも1つのオーディオ信号と、前記少なくとも1つのオーディオ信号に関連付けられた空間メタデータとを含む空間オーディオ信号を取得するように構成された前記手段は、
    前記空間オーディオ信号を、さらなる装置から受信するように構成される、
    請求項1から14のいずれかに記載の装置。
  16. バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得するように構成された手段は、さらなる装置から該少なくとも1つのデータセットを受信するように構成される、請求項1ないし15のいずれか1項に記載の装置。
  17. 少なくとも1つのオーディオ信号と、該少なくとも1つのオーディオ信号に関連付けられた空間メタデータとを含む空間オーディオ信号を取得するステップと、
    バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得するステップと、
    バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットを取得するステップと、
    少なくとも1つのデータセットの少なくとも一部および前記少なくとも1つの事前定義データセットと、前記空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成するステップと、
    を含む方法。
  18. バイノーラルレンダリングに関連する前記少なくとも1つのデータセットは、
    バイノーラル室内インパルス応答または伝達関数のセット、
    頭部に関連するインパルス応答または伝達関数のセット、
    バイノーラル室内インパルス応答または伝達関数に基づくデータセット、および、
    頭部関連インパルス応答または伝達関数に基づくデータセット
    のうちの少なくとも1つを含む、
    請求項17に記載の方法。
  19. バイノーラルレンダリングに関連する前記少なくとも1つの事前定義データセットは、
    事前定義バイノーラル室内インパルス応答または伝達関数のセット、
    事前定義頭部関連インパルス応答または伝達関数のセット、
    バイノーラル室内インパルス応答または伝達関数に基づく事前定義データセット、および、
    捕捉された頭部関連インパルス応答または伝達関数に基づく事前定義データセットのうちの少なくとも1つを含む、
    請求項17または18に記載の方法。
  20. 前記方法は、
    前記少なくとも1つのデータセットを第1部分と第2部分とに分割するステップと、
    前記少なくとも1つのデータセットの前記第1部分および前記少なくとも1つの事前定義データセットの第1部分の組み合わせを生成するステップと、
    をさらに含む、請求項17ないし19のいずれか1項に記載の方法。
  21. 前記少なくとも1つのデータセットの少なくとも一部と、前記少なくとも1つの事前定義データセットと、前記空間オーディオ信号との組み合わせに基づいて、前記バイノーラルオーディオ信号を生成するステップは、
    前記少なくとも1つのデータセットの前記第1部分、前記少なくとも1つの事前定義データセット、および前記空間オーディオ信号の組み合わせに基づいて、第1部分のバイノーラルオーディオ信号を生成することを含む、請求項20に記載の方法。
  22. 少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、
    該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、少なくとも、
    少なくとも1つのオーディオ信号と、前記少なくとも1つのオーディオ信号に関連付けられた空間メタデータとを含む空間オーディオ信号を取得するステップと、
    バイノーラルレンダリングに関連する少なくとも1つのデータセットを取得するステップと、
    バイノーラルレンダリングに関連する少なくとも1つの事前定義されたデータセットを取得するステップと、
    前記少なくとも1つのデータセットおよび前記少なくとも1つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成するステップと、
    を実行させるように構成される、
    装置。
JP2022521423A 2019-10-11 2020-09-29 空間オーディオ表現およびレンダリング Pending JP2022553913A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1914716.4 2019-10-11
GB1914716.4A GB2588171A (en) 2019-10-11 2019-10-11 Spatial audio representation and rendering
PCT/FI2020/050641 WO2021069794A1 (en) 2019-10-11 2020-09-29 Spatial audio representation and rendering

Publications (1)

Publication Number Publication Date
JP2022553913A true JP2022553913A (ja) 2022-12-27

Family

ID=68619568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022521423A Pending JP2022553913A (ja) 2019-10-11 2020-09-29 空間オーディオ表現およびレンダリング

Country Status (6)

Country Link
US (1) US20220369061A1 (ja)
EP (1) EP4046399A4 (ja)
JP (1) JP2022553913A (ja)
CN (1) CN114556973A (ja)
GB (1) GB2588171A (ja)
WO (1) WO2021069794A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2609667A (en) * 2021-08-13 2023-02-15 British Broadcasting Corp Audio rendering
GB2618983A (en) * 2022-02-24 2023-11-29 Nokia Technologies Oy Reverberation level compensation
GB2616280A (en) * 2022-03-02 2023-09-06 Nokia Technologies Oy Spatial rendering of reverberation
WO2024089036A1 (en) * 2022-10-24 2024-05-02 Brandenburg Labs Gmbh Audio signal processor and related method and computer program for generating a two-channel audio signal using a smart determination of the single-channel acoustic data
CN118136042B (zh) * 2024-05-10 2024-07-23 四川湖山电器股份有限公司 基于iir频谱拟合的频谱优化方法、系统、终端及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006500818A (ja) * 2002-09-23 2006-01-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音再生システム、プログラム、及びデータ担体
US20180091920A1 (en) * 2016-09-23 2018-03-29 Apple Inc. Producing Headphone Driver Signals in a Digital Audio Signal Processing Binaural Rendering Environment

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050069143A1 (en) * 2003-09-30 2005-03-31 Budnikov Dmitry N. Filtering for spatial audio rendering
WO2012093352A1 (en) * 2011-01-05 2012-07-12 Koninklijke Philips Electronics N.V. An audio system and method of operation therefor
US9860663B2 (en) * 2013-01-15 2018-01-02 Koninklijke Philips N.V. Binaural audio processing
MX346825B (es) * 2013-01-17 2017-04-03 Koninklijke Philips Nv Procesamiento de audio biaural.
GB201609089D0 (en) * 2016-05-24 2016-07-06 Smyth Stephen M F Improving the sound quality of virtualisation
WO2018147701A1 (ko) * 2017-02-10 2018-08-16 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
WO2019054559A1 (ko) * 2017-09-15 2019-03-21 엘지전자 주식회사 Brir/rir 파라미터화(parameterization)를 적용한 오디오 인코딩 방법 및 파라미터화된 brir/rir 정보를 이용한 오디오 재생 방법 및 장치
US10609504B2 (en) * 2017-12-21 2020-03-31 Gaudi Audio Lab, Inc. Audio signal processing method and apparatus for binaural rendering using phase response characteristics
US10390171B2 (en) * 2018-01-07 2019-08-20 Creative Technology Ltd Method for generating customized spatial audio with head tracking

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006500818A (ja) * 2002-09-23 2006-01-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音再生システム、プログラム、及びデータ担体
US20180091920A1 (en) * 2016-09-23 2018-03-29 Apple Inc. Producing Headphone Driver Signals in a Digital Audio Signal Processing Binaural Rendering Environment

Also Published As

Publication number Publication date
GB2588171A (en) 2021-04-21
GB201914716D0 (en) 2019-11-27
US20220369061A1 (en) 2022-11-17
EP4046399A1 (en) 2022-08-24
WO2021069794A1 (en) 2021-04-15
CN114556973A (zh) 2022-05-27
EP4046399A4 (en) 2023-10-25

Similar Documents

Publication Publication Date Title
Zaunschirm et al. Binaural rendering of Ambisonic signals by head-related impulse response time alignment and a diffuseness constraint
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
US11832080B2 (en) Spatial audio parameters and associated spatial audio playback
US20220369061A1 (en) Spatial Audio Representation and Rendering
US20240089692A1 (en) Spatial Audio Representation and Rendering
US20230199417A1 (en) Spatial Audio Representation and Rendering
CN112567765B (zh) 空间音频捕获、传输和再现
US20220078570A1 (en) Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor
JP2024023412A (ja) 音場関連のレンダリング
US20240274137A1 (en) Parametric spatial audio rendering
US20230274747A1 (en) Stereo-based immersive coding
GB2627482A (en) Diffuse-preserving merging of MASA and ISM metadata

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231003

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240808

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240819