JP2020536286A - DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム - Google Patents

DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP2020536286A
JP2020536286A JP2020519284A JP2020519284A JP2020536286A JP 2020536286 A JP2020536286 A JP 2020536286A JP 2020519284 A JP2020519284 A JP 2020519284A JP 2020519284 A JP2020519284 A JP 2020519284A JP 2020536286 A JP2020536286 A JP 2020536286A
Authority
JP
Japan
Prior art keywords
dirac
format
metadata
audio
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020519284A
Other languages
English (en)
Other versions
JP7297740B2 (ja
Inventor
ギヨーム・フックス
ユルゲン・ヘレ
ファビアン・キュッヒ
シュテファン・デーラ
マルクス・ムルトゥルス
オリヴァー・ティールガルト
オリヴァー・ヴュボルト
フローリン・ギド
シュテファン・バイヤー
ヴォルフガング・イェーガーズ
Original Assignee
フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ., フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. filed Critical フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
Publication of JP2020536286A publication Critical patent/JP2020536286A/ja
Priority to JP2023098016A priority Critical patent/JP2023126225A/ja
Application granted granted Critical
Publication of JP7297740B2 publication Critical patent/JP7297740B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/024Positioning of loudspeaker enclosures for spatial sound reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

結合されたオーディオシーンの記述を生成するための装置は、第1のフォーマットでの第1のシーンの第1の記述および第2のフォーマットでの第2のシーンの第2の記述を受信するための入力インターフェース(100)であって、第2のフォーマットが第1のフォーマットとは異なる、入力インターフェース(100)と、第2のフォーマットが共通フォーマットとは異なるとき、第1の記述を共通フォーマットに変換するための、かつ第2の記述を共通フォーマットに変換するための、フォーマット変換器(120)と、結合されたオーディオシーンを取得するために、共通フォーマットでの第1の記述と共通フォーマットでの第2の記述とを結合するためのフォーマット結合器(140)とを備える。

Description

本発明は、オーディオ信号処理に関し、詳細には、オーディオシーンのオーディオ記述のオーディオ信号処理に関する。
3次元でのオーディオシーンを送信することは、通常は送信すべき大量のデータを生じる複数のチャネルを扱うことを必要とする。その上、3Dサウンドは、異なる方法、すなわち、各送信チャネルがラウドスピーカー位置に関連付けられる、従来のチャネルベースサウンド、ラウドスピーカー位置とは無関係に3次元をなして配置され得るオーディオオブジェクトを通じて搬送されるサウンド、およびオーディオシーンが、空間的に直交な基底関数、たとえば、球面調和関数(SH:spherical Harmonics)の線形重みである1組の係数信号によって表される、シーンベース(または、アンビソニックス)で表すことができる。チャネルベース表現とは対照的に、シーンベース表現は、特定のラウドスピーカー設定から独立しており、デコーダにおける余分なレンダリングプロセスという犠牲を払って、任意のラウドスピーカー設定において再現され得る。
これらのフォーマットの各々に対して、オーディオ信号を低ビットレートで効率的に記憶または送信するために、専用のコーディング方式が開発された。たとえば、MPEGサラウンドは、チャネルベースサラウンドサウンド用のパラメトリックコーディング方式であり、MPEG空間オーディオオブジェクトコーディング(SAOC:Spatial Audio Object Coding)は、オブジェクトベースオーディオに専用のパラメトリックコーディング方法である。高次のアンビソニックスのためのパラメトリックコーディング技法も、最近の規格MPEG-Hフェーズ2において提供された。
このコンテキストでは、オーディオシーンのすべての3つの表現、すなわち、チャネルベースオーディオ、オブジェクトベースオーディオ、およびシーンベースオーディオが使用され、かつサポートされる必要がある場合、すべての3つの3Dオーディオ表現の効率的なパラメトリックコーディングを可能にする汎用方式を設計する必要がある。その上、異なるオーディオ表現との混合から構成された複合オーディオシーンを符号化、送信、および再現できる必要がある。
指向性オーディオコーディング(DirAC:Directional Audio Coding)技法[1]は、空間サウンドの分析および再現の効率的な手法である。DirACは、周波数帯域ごとに測定される到来方向(DOA:direction of arrival)および拡散性に基づく、音場の知覚的に動機づけられた表現を使用する。そのことは、ある瞬間において、かつある重要な帯域において、聴覚系の空間解像度が、方向に対して1つのキューを、また両耳間のコヒーレンスに対して別のキューを復号することに限定されるという想定に基づく。空間サウンドは、次いで、2つのストリーム、すなわち、無指向性の拡散ストリームおよび指向性の非拡散ストリームをクロスフェードさせることによって、周波数領域において表される。
DirACは、当初、録音されたBフォーマットサウンドを対象としたが、異なるオーディオフォーマットを混合するための共通フォーマットとしての働きもすることがある。DirACは、[3]において従来のサラウンドサウンドフォーマット5.1を処理するためにすでに拡張された。[4]において、複数のDirACストリームをマージすることも提案された。その上、我々が拡張したDirACはまた、Bフォーマット以外のマイクロフォン入力をサポートする[6]。
しかしながら、DirACを、オーディオオブジェクトの観念もサポートできる3Dでのオーディオシーンの汎用表現にさせるための、汎用的な概念が欠けている。
DirACにおいてオーディオオブジェクトを扱うことに対して、これまでほとんど検討が行われなかった。DirACは、いくつかの話し手を音源の混合から抽出するためのブラインド音源分離として、空間オーディオコーダ、すなわちSAOCのための、音響フロントエンドとして[5]において採用された。しかしながら、DirAC自体を空間オーディオコーディング方式として使用すること、またそれらのメタデータと一緒にオーディオオブジェクトを直接処理すること、また場合によってはそれらを互いにかつ他のオーディオ表現と結合することは、想定されなかった。
「Directional Audio Coding」、IWPASH、2009年
オーディオシーンおよびオーディオシーン記述を扱い処理することの改善された概念を提供することが、本発明の目的である。
この目的は、請求項1の結合されたオーディオシーンの記述を生成するための装置、請求項14の結合されたオーディオシーンの記述を生成する方法、または請求項15の関連するコンピュータプログラムによって達成される。
さらに、この目的は、請求項16の複数のオーディオシーンの合成を実行するための装置、請求項20の複数のオーディオシーンの合成を実行するための方法、または請求項21による関連するコンピュータプログラムによって達成される。
この目的は、請求項22のオーディオデータ変換器、請求項28のオーディオデータ変換を実行するための方法、または請求項29の関連するコンピュータプログラムによってさらに達成される。
さらに、この目的は、請求項30のオーディオシーンエンコーダ、請求項34のオーディオシーンを符号化する方法、または請求項35の関連するコンピュータプログラムによって達成される。
さらに、この目的は、請求項36のオーディオデータの合成を実行するための装置、請求項40のオーディオデータの合成を実行するための方法、または請求項41の関連するコンピュータプログラムによって達成される。
本発明の実施形態は、指向性オーディオコーディングパラダイム(DirAC)を中心にして構築された3Dオーディオシーンのための汎用パラメトリックコーディング方式、空間オーディオ処理のための知覚的に動機づけられた技法に関する。当初、DirACは、オーディオシーンのBフォーマット録音を分析するように設計された。本発明は、チャネルベースオーディオ、アンビソニックス、オーディオオブジェクト、またはそれらの混合などの、任意の空間オーディオフォーマットを効率的に処理するようにその能力を拡張することを狙いとする。
DirAC再現は、任意のラウドスピーカーレイアウトおよびヘッドフォンに対して容易に生成され得る。本発明はまた、アンビソニックス、オーディオオブジェクト、またはフォーマットの混合を追加として出力するようにこの能力を拡張する。より重要なことに、本発明は、ユーザがオーディオオブジェクトを操作し、たとえば、デコーダ端における対話拡張を達成する可能性を与える。
コンテキスト:DirAC空間オーディオコーダのシステム概要
以下では、没入型音声およびオーディオサービス(IVAS:Immersive Voice and Audio Service)のために設計されたDirACに基づく、新規の空間オーディオコーディングシステムの概要が提示される。そのようなシステムの目標は、オーディオシーンを表す異なる空間オーディオフォーマットを扱うこと、またそれらを低ビットレートでコーディングすること、また伝送後に元のオーディオシーンをできる限り忠実に再現することが、可能となることである。
システムは、オーディオシーンの異なる表現を入力として受け入れることができる。入力オーディオシーンは、異なるラウドスピーカー位置において再現されることを目的とするマルチチャネル信号、オブジェクトの位置を経時的に記述するメタデータと一緒の聴覚オブジェクト、または聞き手もしくは基準位置における音場を表す1次もしくはより高次のアンビソニックスフォーマットによってキャプチャされ得る。
好ましくは、本解決策がモバイルネットワーク上での会話型サービスを可能にするために低レイテンシで動作すると予想されるので、システムは3GPP拡張ボイスサービス(EVS:Enhanced Voice Service)に基づく。
図9は、様々なオーディオフォーマットをサポートするDirACベース空間オーディオコーディングのエンコーダ側である。図9に示すように、エンコーダ(IVASエンコーダ)は、システムに提示される様々なオーディオフォーマットを別々または同時にサポートすることが可能である。オーディオ信号は、本質的に音響式であり得、マイクロフォンによってピックアップされ得るか、または本質的に電気的であり得、ラウドスピーカーへ送信されることがサポートされる。サポートされるオーディオフォーマットは、マルチチャネル信号、1次およびより高次のアンビソニックス成分、ならびにオーディオオブジェクトであり得る。異なる入力フォーマットを結合することによって、複合オーディオシーンも記述することができる。すべてのオーディオフォーマットが、次いで、DirAC分析180へ送信され、DirAC分析180は、完全なオーディオシーンのパラメトリック表現を抽出する。時間周波数単位ごとに測定された到来方向および拡散性が、パラメータを形成する。DirAC分析に空間メタデータエンコーダ190が後続し、空間メタデータエンコーダ190は、DirACパラメータを量子化および符号化して低ビットレートパラメトリック表現を取得する。
パラメータと一緒に、異なる音源またはオーディオ入力信号から導出されたダウンミックス信号160が、従来のオーディオコアコーダ170による送信のためにコーディングされる。この場合、ダウンミックス信号をコーディングするために、EVSベースオーディオコーダが採用される。ダウンミックス信号は、トランスポートチャネルと呼ばれる異なるチャネルからなり、すなわち、信号は、たとえば、Bフォーマット信号を構成する4つの係数信号、ターゲットとされるビットレートに依存するステレオペアまたはモノラルダウンミックスであり得る。コーディングされた空間パラメータおよびコーディングされたオーディオビットストリームは、通信チャネルを介して送信される前に、多重化される。
図10は、異なるオーディオフォーマットを配信するDirACベース空間オーディオコーディングのデコーダである。図10に示すデコーダにおいて、トランスポートチャネルは、コアデコーダ1020によって復号されるが、DirACメタデータは、最初に復号されてから復号トランスポートチャネルとともにDirAC合成220、240に伝達される(1060)。この段階(1040)において、異なるオプションが考慮され得る。通常は従来のDirACシステムにおいて可能なように、任意のラウドスピーカーまたはヘッドフォン構成上でオーディオシーンを直接再生することが要求され得る(図10の中のMC)。加えて、シーンの回転、反射、または移動などの、さらなる他の操作のために、シーンをアンビソニックスフォーマットにレンダリングすることも要求され得る(図10の中のFOA/HOA)。最後に、デコーダは、個々のオブジェクトを、それらがエンコーダ側において提示されたように配信することができる(図10の中のオブジェクト)。
オーディオオブジェクトも元に戻すことができるが、レンダリングされた混合をオブジェクトの対話式操作によって聞き手が調整することは、より興味深い。典型的なオブジェクト操作とは、オブジェクトのレベル、等化、または空間ロケーションの調整である。オブジェクトベースの対話拡張は、たとえば、この対話性機能によって与えられる可能性になる。最後に、元のフォーマットを、それらがエンコーダ入力において提示されたように出力することが可能である。この場合、それは、オーディオチャネルとオブジェクトとの、またはアンビソニックスとオブジェクトとの混合であり得る。マルチチャネルおよびアンビソニックス成分の別々の送信を達成するために、説明するシステムのいくつかの事例が使用され得る。
本発明は、特に第1の態様によれば、異なるオーディオシーン記述を結合することを可能にする共通フォーマットによって、異なるシーン記述を結合して、結合されたオーディオシーンにするために、フレームワークが確立されるという点で有利である。
この共通フォーマットは、たとえば、Bフォーマットであってよく、もしくは音圧/速度信号表現フォーマットであってよく、または好ましくはDirACパラメータ表現フォーマットでもあり得る。
このフォーマットは、追加として、一方では相当量のユーザ対話を可能にし、他方ではオーディオ信号を表すために必要とされるビットレートに関して有用である、コンパクトなフォーマットである。
本発明のさらなる態様によれば、複数のオーディオシーンの合成は、2つ以上の異なるDirAC記述を結合することによって有利に実行され得る。これらの異なる両方のDirAC記述は、パラメータ領域においてシーンを結合することによって、または代替として、各オーディオシーンを別々にレンダリングすることによって、かつ次いで、個々のDirAC記述からレンダリングされているオーディオシーンをスペクトル領域において、もしくは代替としてすでに時間領域において、結合することによって処理され得る。
この手順は、結合されて単一のシーン表現に、かつ詳細には単一の時間領域オーディオ信号になるべき、異なるオーディオシーンの極めて効率的な、とはいえ高品質の処理を可能にする。
本発明のさらなる態様は、オブジェクトメタデータをDirACメタデータに変換するために変換される特に有用なオーディオデータが導出されるという点で有利であり、ここで、このオーディオデータ変換器は、第1、第2、もしくは第3の態様のフレームワークの中で使用することができ、または互いに独立して適用することもできる。オーディオデータ変換器は、オーディオオブジェクトデータ、たとえば、オーディオオブジェクトに対する波形信号、および再現設定内でのオーディオオブジェクトの特定の軌跡を表すための、通常は時間に関して対応する位置データを、極めて有用かつコンパクトなオーディオシーン記述に、かつ詳細にはDirACオーディオシーン記述フォーマットに、効率的に変換することを可能にする。オーディオオブジェクト波形信号およびオーディオオブジェクト位置メタデータを有する典型的なオーディオオブジェクト記述は、特定の再現設定に関係するか、または概して、特定の再現座標系に関係するが、DirAC記述は、それが聞き手またはマイクロフォン位置に関係し、ラウドスピーカー設定または再現設定に関していかなる限定もまったくないという点で特に有用である。
したがって、オーディオオブジェクトメタデータ信号から生成されるDirAC記述は、追加として、再現設定におけるオブジェクトの空間オーディオオブジェクトコーディングまたは振幅パンニングなどの他のオーディオオブジェクト結合技術とは異なる、オーディオオブジェクトの極めて有用かつコンパクトかつ高品質な結合を可能にする。
本発明のさらなる態様によるオーディオシーンエンコーダは、DirACメタデータを有するオーディオシーンの結合された表現、および追加として、オーディオオブジェクトメタデータを伴うオーディオオブジェクトを提供する際に、特に有用である。
詳細には、この状況では、そのことは、一方ではDirACメタデータを、かつ並行して他方ではオブジェクトメタデータを有する、結合されたメタデータ記述を生成するために、高い対話性にとって特に有用かつ有利である。したがって、本態様では、オブジェクトメタデータはDirACメタデータと結合されないがDirACのようなメタデータに変換され、その結果、オブジェクトメタデータは、個々のオブジェクトの方向を、または追加として距離および/もしくは拡散性を、オブジェクト信号と一緒に備える。したがって、オブジェクト信号はDirACのような表現に変換され、その結果、第1のオーディオシーンに対するDirAC表現およびこの第1のオーディオシーン内の追加のオブジェクトの極めてフレキシブルな処理が許容され、可能にされる。したがって、たとえば、特定のオブジェクトは、一方ではそれらの対応するトランスポートチャネル、および他方ではDirACスタイルのパラメータが依然として利用可能であるという事実に起因して、極めて選択的に処理され得る。
本発明のさらなる態様によれば、オーディオデータの合成を実行するための装置または方法は、1つもしくは複数のオーディオオブジェクトのDirAC記述、マルチチャネル信号のDirAC記述、または1次アンビソニックス信号もしくはより高次のアンビソニックス信号のDirAC記述を操作するために、操作器が設けられるという点で特に有用である。そして、操作されたDirAC記述は、次いで、DirAC合成器を使用して合成される。
この態様は、任意のオーディオ信号に関する任意の特定の操作が、DirAC領域において、すなわち、DirAC記述のトランスポートチャネルを操作すること、または代替として、DirAC記述のパラメトリックデータを操作することのいずれかによって、極めて有効かつ効率的に実行されるという特有の利点を有する。この修正は、DirAC領域において実行するために、他の領域における操作と比較して実質的により効率的かつより実際的である。具体的には、好適な操作動作のような位置依存の重み付け演算が、特にDirAC領域において実行され得る。したがって、特定の実施形態では、DirAC領域における対応する信号表現の変換、および次いでDirAC領域内での操作の実行は、現代のオーディオシーン処理および操作にとって特に有用な適用シナリオである。
好適な実施形態が、それらの添付図面に関して後で説明される。
本発明の第1の態様による、結合されたオーディオシーンの記述を生成するための装置または方法の好適な実装形態のブロック図である。 共通フォーマットが音圧/速度表現である、結合されたオーディオシーンの生成の実装形態を示す図である。 DirACパラメータおよびDirAC記述が共通フォーマットである、結合されたオーディオシーンの生成の好適な実装形態を示す図である。 異なるオーディオシーンまたはオーディオシーン記述のDirACパラメータの結合器の実装形態に対する2つの異なる代替を示す、図1cの中の結合器の好適な実装形態を示す図である。 アンビソニックス表現に対する一例として共通フォーマットがBフォーマットである、結合されたオーディオシーンの生成の好適な実装形態を示す図である。 図1cもしくは図1dの例のコンテキストにおいて有用な、またはメタデータ変換器に関係する第3の態様のコンテキストにおいて有用な、オーディオオブジェクト/DirAC変換器の図である。 DirAC記述の中への5.1マルチチャネル信号の例示的な図である。 エンコーダ側およびデコーダ側のコンテキストにおける、DirACフォーマットへのマルチチャネルフォーマットの変換のさらなる図である。 本発明の第2の態様による、複数のオーディオシーンの合成を実行するための装置または方法の一実施形態を示す図である。 図2aのDirAC合成器の好適な実装形態を示す図である。 レンダリングされた信号の結合を伴うDirAC合成器のさらなる実装形態を示す図である。 選択的操作器が図2bのシーン結合器221の前または図2cの結合器225の前のいずれかに接続される実装形態を示す図である。 本発明の第3の態様による、オーディオデータ変換を実行するための装置または方法の好適な実装形態を示す図である。 図1fにも示すメタデータ変換器の好適な実装形態を示す図である。 音圧/速度領域を介したオーディオデータ変換のさらなる実装形態を実行するためのフローチャートである。 DirAC領域内で結合を実行するためのフローチャートである。 たとえば、本発明の第1の態様に関して図1dに示すような、異なるDirAC記述を結合するための好適な実装形態を示す図である。 DirACパラメトリック表現へのオブジェクト位置データの変換を示す図である。 DirACメタデータおよびオブジェクトメタデータを備える結合されたメタデータ記述を生成するための、本発明の第4の態様によるオーディオシーンエンコーダの好適な実装形態を示す図である。 本発明の第4の態様に関する好適な実施形態を示す図である。 本発明の第5の態様による、オーディオデータの合成を実行するための装置または対応する方法の好適な実装形態を示す図である。 図5aのDirAC合成器の好適な実装形態を示す図である。 図5aの操作器の手順のさらなる代替を示す図である。 図5aの操作器の実装形態のためのさらなる手順を示す図である。 拡散性が、たとえば、0に設定される場合、モノ信号および到来方向情報から、すなわち、例示的なDirAC記述から、X、Y、およびZ方向におけるオムニ指向性成分および指向性成分を備えるBフォーマット表現を生成するためのオーディオ信号変換器を示す図である。 Bフォーマットマイクロフォン信号のDirAC分析の実装形態を示す図である。 知られている手順によるDirAC合成の実装形態を示す図である。 図1aの実施形態のさらなる実施形態を詳細に示すためのフローチャートである。 異なるオーディオフォーマットをサポートするDirACベース空間オーディオコーディングのエンコーダ側を示す図である。 異なるオーディオフォーマットを配信するDirACベース空間オーディオコーディングのデコーダを示す図である。 DirACベースのエンコーダ/デコーダが、結合されたBフォーマットでの異なる入力フォーマットを結合する、システム概要を示す図である。 DirACベースのエンコーダ/デコーダが、音圧/速度領域において結合する、システム概要を示す図である。 DirACベースのエンコーダ/デコーダが、デコーダ側におけるオブジェクト操作の可能性とともに異なる入力フォーマットをDirAC領域において結合する、システム概要を示す図である。 DirACベースのエンコーダ/デコーダが、DirACメタデータ結合器を通じてデコーダ側において異なる入力フォーマットを結合する、システム概要を示す図である。 DirACベースのエンコーダ/デコーダが、DirAC合成の際にデコーダ側において異なる入力フォーマットを結合する、システム概要を示す図である。 本発明の第1〜第5の態様のコンテキストにおける有用なオーディオフォーマットのいくつかの表現を示す図である。 本発明の第1〜第5の態様のコンテキストにおける有用なオーディオフォーマットのいくつかの表現を示す図である。 本発明の第1〜第5の態様のコンテキストにおける有用なオーディオフォーマットのいくつかの表現を示す図である。 本発明の第1〜第5の態様のコンテキストにおける有用なオーディオフォーマットのいくつかの表現を示す図である。 本発明の第1〜第5の態様のコンテキストにおける有用なオーディオフォーマットのいくつかの表現を示す図である。 本発明の第1〜第5の態様のコンテキストにおける有用なオーディオフォーマットのいくつかの表現を示す図である。
図1aは、結合されたオーディオシーンの記述を生成するための装置の好適な実施形態を示す。装置は、第1のフォーマットでの第1のシーンの第1の記述および第2のフォーマットでの第2のシーンの第2の記述を受信するための入力インターフェース100を備え、第2のフォーマットは第1のフォーマットとは異なる。フォーマットは、図16a〜図16fに示すフォーマットまたはシーン記述のうちのいずれかなどの、任意のオーディオシーンフォーマットであり得る。
図16aは、たとえば、通常、モノチャネルなどの(符号化)オブジェクト1波形信号、およびオブジェクト1の位置に関係する対応するメタデータからなる、オブジェクト記述を示し、ここで、この情報は、通常、時間フレームまたは時間フレームのグループごとに与えられ、オブジェクト1波形信号が符号化される。図16aに示すように、第2のまたはさらなるオブジェクトに対する対応する表現が含められてよい。
別の代替は、モノ信号、2つのチャネルを有するステレオ信号、または3つ以上のチャネルを有する信号であるオブジェクトダウンミックス、およびオブジェクトエネルギー、時間/周波数ビンごとの相関情報、および随意にオブジェクト位置などの、関連するオブジェクトメタデータからなる、オブジェクト記述であり得る。ただし、オブジェクト位置はまた、典型的なレンダリング情報としてデコーダ側において与えることができ、したがって、ユーザによって修正され得る。図16bにおけるフォーマットは、たとえば、よく知られているSAOC(空間オーディオオブジェクトコーディング)フォーマットとして実装され得る。
第1のチャネル、第2のチャネル、第3のチャネル、第4のチャネル、または第5のチャネルの符号化表現または非符号化表現を有するマルチチャネル記述として、シーンの別の記述が図16cに示され、ここで、第1のチャネルは左チャネルLであり得、第2のチャネルは右チャネルRであり得、第3のチャネルは中央チャネルCであり得、第4のチャネルは左サラウンドチャネルLSであり得、第5のチャネルは右サラウンドチャネルRSであり得る。当然、マルチチャネル信号は、ステレオチャネル用の2チャネルのみ、または5.1フォーマット用の6チャネルもしくは7.1フォーマット用の8チャネルなどの、より少数またはより多数のチャネルを有することができる。
マルチチャネル信号のより効率的な表現が図16dに示され、ここで、モノダウンミックスもしくはステレオダウンミックス、または3つ以上のチャネルを有するダウンミックスなどのチャネルダウンミックスが、通常、各時間および/または周波数ビンに対して、チャネルメタデータとしてのパラメトリック副次情報に関連付けられる。そのようなパラメトリック表現は、たとえば、MPEGサラウンド規格に従って実装され得る。
オーディオシーンの別の表現は、たとえば、図16eに示すような、オムニ指向性信号Wおよび指向性成分X、Y、ZからなるBフォーマットであり得る。これは、1次信号またはFoA信号であることになる。より高次のアンビソニックス信号、すなわち、HoA信号は、当技術分野で知られているように追加の成分を有することができる。
図16eの表現は、図16cおよび図16dの表現とは対照的に、特定のラウドスピーカー設定に依存しない表現であるが、特定の(マイクロフォンまたは聞き手の)位置において遭遇される音場を記述する。
そのような別の音場記述は、たとえば、図16fに示すような、DirACフォーマットである。DirACフォーマットは、通常、モノもしくはステレオであるDirACダウンミックス信号を、またはどんなダウンミックス信号もしくはトランスポート信号および対応するパラメトリック副次情報も備える。このパラメトリック副次情報は、たとえば、時間/周波数ビンごとの到来方向情報、および随意に時間/周波数ビンごとの拡散性情報である。
図1aの入力インターフェース100の中への入力は、たとえば、図16a〜図16fに関して示すそれらのフォーマットのうちのいずれか1つをなすことができる。入力インターフェース100は、対応するフォーマット記述をフォーマット変換器120に転送する。フォーマット変換器120は、第2のフォーマットが共通フォーマットとは異なるとき、第1の記述を共通フォーマットに変換するために、かつ第2の記述を同じ共通フォーマットに変換するために構成される。ただし、第2のフォーマットがすでに共通フォーマットをなすとき、第1の記述が共通フォーマットとは異なるフォーマットをなすので、フォーマット変換器は第1の記述を共通フォーマットに変換するにすぎない。
したがって、フォーマット変換器の出力において、または一般にフォーマット結合器の入力において、共通フォーマットでの第1のシーンの表現および同じ共通フォーマットでの第2のシーンの表現が存在する。ここで両方の記述が1つの同じ共通フォーマットの中に含まれるという事実に起因して、フォーマット結合器は、結合されたオーディオシーンを取得するために、第1の記述と第2の記述とをここで結合することができる。
図1eに示す一実施形態によれば、フォーマット変換器120は、たとえば、図1eの中で127において示すように、第1の記述を第1のBフォーマット信号に変換し、図1eの中で128において示すように、第2の記述に対するBフォーマット表現を算出するように構成される。
このとき、フォーマット結合器140は、W成分加算器に対して146a、X成分加算器に対して146bにおいて図示し、Y成分加算器に対して146cにおいて図示し、かつZ成分加算器に対して146dにおいて図示した、成分信号加算器として実装される。
したがって、図1eの実施形態では、結合されたオーディオシーンはBフォーマット表現であり得、Bフォーマット信号は、そのとき、トランスポートチャネルとして動作することができ、次いで図1aのトランスポートチャネルエンコーダ170を介して符号化され得る。したがって、Bフォーマット信号に対する結合されたオーディオシーンは、次いで出力インターフェース200を介して出力され得る符号化されたBフォーマット信号を生成するために、図1aのエンコーダ170の中に直接入力され得る。この場合、いかなる空間メタデータも必要とされないが、4つのオーディオ信号の符号化表現、すなわち、オムニ指向性成分Wおよび指向性成分X、Y、Zを犠牲にする。
代替として、共通フォーマットは、図1bに示すような音圧/速度フォーマットである。この目的で、フォーマット変換器120は、第1のオーディオシーン用の時間/周波数分析器121および第2のオーディオシーン用の時間/周波数分析器122、または一般に、番号Nを伴うオーディオシーンを備え、ただし、Nは整数である。
次いで、スペクトル変換器121、122によって生成されたそのようなスペクトル表現ごとに、音圧および速度が、123および124において図示したように算出され、フォーマット結合器は、次いで、ブロック123、124によって生成された対応する音圧信号を総計することによって、一方では総計された音圧信号を計算するように構成される。そして、追加として、個々の速度信号が、ブロック123、124の各々によって同様に計算され、速度信号は、結合された音圧/速度信号を取得するために互いに加算され得る。
実装形態に応じて、ブロック142、143の中の手順は、必ずしも実行されなければならないとは限らない。代わりに、結合または「総計」された音圧信号および結合または「総計」された速度信号は、図1eに示すようにBフォーマット信号と類似して符号化することができ、この音圧/速度表現は、図1aのそのエンコーダ170を介してさらにもう一度符号化することができ、次いで、結合された音圧/速度表現がデコーダ側において最後にレンダリングされた高品質な音場を取得するための必要な空間情報をすでに含むので、空間パラメータに関するいかなる追加の副次情報も伴うことなくデコーダへ送信され得る。
しかしながら、一実施形態では、ブロック141によって生成された音圧/速度表現にDirAC分析を実行することが好ましい。この目的で、強度ベクトルが計算され(142)、ブロック143において、強度ベクトルからのDirACパラメータが計算され、次いで、結合されたDirACパラメータが、結合されたオーディオシーンのパラメトリック表現として取得される。この目的で、図1aのDirAC分析器180は、図1bのブロック142および143の機能を実行するように実装される。そして、好ましくは、DirACデータは、追加として、メタデータエンコーダ190におけるメタデータ符号化動作にかけられる。メタデータエンコーダ190は、通常、DirACパラメータの送信のために必要とされるビットレートを低減するために、量子化器およびエントロピーコーダを備える。
符号化されたDirACパラメータと一緒に、符号化トランスポートチャネルも送信される。符号化トランスポートチャネルは、たとえば、第1のオーディオシーンからダウンミックスを生成するための第1のダウンミックス生成器161、および第Nのオーディオシーンからダウンミックスを生成するための第Nのダウンミックス生成器162によって、図1bに示すように実装され得る、図1aのトランスポートチャネル生成器160によって生成される。
次いで、ダウンミックスチャネルは、通常は簡単な加算によって、結合器163の中で結合され、結合されたダウンミックス信号は、そのとき、図1aのエンコーダ170によって符号化されるトランスポートチャネルである。結合されたダウンミックスは、たとえば、ステレオペア、すなわち、ステレオ表現の第1のチャネルおよび第2のチャネルであり得るか、またはモノチャネル、すなわち、単一のチャネル信号であり得る。
図1cに示すさらなる実施形態によれば、フォーマット変換器120の中でのフォーマット変換は、入力オーディオフォーマットの各々を共通フォーマットとしてのDirACフォーマットに直接変換するように行われる。この目的で、フォーマット変換器120は、第1のシーン用の対応するブロック121および第2のまたはさらなるシーン用のブロック122の中で、もう一度、時間周波数変換または時間/周波数分析を形成する。次いで、DirACパラメータが、125および126において図示した対応するオーディオシーンのスペクトル表現から導出される。ブロック125および126の中の手順の結果は、時間/周波数タイルごとのエネルギー情報、時間/周波数タイルごとの到来方向情報eDOA、および時間/周波数タイルごとの拡散性情報ψからなる、DirACパラメータである。次いで、フォーマット結合器140は、拡散性に対する結合されたDirACパラメータψおよび到来方向に対するeDOAを生成するために、DirACパラメータ領域において結合を直接実行するように構成される。詳細には、エネルギー情報E1およびENは、結合器144によって必要とされるが、フォーマット結合器140によって生成される最終の結合されたパラメトリック表現の一部ではない。
したがって、図1cを図1eと比較すると、フォーマット結合器140がすでにDirACパラメータ領域において結合を実行するとき、DirAC分析器180が必要でなく実装されないことが明らかになる。代わりに、図1cの中のブロック144の出力であるフォーマット結合器140の出力が、図1aのメタデータエンコーダ190に、またそこから出力インターフェース200の中に、直接転送され、その結果、出力インターフェース200によって出力される符号化出力信号の中に、符号化された空間メタデータ、および詳細には符号化かつ結合されたDirACパラメータが含まれる。
さらに、図1aのトランスポートチャネル生成器160は、第1のシーンに対する波形信号表現および第2のシーンに対する波形信号表現を、すでに入力インターフェース100から受信することがある。これらの表現がダウンミックス生成器ブロック161、162の中に入力され、その結果は、図1bに関して示すように、結合されたダウンミックスを取得するためにブロック163において加算される。
図1dは、図1cに関する類似の表現を示す。ただし、図1dにおいて、オーディオオブジェクト波形は、オーディオオブジェクト1用の時間/周波数表現変換器121、およびオーディオオブジェクトN用の時間/周波数表現変換器122の中に入力される。追加として、メタデータが、図1cにも示すようなDirACパラメータ計算器125、126の中に、スペクトル表現と一緒に入力される。
ただし、図1dは、結合器144の好適な実装形態がどのように動作するのかに関して、より詳細な表現を提供する。第1の代替では、結合器は、個々のオブジェクトまたはシーンごとに個々の拡散性のエネルギー重み付き加算を実行し、時間/周波数タイルごとの結合されたDoAの対応するエネルギー重み付き計算が、代替1の下のほうの式に示すように実行される。
しかしながら、他の実装形態も実行され得る。詳細には、極めて効率的な別の計算は、結合されたDirACメタデータに対して拡散性を0に設定すること、および特定の時間/周波数タイル内で最大のエネルギーを有する、特定のオーディオオブジェクトから計算される到来方向を、時間/周波数タイルごとの到来方向として選択することである。好ましくは、入力インターフェースの中への入力が、オブジェクトごとの波形またはモノ信号、および図16aまたは図16bに関して示す位置情報などの対応するメタデータを、相応して表す個々のオーディオオブジェクトであるとき、図1dの手順がより適切である。
しかしながら、図1cの実施形態では、オーディオシーンは、図16c、図16d、図16e、または図16fに示す表現のうちの任意の他の表現であってよい。そのとき、メタデータはあり得るかまたはあり得ず、すなわち、図1cの中のメタデータは随意である。しかしながら、次いで、通常は有用な拡散性が、図16eの中のアンビソニックスシーン記述などの特定のシーン記述に対して計算され、そのとき、どのようにパラメータが結合されるのかという方法の第1の代替は、図1dの第2の代替よりも好ましい。したがって、本発明によれば、フォーマット変換器120は、高次アンビソニックスフォーマットまたは1次アンビソニックスフォーマットをBフォーマットに変換するように構成され、高次アンビソニックスフォーマットは、Bフォーマットに変換される前に切り詰められる。
さらなる実施形態では、フォーマット変換器は、投影された信号を取得するために、基準位置において球面調和関数にオブジェクトまたはチャネルを投影するように構成され、フォーマット結合器は、Bフォーマット係数を取得するために、投影信号を結合するように構成され、オブジェクトまたはチャネルは、空間の中の指定された位置に配置され、基準位置からの随意の個々の距離を有する。この手順は、特に1次または高次アンビソニックス信号へのオブジェクト信号またはマルチチャネル信号の変換に対して良好に機能する。
さらなる代替では、フォーマット変換器120は、Bフォーマット成分の時間周波数分析を備えるDirAC分析、ならびに音圧および速度ベクトルの決定を実行するように構成され、ここで、フォーマット結合器は、次いで、異なる音圧/速度ベクトルを結合するように構成され、ここで、フォーマット結合器は、結合された音圧/速度データからDirACメタデータを導出するためのDirAC分析器180をさらに備える。
さらなる代替実施形態では、フォーマット変換器は、第1または第2のフォーマットとしてのオーディオオブジェクトフォーマットのオブジェクトメタデータからDirACパラメータを直接抽出するように構成され、ここで、DirAC表現に対する音圧ベクトルは、オブジェクト波形信号であり、方向が空間の中のオブジェクト位置から導出され、または拡散性がオブジェクトメタデータの中で直接与えられるかもしくは0値などのデフォルト値に設定される。
さらなる実施形態では、フォーマット変換器は、オブジェクトデータフォーマットから導出されたDirACパラメータを音圧/速度データに変換するように構成され、フォーマット結合器は、その音圧/速度データを、1つまたは複数の異なるオーディオオブジェクトの異なる記述から導出された音圧/速度データと結合するように構成される。
しかしながら、図1cおよび図1dに関して示す好適な実装形態では、フォーマット結合器は、フォーマット変換器120によって導出されたDirACパラメータを直接結合するように構成され、その結果、図1aのブロック140によって生成される結合されたオーディオシーンはすでに最終結果であり、フォーマット結合器140によって出力されるデータがすでにDirACフォーマットをなしているので、図1aに示すDirAC分析器180は必要でない。
さらなる実装形態では、フォーマット変換器120は、1次アンビソニックス入力フォーマット用もしくは高次アンビソニックス入力フォーマット用、またはマルチチャネル信号フォーマット用の、DirAC分析器をすでに備える。さらに、フォーマット変換器はオブジェクトメタデータをDirACメタデータに変換するためのメタデータ変換器を備え、ブロック121における時間/周波数分析に対してもう一度動作し、かつ147において示す時間フレームごとの帯域当りのエネルギー、図1fのブロック148において示す到来方向、および図1fのブロック149において示す拡散性を計算する、そのようなメタデータ変換器が、たとえば、図1fの中で150において示される。そして、メタデータは、好ましくは、図1dの実施形態の2つの代替のうちの1つによって例示的に示すような重み付き加算によって個々のDirACメタデータストリームを結合するために、結合器144によって結合される。
マルチチャネルチャネル信号は、Bフォーマットに直接変換され得る。取得されたBフォーマットは、次いで、従来のDirACによって処理され得る。図1gは、Bフォーマットへの変換127、および後続のDirAC処理180を示す。
参考文献[3]は、マルチチャネル信号からBフォーマットへの変換を実行するための方法を概説する。原理上は、マルチチャネルオーディオ信号をBフォーマットに変換することは単純であり、仮想的なラウドスピーカーが、ラウドスピーカーレイアウトの異なる位置にあるように規定される。たとえば、5.0レイアウトの場合、ラウドスピーカーは、方位角+/-30および+/-110度において水平面上に配置される。仮想的なBフォーマットマイクロフォンが、次いで、ラウドスピーカーの中心にあるように規定され、仮想的な録音が実行される。したがって、5.0オーディオファイルのすべてのラウドスピーカーチャネルを総計することによって、Wチャネルが作成される。Wおよび他のBフォーマット係数を得るためのプロセスが、次いで、要約され得る。
Figure 2020536286
ただし、siは、各ラウドスピーカーの、方位角θiおよび仰角φiによって規定されるラウドスピーカー位置において空間に配置されるマルチチャネル信号であり、wiは、距離の重み関数である。距離が利用可能でないかまたは単に無視される場合、wi=1である。とはいえ、この単純な技法は不可逆プロセスであるので限定的である。その上、ラウドスピーカーが通常は不均一に分散されるので、後続のDirAC分析によって行われる推定において、最大のラウドスピーカー密度を有する方向に向かってバイアスもある。たとえば、5.1レイアウトでは、後方よりも多くのラウドスピーカーが前方にあるので、前方に向かってバイアスがある。
この問題に対処するために、DirACを用いて5.1マルチチャネル信号を処理するためのさらなる技法が[3]において提案された。そのとき、最終のコーディング方式は図1hに示すように見え、図1の中の要素180に関して概略的に説明するようなBフォーマット変換器127、DirAC分析器180、ならびに他の要素190、1000、160、170、1020、および/または220、240を示す。
さらなる実施形態では、出力インターフェース200は、オーディオオブジェクトに対する別個のオブジェクト記述を、結合されたフォーマットに加算するように構成され、ここで、オブジェクト記述は、方向、距離、拡散性、または任意の他のオブジェクト属性のうちの少なくとも1つを備え、ここで、このオブジェクトは、すべての周波数帯域全体にわたって単一の方向を有し、静的であるかまたは速度しきい値よりもゆっくり移動するかのいずれかである。
この機能は、図4aおよび図4bに関して説明する本発明の第4の態様に関して、さらにより詳細に詳述される。
第1の符号化代替:Bフォーマットまたは均等な表現を通じた異なるオーディオ表現の結合および処理
想定されるエンコーダの第1の実現は、図11に示されるように、すべての入力フォーマットを結合されたBフォーマットに変換することによって達成され得る。
図11:DirACベースのエンコーダ/デコーダが、結合されたBフォーマットでの異なる入力フォーマットを結合する、システム概要
DirACが、当初はBフォーマット信号を分析するために設計されているので、システムは、異なるオーディオフォーマットを結合されたBフォーマット信号に変換する。フォーマットは、それらのBフォーマット成分W、X、Y、Zを総計することによって一緒に結合される前に、最初に個別にBフォーマット信号に変換される(120)。1次アンビソニックス(FOA:First Order Ambisonics)成分は、Bフォーマットに正規化およびリオーダーされ得る。FOAがACN/N3Dフォーマットをなし、Bフォーマット入力の4つの信号が、
Figure 2020536286
によって取得されることを想定する。ただし、
Figure 2020536286
は、次数lおよびインデックスm(-l≦m≦+l)のアンビソニックス成分を示す。FOA成分が、より高次のアンビソニックスフォーマットの中に完全に含まれるので、HOAフォーマットは、Bフォーマットに変換される前に切り詰められるだけでよい。
オブジェクトおよびチャネルが、空間の中の決定された位置を有するので、各個々のオブジェクトおよびチャネルを録音位置または基準位置などの中心位置において球面調和関数上に投影することが可能である。投影の総計は、単一のBフォーマットでの異なるオブジェクトおよび複数のチャネルを結合することを可能にし、次いで、DirAC分析によって処理され得る。Bフォーマット係数(W、X、Y、Z)が、次いで、
Figure 2020536286
によって与えられ、ただし、siは、方位角θiおよび仰角φiによって規定される位置において空間に配置される独立した信号であり、wiは、距離の重み関数である。距離が利用可能でないかまたは単に無視される場合、wi=1である。たとえば、独立した信号は、所与の位置に配置されるオーディオオブジェクト、または指定された位置においてラウドスピーカーチャネルに関連付けられた信号に対応することができる。
1次よりも高次のアンビソニックス表現が望まれる適用例では、1次に対して上記で提示されたアンビソニックス係数生成は、より高次の成分を追加として考慮することによって拡張される。
トランスポートチャネル生成器160は、マルチチャネル信号、オブジェクト波形信号、およびより高次のアンビソニックス成分を、直接受信することができる。トランスポートチャネル生成器は、それらをダウンミックスすることによって、送信すべき入力チャネルの数を低減する。チャネルは、MPEGサラウンドの場合のようにモノまたはステレオダウンミックスの中に一緒に混合され得るが、オブジェクト波形信号は、モノダウンミックスの中に受動的な方法で合計され得る。加えて、より高次のアンビソニックスから、より低次の表現を抽出すること、またはビームフォーミングによってステレオダウンミックスもしくは空間の任意の他のセクショニングを作成することが可能である。異なる入力フォーマットから取得されたダウンミックスが互いに互換性がある場合、それらは単純な加算演算によって互いに結合され得る。
代替として、トランスポートチャネル生成器160は、DirAC分析に伝達されるものと同じ結合されたBフォーマットを受信することができる。この場合、成分のサブセットまたはビームフォーミング(または、他の処理)の結果が、コーディングされるとともにデコーダへ送信されるべきトランスポートチャネルを形成する。提案されるシステムでは、限定はしないが、標準的な3GPP EVSコーデックに基づくことができる従来のオーディオコーディングが必要とされる。3GPP EVSは、高品質を伴い低ビットレートで音声信号または音楽信号のいずれかをコーディングするその能力により、好適なコーデック選択であるが、リアルタイム通信を可能にする比較的小さい遅延を必要とする。
極めて低いビットレートにおいて、送信すべきチャネルの数は1つに限定される必要があり、したがって、Bフォーマットのオムニ指向性マイクロフォン信号Wしか送信されない。ビットレートが許容する場合、トランスポートチャネルの数はBフォーマット成分のサブセットを選択することによって増やすことができる。代替として、Bフォーマット信号は結合されて空間の特定の区分にステアリングされたビームフォーマー160になり得る。一例として、反対方向を、たとえば、空間シーンの左および右を指すために、2つのカージオイドが設計され得る。
Figure 2020536286
これらの2つのステレオチャネルLおよびRは、次いで、ジョイントステレオコーディングによって効率的にコーディングされ得る(170)。2つの信号は、次いで、サウンドシーンをレンダリングするために、デコーダ側におけるDirAC合成によって適切に活用される。他のビームフォーミングが想定されてよく、たとえば、仮想的なカージオイドマイクロフォンが、所与の方位θおよび高度φの任意の方向に向かって指し示されてよい。
Figure 2020536286
単一のモノラル送信チャネルが搬送することになるよりも多くの空間情報を搬送する、送信チャネルを形成するさらなる方法が想定されてよい。代替として、Bフォーマットの4つの係数が直接送信され得る。その場合、DirACメタデータは、空間メタデータに対する余分な情報を送信する必要なくデコーダ側において直接抽出され得る。
図12は、異なる入力フォーマットを結合するための別の代替方法を示す。図12はまた、DirACベースのエンコーダ/デコーダが音圧/速度領域において結合する、システム概要である。
マルチチャネル信号とアンビソニックス成分の両方が、DirAC分析123、124に入力される。入力フォーマットごとに、Bフォーマット成分wi(n)、xi(n)、yi(n)、zi(n)の時間周波数分析ならびに音圧および速度ベクトルの決定からなる、DirAC分析が実行される。
Pi(n,k)=Wi(k,n)
Ui(n,k)=Xi(k,n)ex+Yi(k,n)ey+Zi(k,n)ez
ただし、iは入力のインデックスであり、kおよびnは時間周波数タイルの時間インデックスおよび周波数インデックスであり、ex、ey、ezは直交単位ベクトルを表す。
P(n,k)およびU(n,k)は、DirACパラメータ、すなわち、DOAおよび拡散性を算出するために必要である。DirACメタデータ結合器は、一緒に再生するN個の音源が、それらが単独で再生されるときに測定されることになるそれらの音圧および粒子速度の線形結合をもたらすことを活用することができる。結合された数量は、次いで、
Figure 2020536286
によって導出される。結合された強度ベクトルの算出を通じて、結合されたDirACパラメータが算出される(143)。
Figure 2020536286
ただし、
Figure 2020536286
は、複素共役を示す。結合された音場の拡散性は、
Figure 2020536286
によって与えられ、ただし、Ε{.}は時間平均化演算子を示し、cは音速を示し、E(k,n)は、
Figure 2020536286
によって与えられる音場エネルギーを示す。到来方向(DOA)は、
Figure 2020536286
として定義される単位ベクトルeDOA(k,n)を用いて表現される。オーディオオブジェクトが入力される場合、DirACパラメータはオブジェクトメタデータから直接抽出され得るが、音圧ベクトルPi(k,n)はオブジェクト本質(波形)信号である。より正確には、方向は、空間の中のオブジェクト位置から簡単に導出され、拡散性は、オブジェクトメタデータの中で直接与えられるか、または利用可能でない場合、デフォルトでは0に設定され得る。DirACパラメータから、音圧および速度ベクトルが、
Figure 2020536286
によって直接与えられる。オブジェクトの結合、または異なる入力フォーマットとのオブジェクトの結合が、次いで、前に説明したように音圧および速度ベクトルを総計することによって取得される。
要約すれば、異なる入力寄与物(アンビソニックス、チャネル、オブジェクト)の結合は、音圧/速度領域において実行され、その結果が、次いで、後で方向/拡散性DirACパラメータに変換される。音圧/速度領域において動作することは、Bフォーマットにおいて動作することと理論的に均等である。前の代替と比較したこの代替の主な利点とは、サラウンドフォーマット5.1に対して[3]において提案されるように、各入力フォーマットに従ってDirAC分析を最適化する可能性である。
結合されたBフォーマットまたは音圧/速度領域におけるそのような融合の主な欠点は、処理チェーンのフロントエンドにおいて生じる変換が、コーディングシステム全体にとってすでにボトルネックであるということである。確かに、より高次のアンビソニックス、オブジェクト、またはチャネルから、(1次の)Bフォーマット信号にオーディオ表現を変換することは、後で復元できない、空間解像度の大きい損失をすでに生じる。
第2の符号化代替:DirAC領域における結合および処理
すべての入力フォーマットを結合されたBフォーマット信号に変換することの限定を回避するために、本代替は、元のフォーマットからDirACパラメータを直接導出し、次いで、後でそれらをDirACパラメータ領域において結合することを提案する。そのようなシステムの一般的な概要が図13において与えられる。図13は、DirACベースのエンコーダ/デコーダが、デコーダ側におけるオブジェクト操作の可能性とともにDirAC領域において異なる入力フォーマットを結合する、システム概要である。
以下では、我々はまた、コーディングシステムのためのオーディオオブジェクト入力として、マルチチャネル信号の個々のチャネルを考慮することができる。オブジェクトメタデータは、そのとき、経時的に静的であり、ラウドスピーカー位置、および聞き手の位置に関係する距離を表す。
この代替解決策の目標は、結合されたBフォーマットまたは均等な表現への、異なる入力フォーマットの系統的な結合を回避することである。その狙いは、DirACパラメータを算出してからそれらを結合することである。方法は、そのとき、方向および拡散性推定において、結合に起因するいかなるバイアスも回避する。その上、そのことは、DirAC分析の間、またはDirACパラメータを決定する間、各オーディオ表現の特性を最適に活用することができる。
DirACメタデータの結合は、DirACパラメータ、拡散性、方向、ならびに送信されるトランスポートチャネルの中に含まれる音圧を入力フォーマットごとに決定した(125、126、126a)後に行われる。DirAC分析は、前に説明したように、入力フォーマットを変換することによって取得される中間Bフォーマットからパラメータを推定することができる。代替として、DirACパラメータは、Bフォーマットを通過することなく、ただし入力フォーマットから直接、有利に推定されてよく、そのことは、推定確度をさらに改善することがある。たとえば、[7]において、より高次のアンビソニックスから拡散性を直接推定することが提案される。オーディオオブジェクトの場合には、図15の中の単純なメタデータ変換器150が、オブジェクトごとに方向および拡散性をオブジェクトメタデータから抽出することができる。
単一の結合されたDirACメタデータストリームへのいくつかのDirACメタデータストリームの結合(144)は、[4]において提案されるように達成され得る。いくつかのコンテンツの場合、DirAC分析を実行する前、それを結合されたBフォーマットに最初に変換するのではなく、元のフォーマットからDirACパラメータを直接推定するほうが、はるかに良好である。確かに、Bフォーマットに進むとき[3]、または異なる音源を結合するとき、パラメータ、方向、および拡散性はバイアスされることがある。その上、この代替はaを許容する
より単純な別の代替法は、異なる音源のエネルギーに従ってそれらを重み付けることによって、そうした音源のパラメータを平均化することができる。
Figure 2020536286
オブジェクトごとに、やはりそれら自体の方向、および随意に距離、拡散性、または任意の他の関連するオブジェクト属性をエンコーダからデコーダへの送信ビットストリームの一部として送る可能性がある(たとえば、図4a、図4b参照)。この余分な副次情報は、結合されたDirACメタデータを豊かにし、デコーダが別々にオブジェクトを元に戻すことおよび/または操作することを可能にする。オブジェクトが、すべての周波数帯域全体にわたって単一の方向を有し、かつ静的であるかまたはゆっくり移動するかのいずれかと見なされ得るので、余分な情報は、他のDirACパラメータよりも低い頻度で更新されればよく、極めて低い追加のビットレートしか生じない。
デコーダ側において、オブジェクトを操作するために[5]において教示されるように、指向性フィルタ処理が実行され得る。指向性フィルタ処理は、短時間のスペクトル減衰技法に基づく。それは、0位相利得関数によってスペクトル領域において実行され、オブジェクトの方向に依存する。オブジェクトの方向が副次情報として送信された場合、方向はビットストリームの中に含まれ得る。そうでない場合、方向はまた、ユーザによって対話式に与えられ得る。
第3の代替:デコーダ側における結合
代替として、結合はデコーダ側において実行され得る。図14は、DirACベースのエンコーダ/デコーダが、DirACメタデータ結合器を通じてデコーダ側において異なる入力フォーマットを結合する、システム概要である。図14において、DirACベースコーディング方式は、前よりも高いビットレートで機能するが、個々のDirACメタデータの送信を可能にする。異なるDirACメタデータストリームが、DirAC合成220、240の前にデコーダの中で、たとえば、[4]において提案されたように結合される(144)。DirACメタデータ結合器144はまた、DirAC分析の際に、オブジェクトの後続の操作のために個々のオブジェクトの位置を取得することができる。
図15は、DirACベースのエンコーダ/デコーダが、DirAC合成の際にデコーダ側において異なる入力フォーマットを結合する、システム概要である。ビットレートが許容する場合、システムは、それ自体のダウンミックス信号をその関連するDirACメタデータと一緒に入力成分(FOA/HOA、MC、オブジェクト)ごとに送ることによって、図15において提案されるようにさらに拡張され得る。やはり、複雑度を低減するために、異なるDirACストリームがデコーダにおいて共通のDirAC合成220、240を共有する。
図2aは、さらに本発明の第2の態様による、複数のオーディオシーンの合成を実行するための概念を示す。図2aに示す装置は、第1のシーンの第1のDirAC記述を受信するための、かつ第2のシーンの第2のDirAC記述、および1つまたは複数のトランスポートチャネルを受信するための、入力インターフェース100を備える。
さらに、複数のオーディオシーンを表すスペクトル領域オーディオ信号を取得するために、複数のオーディオシーンをスペクトル領域において合成するためのDirAC合成器220が設けられる。さらに、たとえば、スピーカーによって出力され得る時間領域オーディオ信号を出力するために、スペクトル領域オーディオ信号を時間領域に変換するスペクトル時間変換器240が設けられる。この場合、DirAC合成器は、ラウドスピーカー出力信号のレンダリングを実行するように構成される。代替として、オーディオ信号は、ヘッドフォンに出力され得るステレオ信号であり得る。再び、代替として、スペクトル時間変換器240によって出力されるオーディオ信号は、Bフォーマット音場記述であり得る。これらのすべての信号、すなわち、3つ以上のチャネルのためのラウドスピーカー信号、ヘッドフォン信号、または音場記述は、スピーカーもしくはヘッドフォンによって出力することなどのさらなる処理のための、または1次アンビソニックス信号もしくはより高次のアンビソニックス信号などの音場記述の場合には送信もしくは記憶のための、時間領域信号である。
さらに、図2aのデバイスは、追加として、スペクトル領域においてDirAC合成器220を制御するためのユーザインターフェース260を備える。追加として、この場合、到来方向情報および随意に追加として拡散性情報を時間/周波数タイルごとに提供するパラメトリック記述である第1および第2のDirAC記述と一緒に使用されるべき入力インターフェース100に、1つまたは複数のトランスポートチャネルが提供され得る。
通常、図2aの中のインターフェース100の中に入力される2つの異なるDirAC記述は、2つの異なるオーディオシーンを記述する。この場合、DirAC合成器220は、これらのオーディオシーンの結合を実行するように構成される。結合の1つの代替が図2bに示される。ここで、シーン結合器221は、2つのDirAC記述をパラメトリック領域において結合するように構成され、すなわち、ブロック221の出力において、結合された到来方向(DoA)パラメータおよび随意に拡散性パラメータを取得するように、パラメータが結合される。このデータは、次いで、スペクトル領域オーディオ信号を取得するために、追加として1つまたは複数のトランスポートチャネルを受信する、DirACレンダラ222の中に導入される。DirACパラメトリックデータの結合は、好ましくは、図1dに示すように、かつこの図に関して、かつ詳細には第1の代替に関して説明するように実行される。
シーン結合器221の中に入力される2つの記述のうちの少なくとも1つが、0という拡散性値を含むかまたは拡散性値をまったく含まないのであれば、追加として、第2の代替が適用され得るとともに図1dのコンテキストにおいて説明され得る。
別の代替が図2cに示される。この手順では、個々のDirAC記述は、第1の記述用の第1のDirACレンダラ223および第2の記述用の第2のDirACレンダラ224によってレンダリングされ、ブロック223および224の出力において、第1および第2のスペクトル領域オーディオ信号が利用可能であり、結合器225の出力においてスペクトル領域結合信号を取得するために、これらの第1および第2のスペクトル領域オーディオ信号が結合器225内で結合される。
例示的には、第1のDirACレンダラ223および第2のDirACレンダラ224は、左チャネルLおよび右チャネルRを有するステレオ信号を生成するように構成される。次いで、結合器225は、結合された左チャネルを取得するために、ブロック223からの左チャネルとブロック224からの左チャネルとを結合するように構成される。追加として、ブロック223からの右チャネルがブロック224からの右チャネルと加算され、その結果は、ブロック225の出力における結合された右チャネルである。
マルチチャネル信号の個々のチャネルに対して、類似の手順が実行され、すなわち、DirACレンダラ223からの常に同じチャネルが他のDirACレンダラの対応する同じチャネルに加算されるなどのように、個々のチャネルが個別に加算される。たとえば、Bフォーマットまたはより高次のアンビソニックス信号に対しても、同じ手順が実行される。たとえば、第1のDirACレンダラ223が信号W、X、Y、Z信号を出力し、かつ第2のDirACレンダラ224が類似のフォーマットを出力するとき、結合器は、結合されたオムニ指向性信号Wを取得するために2つのオムニ指向性信号を結合し、X、Y、およびZの結合された成分を最後に取得するために、対応する成分に対しても同じ手順が実行される。
さらに、図2aに関してすでに概説したように、入力インターフェースは、オーディオオブジェクトに対する余分なオーディオオブジェクトメタデータを受信するように構成される。このオーディオオブジェクトは、すでに第1もしくは第2のDirAC記述の中に含まれてよく、または第1および第2のDirAC記述とは別個である。この場合、DirAC合成器220は、たとえば、余分なオーディオオブジェクトメタデータに基づいて、またはユーザインターフェース260から取得された、ユーザが与える方向情報に基づいて、指向性フィルタ処理を実行するために、余分なオーディオオブジェクトメタデータ、またはこの余分なオーディオオブジェクトメタデータに関係するオブジェクトデータを、選択的に操作するように構成される。代替または追加として、かつ図2dに示すように、DirAC合成器220は、0位相利得関数をスペクトル領域において実行するために構成され、0位相利得関数はオーディオオブジェクトの方向に依存し、オブジェクトの方向が副次情報として送信される場合、方向はビットストリームの中に含まれ、または方向はユーザインターフェース260から受信される。図2aにおける随意の機能としてインターフェース100の中に入力される余分なオーディオオブジェクトメタデータは、エンコーダからデコーダへの送信ビットストリームの一部として、それ自体の方向、ならびに随意に距離、拡散性、および任意の他の関連するオブジェクト属性を、個々のオブジェクトごとに依然として送る可能性を反映する。したがって、余分なオーディオオブジェクトメタデータは、第1のDirAC記述の中もしくは第2のDirAC記述の中にすでに含まれるオブジェクトに関係することがあるか、またはすでに第1のDirAC記述の中および第2のDirAC記述の中に含まれない追加のオブジェクトである。
しかしながら、すでにDirACスタイルをなす、余分なオーディオオブジェクトメタデータ、すなわち、到来方向情報および随意に拡散性情報を有することが好ましいが、典型的なオーディオオブジェクトは、0の拡散、すなわち、すべての周波数帯域にわたって一定であるとともに、フレームレートに関して、静的であるかまたはゆっくり移動するかのいずれかである、集結された特定の到来方向をもたらす、それらの実際の位置に集結された拡散を有する。したがって、そのようなオブジェクトが、すべての周波数帯域全体にわたって単一の方向を有し、かつ静的であるかまたはゆっくり移動するかのいずれかと見なされ得るので、余分な情報は、他のDirACパラメータよりも低い頻度で更新されればよく、したがって、極めて低い追加のビットレートしか招かない。例示的には、第1および第2のDirAC記述は、スペクトル帯域ごとかつフレームごとにDoAデータおよび拡散性データを有するが、余分なオーディオオブジェクトメタデータは、すべての周波数帯域に対して単一のDoAデータしか必要とせず、2フレームごと、もしくは好ましくは3フレームごと、4フレームごと、5フレームごと、または好適な実施形態ではさらに10フレームごとにしか、このデータを必要としない。
さらに、通常はエンコーダ/デコーダシステムのデコーダ側におけるデコーダ内に含まれる、DirAC合成器220の中で実行される指向性フィルタ処理に関して、DirAC合成器は、図2bの代替では、シーン結合の前にパラメータ領域内で指向性フィルタ処理を実行することができ、またはシーン結合に続いて再び指向性フィルタ処理を実行することができる。ただし、この場合、指向性フィルタ処理は、個々の記述ではなく結合されたシーンに適用される。
さらに、オーディオオブジェクトが、第1または第2の記述の中に含まれないが、それ自体のオーディオオブジェクトメタデータによって含まれる場合には、選択的操作器によって図示したような指向性フィルタ処理は、第1もしくは第2のDirAC記述、または結合されたDirAC記述に影響を及ぼすことなく、それに対して余分なオーディオオブジェクトメタデータが存在する余分なオーディオオブジェクトのみに、選択的に適用され得る。オーディオオブジェクト自体に対して、オブジェクト波形信号を表す別個のトランスポートチャネルが存在するか、またはオブジェクト波形信号が、ダウンミックスされたトランスポートチャネルの中に含まれるかのいずれかである。
たとえば、図2bに示す選択的操作は、たとえば、特定の到来方向が、副次情報としてビットストリームの中に含まれるか、またはユーザインターフェースから受信される、図2dにおいて導入されたオーディオオブジェクトの方向によって与えられるような方法で進んでよい。次いで、ユーザが与える方向または制御情報に基づいて、ユーザは、たとえば、特定の方向から、オーディオデータが強化されるべきであるかまたは減衰されるべきであることをはっきりさせてよい。したがって、検討中のオブジェクトに対するオブジェクト(メタデータ)は、増幅または減衰される。
オブジェクトデータとしての実際の波形データが、図2dの中の左から選択的操作器226の中に導入される場合には、オーディオデータは、制御情報に応じて実際に減衰または強化されることになる。しかしながら、オブジェクトデータが、到来方向および随意に拡散性または距離に加えて、さらなるエネルギー情報を有する場合には、オブジェクトに対するエネルギー情報は、オブジェクトに対して減衰が必要とされる場合には低減されることになり、またはエネルギー情報は、オブジェクトデータの増幅が必要とされる場合には増大されることになる。
したがって、指向性フィルタ処理は、短時間のスペクトル減衰技法に基づいており、オブジェクトの方向に依存する0位相利得関数によってスペクトル領域において実行される。オブジェクトの方向が副次情報として送信された場合、方向はビットストリームの中に含まれ得る。そうでない場合、方向はユーザによって対話式に与えることもできる。当然、通常はすべての周波数帯域に対するDoAデータおよびフレームレートに対して低い更新レートを有するDoAデータによって提供され、かつオブジェクトに対するエネルギー情報によっても与えられる、余分なオーディオオブジェクトメタデータによって与えられるとともに反映される個々のオブジェクトに、同じ手順が適用され得るだけでなく、指向性フィルタ処理は、第2のDirAC記述から独立した第1のDirAC記述にも、もしくはその逆にも適用されてよく、または結合されたDirAC記述にも場合によっては適用されてよい。
さらに、余分なオーディオオブジェクトデータに関する機能がまた、図1a〜図1fに関して示す本発明の第1の態様において適用され得ることに留意されたい。そのとき、図1aの入力インターフェース100は、追加として、図2aに関して説明したように余分なオーディオオブジェクトデータを受信し、フォーマット結合器は、ユーザインターフェース260によって制御されるスペクトル領域におけるDirAC合成器220として実装され得る。
さらに、入力インターフェースが、すでに2つのDirAC記述、すなわち、同じフォーマットをなしている音場の記述を受信するという点で、図2に示すような本発明の第2の態様は第1の態様とは異なり、したがって、第2の態様の場合、第1の態様のフォーマット変換器120は必ずしも必要とされるとは限らない。
一方、図1aのフォーマット結合器140の中への入力が2つのDirAC記述からなるとき、フォーマット結合器140は、図2aに示す第2の態様に関して説明したように実装され得るか、または代替として、図2aのデバイス220、240は、第1の態様の図1aのフォーマット結合器140に関して説明したように実装され得る。
図3aは、オーディオオブジェクトメタデータを有するオーディオオブジェクトのオブジェクト記述を受信するための入力インターフェース100を備える、オーディオデータ変換器を示す。さらに、オーディオオブジェクトメタデータをDirACメタデータに変換するための、本発明の第1の態様に関して説明したメタデータ変換器125、126にも相当するメタデータ変換器150が、入力インターフェース100に後続する。図3aのオーディオ変換器の出力部は、DirACメタデータを送信または記憶するための出力インターフェース300によって構成される。入力インターフェース100は、追加として、インターフェース100の中に入力される、第2の矢印によって図示したような波形信号を受信し得る。さらに、出力インターフェース300は、通常は波形信号の符号化表現を、ブロック300によって出力される出力信号の中に導入するように実装され得る。オーディオデータ変換器が、メタデータを含む単一のオブジェクト記述しか変換しないように構成される場合、出力インターフェース300はまた、この単一のオーディオオブジェクトのDirAC記述を、通常はDirACトランスポートチャネルとしての符号化された波形信号と一緒に提供する。
詳細には、オーディオオブジェクトメタデータはオブジェクト位置を有し、DirACメタデータはオブジェクト位置から導出された基準位置に対する到来方向を有する。詳細には、たとえば、ブロック302、304、306からなる図3cのフローチャートによって図示したように、メタデータ変換器150、125、126は、オブジェクトデータフォーマットから導出されたDirACパラメータを音圧/速度データに変換するように構成され、メタデータ変換器は、この音圧/速度データにDirAC分析を適用するように構成される。この目的のために、ブロック306によって出力されるDirACパラメータは、ブロック302によって取得されたオブジェクトメタデータから導出されるDirACパラメータよりも良好な品質を有し、すなわち、強化されたDirACパラメータである。図3bは、特定のオブジェクトにとっての基準位置に対する到来方向への、オブジェクトにとっての位置の変換を示す。
図3fは、メタデータ変換器150の機能を説明するための概略図を示す。メタデータ変換器150は、座標系の中でベクトルPによって示されるオブジェクトの位置を受信する。さらに、DirACメタデータが関連すべき基準位置は、同じ座標系の中のベクトルRによって与えられる。したがって、到来方向ベクトルDoAは、ベクトルRの先端からベクトルBの先端まで延びる。したがって、実際のDoAベクトルは、オブジェクト位置Pベクトルから基準位置Rベクトルを減算することによって取得される。
正規化されたDoA情報をベクトルDoAによって示すために、ベクトル差分がベクトルDoAの大きさ、すなわち、長さで除算される。さらに、このことが必要であり意図されるなら、DoAベクトルの長さはまた、メタデータ変換器150によって生成されるメタデータの中に含めることができ、その結果、追加として、基準点からのオブジェクトの距離も、このオブジェクトの選択的操作も基準位置からのオブジェクトの距離に基づいて実行され得るようにメタデータの中に含められる。詳細には、図1fの方向抽出ブロック148も、図3fに関して説明したように動作し得るが、DoA情報および随意に距離情報を計算するための他の代替も適用され得る。さらに、すでに図3aに関して説明したように、図1cまたは図1dに示すブロック125および126は、図3fに関して説明した方法と類似の方法で動作し得る。
さらに、図3aのデバイスは、複数のオーディオオブジェクト記述を受信するように構成されてよく、メタデータ変換器は、各メタデータ記述を直接DirAC記述に変換するように構成され、次いで、メタデータ変換器は、結合されたDirAC記述を図3aに示すDirACメタデータとして取得するために、個々のDirACメタデータ記述を結合するように構成される。一実施形態では、結合は、第1のエネルギーを使用して第1の到来方向用の重み付け係数を計算することによって(320)、かつ第2のエネルギーを使用して第2の到来方向用の重み付け係数を計算することによって(322)実行され、ここで、到来方向は、同じ時間/周波数ビンに関係するブロック320、332によって処理される。次いで、ブロック324において、重み付き加算が、同様に図1dの中のアイテム144に関して説明したように実行される。したがって、図3aに示す手順は、第1の代替の図1dの一実施形態を表す。
しかしながら、第2の代替に関して、手順は、すべての拡散性が0にまたは小さい値に設定されること、時間/周波数ビンに対して、この時間/周波数ビンに対して与えられるすべての異なる到来方向値が考慮されること、および最も大きい到来方向値が、この時間/周波数ビンに対する結合された到来方向値となるように選択されることであることになる。他の実施形態では、これらの2つの到来方向値に対するエネルギー情報がさほど違っていないという条件で、2番目に大きい値を選択することもできる。そのエネルギーがこの時間周波数ビンに対する異なる寄与物からのエネルギーの間の最大エネルギーまたは2番目もしくは3番目に大きいエネルギーのいずれかである到来方向値が、選択される。
したがって、第3の態様がDirACメタデータへの単一のオブジェクト記述の変換にとっても有用であるという点で、図3a〜図3fに関して説明したような第3の態様は第1の態様とは異なる。代替として、入力インターフェース100は、同じオブジェクト/メタデータフォーマットをなしている、いくつかのオブジェクト記述を受信し得る。したがって、図1aにおける第1の態様に関して説明したようないかなるフォーマット変換器も必要とされない。したがって、フォーマット結合器140の中への入力としての第1のシーン記述および第2の記述として、異なるオブジェクト波形信号および異なるオブジェクトメタデータを使用する、2つの異なるオブジェクト記述を受信するコンテキストにおいて、図3aの実施形態は有用であり得、メタデータ変換器150、125、126、または148の出力は、DirACメタデータを伴うDirAC表現であってよく、したがって、図1のDirAC分析器180も必要とされない。しかしながら、図3aのダウンミキサ163に対応する、トランスポートチャネル生成器160に関する他の要素は、第3の態様のコンテキストにおいて、ならびにトランスポートチャネルエンコーダ170、メタデータエンコーダ190の中で使用されてよく、このコンテキストでは、図3aの出力インターフェース300は図1aの出力インターフェース200に相当する。したがって、第1の態様に関して与えられる対応するすべての記述はまた、同様に第3の態様に適用される。
図4a、図4bは、オーディオデータの合成を実行するための装置のコンテキストにおける本発明の第4の態様を示す。詳細には、装置は、DirACメタデータを有するオーディオシーンのDirAC記述を受信するための、かつ追加として、オブジェクトメタデータを有するオブジェクト信号を受信するための、入力インターフェース100を有する。図4bに示すこのオーディオシーンエンコーダは、追加として、一方ではDirACメタデータを、かつ他方ではオブジェクトメタデータを備える、結合されたメタデータ記述を生成するためのメタデータ生成器400を備える。DirACメタデータは、個々の時間/周波数タイルに対する到来方向を備え、オブジェクトメタデータは、個々のオブジェクトの方向、または追加として距離もしくは拡散性を備える。
詳細には、入力インターフェース100は、追加として、図4bに示すようなオーディオシーンのDirAC記述に関連するトランスポート信号を受信するように構成され、入力インターフェースは、追加として、オブジェクト信号に関連するオブジェクト波形信号を受信するために構成される。したがって、シーンエンコーダは、トランスポート信号およびオブジェクト波形信号を符号化するためのトランスポート信号エンコーダをさらに備え、トランスポートエンコーダ170は、図1aのエンコーダ170に相当し得る。
詳細には、結合されたメタデータを生成するメタデータ生成器400は、第1の態様、第2の態様、または第3の態様に関して説明したように構成され得る。そして、好適な実施形態では、メタデータ生成器400は、オブジェクトメタデータに対して、時間ごとの、すなわち、特定の時間フレームに対する、単一の広帯域方向を生成するように構成され、メタデータ生成器は、時間ごとの単一の広帯域方向を、DirACメタデータよりも低い頻度でリフレッシュするように構成される。
図4bに関して説明する手順は、全DirAC記述に対するメタデータを有するとともに追加のオーディオオブジェクトに対するメタデータを合わせて有するがDirACフォーマットをなしている、結合されたメタデータを有することを可能にし、その結果、極めて有用なDirACレンダリングが選択的指向性フィルタ処理によって同時に実行され得るか、または第2の態様に関してすでに説明したような修正が実行され得る。
したがって、本発明の第4の態様、および詳細にはメタデータ生成器400は、共通フォーマットがDirACフォーマットである特定のフォーマット変換器を表し、入力は、図1aに関して説明した第1のフォーマットでの第1のシーンに対するDirAC記述であり、第2のシーンは、SAOCオブジェクト信号などの単一のまたは結合されたシーンである。したがって、フォーマット変換器120の出力はメタデータ生成器400の出力を表すが、たとえば、図1dに関して説明したような、2つの代替のうちの1つによるメタデータの実際の特定の結合とは対照的に、オブジェクトメタデータは、オブジェクトデータに対する選択的修正を可能にするために、出力信号、すなわち、DirAC記述に対するメタデータとは別個の「結合されたメタデータ」の中に含まれる。
したがって、図4aの右側におけるアイテム2において示される「方向/距離/拡散性」は、図2aの入力インターフェース100の中に入力されるが図4aの実施形態では単一のDirAC記述のみに対する、余分なオーディオオブジェクトメタデータに相当する。したがって、ある意味では、図2aのデバイスのデコーダ側が、単一のDirAC記述、および「余分なオーディオオブジェクトメタデータ」と同じビットストリーム内の、メタデータ生成器400によって生成されたオブジェクトメタデータしか受信しないという取り決めを伴って、図2aは、図4a、図4bに示すエンコーダのデコーダ側実装形態を表すと言うことができる。
したがって、符号化トランスポート信号が、DirACトランスポートストリームとは別個のオブジェクト波形信号の別個の表現を有するとき、余分なオブジェクトデータの完全に異なる修正が実行され得る。そして、しかしながら、トランスポートエンコーダ170は、両方のデータ、すなわち、DirAC記述に対するトランスポートチャネルおよびオブジェクトからの波形信号をダウンミックスし、そのとき、分離はさほど完全でないが、追加のオブジェクトエネルギー情報によって、結合されたダウンミックスチャネルからの分離、およびDirAC記述に対するオブジェクトの選択的修正さえ利用可能である。
図5a〜図5dは、オーディオデータの合成を実行するための装置のコンテキストにおける本発明のさらなる第5の態様を表す。この目的で、1つもしくは複数のオーディオオブジェクトのDirAC記述、ならびに/またはマルチチャネル信号のDirAC記述、ならびに/または1次アンビソニックス信号および/もしくはより高次のアンビソニックス信号のDirAC記述を受信するために、入力インターフェース100が設けられ、DirAC記述は、1つもしくは複数のオブジェクトの位置情報、または1次アンビソニックス信号もしくは高次アンビソニックス信号に対する副次情報、または副次情報としての、もしくはユーザインターフェースからの、マルチチャネル信号に対する位置情報を備える。
詳細には、操作器500は、操作されたDirAC記述を取得するために、1つもしくは複数のオーディオオブジェクトのDirAC記述、マルチチャネル信号のDirAC記述、1次アンビソニックス信号のDirAC記述、または高次アンビソニックス信号のDirAC記述を操作するために構成される。この操作されたDirAC記述を合成するために、DirAC合成器220、240は、合成されたオーディオデータを取得するために、この操作されたDirAC記述を合成するために構成される。
好適な実施形態では、DirAC合成器220、240は、図5bに示すようなDirACレンダラ222、およびその後に接続され、操作された時間領域信号を出力する、スペクトル時間変換器240を備える。詳細には、操作器500は、DirACレンダリングの前に位置依存の重み付け演算を実行するように構成される。
詳細には、DirAC合成器が、1次アンビソニックス信号もしくは高次アンビソニックス信号またはマルチチャネル信号の複数のオブジェクトを出力するように構成されるとき、DirAC合成器は、1次もしくは高次のアンビソニックス信号の各オブジェクトもしくは各成分に対して、または図5dの中でブロック506、508において示すようなマルチチャネル信号の各チャネルに対して、別個のスペクトル時間変換器を使用するように構成される。ブロック510において概説したように、次いで、すべての信号が共通フォーマットをなす、すなわち、互換性のあるフォーマットをなすという条件で、対応する別個の変換の出力が互いに加算される。
したがって、図5aの入力インターフェース100が、2つ以上の、すなわち、2つまたは3つの表現を受信する場合には、各表現は、図2bまたは図2cに関してすでに説明したようなパラメータ領域において、ブロック502において図示したように別々に操作されてよく、次いで、ブロック504において概説したように、操作された各記述に対して合成が実行されてよく、合成は、次いで、図5dの中でブロック510に関して説明するように時間領域において加算されてよい。代替として、スペクトル領域における個々のDirAC合成手順の結果は、スペクトル領域においてすでに加算されてよく、次いで、単一の時間領域変換も使用されてよい。詳細には、操作器500は、図2dに関して説明した、または任意の他の態様に関して前に説明した、操作器として実装され得る。
したがって、極めて異なる音信号の個々のDirAC記述が入力されるとき、かつ個々の記述の特定の操作が、図5aのブロック500に関して説明したように実行されるとき、操作器500の中への入力が、単一のフォーマットしか含まない任意のフォーマットのDirAC記述であってよいが、第2の態様が、少なくとも2つの異なるDirAC記述の受信に専念していたということ、または第4の態様が、たとえば、一方ではDirAC記述および他方ではオブジェクト信号記述の受信に関係したということに関して、本発明の第5の態様は顕著な特徴をもたらす。
以後、図6が参照される。図6は、DirAC合成器とは異なる合成を実行するための別の実装形態を示す。たとえば、音場分析器が、別個のモノ信号Sおよび元の到来方向を、音源信号ごとに生成するとき、かつ新たな到来方向が並進情報に応じて計算されるとき、図6のアンビソニックス信号生成器430は、たとえば、サウンド音源信号、すなわち、ただし水平角θすなわち仰角θおよび方位角φからなる新たな到来方向(DoA)データに対するモノ信号Sに対する、音場記述を生成するために使用されることになる。そのとき、図6の音場計算器420によって実行される手順は、たとえば、新たな到来方向を有するサウンド音源ごとに、1次アンビソニックス音場表現を生成することになり、次いで、サウンド音源ごとのさらなる修正が、新たな基準ロケーションまでの音場の距離に応じたスケーリング係数を使用して実行されてよく、次いで、個々の音源からのすべての音場が互いに重畳されて、たとえば、特定の新たな基準ロケーションに関係するアンビソニックス表現での、修正済みの音場が最後にもう一度取得されてよい。
DirAC分析器422によって処理される各時間/周波数ビンが特定の(帯域幅限定の)サウンド音源を表すことを解釈すると、図6の「モノ信号S」のようなこの時間/周波数ビンに対するダウンミックス信号もしくは音圧信号またはオムニ指向性成分を使用して、完全なアンビソニックス表現を時間/周波数ビンごとに生成するために、DirAC合成器425ではなくアンビソニックス信号生成器430が使用されてよい。このとき、W、X、Y、Z成分の各々に対する、周波数時間変換器426における個々の周波数時間変換が、次いで、図6に示すものとは異なる音場記述をもたらすことになる。
以後、DirAC分析およびDirAC合成に関するさらなる説明が、当技術分野で知られているように与えられる。図7aは、たとえば、2009年のIWPASHからの参考文献「Directional Audio Coding」の中で、最初に開示されたようなDirAC分析器を示す。DirAC分析器は、帯域フィルタのバンク1310、エネルギー分析器1320、強度分析器1330、時間平均化ブロック1340、ならびに拡散性計算器1350および方向計算器1360を備える。DirACでは、分析と合成の両方が周波数領域において実行される。各々が異なる特性内で、音を周波数帯域に分割するためのいくつかの方法がある。最も一般的に使用される周波数変換は、短時間フーリエ変換(STFT:short time Fourier transform)、および直交ミラーフィルタバンク(QMF:Quadrature mirror filter bank)を含む。これらに加えて、任意の特定の目的に最適化されている任意のフィルタを有するフィルタバンクは、まったく自由に設計できる。指向性分析のターゲットとは、音が1つまたは複数の方向から同時に到来しているのかどうかという推定と一緒に、音の到来方向を各周波数帯域において推定することである。原理上は、このことはいくつかの技法を用いて実行され得るが、音場のエネルギー分析が適しているものと判明しており、それが図7aに示される。1次元、2次元、または3次元での音圧信号および速度信号が単一の位置からキャプチャされるとき、エネルギー分析が実行され得る。1次のBフォーマット信号では、オムニ指向性信号はW信号と呼ばれ、W信号は2の平方根だけスケールダウンされている。サウンド音圧は、
Figure 2020536286
として推定することができ、STFT領域において表現され得る。
X、Y、およびZチャネルは、ベクトルU=[X,Y,Z]を一緒に形成する、直交軸に沿って導かれるダイポールの指向性パターンを有する。そのベクトルは音場速度ベクトルを推定し、同様にSTFT領域において表現される。音場のエネルギーEが算出される。Bフォーマット信号をキャプチャすることは、指向性マイクロフォンの同時の測位を用いるか、またはオムニ指向性マイクロフォンの、間隔が密なセットを用いるかのいずれかで、取得され得る。いくつかの適用例では、マイクロフォン信号は計算領域において形成されてよく、すなわち、シミュレートされてよい。音の方向は、強度ベクトルIの反対方向となるように規定される。方向は、送信されるメタデータの中で、対応する方位角値および仰角値として示される。音場の拡散性も、強度ベクトルおよびエネルギーの期待値演算子を使用して算出される。この式の結果は、音エネルギーが単一の方向から到来しているのか(拡散性が0である)それともすべての方向から到来しているのか(拡散性が1である)を特徴づける、0と1との間の実数値の数である。この手順は、完全な3Dまたはより低次元の速度情報が利用可能である場合に適切である。
図7bは、この場合も、帯域フィルタのバンク1370、仮想マイクロフォンブロック1400、直接/拡散合成器ブロック1450、および特定のラウドスピーカー設定または仮想的な所期のラウドスピーカー設定1460を有する、DirAC合成を示す。追加として、他のチャネル用の、拡散性利得変換器1380、ベクトルベース振幅パンニング(VBAP:vector based amplitude panning)利得テーブルブロック1390、マイクロフォン補償ブロック1420、ラウドスピーカー利得平均化ブロック1430、および分配器1440が使用される。ラウドスピーカーを用いたこのDirAC合成では、図7bに示すDirAC合成の高品質バージョンはすべてのBフォーマット信号を受信し、それに対して仮想マイクロフォン信号が、ラウドスピーカー設定1460のラウドスピーカー方向ごとに算出される。利用される指向性パターンは、通常はダイポールである。仮想マイクロフォン信号は、次いで、メタデータに応じて非線形に修正される。DirACの低ビットレートバージョンは図7bに示さないが、この状況では、図6に示すようにオーディオの1チャネルだけが送信される。処理における差異は、すべての仮想マイクロフォン信号が、受信されるオーディオの単一のチャネルによって置き換えられることになるということである。仮想マイクロフォン信号は、2つのストリーム、すなわち、拡散ストリームおよび非拡散ストリームに分割され、それらは別々に処理される。
非拡散音は、ベクトルベース振幅パンニング(VBAP)を使用することによって点音源として再現される。パンする際、モノラルサウンド信号は、ラウドスピーカー固有利得係数との乗算の後、ラウドスピーカーのサブセットに適用される。利得係数は、ラウドスピーカー設定の情報および指定されたパンニング方向を使用して算出される。低ビットレートバージョンでは、入力信号は、メタデータによって暗示される方向へ単にパンされる。高品質バージョンでは、各仮想マイクロフォン信号は対応する利得係数と乗算され、そのことはパンニングを用いると同じ効果を生み出すが、任意の非線形アーティファクトをさほど受けやすくはない。
多くの場合、指向性メタデータは、急激な時間的変化を受けやすい。アーティファクトを回避するために、VBAPを用いて算出されるラウドスピーカーに対する利得係数は、各帯域において約50サイクル期間に等しい、周波数依存の時定数を用いた時間積分によって平滑化される。このことはアーティファクトを効果的に除去するが、方向の変化は、多くの場合において平均化を用いないものよりもゆっくりであるとは知覚されない。拡散音の合成の狙いは、聞き手を囲む音の知覚を作成することである。低ビットレートバージョンでは、拡散ストリームは、入力信号を無相関化すること、およびすべてのラウドスピーカーからそれを再現することによって、再現される。高品質バージョンでは、拡散ストリームの仮想マイクロフォン信号は、いくらかの程度においてすでにインコヒーレントであり、それらは穏やかに無相関化されることしか必要とされない。この手法は、サラウンド反響および周囲音に対して、低ビットレートバージョンよりも良好な空間品質をもたらす。ヘッドフォンを伴うDirAC合成の場合、DirACは、非拡散ストリームに対して聞き手の周囲にある特定数の仮想ラウドスピーカーを、また拡散ストリーム用の特定数のラウドスピーカーを用いて、定式化される。仮想ラウドスピーカーは、測定された頭部伝達関数(HRTF:head-related transfer function)を用いた入力信号の畳み込みとして実装される。
以後、異なる態様に関する、また詳細には図1aに関して説明したような第1の態様のさらなる実装形態に関する、さらに一般的な関係が与えられる。概して、本発明は、異なるフォーマットでの異なるシーンの、共通フォーマットを使用する結合に言及し、ここで、共通フォーマットは、たとえば、図1aのアイテム120、140において説明したように、たとえば、Bフォーマット領域、音圧/速度領域、またはメタデータ領域であってよい。
結合がDirAC共通フォーマットで直接行われないとき、DirAC分析802は、図1aのアイテム180に関して前に説明したように、エンコーダにおける送信の前に1つの代替において実行される。
次いで、DirAC分析に続いて、エンコーダ170およびメタデータエンコーダ190に関して前に説明したように、その結果が符号化され、符号化された結果は、出力インターフェース200によって生成される符号化出力信号を介して送信される。しかしながら、さらなる代替では、その結果は、図1aのブロック160の出力および図1aのブロック180の出力がDirACレンダラに転送されると、図1aのデバイスによって直接レンダリングされ得る。したがって、図1aのデバイスは、特定のエンコーダデバイスではないことになり、分析器および対応するレンダラであることになる。
さらなる代替が図8の右分岐に示され、ここで、エンコーダからデコーダへの送信が実行され、ブロック804において図示したように、送信に続いて、すなわち、デコーダ側において、DirAC分析およびDirAC合成が実行される。この手順は、図1aの代替が使用されるときの、すなわち、符号化出力信号が空間メタデータを伴わないBフォーマット信号である場合であることになる。ブロック808に続いて、結果はリプレイのためにレンダリングすることができ、または代替として、結果は符号化され再び送信されることさえできる。したがって、異なる態様に関して規定および説明される本発明の手順が、極めてフレキシブルであり、特定の使用事例に極めて良好に適合され得ることが明白になる。
本発明の第1の態様:汎用DirACベース空間オーディオコーディング/レンダリング
マルチチャネル信号、アンビソニックスフォーマット、およびオーディオオブジェクトを、別々または同時に符号化できるDirACベース空間オーディオコーダ。
現況技術にまさる利益および利点
・関連するほとんどの没入型オーディオ入力フォーマットのための汎用DirACベース空間オーディオコーディング方式
・異なる出力フォーマットに対する異なる入力フォーマットの汎用オーディオレンダリング
本発明の第2の態様:デコーダにおける2つ以上のDirAC記述の結合
本発明の第2の態様は、スペクトル領域における2つ以上のDirAC記述の結合およびレンダリングに関する。
現況技術にまさる利益および利点
・効率的かつ精密なDirACストリーム結合
・任意のシーンを汎用的に表すDirACの使用と、異なるストリームをパラメータ領域またはスペクトル領域において効率的に結合することとを可能にする
・個々のDirACシーンまたはスペクトル領域における結合されたシーンの効率的かつ直感的なシーン操作、および操作される結合されたシーンの時間領域への後続の変換。
本発明の第3の態様:DirAC領域へのオーディオオブジェクトの変換
本発明の第3の態様は、直接DirAC領域へのオブジェクトメタデータおよび随意にオブジェクト波形信号の変換、ならびに一実施形態では、オブジェクト表現へのいくつかのオブジェクトの結合に関する。
現況技術にまさる利益および利点
・オーディオオブジェクトメタデータの単純なメタデータトランスコーダによる効率的かつ精密なDirACメタデータ推定
・DirACが、1つまたは複数のオーディオオブジェクトを伴う複合オーディオシーンをコーディングすることを可能にする
・完全なオーディオシーンの単一のパラメトリック表現でのDirACを通じてオーディオオブジェクトをコーディングするための効率的な方法。
本発明の第4の態様:オブジェクトメタデータと通常のDirACメタデータとの結合
本発明の第3の態様は、方向を用いた、かつ最適には、DirACパラメータによって表される結合されたオーディオシーンを構成する個々のオブジェクトの距離または拡散性を用いた、DirACメタデータの補正に対処する。この余分な情報は、主に時間単位ごとに単一の広帯域方向からなり、またオブジェクトが静的であるかまたはゆっくりしたペースで移動するかのいずれかと想定され得るので、他のDirACパラメータよりも低い頻度でリフレッシュされ得るので容易にコーディングされる。
現況技術にまさる利益および利点
・DirACが、1つまたは複数のオーディオオブジェクトを伴う複合オーディオシーンをコーディングすることを可能にする
・オーディオオブジェクトメタデータの単純なメタデータトランスコーダによる効率的かつ精密なDirACメタデータ推定。
・それらのメタデータをDirAC領域において効率的に結合することによって、DirACを通じてオーディオオブジェクトをコーディングするためのより効率的な方法
・オーディオシーンの単一のパラメトリック表現でのそれらのオーディオ表現を効率的に結合することによって、オーディオオブジェクトをコーディングするための、かつDirACを通じた、効率的な方法。
本発明の第5の態様:DirAC合成の際のオブジェクトMCシーンおよびFOA/HOA Cの操作
第4の態様は、デコーダ側に関し、オーディオオブジェクトの知られている位置を活用する。位置は、対話式インターフェースを通じてユーザによって与えることができ、ビットストリーム内に余分な副次情報として含めることもできる。
その狙いは、レベル、等化、および/または空間位置などの、オブジェクトの属性を個別に変更することによって、いくつかのオブジェクトを備える出力オーディオシーンを操作できることである。オブジェクトを完全にフィルタ処理すること、または結合されたストリームから個々のオブジェクトを元に戻すことも、想定され得る。
出力オーディオシーンの操作は、DirACメタデータの空間パラメータ、オブジェクトのメタデータ、存在する場合には対話式ユーザ入力、およびトランスポートチャネルの中で搬送されるオーディオ信号を、共同で処理することによって達成され得る。
現況技術にまさる利益および利点
・DirACが、エンコーダの入力において提示されるようなオーディオオブジェクトをデコーダ側において出力することを可能にする。
・利得、回転、または...を適用することによって個々のオーディオオブジェクトを操作するための、DirAC再現を可能にする
・能力は、DirAC合成の終わりにおいて、レンダリングおよび合成フィルタバンクの前に位置依存の重み付け演算しか必要としない(追加のオブジェクト出力が、オブジェクト出力ごとに1つの追加の合成フィルタバンクしか必要としない)ので、最小限の追加の計算的な取組みしか必要としない。
すべてが参照によりそれらの全体が組み込まれる参考文献
[1]V.Pulkki、M-V Laitinen、J Vilkamo、J Ahonen、T Lokki、およびT Pihlajamaki、「Directional audio coding - perception-based reproduction of spatial sound」、International Workshop on the Principles and Application on Spatial Hearing、2009年11月、蔵王、宮城、日本
[2]Ville Pulkki、「Virtual source positioning using vector base amplitude panning」、J. Audio Eng. Soc., 45(6):456-466、1997年6月
[3]M.V. LaitinenおよびV.Pulkki、「Converting 5.1 audio recordings to B-format for directional audio coding reproduction」、2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)、プラハ、2011年、61〜64頁
[4]G.Del Galdo、F.Kuech、M.Kallinger、およびR.Schultz-Amling、「Efficient merging of multiple audio streams for spatial sound reproduction in Directional Audio Coding」、2009 IEEE International Conference on Acoustics, Speech and Signal Processing、台北、2009年、265〜268頁
[5]Jurgen HERRE、CORNELIA FALCH、DIRK MAHNE、GIOVANNI DEL GALDO、MARKUS KALLINGER、およびOLIVER THIERGART、「Interactive Teleconferencing Combining Spatial Audio Object Coding and DirAC Technology」、J. Audio Eng. Soc., Vol. 59, No. 12、2011年12月
[6]R.Schultz-Amling、F.Kuech、M.Kallinger、G.Del Galdo、J.Ahonen、V.Pulkki、「Planar Microphone Array Processing for the Analysis and Reproduction of Spatial Audio using Directional Audio Coding」、Audio Engineering Society Convention 124、アムステルダム、オランダ、2008年
[7]Daniel P.JarrettおよびOliver ThiergartおよびEmanuel A.P. HabetsおよびPatrick A.Naylor、「Coherence-Based Diffuseness Estimation in the Spherical Harmonic Domain」、IEEE 27th Convention of Electrical and Electronics Engineers in Israel (IEEEI)、2012年
[8]米国特許第9,015,051号
さらなる実施形態では、また特に第1の態様に関して、また他の態様に関しても、本発明は異なる代替を提供する。これらの代替は以下の通りである。
第1に、異なるフォーマットをBフォーマット領域において結合し、エンコーダの中でDirAC分析を行うか、または結合されたチャネルをデコーダへ送信し、そこでDirAC分析および合成を行うこと。
第2に、異なるフォーマットを音圧/速度領域において結合し、エンコーダの中でDirAC分析を行うこと。代替として、音圧/速度データがデコーダへ送信され、DirAC分析がデコーダの中で行われ、合成もデコーダの中で行われる。
第3に、異なるフォーマットをメタデータ領域において結合し、単一のDirACストリームを送信するか、またはいくつかのDirACストリームをそれらを結合する前にデコーダへ送信し、デコーダの中で結合を行うこと。
さらに、本発明の実施形態または態様は、以下の態様に関する。
第1に、上記の3つの代替による異なるオーディオフォーマットの結合。
第2に、すでに同じフォーマットをなす2つのDirAC記述の受信、結合、およびレンダリングが実行される。
第3に、DirACデータへのオブジェクトデータの「直接変換」を用いた、特定のオブジェクトからDirACへの変換器が実装される。
第4に、通常のDirACメタデータにオブジェクトメタデータを加えること、および両方のメタデータの結合。両方のデータはビットストリームの中で並んで存在しているが、オーディオオブジェクトもDirACメタデータスタイルによって記述される。
第5に、オブジェクトおよびDirACストリームが別々にデコーダへ送信され、オブジェクトは、出力オーディオ(ラウドスピーカー)信号を時間領域に変換する前にデコーダ内で選択的に操作される。
前に説明したようなすべての代替または態様、および以下の特許請求の範囲の中の独立請求項によって規定されるようなすべての態様が、個別に、すなわち、企図される代替、目的、または独立請求項以外のいかなる他の代替または目的も伴わずに使用され得ることが、ここで述べられるべきである。しかしながら、他の実施形態では、代替または態様または独立請求項のうちの2つ以上は互いに組み合わせることができ、他の実施形態では、すべての態様または代替およびすべての独立請求項は互いに組み合わせることができる。
発明的に符号化されたオーディオ信号は、デジタル記憶媒体上もしくは非一時的記憶媒体上に記憶することができるか、またはワイヤレス伝送媒体などの伝送媒体上もしくはインターネットなどの有線伝送媒体上で送信することができる。
いくつかの態様が装置のコンテキストにおいて説明されているが、これらの態様がまた、対応する方法の説明を表すことは明白であり、ここで、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同じように、方法ステップのコンテキストにおいて説明した態様はまた、対応するブロック、または対応する装置のアイテムもしくは特徴の説明を表す。
いくつかの実装要件に応じて、本発明の実施形態は、ハードウェアで、またはソフトウェアで、実装され得る。実装形態は、それぞれの方法が実行されるようなプログラマブルコンピュータシステムと協働する(または、協働することが可能な)電子的に読取り可能な制御信号がその上に記憶された、デジタル記憶媒体、たとえば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、またはFLASH(登録商標)メモリを使用して実行され得る。
本発明によるいくつかの実施形態は、本明細書で説明した方法のうちの1つが実行されるようなプログラマブルコンピュータシステムと協働することが可能な、電子的に読取り可能な制御信号を有するデータキャリアを備える。
概して、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するとき、方法のうちの1つを実行するために動作可能である。プログラムコードは、たとえば、機械可読キャリア上に記憶され得る。
他の実施形態は、機械可読キャリア上または非一時的記憶媒体上に記憶された、本明細書で説明した方法のうちの1つを実行するためのコンピュータプログラムを備える。
したがって、言い換えれば、発明的方法の一実施形態は、コンピュータプログラムがコンピュータ上で動作するとき、本明細書で説明した方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、発明的方法のさらなる実施形態は、本明細書で説明した方法のうちの1つを実行するための、その上に記録されたコンピュータプログラムを備える、データキャリア(すなわち、デジタル記憶媒体またはコンピュータ可読媒体)である。
したがって、発明的方法のさらなる実施形態は、本明細書で説明した方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリーム、または信号の系列である。データストリーム、または信号の系列は、たとえば、データ通信接続を介して、たとえば、インターネットを介して、転送されるように構成され得る。
さらなる実施形態は、本明細書で説明した方法のうちの1つを実行するように構成または適合された処理手段、たとえば、コンピュータまたはプログラマブル論理デバイスを備える。
さらなる実施形態は、本明細書で説明した方法のうちの1つを実行するためのコンピュータプログラムがその上にインストールされた、コンピュータを備える。
いくつかの実施形態では、本明細書で説明した方法の機能のうちの一部または全部を実行するために、プログラマブル論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)が使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明した方法のうちの1つを実行するためにマイクロプロセッサと協働し得る。概して、方法は、好ましくは任意のハードウェア装置によって実行される。
上記で説明した実施形態は、本発明の原理に対する例にすぎない。本明細書で説明した構成および詳細の修正および変形が他の当業者には明らかであることが理解される。したがって、本明細書における実施形態の記述および説明を介して提示された具体的な詳細によってではなく、今まさに説明される特許請求項の範囲によってのみ限定されることが意図される。
100 入力インターフェース
120 フォーマット変換器
121,122 時間/周波数分析器、スペクトル変換器、時間/周波数表現変換器
123,124 DirAC分析
125,126 DirACパラメータ計算器、メタデータ変換器
127,128 Bフォーマット変換器
140 フォーマット結合器
144 結合器、DirACメタデータ結合器
146a W成分加算器
146b X成分加算器
146c Y成分加算器
146d Z成分加算器
148 方向抽出、メタデータ変換器
150 メタデータ変換器
160 ダウンミックス信号、トランスポートチャネル生成器、ビームフォーマー
161,162 ダウンミックス生成器
163 結合器、ダウンミキサ
170 オーディオコアコーダ、トランスポートチャネルエンコーダ、エンコーダ、トランスポート信号エンコーダ、トランスポートエンコーダ
180 DirAC分析器、DirAC処理
190 空間メタデータエンコーダ、メタデータエンコーダ
200 出力インターフェース
220 DirAC合成器
221 シーン結合器
222,223,224 DirACレンダラ
225 結合器
226 選択的操作器、0位相利得関数
240 DirAC合成器、スペクトル時間変換器
260 ユーザインターフェース
300 出力インターフェース
400 メタデータ生成器
420 音場計算器
422,425 DirAC合成器
426 周波数時間変換器
430 アンビソニックス信号生成器
500 操作器
802 DirAC分析
1020 コアデコーダ
1310 帯域フィルタのバンク
1320 エネルギー分析器
1330 強度分析器
1340 時間平均化
1350 拡散性計算器
1360 方向計算器
1370 帯域フィルタのバンク
1380 拡散性利得変換器
1390 ベクトルベース振幅パンニング(VBAP)利得テーブル
1400 仮想マイクロフォン
1420 マイクロフォン補償
1430 ラウドスピーカー利得平均化
1440 分配器
1450 直接/拡散合成器
1460 ラウドスピーカー設定

Claims (41)

  1. 結合されたオーディオシーンの記述を生成するための装置であって、
    第1のフォーマットでの第1のシーンの第1の記述および第2のフォーマットでの第2のシーンの第2の記述を受信するための入力インターフェース(100)であって、前記第2のフォーマットが前記第1のフォーマットとは異なる、入力インターフェース(100)と、
    前記第2のフォーマットが共通フォーマットとは異なるとき、前記第1の記述を前記共通フォーマットに変換するための、かつ前記第2の記述を前記共通フォーマットに変換するための、フォーマット変換器(120)と、
    前記結合されたオーディオシーンを取得するために、前記共通フォーマットでの前記第1の記述と前記共通フォーマットでの前記第2の記述とを結合するためのフォーマット結合器(140)と
    を備える装置。
  2. 前記第1のフォーマットおよび前記第2のフォーマットが、1次アンビソニックスフォーマット、高次アンビソニックスフォーマット、前記共通フォーマット、DirACフォーマット、オーディオオブジェクトフォーマット、およびマルチチャネルフォーマットを備えるフォーマットの群から選択される、
    請求項1に記載の装置。
  3. 前記フォーマット変換器(120)が、前記第1の記述を第1のBフォーマット信号表現に変換し、前記第2の記述を第2のBフォーマット信号表現に変換するように構成され、
    前記フォーマット結合器(140)が、前記第1および前記第2のBフォーマット信号表現の個々の成分を個別に結合することによって、前記第1および前記第2のBフォーマット信号表現を結合するように構成される、
    請求項1または2に記載の装置。
  4. 前記フォーマット変換器(120)が、前記第1の記述を第1の音圧/速度信号表現に変換し、前記第2の記述を第2の音圧/速度信号表現に変換するように構成され、
    前記フォーマット結合器(140)が、結合された音圧/速度信号表現を取得するために、前記音圧/速度信号表現の個々の成分を個別に結合することによって、前記第1および前記第2の音圧/速度信号表現を結合するように構成される、
    請求項1から3のいずれか一項に記載の装置。
  5. 前記フォーマット変換器(120)が、前記第2の記述がDirACパラメータ表現とは異なるとき、前記第1の記述を第1のDirACパラメータ表現に変換し、前記第2の記述を第2のDirACパラメータ表現に変換するように構成され、
    前記フォーマット結合器(140)が、前記結合されたオーディオシーンに対する結合されたDirACパラメータ表現を取得するために、前記第1および第2のDirACパラメータ表現の個々の成分を個別に結合することによって、前記第1および前記第2のDirACパラメータ表現を結合するように構成される、
    請求項1から4のいずれか一項に記載の装置。
  6. 前記フォーマット結合器(140)が、前記結合されたオーディオシーンを表す、時間周波数タイルに対する到来方向値、または前記時間周波数タイルに対する到来方向値および拡散性値を生成するように構成される、
    請求項5に記載の装置。
  7. 前記結合されたオーディオシーンに対するDirACパラメータを導出するために、前記結合されたオーディオシーンを分析するためのDirAC分析器(180)をさらに備え、
    前記DirACパラメータが、前記結合されたオーディオシーンを表す、時間周波数タイルに対する到来方向値、または前記時間周波数タイルに対する到来方向値および拡散性値を備える、
    請求項1から6のいずれか一項に記載の装置。
  8. 前記結合されたオーディオシーンから、または前記第1のシーンおよび前記第2のシーンから、トランスポートチャネル信号を生成するためのトランスポートチャネル生成器(160)と、
    前記トランスポートチャネル信号をコア符号化するためのトランスポートチャネルエンコーダ(170)とをさらに備えるか、あるいは
    前記トランスポートチャネル生成器(160)が、それぞれ、左の位置または右の位置に導かれているビームフォーマーを使用して、1次アンビソニックスフォーマットまたはより高次のアンビソニックスフォーマットをなしている前記第1のシーンまたは前記第2のシーンからステレオ信号を生成するように構成されるか、あるいは
    前記トランスポートチャネル生成器(160)が、マルチチャネル表現の3つ以上のチャネルをダウンミックスすることによって、前記マルチチャネル表現をなしている前記第1のシーンまたは前記第2のシーンからステレオ信号を生成するように構成されるか、あるいは
    前記トランスポートチャネル生成器(160)が、オブジェクトの位置を使用して前記各オブジェクトをパンすることによって、またはどのオブジェクトがどのステレオチャネルの中に配置されるのかを示す情報を使用してオブジェクトをステレオダウンミックスにダウンミックスすることによって、オーディオオブジェクト表現をなしている前記第1のシーンまたは前記第2のシーンからステレオ信号を生成するように構成されるか、あるいは
    前記トランスポートチャネル生成器(160)が、前記ステレオ信号の左チャネルのみを左ダウンミックストランスポートチャネルに加算し、右トランスポートチャネルを取得するために前記ステレオ信号の右チャネルのみを加算するように構成されるか、あるいは
    前記共通フォーマットがBフォーマットであり、前記トランスポートチャネル生成器(160)が、前記トランスポートチャネル信号を導出するために、結合されたBフォーマット表現を処理するように構成され、前記処理が、ビームフォーミング動作を実行すること、またはオムニ指向性成分などの、Bフォーマット信号の成分のサブセットをモノトランスポートチャネルとして抽出することを含むか、あるいは
    前記処理が、左チャネルおよび右チャネルを計算するために、オムニ指向性信号、および前記Bフォーマットの反対符号を有するY成分を使用する、ビームフォーミングを含むか、あるいは
    前記処理が、前記Bフォーマットの成分、ならびに所与の方位角および所与の仰角を使用する、ビームフォーミング動作を含むか、あるいは
    前記トランスポートチャネル生成器(160)が、前記結合されたオーディオシーンの前記Bフォーマット信号を前記トランスポートチャネルエンコーダに証明するように構成され、前記フォーマット結合器(140)によって出力される前記結合されたオーディオシーンの中に空間メタデータが含まれない、
    請求項1から7のいずれか一項に記載の装置。
  9. 符号化されたDirACメタデータを取得するために、前記結合されたオーディオシーンの中に記述されたDirACメタデータを符号化するための、または
    第1の符号化されたDirACメタデータを取得するために、前記第1のシーンから導出されたDirACメタデータを符号化するための、かつ第2の符号化されたDirACメタデータを取得するために、前記第2のシーンから導出されたDirACメタデータを符号化するための、
    メタデータエンコーダ(190)をさらに備える、
    請求項1から8のいずれか一項に記載の装置。
  10. 前記結合されたオーディオシーンを表す符号化された出力信号を生成するための出力インターフェース(200)をさらに備え、前記出力信号が、符号化されたDirACメタデータおよび1つまたは複数の符号化トランスポートチャネルを備える、
    請求項1から9のいずれか一項に記載の装置。
  11. 前記フォーマット変換器(120)が、高次アンビソニックスフォーマットまたは1次アンビソニックスフォーマットを前記Bフォーマットに変換するように構成され、前記高次アンビソニックスフォーマットが、前記Bフォーマットに変換される前に切り詰められるか、あるいは
    前記フォーマット変換器(120)が、投影された信号を取得するために、基準位置において球面調和関数にオブジェクトまたはチャネルを投影するように構成され、前記フォーマット結合器(140)が、Bフォーマット係数を取得するために、投影信号を結合するように構成され、前記オブジェクトまたは前記チャネルが、空間の中の指定された位置に配置され、基準位置からの随意の個々の距離を有するか、あるいは
    前記フォーマット変換器(120)が、Bフォーマット成分の時間周波数分析ならびに音圧および速度ベクトルの決定を含むDirAC分析を実行するように構成され、前記フォーマット結合器(140)が、異なる音圧/速度ベクトルを結合するように構成され、前記フォーマット結合器(140)が、前記結合された音圧/速度データからDirACメタデータを導出するためのDirAC分析器をさらに備えるか、あるいは
    前記フォーマット変換器(120)が、前記第1または第2のフォーマットとしてのオーディオオブジェクトフォーマットのオブジェクトメタデータからDirACパラメータを抽出するように構成され、音圧ベクトルが、オブジェクト波形信号であり、方向が、空間の中のオブジェクト位置から導出され、または拡散性が、前記オブジェクトメタデータの中で直接与えられるか、もしくは0値などのデフォルト値に設定されるか、あるいは
    前記フォーマット変換器(120)が、オブジェクトデータフォーマットから導出されたDirACパラメータを音圧/速度データに変換するように構成され、前記フォーマット結合器(140)が、前記音圧/速度データを1つまたは複数の異なるオーディオオブジェクトの異なる記述から導出された音圧/速度データと結合するように構成されるか、あるいは
    前記フォーマット変換器(120)が、DirACパラメータを直接導出するように構成され、前記フォーマット結合器(140)が、前記結合されたオーディオシーンを取得するために、前記DirACパラメータを結合するように構成される、
    請求項1から10のいずれか一項に記載の装置。
  12. 前記フォーマット変換器(120)が、
    1次アンビソニックス入力フォーマットもしくは高次アンビソニックス入力フォーマットまたはマルチチャネル信号フォーマットに対するDirAC分析器(180)と、
    オブジェクトメタデータをDirACメタデータに変換するための、または時間に独立な位置を有するマルチチャネル信号を前記DirACメタデータに変換するための、メタデータ変換器(150、125、126、148)と、
    個々のDirACメタデータストリームを結合するか、またはいくつかのストリームからの到来方向メタデータを重み付き加算によって結合するためであって、前記重み付き加算の重み付けが、関連する音圧信号エネルギーのエネルギーに従って行われるための、またはいくつかのストリームからの拡散性メタデータを重み付き加算によって結合するためであって、前記重み付き加算の重み付けが、関連する音圧信号エネルギーのエネルギーに従って行われるための、メタデータ結合器(144)とを備えるか、あるいは
    前記メタデータ結合器(144)が、前記第1のシーンの前記第1の記述の時間/周波数ビンに対してエネルギー値および到来方向値を計算し、前記第2のシーンの前記第2の記述の前記時間/周波数ビンに対してエネルギー値および到来方向値を計算するように構成され、前記フォーマット結合器(140)が、結合された到来方向値を取得するために、第1のエネルギーを第1の到来方向値と乗算するとともに第2のエネルギー値と第2の到来方向値の乗算結果を加算するか、または代替として、前記第1の到来方向値および前記第2の到来方向値の中から、大きいほうのエネルギーに関連する前記到来方向値を前記結合された到来方向値として選択するように構成される、
    請求項1から11のいずれか一項に記載の装置。
  13. オーディオオブジェクトに対する別個のオブジェクト記述を結合されたフォーマットに追加するための出力インターフェース(200、300)をさらに備え、前記オブジェクト記述が、方向、距離、拡散性、または任意の他のオブジェクト属性のうちの少なくとも1つを備え、前記オブジェクトが、すべての周波数帯域全体にわたって単一の方向を有し、静的であるかまたは速度しきい値よりもゆっくり移動するかのいずれかである、
    請求項1から12のいずれか一項に記載の装置。
  14. 結合されたオーディオシーンの記述を生成するための方法であって、
    第1のフォーマットでの第1のシーンの第1の記述を受信し、第2のフォーマットでの第2のシーンの第2の記述を受信するステップであって、前記第2のフォーマットが前記第1のフォーマットとは異なる、ステップと、
    前記第2のフォーマットが共通フォーマットとは異なるとき、前記第1の記述を前記共通フォーマットに変換し、前記第2の記述を前記共通フォーマットに変換するステップと、
    前記結合されたオーディオシーンを取得するために、前記共通フォーマットでの前記第1の記述と前記共通フォーマットでの前記第2の記述とを結合するステップと
    を備える方法。
  15. コンピュータ上またはプロセッサ上で動作するとき、請求項14に記載の方法を実行するためのコンピュータプログラム。
  16. 複数のオーディオシーンの合成を実行するための装置であって、
    第1のシーンの第1のDirAC記述を受信するための、かつ第2のシーンの第2のDirAC記述、および1つまたは複数のトランスポートチャネルを受信するための、入力インターフェース(100)と、
    前記複数のオーディオシーンを表すスペクトル領域オーディオ信号を取得するために、前記複数のオーディオシーンをスペクトル領域において合成するためのDirAC合成器(220)と、
    前記スペクトル領域オーディオ信号を時間領域に変換するためのスペクトル時間変換器(240)と
    を備える装置。
  17. 前記DirAC合成器が、
    前記第1のDirAC記述と前記第2のDirAC記述とを結合して、結合されたDirAC記述にするためのシーン結合器(221)と、
    前記スペクトル領域オーディオ信号を取得するために、1つまたは複数のトランスポートチャネルを使用して、前記結合されたDirAC記述をレンダリングするためのDirACレンダラ(222)とを備えるか、あるいは
    前記シーン結合器(221)が、前記第1のシーンの第1の記述の時間/周波数ビンに対してエネルギー値および到来方向値を計算し、前記第2のシーンの第2の記述の前記時間/周波数ビンに対してエネルギー値および到来方向値を計算するように構成され、前記シーン結合器(221)が、結合された到来方向値を取得するために、第1のエネルギーを第1の到来方向値と乗算するとともに第2のエネルギー値と第2の到来方向値との乗算結果を加算するか、または代替として、前記第1の到来方向値および前記第2の到来方向値の中から大きいほうのエネルギーに関連する前記到来方向値を前記結合された到来方向値として選択するように構成される、
    請求項16に記載の装置。
  18. 前記入力インターフェース(100)が、DirAC記述に対して、別個のトランスポートチャネルおよび別個のDirACメタデータを受信するように構成され、
    前記DirAC合成器(220)が、各記述に対するスペクトル領域オーディオ信号を取得するために、対応するDirAC記述に対する前記トランスポートチャネルおよび前記メタデータを使用して各記述をレンダリングし、前記スペクトル領域オーディオ信号を取得するために、各記述に対する前記スペクトル領域オーディオ信号を結合するように構成される、
    請求項16に記載の装置。
  19. 前記入力インターフェース(100)が、オーディオオブジェクトに対する余分なオーディオオブジェクトメタデータを受信するように構成され、
    前記DirAC合成器(220)が、前記オブジェクトメタデータの中に含まれるオブジェクトデータに基づいて、またはユーザが与える方向情報に基づいて、指向性フィルタ処理を実行するために、前記余分なオーディオオブジェクトメタデータ、または前記メタデータに関係するオブジェクトデータを選択的に操作するように構成されるか、あるいは
    前記DirAC合成器(220)が、0位相利得関数(226)を前記スペクトル領域において実行するために構成され、前記0位相利得関数が、オーディオオブジェクトの方向に依存し、オブジェクトの方向が副次情報として送信される場合、前記方向がビットストリームの中に含まれるか、または前記方向がユーザインターフェースから受信される、
    請求項16から18のいずれか一項に記載の装置。
  20. 複数のオーディオシーンの合成を実行するための方法であって、
    第1のシーンの第1のDirAC記述を受信し、第2のシーンの第2のDirAC記述、および1つまたは複数のトランスポートチャネルを受信するステップと、
    前記複数のオーディオシーンを表すスペクトル領域オーディオ信号を取得するために、前記複数のオーディオシーンをスペクトル領域において合成するステップと、
    前記スペクトル領域オーディオ信号を時間領域にスペクトル時間変換するステップと
    を備える方法。
  21. コンピュータ上またはプロセッサ上で動作するとき、請求項20に記載の方法を実行するためのコンピュータプログラム。
  22. オーディオデータ変換器であって、
    オーディオオブジェクトメタデータを有するオーディオオブジェクトのオブジェクト記述を受信するための入力インターフェース(100)と、
    前記オーディオオブジェクトメタデータをDirACメタデータに変換するためのメタデータ変換器(150、125、126、148)と、
    前記DirACメタデータを送信または記憶するための出力インターフェース(300)と
    を備えるオーディオデータ変換器。
  23. 前記オーディオオブジェクトメタデータがオブジェクト位置を有し、前記DirACメタデータが基準位置に対する到来方向を有する、請求項22に記載のオーディオデータ変換器。
  24. 前記メタデータ変換器(150、125、126、148)が、オブジェクトデータフォーマットから導出されたDirACパラメータを音圧/速度データに変換するように構成され、前記メタデータ変換器(150、125、126、148)が、DirAC分析を前記音圧/速度データに適用するように構成される、
    請求項22または23に記載のオーディオデータ変換器。
  25. 前記入力インターフェース(100)が、複数のオーディオオブジェクト記述を受信するように構成され、
    前記メタデータ変換器(150、125、126、148)が、各オブジェクトメタデータ記述を個々のDirACデータ記述に変換するように構成され、
    前記メタデータ変換器(150、125、126、148)が、結合されたDirAC記述を前記DirACメタデータとして取得するために、個々のDirACメタデータ記述を結合するように構成される、
    請求項22から24のいずれか一項に記載のオーディオデータ変換器。
  26. 前記メタデータ変換器(150、125、126、148)が、異なるメタデータ記述からの到来方向メタデータを重み付き加算によって個別に結合することであって、前記重み付き加算の重み付けが、関連する音圧信号エネルギーのエネルギーに従って行われることによって、または異なるDirACメタデータ記述からの拡散性メタデータを重み付き加算によって結合することであって、前記重み付き加算の重み付けが、関連する音圧信号エネルギーのエネルギーに従って行われることによって、前記個々のDirACメタデータ記述を結合することであって、各メタデータ記述が、到来方向メタデータ、または到来方向メタデータおよび拡散性メタデータを備えること、または代替として、第1の到来方向値および第2の到来方向値の中から、大きいほうのエネルギーに関連する到来方向値を結合された到来方向値として選択することを行うように構成される、請求項25に記載のオーディオデータ変換器。
  27. 前記入力インターフェース(100)が、各オーディオオブジェクトに対して、このオブジェクトメタデータに加えてオーディオオブジェクト波形信号を受信するように構成され、
    前記オーディオデータ変換器が、前記オーディオオブジェクト波形信号を1つまたは複数のトランスポートチャネルにダウンミックスするためのダウンミキサ(163)をさらに備え、
    前記出力インターフェース(300)が、前記DirACメタデータに関連付けて前記1つまたは複数のトランスポートチャネルを送信または記憶するように構成される、
    請求項22から26のいずれか一項に記載のオーディオデータ変換器。
  28. オーディオデータ変換を実行するための方法であって、
    オーディオオブジェクトメタデータを有するオーディオオブジェクトのオブジェクト記述を受信するステップと、
    前記オーディオオブジェクトメタデータをDirACメタデータに変換するステップと、
    前記DirACメタデータを送信または記憶するステップと
    を備える方法。
  29. コンピュータ上またはプロセッサ上で動作するとき、請求項28に記載の方法を実行するためのコンピュータプログラム。
  30. オーディオシーンエンコーダであって、
    DirACメタデータを有するオーディオシーンのDirAC記述を受信するための、かつオブジェクトメタデータを有するオブジェクト信号を受信するための、入力インターフェース(100)と、
    前記DirACメタデータおよび前記オブジェクトメタデータを備える結合されたメタデータ記述を生成するためのメタデータ生成器(400)とを備え、前記DirACメタデータが、個々の時間周波数タイルに対する到来方向を備え、前記オブジェクトメタデータが、個々のオブジェクトの方向、または追加として距離もしくは拡散性を備える、
    オーディオシーンエンコーダ。
  31. 前記入力インターフェース(100)が、前記オーディオシーンの前記DirAC記述に関連するトランスポート信号を受信するために構成され、前記入力インターフェース(100)が、前記オブジェクト信号に関連するオブジェクト波形信号を受信するために構成され、
    前記オーディオシーンエンコーダが、前記トランスポート信号および前記オブジェクト波形信号を符号化するためのトランスポート信号エンコーダ(170)をさらに備える、請求項30に記載のオーディオシーンエンコーダ。
  32. 前記メタデータ生成器(400)が、請求項12から27のいずれか一項において説明されるようなメタデータ変換器(150、125、126、148)を備える、
    請求項30または31のいずれか一項に記載のオーディオシーンエンコーダ。
  33. 前記メタデータ生成器(400)が、前記オブジェクトメタデータに対して時間ごとの単一の広帯域方向を生成するように構成され、前記メタデータ生成器が、時間ごとの前記単一の広帯域方向を、前記DirACメタデータよりも低い頻度でリフレッシュするように構成される、
    請求項30から32のいずれか一項に記載のオーディオシーンエンコーダ。
  34. オーディオシーンを符号化する方法であって、
    DirACメタデータを有するオーディオシーンのDirAC記述を受信し、オーディオオブジェクトメタデータを有するオブジェクト信号を受信するステップと、
    前記DirACメタデータおよび前記オブジェクトメタデータを備える結合されたメタデータ記述を生成するステップとを備え、前記DirACメタデータが、個々の時間周波数タイルに対する到来方向を備え、前記オブジェクトメタデータが、個々のオブジェクトの方向、または追加として距離もしくは拡散性を備える、
    方法。
  35. コンピュータ上またはプロセッサ上で動作するとき、請求項34に記載の方法を実行するためのコンピュータプログラム。
  36. オーディオデータの合成を実行するための装置であって、
    1つもしくは複数のオーディオオブジェクトもしくはマルチチャネル信号、または1次アンビソニックス信号もしくは高次アンビソニックス信号のDirAC記述を受信するための入力インターフェース(100)であって、前記DirAC記述が、副次情報としての、またはユーザインターフェースからの、前記1つもしくは複数のオブジェクトの位置情報、または前記1次アンビソニックス信号もしくは前記高次アンビソニックス信号に対する副次情報、または前記マルチチャネル信号に対する位置情報を備える、入力インターフェース(100)と、
    操作されたDirAC記述を取得するために、前記1つもしくは複数のオーディオオブジェクト、前記マルチチャネル信号、前記1次アンビソニックス信号、または前記高次アンビソニックス信号の前記DirAC記述を操作するための操作器(500)と、
    合成されたオーディオデータを取得するために、前記操作されたDirAC記述を合成するためのDirAC合成器(220、240)と
    を備える装置。
  37. 前記DirAC合成器(220、240)が、スペクトル領域オーディオ信号を取得するために、前記操作されたDirAC記述を使用してDirACレンダリングを実行するためのDirACレンダラ(222)と、
    前記スペクトル領域オーディオ信号を時間領域に変換するためのスペクトル時間変換器(240)とを備える、
    請求項36に記載の装置。
  38. 前記操作器(500)が、DirACレンダリングの前に位置依存の重み付け演算を実行するように構成される、
    請求項36または37に記載の装置。
  39. 前記DirAC合成器(220、240)が、複数のオブジェクト、または1次アンビソニックス信号もしくは高次アンビソニックス信号、またはマルチチャネル信号を出力するように構成され、前記DirAC合成器(220、240)が、前記1次アンビソニックス信号もしくは前記高次アンビソニックス信号の各オブジェクトもしくは各成分に対して、または前記マルチチャネル信号の各チャネルに対して、別個のスペクトル時間変換器(240)を使用するように構成される、
    請求項36から38のいずれか一項に記載の装置。
  40. オーディオデータの合成を実行するための方法であって、
    1つもしくは複数のオーディオオブジェクト、またはマルチチャネル信号、または1次アンビソニックス信号もしくは高次アンビソニックス信号のDirAC記述を受信するステップであって、前記DirAC記述が、副次情報としての、またはユーザインターフェースに対しての、前記1つもしくは複数のオブジェクトの、または前記マルチチャネル信号の位置情報、または前記1次アンビソニックス信号もしくは前記高次アンビソニックス信号に対する追加の情報を備える、ステップと、
    操作されたDirAC記述を取得するために、前記DirAC記述を操作するステップと、
    合成されたオーディオデータを取得するために、前記操作されたDirAC記述を合成するステップと
    を備える方法。
  41. コンピュータ上またはプロセッサ上で動作するとき、請求項40に記載の方法を実行するためのコンピュータプログラム。
JP2020519284A 2017-10-04 2018-10-01 DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム Active JP7297740B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023098016A JP2023126225A (ja) 2017-10-04 2023-06-14 DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17194816.9 2017-10-04
EP17194816 2017-10-04
PCT/EP2018/076641 WO2019068638A1 (en) 2017-10-04 2018-10-01 APPARATUS, METHOD AND COMPUTER PROGRAM FOR CODING, DECODING, SCENE PROCESSING AND OTHER PROCEDURES RELATED TO DIRAC-BASED SPATIAL AUDIO CODING

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023098016A Division JP2023126225A (ja) 2017-10-04 2023-06-14 DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2020536286A true JP2020536286A (ja) 2020-12-10
JP7297740B2 JP7297740B2 (ja) 2023-06-26

Family

ID=60185972

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020519284A Active JP7297740B2 (ja) 2017-10-04 2018-10-01 DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム
JP2023098016A Pending JP2023126225A (ja) 2017-10-04 2023-06-14 DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023098016A Pending JP2023126225A (ja) 2017-10-04 2023-06-14 DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム

Country Status (18)

Country Link
US (3) US11368790B2 (ja)
EP (2) EP3975176A3 (ja)
JP (2) JP7297740B2 (ja)
KR (2) KR20220133311A (ja)
CN (2) CN117395593A (ja)
AR (2) AR117384A1 (ja)
AU (2) AU2018344830B2 (ja)
BR (1) BR112020007486A2 (ja)
CA (4) CA3219540A1 (ja)
ES (1) ES2907377T3 (ja)
MX (1) MX2020003506A (ja)
PL (1) PL3692523T3 (ja)
PT (1) PT3692523T (ja)
RU (1) RU2759160C2 (ja)
SG (1) SG11202003125SA (ja)
TW (2) TWI834760B (ja)
WO (1) WO2019068638A1 (ja)
ZA (1) ZA202001726B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024069796A1 (ja) * 2022-09-28 2024-04-04 三菱電機株式会社 音空間構築装置、音空間構築システム、プログラム及び音空間構築方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3782152A2 (en) * 2018-04-16 2021-02-24 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for encoding and decoding of directional sound sources
JP2021530723A (ja) * 2018-07-02 2021-11-11 ドルビー ラボラトリーズ ライセンシング コーポレイション 没入的オーディオ信号を含むビットストリームを生成またはデコードするための方法および装置
KR20210090096A (ko) 2018-11-13 2021-07-19 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호 및 연관된 메타데이터에 의해 공간 오디오를 표현하는 것
WO2020115311A1 (en) * 2018-12-07 2020-06-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators
US11158335B1 (en) * 2019-03-28 2021-10-26 Amazon Technologies, Inc. Audio beam selection
JP7469298B2 (ja) * 2019-04-24 2024-04-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 到来方向推定装置、システム、及び、到来方向推定方法
WO2021018378A1 (en) 2019-07-29 2021-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for processing a sound field representation in a spatial transform domain
GB2587335A (en) * 2019-09-17 2021-03-31 Nokia Technologies Oy Direction estimation enhancement for parametric spatial audio capture using broadband estimates
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
US20220406318A1 (en) * 2019-10-30 2022-12-22 Dolby Laboratories Licensing Corporation Bitrate distribution in immersive voice and audio services
WO2022079049A2 (en) 2020-10-13 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects or apparatus and method for decoding using two or more relevant audio objects
TW202316416A (zh) * 2020-10-13 2023-04-16 弗勞恩霍夫爾協會 在降混過程中使用方向資訊對多個音頻對象進行編碼的設備和方法、或使用優化共變異數合成進行解碼的設備和方法
TWI816071B (zh) * 2020-12-09 2023-09-21 宏正自動科技股份有限公司 音訊轉換裝置及音訊處理方法
GB2608406A (en) * 2021-06-30 2023-01-04 Nokia Technologies Oy Creating spatial audio stream from audio objects with spatial extent

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012526296A (ja) * 2009-05-08 2012-10-25 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 音声フォーマット・トランスコーダ
JP2015502573A (ja) * 2011-12-02 2015-01-22 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法
JP2015522183A (ja) * 2012-07-15 2015-08-03 クゥアルコム・インコーポレイテッドQualcomm Incorporated 基底関数係数を使用した3次元オーディオコード化のためのシステム、方法、装置、およびコンピュータ可読媒体

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233562B1 (en) * 1996-12-09 2001-05-15 Matsushita Electric Industrial Co., Ltd. Audio decoding device and signal processing device for decoding multi-channel signals with reduced memory requirements
US8872979B2 (en) 2002-05-21 2014-10-28 Avaya Inc. Combined-media scene tracking for audio-video summarization
TW200742359A (en) 2006-04-28 2007-11-01 Compal Electronics Inc Internet communication system
US9014377B2 (en) * 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
US20110002469A1 (en) * 2008-03-03 2011-01-06 Nokia Corporation Apparatus for Capturing and Rendering a Plurality of Audio Channels
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
ES2425814T3 (es) * 2008-08-13 2013-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para determinar una señal de audio espacial convertida
WO2010090019A1 (ja) * 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
US20130003998A1 (en) * 2010-02-26 2013-01-03 Nokia Corporation Modifying Spatial Image of a Plurality of Audio Signals
DE102010030534A1 (de) * 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
EP2448289A1 (en) * 2010-10-28 2012-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for deriving a directional information and computer program product
EP2464145A1 (en) * 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a downmixer
EP2839461A4 (en) * 2012-04-19 2015-12-16 Nokia Technologies Oy AUDIO SCENE APPARATUS
CN103236255A (zh) * 2013-04-03 2013-08-07 广西环球音乐图书有限公司 音频文件转化midi文件
DE102013105375A1 (de) 2013-05-24 2014-11-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Tonsignalerzeuger, Verfahren und Computerprogramm zum Bereitstellen eines Tonsignals
US9847088B2 (en) * 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
KR101993348B1 (ko) * 2014-09-24 2019-06-26 한국전자통신연구원 동적 포맷 변환을 지원하는 오디오 메타데이터 제공 장치 및 오디오 데이터 재생 장치, 상기 장치가 수행하는 방법 그리고 상기 동적 포맷 변환들이 기록된 컴퓨터에서 판독 가능한 기록매체
EP3251116A4 (en) * 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
CN104768053A (zh) 2015-04-15 2015-07-08 冯山泉 一种基于流分解和流重组的格式转换方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012526296A (ja) * 2009-05-08 2012-10-25 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 音声フォーマット・トランスコーダ
JP2015502573A (ja) * 2011-12-02 2015-01-22 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法
JP2015522183A (ja) * 2012-07-15 2015-08-03 クゥアルコム・インコーポレイテッドQualcomm Incorporated 基底関数係数を使用した3次元オーディオコード化のためのシステム、方法、装置、およびコンピュータ可読媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024069796A1 (ja) * 2022-09-28 2024-04-04 三菱電機株式会社 音空間構築装置、音空間構築システム、プログラム及び音空間構築方法

Also Published As

Publication number Publication date
RU2020115048A3 (ja) 2021-11-08
TWI834760B (zh) 2024-03-11
US20220150635A1 (en) 2022-05-12
AU2018344830A1 (en) 2020-05-21
EP3692523B1 (en) 2021-12-22
AU2018344830A8 (en) 2020-06-18
CN111630592B (zh) 2023-10-27
EP3975176A2 (en) 2022-03-30
EP3692523A1 (en) 2020-08-12
PT3692523T (pt) 2022-03-02
TW201923744A (zh) 2019-06-16
AR117384A1 (es) 2021-08-04
MX2020003506A (es) 2020-07-22
CA3219540A1 (en) 2019-04-11
US11729554B2 (en) 2023-08-15
AU2018344830B2 (en) 2021-09-23
CA3219566A1 (en) 2019-04-11
CA3076703A1 (en) 2019-04-11
KR102468780B1 (ko) 2022-11-21
SG11202003125SA (en) 2020-05-28
AU2021290361B2 (en) 2024-02-22
KR20200053614A (ko) 2020-05-18
JP7297740B2 (ja) 2023-06-26
AU2021290361A1 (en) 2022-02-03
RU2759160C2 (ru) 2021-11-09
WO2019068638A1 (en) 2019-04-11
CN111630592A (zh) 2020-09-04
TW202016925A (zh) 2020-05-01
JP2023126225A (ja) 2023-09-07
KR20220133311A (ko) 2022-10-04
RU2020115048A (ru) 2021-11-08
US20200221230A1 (en) 2020-07-09
ZA202001726B (en) 2021-10-27
US11368790B2 (en) 2022-06-21
CN117395593A (zh) 2024-01-12
US20220150633A1 (en) 2022-05-12
TWI700687B (zh) 2020-08-01
CA3134343A1 (en) 2019-04-11
ES2907377T3 (es) 2022-04-25
PL3692523T3 (pl) 2022-05-02
AR125562A2 (es) 2023-07-26
CA3076703C (en) 2024-01-02
BR112020007486A2 (pt) 2020-10-27
EP3975176A3 (en) 2022-07-27

Similar Documents

Publication Publication Date Title
JP7297740B2 (ja) DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム
US9584912B2 (en) Spatial audio rendering and encoding
JP5337941B2 (ja) マルチチャネル・パラメータ変換のための装置および方法
JP2022153626A (ja) マルチポイント音場記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
US11863962B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210810

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220711

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230515

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230614

R150 Certificate of patent or registration of utility model

Ref document number: 7297740

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150