JP2015509212A - 空間オーディオ・レンダリング及び符号化 - Google Patents

空間オーディオ・レンダリング及び符号化 Download PDF

Info

Publication number
JP2015509212A
JP2015509212A JP2014552731A JP2014552731A JP2015509212A JP 2015509212 A JP2015509212 A JP 2015509212A JP 2014552731 A JP2014552731 A JP 2014552731A JP 2014552731 A JP2014552731 A JP 2014552731A JP 2015509212 A JP2015509212 A JP 2015509212A
Authority
JP
Japan
Prior art keywords
audio
downmix
spatial
signals
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014552731A
Other languages
English (en)
Inventor
ヘラルデュス ヘンリキュス コッペンス,イェルーン
ヘラルデュス ヘンリキュス コッペンス,イェルーン
ホザイニュス ペトリュス スハイエルス,エリック
ホザイニュス ペトリュス スハイエルス,エリック
ウェルネル ヨーハネス オーメン,アルノルデュス
ウェルネル ヨーハネス オーメン,アルノルデュス
デ ケルクホフ,レオン マリア ファン
デ ケルクホフ,レオン マリア ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2015509212A publication Critical patent/JP2015509212A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

符号化器は、第1のダウンミックスとオーディオ・オブジェクトを特徴付けるデータによりオーディオ・シーンを表すデータを生成する。さらに、残留ダウンミックスが、オーディオ・オブジェクトが抽出されたオーディオ・シーンのオーディオ成分のダウンミックスに対応する場合の、残留ダウンミックスの拡散性の程度を示す指向性依存の拡散性パラメータが提供される。レンダリング装置は、符号化器からデータを受け取る受信機を備える。回路は、オーディオ・オブジェクトから空間スピーカ構成の信号を生成する。変圧器は、第1の変換を残留ダウンミックスに加えることにより空間スピーカ構成の非拡散音信号を生成し、別の変圧器は、相関除去を残留ダウンミックスに適用することにより第2の変換を残留ダウンミックスに加えることによって空間スピーカ構成の信号を生成する。変換は、指向性依存の拡散性パラメータに依存する。信号は、出力信号を生成するように組み合わされる。

Description

本発明は、空間オーディオ・レンダリング及び/又は符号化に関する。より詳細には、ただし排他的にではなく、異なる空間スピーカ構成をもつ空間オーディオ・レンダリング・システムに関する。
デジタル信号表現及び通信が、だんだんアナログ表現及び通信に取って代わってきたことに伴い、最近の十年にわたり様々な音源信号のデジタル符号化が、ますます重要になってきている。例えば、音声や音楽などのオーディオ・コンテンツは、デジタル・コンテンツ符号化にますます基づいている。
ますます能力が高く、多様で、柔軟性のあるオーディオ・サービスを提供するためのオーディオ符号化形式が、開発されてきている。具体的には、空間オーディオ・サービスをサポートするオーディオ符号化形式が開発されてきている。
DTSやドルビー・デジタルなどの周知の音声符号化技術により、聴取者の周りの固定位置に設置された、いくつかのチャンネルとして空間イメージを表す符号化マルチチャンネル・オーディオ信号が作り出される。マルチチャンネル信号に対応するセットアップとは異なるスピーカ・セットアップの場合、空間イメージは最適以下のものとなってしまう。また、このようなチャンネル・ベースのオーディオ符号化システムは、典型的には、異なる数のスピーカに対処することができない。
MPEGサラウンドは、既存のモノ・ベース(mono)又はステレオ(stereo)・ベースの符号化器のマルチチャンネル・オーディオ用途への拡大を可能にするマルチチャンネル・オーディオ符号化ツールを提供する。図1は、MPEGサラウンド・システムの要素の一つの実施例を示す。オリジナルのマルチチャンネル入力の分析によって得られた空間パラメータを使用して、MPEGサラウンド復号化器は、マルチチャンネル出力信号を得るために、モノ又はステレオ信号のアップミックスの制御によって空間イメージを再現することができる。
マルチチャンネル入力信号の空間イメージがパラメータ化されるので、MPEGサラウンドは、マルチチャンネル・スピーカのセットアップを使用しないデバイスをレンダリングすることによって同じマルチチャンネル・ビットストリームの復号化を可能にする。一つの実施例は、MPEGサラウンド両耳復号化プロセスと呼ばれる、ヘッドホンによる仮想サラウンド再生である。このモードにおいて、通常のヘッドホンを使用しながら、現実的なサラウンド体験を得ることができる。別の一つの実施例は、高次のマルチチャンネルの出力、例えば、7.1チャンネルを、低次のセットアップ、例えば5.1チャンネルへ低減することである。
より柔軟性のあるオーディオの表現をもたらすために、MPEGは、「空間オーディオ・オブジェクト符号化」(MPEG−D SAOC)として知られるフォーマットを標準化した。DTSやドルビー・デジタル、MPEGサラウンドなどのマルチチャンネル・オーディオ符号化システムと対照的に、SAOCは、オーディオ・チャンネルよりも個々のオーディオ・オブジェクトの効率的な符号化を可能にする。MPEGサラウンドにおいて、各スピーカ・チャンネルは異なるサウンド・オブジェクトのミックスから生じるとみなすことができるが、SAOCは、個々のサウンド・オブジェクトを復号化器側で図2に示す対話式操作に利用可能にする。SAOCにおいて、複数のサウンド・オブジェクトは、サウンド・オブジェクトをレンダリング側で抽出可能にするパラメトリック・データと共にモノ又はステレオ・ダウンミックスに符号化され、それにより、個々のオーディオ・オブジェクトが例えば、エンドユーザによって、操作に利用可能になる。
実際、MPEGサラウンドと同様に、SAOCもモノ又はステレオ・ダウンミックスを作り出す。さらに、オブジェクト・パラメータが計算され、含まれる。復号化器側では、ユーザが、このようなパラメータを操作して、位置やレベル、等化などの個々のオブジェクトの様々な特徴を制御することができ、又はリバーブなどの効果を加えることさえもできる。図3は、ユーザがSAOCビットストリームに含まれている個々のオブジェクトを制御することを可能にする対話型インターフェースを示す。レンダリング・マトリックスにより、個々のサウンド・オブジェクトは、スピーカ・チャンネルにマッピングされる。
実際に、空間サウンドをレンダリングするために使用されるレンダリング構成における種類及び柔軟性は、ますます多くの再生形式が主流の消費者に利用可能になるにつれ、近年、大幅に増大してきた。これにより、オーディオの柔軟性のある表現が必要になっている。MPEGサラウンド符号復号化器の導入に伴い、重要なステップが取られている。それにもかかわらず、オーディはまだ生産され、特定のスピーカのセットアップ用に伝送される。異なるセットアップにおける及び非標準(即ち、柔軟性のある、又はユーザ定義の)スピーカ・セットアップにおける再生は、規定されていない。
この問題は、再生チャンネルの代わりにオーディオ・オブジェクトを伝送するSAOCによって部分的に解決することができる。これにより、復号化器側では、空間が十分にスピーカによってカバーされていることを条件に、空間における任意の位置にオーディオ・オブジェクトを配置することが可能である。このようにして、伝送されるオーディオと再生セットアップとの間には何も関係がなく、従って、任意のスピーカ・セットアップを使用することができる。このことは、例えば、スピーカが意図された位置にほぼない、典型的な居間におけるホーム・シネマのセットアップに有利である。SAOCにおいて、オブジェクトをサウンド・シーンのどこに配置するかは復号化器側で決定されるが、それは、芸術的観点からは、しばしば所望されない。SAOC規格は、ビットストリームにおけるデフォルト・レンダリング・マトリックスを伝送する方法を提供し、復号化器の責任を排除する。しかし、提供された方法は、固定された再生セットアップ又は指定のないシンタックスのどちらかを利用する。従って、SAOCは、スピーカ・セットアップから独立してオーディオ・シーンを伝送する規範的な手段は提供しない。さらに重要なことには、SAOCは、拡散信号成分の忠実なレンダリングに対する態勢が十分に整っていない。拡散サウンドを捕捉するいわゆるマルチチャンネル・バックグラウンド・オブジェクトを含む可能性があるが、このオブジェクトは、1つの特定のスピーカ構成に拘束されている。
3Dオーディオ用オーディオ形式の別の仕様は、SRS(Sound Retrieval System)Labsによって始められた業界提携である3Dオーディオ・アライアンス(3DAA)によって開発されている。3DAAは、「現在のスピーカ・フィード・パラダイムから柔軟性のあるオブジェクト・ベース方式への移行を促進する」3Dオーディオの伝送のための標準を開発することに専念している。3DAAでは、個々のサウンド・オブジェクトと共に、古く従来のものであるマルチチャンネル・ダウンミックスの伝送を可能にする、ビットストリーム形式が、定義されることになっている。さらに、オブジェクト位置決めデータが含まれる。3DAAオーディオ・ストリームを生成する原理を図4に示す。
3DAA方式では、サウンド・オブジェクトは、拡張ストリーム内で別々に受け取られ、マルチチャンネル・ダウンミックスから抽出することができる。その結果得られたマルチチャンネル・ダウンミックスは、個々に入手可能なオブジェクトと共にレンダリングされる。
オブジェクトは、いわゆるステムからなり得る。このようなステムは、基本的にグループ化された(ダウンミックスされた)トラック又はオブジェクトである。従って、オブジェクトは、システムにパックされた複数のサブオブジェクトから成ることができる。3DAAにおいて、マルチチャンネル・レファレンス・ミックスを選択されたオーディオ・オブジェクトと共に伝送することができる。3DAAは、オブジェクト毎に3D位置決めデータを伝送する。オブジェクトは、次いで、3D位置決めデータを使用して抽出され得る。或いは、オブジェクトとレファレンス・ミックスとの間の関係を記述した、逆ミックス・マトリックスを伝送することができる。
3DAAの記述から、各オブジェクトに角度と距離を割り当てて、例えば、デフォルトの順方向に対してオブジェクトをどこに配置すべきかを指示することにより、サウンド・シーン情報が、伝送されそうである。このことは、点音源には有用であるが、広い音源(例えば、合唱団や拍手など)を記述しない、又は音場(雰囲気など)を拡散してしまう。すべての点音源がレファレンス・ミックスから抽出されると、周囲のマルチチャンネル・ミックスが残る。SAOCと同様に、3DAAにおける残留は、特定のスピーカ・セットアップに固定される。
従って、SAOC及び3DAAの両方の方式は、復号化器側で個々に操作できる個々のオーディオ・オブジェクトの伝送を組み込む。2つの方式の相違は、SAOCがダウンミックスに対してオブジェクトを特徴付けるパラメータを提供することによって(即ち、オーディオ・オブジェクトが復号化器側でダウンミックスから生成されるように)オーディオ・オブジェクトに関する情報を提供するのに対して、3DAAが完全かつ個々のオーディオ・オブジェクト(即ち、復号化器側でダウンミックスから独立して生成できる)としてオーディオ・オブジェクトを提供することである。
典型的なオーディオ・シーンは、様々な種類のサウンドを含む。具体的には、オーディオ・シーンは、しばしば、いくつかの特定かつ空間的に明瞭な音源を含む。さらに、オーディオ・シーンは、典型的には、一般的な周囲オーディオ環境を表す拡散音成分を含むことができる。このような拡散音は、例えば、残響効果や無指向性雑音などを含むことがある。
重大な問題は、このような異なるオーディオの種類をどのように処理するか、具体的には、異なるスピーカ構成におけるこのような異なるオーディオの種類をどのように処理するかということである。SAOCや3DAAなどの形式は、点音源を柔軟にレンダリングすることができる。しかし、このような方式は、チャンネル・ベースの方式においては有利であり得るが、異なるスピーカ構成における拡散音源のレンダリングは、最適以下のものとなる。
点音源及び拡散音のレンダリングを区別する異なる方式は、「Spatial Sound Reproduction with Directional Audio Coding」by Ville Pulkki、Journal Audio Engineering Society、Vol.55、No.6、June 2007という論文で提案されている。この論文は、ダウンミックスが合成側で空間像の再現を可能にするパラメータと共に伝送される、DirAC(Directional Audio Coding:方向オーディオ符号化)と呼ばれる方式を提案している。DirACで伝達されるパラメータは、方向と拡散性の分析によって得られる。具体的には、DirACは、音源の方位角及び仰角を伝達することに加えて、拡散性の指示も伝達されるものとしている。合成の間、ダウンミックスは、1つが非拡散音に対応し、別の1つが拡散音に対応する、2つのストリームに動的に分けられる。非拡散音ストリームは、点状音源をねらった技法により再現され、拡散音ストリームは、目立つ方向を欠く音の知覚をねらった技法によってレンダリングされる。
論文に記載されているダウンミックスは、ダウンミックスのモノ又はB形式の種類のいずれかである。モノ・ダウンミックスの場合、拡散スピーカ信号が、各スピーカ位置に対して別個の相関除去器を使用してダウンミックスを相関除去することによって得られる。B形式ダウンミックスの場合、仮想マイクロホン信号が、スピーカ位置毎に、再生スピーカの方向にB形式モデリング・カージオイドから抽出される。このような信号は、指向性音源を表す部分と、拡散音源を表す部分とに分割される。拡散成分の場合、「仮想信号」の相関除去バージョンが、スピーカ位置毎に、得られた点音源の寄与に追加される。
しかし、DirACは、空間的に定義された音源及び拡散音の別個の処理を考慮しない一部のシステムにおけるオーディオ品質を改善することができる方式を提供するが、最適以下の音質を提供する傾向がある。具体的には、システムを異なるスピーカ構成に適合させるとき、比較的単純なダウンミックス信号の分割だけに基づいて拡散音を拡散/非拡散成分に特定のレンダリングをすると、拡散音の理想的なレンダリングに達しない結果になる傾向がある。DirACにおいて、拡散信号成分のエネルギーは、入力信号に存在する点音源によって直接決まる。従って、例えば、点音源の存在下で真の拡散信号を生成することは可能ではない。
従って、方式の改善が有利となり、具体的には、柔軟性の増大、オーディオ品質の改善、異なるレンダリング構成への適合の改善、サウンド・シーンの拡散音及び/若しくは点音源のレンダリングの改善並びに/又は性能の改善を可能にする方式が有利となる。
「Spatial Sound Reproduction with Directional Audio Coding」by Ville Pulkki、Journal Audio Engineering Society、Vol.55、No.6、June 2007
従って、本発明は、好ましくは、上記の不利な点の1つ又は複数を一つずつ、又は任意の組合せで、軽減し、緩和し、又は除外することを求める。
本発明の一態様によれば、残留ダウンミックスと少なくとも1つのオーディオ・オブジェクトを特徴付けるデータとを提供する回路であって、残留ダウンミックスが、少なくとも1つのオーディオ・オブジェクトが抽出されたオーディオ・シーンのオーディオ成分のダウンミックスに対応する回路と、残留ダウンミックスの拡散性の程度を示す拡散性パラメータを受け取るための受信機と、第1の変換を残留ダウンミックスに加えることによって空間スピーカ構成のための第1の組の信号を生成するための第1の変圧器であって、第1の変換が拡散性パラメータに依存する第1の変圧器と、第2の変換を残留ダウンミックスに加えることによって空間スピーカ構成の第2の組の信号を生成するための第2の変圧器であって、第2の変換が拡散性パラメータに依存し、残留ダウンミックスの少なくとも1つのチャンネルの相関除去を含む、第2の変圧器と、少なくとも1つのオーディオ・オブジェクトを特徴付けるデータから空間スピーカ構成のための第3の組の信号を生成するための回路と、第1、第2及び第3の組の信号を組み合わせることにより空間スピーカ構成の出力の組の信号を生成するための出力回路と、を備え、拡散性パラメータが方向依存性である、空間オーディオ・レンダリング装置が提供される。
本発明は、改善されたオーディオ・レンダリングを提供することができる。具体的には、本発明は、多くの実施形態において、並びに多くの異なるオーディオ・シーン及びレンダリング・セットアップに対して、改善されたオーディオ品質及びユーザ体験を提供することができる。多くのシナリオにおいて、本方式は、具体的には、残留ダウンミックスの異なるオーディオ成分の空間特性の改善された考察により、残留ダウンミックスの改善されたレンダリングを提供することができる。
本発明の発明者らは、改善された性能が2種類のオーディオ成分を考察しないことだけによってしばしば実施できることを理解している。実際、従来の方式と対照的に、本発明者らは、少なくとも3種類のオーディ成分、即ち、オーディオ・オブジェクトによって表され、それに応じて抽出することができる特定のオーディオ源、オーディオ・オブジェクトによって表されず、それに応じて、ダウンミックスから抽出できない、特定の空間的に配置されたオーディオ源(例えば、点音源)、及び拡散音源を含むために残留ダウンミックスを引き出すダウンミックスを考察することが有利であることを理解している。従って、本発明者らは、空間的に特定の音声成分及び拡散音成分の両方をレンダリングするために残留ダウンミックスを処理することが有利であり得ることを理解している。本発明者らは、さらに、空間的により特定の音声成分とは別個に拡散音成分をレンダリングすることにより、改善されたオーディオ・レンダリングが提供できることを理解している。本発明者らは、音声成分によっては、拡散でありながらしかも空間特性も示し得ること、及びこのような部分的に拡散音源の改善された空間レンダリングが改善された音質を提供することも理解している。
方向依存性の拡散性パラメータを使用することにより、例えば、復号化器が、残留ダウンミックスの改善されたレンダリングを提供するレンダリング側の処理を制御することが可能になり、(特に)拡散又は部分的拡散音声成分のレンダリングが様々な空間スピーカ構成に適合することが、特に、可能になり得る。
実際、方式は、多くのシナリオにおいて、レンダリングが残留信号における点音源及び(部分的に)拡散音成分の両方の適当な処理を提供する、柔軟なスピーカ位置に対する残留音場の改善されたレンダリングを提供することができる。例えば、点状音源は、パニングを使用して所与の構成に適合することができ、拡散成分は、均一の非指向性再現を提供するために、利用可能なスピーカに配分することができる。音場は、部分的拡散音成分、即ち、一部拡散成分と一部非拡散成分とをもつ音源から成ることもできる。以下において、拡散信号成分への参照は、それに応じて、部分的拡散信号成分への参照を含むことも意図されている。
本方式において、残留ダウンミックスは、非拡散音成分に適したレンダリングと、拡散音成分に適したレンダリングの両方を提供するために並行して処理される。具体的には、第1の組の信号は、非拡散音成分を表すことができ、第2の組の信号は拡散音成分を表すことができる。具体的には、方式は、特定の音源に適した方式(例えば、パニング)により残留ダウンミックスの空間的に特定の音源をレンダリングする第1の組の信号もたらし、第2の組の信号が拡散音に適した拡散音レンダリングを提供することを可能にする。さらに、復号化器側で生成できる指向性依存の拡散性パラメータに応答するこのような処理により、両方の種類のオーディオ成分の適当な、及び、改善されたレンダリングが実施できる。さらに、方式において、特定のオーディオ源を、オーディオ・オブジェクト処理及び操作を使用してレンダリングすることができる。従って、この方式により、オーディオ・シーンにおける3種類の音声成分の効率的なレンダリングが可能となり、それにより、改善されたユーザ体験を提供することができる。
第2の変圧器による相関除去の適用によって、拡散音成分の改善された知覚がもたらされ、具体的には、空間的により一層定義された音声成分として再現される残留ダウンミックスの部分から区別することが可能になる(即ち、第2の組の信号からのレンダリングされた音声が、第1の組の信号からのレンダリングされた音声から知覚的に区別することが可能になる)。相関除去は、特に、残留ダウンミックスに想定された位置と、空間スピーカ構成の実際の位置との間にスピーカ位置の不整合があるとき、改善された拡散音の知覚を提供することができる。実際、並列経路における処理により、例えば、残留ダウンミックス内の点音源に対する空間特性を維持しながら、相関除去は、システム内で適用することができる拡散性の改善された知覚を提供する。拡散/非拡散レンダリングの相対的な重み付けは、残留ダウンミックスにおける拡散音と非拡散音との間の実際の関係に依存することができる。このことは、復号化器側で求めることができ、レンダリング側に拡散パラメータを介して伝達することができる。レンダリング側は、それに応じて、例えば、残留ダウンミックスにおける拡散音対非拡散音の比率によりその処理を適合させることができる。従って、システムは、改善されたレンダリングを提供することができ、具体的には、残留ダウンミックスに関連した空間レンダリングの仮定と、レンダリング側で使用される実際の空間スピーカ構成との間の差に対してよりずっと強固であり得る。これにより、特に、多くの異なるレンダリング・スピーカ・セットアップへの改善された適合を実施することができるシステムを提供することができる。
残留ダウンミックスを提供するための回路は、具体的に、残留ダウンミックスを受け取る又は生成することができ得る。例えば、残留ダウンミックスを、外部又は内部の音源から受け取ることができる。いくつかの実施例においては、残留ダウンミックスは、復号化器から生成し、受け取ることができる。他の実施形態においては、残留ダウンミックスは、オーディオ・レンダリング装置によって、例えば、受け取ったダウンミックス及びオーディオ・オブジェクトを特徴付けるデータから生成することができる。
残留ダウンミックスは、特定の空間構成に関連し得る。空間構成は、レンダリング・スピーカ(現実又は仮想のスピーカであり得る)の位置の基準、参照、又は仮定の空間構成など、レンダリング・スピーカ構成であり得る。いくつかのシナリオにおいて、残留ダウンミックスの空間構成は、残留ダウンミックスの音声成分をもたらすマイクロホン構成などの、音声(音場)捕捉構成に関連することができる。このような構成の一つの実施例は、残留ダウンミックスの表現として使用することができるB形式表現である。
空間スピーカ構成は、現実又は仮想の音響変換器の空間構成でよい。具体的には、出力の組の信号の各信号/チャンネルは、所与の空間位置に関連することができる。信号は、次に、聴取者にこの位置から届くようにみえるようにレンダリングされる。
オーディオ・オブジェクトを特徴付けるデータは、相対的な特徴付け(例えば、ダウンミックス(復号化器から受け取ることもできる)に相対的な)によりオーディオ・オブジェクトを特徴付けることができ、或いはオーディオ・オブジェクトの絶対的な及び/又は完全な特徴付け(完全な符号化オーディオ信号などの)であり得る。具体的には、オーディオ・オブジェクトを特徴付けるデータは、どのようにオーディオ・オブジェクトがダウンミックスから生成されるかを記述した空間パラメータでよく(SAOCにおける場合など)、又はオーディオ・オブジェクトの独立した表現でよい(3DAAにおける場合など)。
オーディオ・オブジェクトは、表現されるオーディオ環境における単一音源に対応するオーディオ信号成分でよい。具体的には、オーディオ・オブジェクトは、オーディオ環境における1つの位置だけからのオーディオを含むことができる。オーディオ・オブジェクトは、関連する位置を有することができるが、任意の特定のレンダリング音源構成に関連しなくてよく、具体的には、任意の特定のスピーカ構成に関連しなくてよい。
本発明の任意選択の特徴により、拡散性パラメータは、残留ダウンミックスの異なるチャンネルに対して個々の拡散性の値を含む。
このことは、多くの実施形態において特定の有利なオーディオ・レンダリングを提供することができる。特に、マルチチャンネル・ダウンミックスの各チャンネルは、空間構成(例えば、現実の又は仮想のスピーカ・セットアップ)に関連することができ、指向性依存の拡散性パラメータは、このようなチャンネル/指向性の各々に対して個々の拡散性の値を提供することができる。具体的には、拡散性パラメータは、各ダウンミックス・チャンネルにおける非拡散性に対する拡散性の重み/比率を指示することができる。これにより、レンダリングを個々のダウンミックス・チャンネルの特定の特性に適合させることができ得る。
いくつかの実施例においては、拡散性パラメータは、周波数依存であってよい。これにより、多くの実施形態及びシナリオにおいて改善されたレンダリングが可能となる。
本発明の任意選択の特徴により、出力信号における第1の変換の寄与に対して第2の変換の寄与は、増加された拡散性(残留ダウンミックスの少なくとも1つのチャンネル)を指示する拡散性パラメータに対して増加する。
このことは、オーディオ・シーンの改善されたレンダリングを提供することができる。各ダウンミックス・チャンネルの無相関及び相関除去レンダリングの重み付けは、拡散性パラメータに基づき適合させることができ、それにより、レンダリングがオーディオ・シーンの特定の特性に適合することが可能になる。増加した拡散性は、残留ダウンミックスの特定チャンネルから生じる第1の組の信号の成分のエネルギーを増加させ、残留ダウンミックスの特定チャンネルから生じる第2の組の信号の成分のエネルギーを増加させる。
いくつかの実施例において、第1の変換の残留ダウンミックスのチャンネルに対する第1の重みは、増加した拡散性を指示する拡散性パラメータに対して減少し、第2の変換の残留ダウンミックスのチャンネルに対する第2の重みは、増加した拡散性を指示する拡散性パラメータに対して増加する。
本発明の任意選択の特徴により、第1の組の信号及び第2の組の信号の組合せエネルギーは、拡散性パラメータから実質的に独立している。
信号独立値は、残留ダウンミックスのどんな特性からも独立することができる。具体的には、信号独立値は、固定及び/又は規定の値であってよい。この方式は、特に、第1及び第2の組の信号におけるダウンミックス・チャンネルの相対エネルギー・レベルを維持することができる。効果的に、各ダウンミックス・チャンネルは、拡散性パラメータに依存するが他のダウンミックス・チャンネルに対してダウンミックス・チャンネルの全エネルギー・レベルを変化させない分布で、第1の変換及び第2の変換にわたって配分され得る。
本発明の任意選択の特徴により、第2の変圧器は、第1の信号に関連したスピーカ位置から第2の組の信号の異なる信号に関連した少なくとも1つの隣接するスピーカ位置までの距離に応じて、第2の組の信号の第1の信号のオーディオ・レベルを調整するように構成される。
このことは、改善されたレンダリングを提供することができ、具体的には、残留ダウンミックスの拡散音成分の改善されたレンダリングを可能にすることができる。この近接は、角度近接及び/又は最近接スピーカ若しくはいくつかのスピーカまでの距離であり得る。いくつかの実施例において、第1のチャンネルのオーディオ・レベルは、第1のチャンネルに対応するスピーカが最も近いスピーカである聴取位置からの角度間隔に応じて調整することができる。
いくつかの実施例において、空間スピーカ構成は、残留ダウンミックスにおけるいくつかのチャンネルに対応するいくつかのチャンネルを含むことができ、第2の変圧器は、残留ダウンミックスに関連した空間情報に応じて、残留ダウンミックスのチャンネルを空間レンダリング構成のスピーカ位置にマッピングするように構成することができる。
このことは、いくつかの実施例において改善されたレンダリングを提供することができる。具体的には、各ダウンミックス・チャンネルは、基準、参照、又は仮定の空間位置に関連することができ、このことは、これに最も一致するレンダリング構成のスピーカ位置に整合させることができる。
本発明の任意選択の特徴により、残留ダウンミックスは、空間スピーカ構成のいくつかのスピーカ位置より少ないチャンネルを含み、第2の変圧器は、複数の相関除去を残留ダウンミックスの少なくとも第1のチャンネルに適用することにより、第2の組の信号の複数の信号を生成するように構成される。
このことは、拡散音の特に有利なレンダリングを提供することができ、改善されたユーザ体験を提供することができる。
本発明の任意選択の特徴により、第2の変圧器は、複数の相関除去を残留ダウンミックスの第2のチャンネルに適用することにより、第2の組の信号のさらに複数の信号を生成するように構成され、第2のチャンネルは、少なくともいくつかの第1のチャンネルのうちの1つのチャンネルではない。
このことは、拡散音の特に有利なレンダリングを提供することができ、改善されたユーザ体験を提供することができる。具体的には、追加の拡散音信号を生成するために、複数のダウンミックス・チャンネルを使用することにより、及び多くの実施形態においてすべてのダウンミックス・チャンネルを使用することにより、特に有利な拡散音レンダリングを提供することができる。具体的には、それにより、チャンネル間の相関除去を増大させることができ、従って、拡散性の知覚を上げることができる。
いくつかの実施例において、同じ相関除去を、第1及び第2のチャンネルに適用することができ、それにより、複雑性を低減でき、相関除去され、従って拡散音として知覚される音声信号をそれでも生成することができる。このことは、まだ、相関除去器への入力信号が相関除去される条件で、相関除去された信号を提供することができる。
本発明の任意選択の特徴により、第2の組の信号は、空間スピーカ構成におけるスピーカ位置の数より少ない信号を含む。
いくつかの実施例において、拡散信号は、空間スピーカ構成の1サブセットのスピーカからのみレンダリングすることができる。このことは、多くのシナリオにおいて、拡散音の改善された知覚をもたらすことができる。
いくつかの実施例において、残留ダウンミックスは、空間スピーカ構成のスピーカ位置の数より多いチャンネルを含み、第2の変圧器は、第2の組の信号を生成するとき、残留ダウンミックスの少なくとも1つのチャンネルを無視するように構成される。
このことは、拡散音の特に有利なレンダリングを提供することができ、改善されたユーザ体験を提供することができる。
本発明の任意選択の特徴により、残留ダウンミックスは、空間スピーカ構成のスピーカ位置の数より多いチャンネルを含み、第2の変圧器は、第2の組の信号を生成するとき、残留ダウンミックスの少なくとも2つのチャンネルを組み合わせるように構成される。
このことは、拡散音の特に有利なレンダリングを提供することができ、改善されたユーザ体験を提供することができる。
本発明の任意選択の特徴により、第2の変圧器は、第2の組の信号からオーディオの横方向のレンダリングに対応する第2の組の信号を生成するように構成される。
このことは、拡散音の特に有利なレンダリングを提供することができ、改善されたユーザ体験を提供することができる。
本発明の任意選択の特徴により、受信機は、オーディオ・オブジェクトを含む受け取られたダウンミックスを受け取るように構成され、残留ダウンミックスを提供するための回路は、データ・オブジェクトを特徴付けるデータに応じて少なくとも1つのオーディオ・オブジェクトを生成するように、及び受け取られたダウンミックスから少なくとも1つのオーディオ・オブジェクトを抽出することにより残留ダウンミックスを生成するように構成される。
このことは、多くの実施形態において特に有利な方式を提供することができる。
本発明の任意選択の特徴により、空間スピーカ構成は、残留ダウンミックスの空間音声表現とは異なる。
本発明は、特定の(残留)ダウンミックスを異なるスピーカ構成に適合させるのに特に適切であり得る。この方式は、異なるスピーカ・セットアップへの改善された及び柔軟な適合を可能にするシステムを提供することができる。
本発明の第1の態様によれば、第1のダウンミックスと少なくとも1つのオーディオ・オブジェクトを特徴付けるデータとによってオーディオ・シーンを表す符号化データを生成するための回路と、残留ダウンミックスの拡散性の程度を示す指向性依存の拡散性パラメータを生成するための回路であって、残留ダウンミックスが、少なくとも1つのオーディオ・オブジェクトが抽出される、オーディオ・シーンのオーディオ成分のダウンミックスに対応する、回路と、第1のダウンミックス、少なくとも1つのオーディオ・オブジェクトを特徴付けるデータ、及び指向性依存の拡散性パラメータを含む出力データ・ストリームを生成するための出力回路とを備える空間オーディオ符号化装置が提供される。
第1のダウンミックスは、残留ダウンミックスでよい。いくつかの実施例において、第1のダウンミックスは、オーディオ・シーンのオーディオ成分を含むダウンミックでよく、具体的には、少なくとも1つのオーディオ・オブジェクトを含むダウンミックスでよい、
本発明の一態様によれば、空間オーディオ出力信号を生成する方法が提供され、方法は、残留ダウンミックスと少なくとも1つのオーディオ・オブジェクトを特徴付けるデータとを提供するステップであって、残留ダウンミックスが、少なくとも1つのオーディオ・オブジェクトが抽出されるオーディオ・シーンのオーディオ成分のダウンミックスに対応する、ステップと、残留ダウンミックスの拡散性の程度を示す拡散性パラメータを受け取るステップと、第1の変換を残留ダウンミックスに加えることにより空間スピーカ構成の第1の組の信号を生成するステップであって、第1の変換が拡散性パラメータに依存するステップと、第2の変換を残留ダウンミックスに加えることにより空間スピーカ構成の第2の組の信号を生成するステップであって、第2の変換が拡散性パラメータに依存し、残留ダウンミックスの少なくとも1つのチャンネルの相関除去を含むステップと、少なくとも1つのオーディオ・オブジェクトを特徴付けるデータから空間スピーカ構成の第3の組の信号を生成するステップと、第1、第2及び第3の組の信号を組み合わせることにより空間スピーカ構成の出力の組の信号を生成するステップと、を含み、拡散性パラメータが指向性依存である。
本発明の一態様によれば、第1のダウンミックスと少なくとも1つのオーディオ・オブジェクトを特徴付けるデータとによりオーディオ・シーンを表す符号化データを生成するステップと、残留ダウンミックスの拡散性の程度を示す指向性依存の拡散性パラメータを生成するステップであって、残留ダウンミックスが、少なくとも1つのオーディオ・オブジェクトが抽出されるオーディオ・シーンのオーディオ成分のダウンミックスに対応するステップと、第1のダウンミックス、少なくとも1つのオーディオ・オブジェクトを特徴付けるデータ、及び指向性依存の拡散性パラメータを含む出力データ・ストリームを生成するステップと、を含む空間オーディオ符号化の方法が提供される。
本発明のこのような、及び、他の態様、特徴及び利点は、本明細書において以下に説明する実施形態(複数可)から明らかであり、実施形態(複数可)を参照することにより明らかである。
本発明の諸実施形態を図面を参照して、例示としてのみ説明する。
先行技術による、MPEGサラウンド・システムのいくつかの要素の一つの実施例を示す図である。 MPEG SAOCで可能なオーディオ・オブジェクトの操作を例示する図である。 SAOCビットストリームに含まれる個々のオブジェクトをユーザが制御することが可能になる対話型インターフェースを示す図である。 先行技術による、3DAAのオーディオ符号化の原理の一つの実施例を示す図である。 本発明のいくつかの実施例による、オーディオ・レンダリング・システムの一つの実施例を示す図である。 本発明のいくつかの実施例による、空間オーディオ符号化デバイスの一つの実施例を示す図である。 本発明のいくつかの実施例による、空間オーディオ・レンダリング・デバイスの一つの実施例を示す図である。 空間スピーカ構成の一つの実施例を示す図である。
図5は、本発明のいくつかの実施例による、オーディオ・レンダリング・システムの一つの実施例を示す。システムは、符号化されるオーディオ情報を受け取る空間オーディオ符号化デバイス501を備える。符号化されたオーディオ・データは、適切な通信媒体505を介して空間オーディオ・レンダリング・デバイス503に伝送される。空間オーディオ・レンダリング・デバイス503は、さらに所与の空間スピーカ構成に関連する1組のスピーカに結合される。
空間オーディオ符号化デバイス501に提供されるオーディオ・データは、異なる形式で提供され、異なる方法で生成され得る。例えば、オーディオ・データは、マイクロホンからオーディオ捕捉することができ、及び/又は、例えばコンピュータ・ゲーム用途向けなど合成的に生成されたオーディオでもよい。オーディオ・データは、例えば、特定の合成的に生成されたオーディオ・オブジェクトなど個々のオーディオ・オブジェクトとして符号化され得るいくつかの構成要素、又は例えば単一の楽器など、特定のオーディオ源を捕捉するように構成されたマイクロホンを含むことができる。
各オーディオ・オブジェクトは、典型的には、単一の音源に対応する。従って、オーディオ・チャンネルとは対照的に、特に従来の空間マルチチャンネル信号の特定のオーディオ・チャンネルとは対照的に、オーディオ・オブジェクトは、実質的に異なる位置を有することができる複数の音源からの構成要素を含まない。同様に、各オーディオ・オブジェクトは、音源の全面的表現を提供する。各オーディオ・オブジェクトは、従って、典型的には単一の音源のみに対して空間位置データに関連する。具体的には、各オーディオ・オブジェクトは、音源の単一の及び完全な表現とみなすことができ、単一の空間位置に関連することができる。
さらに、オーディオ・オブジェクトは、どの特定のレンダリング構成とも関連せず、具体的には、音響変換器のどの特定の空間構成とも関連しない。従って、具体的にはサラウンド音響セットアップなど、典型的には特定の空間スピーカ・セットアップに関連する従来の空間音声チャンネルとは対照的に、オーディオ・オブジェクトは、どんな特定の空間レンダリング構成に対しても定義されない。
空間オーディオ符号化デバイス501は、ダウンミックスと1つ又は複数のオーディオ・オブジェクトを特徴付けるデータとを含む符号化信号を生成するように構成される。ダウンミックスは、いくつかの実施例において、オーディオ・シーンの表現に対応するが、オーディオ・オブジェクト・データによって表されるオーディオ・オブジェクトなしの残留ダウンミックスでよい。しかし、しばしば、伝送されたダウンミックスは、ダウンミックスの直接レンダリングがサウンド・シーンのすべてのオーディオ源のレンダリングをもたらすように、オーディオ・オブジェクトを含む。このことは、後方互換性を提供することができる。
符号化オーディオ・ストリームは、直接通信又はブロードキャスト・リンクを含むどんな適切な通信媒体を通しても伝達することができる。例えば、通信は、インターネット、データ網、無線ブロードキャストなどを介してもよい。通信媒体は、代替的または追加的に、CD、Blue−Ray(登録商標)ディスク、メモリ・カードなどの物理的記憶媒体を介してもよい。
空間オーディオ・レンダリング・デバイス503の出力は、空間スピーカ構成に整合するように構成される。空間スピーカ構成は、基準、参照、又は仮定の空間スピーカ構成でよい。従って、オーディオ信号のレンダリングに使用される実際のスピーカ位置は、典型的にはユーザが空間スピーカ構成と実際のスピーカ位置との間の相関を実現可能な限り近くなるように努力するが、空間スピーカ構成から変わることがある。
また、いくつかの実施例においても、空間スピーカ構成は、仮想スピーカを表すことができる。例えば、両耳空間レンダリング・システム(例えば頭部伝達関数に基づく)の場合、オーディオ出力のレンダリングは、例えばサラウンド音響セットアップをエミュレートするヘッドホンを介してもよい。或いは、仮想スピーカの数は、オーディオ・オブジェクトをレンダリングするためにより高い空間分解能を提供する典型的なスピーカ・セットアップよりずっと多くすることができる。
図5のシステムは、従って、オーディオ・オブジェクトをサポートし、具体的にはSAOC及び3DAAからの周知の方式を使用することができる、符号化方式を使用する。
図5のシステムは、従って、オーディオ・オブジェクトを特徴付ける特定のデータによって表される特定のオーディオ・オブジェクトとして一部の音声成分を符号化することによりオーディオ・シーンにおける異なる種類の音声成分の間の第1の区別を提供するのを見ることができ、他の音声成分は、ダウンミックス内で符号化されるだけであり、即ち、このような他の音声成分のために、複数の音源は、典型的にはダウンミックスのチャンネル(複数可)内で共に符号化される。典型的には、この方式は、組合せダウンミックスとしてより多くの拡散音成分を符号化する一方で、特定の位置にパニングすることができるオーディオ・オブジェクトとして特定の点状音源を符号化するのに適している。しかし、本発明の発明者らは、拡散及び非拡散への(具体的にはオーディオ・オブジェクト及び拡散音への)単純な区別は最適以下であると理解している。実際、サウンド・シーンは、典型的には4つの異なる種類の音声成分を含むことができることが理解されている。
1.個々のオーディオ・オブジェクト(以下にOで参照されることがある)として伝送されている空間的に特定の(点状)音源、
2.個々のオーディオ・オブジェクト(以下にOで参照されることがある)として伝送されていない空間的に特定の(点)音源、
3.例えば小さな合唱団用など(以下にOで参照されることがある)、特定の空間発生領域を有する拡散音源、及び
4.無指向性拡散音場、例えば、周囲雑音又は残響(以下にOで参照されることがある)。
従来のシステムは、拡散音成分と非拡散音成分とを区別することを単に求めるだけである。例えば、3DAAは、オーディオ成分が抽出されている残留ダウンミックスの区別されていないレンダリングにより後者の3つのカテゴリーの音声成分のすべてをレンダリングする。しかし、残留ダウンミックスは、一部の空間特性をもつオーディオ源(例えば、点音源、合唱団や拡散信号など一部の指向性をもつ拡散音源)並びに、実質的に空間特性をもたないオーディオ源(雰囲気や残響など)に関係する信号成分を未だに含むので、組み合わせたレンダリングは、最適以下のレンダリングを生じてしまう。
図5のシステムにおいて、情報は、後者のカテゴリーの区別されたレンダリングも可能にする復号化器から提供される。具体的には、拡散性パラメータは、残留ダウンミックスの拡散性の程度を表す復号化器において生成される。これにより、復号化器/レンダラ(renderer)は、残留ダウンミックスを点状音源に適当であるとしてレンダリングすることができる部分と、拡散音に適当であるとしてレンダリングすることができる部分とに分割することが可能になる。拡散性パラメータは、具体的には、それぞれ点音源として及び拡散音としてレンダリングすべき各ダウンミックス・チャンネルの比率がどのくらい大きいかを指示することができる。拡散性パラメータは、2つの種類のオーディオ成分をうまく分けることを可能にするパラメータであり得る。例えば、拡散性パラメータは、復号化器において異なるオーディオ成分をどのようにレンダリングすることができるかを特徴付けるフィルタ・パラメータを含むことができる。
さらに、拡散性パラメータは、指向性依存であり、それにより、空間特性を拡散音に再現することが可能になる。例えば、拡散性パラメータは、ダウンミックスの各チャンネルが異なる空間レンダリング位置に関連したダウンミックスの異なるチャンネルに点音源と拡散音との異なる部分を指示することができる。このことは、各ダウンミックス・チャンネルの異なる比率をそれぞれ非拡散音と拡散音とにレンダリングする空間オーディオ・レンダリング・デバイス503によって使用され得る。具体的には、第2の種類(O2)の音源の拡散性及び指向性の量により、これらは、点音源(O1)又は拡散音(O3)のいずれかとして部分的にレンダリングすることができる。
指向性依存の拡散性パラメータは、改善された適合を様々なレンダリング・スピーカ構成に提供することもできる。この方式は、再生セットアップから独立した拡散音場の特徴付けを使用する。空間オーディオ符号化デバイス501から伝送されたデータ・ストリームは、空間オーディオ符号化デバイス501によって、所与のスピーカ・セットアップ用のスピーカ信号に変換され得る。
図5のシステムにおいて、空間オーディオ符号化デバイス501に提供されるオーディオ・データは、ダウンミックス・マトリックス(D)を使用してダウンミックス(古く従来のものであるサラウンド音響レンダリング機器によって容易にレンダリングすることができる5.1チャンネル・ダウンミックスなど)を作り出すのに使用される。いくつかのオーディオ・オブジェクト(O)は、互換性のあるダウンミックスと共に伝送される。オブジェクト選択プロセスの一部として、拡散性パラメータΨc,fが、例において、各ダウンミックス・チャンネル(指数c)及び(任意選択で)周波数帯(指数f)に提供される特定の値により決定される。
空間オーディオ・レンダリング・デバイス503において、オーディオ・オブジェクト(O)が抽出された受け取られたダウンミックスに対応する残留ダウンミックス(従って、O+O+Oを含む残留ダウンミックス)は、ダウンミックス・マトリックスDを使用して決定される。残留ダウンミックスは、次に、拡散性パラメータΨc,fに基づいてレンダリングされる。
例えば、拡散信号成分は、拡散性パラメータΨc,fを使用して点音源成分から分離することができる。その結果得られた点音源成分は、次いで、現在のレンダリング構成のスピーカ位置までパニングすることができる。拡散信号成分は、まず、相関除去され、次いで、例えば、対応するダウンミックス信号の意図されたスピーカ位置の位置に最も近いスピーカ位置からレンダリングされる。拡散成分と直接成分との間の空間不一致により、相関除去は改善されたオーディオ品質を提供することができる。拡散しているが、空間特性を有する音声成分の分布は、拡散音成分として及び分離が拡散性パラメータΨc,fに基づく空間的に特定の音声成分として一部がレンダリングされる。従って、空間オーディオ符号化デバイス501によって生成された拡散性パラメータΨc,fは、空間オーディオ・レンダリング・デバイス503を、これがオリジナルのオーディオ・シーンにより近く対応するように、残留ダウンミックスの区別されたレンダリングを実施することを可能にする残留ダウンミックスの特性に基づく情報を提供する。或いは、拡散信号は、パニングを使用し、その後に相関除去により、スピーカ構成の意図された位置にレンダリングすることができる。相関除去は、パニングにより導入された相関を除去する。この方式は、空間特性をもつ拡散成分において特に有益である。
図6は、空間オーディオ符号化デバイス501の一部の要素をより詳細に示す。空間オーディオ符号化デバイス501は、オーディオ・シーンを記述するオーディオ・データを受け取る符号化器601を備える。実施例において、オーディオ・シーンは、全4種類の音声O、O、O、Oの音声成分を含む。オーディオ・シーンを表すオーディオ・データは、個々のサウンドの種類の各々を特徴付ける離散及び個々のデータとして提供することができる。例えば、合成オーディオ・シーンを生成することができ、各オーディオ源に対するデータを個々の及び別個の組のオーディオ・データとして提供することができる。別の一つの実施例として、オーディオ・データは、例えば、オーディオ環境において音声を捕捉する複数のマイクロホンによって生成されるオーディオ信号で表すことができる。いくつかのシナリオにおいては、別個のマイクロホン信号をオーディオ源毎に提供することができる。代替的または追加的に、個々の音源の一部又はすべてを組み合わせて、マイクロホン信号の1つ又は複数にすることができる。いくつかの実施例において、個々の音声成分は、例えば、オーディオ・ビームフォーミングなどにより、組み合わせたマイクロホン信号から引き出すことができる。
符号化器601は、受け取ったオーディオ・データからオーディオ・シーンを表す符号化オーディオ・データを生成することに進む。符号化器601は、ダウンミックス及びいくつかの個々のオーディオ・オブジェクトによってオーディオを表す。
例えば、符号化器601は、入力オーディオ・データによって表されるオーディオ成分をミキシングして適切なダウンミックスにするミキシング動作を実施することができる。ダウンミックスは、例えば、モノ・ダウンミックス、B形式表現・ダウンミックス、ステレオ・ダウンミックス、又は5.1ダウンミックスでもよい。このダウンミックスは、古く従来のものである(非オーディオ・オブジェクト対応)機器によって使用することができる。例えば、5.1空間音響レンダリング・システムは、5.1互換ダウンミックスを直接使用することができる。ダウンミキシングは、任意の適切な方式により実施される。具体的に、ダウンミックスは、空間オーディオ・レンダリング・デバイス503に伝達することもできるダウンミックス・マトリックスDを使用して実施することができる。
ダウンミックスは、ミキシング技術者によって作り出すこともできる。
符号化器は、さらに、いくつかのオーディオ・オブジェクト(O)を特徴付けるオーディオ・データを生成する。このようなオーディオ・オブジェクトは、典型的には、コンサートの捕捉において最も支配的な楽器など、オーディオ・シーンの音源のように最重要点である。このプロセスは、最大許容ビット・レートによって制御することもできる。その意味において、ビット・レート・スケーラブルの解決策が実現される。それらを個々のオーディオ・オブジェクトとして表すことにより、それらは、例えば、エンドユーザが各オーディオ・オブジェクトのオーディオ・レベルを個々にフィルタリングし、位置決めし、及び設定することを可能にするなど、レンダリング側において個々に処理することができる。オーディオ・オブジェクト(O)は、別々のデータとして、即ち、オーディオ・オブジェクトを完全に特徴付けるオーディオ・オブジェクト・データにより(3DAAを使用して可能なように)符号化することができ、又は、例えば、ダウンミックスからオーディオ・オブジェクトをどのように生成するかを記述したパラメータを提供することにより(SAOCでなされるように)、ダウンミックスに対して符号化することができる。
符号化器は、典型的には、意図されたオーディオ・シーンの記述も生成する。例えば、各オーディオ・オブジェクトの空間位置は、空間レンダリング・デバイス(503)が改善されたオーディオ品質を提供することを可能にする。
実施例において、生成されたダウンミックスは、従って、すべての音声成分O、O、O、Oを含むオーディオ・シーン全体を表す。これにより、ダウンミックスは、いかなる複雑な又は一層の処理もする必要がなく、直接レンダリングされることが可能になる。しかし、オーディオ・オブジェクトが抽出され、個々にレンダリングされるシナリオにおいて、レンダラは、ダウンミックス全体をレンダリングすべきでないが、オーディオ・オブジェクトが抽出された後の残りの成分(即ち、O、O、O)だけをレンダリングすべきである。オーディオ・オブジェクトが抽出された音声段のダウンミックスは、残留ダウンミックスと呼ばれ、オーディオ・オブジェクトが除去されるに伴い個々に符号化される音声成分をもつオーディオ・シーンを表す。
多くの実施形態において、符号化器601は、すべてのオーディオ成分(O、O、O、O)を含むダウンミックス、即ち、別々に符号化されたオーディオ・オブジェクト(O)も含むダウンミックスを生成することができる。このダウンミックスは、オーディオ・オブジェクトを特徴付けるデータと共に伝達することができる。他の実施形態において、符号化器601は、別々に符号化されたオーディオ・オブジェクト(O)を含まないが、別々でなく符号化されたオーディオ・オブジェクトだけを含むダウンミックスを生成することができる。従って、いくつかの実施例において、符号化器601は、例えば、関連する音声成分(O、O、O)だけをミキシングし、個々のオーディオ・オブジェクトとして符号化される音声成分を無視することにより、残留ダウンミックスだけを生成することができる。
符号化器601は、さらに、ダウンミックスが供給される拡散性プロセッサ603に結合される。拡散性プロセッサ603は、残留ダウンミックスの拡散性の程度/レベルを示す指向性依存の拡散性パラメータを生成するように構成される。
いくつかの実施例において、拡散性パラメータは、(非残留)ダウンミックスの拡散性の程度/レベルを示すことができる。具体的には、それは符号化器501から伝送される全部のダウンミックスの拡散性の程度を示すことができる。このような場合、復号化器503は、受け取った拡散性パラメータから残留ダウンミックスにおける拡散性の程度を示す拡散性パラメータを生成することができる。実際、いくつかの実施例において、同じパラメータ値を直接使用することができる。他の実施形態において、パラメータ値は、例えば、抽出されたオーディオ・オブジェクトなどのエネルギーを補償することができる。従って、全部の(非残留)ダウンミックスを記述する拡散性パラメータは、本質的に、残留ダウンミックスも記述し、示す。
いくつかの実施例において、拡散性プロセッサ603は、オーディオ・オブジェクトOを含むダウンミックスを受け取り、そのダウンミックスからオブジェクトOを抽出することにより残留ダウンミックスを生成することができる。符号化器601が残留ダウンミックスを直接生成する諸実施形態において、拡散性プロセッサ603は、残留ダウンミックスを直接受け取ることができる。
拡散性プロセッサ603は、あらゆる適切な方法において、指向性依存の拡散性パラメータを生成することができる。例えば、拡散性プロセッサ603は、残留ダウンミックスの各チャンネルを評価して、そのチャンネルの拡散性パラメータを決定することができる。このことは、例えば、残留ダウンミックスのチャンネルにおける、代替的または追加的に、時間における共通のエネルギー・レベル評価することによって行うことができる。その後、拡散成分は、典型的に指向性依存の特性を有する。或いは、残留ダウンミックス・チャンネルに対する成分O及びOの相対的寄与を評価して、拡散性パラメータを引き出すことができる。
いくつかの実施例において、拡散性プロセッサ603は、入力オーディオ・データ及びダウンミックス・マトリックス(D)を直接受け取ることができ、それらから拡散性パラメータを生成することができる。例えば、入力データは、個々の音声成分が拡散なのか又は点状なのかを特徴付けることができ、拡散性プロセッサ603は、ダウンミックスのチャンネル毎に、点状音源から発生した比率に対して拡散音源から発生したチャンネルのエネルギーの比率を指示する拡散性値を生成することができる。
拡散性プロセッサ603は、従って、ダウンミックスのチャンネル毎に拡散音に対応するチャンネルの信号の比率がどのくらい大きいか、及び非拡散音にどのくらい対応するかを指示する、指向性依存の拡散性パラメータを生成する。
拡散性パラメータは、さらに、周波数依存であってよく、具体的には、拡散性パラメータの値の決定は、個々の周波数帯で実施することができる。典型的には、周波数帯は、知覚関係分布を確実にするために全周波数範囲にわたって対数的に分割することができる。
符号化器601及び拡散性プロセッサ603は、符号化器601によって生成されたダウンミックス(即ち、残留ダウンミックス又は全オーディオ・シーン・ダウンミックスのいずれか)と、特徴付けるデータと、オーディオ・オブジェクトと、指向性依存の拡散性パラメータとを含む符号化データ・ストリームを生成する出力回路605に結合される。
図7は、空間オーディオ・レンダリング・デバイス503の諸要素の一つの実施例を示す。空間オーディオ・レンダリング・デバイス503は、空間オーディオ符号化デバイス501から符号化オーディオ・ストリームを受け取る受信機を備える。従って、空間オーディオ・レンダリング・デバイス503は、オーディオ・オブジェクトによって表される音声成分O並びにダウンミックスによって表される音声成分O、O、O及び場合によりOの形でオーディオ・シーンの表現を含む符号化オーディオ・ストリームを受け取る。
受信機701は、オーディオ・オブジェクト・データを抽出し、それらをオーディオ・オブジェクトOを再生するように構成されたオーディオ・オブジェクト復号化器703に供給するように構成される。オーディオ・オブジェクトを再生するための従来の方式を使用することができ、ユーザ固有の空間的位置決め、フィルタリング、又はミキシングなど、ローカル・レンダリング側の操作を加えることができることが明らかであろう。オーディオ・オブジェクトは、空間オーディオ・レンダリング・デバイス503によって使用される所与のスピーカ・セットアップに整合するように再生される。オーディオ・オブジェクト復号化器703は、従って、符号化オーディオ・シーンを再現するために空間オーディオ・レンダリング・デバイス503によって使用される特定の空間スピーカ構成に整合する1組の信号を生成する
図7の例において、符号化オーディオ・ストリームは、オーディオ・シーンの全部のダウンミックスを含む。従って、オーディオ・オブジェクトが、図7の例におけるように、明確にレンダリングされるとき、ダウンミックスのレンダリングは、オーディオ・オブジェクトを含むべきでないが、その代わりに、オーディオ・オブジェクトを含まない残留ダウンミックスに基づくべきである。従って、図7の空間オーディオ・レンダリング・デバイス503は、受信機701及びオーディオ・オブジェクト復号化器703に結合された残留プロセッサ705を備える。残留プロセッサ705は、全部のダウンミックス及びオーディオ・オブジェクト情報を受け取り、次いで、残留ダウンミックスを生成するためにダウンミックスからオーディオ・オブジェクトを抽出することに進む。抽出プロセスは、符号化器601においてダウンミックスにどのようにそれらを含めたのかを補足するオーディオ・オブジェクトを抽出しなければならない。このことは、符号化器側でダウンミックスを生成するのに使用されたオーディオ・オブジェクトに同じミックス・マトリックス動作を加えることによって実施することができ、従って、このマトリックス(D)は、符号化オーディオ・ストリームで伝達され得る。
図7の例において、残留プロセッサ705は、従って、残留ダウンミックスを生成するが、残留ダウンミックスが符号化オーディオ・ストリームに符号化されている実施形態において、これを直接使用できることが理解されよう。
残留ダウンミックスは、拡散音プロセッサ707及び非拡散音プロセッサ709に供給される。拡散音プロセッサ707は、拡散音に適切であるレンダリング方式/技法を使用してダウンミックス信号(の少なくとも一部)をレンダリングすることに進み、非拡散音プロセッサ709は、非拡散音に適切であり、具体的には、点状音源に適切であるレンダリング方式/技法を使用してダウンミックス信号(の少なくとも一部)をレンダリングすることに進む。従って、2つの異なるレンダリング・プロセスは、ダウンミックスに並行して適用され、区別されたレンダリングを提供する。さらに、拡散音プロセッサ707及び非拡散音プロセッサ709は、拡散性パラメータが供給され、拡散性パラメータに応じてそれらの処理を適合させる。
低複雑度の例として、それぞれ拡散音プロセッサ707及び非拡散音プロセッサ709の利得を、拡散性パラメータに応じて変えることができる。具体的には、拡散音プロセッサ707の利得を、拡散性パラメータの増加した値に対して増加させることができ、非拡散音プロセッサ709の利得を、拡散性パラメータの増加した値に対して減少させることができる。従って、拡散性パラメータの値は、拡散レンダリングを非拡散レンダリングに対してどのくらい重み付けするかを制御する。
拡散音プロセッサ707及び非拡散音プロセッサ709は、両方とも、特定のシナリオで使用される空間スピーカ構成によってレンダリングに適切な1組の信号に残留ダウンミックスを変換する残留ダウンミックスに対して変換を加える。
その結果、オーディオ・オブジェクト復号化器703、拡散音プロセッサ707、及び、非拡散音プロセッサ709から得られる信号は、出力ドライバ709に供給され、それらを組み合わせて1組の出力信号にする。具体的には、オーディオ・オブジェクト復号化器703、拡散音プロセッサ707、及び、非拡散音プロセッサ709の各々は、空間スピーカ構成の各スピーカの信号を生成することができ、出力ドライバ709は、各スピーカの信号を組み合わせてそのスピーカの単一の駆動信号にすることができる。具体的には、信号は単純に合計することができるが、いくつかの実施例おいて、組合せは、例えば、ユーザ調整可能とすることができる(例えば、ユーザが非拡散音に対する拡散音の知覚された比率を変更することを可能とする)。
拡散音プロセッサ707は、拡散信号の組の生成において相関除去プロセスを含む。例えば、ダウンミックスのチャンネル毎に、拡散音プロセッサ707は、非拡散音プロセッサ709によって提供される信号に対して相関除去されるオーディオの生成をもたらす相関除去器を適用することができる。これにより、拡散音プロセッサ707によって生成された音声成分は、実際に、特定の位置から発生する音としてよりも拡散音として知覚されることが確実になる。
図7の空間オーディオ・レンダリング・デバイス503は、従って、レンダリングされた音声の知覚された拡散性に対して各経路が異なる特性を提供する、3つの並列経路によって生成された音声成分の組合せとして出力信号を生成する。各経路の重み付けは、レンダリングされたオーディオ段に対して所望の拡散性特性を提供するように変えることができる。さらに、この重み付けは、符号化器によって提供されたオーディオ・シーンにおける拡散性の情報に基づいて調整することができる。さらに、指向性依存の拡散性パラメータの使用により、拡散音はいくつかの空間特性でレンダリングすることが可能になる。さらに、システムは、空間オーディオ・レンダリング・デバイス503が受け取られた符号化オーディオ信号を多くの異なる空間スピーカ構成でレンダリングするように適用することを可能にする。
図7の空間オーディオ・レンダリング・デバイス503において、拡散音プロセッサ707及び非拡散音プロセッサ709からの信号の相対的寄与は、拡散性パラメータの増加する値(即ち、増加する拡散性を示す)が非拡散音プロセッサ709の寄与に対して出力信号における拡散音プロセッサ707の寄与を増加させるように、重み付けされる。従って、符号化器によって指示された増加する拡散性は、ダウンミックスから生成された非拡散音に比率較してダウンミックスから生成された拡散音のより高い比率を含む出力信号をもたらす。
具体的には、残留ダウンミックスの所与のチャンネルに対して、非拡散音プロセッサ709の第1の重み又は利得は、増加する拡散性パラメータの値に対して減少させることができる。同時に、拡散音プロセッサ707の第2の重み又は利得は、増加する拡散性パラメータの値に対して増加させることができる。
さらに、いくつかの実施例において、第1の重み及び第2の重みは、2つの重みの組合せが実質的に信号依存の値を有するように決定することができる。具体的には、第1の重み及び第2の重みは、拡散音プロセッサ707及び非拡散音プロセッサ709によって生成された信号の組合せエネルギーが実質的に拡散性パラメータの値から独立するように決定することができる。これにより、ダウンミックスから生成された出力信号の成分のエネルギー・レベルが、ダウンミックスに対応することが可能となる。従って、拡散性パラメータの値の変動は、音量の変化として知覚されないが、音声の拡散性特性の変化としてのみ知覚される。
この点において、2つの重みは、707及び709からの2つの経路間の相互相関における適合に応じて異なって生成することが必要であり得る。例えば、拡散成分(O+O)が相関除去器によって処理される場合、エネルギーは、非拡散成分(O)と組み合わせたとき、減少させることができる。このことは、例えば、非拡散成分のより高い利得を使用することにより補償することができる。或いは、出力段(711)における重みは、それに応じて決定することができる。
特定の一つの実施例として、拡散音プロセッサ707及び非拡散音プロセッサ709の処理は、残留ダウンミックスの各チャンネルの単一の利得設定を除けば、拡散性パラメータから独立することができる。
例えば、残留ダウンミックス・チャンネル信号は、拡散音プロセッサ707及び非拡散音プロセッサ709に供給することができる。拡散音プロセッサ707は、信号を
(外1)
Figure 2015509212
倍することができ、次いで拡散音パラメータに依存しない処理(相関除去を含む)を加えることを継続することができる。非拡散音プロセッサ709は、対照的に、信号を
(外2)
Figure 2015509212
倍し、次いで、拡散音パラメータに依存しない処理(相関除去がない)を加えることを継続する。
或いは、拡散性パラメータに依存する係数による拡散信号の乗算は、拡散音プロセッサ707による処理の後又は拡散音プロセッサ707における最後の若しくは中間のステップとして、適用することができる。同様の方式を非拡散音プロセッサ709に適用することができる。
システムにおいて、拡散性パラメータは、ダウンミックス・チャンネル毎に別個の値を設け(複数のチャンネルの場合)、従って、乗算係数(利得)は、異なるチャンネルに対して異なり、それにより、拡散音と非拡散音との間の空間的に区別された分離が可能になるであろう。このことは、改善されたユーザ体験を提供することができ、具体的には、合唱団など、一部の空間特性をもつ拡散音へのレンダリングを改善することができる。
いくつかの実施例において、拡散性パラメータは、周波数依存であってよい。例えば、別個の値を1組の周波数の間隔(例えばERB又はBARK帯)毎に設けることができる。残留ダウンミックスは、周波数帯に変換することができ(又はすでに周波数帯表現であってよく)、拡散性パラメータ依存のスケーリングがその周波数帯で実施される。実際、残りの処理も、周波数領域で実施することもでき、時間領域への変換は、例えば、3つの並列経路の信号が組み合わされた後でしか実施することができない。
拡散音プロセッサ707及び非拡散音プロセッサ709によって加えられる特定の処理は、特定の諸実施形態の特定の好み及び要件に依存することができることが理解されよう。
非拡散音プロセッサ709の処理は、典型的には、処理信号(例えば拡散性パラメータ依存の重み付けの後の残留ダウンミックス)が点状音声成分を含むとの仮定に基づく。従って、それは、残留ダウンミックスのチャンネルに関連した所与の空間位置から空間スピーカ構成の特定の位置におけるスピーカへの信号に変換するパニング技法を使用することができる。
一つの実施例として、非拡散音プロセッサ709は、空間スピーカ構成に対する点状音声成分の位置決めを改善するためにダウンミックス・チャンネルにパニングを適用することができる。拡散成分と対照的に、パニングされた点音源の寄与は、2つ以上のスピーカの間のファントム音源を得るために相関されねばならない。
対照的に、拡散音プロセッサ707の動作は、典型的には、ダウンミックス・チャンネルのチャンネルの空間特性を維持することを求めず、空間特性が除去されるようにチャンネル間に音声を配分しようとする。さらに、相関除去により、音声は、非拡散音プロセッサ709から生じる音声とは区別されるように、またレンダリング・スピーカの空間位置と想定された空間位置との間の相違の影響が軽減するように、知覚されることが確実になる。拡散音プロセッサ707が異なる空間スピーカ構成に対してレンダリング信号をどのように生成できるかを示すいくつかの例を説明する。
説明されたシステムの方式は、符号化オーディオ・ストリームを異なる空間レンダリング構成に適合させるのに特に適している。例えば、異なるエンドユーザは、異なる空間スピーカ構成で(即ち、異なる現実の又は仮想のオーディオ変換器の位置で)、同じ符号化オーディオ信号を使用することができる。例えば、エンドユーザによっては、5つの空間チャンネル・スピーカを有することがあり、他のユーザは、7つの空間チャンネル・スピーカなどを有することがある。また、所与の数のスピーカ位置は、異なるセットアップ間で又は実際に同じセットアップに対して時間と共に実質的に変化することがある。
図5のシステムは、従って、N空間チャンネルを使用する残留ダウンミックス表現から、M現実又は仮想スピーカ位置をもつ空間レンダリング構成に変換することができる。以下の説明は、異なる空間スピーカ構成を使用していかに拡散音をレンダリングすることができるかということに焦点を当てている。
拡散音プロセッサ707は、まず、相関除去をチャンネルの信号に適用すること(及び拡散性パラメータに従ってスケーリングすること)によりダウンミックスの各チャンネルから1つの拡散信号を生成することができ、それにより、N拡散信号を生成することができる。
さらなるオペレーションは、ダウンミックスに対して空間スピーカ構成の特性に、及び具体的には各々の空間チャンネルの相対数に(即ち、残留ダウンミックス/生成された拡散音信号におけるチャンネルの数N及び空間スピーカ構成における現実の又は仮想のスピーカの数Mに)依存してよい。
まず、空間スピーカ構成は、聴取環境において等距離で配分することができないことが留意される。例えば、図8に示すように、スピーカの集中は、しばしば、側面また後面方向よりも前面方向のほうが高くなることがある。
このことは図5のシステムによって考慮することができる。具体的には、拡散音プロセッサ707は、スピーカ間の近接度により、生成された拡散信号のオーディオ・レベル/利得を調整するように構成することができる。例えば、所与のチャンネルのレベル/利得は、そのチャンネルのスピーカ位置及び拡散レンダリングにも使用される最も近いスピーカ位置又はいくつかの位置からの距離に依存してよい。この距離は、角距離でよい。このような方式は、スピーカが典型的には等しく配分されていないことに対処することができる。従って、拡散音信号が生成された後、個々のスピーカにおける出力は、均一な拡散音場を提供するように調整される。或いは、拡散性には、個々のスピーカにおける出力を調整することにより、空間成分を与えることができる。
均一な音場を提供するように出力を調整するための1つの方式は、円(又は3Dの場合の球)を単一のスピーカ(図8に示すように)によって表されるいくつかの区域に分割することである。相対的出力分布は、次に、次式で求めることができる。
(外3)
Figure 2015509212
ここで、θは、スピーカkに対応する区域の角度幅を表す。同様に、3Dの場合、相対的出力分布は、スピーカによって表される球上の相対的表面によって求めることができる。
いくつかの実施例において、最初の生成された拡散信号の数(ダウンミックスにおけるチャンネルの数に対応する)は、空間スピーカ構成におけるスピーカ位置の数に一致してよい。即ち、NはMに等しくすることができる。
いくつかの実施例において、空間スピーカ構成が残留ダウンミックスにおけるチャンネルの数に対応するいくつかのチャンネルを備える場合、拡散音プロセッサ707は、残留ダウンミックスに関連した空間情報に応じて残留ダウンミックスのチャンネルを空間レンダリング構成のスピーカ位置にマッピングするように構成することができる。代替的または追加的に、それらは単純に無作為にマッピングすることができる。従って、N=Mの場合、拡散信号は、残留ダウンミックス・チャンネルの空間情報により又は無作為にマッピングすることができる。
具体的には、システムは、生成されたN拡散音信号の角度(符号化器に伝送されたとき)とスピーカ位置の角度との間の最良の一致を見出すように努めることによりこれを行うことができる。このような情報が利用できない場合、信号は任意の順序で表すことができる。
多くのシナリオにおいて、残留ダウンミックスのチャンネルの数、従って最初に生成された拡散チャンネルの数は、空間オーディオ・レンダリング・デバイス503によって出力された空間チャンネルの数よりも少なくすることができる。即ち、空間スピーカ構成におけるスピーカ位置の数は、残留ダウンミックス・チャンネルの数より少なく、N<Mであってよい。
このようなシナリオにおいて、1つ以上の相関除去は、残留ダウンミックスのチャンネルの少なくとも1つに適用することができる。従って、2つ以上の相関除去されたオーディオ信号は、単一の残留ダウンミックス・チャンネルから生成される2つ以上の拡散音信号をもたらす単一のダウンミックス・チャンネルから生成することができる。2つの異なる相関除去を同じチャンネルに適用することにより、結果として得られる信号は、互いに相関除去されるように生成することもでき、それにより、拡散音を提供することができる。
残留ダウンミックスが2つ以上のチャンネルを含み、2つ以上の追加の出力チャンネルが生成されるシナリオにおいて、1つより多い残留ダウンミックス・チャンネルを使用することが典型的には有利であろう。例えば、2つの新しい拡散音信号が生成され、残留ダウンミックスがステレオ信号である場合、一方の新しい拡散音信号は、相関除去をステレオ・ダウンミックス・チャンネルの1つに適用することにより生成することができ、他方の新しい拡散音信号は、相関除去を他方のステレオ・ダウンミックス・チャンネルに適用することにより生成することができる。実際、2つのステレオ・ダウンミックス・チャンネルの拡散音は、典型的には、強く相関除去されるので、同じ相関除去を2つのステレオ・ダウンミックス・チャンネルに順次適用して、2つの新しい拡散音信号を生成することができ、その信号は、残留ダウンミックス・チャンネルの拡散音に対して相関除去されるだけでなく、互いに対しても相関除去される。
相関除去された信号を生成するとき、空間スピーカ構成を考慮することは有利であり得る。例えば、残留ダウンミックス・チャンネルの拡散音は、対応するダウンミックス・チャンネルの意図された空間位置に空間的に最も近い構成でスピーカにマッピングすることができる。相関除去された信号は、最も近いダウンミックス・チャンネルを相関除去器への入力として使用して、残りのスピーカに供給することができる。
従って、スピーカ・セットアップにおけるスピーカの数が残留ダウンミックスにおけるチャンネルの数より大きい一実施形態において、追加の拡散音信号を生成する必要があり得る。
例えば、モノラルの残留ダウンミックスを受け取った場合、それらに相関除去を適用することにより追加の拡散音信号を生成することができる。異なる相関除去をモノラルの残留ダウンミックスなどに適用することにより第3の拡散音信号を生成することができる。
この方式は、さらに個々の相関除去の適当なスケーリングを導入して拡散音へのエネルギー保存を提供できることが理解されよう。従って、拡散音場信号生成に関与する処理は、拡散音源の総エネルギーが確実に同じままであるようにするために、単に相関除去を適用するステップ及び任意選択のスケーリングをするステップから成ることができる。
残留ダウンミックスの1つ以上のチャンネルが存在する、即ち、N>1である場合、残留ダウンミックが実用であり得る限り多くのチャンネルを使用して、バランスのとれた方法で、追加の拡散音信号を引き出すことは、典型的には有利である。例えば、残留ダウンミックスの2つのチャンネルが伝送され、4つの拡散音信号が必要である場合、3つ又は4つの相関除去を残留ダウンミックス・チャンネルの1つに適用するよりも、2つの相関除去を2つの残留ダウンミックス・チャンネルの各々に有利に適用することができる。
多くの場合、残留ダウンミックスから拡散音信号を使用し、1つ又は複数の相関除去器を使用して欠落信号だけを生成することは有利であり得る。
追加の拡散音信号を生成する相関除去は、残留ダウンミックスの信号に直接適用する必要はないが、すでに相関除去された信号に適用することはできることが理解されよう。例えば、第1の拡散音信号が残留ダウンミックスの信号に相関除去を適用することにより生成される。その結果得られる信号は、直接レンダリングされる。さらに、第2の拡散音信号が第1の拡散音信号に第2の相関除去を適用することにより生成される。この第2の拡散音信号は、次いで、直接レンダリングされる。この方式は、2つの異なる相関除去を直接残留ダウンミックスの信号に適用することに等しく、その場合、第2の拡散音信号の相関除去全体は、第1及び第2の相関除去の組合せに対応する。
追加の拡散音信号を生成する相関除去は、拡散音プロセッサ707によって拡散成分の推定がなされた後にも適用できることが理解されよう。このことは、相関除去に入力された信号がより適切な性質をもち、それによりオーディオ品質を向上させるという利点がある。
このような方式は、第2の相関除去ステップが複数の第1の相関に、即ち複数の残留ダウンミックス・チャンネルに再使用できるので、多くの実施形態において特に効率的であり得る。
いくつかのシナリオにおいて、拡散音プロセッサ707は、空間スピーカ構成のスピーカ位置よりも少ない拡散音信号を生成するように構成することができる。実際、いくつかのシナリオにおいて、それは改善された拡散音の知覚を提供して、1サブセットのスピーカ位置だけから拡散音をレンダリングすることができる。拡散音場を測定すること(例えば、音場マイクロホンのマイクロホン信号が強く相関される)又は相互に相関除去された拡散音信号を効率的に合成することは、いずれも、しばしば困難である。多数のスピーカを用いて、全スピーカに対する追加されたレンダリング拡散信号の値は限定され、場合によっては、相関除去器の使用は、より大きな悪影響があり得る。従って、いくつかのシナリオにおいて、スピーカへの少数の拡散音信号だけをレンダリングすることは、好ましくあり得る。スピーカ信号が相互に相関される場合、このことは、小さな最適聴取場所を結果として生じる。
いくつかの実施例又はシナリオにおいて、残留ダウンミックスのチャンネルの数は、空間スピーカ構成におけるスピーカの数を超える、即ちN>Mであり得る。この例において、残留ダウンミックスのチャンネル(具体的にはN−Mチャンネル)の数は、単純に無視することができ、M拡散音信号だけを生成することができる。従って、この例において、1つの相関を残留ダウンミックスのMチャンネルの各々に適用することができ、それにより、M拡散音信号を生成することができる。使用される残留ダウンミックス・チャンネルは、空間スピーカ構成のスピーカ位置に角度の点で最も近いものとして選択することができ、又は、例えば単純に無作為に選択することができる。
他の実施形態において、ダウンミックス・チャンネルは、相関除去の前後いずれかで組み合わせることができる。例えば、2つのダウンミックス・チャンネルを合計し、相関除去を合計信号に適用して拡散音信号を生成することができる。他の実施形態において、相関除去を2つのダウンミックス信号に適用することができ、その結果得られた相関除去された信号を合計することができる。このような方式は、すべての(拡散)音声成分が出力拡散信号に表されることを確実にすることができる。
いくつかの実施例において、拡散音プロセッサ707は、拡散音信号が空間スピーカ構成の(公称又は参照)聴取位置の横向きレンダリング(sideways rendering)に対応するように、拡散音信号を生成するように構成することができる。例えば、2つの拡散チャンネルは、公称又は参照正面方向の対向側面(右及び左に対して75°から105°の間)からレンダリングすることができる。
従って、相関除去プロセスを介して追加の信号を生成する低複雑度の代替として、拡散音場の合成は、対象の左側及び右側の位置に対して、即ち、前面聴取/鑑賞方向に対しておよそ+/−90°の角度で、少数の(仮想)拡散音信号を生成することによって行うことができる。例えば、N=2であり、信号が正規の5.1セットアップ(−110°、−30°、0°、+30°及び−110°)に対して生成される場合、2つの仮想拡散音信号は、第1の拡散音信号を左サラウンド(−110°)スピーカと左前面(−30°)スピーカとの間に約−90°でパニングすることにより生成することができ、第2の拡散音信号は、右前面(+30°)スピーカと右サラウンド(+110°)スピーカとの間に約+90°でパニングすることができる。関連する複雑度は、典型的には、追加の相関除去を使用するときより低い。しかし、代償として、知覚された拡散音場の品質は、例えば、頭部を回転させた(相関が増大した)とき又は最適聴取場所の外側に移動した(先行音効果)とき、低下することがある。
モノ・ダウンミックス、ステレオ・ダウンミックス又はサラウンド音響5.1ダウンミックスとしての表現を含む、残留ダウンミックスのあらゆる適切な表現も使用され得ることが理解されよう。
いくつかの実施例において、残留ダウンミックスは、B形式信号表現を使用して記述することができる。この形式は、下記に対応する4つのマイクロホン信号を表す。
1.無指向性マイクロホン、
2.前後方向の8の字形マイクロホン、
3.左右方向の8の字形マイクロホン、及び
4.上下方向の8の字形マイクロホン。
最後のマイクロホン信号は省略されることがあり、それにより、水平面への記述が制限される。B形式表現は、しばしば、実際には、4面体の面上の4つのカージオイド・マイクロホンからの信号に対応するA形式表現から引き出されることがある。
拡散音場がA形式又はB形式の信号表現で記述される場合、例えば、拡散音場が音場マイクロホンを用いて録音されるとき、スピーカ信号はこの表現から引き出すことができる。A形式はB形式に変換でき、それはコンテンツ生成に共通及びより容易に使用されるので、さらなる記述はB形式録音を想定する。
B形式表現の構成信号は、ミキシングして、指向性を制御できる別の仮想マイクロホン信号を表す異なる信号を作り出すことができる。これを行うことにより、意図されたスピーカ位置に向けた仮想マイクロホンを作り出し、対応するスピーカに直接送ることができる信号をもたらすことができる。
明確にするための上記の説明は、異なる機能回路、ユニット及びプロセッサに関して本発明の諸実施形態を説明してきたことが理解されよう。しかし、異なる機能回路、ユニット又はプロセッサの間の機能性のどんな適切な配分も、本発明から逸脱することなく使用できることが明らかであろう。例えば、別々のプロセッサ又は制御器によって実施される図示された機能性は、同じプロセッサ又は制御器によって実施することができる。従って、特定の機能ユニット又は回路への参照は、厳密に論理的又は物理的な構造又は組織を示すよりも、説明された機能性を提供するための適切な手段への参照としてのみ理解されるものである。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含めて、どんな適切な形でも実施することができる。本発明は、1つ又は複数のデータ・プロセッサ及び/又はデジタル信号プロセッサで動作するコンピュータ・ソフトウェアとして少なくとも部分的に任意選択で実施することができる。本発明の一実施形態の諸要素及び諸構成要素は、どんな適切な方法でも、物理的、機能的及び論理的に実施することができる。実際、機能性は、単一のユニットにおいて、複数のユニットにおいて、又は、他の機能ユニットの一部として実施することができる。従って、本発明は、単一のユニットにおいて実施することができ、又は、物理的に及び機能的に異なるユニット、回路及びプロセッサの間に配分することができる。
本発明は、いくつかの実施例に関連して説明されているが、本明細書に記載された特定の形に限定されることを意図していない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。さらに、特徴が特定の実施形態に関連して説明されているようにみえるが、説明された諸実施形態の様々な特徴が本発明により組み合わせることができることが当業者には認識されよう。特許請求の範囲において、含む、という用語は、他の諸要素又は諸ステップの存在を排除しない。
さらに、個々に列挙されているが、複数の手段、要素、回路又は方法ステップは、例えば、単一の回路、ユニット又はプロセッサによって実施することができる。さらに、個々の特徴を異なる請求項に含めることができるが、これらは場合により有利に組み合わせることもでき、異なる請求項への包含は、特徴の組合せが実現可能及び/又は有利ではないことを意味するものではない。また、請求項の1つのカテゴリーへの特徴の包含は、このカテゴリーへの限定を意味せず、特徴が必要に応じ他の請求項のカテゴリーに等しく適用可能であることを示す。さらに、請求項における特徴の順序は、特徴が作用しなければならない、どんな特定の順序も意味せず、具体的には方法の請求項において個々のステップの順序は、ステップがこの順序で実施されねばならないことを意味しない。むしろ、ステップは、どんな適切な順序でも実施することができる。さらに、単数への参照は、複数を排除しない。従って、「1つの」、「第1の」、「第2の」などへの参照は、複数を除外しない。特許請求の範囲における参照符号は、単に、明確にする一つの実施例として提供されるものであり、本特許請求の範囲を限定するものと解釈してはならない。

Claims (15)

  1. 空間オーディオ・レンダリング装置であって:
    残留ダウンミックスおよび少なくとも1つのオーディオ・オブジェクトを特徴付けるデータを提供するための回路であり、前記残留ダウンミックスは、前記少なくとも1つのオーディオ・オブジェクトが抽出されたオーディオ・シーンのオーディオ成分のダウンミックスに対応している、回路と;
    前記残留ダウンミックスの拡散性の程度を示す拡散性パラメータを受け取るための受信機と;
    第1の変換を前記残留ダウンミックスに加えることにより空間スピーカ構成の第1の組の信号を生成するための第1の変圧器であり、前記第1の変換は、前記拡散性パラメータに依存している、第1の変圧器と;
    第2の変換を前記残留ダウンミックスに加えることにより前記空間スピーカ構成の第2の組の信号を生成するための第2の変圧器であり、前記第2の変換は、前記拡散性パラメータに依存し、かつ、前記残留ダウンミックスの少なくとも1つのチャンネルの相関除去を含む、第2の変圧器と;
    前記少なくとも1つのオーディオ・オブジェクトを特徴付ける前記データから前記空間スピーカ構成の第3の組の信号を生成するための回路と;
    前記第1、前記第2、及び、前記第3の組の信号を組み合わせることにより、前記空間スピーカ構成に対する出力の組の信号を生成するための出力回路と;を含み、
    前記拡散性パラメータは指向性依存である、装置。
  2. 前記拡散性パラメータは、前記残留ダウンミックスの異なるチャンネルに対する個々の拡散性の値を含む、
    請求項1に記載の装置。
  3. 前記残留ダウンミックスの少なくとも1つのチャンネルに対して、前記出力信号における前記第1の変換の寄与に関する前記第2の変換の寄与が、増加した拡散性を指示する前記拡散性パラメータに対して増加する、
    請求項1に記載の装置。
  4. 前記第1の組の信号および前記第2の組の信号を組み合わせたエネルギーが、前記拡散性パラメータとは実質的に独立している、
    請求項1に記載の装置。
  5. 前記第2の変圧器は、前記第2の組の信号の異なる信号に関連する少なくとも1つの隣接するスピーカ位置に対する前記第1の信号に関連するスピーカ位置に係る距離に応じて、前記第2の組の信号の前記第1の信号のオーディオ・レベルを調整するように構成されている、
    請求項1に記載の装置。
  6. 前記残留ダウンミックスは、前記空間スピーカ構成のスピーカ位置の数より少ないチャンネルを含み、
    前記第2の変圧器は、前記残留ダウンミックスの少なくとも第1のチャンネルに対して複数の相関除去を適用することにより、前記第2の組の信号の複数の信号を生成するように構成されている、
    請求項1に記載の装置。
  7. 前記第2の変圧器は、前記残留ダウンミックスの第2のチャンネルに対して複数の相関除去を適用することにより、前記第2の組の信号のさらに複数の信号を生成するように構成されており、
    前記第2のチャンネルは、前記少なくとも第1のチャンネルのチャンネルではない、
    請求項6に記載の装置。
  8. 前記第2の組の信号は、前記空間スピーカ構成におけるスピーカ位置の数よりも少ない信号を含む、
    請求項1に記載の装置。
  9. 前記残留ダウンミックスは、前記空間スピーカ構成のスピーカ位置の数よりも多いチャンネルを含み、
    前記第2の変圧器は、前記第2の組の信号を生成するときに、前記残留ダウンミックスの少なくとも2つのチャンネルを組み合わせるように構成されている、
    請求項1に記載の装置。
  10. 前記第2の変圧器は、前記第2の組の信号からのオーディオの横方向のレンダリングに対応する前記第2の信号を生成するように構成されている、
    請求項1に記載の装置。
  11. 前記受信機は、前記オーディオ・オブジェクトを含む受け取られたダウンミックスを受け取るように構成されており、
    前記残留ダウンミックスを提供するための前記回路は、前記データ・オブジェクトを特徴付ける前記データに応答じて少なくとも1つのオーディオ・オブジェクトを生成し、かつ、前記受け取られたダウンミックスから前記少なくとも1つのオーディオ・オブジェクトを抽出することによって前記残留ダウンミックスを生成する、ように構成されている
    請求項1に記載の装置。
  12. 前記空間スピーカ構成は、前記残留ダウンミックスの空間音声表現とは異なる、
    請求項1に記載の装置。
  13. 空間オーディオ符号化装置であって:
    第1のダウンミックスおよび少なくとも1つのオーディオ・オブジェクトを特徴付けるデータによって、オーディオ・シーンを表す符号化データを生成するための回路と;
    残留ダウンミックスの拡散性の程度を示す指向性依存の拡散性パラメータを生成するための回路でり、前記残留ダウンミックスは、前記少なくとも1つのオーディオ・オブジェクトが抽出された前記オーディオ・シーンのオーディオ成分のダウンミックスに対応している、回路と;
    前記第1のダウンミックス、前記少なくとも1つのオーディオ・オブジェクトを特徴付ける前記データ、及び、前記指向性依存の拡散性パラメータを含む出力データ・ストリームを生成するための出力回路と;
    を含む、装置。
  14. 空間オーディオ出力信号を生成する方法であって:
    残留ダウンミックスおよび少なくとも1つのオーディオ・オブジェクトを特徴付けるデータを提供するステップであり、前記残留ダウンミックスは、前記少なくとも1つのオーディオ・オブジェクトが抽出されたオーディオ・シーンのオーディオ成分のダウンミックスに対応している、ステップと;
    前記残留ダウンミックスの拡散性の程度を示す拡散性パラメータを受け取るステップと;
    第1の変換を前記残留ダウンミックスに加えることにより空間スピーカ構成の第1の組の信号を生成するステップであり、前記第1の変換は、前記拡散性パラメータに依存している、ステップと;
    第2の変換を前記残留ダウンミックスに加えることにより前記空間スピーカ構成の第2の組の信号を生成するステップであり、前記第2の変換は、前記拡散性パラメータに依存し、かつ、前記残留ダウンミックスの少なくとも1つのチャンネルの相関除去を含む、ステップと;
    前記少なくとも1つのオーディオ・オブジェクトを特徴付ける前記データから前記空間スピーカ構成の第3の組の信号を生成するステップと;
    前記第1、前記第2、及び、前記第3の組の信号を組み合わせることにより、前記空間スピーカ構成に対する出力の組の信号を生成するステップと;を含み、
    前記拡散性パラメータは指向性依存である、方法。
  15. 空間オーディオ符号化の方法であって:
    第1のダウンミックスおよび少なくとも1つのオーディオ・オブジェクトを特徴付けるデータによって、オーディオ・シーンを表す符号化データを生成するステップと;
    残留ダウンミックスの拡散性の程度を示す指向性依存の拡散性パラメータを生成するステップであり、前記残留ダウンミックスは、前記少なくとも1つのオーディオ・オブジェクトが抽出された前記オーディオ・シーンのオーディオ成分のダウンミックスに対応している、ステップと;
    前記第1のダウンミックス、前記少なくとも1つのオーディオ・オブジェクトを特徴付ける前記データ、及び、前記指向性依存の拡散性パラメータを含む出力データ・ストリームを生成するステップと;
    を含む、方法。
JP2014552731A 2012-01-19 2013-01-17 空間オーディオ・レンダリング及び符号化 Pending JP2015509212A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261588394P 2012-01-19 2012-01-19
US61/588,394 2012-01-19
PCT/IB2013/050419 WO2013108200A1 (en) 2012-01-19 2013-01-17 Spatial audio rendering and encoding

Publications (1)

Publication Number Publication Date
JP2015509212A true JP2015509212A (ja) 2015-03-26

Family

ID=47891796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014552731A Pending JP2015509212A (ja) 2012-01-19 2013-01-17 空間オーディオ・レンダリング及び符号化

Country Status (7)

Country Link
US (2) US9584912B2 (ja)
EP (1) EP2805326B1 (ja)
JP (1) JP2015509212A (ja)
CN (1) CN104054126B (ja)
BR (1) BR112014017457A8 (ja)
RU (1) RU2014133903A (ja)
WO (1) WO2013108200A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017043309A1 (ja) * 2015-09-07 2017-03-16 ソニー株式会社 音声処理装置および方法、符号化装置、並びにプログラム
JP2018518875A (ja) * 2015-04-30 2018-07-12 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオ信号処理装置および方法
CN111108555A (zh) * 2017-07-14 2020-05-05 弗劳恩霍夫应用研究促进协会 使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的概念
JP2020110007A (ja) * 2015-11-17 2020-07-16 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリック・バイノーラル出力システムおよび方法のための頭部追跡
US11463834B2 (en) 2017-07-14 2022-10-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
US11863962B2 (en) 2017-07-14 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2013298462B2 (en) * 2012-08-03 2016-10-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
US9489954B2 (en) * 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
CN110797037A (zh) * 2013-07-31 2020-02-14 杜比实验室特许公司 用于处理音频数据的方法和装置、介质及设备
CN103400582B (zh) * 2013-08-13 2015-09-16 武汉大学 面向多声道三维音频的编解码方法与系统
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
EP3041272A4 (en) * 2013-08-30 2017-04-05 Kyoei Engineering Co., Ltd. Sound processing apparatus, sound processing method, and sound processing program
EP3056025B1 (en) 2013-10-07 2018-04-25 Dolby Laboratories Licensing Corporation Spatial audio processing system and method
EP3059732B1 (en) * 2013-10-17 2018-10-10 Socionext Inc. Audio decoding device
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
EP2925024A1 (en) * 2014-03-26 2015-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio rendering employing a geometric distance definition
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
CN110636415B (zh) * 2014-08-29 2021-07-23 杜比实验室特许公司 用于处理音频的方法、系统和存储介质
US9782672B2 (en) * 2014-09-12 2017-10-10 Voyetra Turtle Beach, Inc. Gaming headset with enhanced off-screen awareness
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US10595147B2 (en) 2014-12-23 2020-03-17 Ray Latypov Method of providing to user 3D sound in virtual environment
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
CN107211227B (zh) 2015-02-06 2020-07-07 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
CN105992120B (zh) * 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
TR201910988T4 (tr) * 2015-09-04 2019-08-21 Koninklijke Philips Nv Bir video görüntüsü ile ilişkili bir audio sinyalini işlemden geçirmek için yöntem ve cihaz
WO2017050482A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Rendering system
EP3375208B1 (en) 2015-11-13 2019-11-06 Dolby International AB Method and apparatus for generating from a multi-channel 2d audio input signal a 3d sound representation signal
US10271157B2 (en) 2016-05-31 2019-04-23 Gaudio Lab, Inc. Method and apparatus for processing audio signal
US10419866B2 (en) * 2016-10-07 2019-09-17 Microsoft Technology Licensing, Llc Shared three-dimensional audio bed
US10123150B2 (en) * 2017-01-31 2018-11-06 Microsoft Technology Licensing, Llc Game streaming with spatial audio
US20180315437A1 (en) * 2017-04-28 2018-11-01 Microsoft Technology Licensing, Llc Progressive Streaming of Spatial Audio
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
WO2019002909A1 (en) * 2017-06-26 2019-01-03 Latypov Ray METHOD FOR PROVIDING AN INTERACTIVE MUSICAL COMPOSITION TO A USER
CN114286277A (zh) 2017-09-29 2022-04-05 苹果公司 使用体积音频渲染和脚本化音频细节级别的3d音频渲染
EP3711047B1 (en) 2017-11-17 2022-10-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions
US11322164B2 (en) * 2018-01-18 2022-05-03 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
JP7261807B2 (ja) * 2018-02-01 2023-04-20 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ハイブリッドエンコーダ/デコーダ空間解析を使用する音響シーンエンコーダ、音響シーンデコーダおよびその方法
GB2572419A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2572420A (en) 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
BR112021007089A2 (pt) * 2018-11-13 2021-07-20 Dolby Laboratories Licensing Corporation processamento de áudio em serviços de áudio imersivos
GB201818959D0 (en) 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
CA3199318A1 (en) * 2018-12-19 2020-06-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
EP3712788A1 (en) * 2019-03-19 2020-09-23 Koninklijke Philips N.V. Audio apparatus and method therefor
CA3135849A1 (en) 2019-04-02 2020-10-08 Syng, Inc. Systems and methods for spatial audio rendering
WO2020227140A1 (en) * 2019-05-03 2020-11-12 Dolby Laboratories Licensing Corporation Rendering audio objects with multiple types of renderers
GB201909133D0 (en) * 2019-06-25 2019-08-07 Nokia Technologies Oy Spatial audio representation and rendering
EP4005248A1 (en) * 2019-07-30 2022-06-01 Dolby Laboratories Licensing Corporation Managing playback of multiple streams of audio over multiple speakers
WO2021021460A1 (en) * 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Adaptable spatial audio playback
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
US11710491B2 (en) * 2021-04-20 2023-07-25 Tencent America LLC Method and apparatus for space of interest of audio scene
GB2612587A (en) * 2021-11-03 2023-05-10 Nokia Technologies Oy Compensating noise removal artifacts

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009508175A (ja) * 2005-09-14 2009-02-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
JP2010521909A (ja) * 2007-03-21 2010-06-24 フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン 音声の再現を高めるための方法および装置
WO2010128136A1 (en) * 2009-05-08 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
JP2011509588A (ja) * 2008-01-01 2011-03-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
WO2011073210A1 (en) * 2009-12-17 2011-06-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101004836B1 (ko) * 2002-10-14 2010-12-28 톰슨 라이센싱 오디오 신 내 사운드 소스의 와이드니스를 코딩 및디코딩하기 위한 방법
US8340306B2 (en) * 2004-11-30 2012-12-25 Agere Systems Llc Parametric coding of spatial audio with object-based side information
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
RU2008132156A (ru) * 2006-01-05 2010-02-10 Телефонактиеболагет ЛМ Эрикссон (пабл) (SE) Персонализированное декодирование многоканального объемного звука
CN101361121B (zh) * 2006-01-19 2012-01-11 Lg电子株式会社 处理媒体信号的方法和装置
US8712061B2 (en) * 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
EP2102858A4 (en) * 2006-12-07 2010-01-20 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8023660B2 (en) * 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
WO2010122455A1 (en) * 2009-04-21 2010-10-28 Koninklijke Philips Electronics N.V. Audio signal synthesizing
RU2529591C2 (ru) * 2009-06-30 2014-09-27 Нокиа Корпорейшн Устранение позиционной неоднозначности при формировании пространственного звука
KR101410575B1 (ko) * 2010-02-24 2014-06-23 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 강화 다운믹스 신호를 생성하는 장치, 강화 다운믹스 신호를 생성하는 방법 및 컴퓨터 프로그램
RU2570359C2 (ru) * 2010-12-03 2015-12-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Прием звука посредством выделения геометрической информации из оценок направления его поступления
EP3182409B1 (en) * 2011-02-03 2018-03-14 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
WO2012122397A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009508175A (ja) * 2005-09-14 2009-02-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
JP2010521909A (ja) * 2007-03-21 2010-06-24 フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン 音声の再現を高めるための方法および装置
JP2011509588A (ja) * 2008-01-01 2011-03-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
WO2010128136A1 (en) * 2009-05-08 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
WO2011073210A1 (en) * 2009-12-17 2011-06-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018518875A (ja) * 2015-04-30 2018-07-12 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオ信号処理装置および方法
US10600426B2 (en) 2015-04-30 2020-03-24 Huawei Technologies Co., Ltd. Audio signal processing apparatuses and methods
WO2017043309A1 (ja) * 2015-09-07 2017-03-16 ソニー株式会社 音声処理装置および方法、符号化装置、並びにプログラム
JP2020110007A (ja) * 2015-11-17 2020-07-16 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリック・バイノーラル出力システムおよび方法のための頭部追跡
CN111108555A (zh) * 2017-07-14 2020-05-05 弗劳恩霍夫应用研究促进协会 使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的概念
JP2020527887A (ja) * 2017-07-14 2020-09-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 深度拡張DirAC技術またはその他の技術を使用して、拡張音場記述または修正音場記述を生成するための概念
JP7122793B2 (ja) 2017-07-14 2022-08-22 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 深度拡張DirAC技術またはその他の技術を使用して、拡張音場記述または修正音場記述を生成するための概念
US11463834B2 (en) 2017-07-14 2022-10-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
US11477594B2 (en) 2017-07-14 2022-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a depth-extended DirAC technique or other techniques
CN111108555B (zh) * 2017-07-14 2023-12-15 弗劳恩霍夫应用研究促进协会 使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的装置和方法
US11863962B2 (en) 2017-07-14 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
US11950085B2 (en) 2017-07-14 2024-04-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description

Also Published As

Publication number Publication date
BR112014017457A8 (pt) 2017-07-04
EP2805326A1 (en) 2014-11-26
EP2805326B1 (en) 2015-10-14
WO2013108200A1 (en) 2013-07-25
CN104054126B (zh) 2017-03-29
US20140358567A1 (en) 2014-12-04
US9584912B2 (en) 2017-02-28
US20170125030A1 (en) 2017-05-04
CN104054126A (zh) 2014-09-17
BR112014017457A2 (pt) 2017-06-13
RU2014133903A (ru) 2016-03-20

Similar Documents

Publication Publication Date Title
US9584912B2 (en) Spatial audio rendering and encoding
JP7181371B2 (ja) レンダリング方法、レンダリング装置及び記録媒体
TWI744341B (zh) 使用近場/遠場渲染之距離聲相偏移
JP5467105B2 (ja) オブジェクトベースのメタデータを用いてオーディオ出力信号を生成するための装置および方法
US9299353B2 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
RU2617553C2 (ru) Система и способ для генерирования, кодирования и представления данных адаптивного звукового сигнала
EP2891335B1 (en) Reflected and direct rendering of upmixed content to individually addressable drivers
JP5956994B2 (ja) 拡散音の空間的オーディオの符号化及び再生
KR101341523B1 (ko) 스테레오 신호들로부터 멀티 채널 오디오 신호들을생성하는 방법
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
US20120039477A1 (en) Audio signal synthesizing
JP2009527970A (ja) オーディオ符号化及び復号
TW202038214A (zh) 使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式
WO2014087277A1 (en) Generating drive signals for audio transducers
AU2013200578B2 (en) Apparatus and method for generating audio output signals using object based metadata
RU2820838C2 (ru) Система, способ и постоянный машиночитаемый носитель данных для генерирования, кодирования и представления данных адаптивного звукового сигнала
TW202016925A (zh) 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170321

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171107