JP2012525051A - オーディオ信号の合成 - Google Patents

オーディオ信号の合成 Download PDF

Info

Publication number
JP2012525051A
JP2012525051A JP2012506612A JP2012506612A JP2012525051A JP 2012525051 A JP2012525051 A JP 2012525051A JP 2012506612 A JP2012506612 A JP 2012506612A JP 2012506612 A JP2012506612 A JP 2012506612A JP 2012525051 A JP2012525051 A JP 2012525051A
Authority
JP
Japan
Prior art keywords
signal
signal component
downmix
component
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2012506612A
Other languages
English (en)
Inventor
エリク ジー ピー シュイエルス
アルノルドゥス ダブリュ ジェイ オオメン
ボント フランシスクス エム ジェイ デ
ミコラ オストロフスキー
アドリアーン ジェイ レインベルグ
イェロエン ジー エイチ コッペンス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2012525051A publication Critical patent/JP2012525051A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

オーディオ合成装置は、ダウンミックス信号と、前記ダウンミックス信号をマルチサウンドソース信号に拡張するためのパラメトリック拡張データとを有する符号化信号を受信する。分解プロセッサ205は、少なくとも第1の信号成分及び第2の信号成分を生成するために前記ダウンミックス信号の信号分解を実行し、前記第2の信号成分は、前記第1の信号成分に少なくとも部分的に相関する。位置プロセッサ207は、前記パラメトリック拡張データに応じて前記第1の信号成分に関する第1の空間的位置指標を決定し、双耳プロセッサ211は、前記第1の空間的位置指標に基づいて前記第1の信号成分を合成し、異なる方向から生じるように前記第2の信号成分を合成する。本発明は、仮想ラウドスピーカ位置からの信号の組み合わせよりむしろ、適切な位置からの主要方向信号の直接的な合成を用いることにより、例えばヘッドホンから向上した空間的体験を与えることができる。

Description

本発明は、オーディオ信号の合成に関し、詳細には、排他的ではないが、ヘッドホン再生用の空間サラウンドサウンドオーディオの合成に関する。
種々のソース信号のデジタル符号化は、デジタル信号の再生及び通信がアナログ再生及び通信とますます置き換えられているので、最新の復号に関してますます重要になっている。例えば、音楽又は他のオーディオ信号を効果的に符号化するための符号化規格が開発されている。
最も有名なラウドスピーカ再生システムは、予め決められた位置の2つのラウドスピーカが典型的に用いられる、2チャンネルのステレオ音響に基づいている。斯様なシステムにおいて、サウンド空間は、2つのラウドスピーカ位置から発せられる2つのチャンネルに基づいて生成され、元のステレオ信号は、ラウドスピーカが聴取者に対するこれらの予め決められた位置の近くに置かれたときに所望のサウンドステージが再現されるように、典型的に生成される。斯様な場合において、ユーザは、最適聴取場所(sweet spot)にいるものと考えられ得る。
ステレオ信号は、しばしば、振幅パンニング(amplitude panning)を用いて生成される。斯様な技術において、個々のサウンドオブジェクトは、左チャンネル及び右チャンネルのそれぞれにおける対応する信号成分の振幅を調節することにより、これらのスピーカ間のサウンドステージ内に配置され得る。それ故、中央位置に対して、各チャンネルは、同相であり3dBにより減衰された信号成分を供給する。左のラウドスピーカに向かう位置に対して、左チャンネルにおける信号の振幅は増大され、右のチャンネルにおける振幅はそれに応じて減少され、右のスピーカに向かう位置に対する逆の場合も同様である。
しかしながら、斯様なステレオ再生は空間的な体験を与え得るが、これは、準最適なものになる傾向にある。例えば、サウンドの位置が2つのラウドスピーカの間に制限され、最適な空間サウンド体験が小さな聴取エリア(小さな最適聴取場所)に制限され、特定の頭の向きが(スピーカ間の中間点に向かうように)要求され、スペクトル着色(spectral coloration)がスピーカから聴取者の耳までの経路長差の変化により生じる場合があり、振幅パンニングアプローチにより与えられた音源位置特定キューは、所望の位置の音源に対応する位置特定キューの大雑把な近似値にしかならない。
ラウドスピーカの再生の状況と比較して、ヘッドホンを介して再生されたステレオオーディオコンテンツは、聴取者の頭の内部から生じているように知覚される。外部音源から聴取者の耳までの音響経路の効果がないことは、不自然な印象を与える空間イメージをもたらす。
これを克服し、ヘッドホンからの向上した空間的体験を与えるために、双耳(binaural)処理が、ヘッドホンの各耳に対して適切な信号を生成するために取り入れられている。詳細には、左のイヤホン/ヘッドホンに対する信号は、信号が(頭及び耳の形状による如何なる影響も含む)一般的なステレオ設定において受信された場合に、左及び右のそれぞれのスピーカからユーザの左耳への音響伝達関数に対応するように推定された2つのフィルタによりフィルタリングされる。また、2つのフィルタは、左及び右のそれぞれのスピーカからユーザの右耳への音響伝達関数に対応するように右のイヤホン/ヘッドホンに対する信号にも適用される。
それ故、フィルタは、信号に対する、人間の頭及び場合により他のオブジェクトの影響をモデル化する知覚伝達関数を表す。良く知られたタイプの空間的知覚伝達関数は、インパルス応答による或る音源位置から鼓膜までの伝達を記述するいわゆる頭部伝達関数(HRTF;Head-Related Transfer Function)である。部屋の壁、天井及び床によりもたらされる反射をも考慮する別のタイプの空間的知覚伝達関数は、双耳聴室内インパルス応答(BRIR;Binaural Room Impulse Response)である。特定の位置からのサウンドを合成するために、対応する信号は、2つのHRTF(又はBRIR)によりフィルタリングされる。即ち、これら2つの2つのHRTF(又はBRIR)は、推定された位置から左耳及び右耳のそれぞれへの音響伝達関数を表す。斯様な2つのHRTF(又はBRIR)は、典型的には、HRTFペア(又はBRIRペア)と呼ばれる。
双耳処理は、向上した空間的体験を与えることができ、特に"頭外"3D効果を作り出すことができる。
それ故、従来の双耳ステレオ処理は、個々のステレオスピーカの仮想位置の仮定に基づいている。そして、これは、これらのラウドスピーカからの信号成分により体験される音響伝達関数をモデル化することを求める。しかしながら、斯様なアプローチは、幾つかの劣化を取り込む傾向にあり、詳細には、ラウドスピーカを用いた従来のステレオシステムの多くの欠点に悩まされる。
実際には、仮想スピーカの固定されたセットに基づくヘッドホンオーディオ再生は、前に述べられたような、固定されたラウドスピーカの実際のセットにより本質的に取り込まれた欠点に悩まされる傾向にある。一の特定の欠点は、位置特定キューが所望位置の音源の実際の位置特定キューの大雑把な近似値になる傾向にあることであり、これは、低下した空間イメージをもたらす。他の欠点は、振幅パンニングが左右方向においてのみ機能し、任意の他の方向においては機能しないことである。
双耳処理は、2つよりも多いチャンネルをもつマルチチャンネルオーディオシステムまで拡張され得る。例えば、双耳処理は、例えば5又は7の空間チャンネルを有するサラウンドサウンドシステムに対して用いられ得る。斯様な例において、HRTFは、ユーザの2つの耳のそれぞれまでの各スピーカ位置に対して決定される。それ故、2つのHRTFは、シミュレーションされた異なる音響伝達関数に対応する多数の信号成分をもたらす各スピーカ/チャンネルに対して用いられる。これは、知覚された品質の低下をもたらす傾向にある。例えば、HRTF関数は、知覚される正確な伝達関数の近似値に過ぎないので、組み合わせられた多数のHRTFは、ユーザにより知覚され得る誤差を取り込む傾向にある。それ故、これらの欠点は、マルチチャンネルシステムに対して増大する傾向にある。また、このアプローチは、高度な複雑性をもち、高い計算リソースを使用する。実際には、例えば5.1又は7.1のサラウンド信号を双耳信号に変換するために、非常に多くのフィルタリングが必要とされる。
しかしながら、近年、ステレオコンテンツの仮想サラウンドレンダリングの品質がいわゆるファントムマテリアライザーション(phantom materialization)により大幅に向上され得ることが提案されている。詳細には、斯様なアプローチは、欧州特許出願第07117830.5号明細書、並びに、J. Breebaart及びE. Schuijersによる論文"Phantom Materialization: A Novel Method to Enhance Stereo Audio Reproduction on Headphones(IEEE Transactions on Audio, Speech, and Language Processing, Vol. 16, No. 8, pp. 1503-1511, November 2008)"において提案されている。
このアプローチにおいて、仮想ステレオ信号は、仮想ラウドスピーカ位置から生じる2つの音源を想定することによっては生成されず、むしろ、サウンド信号は、方向信号成分と間接/非相関信号成分とに分解される。この分解は、詳細には、適切な時間及び周波数範囲の双方に対して行われ得る。そして、方向成分は、ファントム位置の仮想ラウドスピーカをシミュレーションすることにより合成される。間接成分は、(典型的にはサラウンドスピーカの公称位置に対応する)固定位置の仮想ラウドスピーカをシミュレーションすることにより合成される。
例えば、ステレオ信号が右に向かって言わば10°にパンニングされた単一のサウンド成分を有する場合には、ステレオ信号は、左チャンネルにおける信号の約2倍の大きさの、右チャンネルにおける信号を有し得る。従来の双耳処理において、このサウンド成分は、それ故、左スピーカから左耳へのHRTFによりフィルタリングされた左チャンネルからの成分、右スピーカから左耳へのHRTFによりフィルタリングされた右チャンネルからの成分、及び、右スピーカから右耳へのHRTFによりフィルタリングされた右チャンネルからの成分、により表されるだろう。これに対して、ファントムマテリアライザーションのアプローチにおいて、主要成分は、サウンド成分に対応する信号成分の合計として生成され、そして、この主要成分の方向が推定され得る(即ち右に向かって10°)。ファントムマテリアライザーションのアプローチは、更に、2つのステレオチャンネルの共通成分(主要成分)が差し引かれた後の残りの信号成分を表す1又はそれ以上の拡散又は非相関信号を生成する。それ故、この残りの信号は、例えば、部屋内の反射から生じる音、反響音、環境ノイズ等のような、サウンド環境を表し得る。そして、ファントムマテリアライザーションのアプローチは、推定された位置から、即ち右に向かって10°の位置から直接生じるように主要成分の合成を続ける。それ故、主要成分は、2つのHRTFだけを用いて合成される。即ち、2つのHRTFは、推定された位置から左耳及び右耳のそれぞれまでの音響伝達関数を表す。そして、拡散環境信号は、他の位置から生じるように合成され得る。
ファントムマテリアライザーションのアプローチは、仮想レンダリングシーンに対してスピーカ設定の制限を課さないという利点をもち、従って、非常に向上した空間的体験を与える。特に、聴取者により知覚されるサウンドステージにおける非常に明確で良好に規定されたサウンド位置が、典型的に実現され得る。
しかしながら、ファントムマテリアライザーションのアプローチによる問題は、これがステレオシステムに制限されることである。実際には、欧州特許出願第07117830.5号明細書は、2つよりも多くのチャンネルが存在する場合には、ファントムマテリアライザーションのアプローチが(各ラウドスピーカペアに対応する)チャンネルの各ステレオペアに対して個別に及び独立して適用されるべきである、と明確に記載している。しかしながら、斯様なアプローチは、複雑でありリソースを要求するだけでなく、低下した性能を頻繁にもたし得る。
それ故、改良されたシステムが有利であるだろう。詳細には、増大したフレキシビリティ、削減された複雑性、削減されたリソース要求、2つよりも多いチャンネルをもつマルチチャンネルシステムに対する向上した適合性、向上した品質、向上した空間ユーザ体験、及び/又は、向上した性能を可能にするシステムが有利であるだろう。
従って、本発明は、前述した1又はそれ以上の欠点を単独で又は任意の組み合わせにおいて好ましくは軽減、緩和又は除去しようとする。
本発明の一態様によれば、マルチサウンドソース信号を合成するための装置であって、当該装置は、前記マルチサウンドソース信号を表す符号化信号を受信するためのユニットを有し、前記符号化信号は、前記マルチサウンドソースに関するダウンミックス信号と、前記ダウンミックス信号を前記マルチサウンドソース信号に拡張するためのパラメトリック拡張データとを有し、当該装置は、少なくとも第1の信号成分及び第2の信号成分を生成するために前記ダウンミックス信号の信号分解を実行するための分解ユニットを有し、前記第2の信号成分は、前記第1の信号成分に少なくとも部分的に相関し、当該装置は、前記パラメトリック拡張データに応じて前記第1の信号成分に関する第1の空間的位置指標を決定するための位置ユニットと、前記第1の空間的位置指標に基づいて前記第1の信号成分を合成するための第1の合成ユニットと、前記第1の信号成分とは異なる方向から生じるように前記第2の信号成分を合成するための第2の合成ユニットとを有する、装置が提供される。
本発明は、多くの状況において向上したオーディオ性能及び/又は促進された動作を提供することができる。
詳細には、本発明は、多くの状況において、向上した及びより良く規定された空間的体験を与えることができる。詳細には、向上したサラウンドサウンド体験には、サウンドステージにおける個々のサウンド成分のより良く規定された位置の知覚が与えられ得る。本発明は、2つよりも多くのチャンネルをもつマルチチャンネルシステムに適している。更に、本発明は、促進された及び向上したサラウンドサウンド体験を可能にし、例えばMPEGサラウンド規格のような、既存のマルチチャンネル(N>2)符号化規格との高い互換性を可能にする。
パラメトリック拡張データは、詳細には、パラメトリック空間拡張データであり得る。パラメトリック拡張データは、例えば、ダウンミックスから複数の(2よりも多い)空間サウンドチャンネルへのアップミックスを特徴付け得る。
第2の信号成分は、例えば、1又はそれ以上の固定された位置から生ずるように合成され得る。各音源は、マルチチャンネル信号のチャンネルに対応し得る。マルチサウンドソース信号は、詳細には、2よりも多いチャンネルをもつマルチチャンネル信号であり得る。
第1の信号成分は、典型的には、主要方向信号成分に対応し得る。第2の信号成分は、拡散信号成分に対応し得る。例えば、第2の信号成分は、ほとんどが、例えば反響音や部屋の反射のような環境(ambiance)オーディオ効果を表し得る。第1の信号成分は、詳細には、古典的なラウドスピーカシステムで使用される振幅パンニング技術で得られるような、ファントムソースに近い成分に対応し得る。
幾つかの実施形態において、前記の分解が、例えば更なる方向信号及び/又は拡散信号であり得る追加の信号成分を更に生成し得ることが理解されるだろう。詳細には、第3の信号成分が、第1の信号成分と少なくとも部分的に相関するように生成され得る。斯様なシステムにおいて、第2の信号成分は、右側から主に生じるように合成され得る一方で、第3の信号は、左側から主に生じるように合成され得る(逆もまた同様である)。
第1の空間的位置指標は、例えば、第1の信号成分に対応するファントムソースの3次元位置、方向、角度及び/又は距離の指標であり得る。
本発明のオプション的な特徴によれば、本装置は、ダウンミックスを時間間隔周波数帯域ブロックに分割し、各時間間隔周波数帯域ブロックを個別に処理するように構成されるユニットを更に有する。
これは、多くの実施形態において、向上した性能、促進された動作、及び/又は、削減された複雑性を提供することができる。詳細には、本特徴は、多くの既存のマルチチャンネルコーディングシステムとの向上した互換性を可能にし、要求される処理を簡素化することができる。更に、本特徴は、サウンド信号のための向上した音源ポジショニングを提供することができる。ダウンミックスは、異なる位置の複数のサウンド成分からの貢献を有する。詳細には、本アプローチは、斯様な状況に関して、各サウンド成分が、制限された数の時間間隔周波数帯域ブロックにおいてしばしば支配的であるという事実を利用し、それに応じて、本アプローチは、各サウンド成分が所望位置に自動的に配置されることを可能にする。
本発明のオプション的な特徴によれば、第1の合成ユニットは、パラメトリックHRTFを第1の信号成分の時間間隔周波数帯域ブロックに適用するように構成され、パラメトリックHRTFは、第1の空間的位置指標により表された位置に対応し、各時間間隔周波数帯域ブロックに対して設定されたパラメータ値を有する。
これは、多くの実施形態において、向上した性能、促進された動作、及び/又は、削減された複雑性を提供することができる。詳細には、本特徴は、多くの既存のマルチチャンネルコーディングシステムとの向上した互換性を可能にし、要求される処理を簡素化することができる。実質的に削減された計算リソースの使用が、典型的に達成され得る。
パラメータ設定は、例えば、各時間間隔周波数帯域ブロックの信号値に適用されるべき複素数又は出力及び角度パラメータを有し得る。
本発明のオプション的な特徴によれば、マルチサウンドソース信号が空間マルチチャンネル信号である。
本発明は、(例えば2つよりも多いチャンネルをもつ)マルチチャンネル信号の向上した及び/又は促進された合成を可能にすることができる。
本発明のオプション的な特徴によれば、位置ユニットは、マルチチャンネル信号のチャンネルに関する想定スピーカ位置及びパラメトリック拡張データのアップミックスパラメータに応じて第1の空間的位置指標を決定するように構成され、前記アップミックスパラメータは、マルチチャンネル信号をもたらすためのダウンミックスのアップミックスを示す。
これは、多くの実施形態において、向上した性能、促進された動作、及び/又は、削減された複雑性を提供することができる。詳細には、これは、位置の正確な推定をもたらす特に実際的な実装を可能にし、それ故、高品質の空間的体験をもたらす。
本発明のオプション的な特徴によれば、パラメトリック拡張データは、ダウンミックス信号からマルチチャンネル信号のチャンネルへの変換を記述し、位置ユニットは、マルチチャンネル信号のチャンネルに関する想定スピーカ位置に対する重み及び角度の組み合わせに応じて第1の空間的位置指標に対する角度方向を決定するように構成され、チャンネルに対する各重みは、ダウンミックス信号からチャンネルへの変換の利得に依存する。
これは、第1の信号の位置推定の特に有利な決定を与えることができる。詳細には、これは、比較的低い複雑性の処理に基づいて正確な推定を可能にし、多くの実施形態において、既存のマルチチャンネル/ソース符号化規格に特に適し得る。
幾つかの実施形態において、本装置は、想定スピーカ位置の重み及び角度の組み合わせに応じて第2の信号成分の第2の空間的位置指標の角度方向を決定するための手段を有し、チャンネルの各重みは、ダウンミックス信号からチャンネルへの変換の振幅利得に依存する。
本発明のオプション的な特徴によれば、前記変換は、信号非相関関数を含む第1の下位変換と、信号非相関関数を含まない第2の下位変換とを含み、第1の空間的位置指標の決定は、第1の下位変換を考慮しない。
これは、第1の信号の位置推定の特に有利な決定を与えることができる。詳細には、これは、比較的低い複雑性の処理に基づいて正確な推定を可能にし、多くの実施形態において、既存のマルチチャンネル/ソース符号化規格に特に適し得る。
第1の下位変換は、詳細には、(MPEGサラウンドデコーディングのような)パラメトリック空間復号動作の"ウェット(wet)"信号の処理に対応し、第2の下位変換は、"ドライ(dry)"信号の処理に対応し得る。
幾つかの実施形態において、本装置は、前記変換に応じて、及び、第2の下位変換を考慮することなく、第2の信号成分に関する第2の空間的位置指標を決定するように構成され得る。
本発明のオプション的な特徴によれば、本装置は、パラメトリック拡張データに応じて第2の信号成分に関する第2の空間的位置指標を生成するように構成された第2の位置ユニットと、第2の空間的位置指標に基づいて第2の信号成分を合成するように構成された第2の合成ユニットとを更に有する。
これは、多くの実施形態において、向上した空間的体験を提供することができ、詳細には、拡散信号成分の知覚を向上させることができる。
本発明のオプション的な特徴によれば、ダウンミックス信号は、モノラル信号であり、分解ユニットは、モノラル信号に対応する第1の信号成分とモノラル信号に対する非相関信号に対応する第2の信号成分とを生成するように構成される。
本発明は、単純なモノラルダウンミックスを用いた符号化スキームに対しても高品質な空間的体験を与えることができる。
本発明のオプション的な特徴によれば、第1の信号成分は、主要方向信号成分であり、第2の信号成分は、ダウンミックス信号に対する拡散信号成分である。
本発明は、方向信号及び拡散信号を分離して別々に合成することにより、向上した及びより良く規定された空間的体験を与えることができる。
本発明のオプション的な特徴によれば、第2の信号成分は、第1の信号成分に対するダウンミックスを補償することに起因する残留信号に対応する。
これは、多くの実施形態において特に有利な性能を与えることができる。この補償は、例えば、ダウンミックスの1又はそれ以上のチャンネルから第1の信号成分を差し引くことにより行われる。
本発明のオプション的な特徴によれば、分解ユニットは、ダウンミックスの複数のチャンネルに関する信号を組み合わせる関数に応じて第1の信号成分を決定するように構成され、前記関数は、少なくとも1つのパラメータに依存し、前記分解ユニットは、第1の信号成分に対する出力の大きさを最大にするように前記少なくとも1つのパラメータを決定するように更に構成される。
これは、多くの実施形態において特に有利な性能を与えることができる。詳細には、これは、ダウンミックス信号を(少なくとも)主要方向信号に対応する成分と拡散環境信号に対応する成分とに分解するための非常に効果的なアプローチを与えることができる。
本発明のオプション的な特徴によれば、マルチソース信号の各ソースはサウンドオブジェクトである。
本発明は、個々の又は複数のサウンドオブジェクトの向上した合成及びレンダリングを可能にする。サウンドオブジェクトは、例えば、ステレオサウンドオブジェクトのようなマルチチャンネルサウンドオブジェクトであってもよい。
本発明のオプション的な特徴によれば、第1の空間的位置指標は、第1の信号成分に関する距離指標を含み、第1の合成ユニットは、前記距離指標に応じて前記第1の信号成分を合成するように構成される。
これは、聴取者に対する空間的知覚及び空間的体験を向上させることができる。
本発明の一態様によれば、マルチサウンドソース信号を合成する方法であって、当該方法は、前記マルチサウンドソース信号を表す符号化信号を受信するステップを有し、前記符号化信号は、前記マルチサウンドソースに関するダウンミックス信号と、前記ダウンミックス信号を前記マルチサウンドソース信号に拡張するためのパラメトリック拡張データとを有し、当該方法は、少なくとも第1の信号成分及び第2の信号成分を生成するために前記ダウンミックス信号の信号分解を実行するステップを有し、前記第2の信号成分は、前記第1の信号成分に少なくとも部分的に相関し、当該方法は、前記パラメトリック拡張データに応じて前記第1の信号成分に関する第1の空間的位置指標を決定するステップと、前記第1の空間的位置指標に基づいて前記第1の信号成分を合成するステップと、前記第1の信号成分とは異なる方向から生じるように前記第2の信号成分を合成するステップとを有する、方法が提供される。
本発明のこれらの及び他の態様、特徴及び利点は、後述される実施形態から明らかになり、これらの実施形態を参照して説明されるだろう。
本発明の実施形態は、図面を参照して、単なる例により述べられるだろう。
MPEGサラウンドオーディオコーデックの要素の一例を示す。 本発明の幾つかの実施形態によるオーディオシンセサイザの要素の一例を示す。 モノラル信号のための非相関信号を生成する要素の一例を示す。 MPEGサラウンドオーディオアップミキシングの要素の一例を示す。
以下の説明は、MPEGサラウンド符号化信号を用いたシステムに適用可能な本発明の実施形態に集中するが、本発明は、このアプリケーションに限定されるものではなく、多くの他の符号化メカニズムに適用され得ることが理解されるだろう。
MPEGサラウンドは、ISO/IEC 23003-1, MPEG Surroundの規格におけるMotion Pictures Expert Groupにより最近規格化されたマルチチャンネルオーディオコーディングにおける大きな進歩の一つである。MPEGサラウンドは、既存のモノラル又はステレオに基づくコーダーがより多くのチャンネルに拡張されることを可能にするマルチチャンネルオーディオコーディングツールである。
図1は、MPEGサラウンドで拡張されたステレオコアコーダーのブロック図の一例を示している。最初に、MPEGサラウンドエンコーダは、ダウンミクサ101におけるマルチチャンネル入力信号からステレオダウンミックスを生成する。そして、空間パラメータが、ダウンミクサ101によりマルチチャンネル入力信号から推定される。これらのパラメータは、MPEGサラウンドビットストリームに符号化される。ステレオダウンミックスは、例えばHE−AACコアエンコーダのようなコアエンコーダ103を用いてビットストリームに符号化される。生ずるコアコーダービットストリーム及び空間パラメータビットストリームは、全体ビットストリームを生成するためにマルチプレクサ105において統合される。典型的には、空間ビットストリームは、コアコーダービットストリームの補助データ部分に含まれる。
それ故、符号化信号は、別々に符号化されたモノラル又はステレオダウンミックス信号により表される。このダウンミックス信号は、モノラル又はステレオ出力信号を与えるためにレガシーデコーダにおいて復号又は合成され得る。更に、符号化信号は、ダウンミックス信号を符号化マルチチャンネル信号にアップミキシングするための空間パラメータを有するパラメトリック拡張データを含む。それ故、適切に用意されたデコーダは、空間パラメータを抽出し、これらの空間パラメータに基づいてダウンミックス信号をアップミキシングすることにより、マルチチャンネルサラウンド信号を生成することができる。空間パラメータは、例えば、当業者にとって良く知られているような、チャンネル間レベル差、チャンネル間相関係数、チャンネル間位相差、チャンネル間時間差等を含み得る。
より詳細には、図1のデコーダは、最初に、デマルチプレクサ107においてコアデータ(ダウンミックスのための符号化データ)及びパラメトリック拡張データ(空間パラメータ)を抽出する。ダウンミックス信号を表すデータ、即ちコアビットストリームは、ステレオダウンミックスを再生するためにデコーダユニット109において復号される。空間パラメータを表すデータを一緒にもつこのダウンミックスは、ビットストリームの対応するデータを復号することにより空間パラメータを最初に生成するMPEGサラウンド復号ユニット111に送られる。そして、空間パラメータは、マルチチャンネル出力信号を得るためにステレオダウンミックスをアップミックスするために用いられる。
図1の例において、MPEGサラウンド復号ユニット111は、ヘッドホンで聴くのに適した2チャンネル空間サラウンド信号を与えるようにマルチチャンネルを処理する双耳プロセッサを含む。それ故、複数の出力チャンネルのそれぞれに関して、双耳プロセッサは、HRTFをユーザの右耳及び左耳のそれぞれに適用する。例えば、5つの空間チャンネルに関して、全体で5つのHRTFペアセットが、2チャンネル空間サラウンド信号を生成するために含まれる。
それ故、本例において、MPEGサラウンド復号ユニット111は、2ステージプロセスを有する。最初に、MPEGサラウンドデコーダは、符号化されたマルチチャンネル信号を再生成するためにMPEGサラウンド互換性のある復号を実行する。そして、この復号されたマルチチャンネル信号は、双耳空間信号を生成するためにHRTFペアを適用する双耳プロセッサに送られる(双耳処理はMPEGサラウンド規格の部分ではない)。
それ故、図1のMPEGサラウンドシステムにおいて、合成された信号は、各チャンネルに対して一のラウドスピーカを伴う想定ラウドスピーカ設定に基づいている。ラウドスピーカは、HRTF関数に反映される公称位置にあると想定される。しかしながら、このアプローチは、準最適な性能を与える傾向にあり、実際には、異なるラウドスピーカ位置のそれぞれからユーザに届く信号成分をモデル化しようと効果的に試みるアプローチは、サウンドステージにおけるサウンドのあまり規定されていない位置をもたらす。例えば、ユーザがサウンドステージにおける特定の位置でサウンド成分を知覚することに関して、図1のアプローチは、最初に、このサウンド成分からラウドスピーカのそれぞれまでの貢献を計算し、そして、これらのラウドスピーカ位置のそれぞれから聴取者の耳に届く信号までの貢献を計算する。斯様なアプローチは、リソース要求だけでなく、オーディオ品質及び空間的体験についての知覚された削減をもたらすことが見出されている。
アップミキシング及びHRTF処理は、例えばアップミキシング及びHRTF処理の組み合わせられた効果を表す適切な単一のマトリクスをダウンミックス信号に適用することにより、幾つかのケースにおいて単一の処理ステップに組み合わせられ得る一方で、斯様なアプローチは、依然として、各チャンネルに関する個々のサウンド放射(ラウドスピーカ)が合成されるシステムを本質的に反映することも留意されるべきである。
図2は、本発明の幾つかの実施形態のオーディオシンセサイザの一例を示している。
本システムにおいて、ダウンミックスは、少なくとも2つの信号成分に分解され、一方の信号成分は、主要方向信号成分に対応し、他方の信号成分は、間接/非相関信号成分に対応する。そして、直接成分は、この直接信号成分に関するファントム位置での仮想ラウドスピーカを直接シミュレーションすることにより合成される。更に、ファントム位置は、パラメトリック拡張データの空間パラメータから決定される。それ故、方向信号は、一方の特定方向から生ずるように直接合成され、これに応じて、2つのHRTF関数だけが、聴取者の耳に届く組み合わせられた信号成分の計算に含まれる。更に、ファントム位置は、(ステレオスピーカ間のような)任意の特定のスピーカのポジショニングに限定されるものではなく、聴取者の背後を含む任意の方向からのものであってもよい。また、ファントムソースの正確な位置は、パラメトリック拡張データにより制御され、それ故に、元の入力サラウンドサウンド信号の適切なサラウンドソース方向から生ずるように生成される。
間接成分は、方向信号とは独立して合成され、詳細には、計算されたファントム位置から概ね生じないように合成される。例えば、これは、1又はそれ以上の固定された位置から(例えば聴取者の背後に対して)生じるように合成され得る。それ故、拡散又は環境サウンド成分に対応する間接/非相関信号成分は、拡散した空間的サウンド体験を与えるために生成される。
このアプローチは、各サラウンドサウンドチャンネルに対する(仮想的)ラウドスピーカ設定及びサウンドソース位置に依存することに関連した幾つか又は全ての欠点を克服する。詳細には、これは、典型的には、より現実的な仮想サラウンドサウンド体験を与える。
それ故、図2のシステムは、以下のステージを有する改良されたMPEGサラウンド復号アプローチを与える。
・ダウンミックスの主要及び環境成分への信号分解
・MPEGサラウンド空間パラメータに基づく方向分析
・方向分析から導出されたHRTFデータでの主要成分の双耳レンダリング
・固定位置に特に対応し得る異なるHRTFデータでの環境成分の双耳レンダリング
本システムは、詳細には、サブバンド領域又は周波数領域において動作する。それ故、ダウンミックス信号は、信号分解が生じるサブバンド領域又は周波数領域の表現に変換される。並行して、方向情報が空間パラメータから導出される。方向情報、典型的にはオプション的に距離情報をもつ角度データは、例えばヘッドトラッカーデバイスによりもたらされたオフセットを含めるために、調節され得る。そして、生ずる方向データに対応するHRTFデータは、主要及び環境成分をレンダリング/合成するために用いられる。生ずる信号は、最終出力信号をもたらす時間領域に戻すように変換される。
より詳細には、図2のデコーダは、左及び右チャンネルを有するステレオダウンミックス信号を受信する。ダウンミックス信号は、左及び右の領域変換プロセッサ201,203に送られる。領域変換プロセッサ201,203のそれぞれは、入力ダウンミックスチャンネルをサブバンド/周波数領域に変換する。
領域変換プロセッサ201,203は、周波数領域の表現を生成し、ダウンミックス信号は、(以下において時間周波数タイルとも呼ばれる)時間間隔周波数帯域ブロックに分割される。時間周波数タイルのそれぞれは、特定の時間間隔における特定の周波数間隔に対応する。例えば、ダウンミックス信号は、例えば30m秒の期間の時間フレームにより表され、領域変換プロセッサ201,203は、所与の数の周波数ビン(bin)をもたらす各時間フレームにおいてフーリエ変換(例えば、高速フーリエ変換)を実行し得る。そして、各フレームにおける各周波数ビンは、時間周波数タイルに対応し得る。幾つかの実施形態において、各時間周波数タイルは、例えば、複数の周波数ビン及び/又は時間フレームを含み得る。例えば、周波数ビンは、各時間周波数タイルがバーク(Bark)帯域に対応するように組み合わせられ得る。
多くの実施形態において、各時間周波数タイルは、典型的には、100m秒よりも小さく、200Hz又は周波数タイルの中心周波数の半分よりも小さくなるだろう。
幾つかの実施形態において、デコーダの処理は、オーディオ帯域全体に対して実行されるだろう。しかしながら、特定の例において、各時間間隔周波数帯域ブロックは、個々に処理されるだろう。従って、以下の説明は、分解、方向解析及び合成動作が各時間間隔周波数帯域ブロックに対して個別に独立して適用される実施に集中する。更に、本例において、各時間間隔周波数帯域ブロックは、一の時間周波数タイルに対応するが、幾つかの実施形態において、例えば複数のFFTビン又は時間フレームが、時間間隔周波数帯域ブロックを形成するために一緒にグループ化されてもよいことが理解されるだろう。
領域変換プロセッサ201,203は、少なくとも第1及び第2の信号成分を生成するためにダウンミックス信号の周波数領域の表現を分解するように構成された信号分解プロセッサ205に結合される。
第1の信号成分は、ダウンミックス信号の主要方向信号成分に対応するように生成される。詳細には、第1の信号成分は、古典的なラウドスピーカシステムにおける振幅パンニング技術で得られるファントムソースの推定になるように生成される。実際には、信号分解プロセッサ205は、ダウンミックス信号により表された音源から聴取者により受信される直接信号に対応する第1の信号成分を決定しようとする。
第2の信号成分は、第1の信号成分と少なくとも部分的に(及びしばしば実質的に完全に)非相関である信号成分である。それ故、第2の信号成分は、ダウンミックス信号のための拡散信号成分を表し得る。実際には、信号分解プロセッサ205は、ダウンミックス信号により表された音源から聴取者により受信される拡散又は間接信号に対応する第2の信号成分を決定しようとすることができる。それ故、第2の信号成分は、反響音、部屋の反射等のような、ダウンミックス信号により表されたサウンド信号の非方向成分を表し得る。従って、第2の信号成分は、ダウンミックス信号により表された環境サウンドを表す。
多くの実施形態において、第2の信号成分は、第1の信号成分に関するダウンミックスを補償することから生ずる残留信号に対応し得る。例えば、ステレオダウンミックスに関して、第1の信号成分は、重み付けが出力ニュートラル(power neutral)にならなければならないという制限を伴って、2つのチャンネルにおける信号の重み付けされた合計として生成され得る。例えば、
Figure 2012525051
ここで、l及びrは、左及び右チャンネルのそれぞれにおけるダウンミックス信号であり、a及びbは、
Figure 2012525051
という制約下でx1の最大出力をもたらすように選択される重みである。
それ故、第1の信号は、ダウンミックスの複数のチャンネルのための信号を組み合わせた関数として生成される。この関数自身は、第1の信号成分に関する生ずる出力を最大にするために選択される2つのパラメータに依存する。本例において、これらのパラメータは、ダウンミックスの信号の組み合わせが出力ニュートラルになることをもたらすように更に制約される。即ち、これらのパラメータは、パラメータの変化が実現可能な出力に影響を与えないように選択される。
第1の信号の計算は、生ずる第1の信号成分が、聴取者に届くであろう主要方向信号に対応する可能性が高くなることを可能にする。
そして、本例において、第2の信号は、例えばダウンミックス信号から第1の信号を単純に差し引くことにより、残留信号として計算され得る。例えば、幾つかの状況において、2つの拡散信号は、一方の斯様な拡散信号が左側ダウンミックス信号に対応し、他方の斯様な拡散信号が右側ダウンミックス信号に対応するように生成される。第1の信号成分は、左側ダウンミックス信号から差し引かれ、第1の信号成分は、右側ダウンミックス信号から差し引かれる。
異なる分解アプローチが異なる実施形態において用いられ得ることが理解されるだろう。例えば、ステレオダウンミックス信号に関して、欧州特許出願第07117830.5号明細書、並びに、J. Breebaart及びE. Schuijersによる論文"Phantom Materialization: A Novel Method to Enhance Stereo Audio Reproduction on Headphones(IEEE Transactions on Audio, Speech, and Language Processing, Vol. 16, No. 8, pp. 1503-1511, November 2008)"が適用され得る。
例えば、多数の分解技術は、ステレオダウンミックス信号を、1又はそれ以上の方向/主要信号成分と1又はそれ以上の環境信号成分とに分解するのに適し得る。
例えば、ステレオダウンミックスは、
Figure 2012525051
に従って、単一の方向/主要成分と2つの環境成分とに分解され得る。ここで、lは、左側ダウンミックスチャンネルにおける信号を表し、rは、右側ダウンミックスチャンネルにおける信号を表し、mは、主要信号成分を表し、dl及びdrは、拡散信号成分を表す。γは、主要成分mと環境信号(dl及びdr)との間の相関がゼロになるように、並びに、主要方向信号成分mの出力が最大になるように選択されるパラメータである。
他の例として、単一の方向/主要成分と単一の環境成分とを生成するために回転操作が用いられてもよい。
Figure 2012525051
ここで、αは、主要信号mと環境信号dとの間の相関がゼロになり、主要成分mの出力が最大になるように選択される。この例は、a=sin(α)及びb=sin(α)と同等の信号成分を生成する前の例に対応することに留意されたい。更に、環境信号dの計算は、主要成分mのためのダウンミックス信号の補償として理解され得る。
更に他の例として、分解が、ステレオ信号からの2つの主要成分と2つの環境成分とを生成してもよい。最初に、前述された回転操作が、単一の方向/主要成分を生成するために用いられ得る。
Figure 2012525051
そして、右及び左の主要成分は、推定されたモノラル信号の最小二乗適合として推定され得る。
Figure 2012525051
ここで、
Figure 2012525051
ここで、m[k],l[k]及びr[k]は、時間周波数Ktileに対応するメイン、左及び右の周波数/サブバンド領域サンプルを表す。
そして、2つの左及び右の環境成分d1及びd2は、
Figure 2012525051
として計算される。
幾つかの実施形態において、ダウンミックス信号は、モノラル信号であり得る。斯様な実施形態において、信号分解プロセッサ205は、モノラル信号に対応する第1の信号成分を生成し得る一方で、第2の信号成分は、モノラル信号のための非相関信号に対応するように生成される。
詳細には、図3に示されるように、ダウンミックスは、主要方向信号成分として直接用いられ得る一方で、環境/拡散信号成分は、非相関フィルタ301をダウンミックス信号に適用することにより生成される。非相関フィルタ301は、当業者に知られているような、適切な全域通過フィルタであり得る。非相関フィルタ301は、詳細には、MPEGサラウンドデコーディングのために典型的に用いられる非相関フィルタと同等であり得る。
図2のデコーダは、パラメトリック拡張データを受信し、このパラメトリック拡張データに応じて第1の信号成分に関する第1の空間的位置指標を決定するように構成された位置プロセッサ207を更に有する。それ故、空間パラメータに基づいて、位置プロセッサ207は、主要方向信号成分に対応するファントムソースに関する推定位置を計算する。
幾つかの実施形態において、位置プロセッサ207は、パラメトリック拡張データに応じて第2の信号成分に関する第2の空間的位置指標も決定し得る。それ故、空間パラメータに基づいて、位置プロセッサ207は、斯様な実施形態において、拡散信号成分に対応するファントムソースに関する1又はそれ以上の推定位置を計算し得る。
本例において、位置プロセッサ207は、ダウンミックス信号を、アップミックスされたマルチチャンネル信号にアップミックスするためのアップミックスパラメータを最初に決定することにより推定位置を生成する。アップミックスパラメータは、直接的にパラメトリック拡張データの空間パラメータであってもよく、又は、ここから導出されてもよい。そして、スピーカ位置は、アップミックスされたマルチチャンネル信号のチャンネルのそれぞれに対して想定され、推定位置は、アップミックスパラメータに依存してスピーカ位置を組み合わせることにより計算される。それ故、アップミックスパラメータが、ダウンミックス信号が第1のチャンネルに対する強い貢献及び第2のチャンネルに対する低い貢献を与えることを示す場合には、その後、第1のチャンネルのスピーカ位置は、第2のチャンネルよりも高く重み付けされる。
詳細には、空間パラメータは、ダウンミックス信号から、アップミックスされたマルチチャンネル信号のチャンネルへの変換を記述し得る。この変換は、例えば、アップミックスチャンネルの信号をダウンミックスチャンネルのための信号と関連付けるマトリックスにより表され得る。
そして、位置プロセッサ207は、各チャンネルに関する想定されたスピーカ位置のそれぞれに対する角度の重み付けされた組み合わせにより第1の空間的位置指標に関する角度方向を決定し得る。チャンネルに対する重み付けは、詳細には、ダウンミックス信号からそのチャンネルへの変換の利得(例えば振幅又は利得)を反映させるように計算され得る。
特定の例として、幾つかの実施形態において、位置プロセッサ207により実行された方向解析は、主要信号成分の方向がMPEGサラウンドデコーダの"ドライ"信号部分のための方向に対応し、環境成分の方向がMPEGサラウンドデコーダの"ウェット"信号部分の方向に対応するという仮定に基づき得る。この状況において、ウェット信号部分は、非相関フィルタを含むMPEGサラウンドアップミックス処理の部分に対応するように考慮され、ドライ信号部分は、これを含まない部分に対応するように考慮され得る。
図4は、MPEGサラウンドアップミックス機能の一例を示している。示されるように、ダウンミックスは、第1のマトリクス操作を適用する第1のマトリクスプロセッサ401により、チャンネルの第1のセットに最初にアップミックスされる。
そして、生成された信号の幾つかは、非相関信号を生成するために非相関フィルタ403に送られる。その後、非相関出力信号は、非相関フィルタ403に送られない第1のマトリクスプロセッサ401からの信号と一緒に、第2のマトリクス操作を適用する第2のマトリクスプロセッサ405に送られる。そして、第2のマトリクスプロセッサ405の出力は、アップミックスされた信号になる。
それ故、ドライ部分は、非相関フィルタ403の入力又は出力信号を生成又は処理しない図6の機能の部分に対応し得る。
同様に、ウェット部分は、非相関フィルタ403の入力又は出力信号を生成又は処理する図6の機能の部分に対応し得る。
それ故、本例において、ダウンミックスは、第1のマトリクスプロセッサ401においてプレマトリクス(pre-matrix)M1により最初に処理される。プレマトリクスM1は、当業者に知られているような、MPEGサラウンド空間パラメータの関数である。第1のマトリクスプロセッサ401の出力部分は、多数の非相関フィルタ403に送られる。非相関フィルタ403の出力は、プレマトリクスの残りの出力と一緒に、ミックスマトリクス(mix-matrix)M2を適用する第2のマトリクスプロセッサ405の入力として用いられる。ミックスマトリクスM2は、(当業者に知られているような)MPEGサラウンド空間パラメータの関数である。
数学的に、このプロセスは、
Figure 2012525051
として各時間周波数タイルに対して記述され得る。ここで、xは、ダウンミックス信号ベクトルを表し、M1は、現在の時間周波数タイルに特有のMPEGサラウンドパラメータの関数であるプレマトリクスを表す。vは、ミックスマトリクスに直接送られる部分vdirと非相関フィルタに送られる部分vambとにある中間信号ベクトルである。
Figure 2012525051
非相関フィルタ403後の信号ベクトルwは、
Figure 2012525051
として記述され得る。ここで、
Figure 2012525051
は、非相関フィルタ403を表す。最終出力ベクトルyは、
Figure 2012525051
としてミックスマトリクスから構成される。ここで、
Figure 2012525051
は、MPEGサラウンドパラメータの関数であるミックスマトリクスを表す。
前記の数学的表現から、最終出力信号は、ドライ信号及びウェット(非相関)信号の重畳であることが理解され得る。
Figure 2012525051
ここで、
Figure 2012525051
それ故、ダウンミックスからアップミックスされたマルチチャンネルサラウンド信号への変換は、信号非相関関数を含む第1の下位変換と、信号非相関関数を含まない第2の下位変換とを含むように考慮され得る。
詳細には、モノラルダウンミックスに関して、第1の下位変換は、
Figure 2012525051
のように決定され得る。ここで、xは、モノラルダウンミックスを表し、Gdirは、ダウンミックスを出力チャンネルにマッピングする全体のマトリクスを表す。
そして、対応する仮想ファントム音源の方向(角度)は、例えば
Figure 2012525051
のように導出され得る。ここで、
Figure 2012525051
は、ラウドスピーカ設定に関連付けられた仮想角度を表す。
例えば、左前、右前、中央、左サラウンド及び右サラウンドのスピーカのそれぞれに関して、
Figure 2012525051
が多くの場合適切であり得る。
他の実施形態において、
Figure 2012525051
とは異なる重み付けが用いられてもよく、実際には、個々の実施形態の優先度及び要件に依存して、利得及び仮想角度の多くの他の関数が用いられ得ることが理解されるだろう。
以前の角度計算による問題は、異なる角度が、幾つかの状況において、互いに相殺する傾向にあり得ることである。例えば、
Figure 2012525051
が全てのチャンネルに対してほぼ同等である場合には、決定された角度に対する高い感度が生じ得る。
幾つかの実施形態において、これは、例えば、
Figure 2012525051
のような、全ての(隣接する)スピーカのペアに対する角度計算により軽減され得る。ここで、pは、スピーカのペアを表す。
Figure 2012525051
それ故、下位変換
Figure 2012525051
に基づいて、主要方向信号、即ち第1の信号成分の方向が推定され得る。時間周波数タイルにおける主要方向信号成分の位置(方向/角度)は、空間パラメータや仮想スピーカ位置により特徴付けられるアップミックスのドライ処理に対応する位置に対応するように決定される。
類似の態様において、角度は、
Figure 2012525051
により与えられた下位変換に基づいて環境成分(第2の信号成分)に対して導出され得る。
それ故、本例において、時間周波数タイルにおける拡散信号成分のための位置(方向/角度)は、空間パラメータや仮想スピーカ位置により特徴付けられるアップミックスのウェット処理に対応する位置に対応するように決定される。これは、多くの実施形態において向上した空間的体験を与えることができる。
他の実施形態において、固定された位置又は複数の位置は、拡散信号成分に対して用いられ得る。それ故、環境成分の角度は、例えばサラウンドスピーカの位置で、固定された角度に設定され得る。
前記の例は、空間パラメータにより特徴付けられたMPEGサラウンドアップミキシングに基づいているのに対し、実際には、ダウンミックスの斯様なアップミキシングは位置プロセッサ207によっては実行されない。
ステレオダウンミックス信号に関して、例えば、2つの角度が導出され得る。これは、2つの主要信号成分が分解により生成され、実際には一の角度が各主要信号に対して計算され得る本例に対応し得る。
それ故、方向ドライアップミキシングは、
Figure 2012525051
に対応し、2つの角度
Figure 2012525051
をもたらす。
2つの斯様な角度の計算は、特に有利であり、MPEGサラウンドが典型的には左及び右ダウンミックスチャンネル間の関係を規定する空間パラメータを含まないので、MPEGサラウンドがステレオダウンミックスと一緒に用いられる状況に適している。
類似の態様において、2つの環境成分、即ち、左ダウンミックスチャンネルに対するものと右ダウンミックスチャンネルに対するものとがそれぞれ導出され得る。
Figure 2012525051
及び
Figure 2012525051
幾つかの実施形態において、位置プロセッサ207は、第1の信号成分のための距離指標を更に決定し得る。これは、後のレンダリングがこの距離を反映させるHRTFを用いることを可能にし、これに応じて、向上した空間的体験をもたらし得る。
一例として、前記距離は、
Figure 2012525051
から推定され得る。ここで、dmin及びdmaxは、最小及び最大距離、例えばdmin=0.5m及びdmax=2.5mを表し、Ddirは、仮想音源位置の推定された距離を表す。
本例において、位置プロセッサ207は、主要方向信号成分及び/又は拡散信号成分の推定された位置を調節し得るオプショナル調節プロセッサ209に結合される。
例えば、オプショナル調節プロセッサ209は、ヘッドトラッキング情報を受信し、主要音源の位置を適宜調節し得る。代わりに、サウンドステージは、固定されたオフセットを、位置プロセッサ207により決定された角度に追加することにより回転され得る。
図2のシステムは、オプショナル調節プロセッサ209及び信号分解プロセさ205に結合された双耳プロセッサ211を更に有する。双耳プロセッサ211は、第1及び第2の信号成分(即ち、分解された主要方向信号成分及び拡散信号成分)、並びに、対応する推定された位置を、オプショナル調節プロセッサ209から受信する。
そして、これは、第1及び第2の信号成分がオプショナル調節プロセッサ209から受信した推定位置により示された位置から生じていると聴取者に思われるように、これらの信号成分のレンダリングを進める。
詳細には、双耳プロセッサ211は、第1の信号成分に対して推定された位置に対応する2つのHRTF(各耳対して一つ)を取り出すように進行する。そして、これは、これらのHRTFを第1の信号成分に適用するように進行する。HRTFは、例えば、各耳に対する各時間周波数タイルのための適切にパラメトライズされたHRTF伝達関数を有するルックアップテーブルから取り出され得る。ルックアップテーブルは、例えば5°毎の角度のような多数の角度に対するHRTF値のセット全体を有し得る。そして、双耳プロセッサ211は、推定された位置に最も密接に対応する角度に対するHRTF値を単純に選択し得る。代わりに、双耳プロセッサ211は、利用可能なHRTF値間の補間を用いてもよい。
同様に、双耳プロセッサ211は、所望の環境位置に対応するHRTFを第2の信号成分に適用する。幾つかの実施形態において、これは、固定された位置に対応し、それ故に、同一のHRTFが、第2の信号成分に対して常に用いられ得る。他の実施形態において、環境信号に関する位置が推定され、適切なHRTF値が、ルックアップテーブルから取り出され得る。
そして、左及び右のそれぞれに対するHRTFフィルタリングされた信号は、双耳出力信号を生成するために組み合わせられる。双耳プロセッサ211は、左側双耳信号の周波数領域の表現を時間領域の表現に変換する第1の出力変換プロセッサ213と、右側双耳信号の周波数領域の表現を時間領域の表現に変換する第2の出力変換プロセッサ215とに更に結合される。そして、時間領域信号が出力され、例えば、聴取者により着用されたヘッドホンに送られ得る。
出力双耳信号の合成は、詳細には、単一のパラメータ値を各周波数タイルに適用することにより、時間及び周波数変化の態様で行われ、パラメータ値は、その周波数、タイル及び所望位置(角度)のHRTF値を表す。それ故、HRTFフィルタリングは、残りの処理と同一の時間周波数タイルを用いて周波数領域の乗算により実現され、これにより、高効率な計算を与える。
詳細には、J. Breebaart及びE. Schuijersによる"Phantom Materialization: A Novel Method to Enhance Stereo Audio Reproduction on Headphones(IEEE Transactions on Audio, Speech, and Language Processing, Vol. 16, No. 8, pp. 1503-1511, November 2008)"のアプローチが用いられ得る。
例えば、所与の合成角度
Figure 2012525051
(及びオプション的に距離D)に関して、以下のパラメトリックHRTFデータが、各時間/周波数タイルに対して利用可能であり得る。
・左耳HRTFの(平均)レベルパラメータ
Figure 2012525051
・右耳HRTFの(平均)レベルパラメータ
Figure 2012525051
・左耳及び右耳HRTF間の平均位相差パラメータ
Figure 2012525051
レベルパラメータは、HRTFのスペクトルエンベロープを表し、位相差パラメータは、両耳間時間差の逐次定数近似(stepwise constant approximation)を表す。
前述した方向分析から導出された所与の合成角度
Figure 2012525051
を伴う、所与の時間周波数タイルに関して、出力信号は、
Figure 2012525051
のように構成される。ここで、mは、主要/方向成分の時間周波数タイルデータを表し、ldir及びrdirは、左及び右のそれぞれの主要/方向出力信号の時間周波数タイルデータを表す。
同様に、環境成分は、
Figure 2012525051
Figure 2012525051
に従って合成される。ここで、dは、環境成分の時間周波数タイルデータを表し、lamb及びlambは、左及び右のそれぞれの環境出力信号の時間周波数タイルデータを表し、この場合において、合成角度
Figure 2012525051
は、環境成分に対する方向解析に対応する。
最終出力信号は、主要及び環境出力成分を追加することにより構成される。複数の主要成分及び/又は複数の環境成分が解析ステージの間に導出される場合において、これらは、最終出力信号を形成するために個別に合成されて合計され得る。
角度がチャンネルペア毎に計算される実施形態に関して、これは、
Figure 2012525051
として表され得る。
同様に、環境成分は、角度
Figure 2012525051
に対してレンダリングされる。
前の説明は、マルチソース信号がマルチチャンネル信号に対応する場合、即ち、各信号ソースがマルチチャンネル信号のチャンネルに対応する場合の一例に集中している。
しかしながら、述べられた原理及びアプローチは、サウンドオブジェクトに直接適用されてもよい。それ故、幾つかの実施形態において、マルチソース信号の各ソースがサウンドオブジェクトであってもよい。
詳細には、MPEG標準化団体は、現在、"Spatial Audio Object Coding (SAOC)"ソリューションを標準化するプロセスを進めている。高いレベルの視点から、SAOCにおいて、チャンネルの代わりに、サウンドオブジェクトが効果的に符号化される。MPEGサラウンドにおいては、各スピーカチャンネルが、サウンドオブジェクトの異なる混合から生じるように考慮され得るのに対し、SAOCにおいては、これらの個々のサウンドオブジェクトの推定が、対話式コントロールのためのデコーダで利用可能である(例えば、個々の楽器が個々に符号化され得る)。MPEGサラウンドと同様に、SAOCは、モノラル又はステレオダウンミックスを生成し、これは、その後、HE−AACのような標準的なダウンミックスコーダーを用いてオプション的に符号化される。そして、空間オブジェクトパラメータは、元の空間サウンドオブジェクトがダウンミックスからどのように再生成され得るかを記述するために、ダウンミックス符号化されたビットストリームの補助データ部分に組み込まれる。デコーダ側では、ユーザは、位置、増幅、等化のような個々のオブジェクトの種々の特徴、及び、反響音のような効果のアプリケーションを制御するために、これらのパラメータを更にコントロールし得る。それ故、本アプローチは、エンドユーザが、例えば、個々のサウンドオブジェクトにより表された個々の楽器の個々の空間的位置を制御することを可能にする。
斯様な空間オーディオオブジェクトコーディングの場合において、単一のソース(モノラル)オブジェクトは、個々のレンダリングに対して容易に利用可能である。しかしながら、ステレオオブジェクト(2つの関連するオブジェクト)及びマルチチャンネルバックグラウンドオブジェクトに関して、個々のチャンネルは、通常、個別にレンダリングされる。しかしながら、幾つかの実施形態によれば、述べられた原理は、斯様なオーディオオブジェクトに適用され得ない。詳細には、オーディオオブジェクトは、主要方向信号成分と拡散信号成分とに分解され、これらは、所望位置から個別に直接的にレンダリングされ、これにより、向上した空間的体験をもたらす。
幾つかの実施形態において、述べられた処理は、周波数帯域全体に適用され得る、即ち、分解及び/又は位置の決定は、周波数帯域全体に基づいて決定され、及び/又は、周波数帯域全体に適用され得ることが理解されるだろう。これは、例えば、入力信号が1つだけの主要サウンド成分を有するときに役立ち得る。
しかしながら、大部分の実施形態において、この処理は、時間周波数タイルのグループにおいて個々に適用される。詳細には、解析及び処理は、各時間周波数タイルに対して個々に実行され得る。それ故、分解は、各時間周波数タイルに対して実行され、推定された位置は、各時間周波数タイルに対して決定され得る。更に、双耳処理は、その時間周波数タイルに対して決定された位置に対応するHRTFパラメータを、その時間周波数タイルに対して計算された第1及び第2の信号成分値に適用することにより、各時間周波数タイルに対して実行される。
これは、位置、分解等が異なる時間周波数タイルに対して変化する時間及び周波数変化処理をもたら得る。これは、とりわけ、入力信号が異なる方向等に対応する複数のサウンド成分を有する最も一般的な状況に対して有利である。斯様な場合において、異なる成分は、理想を言えば、(これらが異なる位置の音源に対応するので)異なる方向からレンダリングされるべきである。これは、ほとんどの状況において、各時間周波数タイルが典型的には一の支配的なサウンド成分を含むので、個々の時間周波数タイルの処理により自動的に実現され得る。この処理は、支配的なサウンド成分に適合するように決定される。それ故、本アプローチは、異なるサウンド成分の自動化された分離及び個々の処理をもたらすだろう。
明確さのための前記説明は、異なる機能ユニット及びプロセッサを参照して本発明を説明していることが理解されるだろう。しかしながら、異なる機能ユニット又はプロセッサ間の機能性の任意の適切な分配が本発明を損なうことなく用いられ得ることは明らかであるだろう。例えば、別個のプロセッサ又はコントローラにより実行されるように示された機能性は、同一のプロセッサ又はコントローラにより実行されてもよい。それ故、特定の機能ユニットへの言及は、厳密な論理的又は物理的構造又は機構を示すよりもむしろ、述べられた機能性を与えるための適切な手段への言及として理解されるに過ぎない。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組み合わせを含む任意の適切な形式において実装されてもよい。本発明は、オプション的に、1又はそれ以上のデータプロセッサ及び/又はデジタル信号プロセッサで実行するコンピュータソフトウェアとして少なくとも部分的に実装されてもよい。本発明の一実施形態の要素及びコンポーネントは、任意の適切な方法で物理的、機能的及び論理的に実装されてもよい。実際には、機能性は、単一のユニットにおいて、複数のユニットにおいて、又は、他の機能ユニットの部分として、実装され得る。そのため、本発明は、単一のユニットにおいて実装されてもよく、又は、異なるユニット及びプロセッサ間で物理的及び機能的に分配されてもよい。
本発明は、幾つかの実施形態と組み合わせて説明されたが、これは、ここに記載された特定の形式に限定されることが意図されるものではない。むしろ、本発明の範囲は、特許請求の範囲によってのみ限定される。加えて、一の特徴が特定の実施形態と組み合わせて述べられるように見えるが、当業者は、述べられた実施形態の種々の特徴が本発明に従って組み合わせられ得ることを理解するだろう。請求項において、有するという用語は、他の要素又はステップの存在を除外するものではない。
更に、個別に記載されているが、複数の手段、要素又は方法ステップは、例えば単一のユニット又はプロセッサにより実装されてもよい。加えて、個々の特徴が異なる請求項に含まれる場合があるが、これらは、場合により有利に組み合わせられてもよく、異なる従属請求項における包含は、これら特徴の組み合わせが実現可能ではない及び/又は有利ではないことを意味するものではない。また、請求項の一のカテゴリにおける一の特徴の包含は、このカテゴリへの限定を意味するものではなく、むしろ、この特徴が必要に応じて他の請求項のカテゴリに同等に適用可能であることを示す。更に、請求項中の特徴の順序は、これらの特徴が実行されるべき任意の特定の順序を意味するものではなく、とりわけ、方法に係る請求項中の個々のステップの順序は、これらのステップがこの順序で実行されるべきことを意味するものではない。むしろ、これらのステップは、任意の適切な順序で実行され得る。加えて、単数表記は、複数を除外するものではない。それ故、"第1","第2"等への言及は、複数を排除するものではない。請求項中の参照符号は、明確化した例として与えられるに過ぎず、如何なる態様においても請求項の範囲を限定するものとして考慮されるべきではない。

Claims (15)

  1. マルチサウンドソース信号を合成するための装置であって、
    当該装置は、前記マルチサウンドソース信号を表す符号化信号を受信するためのユニットを有し、前記符号化信号は、前記マルチサウンドソースに関するダウンミックス信号と、前記ダウンミックス信号を前記マルチサウンドソース信号に拡張するためのパラメトリック拡張データとを有し、
    当該装置は、少なくとも第1の信号成分及び第2の信号成分を生成するために前記ダウンミックス信号の信号分解を実行するための分解ユニットを有し、前記第2の信号成分は、前記第1の信号成分に少なくとも部分的に相関し、
    当該装置は、
    前記パラメトリック拡張データに応じて前記第1の信号成分に関する第1の空間的位置指標を決定するための位置ユニットと、
    前記第1の空間的位置指標に基づいて前記第1の信号成分を合成するための第1の合成ユニットと、
    前記第1の信号成分とは異なる方向から生じるように前記第2の信号成分を合成するための第2の合成ユニットとを有する、装置。
  2. 当該装置は、前記ダウンミックスを時間間隔周波数帯域ブロックに分割し、各時間間隔周波数帯域ブロックを個別に処理するように構成されるユニットを更に有する、請求項1に記載の装置。
  3. 前記第1の合成ユニットは、パラメトリックHRTF(Head-Related Transfer Function)を第1の信号成分の時間間隔周波数帯域ブロックに適用するように構成され、
    前記パラメトリックHRTFは、前記第1の空間的位置指標により表された位置に対応し、各時間間隔周波数帯域ブロックに対して設定されたパラメータ値を有する、請求項2に記載の装置。
  4. 前記マルチサウンドソース信号は、空間マルチチャンネル信号である、請求項1に記載の装置。
  5. 前記位置ユニットは、前記マルチチャンネル信号のチャンネルに関する想定スピーカ位置及び前記パラメトリック拡張データのアップミックスパラメータに応じて前記第1の空間的位置指標を決定するように構成され、
    前記アップミックスパラメータは、前記マルチチャンネル信号をもたらすための前記ダウンミックスのアップミックスを示す、請求項4に記載の装置。
  6. 前記パラメトリック拡張データは、前記ダウンミックス信号から前記マルチチャンネル信号のチャンネルへの変換を記述し、
    前記位置ユニットは、前記マルチチャンネル信号のチャンネルに関する前記想定スピーカ位置に対する重み及び角度の組み合わせに応じて前記第1の空間的位置指標に対する角度方向を決定するように構成され、
    チャンネルに対する各重みは、前記ダウンミックス信号から前記チャンネルへの変換の利得に依存する、請求項4に記載の装置。
  7. 前記変換は、信号非相関関数を含む第1の下位変換と、信号非相関関数を含まない第2の下位変換とを含み、前記第1の空間的位置指標の決定は、前記第1の下位変換を考慮しない、請求項6に記載の装置。
  8. 当該装置は、
    前記パラメトリック拡張データに応じて前記第2の信号成分に関する第2の空間的位置指標を生成するように構成された第2の位置ユニットと、
    前記第2の空間的位置指標に基づいて前記第2の信号成分を合成するように構成された第2の合成ユニットとを更に有する、請求項1に記載の装置。
  9. 前記ダウンミックス信号は、モノラル信号であり、
    前記分解ユニットは、前記モノラル信号に対応する前記第1の信号成分と前記モノラル信号に対する非相関信号に対応する前記第2の信号成分とを生成するように構成される、請求項1に記載の装置。
  10. 前記第1の信号成分は、主要方向信号成分であり、前記第2の信号成分は、前記ダウンミックス信号に対する拡散信号成分である、請求項1に記載の装置。
  11. 前記第2の信号成分は、前記第1の信号成分に対する前記ダウンミックスを補償することに起因する残留信号に対応する、請求項1に記載の装置。
  12. 前記分解ユニットは、前記ダウンミックスの複数のチャンネルに関する信号を組み合わせる関数に応じて前記第1の信号成分を決定するように構成され、
    前記関数は、少なくとも1つのパラメータに依存し、
    前記分解ユニットは、前記第1の信号成分に対する出力の大きさを最大にするように前記少なくとも1つのパラメータを決定するように更に構成される、請求項1に記載の装置。
  13. 前記マルチソース信号の各ソースは、サウンドオブジェクトである、請求項1に記載の装置。
  14. 前記第1の空間的位置指標は、前記第1の信号成分に関する距離指標を含み、
    前記第1の合成ユニットは、前記距離指標に応じて前記第1の信号成分を合成するように構成される、請求項1に記載の装置。
  15. マルチサウンドソース信号を合成する方法であって、
    当該方法は、前記マルチサウンドソース信号を表す符号化信号を受信するステップを有し、前記符号化信号は、前記マルチサウンドソースに関するダウンミックス信号と、前記ダウンミックス信号を前記マルチサウンドソース信号に拡張するためのパラメトリック拡張データとを有し、
    当該方法は、少なくとも第1の信号成分及び第2の信号成分を生成するために前記ダウンミックス信号の信号分解を実行するステップを有し、前記第2の信号成分は、前記第1の信号成分に少なくとも部分的に相関し、
    当該方法は、
    前記パラメトリック拡張データに応じて前記第1の信号成分に関する第1の空間的位置指標を決定するステップと、
    前記第1の空間的位置指標に基づいて前記第1の信号成分を合成するステップと、
    前記第1の信号成分とは異なる方向から生じるように前記第2の信号成分を合成するステップとを有する、方法。
JP2012506612A 2009-04-21 2010-04-14 オーディオ信号の合成 Withdrawn JP2012525051A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09158323.7 2009-04-21
EP09158323 2009-04-21
PCT/IB2010/051622 WO2010122455A1 (en) 2009-04-21 2010-04-14 Audio signal synthesizing

Publications (1)

Publication Number Publication Date
JP2012525051A true JP2012525051A (ja) 2012-10-18

Family

ID=42313881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012506612A Withdrawn JP2012525051A (ja) 2009-04-21 2010-04-14 オーディオ信号の合成

Country Status (8)

Country Link
US (1) US20120039477A1 (ja)
EP (1) EP2422344A1 (ja)
JP (1) JP2012525051A (ja)
KR (1) KR20120006060A (ja)
CN (1) CN102414743A (ja)
RU (1) RU2011147119A (ja)
TW (1) TW201106343A (ja)
WO (1) WO2010122455A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014075753A (ja) * 2012-10-05 2014-04-24 Nippon Hoso Kyokai <Nhk> 音響品質推定装置、音響品質推定方法及び音響品質推定プログラム
JP2016527804A (ja) * 2013-07-22 2016-09-08 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン レンダラ制御式空間アップミックス
JP2016534667A (ja) * 2013-09-11 2016-11-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 複数の拡声器信号を非相関にする装置及び方法
JP2016537669A (ja) * 2013-10-21 2016-12-01 ドルビー・インターナショナル・アーベー オーディオ信号のパラメトリック再構成
JP2018518923A (ja) * 2015-04-28 2018-07-12 エル アコースティックス ユーケー リミテッド マルチチャネルオーディオ信号を再生する装置およびマルチチャネルオーディオ信号を生成する方法
JP6431225B1 (ja) * 2018-03-05 2018-11-28 株式会社ユニモト 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム
JP2020110007A (ja) * 2015-11-17 2020-07-16 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリック・バイノーラル出力システムおよび方法のための頭部追跡

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8675881B2 (en) * 2010-10-21 2014-03-18 Bose Corporation Estimation of synthetic audio prototypes
US9078077B2 (en) 2010-10-21 2015-07-07 Bose Corporation Estimation of synthetic audio prototypes with frequency-based input signal decomposition
AR084091A1 (es) 2010-12-03 2013-04-17 Fraunhofer Ges Forschung Adquisicion de sonido mediante la extraccion de informacion geometrica de estimativos de direccion de llegada
US10154361B2 (en) * 2011-12-22 2018-12-11 Nokia Technologies Oy Spatial audio processing apparatus
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
CN102665156B (zh) * 2012-03-27 2014-07-02 中国科学院声学研究所 一种基于耳机的虚拟3d重放方法
US9401684B2 (en) 2012-05-31 2016-07-26 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for synthesizing sounds using estimated material parameters
PT2896221T (pt) * 2012-09-12 2017-01-30 Fraunhofer Ges Forschung Aparelho e método para fornecer capacidades melhoradas de mistura descendente guiada para áudio 3d
BR112016004299B1 (pt) * 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
CN105531761B (zh) 2013-09-12 2019-04-30 杜比国际公司 音频解码系统和音频编码系统
KR101815082B1 (ko) 2013-09-17 2018-01-04 주식회사 윌러스표준기술연구소 멀티미디어 신호 처리 방법 및 장치
US9848272B2 (en) 2013-10-21 2017-12-19 Dolby International Ab Decorrelator structure for parametric reconstruction of audio signals
CN108449704B (zh) 2013-10-22 2021-01-01 韩国电子通信研究院 生成用于音频信号的滤波器的方法及其参数化装置
CN104715753B (zh) * 2013-12-12 2018-08-31 联想(北京)有限公司 一种数据处理的方法及电子设备
US9832589B2 (en) * 2013-12-23 2017-11-28 Wilus Institute Of Standards And Technology Inc. Method for generating filter for audio signal, and parameterization device for same
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
US9832585B2 (en) 2014-03-19 2017-11-28 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
CN108307272B (zh) 2014-04-02 2021-02-02 韦勒斯标准与技术协会公司 音频信号处理方法和设备
CN104240695A (zh) * 2014-08-29 2014-12-24 华南理工大学 一种优化的基于耳机重放的虚拟声合成方法
BR112017006325B1 (pt) 2014-10-02 2023-12-26 Dolby International Ab Método de decodificação e decodificador para o realce de diálogo
CN107004421B (zh) * 2014-10-31 2020-07-07 杜比国际公司 多通道音频信号的参数编码和解码
WO2016077320A1 (en) * 2014-11-11 2016-05-19 Google Inc. 3d immersive spatial audio systems and methods
US9743187B2 (en) * 2014-12-19 2017-08-22 Lee F. Bender Digital audio processing systems and methods
JP6803916B2 (ja) * 2015-10-26 2020-12-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン エレベーション・レンダリングを実現するフィルタリング済みオーディオ信号を生成する装置および方法
US9826332B2 (en) * 2016-02-09 2017-11-21 Sony Corporation Centralized wireless speaker system
US9924291B2 (en) 2016-02-16 2018-03-20 Sony Corporation Distributed wireless speaker system
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
EP3301673A1 (en) * 2016-09-30 2018-04-04 Nxp B.V. Audio communication method and apparatus
US9854362B1 (en) 2016-10-20 2017-12-26 Sony Corporation Networked speaker system with LED-based wireless communication and object detection
US10075791B2 (en) 2016-10-20 2018-09-11 Sony Corporation Networked speaker system with LED-based wireless communication and room mapping
US9924286B1 (en) 2016-10-20 2018-03-20 Sony Corporation Networked speaker system with LED-based wireless communication and personal identifier
CN114025301A (zh) 2016-10-28 2022-02-08 松下电器(美国)知识产权公司 用于回放多个音频源的双声道渲染装置和方法
CN107031540B (zh) * 2017-04-24 2020-06-26 大陆投资(中国)有限公司 适于汽车的声音处理系统及音频处理方法
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
FR3075443A1 (fr) * 2017-12-19 2019-06-21 Orange Traitement d'un signal monophonique dans un decodeur audio 3d restituant un contenu binaural
US10957299B2 (en) * 2019-04-09 2021-03-23 Facebook Technologies, Llc Acoustic transfer function personalization using sound scene analysis and beamforming
US11443737B2 (en) 2020-01-14 2022-09-13 Sony Corporation Audio video translation into multiple languages for respective listeners
WO2023215405A2 (en) * 2022-05-05 2023-11-09 Dolby Laboratories Licensing Corporation Customized binaural rendering of audio content

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US8712061B2 (en) * 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014075753A (ja) * 2012-10-05 2014-04-24 Nippon Hoso Kyokai <Nhk> 音響品質推定装置、音響品質推定方法及び音響品質推定プログラム
JP2016527804A (ja) * 2013-07-22 2016-09-08 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン レンダラ制御式空間アップミックス
US11743668B2 (en) 2013-07-22 2023-08-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Renderer controlled spatial upmix
US11184728B2 (en) 2013-07-22 2021-11-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Renderer controlled spatial upmix
US10085104B2 (en) 2013-07-22 2018-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Renderer controlled spatial upmix
US10341801B2 (en) 2013-07-22 2019-07-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Renderer controlled spatial upmix
JP2016534667A (ja) * 2013-09-11 2016-11-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 複数の拡声器信号を非相関にする装置及び方法
US9807534B2 (en) 2013-09-11 2017-10-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for decorrelating loudspeaker signals
US10242685B2 (en) 2013-10-21 2019-03-26 Dolby International Ab Parametric reconstruction of audio signals
US10614825B2 (en) 2013-10-21 2020-04-07 Dolby International Ab Parametric reconstruction of audio signals
US11450330B2 (en) 2013-10-21 2022-09-20 Dolby International Ab Parametric reconstruction of audio signals
JP2016537669A (ja) * 2013-10-21 2016-12-01 ドルビー・インターナショナル・アーベー オーディオ信号のパラメトリック再構成
US11769516B2 (en) 2013-10-21 2023-09-26 Dolby International Ab Parametric reconstruction of audio signals
US10939223B2 (en) 2015-04-28 2021-03-02 L-Acoustics Uk Ltd Apparatus for reproducing a multi-channel audio signal and a method for producing a multi channel audio signal
JP2018518923A (ja) * 2015-04-28 2018-07-12 エル アコースティックス ユーケー リミテッド マルチチャネルオーディオ信号を再生する装置およびマルチチャネルオーディオ信号を生成する方法
JP2020110007A (ja) * 2015-11-17 2020-07-16 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリック・バイノーラル出力システムおよび方法のための頭部追跡
JP6431225B1 (ja) * 2018-03-05 2018-11-28 株式会社ユニモト 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム
JP2019153943A (ja) * 2018-03-05 2019-09-12 株式会社ユニモト 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム

Also Published As

Publication number Publication date
EP2422344A1 (en) 2012-02-29
TW201106343A (en) 2011-02-16
RU2011147119A (ru) 2013-05-27
WO2010122455A1 (en) 2010-10-28
KR20120006060A (ko) 2012-01-17
US20120039477A1 (en) 2012-02-16
CN102414743A (zh) 2012-04-11

Similar Documents

Publication Publication Date Title
JP2012525051A (ja) オーディオ信号の合成
US20200335115A1 (en) Audio encoding and decoding
JP5391203B2 (ja) バイノーラル音声信号を生成するための方法と装置
JP6433918B2 (ja) バイノーラルのオーディオ処理
EP2805326B1 (en) Spatial audio rendering and encoding
EP3569000B1 (en) Dynamic equalization for cross-talk cancellation
EP1927266A1 (en) Audio coding
RU2601189C2 (ru) Способ и устройство для разложения стереофонической записи с использованием обработки в частотной области, применяющей генератор спектральных весов
EP2946573B1 (en) Audio signal processing apparatus
RU2427978C2 (ru) Кодирование и декодирование аудио
MX2008010631A (es) Codificacion y decodificacion de audio

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130702