JP5400954B2 - 音声フォーマット・トランスコーダ - Google Patents

音声フォーマット・トランスコーダ Download PDF

Info

Publication number
JP5400954B2
JP5400954B2 JP2012509049A JP2012509049A JP5400954B2 JP 5400954 B2 JP5400954 B2 JP 5400954B2 JP 2012509049 A JP2012509049 A JP 2012509049A JP 2012509049 A JP2012509049 A JP 2012509049A JP 5400954 B2 JP5400954 B2 JP 5400954B2
Authority
JP
Japan
Prior art keywords
spatial
signal
audio
saoc
converted signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012509049A
Other languages
English (en)
Other versions
JP2012526296A (ja
Inventor
オリバー ティールガルト
コルネリア ファルヒ
ファビアン ケーヒ
ガルト ジョバンニ デル
ユルゲン ヘルレ
マルクス カーリンガー
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2012526296A publication Critical patent/JP2012526296A/ja
Application granted granted Critical
Publication of JP5400954B2 publication Critical patent/JP5400954B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声フォーマットのトランスコード(変換)の分野に関し、特に、パラメトリック符号化フォーマットのトランスコードに関する。
近年、マルチチャネル/マルチオブジェクト音声信号の符号化技術に関し、いくつかのパラメトリック技術が提案されている。各システムは、パラメトリック記述の形式や特定のスピーカ設定に対する依存性/独立性などのような特徴において、独自の長所及び短所を備えている。符号化の異なる手法に対しては、異なるパラメトリック技術が最適化されている。
一例として、マルチチャネル音声を表現する方向性音声符号化(DirAC)フォーマットが挙げられる。この方法は、複数の周波数サブ帯域のための、ダウンミックス信号と、方向性及び拡散性を示すパラメータを含むサイド情報と、に基づいている。このパラメータ化により、DirACシステムを、例えば方向性フィルタリングを容易に実現するために使用することができ、さらに、音声を収音するために使用されるマイクロホン・アレイに対して特定方向の起源位置を持つ音声を隔離するためにも使用することができる。このように、DirACは所定の空間処理が可能な音響的フロントエンドとしても認識することができる。
さらなる例としては、非特許文献1、非特許文献2、非特許文献3が挙げられるが、これらは多数の音声オブジェクトをビットレート効率の良い方法で含む音声シーンを表現する、パラメトリック符号化システムである。
これらの方法においては、上記音声シーンの表現はダウンミックス信号とパラメトリック・サイド情報とに基づいている。元の空間音声シーンをそれらがマイクロホン・アレイを用いて収音された時と同じ状態に表現することを目的とするDirACとは対照的に、SAOC(空間音声オブジェクト符号化)は、自然の音声シーンを再現することを目的とはしていない。代わりに、複数の音声オブジェクト(音源:sound source)が伝送され、復号化端末においてユーザの好みに従う目標音声シーンになるよう、SAOC復号器内で結合される。即ち、ユーザは、各音声オブジェクトを自由かつ双方向形式で配置し操作することができる。
一般に、マルチチャネルの再現及び受聴では、受聴者は多数のスピーカによって包囲されている。特定の設定のための音声信号を取り込むための様々な方法が存在する。このような再現における1つの一般的な目標は、もともと録音された信号の空間的配置、すなわちオーケストラの中でのトランペットの位置といった個々の音源の起源位置を再現することである。幾つかのスピーカ設定はかなり一般的であるが、これらは異なる空間的印象を作り出すことができる。公知の2チャネルステレオ設定では、特別な生成後技術(post-production techniques)を用いなければ、2つのスピーカ間を結ぶ線上に聴覚的事象を再現することしかできない。このような再現は主として、1つの音源に関連した信号の振幅が、2つのスピーカ間において、これらスピーカに対する当該音源の位置に依存して分配される、いわゆる「振幅パンニング」によって達成される。これは通常、録音又はその後のミキシングの際に実行される。その結果、受聴位置に対して左端から到来する音源は主として左のスピーカによって再現され、一方、受聴位置の前にある音源は両方のスピーカによって同じ振幅(レベル)で再現されることになる。しかしながら、他の方向から生じる音は再現できない。
受聴者の周りに配置されたより多くのスピーカを使用することで、より多くの方向が網羅可能であり、より自然な空間的印象を作り出すことができる。おそらく最も公知のマルチチャネルスピーカ配置は、5つのスピーカからなる5.1規格(ITU−R775−1)であり、その場合、受聴位置に対するスピーカの方位角は0°、±30°及び±110°となるよう規定されている。その結果、録音又はミキシングの際には信号がこの特定のスピーカ構成に合わせて調整される一方で、再現設定の方が当該規格からずれている場合には、再現品質の低下をもたらすことになる。
様々な数のスピーカが異なる方向に配置された他のシステムも、これまで多数提案されてきた。特に、劇場及び音響施設におけるプロ用システムは、異なる高さにあるスピーカをも含んでいる。
受聴環境における空間的印象が、録音環境において知覚されたであろう空間的印象と同じになるように録音し再現することを目的として、上述のスピーカシステムのために異なる再現設定に従ういくつかの異なる録音方法が考案され、提案されてきた。選択されたあるマルチチャネル・スピーカシステムのために空間的音声を録音する方法として、理論上の理想的方法とは、そのシステムに存在するスピーカと同じ数のマイクロホンを用いることである。その場合、あらゆる単一方向からの音声が少数のマイクロホン(1,2又はそれ以上)でのみ録音されるように、マイクロホンの指向性パターンもスピーカの配置に対応していなければならない。各マイクロホンはそれぞれ特定のスピーカに関連付けられる。再現に使用されるスピーカの数が増加するにつれて、マイクロホンの指向性パターンはより狭くなるべきである。しかしながら、狭い指向性のマイクロホンはむしろ高価であり、典型的には平坦ではない周波数応答を有し、録音された音声の品質を望ましくないように低下させてしまう。さらに、広すぎる指向性パターンを持つ複数のマイクロホンをマルチチャネル再現への入力として使用すると、色のついた(colored)不明瞭な音声的知覚をもたらしてしまう。なぜなら、単一方向から発せられる音声であるにも関わらず、異なるスピーカに関連するマイクロホンによっても録音されてしまうことから、その単一方向からの音声が常に必要以上のスピーカで再現されてしまうからである。一般的に、現時点で利用可能なマイクロホンは、2チャネルの録音及び再現に対して最適である。すなわち、これらのマイクロホンは、空間的印象で周囲を包むよう再現するという目的を持って設計されたものではない。
マイクロホン設計の観点からは、空間的音声再現における要求項目に対してマイクロホンの指向性パターンを適合させるように、いくつかの手法が議論されて来た。一般に、全てのマイクロホンは、マイクロホンに対する音声の到来方向に応じて、音声を異なるように捕捉している。つまり、マイクロホンは、録音される音声の到来方向に応じて異なる感度を有している。マイクロホンによっては、この方向とはほぼ無関係に音声を捕捉するため、この効果が小さいものもある。このようなマイクロホンは、一般に全方向性マイクロホンと呼ばれる。典型的なマイクロホン設計では、円形のダイアフラムが小さな気密囲いに取り付けられている。もしダイアフラムがその囲いに取り付けられておらず、音声がダイアフラムへと各側面から等しく到達する場合、マイクの指向性パターンは2つのローブを持つ。つまり、そのようなマイクロホンは、ダイアフラムの前方と後方との両方から等しい感度で、しかも逆の極性を持って音声を捕捉する。そのようなマイクロホンは、ダイアフラムの平面と一致する方向、すなわち最大感度の方向に対して垂直な方向から来る音声を捕捉しない。そのような指向性パターンは、双極子(dipole)又は8の字と呼ばれる。
全方向性マイクロホンは、気密でない囲いをマイクロホンに用いることで、指向性マイクロホンへと修正しても良い。当該囲いは、音波がこの囲いを通過して伝搬し、ダイアフラムへと到達できるように特別に構成されており、伝搬のいくつかの方向は、そのようなマイクロホンの指向性パターンが全方向性と双極子との間のパターンとなるよう構成されることが好ましい。それらのパターンは、例えば2つのローブを有しても良い。しかしながら、それらローブは異なる強度を有しても良い。公知のマイクロホンの中には、単一のローブだけを持つパターンを有するものもある。最も重要な例は、カージオイド(cardioid)パターンであり、ここでは方向関数DがD=1+cos(θ)で表わされ、θは音声の到来方向である。この方向関数は、入来する音声振幅のどの部分が捕捉されるかを、異なる方向に応じて定量化する。
上述の全方向性パターンは0次パターンとも呼ばれ、上述の他のパターン(双極子及びカージオイド)は1次パターンと呼ばれる。上述の全てのマイクロホン設計では、それらの指向性パターンが機械的構造によって全て決定されることから、指向性パターンを任意に成形することは不可能である。
この問題を部分的に解決するために、いくつかの特別な音響構造が設計されており、その構造は1次マイクロホンの指向性パターンよりも狭い指向性パターンを生成するのに使用することができる。例えば、穴を有する管を全方向性マイクロホンに取り付けることで、狭い指向性パターンを持つマイクロホンを生成することができる。これらのマイクロホンは、ショットガン・マイクロホン又はライフル・マイクロホンと呼ばれる。しかし、そのようなマイクロホンは、典型的には平坦な周波数応答を持たない。即ち、指向性パターンを狭くすれば、録音された音質は低下してしまう。さらに、指向性パターンは幾何学的構造によって規定されるため、そのようなマイクロホンで録音された音の指向性パターンは、録音後に制御することが不可能である。
そこで、実際の録音後に指向性パターンを部分的に変更することのできる他の方法が提案されている。一般に、これらの方法は、全方向性マイクロホン又は指向性マイクロホンのアレイを用いて録音し、その後に信号処理を適用するという基本的考えに基づいている。近年、そのような種々の技術が提案されている。非常に単純な例は、互いに近接して置かれた2つの全方向性マイクロホンで音声を録音し、両信号を互いから減算する方法である。この方法により、双極子と同等の指向性パターンを有する仮想のマイクロホン信号を生成できる。
より洗練された他のスキームとして、マイクロホン信号が合計される前にマイクロホン信号を遅延又はフィルタリングしても良い。この形成技術を使用すれば、各マイクロホン信号を特別に設計されたフィルタでフィルタリングし、そのフィルタリング後に信号を合計すること(フィルタ合計ビーム形成)により、狭いビームに対応する信号が形成される。しかしながら、これらの技術は、信号自体には注目していない。即ち、それらの技術は音声の到来方向を認識しているわけではない。そのため、所定の方向において音源が実際に存在するか否かとは無関係に、所定の指向性パターンを定義することもできる。一般に、音声の「到来方向」の推定方法は各方式に委ねられている。
一般に、上記の技術を用いて多数の様々な空間的指向特性を形成することができる。しかしながら、任意の空間選択的感度パターンを形成すること(つまり狭い指向性パターンを形成すること)は、多数のマイクロホンを必要とする。
マルチチャネル録音を実行する代替的な方法は、録音されるべき各音源(例えば機器)毎に1つのマイクロホンを近接して配置し、最終ミキシングにおいてその各クローズアップ・マイクロホンの信号レベルを制御することによって、空間的印象を再現することである。しかしながら、そのようなシステムは、最終的なダウンミックスを生成する際に、多数のマイクロホンと多くのユーザ相互操作とが必要とされる。
上記の問題を解決する方法として、方向性音声符号化(DirAC)が挙げられる。DirACは様々なマイクロホン・システムで使用することができ、任意のスピーカ設定で再現できるよう録音することができる。DirACの目的は、任意の幾何学的設定を有するマルチチャネル・スピーカシステムを用いて、実在する音響環境の空間的印象をできるだけ正確に再現することである。録音環境内において、(録音された連続的な音声又はインパルス応答でも良い)複数の環境応答を1つの全方向性マイクロホン(W)と1組のマイクロホンとを用いて測定することで、音の到来方向及び音の拡散性が測定できるようになる。
以下の段落及び本願明細書においては、「拡散性」という用語は、音の非指向性を示す値として理解されるべきである。つまり、あらゆる方向から等しい強度で受聴位置又は録音位置に到来する音は、最大限に拡散していると言える。拡散を定量化する一般的な方法は、間隔[0,…,1]の拡散値を用いることであり、ここで値1は最大限に拡散している音を表し、値0は完全に指向性を持つ音、即ち1つの明らかに識別可能な方向のみから到来する音を表す。音の到来方向を測定する公知の方法の1つは、直交座標軸に整列された3つの8の字型 マイクロホン(XYZ)を適用することである。これまでに特殊なマイクロホン、いわゆる「Bフォーマット・マイクロホン」が設計されており、このマイクロホンはあらゆる所望の応答を直接的に生み出す。しかしながら、上述のように、W、X、Y及びZ信号はまた、1組のディスクリート方式の全方向性マイクロホンから計算されてもよい。
DirAC分析では、録音された音声信号は、人間の聴覚的知覚の周波数選択性に対応する周波数チャネルに分割される。つまり、当該信号は、例えばフィルタバンク又はフーリエ変換によって処理され、人間の聴覚の周波数選択性に適応した帯域幅を有する多数の周波数チャネルに分割される。その後、当該周波数帯域信号は、所定の時間分解能を用いて、各周波数チャネルについて音声の起源の方向と拡散値とを決定するために分析される。この時間分解能は固定である必要がなく、録音環境に適応可能であることは言うまでもない。DirACでは、1つ又はそれ以上の音声チャネルが、分析された方向及び拡散データとともに記録又は伝送される。
合成又は復号化において、各スピーカに最終的に適用される音声チャネルは、全方向性チャネルWに基づいても良く(この場合、Wは使用されたマイクロホンの全方向性の指向パターンにより高品質で録音されている)、又は、各スピーカのための音声はW,X,Y及びZの重み付き合計として計算されても良く、その結果、各スピーカのために所定の指向特性を有する信号が形成される。符号化に応じて、各音声チャネルは複数の周波数チャネルへと分割され、それら周波数チャネルは、任意ではあるが分析された拡散性に応じて拡散及び非拡散のストリームへとさらに分割される。もし拡散性の値が高い場合には、両耳用キュー符号化にも使用されているデコリレーション技術のような音声の拡散知覚を生成する技術を使用して、拡散ストリームが再現されても良い。
非拡散の音声は、分析により見出された指向性データによって示される方向に位置する点状の仮想音像の生成を目指す技術、即ちDirAC信号の生成を用いて再現される。つまり、空間的再現は、従来技術のように1つの特別で「理想的な」スピーカ設定(例えば5.1)に合わせて調整されるのではない。特に、音声の起源が録音の際に使用されたマイクロホンの指向性パターンについての情報を使用する指向性パラメータ(即ちベクトルによる記述)として決定される場合がそうである。上述のように、3次元空間における音声の起源は周波数選択的な方法でパラメータ化される。そのため、スピーカ設定の幾何学的構成が既知である限り、任意のスピーカ設定を用いて指向性の印象を高品質で再現できる。従って、DirACは、スピーカの特別な幾何学的構成に限定されず、一般的に音声のより柔軟な空間的再現を可能にする。
非特許文献4が教示するように、DirACは、1つ又は複数のダウンミックス信号と追加的なサイド情報とに基づいて空間音声信号を表現するシステムを提供する。そのサイド情報の中には、図5に示すように、複数の周波数帯域において音場の到来方向を拡散の程度で表す記述が、他の情報とともに含まれている。
図5はDirAC信号を例示するものであり、例えば8の字型マイクロホン信号X,Y,Zのような3つの方向性成分と全方向性信号Wとで構成されている。各信号は周波数ドメインにおいて有効であり、この点に関しては、図5において、各信号のために積み重ねられた多数の平面で示している。これら4つの信号に基づき、方向性及び拡散性の推定がブロック510と520において実行可能となり、これらのブロックは、その各周波数チャネルについての方向性及び拡散性の推定を例示している。これら推定の結果は、各周波数層についてパラメータθ(t,f),φ(t,f)及びΨ(t,f)により示され、それぞれ方位角、仰角及び拡散値を表している。
DirACのパラメータ化の方法は、例えば特別な話者の方向からの音声だけを通過させるなど、所望の空間特性を有する空間フィルタを容易に構成するために使用することができる。この構成は、図6,図7に示すように、ダウンミックス信号に対し、方向性/拡散性と、選択的には周波数とに依存する重み付けを適用することで達成される。
図6は音声信号を再構成するための復号器620を示す。復号器620は方向選択器622と音声処理器624とを備える。図6に示す実施例に従えば、複数のマイクロホンで録音されたマルチチャネル音声入力626が方向分析器628により分析され、この分析器は音声チャネルのある部分の起源方向、即ち分析された信号部分の起源の方向を示す方向パラメータを導出する。あるマイクロホンに対してエネルギーの大部分が降り注いでいる方向を選択することで、特定の信号部分のそれぞれについて録音位置が決定される。このような方法は、例えば上述したDirACのマイクロホン技術を用いても実行することができる。録音された音声情報に基づく他の方向分析方法も、この分析を実施するために用いられてもよい。その結果、方向分析器628は、音声チャネル又はマルチチャネル信号626のある部分の起源方向を示す方向パラメータ630を導出する。さらに、方向分析器628は、各信号部分について、例えば当該信号の各周波数区間又は各時間フレームについて、拡散パラメータ632を導出しても良い。
方向パラメータ630と、任意ではあるが拡散パラメータ632とは、方向選択器622へと伝送され、この方向選択器は、ある録音位置に対する音源の所望の方向、又は再現された音声信号のある再現部分の所望の方向を選択する。この所望の方向についての情報は、音声処理器624に送られる。音声処理器624は少なくとも1つの音声チャネル634を受け取り、このチャネル634は方向パラメータが導出された1つの部分を有している。音声処理器によって調整される少なくとも1つのチャネルとは、例えば従来のマルチチャネル・ダウンミックス・アルゴリズムによって生成されるマルチチャネル信号626のダウンミックスであっても良い。非常に単純な一例として、マルチチャネル音声入力626の信号の直接的な合計が挙げられるであろう。しかし、本発明の概念は入力チャネルの数によって制限されず、全ての音声入力チャネル626は、音声復号器620によって同時に処理されることができる。
音声処理器624は、上記音声部分を調整し、再構築された音声信号の再構築された上記部分を導出する。ここで、調整とは、起源の所望の方向に近い起源の方向を示す方向パラメータを有する音声チャネルのある部分の強度を、起源の所望の方向から離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分の強度よりも増大させることを含む。図6の例では、調整されるべき音声チャネルの部分にスケーリング係数636(q)を乗算することによって調整が行なわれる。つまり、もし当該音声チャネルの部分が選択された所望の方向に近い方向に音源を持つと分析された場合には、その音声部分に対して大きなスケーリング係数636が乗算される。このように、音声処理器は、その入力に供給された音声チャネルの部分に応じて、再構築された音声信号の再構築された部分をその出力638において出力する。音声処理器624の出力638において破線でさらに示すように、このような処理はモノラル出力信号だけのために実行されるのではなく、出力チャネルの数が固定又は予め決定されていないマルチチャネル出力信号のために実行されても良い。
換言すれば、音声復号器620は、例えばDirACで使用されるような方向分析器からその入力を受け取る。マイクロホン・アレイからの音声信号626は、人間聴覚システムの周波数分解能に従って周波数帯域へと分割されても良い。音声の方向及び選択的には音声の拡散性は、各周波数チャネルにおいて時間に依存して分析される。これらの特性は、例えば方向角度である方位角(azi)及び仰角(ele)として、及び0と1との間で変化する拡散指数(Ψ)としてさらに伝達される。
次に、意図され又は選択された指向特性は、方向角度(azi及びele)及び任意ではあるが拡散指数(Ψ)にも依存する重み付け操作を使用して、捕捉された信号に付与される。この重み付け操作は、異なる周波数帯域に対しては異なるように特定されても良いことは明らかであり、全般的に時間とともに変化する。
図7は、DirAC合成に基づく他の実施例を示す。詳しくは、図7の実施例は、分析された方向に応じて音声のレベルを制御することができる、DirAC再現の強化型として解釈されても良い。この実施例では、1つ又は複数の方向から来る音声を強調すること、或いは1つ又は複数の方向からの音声を抑制することが可能となる。マルチチャネル再現に適用される場合には、再現された音声画像の後処理が達成される。1つのチャネルだけが出力として使用される場合には、信号の録音の際に任意の指向性パターンを持つ1つの指向性マイクロホンを使用した場合と同等の効果が得られる。図7は、方向性パラメータの導出と、1つの伝送された音声チャネルの導出とを示す。この実施例における分析は、例えば1つの音場マイクロホンによって録音された、Bフォーマットのマイクロホン・チャネルW、X、Y及びZに基づいて実行される。
処理の操作はフレーム単位で実行される。そのため、連続的な音声信号は、フレーム境界での不連続性を避けるために、ウィンドウ関数によってスケーリングされたフレームへと分割される。ウィンドウ処理された信号フレームには、フーリエ変換ブロック740においてフーリエ変換が施され、マイクロホン信号はN個の周波数帯域へと分割される。説明を簡素化するため、以下の段落では任意の1周波数帯域の処理だけを説明し、残りの周波数帯域の処理も同様とする。フーリエ変換ブロック740は、分析されたウィンドウ処理済フレーム内においてBフォーマットのマイクロホン・チャネルW、X、Y及びZの各々に存在する周波数成分の強度を記述する係数を導出する。これらの周波数パラメータ742は音声符号器744に入力され、音声チャネル及び関連する方向パラメータが導出される。図7に示す実施例では、伝送された音声チャネルは、全ての方向からの信号情報を有する全方向性チャネル746となるように選択されている。全方向性について及びBフォーマットのマイクロホン・チャネルの方向性部分についての係数742に基づいて、方向性及び拡散性の分析が方向分析ブロック748によって行なわれる。
音声チャネルの当該分析された部分の音源方向は、全方向性チャネル746とともに音声信号を再構築するための音声復号器750に伝送される。拡散パラメータ752が存在する場合には、信号経路は非拡散経路754aと拡散経路754bとに分岐される。拡散性Ψが低い場合には、エネルギー又は振幅の大部分が非拡散経路に残るように、非拡散経路754aは拡散パラメータに従ってスケーリングされる。逆に、拡散性が高い場合には、エネルギーの大部分が拡散経路754bへとシフトされる。拡散経路754bでは、デコリレータ756a又は756bを使用して信号がデコリレート又は拡散される。デコリレーションは、白色ノイズ信号を用いた畳み込み操作のような従来から公知の技術を用いて実行されても良く、この場合、白色ノイズ信号は周波数チャネル毎に異なっていても良い。デコリレーションはエネルギーを保存するため、最終的な出力信号は非拡散信号経路754a及び拡散信号経路754bの信号を出力で単に加算することによって生成することができる。なぜなら、拡散パラメータΨによって示されるように、これらの信号経路における信号は既にスケーリングされているからである。
マルチチャネル設定のために再構築が実行される場合、直接信号経路754aと拡散信号経路754bとは、それぞれ分岐位置758aと758bとにおいて、個々のスピーカ信号に対応する複数のサブ経路へと分岐される。そのため、分岐位置758a及び758bにおける分岐操作は、多数のスピーカを有するスピーカシステムを介した再現のための、少なくとも1つの音声チャネルをマルチチャネルへとアップミックスする操作と同じと解釈することもできる。
マルチチャネルの各々は、音声チャネルのチャネル部分746を有する。個々の音声部分の音源方向は、方向再生(redirect)ブロック760によって再構築されるが、このブロックでは、再現のために使用されるスピーカに応じてそれらチャネル部分の強度又は振幅が追加的に増大又は減少させられる。そのため、方向再生ブロック760は通常、再現に用いられるスピーカ設定についての情報を必要とする。実際の再分配(方向再生)及び関連する重み係数の導出は、例えばベクトルに基づく振幅パンニングのような技術を用いて実行することができる。幾何学的に異なるスピーカ設定を再分配ブロック760に与えることにより、本発明の実施例においては、再現品質を損失することなく、再現スピーカの任意の構成が使用可能となる。この処理の後、逆フーリエ変換ブロック762により、周波数ドメインの信号に対して多数の逆フーリエ変換が行なわれ、個々のスピーカによって再生可能な時間ドメイン信号が導出される。その再生の前に、合計ユニット764がオーバーラップ及び加算の技術を実行し、各スピーカにより再現されるべく準備が整うように、個々の音声フレームを連結して連続的な時間ドメイン信号を導出する。
図7に示す実施例によれば、DirACの信号処理は、実際に処理された音声チャネルの部分を修正するための音声処理器766を導入するという点において補正されており、それにより所望の方向に近い起源方向を示す方向パラメータを有する音声チャネルの部分の強度を増大させることが可能となる。この操作は、直接信号経路に対して追加的な重み係数を適用することによって達成される。もし処理された周波数部分が所望の方向から生じている場合、当該信号は追加的な利得をその特定の信号部分に適用することによって強調される。利得の適用は、その効果が全てのチャネル部分に等しく寄与するように、分岐点758aの前で実行されても良い。
このような追加的な重み係数の適用は、再分配ブロック760内で実行されても良い。その場合、再分配ブロック760は、追加的な重み係数によって増大された再分配用利得係数を適用する。
マルチチャネル信号の再構築において方向性を強化する場合、図7に示すように、例えばDirACレンダリングの形式で再現を行うことができる。再現されるべき音声チャネルは、方向分析のために使用される周波数帯域と等しい周波数帯域へと分割される。その後、これら周波数帯域は、ストリーム、即ち拡散及び非拡散のストリームへと分割される。拡散ストリームは、例えば30msの白色ノイズバーストによる畳み込みの後に当該音声を各スピーカに送ることにより再現される。このノイズバーストは、各スピーカにより異なっている。非拡散ストリームは、方向分析からもたらされる方向に適用されるが、この方向分析は当然ながら時間に依存している。マルチチャネルのスピーカシステムにおいて方向性の知覚を達成するため、単純な2つ毎(pair-wise)又は3つ毎(triplet-wise)の振幅パンニングを使用しても良い。さらに、各周波数チャネルは、分析された方向に応じて、利得係数又はスケーリング係数によって乗算される。一般論として、関数を特定できれば、再現のための所望の指向性パターンを定義できる。このパターンは、例えば強調されるべき単一方向のみであっても良い。しかし、図7の実施例によれば、任意の指向性パターンを容易に構成することが可能である。
以下の説明においては、さらなる実施例を処理ステップのリストとして記述する。このリストは以下の前提に基づくものである。即ち、音声はBフォーマットのマイクロホンを用いて録音されており、その後、音声は、DirAC形式のレンダリング又は当該音声チャネルの各部分の起源方向を示す方向パラメータを供給するレンダリングを使用した、マルチチャネル又はモノラルのスピーカ設定を用いて受聴するために処理される、という前提に基づくものである。
第1に、マイクロホン信号を周波数帯域へと分割し、方向性と任意ではあるが拡散性とについて、周波数に依存する各帯域毎に分析することができる。一例として、方向性は方位角及び仰角(azi,ele)を用いてパラメータ化されても良い。第2に、所望の指向性パターンを記述する関数Fを特定することができる。その関数は、任意の形式を持っても良く、典型的には方向に依存する。拡散情報が利用可能な場合には、その関数はさらに拡散性に依存しても良い。その関数は、異なる周波数については異なることができ、さらに、時間に応じて変化しても良い。各周波数帯域において、各時間区間ごとに関数Fからある方向性ファクタqを導出することができ、この方向性ファクタqは後の音声信号の重み付け(スケーリング)のために使用されるものである。
第3に、出力信号を形成するため、音声サンプル値に対し、各時間及び周波数部分に応じた方向性ファクタの値qが乗算されても良い。この処理は時間ドメイン及び/又は周波数ドメインの表現において実行されても良い。さらに、この処理は、例えば任意の数の出力チャネルへのDirACレンダリングの一部として構成されても良い。
上述のように、処理の結果はマルチチャネル又はモノラルのスピーカシステムを用いて受聴することができる。近年、多数の音声オブジェクトを含む音声シーンをビットレート効率良く伝送/記憶するためのパラメトリック技術が提案されており、例えば、非特許文献5が教示する両耳キュー符号化(BCC)(タイプ1)、非特許文献6が教示するジョイントソース符号化、非特許文献7及び8が教示するMPEG空間音声オブジェクト符号化(SAOC)などが挙げられる。
これらの技術は、所望の出力音声シーンを波形の合致により再構成するのではなく、むしろ知覚的に再構成することを目標としている。図8はそのようなシステム(ここではMPEG−SAOC)の概略図を示す。つまり、図8はMPEG−SAOCシステムの概略図である。このシステムはSAOC符号器810とSAOC復号器820とレンダリング装置830とを備えている。全体的な処理は周波数選択的な方法で実行することができ、以下に説明する処理は各周波数帯域において実行することができる。SAOC符号器はN個の入力音声オブジェクト信号を受け取り、このSAOC符号器の処理の一部として、それらの信号はダウンミックスされる。SAOC符号器810はダウンミックス信号とサイド情報とを出力する。SAOC符号器810により抽出されたサイド情報は、入力音声オブジェクトの特徴を表現するものである。MPEG−SAOCにおいて、全ての音声オブジェクトについてのオブジェクト・パワーは、サイド情報の中で最も重要な要素である。現実には、絶対値のオブジェクト・パワーの代わりに、オブジェクト・レベル差(OLD)と呼ばれる相対値のパワーが伝送されている。オブジェクトのペア間の干渉性/相関関係はオブジェクト間コヒーレンス(IOC)と呼ばれ、入力音声オブジェクトの特性をさらに記述するために使用することができる。
ダウンミックス信号とサイド情報とは伝送又は記憶することができる。この目的のために、ダウンミックス信号は、MP3,MPEG高圧縮率音声符号化(AAC)等としても知られるMPEG−1,レイヤ2又は3のような、公知の知覚的音声符号器を使用して圧縮されても良い。
受信側においては、SAOC復号器820が、伝送されたサイド情報を使用して、概念的にはオリジナルのオブジェクト信号を復元しようと試行する。この作業はオブジェクトの分離と呼ぶこともできる。近似されたオブジェクト信号は、次にレンダリング装置830により適用されるレンダリング行列を使用して、M個の音声出力チャネルにより表現される目標シーンへとミックスされる。効率が良いことには、オブジェクト信号の分離は一度も実行されることはない。なぜなら、分離ステップとミキシングステップとの両方が単一のトランスコードステップへと結合されているからであり、その結果、演算上の複雑さを大きく低減させることができる。
このようなスキームは、伝送ビットレートと演算の複雑さとの両方の点において非常に効率的である。なぜなら、伝送においてはN個のオブジェクト音声信号+レンダリング情報又はディスクリートシステムに代えて、少数個のダウンミックスチャネル+いくつかのサイド情報を伝送するだけで良いからであり、演算においては、処理の複雑さは、音声オブジェクトの数ではなく、主に出力チャネルの数に関係するからである。受信側のユーザにとってのさらなる利点として、ユーザ自身が例えばモノラル,ステレオ,サラウンド,仮想化されたヘッドホン再生などのようなレンダリング設定を選択し、ユーザ双方向性の特徴を選択する自由を持つことが挙げられる。レンダリング行列、つまりその結果の出力シーンは、ユーザの意思,個人的嗜好又は他の基準に従って、例えば1つのグループに属する話者は1つの空間領域内に一緒に配置して残りの他の話者から最大限に区別するなどのように、ユーザによって双方向形式で設定及び変更が可能となる。このような双方向性は、復号器ユーザインターフェイスを提供することで達成される。
以下に、SAOCをMPEGサラウンド(MPS)へとトランスコードしてマルチチャネル・レンダリングする場合の一般的なトランスコード概念を考察する。一般的に、SAOCの復号化はトランスコード処理を用いて実行することができる。MPEG−SAOCは、全て単一の音声オブジェクトから成る目標音声シーンを関連するMPEGサラウンド・フォーマットへとトランスコードすることで、マルチチャネル音声再現設定へとレンダリングする。この点に関する参考文献として、非特許文献9を挙げることができる。
図9によれば、SAOCのサイド情報はブロック910で解析され 、再現形態についてユーザから供給されるデータとオブジェクト・レンダリング・パラメータとともにブロック920でトランスコードされる。加えて、SAOCダウンミックス信号は、ダウンミックス・前処理装置930により調整される。このように処理されたダウンミックスとMPSサイド情報との両方が、次に最終的なレンダリングのためにMPS復号器940へと送られることができる。
従来の概念には次のような欠点がある。即ち、例えばDirACの場合のように、構成の実現は容易ではあるがユーザの情報若しくはユーザの個々のレンダリングは適用できないか、又は、例えばSAOCの場合のように、ユーザの情報を考慮することができるが構成の実現はより複雑となるか、のいずれか一方となってしまう。
Spatial Audio Object Coding (SAOC) ISO/IEC, "MPEG audio technologies _ Part. 2 : Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2 J. Herre, S. Disch, J. Hilpert, O. Hellmuth:"From SAC to SAOC _ Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007 J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen:"Spatial Audio Object Coding (SAOC) _ The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377 Pulkki, V., "Directional audio coding in spatial sound reproduction and stereo upmixing," In Proceedings of The AES 28th International Conference, pp. 251-258, Pitea , Sweden, June 30-July 2, 2006 C. Faller and F. Baumgarte, "Binaural Cue Coding _ Part II: Schemes and applications", IEEF Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003 C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752 J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC to SAOC _ Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007 J. Engdegaerd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) _ The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377) J. Herre, K. Kjoerling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roden, W. Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround _ The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084 Markus Kallinger, Giovanni Del Galdo, Fabian Kuech, Dirk Mahne, Richard Schultz-Amling, "SPATIAL FILTERING USING DIRECTIONAL AUDIO CODING PARAMETERS", ICASSP 09 SAOC standard ISO/IEC,"MPEG audio technologies _ Part 2: Spatial Audio Object Coding (SAOC)," ISO/IECJTC1/SC29/WG11 (MPEG) FCD 23003-2)
本発明の目的は、構成の実現が容易であり、ユーザの個別の操作が可能となる、音声符号化の概念を提供することにある。
上述の目的は、請求項1に記載の音声フォーマット・トランスコーダ(変換器)と、請求項11に記載の音声フォーマット・トランスコードの方法とにより達成される。
本発明が基づく知見は、方向性音声符号化の能力と空間音声オブジェクト符号化の能力とは結合可能であるというものである。さらに本発明は、方向性音声成分は分離された音源の値又は信号へと変換できるという知見にも基づいている。本発明の実施例は、DirAC及びSAOCの各システムの能力を効率的に結合する手段を提供すると言うことができる。つまり、生来の空間フィルタリング能力を備えたDirACを音響的フロントエンドとして使用し、かつ入来する音声を音声オブジェクトへと分離するためにこのDirACシステムを使用し、次にそれら音声オブジェクトはSAOCを使用して表現されレンダリングされるという手段を提供する。さらに本発明の実施例によれば、サイド情報の2つのタイプを変換することで、かつ好適にはいくつかの実施例においてはダウンミックス信号に手を加えることなく、DirAC表現からSAOC表現への変換を非常に効率良く実行できるという利点を提供できる。
本発明の好ましい実施形態を、添付の図面を参照してさらに詳しく説明する。
音声フォーマット・トランスコーダの一実施例を示す。 音声フォーマット・トランスコーダの他の実施例を示す。 音声フォーマット・トランスコーダのさらに他の実施例を示す。 方向性音声成分の重ね合わせを示す図である。 ある実施例で使用される例示的な重み係数を示す。 ある実施例で使用される例示的なウィンドウ関数を示す。 DirACの技術を示す。 方向性分析の技術を示す。 DirACのレンダリングと結合した方向性の重み付けの技術を示す。 MPEG−SAOCシステムの概略を示す。 SAOCからMPSへのトランスコード技術を示す。
図1は入力音声信号をトランスコード(変換)するための音声フォーマット・トランスコーダ100を示し、入力音声信号は少なくとも2つの方向性音声成分を有する。音声フォーマット・トランスコーダ100は入力信号を変換済信号へと変換する変換器110を備え、その変換済信号は変換済信号表現と変換済信号到来方向とを有する。さらに、音声フォーマット・トランスコーダ100は、少なくとも2つの空間音源(spatial audio sources)の少なくとも2つの空間位置を提供する位置提供器120を備えている。この少なくとも2つの空間位置はアプリオリ(a-priori:外部入力)により既知であっても良い。即ち、例えばユーザによって与えられ若しくは入力されていても良く、又は、変換済信号に基づいて決定若しくは検出されても良い。音声フォーマット・トランスコーダ100は、前記少なくとも2つの空間位置に基づいて変換済信号表現を処理することで少なくとも2つの分離された音源値を取得する、処理器130をさらに備えている。
本発明の実施例は、DirACとSAOCの各システムの能力を効率的に結合するための手段を提供することもできる。本発明の他の実施例を図2に示す。図2は別の音声フォーマット・トランスコーダ100を示し、この中では、変換器110はDirAC分析ステージ301として構成されている。本実施例においては、音声フォーマット・トランスコーダ100は、DirAC信号,Bフォーマット信号又はマイクロホン・アレイからの信号に従う入力信号をトランスコードするように適用されていても良い。図2に示す実施例によれば、DirAC分析ステージ又はブロック301で示すように、Bフォーマット・マイクロホン、又は代替的にはマイクロホン・アレイを使用して空間音声シーンを取り込むための音響的フロントエンドとして、DirACを使用することができる。
上述した各実施例においては、音声フォーマット・トランスコーダ100、変換器110、位置提供器120及び/又は処理器130は、いくつかの周波数帯域及び/又は時間セグメント又は時間フレームに関して、入力信号を変換しても良い。
各実施例においては、変換器110は、周波数サブ帯域毎の拡散及び/又は信頼値をさらに有する変換済信号へと入力信号を変換しても良い。
図2においては、変換済信号は「ダウンミックス信号」とも名付けられている。図2に示す実施例においては、音響信号を各周波数サブ帯域内における方向性の値と任意ではあるが拡散性及び信頼性の値とにパラメータ化するDirAC式パラメータ化は、位置提供器120によって使用されても良い。即ち、「音源数と位置の計算」のブロック304によって、音源が活性状態である空間位置を検出するために使用されても良い。図2の中で「ダウンミックス・パワー」と名付けられた破線に従えば、そのダウンミックス・パワーは位置提供器120へと提供されても良い。
図2に示す実施例では、処理器130は、空間フィルタ311,312,31Nを構成するために、空間位置と任意ではあるが他のアプリオリ的知識とを使用しても良い。これら空間フィルタのために、各音源を隔離又は分離させる目的で、ブロック303において重み係数が計算される。
換言すれば、本発明の実施例においては、処理器130が少なくとも2つの分離された音源の各々のための重み係数を決定しても良い。さらに、これら実施例においては、処理器130は、少なくとも2つの空間フィルタを用いて前記変換済信号表現を処理し、少なくとも2つの隔離された音源を、前記少なくとも2つの分離された音源の値としての少なくとも2つの分離された音源信号で近似することもできる。この場合の音源の値は、例えば各信号又は各信号パワーに対応したものでも良い。
図2に示す実施例では、少なくとも2つの音源は、N個の音源及びそれらに対応する信号によってより一般的に表されている。つまり、図2においては、N個のフィルタ又は合成ステージが311,312,・・・,31Nとして示されている。これらN個の空間フィルタにおいては、DirACダウンミックス即ち全方向性成分の信号が近似された分離済の音源の1セットをもたらし、このセットがSAOC符号器への入力として使用可能となる。換言すれば、本発明の実施例においては、分離済の音源は個別の音声オブジェクトとして解釈されることができ、その後、SAOC符号器において符号化されることができる。従って、音声フォーマット・トランスコーダ100の実施例は、少なくとも2つの分離された音源信号を符号化してSAOCダウンミックス成分とSAOCサイド情報成分とを有するSAOC符号化済信号を取得する、SAOC符号器を備えていても良い。
上述の実施例は、離散型の一連のDirAC方向性フィルタリングとその後のSAOC符号化とを実行しても良い。これらの処理について、演算上の複雑さを軽減させる構造上の改善点を以下に説明する。上述のように、概略的に言えば、N個の分離された音源信号が実施例においてはN個のDirAC合成フィルタバンク311〜31Nを使用して再構成され、その後、SAOC符号器内のSAOC分析フィルタバンクを使用して分析されても良い。SAOC符号器は、次に分離されたオブジェクト信号から合計/ダウンミックス信号を再度計算する。実際の信号サンプルを処理することは、パラメータ・ドメインでの計算よりも演算上さらに複雑になる可能性もある。パラメータ・ドメインでの計算はかなり低いサンプリングレートにおいて行われる可能性があり、これについては後段で説明する。
上述の計算方法を用いることで、本発明の実施例は非常に効率的な処理を提供できる。本発明の実施例は、次の2つの簡略化を備えていても良い。第1に、いくつかの実施例においてはDirAC及びSAOCの両方のスキームのための周波数サブ帯域が実質的に同じとなり得るフィルタバンクを使用して、DirAC及びSAOCの両方を動作させても良い。好適には、いくつかの実施例においては、単一で同一のフィルタバンクが両方のスキームに使用される。この場合、DirAC合成フィルタバンクとSAOC分析フィルタバンクとを省略することができ、その結果、演算上の複雑さと算術上の遅延が低減される。代替的に、本発明の実施例は、2つの異なるフィルタバンクであって比較可能な周波数サブ帯域・グリッド上のパラメータを提供するフィルタバンクを使用しても良い。このような実施例におけるフィルタバンクの演算の低減量は、それ程大きくはならないかもしれない。
第2に、本発明の実施例においては、分離された音源信号をそのままで演算するのではなく、パラメータ・ドメインの計算だけで分離の効果が達成されても良い。換言すれば、ある実施例では、処理器130は、少なくとも2つの分離された音源の各々について少なくとも2つの分離された音源の値として、例えばパワー又は正規化されたパワーのようなパワー情報を推定しても良い。このような実施例においては、DirACダウンミックス・パワーが演算されても良い。
実施例によっては、所望の/検出された音源位置のそれぞれについて、方向と任意ではあるが拡散とに依存し、さらに意図された分離特性に依存して、方向性の重み付け/フィルタリング用重みを決定することができる。このような実施例では、分離された信号の各音源のためのパワーは、ダウンミックス・パワーとパワー重み係数との積から推定することができる。これらの実施例では、処理器130は、少なくとも2つの分離された音源のパワーをSAOC−OLD(オブジェクト間レベル差)へと変換することができる。
これらの実施例は、上述の流れに沿った処理方法を、実際のダウンミックス信号の処理を含むことなく実行しても良い。加えて、ある実施例では、オブジェクト間コヒーレンス(IOC)もまた演算されても良い。このような演算は、方向性の重み付けと、変換済ドメインのダウンミックス信号とを考慮することで達成される。
本発明の実施例においては、処理器130は少なくとも2つの分離された音源についてIOCを計算しても良い。一般的には、この処理器(130)は、少なくとも2つの分離された各音源の内の2つについてIOCを計算しても良い。本発明の実施例においては、位置提供器120は、変換済の信号を基にして、少なくとも2つの空間音源の少なくとも2つの空間位置を検出する検出器を含んでも良い。さらに、位置提供器/検出器120は、この少なくとも2つの空間位置を多数の連続した入力信号時間セグメントを結合することで検出しても良い。また、位置提供器/検出器120は、この少なくとも2つの空間位置をパワーの空間密度についての最尤法に基づいて検出しても良い。位置提供器/検出器120は、変換済の信号に基づいて空間音源の位置の重なり度(multiplicity)を検出しても良い。
図3は、音声フォーマット・トランスコーダ100の他の実施例を示す。図2に示す実施例と同様に、変換器110は「DirAC分析」ステージ401として構成されている。さらに、位置提供器/検出器120 は、「音源数と位置の計算」ステージ404として構成されている。処理器130は、「重み係数計算」ステージ403と、分離された音源のパワーを計算するステージ402と、SAOC−OLD及びビットストリームを計算するステージ405とを含む。
図3に示す実施例においては、マイクロホン・アレイを使用するか、代替的にはBフォーマットのマイクロホンを使用して信号が取り込まれ、「DirAC分析」ステージ401へと送られる。この分析器は、1つ以上のダウンミックス信号と、瞬間的なダウンミックス・パワー及び方向の推定を含む各処理用時間フレームのための周波数サブ帯域情報とを発信する。追加的に、「DirAC分析」ステージ401は、拡散値及び/又は方向性推定の信頼度の値を提供しても良い。この情報と、瞬間的なダウンミックス・パワーのような他のデータがあればそのデータとに基づいて、音源数とそれらの位置との推定が、位置提供器/検出器120即ちステージ404によって、例えば時間的に連続した複数の処理用時間フレームからの値を結合させるなどのような方法で、各々実行される。
処理器130は、ステージ403において、各音源のための方向性重み係数とその位置を、処理された時間フレームの推定された音源位置と、方向性の値と任意ではあるが拡散性及び/又は信頼性の値とから導出しても良い。まず、ステージ402においてダウンミックス・パワー推定値と重み係数とを結合し、ステージ405においてSAOC−OLDを導出しても良い。また、実施例によっては、完全なSAOCビットストリームが生成されても良い。追加的に、処理器130は、ダウンミックス信号を考慮しかつ図3に示す実施例における処理ブロック405を利用して、SAOC−IOCを計算しても良い。実施例においては、これらのダウンミックス信号とSAOCサイド情報とは、次にSAOC復号化あるいはレンダリングのために、一緒に記憶されるか又は伝送されても良い。
「拡散性の値」とはパラメータであり、各時間−周波数binについて、音場がいかに「拡散」しているかを記述するものである。普遍性を失うことなく、この「拡散性の値」は[0,1]の範囲内で定義され、拡散値=0は、例えば1つの理想平面波のような完全にコヒーレントな音場を表し、他方、拡散値=1は、例えば空間的に広がった多数の音源が互いに無関係の雑音を発生している場合のような十分に拡散した音場を表している。いくつかの数学的表現が拡散値として使用できる。例えば、非特許文献5においては、活性強度(active intensity)と音場のエネルギーとを比較して入力信号をエネルギー的に分析する方法によって、拡散値が計算されている。
以下に、信頼性の値について説明する。到来方向の推定装置にもよるが、計算値(metric)を導出することは可能であり、この計算値は各時間―周波数binにおける各方向推定がどの程度信頼性があるのかを表現するものである。この情報は、ステージ404における音源の個数と位置の決定において利用可能であり、且つ、ステージ403における重み係数の計算でも利用可能である。
以下に、処理器130及び「音源の数と位置の計算」ステージ404の実施例を詳細に説明する。各時間フレームに関する音源の個数と位置とは、アプリオリの知識、即ち外部入力であっても良いし、又は自動的に推定されても良い。後者の場合には複数の手法が可能である。例えば、実施例によってはパワーの空間密度についての最尤推定量を使用しても良い。この場合、入力信号のパワー密度が方向に関して計算される。音源がフォン・ミーゼス(von Mises)分布を示すと仮定した場合、最高確率を持つ解を選択することで、存在する音源の数とそれらの位置とを推定することができる。例示的なパワーの空間的分布を図4aに示す。
図4aは、例示的に2つの音源が存在するとして、パワーの空間密度を可視的に示すグラフである。図4aは、縦軸に相対的パワーをdBで示し、横軸に方位角を示す。さらに、図4aは3つの異なる信号を示す。1つ目は実際のパワー空間密度であり、細い実線で描いた雑音状の線である。加えて、太い実線は第1の音源の理論的なパワー空間密度を示し、太い破線は第2の音源の理論的なパワー空間密度を示す。この実験に最適なモデルは2つの音源を有し、それぞれ+45度と−135度の位置に配置されている。他のモデルにおいては、仰角をさらに利用しても良い。その場合には、パワーの空間密度は3次元の関数となる。
以下に、処理器130の他の構成、特に重み計算ステージ403について詳細に説明する。この処理ブロックは、抽出されるべき各オブジェクトのための重みを計算する。その重みは、ブロック401におけるDirAC分析により提供されたデータと、ブロック404から提供された音源の個数とその位置についての情報とを基にして計算される。それらの情報は全ての音源について一緒に又は別々に処理されても良く、各オブジェクトのための重みが他から独立して計算される。
i番目のオブジェクトのための重みが各時間及び周波数binについて以下のように定義される。即ち、γi(k,n)が周波数指数k及び時間指数nのための重みを示すと仮定すれば、i番目のオブジェクトのためのダウンミックス信号の複素スペクトルは、次の式で計算することができる。
Figure 0005400954
上述したように、このような方法で得られた信号はSAOC符号器へと送られても良い。しかしながら、本発明の実施例は、SAOCパラメータを重みγi(k,n)から直接的に計算することで、このステップを完全に省略することもできる。
以下に、本発明の実施例において重みγi(k,n)がいかに計算できるかを簡単に説明する。特に他の記述がない限り、以下に示す全ての量は(k,n)に、即ち、周波数指数と時間指数とに依存する。
拡散指数Ψ又は信頼性の値は、[0,1]の範囲内で定義され、Ψ=1は完全に拡散した信号に対応すると仮定できる。さらに、θは到来方向を示し、以下の例においては方位角を示す。3次元への拡張も簡単である。
さらに、γiは重みを示し、この重みを用いてダウンミックス信号がスケールされてi番目のオブジェクトの音声信号が抽出される。W(k,n)はダウンミックス信号の複素スペクトルを示し、Wi(k,n)はi番目の抽出されたオブジェクトの複素スペクトルを示す。
第1の実施例においては、(θ,Ψ)ドメインの2次元関数が定義される。単純な実施例は、次式に従い2次元のガウス関数g(θ,Ψ)を使用する。
Figure 0005400954
ここで、αはオブジェクトが位置する方向を表し、σ2 θと σ2 Ψはガウス関数の幅を決定するパラメータ、即ち両方の次元に関する分散度(variances)を表す。Aは、以下では1に等しいと推定できる振幅ファクタである。
重みγi(k,n)は、DirAC処理から得られるθ(k,n)及びΨ(k,n)の値について上記の数式を演算することで決定できる。
Figure 0005400954
例示的な関数を図4bに示す。図4bにおいて、低い拡散値について有意の重み付けが発生していることが分かる。図4bでは、α=−π/4 rad (又は−45度)、σ2 θ=0.25、 σ2 Ψ=0.2と仮定した。
重みは、Ψ(k,n)=0及びθ=αのときに最大である。方向がαから離れるにつれ、及び拡散値が高くなるにつれて、この重みは減少する。g(θ(k,n),Ψ(k,n))のパラメータを変更することで、複数の関数g(θ(k,n),Ψ(k,n))を設定でき、それらが異なる方向からのオブジェクトを抽出する。
異なるオブジェクトから得られた複数の重みから1つの全体エネルギーが導かれ、その全体エネルギーがダウンミックス信号内に存在するエネルギーよりも大きい場合、即ち、
Figure 0005400954
の場合には、関数g(θ(k,n),Ψ(k,n))における乗算係数Aを操作して、平方の合計を強制的に1以下にすることもできる。
第2の実施例においては、音声信号の拡散部分及び非拡散部分のための重み付けは、異なるウィンドウを用いて実行することができる。より詳細な説明は、非特許文献10を参照されたい。
i番目のオブジェクトのスペクトルは次式により得られる。
Figure 0005400954
ここで、γi,di及びγi,coは、それぞれ拡散及び非拡散(コヒーレント)部分のための重みを示す。非拡散部分のための利得は、次式のような1次元のウィンドウから得られる。
Figure 0005400954
ここで、Bはウィンドウの幅である。α=−π/4 ,B=π/4の例示的なウィンドウを図4cに示す。
拡散部分γi,diの利得は類似の方法で得ることができる。適切なウィンドウは、例えばカージオイド、αに方向付けられたサブカージオイド、又は単純に全方向型のパターンである。利得γi,di及びγi,coが計算されると、重みγiも次式により簡単に取得でき、
Figure 0005400954
その結果、
Figure 0005400954
となる。
異なるオブジェクトから得られた複数の重みから1つの全体エネルギーが導かれ、その全体エネルギーがダウンミックス信号内に存在するエネルギーよりも大きい場合、即ち、
Figure 0005400954
の場合には 利得=γiを適切に再スケールすることも可能である。
この処理ブロックはまた、追加的な背景(残余)オブジェクトのための重みを提供しても良い。これらのオブジェクトのために、ブロック402内でパワーが計算される。背景オブジェクトは、他のいずれのオブジェクトにも割り当てられてこなかった残りのエネルギーを含む。エネルギーは、方向性の推定の不確実性を反映させるためにも、背景オブジェクトへと割り当てることができる。例えば、ある時間−周波数binについての到来方向があるオブジェクトに対して正確に向けられていると推定されたとする。しかし、その推定は誤差が無いわけではないから、エネルギーの小さな部分は背景オブジェクトへと割り当てることができる。
以下に、処理器130の他の実施例、特に「分離された音源のパワー計算」ステージ402についての詳細を述べる。この処理ブロックは、ブロック403で計算された重みを受け取り、それらを使用して各オブジェクトのエネルギーを計算する。重みγi(k,n)が、(k,n)により定義される時間−周波数binについてのi番目のオブジェクトの重みを表すと仮定すると、エネルギーEi(k,n)は単純に
Figure 0005400954
となり、ここで、W(k,n)はダウンミックス信号の時間−周波数の複素表現である。
理想的には、全てのオブジェクトのエネルギーの合計がダウンミックス信号の中に存在するエネルギーと等しい。即ち、
Figure 0005400954
となり、ここで、Nはオブジェクトの個数である。
上記の式は様々な方法で達成可能である。ある実施例は、重み係数の計算で説明した様に、残余オブジェクトの使用を含んでも良い。残余オブジェクトの関数は、複数の出力オブジェクトの全体的なパワーが各時間/周波数タイルにおけるダウンミックス・パワーと等しくなるように、それら出力オブジェクトの全体的なパワーバランスにおけるあらゆる欠損パワーを表現するものである。
換言すれば、本発明の実施例における処理器130は、追加的な背景オブジェクトのための重み係数をさらに決定することもでき、この場合、それらの重み係数は、少なくとも2つの分離された音源とその追加的な背景オブジェクトとに関連するエネルギーの合計が、変換済信号表現のエネルギーに等しくなるよう設定される。
あらゆる欠損エネルギーを割り当てる方法についての関連技術は、非特許文献11を参照されたい。他の例示的な手法は、所望の全体的なパワーバランスを達成するために、重みの適切な再スケールを含んでいても良い。
一般的に、ステージ403が背景オブジェクトのための重みを提供する場合には、このエネルギーが残余オブジェクトへとマップされても良い。以下に、SAOC−OLD及び任意ではあるがIOCの計算と、ビットストリームステージ405とについての詳細な説明を、本発明の実施例において実行できるように開示する。
処理ブロック405は音声オブジェクトのパワーをさらに処理し、それらをSAOCに互換性のあるパラメータ、即ちOLDへと変換する。この目的で、各オブジェクト・パワーはそのオブジェクトのパワーに関して最高パワーを用いて正規化され、結果的に、各時間/周波数タイルについての相対的なパワー値が得られる。これらのパラメータは後続のSAOC復号器処理のために直接的に使用されても良いし、或いはそれらのパラメータは量子化され、SAOCビットストリームの一部として伝送/記憶されても良い。同様に、IOCパラメータは出力されるか又はSAOCビットストリームの一部として伝送/記憶されても良い。
本発明の方法の所定の実施条件に依るが、本発明の方法は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読出し可能な制御信号を有し、本発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働可能な、デジタル記憶媒体、特に、ディスク,DVD,CDなどを使用して実行することができる。従って、本発明は一般的に、機械読出し可能なキャリアに記憶され、当該コンピュータプログラムがコンピュータ上で作動するときに、本発明の方法を実行するためのプログラムコードを有する、コンピュータプログラム製品である。換言すれば、本発明の方法は、コンピュータ上で作動するときに、本発明の方法の少なくとも1つを実行するためのプログラムコードを有する、コンピュータプログラムである。
上述した実施の形態は、具体的に示し、また具体的な実施例を参照しながら説明したが、形式及び詳細について、本発明の趣旨及びその範囲を逸脱することなく様々な修正が可能であることは、当業者にとって明らかである。異なる実施例に適用する際に、本明細書に開示し以下に添付する特許請求の範囲により認識できる、より広範囲な概念から外れることなく、様々な変更がされても良い点を理解すべきである。

Claims (12)

  1. 少なくとも2つの方向性音声成分を有する入力音声信号を、SAOC(空間音声オブジェクト符号化)において利用可能な少なくとも2つの空間音源の値へトランスコードするための音声フォーマット・トランスコーダ(100)であって、
    前記入力音声信号を、変換済信号表現と変換済信号到来方向とを有する変換済信号へと変換する変換器(110)と、
    少なくとも2つの空間音源の少なくとも2つの空間位置を提供する位置提供器(120)と、
    前記少なくとも2つの空間位置と前記変換済信号到来方向とに基づいて前記変換済信号表現を処理し、前記少なくとも2つの空間音源の値を取得する処理器(130)と、を備え、
    前記処理器(130)は、前記少なくとも2つの空間音源の各々について重み係数を決定(303)し、
    前記処理器(130)は、少なくとも2つの空間フィルタ(311,312,31N)を用いて前記重み係数に依存して前記変換済信号表現を処理し、少なくとも2つの空間音源を前記少なくとも2つの空間音源の値としての少なくとも2つの空間音源信号で近似するか、又は、前記少なくとも2つの空間音源の値として、前記重み係数に依存して前記少なくとも2つの空間音源の各々についてのパワー情報を推定(402)する、ことを特徴とする音声フォーマット・トランスコーダ(100)。
  2. 方向性音声符号化(DirAC)信号、B−フォーマット信号又はマイクロホン・アレイからの信号に従って入力信号をトランスコードする、請求項1に記載の音声フォーマット・トランスコーダ(100)。
  3. 前記変換器(110)は、いくつかの周波数帯域/サブ帯域及び/又は時間セグメント/フレームについて前記入力信号を変換する、請求項1又は2に記載の音声フォーマット・トランスコーダ(100)。
  4. 前記変換器(110)は、周波数帯域ごとに拡散性及び/又は信頼性の値をさらに有する変換済信号へと前記入力信号を変換する、請求項3に記載の音声フォーマット・トランスコーダ(100)。
  5. 前記少なくとも2つの空間音源信号を符号化してSAOC(空間音声オブジェクト符号化)ダウンミックス成分とSAOCサイド情報成分とを含むSAOC符号化済信号を取得する、SAOC符号器をさらに備えた請求項1に記載の音声フォーマット・トランスコーダ(100)。
  6. 前記処理器(130)は、前記少なくとも2つの空間音源のパワー情報をSAOC-OLD(オブジェクト・レベル差)へと変換することを特徴とする、請求項1に記載の音声フォーマット・トランスコーダ(100)。
  7. 前記処理器(130)は、前記少なくとも2つの空間音源についてオブジェクト間コヒーレンス(IOC)を計算する、請求項6に記載の音声フォーマット・トランスコーダ(100)。
  8. 前記位置提供器(120)は、前記変換済信号に基づいて前記少なくとも2つの空間音源の前記少なくとも2つの空間位置を検出するための検出器を含み、この検出器は前記少なくとも2つの空間位置を、入力信号の連続する複数の時間セグメント/フレームの結合によって検出する、請求項3乃至7に記載の音声フォーマット・トランスコーダ(100)。
  9. 前記検出器は、前記変換済信号のパワー空間密度についての最尤法に基づいて、前記少なくとも2つの空間位置を検出する、請求項8に記載の音声フォーマット・トランスコーダ(100)。
  10. 前記処理器(130)は追加的な背景オブジェクトのための重み係数をさらに決定し、当該重み係数は、前記少なくとも2つの空間音源と前記追加的な背景オブジェクトとに関連するエネルギーの合計が、前記変換済信号表現のエネルギーに等しくなるよう設定される、請求項1乃至9に記載の音声フォーマット・トランスコーダ(100)。
  11. 少なくとも2つの方向性音声成分を有する入力音声信号を、SAOC(空間音声オブジェクト符号化)において利用可能な少なくとも2つの空間音源の値へトランスコードする方法であって、
    前記入力音声信号を、変換済信号表現と変換済信号到来方向とを有する変換済信号へと変換するステップと、
    少なくとも2つの空間音源の少なくとも2つの空間位置を提供するステップと、
    前記少なくとも2つの空間位置と前記変換済信号到来方向とに基づいて前記変換済信号表現を処理し、前記少なくとも2つの空間音源の値を取得する処理ステップと、を備え、
    前記処理ステップは、
    前記少なくとも2つの空間音源の各々について重み係数を決定(303)するサブステップと、
    少なくとも2つの空間フィルタ(311,312,31N)を用いて前記重み係数に依存して前記変換済信号表現を処理し、少なくとも2つの空間音源を前記少なくとも2つの空間音源の値としての少なくとも2つの空間音源信号で近似するか、又は、前記少なくとも2つの空間音源の値として、前記重み係数に依存して前記少なくとも2つの空間音源の各々についてのパワー情報を推定(402)するサブステップと、を含むことを特徴とする方法。
  12. コンピュータ又はプロセッサに請求項11に記載の方法を実行させる、コンピュータプログラム。
JP2012509049A 2009-05-08 2010-05-07 音声フォーマット・トランスコーダ Active JP5400954B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09006291.0 2009-05-08
EP09006291A EP2249334A1 (en) 2009-05-08 2009-05-08 Audio format transcoder
PCT/EP2010/056252 WO2010128136A1 (en) 2009-05-08 2010-05-07 Audio format transcoder

Publications (2)

Publication Number Publication Date
JP2012526296A JP2012526296A (ja) 2012-10-25
JP5400954B2 true JP5400954B2 (ja) 2014-01-29

Family

ID=41170090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012509049A Active JP5400954B2 (ja) 2009-05-08 2010-05-07 音声フォーマット・トランスコーダ

Country Status (13)

Country Link
US (1) US8891797B2 (ja)
EP (2) EP2249334A1 (ja)
JP (1) JP5400954B2 (ja)
KR (1) KR101346026B1 (ja)
CN (1) CN102422348B (ja)
AU (1) AU2010244393B2 (ja)
BR (1) BRPI1007730A2 (ja)
CA (1) CA2761439C (ja)
ES (1) ES2426136T3 (ja)
MX (1) MX2011011788A (ja)
PL (1) PL2427880T3 (ja)
RU (1) RU2519295C2 (ja)
WO (1) WO2010128136A1 (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3093843B1 (en) * 2009-09-29 2020-12-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mpeg-saoc audio signal decoder, mpeg-saoc audio signal encoder, method for providing an upmix signal representation using mpeg-saoc decoding, method for providing a downmix signal representation using mpeg-saoc decoding, and computer program using a time/frequency-dependent common inter-object-correlation parameter value
KR101410575B1 (ko) 2010-02-24 2014-06-23 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 강화 다운믹스 신호를 생성하는 장치, 강화 다운믹스 신호를 생성하는 방법 및 컴퓨터 프로그램
KR101442446B1 (ko) * 2010-12-03 2014-09-22 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집
US20140226842A1 (en) * 2011-05-23 2014-08-14 Nokia Corporation Spatial audio processing apparatus
TWI816597B (zh) 2011-07-01 2023-09-21 美商杜比實驗室特許公司 用於增強3d音頻編輯與呈現之設備、方法及非暫態媒體
EP2600637A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
EP2805326B1 (en) * 2012-01-19 2015-10-14 Koninklijke Philips N.V. Spatial audio rendering and encoding
US9268522B2 (en) 2012-06-27 2016-02-23 Volkswagen Ag Devices and methods for conveying audio information in vehicles
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
WO2014041067A1 (en) * 2012-09-12 2014-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing enhanced guided downmix capabilities for 3d audio
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US20160210957A1 (en) 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9955277B1 (en) * 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US9549253B2 (en) 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
EP2733965A1 (en) 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
CN109166588B (zh) * 2013-01-15 2022-11-15 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
CN110223702B (zh) * 2013-05-24 2023-04-11 杜比国际公司 音频解码系统和重构方法
GB2515089A (en) * 2013-06-14 2014-12-17 Nokia Corp Audio Processing
CN104244164A (zh) 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
GB2521649B (en) * 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
KR101468357B1 (ko) * 2014-02-17 2014-12-03 인하대학교 산학협력단 트랜스 코딩 서버의 cpu 전력 관리 방법
CN106228991B (zh) * 2014-06-26 2019-08-20 华为技术有限公司 编解码方法、装置及系统
CN105657633A (zh) 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
RU2696952C2 (ru) * 2014-10-01 2019-08-07 Долби Интернешнл Аб Аудиокодировщик и декодер
TWI587286B (zh) * 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
CN107004421B (zh) * 2014-10-31 2020-07-07 杜比国际公司 多通道音频信号的参数编码和解码
US9794721B2 (en) 2015-01-30 2017-10-17 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
CN105989852A (zh) 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
US10176813B2 (en) 2015-04-17 2019-01-08 Dolby Laboratories Licensing Corporation Audio encoding and rendering with discontinuity compensation
EP3318070B1 (en) 2015-07-02 2024-05-22 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
KR102614577B1 (ko) 2016-09-23 2023-12-18 삼성전자주식회사 전자 장치 및 그 제어 방법
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
GB2559765A (en) 2017-02-17 2018-08-22 Nokia Technologies Oy Two stage audio focus for spatial audio processing
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
US10893373B2 (en) * 2017-05-09 2021-01-12 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
WO2018208560A1 (en) * 2017-05-09 2018-11-15 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
CA3076703C (en) * 2017-10-04 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
US11328735B2 (en) * 2017-11-10 2022-05-10 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
SG11202004389VA (en) * 2017-11-17 2020-06-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
WO2019143867A1 (en) * 2018-01-18 2019-07-25 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
EP3762923B1 (en) * 2018-03-08 2024-07-10 Nokia Technologies Oy Audio coding
US11315578B2 (en) 2018-04-16 2022-04-26 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for encoding and decoding of directional sound sources
DE112019003358T5 (de) * 2018-07-02 2021-03-25 Dolby International Ab Verfahren und vorrichtung zum codieren und/oder decodieren immersiver audiosignale
SG11202007627RA (en) * 2018-10-08 2020-09-29 Dolby Laboratories Licensing Corp Transforming audio signals captured in different formats into a reduced number of formats for simplifying encoding and decoding operations
BR112021007807A2 (pt) * 2018-10-26 2021-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. analisador, avaliador de similaridade, codificador e decodificador de áudio, conversor de formato, renderizador, métodos e representação de áudio
CN117809663A (zh) * 2018-12-07 2024-04-02 弗劳恩霍夫应用研究促进协会 从包括至少两个声道的信号产生声场描述的装置、方法
MX2021008616A (es) * 2019-01-21 2021-10-13 Fraunhofer Ges Forschung Aparato y método para codificar una representación de audio espacial o aparato y método para decodificar una señal de audio codificada utilizando metadatos de transporte y programas de computadora relacionados.
WO2020221431A1 (en) * 2019-04-30 2020-11-05 Huawei Technologies Co., Ltd. Device and method for rendering a binaural audio signal
WO2020249480A1 (en) * 2019-06-12 2020-12-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Packet loss concealment for dirac based spatial audio coding
CN110660401B (zh) * 2019-09-02 2021-09-24 武汉大学 一种基于高低频域分辨率切换的音频对象编解码方法
GB2587196A (en) 2019-09-13 2021-03-24 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
CN113450823B (zh) * 2020-03-24 2022-10-28 海信视像科技股份有限公司 基于音频的场景识别方法、装置、设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2354858A1 (en) * 2001-08-08 2003-02-08 Dspfactory Ltd. Subband directional audio signal processing using an oversampled filterbank
WO2003079330A1 (en) * 2002-03-12 2003-09-25 Dilithium Networks Pty Limited Method for adaptive codebook pitch-lag computation in audio transcoders
RU2335022C2 (ru) * 2003-07-21 2008-09-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Преобразование формата аудиофайла
US20080260048A1 (en) * 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
US20070250308A1 (en) * 2004-08-31 2007-10-25 Koninklijke Philips Electronics, N.V. Method and device for transcoding
FI20055261A0 (fi) 2005-05-27 2005-05-27 Midas Studios Avoin Yhtioe Akustisten muuttajien kokoonpano, järjestelmä ja menetelmä akustisten signaalien vastaanottamista tai toistamista varten
FI20055260A0 (fi) * 2005-05-27 2005-05-27 Midas Studios Avoin Yhtioe Laite, järjestelmä ja menetelmä akustisten signaalien vastaanottamista tai toistamista varten
CN101238511B (zh) * 2005-08-11 2011-09-07 旭化成株式会社 声源分离装置、音频识别装置、移动电话机、声源分离方法
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
EP1890456B1 (en) * 2006-08-15 2014-11-12 Nero Ag Apparatus for transcoding encoded content
AU2007300813B2 (en) * 2006-09-29 2010-10-14 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US20080298610A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
KR101415026B1 (ko) * 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치

Also Published As

Publication number Publication date
AU2010244393B2 (en) 2013-02-14
CA2761439A1 (en) 2010-11-11
RU2519295C2 (ru) 2014-06-10
BRPI1007730A2 (pt) 2018-03-06
CN102422348A (zh) 2012-04-18
EP2427880B1 (en) 2013-07-31
PL2427880T3 (pl) 2014-01-31
EP2249334A1 (en) 2010-11-10
US20120114126A1 (en) 2012-05-10
AU2010244393A1 (en) 2011-11-24
RU2011145865A (ru) 2013-05-27
ES2426136T3 (es) 2013-10-21
MX2011011788A (es) 2011-11-29
KR20120013986A (ko) 2012-02-15
KR101346026B1 (ko) 2013-12-31
US8891797B2 (en) 2014-11-18
JP2012526296A (ja) 2012-10-25
WO2010128136A1 (en) 2010-11-11
CA2761439C (en) 2015-04-21
EP2427880A1 (en) 2012-03-14
CN102422348B (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
JP5400954B2 (ja) 音声フォーマット・トランスコーダ
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
JP6086923B2 (ja) 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法
US9183839B2 (en) Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
KR101619578B1 (ko) 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법
AU2020210549B2 (en) Apparatus and method for encoding a spatial audio representation or apparatus and method for decoding an encoded audio signal using transport metadata and related computer programs
AU2021357364B2 (en) Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing
RU2792050C2 (ru) Устройство и способ для кодирования пространственного звукового представления или устройство и способ для декодирования закодированного аудиосигнала с использованием транспортных метаданных и соответствующие компьютерные программы
AU2021357840B2 (en) Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131025

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5400954

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250