JP6328662B2 - バイノーラルのオーディオ処理 - Google Patents

バイノーラルのオーディオ処理 Download PDF

Info

Publication number
JP6328662B2
JP6328662B2 JP2015552151A JP2015552151A JP6328662B2 JP 6328662 B2 JP6328662 B2 JP 6328662B2 JP 2015552151 A JP2015552151 A JP 2015552151A JP 2015552151 A JP2015552151 A JP 2015552151A JP 6328662 B2 JP6328662 B2 JP 6328662B2
Authority
JP
Japan
Prior art keywords
binaural
data set
binaural rendering
representation
rendering data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015552151A
Other languages
English (en)
Other versions
JP2016507173A (ja
Inventor
イエルーン ヘラルダス ヘンリクス コッペンス
イエルーン ヘラルダス ヘンリクス コッペンス
アルノルドス ウェルナー ヨハネス オーメン
アルノルドス ウェルナー ヨハネス オーメン
エリック ホサイヌス ペトルス スフェイェルス
エリック ホサイヌス ペトルス スフェイェルス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2016507173A publication Critical patent/JP2016507173A/ja
Application granted granted Critical
Publication of JP6328662B2 publication Critical patent/JP6328662B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

本発明は、バイノーラルのオーディオ処理に関し、とりわけ、排他的ではないが、オーディオ処理アプリケーションのための頭部バイノーラル伝達関数データの通信及び処理に関する。
種々のソース信号のデジタルエンコーディングは、デジタル信号表現及び通信がますますアナログ表現及び通信を置換しているので、過去数十年に渡ってますます重要になってきた。例えば、スピーチ及び音楽のようなオーディオコンテンツは、ますますデジタルコンテンツエンコーディングに基づいている。更に、オーディオ消費は、例えば一般的になっているサラウンドサウンド及びホームシネマセットアップにより、ますます包囲的三次元体験になっている。
オーディオエンコーディングフォーマットは、有能な、多様な、及び、フレキシブルなオーディオサービスをますます提供するために開発されており、とりわけ、空間的なオーディオサービスをサポートするオーディオエンコーディングフォーマットが開発されている。
DTS及びドルビーデジタルのような良く知られたオーディオ符号化技術は、空間イメージを、聴取者の回りの固定された位置に配置される多数のチャネルとして表す符号化されたマルチチャネルオーディオ信号を生成する。マルチチャネル信号に対応するセットアップとは異なるスピーカセットアップに関して、空間イメージは、最適状態に及ばないだろう。また、チャネルベースのオーディオ符号化システムは、典型的には、異なる数のスピーカに対処することができない。
(ISO/IEC MPEG−D)MPEGサラウンドは、既存のモノラル又はステレオベースの符号器がマルチチャネルオーディオアプリケーションまで拡張されるのを可能にするマルチチャネルオーディオ符号化ツールを提供する。図1は、MPEGサラウンドシステムの要素の一例を示している。オリジナルマルチチャネル入力の分析により取得される空間パラメータを用いて、MPEGサラウンドデコーダは、マルチチャネル出力信号を取得するために、モノラル又はステレオ信号の制御されたアップミックスにより、空間イメージを再生成することができる。
マルチチャネル入力信号の空間イメージはパラメータ化されるので、MPEGサラウンドは、マルチチャネルスピーカセットアップを用いないデバイスをレンダリングすることにより、同じマルチチャネルビットストリームのデコーディングを可能にする。一例は、ヘッドホン上での仮想サラウンド再生であり、これは、MPEGサラウンドバイノーラルデコーディング処理と呼ばれる。このモードにおいて、現実的なサラウンド体験は、標準的なヘッドホンを用いている間に提供され得る。他の例は、より高いオーダのマルチチャネル出力(例えば7.1チャネル)の、より低いオーダのセットアップ(例えば5.1チャネル)への削減である。
実際に、空間サウンドをレンダリングするために使用されるレンダリング設定のバリエーション及びフレキシビリティは、主流派の消費者に対して利用可能になるますます多くの再生フォーマットにより、近年大幅に増大している。これは、オーディオのフレキシブルな表現を必要とする。重要なステップは、MPEGサラウンドコーデックの導入によりもたらされている。それにもかかわらず、オーディオは、依然として、特定のラウドスピーカセットアップ(例えば、ITU 5.1スピーカセットアップ)のために生成及び送信される。異なるセットアップを介した再生、及び、非標準の(即ち、フレキシブルな又はユーザ定義の)スピーカセットアップを介した再生は特定されない。実際に、特定の予め決められた及び公称のスピーカセットアップから独立してオーディオエンコーディング及び表現を行うという欲求がますます存在するようになっている。多種多様な異なるスピーカセットアップへのフレキシブルな適合は、デコーダ/レンダリング側で実行され得ることがますます好ましくなる。
オーディオのよりフレキシブルな表現を提供するために、MPEGは、"Spatial Audio Object Coding"(ISO/IEC MPEG−D SAOC)として知られるフォーマットを標準化した。DTS、ドルビーデジタル及びMPEGサラウンドのようなマルチチャネルオーディオ符号化システムとは対照的に、SAOCは、オーディオチャネルよりもむしろ個々のオーディオオブジェクトの効率的な符号化を提供する。MPEGサラウンドにおいて、各スピーカチャネルがサウンドオブジェクトの異なる混合によって生じるとみなされ得るのに対し、SAOCは、図2に示されるように、双方向操作のためにデコーダ側で利用可能な個々のサウンドオブジェクトを作る。SAOCにおいて、複数のサウンドオブジェクトは、サウンドオブジェクトがレンダリング側で抽出されるのを可能にするパラメトリックデータと一緒にモノラル又はステレオダウンミクスに符号化され、これにより、個々のオーディオオブジェクトが、例えばエンドユーザによる操作のために利用可能になるのを可能にする。
実際に、MPEGサラウンドと同様に、SAOCは、モノラル又はステレオダウンミクスを生成する。加えて、オブジェクトパラメータは、計算され、含められる。デコーダ側において、ユーザは、位置、レベル、均一化のような個々のオブジェクトの種々のフィーチャを制御するために、又は、残響のような効果を適用するために、これらのパラメータを操作してもよい。図3は、ユーザがSAOCビットストリームに含まれる個々のオブジェクトを制御するのを可能にするインタラクティブインタフェースを示している。レンダリングマトリクスにより、個々のサウンドオブジェクトは、スピーカチャネルにマッピングされる。
SAOCは、よりフレキシブルなアプローチを可能にし、とりわけ、再生チャネルに加えてオーディオオブジェクトを送信することにより、より多くのレンダリングベースの適応性を可能にする。これは、空間がスピーカにより適切に覆われることを条件として、デコーダ側が空間における不定の位置にオーディオオブジェクトを配置するのを可能にする。このように、送信されたオーディオと再生又はレンダリングセットアップとの間に関係がなく、それ故に、不定のスピーカセットアップが用いられ得る。これは、例えば典型的なリビングルームにおけるホームシネマセットアップに対して有利であり、ここで、スピーカは意図された位置にはほとんどない。SAOCにおいて、これは、オブジェクトがサウンドシーンに配置されるデコーダ側で決定され、これは、多くの場合、芸術的な視点から望まれない。SAOC規格は、ビットストリームにおいてデフォルトのレンダリングマトリクスを送信するための手段を提供し、デコーダの責任を取り除く。しかしながら、提供された方法は、固定された再生セットアップ又は詳細不明の構文に依存する。それ故、SAOCは、スピーカセットアップと独立してオーディオシーンを完全に送信する規範的な手段を提供しない。また、SAOCは、拡散信号成分の信頼できるレンダリングに対してあまり備えられていない。拡散サウンドを取り込むためにいわゆるMBO(Multichannel Background Object)を含むという可能性があるにもかかわらず、このオブジェクトは、1つの特定のスピーカ設定に関係する。
3Dオーディオのためのオーディオフォーマットのための他の仕様は、工業同盟である3DAA(3D Audio Alliance)により開発されている。3DAAは、3Dオーディオの伝送のための規格を開発するため専用のものであり、それは、「現在のスピーカ供給パラダイムからフレキシブルなオブジェクトベースのアプローチへの遷移を促進するだろう」。3DAAにおいて、個々のサウンドオブジェクトとともにレガシーマルチチャネルダウンミクスの伝送を可能にするビットストリームフォーマットが規定されるべきである。加えて、オブジェクトポジショニングデータが含まれる。3DAAオーディオストリームを生成する原理が図4に示される。
3DAAアプローチにおいて、サウンドオブジェクトは拡張ストリームにおいて別々に受信され、これらは、マルチチャネルダウンミクスから抽出されてもよい。生ずるマルチチャネルダウンミクスは、個別に利用可能なオブジェクトと一緒にレンダリングされる。
オブジェクトは、いわゆるステムから成ってもよい。これらのステムは、基本的にグループ化された(ダウンミクスされた)トラック又はオブジェクトである。それ故、オブジェクトは、ステムにパッキングされた複数のサブオブジェクトから成ってもよい。3DAAにおいて、マルチチャネルリファレンスミクスは、オーディオオブジェクトの選択によって送信され得る。3DAAは、各オブジェクトのための3D位置的データを送信する。そして、オブジェクトは、3D位置的データを用いて抽出され得る。その代りに、逆ミクス−マトリクスが送信されてもよく、オブジェクトとリファレンスミクスとの間の関係を記述する。
3DAAの説明から、サウンド−シーン情報は、角度及び距離を各オブジェクトに割り当てることにより恐らく送信され、オブジェクトがどこに配置されるべきか、例えばデフォルトの前方方向に対して配置されるべきことを示す。故に、位置的情報は、各オブジェクトに対して送信される。これは、ポイント−ソースのために有益であるが、(例えば合唱団又は拍手のような)広いソースを記述すること又は(雰囲気のような)サウンドフィールドを拡散することに失敗している。全てのポイント−ソースがリファレンスミクスから抽出されたとき、アンビエントマルチチャネルミクスが残る。SAOCと同様に、3DAAにおける残りのものは、特定のスピーカセットアップに対して固定される。
故に、SAOC及び3DAA双方のアプローチは、デコーダ側で個別に操作され得る個々のオーディオオブジェクトの伝送を取り込む。2つのアプローチ間の相違は、SAOCがダウンミクスに対してオブジェクトを特徴づけるパラメータを供給することにより(即ち、オーディオオブジェクトがデコーダ側でダウンミクスから生成されるように)オーディオオブジェクトに関する情報を供給する点であるのに対し、3DAAは、(即ち、デコーダ側でダウンミクスから独立して生成され得る)完全な及び別個のオーディオオブジェクトとしてオーディオオブジェクトを供給する。双方のアプローチに関して、位置データは、オーディオオブジェクトのために通信され得る。
空間体験が聴取者の耳のための個々の信号を用いたサウンドソースの仮想ポジショニングにより生成されるバイノーラルの処理は、ますます広範囲になっている。仮想サラウンドは、オーディオソースが特定の方向から生ずるものと知覚されるようにサウンドをレンダリングする方法であり、これにより、物理的なサラウンドサウンドセットアップ(例えば、5.1スピーカ)又は環境(コンサート)を聴取する錯覚を生成すること。適切なバイノーラルのレンダリング処理によれば、聴取者が任意の所望の方向からサウンドを知覚するために鼓膜で必要とされる信号が計算され、これらの信号が、所望の効果を与えるようにレンダリングされ得る。図5に示されるように、これらの信号は、その後、(密集したスピーカを介してレンダリングするのに適している)ヘッドホン又はクロストーク取消し方法を用いて鼓膜で再生成される。
図5の直接的なレンダリングの次に、仮想サラウンドをレンダリングするために用いられ得る特定の技術は、MPEGサラウンド及びSpatial Audio Object Coding、並びに、MPEGにおける3D Audio上の次に行う作業アイテムを含む。これらの技術は、計算的に効率的な仮想サラウンドレンダリングを提供する。
バイノーラルのレンダリングは、頭部、及び、肩のような反射表面の異なる音響特性により、人から人へと変化するバイノーラル伝達関数に基づいている。例えば、バイノーラルフィルタは、種々の位置で複数のソースをシミュレーションするバイノーラルレコーディングを生成するために用いられ得る。これは、サウンドソースの位置に対応する頭部インパルス応答(HRIRs;Head Related Impulse Responses)の対により各サウンドソースを巻き込むことにより実現され得る。
例えば人間の耳に又はその近くに配置されるマイクロホンで2D又は3D空間における特定の位置でサウンドソースからのインパルス応答を測定することにより、適切なバイノーラルフィルタが決定され得る。典型的には、斯様な測定は、例えば人間の頭部のモデルを用いて行われるか、又は、実際には、場合によっては、測定は、マイクロホンを人の鼓膜の近くに取り付けることにより行われてもよい。バイノーラルフィルタは、種々の位置で複数のソースをシミュレーションするバイノーラルレコーディングを生成するために用いられ得る。これは、例えばサウンドソースの所望の位置のための測定されたインパルス応答の対により各サウンドソースを巻き込むことにより、実現され得る。サウンドソースが聴取者の回りに移動したという錯覚を生成するために、多数のバイノーラルフィルタは、適切な空間解像度(例えば10の程度)によって要求とされる。
バイノーラル伝達関数は、例えば、HRIR(Head Related Impulse Responses)として、又は同等に、HRTFs(Head Related Transfer Functions)、BRIRs(Binaural Room Impulse Responses)又はBRTFs(Binaural Room Transfer Functions)として表されてもよい。所与の位置から聴取者の耳(又は鼓膜)までの(例えば推定又は想定される)伝達関数は、頭部バイノーラル伝達関数として知られる。この関数は、例えば、周波数領域において与えられてもよく(この場合においては典型的にはHRTF又はBRTFと呼ばれる)、又は、時間領域において与えられてもよい(この場合において、典型的にはHRIR又はBRIRと呼ばれる)。幾つかのシナリオにおいて、頭部バイノーラル伝達関数は、音響環境及びとりわけ測定値が行われる部屋の態様又は特性を含むように決定されるのに対し、他の例において、ユーザ特徴だけが考慮される。関数の第1のタイプの例は、BRIRs及びBRTFsであり、関数の後者のタイプの例は、HRIR及びHRTFである。
従って、元の頭部バイノーラル伝達関数は、HRIRs、HRTFs等を含む多くの異なる手段において表され得る。更に、これらの主な表現の各々のために、例えば異なるレベルの精度及び複雑性により特定の関数を表すための多数の異なる手段が存在する。異なる処理部は、異なるアプローチを用いてもよく、それ故、異なる表現に基づいてもよい。故に、多数の頭部バイノーラル伝達関数が、典型的には、任意のオーディオシステムにおいて必要とされる。実際に、頭部バイノーラル伝達関数を表す多種多様な方法が存在し、これは、各頭部バイノーラル伝達関数のための考えられるパラメータの大きな変動性により更に悪化する。例えば、BRIRは、時には、言わば9のタップを伴うFIRフィルタにより表されてもよいが、他のシナリオにおいて、言わば16のタップ等を伴うFIRフィルタにより表されてもよい。別の例として、HRTFsは、パラメータの小さなセットが完全な周波数スペクトルを表すために用いられる、パラメータ化された表現を用いて周波数領域において表されてもよい。
多くのシナリオにおいて、用いられ得る特定の頭部バイノーラル伝達関数のような所望のバイノーラルレンダリングのパラメータを通信するのを可能にすることが望ましい。しかしながら、しかしながら、元の頭部バイノーラル伝達関数の考えられる表現の大きな変動性のため、元のデバイスと受信デバイスとの間の共通性を保証することは困難であり得る。
AES(Audio Engineering Society)のsc−02技術委員会は、頭部バイノーラル伝達関数の形式のバイノーラルリスニングパラメータを交換するためのファイル形式の規格化に関する新たな計画の開始を最近発表した。そのフォーマットは、利用可能なレンダリングプロセスにマッチさせるためにスケーラブルであるだろう。フォーマットは、異なるHRTFデータベースからのソース材料を含むように設計されるだろう。チャレンジは、斯様な頭部バイノーラル伝達関数がオーディオシステムにおいてどのように最良にサポートされ、用いられ、及び、分配され得るかにおいて存在する。
従って、バイノーラルの処理をサポートするための、及び、とりわけ、バイノーラルレンダリングのためのデータを通信するための、改良されたアプローチが要求されるだろう。とりわけ、バイノーラルレンダリングデータの改良された表現及び通信、低減されたデータレート、低減されたオーバーヘッド、促進された実装、及び/又は、向上した性能が有利であるだろう。
従って、本発明は、好ましくは、上述の欠点の1又はそれ以上を単独で又は任意の組み合わせにおいて緩和、軽減又は除去しようとする。
本発明の一態様によれば、オーディオ信号を処理するための装置であって、入力データを受信するための受信部であって、前記入力データは、複数のバイノーラルレンダリングデータセットを有し、各バイノーラルレンダリングデータセットは、仮想位置バイノーラルレンダリング処理のためのパラメータを表すデータを有し、前記バイノーラルレンダリングデータセットの各々に関して、前記入力データは、前記バイノーラルレンダリングデータセットのための表現を示す表現指標を更に有する、受信部と、前記表現指標及び当該装置の機能に基づいて、選択されたバイノーラルレンダリングデータセットを選択するための選択部と、前記選択されたバイノーラルレンダリングデータセットのデータに基づいて前記オーディオ信号を処理するためのオーディオ処理部とを有する、装置が提供される。
本発明は、多くのシナリオにおける向上した、よりフレキシブルな、及び/又は、あまり複雑でない、バイノーラルの処理を可能にし得る。本アプローチは、とりわけ、種々のバイノーラルレンダリングパラメータを通信し、表すためのフレキシブルな及び/又は低い複雑さのアプローチを可能にし得る。本アプローチは、種々のバイノーラルレンダリングアプローチ及びパラメータが、低い複雑性を有する適切なデータ及び表現を選択することができるデータを受信する装置により同じビットストリーム/データファイルにおいて効率的に表されるのを可能にし得る。とりわけ、装置の機能にマッチする適切なバイノーラルレンダリングは、全てのデータの完全なデコーディングを必要とすることなく、又は、実際に多くの実施形態においてバイノーラルレンダリングデータセットのうちいずれかのデータの任意のデコーディングを伴うことなく、容易に識別及び選択され得る。
仮想位置バイノーラルレンダリング処理は、サウンドが、3D空間における所望の位置から、及び、典型的には、ユーザの頭部の外側の所望の位置から始まるように知覚されるように、サウンドソースを表す信号が人の2つの耳のためのオーディオ信号を生成するアルゴリズム又はプロセスの任意の処理であってもよい。
各データセットは、少なくとも1つの仮想位置バイノーラルレンダリング動作のパラメータを表すデータを有してもよい。各データセットは、バイノーラルレンダリングを制御するか又はこれに影響を与える全体パラメータのサブセットにのみ関連してもよい。データは、1又はそれ以上のパラメータを完全に規定又は記述してもよく、及び/又は、例えば1又はそれ以上のパラメータを部分的に規定してもよい。幾つかの実施形態において、規定されたパラメータは、好ましいパラメータであってもよい。
表現指標は、どのパラメータがデータセットに含まれるかを規定してもよく、及び/又は、パラメータの特徴を規定してもよく、及び/又は、パラメータがデータによりどのように記述されるかを規定してもよい。
装置の機能は、例えば、計算又はメモリリソースの制約であってもよい。機能は、動的に決定されてもよく、又は、静的なパラメータであってもよい。
本発明のオプショナルな特徴によれば、バイノーラルレンダリングデータセットは、頭部バイノーラル伝達関数データを有する。
本発明は、頭部バイノーラル伝達関数に基づく処理及び/又は頭部バイノーラル伝達関数の向上した及び/又は促進された、及び、よりフレキシブルな分配を可能にし得る。とりわけ、本アプローチは、多種多様な頭部バイノーラル伝達関数を表すデータが、その処理装置に特に適しているデータを容易に及び効率的に識別及び抽出することができる個々の処理装置で分配されるのを可能にし得る。
表現指標は、頭部バイノーラル伝達関数の性質やその個々のパラメータのような、頭部バイノーラル伝達関数の表現の指標であってもよく、当該指標を有してもよい。例えば、所与のバイノーラルレンダリングデータセットのための表現指標は、データセットがHRTF、BRTF、HRIR又はBRIRとしての頭部バイノーラル伝達関数の表現を供給するかどうかを示してもよい。インパルス応答表現に関して、表現指標は、例えば、インパルス応答を表すFIRフィルタのためのタップ(係数)の数、及び/又は、各タップのために使用されるビットの数を示してもよい。周波数領域の表現に関して、表現指標は、例えば、係数が供給される周波数間隔の数、周波数帯が線形であるか又は例えばBark周波数帯であるか等を示してもよい。
オーディオ信号の処理は、選択されたバイノーラルレンダリングデータセットから取り出される頭部バイノーラル伝達関数のパラメータに基づく仮想位置バイノーラルレンダリング処理であってもよい。
本発明のオプショナルな特徴によれば、バイノーラルレンダリングデータセットのうち少なくとも1つは、複数の位置のための頭部バイノーラル伝達関数データを有する。
幾つかの実施形態では、各バイノーラルレンダリングデータセットは、例えば、2又は3次元のサウンドソースレンダリング空間のための頭部バイノーラル伝達関数の完全なセットを規定してもよい。全ての位置に対して共通である表現指標は、効率的な表現及び通信を可能にしてもよい。
本発明のオプショナルな特徴によれば、表現指標は、バイノーラルレンダリングデータセットの順序付けられたシーケンスを更に表し、順序付けられたシーケンスは、バイノーラルレンダリングデータセットにより表されるバイノーラルレンダリングのための質及び複雑性のうち少なくとも1つに関して順序付けられ、セレクタは、順序付けられたシーケンスにおける選択されたバイノーラルレンダリングデータセットの位置に基づいて、選択されたバイノーラルレンダリングデータセットを選択するように構成される。
これは、多くの実施形態において特に有利な動作を提供し得る。とりわけ、これは、表現指標の順序を考慮して行われるので、選択されたバイノーラルレンダリングデータセットを選択するプロセスを促進及び/又は向上させ得る。
幾つかの実施形態では、表現指標の順序は、ビットストリームにおける表現指標の位置により表される。
これは、選択プロセスを促進し得る。例えば、表現指標は、入力データビットストリームに配置される順序に従って評価されてもよく、選択された適切な表現指標のデータセットは、任意の更なる表現指標の如何なる考察を伴うことなく選択されてもよい。表現指標が(任意の適切なパラメータに従って)優先度を減少させる順に配置される場合、これは、選択される好ましい表現指標及びそれ故にバイノーラルレンダリングデータセットをもたらすだろう。
幾つかの実施形態では、表現指標の順序は、入力データに含まれる指標により表される。各表現指標のための指標は、表現指標に含まれてもよい。指標は例えば優先度の指標であってもよい。
これは選択プロセスを促進し得る。例えば、優先度は、各表現指標のビットの第1の組として供給されてもよい。装置は、最も高い考えられる優先度のためにビットストリームを最初にスキャンし、これらの表現指標から、これらが装置の機能にマッチしているかどうかを評価してもよい。もしそうならば、表現指標のうちの1つ及び対応するバイノーラルレンダリングデータセットが選択される。そうでない場合には、装置は、二番目に高い考えられる優先度のためにビットストリームをスキャンするよう進行し、その後、これらの表現指標のための同じ評価を実行する。このプロセスは、適切なバイノーラルレンダリングデータセットが識別されるまで続けられてもよい。
幾つかの実施形態では、データセット/表現指標は、関連付けられた/リンク付けされたバイノーラルレンダリングデータセットのパラメータにより表されるバイノーラルレンダリングの質の順に順序付けられてもよい。
順序は、特定の実施形態、優先度及びアプリケーションに依存して増大又は減少する質の順であってもよい。
これは、とりわけ効率的なシステムを提供し得る。例えば、装置は、装置の機能にマッチするバイノーラルレンダリングデータセットの表現を示す表現指標まで所与の順序で表現指標を単純に処理してもよい。そして、装置は、これが供給されたデータ及び装置の機能に対して可能な最高品質のレンダリングを表すので、この表現指標及び対応するバイノーラルレンダリングデータセットを選択してもよい。
幾つかの実施形態では、データセット/表現指標は、バイノーラルレンダリングデータセットのパラメータにより表されるバイノーラルレンダリングの複雑性の順に順序付けられてもよい。
順序は、特定の実施形態、優先度及びアプリケーションに依存して増大又は減少する複雑性の順序であってもよい。
これは、特に効率的なシステムを提供し得る。例えば、装置は、装置の機能にマッチするバイノーラルレンダリングデータセットの表現を示す表現指標まで、所与の順序で表現指標を単純に処理してもよい。そして、装置は、これが供給されたデータ及び装置の機能のための可能な最も低い複雑さのレンダリングを表すので、この表現指標及び対応するバイノーラルレンダリングデータセットを選択してもよい。
幾つかの実施形態では、データセット/表現指標は、バイノーラルレンダリングデータセットのパラメータにより表されるバイノーラルレンダリングの組み合わせられた特性の順に順序付けられてもよい。例えば、コスト価値が各バイノーラルレンダリングデータセットのための質の尺度と複雑さの尺度との組み合わせとして表されてもよく、表現指標は、このコスト価値に従って順序付けられてもよい。
本発明のオプショナルな特徴によれば、セレクタは、選択されたバイノーラルレンダリングデータセットを、オーディオプロセッサが可能であるレンダリング処理を示す順序付けられたシーケンスにおける第1の表現指標のためのバイノーラルレンダリングデータセットとして選択するように構成される。
これは、複雑性を低減し得るか、及び/又は、選択を促進し得る。
本発明のオプショナルな特徴によれば、表現指標は、バイノーラルレンダリングデータセットにより表される頭部フィルタタイプの指標を有する。
とりわけ、所与のバイノーラルレンダリングデータセットのための表現指標は、バイノーラルレンダリングデータセットにより表される、例えばHRTFs、BRTFs、HRIRs又はBRIRsの指標を有してもよい。
本発明のオプショナルな特徴によれば、複数のバイノーラルレンダリングデータセットのうち少なくとも幾つかは、時間領域インパルス応答表現、周波数領域フィルタ伝達関数表現、パラメトリック表現及びサブバンド領域フィルタ表現のグループからの選択される表現により記述される少なくとも1つの頭部バイノーラル伝達関数を含む。
これは、多くのシナリオにおいて特に有利なシステムを提供し得る。
幾つかの実施形態では、表現指標の値は、オプションのセットからの値である。入力データは、オプションのセットからの異なる値を有する少なくとも2つの表現指標を有してもよい。オプションは、例えば、時間領域インパルス応答表現、周波数領域フィルタ伝達関数表現、パラメトリック表現、サブバンド領域フィルタ表現、FIRフィルタ表現の1又はそれ以上を含み得る。
本発明のオプショナルな特徴によれば、バイノーラルレンダリングデータセットのための少なくとも幾つかの表現は、異なるバイノーラルオーディオ処理アルゴリズムに対応し、選択されたバイノーラルレンダリングデータセットの選択は、オーディオプロセッサにより使用されるバイノーラル処理アルゴリズムに依存する。
これは、多くの実施形態において特に効率的な動作を可能にし得る。例えば、装置は、HRTFフィルタに基づいて特定のレンダリングアルゴリズムを実行するようにプログラムされてもよい。この場合、表現指標は、適切なHRTFデータを有するバイノーラルレンダリングデータセットを識別するために評価されてもよい。
オーディオプロセッサは、選択されたバイノーラルレンダリングデータセットにより使用される表現に依存してオーディオ信号の処理を適応させるように構成される。例えば、HRTF処理のために使用される順応性が高いFIRフィルタにおける係数の数は、選択されたバイノーラルレンダリングデータセットにより与えられるタップの数の指標に基づいて適合されてもよい。
本発明のオプショナルな特徴によれば、少なくとも幾つかのバイノーラルレンダリングデータセットは、反響データを有し、オーディオプロセッサは、選択されたバイノーラルレンダリングデータセットの反響データに依存して反響処理を適応させるように構成される。
これは、特に有利なバイノーラルサウンドを提供し、向上したユーザ体験及びサウンドステージ認識を提供し得る。
本発明のオプショナルな特徴によれば、オーディオプロセッサは、処理されたオーディオ信号を、少なくとも頭部バイノーラル伝達関数でフィルタリングされた信号と反響信号との組み合わせとして生成することを含むバイノーラルレンダリング処理を実行するように構成され、反響信号は、選択されたバイノーラルレンダリングデータセットのデータに依存する。
これは、特に効率的な実装を提供し、バイノーラルレンダリング処理データの非常にフレキシブルで順応性が高い処理及び供給を提供し得る。
多くの実施形態において、頭部バイノーラル伝達関数でフィルタリングされた信号は、選択されたバイノーラルレンダリングデータセットのデータには依存しない。実際に、多くの実施形態において、入力データは、複数のバイノーラルレンダリングデータセットのために共通であるが、個々のバイノーラルレンダリングデータセットに対して個別である反響データをもつ頭部バイノーラル伝達関数フィルタデータを有し得る。
本発明のオプショナルな特徴によれば、セレクタは、表現指標により示される反響データの表現の指標に基づいて、選択されたバイノーラルレンダリングデータセットを選択するように構成される。
これは、特に有利なアプローチを提供し得る。幾つかの実施形態では、セレクタは、表現指標により示される反響データの表現の指標に基づいて、選択されたバイノーラルレンダリングデータセットを選択するように構成されてもよいが、表現指標により示される頭部バイノーラル伝達関数フィルタの表現の指標には基づかない。
本発明の一態様によれば、ビットストリームを生成するための装置であって、複数のバイノーラルレンダリングデータセットを供給するためのバイノーラル回路であって、各バイノーラルレンダリングデータセットは、仮想位置バイノーラルレンダリング処理のためのパラメータを表すデータを有する、バイノーラル回路と、前記バイノーラルレンダリングデータセットの各々に関して、前記バイノーラルレンダリングデータセットのための表現を示す表現指標を供給するための表現回路と、前記バイノーラルレンダリングデータセット及び前記表現指標を有するビットストリームを生成するための出力回路とを有する、装置が提供される。
本発明は、仮想位置レンダリングに関する情報を供給するビットストリームの向上した及び/又はよりフレキシブルな及び/又はあまり複雑でない生成を可能にし得る。本アプローチは、とりわけ、種々のバイノーラルレンダリングパラメータを通信し、表すためのフレキシブルな及び/又は低い複雑性のアプローチを可能にし得る。本アプローチは、種々のバイノーラルレンダリングアプローチ及びパラメータが、適切なデータ及び低い複雑性を有する表現を選択することができるビットストリーム/データファイルを受信する装置により同じビットストリーム/データファイルにおいて効率的に表されるのを可能にし得る。とりわけ、装置の機能にマッチする適切なバイノーラルレンダリングは、全てのデータの完全なデコーディングを必要とすることなく、又は、実際に、多くの実施形態において、バイノーラルレンダリングデータセットのうちいずれかのデータの如何なるデコーディングを伴うことなく、容易に識別及び選択され得る。
各データセットは、少なくとも1つの仮想位置バイノーラルレンダリング動作のパラメータを表すデータを有してもよい。各データセットは、バイノーラルレンダリングを制御するか又はこれに影響を与える全体パラメータのサブセットにのみ関連してもよい。データは、1又はそれ以上のパラメータを完全に規定又は記述してもよく、及び/又は、1又はそれ以上のパラメータを例えば部分的に規定してもよい。幾つかの実施形態では、規定されたパラメータは、好ましいパラメータであってもよい。
表現指標は、どのパラメータがデータセットに含まれるか、及び/又は、パラメータの特性、及び/又は、パラメータがどのようにデータにより記述されるか、について規定してもよい。
本発明のオプショナルな特徴によれば、出力回路は、バイノーラルレンダリングデータセットのパラメータにより表される仮想位置バイノーラルレンダリングの特性の尺度の順に表現指標を順序付けるように構成される。
これは、多くの実施形態において特に有利な動作を提供し得る。
本発明の一態様によれば、オーディオを処理する方法であって、入力データを受信するステップであって、前記入力データは、複数のバイノーラルレンダリングデータセットを有し、各バイノーラルレンダリングデータセットは、仮想位置バイノーラルレンダリング処理のためのパラメータを表すデータを有し、前記入力データは、前記バイノーラルレンダリングデータセットの各々に関して、前記バイノーラルレンダリングデータセットのための表現を示す表現指標を更に有する、ステップと、前記表現指標及び装置の機能に基づいて、選択されたバイノーラルのレンダリングデータセットを選択するステップと、前記選択されたバイノーラルレンダリングデータセットのデータに基づいてオーディオ信号を処理するステップとを有する、方法が提供される。
本発明の一態様によれば、ビットストリームを生成する方法であって、複数のバイノーラルレンダリングデータセットを供給するステップであって、各バイノーラルレンダリングデータセットは、仮想位置バイノーラルレンダリング処理のためのパラメータを表すデータを有する、ステップと、前記バイノーラルレンダリングデータセットの各々に関して、前記バイノーラルレンダリングデータセットのための表現を示す表現指標を供給するステップと、前記バイノーラルレンダリングデータセット及び前記表現指標を有するビットストリームを生成するステップとを有する、方法が提供される。
本発明のこれらの及び他の態様、特徴及び利点は、以下で述べられる実施形態から明らかになり、これらを参照して説明されるだろう。
本発明の実施形態は、単なる例により、図面を参照して述べられるだろう。
MPEGサラウンドシステムの要素の一例を示す。 MPEG SAOCにおいて考えられるオーディオオブジェクトの操作を例示する。 ユーザがSAOCビットストリームに含まれる個々のオブジェクトを制御するのを可能にするインタラクティブインタフェースを示す。 3DAAのオーディオエンコーディングの原理の一例を示す。 バイノーラルの処理の一例を示す。 本発明の幾つかの実施形態による頭部バイノーラル伝達関数データのトランスミッタの一例を示す。 本発明の幾つかの実施形態による頭部バイノーラル伝達関数データのレシーバの一例を示す。 頭部バイノーラル伝達関数の一例を示す。 バイノーラル処理部の一例を示す。 変更されたJot反響部の一例を示す。
以下の説明は、頭部バイノーラル伝達関数データの通信、とりわけHRTFsの通信に適用可能な本発明の実施形態にフォーカスする。しかしながら、本発明は、このアプリケーションに限定されるものではなく、他のバイノーラルレンダリングデータに適用されてもよいことが理解されるだろう。
頭部バイノーラル伝達関数を記述しているデータの伝送は、増々関心を集めており、前に述べられたように、AES SCは、斯様なデータを通信するための適切なファイルフォーマットを開発することに向けられた新たなプロジェクトを開始している。元の頭部バイノーラル伝達関数は、多くの異なるやり方で表され得る。例えば、HRTFフィルタは、パラメータ化された表現、FIR表現等のような、複数のフォーマット/表現で提供される。それ故、同じ元の頭部バイノーラル伝達関数のための異なる表現フォーマットをサポートする頭部バイノーラル伝達関数ファイルフォーマットを有することが有利である。更に、異なるデコーダは、異なる表現に依存する場合があり、それ故、個々のオーディオプロセッサにどの表現が提供されなければならないのか、トランスミッタには分からない。以下の説明は、異なる頭部バイノーラル伝達関数表現フォーマットが単一のファイルフォーマット内で用いられ得るシステムにフォーカスする。オーディオプロセッサは、オーディオプロセッサの個々の要件又は優先度に最も合う表現を取り出すために複数の表現から選択することができる
本アプローチは、とりわけ、単一の頭部バイノーラル伝達関数ファイルの範囲内において単一の頭部バイノーラル伝達関数の(FIR、パラメトリック等のような)複数の表現フォーマットを可能にする。また、頭部バイノーラル伝達関数ファイルは、複数の表現により表される各関数を有する複数の頭部バイノーラル伝達関数を有してもよい。例えば、複数の頭部バイノーラル伝達関数表現は、複数の位置の各々に対して提供されてもよい。システムは、頭部バイノーラル伝達関数を表す異なるデータセットのために用いられる特定の表現を識別する表現指標を含むファイルに更に基づく。これは、デコーダが、HRTFデータそのものにアクセスするか又はこれを処理することを必要とすることなく、頭部バイノーラル伝達関数表現フォーマットを選択するのを可能にする。
図6は、頭部バイノーラル伝達関数データを有するビットストリームを生成及び送信するためのトランスミッタの一例を示している。
トランスミッタは、複数の頭部バイノーラル伝達関数を生成するHRTFジェネレータ601を有し、これは、例えば、特定の例においては、HRTFsであるが、他の実施形態において、追加的に又は代わりに、例えば、HRIRs、BRIRs又はBRTFsであってもよい。実際に、以下において、HRTFという用語は、簡潔さのために、HRIRs、BRIRs又はBRTFsを含む、頭部バイノーラル伝達関数の任意の表現に言及する。
そして、HRTFsの各々は、データセットにより表され、データセットの各々は、1つのHRTFの1つの表現を与える。頭部バイノーラル伝達関数の特定の表現に関する詳細な情報は、例えば以下において見つけられ得る。
HRIR、BRIR、HRTF、BRTFsの概念を述べているAlgazi, V.R., Duda, R.O. (2011)「Headphone-Based Spatial Sound」IEEE Signal Processing Magazine, Vol: 28(1), 2011, Page: 33-42
(時間及び周波数についての)異なるバイノーラル伝達関数表現を述べているCheng, C., Wakefield, G.H.「Introduction to Head-Related Transfer Functions (HRTFs): Representations of HRTFs in Time, Frequency, and Space」Journal Audio Engineering Society, Vol: 49, No. 4, April 2001
(MPEGサラウンド/SAOCにおいて用いられる)HRTFデータのパラメトリック表現を参照するBreebaart, J., Nater, F., Kohlrausch, A. (2010)「Spectral and spatial parameter resolution requirements for parametric, filter-bank-based HRTF processing」J. Audio Eng. Soc., 58 No 3, p. 126-140
Jot反響部を述べているMenzer, F., Faller, C.「Binaural reverberation using a modified Jot reverberator with frequency-dependent interaural coherence matching」126th Audio Engineering Society Convention, Munich, Germany, May 7-10 2009
Jot反響部を作り出す異なるフィルタのフィルタ係数の直接的伝送は、Jot反響部のパラメータを記述するための1つの手段であってもよい。
例えば、1つのHRTFに関して、複数のバイノーラルレンダリングデータセットは、HRTFの1つの表現を有する各データセットにより生成される。例えば、1つのデータセットは、FIRフィルタのためのタップのセットによりHRTFを表してもよいのに対し、他のデータセットは、FIRフィルタのためのタップの他のセットにより(例えば異なる数の係数により、及び/又は、各係数のための異なる数のビットにより)HRTFを表してもよい。他のデータセットは、サブバンド(例えばFFT)周波数領域係数のセットによりバイノーラルフィルタを表してもよい。更に他のデータセットは、異なる周波数間隔のための係数、及び/又は、各係数のための異なる数のビットのような、サブバンド(FFT)領域係数の異なるセットによりHRTFを表してもよい。他のデータセットは、QMF周波数領域フィルタ係数のセットによりHRTFを表してもよい。更に他のデータセットは、HRTFのパラメトリック表現を与えてもよく、更に他のデータセットは、HRTFの異なるパラメトリック表現を与えてもよい。パラメトリック表現は、例えばBarkスケール又はERBスケールに応じたセット又は周波数帯のような、固定された又は一定ではない周波数間隔のための周波数領域係数のセットを与えてもよい。
故に、HRTFジェネレータ601は、各HRTFのための複数のデータセットを生成し、各データセットは、HRTFの表現を供給する。更に、HRTFジェネレータ601は、複数の位置のためのデータセットを生成する。例えば、HRTFジェネレータ601は、三次元又は二次元の位置のセットをカバーする複数のHRTFsのためのデータセットを生成してもよい。それ故、組み合わせられた位置は、仮想位置決めバイノーラルレンダリングアルゴリズムを用いてオーディオ信号を処理するためのオーディオプロセッサにより用いられ得るHRTFsのセットを供給してもよく、所与の位置のサウンドソースとして認識されるオーディオ信号をもたらす。所望の位置に基づいて、オーディオプロセッサは、適切なHRTFを抽出し、レンダリングプロセスにおいてこれを適用することができる(又は、例えば、2つのHRTFsを抽出し、抽出されたHRTFsの挿入により用いるためのHRTFを生成してもよい)。
HRTFジェネレータ601は、HRTFデータセットの各々のための表現指標を生成するように構成される指標プロセッサ603に結合される。表現指標の各々は、HRTFのどの表現が個々のデータセットにより用いられるかを示す。
各表現指標は、幾つかの実施形態において、例えば予め決められた構文に従って用いられる表現を規定する数ビットからなるように生成されてもよい。表現は、例えば、データセットがFIRフィルタのタップ、FFT領域フィルタのための係数、QMFフィルタのための係数、パラメトリック表現等によりHRTFを記述しているかどうかを規定する数ビットを含んでもよい。表現指標は、例えば、幾つかの実施形態において、どれくらいのデータ値が表現において用いられるか(例えば、どれくらいのタップ又は係数が、バイノーラルレンダリングフィルタを規定するために用いられるか)を規定する数ビットを含む。幾つかの実施形態では、表現指標は、各データ値(例えば、各フィルタ係数又はタップ)のために使用されるビットの数を規定する数ビットを含んでもよい。
HRTFジェネレータ601及び指標プロセッサ603は、表現指標及びデータセットを有するビットストリームを生成するように構成される出力プロセッサ605に結合される。
多くの実施形態において、出力プロセッサ605は、一連の表現指標及び一連のデータセットを有するビットストリームを生成するように構成される。他の実施形態において、表現指標及びデータセットは、インターリーブされてもよく、例えば、各データセットのデータは、そのデータセットのための表現指標の直後にある。これは、例えば、どの表現指標がどのデータセットに関連付けられているかを示すためにデータが必要でないという利点を与え得る。
当業者に知られているように、出力プロセッサ605は、他のデータ、ヘッダ、同期化データ、制御データ等を更に含んでもよい。
生成されたデータストリームは、例えば、メモリにおいて、又は、メモリースティック若しくはDVDのような格納媒体上に格納され得るデータファイルに含まれてもよい。図6の例において、出力プロセッサ605は、ビットストリームを適切な通信ネットワークを介して複数のレシーバに送信するように構成されるトランスミッタ607に結合される。具体的には、トランスミッタ607は、インターネットを用いてビットストリームをレシーバに送信してもよい。
故に、図6のトランスミッタは、特定の例においてHRTFデータセットである複数のバイノーラルレンダリングデータセットを有するビットストリームを生成する。各バイノーラルレンダリングデータセットは、少なくとも1つのバイノーラル仮想位置レンダリング処理のパラメータを表わすデータを有する。具体的には、これは、バイノーラル空間レンダリングのために用いられるべきフィルタを特定するデータを有してもよい。各バイノーラルレンダリングデータセットに関して、ビットストリームは、各バイノーラルレンダリングデータセットに関して当該バイノーラルレンダリングデータセットにより用いられる表現を示す表現指標を更に有する。
多くの実施形態において、ビットストリームは、例えばMPEGサラウンド、MPEG SAOC又は3DAAオーディオデータのような、レンダリングされるべきオーディオデータを含んでもよい。そして、このデータは、データセットからのバイノーラルデータを用いてレンダリングされ得る。
図7は、本発明の幾つかの実施形態による受信デバイスを示している。
受信デバイスは、先に述べたように、ビットストリームを受信するレシーバ701を有する。即ち、これは、とりわけ、図6の送信デバイスからビットストリームを受信し得る。
レシーバ701は、受信したバイノーラルレンダリングデータセット及び関連した表現指標が供給されるセレクタ703に結合される。セレクタ703は、本例において、受信デバイスのオーディオ処理機能の機能を記述するデータをセレクタ703に供給するように構成された機能プロセッサ705に結合される。セレクタ703は、機能プロセッサ705から受信された表現指標及び機能データに基づいてバイノーラルレンダリングデータセットのうち少なくとも1つを選択するように構成される。故に、少なくとも1つの選択されたバイノーラルレンダリングデータセットは、セレクタ703により決定される。
セレクタ703は、選択されたバイノーラルレンダリングデータを受信するオーディオプロセッサ707に更に結合される。オーディオプロセッサ707は、レシーバ701に更に結合されるオーディオデコーダ709に更に結合される。
ビットストリームがレンダリングされるべきオーディオのためのオーディオデータを有する例において、このオーディオデータは、オーディオオブジェクト及び/又はオーディオチャネルのような、個々のオーディオ成分を生成するためにデコードするよう進行するオーディオデコーダ709に供給される。これらのオーディオ成分は、オーディオ成分のための所望のサウンドソース位置と一緒にオーディオプロセッサ707に供給される。
オーディオプロセッサ707は、抽出されたバイノーラルデータに基づいて、とりわけ述べられた例においては、抽出されたHRTFデータに基づいて、1又はそれ以上のオーディオ信号/成分を処理するように構成される。
一例として、セレクタ703は、ビットストリームにおいて供給される各位置のための1つのHRTFデータセットを抽出してもよい。生ずるHRTFsは、ローカルメモリに格納されてもよい。即ち、1つのHRTFは、位置のセットの各々のために格納されてもよい。特定のオーディオ信号をレンダリングしたとき、オーディオプロセッサ707は、所望の位置と一緒にオーディオ検出器709から対応するオーディオデータを受信する。
そして、オーディオプロセッサ707は、格納されたHRTFsのいずれかに十分に密接にマッチするかどうかを確認するために位置を評価する。もしそうならば、バイノーラルオーディオ成分を生成するためにこのHRTFをオーディオ信号に適用する。格納されたHRTFsのいずれも十分に近い位置に関するものではない場合、オーディオプロセッサ707は、2つの最も近いHRTFsを抽出し、適切なHRTFを得るためにこれらの間に挿入するよう進行してもよい。本アプローチは、全てのオーディオ信号/成分に対して繰り返されてもよく、生ずるバイノーラル出力データは、バイノーラル出力信号を生成するために組み合わせられてもよい。そして、これらのバイノーラル出力信号は、例えばヘッドホンに供給されてもよい。
異なる機能が適切なデータセットを選択するために用いられてもよいことが理解されるだろう。例えば、機能は、計算リソース、メモリリソース、又は、レンダリングアルゴリズム要件若しくは制限のうち少なくとも1つのであってもよい。
例えば、幾つかのレンダリング装置は、多くの高複雑性動作を実行するのを可能にする重要な計算リソース機能を有してもよい。これは、バイノーラルレンダリングアルゴリズムが複雑なバイノーラルフィルタリングを用いるのを可能にし得る。具体的には、長いインパルス応答を有するフィルタ(例えば、多くのタップを有するFIRフィルタ)は、斯様なデバイスにより処理され得る。従って、斯様な受信デバイスは、多くのタップを有する、及び、各タップのための多くのビットを有する、FIRフィルタにより表されるHRTFを抽出してもよい。
しかしながら、他のレンダリング装置は、バイノーラルレンダリングアルゴリズムが複雑なフィルタ動作を用いるのを阻止する低い計算リソース機能を有してもよい。斯様なレンダリングに関して、セレクタ703は、数タップ及び粗い解像度(即ち、タップ当たりのより少ないビット)を有するFIRフィルタによりHRTFを表すデータセットを選択してもよい。
他の例として、幾つかのレンダリング装置は、大量のHRTFデータを格納するために充分なメモリを有してもよい。この場合、セレクタ703は、例えば多くの係数を有する、及び、係数当たりの多くのビットを有する、大きいHRTFデータセットを選択し得る。しかしながら、低いメモリリソースを有するレンダリング装置に関して、このデータは、格納され得ない。従って、セレクタ703は、大幅に少ない係数及び/又は係数当たりの少ないビットを有するもののような、非常に小さいHRTFデータセットを選択し得る。
幾つかの実施形態において、利用可能なバイノーラルレンダリングアルゴリズムの機能が考慮されてもよい。例えば、アルゴリズムは、典型的には、所与の手段において表されるHRTFsで用いられるように開発される。例えば、幾つかのバイノーラルレンダリングアルゴリズムは、QMFデータに基づくバイノーラルフィルタリングを用い、他のものは、インパルス応答データを用い、更に他のものは、FFTデータ等を用いる。セレクタ703は、使用されるべき個々のアルゴリズムの機能を考慮してもよく、とりわけ、特定のアルゴリズムにおいて用いられるものにマッチする手法でHRTFsを表すためにデータセットを選択してもよい。
実際に、幾つかの実施形態において、表現指標/データセットの少なくとも幾つかは、異なるバイノーラルオーディオ処理アルゴリズムに関連し、セレクタ703は、オーディオプロセッサ707により使用されるバイノーラル処理アルゴリズムに基づいてデータセットを選択してもよい。
例えば、バイノーラル処理アルゴリズムが周波数領域フィルタリングに基づく場合、セレクタ703は、対応する周波数領域においてHRTFを表すデータセットを選択してもよい。バイノーラル処理アルゴリズムがFIRフィルタによって処理されるオーディオ信号を巻き込むことを含む場合、セレクタ703は、適切なFIRフィルタ等を供給するデータセットを選択してもよい。
幾つかの実施形態において、適切なデータセットを選択するために使用される機能指標は、一定の、予め決められた又は静的な機能を示してもよい。代わりに、又は、追加的に、機能指標は、幾つかの実施形態において、動的な/変化する機能を示してもよい。
例えば、レンダリングアルゴリズムのために利用可能な計算リソースは動的に決定されてもよく、データセットは、現在利用可能なリソースを反映させるために選択されてもよい。故に、大量の利用可能な計算リソースがあるときに、より大きな、より複雑な、及び、より多くのリソースを要求するHRTFデータセットが選択されてもよく、これに対し、より少ない利用可能なリソースしかないときに、より小さな、あまり複雑でない、及び、より少ないリソースを要求するHRTFデータセットが選択されてもよい。斯様なシステムにおいて、バイノーラルレンダリングの質は、可能な場合はいつでも増大され得る一方で、計算リソースが他の(より重要な)関数のために必要とされるときに質と計算リソースとの間のトレードオフを可能にする。
セレクタ703による選択されたバイノーラルレンダリングデータセットの選択は、データそのものよりもむしろ表現指標に基づいている。これは、非常に単純で効果的な動作を可能にする。とりわけ、セレクタ703は、データセットのデータのいずれにもアクセスする必要がないか又はこれを取り出す必要がないが、表現指標を単純に抽出することができる。これらがデータセットより典型的に非常に小さく、典型的に非常に単純な構造及び構文を有するので、これは、選択プロセスを大幅に簡素化し、これによって、動作のための計算要求を低減させる。
本アプローチは、それ故、バイノーラルデータの極めてフレキシブルな分配を可能にする。具体的には、種々のレンダリングデバイス及びアルゴリズムをサポートし得るHRTFデータの単一のファイルが分配され得る。プロセスの最適化は、そのレンダリング装置の特定の状況を反映させるために、個々のレンダリング装置により局所的に実行され得る。故に、バイノーラル情報を分配するための向上したパフォーマンス及びフレキシビリティが実現される。
ビットストリームのための適切なデータ構文の具体例は、以下で提供される。この例では、フィールド"bsRepresentationID"がHRTFフォーマットの指標を与える。
ByteAlign() ByteAlign()が生じる構文上の要素の開始に関するバイト配列を実現するための最大7ビット
bsFileSignature "HRTF"を読み取る4つのASCII文字の列
bsFileVersion ファイルバージョン指標
bsNumCharName HRTF名におけるASCII文字の数
bsName HRTF名
bsNumFs HRTFがbsNumFs + 1個の異なるサンプルレートに対して送信されることを示す
bsSamplingFrequency ヘルツにおけるサンプル周波数
bsReserved リザーブされたビット
Positions HRTFデータにおいて送信された仮想スピーカのための位置情報を示す
bsNumRepresentations HRTFに対して送信された表現の数
bsRepresentationID 送信されるHRTF表現のタイプを識別する。各IDはHRTF当たり一度しか用いられない。例えば、以下の利用可能なIDが用いられ得る。
Figure 0006328662
この具体例において、以下のファイルフォーマット/構文がビットストリームのために用いられ得る。
Figure 0006328662
幾つかの実施形態では、バイノーラルレンダリングデータセットは、反響データを有してもよい。セレクタ703は、適宜、反響データセットを選択し、これを、この反響データに依存してオーディオ信号の反響に影響を与えるプロセスに適応させるよう進行し得るオーディオプロセッサ707に供給してもよい。
多くのバイノーラル伝達関数は、無反響部分及びこれに続く反響部分を双方含む。BRIRs又はBRTFsのような、部屋の特性を含む特定の関数は、(頭部サイズ、耳の形状等のような)被験者の人間測定基準属性(即ち、基本的なHRIR又はHRTF)及びこれに続く部屋を特徴付ける反響部分に依存する無反響部分から成る。
反響部分は、通常重複する2つの時間的領域を含む。第1の領域は、いわゆる初期反射を含み、これは、鼓膜(又は測定マイクロホン)に到達する前の部屋内の壁又は障害物でのサウンドソースの単離された反射である。時間遅延が増大するにつれて、固定された時間間隔内に存在する反射の数は増大し、この反射は、二次的反射等を更に含む。反響部分における第2の領域は、これらの反射がもはや分離されない部分である。この領域は、拡散又は後期反響最後部と呼ばれる。
反響部分は、ソースとレシーバ(即ち、BRIRsが測定された位置)との間の距離、並びに、部屋のサイズ及び音響特性に関する情報を聴覚システムに与えるキューを含む。無反響部分のものに関する反響部分のエネルギは、主として、サウンドソースの知覚された距離を決定する。(初期)反射の時間的密度は、部屋の知覚されたサイズに寄与する。T60により典型的に示されるように、反響時間は、反射がエネルギレベルについて60dB下がるのにかかる時間である。反響は、部屋の寸法及び部屋の境界の反射特性の組み合わせによりもたらされる。極めて反射する壁(例えば、バスルーム)は、サウンドの多くの吸収(例えば、家具、カーペット及びカーテンを有するベッド―ルーム)があるときにレベルが60dB低減される前により多くの反射を必要とするだろう。同様に、大きな部屋は反射の間のより長い進行経路を有し、それ故に、類似の反射特性を有するより小さなルームにおけるよりも、60dBのレベル削減が実現される前の時間を増大させる。
反響部分を含むBRIRの一例が図8に示される。
頭部バイノーラルの伝達関数は、多くの実施形態において、無反響部分及び反響部分の双方を反映させる。例えば、図8に示されるインパルス応答を反射するHRTFが供給されてもよい。故に、斯様な実施形態において、反響データは、HRTFの部分であり、反響処理は、HRTFフィルタリングの一体的な処理である。
しかしながら、他の実施例では、反響データは、無反響部分とは少なくとも部分的に別々に供給されてもよい。実際に、例えばBRIRsをレンダリングすることの計算的利点は、BRIRを無反響部分と反響部分とに分割することにより取得され得る。より短い無反響フィルタは、長いBRIRフィルタよりも大幅に低い計算負荷によってレンダリングされ、格納及び通信するための大幅に少ないリソースしか必要とない。斯様な実施形態において、長い残響フィルタは、合成反響部を用いてより効率的に実装され得る。
オーディオ信号の斯様な処理の一例が図9に示される。図9は、バイノーラル信号のうち一方の信号を生成するためのアプローチを示している。第2の処理は、第2のバイノーラル信号を生成するように並列に実行されてもよい。
図9のアプローチにおいて、レンダリングされるべきオーディオ信号は、典型的にBRIRの無反響及び初期反射部分(のうち幾つか)を反映させる短いHRTFフィルタを適用するHRTFフィルタ901に供給される。故に、このHRTFフィルタ901は、部屋によりもたらされる幾つかの初期反射も解剖学的特徴も反映させる。加えて、オーディオ信号は、オーディオ信号から反響信号を生成する反響部903に結合される。
そして、HRTFフィルタ901及び反響部903の出力は、出力信号を生成するために組み合わせられる。具体的には、出力は、組み合わせられた信号を生成するよう一緒に追加され、これは、それは、無反響及び初期反射の双方も反響特性も反映する。
反響部903は、とりわけ、Jot反響部のような合成反響部である。合成反響部は、典型的に、フィードバックネットワークを用いて初期反射及び高密度反響最後部をシミュレーションする。フィードバックループに含まれるフィルタは、音響時間(T60)及び着色を制御する。図10は、バイノーラル残響を表すために用い得るように1つの代わりに2つの信号を出力する、(3つのフィードバックループを有する)変更されたJot反響部の概略図の一例を示している。フィルタは、両耳間の相関(u(z)及びv(z))及び耳に依存する着色(h及びH)の制御を提供するために追加されている。
本例において、バイノーラルの処理は、それ故、並列に実行される2つの個々の及び分離したプロセスに基づいており、その後、2つのプロセスの出力は、バイノーラル信号に組み合わせられる。2つのプロセスは、別々のデータによりガイドされてもよい。即ち、HRTFフィルタ901は、HRTFフィルタデータにより制御されてもよく、反響部903は、反響データにより制御されてもよい。
幾つかの実施形態では、データセットは、HRTFフィルタデータ及び反響データを有してもよい。故に、選択されたデータセットに関して、HRTFフィルタデータは、HRTFフィルタ901をセットアップするために抽出及び使用されてもよく、反響データは、所望の反響を与えるために反響部903の処理を適応させるために抽出及び使用されてもよい。故に、本例において、反響処理は、反響信号を生成する処理を独立して適合することにより、選択されたデータセットの反響データに基づいて適合される。
幾つかの実施形態では、受信したデータセットは、HRTFフィルタリング及び反響処理のうちの一方のみのためのデータを有してもよい。例えば、幾つかの実施形態において、受信したデータセットは、初期反射の無反響部分も最初部分も規定するデータを有してもよい。しかしながら、一定の反響処理は、どのデータセットが選択されるかに依存することなく、及び、実際には典型的にどの位置がレンダリングされるべきかに依存することなく用いられてもよい(反響は、典型的には、部屋における多くの反射を反映するので、サウンドソース位置から独立している)。これは、より低い複雑性の処理及び動作をもたらし、とりわけ、バイノーラルの処理が例えば個々の聴取者に適合され得るがレンダリングが同じ部屋を反映することを意図される実施形態に適している。
他の実施形態において、データセットは、HRTFフィルタリングデータを伴うことなく反響データを含んでもよい。例えば、HRTFフィルタリングデータは、複数のデータセットのために、又は、全てのデータセットのために共通であってもよく、各データセットは、異なる部屋特性に対応する反響データを特定してもよい。実際に、斯様な実施形態において、HRTFフィルタリングされた信号は、選択されたデータセットのデータには依存しない。本アプローチは、とりわけ、処理が同じ(例えばわずかな)聴取者のためのものであるがデータは異なるルーム認識が供給されるのを可能にするアプリケーションに適している。
例において、セレクタ703は、表現指標により示される反響データの表現の指標に基づいて用いるデータセットを選択してもよい。故に、表現指標は、反響データがどのようにデータセットにより表されるかの指標を与えてもよい。幾つかの実施形態では、表現指標は、HRTFフィルタリングの指標を有する斯様な指標を含んでもよいのに対し、他の実施形態において、表現指標は、例えば反響データの指標だけを含んでもよい。
例えば、データセットは、合成反響部の異なるタイプに対応する表現を含んでもよく、及び、セレクタ703は、データセットがオーディオプロセッサ707により使用されるアルゴリズムにマッチする反響部のためのデータを有することを表現指標が示すデータセットを選択するように構成されてもよい。
幾つかの実施形態では、表現指標は、バイノーラルレンダリングデータセットの順序付けられたシーケンスを表す。例えば、(所与の位置のための)データセットは、複雑性及び/又は質の順に順序付けられたシーケンスに対応してもよい。故に、シーケンスは、データセットにより規定されるバイノーラルの処理の増大する(又は減少する)質を反映してもよい。指標プロセッサ603及び/又は出力プロセッサ605は、この順序を反映させるように表現指標を生成又は構成してもよい。
レシーバは、順序付けられたシーケンスがどのパラメータを反映しているかについて気づいてもよい。例えば、表現指標が増大する(又は減少する)質又は減少する(又は増大する)複雑性のシーケンスを示すことを気づいてもよい。そして、セレクタ703は、バイノーラルレンダリングのために用いるデータセットを選択するときにこの認識を用い得る。具体的には、セレクタ703は、順序付けられたシーケンスにおけるデータセットの位置に基づいてデータセットを選択してもよい。
多くのシナリオにおいて、斯様なアプローチは、より低い複雑性のアプローチを提供してもよく、とりわけ、オーディオ処理のために用いるデータセットの選択を促進してもよい。具体的には、セレクタ703が、(順序付けられるシーケンスにおけるデータセットを考慮することに対応する)所与の順序における表現指標を評価するように構成される場合には、多くの実施形態及びシナリオにおいて、適切なデータセットを選択するために全ての表現指標を処理する必要はない。
実際に、セレクタ703は、オーディオプロセッサが可能であるレンダリング処理を表現指標が示すシーケンスにおける第1の(最も早い)データセットのためのバイノーラルレンダリングデータセットとしてバイノーラルレンダリングデータセットを選択するように構成されてもよい。
具体例として、表現指標/データセットは、データセットのデータが表すレンダリング処理の質を減少させる順に順序付けられてもよい。この順序における表現指標を評価し、オーディオプロセッサ707が扱うことができる第1のデータセットを選択することにより、セレクタ703は、対応するデータセットがオーディオプロセッサ707による使用に適しているデータを有することを示す表現指標がもたらされるとすぐに選択プロセスを停止し得る。セレクタ703は、このデータセットが最高品質のレンダリングをもたらすことを知るので、任意の更なるパラメータを考慮することを必要としない。
同様に、複雑性の最小化が要求されるシステムにおいて、表現指標は、増大する複雑性の順に順序付けられてもよい。オーディオプロセッサ707の処理のための適切な表現を示す第1の表現指標のデータセットを選択することにより、セレクタ703は、最も低い複雑性のバイノーラルレンダリングが実現されることを保証し得る。
幾つかの実施形態において、順序は、増大する質/減少する複雑性の順であってもよいことが理解されるだろう。斯様な実施形態におい、セレクタ703は、例えば、先に述べたものと同じ結果を実現するために逆の順序で表現指標を処理してもよい。
故に、幾つかの実施形態において、順序は、バイノーラルレンダリングデータセットにより表されるバイノーラルレンダリングの質を減少させる順であってもよく、他のものにおいて、バイノーラルレンダリングデータセットにより表されるバイノーラルレンダリングの質を増大させる順であってもよい。同様に、幾つかの実施形態において、順序は、バイノーラルレンダリングデータセットにより表されるバイノーラルレンダリングの複雑性を減少させる順であってもよく、他の実施形態において、バイノーラルレンダリングデータセットにより表されるバイノーラルレンダリングの複雑性を増大させる順であってもよい。
幾つかの実施形態において、ビットストリームは、順序がどのパラメータに基づいてあるかについての指標を含んでもよい。例えば、順序が複雑性又は質に基づいているかどうかを示すフラグが含まれてもよい。
幾つかの実施形態において、順序は、例えば複雑性と質との間の折衷を表す値のような、パラメータの組み合わせに基づいてもよい。斯様な値を計算するための任意の適切なアプローチが用いられてもよいことが理解されるだろう。
異なる手段が異なる実施形態において質を表すために用いられてもよい。例えば、距離の尺度は、個々のデータセットのパラメータにより記述される正確に測定された頭部バイノーラル伝達関数と伝達関数との間の差(例えば、平均平方誤差)を示す各表現に対して計算されてもよい。斯様な差は、フィルタ係数の量子化の効果もインパルス応答の省略部分の効果も双方含んでもよい。時間及び/又は周波数領域における離散化の効果を反映してもよい(例えば、オーディオバンドを記述するために使用されるサンプルレート又は周波数バンドの数を反映してもよい)。幾つかの実施形態では、質の指標は、例えばFIRフィルタのインパルス応答の長さのような、単純なパラメータであってもよい。
同様に、異なる手段及びパラメータは、所与のデータセットと関連付けられるバイノーラルの処理の複雑性を表すために用いられてもよい。とりわけ、複雑性は、計算リソースの指標であってもよい。即ち、複雑性は、関連したバイノーラルの処理がどれぐらいの複雑さで実行されるかを反映してもよい。
多くのシナリオにおいて、パラメータは、典型的に、増大する質及び増大する複雑性を示してもよい。例えば、FIRフィルタの長さは、質が増大すること、及び、複雑性が増大することの双方を示してもよい。故に、多くの実施形態において、同じ順序は、複雑性及び質の双方を反映してもよく、セレクタ703は、選択するときにこれを用いてもよい。例えば、複雑性が所与のレベルより低い限り、最高品質のデータセットを選択してもよい。表現指標が質及び複雑性を減少させるという意味で構成されると仮定すると、これは、単純に、表現指標を処理し、所望のレベルより低い複雑性を表す(及び、オーディオプロセッサにより扱われ得る)第1の指標のデータセットを選択することにより実現されてもよい。
幾つかの実施形態では、表現指標及び関連したデータセットの順序は、ビットストリームにおける表現指標の位置により表されてもよい。例えば、減少する質を反映している順序に関して、(所与の位置のための)表現指標は、ビットストリームにおける第1の表現指標が関連したバイノーラルレンダリングの最高品質を伴うデータセットを表すものであるように単純に構成されてもよい。ビットストリームにおける次の表現指標は、関連したバイノーラルレンダリング等の次の最高品質を伴うデータセットを表すものである。斯様な実施形態において、セレクタ703は、受信したビットストリームを単純にスキャンしてもよく、各表現指標に関して、オーディオプロセッサ707が用いることができるデータセットを示すかどうかを決定してもよい。適切な指標に遭遇するまでこれを行うよう進行し得る。適切な指標では、ビットストリームの更なる表現指標が処理されるために又は実際にデコードされるために必要とされない。
幾つかの実施形態では、表現指標及び関連したデータセットの順序は、入力データに含まれる指標により表されてもよく、とりわけ、各表現指標のための指標は、表現指標自体に含まれてもよい。
例えば、各表現指標は、優先度を示すデータフィールドを含んでもよい。セレクタ703は、最初に、最高優先度の指標を含む全ての表現指標を評価し、有益なデータが関連したデータセットに含まれることを示すかどうかを決定してもよい。もしそうならば、これが選択される(1つを超えるものが識別された場合、第2の選択基準が適用されてもよく、又は、例えば、1つがまさにランダムに選択されてもよい)。いずれも見つけられない場合、次の最高優先度等を示す全ての表現指標を評価するよう進行してもよい。別の例として、各表現指標は、シーケンス位置番号を示してもよく、セレクタ703は、シーケンス順序を確立するために表現指標を処理してもよい。
斯様なアプローチは、セレクタ703による、より複雑な処理を必要としてもよいが、例えば複数の表現指標がシーケンスにおいて同程度に優先順位をつけられるのを可能にするような、より多くのフレキシビリティを与え得る。各表現指標がビットストリームにおいて自由に配置されるのを可能にしてもよく、とりわけ、各表現指標が関連したデータセットの次に含まれるのを可能にしてもよい。
本アプローチは、それ故、例えばビットストリームの生成を促進する増大されたフレキシビリティを提供し得る。例えば、ストリーム全体を再構成する必要なく追加のデータセット及び関連した表現指標を既存のビットストリームに単純に追加することが実質的に容易であってもよい。
上記の説明は、明瞭さのために、異なる機能的な回路、ユニット及びプロセッサを参照して本発明の実施形態について述べていることが理解されるだろう。しかしながら、異なる機能的な回路、ユニット又はプロセッサの間の機能の任意の適切な分配が本発明から逸脱することなく用いられてもよいことが明らかであるだろう。例えば、別々のプロセッサ又はコントローラにより実行されるように示された機能は、同じプロセッサ又はコントローラにより実行されてもよい。それ故、特定の機能ユニット又は回路への参照は、厳しい論理的又は物理的な構造又は組織を示すよりはむしろ、述べられた機能を与えるための適切な手段への参照としてのみ理解されるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組み合わせを含む任意の適切な形式において実装され得る。本発明は、オプションとして、1又はそれ以上のデータ処理装置及び/又はデジタル信号プロセッサ上で実行するコンピュータソフトウェアとして少なくとも部分的に実装されてもよい。本発明の一実施形態の要素及び成分は、任意の適切な手段において、物理的に、機能的に、及び、論理的に実装されてもよい。実際に、機能は、単一のユニットにおいて、複数のユニットにおいて、又は、他の機能ユニットの部分として、実装されてもよい。それ自体、本発明は、単一のユニットにおいて実装されてもよく、又は、異なるユニット、回路及びプロセッサの間で物理的及び機能的に分配されてもよい。
本発明が幾つかの実施形態に関して述べられたが、ここで記載される特定の形式に限定されることを意図するものではない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。加えて、特徴が特定の実施形態に関して述べられるように見え得るが、当業者は、述べられた実施形態の種々の特徴が本発明に従って組み合わせられ得ることを認めるだろう。請求項において、"有する"という用語は、他の要素又はステップの存在を除外するものではない。
更に、個別に記載されているが、複数の手段、要素、回路又は方法ステップは、例えば単一の回路、ユニット又はプロセッサにより実装されてもよい。加えて、個々の特徴が異なる請求項に含まれ得るが、これらは、場合により、有利に組み合わせられてもよく、異なる請求項における包含は、特徴の組み合わせが有利及び/又は実行可能なものではないことを意味するものではない。また、請求項の1つのカテゴリにおける特徴の包含は、このカテゴリに対する限定を意味するものではなく、むしろ、特徴が適切に他の請求項カテゴリに同程度に適用可能であることを示す。更に、請求項中のフィーチャの順序は、フィーチャが動作されなければならない任意の特定の順序を意味するものではなく、とりわけ、方法クレームにおける個々のステップの順序は、ステップがこの順序で実行されなければならないことを意味するものではない。むしろ、ステップは、任意の適切な順序で実行されてもよい。加えて、単数表記の参照は、複数を除外するものではない。それ故、単数表記、"第1"、"第2"等への参照は複数を排除するものではない。請求項中の参照符号は、単に明らかにする一例だけのものとして供給されるものであり、任意の手段において請求項の範囲を限定するものとして解釈されるべきではない。

Claims (16)

  1. オーディオ信号を処理するための装置であって、
    入力データを受信するための受信部であって、前記入力データは、複数のバイノーラルレンダリングデータセットを有し、各バイノーラルレンダリングデータセットは、仮想位置バイノーラルレンダリング処理のためのパラメータを表して、同じ元の頭部バイノーラル伝達関数のための異なる表現を提供する、データを有し、前記バイノーラルレンダリングデータセットの各々に関して、前記入力データは、前記バイノーラルレンダリングデータセットのための表現を示す表現指標を更に有する、受信部と、
    前記表現指標及び当該装置の機能に基づいて、選択されたバイノーラルレンダリングデータセットを選択するための選択部と、
    前記選択されたバイノーラルレンダリングデータセットのデータに基づいて前記オーディオ信号を処理するためのオーディオ処理部とを有する、装置。
  2. 前記バイノーラルレンダリングデータセットは、頭部バイノーラル伝達関数データを有する、請求項1に記載の装置。
  3. 前記バイノーラルレンダリングデータセットのうち少なくとも1つは、複数の位置のための頭部バイノーラル伝達関数データを有する、請求項2に記載の装置。
  4. 前記表現指標は、前記バイノーラルレンダリングデータセットの順序付けられたシーケンスを更に表し、前記順序付けられたシーケンスは、前記バイノーラルレンダリングデータセットにより表されるバイノーラルレンダリングのための質及び複雑性のうち少なくとも1つに関して順序付けられ、前記選択部は、前記順序付けられたシーケンスにおける前記選択されたバイノーラルレンダリングデータセットの位置に基づいて、前記選択されたバイノーラルレンダリングデータセットを選択するように構成される、請求項1に記載の装置。
  5. 前記選択部は、前記選択されたバイノーラルレンダリングデータセットを、オーディオプロセッサが可能であるレンダリング処理を示す前記順序付けられたシーケンスにおける前記選択された表現指標のためのバイノーラルレンダリングデータセットとして選択するように構成される、請求項4に記載の装置。
  6. 前記表現指標は、前記バイノーラルレンダリングデータセットにより表される頭部フィルタタイプの指標を有する、請求項1に記載の装置。
  7. 前記複数のバイノーラルレンダリングデータセットのうち少なくとも幾つかは、時間領域インパルス応答表現、周波数領域フィルタ伝達関数表現、パラメトリック表現及びサブバンド領域フィルタ表現のグループからの選択される表現により記述される少なくとも1つの頭部バイノーラル伝達関数を含む、請求項1に記載の装置。
  8. 前記バイノーラルレンダリングデータセットのための少なくとも幾つかの表現は、異なるバイノーラルオーディオ処理アルゴリズムに対応し、前記選択されたバイノーラルレンダリングデータセットの選択は、オーディオプロセッサにより使用されるバイノーラル処理アルゴリズムに依存する、請求項1に記載の装置。
  9. 少なくとも幾つかのバイノーラルレンダリングデータセットは、反響データを有し、オーディオプロセッサは、前記選択されたバイノーラルレンダリングデータセットの反響データに依存して反響処理を適応させるように構成される、請求項1に記載の装置。
  10. 前記オーディオプロセッサは、処理されたオーディオ信号を、少なくとも頭部バイノーラル伝達関数でフィルタリングされた信号と反響信号との組み合わせとして生成することを含むバイノーラルレンダリング処理を実行するように構成され、前記反響信号は、前記選択されたバイノーラルレンダリングデータセットのデータに依存する、請求項9に記載の装置。
  11. 前記選択部は、前記表現指標により示される反響データの表現の指標に基づいて、前記選択されたバイノーラルレンダリングデータセットを選択するように構成される、請求項9に記載の装置。
  12. ビットストリームを生成するための装置であって、
    複数のバイノーラルレンダリングデータセットを供給するためのバイノーラル回路であって、各バイノーラルレンダリングデータセットは、仮想位置バイノーラルレンダリング処理のためのパラメータを表して、同じ元の頭部バイノーラル伝達関数のための異なる表現を提供する、データを有する、バイノーラル回路と、
    前記バイノーラルレンダリングデータセットの各々に関して、前記バイノーラルレンダリングデータセットのための表現を示す表現指標を供給するための表現回路と、
    前記バイノーラルレンダリングデータセット及び前記表現指標を有するビットストリームを生成するための出力回路とを有する、装置。
  13. 前記出力回路は、前記バイノーラルレンダリングデータセットの前記パラメータにより表される仮想位置バイノーラルレンダリングの特性の尺度の順に前記表現指標を順序付けるように構成される、請求項12に記載の装置。
  14. オーディオを処理する方法であって、
    入力データを受信するステップであって、前記入力データは、複数のバイノーラルレンダリングデータセットを有し、各バイノーラルレンダリングデータセットは、仮想位置バイノーラルレンダリング処理のためのパラメータを表して、同じ元の頭部バイノーラル伝達関数のための異なる表現を提供する、データを有し、前記入力データは、前記バイノーラルレンダリングデータセットの各々に関して、前記バイノーラルレンダリングデータセットのための表現を示す表現指標を更に有する、ステップと、
    前記表現指標及び装置の機能に基づいて、選択されたバイノーラルのレンダリングデータセットを選択するステップと、
    前記選択されたバイノーラルレンダリングデータセットのデータに基づいてオーディオ信号を処理するステップとを有する、方法。
  15. ビットストリームを生成する方法であって、
    複数のバイノーラルレンダリングデータセットを供給するステップであって、各バイノーラルレンダリングデータセットは、仮想位置バイノーラルレンダリング処理のためのパラメータを表して、同じ元の頭部バイノーラル伝達関数のための異なる表現を提供する、データを有する、ステップと、
    前記バイノーラルレンダリングデータセットの各々に関して、前記バイノーラルレンダリングデータセットのための表現を示す表現指標を供給するステップと、
    前記バイノーラルレンダリングデータセット及び前記表現指標を有するビットストリームを生成するステップとを有する、方法。
  16. ビットストリームであって、
    複数のバイノーラルレンダリングデータセットを有し、各バイノーラルレンダリングデータセットは、少なくとも1つの仮想位置バイノーラルレンダリング処理のパラメータを表して、同じ元の頭部バイノーラル伝達関数のための異なる表現を提供し
    当該ビットストリームは、前記バイノーラルレンダリングデータセットの各々のための表現指標を有し、一のバイノーラルレンダリングデータセットのための表現指標は、該バイノーラルレンダリングデータセットにより用いられる表現を示す、ビットストリーム。
JP2015552151A 2013-01-15 2013-12-10 バイノーラルのオーディオ処理 Active JP6328662B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361752488P 2013-01-15 2013-01-15
US61/752,488 2013-01-15
PCT/IB2013/060760 WO2014111765A1 (en) 2013-01-15 2013-12-10 Binaural audio processing

Publications (2)

Publication Number Publication Date
JP2016507173A JP2016507173A (ja) 2016-03-07
JP6328662B2 true JP6328662B2 (ja) 2018-05-23

Family

ID=50000039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015552151A Active JP6328662B2 (ja) 2013-01-15 2013-12-10 バイノーラルのオーディオ処理

Country Status (9)

Country Link
US (4) US9860663B2 (ja)
EP (1) EP2946571B1 (ja)
JP (1) JP6328662B2 (ja)
CN (1) CN104904239B (ja)
BR (1) BR112015016593B1 (ja)
MX (1) MX347551B (ja)
RU (1) RU2660611C2 (ja)
TR (1) TR201808415T4 (ja)
WO (1) WO2014111765A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
JP6515087B2 (ja) * 2013-05-16 2019-05-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ処理装置及び方法
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
US9769589B2 (en) * 2013-09-27 2017-09-19 Sony Interactive Entertainment Inc. Method of improving externalization of virtual surround sound
US9832585B2 (en) * 2014-03-19 2017-11-28 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
JP6439296B2 (ja) * 2014-03-24 2018-12-19 ソニー株式会社 復号装置および方法、並びにプログラム
EP3128766A4 (en) 2014-04-02 2018-01-03 Wilus Institute of Standards and Technology Inc. Audio signal processing method and device
US10349197B2 (en) 2014-08-13 2019-07-09 Samsung Electronics Co., Ltd. Method and device for generating and playing back audio signal
KR101627247B1 (ko) * 2014-12-30 2016-06-03 가우디오디오랩 주식회사 추가 자극을 생성하는 바이노럴 오디오 신호 처리 방법 및 장치
US10149082B2 (en) 2015-02-12 2018-12-04 Dolby Laboratories Licensing Corporation Reverberation generation for headphone virtualization
TWI607655B (zh) * 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
GB2540199A (en) 2015-07-09 2017-01-11 Nokia Technologies Oy An apparatus, method and computer program for providing sound reproduction
EA034936B1 (ru) 2015-08-25 2020-04-08 Долби Интернешнл Аб Кодирование и декодирование звука с использованием параметров преобразования представления
SG10201800147XA (en) * 2018-01-05 2019-08-27 Creative Tech Ltd A system and a processing method for customizing audio experience
US10142755B2 (en) * 2016-02-18 2018-11-27 Google Llc Signal processing methods and systems for rendering audio on virtual loudspeaker arrays
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
GB2563635A (en) 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
US10880649B2 (en) 2017-09-29 2020-12-29 Apple Inc. System to move sound into and out of a listener's head using a virtual acoustic system
WO2019089322A1 (en) 2017-10-30 2019-05-09 Dolby Laboratories Licensing Corporation Virtual rendering of object based audio over an arbitrary set of loudspeakers
EP3595337A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of audio processing
US11272310B2 (en) 2018-08-29 2022-03-08 Dolby Laboratories Licensing Corporation Scalable binaural audio stream generation
GB2588171A (en) * 2019-10-11 2021-04-21 Nokia Technologies Oy Spatial audio representation and rendering

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1127800A (ja) * 1997-07-03 1999-01-29 Fujitsu Ltd 立体音響処理システム
CN1647044A (zh) 2002-06-20 2005-07-27 松下电器产业株式会社 多任务控制设备和音乐数据再现设备
JP2004078889A (ja) * 2002-06-20 2004-03-11 Matsushita Electric Ind Co Ltd マルチタスク制御装置および音楽データ再生装置
DE102005010057A1 (de) 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
RU2419249C2 (ru) 2005-09-13 2011-05-20 Кониклейке Филипс Электроникс Н.В. Аудиокодирование
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
EP1984913A4 (en) * 2006-02-07 2011-01-12 Lg Electronics Inc DEVICE AND METHOD FOR CODING / DECODING A SIGNAL
US20090177479A1 (en) * 2006-02-09 2009-07-09 Lg Electronics Inc. Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof
CA2646278A1 (en) * 2006-02-09 2007-08-16 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
KR101358700B1 (ko) * 2006-02-21 2014-02-07 코닌클리케 필립스 엔.브이. 오디오 인코딩 및 디코딩
CA2874451C (en) 2006-10-16 2016-09-06 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
CN101690269A (zh) * 2007-06-26 2010-03-31 皇家飞利浦电子股份有限公司 双耳的面向对象的音频解码器
ES2461601T3 (es) * 2007-10-09 2014-05-20 Koninklijke Philips N.V. Procedimiento y aparato para generar una señal de audio binaural
US8639368B2 (en) 2008-07-15 2014-01-28 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks

Also Published As

Publication number Publication date
US20180124538A1 (en) 2018-05-03
EP2946571A1 (en) 2015-11-25
TR201808415T4 (tr) 2018-07-23
BR112015016593A2 (pt) 2017-07-11
EP2946571B1 (en) 2018-04-11
US20180124537A1 (en) 2018-05-03
WO2014111765A1 (en) 2014-07-24
RU2015134363A (ru) 2017-02-22
BR112015016593B1 (pt) 2021-10-05
US10334380B2 (en) 2019-06-25
MX2015008956A (es) 2015-09-28
RU2660611C2 (ru) 2018-07-06
US20150358754A1 (en) 2015-12-10
US9860663B2 (en) 2018-01-02
US10334379B2 (en) 2019-06-25
MX347551B (es) 2017-05-02
CN104904239B (zh) 2018-06-01
US10506358B2 (en) 2019-12-10
US20180124539A1 (en) 2018-05-03
CN104904239A (zh) 2015-09-09
JP2016507173A (ja) 2016-03-07

Similar Documents

Publication Publication Date Title
JP6328662B2 (ja) バイノーラルのオーディオ処理
JP6433918B2 (ja) バイノーラルのオーディオ処理
RU2643644C2 (ru) Кодирование и декодирование аудиосигналов
KR101111521B1 (ko) 오디오 처리 방법 및 장치
US8284946B2 (en) Binaural decoder to output spatial stereo sound and a decoding method thereof
KR102517867B1 (ko) 오디오 디코더 및 디코딩 방법
KR102551796B1 (ko) 프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩 및 디코딩
WO2014087277A1 (en) Generating drive signals for audio transducers
US20150340043A1 (en) Multichannel encoder and decoder with efficient transmission of position information
EA042232B1 (ru) Кодирование и декодирование звука с использованием параметров преобразования представления

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161206

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170810

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180320

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180418

R150 Certificate of patent or registration of utility model

Ref document number: 6328662

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250