JP6330034B2 - 適応的なオーディオ・コンテンツの生成 - Google Patents

適応的なオーディオ・コンテンツの生成 Download PDF

Info

Publication number
JP6330034B2
JP6330034B2 JP2016521520A JP2016521520A JP6330034B2 JP 6330034 B2 JP6330034 B2 JP 6330034B2 JP 2016521520 A JP2016521520 A JP 2016521520A JP 2016521520 A JP2016521520 A JP 2016521520A JP 6330034 B2 JP6330034 B2 JP 6330034B2
Authority
JP
Japan
Prior art keywords
audio
audio content
channel
signal
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016521520A
Other languages
English (en)
Other versions
JP2016526828A5 (ja
JP2016526828A (ja
Inventor
ワン,ジュン
ルー,リエ
フー,ミンチン
ジェロエン ブリーバート,ディアーク
ジェロエン ブリーバート,ディアーク
エール. トウィンゴ,ニコラ
エール. トウィンゴ,ニコラ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2016526828A publication Critical patent/JP2016526828A/ja
Publication of JP2016526828A5 publication Critical patent/JP2016526828A5/ja
Application granted granted Critical
Publication of JP6330034B2 publication Critical patent/JP6330034B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround

Description

関連出願への相互参照
本願は2013年6月18日に出願された中国特許出願第201310246711.2号および2013年7月8日に出願された米国仮特許出願第61/843,643号の優先権の利益を主張するものである。両出願の内容はここに参照によってその全体において組み込まれる。
技術
本発明は概括的にはオーディオ信号処理に、より具体的には、適応的なオーディオ・コンテンツの生成に関する。
現在のところ、オーディオ・コンテンツは一般に、チャネル・ベースのフォーマットで生成され、記憶されている。たとえば、ステレオ、サラウンド5.1および7,1がオーディオ・コンテンツのためのチャネル・ベースのフォーマットである。マルチメディア業界における発達とともに、三次元(3D)映画、テレビジョン・コンテンツおよび他のデジタル・マルチメディア・コンテンツがますます一般的になってきている。しかしながら、伝統的なチャネル・ベースのオーディオ・フォーマットはしばしば、そのような進展に追随すべく没入的で迫真的なオーディオ・コンテンツを生成することができない。よって、マルチチャネル・オーディオ・システムを拡張してより没入的な音場を生成することが望まれる。この目的を達成するための重要なアプローチの一つは、適応的なオーディオ・コンテンツである。
通常のチャネル・ベースのフォーマットに比べ、適応的なオーディオ・コンテンツはオーディオ・チャネルおよびオーディオ・オブジェクトの両方の利点を活用する。本稿で使われるところの用語「オーディオ・オブジェクト」は、ある定義された継続時間にわたって存在するさまざまなオーディオ要素または音源をいう。オーディオ・オブジェクトは動的または静的でありうる。オーディオ・オブジェクトは人間、動物または音場における音源のはたらきをする他の任意のオブジェクトでありうる。任意的に、オーディオ・オブジェクトは、オブジェクトの位置、速度およびサイズを記述する情報のような関連するメタデータを有していてもよい。オーディオ・オブジェクトの使用は、サウンドミキサーのようなオペレーターが便利な仕方でオーディオ・オブジェクトを制御および調整することを許容しつつ、適応的なオーディオ・コンテンツが高い没入感および良好な音響効果をもつことを可能にする。さらに、オーディオ・オブジェクトにより、特定の再生スピーカー構成に関わりなく、離散的な音要素が正確に制御されることができる。一方、適応的なオーディオ・コンテンツはさらに、「オーディオ・ベッド」と呼ばれるチャネル・ベースの部分および/または他の任意のオーディオ要素を含んでいてもよい。本稿での用法では、用語「オーディオ・ベッド」または「ベッド」は、あらかじめ定義された、固定位置において再生されることが意図されているオーディオ・チャネルをいう。オーディオ・ベッドは、静的なオーディオ・オブジェクトと考えられてもよく、関連するメタデータも有していてもよい。このようにして、適応的なオーディオ・コンテンツは、たとえば複雑なオーディオ・テクスチャーを表現するために、チャネル・ベースのフォーマットを活用してもよい。
適応的なオーディオ・コンテンツは、チャネル・ベースのオーディオ・コンテンツとは全く異なる仕方で生成される。適応的なオーディオ・コンテンツを得るためには、オーディオ信号を生成および処理するためにいちばん最初から専用の処理フローが用いられる必要がある。しかしながら、物理的な装置および/または技術的な条件の点での制約のため、すべてのオーディオ・コンテンツ・プロバイダーがそのような適応的なオーディオ・コンテンツを生成できるのではない。多くのオーディオ・コンテンツ・プロバイダーは、チャネル・ベースのオーディオ・コンテンツを生成し、提供できるのみである。さらに、すでに生成され、公開されているチャネル・ベースのオーディオ・コンテンツについて三次元(3D)経験を作り出すことが望ましい。しかしながら、大量のチャネル・ベースの通常のオーディオ・コンテンツを変換することによって適応的なオーディオ・コンテンツを生成することができる解決策はない。
上記に鑑み、当技術分野では、チャネル・ベースのオーディオ・コンテンツを適応的なオーディオ・コンテンツに変換するための解決策が必要とされている。
上記および他の潜在的な問題に対処するために、本発明は、適応的なオーディオ・コンテンツを生成するための方法およびシステムを提案する。
ある側面では、本発明の実施形態は、適応的なオーディオ・コンテンツを生成する方法を提供する。本方法は、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出する段階と;少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて適応的なオーディオ・コンテンツを生成する段階とを含む。これに関する実施形態はさらに、対応するコンピュータ・プログラム・プロダクトを有する。
もう一つの側面では、本発明の実施形態は、適応的なオーディオ・コンテンツを生成するシステムを提供する。本システムは、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されたオーディオ・オブジェクト抽出器と;少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて適応的なオーディオ・コンテンツを生成するよう構成された適応オーディオ生成器とを有する。
以下の記述を通じて、本発明の実施形態によれば、高い忠実度を保証しつつ、通常のチャネル・ベースのオーディオ・コンテンツが効果的に適応的なオーディオ・コンテンツに変換されうることが理解されるであろう。特に、鮮鋭で動的な音を表現するために、一つまたは複数のオーディオ・オブジェクトが源オーディオ・コンテンツから正確に抽出されることができ、それにより個々の一次音源オブジェクトの制御、編集、再生および/または再オーサリングが許容される。一方、複雑なオーディオ・テクスチャーは、効率的なオーサリングおよび頒布をサポートするようチャネル・ベースのフォーマットであってもよい。本発明の実施形態によって達成される他の利点は、以下の記述を通じて明白となるであろう。
付属の図面を参照して以下の詳細な説明を読むことを通じて、本発明の実施形態の上記および他の目的、特徴および利点がより把握しやすくなる。図面においては、本発明のいくつかの実施形態が例において、限定しない仕方で示される。
本発明のある例示的実施形態に基づく適応的なオーディオ・コンテンツの図である。 本発明のある例示的実施形態に基づく適応的なオーディオ・コンテンツを生成する方法のフローチャートである。 本発明の別の例示的実施形態に基づく適応的なオーディオ・コンテンツを生成する方法のフローチャートである。 本発明のある例示的実施形態に基づくオーディオ・ベッドの生成の図である。 AおよびBは、本発明の例示的実施形態に基づく、重なり合ったオーディオ・オブジェクトの図である。 本発明のある例示的実施形態に基づくメタデータ編集の図である。 本発明のある例示的実施形態に基づく適応的なオーディオ・コンテンツを生成するシステムのフローチャートである。 本発明の実施形態を実装するのに好適な例示的なコンピュータ・システムのブロック図である。 諸図面を通じて、同じまたは対応する参照符号は同じまたは対応する部分を示す。
本発明の原理および精神についてここで図面に示されるさまざまな例示的実施形態を参照して述べる。これらの実施形態の描画は、当業者が本発明をよりよく理解し、さらに実装することを可能にするためだけのものであって、いかなる仕方であれ本発明の範囲を限定することは意図されていないことは理解しておくべきである。
まず図1を参照する。図1では、本発明のある実施形態に基づく適応的なオーディオ・コンテンツの図が示されている。本発明の実施形態によれば、処理されるべき源オーディオ・コンテンツ101は、ステレオ、サラウンド5.1、サラウンド7.1などといったチャネル・ベースのフォーマットである。具体的には、本発明の実施形態によれば、源オーディオ・コンテンツ101は、任意の型の最終ミックス、あるいは伝統的なステレオまたはマルチチャネル・コンテンツの最終ミックスに組み合わされる前に別個に処理されることのできるオーディオ・トラックの諸グループであってもよい。源オーディオ・コンテンツ101は処理されて二つの部分、すなわちチャネル・ベースのオーディオ・ベッド102およびオーディオ・オブジェクト103、104を生成する。オーディオ・ベッド102は諸チャネルを使って、効率的なオーサリングおよび頒布のために音場における背景または周囲音のような比較的複雑なオーディオ・テクスチャーを表現してもよい。オーディオ・オブジェクトは、鮮鋭なおよび/または動的な音のための源のような音場における一次音源であってもよい。図1に示した例では、オーディオ・オブジェクトは鳥103およびカエル104を含む。適応的なオーディオ・コンテンツ105は、オーディオ・ベッド102およびオーディオ・オブジェクト103、104に基づいて生成されうる。
本発明の実施形態によれば、適応的なオーディオ・コンテンツは必ずしもオーディオ・オブジェクトおよびオーディオ・ベッドから構成されるのではないことを注意しておくべきである。むしろ、いくつかの適応的なオーディオ・コンテンツは、オーディオ・オブジェクトおよびオーディオ・ベッドのうちの一方のみを含むことがありうる。あるいはまた、適応的なオーディオ・コンテンツは、オーディオ・オブジェクトおよび/またはベッド以外の任意の好適なフォーマットの追加的なオーディオ要素を含んでいてもよい。たとえば、いくつかの適応的なオーディオ・コンテンツは、オーディオ・ベッドおよびいくつかのオブジェクト様コンテンツ、たとえばスペクトルにおける部分オブジェクト(a partial object in spectral)から構成されていてもよい。本発明の範囲はこの点に関して限定されない。
図2を参照するに、本発明の例示的実施形態に基づく適応的なオーディオ・コンテンツを生成する方法200のフローチャートが示されている。方法200の開始後、ステップS201において、少なくとも一つのオーディオ・オブジェクトがチャネル・ベースのオーディオ・コンテンツから抽出される。議論のために、入力のチャネル・ベースのオーディオ・コンテンツは「源オーディオ・コンテンツ」と称される。本発明の実施形態によれば、源オーディオ・コンテンツのオーディオ信号を直接処理することによってオーディオ・オブジェクトを抽出することが可能である。あるいはまた、たとえば源オーディオ・コンテンツの空間的忠実度をよりよく保存するために、信号分解のような前処理が、源オーディオ・コンテンツの信号に対して実行されてもよく、前処理されたオーディオ信号からオーディオ・オブジェクトが抽出されうる。これに関する実施形態を下記で詳述する。
本発明の実施形態によれば、オーディオ・オブジェクトを抽出するために任意の適切なアプローチが使用されうる。一般に、オーディオ・コンテンツにおける同じオブジェクトに属する信号成分が、スペクトル連続性および空間的一貫性に基づいて判別されうる。諸実装では、源オーディオ・コンテンツを処理することによって一つまたは複数の信号特徴または手がかりが得られ、それにより源オーディオ・コンテンツのサブバンド、チャネルまたはフレームが同じオーディオ・オブジェクトに属するかどうかを測ってもよい。そのようなオーディオ信号特徴の例は、音方向/位置、拡散性、直接音対残響比(DRR: direct-to-reverberation ratio)、オン/オフセット同期、調波性(harmonicity)、ピッチおよびピッチ揺動、顕著性(saliency)/部分ラウドネス/エネルギー、反復性などを含みうるがこれに限られなくてもよい。他の任意の適切なオーディオ信号特徴が、本発明の実施形態との関連で使用されうる。本発明の範囲はこれに関して限定されない。オーディオ・オブジェクト抽出の具体的な実施形態は下記で詳述する。
ステップS201において抽出されたオーディオ・オブジェクトはいかなる好適な形であってもよい。たとえば、いくつかの実施形態では、オーディオ・オブジェクトは、同様のオーディオ信号特徴をもつ信号成分を含むマルチチャネル音トラックとして生成されうる。あるいはまた、オーディオ・オブジェクトは、ダウンミックスされたモノ音トラックとして生成されてもよい。これらは単にいくつかの例であり、抽出されるオーディオ・オブジェクトはいかなる適切な形で表現されてもよいことを注意しておく。本発明の範囲はこれに関して限定されない。
方法200は、次いでステップS202に進む。ここで、少なくとも部分的にはステップS201において抽出された前記少なくとも一つのオーディオ・オブジェクトに基づいて、適応オーディオ・コンテンツが生成される。いくつかの実施形態によれば、オーディオ・オブジェクトおよび可能性としては他のオーディオ要素は、結果として得られる適応オーディオ・コンテンツとしての単一ファイルにパッケージングされてもよい。そのような追加的なオーディオ要素は、チャネル・ベースのオーディオ・ベッドおよび/または他の任意のフォーマットのオーディオ・コンテンツを含むがそれに限られなくてもよい。あるいはまた、オーディオ・オブジェクトおよび追加的なオーディオ要素は別個に頒布されて、次いで再生システムによって組み合わされて再生スピーカー構成に基づくオーディオ・コンテンツを適応的に再構成してもよい。
具体的には、いくつかの実施形態によれば、適応的なオーディオ・コンテンツを生成する際、オーディオ・オブジェクトおよび/または他のオーディオ要素(もしあれば)に対して再オーサリング・プロセスを実行することが可能である。再オーサリング・プロセスはたとえば、重なり合ったオーディオ・オブジェクトを分離すること、オーディオ・オブジェクトを操作すること、オーディオ・オブジェクトの属性を修正すること、適応的なオーディオ・コンテンツの利得を制御することなどを含みうる。これに関する実施形態は下記で詳述する。
方法200は、この特定の例ではステップS202の後に終了する。方法200を実行することにより、チャネル・ベースのオーディオ・コンテンツは、鮮鋭かつ動的な音がオーディオ・オブジェクトによって表現されうる一方、背景音のような複雑なオーディオ・テクスチャーは他のフォーマットによって表現されうる、たとえばオーディオ・ベッドとして表現されうる適応的なオーディオ・コンテンツに変換されうる。生成された適応的なオーディオ・コンテンツは、効率的に頒布され、さまざまな種類の再生システム構成によって高い忠実度をもって再生されうる。このようにして、オブジェクト・ベースのフォーマットおよびチャネル・ベースのフォーマットのような他のフォーマットを活用することが可能である。
ここで図3を参照する。図3は、本発明のある例示的実施形態に基づく、適応的なオーディオ・コンテンツを生成する方法300のフローチャートを示している。方法300は、図2を参照して上記した方法200の具体的な実施形態であると考えられてもよいことは理解されるはずである。
方法300の開始後、ステップS301において、チャネル・ベースの源オーディオ・コンテンツに対して、指向性オーディオ信号および拡散性オーディオ信号の分解が実行され、源オーディオ・コンテンツが指向性オーディオ信号および拡散性オーディオ信号に分解される。信号分解により、オーディオ・オブジェクトのその後の抽出およびオーディオ・ベッドの生成はより正確かつ効果的となりうる。特に、結果として得られる指向性オーディオ信号はオーディオ・オブジェクトを抽出するために使用されてもよく、一方、拡散性のオーディオ信号はオーディオ・ベッドを生成するために使用されてもよい。このようにして、源オーディオ・コンテンツの、より高い忠実度を保証しつつ、良好な没入感が達成できる。さらに、これは柔軟なオブジェクト抽出および正確なメタデータ推定を実装する助けとなる。これに関する実施形態は下記で詳述する。
指向性オーディオ信号は、比較的簡単に局在化可能であり、チャネル間でパンされる一次音である。拡散性信号は、指向性源と、および/または諸チャネルを横断して、弱く相関した周囲信号である。本発明の実施形態によれば、ステップS301において、源オーディオ・コンテンツにおける指向性オーディオ信号が任意の好適な手法によって抽出されてもよく、残りの信号が拡散性オーディオ信号となる。指向性オーディオ信号を抽出するための手法は、主成分解析(PCA)、独立成分解析、Bフォーマット解析などを含むがそれに限られなくてもよい。PCAベースの手法を例として考えると、これは、固有値の対に基づいて確率解析を実行することによって任意のチャネル構成に対して動作できる。たとえば、左(L)、右(R)、中央(C)、左サラウンド(Ls)および右サラウンド(Rs)チャネルを含む五つのチャネルをもつ源オーディオ・コンテンツについて、PCAは、チャネルのいくつかの対(たとえば10個の対)に対してそれぞれ適用されてもよく、各チャネルはそれぞれのステレオ指向性信号および拡散性信号出力をもつ。
伝統的に、PCAベースの分離は通例、二チャネルの対に適用される。本発明の実施形態によれば、PCAは、源オーディオ・コンテンツのより効果的な信号成分分解を達成するためにマルチチャネル・オーディオ信号に拡張されてもよい。特に、C個のチャネルを含む源オーディオ・コンテンツについて、D個の指向性源がC個のチャネルにわたって分配されると想定され、それぞれが一つのチャネルによって表わされるC個の拡散性オーディオ信号が、指向性源と、および/またはC個のチャネルを横断して、弱く相関しているとする。本発明の実施形態によれば、各チャネルのモデルは、空間的な知覚される位置に従って重み付けされる周囲信号および指向性オーディオ信号の和として定義されうる。時間領域のマルチチャネル信号XC=(x1,…,xc)T
Figure 0006330034
と表現されてもよい。ここで、c∈[1,…,C]であり、gc,d(t)はc番目のチャネルの指向性源〔ベクトル〕SD=(S1,…,SD)Tに適用されるパン利得を表わす。拡散性オーディオ信号〔ベクトル〕AC=(A1,…,AC)Tはすべてのチャネルにわたって分配される。
上記のモデルに基づいて、PCAは、周波数サブバンド毎に短時間フーリエ変換(STFT)信号に対して適用されてもよい。STFT信号の絶対値はXb,t,cと記される。ここで、b∈[1,…,B]はSTFT周波数ビン・インデックスを表わし、t∈[1,…,T]はSTFTフレーム・インデックスを表わし、c∈[1,…,C]はチャネル・インデックスを表わす。
各周波数帯域b∈[1,…,B]について(議論のため、以下の記号についてはbは省略する)、源オーディオ・コンテンツに関する共分散行列はたとえば、チャネル間の相関を計算することによって計算されてもよい。結果として得られるC×C共分散行列は適切な時定数をもって平滑化されうる。固有ベクトル分解が実行されて、固有値λ1>λ2>λ3>…>λCおよび固有ベクトルv1,v2,…vCが得られる。次に、各チャネルc=1,…,Cについて、固有値λc,λc+1の対が比較され、zスコアが計算される。
z=abs(λc−λc+1)/(λc+λc+1)
ここで、absは絶対値関数を表わす。次いで、分解された信号成分を解析することによって、拡散性(diffusivity)または周囲性(ambiance)の確率が計算されてもよい。具体的には、より大きなzは、拡散性についてのより小さな確率を示す。zスコアに基づいて、拡散性についての確率は、正規化された累積分布関数(cdf)/相補誤差関数(erfc)に基づくヒューリスティックな仕方で計算されうる。
p=erfc(−z/√2)
一方、チャネルcについての拡散性についての確率は次のように更新される:
pc=max(pc,p)
pc+1=max(pc+1,pc)
最終的な拡散性オーディオ信号をAc、最終的な指向性オーディオ信号をScと表わす。こうして、各チャネルcについて、
Ac=Xc・pc
Sc=Xc・(1−pc)
となる。
上記は単に例であり、本発明の範囲に対する限定と解釈されるべきではないことを注意しておくべきである。たとえば、上記の信号の共分散または相関行列の固有値の比較に基づく他の任意のプロセスまたはメトリックが、上記の信号の拡散性の量または拡散性成分を推定するために使用されうる。たとえば、比、差、商などによる。さらに、いくつかの実施形態では、源オーディオ・コンテンツの信号はフィルタ処理されてもよく、次いで、フィルタ処理された信号に基づいて共分散が推定される。例として、信号は直交ミラー・フィルタによってフィルタ処理されてもよい。代替的または追加的に、信号は他の任意のフィルタ処理手段によってフィルタ処理または帯域制限されてもよい。いくつかの他の実施形態では、源オーディオ・コンテンツの信号の包絡がが、共分散または相関行列を計算するために使われてもよい。
図3の参照を続けると、方法300は次いでステップS302に進み、ここでステップS301において得られた指向性オーディオ信号から少なくとも一つのオーディオ・オブジェクトが抽出される。源オーディオ・コンテンツからオーディオ・オブジェクトを直接抽出することに比べて、指向性オーディオ信号からオーディオ・オブジェクトを抽出することは、拡散性オーディオ信号成分による干渉を除去することができ、よってオーディオ・オブジェクト抽出およびメタデータ推定はより正確に実行できる。さらに、さらなる指向性および拡散性信号分解を適用することによって、抽出されたオブジェクトの拡散性が調整されてもよい。また、適応的なオーディオ・コンテンツの再オーサリング・プロセスを容易にする助けともなる。これについては後述する。本発明の範囲は指向性オーディオ信号からオーディオ・オブジェクトを抽出することに制限されないことを理解しておくべきである。本稿に記載されたさまざまな動作および特徴は、源オーディオ・コンテンツのもとの信号にも該もとのオーディオ信号から分解された任意の他の信号成分にも適用可能である。
本発明の実施形態によれば、ステップS302におけるオーディオ・オブジェクト抽出は空間的な源分離プロセスによってなされてもよい。かかるプロセスは二段階で実行されうる。まず、源オーディオ・コンテンツの複数のまたは全部のフレームのそれぞれに対してスペクトル合成(spectrum composition)が実施されてもよい。スペクトル合成は、オーディオ・オブジェクトが二つ以上のチャネルに存在していれば、これらのチャネルにおけるそのスペクトルは、包絡およびスペクトル形状の点で高度な類似性をもつ傾向があるという想定に基づく。したがって、周波数範囲全体が複数のサブバンドに分割されてもよく、次いでこれらのサブバンドの間の類似性が測定される。本発明の実施形態によれば、比較的短かめの継続時間(たとえば80ms未満)をもつオーディオ・コンテンツについて、サブバンド間のスペクトルの類似性を比較することが可能である。より長い継続時間をもつオーディオ・コンテンツについては、サブバンド包絡コヒーレンスが比較されてもよい。他の任意の好適なサブバンド類似性メトリックも可能である。次いで、同じオーディオ・オブジェクトからのサブバンドおよびチャネルを総合するために、さまざまなクラスタリング技法が適用されてもよい。たとえば、ある実施形態では、階層的なクラスタリング技法が適用されてもよい。そのような技法は、最低の類似性スコアの閾値を設定し、次いで該閾値との比較に基づいて、類似したチャネルと、クラスターの数とを自動的に識別する。よって、各フレームにおいて、同じオブジェクトを含む諸チャネルが識別され、総合されることができる。
次に、単一フレーム・オブジェクト・スペクトル合成において識別され、総合されたのと同じオブジェクトを含む諸チャネルについて、複数のフレームを横断して時間的合成が実行されて、時間に沿った完全なオーディオ・オブジェクトを合成してもよい。本発明の実施形態によれば、複数のフレームを横断して完全なオーディオ・オブジェクトを合成するためには、既知のものであれ将来開発されるものであれ、いかなる好適な技法が適用されてもよい。そのような技法の例は、確率的なフレームワークを使ってオーディオ・オブジェクト成分を総合する動的プログラミング;特徴の一貫性および時間的制約条件に基づいて同じオーディオ・オブジェクトからの成分を総合するクラスタリング;異なるオーディオ・オブジェクトは通例異なる時点において現われたり消えたりするので複数のオーディオ・オブジェクトの生起を追跡するために適用できるマルチエージェント技法;時間を追ってオーディオ・オブジェクトを追跡しうるカルマン・フィルタ処理などを含むがそれに限られない。
上記のような単一フレームのスペクトル合成または複数フレームの時間的合成のために、サブバンド/チャネル/フレームが同じオーディオ・オブジェクトを含んでいるかどうかが、スペクトル連続性および空間的一貫性に基づいて決定されてもよい。たとえば、クラスタリングおよび動的プログラミングのような複数フレームの時間的合成処理では、オーディオ・オブジェクトは、次のうちの一つまたは複数に基づいて総合されて、時間的な完全なオーディオ・オブジェクトを形成してもよい:方向/位置、拡散性、DDR、オン/オフセット同期、調波性変調(harmonicity modulations)、ピッチおよびピッチ揺動、顕著性/部分的ラウドネス/エネルギー、反復性など。
特に、本発明の実施形態によれば、ステップS301で得られた拡散性のオーディオ信号Ac(またはその一部)が一つまたは複数のオーディオ・オブジェクトと見なされてもよい。たとえば、個々の信号Acのそれぞれは、対応するスピーカーの想定される位置に対応する位置をもつオーディオ・オブジェクトとして出力されうる。あるいはまた、信号Acは、ダウンミックスされてモノ信号を生成してもよい。そのようなモノ信号は、拡散性であるまたは大きなオブジェクト・サイズをもつものとして、その関連するメタデータにおいてラベル付けされてもよい。他方、指向性信号に対するオーディオ・オブジェクト抽出を実行後、いくつかの残差信号があってもよい。いくつかの実施形態によれば、そのような残差信号成分は下記のようにオーディオ・ベッド中に入れられてもよい。
図3の参照を続けると、ステップS303において、源オーディオ・コンテンツに基づいてチャネル・ベースのオーディオ・ベッドが生成される。オーディオ・ベッド生成が、オーディオ・オブジェクト抽出後に実行されるように示されているが、本発明の範囲はこれに関して限定されない。代替的な実施形態では、オーディオ・ベッドはオーディオ・オブジェクトの抽出前にまたは抽出と並行して生成されてもよい。
一般に、オーディオ・ベッドはチャネル・ベースのフォーマットで表現されるオーディオ信号成分を含む。いくつかの実施形態によれば、上記で論じたように、源オーディオ・コンテンツはステップS301において分解される。そのような実施形態では、オーディオ・ベッドは、源オーディオ・コンテンツから分解された拡散性の信号から生成されてもよい。すなわち、拡散性のオーディオ信号は、オーディオ・ベッドとしてはたらくよう、チャネル・ベースのフォーマットにおいて表現されてもよい。追加的または代替的に、オーディオ・オブジェクト抽出後に残差信号成分からオーディオ・ベッドを生成することが可能である。
具体的には、いくつかの実施形態によれば、生成されたオーディオ・ベッドをより没入的で迫真的なものにするために、源オーディオ・コンテンツに存在するチャネルに加えて、一つまたは複数の追加的なチャネルが生成されてもよい。たとえば、伝統的なチャネル・ベースのオーディオ・コンテンツは通例高さ情報を含まないことが知られている。いくつかの実施形態によれば、ステップS303において周囲アップミキサーを適用することによって、少なくとも一つの高さチャネルが生成されてもよい。こうして源オーディオ情報が拡張される。このようにして、生成されたオーディオ・ベッドはより没入的で、迫真的なものになる。次世代サラウンド(Next Generation Surround)またはプロロジックIIxデコーダのような任意の好適なアップミキサーが、本発明の実施形態との関連で使用されうる。サラウンド5.1フォーマットの源オーディオ・コンテンツを例として考えると、受動的な行列(passive matrix)がLsおよびRs出力に適用されて、周囲信号中のLsおよびRsチャネルの位相外れ成分を生成してもよい。それがそれぞれ高さチャネルLvhおよびRvhとして使用されることになる。
図4を参照するに、いくつかの例示的実施形態によれば、アップミックスは次の二段階でなされてもよい。第一に、LsおよびRsチャネルの位相外れ内容が計算され、高さチャネルにリダイレクトされてもよい。これにより単一の高さ出力チャネルC'が生成される。次いで、チャネルL'、R'、Ls'およびRs'が計算される。次に、チャネルL'、R'、Ls'およびRs'がそれぞれLs、Rs、LrsおよびRrs出力にマッピングされる。最後に、導出された高さチャネルC'が、たとえば3dBだけ減衰させられ、LvhおよびRvh出力にマッピングされれる。よって、高さチャネルC'は二つの高さスピーカーLvhおよびRvh出力にフィードするよう分割される。任意的に、ある種のチャネルには遅延および利得補償が適用されてもよい。
いくつかの実施形態によれば、アップミックス・プロセスは、入力(一つまたは複数)から、互いに独立な追加的信号を生成するために、脱相関器を使うことを含んでいてもよい。脱相関器はたとえば、全域通過フィルタ、全域通過遅延セクション、残響生成器などを含んでいてもよい。これらの実施形態において、信号Lvh、Rvh、LrsおよびRrsは、信号L、C、R、LsおよびRsのうちの一つまたは複数に脱相関を適用することによって生成されてもよい。既知のものであれ将来開発されるものであれ、いかなるアップミックス技法が本発明の実施形態との関連で使われてもよいことは理解しておくべきである。
チャネル・ベースのオーディオ・ベッドは、周囲アップミックスによって生成された高さチャネルと、源オーディオ・コンテンツにおける拡散性のオーディオ信号の他のチャネルとによって構成されている。ステップS303における高さチャネルの生成は任意的であることは理解しておくべきである。たとえば、いくつかの代替的な実施形態によれば、オーディオ・ベッドは、チャネル拡張なしで、源オーディオ・コンテンツにおける拡散性のオーディオ信号のチャネルに基づいて直接、生成されてもよい。実際、本発明の範囲は、拡散性のオーディオ信号からオーディオ・ベッドを生成することにも限定されない。上記のように、オーディオ・オブジェクトが源オーディオ・コンテンツから直接抽出される実施形態では、オーディオ・オブジェクト抽出後の残りの信号がオーディオ・ベッドを生成するために使われてもよい。
方法300は次いでステップS304に進む。ここで、適応的なオーディオ・コンテンツに関連するメタデータが生成される。本発明の実施形態によれば、メタデータは源オーディオ・コンテンツ、一つまたは複数の抽出されたオーディオ・オブジェクトおよびオーディオ・ベッドのうちの少なくとも一つに基づいて推定または計算されてもよい。メタデータは、高レベルの意味的メタデータ(semantic metadata)から低レベルの記述情報(descriptive information)まで幅があってもよい。たとえば、いくつかの実施形態によれば、メタデータは、オンセット、調波性、顕著性、ラウドネス、時間的構造などを含む中レベルの属性を含んでいてもよい。代替的または追加的に、メタデータは、音楽、発話、歌声、音響効果、環境音、効果音などを含む高レベルの意味的属性を含んでいてもよい。
具体的には、いくつかの実施形態によれば、メタデータは、オーディオ・オブジェクトの位置、サイズ、幅などといった空間的属性を表わす空間的メタデータを含んでいてもよい。たとえば、推定されるべき空間的メタデータが、抽出されるオーディオ・オブジェクトの方位角(αと記される、0≦α<2π)であるとき、典型的なパン則(たとえば正弦‐余弦則)が適用されうる。正弦‐余弦則では、オーディオ・オブジェクトの振幅は、次のような仕方で二つのチャネル/スピーカー(c0およびc1と記される)に分配されうる:
g0=βcos(α')
g1=βsin(α')
ここで、g0およびg1は二つのチャネルの振幅を表わし、βはオーディオ・オブジェクトの振幅を表わし、α'は二つのチャネルの間のその方位角を表わす。対応して、g0およびg1に基づいて、方位角α'は次のように計算されてもよい:
α'=argtan((g1−g0)/(g1+g0))+π/4
こうして、オーディオ・オブジェクトの方位角αを推定するために、最高の振幅をもつ上位二つのチャネルがまず検出されてもよく、これら二つのチャネルの間の方位角α'が推定される。次いで、選択された二つのチャネルのインデックスに基づいて、マッピング関数がα'に適用されて、最終的な軌跡パラメータαを得てもよい。推定されたメタデータは、空間的軌跡の点で、源オーディオ・コンテンツのもとの創造的な意図の近似的な基準を与えうる。
いくつかの実施形態では、オーディオ・オブジェクトの推定された位置はデカルト座標系におけるxおよびy座標を有していてもよく、あるいは角度によって表現されてもよい。具体的には、本発明の実施形態によれば、オブジェクトのxおよびy座標が次のように推定されてもよい。
Figure 0006330034
ここで、xcおよびycはチャネルcに対応するスピーカーのxおよびy座標である。
次いで、方法300はステップS305に進む。ここで、オーディオ・オブジェクトおよびチャネル・ベースのオーディオ・ベッドの両方を含んでいてもよい適応的なオーディオ・コンテンツに対して再オーサリング・プロセスが実行される。オーディオ・オブジェクト、オーディオ・ベッドおよび/またはメタデータにある種のアーチファクトがありうることが理解されるであろう。結果として、ステップS301からS304において得られた結果を調整または修正することが望ましいことがありうる。さらに、エンドユーザーは、生成された適応的なオーディオ・コンテンツに対してある種の制御をもつことを与えられてもよい。
いくつかの実施形態によれば、再オーサリング・プロセスはオーディオ・オブジェクト分離を含んでいてもよい。これは、抽出されたオーディオ・オブジェクトの間で互いに少なくとも部分的に重なり合っているオーディオ・オブジェクトを分離するために使われる。ステップS302において抽出されたオーディオ・オブジェクトにおいて、二つ以上のオーディオ・オブジェクトが少なくとも部分的に互いに重なり合っていることがあることが理解できる。たとえば、図5のAは、諸チャネルの一部(この場合中央Cチャネル)において重なり合っている二つのオーディオ・オブジェクトを示している。ここで、一方のオーディオ・オブジェクトがLチャネルとCチャネルの間でパンされ、その間、他方はCチャネルとRチャネルの間でパンされる。図5のBは、二つのオーディオ・オブジェクトがすべてのチャネルにおいて部分的に重なっているシナリオを示している。
本発明の実施形態によれば、オーディオ・オブジェクト分離プロセスは自動プロセスであってもよい。あるいはまた、オブジェクト分離プロセスは半自動プロセスであってもよい。ユーザーが、たとえば重なり合っているオーディオ・オブジェクトがある時点を指示することによって、分離されるべきオーディオ・オブジェクトを対話的に選択しうるよう、グラフィカル・ユーザー・インターフェース(GUI)のようなユーザー・インターフェースが設けられてもよい。よって、オブジェクト分離処理は、その時間期間内のオーディオ信号に適用されてもよい。既知のものか将来開発されるものかによらず、オーディオ・オブジェクトを分離するためのいかなる好適な技法が本発明の実施形態との関連で使われてもよい。
さらに、本発明の実施形態によれば、再オーサリング・プロセスはオーディオ・オブジェクトの属性を制御および修正することを含んでいてもよい。たとえば、分離されたオーディオ・オブジェクトおよびそれらそれぞれの時間依存かつチャネル依存の利得Gr,tおよびAr,cに基づいて、オーディオ・オブジェクトのエネルギー・レベルが変更されてもよい。さらに、オーディオ・オブジェクトを形状変更する、たとえばオーディオ・オブジェクトの幅およびサイズを変えることも可能である。
代替的または追加的に、ステップS305における再オーサリング・プロセスは、ユーザーがたとえばGUIを介してオーディオ・オブジェクトを対話的に操作することを許容しうる。操作はたとえば、オーディオ・オブジェクトの空間的な位置または軌跡を変えること、いくつかのオーディオ・オブジェクトのスペクトルを一つのオーディオ・オブジェクトに混合すること、一つのオーディオ・オブジェクトのスペクトルをいくつかのオーディオ・オブジェクトに分離すること、時間に沿ったいくつかのオブジェクトを連結して一つのオーディオ・オブジェクトを形成すること、一つのオーディオ・オブジェクトを時間に沿ってスライスしていくつかのオーディオ・オブジェクトにすることなどを含むがそれに限られなくてもよい。
図3を参照するに、適応的なオーディオ・コンテンツに関連するメタデータがステップS304において推定される場合、方法300はそのようなメタデータを編集するためにステップS306に進んでもよい。いくつかの実施形態によれば、メタデータの編集は、オーディオ・オブジェクトおよび/またはオーディオ・ベッドに関連する空間的メタデータを操作することを含んでいてもよい。たとえば、オーディオ・オブジェクトの空間的な位置/軌跡および幅といったメタデータが、オーディオ・オブジェクトの利得Gr,tおよびAr,cを使って調整され、あるいはさらに推定し直されてもよい。たとえば、上記の空間的メタデータは次のように更新されてもよい。
Figure 0006330034
ここで、Gは当該オーディオ・オブジェクトの時間依存の利得を表わし、A0およびA1は異なるチャネルの間の、当該オーディオ・オブジェクトの上位二つの最高のチャネル依存の利得を表わす。
さらに、空間的メタデータは、源オーディオ・コンテンツの忠実度を保証する際の基準として使用されたり、あるいは新たな芸術的創造のための基礎のはたらきをしたりしてもよい。たとえば、抽出されたオーディオ・オブジェクトは、関連する空間的メタデータを修正することによって位置決めし直されてもよい。たとえば、図6に示されるように、空間的メタデータを編集して三次元軌跡を生成することによって、オーディオ・オブジェクトの二次元軌跡が所定のヘミスフィア(hemisphere)にマッピングされてもよい。
あるいはまた、いくつかの実施形態によれば、メタデータ編集はオーディオ・オブジェクトの利得を制御することを含んでいてもよい。代替的または追加的に、利得制御はチャネル・ベースのオーディオ・ベッドについて実行されてもよい。たとえば、いくつかの実施形態では、利得制御はチャネル・ベースのオーディオ・ベッドについて実行されてもよい。たとえば、いくつかの実施形態では、利得制御は、源オーディオ・コンテンツに存在しない高さチャネルに適用されてもよい。
方法300は、この特定の例ではステップS306後に終わる。
上述したように、方法300に記述されるさまざまな動作が適応的なオーディオ・コンテンツの生成を容易にしうるものの、その一つまたは複数は、本発明のいくつかの代替的な実施形態では省略されてもよい。たとえば、指向性/拡散性信号分解を実行することなく、オーディオ・オブジェクトは直接的に、源オーディオ・コンテンツの信号から抽出されてもよく、チャネル・ベースのオーディオ・ベッドは、オーディオ・オブジェクト抽出後の残差信号から生成されてもよい。さらに、追加的な高さチャネルを生成しないことが可能である。同様に、メタデータの生成および適応的なオーディオ・コンテンツの再オーサリングはいずれも任意的である。本発明の範囲はこれらに関して限定されない。
図7を参照するに、本発明のある例示的実施形態に基づく適応的なオーディオ・コンテンツを生成するシステム700のブロック図が示されている。図のように、システム700は、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されたオーディオ・オブジェクト抽出器701と;少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成された適応オーディオ生成器702とを有する。
いくつかの実施形態によれば、オーディオ・オブジェクト抽出器701は:源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解するよう構成された信号分解器を有する。これらの実施形態では、オーディオ・オブジェクト抽出器701は、指向性オーディオ信号から前記少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されていてもよい。いくつかの実施形態では、信号分解器は、源オーディオ・コンテンツに対して信号成分分解を実行するよう構成された成分分解器と;分解された信号成分を解析することによって拡散性についての確率を計算するよう構成された確率計算器とを有していてもよい。
代替的または追加的に、いくつかの実施形態によれば、オーディオ・オブジェクト抽出器701は:源オーディオ・コンテンツにおける複数のフレームのそれぞれについてスペクトル合成(spectrum composition)を実行して、同じオーディオ・オブジェクトを含むチャネルを識別して総合するよう構成されたスペクトル合成器と;前記複数のフレームを横断して前記識別および総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成するよう構成された時間的合成器とを有していてもよい。たとえば、スペクトル合成器は、前記複数のフレームのそれぞれについて、周波数範囲を複数のサブバンドに分割するよう構成された周波数分割器を有していてもよい。よって、スペクトル合成器は、前記複数のサブバンドの間の、包絡およびスペクトル形状の少なくとも一方の類似性に基づいて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合するよう構成されていてもよい。
いくつかの実施形態によれば、システム700は、源オーディオ・コンテンツからチャネル・ベースのオーディオ・ベッドを生成するよう構成されたオーディオ・ベッド生成器703を有していてもよい。そのような実施形態では、適応オーディオ生成器702は、前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成されていてもよい。いくつかの実施形態では、上記で論じたように、システム700は、源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解して、拡散性のオーディオ信号からオーディオ・ベッドを生成するよう構成された信号分解器を有していてもよい。
いくつかの実施形態によれば、オーディオ・ベッド生成器703は、源オーディオ・コンテンツを周囲アップミックスすることによって少なくとも一つの高さチャネルを生成するよう構成された高さチャネル生成器を有していてもよい。これらの実施形態では、オーディオ・ベッド生成器703は、源オーディオ・コンテンツのチャネルおよび前記少なくとも一つの高さチャネルから前記オーディオ・ベッドを生成するよう構成されていてもよい。
いくつかの実施形態によれば、システム700はさらに、適応的なオーディオ・コンテンツに関連するメタデータを推定するよう構成されたメタデータ推定器704を有していてもよい。メタデータは、前記源オーディオ・コンテンツ、前記少なくとも一つのオーディオ・オブジェクトおよび/または前記オーディオ・ベッド(もしあれば)に基づいて推定されてもよい。これらの実施形態では、システム700はさらに、適応的なオーディオ・コンテンツに関連するメタデータを編集するよう構成されたメタデータ編集器を有していてもよい。特に、いくつかの実施形態では、メタデータ編集器は、適応的なオーディオ・コンテンツの利得、たとえばオーディオ・オブジェクトおよび/またはチャネル・ベースのオーディオ・ベッドの利得を制御するよう構成された利得コントローラを有していてもよい。
いくつかの実施形態によれば、適応オーディオ生成器702は、前記少なくとも一つのオーディオ・オブジェクトに対して再オーサリングを実行するよう構成された再オーサリング・コントローラを有していてもよい。たとえば、再オーサリング・コントローラは:前記少なくとも一つのオーディオ・オブジェクトのうちの少なくとも部分的に重なり合っているオーディオ・オブジェクトを分離するよう構成されたオブジェクト分離器;前記少なくとも一つのオーディオ・オブジェクトに関連付けられた属性を修正するよう構成された属性修正器;および前記少なくとも一つのオーディオ・オブジェクトを対話的に操作するよう構成されたオブジェクト操作器のうちの少なくとも一つを有していてもよい。
明確のため、システム700のいくつかの任意的なコンポーネントは図7に示していない。しかしながら、図2〜図3を参照して上記した事項はみなシステム700に適用可能であることは理解されるはずである。さらに、システム700のコンポーネントは、ハードウェア・モジュールまたはソフトウェア・モジュールでありうる。たとえば、いくつかの実施形態では、システム700は、部分的にまたは完全に、たとえばコンピュータ可読媒体において具現されたコンピュータ・プログラム・プロダクトとして実装されるソフトウェアおよび/またはファームウェアを用いて実装されてもよい。代替的または追加的に、システム700は部分的または完全に、たとえば集積回路(IC)、特定用途向け集積回路(ASIC)、システムオンチップ(SOC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)などのようなハードウェアに基づいて実装されてもよい。本発明の範囲はこれに関して限定されない。
図8を参照するに、本発明の実施形態を実装するために好適な例示的なコンピュータ・システム800のブロック図が示されている。図のように、コンピュータ・システム800は、読み出し専用メモリ(ROM)802に記憶されたプログラムまたは記憶セクション808からランダム・アクセス・メモリ(RAM)にロードされたプログラムに従ってさまざまなプロセスを実行することのできる中央処理ユニット(CPU)801を有する。RAM 803では、CPU 801がさまざまなプロセスを実行するときに必要とされるデータなども必要に応じて記憶される。CPU 801、ROM 802およびRAM 803はバス804を介して互いに接続されている。入出力(I/O)インターフェース805もバス804に接続されている。
以下のコンポーネントがI/Oインターフェース805に接続される:キーボード、マウスなどを含む入力部806;陰極線管(CRT)、液晶ディスプレイ(LCD)などのようなディスプレイまたはスピーカーなどを含む出力部807;ハードディスクなどを含む記憶部808;およびLANカード、モデムなどのようなネットワーク・インターフェース・カードを含む通信部809である。通信部809は、インターネットのようなネットワークを介して通信プロセスを実行する。ドライブ810も必要に応じてI/Oインターフェース805に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのような着脱可能な媒体811が必要に応じてドライブ810にマウントされ、それにより必要に応じて、そこから読まれたコンピュータ・プログラムが記憶部808にインストールされる。
特に、本発明の実施形態によれば、図2〜図3を参照して上記したプロセスがソフトウェア・プログラムとして実装されてもよい。たとえば、本発明の実施形態は、方法200および/または方法300を実行するためのプログラム・コードを含む、機械可読媒体上に有体に具現されたコンピュータ・プログラムを含むコンピュータ・プログラム・プロダクトを含む。そのような実施形態では、コンピュータ・プログラムは、通信ユニット809を介してネットワークからダウンロードおよびマウントされ、および/または着脱可能なメモリ・ユニット811からインストールされてもよい。
一般に、本発明のさまざまな例示的実施形態はハードウェアまたは特殊目的回路、ソフトウェア、論理またはそれらの任意の組み合わせにおいて実装されうる。いくつかの側面はハードウェアにおいて実装され、一方で他の側面がコントローラ、マイクロプロセッサまたは他のコンピューティング装置によって実行されうるファームウェアまたはソフトウェアにおいて実装されてもよい。本発明の例示的実施形態のさまざまな側面がブロック図、フローチャートとしてまたは他のいくつかの絵的表現を使って図示され、記述されているが、本稿に記載されるブロック、装置、システム、技法または方法は、限定しない例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路または論理、汎用ハードウェアまたはコントローラまたは他のコンピューティング装置またはそれらの何らかの組み合わせにおいて実装されてもよいことは理解されるであろう。
さらに、フローチャートに示されるさまざまなブロックを方法ステップとしておよび/またはコンピュータ・プログラム・コードの動作から帰結する動作としておよび/または関連する機能(単数または複数)を実行するよう構築された複数の結合された論理回路要素として見ることができる。たとえば、本発明の実施形態は、機械可読媒体上に有体に具現されたコンピュータ・プログラムを有するコンピュータ・プログラム・プロダクトを含み、該コンピュータ・プログラムは、上記で述べた諸方法を実行するために構成されたプログラム・コードを含む。
本開示のコンテキストにおいて、機械可読媒体は、命令実行システム、装置またはデバイスによってまたはそれとの関連で使うためのプログラムを含むまたは記憶することができるいかなる有体の媒体であってもよい。機械可読媒体は機械可読信号媒体または機械可読記憶媒体でありうる。機械可読媒体は、電子式、磁気式、光学式、電磁式、赤外線または半導体のシステム、装置またはデバイスまたは上記の任意の好適な組み合わせを含みうる、それに限られなくてもよい。機械可読記憶媒体のより具体的な例は、一つまたは複数のワイヤを有する電気接続、ポータブルなコンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラム可能型読み出し専用メモリ(EPROMまたはフラッシュ・メモリ)、光ファイバー、ポータブルなコンパクト・ディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイスまたは上記の任意の好適な組み合わせを含む。
本発明の方法を実行するためのコンピュータ・プログラム・コードは、一つまたは複数のプログラミング言語の任意の組み合わせにおいて書かれうる。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、特殊目的コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに提供されてもよく、それにより該プログラム・コードは、該コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されたとき、フローチャートおよび/またはブロック図において規定された機能/動作を実装させる。プログラム・コードは完全にコンピュータ上で、部分的にコンピュータ上で、スタンドアローンのソフトウェア・パッケージとして、部分的にはコンピュータ上で部分的にはリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバー上で実行されてもよい。
さらに、動作は特定の順序で描かれているが、これは、そのような動作が示される特定の順序で、あるいは逐次順に実行されること、あるいは所望される結果を達成するために示されているすべての動作が実行されることを要求するものと理解されるべきではない。ある種の状況では、マルチタスクおよび並列処理が有利であることがある。同様に、いくつかの個別的な実装詳細が上記の議論に含まれるものの、これらはいずれかの発明のまたは特許請求されうるものの範囲に対する限定として解釈されるべきではなく、むしろ特定の発明の特定の実施形態に固有でありうる事項の記述と解釈されるべきである。別個の実施形態のコンテキストにおいて本明細書に記載されるある種の特徴は、単一の実施形態において組み合わせて実装されることもできる。逆に、単一の実施形態のコンテキストにおいて記述されているさまざまな特徴が、複数の実施形態において別個にまたは任意の好適なサブコンビネーションにおいて実装されることもできる。
付属の図面との関連で読まれるときの上記の記述に鑑み、本発明の上記の例示的実施形態へのさまざまな修正、適応が当業者に明白となることがありうる。任意の、あらゆる修正がそれでも、本発明の限定しない、例示的な実施形態の範囲内にはいる。さらに、本稿に記載される発明の他の実施形態が、上記の記述および図面に呈示される教示の恩恵をもつ当業者には思いつくであろう。
よって、本発明は、本稿に記載される形の任意のもので具現されうる。たとえば、以下の付番実施例(EEE: enumerated example embodiment)は、本発明のいくつかの側面のいくつかの構造、特徴および機能を記述するものである。
〔EEE1〕
適応的なオーディオ・コンテンツを生成する方法であって:チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出する段階と;少なくとも部分的に前記少なくとも一つのオーディオ・オブジェクトに基づいて前記適応的なオーディオ・コンテンツを生成する段階とを含む、方法。
〔EEE2〕
前記少なくとも一つのオーディオ・オブジェクトを抽出する段階が、前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解し;前記指向性オーディオ信号から前記少なくとも一つのオーディオ・オブジェクトを抽出することを含む、EEE1記載の方法。
〔EEE3〕
前記源オーディオ・コンテンツを分解することが:前記源オーディオ・コンテンツに対して信号成分分解を実行し;分解された信号成分を解析することによって拡散性の確率を計算し;前記拡散性の確率に基づいて前記源オーディオ・コンテンツを分解することを含む、EEE2記載の方法。
〔EEE4〕
前記源オーディオ・コンテンツが複数のチャネルを含み、前記信号成分分解が:前記複数のチャネルの間の相関を計算することによって共分散行列を計算し;前記共分散行列に対して固有ベクトル分解を実行して固有ベクトルおよび固有値を取得し;付随する固有値の対の間の差に基づいて前記拡散性の確率を計算することを含む、EEE3記載の方法。
〔EEE5〕
前記拡散性の確率がp=erfc(−z/√2)として計算され、ここで、z=abs(λc−λc+1)/(λc+λc+1)であり、λ1>λ2>λ3>…>λCは固有ベクトルであり、absは絶対値関数を表わし、erfcは相補誤差関数を表わす、EEE4記載の方法。
〔EEE6〕
チャネルcについての拡散性についての前記確率を pc=max(pc,p)およびpc+1=max(pc+1,pc)として更新する段階をさらに含む、EEE5記載の方法。
〔EEE7〕
前記共分散行列を平滑化する段階をさらに含む、EEE4ないし6のうちいずれか一項記載の方法。
〔EEE8〕
前記拡散性オーディオ信号が前記源オーディオ・コンテンツに前記拡散性の確率を乗算することによって得られ、前記指向性オーディオ信号が前記源オーディオ・コンテンツから前記拡散性オーディオ信号を減算することによって得られる、EEE3ないし7のうちいずれか一項記載の方法。
〔EEE9〕
前記信号成分分解が、方向、位置、拡散性、直接音対残響比、オン/オフセット同期、調波性変調、ピッチ、ピッチ揺動、顕著性、部分ラウドネス、反復性のうちの少なくとも一つを含む、空間的一貫性およびスペクトル連続性の手がかりに基づいて実行される、EEE3ないし8のうちいずれか一項記載の方法。
〔EEE10〕
前記少なくとも一つのオーディオ・オブジェクトをマージ、分離、接続、分割、位置変更、形状変更、レベル調整すること;前記少なくとも一つのオーディオ・オブジェクトについての時間依存利得およびチャネル依存利得を更新すること;前記少なくとも一つのオーディオ・オブジェクトおよび利得に対してエネルギーが保存されるダウンミックスを適用して、モノ・オブジェクト・トラックを生成すること;および前記オーディオ・ベッドに残差信号を組み込むことのうちの少なくとも一つを含む再オーサリング・プロセスにおいて前記少なくとも一つのオーディオ・オブジェクトを操作する段階をさらに含む、EEE1ないし9のうちいずれか一項記載の方法。
〔EEE11〕
前記適応的なオーディオ・コンテンツに関連付けられるメタデータを推定する段階をさらに含む、請求項1ないし10のうちいずれか一項記載の方法。
〔EEE12〕
前記適応的なオーディオ・コンテンツを生成する段階が、前記適応的なオーディオ・コンテンツに関連付けられた前記メタデータを編集することを含む、EEE11記載の方法。
〔EEE13〕
前記メタデータを編集することが、前記少なくとも一つのオーディオ・オブジェクトの時間依存利得およびチャネル依存利得に基づいて空間位置/軌跡メタデータを推定し直すことを含む、EEE12記載の方法。
〔EEE14〕
前記空間メタデータが、前記少なくとも一つのオーディオ・オブジェクトの時間依存かつチャネル依存の利得に基づいて推定される、EEE13記載の方法。
〔EEE15〕
前記空間メタデータがα=argtan((G・A1−G・A0)/(G・A1+G・A0))+π/4として推定され、Gは前記少なくとも一つのオーディオ・オブジェクトの前記時間依存利得を表わし、A0およびA1は、種々のチャネルのうちでの前記少なくとも一つのオーディオ・オブジェクトの上位二つの最も高いチャネル依存の利得を表わす、EEE14記載の方法。
〔EEE16〕
空間位置メタデータおよびあらかじめ定義されたヘミスフィア形状が、推定された二次元空間位置を前記あらかじめ定義されたヘミスフィア形状にマッピングすることによって三次元軌跡を自動的に生成するために使われる、EEE11ないし15のうちいずれか一項記載の方法。
〔EEE17〕
顕著性/エネルギー・メタデータを参照することによって連続的な仕方で前記少なくとも一つのオーディオ・オブジェクトの参照エネルギー利得を自動的に生成する段階をさらに含む、EEE11ないし16のうちいずれか一項記載の方法。
〔EEE18〕
前記源オーディオ・コンテンツを周囲アップミックスすることによって高さチャネルを生成する段階と;前記高さチャネルおよび前記源オーディオ・コンテンツのサラウンド・チャネルからチャネル・ベースのオーディオ・ベッドを生成する段階とをさらに含む、EEE11ないし17のうちいずれか一項記載の方法。
〔EEE19〕
前記高さチャネルおよび前記サラウンド・チャネルにエネルギーが保存される因子を乗算することによって前記オーディオ・ベッドに対する利得制御を適用して、周囲の知覚されるヘミスフィア高さを修正する段階をさらに含む、EEE18記載の方法。
〔EEE20〕
EEE1ないし19のうちいずれか一項記載の方法の段階を実行するよう構成されたユニットを有する、適応的なオーディオ・コンテンツを生成するシステム。
本発明の実施形態は開示されている個別的な実施形態に限定されるものではなく、他の実施形態が付属の請求項の範囲内に含まれることが意図されていることは理解されるであろう。本稿では個別的な用語が使われているが、これらは一般的かつ記述的な意味でのみ使われており、限定のためではない。
いくつかの態様を記載しておく。
〔態様1〕
適応的なオーディオ・コンテンツを生成する方法であって:
チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出する段階と;
少なくとも部分的に前記少なくとも一つのオーディオ・オブジェクトに基づいて前記適応的なオーディオ・コンテンツを生成する段階とを含む、
方法。
〔態様2〕
前記少なくとも一つのオーディオ・オブジェクトを抽出する段階が:
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解し;
前記指向性オーディオ信号から前記少なくとも一つのオーディオ・オブジェクトを抽出することを含む、
態様1記載の方法。
〔態様3〕
前記源オーディオ・コンテンツを分解することが:
前記源オーディオ・コンテンツに対して信号成分分解を実行し;
分解された信号成分を解析することによって拡散性の確率を計算することを含む、
態様2記載の方法。
〔態様4〕
前記少なくとも一つのオーディオ・オブジェクトを抽出する段階が:
前記源オーディオ・コンテンツにおける複数のフレームのそれぞれについて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合するスペクトル分解を実行し;
前記複数のフレームを横断して識別され、総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成することを含む、
態様1ないし3のうちいずれか一項記載の方法。
〔態様5〕
前記同じオーディオ・オブジェクトを含むチャネルを識別し、総合することが:
前記複数のフレームのそれぞれについて、周波数範囲を複数のサブバンドに分解し;
前記複数のサブバンドの間の包絡およびスペクトル形状の少なくとも一方の類似性に基づいて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合することを含む、
態様4記載の方法。
〔態様6〕
前記源オーディオ・コンテンツからチャネル・ベースのオーディオ・ベッドを生成する段階をさらに含み、
前記適応的なオーディオ・コンテンツを生成する段階が、前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成することを含む、
態様1ないし5のうちいずれか一項記載の方法。
〔態様7〕
前記オーディオ・ベッドを生成する段階が:
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解し;
前記拡散性オーディオ信号から前記オーディオ・ベッドを生成することを含む、
態様6記載の方法。
〔態様8〕
前記オーディオ・ベッドを生成する段階が:
前記源オーディオ・コンテンツを周囲アップミックスすることによって少なくとも一つの高さチャネルを生成する段階と;
前記源オーディオ・コンテンツのチャネルおよび前記少なくとも一つの高さチャネルから前記オーディオ・ベッドを生成する段階とを含む、
態様6または7記載の方法。
〔態様9〕
前記適応的なオーディオ・コンテンツに関連付けられるメタデータを推定する段階をさらに含む、
態様1ないし8のうちいずれか一項記載の方法。
〔態様10〕
前記適応的なオーディオ・コンテンツを生成する段階が、前記適応的なオーディオ・コンテンツに関連付けられた前記メタデータを編集することを含む、態様9記載の方法。
〔態様11〕
前記メタデータを編集することが、前記適応的なオーディオ・コンテンツの利得を制御することを含む、態様10記載の方法。
〔態様12〕
前記適応的なオーディオ・コンテンツを生成する段階が、前記少なくとも一つのオーディオ・オブジェクトの再オーサリングを実行することを含み、前記再オーサリングが:
前記少なくとも一つのオーディオ・オブジェクトのうちで少なくとも部分的に重なっているオーディオ・オブジェクトを分離すること;
前記少なくとも一つのオーディオ・オブジェクトに関連付けられた属性を修正すること;および
前記少なくとも一つのオーディオ・オブジェクトを対話的に操作することのうちの少なくとも一つを含む、
態様1ないし11のうちいずれか一項記載の方法。
〔態様13〕
適応的なオーディオ・コンテンツを生成するシステムであって:
チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されたオーディオ・オブジェクト抽出器と;
少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成された適応オーディオ生成器とを有する、
システム。
〔態様14〕
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解するよう構成された信号分解器をさらに有しており、
前記オーディオ・オブジェクト抽出器は、前記指向性オーディオ信号から前記少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されている、
態様13記載のシステム。
〔態様15〕
前記信号分解器は:
前記源オーディオ・コンテンツに対して信号成分分解を実行するよう構成された成分分解器と;
分解された信号成分を解析することによって拡散性の確率を計算するよう構成された確率計算器とを有する、
態様14記載のシステム。
〔態様16〕
前記オーディオ・オブジェクト抽出器は:
前記源オーディオ・コンテンツにおける複数のフレームのそれぞれについてスペクトル合成を実行して、同じオーディオ・オブジェクトを含むチャネルを識別して総合するよう構成されたスペクトル合成器と;
前記複数のフレームを横断して前記識別および総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成するよう構成された時間的合成器とを有する、
態様13ないし15のうちいずれか一項記載のシステム。
〔態様17〕
前記スペクトル合成器は、前記複数のフレームのそれぞれについて、周波数範囲を複数のサブバンドに分割するよう構成された周波数分割器を有しており、
前記スペクトル合成器は、前記複数のサブバンドの間の、包絡およびスペクトル形状の少なくとも一方の類似性に基づいて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合するよう構成されている、
態様16記載のシステム。
〔態様18〕
前記源オーディオ・コンテンツからチャネル・ベースのオーディオ・ベッドを生成するよう構成されたオーディオ・ベッド生成器をさらに有しており、
前記適応オーディオ生成器は、前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成されている、
態様13ないし17のうちいずれか一項記載のシステム。
〔態様19〕
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解するよう構成された信号分解器をさらに有しており、
前記オーディオ・ベッド生成器は、前記拡散性オーディオ信号から前記オーディオ・ベッドを生成するよう構成されている、
態様18記載のシステム。
〔態様20〕
前記オーディオ・ベッド生成器が:
前記源オーディオ・コンテンツを周囲アップミックスすることによって少なくとも一つの高さチャネルを生成するよう構成された高さチャネル生成器を有しており、
前記オーディオ・ベッド生成器は、前記源オーディオ・コンテンツのチャネルおよび前記少なくとも一つの高さチャネルから前記オーディオ・ベッドを生成するよう構成されている、
態様18または19記載のシステム。
〔態様21〕
前記適応的なオーディオ・コンテンツに関連するメタデータを推定するよう構成されたメタデータ推定器をさらに有する、
態様13ないし20のうちいずれか一項記載のシステム。
〔態様22〕
前記適応的なオーディオ・コンテンツに関連する前記メタデータを編集するよう構成されたメタデータ編集器をさらに有する、
態様21記載のシステム。
〔態様23〕
前記メタデータ編集器は、前記適応的なオーディオ・コンテンツの利得を制御するよう構成された利得コントローラを有する、態様22記載のシステム。
〔態様24〕
前記適応オーディオ生成器は、前記少なくとも一つのオーディオ・オブジェクトに対して再オーサリングを実行するよう構成された再オーサリング・コントローラを有しており、前記再オーサリング・コントローラは:
前記少なくとも一つのオーディオ・オブジェクトのうちの少なくとも部分的に重なり合っているオーディオ・オブジェクトを分離するよう構成されたオブジェクト分離器;
前記少なくとも一つのオーディオ・オブジェクトに関連付けられた属性を修正するよう構成された属性修正器;および
前記少なくとも一つのオーディオ・オブジェクトを対話的に操作するよう構成されたオブジェクト操作器のうちの少なくとも一つを有する、
態様13ないし23のうちいずれか一項記載のシステム。
〔態様25〕
態様1ないし12のうちいずれか一項記載の方法を実行するためのプログラム・コードを含むコンピュータ・プログラムが機械可読媒体上に有体に具現されているコンピュータ・プログラム・プロダクト。

Claims (15)

  1. チャネル・ベースの源オーディオ・コンテンツから適応的なオーディオ・コンテンツを生成する方法であって:
    前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解する段階と;
    前記指向性オーディオ信号から少なくとも一つのオーディオ・オブジェクトを抽出する段階と;
    前記拡散性オーディオ信号からチャネル・ベースのオーディオ・ベッドを生成する段階と;
    少なくとも部分的に前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成する段階とを含む、
    方法。
  2. 前記チャネル・ベースの源オーディオ・コンテンツがサラウンド5.1またはサラウンド7.1フォーマットである、請求項1記載の方法。
  3. 前記源オーディオ・コンテンツを分解することが:
    前記源オーディオ・コンテンツに対して信号成分分解を実行し;
    分解された信号成分を解析することによって拡散性の確率を計算することを含む、
    請求項1または2記載の方法。
  4. 前記少なくとも一つのオーディオ・オブジェクトを抽出する段階が:
    前記源オーディオ・コンテンツにおける複数のフレームのそれぞれについて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合するスペクトル分解を実行し;
    前記複数のフレームを横断して識別され、総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成することを含む、
    請求項1ないし3のうちいずれか一項記載の方法。
  5. 前記同じオーディオ・オブジェクトを含むチャネルを識別し、総合することが:
    前記複数のフレームのそれぞれについて、周波数範囲を複数のサブバンドに分解し;
    前記複数のサブバンドの間の包絡およびスペクトル形状の少なくとも一方の類似性に基づいて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合することを含む、
    請求項4記載の方法。
  6. 前記オーディオ・ベッドを生成する段階が:
    前記源オーディオ・コンテンツを周囲アップミックスすることによって少なくとも一つの高さチャネルを生成する段階と;
    前記源オーディオ・コンテンツのチャネルおよび前記少なくとも一つの高さチャネルから前記オーディオ・ベッドを生成する段階とを含む、
    請求項1ないし5のうちいずれか一項記載の方法。
  7. 前記適応的なオーディオ・コンテンツに関連付けられるメタデータを推定する段階をさらに含む、
    請求項1ないしのうちいずれか一項記載の方法。
  8. 前記適応的なオーディオ・コンテンツを生成する段階が、前記適応的なオーディオ・コンテンツに関連付けられた前記メタデータを編集することを含む、請求項記載の方法。
  9. 前記メタデータを編集することが、前記適応的なオーディオ・コンテンツの利得を制御することを含む、請求項記載の方法。
  10. 前記適応的なオーディオ・コンテンツを生成する段階が、前記少なくとも一つのオーディオ・オブジェクトの再オーサリングを実行することを含み、前記再オーサリングが:
    前記少なくとも一つのオーディオ・オブジェクトのうちで少なくとも部分的に重なっているオーディオ・オブジェクトを分離すること;
    前記少なくとも一つのオーディオ・オブジェクトに関連付けられた属性を修正すること;および
    前記少なくとも一つのオーディオ・オブジェクトを対話的に操作することのうちの少なくとも一つを含む、
    請求項1ないしのうちいずれか一項記載の方法。
  11. チャネル・ベースの源オーディオ・コンテンツから適応的なオーディオ・コンテンツを生成するシステムであって:
    前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解するよう構成された信号分解器と;
    前記指向性オーディオ信号から少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されたオーディオ・オブジェクト抽出器と;
    前記拡散性オーディオ信号からチャネル・ベースのオーディオ・ベッドを生成するよう構成されたオーディオ・ベッド生成器と;
    少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成された適応オーディオ生成器とを有する、
    システム。
  12. 前記チャネル・ベースの源オーディオ・コンテンツがサラウンド5.1またはサラウンド7.1フォーマットである、
    請求項11記載のシステム。
  13. 前記信号分解器は:
    前記源オーディオ・コンテンツに対して信号成分分解を実行するよう構成された成分分解器と;
    分解された信号成分を解析することによって拡散性の確率を計算するよう構成された確率計算器とを有する、
    請求項11または12記載のシステム。
  14. 前記オーディオ・オブジェクト抽出器は:
    前記源オーディオ・コンテンツにおける複数のフレームのそれぞれについてスペクトル合成を実行して、同じオーディオ・オブジェクトを含むチャネルを識別して総合するよう構成されたスペクトル合成器と;
    前記複数のフレームを横断して前記識別および総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成するよう構成された時間的合成器とを有する、
    請求項11ないし13のうちいずれか一項記載のシステム。
  15. 請求項1ないし10のうちいずれか一項記載の方法を実行するためのプログラム・コードを含むコンピュータ・プログラムが機械可読媒体上に有体に具現されているコンピュータ・プログラム・プロダクト。
JP2016521520A 2013-06-18 2014-06-17 適応的なオーディオ・コンテンツの生成 Active JP6330034B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201310246711.2A CN104240711B (zh) 2013-06-18 2013-06-18 用于生成自适应音频内容的方法、系统和装置
CN201310246711.2 2013-06-18
US201361843643P 2013-07-08 2013-07-08
US61/843,643 2013-07-08
PCT/US2014/042798 WO2014204997A1 (en) 2013-06-18 2014-06-17 Adaptive audio content generation

Publications (3)

Publication Number Publication Date
JP2016526828A JP2016526828A (ja) 2016-09-05
JP2016526828A5 JP2016526828A5 (ja) 2017-04-27
JP6330034B2 true JP6330034B2 (ja) 2018-05-23

Family

ID=52105190

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016521520A Active JP6330034B2 (ja) 2013-06-18 2014-06-17 適応的なオーディオ・コンテンツの生成

Country Status (6)

Country Link
US (1) US9756445B2 (ja)
EP (2) EP3716654A1 (ja)
JP (1) JP6330034B2 (ja)
CN (1) CN104240711B (ja)
HK (1) HK1220803A1 (ja)
WO (1) WO2014204997A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015190864A1 (ko) * 2014-06-12 2015-12-17 엘지전자(주) 고속 인터페이스를 이용하여 객체 기반 오디오 데이터를 처리하는 방법 및 장치
CN105336335B (zh) 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
US10321256B2 (en) 2015-02-03 2019-06-11 Dolby Laboratories Licensing Corporation Adaptive audio construction
CN105992120B (zh) * 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
CN105989845B (zh) 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
DE102015203855B3 (de) * 2015-03-04 2016-09-01 Carl Von Ossietzky Universität Oldenburg Vorrichtung und Verfahren zum Ansteuern des Dynamikkompressors und Verfahren zum Ermitteln von Verstärkungswerten für einen Dynamikkompressor
CN106162500B (zh) * 2015-04-08 2020-06-16 杜比实验室特许公司 音频内容的呈现
WO2017157427A1 (en) * 2016-03-16 2017-09-21 Huawei Technologies Co., Ltd. An audio signal processing apparatus and method for processing an input audio signal
US10863297B2 (en) 2016-06-01 2020-12-08 Dolby International Ab Method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position
CN109219847B (zh) * 2016-06-01 2023-07-25 杜比国际公司 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10531219B2 (en) * 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
US11322164B2 (en) * 2018-01-18 2022-05-03 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
GB2571572A (en) 2018-03-02 2019-09-04 Nokia Technologies Oy Audio processing
CN109640242B (zh) * 2018-12-11 2020-05-12 电子科技大学 音频源分量及环境分量提取方法
JP2022521694A (ja) 2019-02-13 2022-04-12 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオオブジェクトクラスタリングのための適応型音量正規化
AU2020319893A1 (en) * 2019-08-01 2022-02-10 Dolby Laboratories Licensing Corporation Systems and methods for covariance smoothing
JP2023500265A (ja) * 2019-11-05 2023-01-05 ソニーグループ株式会社 電子デバイス、方法およびコンピュータプログラム
CN111831249A (zh) * 2020-07-07 2020-10-27 Oppo广东移动通信有限公司 音频播放方法、装置、存储介质及电子设备
WO2023076039A1 (en) * 2021-10-25 2023-05-04 Dolby Laboratories Licensing Corporation Generating channel and object-based audio from channel-based audio

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10344638A1 (de) 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
US7412380B1 (en) * 2003-12-17 2008-08-12 Creative Technology Ltd. Ambience extraction and modification for enhancement and upmix of audio signals
JP4966981B2 (ja) 2006-02-03 2012-07-04 韓國電子通信研究院 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
KR100917843B1 (ko) * 2006-09-29 2009-09-18 한국전자통신연구원 다양한 채널로 구성된 다객체 오디오 신호의 부호화 및복호화 장치 및 방법
US9565509B2 (en) 2006-10-16 2017-02-07 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
MX2009003564A (es) 2006-10-16 2009-05-28 Fraunhofer Ges Forschung Aparato y metodo para transformacion de parametro multicanal.
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
EP3712888A3 (en) * 2007-03-30 2020-10-28 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
KR100942143B1 (ko) 2007-09-07 2010-02-16 한국전자통신연구원 기존 오디오 포맷의 오디오 장면 정보를 유지하는 wfs재생 방법 및 그 장치
EP2210427B1 (en) 2007-09-26 2015-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for extracting an ambient signal
GB0720473D0 (en) * 2007-10-19 2007-11-28 Univ Surrey Accoustic source separation
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
US8351612B2 (en) 2008-12-02 2013-01-08 Electronics And Telecommunications Research Institute Apparatus for generating and playing object based audio contents
RU2558612C2 (ru) * 2009-06-24 2015-08-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер аудиосигнала, способ декодирования аудиосигнала и компьютерная программа с использованием ступеней каскадной обработки аудиообъектов
CN102171754B (zh) * 2009-07-31 2013-06-26 松下电器产业株式会社 编码装置以及解码装置
KR101805212B1 (ko) * 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
MY165328A (en) * 2009-09-29 2018-03-21 Fraunhofer Ges Forschung Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
MY153337A (en) * 2009-10-20 2015-01-29 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of a downmix signal representation,apparatus for providing a bitstream representing a multi-channel audio signal,methods,computer program and bitstream using a distortion control signaling
EP2360681A1 (en) 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
GB2485979A (en) * 2010-11-26 2012-06-06 Univ Surrey Spatial audio coding
TWI530201B (zh) * 2010-12-03 2016-04-11 弗勞恩霍夫爾協會 經由自抵達方向估值提取幾何資訊之聲音擷取技術
KR20140027954A (ko) 2011-03-16 2014-03-07 디티에스, 인코포레이티드 3차원 오디오 사운드트랙의 인코딩 및 재현
RU2564681C2 (ru) * 2011-07-01 2015-10-10 Долби Лабораторис Лайсэнзин Корпорейшн Способы и системы синхронизации и переключения для системы адаптивного звука
AU2012279357B2 (en) * 2011-07-01 2016-01-14 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
JP2013062640A (ja) * 2011-09-13 2013-04-04 Sony Corp 信号処理装置、信号処理方法、およびプログラム

Also Published As

Publication number Publication date
HK1220803A1 (zh) 2017-05-12
WO2014204997A1 (en) 2014-12-24
US9756445B2 (en) 2017-09-05
EP3716654A1 (en) 2020-09-30
EP3011762B1 (en) 2020-04-22
CN104240711A (zh) 2014-12-24
CN104240711B (zh) 2019-10-11
US20160150343A1 (en) 2016-05-26
EP3011762A1 (en) 2016-04-27
JP2016526828A (ja) 2016-09-05

Similar Documents

Publication Publication Date Title
JP6330034B2 (ja) 適応的なオーディオ・コンテンツの生成
US11470437B2 (en) Processing object-based audio signals
JP6668366B2 (ja) オーディオ源の分離
US10638246B2 (en) Audio object extraction with sub-band object probability estimation
US10362426B2 (en) Upmixing of audio signals
JP7362826B2 (ja) メタデータ保存オーディオ・オブジェクト・クラスタリング
JP2018511974A (ja) ビデオ・コンテンツに支援されたオーディオ・オブジェクト抽出
JP6654195B2 (ja) オーディオ・コンテンツからの投影ベースのオーディオ・オブジェクト抽出
CN106385660B (zh) 处理基于对象的音频信号
WO2023160782A1 (en) Upmixing systems and methods for extending stereo signals to multi-channel formats

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170323

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180423

R150 Certificate of patent or registration of utility model

Ref document number: 6330034

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250