JP2018508823A - オーディオ源の分離 - Google Patents

オーディオ源の分離 Download PDF

Info

Publication number
JP2018508823A
JP2018508823A JP2017541932A JP2017541932A JP2018508823A JP 2018508823 A JP2018508823 A JP 2018508823A JP 2017541932 A JP2017541932 A JP 2017541932A JP 2017541932 A JP2017541932 A JP 2017541932A JP 2018508823 A JP2018508823 A JP 2018508823A
Authority
JP
Japan
Prior art keywords
source
parameters
audio content
components
unit configured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017541932A
Other languages
English (en)
Other versions
JP6668366B2 (ja
Inventor
ワン,ジュン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2018508823A publication Critical patent/JP2018508823A/ja
Application granted granted Critical
Publication of JP6668366B2 publication Critical patent/JP6668366B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/305Source positioning in a soundscape, e.g. instrument positioning on a virtual soundstage, stereo panning or related delay or reverberation changes; Changing the stereo width of a musical source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本稿に開示される例示的実施形態は、オーディオ・コンテンツにおける音源分離に関する。オーディオ・コンテンツから源を分離する方法が開示される。オーディオ・コンテンツは複数のチャネルに基づくマルチチャネル・フォーマットのものである。本方法は、前記複数のチャネルの各チャネルについてオーディオ・コンテンツに対して成分解析を実行して複数の成分を生成することを含む。前記複数の成分の各成分はフル周波数帯域における複数の時間周波数タイルを含む。前記複数の成分から前記時間周波数タイルのうち少なくとも一つをもつ少なくとも一つの優勢源を生成し、該優勢源に基づいて空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツからの源を分離する。対応するシステムおよびコンピュータ・プログラム・プロダクトも開示される。

Description

関連出願への相互参照
本願は2015年2月16日に出願された中国特許出願第201510085195.9号および2015年2月26日に出願された米国仮特許出願第62/121,125号の優先権を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。
技術
本稿に開示される実施形態は概括的にはオーディオ・コンテンツ処理に関し、より詳細には、マルチチャネル・フォーマットのオーディオ・コンテンツからの源を分離するための方法およびシステムに関する。
伝統的に、マルチチャネル・フォーマット(たとえばステレオ、5.1、7.1など)のオーディオ・コンテンツは、スタジオにおいて異なるオーディオ信号を混合することによって作り出されるか、現実の環境において同時に音響信号を記録することによって生成される。混合されたオーディオ信号またはコンテンツは、いくつかの異なる源を含むことがある。源分離は、たとえばモノ信号および空間的情報、スペクトル情報などを含むメタデータによってオーディオ・コンテンツを再構成するために、それぞれの源の情報を識別するタスクである。
一つまたは複数のマイクロフォンを使って聴覚シーンを記録するとき、多様なその後のオーディオ処理タスクの間での使用に好適となりうるよう、音源に依存する情報が分離されることが好ましい。いくつかの例は、空間的オーディオ符号化、リミックス/再オーサリング、3D音分解および合成、多様な目的(たとえば自動発話認識)のための信号向上/ノイズ抑制を含みうる。したがって、源分離がうまくいくことで、改善された多用途性およびよりよい性能が達成できる。捕捉プロセスに関わった源の事前情報(たとえば、記録装置の属性、部屋の音響属性など)が利用可能でないときは、分離プロセスはブラインド源分離〔ブラインド音源分離〕(BSS: blind source separation)と呼ぶことができる。
従来、ガウシアン混合モデル(GMM: Gaussian Mixture Model)および非負行列因子分解(NMF: Non-negative Matrix Factorization)のような源分離のためのいくつかの統計的モデルが、源分離を実現するために広く適用されてきた。しかしながら、これらのアルゴリズム(たとえばGMMまたはNMFモデル)は目的関数の停留点への収束するだけである。よって、これらのアルゴリズムは次の点でパラメータ初期化に敏感である:1)最終結果がパラメータ初期化に強く依存する;2)収束の速さがパラメータ初期化に依存して有意に変化する;3)これらのアルゴリズムは源信号の実際の数を識別することができず、よって通例、源の数、スペクトル・ベース(spectral base)などといった事前情報を必要とする。従来システムでは、もとの源情報がオラクル初期化のために使われるが、そのような情報は通例利用可能ではないので、これはたいていの現実世界の応用については実際的ではない。さらに、いくつかの応用では、トレーニング・データが必要とされることがある。しかしながら、トレーニング・データから学習された源モデルは現実的な場合においてはいい性能を発揮しない傾向があるという事実のため、実際上は困難が生じる。これは、一般には、混合中の源の、モデルと実際の属性との間に不一致があるという事実に起因する。
Simon Arberet, Alexey Ozerov, Remi Gribonaval, Frederic Bimbot、"Blind Spectral-GMM Estimation for Underdetermined Instantaneous Audio Source Separation"、ICA, 2009。
上記に鑑み、当技術分野においては、いかなる事前情報も知ることなしにオーディオ・コンテンツから源を分離するための解決策が必要とされている。
上記のおよび他の潜在的な問題に対処するために、本稿に開示される例示的実施形態は、オーディオ・コンテンツからの源を分離するための方法およびシステムを提案する。
ある側面では、本稿に開示される例示的実施形態は、オーディオ・コンテンツからの源を分離する方法であって、前記オーディオ・コンテンツは複数のチャネルに基づくマルチチャネル・フォーマットのものである、方法を提供する。本方法は、前記複数のチャネルの各チャネルについてのオーディオ・コンテンツに対して成分解析を実行して複数の成分を生成することを含む。前記複数の成分の各成分はフル周波数帯域における複数の時間周波数タイルを含む。前記複数の成分から前記時間周波数タイルのうち少なくとも一つをもつ少なくとも一つの優勢源を生成し、該優勢源に基づいて空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツからの源を分離する。これに関する実施形態はさらに、対応するコンピュータ・プログラム・プロダクトを含む。
もう一つの側面では、本稿に開示される例示的実施形態は、オーディオ・コンテンツからの源を分離するシステムであって、前記オーディオ・コンテンツは複数のチャネルに基づくマルチチャネル・フォーマットのものである、システムを提供する。本システムは、前記複数のチャネルの各チャネルについてのオーディオ・コンテンツに対して成分解析を実行して複数の成分を生成するよう構成された成分解析ユニットを含む。前記複数の成分の各成分はフル周波数帯域における複数の時間周波数タイルを含む。源生成ユニットが、前記複数の成分から前記時間周波数タイルのうち少なくとも一つをもつ少なくとも一つの優勢源を生成するよう構成され、源分離ユニットが、該優勢源に基づいて空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツからの源を分離するよう構成される。
以下の記述を通じて、本稿に開示される例示的実施形態によれば、オーディオ・コンテンツから一つまたはいくつかの優勢源が分離できることが理解されるであろう。オーディオ・コンテンツからの分離された源は、そのような分離が源またはオーディオ・コンテンツの事前情報を必要としない(たとえば、分離は純粋にブラインド源分離に基づく)ので、有利である。空間的情報のようなメタデータをもつ再構成された源は、トランスデューサの数(たとえばステレオ・システム、5.1、7.1システムなど)に関わりなく、任意の再生システムにおいて精確に再生できる。さらに、メタデータをもつ再構成された源は、後処理段において簡単に操作され、改善され、結果として、ほとんどあらゆる音響システム(ヘッドフォンでもよい)におけるオーディオ・コンテンツの表現が、正確であり、よって没入的であるよう適応されることができる。本稿に開示される例示的実施形態によって達成される他の利点は、以下の記述を通じて明白となるであろう。
付属の図面を参照しての以下の詳細な説明を通じて、本稿に開示される例示的実施形態の上記および他の目的、特徴および利点がより把握しやすくなるであろう。図面においては、本稿に開示されるいくつかの例示的実施形態が例において、限定しない仕方で示される。
ある例示的実施形態に基づく、オーディオ・コンテンツから源を分離するための方法のフローチャートである。 ある例示的実施形態に基づく、諸成分を横断しての時間周波数タイルのクラスタリングの例を示す図である。 もう一つの例示的実施形態に基づく、オーディオ・コンテンツから源を分離するための方法のフローチャートである。 ある例示的実施形態に基づく、空間における源を表現するためのグラフィカル・ユーザー・インターフェース(GUI)の図である。 ある例示的実施形態に基づく、オーディオ・コンテンツから源を分離するためのシステムを示す図である。 本稿に開示される例示的実施形態を実装するために好適な例示的コンピュータ・システムのブロック図である。 諸図面を通じて、同じまたは対応する参照符号は同じまたは対応する部分を指す。
本稿に開示される例示的実施形態の原理についてここで図面に示されるさまざまな例示的実施形態を参照して述べる。これらの実施形態の描出は単に当業者が本稿に開示される例示的実施形態をよりよく理解し、さらに実装することができるようにするためのものであり、いかなる仕方であれ範囲を限定することは意図されていない。
本稿に開示される例示的実施形態は、入力されるオーディオ・コンテンツがマルチチャネル・フォーマット、たとえば5.1、7.1またはステレオ・フォーマットであることを想定する。換言すれば、オーディオ・コンテンツについて少なくとも二つのチャネルが提供される。マルチチャネル・オーディオ・コンテンツは処理されて、源の空間的情報のようなメタデータをもつ複数のモノ・オーディオ・コンテンツにされることができる。源の数、スペクトル情報などといった事前情報を必要とする、もとのオーディオ・コンテンツから源を分離する従来の仕方とは異なり、本稿に開示される例示的実施形態は、いかなる事前情報もなしに源分離を実現することを意図する。たとえば、ブラインド源分離(BSS: blind source separation)である。空間的オーディオ捕捉の場合のブラインド源分離は、マルチチャネル混合信号を源信号に分解し、混合パラメータおよび源の空間位置についての情報を表現することからなる。
ブラインド源分離を達成するために、本稿に開示される例示的実施形態は、オーディオ・コンテンツから源を分離するための方法およびシステムを提案する。実施形態は下記で与えられる。
本稿に開示される例示的実施形態は、Iチャネル入力をもつオーディオ・コンテンツを含み、該オーディオ・コンテンツはxi(t)、i=1,…,I、t=1,…,Tと表わすことができる。オーディオは短時間フーリエ変換(STFT: Short-time Fourier transform)領域で処理されることができ、
Figure 2018508823
となる。ここで、f=1,…,Fは周波数ビン・インデックスであり、n=1,…,Nは時間フレーム・インデックスである。オーディオ・コンテンツの混合モデルは行列形式で次のように呈示できる。
Figure 2018508823
ここで、
Figure 2018508823
はJ個の源〔ソース〕のSTFTを表わすスペクトル・パラメータを表わし、
Figure 2018508823
は周波数依存し時間変化することができる空間的パラメータを表わし、
Figure 2018508823
は加法的ノイズを表わす。
式(1)は、オーディオ・コンテンツがスペクトル・パラメータおよび空間的パラメータのようなパラメータならびにいくらかのノイズによって記述できることを説明している。
まず図1を参照する。図1は、本発明の例示的実施形態に基づく、オーディオ・コンテンツから源を分離するための方法100のフローチャートを示している。
本稿に開示されるある例示的実施形態では、段階S101において、オーディオ・コンテンツに対する成分解析が実行される。段階S101を実行するために利用されるいくつかの成分解析手法がありうることを注意しておくべきである。単に例として、そのような手法は、主成分解析(PCA: principal component analysis)、独立成分解析(ICA: independent component analysis)、Bフォーマット解析などを含みうるが、それに限定されない。
本稿に開示されるある例示的実施形態では、PCA手法が採用される。これについては下記で詳細に示す。主成分解析(PCA)は、新しい座標系の軸がデータの最高分散の方向を向くよう、もとの座標系が回転されることを可能にする。該軸または新しい変数は主成分と呼ばれ、分散によって順序付けられる:第一の成分はデータの最高分散の方向を表わし、第二の成分の方向は第一の方向に直交する、残りの分散のうち最高のものを表わす。これは、所望される量の分散をカバーする成分空間を一緒になって張る必要な数の成分を得るよう、自然に拡張できる。成分はもとの座標系に対する特定の方向を記述するため、各成分は、ある程度、もとの変数のそれぞれに依存する。すなわち、各成分はすべてのもとの変数の線形結合である。PCAは、可能性としては相関している変数のマルチチャネル・オーディオ・コンテンツまたは信号を、主成分としての線形に無相関な信号の値の集合に変換するために、直交変換を使う。
しかしながら、本稿に開示される例示的実施形態は、成分解析をどのように実行するかを制限することは意図されておらず、変数をよく区別する複数の成分を生成するために、上記に挙げたような他の多くの手法が使用されうることを注意しておくべきである。たとえば、信号を加法的な構成成分に分離するために、独立成分解析が使われることができる。これは構成成分が非ガウシアン信号であり、互いに統計的に独立であることを想定することによる。この想定のもとに、Cfnの逆(Gfn)を推定し、次いで独立成分をsfn=GfnXfnによって得るためにICAを実行する複数の仕方がある。
典型的な成分解析のためには、入力オーディオ・コンテンツはI個のチャネルをもつ。そして最も主な成分は、F個のスペクトル・ビンまたは周波数ビンにわたって疎に分布している(たとえば各ビンに一つの源のみ存在)高々J個の上位の優勢な源を含むことが想定される。本稿に開示されるある例示的実施形態によれば、各チャネルにおける各時間周波数(TF)タイルのモデルは、周囲信号(ambient signal)、前記J個の最も優勢な源および残りのそれほど優勢でない源のうちの一つ(または0個)の和として定義されてもよい。それらの源は、空間的に知覚される位置Cfnに従って重み付けされる。
図2は、例示的実施形態に基づく、諸成分を横断しての時間周波数タイルのクラスタリングの例を示している。図2の横軸は、離散的に示されている時間フレームを表わし、縦軸は周波数インデックスを表わす。一つのチャネルについての時間フレームのそれぞれについて、段階S101において成分解析を実行した後に生成されるいくつかの成分がある。たとえば、図2では、三つの成分を含む時間フレーム210(n−1)が示されており、各成分は、それぞれある周波数範囲を表わすいくつかのTFタイルを含んでいる。同様に、三つの成分を含む時間フレーム220(n)が時間フレーム210(n−1)の右に示されている。
図1に示されるフローチャートに戻ると、段階S102において、各成分において、前記TFタイルのいくつかを用いて複数の優勢源が生成される。段階S102を実行するためには若干数のステップが使われることができる。本稿に開示されるある例示的実施形態では、段階S102の第一のサブステップは、固有値および固有ベクトルを計算することを含んでいてもよい。
優勢源を生成するために、成分解析のために使われる固有ベクトルが必要とされることがある。上記のPCAモデルに基づいて、各周波数帯域f=1,…,Fについて、入力オーディオ・コンテンツに関する共分散行列が、たとえばチャネル間の相関を計算することによって、計算される。結果として得られるI×Iの共分散行列は、適切な時定数を用いて平滑化されてもよい。次いで、固有値λ1,fn>λ2,fn>…>λI,fnを得るために固有ベクトル分解が実行される。固有値が得られた後、固有ベクトルv1,fn、v2,fn、…、vI,fnが固有値分解に基づいて生成されることができる(本稿では、各固有ベクトルはI次元行ベクトルとして記される)。ここで、第一の固有ベクトルv1,fnが、最も優勢な源に関係する。
固有ベクトルは、対応する成分におけるTFタイルの空間的情報(たとえば方向)を示す。よって、十分に近い(たとえば、距離または角度の点であらかじめ定義された閾値の範囲内の)固有ベクトルをもつTFタイルどうしは、同じ源に属すると想定されてもよい。近い方向をもつそれらのTFタイルは、各源についてのスペクトル・ベースを構築するためにクラスタリングされてもよい。まず、固有ベクトルの回転不定性が、各固有ベクトルの最初の要素が正であること、たとえばvk(1)∈R+を課すことによって、除去される。次いで、クラスタリングおよびマージ・プロセスが適用できる。クラスタリング・プロセスはJ個のクラスターを推定してもよく、マージ・プロセスは互いに十分に近い(このことはクラスターの重心間の距離または角度によって測ることができ、所定の閾値より小さい差が「十分に近い」)クラスターどうしを一つのクラスターにマージすることができる。それにより、マージ・プロセス後のクラスター、特に優勢源の数が高々Jになる。さらに、各クラスターにおけるTFタイルは、それぞれの対応する源のスペクトル・ベースを構築するために使用できる。ある特定の実施形態では、各源の、より正確な空間的推定を与えるために、K平均クラスタリング方法が適用されてもよい。源構築の後、前記源の数が決定でき、これらの源が優勢源と見ることができる。
ここで、クラスタリング・プロセスの詳細な説明が、図2によって示される例を参照して、以下で与えられる。簡単のため、三つの成分と二つの(潜在的な)源のみが図2には示されている。たとえばPCA手法を使っての座標系の回転後、第一の成分v1,fnのTFタイルの固有ベクトルが解析され、二つのグループにクラスタリングされることができる。ここで、白のTFタイルは源1に属し、黒のTFタイルは源2に属する。第一の成分を推定するために、TFタイルの固有ベクトルから初期クラスター中心(たとえば基準方向)までの差(距離または角度)が得られる。ここで、初期クラスター中心は、回転された座標系においてあらかじめ定義された値を割り当てられることができる。次いで、K平均のような逐次反復的な洗練手法が適用されて、F個のTFタイルをJ個のクラスターに分割する。ここで、各観測は、最も近い平均をもつクラスターに属する。各グループについてのクラスター重心は、第一の成分を処理した後に得られる。
次いで、第一の成分について推定された重心を使って、第二の成分のクラスタリングが実行されることができる。同じ周波数ビン内の異なる成分が常に異なる源に属するといういくつかの制約条件が設定されることができる。これは、PCA手法では定義により互いに直交するので、余弦距離によって反映されることもできる。
さらに、周囲ノイズを軽減するために何らかのプロセスが適用されることができる。第一に、タイルが、ある閾値より高い差をもって、すべての重心から逸脱していれば、それは、図2で点線のブロックでマークしたようにそのタイルが周囲ノイズに属することがありうることを示し、そのタイルは除外されることができる。第二に、クラスタリングは、最も優勢な成分(たとえば上位2個または3個の成分)に対して、あるいは周囲音と直接音の分離後の重み付けされた優勢な成分に対してのみ実行されることができる。周囲音と直接音の分離を実行することによって、重み付け利得が、混合信号における方向比(directional ratio)であるよう推定されることができる。このプロセスは、「オーディオ信号の分解」と題する中国特許出願第201410357288.8によって詳細に記述されている。同出願はここに参照によってその全体において組み込まれる。以下では、重み付け利得はgi,fnと記される。これは、直接信号に属し周囲信号に属さないi番目の成分のTFタイルの部分を表わす。
本稿に開示されるある例示的実施形態では、それぞれの優勢源を時間を追って追跡するために、図2に示されるように、先行する諸フレーム(たとえば図2における時間フレーム(n−1))において推定された重心が、現在フレーム(たとえば図2における時間フレーム(n))におけるTFタイルのクラスタリングのための初期重心として、計算されることができる。本稿に開示されるある例示的実施形態では、先行する諸フレームの移動平均が、現在フレームについての初期重心として、計算されることができる。
ある例示的実施形態では、それぞれの優勢源のための、より正確なクラスター重心推定を得るために、重み付けK平均クラスタリング方法が使われる。重心を推定するために、より高いエネルギーをもつTFタイルに、より大きな重みが割り当てられてもよい。一方、より高い部分(gk,fnによって反映される)が源に属するTFタイルに、より大きな重みが割り当てられてもよい。よって、重み付けK平均における重み付け利得gk,fnwk,fnは、下記のように、gk,fnと規格化された固有値との積であると決定されることができる。
Figure 2018508823
優勢源が段階S102で生成された後、空間的パラメータおよびスペクトル・パラメータが、段階S103における源分離のために、優勢源に基づいて推定される。
固有ベクトルの重心は、上記のクラスタリング・プロセスを実行するときに推定されることができる。各源jは、固有ベクトル{vk,fn}jまたは重み付けされた固有ベクトル{gk,fn・vk,fn}jをもつTFタイルのクラスターを割り当てられることができる。各クラスターは、全体的なタイル集合の非自明なパーティションである。したがって、各源のスペクトル・パラメータのSTFT〔チルダ付きのsj,fn〕は次のようにタイルの和として再構成されることができる
Figure 2018508823
各源の空間的メタデータは、
Figure 2018508823
と記される固有ベクトルの対応する重心を使って、推定できる。
Figure 2018508823
のフロベニウス・ノルムを課し、
Figure 2018508823
をしかるべくスケーリングすることによって、再規格化が適用されてもよい。この再規格化段階は、トリビアルなスケール不定性を解消するために使用できる。結果として、空間的パラメータCは次のように推定できる。
Figure 2018508823
図3は、本発明のもう一つの例示的実施形態に基づく、オーディオ・コンテンツから源を分離するための方法のフローチャートを示している。段階S301ないしS303は、図1を参照して上記した段階S101ないしS103に対応してもよく、よって段階S301ないしS303について詳細な説明を繰り返すことはしない。ひとたび空間的パラメータおよびスペクトル・パラメータが得られれば、源は分離されることができ、オーディオ・コンテンツは再構成されることができるが、これらのパラメータを洗練するために使われるいくつかの追加的な手法がある。
段階S304では、ブラインド源分離(BSS)のよりよい結果を実現するために、スペクトル・パラメータおよび空間的パラメータは、ガウシアン混合モデル(GMM)および非負行列因子分解(NMF)のようないくつかの統計的手法を用いて洗練されることができる。
GMM手法では、各源はまず、有限集合の特性スペクトル形状、たとえば局所的パワー・スペクトル密度(PSD: power spectral densities)によって駆動されるランダム変数の実現として表現されることができる。各局所的PSDは、何らかの特定の音イベントを記述する。GMM定式化のもとでは、j番目のオーディオ源についてのモデルΛjは、κ個の局所的PSD {σ2 k,f}、k=1,2,…,κに対応するκ個の状態から構成されていてもよい。モデル化は各源について実行されるので、簡単のため下記ではjインデックスは省略する。
ある例示的実施形態では、j番目の源のSTFTは、平均0および対角共分散行列Σk=diag[{σ2 k,f}f]をもつランダムなガウシアン複素ベクトルと見ることができる。GMMは非特許文献1に一般的に記述されている。同文献はここに参照によってその全体において組み込まれる。
GMMはΛ={ukk}kとしてパラメータ化できる。ここで、uk≧0は、Σkuk=1を満たす各ガウシアン密度の重みである。全部含めて、j番目の源のSTFTのGMM確率分布関数は次のように書ける。
Figure 2018508823
ここで、Pは確率分布関数(PDF: probability distribution function)を表わし、N(s;μ,Σ)は平均ベクトルμおよび対角共分散行列Σをもつ複素ガウシアン・ランダム・ベクトルsのPDFを表わし、よって
Figure 2018508823
である。
各源jについてのGMMパラメータΛjは通例、トレーニング・データのセットを使って別個に学習される。この特定の実施形態では、式(3)における混合から推定された
Figure 2018508823
が使われる。GMMパラメータは、最尤(ML: maximum likelihood)基準を最適化することに基づいて学習される:
Figure 2018508823
ある例示的実施形態では、ML基準の最適化は、期待値‐最大化(EM: expectation-maximization)アルゴリズムを用いて得ることができる。
したがって、源のスペクトルGMMは
Figure 2018508823
によって得ることができる。源分離は、適応ウィーナー・フィルタリングを用いて実行されることができる:
Figure 2018508823
ここで、Kは、すべての源状態kj∈{1,2,…,κ}の組み合わせとして、混合状態
Figure 2018508823
を表わし、γK,nはΣKγK,n=1を満たすフレームnにおける状態確率を表わし、
Figure 2018508823
である。
したがって、ウィーナー・フィルタGK,fは次式によって与えられる。
Figure 2018508823
ここで、Aは混合行列であり、これは式(4)において導出されるCによって初期化される。
式(7)において、すべての源状態の組み合わせとして全K混合状態を計算することは、計算量o(κJ)である。計算量を源の数に線形なo(κ・J)まで減らすために、時刻nにおける各源の最も確からしい状態〔チルダ付きのkj〕は次式によって推定できる。
Figure 2018508823
ここで、式(3)によって計算される、チルダ付きのsj,fnはPCAベースの源推定を表わす。よって、混合状態は、すべての可能な状態の組み合わせではなく、一つの
Figure 2018508823
として単純化できる。
本稿に開示されるある例示的実施形態では、NMF手法において、NMFモデル{Wj,Hj}をもつ源jのパワー・スペクトログラムは、
Figure 2018508823
となるようモデル化されることができる。このNMFベースのモデルは、基本的には源を特徴的なスペクトル・シグネチャーをもつ基本成分の和とするので、ポリフォニーに好適であることができる。
期待値最大化(EM)アルゴリズムは、源パラメータ{Wj,Hj}および混合パラメータAfnを逐次反復的に推定するために適用されてもよい。通常の方法では、これらのパラメータはランダム・データで初期化され、そのアルゴリズムは非常に遅く、初期値によっては局所的な最大に収束してしまうことが報告されている。
ある例示的実施形態では、EM推定のためのパラメータは、以下の段階において、事前学習された源を用いて計算される。
−−−−−−−−−−−−−−
初期化段階:
1.各源のスペクトル・パラメータの式(3)における再構成されたSTFT
Figure 2018508823
に基づいて、源の共分散行列を計算する:
Figure 2018508823
2.^付きのRSS,fnの対角要素によって源のパワー・スペクトログラムを決定する:
Figure 2018508823
3.NMFモデル
Figure 2018508823
に基づいて、各源jについてのNMFモデルの非負行列を初期化する:
Figure 2018508823
4.式(4)によるCによって混合行列Afnを初期化する。
5.Σi|Aij,fn2=1を課し、{Wj,Hj}をしかるべくスケーリングすることによって、混合およびスペクトラム・パラメータAfn、{Wj,Hj}を規格化する。この段階はトリビアルなスケール不定性を解消する。
6.次いで、逐次反復的なEM推定に進む。その一つの反復工程を下記に述べる。
期待値(一つの段階):
1.源のパワースペクトラム
Figure 2018508823
を洗練する。
2.下記のように逆混合行列Gf,nを推定する。
Figure 2018508823
不足決定条件(J≧I)では式(16)が適用でき、過剰決定条件(J<I)では式(17)が適用できることを注意しておく。推定される共分散行列
Figure 2018508823
はJ<Iのときは可逆でないことがあるからである。
3.オーディオ源の共分散行列〔^付きのRS,fn〕および相互共分散行列〔^付きのRXS,fn〕を下記のように計算する。
Figure 2018508823
4.式(13)により源のパワースペクトラム〔^付きのΣS,fn〕を更新する。
最大化(一つの段階):
1.混合パラメータAfnを下記のように更新する:
Figure 2018508823
2.式(14)および(15)によりスペクトラム・パラメータを更新する。
3.Σi|Aij,fn2=1を課し、{Wj,Hj}をしかるべくスケーリングすることによって、パラメータAfn、{Wj,Hj}を再規格化する。この段階はトリビアルなスケール不定性を解消する。
−−−−−−−−−−−−−−。
混合パラメータおよびスペクトル・パラメータについてランダムに選択された値を割り当てる通常のEM逐次反復プロセスに比べ、本稿に開示される例示的実施形態は、混合パラメータおよびスペクトル・パラメータの少なくとも一方について、上記のように初期値を計算し、EM逐次反復プロセスによるこれらのパラメータの洗練の実行を、速さおよび正確さの点で助ける。本稿に開示される例示的実施形態は、統計的手法が、幅広いクラスのオーディオ・コンテンツ(たとえば楽音、映画サウンド効果など)についての代表的なトレーニング・データの乏しさの問題を回避できるようにする。それはまた、源モデルを、所与の混合における所与の諸源(たとえば、映画において採用される特殊サウンド効果または特定の楽器または諸楽器の組み合わせ)の特定の諸属性に特化することを許容する。本稿に開示される例示的実施形態は、対象データにおける特定の属性、たとえばマイクロフォンの型、部屋音響属性、チャネル歪みなどによって影響されることもない。さらに、より高速の収束速度が達成でき、計算量が制御されることができる。
上記のようなGMMおよびNMFのような手法によって空間的パラメータおよびスペクトル・パラメータが洗練された後、図3に示される段階S305において、オーディオ・コンテンツの源が、空間的パラメータおよびスペクトル・パラメータに基づいて、ウィーナー・フィルタリングにより再構成されることができる。再構成された(優勢)源
Figure 2018508823
は、Aに反映されているその対応する位置とともに、下記で述べるユーザーによって支援される源抽出のために利用される。
段階S306では、再構成された源がグラフィカル・ユーザー・インターフェース(GUI)を通じて表現されることができる。換言すれば、再構成された源
Figure 2018508823
およびその対応する位置(Aに反映されている)は、GUIによってユーザーに対して示されることができる。例示的なGUIは図4に示されることができる。ここで、ユーザーは、(優勢)源の空間位置を観察し、それをクリックすることによってその音を聞き、抽出されることが意図される一つまたは複数の目標源を選択し、開始および停止時刻をマークすることができる。たとえば、図4に示されるように、3D空間が複数のスピーカーの位置によって定義されてもよい。しかしながら、7.1.4サラウンド・システムのようないくつかのシステムは3D空間を構築できる一方、5.1サラウンド・システムのような他のいくつかのシステムは2D空間を構築できるだけであることを理解しておくべきである。後者の場合、オーディオ源は3D空間の底面においてGUIによって表示されてもよく、そのことは、高さに関しては情報が提供されないことを示す。
図4を参照するに、再構成された源401は別の再構成された源402の左に示されており、ユーザーは再構成された源401および402のいずれか一方をクリックして、オーディオ・コンテンツのさらなる処理のためにそれを聴くことができる。図4に示されるように、再構成された源401および402のそれぞれは、異なる暗さをもついくつかの円によって表わされる空間位置をもつようシミュレートされる。より暗い円はその源のより高い強度を表わしてもよく、そのことはその源の空間位置により近いと解釈されてもよい。他方、より明るい円はその源のより低い強度を表わしてもよく、そのことはその源の空間位置から遠いと解釈されてもよい。図4は、源分離のシミュレーションの例示的な瞬間を示しているだけであり、再構成された源の分布は時間とともに変わりうる。さらに、スペクトル情報は異なる色によって表示されてもよい。たとえば、より低い周波数の源が青い色調を割り当てられてもよく、一方、より高い周波数の源が赤い色調を割り当てられてもよい。
GUIを通じた源選択の結果的な出力は「意図される源スナップショット」と称されることができ、これは意図される源についての以下の情報の少なくとも一つを含む:1)スペクトル構造、2)空間位置および3)アクティブ化時間(源の開始および停止時刻)。結果として、情報を与えられての源分離の手法が、明示的な構造/位置/時間制約条件をもって適用されることができる。意図される源は、洗練プロセスの間に実施される。これは、収束性能および速さの点で、カオス的な初期化を使う標準的なNMF/GMM手法に比べて著しい進歩でありうる。
本稿に開示される例示的実施形態においてGUIが関わると、オンデマンドで特定の源を抽出することが許容される。つまり、推定される源およびその対応する位置がGUIを通じて呈示されることができ、それにより、さらなる分離および洗練反復工程が適用される前に、ユーザーは意図される源をその音および/または位置を通じて選択することができる。
上記の新たなBSSフレームワークでは、混合されたオーディオにおける潜在的な源は、本発明に示されるような成分解析を使って学習できる。潜在的な源についての情報が、各クラスターに基づいて推定されるので、空間的情報およびスペクトル情報が得られ、よってGMMおよびNMF手法のような統計的モデルのためにトレーニング・データや事前情報は必要ない。換言すれば、本発明は、どのパラメータも事前にトレーニングされる必要がなく、よってトレーニング・データが要求されないという意味で完全に盲目的な手法を利用するので、トレーニング・データを必要とする従来のBSS方法に対して有利である。
図5は、本発明のある例示的実施形態に基づく、オーディオ・コンテンツから源を分離するためのシステム500を示している。図のように、システム500は、前記複数のチャネルの各チャネルについてオーディオ・コンテンツに対して成分解析を実行して複数の成分を生成するよう構成された成分解析ユニット501を有する。前記複数の成分の各成分はフル周波数帯域における複数の時間周波数タイルを含む。成分解析ユニット501は、入力からマルチチャネル・フォーマットのオーディオ・コンテンツを受領する。システム500はまた、前記複数の成分から前記時間周波数タイルのうち少なくとも一つをもつ少なくとも一つの優勢源を生成するよう構成された源生成ユニット502と、該優勢源に基づいて空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツから源を分離するよう構成された源分離ユニットとも有する。
いくつかの例示的実施形態では、源生成ユニット502は、複数の方向を少なくとも一つのグループにクラスタリングするよう構成されたクラスタリング・ユニットであって、各グループは複数の時間周波数タイルを含み、前記複数の方向は前記複数の成分から生成される、クラスタリング・ユニットと;時間を追って前記グループを追跡することによって前記優勢源を生成するよう構成された追跡ユニットとを有していてもよい。本稿に開示される例示的実施形態では、クラスタリング・ユニットは、前記成分のすべてにおいてあらかじめ定義されたクラスタリング閾値以内の、初期値に対する差をもつ方向を前記グループにクラスタリングするよう構成されていてもよい。さらに、本稿に開示される例示的実施形態では、時間周波数タイル・クラスタリング・ユニットは、前記初期値と、前記複数の時間周波数タイルの直接性(directness)および前記複数の時間周波数タイルのエネルギー・レベルのうちの少なくとも一方とに基づいて、各クラスターについての重心を推定するよう構成された重心推定ユニットを有していてもよい。本稿に開示されるいくつかの例示的実施形態では、追跡ユニットは:現在の時間フレームについての初期値として、前の時間フレームについての推定された重心を割り当てるよう構成された前の重心割り当てユニット;または現在の時間フレームについての初期値として、前の諸時間フレームにおいて推定された移動平均重心を割り当てるよう構成された移動平均重心割り当てユニットの少なくとも一方を有していてもよい。
他のいくつかの例示的実施形態では、源分離ユニット503は、前記優勢源についての方向の重心を推定するよう構成された重心推定ユニットと;それらの重心に基づいて前記複数の成分のそれぞれの中の時間周波数タイルの空間的パラメータを推定するよう構成された空間的源分離ユニットと;それらの重心に基づいて前記複数の成分のそれぞれの中の時間周波数タイルのスペクトル・パラメータを推定するよう構成されたスペクトル源分離ユニットとを有していてもよい。本稿に開示されるいくつかの例示的実施形態では、源分離ユニット503は:前記スペクトル・パラメータに基づいてガウシアン混合モデル・パラメータを計算するよう構成されたガウシアン混合モデル・パラメータ計算ユニットと;前記ガウシアン混合モデル・パラメータ、前記空間的パラメータおよび前記スペクトル・パラメータに基づいて各時間フレームにおける各源について最も確からしい状態を推定するよう構成された状態推定ユニットとを有していてもよい。さらに、源分離ユニット503は:混合パラメータおよびスペクトラム・パラメータについて初期化プロセスを実行するよう構成された初期化ユニットと;EM逐次反復プロセスによって前記スペクトラム・パラメータおよび前記混合パラメータを更新するよう構成されたパラメータ更新ユニットとを有していてもよい。さらに、本稿に開示される例示的実施形態では、初期化ユニットは:前記空間的パラメータに基づいて混合パラメータを初期化するよう構成された混合パラメータ初期化ユニット;あるいは前記スペクトル・パラメータに基づいてスペクトラム・パラメータを計算するよう構成されたスペクトラム・パラメータ計算ユニットを有していてもよい。
いくつかの例示的実施形態では、本システムは、前記優勢源についての前記スペクトル・パラメータおよび前記空間的パラメータに基づいて前記オーディオ・コンテンツの源を再構成するよう構成された源再構成ユニットと;再構成された源をグラフィカル・ユーザー・インターフェースを通じて表現するよう構成された源表現ユニットとを有していてもよい。
明確のため、システム500のいくつかの任意的なコンポーネントは図5には示していない。しかしながら、図1〜図4を参照して上記した事項はみなシステム500に適用可能であることは理解されるはずである。さらに、システム500のコンポーネントは、ハードウェア・モジュールまたはソフトウェア・ユニット・モジュールでありうる。たとえば、いくつかの実施形態では、システム500は、部分的にまたは完全に、たとえばコンピュータ可読媒体において具現されたコンピュータ・プログラム・プロダクトとして実装されるソフトウェアおよび/またはファームウェアとして実装されてもよい。代替的または追加的に、システム500は部分的または完全に、たとえば集積回路(IC)、特定用途向け集積回路(ASIC)、システムオンチップ(SOC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)などのようなハードウェアに基づいて実装されてもよい。本発明の範囲はこれに関して限定されない。
図6は、本稿に開示される例示的実施形態を実装するために好適な例示的なコンピュータ・システム600のブロック図を示している。図のように、コンピュータ・システム600は、読み出し専用メモリ(ROM)602に記憶されたプログラムまたは記憶ユニット608からランダム・アクセス・メモリ(RAM)603にロードされたプログラムに従ってさまざまなプロセスを実行することのできる中央処理ユニット(CPU)601を有する。RAM 603では、CPU 601がさまざまなプロセスを実行するときに必要とされるデータなども必要に応じて記憶される。CPU 601、ROM 602およびRAM 603はバス604を介して互いに接続されている。入出力(I/O)インターフェース605もバス604に接続されている。
以下のコンポーネントがI/Oインターフェース605に接続される:キーボード、マウスなどを含む入力部606;陰極線管(CRT)、液晶ディスプレイ(LCD)などのようなディスプレイおよびスピーカーなどを含む出力部607;ハードディスクなどを含む記憶部608;およびLANカード、モデムなどのようなネットワーク・インターフェース・カードを含む通信部609である。通信部609は、インターネットのようなネットワークを介して通信プロセスを実行する。ドライブ610も必要に応じてI/Oインターフェース605に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのような着脱可能な媒体611が必要に応じてドライブ610にマウントされ、それにより必要に応じて、そこから読まれたコンピュータ・プログラムが記憶部608にインストールされる。
特に、本稿に開示される例示的実施形態によれば、図1〜図4を参照して上記したプロセスはコンピュータ・ソフトウェア・プログラムとして実装されてもよい。たとえば、本稿に開示される例示的実施形態は、方法100および/または300を実行するためのプログラム・コードを含む、機械可読媒体上に有体に具現されたコンピュータ・プログラムを含むコンピュータ・プログラム・プロダクトを含む。そのような実施形態では、コンピュータ・プログラムは、通信ユニット609を介してネットワークからダウンロードおよびマウントされ、および/または着脱可能な媒体611からインストールされてもよい。
一般に、本稿に開示されるさまざまな例示的実施形態はハードウェアまたは特殊目的回路、ソフトウェア、論理またはそれらの任意の組み合わせにおいて実装されうる。いくつかの側面はハードウェアにおいて実装され、一方で他の側面がコントローラ、マイクロプロセッサまたは他のコンピューティング装置によって実行されうるファームウェアまたはソフトウェアにおいて実装されてもよい。本稿に開示される例示的実施形態のさまざまな側面がブロック図、フローチャートとしてまたは他のいくつかの絵的表現を使って図示され、記述されているが、本稿に記載されるブロック、装置、システム、技法または方法は、限定しない例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路または論理、汎用ハードウェアまたはコントローラまたは他のコンピューティング装置またはそれらの何らかの組み合わせにおいて実装されてもよいことは理解されるであろう。
さらに、フローチャートに示されるさまざまなブロックを方法ステップとしておよび/またはコンピュータ・プログラム・コードの動作から帰結する動作としておよび/または関連する機能(単数または複数)を実行するよう構築された複数の結合された論理回路要素として見ることができる。たとえば、本稿に開示される実施形態は、機械可読媒体上に有体に具現されたコンピュータ・プログラムを有するコンピュータ・プログラム・プロダクトを含み、該コンピュータ・プログラムは、上記で述べた諸方法を実行するよう構成されたプログラム・コードを含む。
本開示のコンテキストにおいて、機械可読媒体は、命令実行システム、装置またはデバイスによってまたはそれとの関連で使うためのプログラムを含むまたは記憶することができるいかなる有体の媒体であってもよい。機械可読媒体は機械可読信号媒体または機械可読記憶媒体でありうる。機械可読媒体は、電子式、磁気式、光学式、電磁式、赤外線または半導体のシステム、装置またはデバイスまたは上記の任意の好適な組み合わせを含みうるが、それに限られなくてもよい。機械可読記憶媒体のより具体的な例は、一つまたは複数のワイヤを有する電気接続、ポータブルなコンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラム可能型読み出し専用メモリ(EPROMまたはフラッシュ・メモリ)、光ファイバー、ポータブルなコンパクト・ディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイスまたは上記の任意の好適な組み合わせを含む。
本発明の方法を実行するためのコンピュータ・プログラム・コードは、一つまたは複数のプログラミング言語の任意の組み合わせにおいて書かれうる。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、特殊目的コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに提供されてもよく、それにより該プログラム・コードは、該コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されたとき、フローチャートおよび/またはブロック図において規定された機能/動作を実装させる。プログラム・コードは完全にコンピュータ上で、部分的にコンピュータ上で、スタンドアローンのソフトウェア・パッケージとして、部分的にはコンピュータ上で部分的にはリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバー上で実行されてもよく、一つまたは複数のリモート・コンピュータまたはサーバーの間で分散されてもよい。
さらに、動作は特定の順序で描かれているが、これは、そのような動作が示される特定の順序で、あるいは逐次順に実行されること、あるいは望ましい結果を達成するために示されているすべての動作が実行されることを要求するものと理解されるべきではない。ある種の状況では、マルチタスクおよび並列処理が有利であることがある。同様に、いくつかの個別的な実装詳細が上記の議論に含まれるものの、これらはいずれかの発明のまたは特許請求されうるものの範囲に対する限定として解釈されるべきではなく、むしろ特定の発明の特定の実施形態に固有でありうる事項の記述と解釈されるべきである。別個の実施形態のコンテキストにおいて本明細書に記載されるある種の特徴が、単一の実施形態において組み合わせて実装されてもよい。逆に、単一の実施形態のコンテキストにおいて記述されているさまざまな特徴が、複数の実施形態において別個にまたは任意の好適なサブコンビネーションにおいて実装されることもできる。
付属の図面との関連で読まれるときの上記の記述に鑑み、本発明の上記の例示的実施形態へのさまざまな修正、適応が当業者に明白となることがありうる。任意の、あらゆる修正がそれでも、本発明の、限定しない、例示的な実施形態の範囲内にはいる。さらに、本稿に記載される他の例示的実施形態が、上記の記述および図面に呈示される教示の恩恵をもつ当業者には思いつくであろう。
このように、本稿に開示される例示的実施形態は、本稿に記載される形の任意のもので具現されうる。たとえば、以下の付番実施例(EEE: enumerated example embodiment)は、本発明のいくつかの側面のいくつかの構造、特徴および機能を記述するものである。
〔EEE1〕
複数のオーディオ・チャネル(少なくとも二つの異なるチャネル)で構成される混合信号から源を分離する方法であって:
・互いに弱く相関している/無相関の(あるいは弱く依存し合っている/独立な)一組の成分を取得する段階であって、該一組の成分は前記複数のオーディオ信号に基づいて生成される、段階と;
・前記成分の時間周波数タイルの部分集合をもつ一組の最も優勢な方向性の源を、前記成分のこれらのタイルの前記部分集合の空間的一貫性を活用することによって、構築する段階と;
・構築された最も優勢な方向性の源に基づいて源パラメータを推定する段階であって、前記源パラメータは、空間的パラメータ(混合行列)および源スペクトル・パラメータを含み、これらのパラメータは、目標混合における前記源の統計的振る舞いを特化し(specializing)、それにより少なくとも記録および符号化可変性(variability)を含む可変性を考慮に入れる、段階と;
・収束速度を加速するよう、何らかのカオス的な初期値のために逐次反復が局所的な最大に収束することを防ぐよう、および/または特定の収束目標を強制するよう、源分離逐次反復のための源モデルを初期化する段階とを含む、
方法。
〔EEE2〕
前記一組の最も優勢な方向性の源を決定することが:
・前記一組の成分のTFタイルの空間的パラメータを推定し;
・前記空間的パラメータを用いて前記TFタイルをクラスタリングして、非常に近いクラスターどうしをマージし;
・時間を追って各クラスターを追跡し;
・前記空間的パラメータおよびスペクトル・パラメータを再規格化して、前記クラスターを用いて前記最も優勢な方向性の源を構築することを含む、
EEE1記載の方法。
〔EEE3〕
各成分におけるTFタイルの空間的パラメータを推定することが:
・前記複数のオーディオ信号の共分散行列の(PCAベースの方法のための)固有値分解を計算し、各PCA成分のTFタイルの固有ベクトルをその空間的パラメータとして割り当て、回転不定性を解消すること;
・各ICA成分の空間的パラメータとなる(ICAベースの方法のための)逆混合パラメータを推定し、回転不定性を解消すること、
のうちの少なくとも一方を含む、EEE2記載の方法。
〔EEE4〕
前記空間的パラメータを用いて前記TFタイルをクラスタリングすることが:
・最も優勢な成分について、TFタイルの距離をそれらの空間的パラメータを用いて計算し、タイルをクラスタリングし、クラスター重心を推定し;
・若干数の逐次反復工程にわたって:それほど優勢でない成分について、前に推定された重心を用いてタイルをクラスタリングすることを実行することを含み、異なる成分のTFタイルが常に異なるクラスターに属するという制約条件を加えることができる、
EEE2記載の方法。
〔EEE5〕
前記逐次反復工程が:
・いくつかの最も優勢な成分;
・直接音と周囲音の分離によって利得を適用された重み付けされた成分
のうちの少なくとも一方に対して実行される、EEE4記載の方法。
〔EEE6〕
前記空間的パラメータを用いて前記TFタイルをクラスタリングすることがさらに:
・重み付けK平均クラスタリング方法を使うことを含み、重み付け因子は、TFタイルのエネルギーと、直接音と周囲音の分離による方向性利得推定とによって、合同して決定される、
EEE2記載の方法。
〔EEE7〕
時間を追って各クラスターを追跡することは:
・現在のクラスタリングのための初期重心として、直前のフレームにおいて推定された重心を取ること;
・現在のクラスタリングのための初期重心として、前の諸フレームにおいて推定された重心の移動平均を取ること
のうちの少なくとも一方を含む、EEE2記載の方法。
〔EEE8〕
前記成分の時間周波数タイルの部分集合をもつ前記一組の最も優勢な方向性の源を構築する段階が:
・各源に、TFタイルの一つのクラスターを、それらの(重み付けされた)空間的パラメータとともに割り当てる段階であって、前記一つのクラスターは全タイルの非自明なパーティションである、段階と;
・前記源の空間的パラメータをその対応するクラスター重心となるよう推定する段階と;
・前記源スペクトラムを、その対応する空間的パラメータを前記複数のオーディオ信号の前記スペクトラムに適用することによって復元する段階とを含む、
EEE1記載の方法。
〔EEE9〕
構築された最も優勢な方向性の源に基づいて源パラメータを推定する段階が:
・復元された源スペクトラムを使って、最尤(ML)基準を最適化することに基づいてGMMパラメータを計算すること;
・可能なGMM状態の数を減らすことによって前記計算を加速するよう別のML基準を最適化することに基づいて、各時間フレームにおける各源の最も確からしい状態を推定すること、
の少なくとも一方を含む、
EEE1記載の方法。
〔EEE10〕
構築された最も優勢な方向性の源に基づいて源パラメータを推定する段階が:
・期待値段階の最初の反復工程について、復元された源スペクトラムを使って共分散行列を計算することであって、それにより前記源のパワー・スペクトログラムは前記行列の対角要素を含む、こと;
・最大化段階の最初の反復工程について、NMFを使って前記源のパワー・スペクトログラムをモデル化し、各源の非負行列を初期化し、前記重み付けされた固有ベクトルを使って前記混合行列を初期化すること;
・スケール不定性を解消するために前記源パラメータを規格化すること;
・NMFベースのBSSのために次のEM反復工程を上記の初期化されたモデル・パラメータを用いて続けること、
のうちの少なくとも一つを含む、EEE1記載の方法。
〔EEE11〕
特定の収束目標を強制するよう、源分離逐次反復のための源モデルを初期化する段階が:
・各源の再構成された音および位置(混合パラメータによって反映される)をグラフィカル・ユーザー・インターフェース(GUI)を通じて表現すること;
・ユーザーが一つまたは複数の目標源を選択するおよび/またはそのアクティブ化時間をマークした後に、意図される源スナップショットを前記GUIを通じて生成すること;
・前記意図された源スナップショットに基づいて、明示的な構造/位置/時間制約条件の少なくとも一つを用いて目標源をさらに洗練するために、情報を与えられての源分離逐次反復を適用すること
のうちの少なくとも一つを含む、EEE1記載の方法。
本稿に開示される例示的実施形態は開示される特定の実施形態に限定されず、修正や他の実施形態が付属の請求項の範囲内に含まれることが意図されていることは理解されるであろう。本稿では個別的な用語が使われているが、それらは一般的で記述的な意味において使われているだけであり、限定のためではない。

Claims (19)

  1. オーディオ・コンテンツから源を分離する方法であって、前記オーディオ・コンテンツは複数のチャネルに基づくマルチチャネル・フォーマットのものであり、当該方法は:
    前記複数のチャネルを使って各周波数帯域について前記オーディオ・コンテンツに対する主成分解析(PCA)を実行して、複数の成分を生成する段階であって、前記複数の成分の各成分はフル周波数帯域における複数の時間周波数タイルを含む、段階と;
    前記複数の成分から前記時間周波数タイルのうち少なくとも一つをもつ少なくとも一つの優勢源を生成する段階と;
    前記優勢源に基づいて空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツから源を分離する段階とを含み、
    少なくとも一つの優勢源を生成することは:
    複数の固有ベクトルを少なくとも一つのグループにクラスタリングする段階であって、各グループは複数の時間周波数タイルを含み、前記複数の固有ベクトルは前記複数のPCA成分から生成される、段階と;
    時間を追って前記グループを追跡することによって前記優勢源を生成する段階とを含む、
    方法。
  2. 前記固有ベクトルを少なくとも一つのグループにクラスタリングすることが:
    前記成分のすべてにおいてあらかじめ定義されたクラスタリング閾値以内の、初期値に対する差をもつ固有ベクトルを前記グループにクラスタリングすることを含む、
    請求項1記載の方法。
  3. 前記固有ベクトルを少なくとも一つのグループにクラスタリングすることが:
    前記初期値と、前記複数の時間周波数タイルの直接性および前記複数の時間周波数タイルのエネルギー・レベルのうちの少なくとも一方とに基づいて、前記グループについての重心を推定することを含む、
    請求項2記載の方法。
  4. 時間を追って前記グループを追跡することによって前記優勢源を生成することが:
    現在の時間フレームについての初期値として、前の時間フレームについての推定された重心を割り当てること;または
    現在の時間フレームについての初期値として、前の諸時間フレームにおいて推定された移動平均重心を割り当てること、
    のうち少なくとも一方を含む、請求項3記載の方法。
  5. 空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツから源を分離することが:
    前記優勢源についての固有値の重心を推定し;
    それらの重心に基づいて前記複数の成分のそれぞれの中の時間周波数タイルの空間的パラメータを推定し;
    それらの重心に基づいて前記複数の成分のそれぞれの中の時間周波数タイルのスペクトル・パラメータを推定することを含む、
    請求項1記載の方法。
  6. 空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツから源を分離することがさらに:
    前記スペクトル・パラメータに基づいてガウシアン混合モデル・パラメータを計算し;
    前記ガウシアン混合モデル・パラメータ、前記空間的パラメータおよび前記スペクトル・パラメータに基づいて各時間フレームにおける各源について最も確からしい状態を推定することを含む、
    請求項5記載の方法。
  7. 空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツから源を分離することがさらに:
    混合パラメータおよびスペクトラム・パラメータについて初期化プロセスを実行し;
    EM逐次反復プロセスによって前記スペクトラム・パラメータおよび前記混合パラメータを更新することを含む、
    請求項5記載の方法。
  8. 前記初期化プロセスを実行することが:
    前記空間的パラメータに基づいて混合パラメータを初期化すること;または
    前記スペクトル・パラメータに基づいてスペクトラム・パラメータを計算すること
    のうちの少なくとも一方を含む、請求項7記載の方法。
  9. 当該方法がさらに:
    前記優勢源についての前記スペクトル・パラメータおよび前記空間的パラメータに基づいて前記オーディオ・コンテンツの源を再構成する段階と;
    再構成された源をグラフィカル・ユーザー・インターフェースを通じて表現する段階とを含む、
    請求項1記載の方法。
  10. オーディオ・コンテンツから源を分離するシステムであって、前記オーディオ・コンテンツは複数のチャネルに基づくマルチチャネル・フォーマットのものであり、当該システムは:
    前記複数のチャネルを使って各周波数帯域について前記オーディオ・コンテンツに対する主成分解析(PCA)を実行して、複数の成分を生成するよう構成された成分解析ユニットであって、前記複数の成分の各成分はフル周波数帯域における複数の時間周波数タイルを含む、成分解析ユニットと;
    前記複数の成分から前記時間周波数タイルのうち少なくとも一つをもつ少なくとも一つの優勢源を生成するよう構成された源生成ユニットと;
    前記優勢源に基づいて空間的パラメータおよびスペクトル・パラメータを推定することによって、前記オーディオ・コンテンツから源を分離するよう構成された源分離ユニットとを有しており、
    前記源生成ユニットは:
    複数の固有ベクトルを少なくとも一つのグループにクラスタリングするよう構成されたクラスタリング・ユニットであって、各グループは複数の時間周波数タイルを含み、前記複数の固有ベクトルは前記複数のPCA成分から生成される、クラスタリング・ユニットと;
    時間を追って前記グループを追跡することによって前記優勢源を生成するよう構成された追跡ユニットとを有する、
    システム。
  11. 前記クラスタリング・ユニットが、前記成分のすべてにおいてあらかじめ定義されたクラスタリング閾値以内の、初期値に対する差をもつ固有ベクトルを前記グループにクラスタリングするよう構成されている、請求項10記載のシステム。
  12. 前記クラスタリング・ユニットがさらに:
    前記初期値と、前記複数の時間周波数タイルの直接性および前記複数の時間周波数タイルのエネルギー・レベルのうちの少なくとも一方とに基づいて、各クラスターについての重心を推定するよう構成されている、
    請求項11記載のシステム。
  13. 前記追跡ユニットが:
    現在の時間フレームについての初期値として、前の時間フレームについての推定された重心を割り当てるよう構成された前の重心割り当てユニット;または
    現在の時間フレームについての初期値として、前の諸時間フレームにおいて推定された移動平均重心を割り当てるよう構成された移動平均重心割り当てユニット
    の少なくとも一方を有する、請求項12記載のシステム。
  14. 前記源分離ユニットが:
    前記優勢源についての固有値の重心を推定するよう構成された重心推定ユニットと;
    それらの重心に基づいて前記複数の成分のそれぞれの中の時間周波数タイルの空間的パラメータを推定するよう構成された空間的源分離ユニットと;
    それらの重心に基づいて前記複数の成分のそれぞれの中の時間周波数タイルのスペクトル・パラメータを推定するよう構成されたスペクトル源分離ユニットとを有する、
    請求項10記載のシステム。
  15. 前記源分離ユニットがさらに:
    前記スペクトル・パラメータに基づいてガウシアン混合モデル・パラメータを計算するよう構成されたガウシアン混合モデル・パラメータ計算ユニットと;
    前記ガウシアン混合モデル・パラメータ、前記空間的パラメータおよび前記スペクトル・パラメータに基づいて各時間フレームにおける各源について最も確からしい状態を推定するよう構成された状態推定ユニットとを有する、
    請求項14記載のシステム。
  16. 前記源分離ユニットがさらに:
    混合パラメータおよびスペクトラム・パラメータについて初期化プロセスを実行するよう構成された初期化ユニットと;
    EM逐次反復プロセスによって前記スペクトラム・パラメータおよび前記混合パラメータを更新するよう構成されたパラメータ更新ユニットとを有する、
    請求項14記載のシステム。
  17. 前記初期化ユニットが:
    前記空間的パラメータに基づいて混合パラメータを初期化するよう構成されたパラメータ初期化ユニット;または
    前記スペクトル・パラメータに基づいてスペクトラム・パラメータを計算するよう構成されたスペクトラム・パラメータ計算ユニット
    のうちの少なくとも一方を有する、請求項16記載のシステム。
  18. 当該システムがさらに:
    前記優勢源についての前記スペクトル・パラメータおよび前記空間的パラメータに基づいて前記オーディオ・コンテンツの源を再構成するよう構成された源再構成ユニットと;
    再構成された源をグラフィカル・ユーザー・インターフェースを通じて表現するよう構成された源表現ユニットとを有する、
    請求項10記載のシステム。
  19. オーディオ・コンテンツから源を分離するためのコンピュータ・プログラム・プロダクトであって、当該コンピュータ・プログラム・プロダクトは非一時的なコンピュータ可読媒体上に有体に記憶されており、実行されたときに請求項1ないし9のうちいずれか一項記載の方法の段階を機械に実行させる機械実行可能命令を有する、コンピュータ・プログラム・プロダクト。
JP2017541932A 2015-02-16 2016-02-11 オーディオ源の分離 Active JP6668366B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201510085195.9A CN105989852A (zh) 2015-02-16 2015-02-16 分离音频源
CN201510085195.9 2015-02-16
US201562121125P 2015-02-26 2015-02-26
US62/121,125 2015-02-26
PCT/US2016/017591 WO2016133785A1 (en) 2015-02-16 2016-02-11 Separating audio sources

Publications (2)

Publication Number Publication Date
JP2018508823A true JP2018508823A (ja) 2018-03-29
JP6668366B2 JP6668366B2 (ja) 2020-03-18

Family

ID=56692438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017541932A Active JP6668366B2 (ja) 2015-02-16 2016-02-11 オーディオ源の分離

Country Status (5)

Country Link
US (1) US10176826B2 (ja)
EP (1) EP3259755B1 (ja)
JP (1) JP6668366B2 (ja)
CN (2) CN105989852A (ja)
WO (1) WO2016133785A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018036526A (ja) * 2016-08-31 2018-03-08 株式会社東芝 信号処理システム、信号処理方法およびプログラム

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3175456B1 (en) * 2014-07-31 2020-06-17 Koninklijke KPN N.V. Noise suppression system and method
CN109074818B (zh) * 2016-04-08 2023-05-05 杜比实验室特许公司 音频源参数化
US11152014B2 (en) 2016-04-08 2021-10-19 Dolby Laboratories Licensing Corporation Audio source parameterization
US10410641B2 (en) * 2016-04-08 2019-09-10 Dolby Laboratories Licensing Corporation Audio source separation
CN106409286A (zh) * 2016-09-23 2017-02-15 努比亚技术有限公司 一种实现音频处理的方法及装置
US10349196B2 (en) * 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
JP6591477B2 (ja) * 2017-03-21 2019-10-16 株式会社東芝 信号処理システム、信号処理方法及び信号処理プログラム
CN110603587A (zh) * 2017-05-08 2019-12-20 索尼公司 信息处理设备
WO2018208560A1 (en) * 2017-05-09 2018-11-15 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
CN110800048B (zh) 2017-05-09 2023-07-28 杜比实验室特许公司 多通道空间音频格式输入信号的处理
KR102622714B1 (ko) * 2018-04-08 2024-01-08 디티에스, 인코포레이티드 앰비소닉 깊이 추출
CN110827843B (zh) * 2018-08-14 2023-06-20 Oppo广东移动通信有限公司 音频处理方法、装置、存储介质及电子设备
US11765536B2 (en) 2018-11-13 2023-09-19 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
JP7245669B2 (ja) * 2019-02-27 2023-03-24 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム
WO2020172831A1 (en) * 2019-02-28 2020-09-03 Beijing Didi Infinity Technology And Development Co., Ltd. Concurrent multi-path processing of audio signals for automatic speech recognition systems
US11347941B2 (en) * 2019-04-30 2022-05-31 Marvell Asia Pte, Ltd. Methods and apparatus for compressing data streams
CN110148422B (zh) * 2019-06-11 2021-04-16 南京地平线集成电路有限公司 基于传声器阵列确定声源信息的方法、装置及电子设备
CN112185411B (zh) * 2019-07-03 2024-08-06 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和电子设备
BR112022000806A2 (pt) * 2019-08-01 2022-03-08 Dolby Laboratories Licensing Corp Sistemas e métodos para atenuação de covariância
CN110491409B (zh) * 2019-08-09 2021-09-24 腾讯科技(深圳)有限公司 混合语音信号的分离方法、装置、存储介质及电子装置
JP7450911B2 (ja) * 2019-12-05 2024-03-18 国立大学法人 東京大学 音響解析装置、音響解析方法及び音響解析プログラム
GB2590650A (en) * 2019-12-23 2021-07-07 Nokia Technologies Oy The merging of spatial audio parameters
JP7443823B2 (ja) * 2020-02-28 2024-03-06 ヤマハ株式会社 音響処理方法
EP3873112A1 (en) * 2020-02-28 2021-09-01 Nokia Technologies Oy Spatial audio
GB2595871A (en) * 2020-06-09 2021-12-15 Nokia Technologies Oy The reduction of spatial audio parameters
GB2598932A (en) * 2020-09-18 2022-03-23 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
US11783847B2 (en) * 2020-12-29 2023-10-10 Lawrence Livermore National Security, Llc Systems and methods for unsupervised audio source separation using generative priors
CN113593597B (zh) * 2021-08-27 2024-03-19 中国电信股份有限公司 语音噪声过滤方法、装置、电子设备和介质
CN113835068B (zh) * 2021-09-22 2023-06-20 南京信息工程大学 一种基于独立成分分析的盲源分离实时抗主瓣干扰方法
CN116389970B (zh) * 2021-12-22 2024-09-10 比亚迪股份有限公司 多类型音源独立声道输出方法、soc芯片及汽车

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008304555A (ja) * 2007-06-05 2008-12-18 Panasonic Electric Works Co Ltd 音響入力装置
JP2010054728A (ja) * 2008-08-27 2010-03-11 Hitachi Ltd 音源抽出装置
JP2014215385A (ja) * 2013-04-24 2014-11-17 日本電信電話株式会社 モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム
WO2014204997A1 (en) * 2013-06-18 2014-12-24 Dolby Laboratories Licensing Corporation Adaptive audio content generation

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424960B1 (en) 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US7567845B1 (en) 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
KR100486736B1 (ko) 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US7565213B2 (en) * 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
US8898056B2 (en) 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
EP2148321B1 (en) 2007-04-13 2015-03-25 National Institute of Advanced Industrial Science and Technology Sound source separation system, sound source separation method, and computer program for sound source separation
US8340437B2 (en) 2007-05-29 2012-12-25 University Of Iowa Research Foundation Methods and systems for determining optimal features for classifying patterns or objects in images
CN101981811B (zh) * 2008-03-31 2013-10-23 创新科技有限公司 音频信号的自适应主体-环境分解
JP5277887B2 (ja) 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
US20100138010A1 (en) 2008-11-28 2010-06-03 Audionamix Automatic gathering strategy for unsupervised source separation algorithms
US20100174389A1 (en) * 2009-01-06 2010-07-08 Audionamix Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
WO2011029048A2 (en) 2009-09-04 2011-03-10 Massachusetts Institute Of Technology Method and apparatus for audio source separation
JP5452158B2 (ja) 2009-10-07 2014-03-26 株式会社日立製作所 音響監視システム、及び音声集音システム
CN102194458B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 频带复制方法、装置及音频解码方法、系统
JP5706782B2 (ja) 2010-08-17 2015-04-22 本田技研工業株式会社 音源分離装置及び音源分離方法
US9940546B2 (en) * 2011-04-05 2018-04-10 The Regents Of The University Of California Apparatus and method for signal extraction and separation
US8812322B2 (en) * 2011-05-27 2014-08-19 Adobe Systems Incorporated Semi-supervised source separation using non-negative techniques
US9462399B2 (en) 2011-07-01 2016-10-04 Dolby Laboratories Licensing Corporation Audio playback system monitoring
EP2544466A1 (en) 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor
JP5942420B2 (ja) 2011-07-07 2016-06-29 ヤマハ株式会社 音響処理装置および音響処理方法
CN102522093A (zh) * 2012-01-09 2012-06-27 武汉大学 一种基于三维空间音频感知的音源分离方法
US9357293B2 (en) 2012-05-16 2016-05-31 Siemens Aktiengesellschaft Methods and systems for Doppler recognition aided method (DREAM) for source localization and separation
WO2014147442A1 (en) 2013-03-20 2014-09-25 Nokia Corporation Spatial audio apparatus
WO2014195132A1 (en) 2013-06-05 2014-12-11 Thomson Licensing Method of audio source separation and corresponding apparatus
US20170178664A1 (en) * 2014-04-11 2017-06-22 Analog Devices, Inc. Apparatus, systems and methods for providing cloud based blind source separation services
CN105336332A (zh) 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
US10726326B2 (en) * 2016-02-24 2020-07-28 International Business Machines Corporation Learning of neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008304555A (ja) * 2007-06-05 2008-12-18 Panasonic Electric Works Co Ltd 音響入力装置
JP2010054728A (ja) * 2008-08-27 2010-03-11 Hitachi Ltd 音源抽出装置
JP2014215385A (ja) * 2013-04-24 2014-11-17 日本電信電話株式会社 モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム
WO2014204997A1 (en) * 2013-06-18 2014-12-24 Dolby Laboratories Licensing Corporation Adaptive audio content generation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018036526A (ja) * 2016-08-31 2018-03-08 株式会社東芝 信号処理システム、信号処理方法およびプログラム

Also Published As

Publication number Publication date
US20180240470A1 (en) 2018-08-23
WO2016133785A1 (en) 2016-08-25
CN105989852A (zh) 2016-10-05
EP3259755B1 (en) 2021-06-02
US10176826B2 (en) 2019-01-08
CN107251138A (zh) 2017-10-13
CN107251138B (zh) 2020-09-04
JP6668366B2 (ja) 2020-03-18
EP3259755A1 (en) 2017-12-27

Similar Documents

Publication Publication Date Title
JP6668366B2 (ja) オーディオ源の分離
US11470437B2 (en) Processing object-based audio signals
JP6400218B2 (ja) オーディオ源の分離
JP6330034B2 (ja) 適応的なオーディオ・コンテンツの生成
US10200804B2 (en) Video content assisted audio object extraction
US20240205631A1 (en) Spatial Audio Processing
Seetharaman et al. Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures
EP3074972A1 (en) Audio object extraction
JP6654195B2 (ja) オーディオ・コンテンツからの投影ベースのオーディオ・オブジェクト抽出
Chowdhury et al. Adverb: Visually guided audio dereverberation
CN106385660B (zh) 处理基于对象的音频信号

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200226

R150 Certificate of patent or registration of utility model

Ref document number: 6668366

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250