JP2017520784A - オンザフライの音源分離の方法及びシステム - Google Patents

オンザフライの音源分離の方法及びシステム Download PDF

Info

Publication number
JP2017520784A
JP2017520784A JP2016567726A JP2016567726A JP2017520784A JP 2017520784 A JP2017520784 A JP 2017520784A JP 2016567726 A JP2016567726 A JP 2016567726A JP 2016567726 A JP2016567726 A JP 2016567726A JP 2017520784 A JP2017520784 A JP 2017520784A
Authority
JP
Japan
Prior art keywords
speech
audio
samples
database
mixture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016567726A
Other languages
English (en)
Inventor
カン ゴク ズオン,クアン
カン ゴク ズオン,クアン
オゼロフ,アレクセイ
エルバダヴィー,ダリア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2017520784A publication Critical patent/JP2017520784A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data

Abstract

音源分離の方法及びシステム(20)が記載される。方法は、音声混合及び音声混合に関連する少なくとも1つのテキストクエリを受け取ること(10)と、補助音声データベースから少なくとも1つの音声サンプルを取り出すこと(11)と、取り出された前記音声サンプルを評価すること(12)と、音声サンプルを用いて音声混合を複数の音源に分離すること(13)とを有する。対応するシステム(20)は、方法を実装するよう構成された受信ユニット(21)及びプロセッサ(22)を有する。

Description

本発明は、音源分離の方法及びシステムに関係がある。特に、方法及びシステムは、テキスト及び例を併用した、音源分離のためのアプローチを利用する。本発明は、そのような方法又はシステムに適したコンピュータ可読媒体に更に関係がある。
音源分離は、音声混合(audio mixture)をその構成音源に分解することに関係している。それは、音声/発話の強化、ポストプロダクション(post-production)、3D音声、などにおいて幅広い用途を提供する。とりわけ、ブラインド信号源分離(BSS;Blind Source Separation)は、音源、混合、及び/又は混合を生成するミキシングプロセスに関する情報なしで音源分離が実施されると仮定する。他方で、インフォームド信号源分離(ISS;Informed Source Separation)は、音源分離が何らかの補助情報からの指針に基づき実施されることを可能にする。
指針に基づいた音源分離のための既存のアプローチの大部分は、例に基づく(example-based)方法である。そのようなアプローチのための必要条件は、対象の音源と類似したいくつかの音声サンプルを前もって取得することである。これは、通常は面倒であり、必ずしも可能とは限らない。音声例が前もって入手可能でない場合に、代わりに、簡単なテキストクエリが、音声ファイルを検索するために使用され得る。音源分離のためのこのテキストクエリに基づくアプローチは、ユーザが音声混合を聴いて、例えば、彼らが分離したいものを記述する語を提供する必要しかないので、ユーザにとってより簡単であり且つより効率的である。しかし、テキストクエリに基づくアプローチについては、下記の非特許文献12において記載されているが、今までのところ、ノイジーな又は代表的でない検索された例を効率良く扱うことができる実際的な解決法は存在しない。
例に基づく音源分離のために、単チャネル源分離は、劣決定(underdetermined)問題であり、よって、最も困難な問題の1つである。いくつかのアルゴリズムは、個々の音源を音声混合から分離するために、それら個々の音源の予め学習されたスペクトル特性を考慮に入れることを提案している。これを達成するためには、個々の対象源のスペクトル特性を学習し示すよう予備的なトレーニングデータを取得する必要がある。指針に基づいたアルゴリズムの類は、非負値行列因子分解(NMF;non-negative matrix factorization)(下記の非特許文献1〜3を参照)又は確率潜在コンポーネント分析(PLCA;probabilistic latent component analysis)(下記の非特許文献4、5を参照)として知られているその確率論的定式化に基づき提案されている。それでもなお、トレーニングデータが利用可能でないか、あるいは、音源にとって十分に代表的でない場合に、上記の方法は、信号源からの他の補助情報なしでは適用不可能となる。補助情報は、例えば、混合に含まれる信号源によく似る“ハム(hummed)”音(下記の非特許文献5を参照)、又は対応する音声混合のテキスト・トランスクリプション(transcription(s))(下記の非特許文献6を参照)を含む。
音源分離のためにNMFに基づく、ユーザによる指揮下のアプローチは、最近提案されており(下記の非特許文献7を参照。)、これによって、音源分離プロセスの全体は、いくつかの相互に作用する分離ステップを有してよい。そのようなアプローチは、エンドユーザが夫々の音源のアクティビティに関する情報に手動により注釈を付すことを可能にする。注釈付き情報は、上記のトレーニングデータの代わりに、信号源分離プロセスを導くために使用される。加えて、ユーザは、分離結果をレビューし、そのエラーを、分離プロセスの間に中間分離結果のスペクトログラム表示に注釈を付すことによって、補正することができる。
しかし、上記のユーザによる指揮下の相互作用的アプローチには、ユーザが、音源の特性を手動により特定して分離プロセスと相互作用するために、音源スペクトログラム及び音声信号処理に関していくらかの最小限の知識を有することが求められる。言い換えると、音源分離の任意の相互作用及び干渉は、エンドユーザにとって容易でも実際的でもない。加えて、注釈を付すプロセスは、プロのオペレータでさえ時間がかかる。
D. L. Sun and G. J. Mysore,"Universal Speech Models for Speaker Independent Single Channel Source Separation",IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP),May 2013 A. Lefevre, F. Bach, and C. Fevotte,"Itakura-Saito Non-negative Matrix Factorization with Group Sparsity",ICASSP 2011 C. Fevotte, N. Bertin, and J. Durrieu,"Non-negative Matrix Factorization with the Itakura-Saito divergence. With Application to Music Analysis",Neural Computation Vol.21 No.3,March 2009 P. Smaragdis, B. Raj, and M. Shashanka,"Supervised and semi-supervised separation of sounds from single-channel mixtures",in Proc. Int. Conf. on Independent Component Analysis and Signal Separation (ICA),2007,pp.414-421 P. Smaragdis and G. J. Mysore,"Separation by humming: User-guided sound extraction from monophonic mixtures",in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA),2009,pp.69-72 L. L. Magoarou, A. Ozerov, and N. Q. K. Duong,"Text-informed audio source separation using nonnegative matrix partial co-factorization",in Proc. Int. Workshop on Machine Learning for Signal Processing (MLSP),2013 N. Q. K. Duong, A. Ozerov, L. Chevallier, and J. Sirot,"An interactive audio source separation framework based on nonnegative matrix factorization",Proc. ICASSP 2014 N. Q. K. Duong, A. Ozerov, and L. Chevallier,"Method of audio source separation and corresponding apparatus",European Patent Application No.13305759.6 N. Q. K. Duong, A. Ozerov, and L. Chevallier,"Temporal annotation based audio source separation using weighted nonnegative matrix factorization",Proc. IEEE ICCE-Berlin, submitted,2014 N. Q. K. Duong, E. Vincent and R. Gribonval,"Under-determined reverberant audio source separation using a full-rank spatial covariance model",IEEE Transactions on Audio, Speech and Language Processing, Special Issue on Processing Reverberant Speech,Vol.18,No.7,pp.1830-1840,Sep. 2010 S Arberet, A. Ozerov, N Q. K Duong, E. Vincent, R Gribonval, F. Bimbot and P Vandergheynst,"Nonnegative matrix factorization and spatial covariance model for under-determined reverberant audio source separation",Proc. International Conference on Information Science, Signal Processing and their Applications(ISSPA. IEEE),2010
本発明の目的は、特に、経験のないエンドユーザが信号源分離タスクを容易に実施することができるようにユーザ・インタラクションの簡素化に対して、音源分離のための改善された解決法を提案することである。
本発明の第1の態様に従って、音源分離の方法は:音声混合及び該音声混合に関連する少なくとも1つのテキストクエリを受け取り;前記テキストクエリを補助音声データベースに関連する意味情報と照合することによって、前記補助音声データベースから少なくとも1つの音声サンプルを取り出し;前記補助音声データベースから取り出された前記音声サンプルを評価し;前記取り出された音声サンプルを用いて前記音声混合を複数の音源に分離することを有する。本発明の一実施形態において、前記音声サンプルを評価すること及び前記音声混合を分離することは、非負値行列因子分解を前記音声混合及び前記音声サンプルに適用することによって一緒に実行される。
然るに、音源分離の上記方法を実装するよう構成されたシステムは:音声混合及び該音声混合に関連する少なくとも1つのテキストクエリを受け取るよう構成される受信ユニットと、前記テキストクエリを補助音声データベースに関連する意味情報と照合することによって前記補助音声データベースから少なくとも1つの音声サンプルを取り出し、前記補助音声データベースから取り出された前記音声サンプルを評価し、前記音声サンプルを用いて前記音声混合を複数の音源に分離するよう構成されるプロセッサとを有する。
また、音声混合のための音源分離のための命令を記憶しているコンピュータ可読媒体において、前記命令は、コンピュータによって実行される場合に、該コンピュータに:音声混合及び該音声混合に関連する少なくとも1つのテキストクエリを受け取らせ、前記テキストクエリを補助音声データベースに関連する意味情報と照合することによって、前記補助音声データベースから少なくとも1つの音声サンプルを取り出させ、前記補助音声データベースから取り出された前記音声サンプルを評価させ、前記音声サンプルを用いて前記音声混合を複数の音源に分離させる。
本発明の音源分離の方法は、プロセスを簡単にし、且つ、音源分離の結果を改善する。テキスト及びサンプルを併用したアプローチによれば、エンドユーザは、混合に含まれる音響を記述するテキストクエリ又は発話音声クエリを単に提供することによって、音源分離指揮するようシステムと容易に相互作用することができる。発話音声クエリを提供する場合に、発話−テキストインターフェイスは、発話音声クエリをテキストクエリへ変換するために使用される。事前に取り出された音声サンプルの評価は、より良くトレーニングされた信号源サンプルの提供とともに、その後の音源分離を改善する。信号源サンプルの評価及び音声混合の信号源分離が一緒に実行されるところの本発明の一実施形態において、音源分離のプロセス全体は、より効率的になる。
より良い理解のために、本発明は、これより、図を参照して以下の説明において更に詳細に説明されるだろう。本発明は、この開示されている例となる実施形態に制限されないこと、及び特定の特徴はまた、添付の特許請求の範囲で定義されている本発明の適用範囲から逸脱することなしに便宜上組み合わされ及び/又は変更され得ることが理解される。
本発明に従う音源分離の方法の好適な実施形態を表すフローチャートである。 本発明に従う方法の信号源分離段の一実施形態を表すフローチャートである。 NMF分解を示す例となる図である。 本発明に従う方法の他の好適な実施形態を表すフローチャートである。 NMF適用の最適化関数定式化におけるトレードオフ・パラメータλが繰り返しプロセスの間に適応変更される一実施形態を表す図である。 本発明のNMF適用のためのグループスパース性ペナルティアプローチの効果を示す例となる図である。 本発明のNMF適用のための、グループ及び行の組み合わせによるスパース性ペナルティアプローチの効果を示す例となる図である。 本発明に従う音源分離の方法を実装するシステムを表す概略図である。
図1を参照すると、本発明に従う音源分離の方法の1つの好適な実施形態は、音声混合及び音声混合に関連する少なくとも1つのテキストクエリを受け取ること10と、テキストクエリを補助音声データベースに関連する意味情報と照合することによって、補助音声データベースから少なくとも1つの音声サンプルを取り出すこと11と、補助音声データベースから取り出された音声サンプルを評価すること12と、音声サンプルを用いて音声混合を複数の音源に分離すること13とを有する。音源分離の方法は、システムにおいて、及び/又はプロセッサ、サーバ若しくはあらゆる適切なデバイスによって、実施され得る。
テキストクエリは、ユーザ入力デバイス又は同様のもの、例えば、タイピングデバイス又はリモートコントロールを通じて、ユーザによって提供され得る。ユーザは、音声混合を聴き、音声混合に含まれている音源を識別し、次いで、テキストクエリを任意に提供する。代替的に、テキストクエリは、発話−テキスト又は同様の技術を実施するデバイスによって直接に提供され得る。テキストクエリは、望ましくは、音声混合に含まれている音源、例えば、犬の鳴き声、鳥のさえずり、など、及び/又は発話コンテキストのような音声混合のテキストコンテンツを記述する。加えて、サンプルレート、チャネルの数、音声ファイルのタイプ(wav、mp3、など)のような他の特定のパラメータも、テキストクエリに含まれ、それと結合され得る。各パラメータは、個々の又はいくつかの音源を参照する。当然、テキストクエリの長さ、形式及び/又は他の特性は制限されず、種々の要求ごとに柔軟である。
テキストクエリは、その後に、補助データベースからの音声サンプルの音声取り出し11のために使用される。補助音声データベースは、何らかの意味情報(semantic information)に関連したデータベースである。意味情報は、望ましくは、データベースの音声データの内容を識別する。当然、意味情報は、タグ、ファイル名、対応するウェブページ、などのような、信号源分離において適用される如何なる形式も有することができる。望ましくは、補助データベースは、Google(登録商標)及びFindsoundsのようなオープン検索エンジンのように、公の、且つ、容易にアクセス可能なデータベースである。この場合に、取り出された音声サンプルは、更なる処理のためにローカルでダウンロード可能であり、且つ/あるいは、URLのリストは、補助データベースによって供給され得る。代替的に、補助データベースはまた、音源分離の準備として、ローカル又はあらゆるタイプのデータベースであることもできる。
補助データベースに関連した少なくとも何らかの意味情報が存在するので、音声サンプルの取り出しは、受け取られたテキストクエリを補助データベースの意味情報と照合することによって実施される。言い換えると、音声サンプルの音声取り出しは、当該分野における如何なる既知のテキストに基づく音声検索技術に基づいても実施され得る。
取り出された音声サンプルを評価すること12は、ローカルサーバ又は補助データベースのプロバイダのいずれかによって、様々な基準に基づき実施され得る。然るに、音声混合のその後の分離13は、音声サンプルの評価結果に従って、全ての取り出された音声サンプル又はそのサブセットのみを用いて実施され得る。音声サンプルの評価12は、異なるアルゴリズムを含むいくつかの方法によって実現され得る。
本発明の一実施形態において、音声サンプルを取り出すこと11及び評価すること12は、補助データベースのプロバイダによって行われる。補助データベース、例えば、インターネット検索エンジンは、音声サンプルのリストを供給する。リスト内の音声サンプルは、提供されたテキストクエリとのそれらの一致に従って順位付けされる。音声サンプルの連続は、任意で、最も良く一致するものから始まって最も一致しないもので終わる。任意に、一定数の最良一致が、その後の音声分離のために使用される。例えば、ユーザは、上位3つの音声サンプルのみを使用し、残りを除外すると決めることができる。加えて、ユーザは、一致スコアに基づき、異なる重みを夫々のサンプルに割り当てることができる。
本発明の一実施形態において、音声サンプルは、受け取られた音声混合とのそれらの相関に従って順位付けされる。音声サンプルは、音声混合と時間的に相互相関され、出力は、個々の音声サンプルごとのスコアを得るよう集約される。例えば、より高いスコアは、音声混合との音声サンプルのより良い一致を表すことができる。同様に、音声サンプルのサブセットは、その後の音源分離のために選択され得る。
本発明の他の実施形態において、音声サンプルは、音声特徴類似に従って順位付けされる。音声特徴類似は、音声サンプルと音声混合との間のよりロバストな照合を提供することができる。最初に、スペクトル中心(spectral centroid)、メル周波数ケプストラム係数(MFCC;Mel-frequency cepstrum coefficient)、スペクトラム拡散、スペクトルバンドエネルギ、などのような音声特徴は、取り出された音声サンプル及び音声混合から夫々抽出される。抽出された特徴に基づき、音声サンプル及び音声混合についての特徴ベクトルが夫々計算され、正規化相互相関(normalized cross correlation)によって比較される。この場合に、音声サンプル及び音声混合は、それらの生の信号よりむしろ、導出された特徴ベクトルに従って、特に比較及び照合される。特徴ベクトルに代わるものとして、音声サンプル及び音声混合のバッグ・オブ・ワーズ(bag-of-words)表現が抽出可能であり、その後に、相関、コサイン類似又は他の距離メトリクスを用いた音声サンプルと音声混合との比較が続く。
当然、他の代替の方法も、補助データベースから取り出された音声サンプルの評価12のために使用可能である。更には、音声サンプルの評価12の後に、重み付けされた非負値行列因子分解(上記の非特許文献8、9を参照)が、より高く順位付けされた音声サンプルにはより大きい重みが与えられて、任意で適用され得る。
図2は、本発明に従う方法の信号源分離段階の1つの好適な実施形態を表す。以下の明細書では、NMFモデルに基づく方法が、簡単のために、例として説明される点が留意されるべきである。オンザフライ(on-the-fly)の信号源分離の方法及びシステムは、確率潜在コンポーネント分析(PLCA)(上記の非特許文献4、5を参照)又はガウス混合モデル(GMM;Gaussian Mixture Model)などのような他のスペクトルモデルも使用することができる。
最初に、評価された音声サンプルは、短時間フーリエ変換(STFT;Short-time Fourier Transform)を介して時間−周波数表現へ変換され、そして、音声サンプルのSTFT係数(スペクトログラム、行列としても知られる。)の振幅又は二乗振幅が使用される。この行列は、音源のスペクトル特性を記述するスペクトルモデル行列(W)、及び時間アクティベーション行列(time activation matrix)(H)を求めるよう、非負値行列因子分解(NMF)アルゴリズムによって因子分解される。スペクトル行列Wは学習され、STFTを介して変換されることによって同じく取得される音声混合のスペクトログラムの因子分解を導くために使用される。スペクトル行列の部分又は全ての列が音声例からの事前学習されたものによって定められる音声混合のスペクトログラムにNMFを適用することによって、音源の推定されるSTFT係数は、よく知られたウィナー(Wiener)フィルタリングによって求められる。最後に、逆(inverse)STFT(ISTFT)が、信号源の時間領域推定を求めるよう適用され、それにより、信号源は、例えば、ウェーブファイル(wave file)として、セーブされ得る。
本発明の方法の好適な実施形態は、NMFモデルを実装する。NMFの従来の定式化は、
〈外1〉
Figure 2017520784
として定義され得る。ここで、Vは、次元F×Nの非負値行列である。NMFの目標は、夫々次元F×K及びK×Nの2つの簡単な非負値行列W及びHの積として行列Vを近似することであり、誤差は、行列VがW・Hによって近似的に再構成される場合に最小限にされる。近似の誤差は、様々な費用関数を用いて測定され得る。
NMFの定式化、すなわち、
〈外2〉
Figure 2017520784
を適用すると、本発明の実施形態において、Vは、音声混合の非負値スペクトログラム行列を表し、これは、入力混合信号の時間−周波数表現である。W及びHは、音源のスペクトルアトム(spectral atom(s))及びそれらの対応するアクティベーション(activation(s))を夫々表す。Fは、全ての周波数ビンを表し、Nは、時間フレームの数であり、Kは、音源のスペクトル特性を記述するスペクトル基底であるNMF成分の数を表す。言い換えると、NMFは、行列Wの異なる列(及び行列Hの対応する行)を音源と関連付けることによって、単チャネル音声混合を分離することができる。図3は、分解の例を示す。
目的は、このように、次の最適化問題を解くことによって、近似誤差を最小限にすることである:
Figure 2017520784
ここで、
Figure 2017520784
ここで、d(.|.)は発散であり、f(周波数ビンのインデックス)及びn(時間フレームのインデックス)は、f番目の行及びn番目の列にある要素を示す。起こり得る例となる発散は、板倉斎藤発散(Itakura-Saito divergence)(上記の非特許文献3を参照)を含む。
任意で、スペクトル基底行列Wは、固定されたままであるか、又は更新され得る。取り出された音声サンプルが比較的良い場合に、更なる音源分離のためには、学習されたWを固定することが好ましい。他方で、更新されたWは柔軟であり、入力された音声混合に対するより良い近似へ収束する。代替的に、他の選択肢は、最初に、最初のパラメータ更新繰り返しの間は行列Wを固定し、続いて、後の繰り返しにおいてはWを調整及び更新することである。これは、音声混合に含まれている音源のスペクトル特性をより良く適応させることができる。
図4は、本発明に従う音源分離の方法の他の好適な実施形態を示す。この実施形態では、音声サンプルを評価すること12及び音声混合を分離すること13は、一緒に実行される。言い換えると、評価は、音源分離の前には行われず、取り出された全ての音声サンプルは、音源分離段のための入力として供給される。
一般に、音声サンプルを評価すること及び音声混合を分離することは、異なる信号源についての音声例から学習されたスペクトルパターン行列を連結させることによって構成された大規模なスペクトルパターン辞書を用いて、非負値行列定式化を音声混合に適用することによって一緒に行われる。より具体的には、2つの信号源の例として、スペクトルパターンの行列は、最初にW=[W11,...,W1P,W21,...,W2Q]として構成される。ここで、P及びQは、夫々信号源1及び2のための取り出された例の数であり、W1p(p=1,...,P)及びW1q(q=1,...,Q)は、夫々信号源1(pによってインデックス付けされる。)及び信号源2(qによってインデックス付けされる。)の各例からNMFによって学習されるスペクトルパターンの行列である。時間アクティベーションHの行列は同様にして構成されるが、全ての行列成分(entry)は、最初にランダムに初期化され、次いで、最適化プロセスを介して更新される。本発明のこの実施形態において、グループスパース性(group sparsity)を行列Hに対して実行するペナルティ(penalty)関数は、混合のNMF分解を導くよう例から学習された最も適切なスペクトルパターンのみを選択することを可能にするために、大域最適化費用(global optimization cost)において示される。このストラテジは、2つの信号源及び信号源ごとの2つの例の場合を例として図6で説明される。このとき、W11及びW12は、2つの例から第1の信号源について学習されたスペクトルパターンであり、同様に、W21及びW22は、2つの例から第2の信号源について学習されたスペクトルパターンである。行列Hは、スペクトルパターンに対応するアクティベーションであるブロックH11、H12、H21、及びH22から成る。最適化の後、H12及びH22の成分は、各信号源についてのただ1つの取り出された例(1でインデックス付けされる。)のみが分離プロセスを導くために自動的に選択されたことを意味するように、ゼロである。
NMFモデルを実装する音源分離において直接に音声サンプルの評価を組み込むよう、アクティベーション行列Hに対するスパース性ペナルティ(sparsity penalty)Ψ(H)が、NMF費用関数において導入される:
Figure 2017520784
ここで、D(V|WH)は、上記のように定義され、λは、スパース性制約(sparsity constraint)の寄与を重み付けするトレードオフ・パラメータである。
任意で、且つ、望ましくは、費用関数定式化におけるトレードオフ・パラメータλは、適応的なλ=f(i)であることができる。ここで、fは、関数であり、iは、パラメータ更新プロセスにおける繰り返す数である。考えは、最初に高いλを有してより大きい重みをスパース性ペナルティに与え、そのようにして基本の音声サンプルを選択し、次いで、最初の項、すなわち、発散D(V|WH)へより良く適合させるようλを漸減して、より良い近似を得ることである。トレードオフ・パラメータλを線形適応させることにおけるこのストラテジの例は、図5に示されている。
上記の非特許文献2には、上記の費用関数を最適化するよう乗法的更新(multiplicative update(s))による繰り返しアルゴリズムの更に詳細な由来及び説明が記載されている。
Figure 2017520784
異なるスパース性ペナルティを選択することによって、いくつかの最適化スキームが達成される。そのような最適化スキームは、分離プロセスを導くよう音声サンプルのスペクトル特性を利用する種々の方法の基礎となる。提案されるスパース性ペナルティを次のように考えると、対応するパラメータ推定のための対応する更新ルールが導き出され得る。
一実施形態において、スパース性ペナルティは、次のように定義される:
Figure 2017520784
ここで、Gは、使用される音声サンプルの数に対応するグループの数を表し、Hは、g番目の信号源(g番目のグループ)に対応するアクティベーション行列Hの部分である。Ψ(x)は、例えば、上記の非特許文献1、2で示されるような、種々の関数によって定義され得る。1つの例はΨ(x)=log(x)である。これは、簡単のために実施形態において使用される。当然、異なる関数Ψも使用され得る。
このグループスパース性アプローチは、補助データベースから取り出された関連するトレーニング信号源サンプルの評価及び選択を効率良く実施することを可能にする。このとき、グループは、1つのトレーニング音声サンプルに相当する。ただ1つの信号源のための良好なモデルが取得されるとする上記の非特許文献1の改善として、本実施形態では、全ての音源のためのより多くのモデルが一般に学習され実現される。図6に示されるように、アクティベーション行列Hは、より高く順位付けされた音声サンプルに対応するアクティベーションの数個のブロックを含むことを余儀なくされる。
一実施形態において、スパース性ペナルティは、次のように定義される:
Figure 2017520784
ここで、hは、アクティベーション行列のg番目の行である。この行スパース性アプローチは、更なる柔軟性とともに、異なる音声サンプルからでさえ最良のスペクトルアトムを選択すること可能にする。
一実施形態において、ペアグループスパース性アプローチが適用される。このとき、スパース性ペナルティは、次のように定義される:
Figure 2017520784
スパース性ペナルティがただ1つの信号源からただ1つのアクティブ化されたグループを保持するシナリオを回避するよう、グループは、1つの音源から夫々一対のトレーニング音声サンプルとして定義される。このアプローチは、夫々の音源において少なくとも1つのアクティブ化されたグループを保持することができる。
他の実施形態では、同様に、アプローチは、ペア行スパース性に基づく。このとき、スパース性ペナルティは、次のように定義される:
Figure 2017520784
望ましくは、更なる他の実施形態では、グループ及び行の組み合わせによるスパース性アプローチが適用される。この複合アプローチのための費用関数は、次のように定義される:
Figure 2017520784
ここで、α及びβは、夫々のペナルティの寄与を決定する重みである。このアプローチは、図7で見られるように視覚化され得る。アルゴリズムは、異なる信号源から良好なスペクトルパターンを選択することができる。
本発明の他の実施形態において、考えられるスペクトルモデルは、多チャネル音声混合においてオンザフライの信号源分離を実施するために、空間モデルと組み合わされ得る(上記の非特許文献10を参照)。多チャネルの場合への考えられるフレームワークの拡張は直接的であり、例えば、上記の非特許文献11において、記載されている。
図8は、本発明に従う音源分離の方法を実施するよう構成されるシステム20の好適な実施形態を概略的に表す。システム20は、音声混合及び音声混合に関連する少なくとも1つのテキストクエリを受け取る(10)よう構成される受信ユニット21と、テキストクエリを補助音声データベース23に関連する意味情報と照合することによって補助音声データベース23から少なくとも1つの音声サンプルを取り出し(11)、補助音声データベース23から取り出された音声サンプルを評価し(12)、音声サンプルを用いて音声混合を複数の音源に分離する(13)よう構成されるプロセッサ22とを有する。
望ましくは、プロセッサ22は、音声サンプルを評価すること(12)及び音声混合を分離すること(13)を一緒に行う。より望ましくは、プロセッサ22は、受け取られた音声混合にNMFを適用することによって音声混合を分離(13)する。
指針に基づいた音源分離のための既存のアプローチの大部分は、例に基づく(example-based)方法である。そのようなアプローチのための必要条件は、対象の音源と類似したいくつかの音声サンプルを前もって取得することである。これは、通常は面倒であり、必ずしも可能とは限らない。音声例が前もって入手可能でない場合に、代わりに、簡単なテキストクエリが、音声ファイルを検索するために使用され得る。音源分離のためのこのテキストクエリに基づくアプローチは、ユーザが音声混合を聴いて、例えば、彼らが分離したいものを記述する語を提供する必要しかないので、ユーザにとってより簡単であり且つより効率的である。しかし、テキスト・トランスクリプトに基づくアプローチについては、下記の非特許文献において記載されているが、今までのところ、ノイジーな又は代表的でない検索された例を効率良く扱うことができる実際的な解決法は存在しない。
望ましくは、プロセッサ22は、音声サンプルを評価すること(12)及び音声混合を分離すること(13)を一緒に行う。より望ましくは、プロセッサ22は、受け取られた音声混合にNMFを適用することによって音声混合を分離(13)する。
上記の実施形態に加えて、以下の付記が開示される。
(付記1)
プロセッサによって実行される、音声混合のための音源分離の方法であって、
音声混合及び該音声混合に関連する少なくとも1つのテキストクエリを受け取り、
前記テキストクエリを補助音声データベースに関連する意味情報と照合することによって、前記補助音声データベースから少なくとも1つの音声サンプルを取り出し、
前記補助音声データベースから取り出された前記音声サンプルを評価し、
前記音声サンプルを用いて前記音声混合を複数の音源に分離する
ことを有する方法。
(付記2)
前記音声混合を分離することは、前記音声サンプルの前記評価の結果に従って前記音声サンプルのサブセットを使用する、
付記1に記載の方法。
(付記3)
前記音声サンプルを評価することは、前記音声サンプルを、前記受け取られたテキストクエリとのそれらの一致に従って順位付けすることを含む、
付記1に記載の方法。
(付記4)
前記音声サンプルを評価することは、前記音声サンプルを、前記受け取られた音声混合とのそれらの相関に従って順位付けすることを含む、
付記1に記載の方法。
(付記5)
前記音声サンプルを評価することは、前記取り出された音声サンプルと前記受け取られた音声混合との間の音声特徴類似に従って前記音声サンプルを順位付けすることを含む、
付記1に記載の方法。
(付記6)
前記補助音声データベースは、インターネット検索エンジンを含む、
付記1に記載の方法。
(付記7)
前記音声混合を分離することは、非負値行列因子分解(NMF)を前記音声混合に適用することを含む、
付記1乃至6のうちいずれか一つに記載の方法。
(付記8)
前記音声サンプルを評価すること及び前記音声混合を分離することは、一緒に実行される、
付記1に記載の方法。
(付記9)
前記音声サンプルを評価すること及び前記音声混合を分離することは、非負値行列因子分解(NMF)を前記音声混合及び前記音声サンプルに適用することによって一緒に実行される、
付記8に記載の方法。
(付記10)
前記音声サンプルを評価することは、前記非負値行列因子分解の適用において費用関数を導入することによって実行され、
前記費用関数は、前記音声混合の分解を導くよう前記取り出された音声サンプルから学習されるスペクトルパターンを選択することを可能にするために、スパース性ペナルティのパラメータを含む、
付記9に記載の方法。
(付記11)
前記スパース性ペナルティの前記パラメータは、パラメータ更新プロセスにおいて適応変更されるトレードオフ・パラメータと関連付けられる、
付記10に記載の方法。
(付記12)
音声混合のための音源分離のシステムであって、
音声混合及び該音声混合に関連する少なくとも1つのテキストクエリを受け取るよう構成される受信ユニットと、
前記テキストクエリを補助音声データベースに関連する意味情報と照合することによって前記補助音声データベースから少なくとも1つの音声サンプルを取り出し、前記補助音声データベースから取り出された前記音声サンプルを評価し、前記音声サンプルを用いて前記音声混合を複数の音源に分離するよう構成されるプロセッサと
を有するシステム。
(付記13)
前記プロセッサは、非負値行列因子分解(NMF)を前記音声混合に適用することによって前記音声混合を分離する、
付記12に記載のシステム。
(付記14)
前記プロセッサは、前記音声サンプルを評価すること及び前記音声混合を分離することを一緒に行う、
付記12に記載のシステム。
(付記15)
音声混合のための音源分離の命令を記憶しているコンピュータ可読媒体であって、
前記命令は、コンピュータによって実行される場合に、該コンピュータに、
音声混合及び該音声混合に関連する少なくとも1つのテキストクエリを受け取らせ、
前記テキストクエリを補助音声データベースに関連する意味情報と照合することによって、前記補助音声データベースから少なくとも1つの音声サンプルを取り出させ、
前記補助音声データベースから取り出された前記音声サンプルを評価させ、
前記音声サンプルを用いて前記音声混合を複数の音源に分離させる、
コンピュータ可読媒体。

Claims (15)

  1. プロセッサによって実行される、音声混合のための音源分離の方法であって、
    音声混合及び該音声混合に関連する少なくとも1つのテキストクエリを受け取り、
    前記テキストクエリを補助音声データベースに関連する意味情報と照合することによって、前記補助音声データベースから少なくとも1つの音声サンプルを取り出し、
    前記補助音声データベースから取り出された前記音声サンプルを評価し、
    前記音声サンプルを用いて前記音声混合を複数の音源に分離する
    ことを有する方法。
  2. 前記音声混合を分離することは、前記音声サンプルの前記評価の結果に従って前記音声サンプルのサブセットを使用する、
    請求項1に記載の方法。
  3. 前記音声サンプルを評価することは、前記音声サンプルを、前記受け取られたテキストクエリとのそれらの一致に従って順位付けすることを含む、
    請求項1に記載の方法。
  4. 前記音声サンプルを評価することは、前記音声サンプルを、前記受け取られた音声混合とのそれらの相関に従って順位付けすることを含む、
    請求項1に記載の方法。
  5. 前記音声サンプルを評価することは、前記取り出された音声サンプルと前記受け取られた音声混合との間の音声特徴類似に従って前記音声サンプルを順位付けすることを含む、
    請求項1に記載の方法。
  6. 前記補助音声データベースは、インターネット検索エンジンを含む、
    請求項1に記載の方法。
  7. 前記音声混合を分離することは、非負値行列因子分解(NMF)を前記音声混合に適用することを含む、
    請求項1乃至6のうちいずれか一項に記載の方法。
  8. 前記音声サンプルを評価すること及び前記音声混合を分離することは、一緒に実行される、
    請求項1に記載の方法。
  9. 前記音声サンプルを評価すること及び前記音声混合を分離することは、非負値行列因子分解(NMF)を前記音声混合及び前記音声サンプルに適用することによって一緒に実行される、
    請求項8に記載の方法。
  10. 前記音声サンプルを評価することは、前記非負値行列因子分解の適用において費用関数を導入することによって実行され、
    前記費用関数は、前記音声混合の分解を導くよう前記取り出された音声サンプルから学習されるスペクトルパターンを選択することを可能にするために、スパース性ペナルティのパラメータを含む、
    請求項9に記載の方法。
  11. 前記スパース性ペナルティの前記パラメータは、パラメータ更新プロセスにおいて適応変更されるトレードオフ・パラメータと関連付けられる、
    請求項10に記載の方法。
  12. 音声混合のための音源分離のシステムであって、
    音声混合及び該音声混合に関連する少なくとも1つのテキストクエリを受け取るよう構成される受信ユニットと、
    前記テキストクエリを補助音声データベースに関連する意味情報と照合することによって前記補助音声データベースから少なくとも1つの音声サンプルを取り出し、前記補助音声データベースから取り出された前記音声サンプルを評価し、前記音声サンプルを用いて前記音声混合を複数の音源に分離するよう構成されるプロセッサと
    を有するシステム。
  13. 前記プロセッサは、非負値行列因子分解(NMF)を前記音声混合に適用することによって前記音声混合を分離する、
    請求項12に記載のシステム。
  14. 前記プロセッサは、前記音声サンプルを評価すること及び前記音声混合を分離することを一緒に行う、
    請求項12に記載のシステム。
  15. 音声混合のための音源分離の命令を記憶しているコンピュータ可読媒体であって、
    前記命令は、コンピュータによって実行される場合に、該コンピュータに、
    音声混合及び該音声混合に関連する少なくとも1つのテキストクエリを受け取らせ、
    前記テキストクエリを補助音声データベースに関連する意味情報と照合することによって、前記補助音声データベースから少なくとも1つの音声サンプルを取り出させ、
    前記補助音声データベースから取り出された前記音声サンプルを評価させ、
    前記音声サンプルを用いて前記音声混合を複数の音源に分離させる、
    コンピュータ可読媒体。
JP2016567726A 2014-05-15 2015-05-11 オンザフライの音源分離の方法及びシステム Pending JP2017520784A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14305712.3 2014-05-15
EP14305712 2014-05-15
PCT/EP2015/060369 WO2015173192A1 (en) 2014-05-15 2015-05-11 Method and system of on-the-fly audio source separation

Publications (1)

Publication Number Publication Date
JP2017520784A true JP2017520784A (ja) 2017-07-27

Family

ID=50842205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016567726A Pending JP2017520784A (ja) 2014-05-15 2015-05-11 オンザフライの音源分離の方法及びシステム

Country Status (7)

Country Link
US (1) US10235126B2 (ja)
EP (1) EP3143619A1 (ja)
JP (1) JP2017520784A (ja)
KR (1) KR20170008799A (ja)
CN (1) CN106537503A (ja)
TW (1) TW201543472A (ja)
WO (1) WO2015173192A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020071351A1 (ja) * 2018-10-03 2020-04-09 日本電信電話株式会社 信号分離装置、信号分離方法、及びプログラム
CN111370019A (zh) * 2020-03-02 2020-07-03 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105489215B (zh) * 2015-11-18 2019-03-12 珠海格力电器股份有限公司 一种噪声源识别方法及系统
US9842609B2 (en) 2016-02-16 2017-12-12 Red Pill VR, Inc. Real-time adaptive audio source separation
US10410641B2 (en) 2016-04-08 2019-09-10 Dolby Laboratories Licensing Corporation Audio source separation
JP6618493B2 (ja) * 2017-02-20 2019-12-11 日本電信電話株式会社 信号解析装置、方法、及びプログラム
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
CN109346097B (zh) * 2018-03-30 2023-07-14 上海大学 一种基于Kullback-Leibler差异的语音增强方法
EP3853628A4 (en) * 2018-09-17 2022-03-16 Aselsan Elektronik Sanayi ve Ticaret Anonim Sirketi JOINT SOURCE LOCATION AND SEPARATION METHOD FOR ACOUSTIC SOURCES
JP2022505682A (ja) * 2018-10-26 2022-01-14 日本電気株式会社 ソース分離装置、ソース分離装置の方法、およびプログラム
CN111724807B (zh) * 2020-08-05 2023-08-11 字节跳动有限公司 音频分离方法、装置、电子设备及计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415392B2 (en) * 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
US8463719B2 (en) * 2009-03-11 2013-06-11 Google Inc. Audio classification for information retrieval using sparse features
KR101081050B1 (ko) 2010-04-29 2011-11-09 서울대학교산학협력단 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템
US20120316886A1 (en) 2011-06-08 2012-12-13 Ramin Pishehvar Sparse coding using object exttraction
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
WO2014195132A1 (en) 2013-06-05 2014-12-11 Thomson Licensing Method of audio source separation and corresponding apparatus
EP2887233A1 (en) * 2013-12-20 2015-06-24 Thomson Licensing Method and system of audio retrieval and source separation

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020071351A1 (ja) * 2018-10-03 2020-04-09 日本電信電話株式会社 信号分離装置、信号分離方法、及びプログラム
JP2020056939A (ja) * 2018-10-03 2020-04-09 日本電信電話株式会社 信号分離装置、信号分離方法、及びプログラム
CN111370019A (zh) * 2020-03-02 2020-07-03 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
CN111370019B (zh) * 2020-03-02 2023-08-29 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置

Also Published As

Publication number Publication date
WO2015173192A1 (en) 2015-11-19
US10235126B2 (en) 2019-03-19
EP3143619A1 (en) 2017-03-22
TW201543472A (zh) 2015-11-16
CN106537503A (zh) 2017-03-22
KR20170008799A (ko) 2017-01-24
US20170075649A1 (en) 2017-03-16

Similar Documents

Publication Publication Date Title
US10235126B2 (en) Method and system of on-the-fly audio source separation
Pariente et al. Asteroid: the PyTorch-based audio source separation toolkit for researchers
Huang et al. Joint optimization of masks and deep recurrent neural networks for monaural source separation
JP5662276B2 (ja) 音響信号処理装置および音響信号処理方法
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Chien et al. Bayesian factorization and learning for monaural source separation
US9437208B2 (en) General sound decomposition models
Dua et al. Performance evaluation of Hindi speech recognition system using optimized filterbanks
El Badawy et al. On-the-fly audio source separation
WO2013030134A1 (en) Method and apparatus for acoustic source separation
Lee et al. Feature extraction based on the non-negative matrix factorization of convolutional neural networks for monitoring domestic activity with acoustic signals
Huang et al. Novel sub-band spectral centroid weighted wavelet packet features with importance-weighted support vector machines for robust speech emotion recognition
Battenberg et al. Toward live drum separation using probabilistic spectral clustering based on the itakura-saito divergence
El Badawy et al. Relative group sparsity for non-negative matrix factorization with application to on-the-fly audio source separation
Kadyan et al. Prosody features based low resource Punjabi children ASR and T-NT classifier using data augmentation
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
Lee et al. Discriminative training of complex-valued deep recurrent neural network for singing voice separation
Mandel et al. Learning a concatenative resynthesis system for noise suppression
Liaqat et al. Domain tuning methods for bird audio detection.
Missaoui et al. Gabor filterbank features for robust speech recognition
Tyagi Fepstrum features: Design and application to conversational speech recognition
Guzewich et al. Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement.
Yang et al. Bayesian factorization and selection for speech and music separation.
Prasanna Kumar et al. Supervised and unsupervised separation of convolutive speech mixtures using f 0 and formant frequencies
Ozamoto et al. Noise-Tolerant Time-Domain Speech Separation with Noise Bases