JP6312110B2

JP6312110B2 - 信号の１つ又は複数の成分を区別する方法

Info

Publication number: JP6312110B2
Application number: JP2017527940A
Authority: JP
Inventors: ハーシェイ、ジョン; ル・ルー、ジョナサン; 渡部　晋治; 晋治渡部; チェン、ズオ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-07-07
Filing date: 2016-07-05
Publication date: 2018-04-18
Anticipated expiration: 2036-07-05
Also published as: US20170011741A1; EP3292515B1; US9685155B2; WO2017007035A8; US9368110B1; JP2018502319A; WO2017007035A1; EP3292515A1

Description

本発明は、包括的には信号処理に関し、より詳細には、音響信号の成分を区別することに関する。

現実世界の認知において、多くの場合に、信号を発するオブジェクト又はソースに選択的に注意を払う問題に直面する。不都合なことに、驚くほど多岐にわたる音響信号が存在する。例えば、人間の声が、音声及び歌に用いられる可能性があり、弦楽器、木管楽器及びパーカッション等の楽器は音響信号の別のクラスである。音響信号は、動物等の自然の音、及び環境から、並びに人工音源から生じたものであり得る。

人間は通常、既知の音及び新規の音の双方を分離するのに苦労しない。一方、発生モデルの場合、非常に多岐にわたる生じ得る音がモデリング問題を呈する。任意のタイプの音に適用することができる大型モデルを構築することは困難である。さらに、音は、状態に依拠して互いに曖昧になり得る。通常、全ての音の状態により、いずれの音が音響スペクトルの特定の部分を支配するかが決まる。

例えば、異なる人物からの音声は、カクテルパーティー効果として知られている、信号の単一の混合物において混ざり合う。人間は、広範にわたる他の刺激をフィルタリング除去しながら、特定の刺激に対し、聴覚の注意を集中することができる。これは、パーティー参加者が、雑音のある部屋内で単一の会話に集中することができる方法によって例示される。音響信号処理において、これは、聴覚シーン解析として知られ、聴覚シーン解析は、混合信号における個々の音源（人々の声等）に対応する音響信号の成分を特定しようとする。

音の成分は、ワールド内の目的エンティティ又はイベントに対応するが、成分への信号の解析をどの程度厳密に定義することができるかは、解析の目的に依拠して異なり得る。解析される成分構造を定義するときに検討される、解析のための様々な判断基準及び様々なカテゴリー化レベルが存在する場合がある。

例えば、当然ながら、多くのタイプの音が、成分及びそれらの副成分部分の階層的分解を許容する。音声において、１人の人物の声は、解析の１つのレベルにおける成分とみなされ得るのに対し、人物の音声における各単語は、より詳細な解析レベルにおける成分とみなされ得る。さらに、話者のグループからの音は、タスクが非音声から全ての音声を分離することである場合、成分とみなすことができる。代替的に、成分への音声の分割は、２つの異なる成分として、男性の音声及び女性の音声を検討することができる。

同様に、音楽では、成分及び副成分の自然な階層が存在する。解析の最高レベルにあるのは、音のアンサンブル全体であり、次が楽器の異なるグループであり、解析のより低いレベルにあるのは、異なる個々の楽器であり、最終的に、個々のノートイベントがある。楽器のグループを表す成分は、楽器のカテゴリ（例えば、フルート対クラリネット）等の異なる判断基準によって、又は楽器が演奏するメロディー部分若しくはリズム部分（例えば、テーマ対伴奏）によって定義することができる。

信号の成分の異なる定義及び更には相反する定義が存在する場合があるにもかかわらず、所与のタスクについて特定の成分構造を定義することができる。例えば、音声を非定常雑音と分離することは、明確に定義されたタスクである。成分構造の定義は、音声と非定常雑音との混合物を含む音響データの例、及び例示的な成分の音声及び非定常雑音のデータベースの使用により、明確にすることができる。音声信号及び非定常雑音信号成分を任意に共に混合することによって、目標用途を良好に表す任意の大きさの例の組が及ぶ大きな問題空間を定義することができる。

一方、通常、非定常雑音から音声を分離することは、困難な問題とみなされる。他の音声信号から音声を分離することは、全ての音源が同じクラスに属し、同じ特性を共有しているため、特に困難である。同性の話者からの音声を分離することは、音声のピッチが同じ範囲にあるため、最も困難な事例のうちの１つである。

目標が、複雑な音響シーンをその成分に解析することであるとき、解析特徴空間において、異なる音が互いに重なり、部分的に互いを曖昧にしている場合があり、音及び音タイプの数が不明である場合があり、特定のタイプの複数のインスタンスが存在する場合がある。

これらの問題は、解析を、セグメンテーション問題として扱うことによって対処することができる。ここで、信号における解析特徴要素の組は、信号から導出された解析特徴のインデックス付けされた組により定式化される。各要素は、通常、信号の小さな部分の多次元表現である解析特徴値を含む。

要素を用いて成分を区別するために、要素は、概して、各要素が成分のうちの１つのみの一部を主に表すように設計されなくてはならない。これは、いくつかの場合にほぼ真である。例えば、短時間フーリエ変換によって解析される話者の混合において、時間周波数ビンの大きなパーセンテージがいろいろな話者によって支配されている。この意味で、単一の成分によって支配されている要素はその成分に対応し、それらの要素を特定することができる場合、それらの要素を用いてその成分の近似を再構成することができる。このため、信号要素をグループに分割することは、信号を成分にセグメンテーションする手段を提供することができる。

クラスタリング方法をセグメンテーションのために用いることができるが、セグメンテーションは基本的に異なるものである。クラスタリングは通常、ペアワイズ点関係において定義される単純な目的関数に基づく、領域に無関係な問題として定式化される。対照的に、セグメンテーションは、通例、入力全体の複雑な処理に依拠し、タスクの目的は、セグメントラベルを用いたトレーニング例を用いて任意に定義することができる。

セグメンテーションは、目標が、学習されたオブジェクトクラスラベルに基づいて既知のオブジェクトクラスをラベル付けすることであるクラスベースのセグメンテーションと、タスクが、オブジェクトクラスラベルを必要とすることなく、学習された分割ラベルに基づいて入力をセグメンテーションすることである分割ベースのセグメンテーションとに大まかに分類することができる。分割ベースのセグメンテーション問題を解くことは、未知のオブジェクトを分割することができるという利点を有する。

単一チャネルの音声分離において、スペクトログラムの時間周波数要素は、分類器又は発生モデルに基づいて、目標話者によって支配される領域に分割される。深層ニューラルネットワークをクラスベースのセグメンテーション問題に適用することもできる。

一方、クラスベースの手法は制限を有する。既知のクラスをラベル付けするタスクは、多数の可能なクラスが存在する可能性があり、多くのオブジェクトが、明確に定義されたクラスを有していない場合がある現実世界の信号における一般問題に対処していない。また、従来のクラスベースの手法をより一般的な問題にどのように直接適用するのか明らかでない。ソースを分離するためのクラスベースの深層ネットワークモデルは、出力ノードにおける出力クラス及びオブジェクトインスタンスの明確な表現を必要とし、これは、一般的な事例では、困難をもたらす。

発生モデルベースの方法は、理論上、試験時間におけるモデルタイプ及びインスタンスの数に関して柔軟にすることができるが、より一般的なセグメンテーションタスクによって課される、潜在的にはるかに大きな問題に対し、推測を計算によりスケーリングするには、大きな困難が残っている。

対照的に、人間は、新規のオブジェクト及び音を容易にセグメンテーションすることができるため、分割ベースの問題を解くように見える。この観測は、近接性及び類似度等の特徴の観点から知覚的グルーピングの説明を試みるゲシュタルト知覚理論に基づく。分割ベースのセグメンテーションタスクは、密に関係しており、画像セグメンテーション及び音響分離における研究の流れを辿るものである。音響セグメンテーションに対する知覚グルーピング理論の適用は、計算聴覚シーン解析（ＣＡＳＡ）として一般的に知られている。

スペクトルクラスタリング
機械学習において、スペクトルクラスタリングは、画像及び音響のセグメンテーションのために用いられている。スペクトルクラスタリングは、信号の要素の特徴間のローカルアフィニティ尺度（local affinity measure）を用い、正規化されたアフィニティ行列のスペクトル分解を用いて様々な目的関数を最適化する。ｋ平均法等の従来の集中型クラスタリングと対照的に、スペクトルクラスタリングは、点が中心プロトタイプの周りに密にクラスタリングされることを必要とせず、クラスターが連結されたサブグラフを形成することを条件として、任意のトポロジのクラスターを決定することができるという利点を有する。用いられるペアワイズカーネル関数の局所形式に起因して、難解なスペクトルクラスタリング問題において、アフィニティ行列は、集中型クラスタリングに直接適用可能でないスパースなブロック対角構造を有する。これは、ブロック対角アフィニティ構造が密であるときに良好に機能する。スペクトルクラスタリングの、強力であるが計算的に複雑な固有空間変換ステップは、事実上、ブロック構造を「膨らませる」ことによってこれに対処し、それによって、連結された成分は、集中型クラスタリングの前に密なブロックになる。

アフィニティベースの方法は、教師なし推測方法のために用いられているが、マルチカーネル学習方法を、別個のアフィニティ尺度を組み合わせるために重みをトレーニングするように用いることができる。これは、分割ベースのセグメンテーションタスクのためのマルチカーネル学習方法を用いて検討することを可能にする。この方法では、分割ラベルが利用可能であるが、特定のクラスラベルを必要としない。これらの方法は、スペクトログラムの時間周波数領域間のアフィニティとして、オンセット、オフセット、ピッチ及びスペクトルエンベロープの類似性等の様々な聴覚シーン解析グルーピング原理を実施するように開発された多岐にわたる複雑な特徴を含む音声分離に適用されている。入力特徴は、一般性を犠牲にして、カーネルベースの特徴の相対的単純性に対し改善を行う二重ピッチ追跡モデルを含むことができる。

埋め込みとして知られる、学習される特徴変換が複数の用途において用いられる。比較的単純なクラスタリング手順と共に用いられる、自動連想深層ネットワークによって得られる教師なし埋め込みは、いくつかの場合、スペクトルクラスタリング方法よりも優れた性能を発揮することができる。近傍ベースの分割ラベルを用いて、ペアワイズメトリック学習を用いてトレーニングされた埋め込みは、興味深い普遍特性を有することも示されている。非特許文献１を参照されたい。

Mikolov他「Distributed representations of words and phrases and their compositionality」Proc. NIPS, 2013, pp. 3111-3119

本発明の実施形態は、深層ニューラルネットワーク（ＤＮＮ）を用いて音響信号の成分を区別する方法を提供する。本方法は、深層クラスタリング（deep clustering）を用いて信号を分割する。トレーニングデータにおいて与えられる分割ラベルについて弁別的である関連記述子の形態の埋め込みが、深層学習によって決定される。本方法は、新規のオブジェクトクラスを含む音響信号を分割することができるように、オブジェクトクラスのラベルを用いることを回避する。

ＤＮＮは、学習力及び学習速度の観点において利点をもたらす。一方、これまで、ＤＮＮをクラスと無関係にどのように用いるかが不明確であった。学習力及びスケーラビリティの観点における制限にかかわらず、クラスタリング手法は、クラス、及び分割される成分の数に関して柔軟性がある。これらの利点をＤＮＮにもたらすために、実施形態は、ラベル分割の置換と無関係の目的関数を用いて、理想的なペアワイズアフィニティ行列を近似する埋め込みをトレーニングする。

目的関数は異なる区画内の要素のための埋め込み間の距離を最大にしながら、一区画内の要素の埋め込み間の距離を最小にする。利点として、埋め込みにより、全ての分割及びそれらの置換を、ニューラルネットワークの固定次元の出力を用いて暗黙的に表すことが可能になる。

ＤＮＮが２人の話者の混合を含む音響信号におけるスペクトル特徴に対しトレーニングされるとき、本方法のプロトタイプ実施形態は、ほぼ０ｄＢ±５ｄＢで混合される信号から開始して、約６ｄＢだけ信号品質を改善するマスキング関数を推測することができる。本方法は、２人の話者の混合に対してのみトレーニングされている場合であっても、３人の話者の混合に一般化することができる。

本発明の実施形態による、音響信号の１つ又は複数の成分を区別する方法の流れ図である。

本発明の実施形態は、深層ニューラルネットワーク（ＤＮＮ）を用いて信号の成分を区別する方法を提供する。ＤＮＮは、リカレントニューラルネットワークとすることができる。

図１に示すように、信号１０１が環境１０３から取得される。１つの実施形態では、環境は、音響センサー１０５、例えばマイクロフォンを用いる１つ又は複数の音響源１０４を含む。信号が処理され、１組のＤＮＮ入力特徴１１１、及び解析特徴１１２が抽出される（１１０）。ここで、特徴ベクトルの形態をとる各解析特徴は、セグメンテーションのために用いられる信号の要素を定義する。別の実施形態では、ビデオ信号及び／又はテキスト１０６は、音響信号に関連付けられる。これに加えて、又は代替的に、信号は、マルチチャネル音響信号を含む。

解析特徴は、３２ｍｓのウィンドウ長、８ｍｓのウィンドウシフト、及びハンウィンドウの二乗根で求められる入力音声信号の短時間フーリエ複素スペクトル係数の形態をとることができる。ローカルコヒーレンスを確保するために、概ね音声における１つの単語の長さの１００個のフレームのセグメントが用いられる。

ＤＮＮ入力特徴は、何らかの任意の特徴セットとすることができる。いくつかの実施形態では、ＤＮＮ入力特徴は、セグメンテーションのために用いられる要素を定義する解析特徴の対数短時間フーリエの大きさである。一方、他の実施形態では、ＤＮＮ入力特徴は、音響信号の任意の特徴とすることができ、解析特徴と数及び品質が異なる可能性がある。

ＤＮＮ入力特徴は、ＤＮＮ１２０を用いて処理される。ＤＮＮは、ネットワークパラメーター１１５によって定義される。ＤＮＮは、関連記述子１３０を解析特徴によって定義される各要素に割り当てる。異なる要素の関連する記述子間の類似度は、要素が信号の単一の成分に属する度合いに関係付けられる。マルチチャネルの音響信号の場合、チャネル間のタイミング関係を用いて、要素のための関連記述子を推定する。

関連記述子の類似性関係が処理され、要素と１つ又は複数の成分との間の対応関係１４１が推定される（１４０）。次に、対応関係１５１を用いて信号１０１が更に処理され（１５０）、１つ又は複数の成分１０２が区別される。本方法は、当該技術分野において既知のメモリ及び入出力インターフェースバスに接続されたプロセッサ１００において実行することができる。

ここで、方法及び深層ニューラルネットワーク及びトレーニングがより詳細に説明される。

クラスタリングのための学習関連記述子
時間領域音響信号１０１はｘであり、解析特徴１１０は、要素ｉによってインデックス付けされたベクトルＸ_ｉ＝ｇ_ｉ（ｘ），ｎ∈｛１，．．．，Ｎ｝の形態であり、ここで、ｉは時間周波数インデックス（ｔ，ｆ）とすることができ、ここで、ｔは音響信号のフレームをインデックス付けし、ｆは周波数を表す。対応する時間周波数ビンにおける複素スペクトルの値はＸ_ｉ＝Ｘ_ｔ，ｆである。

例えば、特徴Ｘ_ｉを領域ごとに別個に更に処理するために見つけることを望む、領域への要素ｉの妥当な分割が存在すると仮定する。音響源分離の場合、例えば、これらの領域は、各ソースが支配する時間周波数ビンの組として定義することができる。区画を推定することにより、要素Ｘ_ｉに適用することができる時間周波数マスクを構築することが可能になり、音響源を分離するために反転することができる時間周波数表現がもたらされる。特徴変換Ｘ_ｉ＝ｇ_ｉ（ｘ）を最適化して、システムの全体セグメンテーション又はソース分離性能を改善することができることに留意されたい。

区画を推定するために、θによってパラメーター化された関連記述子

の形態でＫ次元埋め込みを求め、それによって、関連記述子空間におけるクラスタリングの実行により、目標区画に類似した区画｛１，．．．，Ｎ｝がもたらされる。Ｖ＝ｆ_θ（ｘ）は、全体信号ｘ１０１のグローバル関数であるＤＮＮ１２０に基づく。特徴抽出ステップ１１０は、ＤＮＮ１２０のためのＤＮＮ入力特徴１１１を生成する。ＤＮＮ入力特徴は、Ｘ_ｉと完全に異なり得る。このため、変換は、入力信号のグローバル特性を考慮に入れることができ、関連記述子は、置換、及び解析特徴によって定義される要素に基づく信号分割の推定値の、濃度と独立した符号化とみなすことができる。

ここで、

であるような単位ノルム関連記述子を検討する。ここで、ｖ_ｉ＝｛ｖ_ｉ，ｋ｝であり、ｖ_ｉ，ｋは要素ｉのための関連記述子のｋ番目の次元の値である。θにおけるＶの依存性を省いて表記を単純にする。

分割に基づくトレーニングは、各要素ｉをｃ個の任意の分割クラスの各々にマッピングする基準ラベルインジケータＹ＝｛ｙ_ｉ，ｃ｝を必要とし、要素ｉが区画ｃ内にあるとき、ｙ_ｉ，ｃ＝１であるようにする。トレーニング目的の場合、分割ラベルに従って正確なクラスタリングを可能にする関連記述子を求める。これを行うために、１つのトレーニング例から次のトレーニング例までの分割ラベルの数及び置換に対して不変の式、例えば、

を用いる。ここで、｜ｖ_ｉ｜^２＝１，∀ｉであることを用いた。式（１）において、目的は、内積＜ｖ_ｉ，ｖ_ｊ＞＝ｃｏｓθ_ｉ，ｊによって測定される単位ベクトルｖ_ｉ及びｖ_ｊの類似度の観点において定義され、ここで、θ_ｉ，ｊはｖ_ｉ及びｖ_ｊ間の角度である。このため、目的は、ｉ及びｊが同じ区画内にあるとき、類似度を１まで増大させようとし、ｉ及びｊが異なる区画内にあるとき、類似度を０まで減少させようとする。

同等に、式（２）に示すように、この目的は、同じ区画内の要素について二乗距離｜ｖ_ｉ−ｖ_ｊ｜^２を０に減少させる傾向があるのに対し、関連記述子が単一点に自明に崩壊する（trivially collapsing）のを防ぐ。二乗距離｜ｖ_ｉ−ｖ_ｊ｜^２＝２−２＜ｖ_ｉ，ｖ_ｊ＞は、類似度＜ｖ_ｉ，ｖ_ｊ＞に反比例する。

式（２）における第１の項は、クラスター割り当ての関数として、ｋ平均クラスタリングアルゴリズムによって最小化される目的関数に等価であるのに対し、第２の項は、クラスター割り当てに関して一定であることに留意されたい。このため、目的は、トレーニング時間における基準クラスターの割り当てのためのｋ平均割り当て誤差を妥当に低減しようとする。

単純にするために、ここで重みを省くが、目的関数における各要素に帰する重要度を変更する要素重み行列ＷをＣ（θ）＝｜Ｗ（ＶＶ^Ｔ−ＹＹ^Ｔ）Ｗ^Ｔ｜^２ _Ｆとして導出し、要素の線形関数に対し異なる重要度を課すことができる。例えば、対角重み行列Ｗを用いて、信号のより顕著な部分を表す要素により大きな重要度を与えることができる。

関連記述子重み行列Ａ（φ）を含めることによって、複数のタスクのための埋め込みを最適化することもできる。関連記述子重み行列Ａ（φ）は、タスク関連パラメーターφの関数としてＶの埋め込み次元に対し重みを課すことによって要素間の類似度の尺度を変更する。この場合の目的関数は、Ｃ（θ）＝｜ＶＡ_φ（ＶＡ_φ）^Ｔ−ＹＹ^Ｔ｜^２ _Ｆになる。このようにして、関連記述子は、試験時に選択することができるφによって選択される複数の異なるタスクについて有用であるようにトレーニングすることができる。例えば、変更された関連記述子ＶＡ_φを用いて、φの１つの設定について音楽の成分として異なる楽器を区別し、φの異なる設定について同じ音楽の異なる個々のノートを区別することができる。このようにして、階層の複数のレベルにおいて、又は複数のアプリケーションドメインについて、単一の埋め込みを用いてセグメンテーションを提供することができる。

ＤＮＮを最適化するために、勾配ベースの方法を用いることができる。好都合なことに、関連記述子Ｖに関する本発明による目的関数の導関数は、低階数構造に起因して効率的に得ることができる。

これによって、トレーニング中のＮ×Ｎアフィニティ行列の計算が回避される。

この定式化は、以下のようにスペクトルクラスタリングに関係付けることができる。本発明では、理想アフィニティ行列Ａ^＊＝ＹＹ^Ｔを定義することができる。この行列はブロック対角行列から置換行列まであり、内積カーネルを用い、Ａ＝ＶＶ^Ｔがアフィニティ行列となるようになっている。ここで、Ｔは転置演算子である。本発明の目的は、理想アフィニティからモデルのアフィニティ行列の導出を測定するＣ＝｜Ａ−Ａ^＊｜^２ _Ｆとなる。この関数は、表向きは、データ点ｉ、ｊの全ての対にわたって合算するが、目的の低階数の特性により以下がもたらされる。

これにより、Ｎ×Ｎアフィニティ行列を明示的に構築することが回避される。実際に、ＮはＫよりも数桁大きく、大きな加速をもたらす。スペクトルクラスタリングにおいて、Ｎ×Ｎのアフィニティ行列の計算を必要とする異なるカーネル関数が用いられる。さらに、スペクトルクラスタリングにおいて用いられるカーネルによって、アフィニティ行列はスパースなブロックごとの構造を有することになり、これは、成分を解析するための固有分解を必要とする。

したがって、効率性のために、スペクトルクラスタリングは通常、アフィニティ行列に対するニストロム低階数近似等の近似を必要とし、Ｎ×Ｋ行列の特異値分解（ＳＶＤ）をＫ×Ｋの正規化アフィニティ行列のはるかに複雑な固有値分解に置き換えることができるようにする。

本発明による方法は、全階数モデルの低階数近似を行う際にスペクトルクラスタリングを辿るのではなく、低階数アフィニティ行列を直接最適化し、処理がより効率的であり、パラメーターが低階数構造に対し調整されるようにする。本発明による低階数アフィニティ行列に起因して、アフィニティ行列のブロック単位の構造は密であり、特異値分解に直接従う。さらに、類似度に基づくトレーニング目的に起因して、Ｋ平均等のより単純なクラスタリング方法を用いることができる。

試験中、試験信号に対し関連記述子Ｖを決定し、例えば、ｋ平均クラスタリング手順を用いて行

をクラスタリングする。また、ｋ平均は、Ｃ＝｜ＶＶ^Ｔ−ＹＹ^Ｔ｜^２ _Ｆを最小にしようとし、同じ目的がトレーニングにおいて用いられるが、この場合は、ネットワークパラメーターθを固定された状態に保持して、クラスター割り当ての関数Ｙとして用いられることに留意されたい。このため、ｋ平均は、同じ成分に対応する要素の関連記述子ｖ_ｉ及びｖ_ｊ間の類似度＜ｖ_ｉ，ｖ_ｊ＞を最大にする要素及び成分間の対応関係を選択する。

また、クラスタリングの前に、又はクラスタリングの代わりに、スペクトルクラスタリング型の次元低減を交互に実行することができる。正規化された

の

として定義された特異値分解（ＳＶＤ）から開始することができ、ここで、Ｄ＝ＶＶ^Ｔ１_Ｎであり、特異ベクトル及び特異値は、ｓ_ｉ，ｉ≧ｓ_ｊ，ｊ：ｊ＞ｉとなるように置換される。次に、ｍ個の主要な左特異ベクトルの行列の正規化された行を、

によって与えられるｉ番目の行と共にクラスタリングすることができる。

関連記述子をクラスタリングすることによって、要素と信号の成分との間の対応関係が決まる。これは、セグメンテーションを生成するのに用いることができる。ここで、ｉ＝（ｔ，ｆ）によってインデックス付けされる各解析要素は、セグメントｋ＝ｃ（ｔ，ｆ）に割り当てられる。このハードクラスタリングを用いて、ｋ＝ｃ（ｔ，ｆ）である場合、フィルターａ^ｋ _ｔ，ｆ＝１を計算し、そうでない場合、ａ^ｋ _ｔ，ｆ＝０を計算することができる。次に、ｋ番目の成分の特徴を、

として推定することができる。多くの既存の方法による連続対応関数に従って推定された重みａ^ｋ _ｔ，ｆを用いて、ソフトクラスタリングも得ることができる。これは、

に基づいて、かつグラフベースの信号処理方法を用いてこれらを求めることを含む。

別の拡張は、クラスｂによってインデックス付けされた１つ又は複数の関連記述子ｚ_ｂを用いることである。これは、クラスの埋め込みを表す。この場合、

となるようにクラス

を用いて要素ｖ_ｉを分類する分類が行われる。ここで、関数ａｒｇｍａｘは最大値を返す。

クラスタリング及び推定ステップは、処理の重要な部分であり、例えば、クラスタリングモデルの深層展開によって、ＤＮＮの目的関数に含めることができる。これについては、Hershey他「Deep unfolding: Model-based inspiration of novel deep architectures」Sep. 2014, arXiv: 1409.2574を参照されたい。
なお、ＤＮＮは、畳み込みニューラルネットワークとすることができる。また、関連記述子と１つ又は複数の成分との間の関連付けは、ガウス混合モデルを用いて推定されるようにすることができる。また、信号の１つ又は複数の成分は、オブジェクトを認識するために用いられるようにすることができる。また、別個の信号のうちの１つ又は複数は、音声認識システムにおいて、話者が発話する単語を認識するように処理されるようにすることができる。

Claims

信号の１つ又は複数の成分を区別する方法であって、
前記信号は音響信号であり、
前記方法は、
音響センサーを用いて環境から前記信号を取得するステップと、
前記信号を処理して、１組の解析特徴を推定するステップであって、各解析特徴は、前記信号の要素を定義し、前記信号の部分を表す特徴値を有する、ステップと、
前記信号を処理して前記信号の入力特徴を推定するステップと、
深層ニューラルネットワーク（ＤＮＮ）を用いて前記入力特徴を処理して、関連記述子を前記信号の各要素に割り当てるステップであって、異なる要素の前記関連記述子間の類似度は、前記要素によって表される前記信号の前記部分が前記信号の単一の成分に属する度合いに関係する、ステップと、
前記関連記述子間の類似度を処理して、前記信号の前記要素と前記信号内の１つ又は複数の成分との間の対応関係を推定するステップと、
前記対応関係を用いて前記信号を処理して、前記信号の前記１つ又は複数の成分の前記部分を区別するステップと、
を含み、
前記ステップはプロセッサにおいて実行される、
方法。
前記信号は、前記信号の前記１つ又は複数の成分に対応する前記要素の強度を変更するように処理される、
請求項１に記載の方法。
前記ＤＮＮはリカレントニューラルネットワークである、
請求項１に記載の方法。
前記ニューラルネットワークは畳み込みニューラルネットワークである、
請求項１に記載の方法。
前記関連記述子と前記１つ又は複数の成分との間の関連付けは、Ｋ平均クラスタリングを用いて推定される、
請求項１に記載の方法。
前記関連記述子と前記１つ又は複数の成分との間の関連付けは、ガウス混合モデルを用いて推定される、
請求項１に記載の方法。
前記関連記述子と前記１つ又は複数の成分との間の関連付けは、特異値分解を用いて推定される、
請求項１に記載の方法。
前記関連記述子間の関連付けが処理されてグラフが形成され、前記信号に対しグラフベースの信号処理が行われる、
請求項１に記載の方法。
前記信号は、マルチチャネル音響信号を含み、チャネル間のタイミング関係を用いて、前記要素のための前記記述子が推定される、
請求項１に記載の方法。
前記信号の前記成分のうちの１つ又は複数は音声であり、前記信号の前記処理は、１つ又は複数の音声信号に対応する別個の信号を生成する、
請求項１に記載の方法。
前記信号の前記１つ又は複数の成分は、オブジェクトを認識するために用いられる、
請求項１に記載の方法。
別個の信号のうちの１つ又は複数は、音声認識システムにおいて、話者が発話する単語を認識するように処理される、
請求項１１に記載の方法。
前記１つ又は複数の成分は、類似度の異なる尺度を用いて区別され、前記対応関係が推定される、
請求項１に記載の方法。
前記１つ又は複数の成分は、階層に組織化され、前記階層の１つ又は複数のレベルにおける対応関係は、前記類似度の異なる尺度を用いて推定される、
請求項１３に記載の方法。
前記ＤＮＮは、トレーニングデータを用いて、前記関連記述子を生成するように最適化され、それによって、前記関連記述子間の類似度の前記処理をして、前記信号の前記要素と前記信号内の１つ又は複数の成分との間の対応関係を推定することにより、前記信号の前記成分を区別する際の誤りが低減する、
請求項１に記載の方法。