JP2017514249A

JP2017514249A - 入力信号を変換する方法

Info

Publication number: JP2017514249A
Application number: JP2017503307A
Authority: JP
Inventors: ハーシェイ、ジョン; ル・ルー、ジョナサン; ウェニンガー、フェリックス
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-07-30
Filing date: 2015-07-24
Publication date: 2017-06-01
Anticipated expiration: 2035-07-24
Also published as: US20170053203A1; US9582753B2; JP6328320B2; US10592800B2; CN106537420A; CN106537420B; EP3175393B1; WO2016017787A1; US20160034810A1; EP3175393A1

Abstract

方法が、まず入力信号を変換するためのモデルを定義することによって入力信号を変換する。モデルは、制約及びモデルパラメーターの組によって指定される。反復推測手順が、モデル及びモデルパラメーターの組から導出され、層の組に展開される。手順の反復ごとに１つの層があり、ネットワークパラメーターの同じ組が全ての層によって用いられる。層ごとにネットワークパラメーターの１つの組が存在し、ネットワークパラメーターの各組が別個に維持可能であり、対応する層に別個に適用可能であるように、ネットワークパラメーターの組を解放することによって、ニューラルネットワークが形成される。ニューラルネットワークがトレーニングされ、トレーニングされたニューラルネットワークが得られ、次いで、トレーニングされたニューラルネットワークを用いて入力信号が変換され、出力信号が得られる。

Description

本発明は、包括的には、信号を変換することに関し、より詳細には、ニューラルネットワークを用いて信号を変換することに関する。

機械学習
音声信号、画像信号及びビデオ信号等の信号を変換することに対する最も成功している一般的な手法のうちの２つは、モデルベースの方法及びニューラルネットワークである。各々が、重要な利点及び不利な点をもたらす。

モデルベースの方法
確率論的グラフィックモデル等のモデルベースの方法の主要な利点は、推測手順を考案する際に、モデルが事前知識及び直観を組み込んで問題レベルで推論することができることである。問題制約に関する重要な推定は、多くの場合、モデルベースの手法に組み込むことができる。例は、オーディオ信号、例えば、音声信号の線形加法性等の制約、及び画像処理における視覚遮断等の制約、並びに、条件付き独立、潜在的変数構造、スパース性、低ランク共分散等のより微細な統計的仮定を含む。異なる問題レベルの制約を仮定して試験することによって、問題の本質への洞察を得ることができ、これを用いてモデリング仮定を改善することができる。

不都合なことに、確率論的モデルにおける推測は、計算的に扱いにくい可能性がある。ループあり確率伝搬（ＢＰ）及び変分近似等の近似方法は、対象となる潜在変数を推測する反復手順を導出することができる。一方、そのような反復方法は、状況を大幅に改善するにもかかわらず、多くの場合、依然として、音声又はビデオのリアルタイムの処理等の時間的制約のある用途には低速すぎる。そのような場合、モデルの厳密な弁別的最適化は困難である可能性がある。なぜなら、これらは、モデルのパラメーターの最適化が反復推測手順に依拠する２レベル最適化を伴う場合があるためである。

図２Ａは、従来技術によるモデルベースの方法を示す。推測手順ｆ２００は、パラメーター２０３を用いて入力信号ｘ_ｉ２０１に対しＫ回反復し（２０２）、中間変数φ_ｉを推測する。次に、推定モデルｇ２０４が適用され、出力ｙ_ｉ２０５が得られる。

ニューラルネットワーク
ニューラルネットワークは、推測が、有限の閉形式の数式として定義され、通常、連続して実行される層に編成されるように定式化される。通常、ニューラルネットワークは、入力層と、１つ又は複数の隠れ層と、出力層とを含む。隠れ層の数が大きい場合、ニューラルネットワークはディープニューラルネットワークと呼ばれ、層は増分的に学習される。ネットワークの弁別的トレーニングを用いて、速度と正確度とのトレードオフを最適化することができる。

１つのよく知られた不利な点は、従来のニューラルネットワークが、問題レベルの定式化よりもメカニズムに近く、本質的に「ブラックボックス」方法とみなされ得ることである。したがって、現実世界の信号に関する事前知識及び変換の目標をネットワークに組み込むことは非常に困難である。さらに、機能中のニューラルネットワークを用いても、多くの場合、これが実際にどのように結果を達成するのかは明らかでない。したがって、より良好な結果を達成するためにどのようにネットワークを変更するかを発見することは簡単でない。この不利な点の別の例は、各層の計算を行う活性化関数の限られた組のみが調査されており、特定の問題を解決するために最良の活性化関数をどのように選択するか、又は特定の問題を解決するのに最も適した新たな活性化関数をどのように設計するかが明らかでないことである。

モデルベースの方法及びニューラルネットワークはともに、現実世界の信号を変換すること、例えば、音声信号をテキストに変換すること、ノイズのある音声信号を強調された音声信号に変換すること、ノイズのある画像をクリーンな画像に変換すること、異なる視点からの入力画像の組を奥行きマップに変換すること等のために用いられてきた。変換は、より複雑となる可能性があり、例えば、変換することにより、入力信号を特徴付けるクラスが生成されるか、又はビデオ信号内に固有のパターンが認識される可能性がある。

モデルベースの方法において、問題領域に関する知識を、モデル定式、モデルパラメーター及び変数、並びにモデルパラメーター及び変数に対する制約において表すことができる。一方、そのような方法における推測は困難である可能性がある。通常、推測は、モデル制約、モデルパラメーター及び手順パラメーターを用いる反復推測手順によって実行される。対照的に、決定論的ニューラルネットワークは、推測が簡単であるように構築されるが、引き換えに、問題領域に関する知識を組み込むことが困難になる。

したがって、本発明の実施形態は、モデルベースの方法及びニューラルネットワークの利点を有する一方で、それらの不利な点の多くを回避する、入力信号を処理するための方法を提供する。本発明の一般概念は、以下のように要約することができる。反復推測手順を必要とするモデルベースの手法を与えられると、反復は、ニューラルネットワークに類似した層ごとの構造に展開され、ここで、全ての層は、パラメーターの同じ組に関連付けられる。次に、パラメーターは、パラメーターの異なる組を各層に関連付け、それらが互いに異なることを可能にすることによって解放される。これは、勾配ベースの方法を用いて容易に弁別的にトレーニングすることができる新規の活性化関数を有する、ニューラルネットワーク状の新規のアーキテクチャーをもたらす。

結果として得られる方法は、ニューラルネットワークの表現力を、モデルベースの手法の内部構造と組み合わせ、一方で、そのパラメーターを最良の性能のために最適化することができる複数の層において推測が実行されることを可能にする。

このフレームワークは、複数のモデルベースの方法に適用することができる。特に、これを非負行列因子分解（ＮＭＦ）に適用して、新規の非負ニューラルネットワークアーキテクチャーを得ることができる。この新規の非負ニューラルネットワークアーキテクチャーは、乗法的後方伝播型更新手順を用いてトレーニングすることができる。本方法は、マルコフ確率場のためのループあり確率伝搬（ＢＰ）又は扱いにくい生成モデルのための変分推測手順にも適用することができる。

特定の実施形態は、現実世界の音声強調問題を解決するためのものである。ここでは、結果として得られるニューラルネットワークが従来のニューラルネットワークよりも性能が優れている一方で、パラメーターの数のほんの一部しか必要としない。本発明者らは、これは、問題レベル推測を、新規の活性化関数を用いて本発明によるニューラルネットワークのアーキテクチャーに組み込む能力に起因すると考える。

本発明の実施形態による、ニューラルネットワークを用いて入力信号を変換するための方法の流れ図である。従来技術のモデルベースの方法の流れ図である。本発明の実施形態による、図１のニューラルネットワークのブロック図である。本発明の実施形態による、非負行列因子分解（ＮＭＦ）モデルのためのニューラルネットワークのブロック図である。本発明の実施形態による、図３のニューラルネットワークから導出されるリカレントニューラルネットワークのブロック図である。図２Ｂのニューラルネットワークを用いてトレーニング及び試験する方法の流れ図である。図３及び図４のニューラルネットワークを用いてトレーニング及び試験する方法の流れ図である。

図１に示すように、本発明の実施形態は、反復推測手順から得られたニューラルネットワークを用いて入力信号を変換する方法を提供する。

制約及びモデルパラメーターを有するモデル１０１を用いて、反復推測手順１０２を推測する。反復推測手順１０２は、対応する手順パラメーター及びモデルパラメーターを利用する。反復推測手順及びパラメーターは展開される（１１０）。展開により、反復推測手順の各反復は、層Ｌ_ｋ１１１、ｋ＝０，．．．，Ｋの組を有するニューラルネットワークに類似した層ごとの構造及びネットワークパラメーターθ１１２の組に変換される。ここで、Ｋは、反復推測手順における反復数である。各層によって、ネットワークパラメーターの同じ組が用いられること、すなわち、パラメーターの組を変更することによって、全ての層の動作が同じように変更されることを理解されたい。同等に、各層は、パラメーターの独自の組を有するとみなすことができるが、これらのパラメーターの組は互いに連結している。従来の手法を用いて、層Ｌ_０，．．．．，Ｌ_ｋは、入力層から、隠れ層へ、そして出力層へと下から上に示される。

本発明は、一部には、ネットワーク層１１１に同じパラメーター１１２の組を共有させることが、所与の問題を解決するためのネットワークの柔軟性に対する重大な制約となるという認識に基づく。

したがって、ステップ１２０において、パラメーターの組が層ごとに異なることができるように、パラメーターの組が解放され、次に、各層１２１がパラメーター１２２の別個に維持可能な組に関連付けられ、したがって新規のニューラルネットワーク１３０をもたらす。パラメーターの組の寸法、順序及び意味は同じであることを理解されたい。例えば、各組はＮ個の変数のベクトルである。

パラメーターの組を互いから解放することによって、パラメーターの組を層ごとに個々に調整することができる。これによって、モデルの品質を改善し、結果として、動作中の速度と正確度とのトレードオフを改善することができる。解放すること、及び解放されたパラメーターを維持することは、以下で更に詳細に説明するように、簡単ではない。

次に、パラメーター１２２の組を個々に調整することによって、例えば、勾配ベースの方法及びトレーニングデータ５１０を弁別的に用いて、ニューラルネットワーク１３０をトレーニングすることができる（１４０）。

図５に示すように、次に、トレーニングされたニューラルネットワーク１５０は、入力信号ｘ_ｉ５０１を変換して（１６０）、出力ｙ_ｉ５０２を得ることができる。入力信号は、様々なセンサー、例えば、マイクロフォン、カメラ、動きセンサー等によって得ることができる。

ステップは、当該技術分野において既知のメモリ及び入出力インターフェースに接続された１つ又は複数のプロセッサにおいて実行することができる。プロセッサによって処理されるオーディオ及びビデオ等の信号は、通常、センサーによって取得され、アナログ／デジタル変換器によってデジタルデータに変換されることを理解されたい。

例示的な反復モデル
推測が最適化問題であるモデルを検討する。１つの例は変分推測であり、ここで、入力の尤度に対する下限を最適化して概算事後確率を推定し、これを用いて、隠れた量の条件付き予測値を求める。

別の例として、ループあり確率伝搬（ＢＰ）も、周辺事後確率に対する局所一貫性制約を施行する反復手順である。手順が収束するとき、固定点は、ベーテ変分自由エネルギーの静止点に対応する。

別の例では、非負行列因子分解（ＮＭＦ）は、非負の基底関数拡張モデルであり、このモデルの目的関数は、単純な乗法的更新規則によって最適化され得る。

これらのモデル及び多くの他のモデルの全てを本発明によって用いて、対応する新規のディープ展開ニューラルネットワーク（deep unfolding neural networks）を生成することができる。

展開及び解放
図２Ｂに示すように、対象となる隠れた量（出力）ｙ_ｉ５０２と、データインスタンスｉごとに観察される変数（入力）ｘ_ｉ５０１との間の関係を指定するパラメーターθ１２２の組によって決定されるモデルに基づいて、一般形式を説明する。

入力ｘ_ｉの変換１６０中、出力ｙ_ｉ５０２を推定することは、推測目的関数Ｆ_θ（ｘ_ｉ，φ_ｉ）を最適化することを伴い、ここで、φ_ｉは中間変数であり、ベクトルとみなされ、ここから、出力ｙ_ｉを以下のように求めることができる。

ここで、ニューラルネットワークの最上位層又は出力層であるｇ_θは、ｙ_ｉのための推定量又は再構成モデルである。エネルギー最小化の場合のように、最適化を最小化として任意に定式化することができるが、同等に、最適化は、確率の場合のように最大化であり得る。多くの興味深い事例について、この最適化は困難であり、反復推測手順につながる。

確率論的生成モデルでは、目的関数Ｆは、負の対数尤度に対する近似とすることができ、ｙ_ｉは隠れた量を表すことができ、φ_ｉは隠れた量の事後分布の推定値を表すことができる。例えば、変分推測手順において、φ_ｉは変分パラメーターとすることができる。積和ループあり確率伝搬において、φ_ｉは事後周辺確率である。ＮＭＦの非確率的定式化の別の例では、φ_ｉは推測時点で更新される基底関数のアクティベーション係数とすることができる。ｘ_ｉ、ｙ_ｉは、シーケンスとすることができるか、又は他の基礎をなす構造を有することができ、これらは、単純にするためにこの説明では無視される。

モデルベースの手法におけるモデルパラメーターは、弁別的目的関数を用いてトレーニングすることができる。

ここで、Ｄは損失関数であり、ｙ_ｉ ^＊は基準値である。幾つかの設定では、予測損失を求める弁別的目的

も検討することができる。

一般的な事例では、式（２）は、パラメーターθに依拠して、式（１）における最適化問題によって

が求められるので、２レベル最適化問題である。式（１）における中間変数φ_ｉは、φ_ｉ ^０から開始し、以下の形式の更新ステップｋ∈｛１．．．Ｋ｝を用いて反復的に最適化することができる。

上付きのインデックスｋは、反復インデックスを指し、指数として解釈されない。

全てのステップが同じｆ_θを用いることが推定されるが、ステップは、より小さな異なるステップで構成されてもよい。これは、ループあり確率伝搬では、各ステップにおいてメッセージの異なるサブセットが渡されるとき、又は変分推測では、各ステップにおいて変分パラメーターの異なるサブセットが更新されるときに生じ得る。

展開
反復を手順とみなすのではなく、ニューラルネットワーク状のアーキテクチャーにおいて層１１１のシーケンスとして手順１０２を展開する（１１０）。ここで、反復インデックスはこのとき、ニューラルネットワーク層へのインデックスとして解釈される。中間変数φ^１，．．．，φ^Ｋは、層１〜Ｋのノードであり、式（３）は、層間の変換及び活性化関数を求める。隠れた量ｙ_ｉ ^Ｋは、出力層のノードであり、

によって得られる。ここで、ｇは再構成関数である。

解放
本発明者らは、全ての層に同じパラメーター１１２を用いることは、弁別的トレーニングとの関連において必須ではなく、更には性能に有害であり得ることを認識している。

したがって、層１２１にわたってパラメーター１２２を互いから明示的に解放し（１２０）、大幅に改善されたニューラルネットワーク１３０を形成する。本発明者らは、解放によって、ネットワークがより複雑な関数に適合することが可能になることに加えて、極小値に対する感受性も低減することができると考える。

この解放を定式化するために、パラメーター１２２の組

を定義する、ここで、各θ^ｋは、最上位層において

であるような、層ｋ１２１のためのパラメーターの組である。

トレーニング１４０中、上記の（２）における弁別的目的関数ε_θ、又は予測損失を決定する弁別的目的関数

を用いて、θ１２２におけるパラメーターθ^ｋの組のうちの１つ又は複数を個々にかつ別個に最適化することができる。

後方伝搬を用いて、導関数を反復的に求めることができる。

ここで、ｋ＜Ｋである。導関数の全ての中間インデックスにわたって合算する。特定の導出は、ｆ、ｇ及びＤの形式に依拠し、これについて以下に例を与える。

任意選択で、層にわたってパラメーターθ^ｋの組に対し幾つかの制約を課すことができることに留意されたい。特に、強固な連結を通じて、すなわち、各サブセット内の層にわたってそれらの値が等しいと仮定されることを通じて、又は例えば、各サブセット内の層にわたるそれらの値が互いに近いことを確保するペナルティ関数を用いることによる平滑な結合を通じて、パラメーターのうちの幾つかのサブセットが結合されると仮定することができる。

パラメーターのための初期値は、ランダム化によるか、値を或る所定の値に設定することによるか、又は連結されたパラメーターを用いた元のモデルベースの手法のためのトレーニング手段を用いること等による、様々な手段によって取得することができる。初期化後に、パラメーターの幾つかのサブセットをトレーニングすることができ、他のパラメーターをそれらの初期値に保持することができる。

ニューラルネットワークの弁別的非負行列因子分解
図３に示すような１つの実施形態において、非負行列因子分解（ＮＭＦ）モデルから新規のニューラルネットワークを作成する。この新規のニューラルネットワークは、任意の現実世界の非負信号に適用することができる。ＮＭＦは多くのドメインに適用することができるが、ここで、単一チャネルソース分離の現実世界のタスクに焦点を当てる。このタスクは、信号、例えばオーディオ（音声）信号の混合物からソース信号を回復することを目的とする。この関連で、モデルは、異なるソース信号のパワースペクトル又は振幅スペクトルを合算すると概ね混合物になり、各時点において、各ソースの特徴を、非負の基底関数の線形結合として説明することができるという問題レベルの仮定を包含する。

ＮＭＦは、Ｆ次元の非負のスペクトル特徴の行列、通例、混合物Ｍ＝［ｍ_１．．．ｍ_Ｔ］のパワースペクトログラム又は振幅スペクトログラムに対し演算を行う。ここで、Ｔはフレーム数であり、

は、時間領域信号の短時間フーリエ変換によって得られる。Ｌ個のソースを用いて、Ｒ_ｌ個の非負の基底ベクトル

の組が各ソースｌ∈｛１，．．．，Ｌ｝について仮定される。上付き文字のインデックスｌはソースインデックスを指し、指数として解釈されるものではない。基底ベクトルは連結され、行列

にされる。列ごとに正規化された

を用いて、スケーリング不確定性を回避することができる。この際、基本的仮定を以下のように書くことができる。

ここで、Ｈ^ｌはソースｌの活性化行列であり、ＨはソースＨ^１，．．．，Ｈ^Ｌごとの活性化行列の垂直連結である。

βダイバージェンスＤ_βは、この近似のための適切なコスト関数である。このコスト関数は、Ｈの最適化として推測を以下のように行う。

β＝１について、Ｄ_βは、一般化されたカルバック−ライブラーダイバージェンス（ＫＬ）ダイバージェンスであるのに対し、β＝２によって二乗ユークリッド距離が得られる。重みμを有するＬ１スパース性制約は、同時に僅かな基底ベクトルしか活性でない場合の解を優先するように加算される。

以下の乗法的更新は、反復ｋ∈１，．．．，Ｋについて、非負制約を受ける式（７）を最小にする。

ここで、

は要素ごとの乗算を表し、上付き文字としてのＴは転置を表し、行列の商は要素ごとに計算され、

を定義する。Ｈ^０は、ランダムに、又は全ての値が非ゼロ定数に設定された状態で初期化することができる。Ｋ回の反復後、全てのソース推定値

を合算すると混合物

になるという制約を施行するウィーナーフィルタリングのような手法を用いて各ソースを再構成することができる。

通常、ＮＭＦベースは、ベースが組み合わされる前に、各ソースにおいて独立してトレーニングされる。一方、従来のＮＭＦフレームワークでは、組合せは、混合物からの良好な分離性能について弁別的にトレーニングされない。

弁別的方法を、スパースディクショナリベースの方法に適用して、特定の用途における、より良好な性能を達成することもできる。同様にして、ソース分離のために、ＮＭＦベースを弁別的にトレーニングすることができる。ベースをトレーニングすることに関する以下の最適化問題は、弁別的ＮＭＦ（ＤＮＭＦ）と呼ばれる。

γ_ｌは、ソースｌのアプリケーションに依拠する重要度を計上する重みである。

例えば、音声のノイズ除去において、ノイズのある混合物から音声信号を再構成することに焦点を当てる。式（１０）における第１の部分は、

を所与として、再構成誤差を最小限にする。式（１１）における第２の部分は、

が、試験時間推測目的から生じる活性化であることを確実にする。ベースＷを所与として、活性化

は、式（１１）の凸性に起因して一意に求められる。それにもかかわらず、ベースＷは双方のレベルにおいて生じるので、上記は困難な２レベル最適化問題である。

２レベル問題には、収束後により低レベルの問題の導関数について直接解くことによってアプローチすることができる。代替的に、この問題には、式（１１）において用いられている解析ベースから、式（１０）の再構成に用いられるベースを解放し、再構成ベースのみをトレーニングすることによってアプローチすることができる。加えて、式（９）は、目的関数（１０）に組み込むことができ、以下が得られる。

このモデルは、ＮＭＦとの関連における本発明の特殊で制限された事例である。

本発明のフレームワークに基づいて、全体モデルを、非負のニューラルネットワーク１３０として展開し（１１０）、ｋ∈｛１．．．Ｋ｝について、Ｗ^ｋとして層にわたるパラメーターを解放する（１２０）。以下を定義することによって、これを本発明の一般的な定式にする。

式（１）の推測目的及び推定量を、式（１１）及び式（９）を用いて特定し、式（２）の弁別的目的を、式（１２）を用いて特定し、式（３）における反復的更新を、式（８）を用いて特定する。

ニューラルネットワーク１３０をトレーニングする（１４０）ために、非負性制約を守りながら、勾配の正の部分及び負の部分間の分解を後方伝搬することによって、再帰的に定義された乗法的更新方程式を導出する。ＮＭＦにおいて、乗法的更新は、多くの場合に、２つの非負項の差の勾配の分解の正の部分に対する負の部分の比を、対象となるその変数の値を更新するための乗算係数として用いて導出される。

この分解は、通常、一意でないことに留意されたい。最上位層から開始して、層にわたって正の部分及び負の部分を伝搬することによって、各層におけるそのような分解を再帰的に得ることができる。正の部分を伝搬するために、以下を用いる。

負の部分を伝搬するために、以下を用いる。

リカレントニューラルネットワーク弁別的ＮＭＦ
本発明によるニューラルネットワーク１３０が得られた後、図４に示すように、ネットワークを拡張してリカレント構造を形成することができる。この事例では、層ｋの出力及び前回の時間フレームｔ−１における活性化行列Ｈ_ｔ−１ ^ｋ＋１が、時間フレームｔにおける層ｋへの入力として含まれる。Ｈ_ｔ−１ ^ｋ＋１を時間フレームｔにおける層ｋへの入力として含める方法の１つの例は、Ｈ_ｔ−１ ^ｋ＋１及びＨ_ｔ ^ｋを垂直方向につなぎ合わせ、ニューラルネットワーク弁別的非負行列因子分解について同じタイプの更新式を用いてＨ_ｔ ^ｋ＋１を計算し、層ｋごとに、Ｗ_{ｐｒｅｖｉｏｕｓ} ^ｋがＨ_ｔ−１ ^ｋ＋１に適用され、Ｗ_{ｃｕｒｒｅｎｔ} ^ｋがＨ_ｔ ^ｋに適用されるように、拡張されたＷ^ｋ＝［Ｗ_{ｐｒｅｖｉｏｕｓ} ^ｋ，Ｗ_{ｃｕｒｒｅｎｔ} ^ｋ］を検討することである。

一般的なトレーニング及び変換
図５は、図１のトレーニング１４０及び変換１６０の一般的な方法の詳細を示す。トレーニング５２０は、おそらくデジタル化されたトレーニング信号５１０から開始する。トレーニングは、レベルごとに１つ、Ｋ組の推測パラメーター５２１、及びメモリ５２３に記憶される推定パラメーターθ^Ｋ５２２を生成する。パラメーターは、トレーニング中に最適化することができる（５２５）。

変換は、入力信号５０１から特徴５３１を抽出する（５３０）。上記で説明したような推測モデル

が特徴に適用され（５４０）、中間表現５５０が得られる。次に、上記で説明したような推定モデルｙ_ｉ ^ｋ＝ｇ_θ（ｘ_ｉ，φ_ｉ ^Ｋ）が中間表現に適用され、出力ｙ_ｉ ^ｋが推定される。

ＤＤＮＭＦ及びＲＤＤＮＭＦについてのトレーニング及び試験
図６は、上記で説明したようなニューラルネットワーク弁別的ＮＭＦ及びリカレントニューラルネットワーク弁別的ＮＭＦのトレーニング１４０及び変換１６０のための方法の詳細を示す。トレーニング６２０は、トレーニング信号６０９から開始し、ここで、各サンプルは、ソース信号６１０及び対応する基準ソース信号６１１の混合物を含む。トレーニングは、層ごとに１つ、Ｋ組の解析モデル基底Ｗ^ｋ、ｋ＝０，．．．，Ｋ−１６２１、及びメモリ６２３に記憶される再構成モデル基底Ｗ^Ｋ６２２を生成する。パラメーターは、トレーニング中に最適化することができる（６２５）。

変換は、ソース信号の混合物の形態の試験信号６０１から、特徴６３１を抽出し（６３０）、これらは解析され（６４０）、解析再構成表現６５０が生成される。次に、再構成モデルが解析表現に適用され、出力ソース信号

が推定される。

Claims

入力信号を変換する方法であって、
前記入力信号を変換するためのモデルを定義するステップであって、前記モデルは制約及びモデルパラメーターの組によって指定される、ステップと、
前記モデル及び前記モデルパラメーターの組から導出される反復推測手順を定義するステップと、
前記反復推測手順を層の組に展開するステップであって、前記手順の反復ごとに１つの層があり、ネットワークパラメーターの同じ組が全ての層によって用いられる、ステップと、
層ごとにネットワークパラメーターの１つの組が存在し、ネットワークパラメーターの各組が別個に維持可能であり、対応する層に別個に適用可能であるように、前記ネットワークパラメーターの組を解放することによってニューラルネットワークを形成するステップと、
前記ニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを得るステップと、
前記トレーニングされたニューラルネットワークを用いて前記入力信号を変換し、出力信号を得るステップと、
を含み、
前記ステップはプロセッサにおいて実行される、方法。
前記トレーニング中にネットワークパラメーターの１つ又は複数の組を独立して調整するステップを更に含む、
請求項１に記載の方法。
前記モデルは、確率論的生成モデルであり、
前記推測手順は、変分推測であり、
前記方法は、
前記入力信号の尤度に対する下限を最適化して、概算事後確率を得るステップを更に含む、
請求項１に記載の方法。
前記モデルは、マルコフ確率場であり、
前記推測手順は、周辺事後確率に対する局所一貫性制約を施行するループあり確率伝搬（ＢＰ）である、
請求項１に記載の方法。
前記モデルは、非負の基底関数拡張モデルであり、
前記推測手順は、乗法的更新に基づく、
請求項１に記載の方法。
前記パラメーターの組は、前記出力信号と前記入力信号との間の関係を指定する、
請求項１に記載の方法。
前記出力信号を求めることができる中間変数を伴う推測目的関数を最適化することによって、前記出力信号を得るステップを更に含む、
請求項６に記載の方法。
前記推測目的関数は、対数尤度に対する近似である、
請求項７に記載の方法。
前記中間変数は、変分推測手順の変分パラメーターである、
請求項７に記載の方法。
前記中間変数は、ループあり確率伝搬手順の事後周辺確率である、
請求項７に記載の方法。
前記中間変数は、基底関数の活性化係数である、
請求項７に記載の方法。
前記ネットワークパラメーターの組は、前記入力信号と前記出力信号との間の関係を指定し、
前記調整するステップは、引数として基準値及び推定出力信号をとる損失関数を含む弁別的目的関数を用いて前記ネットワークパラメーターの組を最適化する、
請求項２に記載の方法。
前記入力信号は、ノイズのある音声であり、
前記出力信号はクリーンな音声である、
請求項１に記載の方法。
前記入力信号は、信号の混合物であり、
前記出力信号は、１つ又は複数のソース信号である、
請求項１に記載の方法。
前記ニューラルネットワークは、データインスタンスの組の要素ごとに１つのニューラルネットワークを用いることによって、及び１つ又は複数のニューラルネットワークの１つ又は複数の層間で接続を合算することによって拡張される、
請求項１に記載の方法。
前記データインスタンスの組は、シーケンスであり、
前記結果として得られるニューラルネットワークは、リカレントニューラルネットワークである、
請求項１５に記載の方法。
前記データインスタンスの組は、アレイである、
請求項１６に記載の方法。
前記最適化することは、上位層から下位層への勾配の後方伝搬によって実施される勾配降下に基づく、
請求項１２に記載の方法。
前記ネットワークパラメーターのうちの１つ又は複数は、非負であり、
前記最適化することは乗法的更新に基づく、
請求項１２に記載の方法。
前記乗法的更新は、２つの非負項の差における勾配の分解の正の部分に対する負の部分の比に基づき、
前記分解は、上位層の前記勾配の前記分解の前記正の部分及び前記負の部分の後方伝搬によって得られる、
請求項１９に記載の方法。