JP2017514249A - 入力信号を変換する方法 - Google Patents

入力信号を変換する方法 Download PDF

Info

Publication number
JP2017514249A
JP2017514249A JP2017503307A JP2017503307A JP2017514249A JP 2017514249 A JP2017514249 A JP 2017514249A JP 2017503307 A JP2017503307 A JP 2017503307A JP 2017503307 A JP2017503307 A JP 2017503307A JP 2017514249 A JP2017514249 A JP 2017514249A
Authority
JP
Japan
Prior art keywords
model
parameters
neural network
input signal
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017503307A
Other languages
English (en)
Other versions
JP6328320B2 (ja
Inventor
ハーシェイ、ジョン
ル・ルー、ジョナサン
ウェニンガー、フェリックス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2017514249A publication Critical patent/JP2017514249A/ja
Application granted granted Critical
Publication of JP6328320B2 publication Critical patent/JP6328320B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/043Architecture, e.g. interconnection topology based on fuzzy logic, fuzzy membership or fuzzy inference, e.g. adaptive neuro-fuzzy inference systems [ANFIS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

方法が、まず入力信号を変換するためのモデルを定義することによって入力信号を変換する。モデルは、制約及びモデルパラメーターの組によって指定される。反復推測手順が、モデル及びモデルパラメーターの組から導出され、層の組に展開される。手順の反復ごとに1つの層があり、ネットワークパラメーターの同じ組が全ての層によって用いられる。層ごとにネットワークパラメーターの1つの組が存在し、ネットワークパラメーターの各組が別個に維持可能であり、対応する層に別個に適用可能であるように、ネットワークパラメーターの組を解放することによって、ニューラルネットワークが形成される。ニューラルネットワークがトレーニングされ、トレーニングされたニューラルネットワークが得られ、次いで、トレーニングされたニューラルネットワークを用いて入力信号が変換され、出力信号が得られる。

Description

本発明は、包括的には、信号を変換することに関し、より詳細には、ニューラルネットワークを用いて信号を変換することに関する。
機械学習
音声信号、画像信号及びビデオ信号等の信号を変換することに対する最も成功している一般的な手法のうちの2つは、モデルベースの方法及びニューラルネットワークである。各々が、重要な利点及び不利な点をもたらす。
モデルベースの方法
確率論的グラフィックモデル等のモデルベースの方法の主要な利点は、推測手順を考案する際に、モデルが事前知識及び直観を組み込んで問題レベルで推論することができることである。問題制約に関する重要な推定は、多くの場合、モデルベースの手法に組み込むことができる。例は、オーディオ信号、例えば、音声信号の線形加法性等の制約、及び画像処理における視覚遮断等の制約、並びに、条件付き独立、潜在的変数構造、スパース性、低ランク共分散等のより微細な統計的仮定を含む。異なる問題レベルの制約を仮定して試験することによって、問題の本質への洞察を得ることができ、これを用いてモデリング仮定を改善することができる。
不都合なことに、確率論的モデルにおける推測は、計算的に扱いにくい可能性がある。ループあり確率伝搬(BP)及び変分近似等の近似方法は、対象となる潜在変数を推測する反復手順を導出することができる。一方、そのような反復方法は、状況を大幅に改善するにもかかわらず、多くの場合、依然として、音声又はビデオのリアルタイムの処理等の時間的制約のある用途には低速すぎる。そのような場合、モデルの厳密な弁別的最適化は困難である可能性がある。なぜなら、これらは、モデルのパラメーターの最適化が反復推測手順に依拠する2レベル最適化を伴う場合があるためである。
図2Aは、従来技術によるモデルベースの方法を示す。推測手順f200は、パラメーター203を用いて入力信号x201に対しK回反復し(202)、中間変数φを推測する。次に、推定モデルg204が適用され、出力y205が得られる。
ニューラルネットワーク
ニューラルネットワークは、推測が、有限の閉形式の数式として定義され、通常、連続して実行される層に編成されるように定式化される。通常、ニューラルネットワークは、入力層と、1つ又は複数の隠れ層と、出力層とを含む。隠れ層の数が大きい場合、ニューラルネットワークはディープニューラルネットワークと呼ばれ、層は増分的に学習される。ネットワークの弁別的トレーニングを用いて、速度と正確度とのトレードオフを最適化することができる。
1つのよく知られた不利な点は、従来のニューラルネットワークが、問題レベルの定式化よりもメカニズムに近く、本質的に「ブラックボックス」方法とみなされ得ることである。したがって、現実世界の信号に関する事前知識及び変換の目標をネットワークに組み込むことは非常に困難である。さらに、機能中のニューラルネットワークを用いても、多くの場合、これが実際にどのように結果を達成するのかは明らかでない。したがって、より良好な結果を達成するためにどのようにネットワークを変更するかを発見することは簡単でない。この不利な点の別の例は、各層の計算を行う活性化関数の限られた組のみが調査されており、特定の問題を解決するために最良の活性化関数をどのように選択するか、又は特定の問題を解決するのに最も適した新たな活性化関数をどのように設計するかが明らかでないことである。
モデルベースの方法及びニューラルネットワークはともに、現実世界の信号を変換すること、例えば、音声信号をテキストに変換すること、ノイズのある音声信号を強調された音声信号に変換すること、ノイズのある画像をクリーンな画像に変換すること、異なる視点からの入力画像の組を奥行きマップに変換すること等のために用いられてきた。変換は、より複雑となる可能性があり、例えば、変換することにより、入力信号を特徴付けるクラスが生成されるか、又はビデオ信号内に固有のパターンが認識される可能性がある。
モデルベースの方法において、問題領域に関する知識を、モデル定式、モデルパラメーター及び変数、並びにモデルパラメーター及び変数に対する制約において表すことができる。一方、そのような方法における推測は困難である可能性がある。通常、推測は、モデル制約、モデルパラメーター及び手順パラメーターを用いる反復推測手順によって実行される。対照的に、決定論的ニューラルネットワークは、推測が簡単であるように構築されるが、引き換えに、問題領域に関する知識を組み込むことが困難になる。
したがって、本発明の実施形態は、モデルベースの方法及びニューラルネットワークの利点を有する一方で、それらの不利な点の多くを回避する、入力信号を処理するための方法を提供する。本発明の一般概念は、以下のように要約することができる。反復推測手順を必要とするモデルベースの手法を与えられると、反復は、ニューラルネットワークに類似した層ごとの構造に展開され、ここで、全ての層は、パラメーターの同じ組に関連付けられる。次に、パラメーターは、パラメーターの異なる組を各層に関連付け、それらが互いに異なることを可能にすることによって解放される。これは、勾配ベースの方法を用いて容易に弁別的にトレーニングすることができる新規の活性化関数を有する、ニューラルネットワーク状の新規のアーキテクチャーをもたらす。
結果として得られる方法は、ニューラルネットワークの表現力を、モデルベースの手法の内部構造と組み合わせ、一方で、そのパラメーターを最良の性能のために最適化することができる複数の層において推測が実行されることを可能にする。
このフレームワークは、複数のモデルベースの方法に適用することができる。特に、これを非負行列因子分解(NMF)に適用して、新規の非負ニューラルネットワークアーキテクチャーを得ることができる。この新規の非負ニューラルネットワークアーキテクチャーは、乗法的後方伝播型更新手順を用いてトレーニングすることができる。本方法は、マルコフ確率場のためのループあり確率伝搬(BP)又は扱いにくい生成モデルのための変分推測手順にも適用することができる。
特定の実施形態は、現実世界の音声強調問題を解決するためのものである。ここでは、結果として得られるニューラルネットワークが従来のニューラルネットワークよりも性能が優れている一方で、パラメーターの数のほんの一部しか必要としない。本発明者らは、これは、問題レベル推測を、新規の活性化関数を用いて本発明によるニューラルネットワークのアーキテクチャーに組み込む能力に起因すると考える。
本発明の実施形態による、ニューラルネットワークを用いて入力信号を変換するための方法の流れ図である。 従来技術のモデルベースの方法の流れ図である。 本発明の実施形態による、図1のニューラルネットワークのブロック図である。 本発明の実施形態による、非負行列因子分解(NMF)モデルのためのニューラルネットワークのブロック図である。 本発明の実施形態による、図3のニューラルネットワークから導出されるリカレントニューラルネットワークのブロック図である。 図2Bのニューラルネットワークを用いてトレーニング及び試験する方法の流れ図である。 図3及び図4のニューラルネットワークを用いてトレーニング及び試験する方法の流れ図である。
図1に示すように、本発明の実施形態は、反復推測手順から得られたニューラルネットワークを用いて入力信号を変換する方法を提供する。
制約及びモデルパラメーターを有するモデル101を用いて、反復推測手順102を推測する。反復推測手順102は、対応する手順パラメーター及びモデルパラメーターを利用する。反復推測手順及びパラメーターは展開される(110)。展開により、反復推測手順の各反復は、層L111、k=0,...,Kの組を有するニューラルネットワークに類似した層ごとの構造及びネットワークパラメーターθ112の組に変換される。ここで、Kは、反復推測手順における反復数である。各層によって、ネットワークパラメーターの同じ組が用いられること、すなわち、パラメーターの組を変更することによって、全ての層の動作が同じように変更されることを理解されたい。同等に、各層は、パラメーターの独自の組を有するとみなすことができるが、これらのパラメーターの組は互いに連結している。従来の手法を用いて、層L,....,Lは、入力層から、隠れ層へ、そして出力層へと下から上に示される。
本発明は、一部には、ネットワーク層111に同じパラメーター112の組を共有させることが、所与の問題を解決するためのネットワークの柔軟性に対する重大な制約となるという認識に基づく。
したがって、ステップ120において、パラメーターの組が層ごとに異なることができるように、パラメーターの組が解放され、次に、各層121がパラメーター122の別個に維持可能な組に関連付けられ、したがって新規のニューラルネットワーク130をもたらす。パラメーターの組の寸法、順序及び意味は同じであることを理解されたい。例えば、各組はN個の変数のベクトルである。
パラメーターの組を互いから解放することによって、パラメーターの組を層ごとに個々に調整することができる。これによって、モデルの品質を改善し、結果として、動作中の速度と正確度とのトレードオフを改善することができる。解放すること、及び解放されたパラメーターを維持することは、以下で更に詳細に説明するように、簡単ではない。
次に、パラメーター122の組を個々に調整することによって、例えば、勾配ベースの方法及びトレーニングデータ510を弁別的に用いて、ニューラルネットワーク130をトレーニングすることができる(140)。
図5に示すように、次に、トレーニングされたニューラルネットワーク150は、入力信号x501を変換して(160)、出力y502を得ることができる。入力信号は、様々なセンサー、例えば、マイクロフォン、カメラ、動きセンサー等によって得ることができる。
ステップは、当該技術分野において既知のメモリ及び入出力インターフェースに接続された1つ又は複数のプロセッサにおいて実行することができる。プロセッサによって処理されるオーディオ及びビデオ等の信号は、通常、センサーによって取得され、アナログ/デジタル変換器によってデジタルデータに変換されることを理解されたい。
例示的な反復モデル
推測が最適化問題であるモデルを検討する。1つの例は変分推測であり、ここで、入力の尤度に対する下限を最適化して概算事後確率を推定し、これを用いて、隠れた量の条件付き予測値を求める。
別の例として、ループあり確率伝搬(BP)も、周辺事後確率に対する局所一貫性制約を施行する反復手順である。手順が収束するとき、固定点は、ベーテ変分自由エネルギーの静止点に対応する。
別の例では、非負行列因子分解(NMF)は、非負の基底関数拡張モデルであり、このモデルの目的関数は、単純な乗法的更新規則によって最適化され得る。
これらのモデル及び多くの他のモデルの全てを本発明によって用いて、対応する新規のディープ展開ニューラルネットワーク(deep unfolding neural networks)を生成することができる。
展開及び解放
図2Bに示すように、対象となる隠れた量(出力)y502と、データインスタンスiごとに観察される変数(入力)x501との間の関係を指定するパラメーターθ122の組によって決定されるモデルに基づいて、一般形式を説明する。
入力xの変換160中、出力y502を推定することは、推測目的関数Fθ(x,φ)を最適化することを伴い、ここで、φは中間変数であり、ベクトルとみなされ、ここから、出力yを以下のように求めることができる。
Figure 2017514249
ここで、ニューラルネットワークの最上位層又は出力層であるgθは、yのための推定量又は再構成モデルである。エネルギー最小化の場合のように、最適化を最小化として任意に定式化することができるが、同等に、最適化は、確率の場合のように最大化であり得る。多くの興味深い事例について、この最適化は困難であり、反復推測手順につながる。
確率論的生成モデルでは、目的関数Fは、負の対数尤度に対する近似とすることができ、yは隠れた量を表すことができ、φは隠れた量の事後分布の推定値を表すことができる。例えば、変分推測手順において、φは変分パラメーターとすることができる。積和ループあり確率伝搬において、φは事後周辺確率である。NMFの非確率的定式化の別の例では、φは推測時点で更新される基底関数のアクティベーション係数とすることができる。x、yは、シーケンスとすることができるか、又は他の基礎をなす構造を有することができ、これらは、単純にするためにこの説明では無視される。
モデルベースの手法におけるモデルパラメーターは、弁別的目的関数を用いてトレーニングすることができる。
Figure 2017514249
ここで、Dは損失関数であり、y は基準値である。幾つかの設定では、予測損失を求める弁別的目的
Figure 2017514249
も検討することができる。
一般的な事例では、式(2)は、パラメーターθに依拠して、式(1)における最適化問題によって
Figure 2017514249
が求められるので、2レベル最適化問題である。式(1)における中間変数φは、φ から開始し、以下の形式の更新ステップk∈{1...K}を用いて反復的に最適化することができる。
Figure 2017514249
上付きのインデックスkは、反復インデックスを指し、指数として解釈されない。
全てのステップが同じfθを用いることが推定されるが、ステップは、より小さな異なるステップで構成されてもよい。これは、ループあり確率伝搬では、各ステップにおいてメッセージの異なるサブセットが渡されるとき、又は変分推測では、各ステップにおいて変分パラメーターの異なるサブセットが更新されるときに生じ得る。
展開
反復を手順とみなすのではなく、ニューラルネットワーク状のアーキテクチャーにおいて層111のシーケンスとして手順102を展開する(110)。ここで、反復インデックスはこのとき、ニューラルネットワーク層へのインデックスとして解釈される。中間変数φ,...,φは、層1〜Kのノードであり、式(3)は、層間の変換及び活性化関数を求める。隠れた量y は、出力層のノードであり、
Figure 2017514249
によって得られる。ここで、gは再構成関数である。
解放
本発明者らは、全ての層に同じパラメーター112を用いることは、弁別的トレーニングとの関連において必須ではなく、更には性能に有害であり得ることを認識している。
したがって、層121にわたってパラメーター122を互いから明示的に解放し(120)、大幅に改善されたニューラルネットワーク130を形成する。本発明者らは、解放によって、ネットワークがより複雑な関数に適合することが可能になることに加えて、極小値に対する感受性も低減することができると考える。
この解放を定式化するために、パラメーター122の組
Figure 2017514249
を定義する、ここで、各θは、最上位層において
Figure 2017514249
であるような、層k121のためのパラメーターの組である。
トレーニング140中、上記の(2)における弁別的目的関数εθ、又は予測損失を決定する弁別的目的関数
Figure 2017514249
を用いて、θ122におけるパラメーターθの組のうちの1つ又は複数を個々にかつ別個に最適化することができる。
後方伝搬を用いて、導関数を反復的に求めることができる。
Figure 2017514249
ここで、k<Kである。導関数の全ての中間インデックスにわたって合算する。特定の導出は、f、g及びDの形式に依拠し、これについて以下に例を与える。
任意選択で、層にわたってパラメーターθの組に対し幾つかの制約を課すことができることに留意されたい。特に、強固な連結を通じて、すなわち、各サブセット内の層にわたってそれらの値が等しいと仮定されることを通じて、又は例えば、各サブセット内の層にわたるそれらの値が互いに近いことを確保するペナルティ関数を用いることによる平滑な結合を通じて、パラメーターのうちの幾つかのサブセットが結合されると仮定することができる。
パラメーターのための初期値は、ランダム化によるか、値を或る所定の値に設定することによるか、又は連結されたパラメーターを用いた元のモデルベースの手法のためのトレーニング手段を用いること等による、様々な手段によって取得することができる。初期化後に、パラメーターの幾つかのサブセットをトレーニングすることができ、他のパラメーターをそれらの初期値に保持することができる。
ニューラルネットワークの弁別的非負行列因子分解
図3に示すような1つの実施形態において、非負行列因子分解(NMF)モデルから新規のニューラルネットワークを作成する。この新規のニューラルネットワークは、任意の現実世界の非負信号に適用することができる。NMFは多くのドメインに適用することができるが、ここで、単一チャネルソース分離の現実世界のタスクに焦点を当てる。このタスクは、信号、例えばオーディオ(音声)信号の混合物からソース信号を回復することを目的とする。この関連で、モデルは、異なるソース信号のパワースペクトル又は振幅スペクトルを合算すると概ね混合物になり、各時点において、各ソースの特徴を、非負の基底関数の線形結合として説明することができるという問題レベルの仮定を包含する。
NMFは、F次元の非負のスペクトル特徴の行列、通例、混合物M=[m...m]のパワースペクトログラム又は振幅スペクトログラムに対し演算を行う。ここで、Tはフレーム数であり、
Figure 2017514249
は、時間領域信号の短時間フーリエ変換によって得られる。L個のソースを用いて、R個の非負の基底ベクトル
Figure 2017514249
の組が各ソースl∈{1,...,L}について仮定される。上付き文字のインデックスlはソースインデックスを指し、指数として解釈されるものではない。基底ベクトルは連結され、行列
Figure 2017514249
にされる。列ごとに正規化された
Figure 2017514249
を用いて、スケーリング不確定性を回避することができる。この際、基本的仮定を以下のように書くことができる。
Figure 2017514249
ここで、Hはソースlの活性化行列であり、HはソースH,...,Hごとの活性化行列の垂直連結である。
βダイバージェンスDβは、この近似のための適切なコスト関数である。このコスト関数は、Hの最適化として推測を以下のように行う。
Figure 2017514249
β=1について、Dβは、一般化されたカルバック−ライブラーダイバージェンス(KL)ダイバージェンスであるのに対し、β=2によって二乗ユークリッド距離が得られる。重みμを有するL1スパース性制約は、同時に僅かな基底ベクトルしか活性でない場合の解を優先するように加算される。
以下の乗法的更新は、反復k∈1,...,Kについて、非負制約を受ける式(7)を最小にする。
Figure 2017514249
ここで、
Figure 2017514249
は要素ごとの乗算を表し、上付き文字としてのTは転置を表し、行列の商は要素ごとに計算され、
Figure 2017514249
を定義する。Hは、ランダムに、又は全ての値が非ゼロ定数に設定された状態で初期化することができる。K回の反復後、全てのソース推定値
Figure 2017514249
を合算すると混合物
Figure 2017514249
になるという制約を施行するウィーナーフィルタリングのような手法を用いて各ソースを再構成することができる。
通常、NMFベースは、ベースが組み合わされる前に、各ソースにおいて独立してトレーニングされる。一方、従来のNMFフレームワークでは、組合せは、混合物からの良好な分離性能について弁別的にトレーニングされない。
弁別的方法を、スパースディクショナリベースの方法に適用して、特定の用途における、より良好な性能を達成することもできる。同様にして、ソース分離のために、NMFベースを弁別的にトレーニングすることができる。ベースをトレーニングすることに関する以下の最適化問題は、弁別的NMF(DNMF)と呼ばれる。
Figure 2017514249
γは、ソースlのアプリケーションに依拠する重要度を計上する重みである。
例えば、音声のノイズ除去において、ノイズのある混合物から音声信号を再構成することに焦点を当てる。式(10)における第1の部分は、
Figure 2017514249
を所与として、再構成誤差を最小限にする。式(11)における第2の部分は、
Figure 2017514249
が、試験時間推測目的から生じる活性化であることを確実にする。ベースWを所与として、活性化
Figure 2017514249
は、式(11)の凸性に起因して一意に求められる。それにもかかわらず、ベースWは双方のレベルにおいて生じるので、上記は困難な2レベル最適化問題である。
2レベル問題には、収束後により低レベルの問題の導関数について直接解くことによってアプローチすることができる。代替的に、この問題には、式(11)において用いられている解析ベースから、式(10)の再構成に用いられるベースを解放し、再構成ベースのみをトレーニングすることによってアプローチすることができる。加えて、式(9)は、目的関数(10)に組み込むことができ、以下が得られる。
Figure 2017514249
このモデルは、NMFとの関連における本発明の特殊で制限された事例である。
本発明のフレームワークに基づいて、全体モデルを、非負のニューラルネットワーク130として展開し(110)、k∈{1...K}について、Wとして層にわたるパラメーターを解放する(120)。以下を定義することによって、これを本発明の一般的な定式にする。
Figure 2017514249
式(1)の推測目的及び推定量を、式(11)及び式(9)を用いて特定し、式(2)の弁別的目的を、式(12)を用いて特定し、式(3)における反復的更新を、式(8)を用いて特定する。
ニューラルネットワーク130をトレーニングする(140)ために、非負性制約を守りながら、勾配の正の部分及び負の部分間の分解を後方伝搬することによって、再帰的に定義された乗法的更新方程式を導出する。NMFにおいて、乗法的更新は、多くの場合に、2つの非負項の差の勾配の分解の正の部分に対する負の部分の比を、対象となるその変数の値を更新するための乗算係数として用いて導出される。
Figure 2017514249
この分解は、通常、一意でないことに留意されたい。最上位層から開始して、層にわたって正の部分及び負の部分を伝搬することによって、各層におけるそのような分解を再帰的に得ることができる。正の部分を伝搬するために、以下を用いる。
Figure 2017514249
負の部分を伝搬するために、以下を用いる。
Figure 2017514249
リカレントニューラルネットワーク弁別的NMF
本発明によるニューラルネットワーク130が得られた後、図4に示すように、ネットワークを拡張してリカレント構造を形成することができる。この事例では、層kの出力及び前回の時間フレームt−1における活性化行列Ht−1 k+1が、時間フレームtにおける層kへの入力として含まれる。Ht−1 k+1を時間フレームtにおける層kへの入力として含める方法の1つの例は、Ht−1 k+1及びH を垂直方向につなぎ合わせ、ニューラルネットワーク弁別的非負行列因子分解について同じタイプの更新式を用いてH k+1を計算し、層kごとに、Wprevious がHt−1 k+1に適用され、Wcurrent がH に適用されるように、拡張されたW=[Wprevious ,Wcurrent ]を検討することである。
一般的なトレーニング及び変換
図5は、図1のトレーニング140及び変換160の一般的な方法の詳細を示す。トレーニング520は、おそらくデジタル化されたトレーニング信号510から開始する。トレーニングは、レベルごとに1つ、K組の推測パラメーター521、及びメモリ523に記憶される推定パラメーターθ522を生成する。パラメーターは、トレーニング中に最適化することができる(525)。
変換は、入力信号501から特徴531を抽出する(530)。上記で説明したような推測モデル
Figure 2017514249
が特徴に適用され(540)、中間表現550が得られる。次に、上記で説明したような推定モデルy =gθ(x,φ )が中間表現に適用され、出力y が推定される。
DDNMF及びRDDNMFについてのトレーニング及び試験
図6は、上記で説明したようなニューラルネットワーク弁別的NMF及びリカレントニューラルネットワーク弁別的NMFのトレーニング140及び変換160のための方法の詳細を示す。トレーニング620は、トレーニング信号609から開始し、ここで、各サンプルは、ソース信号610及び対応する基準ソース信号611の混合物を含む。トレーニングは、層ごとに1つ、K組の解析モデル基底W、k=0,...,K−1 621、及びメモリ623に記憶される再構成モデル基底W622を生成する。パラメーターは、トレーニング中に最適化することができる(625)。
変換は、ソース信号の混合物の形態の試験信号601から、特徴631を抽出し(630)、これらは解析され(640)、解析再構成表現650が生成される。次に、再構成モデルが解析表現に適用され、出力ソース信号
Figure 2017514249
が推定される。

Claims (20)

  1. 入力信号を変換する方法であって、
    前記入力信号を変換するためのモデルを定義するステップであって、前記モデルは制約及びモデルパラメーターの組によって指定される、ステップと、
    前記モデル及び前記モデルパラメーターの組から導出される反復推測手順を定義するステップと、
    前記反復推測手順を層の組に展開するステップであって、前記手順の反復ごとに1つの層があり、ネットワークパラメーターの同じ組が全ての層によって用いられる、ステップと、
    層ごとにネットワークパラメーターの1つの組が存在し、ネットワークパラメーターの各組が別個に維持可能であり、対応する層に別個に適用可能であるように、前記ネットワークパラメーターの組を解放することによってニューラルネットワークを形成するステップと、
    前記ニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを得るステップと、
    前記トレーニングされたニューラルネットワークを用いて前記入力信号を変換し、出力信号を得るステップと、
    を含み、
    前記ステップはプロセッサにおいて実行される、方法。
  2. 前記トレーニング中にネットワークパラメーターの1つ又は複数の組を独立して調整するステップを更に含む、
    請求項1に記載の方法。
  3. 前記モデルは、確率論的生成モデルであり、
    前記推測手順は、変分推測であり、
    前記方法は、
    前記入力信号の尤度に対する下限を最適化して、概算事後確率を得るステップを更に含む、
    請求項1に記載の方法。
  4. 前記モデルは、マルコフ確率場であり、
    前記推測手順は、周辺事後確率に対する局所一貫性制約を施行するループあり確率伝搬(BP)である、
    請求項1に記載の方法。
  5. 前記モデルは、非負の基底関数拡張モデルであり、
    前記推測手順は、乗法的更新に基づく、
    請求項1に記載の方法。
  6. 前記パラメーターの組は、前記出力信号と前記入力信号との間の関係を指定する、
    請求項1に記載の方法。
  7. 前記出力信号を求めることができる中間変数を伴う推測目的関数を最適化することによって、前記出力信号を得るステップを更に含む、
    請求項6に記載の方法。
  8. 前記推測目的関数は、対数尤度に対する近似である、
    請求項7に記載の方法。
  9. 前記中間変数は、変分推測手順の変分パラメーターである、
    請求項7に記載の方法。
  10. 前記中間変数は、ループあり確率伝搬手順の事後周辺確率である、
    請求項7に記載の方法。
  11. 前記中間変数は、基底関数の活性化係数である、
    請求項7に記載の方法。
  12. 前記ネットワークパラメーターの組は、前記入力信号と前記出力信号との間の関係を指定し、
    前記調整するステップは、引数として基準値及び推定出力信号をとる損失関数を含む弁別的目的関数を用いて前記ネットワークパラメーターの組を最適化する、
    請求項2に記載の方法。
  13. 前記入力信号は、ノイズのある音声であり、
    前記出力信号はクリーンな音声である、
    請求項1に記載の方法。
  14. 前記入力信号は、信号の混合物であり、
    前記出力信号は、1つ又は複数のソース信号である、
    請求項1に記載の方法。
  15. 前記ニューラルネットワークは、データインスタンスの組の要素ごとに1つのニューラルネットワークを用いることによって、及び1つ又は複数のニューラルネットワークの1つ又は複数の層間で接続を合算することによって拡張される、
    請求項1に記載の方法。
  16. 前記データインスタンスの組は、シーケンスであり、
    前記結果として得られるニューラルネットワークは、リカレントニューラルネットワークである、
    請求項15に記載の方法。
  17. 前記データインスタンスの組は、アレイである、
    請求項16に記載の方法。
  18. 前記最適化することは、上位層から下位層への勾配の後方伝搬によって実施される勾配降下に基づく、
    請求項12に記載の方法。
  19. 前記ネットワークパラメーターのうちの1つ又は複数は、非負であり、
    前記最適化することは乗法的更新に基づく、
    請求項12に記載の方法。
  20. 前記乗法的更新は、2つの非負項の差における勾配の分解の正の部分に対する負の部分の比に基づき、
    前記分解は、上位層の前記勾配の前記分解の前記正の部分及び前記負の部分の後方伝搬によって得られる、
    請求項19に記載の方法。
JP2017503307A 2014-07-30 2015-07-24 入力信号を変換する方法 Active JP6328320B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/446,431 2014-07-30
US14/446,431 US9582753B2 (en) 2014-07-30 2014-07-30 Neural networks for transforming signals
PCT/JP2015/071730 WO2016017787A1 (en) 2014-07-30 2015-07-24 Method for transforming input signals

Publications (2)

Publication Number Publication Date
JP2017514249A true JP2017514249A (ja) 2017-06-01
JP6328320B2 JP6328320B2 (ja) 2018-05-23

Family

ID=53879740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017503307A Active JP6328320B2 (ja) 2014-07-30 2015-07-24 入力信号を変換する方法

Country Status (5)

Country Link
US (2) US9582753B2 (ja)
EP (1) EP3175393B1 (ja)
JP (1) JP6328320B2 (ja)
CN (1) CN106537420B (ja)
WO (1) WO2016017787A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060699A (zh) * 2019-05-21 2019-07-26 哈尔滨工程大学 一种基于深度稀疏展开的单信道语音分离方法
CN110189761A (zh) * 2019-05-21 2019-08-30 哈尔滨工程大学 一种基于贪婪深度字典学习的单信道语音去混响方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170178664A1 (en) * 2014-04-11 2017-06-22 Analog Devices, Inc. Apparatus, systems and methods for providing cloud based blind source separation services
US9582753B2 (en) * 2014-07-30 2017-02-28 Mitsubishi Electric Research Laboratories, Inc. Neural networks for transforming signals
US10062201B2 (en) 2015-04-21 2018-08-28 Microsoft Technology Licensing, Llc Time-of-flight simulation of multipath light phenomena
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
US9760837B1 (en) * 2016-03-13 2017-09-12 Microsoft Technology Licensing, Llc Depth from time-of-flight using machine learning
EP4235646A3 (en) 2016-03-23 2023-09-06 Google LLC Adaptive audio enhancement for multichannel speech recognition
US10068140B2 (en) 2016-12-02 2018-09-04 Bayerische Motoren Werke Aktiengesellschaft System and method for estimating vehicular motion based on monocular video data
CN113541700B (zh) 2017-05-03 2022-09-30 弗吉尼亚科技知识产权有限公司 用无线电信号变换器学习无线电信号的方法、系统和装置
KR102053527B1 (ko) * 2017-10-15 2019-12-06 알레시오 주식회사 이미지 처리 방법
US11170301B2 (en) * 2017-11-16 2021-11-09 Mitsubishi Electric Research Laboratories, Inc. Machine learning via double layer optimization
TWI651927B (zh) * 2018-02-14 2019-02-21 National Central University 訊號源分離方法及訊號源分離裝置
CN108648762A (zh) * 2018-03-14 2018-10-12 上海交通大学 一种基于压缩感知的音频信号采样和重建方法
US20210019122A1 (en) * 2018-03-28 2021-01-21 Sony Corporation Information processing method, information processing apparatus, and program
EP3564698B1 (en) * 2018-05-02 2024-11-06 Rohde & Schwarz GmbH & Co. KG Method for classifying electromagnetic signals and analysing system
US11462209B2 (en) * 2018-05-18 2022-10-04 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks
US10923141B2 (en) 2018-08-06 2021-02-16 Spotify Ab Singing voice separation with deep u-net convolutional networks
US10977555B2 (en) 2018-08-06 2021-04-13 Spotify Ab Automatic isolation of multiple instruments from musical mixtures
JP6903611B2 (ja) * 2018-08-27 2021-07-14 株式会社東芝 信号生成装置、信号生成システム、信号生成方法およびプログラム
US11657322B2 (en) * 2018-08-30 2023-05-23 Nec Corporation Method and system for scalable multi-task learning with convex clustering
CN109558664B (zh) * 2018-11-22 2023-04-18 广东工业大学 一种注塑成型制造的复合物料配方制定方法
US20200184991A1 (en) * 2018-12-05 2020-06-11 Pascal Cleve Sound class identification using a neural network
US11640522B2 (en) * 2018-12-13 2023-05-02 Tybalt, Llc Computational efficiency improvements for artificial neural networks
CN113302632B (zh) 2019-01-28 2024-06-14 三菱电机株式会社 开发辅助装置、开发辅助系统和开发辅助方法
US10885332B2 (en) 2019-03-15 2021-01-05 International Business Machines Corporation Data labeling for deep-learning models
CN110222844A (zh) * 2019-05-30 2019-09-10 西安交通大学 一种基于人工神经网络的压缩机性能预测方法
CN111464468A (zh) * 2020-03-02 2020-07-28 南方科技大学 信号调制模式识别方法、装置、设备和可读存储介质
US11494875B2 (en) 2020-03-25 2022-11-08 Nintendo Co., Ltd. Systems and methods for machine learned image conversion
US11379951B2 (en) 2020-03-25 2022-07-05 Nintendo Co., Ltd. Systems and methods for machine learned image conversion
CN111653288B (zh) * 2020-06-18 2023-05-09 南京大学 基于条件变分自编码器的目标人语音增强方法
US20220036238A1 (en) * 2020-07-30 2022-02-03 Tektronix, Inc. Mono channel burst classification using machine learning
DE112020007371T5 (de) * 2020-10-15 2023-05-25 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Einrichtung für ein neuronales Netzwerk basierend auf energiebasierten Modellen einer latenten Variable
CN112597540B (zh) * 2021-01-28 2021-10-01 支付宝(杭州)信息技术有限公司 基于隐私保护的多重共线性检测方法、装置及系统
CN113160898B (zh) * 2021-05-18 2023-09-08 北京信息科技大学 一种铁基合金吉布斯自由能预测方法和系统
CN113567921B (zh) * 2021-07-21 2023-08-01 中国人民解放军国防科技大学 一种基于深度展开网络的混合源定位方法及系统
CN113567922B (zh) * 2021-07-21 2023-08-01 中国人民解放军国防科技大学 一种基于深度展开网络的近场源定位方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128906A (ja) * 2007-11-19 2009-06-11 Mitsubishi Electric Research Laboratories Inc 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613665B2 (en) * 2005-06-24 2009-11-03 Halliburton Energy Services, Inc. Ensembles of neural networks with different input sets
US20070288410A1 (en) * 2006-06-12 2007-12-13 Benjamin Tomkins System and method of using genetic programming and neural network technologies to enhance spectral data
EP2259215B1 (en) * 2009-06-04 2016-08-10 Honda Research Institute Europe GmbH Method and structure for a neural associative memory based on optimal Bayesian learning
US8700552B2 (en) 2011-11-28 2014-04-15 Microsoft Corporation Exploiting sparseness in training deep neural networks
US9292787B2 (en) 2012-08-29 2016-03-22 Microsoft Technology Licensing, Llc Computer-implemented deep tensor neural network
CN103310229B (zh) * 2013-06-15 2016-09-07 浙江大学 一种用于图像分类的多任务机器学习方法及其装置
CN103699908B (zh) * 2014-01-14 2016-10-05 上海交通大学 基于联合推理的视频多目标跟踪方法
US9582753B2 (en) * 2014-07-30 2017-02-28 Mitsubishi Electric Research Laboratories, Inc. Neural networks for transforming signals
CN104295286A (zh) * 2014-08-11 2015-01-21 西安理工大学 一种有杆式抽油机运行工况智能识别方法
CN104157293B (zh) * 2014-08-28 2017-04-05 福建师范大学福清分校 一种增强声环境中目标语音信号拾取的信号处理方法
CN104732500A (zh) * 2015-04-10 2015-06-24 天水师范学院 脉冲耦合神经网络中药材显微图像噪声滤除系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128906A (ja) * 2007-11-19 2009-06-11 Mitsubishi Electric Research Laboratories Inc 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060699A (zh) * 2019-05-21 2019-07-26 哈尔滨工程大学 一种基于深度稀疏展开的单信道语音分离方法
CN110189761A (zh) * 2019-05-21 2019-08-30 哈尔滨工程大学 一种基于贪婪深度字典学习的单信道语音去混响方法
CN110189761B (zh) * 2019-05-21 2021-03-30 哈尔滨工程大学 一种基于贪婪深度字典学习的单信道语音去混响方法

Also Published As

Publication number Publication date
US20170053203A1 (en) 2017-02-23
US9582753B2 (en) 2017-02-28
JP6328320B2 (ja) 2018-05-23
US10592800B2 (en) 2020-03-17
CN106537420A (zh) 2017-03-22
CN106537420B (zh) 2019-06-11
EP3175393B1 (en) 2021-08-25
WO2016017787A1 (en) 2016-02-04
US20160034810A1 (en) 2016-02-04
EP3175393A1 (en) 2017-06-07

Similar Documents

Publication Publication Date Title
JP6328320B2 (ja) 入力信号を変換する方法
US9721202B2 (en) Non-negative matrix factorization regularized by recurrent neural networks for audio processing
JP2015521748A (ja) 入力信号を変換する方法
US9607627B2 (en) Sound enhancement through deverberation
Jasa et al. Nested sampling applied in Bayesian room-acoustics decay analysis
Mohammadiha et al. A state-space approach to dynamic nonnegative matrix factorization
O’Shaughnessy et al. Sparse Bayesian learning with dynamic filtering for inference of time-varying sparse signals
JP6099032B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
JP2014048399A (ja) 音響信号解析装置、方法、及びプログラム
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
Nortier et al. Unsupervised speech enhancement with diffusion-based generative models
Antonello et al. Source localization and signal reconstruction in a reverberant field using the FDTD method
Darwish et al. Perspectives of orthonormal basis functions based kernels in Bayesian system identification
Chung et al. Training and compensation of class-conditioned NMF bases for speech enhancement
JP5689844B2 (ja) スペクトル推定装置、その方法及びプログラム
Allassonnière et al. A new class of em algorithms. escaping local minima and handling intractable sampling
Mo et al. Sparse representation in Szegő kernels through reproducing kernel Hilbert space theory with applications
CN111160487A (zh) 人脸图像数据集的扩充方法和装置
JP2019193073A (ja) 音源分離装置、その方法、およびプログラム
JP5188319B2 (ja) 信号解析装置、信号解析方法、プログラム及び記録媒体
Koundinya et al. Online speech enhancement by retraining of LSTM using SURE loss and policy iteration
Tzikas et al. Incremental relevance vector machine with kernel learning
Wang A Study on Multi-Subspace Representation of Nonlinear Mixture with Application in Blind Source Separation: Modeling and Performance Analysis
Ben Abdallah N-Dimensional Polynomial Neural Networks and their Applications
Faubel Statistical signal processing techniques for robust speech recognition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180320

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180417

R150 Certificate of patent or registration of utility model

Ref document number: 6328320

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250