JP7422946B2 - ベイジアングラフ探索を用いたニューラルネットワークアーキテクチャの自動構築 - Google Patents

ベイジアングラフ探索を用いたニューラルネットワークアーキテクチャの自動構築 Download PDF

Info

Publication number
JP7422946B2
JP7422946B2 JP2023516860A JP2023516860A JP7422946B2 JP 7422946 B2 JP7422946 B2 JP 7422946B2 JP 2023516860 A JP2023516860 A JP 2023516860A JP 2023516860 A JP2023516860 A JP 2023516860A JP 7422946 B2 JP7422946 B2 JP 7422946B2
Authority
JP
Japan
Prior art keywords
dnn
data
graph
reconfigurable
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023516860A
Other languages
English (en)
Other versions
JP2023529242A (ja
Inventor
俊昭 秋濃
ワン,イェ
デミア,アンダク
エルドグムス,デニズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2023529242A publication Critical patent/JP2023529242A/ja
Application granted granted Critical
Publication of JP7422946B2 publication Critical patent/JP7422946B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、人工ニューラルネットワークの自動構築システムに関し、特にベイジアングラフ探索を用いた人工ニューラルネットワークの自動構築システムに関する。
深層ニューラルネットワーク(DNN)に基づく深層学習技術の大きな進歩は、ビデオ、音声および画像のメディア信号処理と、電波、電気パルスおよび光ビームの物理データ処理と、心拍数、温度、および血圧のための生理データ処理とを含むデータ処理における様々な課題を解決してきた。例えば、DNNは、脳波図(EEG)および筋電図(EMG)などのユーザの生理データを分析することによって、ヒューマンマシンインターフェイス(HMI)のより実用的な設計を可能にした。しかしながら、このような生体信号は、各被験者の生体状態に依存して非常に変動しやすい。したがって、典型的なHMIシステムは、頻繁な較正をたびたび必要とする。
この課題を解決するために、条件付き変分オートエンコーダ(A-CVAE)を用いた敵対的訓練を使用する被験者不変方法が登場し、ユーザ較正を低減することによって、上出来なHMIシステムを実現している。標準的なDNN分類器と比較して、エンコーダ、ニューサンス条件付きデコーダおよび敵対的ネットワークに追加の機能ブロックを統合することは、優れた被験者不変性能を提供する。DNN構造は、より多くの機能ブロックおよびより多くの潜在ノードを有するように、潜在的に拡張され得る。しかしながら、殆どの研究は、人間の設計に依存して、DNNのブロック接続およびアーキテクチャを決定する。具体的には、DNN技術は、多くの場合、人間の洞察力でデータモデルを知っている専門家によって手作業で作られる。DNNアーキテクチャの最適化は、試行錯誤を必要とする。異なるDNNアーキテクチャを自動的に探索するために、自動機械学習(オートML:automated machine learning)の新しいフレームワークが提案された。オートMLによるハイパーパラメータおよびアーキテクチャ探索の自動化は、被験者不変の生体信号処理に適したDNN設計を容易にすることができる。
タスクに関連している特徴を捕捉し、ニューサンス変量に対して不変であるデータ表現を学習することが、依然として機械学習の重要な課題である。VAEは、自動関連アーキテクチャを組み込む変分ベイズ推論法を導入し、生成モデルおよび推論モデルを共同で学習することができる。この方法は、ニューサンスを表すために使用され得る条件付き変数を導入するCVAE、および潜在表現からニューサンス変数を分離するための正則化VAEによって拡張された。敵対者という概念は、GAN(Generative Adversarial Networks)と共に導入され、無数のアプリケーションに採用されている。同時に開発されたALI(Adversarially Learned Inference)およびBiGAN(Bidirectional GAN)は、オートエンコーダを訓練するための敵対的方法を提案する。また、敵対的訓練をVAEに組み込み、潜在表現を正則化および分離することによって、ニューサンスロバスト学習を実現する。ハイパーパラメータ最適化を用いてDNNモデルを検索することは、オートMLと呼ばれる関連フレームワークにおいて徹底的に研究されてきた。自動化方法は、アーキテクチャ検索、学習ルール設計、および拡張探索を含む。殆どの研究は、進化的最適化フレームワークまたは強化学習フレームワークのいずれかを用いて、ハイパーパラメータを調整するまたは予め選択された構築ブロックからネットワークアーキテクチャを構築する。最近のオートML-ゼロは、ヒトの知識および洞察力を排除し、ゼロから、完全に自動化された設計を行うための拡張を検討している。
しかしながら、探索空間の爆発的な増加によって、オートMLは、最良のハイパーパラメータを見つけるために多くの探索時間を必要とする。また、正当な理由付けがなければ、殆どのリンク接続の探索空間は、無意味となる。したがって、より系統的な探索方法を用いたニューラルネットワークの自動構築を行うためのシステムを開発する必要がある。
本開示は、ベイジアン(Bayesian)グラフ探索を用いた人工ニューラルネットワークの自動構築を行うためのシステムおよび方法に関する。具体的には、本発明のシステムは、オートベイズ(AutoBayes)と呼ばれる自動ベイジアン推論フレームワークを導入した。オートベイズは、分類器、エンコーダ、デコーダ、推定器および敵対的ネットワークブロックをリンクする異なるグラフィカルモデルを探索することによって、ニューサンス不変機械学習パイプラインを最適化する。また、オートベイズは、潜在変数を複数の断片に分割し、被験者/セッション変動およびタスクラベルに異なる関係を課す解きほぐされた表現(disentangled representation)を正当化することができる。このフレームワークは、訓練中に被験者およびクラスラベルにアクセスできる一連の生理データセットに適用され、変分モデリングおよび敵対的訓練を含む/含まない被験者転移学習を分析する能力を提供する。このフレームワークは、半教師ありマルチクラス分類、および異なるドメイン内のデータセットの再構築タスクにおいても有効に利用することができる。
本発明は、既存の先行技術に対して、以下の5つの重要且つ非自明な利点、すなわち、
a.オートベイズは、DNNブロックのハイパーパラメータを探索するのではなく、データに固有の潜在的なグラフィカルモデルを探索する利点、
b.オートベイズは、探索されたベイジアングラフに基づいて、タスク分類器、特徴エンコーダ、デコーダ、ニューサンスインジケータおよび敵対的ネットワークに条件付き審査および敵対的審査を課すために複数のDNNブロックを接続する方法の明確な理由を提供する利点、
c.オートベイズは、ベイズボールアルゴリズムおよび順序付き因数分解を用いて、異なる推論モデルを探索するための系統的自動化フレームワークを提供する利点、
d.このフレームワークは、複数の潜在表現および複数のニューサンス因子に適用するように拡張可能である利点、および
e.オートベイズは、完全教師ありの訓練に加えて、半教師あり学習に適したいくつかの関連グラフィカルモデルを自動的に構築することができる利点を有する。
本開示のいくつかの実施形態は、オートベイズと呼ばれる新しい概念が、様々な異なるベイジアングラフモデルを探索することによって、ニューサンスロバストHMIシステムに適した最良の推論戦略の探索を容易にするという認識に基づく。本発明の方法は、ベイズボールアルゴリズムを用いて、分類器、エンコーダ、デコーダ、ニューサンス推定器および敵対的DNNブロックの間に妥当なリンク接続を自動的に構築することができる。本発明者らは、実証実験解析として、様々な神経データセット/生理データセットに対するオートベイズの利益を実証する。本発明者らは、最良のグラフモデルと最悪のグラフモデルとの間の大きな性能ギャップを観察し、グラフ探索なしで1つの決定論的モデルを使用する場合、分類結果が潜在的に悪くなる可能性があることを暗示する。さらに、1つの生理データセットに対する最良のモデルが異なるデータに対して常に最良に機能するわけではないため、オートベイズを用いて、特定のデータセットに対する適応モデルを生成することを促す。一実施形態は、オートMLを統合するようにオートベイズフレームワークを拡張することによって、各DNNブロックのハイパーパラメータを最適化する。また、ランダム変数の数と共に可能なベイジアングラフの急激に増大する探索空間は、漸進的なエッジプルーニング/グラフティングの因子グラフに対する確率伝搬法分析によって解決される。
本発明によって、オートMLは、考慮すべき明確な理論的理由を有する潜在的なアーキテクチャを効率的に探索することができる。本発明の方法は、データセットが有向ベイジアングラフを用いて仮定的にモデル化されるという認識に基づいて実現されるため、オートベイズ法と呼ばれる。一実施形態は、同時確率分布の異なる因数分解次数を有するベイジアングラフ探索を使用する。また、本発明は、ベイジアングラフ仮説を介してベイズボールアルゴリズムから導出された条件付き非依存性に基づいて、プルーニングリンクを含むコンパクトなアーキテクチャを作成するための方法を提供する。さらに別の方法は、異なる尤度の因数分解順序を用いて、推論グラフを最適化することによって、生成グラフおよび推論グラフの結合を自動的に構築することができる。これは、条件付きリンクを含む/含まないVAEに基づく自然なアーキテクチャを実現する。また、別の実施形態は、ニューサンスパラメータから独立した潜在変数に付随する敵対的ネットワークを用いた敵対的訓練を用いて、ニューサンスロバスト特徴の抽出を実現する。さらに別の場合では、条件付きグラフティングを用いた意図的に冗長なグラフを用いて、ニューサンスロバスト特徴の抽出を促進する。別の実施形態は、半教師あり設定に変分サンプリングを使用する。別の実施形態は、テンソル投影を用いて、1つのデータ構造を別の次元不整合のデータ構造に変換する方法を提供する。さらに別の実施形態は、複数の異なるベイジアングラフの推定値を組み合わせることによって性能を改善するアンサンブルグラフを使用する。一実施形態は、動的アテンションネットワークを用いてアンサンブル方法を実現する。また、VAEのサイクルの一貫性および異なる推論グラフのモデルの一貫性は、共同で対処される。別の実施形態は、グラフニューラルネットワークを用いてデータの幾何学情報を活用し、確率伝搬法を用いてベイジアングラフ全体のプルーニング戦略を支援することによって、関連性を検証する。また、各DNNブロックのハイパーパラメータは、オートベイズとオートMLを統合することによって調整される。発散の代わりに、ウォッサステイン距離(Wasserstein distance)を使用してもよい。
システムは、訓練データセットの複製によく適したベイジアングラフモデルに関連する最良の推論グラフモデルを検索するフレームワークを系統的に自動化するための方法を提供する。提案されたシステムは、データ、クラスラベル、被験者識別(ID)および固有の潜在表現に関して同時確率分布を因数分解することによって、様々な異なるベイジアングラフを自動的に定式化する。ベイジアングラフを仮定すると、いくつかの有意義な推論グラフが、高精度推定を達成するために冗長リンクをプルーニングするためのベイズボールアルゴリズムを介して生成される。被験者IDなどのニューサンスパラメータに対するロバスト性を促進するために、探索されたベイジアングラフは、変分モデリングおよび潜在の解きほぐし(disentanglement)を含む/含まない敵対的訓練を使用する推論を提供することができる。1つの実施形態として、本発明者らは、オートベイズが様々な生理データセットにおいて優れた性能を達成できることを実証する。
本発明のさらなる理解を提供するために含まれる添付の図面は、本発明の実施形態を示し、説明と共に本発明の原理を説明する。
図1(a)~1(c)は、本開示の実施形態に従って、潜在変数Zおよび半ラベル付きニューサンスSに基づいて所定のデータXを分類Yするための推論方法を示す図である。 図2(a)~2(c)は、本開示のいくつかの実施形態に従って、完全接続ベイジアングラフ、Z-第1の因子分解推論モデル、およびS-第1の因子分解推論モデルに対応するベイジアンモデル(グラフ)、Z-第1の推論、およびS-第1の推論を示す図である。 図3(a)~3(k)は、本開示のいくつかの実施形態に従って、自動探索に基づいたデータ生成モデルの例示的ベイジアングラフを示す図である。 図4(a)~4(l)は、本開示のいくつかの実施形態に従って、生成モデルD~G、JおよびKに関連するZ-第1の推論グラフモデルおよびS-第1の推論グラフモデルを示す図である。 図5は、本開示のいくつかの実施形態に従って、生成モデルKと推論モデルKzとをペアリングするための一般的なネットワーク構造を示す概略図である。 図6Aは、本開示の実施形態に従って、変分/非変分設定および敵対的/非敵対的設定における再構築損失、ニューサンス分類スコアおよびタスク分類スコアを示すデータセットの性能を示す図である。 図6Bは、本開示の実施形態に従って、変分/非変分設定および敵対的/非敵対的設定における再構築損失、ニューサンス分類スコアおよびタスク分類スコアを示すデータセットの性能を示す図である。 図6Cは、本開示の実施形態に従って、変分/非変分設定および敵対的/非敵対的設定における再構築損失、ニューサンス分類スコアおよびタスク分類スコアを示すデータセットの性能を示す図である。 図7Aは、本開示の実施形態に従って、最良の推論戦略がデータセットに大きく依存することを示すデータセットの性能を示す図である。 図7Bは、本開示の実施形態に従って、最良の推論戦略がデータセットに大きく依存することを示すデータセットの性能を示す図である。 図7Cは、本開示の実施形態に従って、最良の推論戦略がデータセットに大きく依存することを示すデータセットの性能を示す図である。 図8(a)~8(j)は、本開示の実施形態に従って、陰影付き条件付きノードを含むベイズボールアルゴリズムの基本規則を示す図である。 図9は、本開示の実施形態に従って、オートベイズアルゴリズムの全体的な手順を説明する例示的なアルゴリズムを示す図である。 図10は、本開示の実施形態に従って、分類器、エンコーダ、デコーダ、推定器、および敵対者の例示的なDNNブロックを示す図である。 図11は、本開示の実施形態に従って、プロセッサ、メモリおよびインターフェイスで構成されたシステムを示す概略図である。
以下、図面を参照しながら、本発明の様々な実施形態を説明する。なお、図面は、縮尺通りに描かれておらず、全ての図面において、同様の構造または機能を有する要素は、同様の参照番号によって示されている。また、図面は、本発明の特定の実施形態の説明を容易にすることを意図している。図面は、本発明の網羅的な説明としてまたは本発明の範囲に対する限定として意図されていない。さらに、本発明の特定の実施形態に関連して記載された特徴は、必ずしもその実施形態に限定されず、本発明の任意の他の実施形態において実施することができる。
図1(a)、1(b)および1(c)は、本開示の実施形態に従って、潜在変数Zおよび半ラベル付きニューサンス変量Sに基づいて所定のデータXを分類Yするための推論方法を示す3つの分類器ネット(a)、(b)および(c)を示す概略図である。
本発明の方法論の核心は、データ特徴Xと、タスクラベルYと、ニューサンス変量ラベルSと、(可能な)潜在表現Zとを表すランダム変数の間の確率的関係を取得するグラフィカルベイズモデルを考察することである。最終的な目標は、測定されたデータ特徴XからタスクラベルYを推測することである。この目標は、Sによって(部分的に)ラベルされたニューサンス変量(例えば、被験者間/セッション間の変量)の存在によって妨げられる。また、必要に応じて、これらのモデルに潜在表現Z(および必要に応じてZ、Z、...、によってさらに示される)を導入することによって、S、XおよびYとの間の基礎的関係を取得することを支援する。
Figure 0007422946000001
図2(a)、2(b)および2(c)に示されたグラフィカルモデルは、潜在的に固有の非依存性の仮定をデータセットに与えないため、最も包括的である。しかしながら、生体信号の基礎的な非依存性に応じて、これらのグラフのいくつかのエッジをプルーニングすることができるかもしれない。例えば、データがSおよびZに独立したマルコフ連鎖Y-Xを有する場合、XとYとの間のリンクを除き、全てのリンクが合理的ではないため、図1(a)をもたらす。これは、高い自由度を有する最も複雑な推論モデルが、任意のデータセットに対して常に最良に機能するとは限らないことを意味する。これは、ハイパーパラメータ設計に加えて、データセットにマッチする推論因子グラフおよび対応するベイジアングラフモデルの最良対を自動的に探索する拡張オートMLフレームワークを検討する動機付けになる。
オートベイズは、まず、図2(a)の完全連鎖グラフのリンクを切断することによって、任意の潜在的ベイジアングラフを探索することによって、可能な非依存性を課す。次いで、各仮説ベイジアングラフに対してベイズボールアルゴリズムを採用して、異なる推論戦略に対する条件付き非依存性(例えば、図2(b)完全連鎖Z-第1の推論グラフおよび図2(c)の完全連鎖S-第1の推論グラフ)を調べる。ベイズボールは、図2(b)および2(c)の完全連鎖推論グラフにおけるリンクの妥当なプルーニングを正当化し、およびZがSから独立している場合に潜在的な敵対的打ち切り(sensoring)を正当化する。このプロセスは、例えば、良好な推論で、推論ブロック、生成ブロックおよび敵対的ブロックの接続を自動的に構築することによって、図1(c)の任意のモデルから図1(b)のA-CVAE分類器を構築する。以下では、一般的な場合のシステム構成をより詳細に説明する前に、ベイジアングラフ探索のいくつかの実施形態を説明する。
ベイジアングラフ探索
特定のセンサ測定値、例えば、メディアデータ、物理データ、および生理データの場合、予め真の同時確率を知っていないため、1つの可能性のある生成モデルを仮定する。オートベイズは、測定分布にマッチングする任意の可能性のあるグラフモデルを探索することを目的とする。グラフィカルモデルの最大可能数がY、S、ZおよびXを含む4ノードケースに対してさえも巨大であるため、このようなベイジアングラフのいくつかの実施形態は、図3(a)~3(k)に示される。各ベイジアングラフは、以下の同時確率因子分解の仮定に対応する(p(x|...)項は、Xの生成モデルを指定する)。
Figure 0007422946000002
(3)
非依存性は、式(1)の完全連鎖ケースからスラッシュでキャンセルされた因子によって明示的に示される。いくつかの変数が条件付きで独立であり得るため、関連する推論戦略は、仮定されたベイジアングラフに応じて変動する。これによって、推論因子グラフ内のリンクをプルーニングすることができる。図4(a)~4(l)に示すように、データセットに固有の各ベイジアングラフ仮説に基づいて、ベイズボールアルゴリズムによって、妥当な推論グラフモデルを自動的に生成することができる。具体的には、各モデルの条件付き確率p(y,s,z|x)は、以下のように求めることができる。
Figure 0007422946000003
Figure 0007422946000004
ベイジアングラフモデルC(被験者依存)
図3(c)に示すように、データXが被験者SおよびタスクYに直接依存するケースをモデル化することができる。この場合、ベイズボールによる対応する推論モデルを検討することができる。
Figure 0007422946000005
(4)
このモデルがZに依存しないため、Z-第1の推論戦略は、S-第1の推論戦略に減縮される。参考として、この差異を評価するために、追加の第1の推論戦略を検討する。
ベイジアングラフモデルD(潜在要約)
図3(d)は、別のグラフィカルモデルを示している。この場合、潜在空間が他の全てのランダム変数を橋渡しする。ベイズボールは、以下のモデルを生成する。
Figure 0007422946000006
(5)
そのグラフィカルモデルは、図4(a)および4(b)にそれぞれ示される。
ベイジアングラフモデルE(タスク要約潜在)
図3(e)は、潜在変数を含む別のグラフィカルモデルを示している。この場合、潜在空間は、Yのみを要約している。ベイズボールは、以下の推論モデルを生成する。
Figure 0007422946000007
(6)
これらの推論モデルは、図4(c)および4(d)に示される。なお、生成モデルEは、ZおよびSの間に最低限の依存性を有しないため、敵対的打ち切り(sensoring)を用いて、潜在空間Z内のニューサンス情報Sを抑制する必要がある。また、Xの生成モデルがZおよびSの両方に依存するため、図1(b)に示すA-CVAE分類器を使用することが妥当である。
ベイジアングラフモデルF(被験者要約潜在)
潜在変数が被験者情報Sを要約する図3(f)を検討する。ベイズボールは、図4(e)および4(f)に示す推論グラフを提供する。これらの推論グラフは、以下の式にそれぞれ対応する。
Figure 0007422946000008
(7)
ベイジアングラフモデルG
同時分布が図3(g)のモデルGに従うと仮定する場合、ベイズボールは、以下の推論モデルを生成する。
Figure 0007422946000009
(8)
そのグラフィカルモデルは、図4(g)および4(h)に示される。なお、図4(h)の推論モデルGsは、図4(b)の推論モデルDsと同じである。図3(g)および図3(d)に示すように、推論グラフGsおよびDsが同じであっても、その生成モデルXが異なる。具体的には、モデルGのVAEデコーダは、変動潜在空間Zと共にSをフィードするため、CVAEを使用することは、モデルGに対して妥当であるが、モデルDに対して妥当ではない。生成モデルのこの差異は、推論グラフのみが同一であるにもかかわらず、推論の性能に異なる影響を与える可能性がある。
ベイジアングラフモデルHおよびI
図3(h)および3(i)に示される生成モデルHおよびIの両方は、ベイズボールで有用な条件付き非依存性が見つからないため、グラフがそれぞれ図2(a)~2(c)に示される式(2)の完全連結推論戦略を有する。モデルDsおよびGsの関係と同様に、ベイジアングラフHおよびIの推論グラフは、同一であり得るが、その生成モデルXは、図3(h)および3(i)に示すように異なる。
ベイジアングラフモデルJ(解きほぐされた潜在:Disentangled Latent)
より多くの頂点を有するベイジアングラフを一般化するために、複数の潜在ベクトルをさらに検討する。図3(j)および3(k)に示すように、2つの潜在空間を有するグラフモデルの2つの実施形態に着目する。これらのモデルは、単一の潜在変数ZがSおよびYにそれぞれ関連付けられる2つの部分ZおよびZに分離されることを除き、モデルDと同じクラスである。図3(j)のベイジアングラフの場合、ベイズボールは、以下の2つのモデルを含むいくつかの推論戦略を生成する。
Figure 0007422946000010
(9)これらのモデルは、図4(i)および(j)に示される。なお、Zがニューサンス変量Sにわずかしか依存しないため、被験者/セッション変動に対して敵対的訓練を使用すべきである。
ベイジアングラフモデルK(条件付き解きほぐされた潜在:Conditionally Disentangled Latent)
図3(k)のZおよびZを連結する別の修正モデルは、図4(k)および4(l)に示された以下の推論モデルを生成する。
Figure 0007422946000011
(10)
モデルJとの主な違いは、この推論グラフがZおよびZを用いてYを推論することである。
Figure 0007422946000012
ベイズボールアルゴリズム
本発明のシステムは、ベイズボールアルゴリズムに基づいて、条件付き非依存性を分析することによって、推論因子グラフ内のリンクの自動プルーニングを容易にする。図8に示すように、ベイズボールアルゴリズムは、10個のルールのみを使用して、条件付き非依存性を特定する。特定の有向ベイジアングラフに対して、グラフ分離基準を適用することによって、他のノードに条件付けを与える2つの独立ノードセット間の条件付き非依存性を判断することができる。具体的には、ベイズボールが図8の停止矢印記号に当たることなく進むことができる場合、無指向性経路が起動される。いくつかの他の条件付きノードが陰影付けされているときに2つのノードセット間にアクティブパスが存在していない場合、これらのランダム変数セットは、条件付きで独立している。本発明は、ベイズボールアルゴリズムを用いて、オートベイズアルゴリズムに対する2つの独立ノードの非依存関係を特定するリストを生成する。
オートベイズアルゴリズム
図9は、本開示のいくつかの実施形態に従って、図3および4だけではないより包括的なケースに関し、アルゴリズム1の擬似コードに記載されたオートベイズアルゴリズムの一般的な手順を示す。オートベイズは、仮説ベイジアングラフ仮定に基づいて、ベイズボールアルゴリズムを用いて、非冗長推論因子グラフを自動的に構築する。得られた条件付き非依存性およびプルーニングされた因子グラフに応じて、エンコーダ、デコーダ、分類器、ニューサンス推定器および敵対者のDNNブロックを合理的に接続する。全てのDNNブロックは、変分ベイズ推論において、敵対的学習を用いて訓練される。なお、一実施形態として、各DNNブロックのハイパーパラメータは、オートベイズフレームワーク上のオートMLによってさらに最適化されてもよい。
本発明のシステムは、メモリバンクを用いて、ハイパーパラメータ、訓練可能な変数、中間ニューロン信号、ならびに順方向パス信号および逆方向パス勾配を含む仮演算値を記憶する。本発明のシステムは、冗長リンクをコンパクトにプルーニングするように、ベイズボールアルゴリズムに基づいて様々なベイジアングラフを探索することによって、DNNブロックを再構成する。オートベイズは、まず、ベイジアンモデルをデータセットと照合するためのいくつかの異なる基準に基づいて、完全連鎖有向ベイジアングラフを作成することによって、特定の置換順序で全てのノードを接続する。次いで、このシステムは、完全連鎖ベイジアングラフ内の特定の組み合わせのグラフエッジをプルーニングする。次に、ベイズボールアルゴリズムを用いて、2つの独立ノード間の条件付き独立関係をリストアップする。仮説された各ベイジアングラフについて、別の完全連鎖有向因子グラフが、データ信号Xと関連付けられたノードから構築され、異なる因子分解順序で他のノードを推論する。次いで、独立性リストに応じて、完全連鎖因子グラフ内の冗長リンクをプルーニングすることによって、DNNリンクをコンパクトにすることができる。別の実施形態では、冗長リンクを意図的に維持し、漸進的にグラフトする。プルーニングされたベイジアングラフおよびプルーニングされた因子グラフは、生成モデルおよび推論モデルが一致するように組み合わせられる。組み合わせられたグラフィカルモデルが与えられると、エンコーダ、デコーダ、分類器、推定器、および敵対的ネットワークの全てのDNNブロックは、モデルに関連して関連付けられる。このオートベイズは、試験データセットの新しいデータドメインに転送され得るニューサンスロバスト推論を実現する。
オートベイズアルゴリズムは、4つを超えるノード因子に対して一般化することができる。このような実施形態の例として、ニューサンス変量Sはさらに、教師あり設定、半教師あり設定、および教師なし設定の組み合わせに従って、複数ドメイン側情報としての変量S、S、...、Sの複数の因子に分解される。実施形態の別の例では、潜在変数はさらに、解きほぐされた(disentangled)特徴ベクトルとしての潜在変数Z、Z、...、Zの複数の因子に分解される。図5は、このような実施形態の1つを示す。例えば、分解された因子を有する実施形態の場合、ニューサンス変量は、被験者識別、セッション番号、生体状態、環境状態、センサ状態、位置、向き、サンプリング率、時間および感度などの異なる因子にグループ化される。
一実施形態は、異なるグラフィカルモデルを探索する時に、性能を改善するために探索された全ての異なるモデルの出力を例えば加重和と共に使用して、アンサンブル性能を実現する。さらに別の実施形態は、最良の重みを学習する追加のDNNブロックを使用して、異なるグラフィカルモデルを合併する。この実施形態は、アテンションネットワークを用いて、所定のデータに対して関連するグラフィカルモデルを適応的に選択することによって実現される。元の同時確率が同一であるため、この実施形態は、異なるグラフィカルモデル間のコンセンサス平衡を検討する。また、この実施形態は、エンコーダ/デコーダDNNブロックのサイクル整合性を認識する。
実験評価を含む実施可能な実施例
例示的なデータセット
本発明者らは、以下のように、公的に入手可能な生理データセットおよびベンチマークMNISTに対するオートベイズの性能を実験的に実証する。
QMNISTは、ライタID番号を含む拡張ラベル情報を有するベンチマーク手書き数字画像MNISTデータセットである。6万個の訓練サンプルのうち、28×28グレースケールピクセル画像から、|Y|=10個の数字を分類するためのライタの数は、|S|=539である。
ストレスは、神経学的ストレスレベルを考慮した生理データセットである。|S|=20人の被験者から得られた個別のストレス状態の数は、|Y|=4である。データは、300個のサンプルの心拍数、皮膚電位、温度および動脈酸素レベルを含み、C=7個のセンサを用いて記録された。
RSVPは、迅速連続視覚提示(RSVP)眠気を示すEEGデータである。T=128個のサンプルのC=16個のチャネルの41400個のエポックの3セッションにおける被験者の数は、|S|=10である。感情誘発、休息状態、または運動画像/実行タスクのラベルの数は、|Y|=4である。
MIは、PhysioNet EEG運動イメージ(MI)データセットである。このデータセットは、|S|=106人の被験者のC=64個のチャンネルのT=480個のサンプルからなる。90回の試験のMIタスクの種類は、|Y|=4である。
ErrPは、EEGデータセットのエラー関連電位(ErrP)である。このデータは、スペルタスクに参加している|S|=16人の被験者からなり、340回の試験でT=250個のサンプルのC=56個のチャネルから記録される。誤または正のフィードバックの2値ラベルの数は、|Y|=2である。
Ninaproは、10人の被験者の義手の指動作を検出するためのEMGデータセットである。被験者は、12回の指動作を繰り返し、その動画がラップトップの画面上に示される。各動作の繰り返しが5秒間続き、その後3秒間の休息が続く。筋肉活動は、200HzのレートでC=16個の能動差動ワイヤレス電極を含む2つのMyoアームバンド(Thalmic社製品)を用いて収集された。
上述した例示的なデータセットは、様々な異なるセンサモダリティ、具体的には、画像、脳波(EEG)、筋電図(EMG)、体温、心拍数などを含む。これらの例に加えて、本発明のシステムは、センサ測定値、例えば、a)画像、写真、映画、テキスト、文字、音声、音楽、オーディオ、スピーチなどのメディアデータと、b)電波、光信号、電気パルス、温度、圧力、加速度、速度、振動、力などの物理データと、c)心拍数、血圧、質量、湿度、脳波、筋電図、心電図、筋音図、眼電図、電気皮膚反応、脳磁図、および皮質電図などの生理データとの組み合わせを含む様々なデータセットに適用可能である。
モデル実装
各DNNブロックは、信号を層から層に順次に渡すように、訓練可能な変数と相互に接続されたニューロンノードを含む一組の層を指定するハイパーパラメータを用いて構成されている。訓練可能な変数は、確率的勾配降下、適応運動量、適応勾配、適応境界、ネステロフ加速勾配、および二乗平均平方根伝搬などの勾配法を用いて数値的に最適化される。勾配法は、DNNブロックの出力が、平均二乗誤差、交差エントロピー、構造類似度、負の対数尤度、絶対誤差、交差共分散、クラスタリング損失、発散、ヒンジ損失、ヒューバー損失、負のサンプリング、ワッサースタイン距離、およびトリプレット損失などのより小さい損失値を提供するように、訓練データを用いてDNNブロックの訓練可能なパラメータを更新する。複数の損失関数は、訓練スケジュールポリシーに従って、いくつかの正則化係数でさらに重み付けられる。
いくつかの実施形態では、DNNブロックは、ハイパーパラメータに従って再構成可能である。したがって、DNNブロックは、完全接続層、畳み込み層、グラフ畳み込み層、リカレント層、ルーピー接続、スキップ接続、および調整済み線形変量、双曲線正接、シグモイド、ゲート線形、ソフトマックス、および閾値を含む一組の非線形アクティベーションを含むインセプション層の組み合わせで構成される。DNNブロックは、ドロップアウト、スワップアウト、ゾーンアウト、ブロックアウト、ドロップコネクト、ノイズ注入、シェイキングおよびバッチ正規化の組み合わせでさらに正則化される。さらに別の実施形態では、層パラメータは、調整可能なハイパーパラメータによって指定されたメモリのサイズを低減するためにさらに量子化される。
実施形態の1つの例として、全てのモデルは、0.001という初期学習率を有するAdamオプティマイザを用いて、64というミニバッチサイズで訓練された。学習率は、検証損失が頭打ちとなるたびに半分になる。4つの層を含むコンパクトな畳み込みニューラルネットワーク(CNN)は、エンコーダネットワークEとして採用され、C×T個のマルチチャネル生物医学データから特徴を抽出する。最初の3層は、長期、中期および短期の時間依存性を活用する1次元(D)時間畳み込みカーネルを有する。各時間畳み込みの後に、バッチの正規化および整流線形ユニット(ReLU)の活性化を行う。最終の畳み込み層は、全てのチャネルの1D空間畳み込みである。オートベイズは、ガウス事前確率に基づいて、決定論的潜在エンコーダまたは変分潜在エンコーダのいずれかを選択する。元のデータは、同じカーネル解像度の1D空間および時間転置畳み込みを適用するデコーダネットワークによって再構成されている。データは、訓練データ(70%)および検証データ(30%)に分けられる。全ての方法は、データ増強なしであり、データ正規化で初期化される。敵対的訓練が利用可能であるモデルの正則化パラメータλaは、0.01に設定される。
図10は、図5のDNNモデルパラメータを示す図である。Conv(h,w) は、グループgのc個の出力チャネルに対してカーネルサイズ(h,w)を有する2D畳み込み層を示す。FC(h)は、h個の出力ノードを有する完全接続層を示す。BNは、バッチ正規化を示す。2Dデータセットの場合、我々は、エンコーダおよびデコーダブロックに対して深層CNNを使用する。分類器、ニューサンス推定器、および敵対的DNNブロックに対して、我々は、隠れノードが入力次元から2倍にされた3つの層を有するマルチ層パーセプトロン(MLP)を使用する。また、我々は、ReLU活性化に加えて、バッチ正規化(BN)を使用する。ストレスデータセットなどの表形式のデータについては、CNNは、比率0.2で、ReLU活性化およびドロップアウトを有する3層MLPに置換された。また、MLP分類器は、2D入力次元の場合、例えばモデルAにおいてCNNに置換された。潜在次元の数は、64個に選択された。2Dデータなどを例えばモデルDs内のCNNエンコーダに供給する必要がある場合、我々は、補間を用いて、2Dデータを追加のチャネル入力として連結する。リンク連結の別の実施形態では、システムは、次元毎に訓練可能な線形フィルタを有する多次元テンソル投影を用いて、次元的に不整合なリンクの低次元信号を高次元信号に変換する。
別の実施形態は、各DNNブロックのハイパーパラメータ探索および学習スケジューリングを行うために、オートMLをオートベイズに統合する。なお、オートベイズとオートMLを容易に統合することによって、個々のDNNブロックの任意のハイパーパラメータを最適化することができる。より具体的には、システムは、強化学習、進化戦略、微分進化、粒子スワーム、遺伝的アルゴリズム、アニーリング、ベイジアン最適化、ハイパーバンド、および多目的ラマッキアン進化を用いて、異なる組み合わせの離散的なハイパーパラメータ値および継続的なハイパーパラメータ値を探索することによって、ハイパーパラメータを修正する。
また、本発明のシステムは、DNNブロックが新しい被験者などの新しいニューサンス変量を含む新しいデータセットに対してロバストであり得るように、いくつかの訓練可能な変数を解凍することによって訓練されたDNNブロックを改良するポスト訓練ステップとして採用されるさらなる試験ステップを提供する。この実施形態は、HMIシステムの新しいユーザの較正時間を低減することができる。
結果
図6および7の結果は、最良の推論戦略がデータセットに大きく依存することを示唆している。具体的には、1つのデータセットに対する最良のモデルは、異なるデータセットに対して最良に機能しない。例えば、モデルKzは、ストレスデータセットに対して最良であったが、単純モデルBは、ErrPデータセットに対して最良であった。このことは、各標的データセットに対して、異なる推論戦略を適応的に検討すべきであることを示唆する。オートベイズは、このような適応的フレームワークを提供する。さらに、各データセットに対して、最良のモデルと最悪のモデルとの間の大きな性能差が観察された。例えば、モデルDzは、MIデータセットに対して93.1%のタスク精度を達成したが、モデルEsは、MIデータセットに対して25.5%のタスク精度を達成した。このことは、異なるモデルを探索しない場合、1つの特定のモデルが良好な性能を達成できない可能性があることを意味する。また、再構築損失は、グラフモデルを選択するための良好な指標ではない場合がある。一実施形態は、可能なグラフを効率的に探索するために、グラフニューラルネットワークを用いて因子グラフを関連付け、確率伝搬法を適用することによって、完全連鎖グラフからグラフエッジを漸進的にプルーニングする。具体的には、一組の訓練スケジュールは、学習レート、正則化重みおよび因数分解置換の適応制御と、確率伝搬法を用いて訓練データと検証データとの間の相違を測定することによってより低い優先度のリンクをプルーニングするためのポリシーとを含む。
敵対的訓練を用いた変分ベイズ推定
変分AE
オートベイズは、例えば、図3(e)のモデルEに潜在変数が含まれる場合、自動エンコーダアーキテクチャを自動的に構築することができる。この場合、Zが再構成Xおよび推論Yの限界を定めるための確率的ノードを表すため、VAEが必要とされる。バニラオートエンコーダとは対照的に、VAEは、潜在p(z)の限界分布を仮定することによって変分推論を使用する。変分法において、我々は、通常分散のような事前分布からZを再パラメータ化することによって、限界を定める。また、我々は、ベイジアングラフモデルに応じて、条件付け変数として、Sに対して半教師ありの再パラメータ化(すなわち、Sに対する再構築損失を組み込むこと)を検討することができる。Yおよび/またはSに対する条件付けは、グラフィカルモデル仮定との整合性に依存する。VAEは、CVAEの特例であるため、以下、より一般的なCVAEをさらに詳細に説明する。
条件付きVAE
ベイジアングラフにおいてXがZと共にSまたはYに直接依存する場合、オートベイズは、CVAEアーキテクチャ、例えば、図3のモデルE/F/G/H/Iを生成する。これらの生成モデルに対して、デコーダDNNは、SまたはYを条件付きパラメータとして供給する必要がある。また、他のベイジアングラフに対して、第1の推論戦略は、CVAEにおいて条件付きエンコーダ、例えば、潜在変数ZがSに依存する図4のモデルDs/Es/Fs/Gs/Js/Ksを必要とする。
Figure 0007422946000013
Figure 0007422946000014
Figure 0007422946000015
さらに別の実施形態では、敵対的DNNブロックは、一組の潜在ベクトルがニューサンス変量の組み合わせに最小限に関係するように、勾配上昇および勾配下降の交互更新を用いて訓練可能な変数を学習するように構成されている。また、敵対的DNNブロックは、エンコーダDNNブロックとデコーダDNNブロックとの相違(サイクル整合性損失と呼ばれる)を最小限にするように構成されている。
半教師あり学習:カテゴリサンプリング
半教師あり学習を行うためのグラフモデル
被験者IDまたはセッションIDなどのニューサンス値Sは、半教師あり方法を必要とする典型的な生理データセットに対して、特に新しいユーザとのHMIシステム展開の試験段階に対して、常に利用可能であるとは限らない。いくつかのグラフィカルモデルは、このような半教師あり訓練によく適している。例えば、図3に示すベイジアングラフモデルのうち、モデルC/E/G/Iは、Xを再現するのにニューサンスSを必要とする。Sの真のラベルが利用可能でない場合、デコーダDNNの全ての可能なカテゴリに対してSを限界化する必要がある。他のベイジアングラフであっても、図4の対応する推論因子グラフは、半教師あり設定にとって便利ではない場合がある。具体的には、モデルEz/Fz/Jz/Kzは、エンドノードにおいて推論Sを有するが、他の推論モデルは、推論Sを用いて他のパラメータを推論する。半教師あり設定においてSが欠落しているかまたは未知である場合、中間ノードにおいてSを有する推論グラフは、全ての可能なニューサンスカテゴリをサンプリングする必要があるため、不便である。例えば、図5に示すモデルKzは、Sの限界化を必要としないため、半教師ありデータセットに容易に適用可能である。
Figure 0007422946000016
図11は、本開示のいくつかの実施形態に従って、人工ニューラルネットワークアーキテクチャの自動構築を行うためのシステム500の例を示すブロック図である。システム500は、信号を送受信するように構成された一組のインターフェイスおよびデータリンク105と、少なくとも1つのプロセッサ120と、メモリ(または一組のメモリバンク)130と、記憶装置140とを含む。プロセッサ120は、メモリ130に接続され、記憶装置140に記憶されたコンピュータ実行可能なプログラムおよびアルゴリズムを実行する。一組のインターフェイスおよびデータリンク105は、ヒューマンマシンインターフェイス(HMI)110およびネットワークインターフェイスコントローラ150を含んでもよい。プロセッサ120は、記憶装置140からコンピュータ実行可能なプログラムおよびアルゴリズムをアップロードするメモリ130に接続され、コンピュータ実行可能なプログラムおよびアルゴリズムを実行することができる。記憶装置140に記憶されたコンピュータ実行可能なプログラムおよびアルゴリズムは、再構成可能な深層ニューラルネットワーク(DNN)141、ハイパーパラメータ142、スケジューリング基準143、順方向/逆方向データ144、一時キャッシュ145、ベイズボールアルゴリズム146、およびオートベイズアルゴリズム147であってもよい。
システム500は、一組のインターフェイスおよびデータリンクを介して、信号を受信することができる。信号は、訓練データ、検証データおよび試験データからなるデータセットを含み、信号は、多次元信号X内の一組の乱数因子を含み、乱数因子の一部は、識別するタスクラベルYと、ニューサンス変量Sとに関連付けられる。
場合によっては、再構成可能なDNNブロック(DNN)141の各々は、多次元信号Xを複数の潜在変数Zにエンコードすること、潜在変数Zをデコードすることによって多次元信号Xを再構築すること、タスクラベルYを分類すること、ニューサンス変量Sを推定すること、ニューサンス変量Sを敵対的に推定すること、またはグラフィカルモデルを選択することのいずれかを行うように構成されている。この場合、メモリバンクは、ハイパーパラメータ、訓練可能な変数、中間ニューロン信号、ならびに順方向パス信号および逆方向パス勾配を含む仮演算値をさらに含む。
少なくとも1つのプロセッサ120は、インターフェイスおよびメモリバンク130に接続され、信号およびデータセットを再構成可能なDNNブロック141に提供するように構成されている。また、少なくとも1つのプロセッサ120は、ベイズボールアルゴリズム146を用いてベイジアングラフ探索を実行して、DNNブロックを再構成することによって、メモリバンク130内のハイパーパラメータ140を修正し、冗長リンクをコンパクトにプルーニングするように構成されている。
システム500は、ユーザの生理データを分析することによって、ヒューマンマシンインターフェイス(HMI)の設計に適用することができる。システム500は、ネットワーク190ならびに一組のインターフェイスおよびデータリンク105を介して、生理データ195Bをユーザの生理データとして受信することができる。いくつかの実施形態では、システム500は、一組のセンサ111から脳波(EEG)および筋電図(EMG)をユーザの生理データとして受信することができる。
上述した本開示の実施形態は、多くの方法で実装されてもよい。例えば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。ソフトウェアで実装される場合、ソフトウェアコードは、単一のコンピュータに設けられたまたは複数のコンピュータに分散されたことにも拘らず、任意の適切なプロセッサまたは一組のプロセッサ上で実行されてもよい。このようなプロセッサは、集積回路として実装されてもよい。1つの集積回路要素は、1つ以上のプロセッサを含むことができる。しかしながら、プロセッサは、任意の適切な回路で実装されてもよい。
また、本開示の実施形態は、一例として提供された方法として具現化されてもよい。本方法の一部として実行される動作は、任意の適切な方法で順序付けられてもよい。したがって、例示的な実施形態において順次に実行される動作とは異なる順序で動作を実行すること、一部の動作を同時に実行することを含み得る実施形態を構築することができる。
請求項において請求項要素を修飾するための順序用語、例えば第1、第2などの使用は、別の請求項要素に対する1つの請求項要素の優先順位、前後順位もしくは順序、または方法の動作を実行する時間順序を意味しておらず、単に請求項要素を区別するためのラベルとして使用され、(順序用語を使用することによって)特定の名前を有する1つの請求項要素と同じ名前を有する別の要素とを区別させる。
好ましい実施形態を参照して本発明を説明したが、理解すべきことは、本発明の精神および範囲内で、様々な他の改造および修正を行うことができることである。
したがって、添付の特許請求の範囲は、本発明の真の精神および範囲内にある全ての変形および修正を網羅する。

Claims (16)

  1. 人工ニューラルネットワークアーキテクチャの自動構築を行うためのシステムであって、
    信号を送受信するように構成された一組のインターフェイスおよびデータリンクを含み、前記信号は、訓練データ、検証データおよび試験データからなるデータセットを含み、前記信号は、センサ測定値の組み合わせを含み、多次元信号X内の一組の乱数因子をさらに含み、前記乱数因子の一部は、識別するタスクラベルYとニューサンス変量Sとに関連付けられ、
    一組の再構成可能な深層ニューラルネットワーク(DNN)ブロックを記憶するための一組のメモリバンクを含み、前記再構成可能なDNNブロックは、前記多次元信号Xを複数の潜在変数Zにエンコードすること、前記潜在変数Zをデコードすることによって前記多次元信号Xを再構築すること、前記タスクラベルYを分類すること、前記ニューサンス変量Sを推定すること、前記ニューサンス変量Sを敵対的に推定すること、またはグラフィカルモデルを選択することのいずれかを行うように構成され、前記メモリバンクは、ハイパーパラメータ、訓練可能な変数、中間ニューロン信号、ならびに順方向パス信号および逆方向パス勾配を含む仮演算値をさらに含み、
    前記インターフェイスおよび前記メモリバンクに接続され、前記信号および前記データセットを前記再構成可能なDNNブロックに提出するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、ベイズボールアルゴリズムを用いてベイジアングラフ探索を実行し、前記DNNブロックを再構成することによって、前記メモリバンク内の前記ハイパーパラメータを修正し、冗長リンクをコンパクトにプルーニングするように構成されている、システム。
  2. 前記少なくとも1つのプロセッサは、
    一組の訓練スケジュールと、前記再構成可能なDNNブロックの一組の内部層と、前記データセットの基礎をなす一組の基準とを指定するように、前記ハイパーパラメータを修正するステップと、
    前記一組の基準に従って、複数のノードをグラフエッジにリンクし、前記多次元信号X、前記タスクラベルY、前記ニューサンス変量Sおよび前記潜在変数Zに対して、特定の置換順序でグラフノードを前記乱数因子に関連付けるように構成された完全連鎖有向ベイジアングラフを作成するステップと、
    前記データセットの確率挙動を表す仮説ベイジアングラフモデルを指定する前記一組の基準に従って、置換された完全連鎖ベイジアングラフ内のグラフエッジの特定の組み合わせをプルーニングするステップと、
    前記ベイズボールアルゴリズムを用いて、プルーニングされたベイジアングラフ内の2つの独立ノード間の条件付き非依存性関係をリストするステップと、
    他のノードを推論するために、データ信号Xに関連付けられたノードに由来する別の完全連鎖有向因子グラフを作成するステップと、
    ノード接続をコンパクトにするように、非依存性リストに従って、完全連鎖因子グラフ内の冗長リンクをプルーニングするステップと、
    生成モデルと推論モデルとが一致するように、仮説グラフモデルに従って、プルーニングされたベイジアングラフとプルーニングされた因子グラフとを合併するステップと、
    敵対的再構成可能なDNNブロックを、前記非依存性リスト内の前記ニューサンス変量Sの一部に非依存である一部の潜在ノードZに取り付けるステップと、
    合併された因子グラフによって指定されたリンク接続に従って、フィードすべき複数のデータを連結する複数のリンクを、エンコーダ、デコーダ、ニューサンス推定器およびタスク分類器の他の前記再構成可能なDNNブロックに割り当てるステップと、
    指定された訓練スケジュールに従って、変分サンプリングおよび勾配法を用いて、エンコード、デコード、推定、分類、敵対的推定およびモデル選択を行うために、接続されたDNNブロックを用いて構築された前記再構成可能なDNNブロックの全てを訓練するステップと、
    前記検証データに対する前記再構成可能なDNNブロックの全ての出力に基づいて、モデルセレクタDNNを用いて、グラフモデルを選択するステップと、
    指定されたスケジュールに従って、上記の実行を繰り返すステップと、
    前記試験データおよびニューサンスロバスト性で転送されるオンザフライの新しい着信データに対して、訓練された再構成可能なDNNブロックを試験するステップとを実行する、請求項1に記載のシステム。
  3. 前記変分サンプリングは、乱数発生器およびソフトマックス温度に基づいて、ニアワンホットベクトルを生成するためのガンベルソフトマックストリックを用いて、パラメータ化トリックの事前分布としての等尺性正規分布を有する前記潜在変数、および未知のニューサンス変量およびタスクラベルを有するカテゴリ変数を得るために採用される、請求項2に記載のシステム。
  4. リンク連結は、複数の訓練可能な線形フィルタを含む多次元テンソル投影を用いて、次元不整合リンクの低次元信号を変換するステップをさらに含む、請求項2に記載のシステム。
  5. 前記モデル選択は、エンコーダ/デコーダDNNブロックのモデルコンセンサス、注目メカニズムおよびサイクル整合性を考慮するモデルセレクタDNNブロックに従って、重み付きアンサンブル和を用いて、仮説グラフィカルモデルの複数の出力を選出するステップをさらに含み、請求項2に記載のシステム。
  6. 前記再構成可能なDNNブロックは、完全接続層、畳み込み層、グラフ畳み込み層、リカレント層、ルーピー接続、スキップ接続、および調整済み線形変量、双曲線正接、シグモイド、ゲート線形、ソフトマックス、および閾値を含む一組の非線形アクティベーションを含むインセプション層の組み合わせで構成され、ドロップアウト、スワップアウト、ゾーンアウト、ブロックアウト、ドロップコネクト、ノイズ注入、シェイキングおよびバッチ正規化の組み合わせで正則化され、
    層パラメータは、前記プロセッサによって調整される複数のハイパーパラメータによって指定されたメモリのサイズを低減するためにさらに量子化される、請求項1に記載のシステム。
  7. 前記訓練は、前記再構成可能なDNNブロックの出力が目的関数の組み合わせの中でより小さい損失値を提供するように、前記訓練データを用いて前記再構成可能なDNNブロックの前記訓練可能なパラメータを更新し、
    前記目的関数は、平均二乗誤差、交差エントロピー、構造類似度、負の対数尤度、絶対誤差、交差共分散、クラスタリング損失、発散、ヒンジ損失、ヒューバー損失、負のサンプリング、ワッサースタイン距離、およびトリプレット損失の組み合わせをさらに含み、
    損失関数は、前記指定された訓練スケジュールに従って調整された複数の正則化係数を用いて、重み付けられる、請求項2に記載のシステム。
  8. 前記勾配法は、確率的勾配降下、適応運動量、適応勾配、適応境界、ネステロフ加速勾配、および二乗平均平方根伝搬の組み合わせを採用して、前記再構成可能なDNNブロックの前記訓練可能なパラメータを最適化する、請求項2に記載のシステム。
  9. 前記データセットは、センサ測定値の組み合わせを含み、
    前記センサ測定値は、
    画像、写真、映画、テキスト、文字、音声、音楽、オーディオ、スピーチなどのメディアデータと、
    電波、光信号、電気パルス、温度、圧力、加速度、速度、振動、力などの物理データと、
    心拍数、血圧、質量、湿度、脳波、筋電図、心電図、筋音図、眼電図、電気皮膚反応、脳磁図、および皮質電図などの生理データとをさらに含む、請求項1に記載のシステム。
  10. 前記ニューサンス変量は、被験者識別、セッション番号、生体状態、環境状態、センサ状態、位置、向き、サンプリング率、時間および感度などの異なる因子にグループ化される、請求項1に記載のシステム。
  11. 前記再構成可能なDNNブロックの各々は、一組の人工ニューロンノードを有する一組の層を指定するハイパーパラメータをさらに含み、
    隣接する層からの一対の前記ニューロンノードは、複数の訓練可能な変数および活性化関数に相互に接続され、前の層からの信号を次の層に順次に渡す、請求項1に記載のシステム。
  12. 前記ニューサンス変量Sは、教師あり設定、半教師あり設定、および教師なし設定の組み合わせに従って、複数のドメイン側情報として複数の変量因子S1、S2、SNにさらに分解され、
    前記潜在変数は、解きほぐされた特徴ベクトルとして複数の潜在変数因子Z1、Z2、・・・、ZLにさらに分解される、請求項1に記載のシステム。
  13. 前記ハイパーパラメータを修正することは、強化学習、進化戦略、微分進化、粒子スワーム、遺伝的アルゴリズム、アニーリング、ベイジアン最適化、ハイパーバンド、および多目的ラマッキアン進化の組み合わせを用いて、異なる組み合わせの離散的なハイパーパラメータ値および継続的なハイパーパラメータ値を探索する、請求項2に記載のシステム。
  14. 前記試験するステップは、前記再構成可能なDNNブロックが新しいニューサンス変量を含む新しいデータセットに適応するように、前記訓練可能な変数の組み合わせを解凍することによって、前記訓練された再構成可能なDNNブロックを改良するためのポスト訓練ステップをさらに含む、請求項2に記載のシステム。
  15. 前記敵対的再構成可能なDNNブロックは、一組の潜在ベクトルが前記ニューサンス変量の組み合わせに最小限に関係するように、勾配上昇および勾配下降の交互更新を用いて前記訓練可能な変数を学習するように構成され、
    前記敵対的再構成可能なDNNブロックはさらに、エンコーダDNNブロックとデコーダDNNブロックとの相違を最小限にするように構成されている、請求項2に記載のシステム。
  16. 前記一組の訓練スケジュールは、学習レート、正則化重み、因数分解置換および前記訓練データと前記検証データとの間の相違を測定する確率伝搬法を用いてより低い優先度のリンクをプルーニングするためのポリシーの適応制御を含む、請求項2に記載のシステム。
JP2023516860A 2020-07-02 2021-02-26 ベイジアングラフ探索を用いたニューラルネットワークアーキテクチャの自動構築 Active JP7422946B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/919,211 2020-07-02
US16/919,211 US20220004875A1 (en) 2020-07-02 2020-07-02 Automated Construction of Neural Network Architecture with Bayesian Graph Exploration
PCT/JP2021/008847 WO2022004057A1 (en) 2020-07-02 2021-02-26 Automated construction of neural network architecture with bayesian graph exploration

Publications (2)

Publication Number Publication Date
JP2023529242A JP2023529242A (ja) 2023-07-07
JP7422946B2 true JP7422946B2 (ja) 2024-01-26

Family

ID=75439388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023516860A Active JP7422946B2 (ja) 2020-07-02 2021-02-26 ベイジアングラフ探索を用いたニューラルネットワークアーキテクチャの自動構築

Country Status (5)

Country Link
US (1) US20220004875A1 (ja)
EP (1) EP3980942A1 (ja)
JP (1) JP7422946B2 (ja)
CN (1) CN115769228A (ja)
WO (1) WO2022004057A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651194B2 (en) * 2019-11-27 2023-05-16 Nvidia Corp. Layout parasitics and device parameter prediction using graph neural networks
US11283349B2 (en) 2020-04-23 2022-03-22 Nvidia Corp. Techniques to improve current regulator capability to protect the secured circuit from power side channel attack
US11507704B2 (en) 2020-04-23 2022-11-22 Nvidia Corp. Current flattening circuit for protection against power side channel attacks
US11909482B2 (en) * 2020-08-18 2024-02-20 Qualcomm Incorporated Federated learning for client-specific neural network parameter generation for wireless communication
CN115174824A (zh) * 2021-03-19 2022-10-11 阿里巴巴新加坡控股有限公司 视频生成方法及装置、宣传类型视频生成方法及装置
US20230169176A1 (en) * 2021-11-28 2023-06-01 International Business Machines Corporation Graph exploration framework for adversarial example generation
CN114510966B (zh) * 2022-01-14 2023-04-28 电子科技大学 一种基于图神经网络的端到端大脑因果网络构建方法
CN114091360B (zh) * 2022-01-21 2022-04-22 武汉格蓝若智能技术有限公司 一种多模型融合的电压互感器误差状态评估方法
CN114726419A (zh) * 2022-04-07 2022-07-08 重庆邮电大学 基于深度学习的共轭梯度大规模mimo检测方法
WO2023249068A1 (en) * 2022-06-24 2023-12-28 Mitsubishi Electric Corporation Automated variational inference using stochastic models with irregular beliefs
JP7262654B1 (ja) 2022-07-11 2023-04-21 アクタピオ,インコーポレイテッド 情報処理方法、情報処理装置および情報処理プログラム
CN115429293B (zh) * 2022-11-04 2023-04-07 之江实验室 一种基于脉冲神经网络的睡眠类型分类方法和装置
CN116681644B (zh) * 2023-02-03 2024-01-12 红云红河烟草(集团)有限责任公司 基于变分贝叶斯推理的烟支外观缺陷检测方法
CN117354652B (zh) * 2023-12-04 2024-02-20 四川省光为通信有限公司 基于变分自编码器的高速多模光模块性能优化方法
CN117540106B (zh) * 2024-01-09 2024-04-02 湖南工商大学 一种多模态数据隐私保护的社交活动推荐方法及设备
CN117743611B (zh) * 2024-02-19 2024-04-26 长春大学 一种数字媒体内容自动分类系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015045091A1 (ja) 2013-09-27 2015-04-02 株式会社シーエーシー ベイジアンネットワークの構造学習におけるスーパーストラクチャ抽出のための方法及びプログラム
JP2020500377A (ja) 2016-11-23 2020-01-09 ゼネラル・エレクトリック・カンパニイ ディープラーニング医療システムおよび画像収集のための方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200302662A1 (en) * 2019-03-23 2020-09-24 Uatc, Llc System and Methods for Generating High Definition Maps Using Machine-Learned Models to Analyze Topology Data Gathered From Sensors

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015045091A1 (ja) 2013-09-27 2015-04-02 株式会社シーエーシー ベイジアンネットワークの構造学習におけるスーパーストラクチャ抽出のための方法及びプログラム
JP2020500377A (ja) 2016-11-23 2020-01-09 ゼネラル・エレクトリック・カンパニイ ディープラーニング医療システムおよび画像収集のための方法

Also Published As

Publication number Publication date
US20220004875A1 (en) 2022-01-06
WO2022004057A1 (en) 2022-01-06
EP3980942A1 (en) 2022-04-13
CN115769228A (zh) 2023-03-07
JP2023529242A (ja) 2023-07-07

Similar Documents

Publication Publication Date Title
JP7422946B2 (ja) ベイジアングラフ探索を用いたニューラルネットワークアーキテクチャの自動構築
Kanjo et al. Deep learning analysis of mobile physiological, environmental and location sensor data for emotion detection
Saeed et al. Federated self-supervised learning of multisensor representations for embedded intelligence
Abdelhameed et al. A deep learning approach for automatic seizure detection in children with epilepsy
Lotte et al. A review of classification algorithms for EEG-based brain–computer interfaces: a 10 year update
Lin et al. GCRNN: Group-constrained convolutional recurrent neural network
Hong et al. Toward personalized activity recognition systems with a semipopulation approach
Martinez et al. Learning deep physiological models of affect
Rumelhart et al. Backpropagation: The basic theory
US20230162023A1 (en) System and Method for Automated Transfer Learning with Domain Disentanglement
CN115804602A (zh) 基于注意力机制的多通道特征融合的脑电情绪信号检测方法、设备和介质
Alshammari et al. Evaluating machine learning techniques for activity classification in smart home environments
WO2023095460A1 (en) System and method for automated transfer learning with domain disentanglement
Zhao et al. Attention‐based sensor fusion for emotion recognition from human motion by combining convolutional neural network and weighted kernel support vector machine and using inertial measurement unit signals
Pandian et al. Effect of data preprocessing in the detection of epilepsy using machine learning techniques
Thiemjarus et al. Context Aware Sensing
El-Adawi et al. Wireless body area sensor networks based human activity recognition using deep learning
Purnamasari et al. EEG based emotion recognition system induced by video music using a wavelet feature vectors and an artificial neural networks
Tazrin Toward lightweight fusion of AI logic and eeg sensors to enable ultra edge-based EEG analytics on IoT devices
US20230419075A1 (en) Automated Variational Inference using Stochastic Models with Irregular Beliefs
Aarthi et al. Robust Prediction of Alcoholism from EEG Signals Using Auto-Encoder
Nia et al. Synthesizing Affective Neurophysiological Signals Using Generative Models: A Review Paper
BIKEN SINGH Affect Analysis from EEG signal using Convolutional LSTM Network
US20240164688A1 (en) System and apparatus for generating imaging information based on at least a signal
Demir et al. AutoBayes: Automated Inference via Bayesian Graph Exploration for Nuisance-Robust Biosignal Analysis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221125

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240116

R150 Certificate of patent or registration of utility model

Ref document number: 7422946

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150