JP7325414B2 - 第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとの訓練 - Google Patents

第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとの訓練 Download PDF

Info

Publication number
JP7325414B2
JP7325414B2 JP2020527753A JP2020527753A JP7325414B2 JP 7325414 B2 JP7325414 B2 JP 7325414B2 JP 2020527753 A JP2020527753 A JP 2020527753A JP 2020527753 A JP2020527753 A JP 2020527753A JP 7325414 B2 JP7325414 B2 JP 7325414B2
Authority
JP
Japan
Prior art keywords
model
weights
processor
training
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020527753A
Other languages
English (en)
Other versions
JP2021503661A5 (ja
JP2021503661A (ja
Inventor
ビンヤム ジブレキダン ジブレ
エリック ブレシュ
ディミトロス マヴリュードゥス
デン フーベル テウン ファン
ウルフ グロッセカソーファー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2021503661A publication Critical patent/JP2021503661A/ja
Publication of JP2021503661A5 publication Critical patent/JP2021503661A5/ja
Application granted granted Critical
Publication of JP7325414B2 publication Critical patent/JP7325414B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Description

本明細書において説明されている様々な実施形態は、機械学習の分野に関する。より詳細には、様々な実施形態が、第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとを訓練するためのシステム及び方法に関する。
一般的な背景は、機械学習におけるものである。機械学習モデルは、自動化された手法により多量のデータを分類するために使用され得る。機械学習は、さもなければ非常に熟練した者のみが分類できる医療画像などの画像を分類するときに特に有用であり得る。機械学習が医療画像の分類を高速化し得る2つの例が、ステントマーカーの分野にある。特に、ステントマーカーは、画像においてステントを検出すること、及び/又は、ステントの画像における終点(例えばバルーンマーカー)の座標を生成することが可能な機械学習モデルを発展させるために役立ち得る。
機械学習モデルの一種が、人工的ニューラルネットワーク(又は、ニューラルネットワーク)である。タスクを実施することをニューラルネットワークに教えるために、3つの課題が克服される必要があることが知られている。第1に、多くの注釈付けされた訓練データが、ニューラルネットワークを正確に訓練するのに必要とされ、概して、利用可能な訓練データが多いほど結果として得られるモデルがより正確となる。さらに、注釈付けされた訓練データが利用可能である場合でも、注釈は、特定のモデルを訓練することに直接適していない可能性がある。これは、訓練データの完全に新しい集合が各モデルのために生成されることを必要とし得る。第2に、ニューラルネットワークの重みが最適値に向かって収束するまでネットワークが訓練データを処理する(例えば訓練される)ことを可能にするための十分な演算時間が確保されなければならない。第3に、所与のタスクに最適なニューラルネットワークアーキテクチャを導出するために、パラメータ及びアーキテクチャ空間において探索が実施されなければならない。
したがって、適切な訓練データ集合を確保すること、適切なニューラルネットワークアーキテクチャを作り上げること、及び、要求される精度までモデルを訓練することは時間がかかり高価となり得る。
したがって、上述の問題を改善する方法及びシステムが必要とされる。
これらの態様及び他の態様が、以下で説明される実施形態から明らかとなり、以下で説明される実施形態を参照しながら説明される。
第1の態様によると、第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとを訓練するためのシステムが存在する。本システムは、命令セットを表す命令データを含むメモリ、及びメモリと通信し、命令セットを実行するためのプロセッサを備える。命令セットは、プロセッサにより実行されると、第1のモデルにおける対応する重みに基づいて第2のモデルにおける重みを設定することと、第1のデータ集合において第2のモデルを訓練することであって、訓練することが、第2のモデルにおける重みを更新することを有する、訓練することと、第2のモデルにおける更新された重みに基づいて第1のモデルにおける対応する重みを調節することとをプロセッサに行わせる。
この手法により、第1のモデル及び第2のモデルの重みは、モデルのうちの1つが追加的な訓練を受けるごとにバックアンドフォース手法によりシェア及び/又は更新され得る。したがって、第2のモデルの訓練は、第1のモデルが(必ずしも)直接的に第1のデータ集合を処理すること、及び第1のデータ集合において訓練されることを必要とせずに、第1のモデルの重みに利益を与え、及び第1のモデルの重みを改善し、逆も同様である。これは、モデルが同じ又は同様の種類のデータを分類する場合(例えば、各モデルが特定の種類の医療画像データの異なる部分を分類する場合)に特に有益であり得、この場合、各モデルのより低い層の重みが経時的に(各重みに対して最適値に向かって)収束すると想定される。訓練が、両方のモデルにおいて行われる場合とは対照的に、モデルのうちの1つにおいて行われる必要があるだけなので、この方法は、より低い演算能力しか必要とせず、より短い訓練時間しか必要としない。
本明細書におけるシステム及び方法は、例えば、特定のタスクに対して収集された医療データがそれ自体だけでは十分ではない(例えば、特定の訓練問題に対して十分な訓練データが存在しない)場合に、又は、例えば、データの自然なバリエーションはデータ増強によって完全には捕捉されないので、人工的なデータ増強(例えばシミュレーションデータ)が不可能であるか、又は限られている場合に、良く適している。本明細書におけるシステム及び方法は、例えば、いくつかの種類のデータのデータ不足が存在するにもかかわらず、他の関連するタスクに対して収集された、及び注釈付けされた追加的な医療データが利用可能である場合にもよく適している。例えば、異なる注釈を含む同じ種類の画像である。本モデルは、より低い全体的な演算能力を使用して、はるかに迅速に訓練収束に達するので、いくつかのタスクに対して十分なデータが存在する場合でも、本明細書において説明されているように重みの「バックアンドフォース」伝達を使用して訓練することにおいて得られる利点が依然として存在する。
いくつかの実施形態において、重みは、第2のモデルの入力層と第2のモデルの隠れ層とのうちの1つにおける重みを含む。
いくつかの実施形態において、第1のモデルにおける対応する重みを調節することをプロセッサに行わせることは、第2のモデルからの重みの値を第1のモデルにおける対応する重みにコピーすることをプロセッサに行わせることを含む。
いくつかの実施形態において、第1のモデルにおける対応する重みを調節することをプロセッサに行わせることは、第1のモデルにおける対応する重みと第2のモデルにおける重みとの間の差に基づいて、第1のモデルにおける対応する重みの値にインクリメントを適用することをプロセッサに行わせることを含む。
いくつかの実施形態において、第1のモデルにおける対応する重みを調節することをプロセッサに行わせることは、第1のモデルの出力層における重みを任意値に設定することをプロセッサに行わせることをさらに含む。
いくつかの実施形態において、第1のモデルにおける対応する重みを調節することをプロセッサに行わせることは、第1のモデルの出力層における少なくとも1つの重みの値を同じ値に維持することをプロセッサに行わせることをさらに含む。
いくつかの実施形態において、第2のモデルにおける重みを設定することをプロセッサに行わせることは、第1のモデルの入力層と第1のモデルの隠れ層とのうちの1つからの重みの値を第2のモデルにおける対応する重みにコピーすることをプロセッサに行わせることを含む。
いくつかの実施形態において、第2のモデルにおける重みを設定することをプロセッサに行わせることは、第2のモデルの出力層における少なくとも1つの重みを任意値に設定することをプロセッサに行わせることをさらに含む。
いくつかの実施形態において、第1のモデルは、物体検出モデルと物体位置特定モデルとのうちの1つを含む。いくつかの実施形態において、第2のモデルは、物体検出モデルと物体位置特定モデルとのうちの他方の1つを含む。
いくつかの実施形態において、第1のモデルは、1つの出力を生成するためのモデルと複数の出力を生成するためのモデルとのうちの1つを含む。いくつかの実施形態において、第2のモデルは、1つの出力を生成するためのモデルと複数の出力を生成するためのモデルとのうちの他方の1つを含む。
いくつかの実施形態において、命令セットは、プロセッサにより実行されると、第1のモデルと第2のモデルとのうちの他方の1つのさらなる訓練に応答して、第1のモデルと第2のモデルとのうちの1つにおける重みを調節することをプロセッサにさらに行わせる。
いくつかの実施形態において、命令セットは、プロセッサにより実行されると、以下の基準、すなわち、i)第1のモデル及び/又は第2のモデルが閾値精度レベルに達すること、ii)調節の大きさが閾値の大きさ未満に低下すること、iii)第1のモデルにおける重みと、第1のモデルにおける重みに対応した第2のモデルにおける重みとが既定の閾値内において互いに向けて収束すること、及び、iv)第1のモデルに関連した損失及び/又は第2のモデルに関連した損失が後続の調節間に閾値量未満分変化することのうちの1つ又は複数が満たされるまで、重みを調節するステップを反復することをプロセッサに行わせる。
いくつかの実施形態において、第1のモデルは、第2のデータ集合において訓練され、第1のデータ集合は、第2のデータ集合より少ないデータを含み、第2のデータ集合単独のサイズが、任意に始められた重みを使用して既定の精度まで第2のモデルを訓練するには不十分である。
第2の態様によると、第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとを訓練するコンピュータ実施方法が存在し、本方法が、第1のモデルにおける対応する重みに基づいて第2のモデルにおける重みを設定するステップと、データ集合において第2のモデルを訓練するステップであって、第2のモデルにおける重みを更新することを有する、訓練するステップと、第2のモデルにおける更新された重みに基づいて第1のモデルにおける対応する重みを調節するステップとを有する。
第3の態様によると、非一時的なコンピュータ可読媒体を備えるコンピュータプログラム製品が存在し、コンピュータ可読媒体が、コンピュータ可読媒体内において具現化されたコンピュータ可読コードを含み、コンピュータ可読コードが、適切なコンピュータ又はプロセッサによる実行時に、コンピュータ又はプロセッサに本明細書において説明されている実施形態のうちの任意の実施形態の方法を実施させるように構成される。
実施形態のより良い理解のために、及び、実施形態がどのように実現されるかをより明確に示すために、以下で単なる例示として添付図面が参照される。
一実施形態による第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとを訓練するための例示的なシステムを示す図である。 第1のモデル及び第2のモデルがステントを含む医療画像に対する分類を生成するために使用される一実施形態を示す図である。 一実施形態による第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとを訓練するコンピュータ実施方法を示す図である。 第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとを訓練のさらなる実施形態を示す図である。
上述のように、既存の問題のいくつかを解決する、第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとを訓練するための改善された方法及びシステムが提供される。
図1は、ニューラルネットワークモデルを訓練するために使用され得る一実施形態によるシステム100のブロック図を示す。図1を参照すると、システム100は、システム100の動作を制御する、及び、本明細書において説明されている方法を実施し得るプロセッサ102を備える。
システム100は、命令セットを表す命令データを含むメモリ106をさらに備える。メモリ106は、本明細書において説明されている方法を実施するようにプロセッサ102により実行され得るプログラムコードの形態による命令データを記憶するように構成される。いくつかの実施態様において、命令データは、本明細書において説明されている方法の個々のステップ又は複数のステップを実施するように、又は実施するために各々が構成された複数のソフトウェア及び/又はハードウェアモジュールを含み得る。いくつかの実施形態において、メモリ106は、システム100の1つ又は複数の他のコンポーネント(例えば、プロセッサ102及び/又はシステム100の1つ又は複数の他のコンポーネント)をさらに備えるデバイスの一部である。代替的な実施形態において、メモリ106は、システム100の他のコンポーネントに対して独立したデバイスの一部である。
いくつかの実施形態において、メモリ106は、複数のサブメモリを備え、各サブメモリは、命令データの一部を記憶することができる。メモリ106が複数のサブメモリを備えるいくつかの実施形態において、命令セットを表す命令データは、1つのサブメモリに記憶される。メモリ106が複数のサブメモリを備える他の実施形態において、命令セットを表す命令データは、複数のサブメモリに記憶される。例えば、少なくとも1つのサブメモリが命令セットの少なくとも1つの命令を表す命令データを記憶するとともに、少なくとも1つの他のサブメモリが命令セットの少なくとも1つの他の命令を表す命令データを記憶する。したがって、いくつかの実施形態によると、異なる命令を表す命令データが、システム100における1つ又は複数の異なる位置に記憶される。いくつかの実施形態において、メモリ106は、システム100のプロセッサ102により、又は、システム100の任意の他のコンポーネントから獲得された、又は作られた情報、データ(例えば画像)、信号、及び測定結果を記憶するために使用される。
システム100のプロセッサ102は、命令セットを実行するようにメモリ106と通信するように構成され得る。命令セットは、プロセッサ102により実行されると、本明細書において説明されている方法を実施することをプロセッサ102に行わせる。プロセッサ102は、本明細書において説明されている手法によりシステム100を制御するように構成又はプログラムされた1つ又は複数のプロセッサ、処理ユニット、マルチコアプロセッサ、及び/又はモジュールを備え得る。いくつかの実施態様において、例えば、プロセッサ102は、複数の(例えば、相互運用された)プロセッサ、処理ユニット、マルチコアプロセッサ、及び/又は、分散処理のために構成されたモジュールを備える。このようなプロセッサ、処理ユニット、マルチコアプロセッサ、及び/又は、モジュールが異なる位置に位置し、本明細書において説明されている方法の異なるステップ及び/又は1つのステップの異なる部分を実施することが当業者により理解される。
再度図1に戻ると、いくつかの実施形態において、システム100は、少なくとも1つのユーザーインターフェース104を備える。いくつかの実施形態において、ユーザーインターフェース104は、システム100の1つ又は複数の他のコンポーネント(例えば、プロセッサ102、メモリ106、及び/又は、システム100の1つ又は複数の他のコンポーネント)をさらに備えるデバイスの一部である。代替的な実施形態において、ユーザーインターフェース104は、システム100の他のコンポーネントに対して独立したデバイスの一部である。
ユーザーインターフェース104は、システム100のユーザー(例えば、医療研究者などの研究者、医療専門家、又は、ニューラルネットワークモデルの任意の他のユーザー)に、本明細書の実施形態による方法により結果的にもたらされる情報を提供することにおける使用のためのものである。命令セットは、プロセッサ102により実行されると、本明細書の実施形態による方法により結果的にもたらされる情報を提供するように、1つ又は複数のユーザーインターフェース104を制御することをプロセッサ102に行わせる。代替的に、又は追加的に、ユーザーインターフェース104は、ユーザー入力を受信するように構成される。言い換えると、ユーザーインターフェース104は、システム100のユーザーが命令、データ、又は情報を手動で入力することを可能にする。命令セットは、プロセッサ102により実行されると、1つ又は複数のユーザーインターフェース104からユーザー入力を獲得することをプロセッサ102に行わせる。
ユーザーインターフェース104は、システム100のユーザーに対して、情報、データ、又は信号のレンダリング(又は、出力又は表示)を可能にする任意のユーザーインターフェースである。代替的に、又は追加的に、ユーザーインターフェース104は、システム100のユーザーがユーザー入力を提供すること、システム100と相互作用すること、及び/又はシステム100を制御することを可能にする任意のユーザーインターフェースである。例えば、ユーザーインターフェース104として、1つ又は複数のスイッチ、1つ又は複数のボタン、キーパッド、キーボード、マウス、マウスホイール、(例えば、タブレット又はスマートフォンにおける)タッチスクリーン又はアプリケーション、ディスプレイスクリーン、グラフィカルユーザーインターフェース(GUI)又は他の視覚レンダリングコンポーネント、1つ又は複数のスピーカー、1つ又は複数のマイクロホン又は任意の他のオーディオコンポーネント、1つ又は複数のライト、触覚フィードバック(例えば振動機能)を提供するためのコンポーネント、又は、任意の他のユーザーインターフェース、又は、ユーザーインターフェースの組合せが挙げられる。
いくつかの実施形態において、図1に示されるように、システム100は、システム100がインターフェース、メモリ、及び/又はシステム100の一部であるデバイスと通信することを可能にするための通信インターフェース(又は回路)108をさらに備える。通信インターフェース108は、無線により、又は有線接続を介して任意のインターフェース、メモリ、及びデバイスと通信する。
図1は、本開示のこの態様を示すために必要とされるコンポーネントのみを示し、実用的な実施態様では、システム100は、示されるものに追加的なコンポーネントを備えることが理解される。例えば、システム100は、システム100に給電するための電池又は他の電源、又は、主電源にシステム100を接続するための手段を備える。
より詳細には、上述のように、システムは、第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとを訓練するように構成されている。メモリ106は、命令セットを表す命令データを含む。簡潔に述べると、命令セットは、システム100のプロセッサ102により実行されると、第1のモデルにおける対応する重みに基づいて第2のモデルにおける重みを設定すること、第1のデータ集合において第2のモデルを訓練することであって、訓練することが、第2のモデルにおける重みを更新することを有する、訓練することと、第2のモデルにおける更新された重みに基づいて第1のモデルにおける対応する重みを調節することとをプロセッサ102に行わせる。
ここまでに簡単に説明されているように、本明細書のシステムは、2つのニューラルネットワークモデルが同様の種類のデータ(例えば、同じ種類の画像など)を分類するように訓練される場合、モデルの出力が異なる(例えば、一方のモデルが、画像において特定の物体の存在を検出するように訓練されるのに対し、他方が、画像において特定の種類の物体の長さを測定するように訓練される)ときでもモデルのいくつかの層における重みは非常に類似していることが多く、及び、モデルが訓練データの十分に大きいデータベースにおいて訓練される場合、同じ値に収束しさえする実現例に基づく。したがって、第2のモデルが訓練を受ける場合、この訓練からの更新された重みは、さらなる訓練が第1のモデルに直接適用される必要を一切伴わずに、第1のモデルの重みを改善するために使用され得る。この手法により、類似モデルの重複した訓練が減らされ得、したがって、訓練処理をより効率的にし、したがって、これは、他の手法によって可能なものよりはるかに速く訓練収束に(例えば、各重みに対してモデルの重みが最適値に向かって動くことに)つながる。さらに、各モデルに対して要求される訓練データが少なくなり(例えば、第2のモデルを訓練するために使用される遠隔データベースは、第1のモデルに対して直接利用可能にされる必要がなく)、各モデルが訓練データの新しいバッチの各々を個々に処理する必要があるのではなく、モデルのうちの1つしか訓練データの新しいバッチの各々を処理する必要がないので、演算能力が節約される。
人工的ニューラルネットワーク、又は単にニューラルネットワークは、当業者によく知られているが、端的に言えば、ニューラルネットワークは、データを分類(例えば、画像データのコンテンツを分類又は識別)するために使用され得るモデルの一種である。ニューラルネットワークの構造は、ヒトの脳によりインスピレーションを受けたものである。ニューラルネットワークは層を含み、各層は複数のニューロンを含む。各ニューロンは、数学的演算を含む。データの一部を分類する処理において、各ニューロンの数学的演算がデータの一部において実施されて数値出力を生成し、ニューラルネットワークにおける各層の出力が逐次的に隣の層に供給される。概して、各ニューロンに関連した数学的演算は、訓練処理中に調整された1つ又は複数の重みを含む(例えば、重みの値は、より正確な分類を生成するようにモデルを調整するように訓練処理中に更新される)。
例えば、画像のコンテンツを分類するためのニューラルネットワークモデルでは、ニューラルネットワークにおける各ニューロンは、画像におけるピクセル(又は、三次元におけるボクセル)値の重み付けされた線形和と後に続く非線形変換とを含む数学的演算を含む。ニューラルネットワークにおいて使用される非線形変換の例として、シグモイド関数、双曲線接線関数、及び正規化線形関数が挙げられる。ニューラルネットワークの各層におけるニューロンは、概して、(例えば、異なる重み付けを伴うが同じ種類の変換、シグモイドなどの)1種類の変換の異なる重み付けされた組合せを含む。当業者によく知られているように、いくつかの層において、同じ重みが線形和において各ニューロンにより適用され、例えば、畳み込み層の場合にこれが適用される。各ニューロンに関連した重みは、他の特徴に比べて、分類処理において特定の特徴をより目立たせ(又は逆に、より目立たなくさせ)、したがって、訓練処理においてニューロンの重みを調節することは、画像を分類するときに、特定の特徴に、より高い有意性を与えるようにニューラルネットワークを訓練する。概して、ニューラルネットワークは、(例えば、ニューロン間をわたるデータ値を修正する)ニューロンに関連した重み及び/又はニューロン間の重みを含む。
ここまでに簡潔に述べたように、いくつかのニューラルネットワーク、例えば畳み込みニューラルネットワークでは、ニューラルネットワークにおけるより低い層、例えば入力層又は隠れ層(すなわち、ニューラルネットワークにおける一連の層の先頭に向かう層)は分類されているデータの一部における小さい特徴又はパターンによりアクティブ化され(すなわち、それらの出力は分類されているデータの一部における小さい特徴又はパターンに依存する)、その一方で、より高い層(すなわち、ニューラルネットワークにおける一連の層の終端に向かう層)は、分類されているデータの一部において次第に大きくなる特徴によりアクティブ化される。一例として、データが画像を含む場合、ニューラルネットワークにおける、より低い層は、小さい特徴(例えば、画像におけるエッジパターンなど)によりアクティブ化され、中レベル層は、画像における特徴、例えば、より大きい形状及び形態などによりアクティブ化され、出力に最も近い層(例えばより上の層)は、画像における物体全体によりアクティブ化される。
概して、ニューラルネットワークモデルの最終層(出力層として知られる)の重みは、ニューラルネットワークにより解かれる特定の分類問題に最も強く依存する。例えば、外層の重みは、分類問題が位置特定問題であるか検出問題であるかに大きく依存する。より低い層(例えば入力層及び/又は隠れ層)の重みは、分類されるデータのコンテンツ(例えば特徴)に依存する傾向を示し、したがって、同じ種類のデータを処理するニューラルネットワークの入力層及び隠れ層における重みは、モデルの外層が異なる分類問題を解決するように調整されている場合でも、十分な訓練に伴って、経時的に同じ値に向かって収束することが本明細書において認識されている。
概して、本明細書において説明されているシステム及び方法は、(本明細書において、それぞれ第1のモデル及び第2のモデルと呼ばれる)第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとを訓練することに関連する。第1のモデル及び第2のモデルは、第1のモデル及び第2のモデルの訓練処理の一部として更新(例えば調節)される重み(例えばパラメータ)を含む。概して、第1のニューラルネットワークモデル及び第2のニューラルネットワークモデルとして、フィードフォワードモデル(例えば、畳み込みニューラルネットワーク、オートエンコーダニューラルネットワークモデル、確率論的ニューラルネットワークモデル、及び時間遅れニューラルネットワークモデル)、放射基底関数ネットワークモデル、回帰型ニューラルネットワークモデル(例えば、完全回帰型モデル、ホップフィールドモデル、又はボルツマン機械モデル)、又は、重みを含む任意の他の種類のニューラルネットワークモデルが挙げられる。
第1のモデル及び第2のモデルは、データを分類するために使用される。データは、第1のニューラルネットワークモデル及び第2のニューラルネットワークモデルにより分類され得る、任意の種類のデータ、例えば、画像を含むデータ(例えば画像データ)、例えば文献又は記録といった文字列を含むデータ、音声データ、又は、任意の他の種類のデータである。いくつかの実施形態において、データとして、医療データ、例えば、医療画像(例えば、x線画像、超音波画像など)、又は医療記録が挙げられる。
いくつかの実施形態において、第1のモデル及び第2のモデルは、データに対する1つ又は複数の分類(例えばラベル)を生成するように訓練される。いくつかの実施形態において、第1のモデル及び第2のモデルは、同じ種類のデータを分類する(例えば、同じ種類のデータを処理する、及び、同じ種類のデータに対するラベルを生成する)ように訓練される。例えば、第1のモデルと第2のモデルとの両方が、イメージングデータ、例えば医療イメージングデータを分類するために使用される。いくつかの実施形態において、第1のモデル及び第2のモデルは、同じ種類のイメージングデータを分類するために使用され、例えば、第1のモデル及び第2のモデルは、両方が、特定の解剖学的構造、例えば、脈管系、心臓、又は任意の他の解剖学的構造の医療イメージングデータを分類するために使用される。
いくつかの実施形態において、第1のモデル及び第2のモデルは、同じ種類の分類を生成する(例えば、第1のモデルと第2のモデルとの両方が、同じ手法によりデータに注釈付けし、又は、同じ問題を解決するために使用される)。いくつかの実施形態において、第1のモデルは、異なる分類を生成するために使用される(例えば、第1のモデルが第2のモデルとは異なる種類の注釈を生成するために使用され、又は異なる問題を解くために使用される)。
例えば、いくつかの実施形態において、第1のモデルは、画像において物体の存在を検出するために使用される。いくつかの実施形態において、第2のモデルは、画像において物体の位置を特定するために使用される。ステントを含む例示的な画像が、ステント200を示す図2に示されており、ステント200の両端部が2つのバルーンマーカー202及び204によりマーキングされている。いくつかの実施形態において、第1のモデルは、図2に示されるものなどの画像を処理するように、及び、ステントが医療画像に存在するかどうかを示す出力を生成するように訓練される(例えばステント検出モデル)。この実施形態において、第1のモデルの出力層は、二進出力に適した2つのニューロンを含み、例えば、第1のモデルは、ステントが存在すること、又は、ステントが画像に存在しないことを出力する。いくつかの実施形態において、第2のモデルは、また、例えば図2に示されるデータといったデータを処理するように訓練されるが、第2のモデルは、異なる出力を生成するように訓練される。例えば、第2のモデルの出力層は、ステントを囲むバウンディングボックスの中心のx-y座標に対応した第1のペア、及び、バウンディングボックスの幅及び高さに対応した第2のペアという4つのニューロンを備える。この手法により、ステントの位置は、各医療画像に対して出力され得る。しかし、これらは例示にすぎないこと、及び、第1のモデル及び第2のモデルの出力層は、異なる出力を生成する他の数のニューロンを備えることが理解される。例えば、例として、バウンディングボックスの座標及び寸法を生成する代わりに、第2のモデルは、画像におけるステントの一方又は両方の端部(例えば、バルーンマーカー202、204)のx,y座標を出力するように訓練される。
したがって、より概括的に述べると、いくつかの実施形態において、第1のモデルは、物体検出モデルと物体位置特定モデルとのうちの1つを含み、第2のモデルは、物体検出モデルと物体位置特定モデルとのうちの他方の1つを含む。この手法により、第1のモデル及び第2のモデルは、第1のモデルと第2のモデルとの間の情報(例えば訓練を通して導出された重み)をシェアするほどに十分に関連した、又は類似した分類演算を実施する。
代替的に、又は追加的に、いくつかの実施形態において、第1のモデルは、1つの出力を生成するように構成されたモデルと、複数の出力を生成するように構成されたモデル(例えば、1つの出力パラメータ又は分類を生成するように構成されたモデル、又は、複数の出力パラメータ又は分類を生成するように構成されたモデル)とのうちの1つを備える。したがって、第2のモデルは、1つの出力を生成するように構成されたモデルと複数の出力を生成するように構成されたモデルとのうちの他方の1つを備える。したがって、第1のモデル及び第2のモデルは、第1のモデルと第2のモデルとの間の情報(例えば訓練を通して導出された重み)をシェアするほどに十分に関連した、又は類似した分類演算を実施する。これらの種類のモデルに本明細書におけるシステム及び方法を適用することは、ネットワークの重み及びバイアスが2つのタスク間においてシェアされ、2つのタスクが同じシステムにおいて実施される必要のある場合、メモリフットプリントがより小さくなることを意味する。
いくつかの実施形態において、第2のモデルは、新たに生成された(例えば訓練されていない)モデルを含む。例えば、第2のモデルの重みは、最初に任意に、又は無作為に設定される。
いくつかの実施形態において、第2のモデルは、より早期の訓練を受けたものである。いくつかの実施形態において、第2のモデルは、部分的に訓練されたモデルであるとみなされる。この意味で、「部分的に訓練された」とは、第2のモデルは、何らかの訓練を受けたものであり、したがって、分類を実施することができるが、第2のモデルが、既定の精度(例えば、特定の用途のためにユーザーにより要求される適切な精度)内でデータを分類することができる前に、さらなる訓練が必要とされることを表す。したがって、第2のモデルが部分的に訓練されている場合、第2のモデルの重みは任意とはならず、(より早期の訓練処理中に)更新されたものとなる。しかし、第2のモデルの重みは、分類問題が第2のモデルにより解かれることに対して最適ではないが、そのようなものとして、第2のモデルはさらなる訓練により恩恵を受ける。
いくつかの実施形態において、第1のモデルは、部分的に訓練されたモデルを含む。上述のように、第1のモデルは、何らかの訓練を受けたものであり、したがって、分類を実施することができる。したがって、第1のモデルの重みは第1のモデルにより以前に受けられた訓練に従って設定されるので、第1のモデルの重みは任意ではない。(例えば、第1のモデルにおける対応する重みに基づいて第2のモデルにおける重みを設定する前に)本明細書において説明される処理のステップに加えて、いくつかの実施形態において、命令セットは、プロセッサ102により実行されると、第2の訓練データ集合において第1のモデルを訓練することをプロセッサ102に行わせることが理解される。
いくつかの実施形態において、第1のモデルと第2のモデルとの両方が部分的に訓練される場合、第1のモデルは、第2のモデルより多くの訓練を受けた(例えばより大きいデータ集合において訓練された)ものである。いくつかの実施形態において、第1のモデルは、第2のデータ集合において訓練され、(第2のモデルを訓練するために利用可能な)第1のデータ集合は、(第1のモデルを訓練するために使用される)第2のデータ集合より少ないデータを含む。第2のデータ集合単独のサイズは、任意に始められた重みを使用して既定の精度まで第2のモデルを訓練するには不十分である。
ここまでに簡単に説明されているように、システム100は、命令セットを表す命令データを含むメモリ106を備える。命令セットは、プロセッサ102により実行されると、第1のモデルにおける対応する重みに基づいて第2のモデルにおける重みを設定することをプロセッサ102に行わせる。
いくつかの実施形態において、第2のモデルにおける重みを設定することをプロセッサ102に行わせることは、第1のモデルの入力層と第1のモデルの隠れ層とのうちの1つからの重みの値を、第2のモデルにおける対応する重みにコピーすることをプロセッサ102に行わせることを有する。例えば、いくつかの実施形態において、第1のモデルの入力層からの重み(例えば重みの値)は、第2のモデルにおける同等な層にコピーされる。追加的に、又は代替的に、第1のモデルの隠れ層からの重みは、第2のモデルにおける同等な隠れ層にコピーされる。当業者は、第1のモデルの1つより多い層(隠れ層及び/又は入力層)からの1つより多い重みが、第2のモデルにおける同等な重みにコピーされることを理解する。この手法により、第2のモデルにおいて追加的な訓練を実施することを一切必要とせずに第2のモデルの重みを改善するために、第2のモデルの重みが第1のモデルの値から更新される。
いくつかの実施形態において、第1のモデルの入力層及び隠れ層の重みのすべてが、第2のモデルの入力層及び隠れ層の同等な重みにコピーされる。これは、第2のモデルが新たに生成された(例えば訓練されていない)モデルである場合に特に有用であり、このような状況では、第2のモデルの重みを(部分的に)訓練された第1のモデルと同じ値に設定することは、以前の知識情報を一切伴わずに最初から第2のモデルの重みを訓練することに比べて、第2のモデルを訓練するために必要な時間を短くする。言い換えると、いくつかの実施形態において、上述のように、第1のモデルの出力層における重みは、第1のモデルにより解決される特定の分類問題に特有であり、したがって、例えば、第2のモデルが異なる分類問題を解決する場合には第2のモデルに転用可能ではないので、第1のモデルの1つ又は複数の出力層における重みを除くすべての重みは、第2のモデルにわたってコピーされる(例えば、第1のモデルの出力層からの重みが、第2のモデルにおける同等な位置にコピーされない)。このことの技術的な意味は、ニューラルネットワークの適応が、最終(例えば出力)層及び1つのニューラルネットワークのオブジェクト関数を、新しい層及び別の分類問題に適したオブジェクト関数と置き換えることを伴うことである。この手法によると、1つのタスクに対して訓練されたネットワークは、関連するタスクが学習される元となるニューラルネットワークのためのデータを過度に少ない程度しかもっていないという理由から、又は、場合によっては、最良のネットワークアーキテクチャが合理的な時間内に導出されることができないという理由から、他の手法によるのであれば解決することが困難だった可能性のある別の関連するタスクを解決することに適応され得る。
いくつかの実施形態において、第2のモデルにおける重みを設定することをプロセッサ102に行わせることは、第2のモデルの出力層における少なくとも1つの重みを任意値に設定することをプロセッサ102に行わせることをさらに有する。例えば、第2のモデルの最終(例えば出力)層に対する接続は、無作為に初期化され、この理由により、最初から訓練されるといえ、これに対し、他の重み及びバイアスは、第1のモデルにおける同等な重みに基づいて初期化されて、後から微調整される。
第1のモデルからの1つ又は複数の重みが、第1のモデルから第2のモデルにコピーされた後に、命令セットは、プロセッサ102により実行されると、第1のデータ集合において第2のモデルを訓練することをプロセッサ102に行わせ、訓練することは、第2のモデルにおける重み(例えば、第1のモデルからコピーされた重み)を更新することを有する。例えば、第1のモデルからコピーされた1つ又は複数の重みは、第2のモデルが訓練されるのに伴って更新される。
当業者は第2のモデルを訓練するための方法について精通しており、簡潔に述べると、第1のデータ集合は、(例えば、第2のモデルにより分類されるデータに典型的な)データの例、及び、訓練集合における各データ部分に対する注釈(例えば、人間により生成された正しい分類)を含む。第2のモデルは、次に、以下のように、訓練データ集合における各データ部分を処理することにより訓練される。分類は、その関連する注釈と比較された第2のモデルによりデータ部分に対して生成される。モデルにおける重みは、(例えば、1つ又は複数の損失関数を計算することにより)比較に従って更新され、次に、処理が、訓練データ集合における次のデータ部分に対して反復される。この手法により、モデルの重みが次第に改善される。当業者は、ニューラルネットワークモデルにおける重みを訓練するために使用され得る異なる方法について精通しており、任意のこのような方法が、本明細書において使用される可能性がある。
第2のモデルが第1のデータ集合を使用して訓練された後、命令セットは、プロセッサ102により実行されると、第2のモデルにおける更新された重みに基づいて第1のモデルにおける対応する重みを調節することをプロセッサ102に行わせる。この意味で、「更新された重み」は、上述のように、第1のモデルからコピーされて、第2のモデルを訓練する過程で後から更新された第2のモデルにおける重みを含む。
いくつかの実施形態において、第1のモデルにおける対応する重みを調節することをプロセッサ102に行わせることは、第2のモデルから第1のモデルにおける対応する重みに、重み(例えば更新された重み)の値をコピーすることをプロセッサ102に行わせることを有する。この手法により、第1のモデルは、直接的に第1のデータ集合を処理する(例えば、第1のデータ集合において訓練される)ことを必要とせずに、第2のモデルにより受けられた追加的な訓練の恩恵を受ける。
いくつかの実施形態において、第1のモデルにおける対応する重みを調節することをプロセッサ102に行わせることは、第1のモデルにおける対応する重みと第2のモデルにおける重みとの間の差に基づいて第1のモデルにおける対応する重みの値にインクリメントを適用することをプロセッサ102に行わせることを有する。例えば、第1のモデルにおける対応する重みは、第1のモデルにおける対応する重みと第2のモデルにおける重みとの間の差のパーセンテージにより調節される。例えば、重みは、第1のモデルにおける対応する重みと第2のモデルにおける重みとの間の差の50パーセント分更新される。しかし、当業者は、これが例示にすぎないこと、及び、任意の他のパーセンテージのインクリメントが同等に使用され得ることを理解する。この手法により、第2のモデルにより受けられた追加的な訓練は、第1のモデルが直接的に第1のデータ集合を処理する(例えば、第1のデータ集合において訓練される)ことを必要とせずに、第1のモデルを改善するために使用される。さらに、第2のモデルの重みの値は第1のモデルの値にわたって第1のモデルに直接コピーされるわけではないので、第1のモデルの経験の訓練は失われない。むしろ、第2のモデルの訓練は、第1のモデルの以前の訓練において第1のモデルにより得られた経験を保ちながら、第1のモデルの重みを最適解に向けて漸増的に動かすために使用される。この手法により第1のモデルと第2のモデルとの間において重みの値を調節することは、損失関数を最小化することを伴う訓練処理中に、モデルの重みが損失関数の極小値にはまり込まないことをさらに確実なものとする。むしろ、同一又は類似の問題において働く、及び訓練される2つのモデルを含むことにより、訓練処理が関連する損失関数の最小値に、より簡単に収束することができ、分類処理をより正確なものにする。
いくつかの実施形態において、第1のモデルにおける対応する重みを調節することをプロセッサ102に行わせることは、第2のモデルにおける同等な更新された重みに基づいて、モデルの入力層又は隠れ層における重みを調節することをプロセッサ102に行わせることをさらに有する。いくつかの実施形態において、第1のモデルにおける対応する重みを調節することをプロセッサ102に行わせることは、第1のモデルの入力層と第1のモデルの隠れ層とのうちの1つからの重みの値を第2のモデルにおける対応する重みにコピーすることをプロセッサ102に行わせることをさらに有する。例えば、第2のモデルの1つ又は複数の隠れ層からの1つ又は複数の重みの値が、第1のモデルにおける同等な重みにコピーされる。追加的に、又は代替的に、第2のモデルの1つ又は複数の入力層からの1つ又は複数の重みが、第2のモデルから第1のモデルにおける同等な重みにコピーされる。上述のように、第2のモデルの入力層及び隠れ層の重みに対する更新は、これらが第1のモデルと第2のモデルとの両方に共通であるので、(出力層とは逆に)第1のモデルに最も関連している。
上述のように、ニューラルネットワークモデルの出力層は、モデルにより解決される特定の分類問題に依存し、したがって、(第1のモデル及び第2のモデルが同一又は類似の分類問題を解決するのでない限り)訓練された第2のモデルの更新された重みに基づいて第1のモデルの出力層を調節することは適切ではない。したがって、いくつかの実施形態において、第1のモデルにおける対応する重みを調節することをプロセッサ102に行わせることは、第1のモデルの出力層における少なくとも1つの重みの値を同じ値に維持する(例えば第1のモデルの出力層における1つ又は複数の重みを変化しないままにしておく)ことをプロセッサ102に行わせることをさらに有する。いくつかの実施形態において、第1のモデルにおける対応する重みを調節することをプロセッサ102に行わせることは、第1のモデルの出力層における重みを任意値に設定する(例えば第1のモデルの出力層における1つ又は複数の重みをリセットする)ことをプロセッサ102に行わせることをさらに有する。この実施形態において、第1のモデルの出力層の重みは、別々に訓練される。
いくつかの実施形態において、命令セットは、プロセッサ102により実行されると、第1のモデルと第2のモデルとのうちの他方の1つのさらなる訓練に応答して、第1のモデルと第2のモデルとのうちの1つにおける重みを調節することをプロセッサ102にさらに行わせる。例えば、ここまでに概略的に説明されている処理の後に、さらなる訓練が第1のモデルにおいて実施される場合、第2のモデルの重みは、第1のモデルのさらに訓練された重みに基づいて(上述の任意の実施形態において説明されている手法のうちの任意のものにより)調節される。この手法により、第1のモデル又は第2のモデルの任意の後での訓練が、他方のモデルの重みを更新するために使用され得る。
いくつかの実施形態において、命令セットは、プロセッサ102により実行されると、重みを調節するステップを反復すること(例えば、上述のように他方のモデルの訓練に従ってモデルにおける重みを繰り返し調節すること)をプロセッサ102に行わせる。いくつかの実施形態において、調節するステップは、所望の精度が達成されるまで反復される。例えば、第1のモデル及び/又は第2のモデルが閾値精度レベルに達するまでである。閾値精度は、任意の適切な手法により規定される。例えば、閾値精度は、第1のモデル及び/又は第2のモデルが検証データ集合において試験されるとき、第1のモデル及び/又は第2のモデルにより生成された正しい注釈のパーセンテージの観点から規定される。いくつかの実施形態において、調節するステップは、第1のモデルに関連した損失関数及び/又は第2のモデルに関連した損失関数が後続の調節間に閾値量未満分変化するまで、反復される。閾値量は、任意の適切な手法により規定され、例えば、損失関数の値の閾パーセンテージ変化を含む。当業者は、損失関数、及び、損失関数がニューラルネットワークモデルを訓練するためにどのように使用されるかについて精通している。重みに対する調節がモデルの損失に小さい変化を結果的にもたらす場合、これは、モデルの精度が最適な(例えば、特定の分類問題に最適な)レベルに近づいていることを示す。これは、モデルの収束(例えば、分類問題に対する最適値へのモデルの重みの収束)と一般的に呼ばれる。損失は、通常1つの数値であり、したがって、モデル(例えば、多くの、場合によっては何百万という重みが存在する)における重みの値より簡単に解釈可能である。さらに、損失は、モデルにより解決される特定の問題をより厳密に反映する。
いくつかの実施形態において、調節するステップは閾繰り返し数に達するまで、又は、閾値量の試験データが第1のモデル及び/又は第2のモデルにより処理されるまで反復される。いくつかの実施形態において、調節するステップは、調節の大きさが閾値の大きさ未満に低下するまで(例えば、調節が小さくなって、さらなる訓練がモデルの精度に大幅な影響を与えないことを示すまで)反復される。例えば、大きさの閾パーセンテージ変化などの、任意の適切な閾値の大きさが使用される。いくつかの実施形態において、調節するステップは、第1のモデルにおける重みと、第1のモデルにおける重みに対応した第2のモデルにおける重みとが既定の閾値内において互いに向けて収束する(例えば、2つのモデルの重みが最適値に向かって収束していることを示す)まで反復される。この意味で、第1のモデル及び第2のモデルの重みは、共通値に向かって動く(例えば、達する)。当業者は、上述の基準のうちの1つ又は任意の組合せが満たされるまで、調節するステップが反復されることを理解する。この手法により、モデルが特定の精度レベルより高く実施(例えば分類)をしていることを示す、損失の精度/収束/変化に到達するまで、調節するステップが繰り返される。
上述のように、これは、各モデルにより得られる訓練経験を他方と効果的に「シェア」することにより、第1のニューラルネットワークモデル及び第2のニューラルネットワークモデルの重みを効率的に訓練する。モデルは、互いの重みをコピーし、訓練データのそれら自体のコピーを使用してそれらを微調整することにより互いから学習する。この手法により、1つのモデルからの訓練は、モデルの重みが各重みに対する最適値に収束するまで繰り返す手法により別のモデルの重みを改善するために使用され得る。ここまでに説明されているように、この手法により第1のモデルと第2のモデルとの間において重みの値を調節することは、損失関数を最小化することを伴う訓練処理中に、モデルの重みが損失関数の極小値にはまり込まないことを確実なものとする。むしろ、同一又は類似の問題において働く、及び訓練される2つのモデルを含むことにより、訓練処理が関連する損失関数の最小値に、より簡単に収束することができる。
図3は、一実施形態によるニューラルネットワークモデルを訓練するためのコンピュータ実施方法300を示す。示される方法300は、概してシステム100のプロセッサ102により、又は、システム100のプロセッサ102の制御下において実施され得る。方法は、いくつかの実施形態により部分的に、又は完全に自動化される。
本方法は、(ブロック302において)第1のモデルにおける対応する重みに基づいて第2のモデルにおける重みを設定することと、(ブロック304において)データ集合において第2のモデルを訓練することであって、訓練することが、第2のモデルにおける重みを更新することを有する、訓練することと、(ブロック306において)第2のモデルにおける更新された重みに基づいて第1のモデルにおける対応する重みを調節することとを有する。
この手法により、システム100に関連してここまでに説明されているように、第1のモデル又は第2のモデルが追加的な訓練を受けるとき、新たに訓練されたモデルの更新された重みがモデルのうちの他方の重みを更新するために使用され得る。この手法により、訓練経験が、モデルの重みが分類に対する最適値に収束することを可能にするように、モデル間においてシェアされ得る。これは、(すべての利用可能なデータにおいて各モードを個別に訓練することに比べて)各モデルに対する訓練時間を短くし、各モデルがすべての利用可能な訓練例を処理することを必要とせずに、訓練がシェアされ得るので、より演算的に効果的である。さらに、このようにバックアンドフォースにより重みを交換又は更新することにより、重みは、(独立して訓練される個々のモデルに対して問題となり得る)極小値ではなく、関連する損失関数の最小値に収束する可能性が高い。
図4を参照すると、図4は、一実施形態による、第1のニューラルネットワークモデル402及び第2のニューラルネットワークモデル404を訓練する例示的な方法を示す。この実施形態において、第1のモデル402は、画像におけるステントの位置を予測するように訓練され、第2のモデル404は、ステントを含むとして、又はステントを含まないとして画像を分類するように訓練される。
第1のブロック406において、本方法は、無作為な(例えば任意の)重みを使用して第1のモデルを初期化(例えばインスタンス化)することを有する。次に、第1のモデル402が、ブロック408において、各画像におけるステントの周囲に描かれたバウンディングボックスの中心のx,y座標を使用して注釈付けされた(又は、例えば人間の注釈者によりラベル付けされた)医療画像の形態をとる訓練データを含む第2のデータ集合において訓練される。この手法によりバウンディングボックスの位置を特定することは回帰問題であり、したがって、第2のデータ集合は、回帰訓練データとして説明される。この手法により第1のモデルを訓練することは、システム100に関連してここまでに説明されており、その中の詳細はブロック408に適用することと理解される。
ブロック410において、第2のモデルが初期化され、第2のモデルにおける重みは、第1のモデルにおける対応する重みに基づいて設定される(例えば、第1のモデルからの重みが第2のモデルにコピーされる)。第2のモデルにおける重みを設定することは、システム100に関連してここまでに説明されており、その中の詳細は、ブロック410に同じく適用することと理解される。
次に、ブロック412において、第2のモデル404が第1のデータ集合において訓練される。訓練することは、(第1のモデルにおける対応する重みの値に基づいて設定された)第2のモデルにおける1つ又は複数の重みを更新することを有する。第2のモデル404は分類問題(例えば、ステントが存在するか否か)を解くので、第1のデータ集合は、分類訓練データを含む。第1のデータ集合において第2のモデルを訓練することは、システム100に関連してここまでに説明されており、その中の詳細は、ブロック404に適用することと理解される。
第2のモデルを訓練した後に、本方法は、第2のモデルにおける更新された重みに基づいて、第1のモデルにおける対応する重みを調節することを有する(図4に示されていないブロック)。この手法により、第1のモデル及び第2のモデルの重みの各々が、他方の訓練に基づいて更新される。この例では、第1のデータ集合及び第2のデータ集合の注釈は異なり、したがって、第1のデータ集合は、第2のモデルを訓練するために直接使用されることができず、第2のデータ集合は、第1のモデルを訓練するために直接使用されることができないことに留意されたい。しかし、第1のモデル及び第2のモデルは同じ種類のデータを処理し、関連する問題を解決するので、訓練中に得られた洞察(例えば更新された重み)は、他方のモデルの重みを改善するために依然として使用され得る。これは、他の手法によるのであればモデルが訓練目的自体に対して使用することができない訓練データから、各モデルが効果的に訓練されること、又は洞察を得ることを可能にする。この手法によれば、モデルのうちの1つに対する訓練データの量が単独でそのモデルを訓練するのに不十分な場合でも、改善された予測が取得され得る。
第1のモデル402及び第2のモデル404を訓練した後に、それらは、ブロック414及び416において、それぞれ、ステントの位置を予測するために、及び、ステントが存在するかどうかを分類するために使用され得る。このような予測からのフィードバック(例えば、予測の精度に関するユーザーからのフィードバック)が、ブロック418及び420において、それぞれ、第1のモデル402及び第2のモデル404を更新(例えば、さらに訓練)するために使用される。
コンピュータ可読媒体を備えるコンピュータプログラム製品がさらに提供され、コンピュータ可読媒体が、コンピュータ可読媒体内において具現化されたコンピュータ可読コードを含み、コンピュータ可読コードが、適切なコンピュータ又はプロセッサによる実行時に、コンピュータ又はプロセッサが本明細書において説明されている1つ又は複数の方法を実施するようにされるように構成される。したがって、本開示が実施形態の実施をもたらすように適応された、特に媒体上の、又は媒体内のコンピュータプログラムといったコンピュータプログラムにも適用されることが理解される。本プログラムは、例えば部分的にコンパイルされた形態のソースコード、オブジェクトコード、コード中間ソース、及びオブジェクトコードの形態であり、又は、本明細書において説明されている実施形態による方法の実施態様における使用に適した任意の他の形態である。
このようなプログラムには多くの異なるアーキテクチャ設計があることがさらに理解される。例えば、方法又はシステムの機能を実施するプログラムコードは、1つ又は複数のサブルーチンに再分割される。これらのサブルーチン間で機能を分散する多くの異なる手法が当業者に明らかとなる。サブルーチンが1つの実行可能ファイルに一緒に記憶されて内蔵プログラムを形成する。このような実行可能ファイルは、例えば、プロセッサ命令及び/又はインタープリター命令(例えばJavaインタープリター命令)といったコンピュータ実行可能命令を含む。代替的に、サブルーチンのうちの1つ又は複数又はすべてが、少なくとも1つの外部ライブラリファイルに記憶され、及び、静的に、又は動的に、例えば実行時にメインプログラムにリンクされる。メインプログラムは、サブルーチンのうちの少なくとも1つに対する少なくとも1つのコールを含む。サブルーチンは、互いに対するファンクションコールをさらに含む。
コンピュータプログラム製品に関する一実施形態は、本明細書に記載されている方法のうちの少なくとも1つの各処理ステージに対応したコンピュータ実行可能命令を含む。これらの命令は、サブルーチンに再分割され、及び/又は静的に、又は動的にリンクされた1つ又は複数のファイルに記憶される。コンピュータプログラム製品に関する別の実施形態は、本明細書に記載されるシステム及び/又は製品のうちの少なくとも1つの各手段に対応したコンピュータ実行可能命令を含む。これらの命令は、サブルーチンに再分割され、及び/又は静的に、又は動的にリンクされた1つ又は複数のファイルに記憶される。
コンピュータプログラムの媒体は、プログラムを記録することが可能な任意の実体又はデバイスである。例えば、媒体として、例えばCD ROM又は半導体ROMといったROMなどのデータ記憶装置、又は、例えばハードディスクといった磁気記憶媒体が挙げられる。さらに、媒体は、電気又は光学ケーブルを介して、又は、無線又は他の手段により搬送される電気又は光信号などの伝送可能媒体である。プログラムがこのような信号において具現化される場合、媒体は、このようなケーブル、又は、他のデバイス又は手段により構成される。代替的に、媒体は、プログラムが中に組み込まれた集積回路であり、集積回路は、関連する方法を実施するように適応され、又は関連する方法の実施に使用される。
開示される実施形態の変形例は、図面、本開示、及び添付の特許請求の範囲の考察により当業者により理解及び実施され得る。特許請求の範囲において、「備える(含む、有する、もつ)」という用語は、他の要素もステップも排除せず、単数形は複数を排除しない。1つのプロセッサ又は他のユニットが、特許請求の範囲に記載されているいくつかの項目の機能を実現する。単に特定の手段が相互に異なる従属請求項に記載されているということが、利点を得るためにこれらの手段の組合せが使用不可能なことを示すわけではない。コンピュータプログラムは、他のハードウェアと一体的に、又は他のハードウェアの一部として供給される光記憶媒体又はソリッドステート媒体などの適切な媒体に記憶され/適切な媒体にのせて配布されるが、例えばインターネット又は他の有線又は無線電気通信システムを介して他の形態で配布される可能性もある。特許請求の範囲における参照符号は、いずれも特許請求の範囲を限定するように解釈されてはならない。

Claims (13)

  1. 第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとを訓練するためのシステムであって、命令セットを表す命令データを含むメモリ、及び前記メモリと通信し、前記命令セットを実行するためのプロセッサを備え、前記命令セットは、前記プロセッサにより実行されると、
    第1のモデルにおける対応する重みに基づいて第2のモデルにおける重みを設定することと、
    第1のデータ集合において前記第2のモデルを訓練することであって、前記訓練することが、前記第2のモデルにおける重みを更新することを有する、訓練することと、
    前記第2のモデルにおける更新された重みに基づいて前記第1のモデルにおける対応する重みを調節することとを前記プロセッサに行わせ
    前記第1のモデルにおける対応する重みを調節することを前記プロセッサに行わせることは、前記第1のモデルにおける対応する重みと前記第2のモデルにおける重みとの間の差の所定のパーセンテージ分、前記第1のモデルにおける対応する重みの値にインクリメントを適用することをプロセッサに行わせ、前記所定のパーセンテージは100%未満である、
    システム。
  2. 前記重みは、前記第2のモデルの入力層と前記第2のモデルの隠れ層とのうちの1つにおける重みを含む、請求項1に記載のシステム。
  3. 前記第1のモデルにおける対応する重みを調節することを前記プロセッサに行わせることは、前記第1のモデルの出力層における重みを任意値に設定することをプロセッサに行わせる、請求項1又は2に記載のシステム。
  4. 前記第1のモデルにおける対応する重みを調節することを前記プロセッサに行わせることは、前記第1のモデルの出力層における少なくとも1つの重みの値を同じ値に維持することを前記プロセッサに行わせる、請求項1からの何れか一項に記載のシステム。
  5. 前記第2のモデルにおける重みを設定することを前記プロセッサに行わせることは、前記第1のモデルの入力層と前記第1のモデルの隠れ層とのうちの1つからの重みの値を前記第2のモデルにおける対応する重みにコピーすることを前記プロセッサに行わせることを含む、請求項1からの何れか一項に記載のシステム。
  6. 前記第2のモデルにおける重みを設定することを前記プロセッサに行わせることは、前記第2のモデルの出力層における少なくとも1つの重みを任意値に設定することを前記プロセッサに行わせる、請求項1からの何れか一項に記載のシステム。
  7. 前記第1のモデルは、物体検出モデルと物体位置特定モデルとのうちの1つを含み、前記第2のモデルは、物体検出モデルと物体位置特定モデルとのうちの他方の1つを含む、請求項1からの何れか一項に記載のシステム。
  8. 前記第1のモデルは、1つの出力を生成するためのモデルと複数の出力を生成するためのモデルとのうちの1つを含み、前記第2のモデルは、1つの出力を生成するためのモデルと複数の出力を生成するためのモデルとのうちの他方の1つを含む、請求項1からの何れか一項に記載のシステム。
  9. 前記命令セットは、前記プロセッサにより実行されると、前記第1のモデルと前記第2のモデルとのうちの他方の1つのさらなる訓練に応答して、前記第1のモデルと前記第2のモデルとのうちの1つにおける重みを調節することを前記プロセッサにさらに行わせる、請求項1からの何れか一項に記載のシステム。
  10. 前記命令セットは、前記プロセッサにより実行されると、以下の基準、すなわち、
    前記第1のモデル及び/又は前記第2のモデルが閾値精度レベルに達すること、
    前記調節の大きさが閾値の大きさ未満に低下すること、
    前記第1のモデルにおける重みと、前記第1のモデルにおける重みに対応した前記第2のモデルにおける重みとが既定の閾値内において互いに向けて収束すること、及び、
    前記第1のモデルに関連した損失及び/又は前記第2のモデルに関連した損失が後続の調節間に閾値量未満分変化すること
    のうちの1つ又は複数が満たされるまで、重みを調節するステップを反復することをプロセッサに行わせる、請求項に記載のシステム。
  11. 第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとを訓練するためのシステムであって、命令セットを表す命令データを含むメモリ、及び前記メモリと通信し、前記命令セットを実行するためのプロセッサを備え、前記命令セットは、前記プロセッサにより実行されると、
    第1のモデルにおける対応する重みに基づいて第2のモデルにおける重みを設定することと、
    第1のデータ集合において前記第2のモデルを訓練することであって、前記訓練することが、前記第2のモデルにおける重みを更新することを有する、訓練することと、
    前記第2のモデルにおける更新された重みに基づいて前記第1のモデルにおける対応する重みを調節することとを前記プロセッサに行わせ、
    前記第1のモデルは、第2のデータ集合において訓練され、第1のデータ集合は、前記第2のデータ集合より少ないデータを含み、前記第2のデータ集合単独のサイズが、任意に始められた重みを使用して既定の精度まで前記第2のモデルを訓練するには不十分である
    ステム。
  12. 第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとを訓練するコンピュータ実施の方法であって、前記方法が、
    第1のモデルにおける対応する重みに基づいて第2のモデルにおける重みを設定するステップと、
    データ集合において前記第2のモデルを訓練するステップであって、前記第2のモデルにおける重みを更新することを有する、訓練するステップと、
    前記第2のモデルにおける更新された重みに基づいて前記第1のモデルにおける対応する重みを調節するステップとを有し、
    前記第2のモデルにおける更新された重みに基づいて前記第1のモデルにおける対応する重みを調節するステップは、前記第1のモデルにおける対応する重みと前記第2のモデルにおける重みとの間の差の所定のパーセンテージ分、前記第1のモデルにおける対応する重みの値にインクリメントを適用するステップを含み、前記所定のパーセンテージは100%未満である、
    方法。
  13. コンピュータ可読媒体内において具現化されたコンピュータ可読コードを含み、前記コンピュータ可読コードが、適切なコンピュータ又はプロセッサによる実行時に、前記コンピュータ又は前記プロセッサに請求項12に記載の方法を実施させる、コンピュータ可読媒体。
JP2020527753A 2017-11-20 2018-11-13 第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとの訓練 Active JP7325414B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762588542P 2017-11-20 2017-11-20
US62/588,542 2017-11-20
PCT/EP2018/080991 WO2019096754A1 (en) 2017-11-20 2018-11-13 Training first and second neural network models

Publications (3)

Publication Number Publication Date
JP2021503661A JP2021503661A (ja) 2021-02-12
JP2021503661A5 JP2021503661A5 (ja) 2021-12-23
JP7325414B2 true JP7325414B2 (ja) 2023-08-14

Family

ID=64308755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020527753A Active JP7325414B2 (ja) 2017-11-20 2018-11-13 第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとの訓練

Country Status (4)

Country Link
US (1) US11657265B2 (ja)
JP (1) JP7325414B2 (ja)
CN (1) CN111492382B (ja)
WO (1) WO2019096754A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11995533B1 (en) 2018-12-05 2024-05-28 Perceive Corporation Executing replicated neural network layers on inference circuit
CN111105031B (zh) * 2019-11-11 2023-10-17 北京地平线机器人技术研发有限公司 网络结构搜索方法和装置、存储介质、电子设备
US11443235B2 (en) 2019-11-14 2022-09-13 International Business Machines Corporation Identifying optimal weights to improve prediction accuracy in machine learning techniques
CN111353580B (zh) * 2020-02-03 2023-06-20 中国人民解放军国防科技大学 目标检测网络的训练方法、电子设备及存储介质
CN111539947B (zh) * 2020-04-30 2024-03-29 上海商汤智能科技有限公司 图像检测方法及相关模型的训练方法和相关装置、设备
US20210357739A1 (en) * 2020-05-14 2021-11-18 Micron Technology, Inc. Memory device to train neural networks
CN113705591A (zh) * 2020-05-20 2021-11-26 上海微创卜算子医疗科技有限公司 可读存储介质、支架规格识别方法及装置
US20210390414A1 (en) * 2020-06-10 2021-12-16 Nvidia Corporation Accelerated training for neural network models
CN111860840B (zh) * 2020-07-28 2023-10-17 上海联影医疗科技股份有限公司 深度学习模型训练方法、装置、计算机设备及存储介质
US20220207234A1 (en) * 2020-12-29 2022-06-30 International Business Machines Corporation Context Aware Personalization
CN113240117B (zh) * 2021-06-01 2022-11-18 大连理工大学 一种变保真度迁移学习模型建立方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160104056A1 (en) 2014-10-09 2016-04-14 Microsoft Technology Licensing, Llc Spatial pyramid pooling networks for image processing
JP2017004142A (ja) 2015-06-08 2017-01-05 株式会社Preferred Networks 学習装置ユニット
US20170278018A1 (en) 2013-10-08 2017-09-28 Google Inc. Methods and apparatus for reinforcement learning

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5195169A (en) * 1989-03-03 1993-03-16 Sharp Kabushiki Kaisha Control device for controlling learning of a neural network
JPH03288258A (ja) * 1990-04-04 1991-12-18 Takayama:Kk データ処理装置の学習方法
EP0482375A3 (en) * 1990-10-22 1993-12-01 Motorola Inc Digital processing element in an artificial neural network
JPH05197705A (ja) * 1991-07-09 1993-08-06 Fujitsu Ltd ニューラルネットワークの学習システム
JP2008250856A (ja) * 2007-03-30 2008-10-16 Sony Corp 学習装置、学習方法、及びプログラム
US9119573B2 (en) 2009-12-10 2015-09-01 Siemens Aktiengesellschaft Stent marker detection using a learning based classifier in medical imaging
US20120002855A1 (en) 2010-06-30 2012-01-05 Fujifilm Corporation Stent localization in 3d cardiac images
WO2013012898A2 (en) * 2011-07-19 2013-01-24 Causata Inc. Distributed scalable incrementally updated models in decisioning systems
CN104021390B (zh) * 2013-03-01 2018-01-02 佳能株式会社 模型生成装置、模式识别设备及其方法
US20150301510A1 (en) * 2014-04-22 2015-10-22 Siegmund Düll Controlling a Target System
US20150324690A1 (en) * 2014-05-08 2015-11-12 Microsoft Corporation Deep Learning Training System
US20150324686A1 (en) * 2014-05-12 2015-11-12 Qualcomm Incorporated Distributed model learning
RU2666631C2 (ru) * 2014-09-12 2018-09-11 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Обучение dnn-студента посредством распределения вывода
US20160140438A1 (en) * 2014-11-13 2016-05-19 Nec Laboratories America, Inc. Hyper-class Augmented and Regularized Deep Learning for Fine-grained Image Classification
US11423311B2 (en) * 2015-06-04 2022-08-23 Samsung Electronics Co., Ltd. Automatic tuning of artificial neural networks
US10878320B2 (en) 2015-07-22 2020-12-29 Qualcomm Incorporated Transfer learning in neural networks
US10679145B2 (en) * 2015-08-07 2020-06-09 Nec Corporation System and method for balancing computation with communication in parallel learning
KR102492318B1 (ko) * 2015-09-18 2023-01-26 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법
US20170132528A1 (en) 2015-11-06 2017-05-11 Microsoft Technology Licensing, Llc Joint model training
US10318848B2 (en) * 2015-12-15 2019-06-11 Qualcomm Incorporated Methods for object localization and image classification
KR102501838B1 (ko) * 2016-02-01 2023-02-23 삼성전자주식회사 심전도 신호를 이용한 인증 장치 및 방법
CN107256423A (zh) * 2017-05-05 2017-10-17 深圳市丰巨泰科电子有限公司 一种增广神经网架构及其训练方法、计算机可读存储介质
US10755199B2 (en) * 2017-05-30 2020-08-25 Adobe Inc. Introspection network for training neural networks
US11138724B2 (en) * 2017-06-01 2021-10-05 International Business Machines Corporation Neural network classification
JP6974712B2 (ja) * 2017-10-24 2021-12-01 富士通株式会社 探索方法、探索装置および探索プログラム
US10635978B2 (en) * 2017-10-26 2020-04-28 SparkCognition, Inc. Ensembling of neural network models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170278018A1 (en) 2013-10-08 2017-09-28 Google Inc. Methods and apparatus for reinforcement learning
US20160104056A1 (en) 2014-10-09 2016-04-14 Microsoft Technology Licensing, Llc Spatial pyramid pooling networks for image processing
JP2017004142A (ja) 2015-06-08 2017-01-05 株式会社Preferred Networks 学習装置ユニット

Also Published As

Publication number Publication date
CN111492382A (zh) 2020-08-04
US20190156205A1 (en) 2019-05-23
JP2021503661A (ja) 2021-02-12
CN111492382B (zh) 2024-05-07
US11657265B2 (en) 2023-05-23
WO2019096754A1 (en) 2019-05-23

Similar Documents

Publication Publication Date Title
JP7325414B2 (ja) 第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとの訓練
US11521064B2 (en) Training a neural network model
Jaafra et al. Reinforcement learning for neural architecture search: A review
JP7087079B2 (ja) 深層学習アプリケーションのための堅牢な勾配重み圧縮方式
CN109754078A (zh) 用于优化神经网络的方法
CN109313721A (zh) 训练机器学习模型
JP2017224027A (ja) データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム
CN114139714A (zh) 用于硬件感知的机器学习模型训练的方法和装置
US11568212B2 (en) Techniques for understanding how trained neural networks operate
CN114072809A (zh) 经由神经架构搜索的小且快速的视频处理网络
CN112819151A (zh) 用于识别图像的方法和设备以及训练方法
JP2022523207A (ja) ピラミッドレイヤのアーキテクチャを生成するためのシステムおよび方法
CN110991661A (zh) 用于生成模型的方法和装置
CN110689117A (zh) 基于神经网络的信息处理方法和装置
Hacker et al. GPU simulator of multilayer neural network based on multi-valued neurons
KR102601684B1 (ko) 힌트 기반의 머신러닝 모델을 통해 목적 데이터에 대한 어노테이션 정보를 제공하는 방법 및 시스템
US20220138573A1 (en) Methods and systems for training convolutional neural networks
Sunitha et al. Political optimizer-based automated machine learning for skin lesion data
Gharehchopogh et al. A novel approach for edge detection in images based on cellular learning automata
CN113516670A (zh) 一种反馈注意力增强的非模式图像分割方法及装置
Stadlhofer et al. Approach to provide interpretability in machine learning models for image classification
US20200193246A1 (en) Model-based image labeling and/or segmentation
JP2020107008A (ja) 画像処理システム、及び画像処理プログラム
CN110263861A (zh) 一种医疗图像分类方法、装置及存储介质
EP3624022A1 (en) Modifying a neural network

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230801

R150 Certificate of patent or registration of utility model

Ref document number: 7325414

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150