JP2023532960A - 交差接続を使用する継続学習 - Google Patents
交差接続を使用する継続学習 Download PDFInfo
- Publication number
- JP2023532960A JP2023532960A JP2023500057A JP2023500057A JP2023532960A JP 2023532960 A JP2023532960 A JP 2023532960A JP 2023500057 A JP2023500057 A JP 2023500057A JP 2023500057 A JP2023500057 A JP 2023500057A JP 2023532960 A JP2023532960 A JP 2023532960A
- Authority
- JP
- Japan
- Prior art keywords
- tasks
- neurons
- task
- connections
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002776 aggregation Effects 0.000 claims abstract description 35
- 238000004220 aggregation Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000004590 computer program Methods 0.000 claims abstract description 15
- 210000002569 neuron Anatomy 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 46
- 238000003860 storage Methods 0.000 claims description 40
- 230000037361 pathway Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 14
- 238000001994 activation Methods 0.000 claims description 14
- 238000013135 deep learning Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 13
- 238000007710 freezing Methods 0.000 claims description 7
- 230000008014 freezing Effects 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 238000012360 testing method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 241000282326 Felis catus Species 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000013136 deep learning model Methods 0.000 description 7
- 241000282472 Canis lupus familiaris Species 0.000 description 6
- 241001465754 Metazoa Species 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000153 supplemental effect Effects 0.000 description 3
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 241000282320 Panthera leo Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Stored Programmes (AREA)
- Advance Control (AREA)
Abstract
クラス増分シナリオにおける壊滅的忘却を防止するために別個のタスクについての交差接続を有する別個の経路を使用するための方法、コンピュータシステム、及びコンピュータプログラム製品。本発明の実施形態は、1つ又は複数のタスクを順次的に受信することを含んでよい。本発明の実施形態は、前記1つ又は複数のタスクに1つ又は複数の共有可能ブロックを適用することを含んでよい。本発明の実施形態は、前記1つ又は複数のタスクのための1つ又は複数の別個の経路を学習することを含んでよい。本発明の実施形態は、前記1つ又は複数のタスク間の1つ又は複数の交差接続を追加することを含んでよい。本発明の実施形態は、集約ブロックを追加して、前記1つ又は複数のタスクの各々のタスクの前記別個の経路からの1つ又は複数の出力を収集することを含んでよい。本発明の実施形態は、予測を提供することを含んでよい。
Description
本発明は、概して、コンピューティングの分野に関し、より詳細には、機械学習に関する。深層学習モデルは、多くの領域において使用されており、モデル挙動を理解することに関してはブラックボックスとみなされ得る。様々なトレーニングモデルが、データを処理するとともに、異なる正確性を有する異なる結果を提供することができる。明瞭な結果及び正確な分類を生成することは、様々な領域及び産業において使用されるべき精緻化されかつ公平な出力データを提供することによって機械学習の分野を進歩させる。
本発明の一実施形態は、クラス増分シナリオにおける壊滅的忘却(catastrophic forgetting)を防止するために別個のタスクについての交差接続を有する別個の経路を使用するための方法、コンピュータシステム、及びコンピュータプログラム製品を含んでよい。本発明の実施形態は、1つ又は複数のタスクを順次的に受信することを含んでよい。本発明の実施形態は、前記1つ又は複数のタスクに1つ又は複数の共有可能ブロックを適用することを含んでよい。本発明の実施形態は、前記1つ又は複数のタスクのための1つ又は複数の別個の経路を学習することを含んでよい。本発明の実施形態は、前記1つ又は複数のタスク間の1つ又は複数の交差接続を追加することを含んでよい。本発明の実施形態は、集約ブロックを追加して、前記1つ又は複数のタスクの各々のタスクの前記別個の経路からの1つ又は複数の出力を収集することを含んでよい。本発明の実施形態は、予測を提供することを含んでよい。
本発明のこれらの目的、特徴及び利点並びに他の目的、特徴及び利点は、添付図面と併せて読まれることになる本発明の例示的な実施形態の以下の詳細な説明から明らかとなる。図示は当業者が詳細な説明と併せて本発明を理解することを容易にする際に明確にするためのものであるので、図面の様々な特徴は縮尺どおりではない。
少なくとも1つの実施形態に係るネットワーク接続コンピュータ環境を示す図である。
本発明の一実施形態に係る、タスク指向経路を通してタスクを順次的に学習するブロック図例である。
本発明の一実施形態に係る、クラス増分シナリオにおける壊滅的忘却を防止するために別個のタスクについての交差接続を有する一意の経路を学習するために継続学習モデルを使用するプロセスを示すフローチャートである。
本発明の一実施形態に係る、図1において示されたコンピュータ及びサーバの内部コンポーネント及び外部コンポーネントを示すブロック図である。
本発明の一実施形態に係る、図1において示されたコンピュータシステムを含むクラウドコンピューティング環境を示す機能ブロック図である。
本発明の一実施形態に係る、図5のクラウドコンピューティング環境によって提供される抽象化モデル層を示す図である。
ここで、本発明の実施形態が添付の図を参照して詳細に説明される。
添付図面を参照する以下の説明は、特許請求の範囲及びそれらの均等物によって定義される本発明の例示的な実施形態の包括的な理解を支援するために提供される。当該説明は、その理解を支援するための様々な具体的な詳細を含むが、これらは単なる例示的なものとしてみなされるべきである。したがって、当業者であれば、本明細書において説明される実施形態の様々な変更及び修正が、本発明の範囲及び趣旨から逸脱することなく行われ得ることを認識するであろう。加えて、明確かつ簡潔にするために、周知の機能及び構造の説明は省略され得る。
以下の説明及び特許請求の範囲において使用される用語及び文言は書誌的意味に限定されることはなく、単に本発明の明確かつ一貫した理解を可能にするために使用されている。したがって、本発明の例示的な実施形態の以下の説明が、例示のみを目的として提供されるものであり、添付の特許請求の範囲及びその均等物によって定義されるような本発明の限定を目的として提供されるものではないことが、当業者に明らかなはずである。
文脈により明らかにそうではないことが示されない限り、単数形「a」、「an」、及び「the」は複数の指示対象を含むことを理解されたい。それゆえ、例えば、「コンポーネント表面」に対する言及は、文脈により明らかにそうではないことが示されない限り、そのような表面のうちの1つ又は複数に対する言及を含む。
本発明の実施形態は、概して、機械学習に関する。より詳細には、本発明の実施形態は、クラス増分シナリオにおける壊滅的忘却を防止するために別個のタスクについての交差接続を有する一意の経路を学習するために継続学習モデルを使用するための方法、コンピュータプログラム、及びコンピュータシステムを提供する。
深層学習は、トレーニングデータに基づいて情報を理解及び分類し得る機械学習の1つのタイプである。トレーニングデータは、構造化データ又は非構造化データであり得る。構造化データは、スプレッドシート、リレーショナルデータベース又は固定フィールドに記憶されているデータ等の、高度に編成されているデータを含み得る。非構造化データは、ポータブルドキュメントフォーマット(PDF)、画像、プレゼンテーション、ウェブページ、ビデオコンテンツ、オーディオコンテンツ、電子メール、ワードプロセッシングドキュメント又はマルチメディアコンテンツ等の、編成されておらず、かつ従来的ではない内部構造を有するデータを含み得る。また、深層学習は、階層的学習(hierarchical learning)又は深層構造化学習(deep structured learning)に関連し、又はこれらのものとして知られている場合がある。
深層学習は、入力をマッピングし、データを分類し、データセットを解釈し、ニューラルネットワークの1つ又は複数の層のためのデータの出力を提供し得る。ニューラルネットワークの各層は、ノードとして表され得る。ノードは、ニューロン又は人工ニューロンとしても知られている場合がある。深層学習は、ラベル付けされる場合もされない場合もあるデータにおける類似性を検出し得る。例えば、深層学習は、教師あり学習、教師なし学習又は半教師あり学習として動作し得る。教師あり学習は、ラベル付きデータセットを使用して、MLモデルをトレーニングし得る。教師なし学習は、全てラベルなしのデータを使用してMLモデルをトレーニングし得る。半教師あり学習は、ラベル付きデータセット及びラベルなしデータセットの両方を使用して、MLモデルをトレーニングし得る。深層学習モデルは、例えば、学習されている領域固有の分類体系に関するノード及びエッジとして生成され得るグラフ出力を提供し得る。
ニューラルネットワークは、深層学習の1つのコンポーネントであり得る。ニューラルネットワークは、深層ネットワーク又は深層ニューラルネットワークに関連し、又はこれらのものとして知られている場合がある。ニューラルネットワークは、非構造化データ等の未加工データを解釈、ラベル付け及び分類し得る。深層ニューラルネットワークにおけるニューロンは、入力データを組み合わせ、ニューラルネットワークがデータを分類するために学習している対象の有意レベルに基づいて、入力データに重みを割り当て得る。すなわち、ニューロンに割り当てられる重みが高いほど、そのニューロンは重要になる。さらに、ニューラルネットワークが深層であるほど、入力データが通過するニューロン又はノード層が多くなる。ニューロン、ノード及びフィルタは、交換可能な用語とみなされ得る。ニューロンは、入力データを受信し、入力重みを生成して当該入力重みをデータに関連付け、その後、計算を介して、データが分類される前にネットワークにおいてデータが更に継続又は進行されるべきであるか否かを判断するロケーションを表し得る。ニューロンの各層は、前の出力層に基づいて、データをトレーニングし得る。
深層学習モデルは、様々な領域にわたる大量のデータを収集及び分析し得るとともに、現実世界の問題を解決するのに使用され得る。しかしながら、深層学習モデルは、例えば、壊滅的忘却等の制限及び欠点を有する。壊滅的忘却は、突然の知識の喪失、又はさらには古い知識に対する完全な上書きを指す。壊滅的忘却は、古い知識が保存されないときに生じる現象である。古い知識は、以前のタスクの知識に関連し得る。この古い知識は、新たなタスクに関する情報が学習されているときに喪失され得る。結果として、壊滅的忘却は、継続学習における問題である。
深層学習モデルにおける壊滅的忘却を回避するための1つの解決策は、全てのタスクの全てのトレーニングデータを記憶し、それらを、恣意的な順序において新たなストリーミングデータとともに再生することである。しかしながら、この手法は、膨大な量のデータが人工システムのメモリバジェットの制約内で分析されなければならないことに起因して、現実世界において問題である。
壊滅的忘却の問題に対する他の解決策としては、タスク増分モデル及びクラス増分モデルという2つのモデルを使用することが挙げられ得る。タスク増分モデル及びクラス増分モデルの両方が、継続学習の領域において現実世界のシナリオを模倣し得る。これらのモデルが機能するためには、それらは、以前のタスクを解決する方法を忘却することなく、多数の独立したタスクを増分的に学習する必要があり得る。タスク増分モデルが機能するためには、それは、異なるタスク分類器、又は複数のヘッドを有する1つの分類器の使用を必要とし得る。したがって、新たなテストサンプルが参照ステージ中に導入される場合、予測を行うためのタスク分類器を選択するか又は1つのヘッドを選択するかのいずれかのために、タスク増分モデルのために入力データのタスクラベルも必要とされ得る。
クラス増分モデルは機能するためにタスクラベルを必要としないので、クラス増分モデルはタスク増分モデルとは異なる。しかしながら、タスクラベルがなくても、クラス増分モデルの使用は問題となり得る。クラス増分モデルを使用する現行の方法は、タスク間の接続を考慮に入れない。例えば、これらの方法は、以前に学習されたタスクと、現在学習されているタスクとの間の接続を考慮に入れない場合がある。したがって、クラス増分モデルを利用して、以前のタスクを解決する方法を忘却することなく、多数の独立したタスクを増分的に学習することは、難題を課す。
したがって、とりわけ、クラス増分モデルにおいて別個のタスクについての交差接続を有する一意の経路を学習することによって、制限された計算及びメモリコストを用いて非定常の分散ストリーミングデータに対する壊滅的忘却を防止することが可能であり得る現実的な継続学習モデルを生成することが有利であり得る。個々のタスクを別個に扱うこと、又は以前のタスクを新たなタスクに対する教師モデル又は特徴抽出器として使用することのいずれかを行うことによって、タスク間の接続を考慮することも有利であり得る。
以下の説明される例示的な実施形態は、深層学習のためのシステム、方法及びプログラム製品を提供する。したがって、本発明の実施形態は、以前のタスクを新たなタスクに対する教師モデル又は特徴抽出器として利用することによって、深層学習の技術分野を改善する能力を有する。さらに、本発明の実施形態は、新たなタスクからの補足情報を共有して、以前のタスクの壊滅的忘却を軽減することを支援することを提案する。
本発明の実施形態は、Disjointing and Sharing Past Net(DSPN)モデルを提供する。一実施形態では、DSPNモデルは、3つのコンポーネントを含んでよい。コンポーネントは、ブロックとも称され得る。DSPNモデルは、タスクをテストフェーズ中にラベルなしにし得る集約ブロックを含んでよい。また、集約ブロックは、異なるタスク間での情報共有に役立ち得る。DSPNは、別個のタスク間の交差接続を追加し得るコンポーネントを含んでよい。DSPNモデルは、以前のタスクと新たなタスクとの間の交差接続を利用して、新たなタスクを学習しながら以前の知識をより良好に保存し得る。DSPNモデルは、壊滅的忘却を防止し得るタスク指向経路コンポーネントを含んでよい。DSPNモデルは、タスクごとの別個の経路を学習する方法を提供し得る。タスクごとの別個の経路は、その特定のタスクに一意であり得る。また、DSPNモデルは、下位層において現在のタスクと以前のタスクの別個の経路を共有し、上位層においてタスクごとの経路を多様化し得る。
深層ニューラルネットワークは、1つ又は複数のブロックを含んでよい。各ブロックは、1つ又は複数のネットワーク層を含んでよい。典型的には、共有可能ブロックは、異なるタスク間で共有される深層ニューラルネットワークの最下層であってよい。これは、深層ニューラルネットワークアーキテクチャにおいて、最下層が全体特徴を抽出し得る一方、上位層がタスク固有特徴を抽出するので、可能であり得る。したがって、最下層は、以前の経路から再使用されてよい。一実施形態では、DSPNモデルは、トレーニングステージ及びテストステージの両方の間に以前のタスクからの最下層を再使用してよい。一実施形態では、DSPNモデルの最下層は、共有可能ブロックと称され得る。
一実施形態によれば、DSPNモデルは、タスクごとに別個の経路を作成してよい。各タスクは、1つ又は複数のサンプルを含んでよい。トレーニングステージ中、DSPNモデルは、受信されたタスクによって順次的にトレーニングされてよい。また、DSPNモデルは、各タスクにおける全てのサンプルについてのラベルを受信してよい。一実施形態では、タスクは、複数のサンプルを含んでよい。代替的な実施形態では、タスクは、1つのサンプルを含んでよい。例えば、DSPNモデルは、タスク1を受信してよい。DSPNモデルは、写真内で現れる動物を正しく分類するタスクを受けてよい。タスク1は、例えば、犬及び猫のサンプル等の、2つのトレーニングサンプルを有してよい。動物の写真とともに、DSPNモデルは、犬ラベル及び猫ラベルという2つのラベルも受信してよい。別の例では、タスク1は、1つのサンプルを含んでよい。したがって、写真とともに、DSPNモデルは、写真に関連付けられたラベルを受信してよい。両方の例において、タスク1に対してトレーニングする場合、DSPNモデルは、タスク1のための別個の経路を作成してよい。例えばタスク2等の後続のタスクがDSPNモデルに入力された場合、DSPNモデルは、タスク2のための別個の経路を作成してよい。タスクの別個の経路のために、別個の経路上の各ニューロンは、異なる関連付けられた重みを有してよい。
後続のタスクごとに、DSPNモデルは、以前のタスクの以前に学習された経路を凍結し、所与のタスクの経路上に存在するニューロンのみを更新してよい。例えば、DSPNモデルがタスク2のための別個の経路を作成した場合、タスク1の別個の経路は凍結される。一実施形態では、以前のタスクの経路を凍結するために、DSPNモデルは、以前のタスクの経路の各ニューロンにおけるパラメータをトレーニング不可能としてセットしてよい。したがって、トレーニングステージ中、DSPNモデルが次のタスクを受信した場合、DSPNモデルは、当該次のタスクのための別個の経路を作成するが、以前の経路のニューロン重みを変更しない。さらに、DSPNモデルは、以前の経路のニューロン及びそれらの関連付けられたパラメータを変更しない。これは、別個の経路上の各ニューロンがそのニューロンに関連付けられた一意の重みを有することを仮定することによって達成され得る。さらに、トレーニングステージ中、DSPNモデルは、トレーニング可能としてフラグ付けされているニューロンをトレーニングしてよいが、トレーニング不可能としてフラグ付けされているニューロンをトレーニングしなくてよい。それゆえ、DSPNモデルがトレーニング不可能としてフラグ付けされているニューロンを発見した場合、DSPNモデルは、そのニューロンが凍結されているので、そのニューロンの重みを変更しなくてよい。例えば、トレーニングステージ中、DSPNモデルは、タスク1を受信し、タスク1のための別個の経路を作成してよい。DSPNモデルは、その経路上のニューロンを、それらのニューロン重みをトレーニング不可能として設定することによって、凍結してよい。DSPNモデルがタスク2を受信した場合、DSPNモデルは、タスク2のための別個の経路を作成するが、タスク1の別個の経路のニューロンがトレーニング不可能としてフラグ付けされているので、これらのニューロンの重みを変更しない。タスク1の別個の経路上のニューロンは、それらの重みが固定されているのでトレーニングされない。
タスクごとの別個の経路は、複数のタスクにわたる知識保存も支援し得る。例えば、タスク1は、画像が猫であるのか又は犬であるのかを区別するための分類タスクを含んでよい。タスク2は、画像がりんごであるのか又はオレンジであるのかを区別するための分類タスクを含んでよい。タスク1のためのトレーニング画像は動物を示し、かつ第2のタスクのためのトレーニング画像は果物を示すので、タスク1及びタスク2のための画像は異なる。タスク1の別個の経路が凍結されていない場合、DSPNモデルがタスク2に対してトレーニングするとき、タスク2に対するトレーニングは、タスク1に対する予測に対して影響を有し得る。しかしながら、タスク1の別個の経路を凍結することによって、タスク1の別個の経路は、タスク2を予測するのに使用され得る。タスク1の経路は、タスク1をタスク2から区別するのに使用され得る。
一実施形態では、DSPNモデルは、タスク間の交差接続を追加することを可能にし得る。交差接続は、ある層から別の層への2つ又はそれよりも多くのタスクの間の接続を指してよい。交差接続は、順方向接続及び逆方向接続として類別され得る。順方向接続は、現在のタスク及び新たなタスクが以前のタスクの知識に基づいてより効率的に学習するのを支援し得る。順方向接続は、以前のタスクから現在のタスク及び新たなタスクに確立され得る。逆方向接続は、以前のタスクが、現在のタスク及び新たなタスクからの補足情報を利用することによってそれらの知識を保存するのを支援し得る。逆方向接続は、現在のタスク及び新たなタスクから以前のタスクに確立され得る。
以前のタスクと現在又は新たなタスクとの間の交差接続を利用することにより、異なるタスク間での補足情報共有が促され得る。これにより、DSPNモデルが、新たなタスクを学習しながら以前の知識をより良好に保存することが可能になり得る。例えば、タスク1は、犬と猫との間の分類であってよい。タスク2は、虎とライオンとの間の分類であってよい。DSPNモデルがタスク1に対してトレーニングする場合、DSPNモデルは、猫及び犬の特徴に関する情報を取得し、これらの特徴を区別する。DSPNモデルがタスク2に対してトレーニングする場合、タスク1からの情報は、DSPNモデルがタスク2を分類するのを支援し得る。具体的には、DSPNモデルは、例えば、ライオンを分類するのに使用され得る猫に関して学習された顔の特徴等の、当該DSPNモデルがタスク1から学習した特徴のうちの一部を再使用してよい。DSPNモデルは、タスク1から学習された情報、及びその経路を直接採用して、タスク2をトレーニングしてよい。
別の例では、タスク1及びタスク2は、類似ではない。すなわち、タスク1は、画像が猫であるのか又は犬であるのかを区別するための分類タスクを含んでよい。タスク2は、画像がりんごであるのか又はオレンジであるのかを区別するための分類タスクを含んでよい。DSPNモデルがタスク2に対してトレーニングする場合、DSPNモデルは、当該DSPNモデルがタスク1に対するトレーニングから得た情報を利用してよい。したがって、DSPNモデルは、タスク1とタスク2との間の交差接続を利用して、タスク2をタスク1から区別してよい。
タスク間の交差接続を利用することに加えて、集約ブロックが、DSPNモデルに追加されてよい。集約ブロックは、例えば、以前のタスク及び現在のタスク等の異なるタスクからの全ての情報を集約してよい。例えば、全ての経路が、トレーニングステージ及びテストステージ中に集約ブロックを通過してよい。トレーニングステージ中、DSPNモデルは、タスクを、タスク内のサンプルごとのそれらの対応するラベルとともに、受信してよい。タスクごとに、DSPNモデルは、その別個の経路を学習してよい。集約ブロックは、各タスクの経路から出力を収集してよい。これらの出力は、テスト及びDSPNモデルの後続の使用中に使用されてよい。これらの出力は、後続のタスク間で共有されてよい。結果として、テストステージ中、DSPNモデルは、追加のタスクラベル情報を必要としない。
一実施形態では、集約ブロックは、ネットワークの最終層の前に追加されてよい。集約ブロックを利用することにより、DSPNモデルが、異なるタスクからの情報をより良好に集約することが可能になるとともに、ネットワークが、入力としてタスクラベルを必要とすることなくクラスラベルを直接予測することが可能になり得る。
図1を参照すると、一実施形態に係る例示的なネットワーク接続コンピュータ環境100が示されている。ネットワーク接続コンピュータ環境100は、プロセッサ104と、ソフトウェアプログラム108を実行することが可能なデータストレージデバイス106と、継続学習プログラム110aとを有するコンピュータ102を備えてよい。ネットワーク接続コンピュータ環境100は、データベース114及び通信ネットワーク116とインタラクトし得る継続学習プログラム110bを実行することが可能なサーバ112も備えてよい。ネットワーク接続コンピュータ環境100は、複数のコンピュータ102及びサーバ112を備えてよく、これらのうちの1つのみが示されている。通信ネットワーク116は、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、電気通信ネットワーク、無線ネットワーク、公衆交換ネットワーク、若しくは、衛星ネットワーク、又はその組み合わせ等の様々なタイプの通信ネットワークを含んでよい。図1は、1つの実装の例示のみを提供し、異なる実施形態が実装され得る環境に関していかなる制限も示唆しないことが理解されるべきである。設計及び実装の要件に基づいて、示されている環境に対する多くの修正が行われてよい。
クライアントコンピュータ102は、通信ネットワーク116を介してサーバコンピュータ112と通信してよい。通信ネットワーク116は、有線、無線通信リンク、又は光ファイバケーブル等の接続を含んでよい。図4を参照して論述されるように、サーバコンピュータ112は、それぞれ内部コンポーネント902a及び外部コンポーネント904aを有してよく、クライアントコンピュータ102は、それぞれ内部コンポーネント902b及び外部コンポーネント904bを有してよい。また、サーバコンピュータ112は、ソフトウェアアズアサービス(SaaS:Software as a Service)、アナリティクスアズアサービス(AaaS:Analytics as a Service)、プラットフォームアズアサービス(PaaS:Platform as a Service)、ブロックチェーンアズアサービス(BaaS:Blockchain as a Service)又はインフラストラクチャアズアサービス(IaaS:Infrastructure as a Service)等のクラウドコンピューティングサービスモデルにおいて動作してよい。また、サーバ112は、プライベートクラウド、コミュニティクラウド、パブリッククラウド、又はハイブリッドクラウド等のクラウドコンピューティング展開モデルにおいて配置されてよい。クライアントコンピュータ102は、例えば、モバイルデバイス、電話、携帯情報端末、ネットブック、ラップトップコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、又はプログラムの実行、ネットワークへのアクセス、及びデータベース114へのアクセスが可能な任意のタイプのコンピューティングデバイスであってよい。本実施形態の様々な実装によれば、継続学習プログラム110a、110bは、限定されないが、コンピュータ/モバイルデバイス102、ネットワーク接続サーバ112、又はクラウドストレージサービス等の様々なストレージデバイスにおいて埋め込まれ得るデータベース114とインタラクトしてよい。
本実施形態によれば、クライアントコンピュータ102又はサーバコンピュータ112を使用するユーザは、(それぞれ)継続学習プログラム110a、110bを使用して、クラス増分シナリオにおける別個のタスクについての交差接続を有する一意の経路を学習し得るDSPNモデルを構築してよい。深層学習法は、図2~図3に関して以下でより詳細に説明される。
図2を参照すると、一実施形態に係るトレーニング環境200のブロック図例が示されている。一実施形態では、継続学習プログラム110a、110bは、DSPNモデルを利用して、タスク指向経路を通してタスクを順次的に学習してよい。継続学習プログラム110a、110bは、多くのタスク202a~202nを学習してよい。タスク202a~202nは、コンピュータビジョン、スピーチ認識、機械翻訳、ソーシャルネットワークフィルタリング、ボードゲーム及びビデオゲームのプレー、又は医学的診断を含んでよいが、これらに限定されない。示されているように、各タスク202a~202nは、タスク202a~202nがテストステージ及び推論ステージ中に通過するそれ自体の経路を有してよい。
DSPNモデルのトレーニング環境200は、複数の層204a~204nを有してよい。各層204a~204nは、複数のニューロン又はノードを有してよい。層204a~204nは、畳み込み、プーリング、Relu、ライナ又は全結合等の様々なタイプの層であってよい。層204a~204nは、最下層及び上位層とも称され得る。例えば、層204a、204bは、最下層と称され得る一方、層204c~204nは、上位層と称され得る。最下層は、全体タスク特徴を抽出し得る一方、上位層は、タスク固有特徴を抽出し得る。したがって、最下層は、共有可能ブロックとも称され得る。なぜならば、それらは、新たなタスクをテスト又は分析するときに、以前のタスク及びそれらの生成された経路から再使用され得るためである。
DSPNモデルのトレーニング環境200は、集約ブロック206も有してよい。集約ブロック206は、全ての経路の情報を集約してよい。集約ブロック206は、様々なタスク202a~202n間での情報共有に役立ち得る。
図2において示されているように、DSPNモデルのトレーニング環境200はまた、別のタスクに進む前に以前に実行されたタスク202a~202nの接続を凍結してよい。例えば、継続学習プログラム110a、110bは、DSPNモデルを利用して、複数のタスクを学習してよい。タスク1から開始すると、トレーニングステージ中、タスク1の経路が指定されてよく、経路に関連付けられたパラメータが決定されてよい。第2のタスクであるタスク2にスイッチングすると、DSPNモデルは、タスク1のための別個の経路のパラメータを凍結し、次に、タスク2のための新たな経路を作成してよい。DSPNモデルは、下位層においてタスク1の経路を凍結しないことが理解されるべきである。すなわち、共有可能ブロックは凍結されない。むしろ、共有可能ブロックは、トレーニングステージ及びテストステージの両方の間に後続のタスクによって使用される。
また、DSPNモデルは、古いタスクと新たなタスクとの間の順方向接続及び逆方向接続を可能にしてよい。例えば、DSPNモデルがタスク1のための経路を作成すると、DSPNモデルは、次に、タスク2に進んでよい。最初に、タスク1の最下層は、タスク2と共有されてよい。上位層において、タスク2がタスク1に基づいてより効率的に学習するのを支援するために順方向接続がタスク1とタスク2との間に追加されてよい。加えて、タスク1がタスク2からの補足情報を利用することによって知識を保存するのを支援するために逆方向接続がタスク2からタスク1に追加されてよい。
ここで図3を参照すると、少なくとも1つの実施形態に係る動作フローチャート300が示されている。動作フローチャート300は、例示的なDSPNモデルのトレーニングを示している。DSPNモデルは、深層ニューラルネットワークにおける壊滅的忘却を防止するために継続学習プログラム110a、110bによって使用されてよい。
上記で説明されたように、クラス増分学習は、ストリーミングデータから順次的に新たなタスクを学習し続けることを目的とする。各タスクは、単一のクラス又は異なるカテゴリのアセットを含んでよい。以前のタスクの性能を保存しながら新たな知識を継続的に学習することは、クラス増分学習の重要な目的である。この目標を達成するために、本発明の実施形態は、異なるタスクのための別個の経路を作成し得るDSPNモデルを提案する。タスクごとの別個の経路は、複数のタスクにわたって知識を保存することを支援してよい。一実施形態では、DSPNモデルは、集約ブロック、及びタスク間の交差接続を利用して、以前のタスクの性能を保存してもよい。
動作302において、入力が受信される。入力は、タスク202a~202nの形式であってよい。入力は、構造化データ及び非構造化データの両方のトレーニングデータを含んでもよい。例えば、データは、1つ又は複数のデータベース上に記憶された画像及びドキュメントを含んでよい。パブリックデータベースが使用されてよいとともに、プライベートデータベースが適切なアクセスで使用されてよい。例えば、トレーニングデータサンプルは、モデルをトレーニングするためにパブリックデータベースから取得された様々な動物種を含んでよい。プライベートデータベース例は、医学的画像又は医学的診断に関してモデルをトレーニングするために、病院レポジトリから使用される画像及びドキュメントを含んでよい。別のプライベートデータベース例は、金融、法律、農業、自動車又は行政等の他の産業からの画像及びドキュメントを含んでよい。
動作304において、共有可能ブロックが適用される。深層ニューラルネットワークアーキテクチャにおいて、最下層が全体特徴を抽出し得る一方、上位層がタスク固有特徴を抽出し得る。したがって、最下層は、全てのタスク間で共有されてよい。一実施形態では、DSPNは、共有可能ブロックと称され得る最下層を有してよい。例えば、一実施形態では、最初のタスクが経路P1を用いてトレーニングすることを終了した後、後続のタスクの全てが経路P1のs個のブロックを再使用してよい。
ここで、Pkは、タスクkの経路を指し、Bは、ブロックを指す。
一実施形態では、例えば、2つの共有可能ブロック等の、異なるタスク間で共有される1つ又は複数の共有可能ブロックが存在してよい。代替的な実施形態では、共有可能ブロックの数は、3又はそれよりも多い数であってよい。異なるタスク間で共有可能ブロックを利用することにより、最初のs個のブロックのためのパラメータの数が大幅に削減され得る。
動作306において、タスクごとの別個の経路が学習される。タスクごとの別個の経路を学習することは、複数のタスクにわたって知識の保存において役立ち得、それゆえ、壊滅的忘却が防止される。これは、互いに素な経路(disjoint path)を利用することによって達成されてよい。互いに素な経路は、独立である区別された経路であってよく、互いの間のいずれの接続も有しない。例えば、DSPNモデルがK個のタスクを順次的に学習し得ることを仮定する。トレーニングデータは、以下のように表されてよく、
X={X1,X2,...,XK}、ここで、Xkは、第kのタスクのためのトレーニングデータセットである。
X={X1,X2,...,XK}、ここで、Xkは、第kのタスクのためのトレーニングデータセットである。
一実施形態では、タスクkは、Uk個の異なるクラスを含んでよい。Ukは、異なるタスク間で同じであってもよいし、異なっていてもよい。最初のタスクをトレーニングするとき、DSPNモデルは、m個のブロックからなる単一の経路P1
から開始してよく、各ブロック
は、残差ブロック又は多層パーセプトロン層であってよい。残差ブロックは、DSPNモデルにおいて使用され得る既存の事前トレーニングされた深層学習モジュールの部分モジュールを指してよい。多層パーセプトロン層は、同様にDSPNモデルにおいて使用され得るフィードフォワード人工ニューラルネットワークであってよい。
トレーニングステージ中、隠れ活性化
が順次的に得られてよい。
ここで、
は、X1からサンプリングされた入力データである。
第2のタスクにスイッチングすると、経路P1のパラメータは凍結されてよく、m個のブロックを有する新たな経路P2がデータX2のために作成されてよい。これは、全K個のタスクに一般化されてよい。
隠れ活性化は、各タスクの出力であってよい。例えば、トレーニング中、DSPNモデルは、タスク1を分類するタスクを受けてよい。DSPNモデルは、タスク1のための別個の経路を学習し、出力を生成する。タスク1のための別個の経路の出力は、隠れ活性化である。全てのタスクの隠れ活性化は、集約ブロックにおいて収集されてよい。さらに、DSPNモデルがトレーニングするタスクが多くなるほど、生成される隠れ活性化が多くなる。
動作308において、別個のタスク間の交差接続が追加される。交差接続はタスクの数に対して二次的であるので、交差接続は、パラメータの総数に影響を与え得る。交差接続は、順方向接続及び逆方向接続を含んでよい。順方向接続は、以前の経路から現在の経路への接続を含んでよい。これにより、現在の経路が、以前の経路からの重み付けされた事前知識を利用する方法を学習して、現在の経路のトレーニングを改善及び加速することが可能になり得る。逆方向接続は、現在の経路から以前の経路への接続を含んでよい。逆方向接続を適用することによって、以前のタスクの性能は、現在のタスクの経路から以前のタスクの経路への知識転移によって高まり得る。
一実施形態では、経路間の中間順方向交差接続が適用されてよい。具体的には、タスクkにおいて、順方向接続を用いると、
である。したがって、隠れ活性化
は、以下によって更新される。
ここで、
は、以前の経路における隠れ活性化であり、
は、第jのタスクの事前知識を現在のタスクkに組み込むトレーニング可能ブロックである。
一実施形態では、経路間の中間逆方向交差接続も適用されてよい。具体的には、逆方向接続の支援を得ると、
であり、現在のタスクの情報は、以下によって以前のタスクj<kを更新するために利用されてよい。
ここで、所与のタスクkについて、
は、t=kのときにのみトレーニング可能である。
一実施形態では、逆方向接続及び順方向接続の1つのセットが許容される。例えば、上記で言及されたように、DSPNモデルが第2のタスクにスイッチングすると、別個の経路P1のパラメータは凍結されてよく、m個のブロックを有する新たな経路P2がデータX2のために作成されてよい。さらに、タスク1からタスク2への順方向接続が適用されてよい。加えて、タスク2からタスク1への逆方向接続も適用されてよい。タスク1からタスク2への順方向接続を適用することによって、タスク2の経路kは、重み付けされた事前知識を利用して、その経路のトレーニングを改善してよい。加えて、タスク2からタスク1への逆方向接続が適用されると、タスク2の知識は、タスク2からタスク1に流れてよく、それゆえ、タスク1の性能が高まる。代替的な実施形態では、複数の逆方向接続及び順方向接続が許容される。
動作310において、集約ブロック206が追加される。一実施形態では、集約ブロック206は、異なるタスクからの情報をより良好に集約するために、ネットワークの最終層の前に追加されてよい。集約ブロック206は、全ての経路の情報を組み込んでよい。集約ブロック206は、全ての経路が、トレーニングステージ及びテストステージの両方の間に集約ブロック206を通過することを可能にしてよい。
集約ブロック206は、トレーニングステージ全体の間に継続的に更新してよく、それゆえ、情報が様々なタスク間で共有されることが可能になる。従来の深層学習モデルにおいて、テストステージ中、画像が、タスクidとともに提供される。モデルがタスクidを受信すると、モデルは、それを読み取り、提供された画像が特定のタスク、例えばタスク1に属すると判断する。モデルは、次に、提供されたタスクid及びそのタスクidに関連付けられた情報に基づいて、画像が何を表しているのかについての推論を行ってよい。
本発明の実施形態は、タスクidの代わりに集約ブロック206を利用し得るDSPNモデルを提供する。したがって、DSPNモデルは、タスクidを受信しない。むしろ、集約ブロック206は、DSPNモデルに入力された全てのタスクからの全ての出力を集約する。出力のこの集約は、DSPNモデルが、全ての以前のタスク経路の出力又は知識を有することを可能にする。したがって、DSPNモデルが新たなタスクを受信すると、DSPNモデルは、集約ブロック206において、各以前の経路からの出力をロードして、その予測を行ってよい。DSPNモデルがタスクidを有しないので、DSPNモデルは、集約された以前のタスクから最も関連したタスクを選択して、新たなタスクのためのその予測を完遂してよい。
上記で説明されたように、集約ブロック206に加えて、DSPNモデルは、経路Pkを凍結して、第kのタスクの知識を保存してもよい。概して、テストステージ中、タスクラベルは未知であるので、DSPNモデルは、所与のデータサンプルのための推論を行うために選択すべき経路を知らない。本発明の実施形態は、全ての経路の情報を集約する集約ブロック206アーキテクチャSを導入する。K個のタスクからの知識を集約することによって、ブロックSは、一意の隠れ活性化hKを生成してよい。
ここで、
は、経路Piの最後の隠れ活性化であり、
は、要素単位の加算を示す。
トレーニング中、タスクkが到来しているとき、k個の経路のみが存在するので、ブロックSは、以下によって更新されてよい。
ここで、
は、集約ブロックであり、
は、
と同じ次元を有してよい。
一実施形態では、経路Pkがタスクk後に凍結される一方、ブロックSは、常にトレーニング可能であってよい。常にトレーニング可能であり得るブロックを有することにより、情報が異なるタスク間で共有されることが可能になる。ブロックSは、全てのタスクから隠れ活性化を取ってよい。したがって、ブロックSは、異なるタスク間で隠れ活性化からの情報を共有してよい。これは、式4を適用することによって行われてよい。
動作312において、出力が提供される。DSPNモデルは、特定の入力の予測を提供してよい。例えば、DSPNモデルには、猫の写真の形式の入力が提供される。DSPNモデルには、サンプルラベルも提供されてよい。この場合、サンプルラベルは、写真が「猫」であることを示してよい。一実施形態では、タスク1は1つのサンプルのみを含むので、DSPNモデルには、1つのサンプルラベルが提供される。代替的な実施形態では、タスク1は、2つのサンプルを含んでよい。したがって、DSPNモデルは、タスク1の2つのサンプルに対応する2つのサンプルラベルを受信してよい。
DSPNモデルにサンプル写真がその対応するサンプルラベルとともに提供されると、DSPNモデルは、写真内の動物を分類するタスクを受けてよい。出力は、写真が猫であるという予測であってよい。一実施形態では、DSPNモデルによって生成された出力は、出力が正確であるか否かを判断するために、タスクのための1つ又は複数のサンプルと比較されてよい。しかしながら、DSPNモデルが分類タスク1において正確であるか否かに関係なく、例えば、タスク2並びにその対応するサンプル及びサンプルラベル等の別の入力が、更なるトレーニングのためにDSPNモデルに入力されてよい。
トレーニングステージ中、DSPNモデルは、図3において示されている動作を辿り得ることが理解されるべきである。しかしながら、テストステージ中、DSPNモデルは、既にトレーニングされている。したがって、テスト中のDSPNモデルの動作フローチャートは、2つの動作、すなわち、入力を受信すること及び出力を提供することを含んでよい。例えば、DSPNモデルは、写真を受信してよく、写真を分類するタスクを受けてよい。テスト中、DSPNモデルは、例えば、サンプルラベル等のラベルを受信しない。なぜならば、DSPNモデルは既にトレーニングされているためである。したがって、DSPNモデルは、入力を受信すると、入力を分類し、出力を提供する。
図2~図3は、1つの実施形態の例示のみを提供し、いかに異なる実施形態が実装され得るかに関していかなる制限も示唆しないことが理解されるべきである。設計及び実装の要件に基づいて、示されている実施形態に対する多くの修正が行われてよい。
図4は、本発明の例示的な実施形態に係る、図1において示されたコンピュータの内部コンポーネント及び外部コンポーネントのブロック図900である。図4は、1つの実装の例示のみを提供し、異なる実施形態が実装され得る環境に関していかなる制限も示唆しないことが理解されるべきである。設計及び実装の要件に基づいて、示されている環境に対する多くの修正が行われてよい。
図1において示されたコンピュータは、機械可読プログラム命令を実行することが可能な任意の電子デバイスを代表してよい。コンピュータは、スマートフォン、コンピュータシステム、PDA、又は他の電子デバイスを代表してよい。コンピューティングシステム、環境、若しくは構成、又はその組み合わせの例としては、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドデバイス又はラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースシステム、ネットワークPC、ミニコンピュータシステム、及び上記システム又はデバイスのうちの任意のものを含む分散クラウドコンピューティング環境が挙げられ得るが、これらに限定されない。
ユーザクライアントコンピュータ102及びネットワークサーバ112は、図4において示されている内部コンポーネント902a、b及び外部コンポーネント904a、bのそれぞれのセットを含んでよい。内部コンポーネント902a、bのセットの各々は、1つ又は複数のバス912上の1つ又は複数のプロセッサ906、1つ又は複数のコンピュータ可読RAM908及び1つ又は複数のコンピュータ可読ROM910と、1つ又は複数のオペレーティングシステム914と、1つ又は複数のコンピュータ可読有形ストレージデバイス916とを含む。1つ又は複数のオペレーティングシステム914、ソフトウェアプログラム108、及びクライアントコンピュータ102における継続学習プログラム110a、及びネットワークサーバ112における継続学習プログラム110bは、1つ又は複数のRAM908(典型的にはキャッシュメモリを含む)を介した1つ又は複数のプロセッサ906による実行のために1つ又は複数のコンピュータ可読有形ストレージデバイス916上に記憶されてよい。図4において示されている実施形態では、コンピュータ可読有形ストレージデバイス916の各々は、内部ハードドライブの磁気ディスクストレージデバイスである。代替的に、コンピュータ可読有形ストレージデバイス916の各々は、ROM910、EPROM、フラッシュメモリ、又はコンピュータプログラム及びデジタル情報を記憶することができる他の任意のコンピュータ可読有形ストレージデバイス等の半導体ストレージデバイスである。
内部コンポーネント902a、bの各セットは、CD-ROM、DVD、メモリスティック、磁気テープ、磁気ディスク、光ディスク又は半導体ストレージデバイス等の1つ又は複数のポータブルコンピュータ可読有形ストレージデバイス920との間で読み出し及び書き込みするための、R/Wドライブ又はインターフェース918も含む。ソフトウェアプログラム108及び継続学習プログラム110a、110b等のソフトウェアプログラムは、それぞれのポータブルコンピュータ可読有形ストレージデバイス920のうちの1つ又は複数の上に記憶され、それぞれのR/Wドライブ又はインターフェース918を介して読み出され、それぞれのハードドライブにロードされ得る。
内部コンポーネント902a、bの各セットは、TCP/IPアダプタカード、無線wi-fi(登録商標)インターフェースカード、又は3G若しくは4G無線インターフェースカード又は他の有線若しくは無線通信リンク等のネットワークアダプタ(若しくはスイッチポートカード)又はインターフェース922も含んでよい。ソフトウェアプログラム108、及びクライアントコンピュータ102における継続学習プログラム110a、及びネットワークサーバコンピュータ112における継続学習プログラム110bは、外部コンピュータ(例えば、サーバ)から、ネットワーク(例えば、インターネット、ローカルエリアネットワーク又は他のワイドエリアネットワーク)及びそれぞれのネットワークアダプタ又はインターフェース922を介してダウンロードされ得る。ネットワークアダプタ(若しくはスイッチポートアダプタ)又はインターフェース922から、ソフトウェアプログラム108、及びクライアントコンピュータ102における継続学習プログラム110a、及びネットワークサーバコンピュータ112における継続学習プログラム110bは、それぞれのハードドライブにロードされる。ネットワークは、銅ワイヤ、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ若しくはエッジサーバ、又はその組み合わせを備えてよい。
外部コンポーネント904a、bのセットの各々は、コンピュータディスプレイモニタ924、キーボード926、及びコンピュータマウス928を含んでよい。外部コンポーネント904a、bは、タッチスクリーン、仮想キーボード、タッチパッド、ポインティングデバイス、及び他のヒューマンインターフェースデバイスも含むことができる。内部コンポーネント902a、bのセットの各々は、コンピュータディスプレイモニタ924、キーボード926、及びコンピュータマウス928にインターフェース接続するデバイスドライバ930も含む。デバイスドライバ930、R/Wドライブ又はインターフェース918、及びネットワークアダプタ又はインターフェース922は、ハードウェア及びソフトウェア(ストレージデバイス916若しくはROM910、又はその両方に記憶されている)を含む。
本開示は、クラウドコンピューティングに対する詳細な説明を含むが、本明細書において列挙された教示の実装は、クラウドコンピューティング環境に限定されないことが事前に理解される。むしろ、本発明の実施形態は、現在既知の、又は今後開発される他の任意のタイプのコンピューティング環境と組み合わせて実装されることが可能である。
クラウドコンピューティングは、最小の管理労力又はサービスプロバイダとのインタラクションで迅速にプロビジョニング及びリリースすることができる構成可能コンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、及びサービス)の共有プールへの簡便なオンデマンドネットワークアクセスを可能にするためのサービス配信のモデルである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、及び少なくとも4つの展開モデルを含み得る。
特性は、以下のとおりである。
オンデマンドセルフサービス:クラウド消費者は、サービスプロバイダとの人的対話を必要とすることなく、必要に応じて自動的に、サーバ時間及びネットワークストレージ等のコンピューティング能力を一方的にプロビジョニングすることができる。
幅広いネットワークアクセス:この能力は、ネットワークを介して利用可能であり、異種のシン又はシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、及びPDA)による使用を促す標準メカニズムを通してアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者に役立つようプールされ、異なる物理リソース及び仮想リソースが、需要に従って動的に割り当て及び再割り当てされる。消費者は概して提供されたリソースの正確なロケーションに対して制御又は知識を有していないが、より高いレベルの抽象化(例えば、国、州、又はデータセンタ)においてロケーションを指定することが可能である場合があるという点で、ロケーションの独立性がある。
迅速な弾力性:この能力は、迅速かつ弾力的に、幾つかの事例では自動的にプロビジョニングして、早急にスケールアウトし、かつ迅速にリリースして早急にスケールインすることができる。消費者にとって、多くの場合、プロビジョニングに利用可能な能力は無制限に見え、任意の時点において任意の量で購入することができる。
測定されるサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅及びアクティブユーザアカウント)に適切なあるレベルの抽象化における計測能力を活用することによって、自動的にリソース使用を制御及び最適化する。リソース使用量をモニタリング、制御及び報告することができ、それにより、利用されるサービスのプロバイダ及び消費者の両方に透明性が提供される。
オンデマンドセルフサービス:クラウド消費者は、サービスプロバイダとの人的対話を必要とすることなく、必要に応じて自動的に、サーバ時間及びネットワークストレージ等のコンピューティング能力を一方的にプロビジョニングすることができる。
幅広いネットワークアクセス:この能力は、ネットワークを介して利用可能であり、異種のシン又はシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、及びPDA)による使用を促す標準メカニズムを通してアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者に役立つようプールされ、異なる物理リソース及び仮想リソースが、需要に従って動的に割り当て及び再割り当てされる。消費者は概して提供されたリソースの正確なロケーションに対して制御又は知識を有していないが、より高いレベルの抽象化(例えば、国、州、又はデータセンタ)においてロケーションを指定することが可能である場合があるという点で、ロケーションの独立性がある。
迅速な弾力性:この能力は、迅速かつ弾力的に、幾つかの事例では自動的にプロビジョニングして、早急にスケールアウトし、かつ迅速にリリースして早急にスケールインすることができる。消費者にとって、多くの場合、プロビジョニングに利用可能な能力は無制限に見え、任意の時点において任意の量で購入することができる。
測定されるサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅及びアクティブユーザアカウント)に適切なあるレベルの抽象化における計測能力を活用することによって、自動的にリソース使用を制御及び最適化する。リソース使用量をモニタリング、制御及び報告することができ、それにより、利用されるサービスのプロバイダ及び消費者の両方に透明性が提供される。
サービスモデルは、以下のとおりである。
ソフトウェアアズアサービス(SaaS):消費者に提供される能力は、クラウドインフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ(例えば、ウェブベースの電子メール)等のシンクライアントインターフェースを通して様々なクライアントデバイスからアクセス可能である。消費者は、考えられる例外としての限定されたユーザ固有のアプリケーション構成設定を除き、ネットワーク、サーバ、オペレーティングシステム、ストレージ又は更には個々のアプリケーション能力を含む、基礎をなすクラウドインフラストラクチャを管理又は制御しない。
プラットフォームアズアサービス(PaaS):消費者に提供される能力は、クラウドインフラストラクチャ上に、プロバイダによってサポートされるプログラミング言語及びツールを使用して作成される、消費者が作成又は取得したアプリケーションを展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、又はストレージを含む、基礎をなすクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーション、及び場合によってはアプリケーションホスティング環境構成を制御する。
アナリティクスアズアサービス(AaaS):消費者に提供される能力は、ウェブベース又はクラウドベースネットワーク(すなわち、インフラストラクチャ)を使用して、アナリティクスプラットフォームにアクセスすることである。アナリティクスプラットフォームは、アナリティクスソフトウェアリソースへのアクセスを含んでもよいし、又は、関連するデータベース、コーポラ(corpora)、サーバ、オペレーティングシステム又はストレージへのアクセスを含んでもよい。消費者は、データベース、コーポラ、サーバ、オペレーティングシステム又はストレージを含む基礎をなすウェブベース又はクラウドベースインフラストラクチャを管理又は制御しないが、展開されたアプリケーション、及び場合によってはアプリケーションホスティング環境構成を制御する。
インフラストラクチャアズアサービス(IaaS):消費者に提供される能力は、処理、ストレージ、ネットワーク及び他の基本的なコンピューティングリソースをプロビジョニングすることであり、ここで消費者は、オペレーティングシステム及びアプリケーションを含むことができる任意のソフトウェアを展開及び実行することが可能である。消費者は、基礎をなすクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御するとともに、場合によっては選択されたネットワーキングコンポーネント(例えば、ホストファイアウォール)を限定的に制御する。
ソフトウェアアズアサービス(SaaS):消費者に提供される能力は、クラウドインフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ(例えば、ウェブベースの電子メール)等のシンクライアントインターフェースを通して様々なクライアントデバイスからアクセス可能である。消費者は、考えられる例外としての限定されたユーザ固有のアプリケーション構成設定を除き、ネットワーク、サーバ、オペレーティングシステム、ストレージ又は更には個々のアプリケーション能力を含む、基礎をなすクラウドインフラストラクチャを管理又は制御しない。
プラットフォームアズアサービス(PaaS):消費者に提供される能力は、クラウドインフラストラクチャ上に、プロバイダによってサポートされるプログラミング言語及びツールを使用して作成される、消費者が作成又は取得したアプリケーションを展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、又はストレージを含む、基礎をなすクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーション、及び場合によってはアプリケーションホスティング環境構成を制御する。
アナリティクスアズアサービス(AaaS):消費者に提供される能力は、ウェブベース又はクラウドベースネットワーク(すなわち、インフラストラクチャ)を使用して、アナリティクスプラットフォームにアクセスすることである。アナリティクスプラットフォームは、アナリティクスソフトウェアリソースへのアクセスを含んでもよいし、又は、関連するデータベース、コーポラ(corpora)、サーバ、オペレーティングシステム又はストレージへのアクセスを含んでもよい。消費者は、データベース、コーポラ、サーバ、オペレーティングシステム又はストレージを含む基礎をなすウェブベース又はクラウドベースインフラストラクチャを管理又は制御しないが、展開されたアプリケーション、及び場合によってはアプリケーションホスティング環境構成を制御する。
インフラストラクチャアズアサービス(IaaS):消費者に提供される能力は、処理、ストレージ、ネットワーク及び他の基本的なコンピューティングリソースをプロビジョニングすることであり、ここで消費者は、オペレーティングシステム及びアプリケーションを含むことができる任意のソフトウェアを展開及び実行することが可能である。消費者は、基礎をなすクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御するとともに、場合によっては選択されたネットワーキングコンポーネント(例えば、ホストファイアウォール)を限定的に制御する。
展開モデルは以下のとおりである。
プライベートクラウド:このクラウドインフラストラクチャは、ある組織のためにのみ動作する。プライベートクラウドは、その組織又はサードパーティによって管理されてよく、オンプレミス又はオフプレミスで存在してよい。
コミュニティクラウド:このクラウドインフラストラクチャは、幾つかの組織によって共有され、共有される関心事項(例えば、ミッション、セキュリティ要件、ポリシ及びコンプライアンス考慮事項)を有する特定のコミュニティをサポートする。コミュニティクラウドは、それらの組織又はサードパーティによって管理されてよく、オンプレミス又はオフプレミスで存在してよい。
パブリッククラウド:このクラウドインフラストラクチャは、一般大衆又は大規模な業界団体に利用可能とされ、クラウドサービスを販売する組織によって所有される。
ハイブリッドクラウド:このクラウドインフラストラクチャは、2つ又はそれより多くのクラウド(プライベート、コミュニティ、又はパブリック)の複合体であり、2つ又はそれより多くのクラウドは、独自のエンティティのままであるが、データ及びアプリケーションのポータビリティ(例えば、クラウド間の負荷分散のためのクラウドバースト)を可能にする標準技術又は独自技術によってともに結合される。
プライベートクラウド:このクラウドインフラストラクチャは、ある組織のためにのみ動作する。プライベートクラウドは、その組織又はサードパーティによって管理されてよく、オンプレミス又はオフプレミスで存在してよい。
コミュニティクラウド:このクラウドインフラストラクチャは、幾つかの組織によって共有され、共有される関心事項(例えば、ミッション、セキュリティ要件、ポリシ及びコンプライアンス考慮事項)を有する特定のコミュニティをサポートする。コミュニティクラウドは、それらの組織又はサードパーティによって管理されてよく、オンプレミス又はオフプレミスで存在してよい。
パブリッククラウド:このクラウドインフラストラクチャは、一般大衆又は大規模な業界団体に利用可能とされ、クラウドサービスを販売する組織によって所有される。
ハイブリッドクラウド:このクラウドインフラストラクチャは、2つ又はそれより多くのクラウド(プライベート、コミュニティ、又はパブリック)の複合体であり、2つ又はそれより多くのクラウドは、独自のエンティティのままであるが、データ及びアプリケーションのポータビリティ(例えば、クラウド間の負荷分散のためのクラウドバースト)を可能にする標準技術又は独自技術によってともに結合される。
クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性及びセマンティック相互運用性に焦点を当てたサービス指向である。クラウドコンピューティングの中核には、相互接続されたノードからなるネットワークを含むインフラストラクチャが存在する。
ここで図5を参照すると、例示的なクラウドコンピューティング環境1000が示されている。示されているように、クラウドコンピューティング環境1000は、例えば、携帯情報端末(PDA)若しくは携帯電話1000A、デスクトップコンピュータ1000B、ラップトップコンピュータ1000C、若しくは自動車コンピュータシステム1000N、又はその組み合わせ等の、クラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る、1つ又は複数のクラウドコンピューティングノード10を備える。ノード10は、互いに通信してよい。それらは、上記で説明されたようなプライベートクラウド、コミュニティクラウド、パブリッククラウド、若しくはハイブリッドクラウド、又はこれらの組み合わせ等の、1つ又は複数のネットワーク内で物理的に又は仮想的にグループ化されてよい(図示せず)。これにより、クラウドコンピューティング環境1000は、インフラストラクチャ、プラットフォーム、若しくはソフトウェア、又はその組み合わせを、クラウド消費者がそのためにローカルコンピューティングデバイス上にリソースを維持する必要がないサービスとして提供することが可能になる。図5において示されているコンピューティングデバイス1000A~Nのタイプは、単に例示を意図し、コンピューティングノード10及びクラウドコンピューティング環境1000は、任意のタイプのネットワーク、若しくはネットワークアドレス指定可能接続、又はその両方を介して(例えば、ウェブブラウザを使用して)、任意のタイプのコンピュータ化デバイスと通信することができることが理解される。
ここで図6を参照すると、クラウドコンピューティング環境1000によって提供される機能抽象化層1100のセットが示されている。図6において示されているコンポーネント、層、及び機能は、単に例示を意図するものであり、本発明の実施形態がそれらに限定されないことが事前に理解されるべきである。示されているように、以下の層及び対応する機能が提供される。
ハードウェア及びソフトウェア層1102は、ハードウェアコンポーネント及びソフトウェアコンポーネントを備える。ハードウェアコンポーネントの例としては、メインフレーム1104、RISC(縮小命令セットコンピュータ)アーキテクチャベースサーバ1106、サーバ1108、ブレードサーバ1110、ストレージデバイス1112、並びにネットワーク及びネットワーキングコンポーネント1114が挙げられる。幾つかの実施形態では、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア1116及びデータベースソフトウェア1118を備える。
仮想化層1120は、仮想エンティティの次の例、すなわち、仮想サーバ1122、仮想ストレージ1124、仮想プライベートネットワークを含む仮想ネットワーク1126、仮想アプリケーション及びオペレーティングシステム1128並びに仮想クライアント1130が提供され得る抽象化層を提供する。
1つの例では、管理層1132は、以下で説明される機能を提供してよい。リソースプロビジョニング1134は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソース及び他のリソースの動的な調達を提供する。計測及び価格設定1136は、リソースがクラウドコンピューティング環境内で利用されるときのコスト追跡、及びこれらのリソースの消費に対する課金又は請求を提供する。1つの例では、これらのリソースは、アプリケーションソフトウェアライセンスを含んでよい。セキュリティは、クラウド消費者及びタスクに対する識別情報検証、並びに、データ及び他のリソースに対する保護を提供する。ユーザポータル1138は、消費者及びシステムアドミニストレータに対してクラウドコンピューティング環境へのアクセスを提供する。サービス水準管理1140は、要求されるサービス水準が満たされるように、クラウドコンピューティングリソース割り当て及び管理を提供する。サービス水準合意(SLA)計画及び履行1142は、将来の要件がSLAに従って予期されるクラウドコンピューティングリソースの事前の取り決め及び調達を提供する。
ワークロード層1144は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロード及び機能の例としては、マッピング及びナビゲーション1146、ソフトウェア開発及びライフサイクル管理1148、仮想クラスルーム教育配信1150、データ分析処理1152、トランザクション処理1154、並びに深層モデル学習1156が挙げられる。継続学習プログラム110a、110bは、深層学習モデルトレーニングフェーズ中に洞察を得るために来歴データ(provenance data)を使用する方法を提供する。
本発明は、統合のあらゆる可能な技術詳細レベルにおけるシステム、方法若しくはコンピュータプログラム製品、又はその組み合わせであってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(又は複数の媒体)を含んでよい。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持及び記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、又は前述したものの任意の適した組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、次のもの、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピディスク、機械的にエンコードされたデバイス、例えば、パンチカード又は命令を記録した溝内の隆起構造、及び前述したものの任意の適した組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用される場合、電波若しくは他の自由に伝搬する電磁波、導波路若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、又はワイヤを通じて送信される電気信号等の一時的な信号それ自体とは解釈されるべきではない。
本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング/処理デバイスに、或いは、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク若しくは無線ネットワーク、又はその組み合わせを介して、外部コンピュータ又は外部ストレージデバイスに、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ若しくはエッジサーバ、又はその組み合わせを含んでよい。各コンピューティング/処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。
本発明の動作を実行するコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は、1つ若しくは複数のプログラミング言語の任意の組み合わせで記述されたソースコード若しくはオブジェクトコードのいずれかであってよく、1つ若しくは複数のプログラミング言語は、Smalltalk(登録商標)、C++等のようなオブジェクト指向プログラミング言語と、「C」プログラミング言語又は同様のプログラミング言語のような手続き型プログラミング言語とを含む。コンピュータ可読プログラム命令は、スタンドアロンソフトウェアパッケージとして、ユーザのコンピュータ上で完全に実行されてもよいし、ユーザのコンピュータ上で部分的に実行されてもよいし、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行されてもよいし、リモートコンピュータ若しくはサーバ上で完全に実行されてもよい。後者のシナリオでは、リモートコンピュータが、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよいし、その接続が、(例えば、インターネットサービスプロバイダを使用してインターネットを介して)外部コンピュータに対して行われてもよい。幾つかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラマブルロジックアレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズしてよい。
本発明の態様は、本明細書において、本発明の実施形態に係る方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図若しくはブロック図、又はその両方を参照して説明されている。フローチャート図若しくはブロック図、又はその両方の各ブロック、並びに、フローチャート図若しくはブロック図、又はその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装することができることが理解されよう。
これらのコンピュータ可読プログラム命令をコンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供して機械を生成してよく、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能/動作を実装する手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶されてよく、当該命令は、コンピュータ、プログラマブルデータ処理装置若しくは他のデバイス、又はその組み合わせに対し、特定の方式で機能するよう命令することができ、それにより、命令を記憶したコンピュータ可読記憶媒体は、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能/動作の態様を実装する命令を含む製品を含むようになる。
また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードして、一連の動作段階をコンピュータ、他のプログラマブル装置又は他のデバイス上で実行させ、コンピュータ実装プロセスを生成してもよく、それにより、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令は、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能/動作を実装するようになる。
図面におけるフローチャート及びブロック図は、本発明の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、指定された論理機能を実装する1つ又は複数の実行可能命令を含む命令のモジュール、セグメント、又は一部を表し得る。幾つかの代替的な実装では、ブロックに記載される機能が、図面に記載される順序とは異なる順序で行われてよい。例えば、連続して示されている2つのブロックは、実際には、1つの段階として達成されても、同時に、実質的に同時に、部分的に若しくは全体的に時間重複する形で実行されてもよいし、ブロックは、関与する機能に依存して逆の順序で実行される場合もあり得る。ブロック図若しくはフローチャート図、又はその両方の各ブロック、並びにブロック図若しくはフローチャート図、又はその両方におけるブロックの組み合わせは、指定された機能若しくは動作を実行するか、又は専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースシステムによって実装することができることにも留意されたい。
本発明の様々な実施形態の説明は、例示の目的で提示されてきたが、網羅的であることも、開示された実施形態に限定されることも意図されるものではない。説明された実施形態の範囲から逸脱することなく、多くの修正及び変形が、当業者には明らかであろう。本明細書において使用される専門用語は、実施形態の原理、市場で見られる技術の実用的な応用若しくはそれに対する技術的改善を最も良好に説明し、又は、本明細書において開示される実施形態を他の当業者が理解することを可能にするように選択されている。
Claims (24)
- 1つ又は複数のタスクを順次的に受信する段階と、
前記1つ又は複数のタスクに1つ又は複数の共有可能ブロックを適用する段階と、
前記1つ又は複数のタスクのための1つ又は複数の別個の経路を学習する段階と、
前記1つ又は複数のタスク間の1つ又は複数の交差接続を追加する段階と、
集約ブロックを追加して、前記1つ又は複数のタスクの各々のタスクの前記別個の経路からの1つ又は複数の出力を収集する段階と、
予測を提供する段階と
を備える、方法。 - 前記1つ又は複数のタスクを順次的に受信する段階は、
データの1つ又は複数のラベルを受信する段階であって、データの前記1つ又は複数のラベルは、前記1つ又は複数のタスクに対応する、受信する段階
を更に有する、請求項1に記載の方法。 - 前記1つ又は複数のタスクの1つ又は複数の以前に学習された別個の経路の1つ又は複数のニューロンを凍結する段階と、
前記1つ又は複数のタスクのための前記1つ又は複数の別個の経路の1つ又は複数のニューロンをトレーニングする段階であって、前記1つ又は複数のニューロンは、トレーニング可能として設定される、トレーニングする段階と
を更に備える、請求項1又は2に記載の方法。 - 前記1つ又は複数のタスクの1つ又は複数の以前に学習された別個の経路の前記1つ又は複数のニューロンを凍結する段階は、
前記1つ又は複数の以前に学習された別個の経路の前記1つ又は複数のニューロンをトレーニング不可能として設定する段階
を更に有する、請求項3に記載の方法。 - 前記1つ又は複数の別個の経路は、1つ又は複数のニューロンを備え、前記1つ又は複数のニューロンは、1つ又は複数の重みを有する、請求項1から4のいずれか一項に記載の方法。
- 前記1つ又は複数のタスク間の前記1つ又は複数の交差接続は、
前記1つ又は複数のタスク間の1つ又は複数の順方向交差接続と、
前記1つ又は複数のタスク間の1つ又は複数の逆方向交差接続と
を含む、請求項1から5のいずれか一項に記載の方法。 - 前記1つ又は複数のタスクの各々のタスクの前記別個の経路からの前記1つ又は複数の出力を収集する段階は、
前記集約ブロックによって、前記1つ又は複数のタスクの前記1つ又は複数の別個の経路からの1つ又は複数の隠れ活性化を集約する段階
を更に有する、請求項1から6のいずれか一項に記載の方法。 - 前記集約ブロックは、深層学習ネットワークの最終層の前に追加される、請求項1から7のいずれか一項に記載の方法。
- コンピュータシステムであって、
1つ又は複数のプロセッサと、1つ又は複数のコンピュータ可読メモリと、1つ又は複数のコンピュータ可読有形記憶媒体と、前記1つ又は複数のコンピュータ可読メモリのうちの少なくとも1つを介した前記1つ又は複数のプロセッサのうちの少なくとも1つによる実行のために、前記1つ又は複数のコンピュータ可読有形記憶媒体のうちの少なくとも1つの上で記憶されたプログラム命令とを備え、前記コンピュータシステムは、
1つ又は複数のタスクを順次的に受信する段階と、
前記1つ又は複数のタスクに1つ又は複数の共有可能ブロックを適用する段階と、
前記1つ又は複数のタスクのための1つ又は複数の別個の経路を学習する段階と、
前記1つ又は複数のタスク間の1つ又は複数の交差接続を追加する段階と、
集約ブロックを追加して、前記1つ又は複数のタスクの各々のタスクの前記別個の経路からの1つ又は複数の出力を収集する段階と、
予測を提供する段階と
を備える、方法を実行することが可能である、コンピュータシステム。 - 前記1つ又は複数のタスクを順次的に受信する段階は、
データの1つ又は複数のラベルを受信する段階であって、データの前記1つ又は複数のラベルは、前記1つ又は複数のタスクに対応する、受信する段階
を更に有する、請求項9に記載のコンピュータシステム。 - 前記1つ又は複数のタスクの1つ又は複数の以前に学習された別個の経路の1つ又は複数のニューロンを凍結する段階と、
前記1つ又は複数のタスクのための前記1つ又は複数の別個の経路の1つ又は複数のニューロンをトレーニングする段階であって、前記1つ又は複数のニューロンは、トレーニング可能として設定される、トレーニングする段階と
を更に備える、請求項9又は10に記載のコンピュータシステム。 - 前記1つ又は複数のタスクの1つ又は複数の以前に学習された別個の経路の前記1つ又は複数のニューロンを凍結する段階は、
前記1つ又は複数の以前に学習された別個の経路の前記1つ又は複数のニューロンをトレーニング不可能として設定する段階
を更に有する、請求項11に記載のコンピュータシステム。 - 前記1つ又は複数の別個の経路は、1つ又は複数のニューロンを備え、前記1つ又は複数のニューロンは、1つ又は複数の重みを有する、請求項9から12のいずれか一項に記載のコンピュータシステム。
- 前記1つ又は複数のタスク間の前記1つ又は複数の交差接続は、
前記1つ又は複数のタスク間の1つ又は複数の順方向交差接続と、
前記1つ又は複数のタスク間の1つ又は複数の逆方向交差接続と
を含む、請求項9から13のいずれか一項に記載のコンピュータシステム。 - 前記1つ又は複数のタスクの各々のタスクの前記別個の経路からの前記1つ又は複数の出力を収集する段階は、
前記集約ブロックによって、前記1つ又は複数のタスクの前記1つ又は複数の別個の経路からの1つ又は複数の隠れ活性化を集約する段階
を更に有する、請求項9から14のいずれか一項に記載のコンピュータシステム。 - 前記集約ブロックは、深層学習ネットワークの最終層の前に追加される、請求項9から15のいずれか一項に記載のコンピュータシステム。
- プロセッサに、
1つ又は複数のタスクを順次的に受信する手順と、
前記1つ又は複数のタスクに1つ又は複数の共有可能ブロックを適用する手順と、
前記1つ又は複数のタスクのための1つ又は複数の別個の経路を学習する手順と、
前記1つ又は複数のタスク間の1つ又は複数の交差接続を追加する手順と、
集約ブロックを追加して、前記1つ又は複数のタスクの各々のタスクの前記別個の経路からの1つ又は複数の出力を収集する手順と、
予測を提供する手順と
を実行させるためのコンピュータプログラム。 - 前記1つ又は複数のタスクを順次的に受信する手順は、
データの1つ又は複数のラベルを受信する手順であって、データの前記1つ又は複数のラベルは、前記1つ又は複数のタスクに対応する、受信する手順
を更に有する、請求項17に記載のコンピュータプログラム。 - 前記プロセッサに、
前記1つ又は複数のタスクの1つ又は複数の以前に学習された別個の経路の1つ又は複数のニューロンを凍結する手順と、
前記1つ又は複数のタスクのための前記1つ又は複数の別個の経路の1つ又は複数のニューロンをトレーニングする手順であって、前記1つ又は複数のニューロンは、トレーニング可能として設定される、トレーニングする手順と
を更に実行させるための請求項17又は18に記載のコンピュータプログラム。 - 前記1つ又は複数のタスクの1つ又は複数の以前に学習された別個の経路の前記1つ又は複数のニューロンを凍結する手順は、
前記1つ又は複数の以前に学習された別個の経路の前記1つ又は複数のニューロンをトレーニング不可能として設定する手順
を更に有する、請求項19に記載のコンピュータプログラム。 - 前記1つ又は複数の別個の経路は、1つ又は複数のニューロンを備え、前記1つ又は複数のニューロンは、1つ又は複数の重みを有する、請求項17から20のいずれか一項に記載のコンピュータプログラム。
- 前記1つ又は複数のタスク間の前記1つ又は複数の交差接続は、
前記1つ又は複数のタスク間の1つ又は複数の順方向交差接続と、
前記1つ又は複数のタスク間の1つ又は複数の逆方向交差接続と
を含む、請求項17から21のいずれか一項に記載のコンピュータプログラム。 - 前記1つ又は複数のタスクの各々のタスクの前記別個の経路からの前記1つ又は複数の出力を収集する手順は、
前記集約ブロックによって、前記1つ又は複数のタスクの前記1つ又は複数の別個の経路からの1つ又は複数の隠れ活性化を集約する手順
を更に有する、請求項17から22のいずれか一項に記載のコンピュータプログラム。 - 前記集約ブロックは、深層学習ネットワークの最終層の前に追加される、請求項17から23のいずれか一項に記載のコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/923,196 | 2020-07-08 | ||
US16/923,196 US20220012583A1 (en) | 2020-07-08 | 2020-07-08 | Continual learning using cross connections |
PCT/IB2021/055392 WO2022009005A1 (en) | 2020-07-08 | 2021-06-18 | Continual learning using cross connections |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023532960A true JP2023532960A (ja) | 2023-08-01 |
Family
ID=79171727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023500057A Pending JP2023532960A (ja) | 2020-07-08 | 2021-06-18 | 交差接続を使用する継続学習 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220012583A1 (ja) |
JP (1) | JP2023532960A (ja) |
CN (1) | CN115843364A (ja) |
DE (1) | DE112021003003T5 (ja) |
GB (1) | GB2611731A (ja) |
WO (1) | WO2022009005A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102071179B1 (ko) * | 2019-05-20 | 2020-01-29 | 주식회사 루닛 | 데이터 셋의 연속적인 학습 방법 및 장치 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8694444B2 (en) * | 2012-04-20 | 2014-04-08 | Xerox Corporation | Learning multiple tasks with boosted decision trees |
US10832138B2 (en) * | 2014-11-27 | 2020-11-10 | Samsung Electronics Co., Ltd. | Method and apparatus for extending neural network |
CN108307435B (zh) * | 2018-01-29 | 2021-02-19 | 大连大学 | 一种基于sdsin的多任务路由选择方法 |
-
2020
- 2020-07-08 US US16/923,196 patent/US20220012583A1/en active Pending
-
2021
- 2021-06-18 CN CN202180048336.3A patent/CN115843364A/zh active Pending
- 2021-06-18 DE DE112021003003.5T patent/DE112021003003T5/de active Pending
- 2021-06-18 GB GB2301505.0A patent/GB2611731A/en active Pending
- 2021-06-18 JP JP2023500057A patent/JP2023532960A/ja active Pending
- 2021-06-18 WO PCT/IB2021/055392 patent/WO2022009005A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022009005A1 (en) | 2022-01-13 |
CN115843364A (zh) | 2023-03-24 |
US20220012583A1 (en) | 2022-01-13 |
GB2611731A (en) | 2023-04-12 |
DE112021003003T5 (de) | 2023-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11568856B2 (en) | Intent authoring using weak supervision and co-training for automated response systems | |
JP7046181B2 (ja) | マルチ・タスク学習を用いた特徴抽出方法、コンピュータ・システム、およびコンピュータ・プログラム製品(マルチ・タスク学習を用いた特徴抽出) | |
AU2020385264B2 (en) | Fusing multimodal data using recurrent neural networks | |
US11593642B2 (en) | Combined data pre-process and architecture search for deep learning models | |
JP2020532012A (ja) | ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 | |
US20190050465A1 (en) | Methods and systems for feature engineering | |
US11640529B2 (en) | Training a neural network to create an embedding for an unlabeled vertex in a hypergraph | |
US20200380367A1 (en) | Deep learning model insights using provenance data | |
US20230092274A1 (en) | Training example generation to create new intents for chatbots | |
US20220180240A1 (en) | Transaction composition graph node embedding | |
US20210319303A1 (en) | Multi-source transfer learning from pre-trained networks | |
US11501115B2 (en) | Explaining cross domain model predictions | |
US11475297B2 (en) | Cross-domain homophily quantification for transfer learning | |
US20180330230A1 (en) | Remote neural network processing for guideline identification | |
US20230169176A1 (en) | Graph exploration framework for adversarial example generation | |
US11736423B2 (en) | Automated conversational response generation | |
US11841977B2 (en) | Training anonymized machine learning models via generalized data generated using received trained machine learning models | |
JP2023532960A (ja) | 交差接続を使用する継続学習 | |
US20210149793A1 (en) | Weighted code coverage | |
US20230169147A1 (en) | Validation processing for candidate retraining data | |
US20230289650A1 (en) | Continuous machine learning system for containerized environment with limited resources | |
US20230139437A1 (en) | Classifier processing using multiple binary classifier stages | |
US11681501B2 (en) | Artificial intelligence enabled open source project enabler and recommendation platform | |
WO2021208808A1 (en) | Cooperative neural networks with spatial containment constraints | |
US11995111B2 (en) | Efficient and compact text matching system for sentence pairs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231114 |