JP2018538607A - 計算グラフの処理 - Google Patents

計算グラフの処理 Download PDF

Info

Publication number
JP2018538607A
JP2018538607A JP2018521825A JP2018521825A JP2018538607A JP 2018538607 A JP2018538607 A JP 2018538607A JP 2018521825 A JP2018521825 A JP 2018521825A JP 2018521825 A JP2018521825 A JP 2018521825A JP 2018538607 A JP2018538607 A JP 2018538607A
Authority
JP
Japan
Prior art keywords
subgraph
nodes
graph
node
represented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018521825A
Other languages
English (en)
Other versions
JP6983154B2 (ja
Inventor
ポール・エー・タッカー
ジェフリー・アドゲート・ディーン
サンジェイ・ゲマワット
ユアン・ユ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2018538607A publication Critical patent/JP2018538607A/ja
Priority to JP2020085262A priority Critical patent/JP6898496B2/ja
Application granted granted Critical
Publication of JP6983154B2 publication Critical patent/JP6983154B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Neurology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

計算グラフを処理する要求をクライアントから受信し、計算グラフを表すデータを取得することであって、計算グラフは、複数のノードおよび有向エッジを含み、各ノードは、それぞれの演算を表し、各有向エッジは、それぞれの第1のノードによって表される演算の出力を入力として受信する演算を表すそれぞれの第2のノードにそれぞれの第1のノードを接続する、ことをし、要求された演算を行うための複数の利用可能なデバイスを特定し、複数のサブグラフに計算グラフを分割することであって、各サブグラフは、計算グラフ内の1つまたは複数のノードを含む、ことをし、各サブグラフについて、サブグラフ内の1つまたは複数のノードによって表される演算を、演算のために複数の利用可能なデバイスのうちのそれぞれの利用可能なデバイスに割り当てるための、方法、システム、および装置であり、コンピュータ記憶媒体上に符号化されたコンピュータプログラムを含む。

Description

本明細書は、ニューラルネットワークを表している計算グラフを処理することおよび/またはモデル入力を処理するための処理済み計算グラフの使用に関する。
ニューラルネットワークは、1つまたは複数の層のモデルを使用して、受信した入力に対する、例えば、1つまたは複数の分類といった、出力を生成する、機械学習モデルである。いくつかのニューラルネットワークは、出力層に加えて1つまたは複数の隠れ層を含む。各隠れ層の出力は、ネットワーク内の次段の層、すなわち、次段の隠れ層またはネットワークの出力層に対する入力として使用される。ネットワークの各層は、その層のためのそれぞれのパラメータのセットの現在の値に従って、受信した入力から出力を生成する。
ニューラルネットワークの複数の層は、個々のデバイスによって処理され得る。デバイスは、例えば、入力からある層における出力を生成するといった、演算を行うプロセッサを有し得るし、演算による出力をメモリに記憶する。ニューラルネットワークにおいて出力を生成するのに必要とされる演算の数およびサイズが一般的には膨大であるため、1つのデバイスでは、ニューラルネットワークの複数の層を処理するのにかなりの量の時間がかかり得る。
概して、本明細書は、ニューラルネットワークまたは別の機械学習モデルを表している計算グラフを処理するためのシステムおよび方法を説明している。
一般に、本明細書において説明した発明特定事項の1つの革新的な態様は、計算グラフを処理する要求をクライアントから受信するステップと、計算グラフを表すデータを取得するステップであって、計算グラフは、複数のノードおよび有向エッジを含み、各ノードは、それぞれの演算を表し、各有向エッジは、それぞれの第1のノードによって表される演算の出力を入力として受信する演算を表すそれぞれの第2のノードにそれぞれの第1のノードを接続する、ステップと、要求された演算を行うための複数の利用可能なデバイスを特定するステップと、複数のサブグラフに計算グラフを分割するステップであって、各サブグラフは、計算グラフ内の1つまたは複数のノードを含む、ステップと、各サブグラフについて、サブグラフ内の1つまたは複数のノードによって表される演算を、演算のために複数の利用可能なデバイスのうちのそれぞれの利用可能なデバイスに割り当てるステップとのアクションを含む方法で具現化され得る。方法は、コンピュータ実施方法であってもよい。
実施形態は、以下の特徴のうちの1つまたは複数を含み得る。要求は、1つまたは複数のそれぞれのノードから1つまたは複数の特定の出力を指定し、1つまたは複数のそれぞれのノードが割り当てられたデバイスから、1つまたは複数の特定の出力を受信するステップと、1つまたは複数の特定の出力をクライアントに提供するステップをさらに含む。計算グラフによる演算は、ニューラルネットワークのための推論または訓練演算を含む。要求は、複数の所定のサブグラフに計算グラフを分割するラベルを含み、計算グラフを分割するステップは、複数の所定のサブグラフに計算グラフを分割するステップを含む。各デバイスは、複数のデバイスのうちの他のデバイスから独立した演算を行うハードウェアリソースである。各サブグラフをそれぞれのデバイスに割り当てるステップは、サブグラフを、サブグラフ内のノードによって表される演算を行うために必要な計算性能を有するデバイスに割り当てるステップを含む。チェーン構造内に配置されているノードのグループを特定するために計算グラフを分析するステップをさらに含み、分割するステップは、特定されたグループの各々について、ノードの特定されたグループを含むそれぞれのサブグラフを生成するステップを含む。ノードのグループに向けて有向エッジ上を流れる共有データを演算するノードのグループを特定するために計算グラフを分析するステップをさらに含み、分割するステップは、特定されたグループの各々について、ノードの特定されたグループを含むそれぞれのサブグラフを生成するステップを含む。デバイスに対するサブグラフの初期割り当てを決定するステップと、統計値を決定するためにデバイスをモニタするステップと、統計値を使用して初期割り当てを調整するステップと、調整した初期割り当てに基づいてサブグラフをデバイスに再割り当てするステップとをさらに含む。改善についての閾値量に達するまで、モニタするステップと、調整するステップと、再割り当てするステップとを繰り返すステップをさらに含む。統計値は、各サブグラフについてのそれぞれの動作時間またはそれぞれのアイドル時間を含む。
さらなる実施形態においては、方法は、モデル入力を受信するステップと、処理済み計算グラフによって表される演算に従ってモデル入力を処理するステップとをさらに含む。
本明細書において説明した発明特定事項の別の革新的な態様は、第1の態様の方法によって取得された処理済み計算グラフに対応する機械学習モデルを提供するステップと、モデル入力を機械学習モデルを使用して処理するステップとのアクションを含み得る方法で具現化され得る。モデル入力の処理は、機械学習モデルを訓練することの一部であり得る、または、それは、モデル入力から推論を生成することの一部であり得る。
別の態様においては、本明細書において説明した発明特定事項は、複数のデバイスによって、第1の態様の方法によって取得された処理済み計算グラフを実行するステップのアクションを含み得る方法で具現化され得る。
これらの態様においては、計算グラフは、例えば、ニューラルネットワークなどといった、機械学習モデルの表現であり得る。
本明細書において説明した発明特定事項の別の革新的な態様は、複数のデバイスを使用して計算グラフに従ってモデル入力を処理するアクションを含む方法であって、計算グラフは、複数のノードおよび有向エッジを含み、各ノードは、それぞれの演算を表し、各有向エッジは、それぞれの第1のノードによって表される演算の出力を入力として受信する演算を表すそれぞれの第2のノードにそれぞれの第1のノードを接続し、方法は、複数のデバイスの各々について、デバイスに割り当てられた計算グラフのサブグラフを表すデータを受信するステップであって、サブグラフは、複数のノードおよび計算グラフからの有向エッジを含む、ステップと、サブグラフ内のノードによって表される演算を行うステップとを含む、方法で具現化され得る。
本態様の実施形態は、以下の特徴のうちの1つまたは複数を含み得る。要求は、1つまたは複数のそれぞれのノードから1つまたは複数の特定の出力を指定し、サブグラフ内の1つまたは複数のそれぞれのノードから1つまたは複数の特定の出力を特定する要求を受信するステップと、1つまたは複数の特定の出力をクライアントに提供するステップとをさらに含む。方法は、統計値をモニタするステップと、統計値をクライアントに提供するステップをさらに含む。統計値は、各サブグラフについてのそれぞれの動作時間またはそれぞれのアイドル時間を含む。サブグラフ内のノードによって表される演算を行うステップは、非同期的に演算を行うステップを含む。非同期的に演算を行うステップは、キュー、非ブロッキングカーネル、またはその両方を使用して演算を行うステップを含む。
他の態様は、上記態様のいずれか1つに対応するシステムおよびコンピュータ可読媒体を提供している。コンピュータ可読媒体は、非一時的コンピュータ可読媒体であり得るが、発明はこれに限定されない。
本明細書において説明した発明特定事項の特定の実施形態が、以下の利点の1つまたは複数を実現するために実施され得る。ニューラルネットワークの演算、例えば、入力から推論を生成する演算といった演算は、ノードおよび有向エッジの計算グラフとして表すことができる。システムは、このような計算グラフ表現を処理して、ニューラルネットワークの演算を効率的に行う。システムは、計算グラフが一連の層として表される従来のニューラルネットワークと比べてより少ない抽象化を有することになるため、このような効率性を達成している。具体的には、計算グラフを、従来のニューラルネットワーク表現と比べて、並列演算のためにより容易に分割することが可能である。例として、計算グラフのサブグラフを、一意なデバイスに割り当てることができ、例えば、各サブグラフを、他のサブグラフとは異なるデバイスに割り当てることができ、それらの各々は、それぞれのサブグラフ内の演算を行って、ニューラルネットワークの演算を行うために必要な時間全体を低減している。
本明細書の発明特定事項の1つまたは複数の実施形態についての詳細を以下の添付の図面および説明に記載している。発明特定事項の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から自明となるであろう。態様および実施形態を組み合わせ得ること、および1つの態様または実施形態に関連して説明した特徴を他の態様または実施形態に関連して実施し得ることは諒解されるであろう。
計算グラフとして表されるニューラルネットワークのための演算を分散するための例示的な計算グラフシステムの図である。 計算グラフを処理するための例示的な方法のフロー図である。 例示的な計算グラフである。 サブグラフをデバイスに割り当てるための例示的なプロセスのフロー図である。
様々な図面中の類似の参照番号および記号は類似の要素を示す。
本明細書は、分散方式で計算グラフによって表される演算を行う計算グラフシステムを一般的に説明している。
計算グラフは、有向エッジによって接続されるノードを含む。計算グラフ内の各ノードは演算を表す。ノードへの入力方向エッジは、ノードに対する入力、すなわち、ノードによって表される演算に対する入力のフローを表す。ノードからの出力方向エッジは、別のノードによって表される演算に対する入力として使用されることになる、そのノードによって表される演算の出力のフローを表す。そのため、グラフ内の第1のノードをグラフ内の第2のノードに接続する有向エッジは、第1のノードによって表される演算によって生成された出力が第2のノードによって表される演算に対する入力として使用されることを示している。
一般的に、計算グラフ内の有向エッジに沿って流れる入力および出力がテンソルである。テンソルは、配列の次元に対応する固有の次数を有する、数値または例えば文字列といった他の値の多次元配列である。例えば、スカラ値は、0次テンソルであり、数値のベクトルは、1次テンソルであり、行列は、2次テンソルである。
いくつかの実施形態においては、計算グラフ内に表されている演算は、ニューラルネットワーク演算または異なる種類の機械学習モデルのための演算である。ニューラルネットワークは、非線形ユニットの1つまたは複数の層を使用して受信した入力に対する出力を予測する機械学習モデルである。いくつかのニューラルネットワークは、出力層に加えて1つまたは複数の隠れ層を含むディープニューラルネットワークである。各隠れ層の出力は、ネットワーク内の別の層、すなわち、別の隠れ層、出力層、またはその両方への入力として使用される。ネットワークのいくつかの層は、それぞれのパラメータのセットの現在の値に従って受信した入力から出力を生成する一方で、ネットワークの他の層は、パラメータを有し得ない。
例えば、計算グラフによって表される演算は、ニューラルネットワークが推論を計算するために、すなわち、ニューラルネットワークの複数の層を介して入力を処理して入力に対するニューラルネットワーク出力を生成するために必要な演算であり得る。別の例としては、計算グラフによって表される演算は、ニューラルネットワークのパラメータの値を調整するために、例えば、パラメータの初期値からパラメータの訓練済みの値を決定するために、ニューラルネットワーク訓練プロシージャを行うことによって、ニューラルネットワークを訓練するのに必要な演算であり得る。いくつかのケースにおいては、例えば、ニューラルネットワークの訓練中に、計算グラフによって表される演算は、ニューラルネットワークの複数のレプリカによって行われる演算を含み得る。
例として、前段の層から入力を受信するあるニューラルネットワーク層は、パラメータ行列を使用してパラメータ行列と入力との間の行列乗算を行い得る。いくつかのケースにおいては、この行列乗算は、計算グラフ内の複数のノードとして表され得る。例えば、行列乗算は、複数の積和演算に分割され得るし、各演算は、計算グラフ内の異なるノードによって表され得る。各ノードによって表される演算は、後続のノードに向けて有向エッジ上を流れるそれぞれの出力を生成し得る。最終ノードによって表される演算が行列乗算の結果を生成した後に、結果は、別のノードに向けて有向エッジ上を流れる。結果は、行列乗算を行うニューラルネットワーク層の出力に等しい。
いくつかの他のケースにおいては、行列乗算は、グラフ内の1つのノードとして表される。ノードによって表される演算は、入力として、第1の有向エッジに対する入力テンソルと、第2の有向エッジに対する、例えば、パラメータ行列といった、重みテンソルとを受信し得る。ノードは、第3の有向エッジ上で、処理、例えば、入力と重みテンソルとの行列乗算を行い、ニューラルネットワーク層の出力に等しい出力テンソルを出力し得る。
計算グラフ内のノードによって表され得る他のニューラルネットワーク演算は、例えば、減算、除算、および勾配の計算といった、他の数学的演算と、例えば、連結、スプライス、分割、またはランク付けといった、配列演算とを含み、ニューラルネットワークは、例えば、ソフトマックス、シグモイド、正規化線形ユニット(ReLU)、または畳み込みといった、ブロック演算を構築する。
特に、ニューラルネットワークのための演算を、異なるハードウェアプロファイルを有する複数のデバイスにわたって分散する場合には、ニューラルネットワークを計算グラフとして表すことは、ニューラルネットワークを効率的に実装する柔軟かつ粒度の細かい方法を提供することになる。
図1は、計算グラフとして表されるニューラルネットワークのための演算を分散するための例示的な計算グラフシステム100を図示している。システム100は、以下で説明しているシステム、コンポーネント、および技法を実施し得る、1つまたは複数のロケーションにある1つまたは複数のコンピュータ上のコンピュータプログラムとして実施されるシステムの例である。
クライアント102のユーザは、演算がニューラルネットワークを表す計算グラフ上で行われるように要求し得る。クライアント102は、コンピュータ上で動作しているアプリケーションであってもよい。
要求の一部として、クライアント102は、計算グラフを特定するデータをシステム100に提供し、計算グラフ上で行われることになる演算のタイプを指定する。
例えば、要求は、特定のニューラルネットワークのための推論を表す計算グラフを特定し得るし、推論が行われるべき入力を特定し得る。
別の例としては、要求は、特定のニューラルネットワークのための訓練プロシージャを表す計算グラフを特定し得るし、訓練が行われるべき訓練データなどの入力を特定し得る。この例においては、訓練プロシージャを表す計算グラフを処理する要求を受信すると、システム100は、例えば、従来の逆伝播技法または他のニューラルネットワーク訓練技法を使用して、計算グラフの1つまたは複数のエッジのためのパラメータについての修正された値を決定し得る。システム100は、修正されたパラメータをデバイスのメモリに記憶し得るし、実行器106は、読み出して、システム100において、修正された重みのアドレスを記憶し得る。修正された重みを必要とする推論、訓練、または他の演算のためのクライアント102からのさらなる要求には、システム100は、前記アドレスを使用して修正された重みにアクセスし得る。
いくつかのケースにおいては、要求は、要求に応じて送信されるべき応答を指定し得る。例えば、ニューラルネットワーク訓練要求については、クライアント102は、要求されたニューラルネットワーク訓練演算を完了し終えたということについてのインディケーション、必要に応じて、ニューラルネットワークのパラメータの訓練済みの値またはクライアント102が訓練済みの値にアクセスすることができるメモリロケーションのインディケーションを要求し得る。別の例としては、ニューラルネットワーク推論要求については、クライアント102は、計算グラフの1つまたは複数の特定のノードからの推論演算を表す出力値を要求し得る。
システム100は、計算グラフによって表される演算を複数のデバイス116〜122にわたって分割することによって、特定の出力を生成する演算を行う。システム100は、データ通信ネットワーク114、例えば、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)の先にある複数のデバイス116〜122に演算を分割する。デバイス116〜122は、演算を行い、妥当な場合には、それぞれの出力またはインディケーションをシステム100に返し、システム100は、要求された出力またはインディケーションをクライアント102に返し得る。
ニューラルネットワーク演算を行う任意のデバイス、例えば、デバイス116〜122は、命令およびデータを記憶するためのメモリ、例えば、ランダムアクセスメモリ(RAM)と、記憶されている命令を実行するためのプロセッサとを含み得る。一般的に、各デバイスは、他のデバイスから独立した演算を行うハードウェアリソースである。例えば、各デバイスは、それ自身の処理装置を有し得る。デバイスは、グラフィック処理装置(GPU)または中央処理装置(CPU)であり得る。例として、1つの機械が、1つまたは複数のデバイス、例えば、複数のCPUおよびGPUをホストし得る。
各デバイスはまた、それぞれの計算性能を有し得る。すなわち、デバイスは、異なる量のメモリ、処理速度、または他のアーキテクチャ上の特性を有し得る。そのため、いくつかのデバイスは、他のデバイスが行うことができない演算を行い得る。例えば、いくつかの演算は、特定のデバイスのみが有するある量のメモリを要求する、またはいくつかのデバイスは、特定のタイプの演算、例えば、推論演算のみを行うように構成される。
システム100内のセッションマネージャ104は、計算グラフの演算を行う間のセッションを開始する要求をクライアント102から受信する。セッションマネージャ104は、計算グラフの演算を行い得る、デバイスのセット、例えば、デバイス116〜122を管理し、演算を行うのに利用可能デバイスのセットに配分器108を提供し得る。
配分器108は、計算グラフ内で行われることになる各演算について、演算を行う、それぞれのターゲットデバイス、例えば、デバイス116を決定し、いくつかの実施形態においては、それぞれのターゲットデバイスが演算を行うための時間を決定する。他の演算が計算グラフ内の以前の演算が完了するのを要求する、例えば、他の演算が入力として以前の演算の出力を処理する一方で、いくつかの演算は並列に行われ得る。
デバイスが配分器108によって割り振られた演算を行って出力を生成した後に、実行器106は、出力を読み出し得る。実行器106は、要求に対する適切な応答、例えば、出力または処理を完了し終えたということについてのインディケーションを生成し得る。その後、実行器106は、応答をクライアント102に返し得る。
セッションマネージャ104はまた、計算グラフにおいて行われることになる演算のセットを実行器106に提供する。実行器106は、演算のグラフ実行に関連するデバイス116〜122から実行時の統計値を定期的に読み出す。実行器106は、実行時の統計値を配分器108に提供し、配分器108は、さらなる演算についての配分およびスケジューリングを再最適化し得る。この再最適化については図2を参照して以下でさらに説明している。
図2は、計算グラフを処理するための例示的なプロセス200のフロー図である。便宜上、プロセス200は、1つまたは複数のロケーションに位置する1つまたは複数のコンピュータのシステムによって行われるものとして説明している。例えば、計算グラフシステム、例えば、適切にプログラムされた、図1の計算グラフシステム100が、プロセス200を行い得る。
システムが、計算グラフを処理する要求をクライアントから受信する(ステップ202)。例えば、要求は、図1を参照して上述したように、計算グラフによって表されるニューラルネットワーク推論を指定された入力に対して行う要求、計算グラフによって表されるニューラルネットワーク訓練演算を訓練データの指定されたセットに対して行う要求、または計算グラフによって表される他のニューラルネットワーク演算を行う要求であり得る。
システムが、計算グラフを表すデータを取得する(ステップ204)。いくつかのケースにおいては、データは、クライアントからの要求とともに送信される。他のケースにおいては、要求は、計算グラフを特定し、システムは、特定されたグラフを表すデータをメモリから読み出す。例として、グラフを表すデータは、グラフ内のノードの配列であり得る。各ノードは、演算タイプ、名称、およびノードに対する入力方向および出力方向エッジのリストを指定する情報を含み得る。
システムが要求された演算を行うための複数の利用可能なデバイスを特定する(ステップ206)。システムは、例えば、データセンタにおいて、多くのデバイスと接続し得る。システムは、例えば、図1の実行器106を使用して、各デバイスの状態を維持し得る。各デバイスは、ビジーまたは利用可能のいずれかであり得る。デバイスが他の演算を現時点行っておりさらなる演算を割り当てることができない場合には、またさもなければ、グラフ処理演算を行うのに利用不可である場合には、デバイスはビジーである。デバイスにさらなる演算を割り当てることができる場合には、例えば、さらなる演算をデバイスによってキューに入れることができる場合には、デバイスは利用可能である。
システムが、複数のサブグラフに計算グラフを分割する(ステップ208)。各サブグラフは、計算グラフ内の1つまたは複数のノードを含む。いくつかの実施形態においては、クライアントからの要求は、どのように計算グラフを所定のサブグラフに分割すべきかを指定するラベルを含む。例えば、ユーザは、計算グラフのためのラベルを手動で生成し、要求にラベルを含め得る。要求がそのようなラベルを含む場合には、システムは、計算グラフを所定のサブグラフに分割する。
いくつかの他の実施形態においては、システムは、どのように計算グラフを配置するかに基づいて計算グラフを分割する。具体的には、システムは、チェーン構造内に配置されている計算グラフ内の1つまたは複数のノードを接続する有向エッジを特定するためにグラフを分析し得る。チェーン構造内のノードは、ノードからノードへの1つの有向エッジに従って互いに接続されるノードである。そのため、チェーン内のノードは、それ自身の演算を計算する前に、チェーン内の前段のノードにおける演算が計算を終了するのを待機する必要がある。サブグラフの分割については図3を参照してさらに説明している。
さらに他の実施形態においては、システムは、グラフ内のノードをクラスタリングし、その後、同一のクラスタ内のノードを同一のサブグラフに割り当てる。具体的には、システムは、有向エッジ上を流れる共有データに対して演算を行うノードを特定するためにグラフを分析し得る。例えば、複数のノードは、入力として、前段のノードから同一のデータを受信し得る。システムは、サブグラフが特定のデバイスに割り当てられた際にノードによって表される複数の演算のために同一のデータを記憶するメモリをデバイスが再利用することができるように、同一のサブグラフ内で同一のデータを受信する、そのようなノードをクラスタリングし得る。このことについては図3を参照してさらに説明している。
どのようにシステムがサブグラフを生成するかについてのより詳細については以下で見つけることができる。
システムは、各サブグラフについて、サブグラフ内の1つまたは複数のノードによって表される演算をそれぞれの利用可能なデバイスに割り当てる(ステップ210)。いくつかの実施形態においては、システムは、各サブグラフを、サブグラフ内のノードによって表される演算を行うために必要な計算性能を有するデバイスに割り当てる。いくつかの実施形態においては、クライアントからの要求は、特定のノードのための演算を行う特定のタイプのデバイスを特定する、ユーザによって指定されたデータを含む。例えば、数学的に処理の重い演算を有する特定のノードはGPUに割り当てられるべきであると、ユーザは指定することができる。システムは、特定のノードを含むサブグラフを特定のタイプを有するデバイスに割り当て得る。
いくつかの他の実施形態においては、システムは、サブグラフ内のノードを表す演算によって消費されることになるリソースの最大量を評価することによって、デバイスにどのサブグラフを割り当てるかを決定する。例えば、システムは、サブグラフ内のいずれかのノードによって消費されることになるメモリの最大量を算出し得る。具体的には、システムは、サブグラフを横断して、サブグラフの各ノードへの各有向エッジ上および各ノードからの各有向エッジ上のテンソルの次元を算出し得る。テンソルの次元は、演算を行うのにデバイスによって消費されることになるメモリのサイズを示す。システムは、サブグラフ内を流れる最大のテンソルを記憶することが可能なメモリを有するデバイスにサブグラフを割り当て得る。
サブグラフをデバイスに割り当てる別の実施形態については図4を参照して以下でさらに説明しており、どのようにシステムがサブグラフをデバイスに割り当てるかについてのより詳細については以下で見つけることができる。
システムが、デバイスに割り当てられたノードの演算をデバイスに行わせる(ステップ212)。いくつかの実施形態においては、システムは、演算を開始する要求を各デバイスに送信する。デバイスは、要求を受信し、それに応じて、デバイスに割り当てられたノードの演算を行うことを開始する。いくつかの実施形態においては、デバイスは、デバイスに割り当てられたノードの演算を非同期的に行う。例えば、デバイスは、キュー、非ブロッキングカーネル、またはその両方を使用して非同期的に演算を行い得る。非同期的に演算を行うことを以下で説明している。
図3は、例示的な計算グラフを図示している。例として、計算グラフシステム、例えば、図1に記載のシステム100は、入力のセットが与えられたときに計算グラフを使用して推論を計算する要求をクライアントから受信し得る。具体的には、クライアントは、ノード316の出力を要求し得る。入力のセットは、ノード302に有向エッジ上で提供され得る。
システムは、計算グラフを3つのサブグラフ318〜322に分割し得る。サブグラフ318〜322を生成するために、システムは、ノードのチェーンを特定するために計算グラフを分析し得る。例えば、システムは、ノード304、316の第1のチェーン、ノード302、306、310の第2のチェーン、およびノード308、312、314の第3のチェーンを特定し得る。ノードの他の可能なチェーンが考えられるが、システムは、サブグラフの数を最小化するチェーンを選択し得る。システムは、ノードのチェーンをそれぞれのサブグラフにグループ化し得る。
いくつかの実施形態においては、ノード306の出力が同一である場合には、システムは、ノード306、308、および310を1つのサブグラフにグループ化する。これは、ノード310および308の両方がノード306から同一の出力を受信しているためである。この場合には、ノード310および308によって表される演算を、メモリ消費を最小化するために同一のデバイス上で行う。すなわち、デバイスは、ノード310および308の両方のための演算を行う際に、ノード306からの出力を記憶する同一のメモリロケーションにアクセスし得る。
システムは、3つのサブグラフ318〜322を3つのそれぞれの利用可能なデバイスに割り当て得る。第1のサブグラフ322が初期ノード302を含み、そのノードのいずれもが他のサブグラフの出力に依存していないため、システムは、第1のサブグラフ322を割り当てることによって開始してもよい。第1のサブグラフ322を割り当てると、システムは、第2のサブグラフ318を割り当て得る。第2のサブグラフ318内のノード304は、第1のサブグラフ322に割り当てられたデバイスによって算出されることになるノード302の出力を要求する。
いくつかの実施形態においては、システムは、ノード302によって表される演算が完了したということについてのインディケーションを受信するまで、第2のサブグラフ318を割り当てるのを待機する。このことは、現在の情報、例えば、メモリまたはデバイスの利用可能性に基づいて、サブグラフをシステムが動的に割り当てることを可能にしており、効率を改善している。インディケーションを受信すると、システムは、ノード302の出力のサイズをハンドリングすることが可能なデバイスに第2のサブグラフ318を割り当て得る。いくつかの他の実施形態においては、システムは、ノード302および304から有向エッジ上を流れるテンソルの次元を決定するためにグラフを分析する。システムは、その後、テンソルの次元に基づいて第2のサブグラフ318を割り当て得る。すなわち、システムは、第2のサブグラフ318に対するテンソルのメモリ要件をハンドリングし得るデバイスに第2のサブグラフ318に割り当てる。
同様に、第3のサブグラフ320の初期ノード308は、ノード306の出力を要求する。システムは、第1のサブグラフが割り当てられたデバイスがノード306によって表される演算を完了するまで、第3のサブグラフ320を割り当てるのを待機し得る。ノード306によって表される演算が完了すると、システムは、第3のサブグラフ320をそれぞれの利用可能なデバイスに割り当てるためにノード306の出力を分析し得る。
デバイスは、まだ完了していない入力を必要とするノードにおいては、演算を一時中止し得る、例えば、アイドル状態に遷移し得る。例えば、ノード308のための演算を行った後に、第3のサブグラフ320に割り当てられたデバイスは、ノード312のための演算を行い得る。第3のサブグラフ320に割り当てられたデバイスは、その後、ノード310からの入力が受信されたかどうかを決定する。デバイスは、デバイスが入力をノード310から受信するまで、ノード312のための演算を行うのを待機し得る。
最終ノードすなわちノード316が演算を行った後に、ノードが割り当てられているデバイスは、ノードの出力またはグラフの処理が完了したということについてのインディケーションをシステムに返し得る。システムは、その後、必要に応じて、出力をクライアントに返し得る。
図4は、例示的なプロセス400のフロー図である。便宜上、プロセス400は、1つまたは複数のロケーションに位置する1つまたは複数のコンピュータのシステムによって行われるものとして説明している。例えば、計算グラフシステム、例えば、適切にプログラムされた、図1の計算グラフシステム100が、プロセス400を行い得る。
システムが、デバイスに対するサブグラフの初期割り当てを決定する(ステップ402)。システムは、貪欲法を使用してデバイスに対する初期割り当てを決定し得る。すなわち、システムは、サブグラフ内の1つまたは複数の初期ノードを分析することによって、デバイスにどのサブグラフを割り当てるかを決定する。初期ノードは、データがサブグラフ内で流れることを開始するノードである。
いくつかの実施形態においては、システムは、初期ノードによって表される演算によって、または、初期ノードに接続されているノードによって表される演算によって、消費されることになるメモリの量を決定する。図2および図3を参照して上述したように、システムは、消費されることになるメモリの量を図2を参照して上述したように決定するために、初期ノードへのまたは初期ノードからのテンソルの次元を分析し得る。
決定した量に基づいて、システムは、少なくとも決定した量のメモリを有するデバイスにサブグラフを割り当てる。後続のノードではなく初期ノードを考慮することによって、システムは、サブグラフをデバイスに迅速に割り当て得るが、例えば、割り当てられたデバイスが十分なメモリを有しておらず、そのため、サブグラフ内で表されている後続の演算を行うためにページングを実施しなければならない場合には、後続のノードは割り当てられたデバイスが効率的に処理することが可能ではなくなりかねないリソースを要求し得るため、割り当てが最適とはならない可能性がある。
システムが、統計値を決定するためにデバイスによってグラフの処理をモニタする(ステップ404)。例えば、システムは、デバイスの各々についての動作時間、アイドル時間、またはその両方をモニタし得る。動作時間は、デバイスがクライアントからの要求を完了するのにかかる時間である。すなわち、システムは、各デバイスがサブグラフの割り当てられた演算を完了するのにどれくらいかかるかを測定する。システムはまた、デバイスに割り当てられたサブグラフの処理中に各デバイスアイドルが後続の演算をどれくらい待機するかを測定し得る。
システムが、統計値を使用して初期割り当てを調整する(ステップ406)。具体的には、システムは、動作時間もしくはアイドル時間、またはその両方を最小化するように初期割り当てを調整し得る。例として、システムは、第1および第2のサブグラフのそれぞれの初期ノードに基づいて、第1のサブグラフのための演算を行う第1のデバイスと第2のサブグラフのための演算を行う第2のデバイスとをまず割り当て得る。演算を行う時間をトラッキングした後に、システムは、第1のデバイスと第2のデバイスとの間のリソースの利用を比較し得る。第1のデバイスが第2のデバイスより長い期間アイドルである場合には、今のところ、第1のデバイスは、第2のデバイスより多くの処理能力およびメモリを有しており、システムは、第1および第2のサブグラフを使用する演算のための後続の要求について第2のデバイスに対する第1のサブグラフの割り当てと第1のデバイスに対する第2のサブグラフの割り当てとを調整し得る。
システムが、調整した割り当てに従ってデバイスにサブグラフを再割り当てする(ステップ408)。すなわち、上記の説明に続いて、第1および第2のサブグラフする演算のための後続の要求に応じて、システムは、第2のデバイスに第1のサブグラフを割り当てて、第1のデバイスに第2のサブグラフを割り当てる。
システムは、割り当てを連続的に更新してパフォーマンスを改善するためにステップ404〜408を繰り返し得る。例えば、システムは、アイドル時間を最小化する割り当ての調整について複数の考えられる候補が存在すると決定する場合がある。システムは、特定のサブグラフを多数の異なるデバイスに割り当てるオプションを有し得る。ある特定のサブグラフの後続の演算において、システムは、第1の考えられる候補を選択し、演算の完了に対して第1の動作時間を測定する。別の後続の演算において、システムは、第2のイテレーションの間は第2の考えられる候補を選択し、完了に対して第2の動作時間を測定する。さらに別の後続の演算において、システムは、最短の動作時間を有する考えられる候補を選択するとともに、異なるサブグラフに対する割り当てについて異なる考えられる候補を選択し得る。いくつかの実施形態においては、システムは、改善についての閾値量に達するまで前記ステップを繰り返し得る。
デバイスがそれぞれのサブグラフに割り当てられた後に、デバイスは、それぞれのサブグラフの演算を行って、例えば、計算グラフによって表されるニューラルネットワーク(または他の機械学習モデル)を使用してモデル入力を処理する。演算を完了すると、デバイスは、演算が完了したことを、または、もしあれば、演算の出力を、システムに通知し得る。システムによって受信された要求は、いくつかのケースにおいては、計算グラフ内の特定のノードの1つまたは複数の出力を含む応答を指定し得る。システムは、特定のデバイスが割り当てられた1つまたは複数のデバイスから、演算が完了した後に特定のノードの出力を受信し得る。システムは、その後、図1を参照して上述したように、出力をクライアントに提供し得る。
いくつかの実施形態においては、ユーザは、計算グラフの一部、例えば、計算グラフのサブグラフ、計算グラフ内のノード、または計算グラフ内の複数のノードの異なるコレクションを、他の計算グラフのコンポーネントとして再利用することができる関数として、指定することができる。具体的には、これらの実施形態においては、計算グラフを特定するシステムデータを提供した後に、ユーザは、再利用可能な関数として計算グラフの特定の一部を指定して再利用可能な関数を、関数名、例えば、システム生成された識別子またはユーザ指定の論理的な名称と関連付ける、要求を送信し得る。システムは、その後、特定の一部内のノードおよびエッジを特定するとともにその一部を関数名と関連付けるデータを保存し得る。その後に、システムは、関数に対するリファレンス、例えば、他の計算グラフ内の特定のノードの出力が関数名を有する関数に対する入力として提供されるべきであるとともに関数の出力が他の計算グラフ内の別の特定のノードに対する入力として提供されるべきであるということについてのインディケーションを含む別の計算グラフを処理する要求を受信し得る。要求に応じて、システムは、関数名に関連付けられたグラフの一部を特定し得るし、適切な位置にそのグラフの一部を含む拡張計算グラフを生成し得る。システムは、その後、上述したように、拡張計算グラフを処理し得る。そのため、ユーザは、毎度これらの演算を表すグラフの一部を再生成する必要もなく、ある共通の再利用される演算、例えば、特定の構成のニューラルネットワーク層の演算をそれらの計算グラフ内に容易に含めることができる。
本明細書において説明した発明特定事項の実施形態および機能的な動作は、本明細書において開示した構造およびそれらの構造的均等物含む、デジタル電子回路、有形に具現化されたコンピュータソフトウェアもしくはファームウェア、コンピュータハードウェア、またはその組合せのうちの1つまたは複数で実装され得る。本明細書において説明した発明特定事項の実施形態は、1つまたは複数のコンピュータプログラム、すなわち、データ処理装置によってまたはデータ処理装置の動作を制御するために、実行のために有形非一時的プログラムキャリア上で符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実装され得る。あるいはまたは加えて、プログラム命令は、人工的に生成された伝搬信号、例えば、データ処理装置によって実行に適した受信機装置への伝送のための情報を符号化するために生成される、機械生成された電気、光学、または電磁気信号上に、符号化され得る。コンピュータ記憶媒体は、機械可読ストレージデバイス、機械可読ストレージ回路基板、ランダムもしくはシリアルアクセスメモリデバイス、またはその組合せのうちの1つまたは複数であり得る。しかしながら、コンピュータ記憶媒体は、伝搬信号ではない。
「データ処理装置」という用語は、例として、プログラマブルプロセッサ、コンピュータ、またはマルチプルプロセッサまたはコンピュータを含む、データを処理するためのすべての種類の装置、デバイス、および機械を含む。装置は、特殊用途ロジック回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含み得る。装置はまた、ハードウェアに加えて、当該のコンピュータプログラムのための実行環境を作成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの組合せのうちの1つまたは複数を構成するコードを含み得る。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードとしても称され得るまたは開示され得る)は、コンパイル型もしくはインタプリタ型言語、または宣言型もしくは手続き型言語を含む、任意の形式のプログラミング言語で書かれ得るし、スタンドアロンプログラムとして、または、モジュール、コンポーネント、サブルーチン、またはコンピューティング環境における使用に適した他のユニットとしてといったことを含む、任意の形式でデプロイされ得る。コンピュータプログラムは、ファイルシステム内のファイルに対応してもよい必ずしも対応する必要はない。プログラムは、他のプログラムまたはデータ、例えば、マークアップ言語のドキュメントに記憶された1つまたは複数のスクリプトを保持するファイルの一部に、当該のプログラム専用の単一のファイルに、または、複数の協調ファイル、例えば、1つまたは複数のモジュール、サブプログラム、またはコードの一部を記憶するファイルに、記憶され得る。コンピュータプログラムは、1つのコンピュータ上で、または、1箇所に位置するもしくは複数のサイトにわたって分散され通信ネットワークによって相互通信する複数のコンピュータ上で、実行されるようにデプロイされ得る。
本明細書において使用しているように、「エンジン」または「ソフトウェアエンジン」は、入力とは異なる出力を提供する入力/出力システムを実装するソフトウェアを指す。エンジンは、機能性、例えば、ライブラリ、プラットフォーム、ソフトウェア開発キット(「SDK」)、またはオブジェクトなどの符号化ブロックであり得る。各エンジンは、1つまたは複数のプロセッサとコンピュータ可読媒体とを含む、任意の適切なタイプのコンピュータデバイス、例えば、サーバ、モバイル電話、タブレットコンピュータ、ノードブックコンピュータ、音楽プレーヤ、電子書籍リーダ、ラップトップもしくはデスクトップコンピュータ、PDA、スマートフォン、または他の固定またはポータブルデバイスに実装され得る。加えて、2つ以上のエンジンが、同一のコンピュータデバイス上にまたは異なるコンピュータデバイス上に実装され得る。
本明細書において説明したプロセスおよびロジックフローは、入力データを処理して出力を生成することによって機能を実施するために1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルコンピュータによって実施され得る。プロセスおよびロジックフローはまた、特殊用途ロジック回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実施され得るし、装置はまた、そのような特殊用途ロジック回路として実装され得る。
コンピュータプログラムの実行に適したコンピュータは、例として、汎用もしくは特殊用途マイクロプロセッサまたはその両方、または任意の他の種類の中央処理装置を含むまたは基づき得る。一般的に、中央処理装置は、リードオンリーメモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受信することになる。コンピュータの必須要素は、命令を実施または実行するための中央処理装置と、命令およびデータを記憶するための1つまたは複数のメモリデバイスとである。一般的に、コンピュータはまた、例えば、磁気、光磁気ディスク、または光ディスクといったデータを記憶するための1つまたは複数のマスストレージデバイスを含む、または、そのような1つまたは複数のマスストレージデバイスからデータを受信もしくはそのような1つまたは複数のマスストレージデバイスにデータを送信またはその両方を行うことが動作可能に接続される。しかしながら、コンピュータは、必ずしもそのようなデバイスを有する必要はない。さらに、コンピュータは、別のデバイス、数例挙げるとすれば、例えば、モバイル電話、携帯情報端末(PDA)、モバイルオーディオもしくはビデオプレーヤ、ゲームコンソール、グローバルポジショニングシステム(GPS)受信機、または、例えばユニバーサルシリアルバス(USB)フラッシュドライブといったポータブルストレージデバイスに組み込まれ得る。
コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、例えば、EPROM、EEPROM、およびフラッシュメモリデバイスといった半導体メモリデバイス、例えば、内部ハードディスクまたはリムーバブルディスクといった磁気ディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、すべての形式の不揮発性メモリ、メディア、およびメモリデバイスを含む。プロセッサおよびメモリは、特殊用途ロジック回路によって補完され得る、または、特殊用途ロジック回路に組み込まれ得る。
ユーザとのインタラクションを提供するために、本明細書において説明した発明特定事項の実施形態は、例えば、CRT(陰極線管)モニタ、LCD(液晶ディスプレイ)モニタ、またはOLEDディスプレイといった、ユーザに情報を表示するための表示デバイスと、例えば、キーボード、マウス、またはプレゼンス感知型ディスプレイもしくは他のサーフェスといった、コンピュータに入力を提供するための入力デバイスとを有する、コンピュータに実装され得る。他の種類のデバイスも同様に、ユーザとのインタラクションを提供するために使用され得るし、例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックなどといった、任意の形式の感覚フィードバックであり得るし、ユーザからの入力は、音響、音声、または触覚入力を含む、任意の形式で受信され得る。加えて、コンピュータは、ユーザによって使用されるデバイスにリソースを送信するとともにユーザによって使用されるデバイスからリソースを受信することによって、例えば、ウェブブラウザから受信した要求に応じてユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザとのインタラクションを行い得る。
本明細書において説明した発明特定事項の実施形態は、例えば、データサーバとして、バックエンドコンポーネントを含む、または、例えば、アプリケーションサーバといった、ミドルウェアコンポーネントを含む、例えば、ユーザがそれを介して本明細書において説明した発明特定事項の実施形態とインタラクションを行い得る、グラフィックユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータといった、フロントエンドコンポーネントを含む、コンピューティングシステムにおいて実装され得る、または、そのようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントのうちの1つまたは複数の任意の組合せで実装され得る。システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信によって相互接続され得る、例えば、通信ネットワークによって相互接続され得る。通信ネットワークの例としては、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)を含む、例えば、インターネットを含む。
コンピューティングシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは、一般的に互いにリモートに存在しており、通信ネットワークを介して通常はインタラクションを行う。クライアントとサーバとの関係は、それぞれのコンピュータ上で動作するとともに互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。
本明細書は多くの特定の実施形態詳細を含んでいるが、これらは、任意の発明の範囲または主張される可能性がある範囲を限定するものとして解釈されるべきではなく、特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態に関連して本明細書に説明したある特徴はまた、単一の実施形態における組合せで実施され得る。反対に、単一の実施形態に関連して説明した様々な特徴はまた、複数の実施形態で別々にまたは任意の適切なサブコンビネーションで実施され得る。さらに、特徴を、ある組合せで動作するように上述しているとしても、たとえそのようにはじめは主張していたとしても、いくつかのケースでは、主張した組合せのうちの1つまたは複数の特徴を、組合せから削除し得るし、主張した組合せは、サブコンビネーションまたはサブコンビネーションの変形を対象とし得る。
同様に、動作を特定の順序で図面に図示しているが、このことを、望ましい結果を達成するためには、図示した特定の順序でもしくはシーケンシャルな順序でそのような動作を行う必要がある、または、図示した動作をすべて行う必要がある、と理解すべきではない。ある環境においては、マルチタスク処理およびパラレル処理が有利となる場合もある。さらに、上述した実施形態における様々なシステムモジュールおよびコンポーネントの分離はすべての実施形態においてそのような分離が必要であると理解すべきではないし、説明したプログラムコンポーネントおよびシステムは一般的に単一のソフトウェア製品内に一緒に統合され得るまたは複数のソフトウェア製品にパッケージされ得ると理解すべきである。
上に述べたように、発明特定事項の特定の実施形態を説明してきた。他の実施形態も以下の特許請求の範囲の範囲内にある。例えば、特許請求の範囲に記載のアクションは、異なる順序で行われ、望ましい結果をそれでも達成し得る。一例として、添付の図面に図示したプロセスは、望ましい結果を達成するために、図示した特定の順序またはシーケンシャルな順序を必ずしも必要としているわけでない。ある実施形態においては、マルチタスク処理およびパラレル処理が有利となる場合もある。
100 システム
102 クライアント
104 セッションマネージャ
106 実行器
108 配分器
114 ネットワーク
116 デバイス
118 デバイス
120 デバイス
122 デバイス
302 ノード
304 ノード
306 ノード
308 ノード
310 ノード
312 ノード
316 ノード
318 サブグラフ
320 サブグラフ
322 サブグラフ

Claims (28)

  1. 計算グラフを処理するコンピュータ実施方法であって、
    計算グラフを処理する要求をクライアントから受信するステップと、
    前記計算グラフを表すデータを取得するステップであって、前記計算グラフは、複数のノードおよび有向エッジを含み、各ノードは、それぞれの演算を表し、各有向エッジは、それぞれの第1のノードによって表される演算の出力を入力として受信する演算を表すそれぞれの第2のノードに前記それぞれの第1のノードを接続する、ステップと、
    前記要求された演算を行うための複数の利用可能なデバイスを特定するステップと、
    複数のサブグラフに前記計算グラフを分割するステップであって、各サブグラフは、前記計算グラフ内の1つまたは複数のノードを含む、ステップと、
    各サブグラフについて、前記サブグラフ内の前記1つまたは複数のノードによって表される前記演算を、処理するための前記複数の利用可能なデバイスのうちのそれぞれの利用可能なデバイスに割り当てるステップと
    を含む、方法。
  2. 前記要求は、1つまたは複数のそれぞれのノードから1つまたは複数の特定の出力を指定し、
    前記1つまたは複数のそれぞれのノードが割り当てられたデバイスから、前記1つまたは複数の特定の出力を受信するステップと、
    前記1つまたは複数の特定の出力を前記クライアントに提供するステップと
    をさらに含む、請求項1に記載の方法。
  3. 前記計算グラフの前記1つまたは複数のノードによって表される前記演算は、ニューラルネットワークのための推論または訓練演算である、請求項1または2に記載の方法。
  4. 前記要求は、複数の所定のサブグラフに前記計算グラフを分割するラベルを含み、前記計算グラフを分割するステップは、前記複数の所定のサブグラフに前記計算グラフを分割するステップを含む、請求項1、2、または3に記載の方法。
  5. 前記複数の利用可能なデバイスのうちの各デバイスは、前記複数の利用可能なデバイスのうちの他のデバイスから独立した演算を行うハードウェアリソースである、請求項1から4のいずれか一項に記載の方法。
  6. 各サブグラフについて、前記サブグラフ内の前記1つまたは複数のノードによって表される前記演算を、それぞれのデバイスに割り当てるステップは、前記演算を、前記サブグラフ内の前記ノードによって表される前記演算を行うために必要な計算性能を有するデバイスに割り当てるステップを含む、請求項1から5のいずれか一項に記載の方法。
  7. チェーン構造内に配置されているノードのグループを特定するために前記計算グラフを分析するステップをさらに含み、
    前記分割するステップは、特定されたグループの各々について、ノードの前記特定されたグループを含むそれぞれのサブグラフを生成するステップを含む、請求項1から6のいずれか一項に記載の方法。
  8. ノードのグループに向けて有向エッジ上を流れる共有データを演算する前記ノードのグループを特定するために前記計算グラフを分析するステップをさらに含み、
    前記分割するステップは、特定されたグループの各々について、ノードの前記特定されたグループを含むそれぞれのサブグラフを生成するステップを含む、請求項1から7のいずれか一項に記載の方法。
  9. デバイスに対するサブグラフ内の1つまたは複数のノードによって表される演算の初期割り当てを決定するステップと、
    統計値を決定するために前記デバイスをモニタするステップと、
    前記統計値を使用して前記初期割り当てを調整するステップと、
    前記調整した初期割り当てに基づいて前記サブグラフの前記演算を前記デバイスに再割り当てするステップと
    をさらに含む、請求項1から8のいずれか一項に記載の方法。
  10. 改善についての閾値量に達するまで、前記モニタするステップと、前記調整するステップと、前記再割り当てするステップとを繰り返すステップをさらに含む、請求項9に記載の方法。
  11. 前記統計値は、各サブグラフについてのそれぞれの動作時間またはそれぞれのアイドル時間を含む、請求項9に記載の方法。
  12. モデル入力を受信するステップと、処理済み計算グラフによって表される演算に従って前記モデル入力を処理するステップとをさらに含む、請求項1から11のいずれか一項に記載の方法。
  13. 請求項1から11のいずれか一項に記載の方法によって取得された処理済み計算グラフに対応する機械学習モデルを提供するステップと、モデル入力を前記機械学習モデルを使用して処理するステップとを含む、方法。
  14. システムであって、
    1つまたは複数のコンピュータと、
    前記1つまたは複数のコンピュータに接続されるとともに命令を記憶するコンピュータ可読媒体とを含み、前記命令は、前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、ニューラルネットワーク層の各々について、
    計算グラフを割り当てる要求をクライアントから受信するステップと、
    前記計算グラフを表すデータを取得するステップであって、前記計算グラフは、複数のノードおよび有向エッジを含み、各ノードは、それぞれの演算を表し、各有向エッジは、それぞれの第1のノードによって表される演算の出力を入力として受信する演算を表すそれぞれの第2のノードに前記それぞれの第1のノードを接続する、ステップと、
    前記要求された演算を行うための複数の利用可能なデバイスを特定するステップと、
    複数のサブグラフに前記計算グラフを分割するステップであって、各サブグラフは、前記計算グラフ内の1つまたは複数のノードを含む、ステップと、
    各サブグラフについて、前記サブグラフ内の前記1つまたは複数のノードによって表される前記演算を、処理するための前記複数の利用可能なデバイスのうちのそれぞれの利用可能なデバイスに割り当てるステップと
    を含む動作を行わせる、システム。
  15. 前記動作は、
    ノードのグループに向けて有向エッジ上を流れる共有データを演算する前記ノードのグループを特定するために前記計算グラフを分析するステップをさらに含み、
    前記分割するステップは、特定されたグループの各々について、ノードの前記特定されたグループを含むそれぞれのサブグラフを生成するステップを含む、請求項14に記載のシステム。
  16. 前記動作は、
    デバイスに対するサブグラフ内の1つまたは複数のノードによって表される演算の初期割り当てを決定するステップと、
    統計値を決定するために前記デバイスをモニタするステップと、
    前記統計値を使用して前記初期割り当てを調整するステップと、
    前記調整した初期割り当てに基づいて前記サブグラフの前記演算を前記デバイスに再割り当てするステップと
    をさらに含む、請求項14または15に記載のシステム。
  17. 前記演算は、改善についての閾値量に達するまで、前記モニタするステップと、前記調整するステップと、前記再割り当てするステップとを繰り返すステップをさらに含む、請求項16に記載のシステム。
  18. 前記統計値は、各サブグラフについてのそれぞれの動作時間またはそれぞれのアイドル時間を含む、請求項16に記載のシステム。
  19. 命令を有するコンピュータ可読媒体であって、前記命令は、1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、
    計算グラフを割り当てる要求をクライアントから受信するステップと、
    前記計算グラフを表すデータを取得するステップであって、前記計算グラフは、複数のノードおよび有向エッジを含み、各ノードは、それぞれの演算を表し、各有向エッジは、それぞれの第1のノードによって表される演算の出力を入力として受信する演算を表すそれぞれの第2のノードに前記それぞれの第1のノードを接続する、ステップと、
    前記要求された演算を行うための複数の利用可能なデバイスを特定するステップと、
    複数のサブグラフに前記計算グラフを分割するステップであって、各サブグラフは、前記計算グラフ内の1つまたは複数のノードを含む、ステップと、
    各サブグラフについて、前記サブグラフ内の前記1つまたは複数のノードによって表される前記演算を、処理するための前記複数の利用可能なデバイスのうちのそれぞれの利用可能なデバイスに割り当てるステップと
    を含む動作を行わせる、コンピュータ可読媒体。
  20. 前記動作は、
    デバイスに対するサブグラフ内のノードによって表される演算の初期割り当てを決定するステップと、
    統計値を決定するために前記デバイスをモニタするステップと、
    前記統計値を使用して前記初期割り当てを調整するステップと、
    前記調整した初期割り当てに基づいて前記演算を前記デバイスに再割り当てするステップと
    をさらに含む、請求項21に記載のコンピュータ可読媒体。
  21. 前記動作は、改善についての閾値量に達するまで、前記モニタするステップと、前記調整するステップと、前記再割り当てするステップとを繰り返すステップをさらに含む、請求項19または20に記載のコンピュータ可読媒体。
  22. 前記統計値は、各サブグラフについてのそれぞれの動作時間またはそれぞれのアイドル時間を含む、請求項20または請求項20に従属する場合の請求項21に記載のコンピュータ可読媒体。
  23. 複数のデバイスを使用して計算グラフに従ってモデル入力を処理するための方法であって、前記計算グラフは、複数のノードおよび有向エッジを含み、各ノードは、それぞれの演算を表し、各有向エッジは、それぞれの第1のノードによって表される演算の出力を入力として受信する演算を表すそれぞれの第2のノードに前記それぞれの第1のノードを接続し、前記方法は、前記複数のデバイスの各々について、
    前記デバイスに割り当てられた前記計算グラフのサブグラフを表すデータを受信するステップであって、前記サブグラフは、演算および前記計算グラフからの有向エッジを表す複数のノードを含む、ステップと、
    前記サブグラフ内の前記ノードによって表される前記演算を行うステップと
    を含む、方法。
  24. 前記サブグラフ内の1つまたは複数のそれぞれのノードから1つまたは複数の特定の出力を特定する要求を受信するステップと、
    前記1つまたは複数の特定の出力をクライアントに提供するステップと
    をさらに含む、請求項23に記載の方法。
  25. 統計値をモニタするステップと、
    前記統計値をクライアントに提供するステップと
    をさらに含む、請求項23または24に記載の方法。
  26. 前記統計値は、各サブグラフについてのそれぞれの動作時間またはそれぞれのアイドル時間を含む、請求項25に記載の方法。
  27. 前記サブグラフ内の前記ノードによって表される前記演算を行うステップは、非同期的に前記演算を行うステップを含む、請求項23から26のいずれか一項に記載の方法。
  28. 非同期的に演算を行うステップは、キュー、非ブロッキングカーネル、またはその両方を使用して前記演算を行うステップを含む、請求項27に記載の方法。
JP2018521825A 2015-10-28 2016-10-28 計算グラフの処理 Active JP6983154B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020085262A JP6898496B2 (ja) 2015-10-28 2020-05-14 計算グラフの処理

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562247709P 2015-10-28 2015-10-28
US62/247,709 2015-10-28
US201562253009P 2015-11-09 2015-11-09
US62/253,009 2015-11-09
PCT/US2016/059449 WO2017075438A1 (en) 2015-10-28 2016-10-28 Processing computational graphs

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020085262A Division JP6898496B2 (ja) 2015-10-28 2020-05-14 計算グラフの処理

Publications (2)

Publication Number Publication Date
JP2018538607A true JP2018538607A (ja) 2018-12-27
JP6983154B2 JP6983154B2 (ja) 2021-12-17

Family

ID=57822016

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018521825A Active JP6983154B2 (ja) 2015-10-28 2016-10-28 計算グラフの処理
JP2020085262A Active JP6898496B2 (ja) 2015-10-28 2020-05-14 計算グラフの処理

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2020085262A Active JP6898496B2 (ja) 2015-10-28 2020-05-14 計算グラフの処理

Country Status (6)

Country Link
US (4) US10860925B2 (ja)
EP (2) EP3353656B1 (ja)
JP (2) JP6983154B2 (ja)
KR (4) KR102076257B1 (ja)
CN (2) CN108292241B (ja)
WO (1) WO2017075438A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210103928A (ko) * 2020-02-14 2021-08-24 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 태스크 병렬 처리 구현 방법, 장치, 기기 및 매체
US11176449B1 (en) 2020-05-15 2021-11-16 Edgecortix Pte. Ltd. Neural network accelerator hardware-specific division of inference into groups of layers

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3353656B1 (en) 2015-10-28 2020-05-06 Google LLC Processing computational graphs
US10506016B2 (en) 2016-05-19 2019-12-10 Oracle International Corporation Graph analytic engine that implements efficient transparent remote access over representational state transfer
US10275287B2 (en) 2016-06-07 2019-04-30 Oracle International Corporation Concurrent distributed graph processing system with self-balance
US11907760B2 (en) * 2016-09-23 2024-02-20 Apple Inc. Systems and methods of memory allocation for neural networks
US10656970B2 (en) * 2016-09-28 2020-05-19 Futurewei Technologies, Inc. Scheduling graph computing on heterogeneous processing resources based on energy efficiency
US11615285B2 (en) * 2017-01-06 2023-03-28 Ecole Polytechnique Federale De Lausanne (Epfl) Generating and identifying functional subnetworks within structural networks
US10318355B2 (en) * 2017-01-24 2019-06-11 Oracle International Corporation Distributed graph processing system featuring interactive remote control mechanism including task cancellation
US10534657B2 (en) 2017-05-30 2020-01-14 Oracle International Corporation Distributed graph processing system that adopts a faster data loading technique that requires low degree of communication
US11138516B2 (en) * 2017-06-30 2021-10-05 Visa International Service Association GPU enhanced graph model build and scoring engine
CN110476173B (zh) 2017-07-21 2023-08-01 谷歌有限责任公司 利用强化学习的分层设备放置
US10599482B2 (en) * 2017-08-24 2020-03-24 Google Llc Method for intra-subgraph optimization in tuple graph programs
US10887235B2 (en) 2017-08-24 2021-01-05 Google Llc Method of executing a tuple graph program across a network
US10642582B2 (en) 2017-08-24 2020-05-05 Google Llc System of type inference for tuple graph programs method of executing a tuple graph program across a network
EP3682379A1 (en) * 2017-09-15 2020-07-22 Google LLC Augmenting neural networks
US11620490B2 (en) * 2017-10-17 2023-04-04 Xilinx, Inc. Multi-layer neural network processing by a neural network accelerator using host communicated merged weights and a package of per-layer instructions
GB2569270B (en) * 2017-10-20 2020-02-19 Graphcore Ltd Parallel computing
EP3502975A1 (en) * 2017-12-20 2019-06-26 Fujitsu Limited Methods and apparatus for model parallelism in artificial neural networks
US11119808B2 (en) * 2018-01-10 2021-09-14 Mistnet.io, Inc. Geo-distributed computation and analytics based on cost of transporting and computational cost
US11551144B2 (en) * 2018-01-30 2023-01-10 Deepmind Technologies Limited Dynamic placement of computation sub-graphs
CN108491259B (zh) * 2018-03-30 2019-04-02 北京航天宏图信息技术股份有限公司 遥感算法流程并行调度方法及装置
US11514054B1 (en) * 2018-06-04 2022-11-29 Amazon Technologies, Inc. Supervised graph partitioning for record matching
JP7378836B2 (ja) * 2018-06-05 2023-11-14 パラマス,パーヴォ 総和確率的勾配推定方法、装置、およびコンピュータプログラム
US11663478B2 (en) 2018-06-11 2023-05-30 Inait Sa Characterizing activity in a recurrent artificial neural network
US11893471B2 (en) 2018-06-11 2024-02-06 Inait Sa Encoding and decoding information and artificial neural networks
US11972343B2 (en) 2018-06-11 2024-04-30 Inait Sa Encoding and decoding information
US20190392287A1 (en) 2018-06-22 2019-12-26 Samsung Electronics Co., Ltd. Neural processor
CN110764744B (zh) * 2018-07-25 2023-12-08 赛灵思公司 用于神经网络计算的中间表示生成方法和装置
CN110765821B (zh) * 2018-07-27 2022-08-16 杭州海康威视数字技术股份有限公司 图像识别的方法及装置
CN115543566A (zh) * 2018-09-06 2022-12-30 第四范式(北京)技术有限公司 利用多线程执行计算图的方法和系统
EP3629246B1 (en) * 2018-09-27 2022-05-18 Swisscom AG Systems and methods for neural architecture search
KR20200053318A (ko) * 2018-11-08 2020-05-18 삼성전자주식회사 인공 신경망의 연산 처리 그래프를 관리하는 시스템 및 이를 이용한 연산 처리 그래프를 관리하는 방법
CN109508412B (zh) * 2018-11-20 2019-12-20 中科驭数(北京)科技有限公司 一种时间序列处理的计算流图构建方法和装置
US20200184366A1 (en) * 2018-12-06 2020-06-11 Fujitsu Limited Scheduling task graph operations
US11714992B1 (en) * 2018-12-13 2023-08-01 Amazon Technologies, Inc. Neural network processing based on subgraph recognition
CN109669772B (zh) * 2018-12-28 2020-03-31 第四范式(北京)技术有限公司 计算图的并行执行方法和设备
CN109902819B (zh) * 2019-02-12 2023-04-18 Oppo广东移动通信有限公司 神经网络计算方法、装置、移动终端及存储介质
CN111563584B (zh) * 2019-02-14 2022-12-09 上海寒武纪信息科技有限公司 一种神经网络模型的拆分方法及相关产品
CN111667046A (zh) * 2019-03-08 2020-09-15 富泰华工业(深圳)有限公司 深度学习加速方法及用户终端
US20200293838A1 (en) * 2019-03-13 2020-09-17 Deepmind Technologies Limited Scheduling computation graphs using neural networks
CN109919315B (zh) * 2019-03-13 2021-10-01 科大讯飞股份有限公司 一种神经网络的前向推理方法、装置、设备及存储介质
CN111694571B (zh) * 2019-03-15 2022-11-01 上海寒武纪信息科技有限公司 编译方法及装置
US11652603B2 (en) 2019-03-18 2023-05-16 Inait Sa Homomorphic encryption
US11569978B2 (en) 2019-03-18 2023-01-31 Inait Sa Encrypting and decrypting information
US11423254B2 (en) * 2019-03-28 2022-08-23 Intel Corporation Technologies for distributing iterative computations in heterogeneous computing environments
US11671111B2 (en) 2019-04-17 2023-06-06 Samsung Electronics Co., Ltd. Hardware channel-parallel data compression/decompression
CN111832714B (zh) * 2019-04-19 2023-11-17 上海寒武纪信息科技有限公司 运算方法及装置
US11880760B2 (en) 2019-05-01 2024-01-23 Samsung Electronics Co., Ltd. Mixed-precision NPU tile with depth-wise convolution
US11537939B2 (en) * 2019-05-03 2022-12-27 Google Llc Reshape and broadcast optimizations to avoid unnecessary data movement
US11790250B2 (en) * 2019-05-09 2023-10-17 Intel Corporation Using computational cost and instantaneous load analysis for intelligent deployment of neural networks on multiple hardware executors
US11836635B2 (en) 2019-05-31 2023-12-05 Apple Inc. Mutable parameters for machine learning models during runtime
CN112070221B (zh) * 2019-05-31 2024-01-16 中科寒武纪科技股份有限公司 运算方法、装置及相关产品
US11687789B2 (en) 2019-05-31 2023-06-27 Apple Inc. Decomposition of machine learning operations
CN110188871B (zh) * 2019-05-31 2021-01-26 安徽寒武纪信息科技有限公司 运算方法、装置及相关产品
US11080200B2 (en) 2019-05-31 2021-08-03 Apple Inc. Allocation of machine learning tasks into a shared cache
KR102325047B1 (ko) 2019-06-10 2021-11-11 포항공과대학교 산학협력단 그래프 데이터 처리 방법 및 그래프 데이터 처리 장치
US11494237B2 (en) 2019-06-26 2022-11-08 Microsoft Technology Licensing, Llc Managing workloads of a deep neural network processor
EP3970012A1 (en) 2019-07-17 2022-03-23 Google LLC Scheduling operations on a computation graph
WO2021012215A1 (zh) * 2019-07-24 2021-01-28 华为技术有限公司 神经网络切分方法、预测方法及相关装置
EP4024202A4 (en) 2019-09-18 2022-10-26 Huawei Technologies Co., Ltd. METHOD FOR CONSTRUCTING AN INTERMEDIATE REPRESENTATION, COMPILER AND SERVER
CN110689116B (zh) * 2019-09-24 2022-12-27 安徽寒武纪信息科技有限公司 一种神经网络剪枝方法、装置、计算机设备及存储介质
CN110689121A (zh) * 2019-09-24 2020-01-14 上海寒武纪信息科技有限公司 一种用多核处理器实现神经网络模型拆分方法及相关产品
KR102601738B1 (ko) * 2019-10-04 2023-11-13 주식회사 루닛 이미지 분석 방법 및 시스템
KR102068277B1 (ko) * 2019-10-04 2020-02-11 주식회사 루닛 이미지 분석 방법 및 시스템
KR102068279B1 (ko) * 2019-10-04 2020-01-20 주식회사 루닛 이미지 분석 방법 및 시스템
US11797827B2 (en) 2019-12-11 2023-10-24 Inait Sa Input into a neural network
US11816553B2 (en) 2019-12-11 2023-11-14 Inait Sa Output from a recurrent neural network
US11580401B2 (en) 2019-12-11 2023-02-14 Inait Sa Distance metrics and clustering in recurrent neural networks
US11651210B2 (en) 2019-12-11 2023-05-16 Inait Sa Interpreting and improving the processing results of recurrent neural networks
WO2021121628A1 (en) * 2019-12-20 2021-06-24 Telefonaktiebolaget Lm Ericsson (Publ) Dynamic distribution of a computational graph
US11709059B2 (en) * 2019-12-23 2023-07-25 Waymo Llc Asynchronous execution graphs for autonomous vehicles
CN111190741B (zh) * 2020-01-03 2023-05-12 深圳鲲云信息科技有限公司 基于深度学习节点计算的调度方法、设备及存储介质
US11620502B2 (en) * 2020-01-30 2023-04-04 Alibaba Group Holding Limited Hyper-square implementation of tree AllReduce algorithm for distributed parallel deep learning
US20210248115A1 (en) * 2020-02-10 2021-08-12 Nvidia Corporation Compute graph optimization
CN111338635B (zh) * 2020-02-20 2023-09-12 腾讯科技(深圳)有限公司 计算图的图编译方法、装置、设备及存储介质
US11461130B2 (en) 2020-05-26 2022-10-04 Oracle International Corporation Methodology for fast and seamless task cancelation and error handling in distributed processing of large graph data
CN111723935A (zh) * 2020-06-24 2020-09-29 湖北亿咖通科技有限公司 神经网络计算图的处理方法、计算机存储介质及电子设备
CN111708641B (zh) * 2020-07-14 2024-03-19 腾讯科技(深圳)有限公司 一种内存管理方法、装置、设备及计算机可读存储介质
CN111860820A (zh) * 2020-07-31 2020-10-30 北京灵汐科技有限公司 神经网络算子的划分方法、装置及划分设备
CN114169491A (zh) * 2020-09-10 2022-03-11 阿里巴巴集团控股有限公司 一种模型处理方法、装置、设备及计算机可读存储介质
CN114513770B (zh) * 2020-10-29 2024-01-30 伊姆西Ip控股有限责任公司 部署应用的方法、系统和介质
EP4352660A1 (en) * 2021-06-10 2024-04-17 Visa International Service Association Hierarchical periodicity detection on dynamic graphs system and method
KR102457153B1 (ko) * 2021-06-16 2022-10-20 주식회사 모레 프로그램에 대한 중간 표현을 관리하는 방법 및 시스템
KR102457152B1 (ko) * 2021-06-16 2022-10-20 주식회사 모레 프로그램의 중간표현에 대한 최적화 적용 가능성을 판단하는 방법 및 시스템
US11782706B1 (en) 2021-06-29 2023-10-10 Amazon Technologies, Inc. Reconfigurable neural network processing based on subgraph recognition
KR20230049468A (ko) * 2021-10-06 2023-04-13 삼성전자주식회사 복수의 서브 그래프들에 대한 인공 신경망 연산을 수행하는 인공 신경망 모듈 및 이의 동작 방법
JP7179237B1 (ja) * 2022-03-10 2022-11-28 三菱電機株式会社 ニューラルネットワーク装置
CN114819084B (zh) * 2022-04-26 2024-03-01 北京百度网讯科技有限公司 模型推理方法、装置、设备及存储介质
CN114840322B (zh) * 2022-05-17 2022-12-09 北京百度网讯科技有限公司 任务调度方法及装置、电子设备和存储
CN117668302A (zh) * 2022-08-26 2024-03-08 华为技术有限公司 图计算的方法、装置以及计算设备
WO2024053910A1 (ko) * 2022-09-08 2024-03-14 삼성전자주식회사 기계학습 모델에 적합한 가속기를 선택하는 장치 및 방법
CN116795519B (zh) * 2023-08-25 2023-12-05 江苏盖睿健康科技有限公司 一种基于互联网的远程智能调测方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04211858A (ja) * 1990-04-02 1992-08-03 Mitsubishi Electric Corp データフローグラフ分割装置及び分割方法
JPH05108595A (ja) * 1991-10-17 1993-04-30 Hitachi Ltd ニユーラルネツトワークの分散学習装置
JP2001117900A (ja) * 1999-10-19 2001-04-27 Fuji Xerox Co Ltd ニューラルネットワーク演算装置
JP2004185271A (ja) * 2002-12-03 2004-07-02 Fujitsu Ltd プログラム分割方法とそれを実施するプログラム
US20100325621A1 (en) * 2009-06-23 2010-12-23 International Business Machines Corporation Partitioning operator flow graphs
WO2014102996A1 (ja) * 2012-12-28 2014-07-03 株式会社日立製作所 情報処理システム
WO2014102917A1 (ja) * 2012-12-26 2014-07-03 株式会社日立製作所 並列処理方法、および並列計算機システム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5768594A (en) * 1995-07-14 1998-06-16 Lucent Technologies Inc. Methods and means for scheduling parallel processors
US6175957B1 (en) * 1997-12-09 2001-01-16 International Business Machines Corporation Method of, system for, and computer program product for providing efficient utilization of memory hierarchy through code restructuring
US7961636B1 (en) * 2004-05-27 2011-06-14 Cisco Technology, Inc. Vectorized software packet forwarding
US7350055B2 (en) * 2004-10-20 2008-03-25 Arm Limited Tightly coupled accelerator
US7343482B2 (en) * 2004-10-20 2008-03-11 Arm Limited Program subgraph identification
US9262228B2 (en) * 2010-09-23 2016-02-16 Microsoft Technology Licensing, Llc Distributed workflow in loosely coupled computing
JP2014059862A (ja) * 2012-08-22 2014-04-03 Canon Inc データフローのリソース割り当て装置および方法
JP6026236B2 (ja) 2012-11-16 2016-11-16 富士フイルム株式会社 金属錯体色素、光電変換素子、色素増感太陽電池、色素溶液、色素吸着電極及び色素増感太陽電池の製造方法
JP2014102996A (ja) 2012-11-20 2014-06-05 Hitachi Cable Ltd 軟質希薄銅合金線と接続端子との接合方法
CN103970604B (zh) * 2013-01-31 2017-05-03 国际商业机器公司 基于MapReduce架构实现图处理的方法和装置
JP5987720B2 (ja) * 2013-02-13 2016-09-07 富士通株式会社 二分決定グラフ処理システムおよび方法
US9424079B2 (en) * 2013-06-27 2016-08-23 Microsoft Technology Licensing, Llc Iteration support in a heterogeneous dataflow engine
KR20150007182A (ko) * 2013-07-10 2015-01-20 주식회사 포인트 화차 중량 측정 장치
US9489639B2 (en) * 2013-11-13 2016-11-08 Microsoft Technology Licensing, Llc Memory facilitation using directed acyclic graphs
US9645575B2 (en) 2013-11-27 2017-05-09 Adept Ai Systems Inc. Method and apparatus for artificially intelligent model-based control of dynamic processes using probabilistic agents
US20150324690A1 (en) * 2014-05-08 2015-11-12 Microsoft Corporation Deep Learning Training System
CN104035751B (zh) * 2014-06-20 2016-10-12 深圳市腾讯计算机系统有限公司 基于多图形处理器的数据并行处理方法及装置
US10686869B2 (en) * 2014-09-29 2020-06-16 Microsoft Technology Licensing, Llc Tool for investigating the performance of a distributed processing system
US9984337B2 (en) * 2014-10-08 2018-05-29 Nec Corporation Parallelized machine learning with distributed lockless training
US9543980B2 (en) * 2014-10-10 2017-01-10 Massachusettes Institute Of Technology Systems and methods for model-free compression and model-based decompression
CN104683488B (zh) * 2015-03-31 2018-03-30 百度在线网络技术(北京)有限公司 流式计算系统及其调度方法和装置
CN104820945B (zh) * 2015-04-17 2018-06-22 南京大学 基于社团结构挖掘算法的在线社会网络信息传播最大化方法
US10679145B2 (en) * 2015-08-07 2020-06-09 Nec Corporation System and method for balancing computation with communication in parallel learning
US20170091668A1 (en) * 2015-09-30 2017-03-30 Nec Laboratories America, Inc. System and method for network bandwidth aware distributed learning
EP3353656B1 (en) 2015-10-28 2020-05-06 Google LLC Processing computational graphs

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04211858A (ja) * 1990-04-02 1992-08-03 Mitsubishi Electric Corp データフローグラフ分割装置及び分割方法
JPH05108595A (ja) * 1991-10-17 1993-04-30 Hitachi Ltd ニユーラルネツトワークの分散学習装置
JP2001117900A (ja) * 1999-10-19 2001-04-27 Fuji Xerox Co Ltd ニューラルネットワーク演算装置
JP2004185271A (ja) * 2002-12-03 2004-07-02 Fujitsu Ltd プログラム分割方法とそれを実施するプログラム
US20100325621A1 (en) * 2009-06-23 2010-12-23 International Business Machines Corporation Partitioning operator flow graphs
WO2014102917A1 (ja) * 2012-12-26 2014-07-03 株式会社日立製作所 並列処理方法、および並列計算機システム
WO2014102996A1 (ja) * 2012-12-28 2014-07-03 株式会社日立製作所 情報処理システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JEFFREY DEAN, ET AL.: "Large Scale Distributed Deep Networks", PROCEEDING NIPS'12 OF THE 25TH INTERNATIONAL CONFERENCE ON NEURAL NEURAL INFORMATION PROCESSING SYST, vol. 1, JPN6019026489, 2012, pages 1 - 9, XP055980970, ISSN: 0004311976 *
青柳洋一、上原 稔、森 秀樹: "異粒度系における静的評価に基づくタスク割付方式", 情報処理学会研究報告, vol. 97, no. 78, JPN6019026493, 22 August 1997 (1997-08-22), JP, pages 7 - 12, ISSN: 0004311977 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210103928A (ko) * 2020-02-14 2021-08-24 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 태스크 병렬 처리 구현 방법, 장치, 기기 및 매체
JP2021128757A (ja) * 2020-02-14 2021-09-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド タスク並列処理の実現方法、装置、機器及び媒体
JP7094352B2 (ja) 2020-02-14 2022-07-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド タスク並列処理の実現方法、装置、機器及び媒体
KR102482122B1 (ko) 2020-02-14 2022-12-27 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 태스크 병렬 처리 구현 방법, 장치, 기기 및 매체
US11954522B2 (en) 2020-02-14 2024-04-09 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for processing tasks in parallel, device and storage medium
US11176449B1 (en) 2020-05-15 2021-11-16 Edgecortix Pte. Ltd. Neural network accelerator hardware-specific division of inference into groups of layers

Also Published As

Publication number Publication date
KR20200015829A (ko) 2020-02-12
US10534997B2 (en) 2020-01-14
US20170124452A1 (en) 2017-05-04
US11769061B2 (en) 2023-09-26
US20180247197A1 (en) 2018-08-30
EP3353656B1 (en) 2020-05-06
US20240160948A1 (en) 2024-05-16
KR20240014612A (ko) 2024-02-01
JP2020129404A (ja) 2020-08-27
EP3705994B1 (en) 2023-10-04
KR20180077218A (ko) 2018-07-06
CN115061810A (zh) 2022-09-16
KR102076257B1 (ko) 2020-02-11
CN108292241A (zh) 2018-07-17
WO2017075438A1 (en) 2017-05-04
KR20220116573A (ko) 2022-08-23
US10860925B2 (en) 2020-12-08
EP3353656A1 (en) 2018-08-01
KR102628902B1 (ko) 2024-01-24
JP6898496B2 (ja) 2021-07-07
KR102433254B1 (ko) 2022-08-18
US20200302302A1 (en) 2020-09-24
JP6983154B2 (ja) 2021-12-17
CN108292241B (zh) 2022-05-24
EP3705994A1 (en) 2020-09-09

Similar Documents

Publication Publication Date Title
JP6898496B2 (ja) 計算グラフの処理
US20210295161A1 (en) Training neural networks represented as computational graphs
JP7094262B2 (ja) 計算グラフの修正
KR102081952B1 (ko) 계산 그래프들의 스트림-기반 가속기 프로세싱
US11763146B1 (en) Processing loops in computational graphs
Mohanty Task farm optimization through machine learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190828

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200514

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200514

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200526

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20200601

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20200722

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20200803

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20201102

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20210301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210531

C302 Record of communication

Free format text: JAPANESE INTERMEDIATE CODE: C302

Effective date: 20210827

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20210830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210917

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20210927

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20211004

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20211101

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20211101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211122

R150 Certificate of patent or registration of utility model

Ref document number: 6983154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150