JP2022544739A

JP2022544739A - 伝搬レイテンシの短縮

Info

Publication number: JP2022544739A
Application number: JP2021577625A
Authority: JP
Inventors: ライナー・ポープ; ミシャル・アレン・ギュンター
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-08-22
Filing date: 2020-08-20
Publication date: 2022-10-21
Anticipated expiration: 2040-08-20
Also published as: WO2021035079A1; JP2023145676A; TW202301172A; JP7326501B2; CN114026543A; TW202109341A; KR102670905B1; KR20220011740A; TWI767303B; EP3973394A1; TWI817490B; US20220318638A1

Abstract

アクセラレータのタイル間の伝搬レイテンシを短縮するように動作をスケジューリングするためにコンピュータ記憶媒体上に符号化されたコンピュータプログラムを含む方法、システム、および装置。方法のうちの１つは、マトリクス演算を少なくとも部分的に並列で実行するように構成されたアクセラレータによって実行されるプログラムの最初の層に対するスケジュールを生成するようにとの要求を受け取るステップであって、プログラムが、最初の層を含む複数の層を定義し、プログラムの各層が、値のそれぞれのマトリクスを使用して実行されるマトリクス演算を定義する、ステップを含む。スケジュールの複数の初期のブロックは、初期の割り当て方向に従って割り当てられる。選択された特定のサイクルの後に処理されるブロックが、第１のマトリクスの別の第２の次元に沿って処理されるように、特定のサイクルにおいて、割り当て方向が切り換えられる。次いで、切り換えられた割り当て方向に従って、残るすべての割り当てられていないブロックが割り当てられる。

Description

本明細書は機械学習アクセラレータに関する。

機械学習アクセラレータは、高度な並列同期動作を実行するように設計された特定用途向け集積回路（ＡＳＩＣ）である。並列処理は、同時に実行することができる様々な独立した処理要素を統合することによって達成される。

そのようなデバイスは、ニューラルネットワークを通る推測パスを加速するのに適切である。ニューラルネットワークは、多層動作を採用して、１つまたは複数の入力から１つまたは複数の出力を予測する機械学習モデルである。ニューラルネットワークは、一般的には入力層と出力層との間に１つまたは複数の隠れ層を含む。各層の出力は、ネットワークにおける、たとえば次の隠れ層または出力層といった別の層に対する入力として使用される。

一般的には、各層に対して必要な計算動作は、マトリクス乗算を実行することによって達成され得る。大抵の場合、マトリクスのうちの１つは、たとえばマトリクスとベクトルの乗算といったベクトルである。したがって、機械学習アクセラレータは、マトリクス乗算の乗算および加算を高度な並列処理で実行することを可能にする。

しかしながら、ニューラルネットワークの各層の間の従属性により、これらの計算メカニズムには生来のレイテンシがある。レイテンシが生じるのは、１つの層の出力が次の層に対する入力になるためである。したがって、ニューラルネットワークの層は、通常は並列ではなく順次に実行されなければならない。言い換えれば、一般的には、１つの層の最後の計算動作が完結してからでないと、次の層の最初の計算は開始することができない。

一般に、異なるそれぞれの層に割り当てられた複数のタイルを使用する機械学習アクセラレータには、２つのタイプのレイテンシが生じる。第１に、チップの素子が計算を実行するように実際に利用可能なとき、入力データを待つことによって計算レイテンシが生じる。第２に、１つのタイルによって計算される１つの層の出力を、第２のタイルによって計算される別の層の入力になるように伝搬させる必要があるため、伝搬レイテンシが生じる。計算レイテンシは、より多くの計算素子を有するより大きいデバイスを作製することによって改善され得る。しかしながら、デバイスがより大きくなるにつれて、データを伝える必要のあるタイル間の距離もより長くなるため、伝搬レイテンシが増加する傾向がある。

本明細書は、機械学習アクセラレータにおいて、システムが、計算レイテンシを短縮するばかりでなく、タイル間でデータを伝える必要があるときには伝搬レイテンシをも短縮する、機械学習アクセラレータ向けのスケジュールを生成するやり方を説明するものである。

本明細書で説明される主題の特定の実施形態は、以下の利点の１つまたは複数を実現するように実施され得る。機械学習アクセラレータの計算レイテンシおよび伝搬レイテンシは、動作のスケジュールを変更することによって短縮され得る。これによって、割高であるかまたは複雑なハードウェア変更を必要とすることなく、性能が向上する。以下で説明されるスケジューリング技法の性能向上は、タイルが１つしかないときにも計算上の利点があり、この場合、いくつかのスケジュールは、固有の計算上の従属性があるにもかかわらず、１００％に近い利用率を達成し得る。

本明細書の主題の１つまたは複数の実施形態の詳細を、添付図面および以下の記述において説明する。主題の他の特徴、態様、および利点が、記述、図面、および特許請求の範囲から明らかになるであろう。

スケジュールを変化させてニューラルネットワークの２つの層の間のレイテンシを短縮し得る様子を示す図である。単一タイルに対するスケジューリング割り当てを示す図である。アクセラレータのタイル間のレイテンシを短縮するスケジュールを生成するための例示の処理の流れ図である。行優先順を実行してから列優先順に切り換える様子を示す図である。行制限を伴う行優先順を実行する様子を示す図である。対角スケジューリングを示す図である。専用論理回路の一例を示す概略図である。ＡＳＩＣチップに用いるタイルの例を示す図である。

様々な図面における類似の参照番号および名称は、類似の要素を示す。

本明細書は、たとえば機械学習アクセラレータといったマルチタイルアクセラレータの、タイル間の伝搬レイテンシを短縮するように、タイル動作をスケジューリングするための技法を説明するものである。

本明細書では、タイルは、マトリクスの一部において計算を実行することができるセルの計算配列を有するデバイスを指す。したがって、タイルは、マトリクスベクトル乗算の固定サイズブロックを実行するように構成された任意の適切なアクセラレータを指す。各セルは、セルが数学的な計算または他の計算を実行することを可能にする回路を含むことができる。一般的なシナリオでは、タイルは、入力ベクトルを受け取り、計算配列を使用して入力ベクトルに重みマトリクスを掛けて、出力ベクトルを生成する。

本明細書では、スケジュールは、特定のタイルが作用するべきマトリクスの部分の時系列シーケンスを指す。本明細書では、マトリクスのそのような個別の部分はブロックとも称される。したがって、スケジュールは、特定のタイルに関するブロックの順序付けを指定する。

タイルがマトリクスの別々のブロックに対して作用する各回は、スケジュールの１つの繰返しと称され得る。マトリクスがタイルの計算配列内に完全に適合する場合には、すべてのマトリクス演算がスケジューリングなしで実行され得る。しかしながら、マトリクスが計算配列よりも大きいときには、システムは、マトリクスの別々のブロックを処理するべき順序を規定するスケジュールを生成することができる。便宜上、本明細書におけるスケジュールの動作は、明確に識別可能なクロックサイクルに割り当てられるものと見なされる。しかしながら、これらのクロックサイクルが実際のハードウェアクロックサイクルに相当する必要はなく、同じ技法が、複数のハードウェアクロックサイクルを含む期間に計算を割り当てるために使用され得る。

図１Ａは、スケジュールを変化させてニューラルネットワークの２つの層の間のレイテンシを短縮し得る様子を示すものである。図１の左側は、２つのニューラルネットワーク層の動作を実行するために２つのタイルが使用される簡単なスケジュールを示す。それにもかかわらず、この簡単なスケジュールにはレイテンシがあり、これは図１の右側の改善されたスケジュールを使用することによって短縮され得る。

第１の層１０２は第１の重みマトリクスＭ１１１０を有する。第１の層１０２の動作は、入力ベクトルＶ１１１５を受け取るステップと、入力ベクトル１１５に第１の重みマトリクス１１０を掛けて出力ベクトルＶ２１１７を生成するステップとを含む。

この例では、第１の重みマトリクス１１０は、第１の層１０２の動作を実行するように割り当てられた第１のタイルの計算配列よりも大きい。第１の重みマトリクス１１０は、幅も高さも第１のタイルの計算配列の２倍である。したがって、第１の層の動作は、特定のスケジュールに従って、複数のクロックサイクルにわたって複数のブロックにおいて実行される必要がある。

図１の例では、第１のスケジュール１０６は、第１の層１０２の動作に行優先スケジュールを割り当て、これは、第１の層１０２に割り当てられた第１のタイルが、第１のマトリクス１１０の上半分に対して２回の繰返し動作を実行し、次いで、第１のマトリクス１１０の下半分に対して２回の繰返し動作を実行することを意味する。図１では、クロックサイクル割り当ては、対応するマトリクスブロック上に示されている。したがって、第１のスケジュールによれば、第１のタイルが第１のマトリクス１１０を処理する順序は、サイクル０およびサイクル１においてマトリクスの上半分を処理し、サイクル２およびサイクル３においてマトリクスの下半分を処理するものになる。

次いで、個々の繰返しの部分結果を合計することにより、第１の層１０２の出力ベクトル１１７が生成される。したがって、出力ベクトル１１７の前半は、クロックサイクル０からの部分結果とクロックサイクル２からの部分結果とを合計することを含む。出力ベクトル１１７の後半は、クロックサイクル１からの部分結果とクロックサイクル３からの部分結果とを合計することを含む。

次いで、出力ベクトル１１７は、通信ハードウェアを通じて、第２の重みマトリクスＭ２１２０を有する第２の層１０４のマトリクス演算を実行するように割り当てられた第２のタイルまで伝搬される。この例では、アクセラレータの伝搬レイテンシは２クロックサイクルと想定される。

この図では、第２の層１０４も、第１のスケジュール１０６による行優先スケジュールを有する。

第１の層１０２に割り当てられた第１のタイルと第２の層１０４に割り当てられた第２のタイルとは、同時に動作することができる。しかしながら、層間の計算は、生来、ある特定のデータ依存性を導入し、伝搬レイテンシが、第２の層１０４の動作を開始することができる時間に影響を与える遅延を導入する。

詳細には、第２のマトリクス１２０の左上のブロックは、サイクル０とサイクル２との両方が第１の層１０２によって実行されるまで実行され得ない。したがって、第１の層のサイクル２が実行された後、第２の層１０４を計算する第２のタイルまで出力ベクトル１１７の左半分を伝搬させるのに、サイクル３および４が費やされることになる。したがって、第２の層が計算され得るのは、早くてもサイクル５においてである。

同じ理由から、第２の層１０４の第２のマトリクス１２０の左下のブロックは、第１の層１０２に対してサイクル１とサイクル３との両方が実行されてデータが伝搬されるまでは実行され得ず、２サイクルの伝搬遅延を招く。サイクル６は既に右上のブロックに割り当てられているので、第１のスケジュール１０６は、第２のマトリクス１２０の左下の部分にはサイクル７から始まる処理を割り当てる。

したがって、図１Ａは、第１のスケジュール１０６が実行時に合計８サイクルをもたらす様子を示す。

第２のスケジュール１０８は、第１の層１０２の実行順序を調整する。第２のスケジュール１０８は、第１の層１０２に対して、行優先の順序付けではなく列優先の順序付けを割り当てる。

言い換えれば、第１の層は、最初にサイクル０において第１のマトリクス１１０の左上の部分に対して作用し、次にサイクル１において第１のマトリクス１１０の左下の部分に対して作用することができる。

この時点で、第２の層１０４の動作は、第２のマトリクス１２０の左上ブロックに対する処理を直ちに開始し得ることに留意されたい。したがって、第２のマトリクス１２０の左上のブロックはサイクル２およびサイクル３の２サイクルの伝搬遅延の後にサイクル４において既に処理され得、第２のマトリクス１２０の右上のブロックはサイクル５において処理され得る。

第１の層１０２の動作の行／列の順序付けをこのように再配置すると、２つの層の全体的な実行時間を７サイクルに短縮する。実際には、このシステムは、第１の層１０２における行／列の順序付けを変更することにより、第１の層および第２の層に対して作用するように割り当てられた２つのタイル間の伝搬レイテンシの１つの全体サイクルを隠すことができた。これは簡単な例であるが、それでも層１０２および１０４を通る単一パスに関する時間節約は１２．５％であった。

この技法は、（１）割り当て方向を切り換える特定のサイクルＭと、（２）マトリクスの「左下のブロック」を処理する特定のサイクルＴ_ｉとの、２つの値を選択する問題へと一般化して改善され得る。本明細書では、マトリクスの「左下の」ブロックはマトリクスの最後のブロックであって、これが処理されるまで、次の層は、現行の層によって生成された出力を処理し始めることができないことを意味する。したがって、「左下の」ブロックは、スケジュールにおける特定の配置に依拠して、マトリクスの何らかのコーナーブロック、または前の層から最後に到着する行または列の部分を使用する何らかのエッジブロックであり得る。

層ｎ－１と層ｎとの間のＮサイクルの伝搬レイテンシと、層ｎと層ｎ＋１との間のＣサイクルの伝搬レイテンシとを有するアクセラレータについては、システムは、層ｎのマトリクスの左下のブロックを、層の最初から少なくともＮサイクルおよび層の最後から少なくともＣサイクルで処理するようにスケジューリングすることによって、伝搬レイテンシを軽減することができる。

改善されたスケジュールは、このように、選択されたサイクルＭの後に割り当て方向を切り換える。一般に、Ｍは、特定のサイクルＴ_ｉにおけるサイクル、またはＴ_ｉの前のサイクルを指定する。サイクルＭにおいて、スケジュールは、ブロック割り当てを、行優先順から列優先順に、またはその逆方向に、切り換えることができる。これは、サイクルＴ_ｉの後に、タイルが、次の層向けのさらなる出力を生成するのに十分なデータを受け取り続けるからである。以下で説明する技法は、任意のサイズのマトリクス用のレイテンシを軽減するためにスケジュールの行／列の割り当て方向を変更するやり方をさらに説明するものである。

割り当て方向における同一の切り換えは、タイルが１つしかなく伝搬レイテンシがゼロかそれに近い機械学習アクセラレータにおけるレイテンシをも短縮することができる。たとえば、デバイスが含むのは単一のタイルのみであって、これに、両方の層に関する計算結果が割り当てられた状況を想定されたい。

図１Ｂは、２つの層の各々において４×４のマトリクスを処理する９つの計算要素を有する単一のタイルに対するスケジューリング割り当てを示す。

第１のスケジュール１０７は、基本的な行優先の順序付けを示す。いくつかの計算要素は、他の計算が完了するのを待っているため、することがないという問題が生じる可能性がある。

サイクル０では、９つの計算要素のすべてが、うまく、Ｍ１１１１の第１の２つの行およびＭ１１１１の第３の行の第１の要素に対して作業する。しかし、第１のスケジュール１０７におけるサイクル１では、９つの計算要素のうちの７つにしか作業がない。これは、行優先スケジュールを使用すると、第２の層の左上コーナーは、第１の層の右下コーナーが処理されるまで計算され得ないからである。したがって、第２の層１０４に対する第１の結果が計算され得るのは、１サイクル遅れることになる。

代わりに、割り当て方向切り換えを使用する第２のスケジュール１０９を検討する。すなわち、システムは、マトリクス１１１の第１の列を割り当てた後に、列優先割り当てに切り換えることができる。したがって、サイクル１の代わりに、サイクル０においてマトリクス１１１の左下のブロックが計算される。そこで、サイクル０において左下のブロックが既に処理されているので、サイクル１において第２の層の動作を直ちに開始することができる。

結果として、計算配列のいくつかの要素が、第１の層の動作が完了するのを待たずに第２の層の動作に対して作業し始めることができたので、割り当て方向を切り換えた第２のスケジュールにおけるサイクル１は１００％の利用率を達成することができた。同じ技法が、ニューラルネットワークの層を通して利用率を改善するために使用され得る。

図２は、アクセラレータのレイテンシを短縮するスケジュールを生成するための例示の処理の流れ図である。便宜上、この処理は、１つまたは複数の位置にある１つまたは複数のコンピュータのシステムによって実行され、本明細書に従って適切にプログラムされるものと説明される。

システムは、第１のマトリクスを有する第１の層に対するスケジュールを生成するようにとの要求を受け取る（２１０）。第１の層は、層の各々によって実行される動作を指定する入力プログラムによって定義された複数の層のうちの１つであり得る。複数のタイルを有するデバイスにおいて、各層が、複数のタイルを有するデバイスのそれぞれのタイルに割り当てられ得る。各層がそれぞれのマトリクスを有し得る。たとえば、入力プログラムは、ニューラルネットワークアーキテクチャの動作を指定することができる。

システムは、第１の次元における初期の割り当て方向に従って、スケジュールの複数の初期のブロックを割り当てる（２２０）。割り当て方向はマトリクスの第１の次元を指定するものであり、これに沿ってスケジュールの繰返しが実行されることになる。たとえば、割り当て方向は、当初は行優先の順序付けまたは列優先の順序付けを指定することができる。

システムは左下のブロックに対するサイクルを選択する（２３０）。上記で説明されたように、Ｔ_ｉはマトリクスの左下のブロックが実行されるサイクルを表す。これも上記で説明されたように、特定のタイプのスケジュールと一緒にＴ_ｉを選択すれば、割り当て方向を切り換えるサイクルであるＭをも決定することができる。

一般に、Ｔ_ｉの選択肢に関係なく、層ｉ－１と層ｉとの間にはＴ_ｉサイクルのレイテンシが隠され得、層ｉと層ｉ＋１との間にはＷ_ｉ×Ｈ_ｉ－Ｔ_ｉサイクルのレイテンシが隠され得る。言い換えれば、システムは、ｉ－１からｉへの移行におけるＴ_ｉサイクルのレイテンシを選択するという犠牲を払って、ｉからｉ＋１への移行におけるレイテンシを隠すことができる。

いくつかのマトリクスは、伝搬レイテンシを完全に隠すことができるほど十分に大きいものであり得る。層ｉの最後において、Ｌ_ｉは、伝搬レイテンシばかりでなくあらゆる終結する計算または活性化関数をも含む全体の最後の層のレイテンシを表すと想定する。層ｉに関するすべてのレイテンシを隠すためには次の不等式が成立する必要があり、
Ｗ_ｉ×Ｈ_ｉ≧Ｌ_ｉ－１＋Ｌ_ｉＷ_ｉ
はブロック数で表現したマトリクスの幅であり、Ｈ_ｉはブロック数で表現したマトリクスの高さである。ブロックサイズはタイルのハードウェアによって決定され得る。

この条件が成立するとき、システムはＴ_ｉをＬ_ｉ－１に選択することができる。

言い換えれば、システムは、左下のブロックを、前の層がこのブロックを処理するために必要な出力を生成した後にできるだけ早く実行するように、各ブロックをスケジューリングすることができる。

しかしながら、すべてのマトリクスが層間のレイテンシを完全に隠すことができるほど十分に大きいわけではない。その場合、スケジュールは、結果が出るまで待機を強制するためのアイドルサイクルを導入することができる。層ｉにＳ_ｉ個のアイドルサイクルが続く場合、層ｉに関するすべての有効なスケジュールについて次の不等式が成立する。
Ｗ_ｉ×Ｈ_ｉ≧ｍａｘ（Ｌ_ｉ－１－Ｓ_ｉ－１，０）＋ｍａｘ（Ｌ_ｉ－Ｓ_ｉ，０）。

有効なスケジュールに対してこの不等式が成立する場合には、システムは、次式に従ってＴ_ｉを割り当てることができる。
Ｔ_ｉ＝ｍａｘ（Ｌ_ｉ－１－Ｓ_ｉ－１，０）

システムは、アイドルサイクルを伴うこの機構を使用するときには、アイドルサイクルで導入される合計遅延時間を最短にするために、各層を通して、プログラムによってアイドルサイクル数を選択する。そうするために、システムは、以下の不等式が成立するように、各層ｋについて、整数のアイドルサイクル数Ｓｋを選択するための最適化プロシージャを実行することができる。
Ｗ_ｉ×Ｈ_ｉ－ｍａｘ（Ｌ_ｉ－Ｓ_ｉ，０）≧０
かつ
Ｓ_ｉ－１≧Ｌ_ｉ－１＋ｍａｘ（Ｌ_ｉ－Ｓ_ｉ，０）－Ｗ_ｉ×Ｈ_ｉ

システムは、特定のブロックの後に処理される各ブロックが、第２の次元に沿って順次に処理されるように、割り当て方向を切り換える（２４０）。切り換えサイクルＭの選択は、使用されているスケジュールのタイプに依拠する。Ｍの選択の例は、図３Ａ～図３Ｃを参照しながら以下でより詳細に説明される。

システムは、切り換えられた割り当て方向に従って、割り当てられていないすべての残りブロックを割り当てる（２５０）。言い換えれば、システムは、割り当てられていないすべてのブロックを、第２の次元による順序付けで割り当てることができる。

図３Ａ～図４は、切り換えられた割り当て方向を使用する例示のスケジュールを示す。図３Ａ～図３Ｃにおいて、番号を付けられた矢印は、特定の順序で実行されるように割り当てられたブロックのラインを表す。

図３Ａは、行優先順を実行してから列優先順に切り換える様子を示す。言い換えれば、システムは、最初に処理されるブロックを最上部の行に沿って割り当て、次いで、２番目に処理されるブロックを第２の列に沿って割り当てる、などである。

この例では、サイクルＭは、ブロックの第４の行に沿って、どこか中ほどに生じる。システムは、このように割り当て方向を切り換えて、ブロックを列優先順で割り当て始める。システムは、このようにして、選択されたサイクルＴ_ｉにおいて実行されるマトリクスの左下のコーナーをスケジューリングすることができる。言い換えれば、システムは、手付かずの行の数が、現在のサイクルとＴ_ｉとの間の差に等しくなるまで行優先順を計算する。

図３Ａに示されたスケジュールでは、大半の計算が列優先段階において実行される。これは、非常に均一な速度で出力を送出して、いくつかのアイドルサイクルを各列の最後に残す傾向がある。これは、たとえばＬＳＴＭの場合のように各層向けの出力が付加的処理を必要とするとき、有利になり得る。

図３Ｂは、行制限を伴う行優先順を実行する様子を示す図である。この例では、行優先段階は、限定された数のブロックのみを処理してから次の行に移動する。この例示のスケジュールでは、初期の行は後の行よりも多くのブロックを含む。いくつかの実装形態では、システムはＮ＝（Ｔ_ｉ／Ｈ_ｉ－１）の値を計算することによって行制限を計算し、Ｈ_ｉはマトリクスの各列におけるブロックの数である。次いで、システムは、初期の行に関するＮの上限と、後の行に関するＮの下限とを使用することができる。

したがって、この例における左下のブロックＴ_ｉのサイクルは、Ｎの２つの値と、マトリクスの行数とによって与えられる。言い換えれば、マトリクスに８つの行があって、ｆｌｏｏｒ（Ｎ）＝３、ｃｅｉｌｉｎｇ（Ｎ）＝４であれば、Ｔ_ｉ＝５×４＋３×３－（３－１）＝２７となる。この場合、切り換えサイクルＭは、Ｍ＝５×４＋３×３＝２９で与えられる。

図３Ｂのスケジュールは、最初の少数の列を処理するときに遅延を除去して、メモリ要件を軽減する。しかしながら、図３Ｂのスケジュールは、実施するのがより複雑になり得る。

図４は対角スケジューリングを示す。示されるように、行優先順中に、各行は、対角線の傾斜によって定義される、ブロックの減少する数を受け取る。この例では、システムは、左上の対角線を満たすために必要なブロックの数を計算することによってＴ_ｉを選択し、Ｍ＝Ｔ_ｉを選択することができる。

対角線のスケジュールは、行優先段階と列優先段階との間に対称性があるが、上記で言及された両方のスケジュールの不利益もある。

図５は、専用論理回路の一例、詳細にはＡＳＩＣ５００を示す概略図である。ＡＳＩＣ５００は、簡潔さのためにタイルと称される複数の同期プロセッサを含む。たとえば、ＡＳＩＣ５００が含むタイル５０２のうちの１つまたは複数が、たとえば乗法演算や加法演算などの同期計算を実行するように構成された専用回路を含む。詳細には、各タイル５０２に含まれ得るセルの計算配列における各セルは、数学的演算を実行するように構成されている（たとえば、本明細書で説明されて図６に示された例示的タイル２００を参照されたい）。いくつかの実装形態では、タイル５０２は、第１の次元５０１（たとえば行）と、第２の次元５０３（たとえば列）とに沿って、グリッドパターンに配置されている。たとえば、図５に示される例では、タイル５０２は４つの別々のセクション（５１０ａ、５１０ｂ、５１０ｃ、５１０ｄ）に分割されており、各セクションが、１８（縦）×１６（横）のグリッドに配置された２８８のタイルを含有している。いくつかの実装形態では、図５に示されるＡＳＩＣ５００は、それぞれがセルのサブセット／サブアレイ、ローカルメモリおよびバスラインを含む個別のタイルに細分された／配置されたセルの単一のシストリックアレイを含むものとして理解され得る（たとえば図６を参照されたい）。

ＡＳＩＣ５００はベクトル処理ユニット５０４をも含む。ベクトル処理ユニット５０４には、タイル５０２から出力を受け取り、受け取った出力に基づいてベクトル計算出力値を計算するように構成された回路が含まれる。たとえば、いくつかの実装形態では、ベクトル処理ユニット５０４には、タイル５０２から受け取った出力に対して累積動作を実行するように構成された回路（たとえば乗算回路、加算回路、シフタ、および／またはメモリ）が含まれる。代わりに、またはそれに加えて、ベクトル処理ユニット５０４は、タイル５０２の出力に対して非線形関数を適用するように構成された回路を含む。代わりに、またはそれに加えて、ベクトル処理ユニット５０４は、正規化数、プールされた値、または両方を生成する。ベクトル処理ユニットのベクトル計算出力は、１つまたは複数のタイルに記憶され得る。たとえば、ベクトル計算出力は、タイル５０２に対して一意的に関連付けられたメモリに記憶され得る。代わりに、またはそれに加えて、ベクトル処理ユニット５０４のベクトル計算出力は、たとえば計算の出力としてＡＳＩＣ５００の外部回路に転送され得る。いくつかの実装形態では、ベクトル処理ユニット５０４はセグメント化され、各セグメントが含む回路が、タイル５０２の対応する集合から出力を受け取り、受け取った出力に基づいてベクトル計算出力を計算するように構成されている。たとえば、図５に示される例では、ベクトル処理ユニット５０４は、第１の次元５０１に沿って広がる２つの行を含み、２つの行の各々が、３２の列に配置された３２のセグメント５０６を含む。各セグメント５０６に含まれる回路（たとえば乗算回路、加算回路、シフタ、および／またはメモリ）が、本明細書で説明されたように、タイル５０２の対応する列からの出力（たとえば蓄積された合計）に基づいてベクトル計算を実行するように構成されている。ベクトル処理ユニット５０４は、図５に示されるように、タイル５０２のグリッドの中央に配置され得る。ベクトル処理ユニット５０４の他の位置の配置も可能である。

ＡＳＩＣ５００は通信インターフェース５０８（たとえばインターフェース５０８ａ、５０８ｂ）をも含む。通信インターフェース５０８は、並直列変換器／直並列変換器（ＳｅｒＤｅｓ）インターフェースと汎用入出力（ＧＰＩＯ）インターフェースとの１つまたは複数のセットを含む。ＳｅｒＤｅｓインターフェースは、ＡＳＩＣ５００向けの指令（たとえば以下で説明される制御可能なバスラインを動作させるための指令）および／または入力データを受け取ったり、ＡＳＩＣ５００から外部回路へデータを出力したりするように構成されている。たとえば、ＳｅｒＤｅｓインターフェースは、通信インターフェース５０８に含まれるＳｅｒＤｅｓインターフェースのセットを通じて、３２Ｇｂｐｓ、５６Ｇｂｐｓ、または任意の適切なデータレートで、指令および／または入力データを伝送するように構成され得る。ＧＰＩＯインターフェースは、デバッグするため、および／またはブートストラップするためのインターフェースを提供するように構成されている。たとえば、ＡＳＩＣ５００は、オンにされたときブートプログラムを実行し得る。プログラムが障害を起こすと、管理者は、ＧＰＩＯインターフェースを使用して障害の原因をデバッグし得る。

ＡＳＩＣ５００は、通信インターフェース５０８、ベクトル処理ユニット５０４、および複数のタイル５０２の間でデータを伝達するように構成された複数の制御可能なバスラインをさらに含む（たとえば図６を参照されたい）。制御可能なバスラインは、たとえば、グリッドの第１の次元５０１（たとえば行）と第２の次元５０３（たとえば列）との両方に沿って延びる配線を含む。第１の次元５０１に沿って延びる制御可能なバスラインの第１のサブセットは、データを第１の方向（たとえば図５の右方向）に転送するように構成され得る。第１の次元５０１に沿って延びる制御可能なバスラインの第２のサブセットは、データを第２の方向（たとえば図５の左方向）に転送するように構成され得る。第２の次元５０３に沿って延びる制御可能なバスラインの第１のサブセットは、データを第３の方向（たとえば図５の上方向）に転送するように構成され得る。第２の次元５０３に沿って延びる制御可能なバスラインの第２のサブセットは、データを第４の方向（たとえば図５の下方向）に転送するように構成され得る。

それぞれの制御可能なバスラインは、クロック信号によってデータをラインに沿って伝達するように使用されるフリップフロップなどの複数のコンベヤ要素を含む。制御可能なバスラインを通じてデータを転送することは、各クロックサイクルにおいて、制御可能なバスラインの第１のコンベヤ要素から、制御可能なバスラインの隣接した第２のコンベヤ要素まで、データをシフトすることを含み得る。いくつかの実装形態では、データは、制御可能なバスラインを通じて、クロックサイクルの立ち上がりエッジまたは立下りエッジで伝達される。第１のクロックサイクルにおいて制御可能なバスラインの第１のコンベヤ要素（たとえばフリップフロップ）上に存在するデータは、第２のクロックサイクルで、制御可能なバスラインの第２のコンベヤ要素（たとえばフリップフロップ）に転送され得る。いくつかの実装形態では、コンベヤ要素は、互いから周期的に所定距離の間隔があり得る。たとえば、場合によっては、それぞれの制御可能なバスラインが複数のコンベヤ要素を含み、各コンベヤ要素が、対応するタイル５０２の内部に、または最も近くに配置されている。

それぞれの制御可能なバスラインは、複数のマルチプレクサおよび／またはデマルチプレクサをも含む。制御可能なバスラインのマルチプレクサ／デマルチプレクサは、バスラインとＡＳＩＣチップ５００の素子との間でデータを転送するように構成されている。たとえば、制御可能なバスラインのマルチプレクサ／デマルチプレクサは、タイル５０２、ベクトル処理ユニット５０４、または通信インターフェース５０８との間でデータを転送し合うように構成され得る。タイル５０２、ベクトル処理ユニット５０４、および通信インターフェースの間でデータを転送することは、所望のデータ転送に基づいてマルチプレクサに制御信号を送ることを含み得る。制御信号は、マルチプレクサおよび／またはデマルチプレクサに直接結合されたレジスタに記憶され得る。そこで、制御信号の値は、たとえば、ソース（たとえばタイル５０２またはベクトル処理ユニット５０４の内部メモリ）から制御可能なバスラインにどのようなデータが転送されるか、あるいは制御可能なバスラインからシンク（たとえばタイル５０２またはベクトル処理ユニット５０４の内部メモリ）にどのようデータが転送されるかを決定し得る。

制御可能なバスラインはローカルレベルで制御されるように構成されており、それぞれのタイル、ベクトル処理ユニット、および／または通信インターフェースが、タイル、ベクトル処理ユニット、および／または通信インターフェースを通過する制御可能なバスラインを操作するために、それ自体の制御要素のセットを含む。たとえば、それぞれのタイル、１Ｄベクトル処理ユニット、および通信インターフェースが、そのタイル、１Ｄベクトル処理ユニット、および通信インターフェースとの間のデータ転送を制御するための、コンベヤ要素、マルチプレクサおよび／またはデマルチプレクサの対応するセットを含み得る。

ＡＳＩＣチップ５００の動作に関連したレイテンシを最小化するために、様々な素子の間でデータが伝わる距離を短縮するように、タイル５０２およびベクトル処理ユニット５０４が配置され得る。特定の実装形態では、タイル５０２と通信インターフェース５０８との両方が複数のセクションに分離され得、タイルセクションと通信インタフェースセクションとの両方が、タイルと通信インターフェースとの間でデータが伝わる最大距離を短縮するように配置される。たとえば、いくつかの実装形態では、タイル５０２の第１のグループが、通信インターフェース５０８の第１の側の第１のセクションに配置され得、タイル５０２の第２のグループが、前記通信インターフェースの第２の側の第２のセクションに配置され得る。その結果、通信インターフェースから最も遠いタイルまでの距離が、タイル５０２のすべてが通信インターフェースの一方の側の単一のセクションに配置される構成と比較して半分になり得る。

あるいは、タイルは、４つのセクションなどの異なる数のセクションに配置されてよい。たとえば、図５に示される例では、ＡＳＩＣ５００の複数のタイル５０２は複数のセクション５１０（５１０ａ、５１０ｂ、５１０ｃ、５１０ｄ）に配置される。各セクション５１０が、グリッドパターンに配置されたタイル５０２の類似数を含む（たとえば、各セクション５１０が、１６行×１６列に配置された２５６のタイルを含み得る）。通信インターフェース５０８は、タイル５０２のセクション５１０のいずれかの側に配置された第１の通信インターフェース５０８ａおよび第２の通信インターフェース５０８ｂといった複数のセクションにも分割される。第１の通信インターフェース５０８ａは、制御可能なバスラインを介して、ＡＳＩＣチップ５００の左側の２つのタイルセクション５１０ａ、５１０ｃに結合され得る。第２の通信インターフェース５０８ｂは、制御可能なバスラインを介して、ＡＳＩＣチップ５００の右側の２つのタイルセクション５１０ｂ、５１０ｄに結合され得る。その結果、通信インターフェース５０８との間でデータが伝わる最大距離（したがってデータ伝搬に関連したレイテンシ）は、単一の通信インターフェースのみが利用可能な機構と比較して半分になり得る。タイル５０２と通信インターフェース５０８との他の結合機構も、データレイテンシを短縮することができる。タイル５０２と通信インターフェース５０８との結合機構は、制御可能なバスラインのコンベヤ要素およびマルチプレクサに制御信号を供給することによってプログラムされ得る。

いくつかの実装形態では、１つまたは複数のタイル５０２は、制御可能なバスラインおよび／またはＡＳＩＣ５００の内部の他のタイル（本明細書では「制御タイル」と称される）に対して読取り動作および書込み動作を開始するように構成される。ＡＳＩＣ５００の内部の残りのタイルは、入力データに基づいて計算を実行する（たとえば層推論を計算する）ように構成され得る。いくつかの実装形態では、制御タイルは、ＡＳＩＣ５００の内部の他のタイルと同一の素子および配置を含む。制御タイルは、ＡＳＩＣ５００の、特別な１つまたは複数のタイル、特別な１つまたは複数の行、あるいは特別な１つまたは複数の列として追加され得る。たとえば、各タイル５０２が入力データに対して計算を実行するように構成されているタイル５０２の対称なグリッドについては、入力データに対する計算を実行するタイル５０２に関する読取り動作および書込み動作を扱うように、制御タイルの１つまたは複数の追加の行が含まれ得る。たとえば、それぞれのセクション５１０が１８行のタイルを含み、タイルの最後の２つの行は制御タイルを含み得る。いくつかの実装形態では、個別の制御タイルを設けると、計算のために使用される他のタイルにおいて利用可能なメモリの量が増加する。本明細書で説明されたような制御専用の個別のタイルは必要ではないが、場合によっては個別の制御タイルは設けられない。むしろ、各タイルに読取り動作や書込み動作を開始させるための指令は、そのタイルのローカルメモリに記憶されてよい。

その上、図５に示された各セクション５１０は、１８行×１６列に配置されたタイルを含んでいるが、タイル５０２の数や、１つのセクションにおける配置は、異なり得る。たとえば、セクション５１０は、場合によっては同数の行と列とを含み得る。

その上、タイル５０２は、図５では４つのセクションに分割して示されているが、他の異なるグループ分けにも分割され得る。たとえば、いくつかの実装形態では、タイル５０２は、ベクトル処理ユニット５０４の上の（たとえば図５に示されるページの最上部に近い）第１のセクションと、ベクトル処理ユニット５０４の下の（たとえば図５に示されるページの最下部に近い）第２のセクションなどの、２つの異なるセクションにグループ分けされる。そのような機構では、各セクションは、たとえば（縦方向５０３に沿った）３２×（横方向５０１に沿った）１８のタイルといった５７６のタイルを含有し得る。セクションには、別の総数のタイルが含有されてよく、異なるサイズの配列に配置されてよい。場合によっては、セクション間の分割は、ＡＳＩＣ５００のハードウェア機能によって線引きされる。たとえば、図５に示されるように、セクション５１０ａ、５１０ｂは、ベクトル処理ユニット５０４によってセクション５１０ｃ、５１０ｄから分離され得る。

レイテンシは、タイルセクション５１０に対してベクトル処理ユニット５０４を中央に配置することによっても短縮され得る。いくつかの実装形態では、タイル５０２の第１の半分はベクトル処理ユニット５０４の第１の側に配置され、タイル５０２の第２の半分はベクトル処理ユニット５０４の第２の側に配置される。

たとえば、図５に示されるＡＳＩＣチップ５００では、ベクトル処理ユニット５０４には２つのセクション（たとえば２つの行）が含まれ、その各々が、タイル５０２の列と同数の複数のセグメント５０６を含む。各セグメント５０６は、タイルのセクション５１０の内部のタイル５０２の対応する列から、蓄積された合計などの出力を受け取るように構成して配置され得る。図５に示される例では、ベクトル処理ユニット５０４の第１の側（たとえばベクトル処理ユニット５０４の上）に配置されたタイルセクション５１０ａ、５１０ｂは、制御可能なバスラインを介してセグメント５０６の上部の行に結合され得る。ベクトル処理ユニット５０４の第２の側（たとえばベクトル処理ユニット５０４の下）に配置されたタイルセクション５１０ｃ、５１０ｄは、制御可能なバスラインを介してセグメント５０６の下部の行に結合され得る。その上、処理ユニット５０４の上の第１の半分の内部の各タイル５０２と、処理ユニット５０４の下の第２の半分の内部のそれぞれのタイル５０２とが、ベクトル処理ユニット５０４から同一の距離に配置され得るので、２つの半分の間の全体的なレイテンシには差がない。たとえば、第１のセクション５１０ａにおける行ｉ（変数ｉは行位置に対応する）のタイル５０２と、タイルの第２のセクション（たとえばセクション５１０ｃ）における行ｍ－１－ｉのタイル５０２とが、ベクトル処理ユニット５０４から同一の距離に配置され得る（ｍは各セクションにおける行の総数を表し、どちらのセクションでも、行は同じ向きに沿って増加すると想定する）。

このように構成されたタイルセクション５１０では、ベクトル処理ユニット５０４をすべてのタイル５０２の最遠端部（たとえば下部）に配置した機構と比較して、ベクトル処理ユニット５０４との間でデータが伝わる距離（したがってデータ伝搬に関連したレイテンシ）が、半減し得る。たとえば、セクション５１０ａからタイル５０２の列を通して蓄積された合計を受け取ることに関連したレイテンシは、セクション５１０ａおよび５１０ｃからタイル５０２の列を通って蓄積された合計を受け取ることに関連したレイテンシの半分になり得る。タイル５０２とベクトル処理ユニット５０４との結合機構は、制御可能なバスラインのコンベヤ要素およびマルチプレクサに制御信号を供給することによってプログラムされ得る。

ＡＳＩＣチップ５００の動作中に、アクティブ化入力がタイル間でシフトされてよい。たとえば、アクティブ化入力は第１の次元５０１に沿ってシフトされ得る。加えて、タイル５０２による計算からの出力（たとえばタイル５０２の内部の計算配列による計算の出力）は、第２の次元５０３に沿ってタイル間でシフトされ得る。

いくつかの実装形態では、データがタイル５０２をスキップしてＡＳＩＣチップ５００の動作に関連したレイテンシを短縮するように、制御可能なバスラインが物理的に配線され得る。たとえば、第１のタイル５０２による計算の出力は、第１のタイル５０２から、グリッドの第２の次元５０３に沿って、少なくともタイル１つ分は離れている第２のタイル５０２へとシフトされ得、したがって間のタイルをスキップする。別の例では、第１のタイル５０２からのアクティブ化入力は、第１のタイル５０２から、グリッドの第１の次元５０１に沿って、少なくともタイル１つ分は離れている第２のタイル５０２へとシフトされ得、したがって間のタイルをスキップする。アクティブ化入力または出力データをシフトするとき少なくとも１つのタイルをスキップすることにより、全体的なデータ経路長が短縮され得、データがより速く転送されてレイテンシが短縮される（たとえば、スキップされたタイルではデータを記憶するためにクロックサイクルを利用する必要はない）。

例示の実装形態では、セクション５１０ａの各列の内部の各タイル５０２は、制御可能なバスラインによって、出力データを、第２の次元５０３に沿ってベクトル処理ユニット５０４の方へ通すように構成され得る。各列の内部のタイル５０２は、（たとえばタイル間の制御可能なバスラインの物理的配線によって）次の隣接したタイルをスキップすることにより、データをベクトル処理ユニット５０４の方へ通すようにさらに構成され得る。すなわち、第１のセクション５１０ａにおける位置（ｉ，ｊ）＝（０，０）のタイル５０２（変数ｉは行位置に対応し、変数ｊは列位置に対応する）は、出力データを、位置（ｉ，ｊ）＝（２，０）におけるタイル５０２に渡すように配線され得、同様に、第１のセクション５１０ａにおける位置（ｉ，ｊ）＝（２，０）のタイル５０２は、出力データを、位置（ｉ，ｊ）＝（４，０）のタイル５０２に渡すように配線され得る、などである。スキップされない最後のタイル（たとえば位置（ｉ，ｊ）＝（１６，０）にあるタイル５０２）は、出力データを、ベクトル処理ユニット５０４に渡す。図５に示された例などの、１８行のタイルを有するセクション５１０については、タイルをスキップすることにより、セクション５１０の内部のすべてのタイルは、ベクトル処理ユニット５０４から多くとも９つの「タイルホップ」であることが保証され、したがって、データ経路長を短縮してデータレイテンシを半減することにより、ＡＳＩＣチップ５００の性能を改善する。

別の例示的実装形態では、セクション５１０ａ、５１０ｃの各行の内部の各タイル５０２およびセクション５１０ｂ、５１０ｄの各行の内部の各タイル５０２は、制御可能なバスラインを通じて、第１の次元５０１に沿って、アクティブ化入力を通すように構成され得る。たとえば、セクション５１０ａ、５１０ｂ、５１０ｃ、５１０ｄの内部のいくつかのタイルは、アクティブ化入力を、グリッド５００の中央の方または通信インターフェース５０８の方へ通すように構成され得る。各行の内部のタイル５０２は、たとえばタイル間に制御可能なバスラインを配線することによって、隣接したタイルをスキップするようにさらに構成され得る。たとえば、第１のセクション５１０ａにおける位置（ｉ，ｊ）＝（０，０）のタイル５０２（変数ｉは行位置に対応し、変数ｊは列位置に対応する）は、アクティブ化入力を、位置（ｉ，ｊ）＝（０，２）におけるタイル５０２に渡すように構成され得、同様に、第１のセクション５１０ａにおける位置（ｉ，ｊ）＝（０，２）のタイル５０２が、出力データを、位置（ｉ，ｊ）＝（０，４）のタイル５０２に渡すように構成され得る、などである。場合によっては、スキップされない最後のタイル（たとえば位置（ｉ，ｊ）＝（０，１４）のタイル５０２）は、アクティブ化入力を別のタイルに渡さない。

同様に、スキップされるタイルは、アクティブ化入力を反対方向に通し得る。たとえば、第１のセクション５１０ａにおける位置（ｉ，ｊ）＝（０，１５）のタイル５０２（変数ｉは行位置に対応し、変数ｊは列位置に対応する）は、アクティブ化入力を、位置（ｉ，ｊ）＝（０，１３）におけるタイル５０２に渡すように構成され得、同様に、第１のセクション５１０ａにおける位置（ｉ，ｊ）＝（０，１３）のタイル５０２が、出力データを、位置（ｉ，ｊ）＝（０，１１）のタイル５０２に渡すように構成され得る、などである。場合によっては、スキップされない最後のタイル（たとえば位置（ｉ，ｊ）＝（０，１）のタイル５０２）は、アクティブ化入力を別のタイルに渡さない。いくつかの実装形態では、タイルをスキップすることによって、データ経路長および結果として生じるデータレイテンシを半減することにより、ＡＳＩＣチップ５００の性能を改善することが可能である。

本明細書で説明されたように、いくつかの実装形態では、タイル５０２のうちの１つまたは複数は制御情報の記憶専用である。すなわち、制御情報の記憶専用のタイル５０２は、重み入力やアクティブ化入力などの入力データに対する演算に参加しない。制御情報は、たとえば、制御可能なバスラインをＡＳＩＣチップ５００の動作中に構成するための制御データを含むことができ、その結果、ＡＳＩＣチップ５００の周囲でデータが移動され得る。制御データは、制御可能なバスラインのコンベヤ要素およびマルチプレクサを制御するための制御信号の形で、制御可能なバスラインに供給され得る。制御データは、制御可能なバスラインの特定のコンベヤ要素が、制御可能なバスラインの次のコンベヤ要素にデータを渡すかどうかを規定し、その結果、データは所定のスケジュールに従ってタイル間で転送される。制御データは、バスラインとの間のデータ転送を実行するかどうかをさらに規定する。たとえば、制御データは、マルチプレクサに、バスラインからメモリおよび／またはタイルの内部の他の回路へとデータを転送するように指示する制御信号を含むことができる。別の例では、制御データは、マルチプレクサに、メモリおよび／またはタイルの内部の回路からバスラインへとデータを転送するように指示する制御信号を含むことができる。別の例では、制御データは、マルチプレクサに、バスラインと通信インターフェース５０８との間、および／またはバスラインとベクトル処理ユニット５０４との間でデータを転送するように指示する制御信号を含むことができる。あるいは、本明細書で開示されたように、専用の制御タイルは使用されない。むしろ、そのような場合には、各タイルのローカルメモリが、その特別なタイル向けの制御情報を記憶する。

図６は、ＡＳＩＣチップ５００に用いるタイル６００の例を示す。各タイル６００が、ローカルメモリ６０２と、メモリ６０２に結合された計算配列６０４とを含む。ローカルメモリ６０２は、計算配列６０４に近接して配置された物理メモリを含む。計算配列６０４は複数のセル６０６を含む。計算配列６０４の各セル６０６は、セル６０６に対するアクティブ化入力および重み入力などのデータ入力に基づいて計算（たとえば乗法および蓄積の演算）を実行するように構成された回路を含む。各セルは、クロック信号のサイクルに基づいて計算（たとえば乗法および蓄積の演算）を実行することができる。計算配列６０４は、列よりも多くの行、行よりも多くの列、または同数の列と行を有することができる。たとえば、図６に示される例では、計算配列６０４は、８行×８列に構成された６４のセルを含む。特に、１６のセル、３２のセル、１２８のセル、または２５６のセルを有する計算配列などの計算配列の他のサイズも可能である。各タイルが、同数のセルおよび／または同一サイズの計算配列を含むことができる。そこで、ＡＳＩＣチップに関して並列で実行され得る動作の総数は、チップの内部の同一サイズの計算配列を有するタイルの総数に依拠する。たとえば、図５に示された、約１１５０のタイルを含有しているＡＳＩＣチップ５００については、サイクルごとに約７２，０００の並列計算が可能であることを意味する。使用され得るクロック速度の例は、それだけではないが、２２５ＭＨｚ、５００ＭＨｚ、７５０ＭＨｚ、１ＧＨｚ、１．２５ＧＨｚ、１．５ＧＨｚ、１．７５ＧＨｚ、または２ＧＨｚを含む。個々のタイルの計算配列６０４は、図１に示されたように、タイルのより大きなシストリックアレイのサブセットである。

タイル６００に含有されるメモリ６０２は、たとえばＳＲＡＭなどのランダムアクセスメモリ（ＲＡＭ）を含むことができる。各メモリ６０２は、図５に示されたＡＳＩＣチップのｎ個のタイル５０２に関連した合計のメモリの１／ｎを記憶するように構成され得る。メモリ６０２は、単一チップとして、または複数のチップで与えられ得る。たとえば、図６に示されるメモリ６０２は、４つの単一のポートＳＲＡＭとして与えられ、その各々が計算配列６０４に結合されている。あるいは、メモリ６０２は、いくつかある構成の中で特に、２つの単一ポートＳＲＡＭまたは８つの単一ポートＳＲＡＭとして与えられ得る。メモリの統合容量は、誤り訂正コーディングの後に、それだけではないが、たとえば１６ｋＢ、３２ｋＢ、６４ｋＢ、または１２８ｋＢであり得る。計算配列に対して物理メモリ６０２を局所的に与えることにより、いくつかの実装形態では、ＡＳＩＣ５００の配線密度が大幅に低減され得る。メモリがＡＳＩＣ５００の内部に集中する代替構成では、本明細書で説明されたように局所的に与えられるのとは対照的に、メモリ帯域幅の各ビットに対して配線が必要になってしまう。ＡＳＩＣ５００の各タイルをカバーするために必要な配線の総数は、ＡＳＩＣ１００の内部の利用可能空間をはるかに超過することになる。対照的に、各タイルに専用メモリを与えると、ＡＳＩＣ５００の領域を張り巡らすのに必要な配線の総数がかなり低減され得る。

タイル６００は、制御可能なバスラインをも含む。制御可能なバスラインは、複数の異なるグループへと分類され得る。たとえば、制御可能なバスラインは、タイル間でそれぞれの基本的な方向にデータを転送するように構成された汎用の制御可能なバスライン６１０の第１のグループを含むことができる。すなわち、制御可能なバスライン６１０の第１のグループは、タイルのグリッドの第１の次元５０１に沿って第１の方向（図６では「東」と称される）にデータを転送するように構成されたバスライン６１０ａと、タイルのグリッドの第１の次元１０１に沿って第１の方向と反対の第２の方向（図６では「西」と称される）にデータを転送するように構成されたバスライン６１０ｂと、タイルのグリッドの第２の次元１０３に沿って第３の方向（図６では「北」と称される）にデータを転送するように構成されたバスライン６１０ｃと、タイルのグリッドの第２の次元１０３に沿って第３の方向と反対の第４の方向（図６では「南」と称される）にデータを転送するように構成されたバスライン６１０ｄとを含むことができる。汎用バスライン６１０は、制御データ、アクティブ化入力データ、通信インターフェースとやり取りするデータ、ベクトル処理ユニットとやり取りするデータ、タイル６００に記憶されるデータおよび／またはタイル６００によって使用されるデータ（たとえば重み入力）を搬送するように構成され得る。タイル６００は、制御可能なバスラインを制御するための１つまたは複数の制御要素６２１（たとえばフリップフロップおよびマルチプレクサ）を含み得、したがってメモリ６０２との間でデータをルーティングする。

制御可能なバスラインは、本明細書では計算配列の部分和バスライン６２０と称される制御可能なバスラインの第２のグループをも含むことができる。計算配列の部分和バスライン６２０は、計算配列６０４による計算から出力されたデータを搬送するように構成され得る。たとえば、図６に示されるように、バスライン６２０は、計算配列６０４の行から取得された部分和データを搬送するように構成され得る。そのような場合には、バスライン６２０の数は、配列６０４の行数に一致することになる。たとえば、８×８の計算配列に対して８つの部分和バスライン６２０があり、その各々が、計算配列６０４における対応する行の出力に結合されている。計算配列の出力バスライン６２０は、たとえばＡＳＩＣチップの内部の別のタイルの計算配列に対する入力として、このタイルに結合するようにさらに構成され得る。たとえば、タイル６００の配列部分和バスライン６２０は、タイル６００から少なくとも１つのタイル分離れて配置された第２のタイルの計算配列の入力（たとえば部分和６２０ａ）を受け取るように構成され得る。次いで、計算配列６０４の出力が部分和ライン６２０に加算されて新規の部分和６２０ｂを生成し、これがタイル６００から出力され得る。次いで、部分和６２０ｂは、別のタイルあるいはベクトル処理ユニットに渡されてよい。たとえば、各バスライン６２０は、ベクトル処理ユニットの対応するセグメント（図５のセグメント５０６など）に結合されてよい。

図５を参照しながら説明されたように、制御可能なバスラインは、データをバスラインに沿って伝達することを可能にするように構成されたコンベヤ要素（たとえばフリップフロップ）などの回路を含むことができる。いくつかの実装形態では、それぞれの制御可能なバスラインは、各タイル向けに、対応するコンベヤ要素を含む。図５を参照しながらさらに説明されたように、制御可能なバスラインが含み得るマルチプレクサなどの回路は、ＡＳＩＣチップの別々のタイル、ベクトル処理ユニットおよび通信インターフェースの間でのデータの転送を可能にするように構成されている。マルチプレクサは、データに対するソースまたはシンクがあるところならどこにでも配置され得る。たとえば、いくつかの実装形態では、図６に示されるように、マルチプレクサなどの制御回路６２１は、制御可能なバスラインの交差（たとえば汎用バスライン６１０ａと６１０ｄとの交差、汎用バスライン６１０ａと６１０ｃとの交差、汎用バスライン６１０ｂと６１０ｄとの交差、および／または汎用バスライン６１０ｂと６１０ｃとの交差）に配置され得る。バスラインの交差におけるマルチプレクサは、交差においてバスライン間でデータを転送するように構成され得る。それゆえに、マルチプレクサの適切な動作により、制御可能なバスラインにわたってデータが伝わる方向を変化させることができる。たとえば、汎用バスライン６１０ａ上を第１の次元１０１に沿って伝わるデータは、代わりに第２の次元１０３に沿って伝わるように、汎用バスライン６１０ｄに転送され得る。いくつかの実装形態では、マルチプレクサは、タイル６００のメモリ６０２とデータを転送し合うことができるように、メモリ６０２に隣接して配置され得る。

本明細書で説明された主題および機能的動作の実施形態は、デジタル電子回路、実体的に実施されたコンピュータソフトウェアまたはファームウェア、本明細書で開示された構造およびそれらの構造的等価物を含むコンピュータハードウェア、あるいはそれらの１つまたは複数の組合せで実施され得る。本明細書で説明された主題の実施形態は、１つまたは複数のコンピュータプログラムとして、すなわち、データ処理装置によって実行するように、あるいはデータ処理装置の動作を制御するように、有形の非一時的記憶媒体上に符号化されたコンピュータプログラムの命令の１つまたは複数のモジュールとして、実施され得る。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムアクセスメモリデバイスもしくはシリアルアクセスメモリデバイス、またはそれらの１つまたは複数の組合せであり得る。代わりに、またはそれに加えて、プログラム命令は、たとえばデータ処理装置で実行するために、適切な受信装置へ伝送するように、情報を符号化するようにマシンで生成された電気信号、光信号、または電磁気信号といった、人為的に生成されて伝搬される信号に基づいて符号化され得る。

「データ処理装置」という用語は、データ処理ハードウェアを指し、例としてプログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含めて、データ処理用のあらゆる種類の装置、デバイス、およびマシンを包含する。データ処理装置は、専用論理回路、たとえばＦＰＧＡ（フィールドプログラマブルゲートアレイ）、またはＡＳＩＣ（特定用途向け集積回路）でもあり得、あるいはこれらをさらに含むことができる。データ処理装置は、ハードウェアに加えて、たとえばプロセッサのファームウェア、プロトコルのスタック、データベース管理システム、オペレーティングシステム、またはそれらの１つまたは複数の組合せを構成するコードといった、コンピュータプログラムの実行環境を生成するコードを、任意選択で含むことができる。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、モジュール、ソフトウェアモジュール、スクリプト、またはコードと称されたり、記述されたりすることもある）は、コンパイル型言語またはインタープリタ型言語、宣言型言語または手続き型言語を含めて任意の形式のプログラミング言語で記述され得、また、スタンドアロンプログラムとして、あるいはモジュール、コンポーネント、サブルーチン、またはコンピュータ環境で用いる適切な他のユニットとして、任意の形式で配布され得る。コンピュータプログラムは、ファイルシステムの中のファイルに対応することができるが、これは必須ではない。プログラムは、たとえばマークアップ言語のドキュメントに記憶された１つまたは複数のスクリプトといった他のプログラムまたはデータを保持するファイルの一部に、対象となるプログラム専用の単一ファイルに、あるいは、たとえば、１つまたは複数のモジュール、サブプログラム、またはコードの一部を記憶するファイルといった複数の統合されたファイルに、記憶され得る。コンピュータプログラムは、１つのコンピュータ上で、または１つのサイトに配置された、もしくは複数のサイトにわたって分散してデータ通信ネットワークで相互に連結された複数のコンピュータ上で、実行されるように、配布され得る。

特定の動作またはアクションを実行するように構成された１つまたは複数のコンピュータのシステムについては、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せがインストールされていて、作動すると、システムに動作またはアクションを実行させることを意味する。特定の動作またはアクションを実行するように構成された１つまたは複数のコンピュータプログラムについては、１つまたは複数のプログラムが、データ処理装置によって実行されたとき、この装置に動作またはアクションを実行させる指令を含むことを意味する。

本明細書で使用される「エンジン」または「ソフトウェアエンジン」は、入力とは異なる出力をもたらす、ソフトウェアで実施された入出力システムを指す。エンジンは、ライブラリ、プラットフォーム、ソフトウェア開発キット（「ＳＤＫ」）、またはオブジェクトなど、符号化された機能性ブロックであり得る。各エンジンは、たとえばサーバ、携帯電話、タブレットコンピュータ、ノート型コンピュータ、音楽プレーヤ、ｅブックリーダ、ラップトップまたはデスクトップのコンピュータ、ＰＤＡ、スマートフォン、あるいは１つまたは複数のプロセッサおよびコンピュータ可読媒体を含む他の固定機器または携帯機器といった、任意の適切なタイプのコンピュータデバイス上で実施され得る。加えて、２つ以上のエンジンが、同一のコンピュータデバイスまたは別々のコンピュータデバイス上で実施され得る。

本明細書で説明された処理および論理の流れは、入力データに作用して出力を生成することによって機能を果たすように１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラマブルコンピュータによって実行され得る。処理の流れや論理の流れは、たとえばＦＰＧＡ、ＡＳＩＣといった専用論理回路、あるいは専用論理回路と１つまたは複数のプログラムされたコンピュータとの組合せによっても実行され得る。

コンピュータプログラムを実行するのに適するコンピュータは、汎用マイクロプロセッサもしくは専用マイクロプロセッサまたはその両方、あるいは任意の他の種類の中央処理装置に基づくものであり得る。一般に、中央処理装置は、命令およびデータを、読取り専用メモリもしくはランダムアクセスメモリまたはその両方から受け取る。コンピュータの必須要素は、命令を実施または実行するための中央処理装置ならびに命令およびデータを記憶するための１つまたは複数の記憶デバイスである。中央処理装置およびメモリは、専用論理回路を追加することができ、あるいは専用論理回路に組み込むことができる。一般に、コンピュータは、たとえば磁気ディスク、光磁気ディスク、または光ディスクといった、データを記憶するための１つまたは複数の大容量記憶デバイスをも含み、あるいは、これらからデータを受け取り、もしくはこれらへデータを転送し、またはその両方を行うために、これらに対して動作可能に結合される。しかしながら、コンピュータにはそのようなデバイスがなくてもよい。その上に、コンピュータは、別のデバイス、たとえばほんの少数を挙げると、移動電話、携帯情報端末（ＰＤＡ）、移動式のオーディオプレーヤまたはビデオプレーヤ、ゲーム機、全地球測位システム（ＧＰＳ）受信器、または移動式記憶デバイス（たとえばユニバーサルシリアルバス（ＵＳＢ）のフラッシュドライブ）の中に組み込まれ得る。

コンピュータプログラムの命令およびデータを記憶するのに適切なコンピュータ可読媒体には、例として、たとえばＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイスといった半導体メモリデバイス、たとえば内蔵ハードディスク、取外し可能ディスクといった磁気ディスクと、光磁気ディスクと、ＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクとを含む、すべての形態の不揮発性記憶デバイスが含まれる。

ユーザとの対話を提供するために、本明細書で説明された主題の実施形態は、ユーザに情報を表示するための、たとえばＣＲＴ（ブラウン管）またはＬＣＤ（液晶ディスプレイ）のモニタといった表示デバイス、ならびにユーザがコンピュータに入力を与えることができるキーボード、および、たとえばマウス、トラックボール、または存在感知ディスプレイもしくは他のサーフェスといったポインティングデバイスを有するコンピュータ上で実施され得る。ユーザとの対話を提供するために、他の種類のデバイスも同様に使用され得、たとえば、ユーザに提供されるフィードバックは、たとえば視覚フィードバック、聴覚フィードバック、触覚フィードバックといった任意の形式の感覚フィードバックであり得、また、ユーザからの入力は、音響、音声、または触覚の入力を含む任意の形式で受け取られ得る。加えて、コンピュータは、ユーザが使用しているデバイスとの間でドキュメントを送受することにより、たとえばユーザのデバイス上のウェブブラウザから受け取った要求に応答して、このウェブブラウザにウェブページを送ることによって、ユーザと対話することができる。また、コンピュータは、たとえばメッセージングアプリケーションを実行しているスマートフォンといったパーソナルデバイスにテキストメッセージまたは他の形態のメッセージを送り、ユーザから、返報として応答メッセージを受け取ることによって、ユーザと対話することができる。

本明細書で説明された主題の実施形態は、たとえばデータサーバとしてのバックエンドコンポーネント、またはたとえばアプリケーションサーバといったミドルウェアコンポーネント、またはたとえばユーザが本明細書で説明された主題の実装形態と対話することを可能にする、グラフィカルユーザインターフェース、ウェブブラウザ、もしくはアプリケーションを有するクライアントコンピュータといったフロントエンドコンポーネント、あるいは１つまたは複数のそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組合せを含む、コンピュータシステムにおいて実施され得る。システムのコンポーネントは、たとえば通信ネットワークであるデジタルデータ通信の任意の形式または媒体によって相互に連結され得る。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）およびたとえばインターネットである広域ネットワーク（ＷＡＮ）を含む。

コンピュータシステムは、クライアントおよびサーバを含むことができる。一般に、クライアントとサーバとは互いに遠く離れていて、典型的には通信ネットワークを通じて対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で動作中の、互いにクライアント対サーバの関係を有する各コンピュータプログラムによって生じる。いくつかの実施形態では、サーバは、たとえば、クライアントとして働くデバイスと対話するユーザにデータを表示したり、ユーザ入力を受け取ったりするために、ユーザデバイスに、たとえばＨＴＭＬページといったデータを伝送する。ユーザデバイスにおいて生成された、たとえばユーザとの対話処理の結果といったデータは、サーバにおいてデバイスから受け取られ得る。

前述の実施形態に加えて、以下の実施形態も革新的である。

実施形態１は、
マトリクス演算を少なくとも部分的に並列で実行するように構成されたアクセラレータによって実行されるプログラムの最初の層に対するスケジュールを生成するようにとの要求を受け取るステップであって、プログラムが、最初の層を含む複数の層を定義し、プログラムの各層が、値のそれぞれのマトリクスを使用して実行されるマトリクス演算を定義する、ステップと、
初期の割り当て方向に従って、スケジュールの複数の初期のブロックを割り当てるステップであって、初期の割り当て方向が、複数の初期のブロックが実行される最初の層に対する最初のマトリクスの最初の次元を指定する、ステップと、
次の層の処理を開始する前に必要な、マトリクスの最後のブロックの処理のために、特定のサイクルを選択するステップと、
選択された特定のサイクルの後に処理されるブロックが、最初のマトリクスの別の第２の次元に沿って処理されるように、割り当て方向を切り換えるステップと、
切り換えられた割り当て方向に従って、残るすべての割り当てられていないブロックを割り当てるステップと
を含む方法である。

実施形態２は、実施形態１に記載の方法であって、特定のサイクルを選択するステップが、
前の層の伝搬レイテンシを計算するステップと、
前の層の伝搬レイテンシに基づいて特定のサイクルを割り当てるステップと
を含む、方法である。

実施形態３は、実施形態１または２に記載の方法であって、特定のサイクルを選択するステップが、
前の層の伝搬レイテンシを計算するステップと、
前の層のアイドルサイクル数を計算するステップと、
前の層の伝搬レイテンシと前の層のアイドルサイクル数との間の最大値を選択するステップと
を含む、方法である。

実施形態４は、実施形態１から３のいずれか１つに記載の方法であって、スケジュールが、複数の初期のブロックを行優先順で割り当て、残るすべての割り当てられていないブロックを割り当てるステップが、ブロックを列優先順で割り当てる、方法である。

実施形態５は、実施形態４に記載の方法であって、スケジューリングされていない行の数が現在のサイクルと選択された特定のサイクルとの間の差に等しいサイクルを選択するステップを含む、割り当て方向を切り換えるサイクルを選択するステップをさらに含む方法である。

実施形態６は、実施形態４に記載の方法であって、スケジュールが、マトリクスの部分的な行のみに沿って複数の初期のブロックを割り当てる、方法である。

実施形態７は、実施形態６に記載の方法であって、スケジュールが、初期の複数の部分的な行と、初期の部分的な行よりも小さい後続の複数の部分的な行とを割り当てる、方法である。

実施形態８は、実施形態７に記載の方法であって、初期の部分的な行は、ｃｅｉｌｉｎｇ（Ｎ）によって与えられる長さを有し、後続の部分的な行は、ｆｌｏｏｒ（Ｎ）によって与えられる長さを有し、Ｎは、選択されたサイクルを前の層におけるマトリクスのブロック高さで割ることによって与えられる、方法である。

実施形態９は、実施形態４に記載の方法であって、スケジュールが、マトリクスの対角線によって定義された空間を満たすために、行優先順で初期のブロックを割り当てる、方法である。

実施形態１０は、実施形態９に記載の方法であって、割り当て方向を切り換えるステップが特定の選択されたサイクルで生じる、方法である。

実施形態１１は、実施形態１から１０のいずれか１つに記載の方法であって、アクセラレータが複数のタイルを有し、各層が複数のタイルのそれぞれのタイルによって計算される、方法である。

実施形態１２は、実施形態１から１０のいずれか１つに記載の方法であって、アクセラレータが、両方の層の動作を実行する単一のタイルを有する、方法である。

実施形態１３は、１つまたは複数のコンピュータと、命令を記憶している１つまたは複数の記憶デバイスとを備えるシステムであって、１つまたは複数のコンピュータが、上記命令を実行することにより、実施形態１から１２のいずれか１つに記載の方法を実行する、システムである。

実施形態１４は、コンピュータプログラムを用いて符号化されたコンピュータ記憶媒体であって、データ処理装置が、コンピュータプログラムに含まれる命令を実行することにより、実施形態１から１２のいずれか１つに記載の方法を実行する、コンピュータ記憶媒体である。

本明細書は多くの特定の実装形態の詳細を含むが、これらは、何らかの発明の範囲に対する限定または特許請求され得るものの範囲に対する限定としてではなく、特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。本明細書の個別の実施形態の文脈で説明された特定の特徴は、１つの実施形態の中で組み合わせて実施することもできる。反対に、１つの実施形態の文脈で説明された様々な特徴はまた、複数の実施形態で別個に実施され得、または任意の適切なサブ組合せで実施され得る。その上に、各特徴は、上記ではある組合せにおいて働くように記載されており、場合によっては最初からそのように請求されているが、請求された組合せの１つまたは複数の特徴は、場合によってはその組合せから実現されてもよく、請求された組合せは、部分組合せまたは部分組合せの変形形態を対象とするものでもよい。

同様に、動作は特定の順序で図面に示されているが、これは、望ましい結果を達成するために、そのような動作が、示される特定の順序または連続した順序で実行されること、あるいはすべての図示の動作が実行されることを必要とするものとして理解されるべきではない。ある特定の環境では、マルチタスキングおよび並列処理が有利であり得る。その上に、上記で説明した実施形態における様々なシステムモジュールと構成要素との分離は、すべての実施形態においてそのような分離を必要とするものとして理解されるべきでなく、説明されたプログラム構成要素およびシステムは、概して、単一のソフトウェア製品において互いに統合されるか、または複数のソフトウェア製品にパッケージングされ得ることを理解されたい。

主題の特定の実施形態が説明されてきた。他の実施形態は、以下の特許請求の範囲内に入る。たとえば、特許請求の範囲で列挙される作用は、異なる順序で実行しても、望ましい結果を達成することができる。一例として、添付図に示された処理は、望ましい結果を達成するのに、示された特定の順番または順序を必ずしも必要とするものではない。ある特定のいくつかの事例では、マルチタスキングおよび並列処理が有利であり得る。

１０２第１の層
１０４第２の層
１０６第１のスケジュール
１０７第１のスケジュール
１０８第２のスケジュール
１０９第２のスケジュール
１１０第１の重みマトリクス
１１１マトリクス
１１５入力ベクトル
１１７出力ベクトル
１１９出力ベクトル
１２０第２の重みマトリクス
１２１マトリクス
５００ＡＳＩＣ
５０１第１の次元
５０２タイル
５０３第２の次元
５０４ベクトル処理ユニット
５０６セグメント
５０８通信インターフェース
５０８ａ通信インターフェース
５０８ｂ通信インターフェース
５１０ａセクション
５１０ｂセクション
５１０ｃセクション
５１０ｄセクション
６００タイル
６０２ローカルメモリ
６０４計算配列
６０６セル
６１０ａバスライン
６１０ｂバスライン
６１０ｃバスライン
６１０ｄバスライン
６２０部分和バスライン
６２０ａ部分和
６２０ｂ部分和
６２１制御要素

Claims

マトリクス演算を少なくとも部分的に並列で実行するように構成されたアクセラレータによって実行されるプログラムの最初の層に対するスケジュールを生成するようにとの要求を受け取るステップであって、前記プログラムが、前記最初の層を含む複数の層を定義し、前記プログラムの各層が、値のそれぞれのマトリクスを使用して実行されるマトリクス演算を定義する、ステップと、
初期の割り当て方向に従って、前記スケジュールの複数の初期のブロックを割り当てるステップであって、前記初期の割り当て方向が、前記複数の初期のブロックが実行される前記最初の層に対する最初のマトリクスの最初の次元を指定する、ステップと、
次の層の処理を開始する前に必要な、マトリクスの最後のブロックの処理のために、特定のサイクルを選択するステップと、
前記選択された特定のサイクルの後に処理されるブロックが、前記最初のマトリクスの別の第２の次元に沿って処理されるように、前記割り当て方向を切り換えるステップと、
前記切り換えられた割り当て方向に従って、残るすべての割り当てられていないブロックを割り当てるステップと
を含むコンピュータ実施方法。
前記特定のサイクルを選択するステップが、
前の層の前記伝搬レイテンシを計算するステップと、
前記前の層の前記伝搬レイテンシに基づいて前記特定のサイクルを割り当てるステップと
を含む、請求項１に記載の方法。
前記特定のサイクルを選択するステップが、
前の層の前記伝搬レイテンシを計算するステップと、
前記前の層のアイドルサイクル数を計算するステップと、
前記前の層の前記伝搬レイテンシと前記前の層の前記アイドルサイクル数との間の最大値を選択するステップと
を含む、請求項１に記載の方法。
前記スケジュールが前記複数の初期のブロックを行優先順で割り当て、残るすべての割り当てられていないブロックを割り当てるステップが列優先順序でブロックを割り当てる、請求項１に記載の方法。
スケジューリングされていない行の数が現在のサイクルと前記選択された特定のサイクルとの間の差に等しいサイクルを選択するステップを含む、前記割り当て方向を切り換えるサイクルを選択するステップをさらに含む、請求項４に記載の方法。
前記スケジュールが前記マトリクスの部分的な行のみに沿って前記複数の初期のブロックを割り当てる、請求項４に記載の方法。
前記スケジュールが、初期の複数の部分的な行と、前記初期の部分的な行よりも小さい後続の複数の部分的な行とを割り当てる、請求項６に記載の方法。
前記初期の部分的な行が、ｃｅｉｌｉｎｇ（Ｎ）によって与えられる長さを有し、前記後続の部分的な行が、ｆｌｏｏｒ（Ｎ）によって与えられる長さを有し、Ｎは、前記選択されたサイクルを前の層におけるマトリクスのブロック高さで割ることによって与えられる、請求項７に記載の方法。
前記スケジュールが、前記マトリクスの対角線によって定義された空間を満たすために、前記行優先順で前記初期のブロックを割り当てる、請求項４に記載の方法。
前記割り当て方向を切り換えるステップが前記特定の選択されたサイクルで生じる、請求項９に記載の方法。
前記アクセラレータが複数のタイルを有し、各層が前記複数のタイルのそれぞれのタイルによって計算される、請求項１に記載の方法。
前記アクセラレータが、両方の層の動作を実行する単一のタイルを有する、請求項１に記載の方法。