JP2022543332A

JP2022543332A - データ処理

Info

Publication number: JP2022543332A
Application number: JP2021551772A
Authority: JP
Inventors: ミラノヴィック、ジェレナ; イヴァンアイゼン、リー; ジョンステファン、ニゲル
Original assignee: アーム・リミテッド
Priority date: 2019-08-05
Filing date: 2020-03-26
Publication date: 2022-10-12
Also published as: CN113490914A; EP3931688A1; IL285752A; WO2021023957A1; TW202107279A; EP3931688B1; US11074214B2; US20210042261A1; KR20220038579A; IL285752B1

Abstract

【解決手段】データ処理装置は、ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用する処理回路であって、ｎ×ｎ個の記憶位置のアレイにアクセスするように構成されており、プログラム命令をデコードする命令デコーダ回路と、命令デコーダ回路によってデコードされた命令を実行する命令処理回路と、を備える、処理回路を備え、命令デコーダ回路は、アレイアクセス命令に応じて、命令処理回路を制御して、線形アレイとして、アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする。【選択図】図５Ｂ

Description

本開示は、データ処理に関する。

いくつかのデータ処理構成は、ベクトル処理演算を可能にし、ベクトル処理演算は、単一ベクトル処理命令を、データベクトル内のそれぞれの位置に複数のデータ項目を有するデータベクトルのデータ項目に適用することを含む。対照的に、スカラ処理は、データベクトルではなく単一のデータ項目に効果的に演算する。

例示的な構成では、データ処理装置が提供され、このデータ処理装置は、
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用する処理回路であって、ｎ×ｎ個の記憶位置のアレイにアクセスするように構成されており、
プログラム命令をデコードする命令デコーダ回路と、
命令デコーダ回路によってデコードされた命令を実行する命令処理回路と、
を備える、処理回路を備え、
命令デコーダ回路は、アレイアクセス命令に応じて、命令処理回路を制御して、線形アレイとして、アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする。

別の例示的な構成では、データ処理装置が提供され、このデータ処理装置は、
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用する処理手段であって、ｎ×ｎ個の記憶位置のアレイにアクセスするように動作可能であり、
プログラム命令をデコードする命令デコーダ手段と、
命令デコーダ手段によってデコードされた命令を実行する命令処理手段と、
を備える、処理手段を備え、
命令デコーダ手段は、アレイアクセス命令に応じて、命令処理手段を制御して、線形アレイとして、アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする。

別の例示的な構成では、データ処理方法が提供され、この方法は、
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用することであって、ｎ×ｎ個の記憶位置のアレイにアクセスするように構成されており、適用するステップが、
プログラム命令をデコードすることと、
デコードするステップによってデコードされた命令を実行することと、
を含む、適用することを含み、
デコードするステップは、アレイアクセス命令に応じて、実行するステップを制御して、線形アレイとして、アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする。

別の例示的な構成では、マシン可読命令を含むコンピュータプログラムを実行するデータプロセッサを備える仮想マシンが提供され、このコンピュータプログラムの実行は、データプロセッサをデータ処理装置として動作させ、データ処理装置は、
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用する処理回路であって、ｎ×ｎ個の記憶位置のアレイにアクセスするように構成されており、
プログラム命令をデコードする命令デコーダ回路と、
命令デコーダ回路によってデコードされた命令を実行する命令処理回路と、
を備える、処理回路を備え、
命令デコーダ回路は、アレイアクセス命令に応じて、命令処理回路を制御して、線形アレイとして、アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする。

本開示の更なるそれぞれの態様及び特徴は、添付の特許請求の範囲によって定義される。

添付図面に示されるそれらの実施形態を参照して、あくまで一例として本開示を更に説明する。
図１は、データ処理装置を概略的に示す。図２Ａは、ストレージアレイを概略的に示す。図２Ｂは、図２Ｂのストレージアレイへのアクセスを概略的に示す。図３は、図２Ｂのストレージアレイへのアクセスを概略的に示す。図４は、図２Ｂのストレージアレイへのアクセスを概略的に示す。図５Ａは、ベクトル乗算の一例を概略的に示す。図５Ｂは、ベクトル乗算の一例を概略的に示す。図５Ｃは、ベクトル乗算の一例を概略的に示す。図５Ｄは、ベクトル乗算の一例を概略的に示す。図５Ｅは、ベクトル乗算の一例を概略的に示す。図６Ａは、行列乗算の一例を概略的に示す。図６Ｂは、行列乗算の一例を概略的に示す。図６Ｃは、行列乗算の一例を概略的に示す。図６Ｄは、行列乗算の一例を概略的に示す。図６Ｅは、行列乗算の一例を概略的に示す。図７Ａは、行列積和演算（matrix multiply accumulate、ＭＭＬＡ）命令の使用を概略的に示す。図７Ｂは、行列積和演算（matrix multiply accumulate、ＭＭＬＡ）命令の使用を概略的に示す。図７Ｃは、行列積和演算（matrix multiply accumulate、ＭＭＬＡ）命令の使用を概略的に示す。図７Ｄは、行列積和演算（matrix multiply accumulate、ＭＭＬＡ）命令の使用を概略的に示す。図７Ｅは、行列積和演算（matrix multiply accumulate、ＭＭＬＡ）命令の使用を概略的に示す。図７Ｆは、行列積和演算（matrix multiply accumulate、ＭＭＬＡ）命令の使用を概略的に示す。図８は、仮想マシンを概略的に示す。図９は、方法を表す概略フローチャートである。

添付図面を参照して実施形態を検討する前に、以下の実施形態の説明を行う。

例示的な実施形態は、データ処理装置を提供し、このデータ処理装置は、
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用する処理回路であって、ｎ×ｎ個の記憶位置のアレイにアクセスするように構成されており、
プログラム命令をデコードする命令デコーダ回路と、
命令デコーダ回路によってデコードされた命令を実行する命令処理回路と、
を備える、処理回路を備え、
命令デコーダ回路は、アレイアクセス命令に応じて、命令処理回路を制御して、線形アレイとして、アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする。

例示的な実施形態は、アレイ処理において特定の効率及び利便性を提供することができる技術を表す。一実施例は、行列処理に関するものであるが、この技術は他の用途で使用可能である。

行列の乗算又は他の操作は、多くの場合、多くの適用領域によって使用されるデジタル信号処理において見出される。そして近年、行列の乗算が訓練アルゴリズム及び推論アルゴリズムに見出される機械学習の浸透の増大に伴い、行列乗算処理の加速における関心は極めて大きいものがある。

例えば、行列Ａが次元［Ｍ，Ｋ］であり、行列Ｂが次元［Ｋ，Ｎ］である、２つの行列に対して、行列Ｃ＝Ａ^＊Ｂは次元［Ｍ，Ｎ］であり、ＭはＡ及びＣの両方の行の数であり、ＫはＡの列の数であり、かつＢの行の数であり、ＮはＢ及びＣの両方の列の数である。

行列乗算演算が非常に単純である場合であっても、つまり、Ｃの各要素が、Ａの１行及びＢの１列のＫウェイの内積によって取得され、この計算はＫ個の積和演算と見なされてもよい場合でも、この課題は、このデータを使用してその結果を計算する命令によって指定された特定の順序に寄与する行列Ａ及びＢの、命令に特定の要素の入力シーケンスを送達する際に存在する。本発明の実施形態は、例えば（排他的ではないが）ベクトル処理ＣＰＵ上で計算が実行されるときに、適切に整理された入力行列要素を送達することに関連する。

通常、１つの実装のためにカスタマイズされていない一般的なアプリケーションフレームワークでは、３つの行列Ａ、Ｂ、及びＣのメモリレイアウトは同じであり、全てが行優先メモリレイアウトにあるか、又は３つ全ての行列が列優先メモリレイアウトにある。特定の結果に寄与するＡ行列及びＢ行列の要素を、それらを処理するＣＰＵ命令への入力として、効果的に送達する際の課題は、メモリ内のデータ配置が同じであり得るが、必要とされるものは、Ａの１行及びＢの１列である、という点にある。Ａ及びＢ行列が同じメモリレイアウトを有する場合、データがメモリから連続的に取得され送達される必要があるＡ又はＢのうちの１つが常にあるが、他の行列のデータは、メモリ内の不連続な場所から収集される必要がある。

本発明の技術の実施例では、一般的な非カスタマイズのアプリケーションフレームワークにおいて見出される行列の乗算の課題は、入力行列要素を入力行列のメモリレイアウトの任意の組み合わせの線形アレイとして送達するための有効な機構を提供することによって、少なくとも部分的に対処される。４つの組み合わせが存在し、Ａ及びＢの両方が行優先メモリレイアウトにあるもの、Ａ及びＢ入力行列の両方が列優先メモリレイアウトにあるもの、Ａが行優先メモリレイアウトにあってＢが列優先メモリレイアウトにあるもの、Ａが列優先メモリレイアウトにあってＢが行優先メモリレイアウトにあるもの、である。

これらの特徴は、垂直方向などの少なくとも２つの異なる方向のうちの１つにおいてｎ個のデータ項目の線形アレイとして、ｎ×ｎ個の記憶位置のアレイとの間でデータを書き込み及び読み出しできる、例示的な実施形態によって達成することができる。

例示的な実施形態は、ストレージアレイを提供することができ、各アレイは、ｎ個の水平アレイ及びｎ個の垂直アレイの両方として見ることができる。ストレージアレイからの入力データを取る処理回路は、アレイに投入されるロードと同じ方向、又はその方向に直交する第２の方向などの別の方向、の２つの方向でアレイを読み取ることができる。アレイに投入されたロードと同じ方向にアレイを読み取るように命令が使用される場合、命令は、メモリ内のそのネイティブレイアウト内の入力を消費する。一方、ロードがアレイに投入された方向に直交する方向にアレイを読み出すように命令が使用される場合、命令は、メモリ内のそのネイティブレイアウトに対して、転置形式で入力を消費する。これは、提案された技術による「オンザフライ転置能力」の実施可能性につながる。

上記のような実施例では、第２のアレイ方向は、第１のアレイ方向に直交する。

いくつかの実施例では、命令処理回路は、第１のアレイ方向に配置されたｎ個の記憶位置のグループとして、記憶位置のアレイに入力ベクトルを記憶するように構成されており、データ取り出し命令に応じて、線形アレイとして、データ取り出し命令の制御下で、候補アレイ方向のセットから、選択されたアレイ方向に配列されたｎ個の記憶位置のセットを取り出し、第１のアレイ方向は所定のアレイ方向である。

一般に、アレイ方向は暗示されてもよく、又は別個の命令が、各アクセス方向に関して使用されてもよいが、データ取り出し命令は、ｎ個の記憶位置のセットを線形アレイとして、命令処理回路がアクセスする（例えば、取り出す）アレイ方向を指定するための、関連する命令パラメータを有してもよい。

好都合には、例えば、処理演算をそれらの間で実行することを可能にするために、データ処理装置は、ｎ×ｎ個の記憶位置の２つ以上のアレイを含んでもよい。

いくつかの実施例では、この技術は、ｎ×ｎ個の記憶位置の２つ以上のアレイのそれぞれに記憶されたデータ項目のそれぞれの入力行列に応じて出力データを生成する行列処理演算を定義する行列処理命令を含むアレイアクセス命令に関して特に有用である。例えば、行列処理演算は、入力行列のうちの１つのデータ項目の行又は列と入力行列のうちの別のもののデータ項目の行又は列との間の演算を定義することができ、行列処理命令は、データ項目の入力行列を記憶するｎ×ｎ個の記憶位置のそれぞれのアレイごとに、命令デコーダ回路が命令処理回路を制御して、記憶位置のアレイから線形アレイを取り出すアレイ方向を指定するための、関連する命令パラメータを有してもよい。

例示的な構成では、行列処理演算は、入力行列のうちの１つのデータ項目の行及び列のうちの１つの要素と、入力行列の別のもののデータ項目の行及び列のうちの他方の要素との間の演算に依存して、出力行列の要素を生成する、行列乗算演算である。

好都合には、ｎ×ｎ個の記憶位置のアレイは、２ｎ個の線形アレイとして命令処理回路によってアクセス可能な記憶素子のアレイを含み、２ｎ個の線形アレイは、第１アレイ方向のｎ個の線形アレイと、第２のアレイ方向のｎ個の線形アレイとを含み、各線形アレイはｎ個のデータ項目を含む。例えば、アレイアクセス命令は、２ｎ個の線形アレイのうちの１つ以上を指定することができる。いくつかの例示的実施形態では、（排他的ではないが）線形アレイは、ベクトルレジスタとしてアクセス可能であり得る。

数ｎは任意の値であってもよく、アレイに割り当てられたストレージの全体サイズ及びアクセスの粒度に関連し得るが、一実施例では、ｎは１６に等しい。

別の例示的実施形態は、データ処理装置を提供し、このデータ処理装置は、
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用する処理手段であって、ｎ×ｎ個の記憶位置のアレイにアクセスするように動作可能であり、
プログラム命令をデコードする命令デコーダ手段と、
命令デコーダ手段によってデコードされた命令を実行する命令処理手段と、
を備える、処理手段を備え、
命令デコーダ手段は、アレイアクセス命令に応じて、命令処理手段を制御して、線形アレイとして、アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする。

別の例示的実施形態は、データ処理方法を提供し、このデータ処理方法は、
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用することであって、ｎ×ｎ個の記憶位置のアレイにアクセスするように構成されており、適用するステップが、
プログラム命令をデコードすることと、
デコードするステップによってデコードされた命令を実行することと、
を含む、適用することを含み、
デコードするステップは、アレイアクセス命令に応じて、実行するステップを制御して、線形アレイとして、アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする。

例示的な実施形態は、コンピュータによって実行されると、コンピュータに上記で定義された方法を実行させるコンピュータソフトウェアとして実装され得る。かかるソフトウェアは、そのようなコンピュータソフトウェアを記憶する、非一時的マシン可読記憶媒体によって提供されてもよい。

別の例示的実施形態は、マシン可読命令を含むコンピュータプログラムを実行するデータプロセッサを備える仮想マシンを提供し、このコンピュータプログラムの実行は、データプロセッサをデータ処理装置として動作させ、データ処理装置は、
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用する処理回路であって、ｎ×ｎ個の記憶位置のアレイにアクセスするように構成されており、
プログラム命令をデコードする命令デコーダ回路と、
命令デコーダ回路によってデコードされた命令を実行する命令処理回路と、
を備える、処理回路を備え、
命令デコーダ回路は、アレイアクセス命令に応じて、命令処理回路を制御して、線形アレイとして、アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする。

ここで図面を参照すると、図１は、データ値３２及びプログラム命令３４を記憶するメモリ３０に結合されたプロセッサ２０を備える、データ処理システム１０を概略的に示す。プロセッサ２０は、メモリ３０からプログラム命令３４をフェッチし、デコーダ回路５０にフェッチプログラム命令を供給するための命令フェッチユニット４０を含む。デコーダ回路５０は、フェッチされたプログラム命令をデコードし、処理回路６０を制御する制御信号を生成して、デコードされたベクトル命令によって指定されるようにレジスタ回路７０内に記憶されたレジスタに処理演算を実行する。

プロセッサ２０は、ストレージアレイ９０にアクセスできる。これは破線で描かれており、それがプロセッサ２０の一部として提供されても、提供されなくてもよいことを示す。様々な実施例では、ストレージアレイは、以下の、アーキテクチャ的にアドレス指定可能なレジスタ、アーキテクチャ的にアドレス指定不可能なレジスタ、スクラッチパッドメモリ、及びキャッシュ、のうちの任意の１つ以上として実装することができる。

処理回路６０は、例えば、ベクトル処理回路及び／又はスカラ処理回路であってもよい。スカラ処理とベクトル処理との間の一般的な区別は、以下のとおりである。ベクトル処理は、単一ベクトル処理命令を、データベクトル内のそれぞれの位置に複数のデータ項目を有するデータベクトルのデータ項目に適用することを含む。スカラ処理は、データベクトルではなく、単一のデータ項目に、効果的に演算を行う。ベクトル処理は、処理されるデータの多くの異なるインスタンスに処理演算が実行される場合に有用であり得る。ベクトル処理構成では、単一の命令を（データベクトルの）複数のデータ項目に同時に適用することができる。これにより、スカラ処理と比較して、データ処理の効率及びスループットを改善することができる。

本実施形態は、ベクトル処理に関連し得るが、ベクトルプロセッサが使用されることが要件ではない。代わりに、本発明の技術は、例えばストレージアレイ９０に記憶されたデータ項目の２次元アレイを処理することに関する。２次元ストレージアレイは、少なくともいくつかの実施例では、複数の候補方向におけるデータ項目の１次元アレイとしてアクセスされてもよい。データ項目のこのような１次元アレイは、いくつかの実施例ではデータベクトルとして扱われ得るが、これは本発明の技術の必須要件ではない。

例示的実施形態では、ストレージアレイ９０は、メモリ内のデータ項目のより大きい又はより高い次元のアレイ又は行列の正方形のアレイ部分を記憶してもよい。

ストレージアレイ９０の複数のインスタンスは、データ項目の複数のそれぞれのアレイを記憶するように提供されてもよい。

以下の説明は、例示的なプログラム命令３４に関する。本開示の実施形態は、例えば、図１に示されるタイプの装置を含み、このようなプログラム命令をデコード及び実行するように動作可能又は構成されている。したがって、図１は、線形アレイ内の位置にあるデータ項目に処理演算を選択的に適用する処理回路の一実施例を提供し、各線形アレイは、データ項目順序を有する複数のデータ項目を含み、処理回路は、プログラム命令をデコードする命令デコーダ回路と、命令デコーダ回路によってデコードされた命令を実行する命令処理回路と、を備え、命令デコーダ回路は、命令に応じて、命令処理回路を制御して、以下に説明する機能を実行する。

任意選択的に、ベクトル処理装置が使用されている場合、ベクトル処理演算は、いわゆる述語の制御下にあってもよい。ここで、それぞれの述語は、線形アレイ内のデータ項目位置（この例示的な構成でデータベクトルとして処理することができる）のうちの１つに対して特定のベクトル関数が適用されるか否かを制御することができる。

上述のように、処理回路６０は、デコーダ回路５０によってデコードされた命令の制御下で、レジスタ７０及び／又はストレージアレイ９０にアクセスするように構成されている。この後者の構成の更なる詳細を、ここで図２ａを参照して説明する。

本実施例では、ストレージアレイ９０は、ｎ×ｎ個の記憶位置２００のアレイ２０５として構成されており、ｎは１を超える整数である。本実施例では、ｎは１６であり、これは、記憶位置２００へのアクセスの粒度が、水平又は垂直アレイ方向のいずれかで全記憶の１／１６であることを意味する。この態様は、以下で更に説明される。

処理回路の視点から、ｎ×ｎ個の位置のアレイは、第１の方向（例えば、描かれた水平方向）のｎ個の線形（１次元）アレイとして、そして、第２のアレイ方向（例えば、描かれた垂直方向）のｎ個の線形アレイとしてアクセス可能である。各線形アレイは、各ストレージアレイがｎ個のデータ項目の線形アレイを記憶するようにｎ個の要素を有する。換言すれば、ｎ×ｎ個の記憶位置は、処理回路６０の視点から、２ｎ個の線形アレイ、ｎ個のデータ項目のそれぞれとして構成されるか、又は少なくともアクセス可能である。

したがって、これは、ｎ×ｎ個の記憶位置のアレイが、２ｎ個の線形アレイとして命令処理回路によってアクセス可能な記憶素子のアレイを含み、２ｎ個の線形アレイは、第１のアレイ方向のｎ個の線形アレイと、第２のアレイ方向のｎ個の線形アレイとを含み、各線形アレイは、（例えば、これは要件ではないが）ｎ個のデータ項目を、データベクトルレジスタとして含む、一実施例を提供する。以下で説明される例示的な命令は、２ｎ個の線形アレイのうちの１つ以上を指定することができる。

記憶位置２００のアレイは、少なくとも処理回路及び任意選択的にデコーダ回路５０と通信する制御回路２５０の制御下で、アクセス回路２１０、２２０、列選択回路２３０及び行選択回路２４０によってアクセス可能である。

図２ｂを参照すると、第１の方向（描かれているような水平方向又は「Ｈ」方向）のｎ個の線形アレイは、「Ａ１」と表記される例示的な記憶アレイ９０の場合（以下に記載されるように、２つ以上のそのようなストレージアレイ９０、例えばＡ０、Ａ１、Ａ２などが存在し得ることを示す）、１６個のデータ項目０～Ｆ（１６進表記法）のそれぞれであり、この実施例ではＡ１Ｈ０～Ａ１Ｈ１５として参照され得る。図２ｂのストレージアレイ９０Ａ１の２５６エントリ（１６×１６エントリ）に記憶された同じ基礎データは、代わりに、Ａ１Ｖ０～Ａ１Ｖ１５として、第２の方向（描かれているような垂直又は「Ｖ」方向）で参照されてもよい。例えば、データ項目２６０は、Ａ１Ｈ０の項目Ｆであるが、Ａ１Ｖ１５のアイテム０として参照されることに留意されたい。なお、「Ｈ」及び「Ｖ」の使用は、ストレージアレイ９０を構成するデータ要素の記憶に関する任意の空間的又は物理的レイアウト要件を暗示せず、また、ストレージアレイが、行列処理を含む例示的なアプリケーションにおいて行又は列データを記憶するかどうかに関係しない、ということに留意されたい。

図２ｂの技術に従って動作する図１及び図２ａの装置は、データ処理装置１０の一実施例を提供し、この装置は、
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用する処理回路２０であって、ｎ×ｎ個の記憶位置２００のアレイ２０５にアクセスするように構成されており、
プログラム命令をデコードする命令デコーダ回路５０と、
命令デコーダ回路によってデコードされた命令を実行する命令処理回路６０と、
を備える、処理回路２０を備え、
命令デコーダ回路は、アレイアクセス命令に応じて、命令処理回路を制御して、線形アレイとして、アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする。

例示的な構成では、第２のアレイ方向（図２ａで描かれている垂直方向）は、第１のアレイ方向（描かれているように水平）に直交する。

第１の方向、例えば、描かれている水平方向の線形アレイＡ１Ｈ０～Ａ１Ｈ１５のうちの１つにアクセスするために、任意の線形アレイＡ１Ｈｍ３００（この実施例では、ｍは０～１５の任意の数である）がアクセスされている、図３を参照する。ここで、行選択回路２４０は、線形アレイ３００に対応する記憶位置の行を選択するように制御回路２５０によって制御され、アクセス回路２１０は、インターフェース３２０を介して処理回路に提供される線形アレイ３００の個々のデータ項目３１０からのアクセス（入力又は出力）を制御する。

同様に、図４を参照すると、線形アレイＡ１Ｖｍ４００など、描かれているような他の方向の任意の線形アレイにアクセスするために、列選択回路２３０は、線形アレイ４００に対応する記憶素子の列を選択し、データは、インターフェース４１０によって処理回路とインターフェース接続されるアクセス回路２２０を介して読み出される（出力される）。

ここで、図２ａ～図４の構成のいわゆる粒度を説明する。線形アレイＡ１Ｈｍは、それぞれ３２ビットの１６個のデータ項目を表す。１６個のそのような線形アレイが存在し、第２のアレイ方向の各線形アレイＡ１Ｖｍはまた、３２ビットの１６個のエントリを有する。しかしながら、その代わりに、このストレージは、それぞれの方向に８ビットの６４個のデータ項目の（いわば）ベクトルとして構成され得る。換言すれば、ストレージアレイ９０を提供するストレージへのアクセスの粒度は、３２ビットの粒度ではなく８ビットの粒度とすることができる。しかしながら、本実施例では、第１及び第２の方向におけるそれぞれの線形アレイ内の粒度及びデータ項目の数は、同じ（第１の実施例では１６、第２の実施例では６４）であるべきである。

例示的な構成では、命令処理回路６０は、第１のアレイ方向に配置されたｎ個の記憶位置のグループ（Ａ１Ｈｍ）として、記憶位置のアレイに入力ベクトル又は線形アレイを記憶するように構成されており、データ取り出し命令に応じて、線形アレイとして、データ取り出し命令の制御下で、候補アレイ方向のセットから、選択されたアレイ方向に配置されたｎ個の記憶位置のセット（例えば、Ａ１Ｈｍ又はＡ１Ｖｍ）を取り出し、第１のアレイ方向は所定のアレイ方向（例えば、描かれた水平方向）である。換言すれば、データ書き込みは第１の方向に制約されるが、データ読み取りはいずれの方向にも許可される。しかし、当然のことながら、データ書き込み及びデータ読み取りがいずれの方向にも許可される別の例示的な構成が提供され得る。

図２ａ～図４によって表されるストレージアレイ９０にアクセスするために使用され得る処理命令の実施例には、以下のうちの１つ以上が含まれてもよい。
（ａ）例えば、以下を指定する、ロード及びストア命令：
・ストレージアレイ９０のうちの１つの線形アレイ（又は線形アレイのセット）（上記実施例におけるＡ１Ｈｍ）
・演算のソース又は送付先としてのメモリ位置のブロック
・任意選択的に（ベクトル処理回路の実施例の場合）、各メモリロケーションに対して演算が実行されるかどうかを定義する述語レジスタ
・任意選択的に、アクセスの粒度を定義するパラメータ（上記参照）
（ｂ）コピー又は転置機能を提供し、例えば、以下を指定する、ムーブ命令：
・ストレージアレイ９０のうちの１つのソース線形アレイ（又は線形アレイのソースセット）（上記実施例におけるＡ１Ｈｍ又はＡ１Ｖｍ）、又は初期化値
・アレイのうちの別の（異なる）１つのターゲット線形アレイ（又は線形アレイのターゲットセット）（上記実施例におけるＡ１Ｈｍ又はＡ１Ｖｍ）
・任意選択的に、アクセスの粒度を定義するパラメータ（上記参照）
（ｃ）以下を指定する、行列乗算命令：
・ストレージアレイ９０のうちの１つの左入力線形アレイ（又は線形アレイのセット）（上記実施例におけるＡ１Ｈｍ又はＡ１Ｖｍ）
・ストレージアレイ９０のうちの別の（異なる）１つの右入力線形アレイ（又は線形アレイのセット）（上記実施例におけるＡ１Ｈｍ又はＡ１Ｖｍ）
・乗算演算の結果を記憶するための出力線形アレイ（又は線形アレイのセット）（又はスカラレジスタが、単一の線形アレイに単一の線形アレイを乗算する特定の場合に指定され得る）
・任意選択的に、アクセスの粒度を定義するパラメータ（上記参照）
（ｄ）行列積和命令（以下に更に説明）

これらの命令のうちの少なくともいくつかは、命令処理回路が線形アレイとしてｎ個の記憶位置のセットにアクセスする（例えば、取り出す）アレイ方向を指定するための、関連する命令パラメータを有する、データ取り出し命令の実施例を提供する。

これらの命令のうちの少なくともいくつかは、ｎ×ｎ個の記憶位置の２つ以上のアレイのそれぞれに記憶されたデータ項目のそれぞれの入力行列に応じて出力データを生成する行列処理演算を定義する行列処理命令の実施例を提供する。このような実施例では、行列処理演算は、入力行列のうちの１つのデータ項目の行又は列と入力行列のうちの別のもののデータ項目の行又は列との間の演算を定義することができ、行列処理命令は、データ項目の入力行列を記憶するｎ×ｎ個の記憶位置のそれぞれのアレイごとに、命令デコーダ回路が命令処理回路を制御して、記憶位置のアレイから線形アレイを取り出すアレイ方向を指定するための、関連する命令パラメータを有してもよい。いくつかの実施例では、行列処理演算は、入力行列のうちの１つのデータ項目の行及び列のうちの１つの要素と、入力行列の別のものの他のデータ項目の行及び列のうちの他方の要素の間の演算に依存して、出力行列の要素を生成する、行列乗算演算であってもよい。

この種の技術の使用例は、行列処理演算に関する。図５ａ～図５ｅは、簡略化された特定の実施例、すなわちベクトル乗算を概略的に示しているが、図６ａ～図６ｅは、行列処理関数のより一般的な状況を表す。

図５ａを参照すると、１つの入力ベクトル５１０と別の入力ベクトル５２０とのベクトル乗算の結果５００を生成するために、いわゆる内積が使用され、それによって、例えば、描かれているように左から右へと進む入力ベクトル５１０の連続的な要素に、例えば、描かれているように上部から下部へと進む入力ベクトル５２０のそれぞれの要素を乗じて、結果は、それらの個々の積のそれぞれの合計である。

このような構成は、図２～図４を参照して説明されるストレージアレイ９０を使用して実装することができる。例えば、ｎ×ｎ個の記憶位置の２つ以上のストレージアレイ９０が提供されてもよく、そのようなアレイの対５３０、５４０が本実施例で使用される。

図５ｂでは、入力ベクトル５１０は、第１の方向の線形アレイの任意の１つ５３２から取り出され入力ベクトル５２０は、第２の方向の線形アレイ５４０の任意の１つ５４２から取り出される。スカラレジスタ５５０を使用して、内積演算のスカラ結果を記憶することができる。

しかしながら、図５ａに概略的に示されるベクトル乗算が、行５１０に列５２０を乗算することを含むにもかかわらず、本実施例のストレージアレイ構成によって提供される柔軟性により、他の順列が記憶位置のアレイに実装されることを可能にする。例えば、アレイ５３０では、線形アレイ５１０は、実際には、第２の方向５３４の直線アレイによって表され得るが、列５２０はまた、第２の方向の直線アレイ５４４によって表される。

図５ｄの実施例では、線形アレイ５１０、５２０の両方は、第１の方向に表すことができ、図５ｅの図式実施例では、行５１０は、第２の方向の線形アレイ５３８によって表されるが、列５２０は第１の方向の線形アレイ５４８によって表される。

これらの技術は、行列乗算の例示のインスタンスにおいて特に有用であり得、ここでは（図６ａ）、左行列６００が右行列６１０によって乗算され、出力つまり積行列６２０を生成する。出力行列６２０の各行列要素６２２は、左行列の行６０２と、右行列の列６１２との内積によって生成される。上記のタイプの内積は、行６０２と列６１２との間で実行されて、行６０２と列６１２との交点によって表される出力行列内の位置に取り込まれる単一要素６２２を生成する。

第１及び第２の入力アレイ６３０、６４０を使用してこのタイプの行列処理機能を実施することに関して、入力行列６００、６１０のそれぞれが、ストレージアレイ６３０、６４０に書き込まれる方法は、行列を表す基礎データがメモリにどのように記憶されるか、例えば、いわゆる行優先形式（行ごと）、又はいわゆる列優先形式（列ごと）として記憶されるかに依存し得る。いくつかの実施例では、フォーマットメモリのいずれでも、データは、第１の方向のストレージアレイ６３０、６４０（描かれているように水平に配向された線形アレイ）に書き込まれるが、他の実施例では、２ｎ個の線形アレイのどの線形アレイが入力行列６００、６１０をロードするために使用されるべきかについての（第１の方向と第２の方向との間のような）完全な柔軟性が存在し得る。

結果として、図６ｂ～６ｅの順列に示されるように、入力行列６００は、各行が第１の方向の線形アレイ（図６ｂ、図６ｃ）に、又は第２の方向の線形アレイ（図６ｄ、図６ｅ）として記憶されるように表すことができ、入力行列６１０は、各列が第２の方向の線形アレイ（図６ｂ、図６ｄ）として、又は第１の方向の線形アレイ（図６ｃ及び図６ｅ）として記憶されるように表される。

出力又は積行列６２０を表すために使用されるストレージアレイ６５０は、必ずしも、ストレージアレイ６３０、６４０を参照して上述した多方向アクセス機能を提供する必要はないが、いくつかの実施例では、これらの機能性を提供することができることに留意されたい。

他の実施例では、いわゆる行列積和演算（ＭＭＬＡ）命令が使用されてもよい。

図７ａは、この技術の概略図を提供する。このような命令は、入力行列Ａ列と入力行列Ｂの外積の結果を出力行列内の前の値に加算することによって出力行列Ｃを生成して、行列積和演算（例えば、Ｃｍ’＝Ｃｍ＋ＡｉＶｋ×ＢｊＨｋ）を提供することができる。

入力行列のセット（又はより大きい行列の一部）は、本明細書に記載される技術のいずれかを使用して、メモリから入力アレイＡｉ、Ｂｊにロードすることができる。演算中、１つのＭＭＬＡ命令は、１つのＡｉＶｋ及び１つのＢｊＨｋをソースとして取り込み、出力アレイＣｍ内に累算されるｎ×ｎ個の積を生成する。例えば、ｎ＝１６かつ２つの入力アレイがＡ０、Ｂ０である場合、ＭＭＬＡ命令の特定のインスタンスについては、２５６（１６×１６）個の積和演算が実行される。例えば、各ｎ及びｍ＝０～１５に対して、出力アレイ要素Ｃ０’（ｎ，ｍ）＝Ｃ０（ｎ，ｍ）＋（Ａ０Ｖｋ（ｎ）^＊Ｂ０Ｈｋ（ｍ））である。

これらのＭＭＬＡ演算は、２入力１６要素の線形アレイのための２５６個の積（１６×１６の例）を提供し、そのため、ロード帯域幅が制限されるか、又は高いレイテンシが、線形アレイが取り出される１６×１６ストレージアレイに投入したロード演算に関連付けられる状況において、効率的である可能性がある。

ＭＭＬＡ命令の結果は、それ自体で有用であり得る。すなわち、実際には、ＭＭＬＡ演算がループされて複数回反復される必要はない。しかしながら、他の実施例では、図６ａ～図６ｅを参照して説明されるタイプの数学的行列乗算は、ＭＭＬＡ命令の繰り返しループ化演算によって実装されてもよい。

図７ｂ～図７ｆは、図６ａ～図６ｅの表現と同様の表現を提供する。

図７ｂを参照すると、データＡｊＶｋは入力行列７００の列７０２によって表され、データＢｊＨｋは入力行列７１０の行７１２によって表される。積和演算積は、出力行列Ｃｍ７２２によって表される。

図６ｂ～図６ｅと同様に、図７ｃ～図７ｆは、データアレイ７３０、７４０に関して、ＭＭＬＡ命令への入力を形成するデータが、本明細書に記載される機能によって提供されるオンザフライの転置によって可能となる、任意の順列内のそれぞれの行又は列を表すことができる。

様々な実施形態では、アレイは、以下の、アーキテクチャ的にアドレス指定可能なレジスタ、アーキテクチャ的にアドレス指定不可能なレジスタ、スクラッチパッドメモリ、及びキャッシュ、のうちの１つ以上を備える。

図８は、上述の機能の一部又は全てが提供され得る仮想マシンを概略的に示す。仮想マシンは、データ処理回路８００の一実施例としての中央演算処理装置（ＣＰＵ）と、不揮発性メモリ８１０と、制御インターフェース８２０と、入出力（ＩＯ）インターフェース８３０とを備え、全てがバス構成８４０によって相互接続されている。ランダムアクセスメモリ（ＲＡＭ）８５０は、ＣＰＵ８００の動作を制御するソフトウェア８６０を提供するプログラム命令を記憶する。ソフトウェア８６０の制御下で、ＣＰＵ８００は、上述の処理命令のうちの１つ以上の機能を提供するか、又はその機能をエミュレートする。ＲＡＭ８５０はまた、プログラム命令８７０及びデータ８８０を記憶し、プログラム命令８７０は、図１のプロセッサ２０に適用可能な命令であり、仮想マシンとして機能するＣＰＵ８００によって解釈、エミュレート、又は別の方法で実行される。データ８８０は、プログラム命令８７０の（仮想）実行によって操作される図１のデータ３２に対応するデータである。したがって、図８の構成は、マシン可読命令（例えば、ソフトウェア８６０）を含むコンピュータプログラムを実行するデータプロセッサ（ＣＰＵ８００など）を備える仮想マシンの一実施例を提供し、コンピュータプログラムの実行によって、データプロセッサが上記のタイプのデータ処理装置として動作する。例示的な実施形態はまた、コンピュータによって実行されると、コンピュータに、図９の方法を含む本明細書に記載されている技術のうちの１つ以上を実行させるコンピュータソフトウェアによって、そして、このようなコンピュータソフトウェアを記憶する非一時的マシン可読記憶媒体によって表される。

要約すると、図９は、データ処理方法を示す概略フローチャートであり、この方法は、
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を（ステップ９００で）適用することであって、ｎ×ｎ個の記憶位置のアレイにアクセスするように構成されており、適用するステップが、
（ステップ９１０で）プログラム命令をデコードすることと、
デコードするステップによってデコードされた命令を（ステップ９２０で）実行することと、
を含む、適用することを含み、
デコードするステップは、アレイアクセス命令に応じて、実行するステップを制御して、線形アレイとして、アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする。

本出願において、「～ように構成される（configured to）」という用語は、装置の要素が、定義された動作を実行することができる構成を有することを意味するために使用される。このコンテキストにおいて、「構成」は、ハードウェア又はソフトウェアの相互接続の構成又は方法を意味する。例えば、装置は、定義された動作を提供する専用ハードウェアを有してもよく、又はプロセッサ若しくは他の処理デバイスは、機能を実行するようにプログラムされてもよい。「～ように構成される」は、定義された動作を提供するために、装置要素を任意の方法で変更する必要を意味しない。

本発明の技術の例示的な実施形態が添付の図面を参照して本明細書で詳細に説明されてきたが、本発明の技術はそれらの正確な実施形態に限定されず、添付の特許請求の範囲によって定義される本発明の範囲及び精神から逸脱することなく、当業者によって様々な変更、追加、及び修正を行うことができることを理解されたい。例えば、従属請求項の特徴の様々な組み合わせは、本発明の技術の範囲から逸脱することなく、独立請求項の特徴によって作製され得る。

Claims

ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用する処理回路であって、ｎ×ｎ個の記憶位置のアレイにアクセスするように構成されており、
プログラム命令をデコードする命令デコーダ回路と、
前記命令デコーダ回路によってデコードされた命令を実行する命令処理回路と、
を備える、処理回路を備え、
前記命令デコーダ回路は、アレイアクセス命令に応じて、前記命令処理回路を制御して、線形アレイとして、前記アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、前記第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする、
データ処理装置。
前記第２のアレイ方向は、前記第１のアレイ方向に直交している、請求項１に記載のデータ処理装置。
前記命令処理回路は、前記第１のアレイ方向に配置されたｎ個の記憶位置のグループとして、記憶位置の前記アレイに入力ベクトルを記憶するように構成されており、データ取り出し命令に応じて、線形アレイとして、前記データ取り出し命令の制御下で、候補アレイ方向の前記セットから、選択されたアレイ方向に配列されたｎ個の記憶位置のセットを取り出し、
前記第１のアレイ方向は、所定のアレイ方向である、
請求項１又は請求項２に記載のデータ処理装置。
前記データ取り出し命令は、前記命令処理回路が線形アレイとしてｎ個の記憶位置のセットにアクセスするアレイ方向を指定するための、関連する命令パラメータを有する、請求項３に記載のデータ処理装置。
ｎ×ｎ個の記憶位置の２つ以上のアレイを含む、請求項１～４のいずれか一項に記載のデータ処理装置。
前記アレイアクセス命令は、ｎ×ｎ個の記憶位置の前記２つ以上のアレイのうちのそれぞれに記憶されたデータ項目のそれぞれの入力行列に応じて出力データを生成する行列処理演算を定義する行列処理命令を含む、請求項５に記載のデータ処理装置。
前記行列処理演算は、前記入力行列のうちの１つのデータ項目の行又は列と、前記入力行列のうちの別のもののデータ項目の行又は列との間の演算を定義し、
前記行列処理命令は、データ項目の前記入力行列を記憶するｎ×ｎ個の記憶位置の前記それぞれのアレイごとに、前記命令デコーダ回路が前記命令処理回路を制御して記憶位置の前記アレイから線形アレイを取り出すアレイ方向を指定するための、関連する命令パラメータを有する、
請求項６に記載のデータ処理装置。
前記行列処理演算は、前記入力行列のうちの１つのデータ項目の行及び列のうちの１つの要素と、前記入力行列の別のもののデータ項目の行及び列のうちの他方の要素との間の演算に依存して、出力行列の要素を生成する、行列乗算演算である、請求項７に記載のデータ処理装置。
ｎ×ｎ個の記憶位置の前記アレイは、２ｎ個の線形アレイとして前記命令処理回路によってアクセス可能な記憶素子のアレイを含み、前記２ｎ個の線形アレイは、前記第１のアレイ方向のｎ個の線形アレイと、前記第２のアレイ方向のｎ個の線形アレイとを含み、各線形アレイはｎ個のデータ項目を含む、請求項２に記載のデータ処理装置。
前記アレイアクセス命令は、前記２ｎ個の線形アレイのうちの１つ以上を指定する、請求項９に記載のデータ処理装置。
前記データ構造保持回路は、アーキテクチャ的にアドレス指定可能なレジスタ、アーキテクチャ的にアドレス指定不可能なレジスタ、スクラッチパッドメモリ、及びキャッシュ、のうちの少なくとも１つを備える、請求項１～１０のいずれか一項に記載のデータ処理装置。
ｎが１６に等しい、請求項１～１１のいずれか一項に記載のデータ処理装置。
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用する処理手段であって、ｎ×ｎ個の記憶位置のアレイにアクセスするように動作可能であり、
プログラム命令をデコードする命令デコーダ手段と、
前記命令デコーダ手段によってデコードされた命令を実行する命令処理手段と、
を備える、処理手段を備え、
前記命令デコーダ手段は、アレイアクセス命令に応じて、前記命令処理手段を制御して、線形アレイとして、前記アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、前記第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする、
データ処理装置。
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用することであって、ｎ×ｎ個の記憶位置のアレイにアクセスするように構成されており、前記適用するステップが、
プログラム命令をデコードすることと、
前記デコードするステップによってデコードされた命令を実行することと、
を含む、適用することを含み、
前記デコードするステップは、アレイアクセス命令に応じて、前記実行するステップを制御して、線形アレイとして、前記アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、前記第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする、
データ処理方法。
コンピュータによって実行されると、前記コンピュータに、請求項１４に記載の方法を実行させるコンピュータソフトウェア。
請求項１５に記載のコンピュータソフトウェアを記憶する、非一時的マシン可読記憶媒体。
マシン可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備える仮想マシンであって、前記コンピュータプログラムの実行は、前記データプロセッサをデータ処理装置として動作させ、前記データ処理装置は、
ｎは１を超える整数であり、内部のそれぞれの位置に複数のｎ個のデータ項目を含む線形アレイの、１つ以上のデータ項目に処理演算を適用する処理回路であって、ｎ×ｎ個の記憶位置のアレイにアクセスするように構成されており、
プログラム命令をデコードする命令デコーダ回路と、
前記命令デコーダ回路によってデコードされた命令を実行する命令処理回路と、
を備える、処理回路を備え、
前記命令デコーダ回路は、アレイアクセス命令に応じて、前記命令処理回路を制御して、線形アレイとして、前記アレイアクセス命令の制御下で、少なくとも第１のアレイ方向と、前記第１のアレイ方向とは異なる第２のアレイ方向とを含む候補アレイ方向のセットから選択されたアレイ方向に配置された、ｎ個の記憶位置のセットにアクセスする、
仮想マシン。