JP7129138B2 - 16ビット浮動小数点乗算器を用いた行列と行列の乗算による複数精度整数乗算器 - Google Patents

16ビット浮動小数点乗算器を用いた行列と行列の乗算による複数精度整数乗算器 Download PDF

Info

Publication number
JP7129138B2
JP7129138B2 JP2020545788A JP2020545788A JP7129138B2 JP 7129138 B2 JP7129138 B2 JP 7129138B2 JP 2020545788 A JP2020545788 A JP 2020545788A JP 2020545788 A JP2020545788 A JP 2020545788A JP 7129138 B2 JP7129138 B2 JP 7129138B2
Authority
JP
Japan
Prior art keywords
matrix
integer
product
elements
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020545788A
Other languages
English (en)
Other versions
JP2021515936A (ja
Inventor
淳 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021515936A publication Critical patent/JP2021515936A/ja
Application granted granted Critical
Publication of JP7129138B2 publication Critical patent/JP7129138B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/523Multiplying only
    • G06F7/53Multiplying only in parallel-parallel fashion, i.e. both operands being entered in parallel
    • G06F7/5324Multiplying only in parallel-parallel fashion, i.e. both operands being entered in parallel partitioned, i.e. using repetitively a smaller parallel parallel multiplier or using an array of such smaller multipliers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Complex Calculations (AREA)
  • Design And Manufacture Of Integrated Circuits (AREA)

Description

本発明は、乗算に関し、より詳細には、16ビット浮動小数点乗算器を用いた行列-行列の乗算による複数精度整数乗算器に関する。
行列演算を用いて整数を乗算するための従来の方法が提案されている。しかし、近年において、乗算がより速やかにおよびより高精度で行われることに対する要求が生じている。
本発明の第1の態様によれば、コンピュータによって実施される方法であって、第1の整数を表す第1の整数データを桁方向に分割することによって得られる複数の第1の整数要素の中の、N×N個の第1の整数要素を、N個の行とN個の列とを有する第1の行列に代入することと、第2の整数を表す第2の整数データを桁方向に分割することによって得られる複数の第2の整数要素の中の、1つまたは複数の第2の整数要素のそれぞれを、N個の行とN個の列とを有する第2の行列の少なくとも1つの行列要素に代入することと、第1の行列と第2の行列との積である第3の行列を計算することと、第3の行列の各行列要素を、第1の整数と第2の整数との積の計算における部分積として出力することとを含む、方法がもたらされる。このようにして、計算精度および計算速度を向上させることが可能である。
第1の行列に代入するおよび第2の行列に代入する間、第1の行列および第2の行列の各行列要素は、第1の行列に含まれる各第1の整数要素と、第2の行列に含まれる各第2の整数要素との積の中の、第1の整数と第2の整数との積において同じ桁位置に対応する各積が、第3の行列の同じ行列要素に対応するように配置され得る。このようにして、計算された部分積を整列させることが可能であり、従って正しい乗算結果を計算することが可能である。
本発明の他の態様によれば、装置であって、プロセッサまたはプログラマブル回路と、共同で命令を含む1つまたは複数のコンピュータ可読媒体とを備え、命令は、プロセッサまたはプログラマブル回路によって実行されるとき、プロセッサまたはプログラマブル回路に、第1の整数を表す第1の整数データを桁方向に分割することによって得られる複数の第1の整数要素の中の、N×N個の第1の整数要素を、N個の行とN個の列とを有する第1の行列に代入することと、第2の整数を表す第2の整数データを桁方向に分割することによって得られる複数の第2の整数要素の中の、1つまたは複数の第2の整数要素のそれぞれを、N個の行とN個の列とを有する第2の行列の少なくとも1つの行列要素に代入することと、第1の行列と第2の行列との積である第3の行列を計算することと、第3の行列の各行列要素を、第1の整数と第2の整数との積の計算における部分積として出力することとを行わせる、装置がもたらされる。このようにして、計算精度および計算速度を向上させることが可能である。
本発明のさらに他の態様によれば、装置であって、第1の整数を表す第1の整数データを桁方向に分割することによって得られる複数の第1の整数要素の中の、N×N個の第1の整数要素を、N個の行とN個の列とを有する第1の行列に代入する、第1の行列代入部と、第2の整数を表す第2の整数データを桁方向に分割することによって得られる複数の第2の整数要素の中の、1つまたは複数の第2の整数要素のそれぞれを、N個の行とN個の列とを有する第2の行列の少なくとも1つの行列要素に代入する、第2の行列代入部と、第1の行列と第2の行列との積である第3の行列を計算する、第3の行列計算部と、第3の行列の各行列要素を、第1の整数と第2の整数との積の計算における部分積として出力する、部分積出力部とを備える装置がもたらされる。このようにして、計算精度および計算速度を向上させることが可能である。
本発明のさらに他の態様によれば、プロセッサまたはプログラマブル回路に動作を行わせるように、プロセッサまたはプログラマブル回路によって実行可能なプログラム命令を共同で記憶する1つまたは複数のコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品であって、動作は、第1の整数を表す第1の整数データを桁方向に分割することによって得られる複数の第1の整数要素の中の、N×N個の第1の整数要素を、N個の行とN個の列とを有する第1の行列に代入することと、第2の整数を表す第2の整数データを桁方向に分割することによって得られる複数の第2の整数要素の中の、1つまたは複数の第2の整数要素のそれぞれを、N個の行とN個の列とを有する第2の行列の少なくとも1つの行列要素に代入することと、第1の行列と第2の行列との積である第3の行列を計算することと、第3の行列の各行列要素を、第1の整数と第2の整数との積の計算における部分積として出力することとを含むコンピュータ・プログラム製品がもたらされる。このようにして、計算精度および計算速度を向上させることが可能である。
これらならびに他の特徴および利点は、添付の図面に関連して読まれる、それらの例示的実施形態の以下の詳細な説明から明らかになるであろう。
以下の説明は、以下の図を参照して好ましい実施形態の詳細をもたらす。
例示的実施形態による装置を示す図である。 第3の行列計算部を示す図である。 行列要素を記憶するレジスタを示す図である。 例示的実施形態による装置の動作を示す図である。 第1の整数データ(B)および第2の整数データ(A)を示す図である。 互いに乗算される第1の行列および第2の行列を示す図である。 部分積の加算を示す図である。 本発明の実施形態によるコンピュータの例示的ハードウェア構成を示す図である。
本明細書の以下では、本発明のいくつかの実施形態が述べられる。実施形態は「特許請求の範囲」による本発明を限定するものではなく、実施形態において述べられる特徴のすべての組合せは、本発明の態様によってもたらされる手段に対して、必ずしも本質的ではない。
図1は、本実施形態による装置1を示す。装置1は、行列演算を行うことによって2つの整数の積を出力し、例えば、コンピュータ支援設計(CAD)、コンピュータ支援エンジニアリング(CAE)、財務シミュレーション、または暗号化あるいはその組合せなどの、数値計算を行う。装置1は、メモリ2、行列代入部3、第1の行列記憶部4、第2の行列記憶部5、第3の行列計算部6、第4の行列記憶部7、部分積出力部8、および整数積計算部9を含む。装置1はプロセッサとすることができ、および例えば、グラフィック・プロセッサ・ユニット(GPU)でよい。
メモリ2は、乗算演算の対象である整数を表す少なくとも1つの整数データを記憶する。例えば、メモリ2は、第1の整数を表す第1の整数データと、第2の整数を表す第2の整数データとを記憶することができる。
メモリ2は、乗算結果を表す少なくとも1つの整数データを記憶することができる。例えば、メモリ2は、第1の整数と第2の整数との積である第12の整数を表す第12の整数データを記憶することができる。
ここで、第1の整数および第2の整数は、互いに同じ値とすることができ、または異なる値でよい。第1の整数および第2の整数は、整数形式で表されることができ、または浮動小数点形式において仮数部によって表され、指数部に関連付けられ得る。本実施形態での例として、第1の整数データ、第2の整数データ、および第12の整数データは、2値データであり、8ビット、16ビット、32ビット、または64ビットなどの任意の長さを有する。
行列代入部3は、メモリ2から読み出された整数データを桁方向に分割することによって、1つまたは複数の整数要素を生成し、これらの整数要素を行列に代入する。整数要素は、それぞれ1つまたは複数の桁を有することができる。整数データを桁方向に分割することは、整数データを桁方向に降順または昇順で、1つまたは複数の基本桁数に分割することを意味することができる。行列代入部3は、第1の行列代入部31と第2の行列代入部32とを含む。
第1の行列代入部31は、第1の整数を表す第1の整数データを桁方向に分割することによって得られる複数の第1の整数要素の中の、N×N個の第1の整数要素を、第1の行列記憶部4に代入する。本実施形態での例として、Nは2であるが、代わりに他の数、例えば、16とすることができる。第2の行列代入部32は、第2の整数を表す第2の整数データを桁方向に分割することによって得られる複数の第2の整数要素の中の、1つまたは複数の第2の整数要素のそれぞれを、N個の行とN個の列とを有する第2の行列記憶部5の少なくとも1つの行列要素に代入する。例えば、第2の行列代入部32は、1つから4つの第2の整数要素を、2つの行と2つの列とを有する第2の行列記憶部5に代入することができる。各第2の整数要素は、各第1の整数要素と同じサイズとすることができ、例えば、8ビットとすることができる。
第1の行列記憶部4および第2の行列記憶部5は、それぞれがN個の行とN個の列(例えば2つの行と2つの列)を有する第1の行列および第2の行列を記憶する。第1の行列記憶部4および第2の行列記憶部5は、行列配置を有するレジスタを含むことができる。第1の行列記憶部4および第2の行列記憶部5のレジスタは、同じサイズのデータを記憶することができる。
第3の行列計算部6は、第1の行列と第2の行列とを掛け合わせることによって、第3の行列を計算する。装置1がプロセッサである場合、第3の行列の計算は1つのコマンドに従って行われ得る。第3の行列計算部6は、第3の行列を第4の行列記憶部7に供給することができる。
第4の行列記憶部7は、第3の行列を積算することによって得られる第4の行列を記憶する。第4の行列は、第3の行列が計算されるたびに、第3の行列の各行列要素を、同じ桁位置に対応する計算された部分積の和に加算することによって得られる行列とすることができる。第4の行列記憶部7は、行列配置を有するレジスタを含むことができる。第4の行列記憶部7のレジスタは、第1の行列記憶部4および第2の行列記憶部5に記憶されるデータより大きなサイズを有するデータを記憶することができる。
部分積出力部8は、第3の行列の各行列要素を、第1の整数と第2の整数との積の計算における部分積として出力する。本実施形態での例として、部分積出力部8は、第3の行列を積算することによって得られる第4の行列の各行列要素を、第1の整数と第2の整数との積の計算における対応する桁位置に対する、第1の整数要素と第2の整数要素との部分積の和として、抽出することができる。部分積出力部8は、各抽出された行列要素を整数積計算部9に供給することができる。
整数積計算部9は、第1の整数と第2の整数との積を計算する。整数積計算部9は、部分積配置部91と加算部92とを含むことができる。
部分積配置部91は、部分積の和から乗算結果を得るために、各部分積を対応する桁位置に配置する。例えば、部分積配置部91は、部分積出力部8から供給される各部分積(例えば本実施形態における部分積の和)を、第1の整数と第2の整数との積内のこの部分積に対応する桁位置に配置する。
加算部92は、第12の整数を、各部分積の和を計算することによって得られる乗算結果として取得する。加算部92は、メモリ2に第12の整数を記憶することができる。
上述の装置1を用いて、第1の行列と第2の行列との積である第3の行列が計算され、第3の行列の各行列要素は、第1の整数と第2の整数との積の計算における部分積として出力され、従って部分積を計算することによって乗算を行うことが可能である。それに応じて、計算を細分化しながら乗算を行うことが可能であるので、計算桁数に余裕をもたせながら、部分積を計算することによって、情報脱落などによって生じる計算誤差を低減し、計算精度を向上させることが可能である。さらに、乗算は行列計算に従って行われるので、計算速度を向上させることが可能である。
図2は、第1の行列記憶部4、第2の行列記憶部5、第3の行列計算部6、および第4の行列記憶部7を示す。本実施形態での例として、第3の行列計算部6はテンソル計算ユニットであり、第1の行列記憶部4および第2の行列記憶部5に記憶された、それぞれN個の行とN個の列(例えば2つの行と2つの列)を有する第1の行列Pおよび第2の行列Qから、第3の行列PQを計算することができる。さらに、第3の行列計算部6は、演算S=P×Q+Rに従って、新たに計算された第3の行列PQと、第4の行列記憶部7の、第3の計算された行列PQの和である第4の行列Rとを、足し合わせることによって新たな第4の行列Sを計算し、第4の行列記憶部7の第4の行列Rを更新することができる。
図3は、行列要素を記憶するレジスタを示す。本実施形態での例として、第1の行列Pおよび第2の行列Qの行列要素を記憶するレジスタは、1ビット符号部と、5ビット指数部と、10ビット仮数部とを有する半精度浮動小数点形式(FP16)で各行列要素を記憶することができる。第4の行列RおよびSの行列要素を記憶するレジスタは、1ビット符号部と、8ビット指数部と、23ビット仮数部とを有する単精度浮動小数点形式(FP32)で各行列要素を記憶することができる。例として、各整数要素は、レジスタの仮数部に記憶されることができ、またはレジスタの仮数部および符号部に記憶され得る。
図4は、本実施形態による装置1の動作を示す。ステップS11からS25のプロセスを行うことによって、装置1は、第1の整数に第2の整数を乗算して、積として第12の整数を計算する。装置1は、第1の整数および第2の整数がオペレータによって指定され、乗算命令が入力されたとき、動作を開始する。動作が開始するとき、第4の行列記憶部7内の第4の行列は0にリセットされ得る。
最初に、ステップS11で、第1の行列代入部31は、第1の整数データを桁方向に分割することによって得られる複数の第1の整数要素の中の、N×N(例えば4)個の第1の整数要素を、第1の行列記憶部4内の第1の行列に代入する。次に、ステップS13で、第2の行列代入部32は、第2の整数データを桁方向に分割することによって得られる複数の第2の整数要素の中の、1つまたは複数の第2の整数要素のそれぞれを、第2の行列記憶部5内の第2の行列の少なくとも1つの行列要素に代入する。
第1の行列への代入を行うとき、第1の行列代入部31は、メモリ2から第1の整数データを読み出し、この第1の整数データを桁方向に分割することによって、複数の第1の整数要素を生成することができる。例として、第1の行列代入部31は、第1の整数データを8桁、すなわち8ビットの単位に分割することによって、複数の第1の整数要素を生成することができる。
同様に、第2の行列への代入を行うとき、第2の行列代入部32は、メモリ2から第2の整数データを読み出し、桁方向にこの第2の整数データを分割することによって、複数の第2の整数要素を生成することができる。例として、第2の行列代入部32は、第2の整数データを8桁、すなわち8ビットの単位に分割することによって、複数の第2の整数要素を生成することができる。
第1の行列代入部31および第2の行列代入部32は、第1の行列および第2の行列の各行列要素を第1の行列および第2の行列に、第1の行列に含まれる各第1の整数要素と、第2の行列に含まれる各第2の整数要素との複数の積の中の、第12の整数での同じ桁位置に対応する積が、第3の行列の同じ行列要素に対応して配置されるように、代入することができる。このようにして、計算された部分積の桁を整列させることが可能であり、従って正しい乗算結果を計算することが可能である。
例えば、第1の行列代入部31は、第1の整数データにおいて桁方向に連続したN×N個の第1の整数要素を、第1の行列に代入することができる。この代わりにまたはこれに加えて、第2の行列代入部32は、第2の整数データにおいて桁方向に連続した1つまたは複数の第2の整数要素を、第2の行列に代入することができる。このようにして、第1の行列および第2の行列への整数要素の代入を簡略化することが可能である。
さらに、第1の行列への代入を行うとき、第1の行列代入部31は、N×N(例えば4)個の第1の整数要素の中の、N(例えば2)個の連続した第1の整数要素を、第1の行列の各行に代入することができる。代入の順序は、第1の整数データにおける桁方向で昇順または降順とすることができる。第2の行列への代入を行うとき、第2の行列代入部32は、複数の第2の整数要素の中の、N(例えば2)個の連続した第2の整数要素を、第2の行列の各列に代入することができる。代入の順序は、第2の整数データの桁方向において、第1の行列に対するN個の第1の整数要素の代入順序と反対とすることができる。整数要素を記憶する時間的順序がそれらを読み出す時間的順序と同じである、すなわち、整数要素が低位側から読み出される場合、第1の行列代入部31は、第1の整数要素を、第1の行列の各行に対して、読み出しの時間的順序と逆の順序でそれらが配置されるように、代入することができ、第2の行列代入部32は、第2の整数要素を、第2の行列の各列に対して、読み出しの時間的順序でそれらが配置されるように、代入することができる。第1の整数データおよび第2の整数データがリトル・エンディアン形式で記憶される場合、すなわち、より下位のビットがより低く位置付けされる場合、第1の行列代入部31は、第1の行列の各行に対して桁方向に降順で、第1の整数要素を代入することができ、第2の行列代入部32は、第2の行列の各列に対して桁方向に昇順で、第2の整数要素を代入することができる。第1の整数データおよび第2の整数データがビッグ・エンディアン形式で記憶される場合、すなわち、より下位のビットがより高く位置付けされる場合、第1の行列代入部31および第2の行列代入部32はそれぞれ、反対の順序で整数要素を代入することができる。
さらに、第1の行列への代入を行うとき、第1の行列代入部31は、N×N(例えば4)個の第1の整数要素を、第1の行列の各行列要素に列優先順で代入することができる。第2の行列への代入を行うとき、第2の行列代入部32は、N(例えば2)個の連続した第2の整数要素を、第2の行列の第1の行に、第1の行列内の第1の整数要素の代入順序と同じ順序で代入することができる(すなわち桁方向に昇順または降順)。さらに、第2の行列代入部32は、N個の第2の整数要素を、第2の行列の第2および後続の行に、第2の整数データ内のN個の第2の整数要素を一時に1つの整数要素だけシフトしながら、代入することができる。例えば、第2の行列代入部32は、第2の行列の各列内の第2の整数要素の代入順序が、第1の行列の各行への第1の整数要素の代入順序と反対になるように、第2の整数要素をシフトすることができる。例として、第1の整数データおよび第2の整数データがリトル・エンディアン形式で記憶される場合、第1の行列代入部31は、N×N個の第1の整数要素を第1の行列に、行優先および桁方向に降順で代入することができ、第2の行列代入部32は、N個の第2の整数要素(例えば要素(a)、・・・、要素(a)、下付き文字は整数要素の順序を示す)を第2の行列の第1の行に、桁方向に降順で代入することができる(例えば要素(a)、・・・、要素(a)の順に)。さらに、第2の行列代入部32は、N個の整数要素(例えば要素(a)、・・・、要素(a))を、第2の行において1つの整数要素だけより高位の桁側に向かって、シフトすることによって得られるN個の整数要素(例えば要素(aN+1)、・・・、要素(a))を、代入することができる。この後、第2の行列の各列内の第2の整数要素は、行の数だけより高位の桁側に向かってシフトされたN個の整数要素を、各行に代入することによって、昇順に設定される。第2の行列代入部32は、シフトの結果として、代入されることになる整数要素が第2の整数データ内に存在しない場合、0を代入することができる。
次に、ステップS15で、第3の行列計算部6は、第1の行列と第2の行列との積である、第3の行列を計算する。本実施形態での例として、第3の行列計算部6は、計算された第3の行列を、第4の行列記憶部7内の第4の行列に加算することができる。第4の行列は、N個の行とN個の列とを有することができる。
次に、ステップS17で、部分積出力部8は、第3の行列の各行列要素を、第1の整数と第2の整数との積の計算における部分積として出力する。本実施形態での例として、第3の行列は、N個の行とN個の列とを有する第4の行列に加算され、従って部分積出力部8は、第4の行列の第1の行または最後の行内の各行列要素を、第1の整数と第2の整数との積における対応する桁位置での部分積の和として、抽出し、残りの行を1つの行だけ、抽出された行に向かってシフトすることができる。例えば、部分積出力部8は、第1の整数要素が、桁方向に降順で第1の行列に代入される場合、第4の行列から最後の行を抽出することができ、第1の整数要素が、桁方向に昇順で第1の行列に代入される場合、第4の行列から第1の行を抽出することができる。このようにして、それに対して第1の整数と第2の整数との積内に加算されることになるさらなる部分積が存在しない部分積が、第4の行列から抽出される。部分積出力部8は、第4の行列内のシフトの結果として空のスペースが生じる各行列要素に対して、0を設定することができる。
次に、ステップS19で、第2の行列代入部32は、第2の整数内の整数要素のすべてが第2の行列に代入されたかどうかを判定する。判定結果が否定(S19:いいえ)である場合、第2の行列代入部32は処理をステップS13に移動させ、判定結果が肯定(S19:はい)である場合、第2の行列代入部32は処理をステップS21に移動させる。ステップS13の処理が繰り返されることになる場合、第2の行列代入部32は、第2の整数データを桁方向に分割することによって得られる複数の第2の整数要素の中の、未だ代入されていない1つまたは複数の第2の整数要素を、第2の行列に代入することができる。このようにして、第1の行列に代入されたN×N個の第1の整数要素と、各第2の整数要素との部分積が計算される。第2の行列代入部32は、第2の行列の一部分内の行列要素に代入されることになる整数要素が、第2の整数データ内に存在しない場合、0を代入することができる。
ステップS21で、第1の行列代入部31は、第1の整数内の整数要素のすべてが第1の行列に代入されたかどうかを判定する。判定結果が否定(S21:いいえ)である場合、第1の行列代入部31は処理をステップS11に移動させ、判定結果が肯定(S21:はい)である場合、第1の行列代入部31は処理をステップS23に移動させる。ステップS11の処理が繰り返されることになる場合、第1の行列代入部31は、第1の整数データを桁方向に分割することによって得られる複数の第1の整数要素の中の、未だ代入されていないN×N個の第1の整数要素を、第1の行列に代入することができる。このようにして、各第1の整数要素と各第2の整数要素との部分積が計算される。第1の行列代入部31は、第1の行列の一部分内の行列要素に代入されることになる整数要素が、第1の整数データ内に存在しない場合、0を代入することができる。上述のステップS11からS21の処理を行うことによって、一時に複数の第2の整数要素の中の1つまたは複数の第2の整数要素を、第2の行列に順次に代入するプロセスは、複数の第1の整数要素の中のN×N個の第1の整数要素の異なるセットが、第1の行列に代入されるたびに繰り返される。さらに、第3の行列の計算、および部分積の出力は、第2の行列への代入が行われるたびに行われる。
ステップS23で、部分積配置部91は、各部分積を、第1の整数と第2の整数との積における対応する桁位置に配置する。例えば、部分積配置部91は、第1の整数と第2の整数との積における各部分積が対応する桁位置において加算されるように、桁位置を調整し、各部分積を加算部92に供給することができる。例として、ステップS17で部分積配置部91は、あらゆる基準の数の桁(例えば本実施形態では8桁)ごとに対して、各行列要素出力に対する桁位置をシフトすることができる。
次に、ステップS25で、加算部92は、第1の整数と第2の整数との積である、第12の整数を、各部分積の和を計算することによって計算する。このようにして、第12の整数は、各出力された部分積に基づいて計算される。部分積において桁あふれがある場合、加算部92はこの桁あふれをより高位の桁に加算することができる。
上述のプロセスを用いて、N×N個の第1の整数要素の中の、N個の連続した第1の整数要素は、第1の行列の各行に、桁方向に昇順または降順で代入され、複数の第2の整数要素の中の、N個の連続した第2の整数要素は、第2の行列の各列に、第1の整数要素の代入順序と反対の順序で代入される。それに応じて、計算された部分積の桁を整列させることが可能であるので、正しい乗算結果を計算することが可能である。
さらに、部分積の桁あふれはより高位の桁に加算されるので、計算精度を向上させることが可能である。
以下は、乗算の詳細な例を述べる。
図5は、第1の整数データ(B)および第2の整数データ(A)を示す。本実施形態での例として、第1の整数データ(B)および第2の整数データ(A)は、それぞれ64ビット2値データである。第1の整数データ(B)は、それぞれが8ビットを有する8個の第1の整数要素(b)~(b)に分割され得る。第2の整数データ(A)は、それぞれが8ビットを有する8個の第2の整数要素(a)~(a)に分割され得る。ここで下付き文字は、整数要素の順序を示し、より小さな値はより低位の桁位置を示す。
図6は、互いに乗算される第1の行列および第2の行列を示す。本実施形態での例として、複数の第1の整数要素(b)~(b)は、一時に4つが、2つの列と2つの行とを有する第1の行列に、行優先降順で代入され得る。さらに、1つまたは複数の第2の整数要素は、2つの行と2つの列とを有する第2の行列に、各列において2つの第2の整数要素が昇順で、各行において2つの第2の整数要素が降順であるように、代入され得る。第1の行において第2の整数要素より1つの整数要素だけより高位の桁位置に向かってシフトされた第2の整数要素は、第2の行列の第2の行に代入され得る。整数要素が、上述のような順序で、行方向または列方向あるいはその両方に整列される限り、第1の行列および第2の行列は、より低位の桁位置の整数要素を含む行列が最初に生成されるように、生成され得る。言い換えれば、第1の行列は図6の下部から順に生成されることができ、第2の行列は図6の右側から順に生成され得る。
図7は、部分積の加算を示す。図面において、破線で囲まれた部分X1およびX2は、図6に示される第1の行列M1と第2の行列M2との乗算結果を示す。これらの部分において、部分X1の行列要素は、第3の行列内、および従ってまた第4の行列内の最後の行内の行列要素であり、従って対応する桁位置における部分積の和として抽出される。抽出の後、部分X2の行列要素は、第4の行列内の最後の行へシフトされる。
破線で囲まれた部分Y1およびY2は、図6に示される第1の行列M1と第2の行列M2との乗算結果を示す。これらの部分において、部分Y1の行列要素は、第3の行列内の最後の行内の行列要素であり、この行列要素が第4の行列内の最後の行内の行列要素(これはここで部分X2の行列要素である)に加算された後、結果は対応するビット位置での部分積の和として抽出される。
この後、同じやり方で、第1の整数要素b~bと、第2の整数要素a~aとの部分積が計算され、さらに、第1の整数要素b~bと、第2の整数要素a~aとの部分積が計算される。次いで、各部分積を対応する桁位置に配置し、部分積を足し合わせることによって、第12の整数が積として計算される。
上記の本実施形態において、装置1は、GPUなどのプロセッサであるものとして述べられるが、このプロセッサ(第1のプロセッサと呼ばれる)に加えて、N個の行とN個の列とを有する行列の積を計算するためのコマンドを含まないCPUなどの他の別個のプロセッサ(第2のプロセッサと呼ばれる)が含められ得る。この場合、装置1は、第1の整数および第2の整数のサイズに従って、それが第1のプロセッサを用いて第1の整数と第2の整数との積を計算するか、それとも第2のプロセッサを用いるかを切り換えることができる。例えば、第1の整数および第2の整数のサイズが基準サイズ(例えば8192ビットから16384ビットまでの範囲内のサイズ)より大きい場合、装置1は、第2のプロセッサを用いて積を計算することができる。代わりに、装置1は、第1の整数および第2の整数のサイズが基準サイズより小さい場合、第2のプロセッサを用いて積を計算することができる。このようにして、整数のサイズにより、計算速度が第1のプロセッサを用いるより第2のプロセッサを用いた方が大きい場合、計算の速度を向上させることが可能である。
さらに、上記の説明において、装置1は、第1の整数と第2の整数との積を、第1の整数を分割することによって得られる複数の第1の整数要素と、第2の整数を分割することによって得られる複数の第2の整数要素とを乗算することによって計算するが、代わりの他の技法を用いて積を計算することができる。例えば、装置1は、2つの整数(第3の整数および第4の整数と呼ばれる)の積を、カラツバ(Karatsuba)アルゴリズムを用いて計算することができる。例として、装置1は、第3の整数(C)の上半分(Ch)を第1の整数として設定し、第4の整数(D)の上半分(Dh)第2の整数として設定し、上述の実施形態と同じやり方で第1の整数と第2の整数との積を計算することによって、第1の積(Ch・Dh)を計算することができる。さらに、装置1は、第3の整数(C)の下半分(Cl)を第1の整数として設定し、第4の整数(D)の下半分(Dl)を第2の整数として設定し、第1の整数と第2の整数との積を計算することによって、第2の積(Cl・Dl)を計算することができる。装置1は、第3の整数(C)の上半分と下半分との和(Ch+Cl)を第1の整数として設定し、第4の整数(D)の上半分と下半分との和(Dh+Dl)を第2の整数として設定し、第1の整数と第2の整数との積を計算することによって、第3の積(Ch+Cl)・(Dh+Dl)を計算することができる。装置1は次いで、第1の積、第2の積、および第3の積に基づいて、第3の整数および第4の整数を計算することができる。例として、分割の数がzである場合、装置1は、第3の整数と第4の整数との積Eを、式E=(Ch・Dh)z+{(Ch+Cl)・(Dh+Dl)-(Ch・Dh)-(Cl・Dl)}z+(Cl・Dl)を用いて計算することができる。このようにして、整数要素の間の乗算の数を低減し、計算速度を向上させることが可能である。
上記の説明において、装置1はメモリ2と整数積計算部9とを含むが、これらの構成要素の少なくとも1つは装置1から省かれ得る。装置1がメモリ2を含まない場合、行列代入部3は、第1の整数データおよび第2の整数データを装置1の外側から得ることができる。装置1が整数積計算部9を含まない場合、整数積計算部9は、装置1の外側に接続されることができ、装置1は部分積を整数積計算部9に供給することができる。
上記は第1の行列および第2の行列への整数要素の代入の1つの実施形態を述べるが、第3の行列の行列要素から部分積を抽出し、これらの部分積を対応する桁位置に配置することが可能である限り、他の実施形態が用いられ得る。例えば、整数要素は、第1の行列または第2の行列あるいはその両方に、桁方向において連続しない順序で代入されることができ、または列もしくは行の順序を変えながら代入され得る。さらに、上記の説明において、行列乗算における被乗数は第1の行列であり、乗数は第2の行列であるがこれらの役割は逆にされ得る。
図8は、本発明の実施形態による、前述の動作を行うように構成されたコンピュータの例示的ハードウェア構成を示す。コンピュータ700にインストールされたプログラムは、コンピュータ700に、本発明の実施形態の装置、またはそれらの1つまたは複数の部分(モジュール、構成要素、要素などを含む)に、関連付けられた動作として機能させるまたはそれらを行わせること、またはコンピュータ700に本発明の実施形態のプロセスまたはそれらのステップを行わせること、あるいはその両方ができる。このようなプログラムは、本明細書で述べられるフローチャートおよびブロック図のいくつかまたはすべてのブロックに関連付けられたいくつかの動作をコンピュータ700に行わせるように、CPU700-12によって実行され得る。
本実施形態によるコンピュータ700は、CPU700-12、RAM700-14、グラフィックス・コントローラ700-16、およびディスプレイ・デバイス700-18を含み、これらはホスト・コントローラ700-10によって相互に接続される。コンピュータ700はまた、通信インターフェース700-22、ハード・ディスク・ドライブ700-24、DVD-ROMドライブ700-26、およびICカード・ドライブなどの入出力ユニットを含み、これらは入出力コントローラ700-20を通じてホスト・コントローラ700-10に接続される。コンピュータはまた、ROM700-30およびキーボード700-42などのレガシー入出力ユニットを含み、これらは入出力チップ700-40を通して入出力コントローラ700-20に接続される。
CPU700-12は、ROM700-30およびRAM700-14に記憶されたプログラムに従って動作し、それによって各ユニットを制御する。グラフィックス・コントローラ700-16は、RAM700-14内またはそれ自体にもたらされたフレーム・バッファなどに、CPU700-12によって生成された画像データを取得し、画像データがディスプレイ・デバイス700-18に表示されるようにする。グラフィックス・コントローラ700-16は1つまたは複数のGPUを含むことができる。
通信インターフェース700-22は、ネットワーク700-50を通じて他の電子デバイスと通信する。ハード・ディスク・ドライブ700-24は、コンピュータ700内でCPU700-12によって用いられるプログラムおよびデータを記憶する。DVD-ROMドライブ700-26は、DVD-ROM700-01からプログラムまたはデータを読み出し、RAM700-14を通じてプログラムまたはデータをハード・ディスク・ドライブ700-24にもたらす。ICカード・ドライブは、ICカードからプログラムおよびデータを読み出すこと、またはプログラムおよびデータをICカードに書き込むことあるいはその両方を行う。
ROM700-30はそれに、コンピュータ700のハードウェアに応じて、活動化の時点でコンピュータ700によって実行されるブート・プログラムなど、またはプログラムあるいはその両方を記憶する。入出力チップ700-40はまた、様々な入出力ユニットを、パラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポートなどを通じて、入出力コントローラ700-20に接続することができる。
プログラムは、DVD-ROM700-01またはICカードなどのコンピュータ可読媒体によってもたらされる。プログラムは、コンピュータ可読媒体から読み出され、これらもコンピュータ可読媒体の例であるハード・ディスク・ドライブ700-24、RAM700-14、またはROM700-30にインストールされ、CPU700-12によって実行される。これらのプログラムにおいて記述された情報処理はコンピュータ700に読み込まれ、結果としてプログラムと、上記で述べられた様々なタイプのハードウェア・リソースとの間の協力を生じる。装置または方法は、コンピュータ700の使用に従った、動作、または情報の処理を実現することによって構成される。
例えば、コンピュータ700と外部デバイスとの間で通信が行われるとき、CPU700-12は、通信プログラムにおいて記述された処理に基づいて、通信インターフェース700-22に対して通信処理を指示するように、RAM700-14にロードされた通信プログラムを実行することができる。通信インターフェース700-22は、CPU700-12の制御のもとで、RAM700-14、ハード・ディスク・ドライブ700-24、DVD-ROM700-01、またはICカードなど、記録媒体にもたらされた送信バッファリング領域に記憶された送信データを読み出し、読み出された送信データをネットワーク700-50に送信し、またはネットワーク700-50から受信された受信データを、記録媒体上にもたらされた受信バッファリング領域などに書き込む。
加えて、CPU700-12は、ファイルまたはデータベースのすべてのまたは必要な部分がRAM700-14に読み込まれるようにすることができ、ファイルまたはデータベースはハード・ディスク・ドライブ700-24、DVD-ROMドライブ700-26(DVD-ROM700-01)、ICカードなどの外部記録媒体に記憶されており、ならびにRAM700-14上のデータに様々なタイプの処理を行うことができる。CPU700-12は次いで、処理されたデータを外部記録媒体に書き戻すことができる。
様々なタイプのプログラム、データ、テーブル、およびデータベースなど、様々なタイプの情報が、情報処理を受けるように記録媒体に記憶され得る。CPU700-12は、RAM700-14から読み出されたデータに対して様々なタイプの処理を行うことができ、これは、本開示の全体にわたって述べられおよびプログラムの命令シーケンスによって指定されるような、様々なタイプの動作、情報の処理、条件判定、条件分岐、無条件分岐、情報の検索/置換などを含み、ならびに結果をRAM700-14に書き戻す。加えて、CPU700-12は、記録媒体内の、ファイル、データベースなどにおける情報を検索することができる。例えば、それぞれが第2の属性の属性値に関連付けられた第1の属性の属性値を有する、複数のエントリが記録媒体に記憶されるとき、CPU700-12は、複数のエントリの中で、それの第1の属性の属性値が指定された、条件に適合するエントリを検索することができ、エントリに記憶された第2の属性の属性値を読み出し、それによって所定の条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得する。計算精度および速度に基づくデータベース検索は、データベース結果を見出すためにCPU700-12によって用いられるクロック・サイクルの数を低減することによって、コンピュータ700の性能を改善する。コンピュータ700のこの改善は、データベース検索に対するより速い応答として見られ得る。
上記で説明されたプログラムまたはソフトウェア・モジュールは、コンピュータ700上のまたはその近くの、コンピュータ可読媒体に記憶され得る。加えて、専用通信ネットワークまたはインターネットに接続されたサーバ・システム内にもたらされた、ハード・ディスクまたはRAMなどの記録媒体は、コンピュータ可読媒体として用いられることができ、それによってネットワークを通じてプログラムをコンピュータ700に提供する。
本発明は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せとすることができる。コンピュータ・プログラム製品は、本発明の態様をプロセッサに遂行させるためのコンピュータ可読プログラム命令を有する、(1つまたは複数の)コンピュータ可読記憶媒体を含むことができる。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することができる、有形のデバイスとすることができる。コンピュータ可読記憶媒体は、例えば、非限定的に、電子的記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁的記憶デバイス、半導体記憶デバイス、または前述の任意の適切な組合せとすることができる。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピ・ディスク、パンチカードまたはその上に記録された命令を有する溝内の隆起構造などの機械的エンコード型デバイス、および前述の任意の適切な組合せを含む。本明細書で用いられる、コンピュータ可読記憶媒体とは、電波または他の自由に伝搬する電磁波、導波路または他の伝送媒体を通して伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または線材を通して伝送される電気信号など、それ自体が一過性の信号であると解釈されるべきものではない。
本明細書で述べられるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、または無線ネットワークあるいはその組合せを通じて、外部コンピュータまたは外部記憶デバイスに、ダウンロードされ得る。ネットワークは、銅の伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはその組合せを備えることができる。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体における記憶のために転送する。
本発明の動作を遂行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、マシン命令、マシン依存型命令、マイクロコード、ファームウェア命令、状態設定データ、あるいはSmalltalk(登録商標)、C++(登録商標)などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様なプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードまたはオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、専らユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上および部分的にリモート・コンピュータ上で、または専らリモート・コンピュータもしくはサーバ上で実行することができる。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくは広域ネットワーク(WAN)を含む任意のタイプのネットワークを通して(例えば、インターネット・サービス・プロバイダを用いてインターネットを通して)、ユーザのコンピュータに接続されることができ、または外部コンピュータへの接続がなされ得る。いくつかの実施形態において、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を行うために、電子回路を個別化するようにコンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行することができる。
本発明の態様は、本明細書において本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して述べられる。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施され得ることが理解されるであろう。
これらのコンピュータ可読プログラム命令は、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置によって実行する命令が、フローチャートまたはブロック図あるいはその両方のブロックにおいて指定された機能/働きを実施するための手段を作成するように、マシンを生み出すために汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置の、プロセッサに提供され得る。これらのコンピュータ可読プログラム命令は、また、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方のブロックにおいて規定された機能/働きの態様を実施する命令を含んだ製品を備えるように、特定のやり方で機能するようにコンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに指示することができるコンピュータ可読記憶媒体に記憶され得る。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方のブロックにおいて指定された機能/働きを実施するようにするべく、コンピュータによって実施されるプロセスを生み出すように、一連の動作ステップがコンピュータ、他のプログラマブル装置、または他のデバイス上で行われるようにさせるために、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされることができる。
図におけるフローチャートおよびブロック図は、本発明の様々な実施形態による、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を示す。この関連において、フローチャートまたはブロック図内の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を備えるモジュール、セグメント、または命令の一部分を表すことができる。いくつかの代替的実装形態において、ブロック内に記された機能は、図に記されたものとは異なる順序で生じることができる。例えば、連続して示される2つのブロックは、実際は実質的に並行して実行されることができ、またはブロックは時には関わる機能性に応じて、逆の順序で実行され得る。また、ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能または働きを行う、または専用ハードウェアおよびコンピュータ命令の組合せを遂行する、専用ハードウェア・ベースのシステムによって実施され得ることが留意されるであろう。
本発明の実施形態が述べられたが、本発明の技術的範囲は、上述の実施形態に限定されない。当業者には、様々な変更および改良が上述の実施形態に加えられ得ることが明らかである。また「特許請求の範囲」から、このような変更および改良が加えられた実施形態は本発明の技術的範囲に含められ得ることが明らかである。
請求項、実施形態、または図に示される装置、システム、プログラム、および方法によって行われる各プロセスの動作、手順、ステップ、および段階は、「の前に(prior to)」、「の前に(before)」などによって何らかの順序が示されない限り、および前のプロセスからの出力が後のプロセスで用いられない限り、任意の順序で行われ得る。請求項、実施形態、または図において、プロセス・フローが「最初に」または「次に」などの語句を用いて述べられた場合であっても、それは必ずしもプロセスがこの順序で行われなければならないことを意味しない。
上記から明らかにされたように、本発明の実施形態を用いて、計算精度および計算速度を向上させることが可能である。

Claims (23)

  1. コンピュータによって実施される方法であって、
    第1の整数を表す第1の整数データを第1の桁方向に分割することによって得られる複数の第1の整数要素の中の、N×N個の第1の整数要素を、N個の行とN個の列とを有する第1の行列に代入することと、
    第2の整数を表す第2の整数データを第2の桁方向に分割することによって得られる複数の第2の整数要素の中の、1つまたは複数の第2の整数要素のそれぞれを、N個の行とN個の列とを有する第2の行列の少なくとも1つの行列要素に代入することと、
    前記第1の行列と前記第2の行列との積である第3の行列を計算することと、
    前記第3の行列の各行列要素を、前記第1の整数と前記第2の整数との積の計算における部分積として出力することと
    を含む方法。
  2. 前記第1の行列に前記代入するおよび前記第2の行列に前記代入する間、前記第1の行列および前記第2の行列の各行列要素は、前記第1の行列に含まれる各第1の整数要素と、前記第2の行列に含まれる各第2の整数要素との前記積の中の、前記第1の整数と前記第2の整数との前記積において同じ桁位置に対応する各積が、前記第3の行列の同じ行列要素に対応するように配置される、請求項1に記載のコンピュータによって実施される方法。
  3. 前記N×N個の第1の整数要素は、前記第1の整数データにおいて前記第1の桁方向に連続している、請求項1に記載のコンピュータによって実施される方法。
  4. 前記1つまたは複数の第2の整数要素は、前記第2の整数データにおいて前記第2の桁方向に連続している、請求項3に記載のコンピュータによって実施される方法。
  5. 前記第1の行列に前記代入する間、前記N×N個の第1の整数要素の中の、N個の連続した第1の整数要素は、前記第1の行列の各行に、前記第1の整数データにおける前記第1の桁方向において昇順または降順で代入され、
    前記第2の行列に前記代入する間、前記複数の第2の整数要素の中の、N個の連続した第2の整数要素は、前記第2の行列の各列に、前記第2の整数データの前記第2の桁方向において前記N個の第1の整数要素を前記第1の行列に前記代入する順序と反対の順序で、代入される、
    請求項4に記載のコンピュータによって実施される方法。
  6. 前記第1の行列に前記代入する間、前記N×N個の第1の整数要素は、前記第1の行列の各行列要素に、列優先および昇順または降順で代入され、
    前記第2の行列に前記代入する間、
    前記N個の連続した第2の整数要素は、前記第2の行列の第1の行に、前記N個の第1の整数要素を前記第1の行列に前記代入する順序と同じ順序で代入され、
    前記N個の第2の整数要素は、前記第2の行列の第2および後続の行に、前記第2の整数データ内の前記N個の第2の整数要素を一時に1つの整数要素だけシフトしながら、代入される、
    請求項5に記載のコンピュータによって実施される方法。
  7. 前記第3の行列は、第4の行列に加算され、
    前記部分積として前記出力することは、
    前記第4の行列の第1の行または最後の行内の各行列要素を、前記第1の整数と前記第2の整数との前記積における対応するビット位置での、各第1の整数要素と各第2の整数要素との前記部分積の和として、抽出することと、
    前記第4の行列内において、前記部分積の前記和として抽出された前記行以外の行を、前記部分積の前記和として抽出された前記行に向かって1行シフトし、空のスペースを有する行内の各行列要素を0に設定することと
    を含む、請求項6に記載のコンピュータによって実施される方法。
  8. 前記第2の行列に前記代入する間、前記複数の第2の整数要素から前記1つまたは複数の第2の整数要素を一時に1つ、前記第2の行列に順次に代入するプロセスは、前記第1の行列に前記代入する間、前記複数の第1の整数要素の中のN×N個の第1の整数要素の異なるセットが、前記第1の行列に代入されるたびに繰り返され、
    前記第3の行列を前記計算すること、および前記部分積を前記出力することは、前記1つまたは複数の第2の整数要素が、前記第2の行列に代入されるたびに行われ、
    前記第1の整数と前記第2の整数との前記積は、各出力された部分積に基づいて計算される、
    請求項1に記載のコンピュータによって実施される方法。
  9. 前記第1の整数と前記第2の整数との前記積を計算することは、
    各部分積を、前記第1の整数と前記第2の整数との前記積における対応する桁位置に配置することと、
    各部分積の桁あふれを、より高位の桁に加算することと
    を含む、請求項8に記載のコンピュータによって実施される方法。
  10. 第3の整数の上半分と第4の整数の上半分との第1の積は、前記第3の整数の前記上半分を前記第1の整数として設定し、前記第4の整数の前記上半分を前記第2の整数として設定し、前記第1の整数と前記第2の整数との前記積を計算することによって計算され、
    前記第3の整数の下半分と前記第4の整数の下半分との第2の積は、前記第3の整数の前記下半分を前記第1の整数として設定し、前記第4の整数の前記下半分を前記第2の整数として設定し、前記第1の整数と前記第2の整数との前記積を計算することによって計算され、
    前記第3の整数の前記上半分と前記下半分との和と、前記第4の整数の前記上半分と前記下半分との和との第3の積は、前記第3の整数の前記上半分と前記下半分との前記和を前記第1の整数として設定し、前記第4の整数の前記上半分と前記下半分との前記和を前記第2の整数として設定し、前記第1の整数と前記第2の整数との前記積を計算することによって計算され、
    前記第3の整数と前記第4の整数との積は、前記第1の積、前記第2の積、および前記第3の積に基づいて計算される、
    請求項1に記載のコンピュータによって実施される方法。
  11. 前記第3の行列の計算は、1つのコマンドに従って、N個の行とN個の列とを有する行列の積を計算する第1のプロセッサによって行われる、請求項1に記載のコンピュータによって実施される方法。
  12. 前記第1の整数および前記第2の整数のサイズに従って、前記第1の整数と前記第2の整数との前記積を、前記第1のプロセッサを用いて計算することと、前記第1の整数と前記第2の整数との前記積を、N個の行とN個の列とを有する行列の積を計算するためのコマンドを有しない第2のプロセッサを用いて計算することとの間で、切り換えが行われる、請求項11に記載のコンピュータによって実施される方法。
  13. 前記複数の第1の整数要素および前記複数の第2の整数要素は、同じサイズを有する、請求項1に記載のコンピュータによって実施される方法。
  14. 前記複数の第1の整数要素および前記複数の第2の整数要素は、それぞれ8ビットである、請求項13に記載のコンピュータによって実施される方法。
  15. 装置であって、
    プロセッサまたはプログラマブル回路と、
    共同で命令を含む1つまたは複数のコンピュータ可読媒体とを備え、前記命令は、前記プロセッサまたは前記プログラマブル回路によって実行されるとき、前記プロセッサまたは前記プログラマブル回路に、
    第1の整数を表す第1の整数データを第1の桁方向に分割することによって得られる複数の第1の整数要素の中の、N×N個の第1の整数要素を、N個の行とN個の列とを有する第1の行列に代入することと、
    第2の整数を表す第2の整数データを第2の桁方向に分割することによって得られる複数の第2の整数要素の中の、1つまたは複数の第2の整数要素のそれぞれを、N個の行とN個の列とを有する第2の行列の少なくとも1つの行列要素に代入することと、
    前記第1の行列と前記第2の行列との積である第3の行列を計算することと、
    前記第3の行列の各行列要素を、前記第1の整数と前記第2の整数との積の計算における部分積として出力することと
    を行わせる、装置。
  16. 前記第1の行列に前記代入するおよび前記第2の行列に前記代入する間、前記第1の行列および前記第2の行列の各行列要素は、前記第1の行列に含まれる各第1の整数要素と、前記第2の行列に含まれる各第2の整数要素との前記積の中の、前記第1の整数と前記第2の整数との前記積において同じ桁位置に対応する各積が、前記第3の行列の同じ行列要素に対応するように配置される、請求項15に記載の装置。
  17. 前記命令は、前記プロセッサまたは前記プログラマブル回路によって実行されるとき、前記プロセッサまたは前記プログラマブル回路に、
    前記第2の行列に前記代入する間、前記複数の第2の整数要素から前記1つまたは複数の第2の整数要素を一時に1つ、前記第2の行列に順次に代入するプロセスを、前記第1の行列に前記代入する間、前記複数の第1の整数要素の中のN×N個の第1の整数要素の異なるセットが、前記第1の行列に代入されるたびに繰り返すことと、
    前記1つまたは複数の第2の整数要素が、前記第2の行列に代入されるたびに、前記第3の行列の計算を行い、前記部分積を出力することと、
    各出力された部分積に基づいて、前記第1の整数と前記第2の整数との前記積を計算することと
    を行わせる、請求項15に記載の装置。
  18. 装置であって、
    第1の整数を表す第1の整数データを第1の桁方向に分割することによって得られる複数の第1の整数要素の中の、N×N個の第1の整数要素を、N個の行とN個の列とを有する第1の行列に代入する、第1の行列代入部と、
    第2の整数を表す第2の整数データを第2の桁方向に分割することによって得られる複数の第2の整数要素の中の、1つまたは複数の第2の整数要素のそれぞれを、N個の行とN個の列とを有する第2の行列の少なくとも1つの行列要素に代入する、第2の行列代入部と、
    前記第1の行列と前記第2の行列との積である第3の行列を計算する、第3の行列計算部と、
    前記第3の行列の各行列要素を、前記第1の整数と前記第2の整数との積の計算における部分積として出力する、部分積出力部と
    を備える装置。
  19. 前記第1の行列に前記代入するおよび前記第2の行列に前記代入する間、前記第1の行列および前記第2の行列の各行列要素は、前記第1の行列に含まれる各第1の整数要素と、前記第2の行列に含まれる各第2の整数要素との前記積の中の、前記第1の整数と前記第2の整数との前記積において同じ桁位置に対応する各積が、前記第3の行列の同じ行列要素に対応するように配置される、請求項18に記載の装置。
  20. 前記第2の行列代入部は、前記第2の行列に前記代入する間、前記複数の第2の整数要素から前記1つまたは複数の第2の整数要素を一時に1つ、前記第2の行列に順次に代入するプロセスを、前記第1の行列代入部が、前記複数の第1の整数要素の中のN×N個の第1の整数要素の異なるセットを、前記第1の行列に代入するたびに繰り返し、
    前記第3の行列計算部および前記部分積出力部は、前記第3の行列の計算および前記部分積の出力を、前記第2の行列代入部によって、前記1つまたは複数の第2の整数要素が、前記第2の行列に代入されるたびに行い、
    前記装置は、各出力された部分積に基づいて、前記第1の整数と前記第2の整数との前記積を計算する整数積計算部を備える、
    請求項18に記載の装置。
  21. コンピュータ・プログラムであって、プロセッサまたはプログラマブル回路に
    第1の整数を表す第1の整数データを第1の桁方向に分割することによって得られる複数の第1の整数要素の中の、N×N個の第1の整数要素を、N個の行とN個の列とを有する第1の行列に代入することと、
    第2の整数を表す第2の整数データを第2の桁方向に分割することによって得られる複数の第2の整数要素の中の、1つまたは複数の第2の整数要素のそれぞれを、N個の行とN個の列とを有する第2の行列の少なくとも1つの行列要素に代入することと、
    前記第1の行列と前記第2の行列との積である第3の行列を計算することと、
    前記第3の行列の各行列要素を、前記第1の整数と前記第2の整数との積の計算における部分積として出力することと
    を実行させるためのコンピュータ・プログラム
  22. 前記第1の行列に前記代入するおよび前記第2の行列に前記代入する間、前記第1の行列および前記第2の行列の各行列要素は、前記第1の行列に含まれる各第1の整数要素と、前記第2の行列に含まれる各第2の整数要素との前記積の中の、前記第1の整数と前記第2の整数との前記積において同じ桁位置に対応する各積が、前記第3の行列の同じ行列要素に対応するように配置される、請求項21に記載のコンピュータ・プログラム
  23. 前記コンピュータ・プログラム前記プロセッサまたは前記プログラマブル回路に、
    前記第2の行列に前記代入する間、前記複数の第2の整数要素から前記1つまたは複数の第2の整数要素を一時に1つ、前記第2の行列に順次に代入するプロセスを、前記第1の行列に前記代入する間、前記複数の第1の整数要素の中のN×N個の第1の整数要素の異なるセットが、前記第1の行列に代入されるたびに繰り返すことと、
    前記1つまたは複数の第2の整数要素が、前記第2の行列に代入されるたびに、前記第3の行列の計算を行い、前記部分積を出力することと、
    各出力された部分積に基づいて、前記第1の整数と前記第2の整数との前記積を計算することと
    さらに実行させる、請求項21に記載のコンピュータ・プログラム
JP2020545788A 2018-03-05 2019-03-04 16ビット浮動小数点乗算器を用いた行列と行列の乗算による複数精度整数乗算器 Active JP7129138B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/911,772 2018-03-05
US15/911,772 US10528642B2 (en) 2018-03-05 2018-03-05 Multiple precision integer multiple by matrix-matrix multiplications using 16-bit floating point multiplier
PCT/IB2019/051710 WO2019171238A1 (en) 2018-03-05 2019-03-04 Multiple precision integer multiplier by matrix-matrix multiplications using 16-bit floating point multiplier

Publications (2)

Publication Number Publication Date
JP2021515936A JP2021515936A (ja) 2021-06-24
JP7129138B2 true JP7129138B2 (ja) 2022-09-01

Family

ID=67768635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020545788A Active JP7129138B2 (ja) 2018-03-05 2019-03-04 16ビット浮動小数点乗算器を用いた行列と行列の乗算による複数精度整数乗算器

Country Status (6)

Country Link
US (2) US10528642B2 (ja)
JP (1) JP7129138B2 (ja)
CN (1) CN111801651A (ja)
DE (1) DE112019000382T5 (ja)
GB (1) GB2584265A (ja)
WO (1) WO2019171238A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11341185B1 (en) * 2018-06-19 2022-05-24 Amazon Technologies, Inc. Systems and methods for content-based indexing of videos at web-scale
KR102703432B1 (ko) * 2018-12-31 2024-09-06 삼성전자주식회사 메모리 장치를 이용한 계산 방법 및 이를 수행하는 메모리 장치
US12072952B2 (en) 2021-03-26 2024-08-27 Advanced Micro Devices, Inc. Data compressor for approximation of matrices for matrix multiply operations
US20220309126A1 (en) * 2021-03-26 2022-09-29 Advanced Micro Devices, Inc. Approximation of matrices for matrix multiply operations

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3200068A1 (en) 2015-07-22 2017-08-02 Huawei Technologies Co., Ltd. Parallel computing method and terminal

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0833815B2 (ja) * 1990-05-14 1996-03-29 日本電気株式会社 高桁乗算装置
JP3637073B2 (ja) * 1993-10-21 2005-04-06 株式会社東芝 倍精度・単精度・内積演算および複素乗算が可能な乗算器
WO2003021423A2 (en) 2001-09-04 2003-03-13 Microunity Systems Engineering, Inc. System and method for performing multiplication
US7318080B2 (en) * 2003-11-06 2008-01-08 Telefonaktiebolaget L M Ericsson (Publ) Split radix multiplication
CN102446160B (zh) * 2011-09-06 2015-02-18 中国人民解放军国防科学技术大学 面向双精度simd部件的矩阵乘实现方法
WO2013044276A1 (en) 2011-09-27 2013-04-04 Technische Universität Graz Multiplication of large operands
CN102446460A (zh) 2011-11-30 2012-05-09 黄武昌 多功能轴筒式遥控记录展示系统
US9384168B2 (en) * 2013-06-11 2016-07-05 Analog Devices Global Vector matrix product accelerator for microprocessor integration
US9600235B2 (en) * 2013-09-13 2017-03-21 Nvidia Corporation Technique for performing arbitrary width integer arithmetic operations using fixed width elements
US9703531B2 (en) * 2015-11-12 2017-07-11 Arm Limited Multiplication of first and second operands using redundant representation
CN106445471B (zh) * 2016-10-13 2018-06-01 北京百度网讯科技有限公司 处理器和用于在处理器上执行矩阵乘运算的方法
GB2563878B (en) * 2017-06-28 2019-11-20 Advanced Risc Mach Ltd Register-based matrix multiplication

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3200068A1 (en) 2015-07-22 2017-08-02 Huawei Technologies Co., Ltd. Parallel computing method and terminal

Also Published As

Publication number Publication date
GB2584265A (en) 2020-11-25
GB202015022D0 (en) 2020-11-04
JP2021515936A (ja) 2021-06-24
US20190272308A1 (en) 2019-09-05
DE112019000382T5 (de) 2020-09-24
US10795967B2 (en) 2020-10-06
CN111801651A (zh) 2020-10-20
WO2019171238A1 (en) 2019-09-12
US20200073914A1 (en) 2020-03-05
US10528642B2 (en) 2020-01-07

Similar Documents

Publication Publication Date Title
JP7129138B2 (ja) 16ビット浮動小数点乗算器を用いた行列と行列の乗算による複数精度整数乗算器
CN107077416B (zh) 用于以选择性舍入模式进行向量处理的装置和方法
US10579338B2 (en) Apparatus and method for processing input operand values
US10255041B2 (en) Unified multiply unit
JP2012069116A5 (ja)
US20170068517A1 (en) Decimal and binary floating point rounding
EP4359907A1 (en) Fpga processing block for machine learning or digital signal processing operations
CN104169866B (zh) 运算处理装置以及运算处理装置的控制方法
US20210049230A1 (en) Half-precision floating-point arrays at low overhead
WO2020161458A1 (en) Encoding special value in anchored-data element
US10963245B2 (en) Anchored data element conversion
CN110199255B (zh) 组合若干执行单元以计算单一宽标量结果
CN115843354A (zh) 使用双曲线函数的指数函数的高效硬件实现
US20210034329A1 (en) Parallel rounding for conversion from binary floating point to binary coded decimal
CN113778523B (zh) 一种数据处理方法、装置、电子设备及存储介质
JP7241397B2 (ja) 演算装置、演算方法、および演算プログラム
US11704092B2 (en) High-precision anchored-implicit processing
RU2652460C1 (ru) Способ организации выполнения операции умножения двух чисел в модулярно-индексном формате представления с плавающей точкой на универсальных многоядерных процессорах
US20230205838A1 (en) System and method of tensor contraction for tensor networks
US20240202160A1 (en) Processor, computer-readable recording medium storing instruction execution program, and information processing device
WO2022204620A2 (en) Systems and methods for efficient accumulate and multiply-accumulate operations of floating-point numbers in a unified register file
KR20230159489A (ko) 행렬 곱하기 동작들에 대한 행렬의 근사화
TW202338601A (zh) 執行指令以將輸入值從一種資料格式轉換為另一種資料格式之硬體裝置
CN115016762A (zh) 用于执行乘积累加运算的运算装置和运算方法
CN118550500A (zh) 处理电路及其操作方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201007

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20200923

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210816

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20220810

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220818

R150 Certificate of patent or registration of utility model

Ref document number: 7129138

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150