JP7006858B1

JP7006858B1 - 情報処理装置及び情報処理方法

Info

Publication number: JP7006858B1
Application number: JP2021549697A
Authority: JP
Inventors: 祥希小林
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-03-18
Filing date: 2021-02-24
Publication date: 2022-01-24
Anticipated expiration: 2041-02-24
Also published as: EP4002106A4; US20220283947A1; JPWO2021187027A1; WO2021187027A1; EP4002106A1

Abstract

情報処理装置は、独立して読み書き可能な記憶領域である複数のバンクを備える記憶装置と、複数のバンクに並行してアクセス可能な処理装置と、を備え、処理装置は、ループ制御文におけるループの単位で、インデックス配列のアドレスと、ベクトルデータの要素を格納するパケットを生成する生成手段と、を備え、複数のバンクのそれぞれは、パケットの単位で該当するアドレスに対応するデータの読み出しと演算処理と演算結果の値を格納する一連の処理を原子的に同時に行う。

Description

本発明は、情報処理装置及び情報処理方法に関する。

特許文献１には、ベクトルデータに関連付けられたマスク情報を受け取り、当該マスク情報によって示されるように複数のアドレスの各アドレスに対応する記憶位置から取得されたデータ要素をロードし、それらの記憶位置をその後の動作のためにリザーブする論理を有するプロセッサが、原子的な（ａｔｏｍｉｃ）ＳＩＭＤ（Ｓｉｎｇｌｅ－ＩｎｓｔｒｕｃｔｉｏｎＭｕｌｔｉｐｌｅＤａｔａ）動作を実行することにより、効率的な同期およびリダクション演算を可能にするベクトル命令を提供する技術が開示されている。

日本国特開２０１４－０９９１９４号公報

次のような間接アドレス参照を含む総和演算のことをリスト総和演算と呼ぶ。
ＤＯＩ＝１，Ｎ
Ｘ（Ｌ（Ｉ））＝Ｘ（Ｌ（Ｉ））＋Ｙ（Ｉ）
ＥＮＤＤＯ
リスト総和演算は、ベクトル演算処理の機構を備える装置において、間接参照のアドレスＬ（Ｉ）が重複することによりベクトル演算できない場合がある。この場合、ベクトル処理部ではベクトル処理できず、多数のスカラ処理とメモリアクセスによって処理せざるを得ない。

本発明の目的の一例は、上述した課題を解決する情報処理装置及び情報処理方法を提供することにある。

本発明の態様に係る情報処理装置は、独立して読み書き可能な記憶領域である複数のバンクを備える記憶装置と、複数のバンクに並行してアクセス可能な処理装置と、を備え、処理装置は、ループ制御文におけるループの単位で、インデックス配列のアドレスと、ベクトルデータの要素を格納するパケットを生成する生成手段と、を備え、複数のバンクのそれぞれは、パケットの単位で該当するアドレスに対応するデータの読み出しと演算処理と演算結果の値を格納する一連の処理を原子的に同時に行う。

本発明の態様に係る情報処理方法は、独立して読み書き可能な記憶領域である複数のバンクを備える記憶装置と、複数のバンクに並行してアクセス可能な処理装置と、を備える情報処理装置によって実行される情報処理方法であって、ループ制御文におけるループの単位で、インデックス配列のアドレスと、ベクトルデータの要素を格納するパケットを生成するステップと、前記複数のバンクのそれぞれにおいて、パケットの単位で該当するアドレスに対応するデータの読み出しと演算処理を演算結果の値を格納する一連の処理を原子的に行うステップを有する。

上記態様のうち少なくとも１つの態様によれば、値が重複する間接参照を含むリストベクトルの演算処理に係るメモリアクセスと命令発行数を減らすことができる。

一実施形態に係る情報処理装置の構成を示す図である。一実施形態に係るループ制御文の一例を示す図である。一実施形態に係る情報処理装置の動作を示すフローチャートである。基本構成に係る情報処理装置の構成を示す図である。

〈第１の実施形態〉
《情報処理装置の構成》
以下、図面を参照しながら実施形態について詳しく説明する。
図１は、第１の実施形態に係る情報処理装置１００の構成を示す図である。
第１の実施形態に係る情報処理装置１００は、演算処理の対象となるデータを格納したベクトルレジスタに対し、ＬＶＡ（ＬｉｓｔＶｅｃｔｏｒＡｄｄ）命令を発行し、キャッシュメモリ３（メモリの一例）において、演算処理の対象のデータを原子的に処理する装置である。原子的に処理するとは、アトミック性が保たれる、つまり、一連のものとして定義された処理が完了したか１つも実行されないかのどちらかとして扱われ、処理が完了した場合には完了した瞬間に一連の処理が実行されたものとすることである。

情報処理装置１００はベクトル演算処理を行う。情報処理装置１００は、演算処理の対象にループ制御文が含まれる場合に、キャッシュメモリ３の演算部３１２により当該ループ制御文に係る演算処理を行う。
情報処理装置１００は、コア１と、キャッシュメモリ３と、を備える。コア１は処理装置（プロセッサの一例）の一例である。キャッシュメモリ３は記憶装置の一例である。

《コアの構成》
以下、コア１の構成について説明する。
コア１はＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）に設けられ、演算処理を行う装置である。図１に示す情報処理装置１００はコア１を複数個備えるマルチコア計算機である。例えば、情報処理装置１００は、コア１を１つ備えるシングルコア計算機、コア１を２つ備えるデュアルコア計算機、コア１を４個備えるクアッドコア計算機であっても良い。
コア１は、命令発行部１１と、アドレス計算部１２と、クロスバ１３と、を備える。

命令発行部１１は、コア１と接続している主記憶装置（図示しない）からソースプログラムを読み込み（フェッチ）、デコード、命令発行、演算処理等の処理を行う。
命令発行部１１は、スカラ制御部１１１と、ベクトル制御部１１２と、を備える。

図２のようなループ制御文において、間接参照を含むループによって構成されるベクトルｘを第１ベクトルと呼ぶ。間接参照を含むベクトルとは、別の配列によって添字を指定される配列をいう。また、図２のようなループ制御文において間接参照を含まないベクトルｙを第２ベクトルと呼ぶ。また、図２のようなループ制御文において間接参照アドレスを示すベクトルｌはインデックス配列の一例である。

スカラ制御部１１１は、ＬＶＡ命令実行の前に、コア１と接続している主記憶装置（図示しない）から演算処理の対象となる第１ベクトルデータ、第２ベクトルデータを読み込む命令をベクトル制御部に対し発行する。

ベクトル制御部１１２は、第１ベクトルデータと、第２ベクトルデータを、それぞれ取得するＶＬＤ命令（ＶｅｃｔｏｒＬｏａｄ）を実行する。ベクトル制御部１１２は、ＶＬＤ命令を実行することにより、第１ベクトルデータと、第２ベクトルデータを記憶している主記憶装置から第１ベクトルデータの値と第２ベクトルデータの値とを取得してそれぞれ別のベクトルレジスタに展開する。

ベクトル制御部１１２は、スカラ制御部１１１が発行したＬＶＡ命令を受け入れて、当該ＬＶＡ命令で使用するベクトルレジスタに格納されたベクトルデータに基づいてＬＶＡ命令の処理を開始する。
ベクトル制御部１１２は、当該ＬＶＡ命令に関わるベクトルレジスタに格納されたベクトルデータをアドレス計算部１２に送出する。上記ＬＶＡ命令に関わるベクトルレジスタに格納されたベクトルデータとは、図２に示す第１ベクトルデータの値と、第２ベクトルデータの値である。

第１ベクトルデータの値と、第２ベクトルデータの値は、ループ制御文の演算処理の前に予めベクトルレジスタに格納される。
例えば、情報処理装置１００は以下の動作により第１ベクトルデータの値と、第２ベクトルデータの値とを、ベクトルレジスタに格納する。

アドレス計算部１２は、ベクトル制御部１１２から第１ベクトルデータの値と第２ベクトルデータの値とを受け入れて、第１ベクトルデータの値を物理アドレスに変換する。また、アドレス計算部１２はループ制御文におけるループの単位で、変換された第１ベクトルデータの物理アドレスと、第１要素と、第２要素とを格納するパケットを生成して、クロスバ１３に当該パケットを送出する。この際、同一アドレスを指し示す第１要素は要素順にパケットとして送出されることで、重複していても順序が保証される。アドレス計算部１２は生成手段の一例である。第１要素とは、第１ベクトルデータの要素である。第２要素とは、第２ベクトルデータの要素である。

クロスバ１３はアドレス計算部１２が送出したパケットを受け入れて、パケットに含まれたアドレスに基づいて、各パケットをキャッシュメモリ３の対応するバンク３１に同時に送出する。クロスバ１３は送出手段の一例である。
例えば、クロスバ１３は、予め設定されたアドレスとバンク３１とを関連付けた情報であるバンク情報に、アドレス計算部１２が送出したパケットに含まれたアドレスを照らし合わせて、当該アドレスに関連付けられたバンク３１を特定する。また、クロスバ１３は、特定されたバンク３１にパケットを送出する。

バンク情報において、各アドレスは異なるバンクと関連付けられる。すなわち、アドレスが異なると、クロスバ１３により送出されるバンク３１が異なる。
また、クロスバ１３は同一アドレスに係るパケットを同時に送出することはないように設定される。すなわち、クロスバ１３は、同じバンク３１宛に同時に複数のパケットを送出しない。例えば、クロスバ１３は、重複するアドレスにかかる複数のパケットを同時に送出しない。クロスバ１３は、重複するアドレスを情報処理装置１００が備えるバッファ（図示しない）に格納させ、一定のタイミングに当該アドレスにかかるパケットを１つずつ送出する。特定のアドレスにおいて重複するパケットが３つ存在する場合、クロスバ１３は、当該アドレスに対応する特定のバンク３１について、３回のパケットの送出を行う。重複するアドレスに係るパケットが存在する場合でも、クロスバ１３が１つずつ送出するため、バンク３１は原子的に演算処理をすることができる。
また、第１の実施形態における情報処理装置１００は、出力ポートにより、コア１とキャッシュメモリ３とが有線で接続される。すなわち、クロスバ１３は特定されたバンク３１に対応する出力ポートにパケットを送出することにより、当該パケット対応するバンク３１に当該パケットを送出する。

図１において、コア１と、キャッシュメモリ３との間で接続されている線はコア１とキャッシュメモリ３間のネットワークであるが、接続形態は問わない。

《キャッシュメモリの構成》
以下、キャッシュメモリ３の構成について説明する。
キャッシュメモリ３は、コア１を備えるＣＰＵが情報を取得する際に主記憶装置の遅延を隠蔽し、ＣＰＵと主記憶装置の性能差を埋めるために用いる高速小容量メモリである。キャッシュメモリ３は、情報処理装置１００が備える複数個のコア１からアクセス可能な共有メモリである。

図１に示すように、キャッシュメモリ３は複数個のバンク３１Ａ、３１Ｂ、３１Ｃ、・・・を備える。バンク３１Ａ、３１Ｂ、３１Ｃ、・・・を区別しない場合には、バンク３１という。情報処理装置１００が備える複数個のコア１は、一斉にキャッシュメモリ３に対しアクセスすることができ、キャッシュメモリ３が備えるバンク３１の数の分だけ同時にアクセスすることができる。バンク３１は独立して読み書き可能な記憶領域である。コア１は、複数のバンクに並行してアクセス可能である。

バンク３１は、データアレイ３１１A、３１１Ｂ、３１１Ｃ、・・・と、演算部３１２Ａ、３１２Ｂ、３１２Ｃ、・・・と、コントロール部３１３Ａ、３１３Ｂ、３１３Ｃ、・・・と、を備える。なお、データアレイ３１１A、３１１Ｂ、３１１Ｃ、・・・を区別しない場合には、データアレイ３１１という。また、演算部３１２Ａ、３１２Ｂ、３１２Ｃ、・・・を区別しない場合には、演算部３１２という。また、コントロール部３１３Ａ、３１３Ｂ、３１３Ｃ、・・・を区別しない場合には、コントロール部３１３という。キャッシュメモリ３が備える複数のバンク３１のそれぞれは、コントロール部３１３によるデータアレイ３１１の読み出し、演算部３１２による演算処理と、コントロール部３１３によるデータアレイ３１１の格納は、一例の処理として原子的に行われる。

コントロール部３１３は、キャッシュメモリ３の各バンク３１に設けられ、アドレスに基づいてデータアレイ３１１にアクセスし、当該アドレスに対応するデータをデータアレイ３１１のキャッシュラインから読み出す。また、コントロール部３１３は、読み出した第１要素に対応するデータと第２要素を加算した値を再度同じアドレスに基づいてデータアレイ３１１のキャッシュラインに格納する。
演算部３１２は、キャッシュメモリ３の各バンク３１に設けられ、コア１のクロスバ１３から送出されたパケットを受け入れて、パケットの単位で演算処理を行う。
演算部３１２の詳細な動作については後述する。

《情報処理装置の動作》
以下、情報処理装置１００の動作について説明する。
図３は、情報処理装置１００の動作を示すフローチャートである。

情報処理装置１００は、第１ベクトルデータの値と、第２ベクトルデータの値とを、取得するベクトルロード命令（ＶＬＤ命令）を実行する（ステップＳ１）。これにより、情報処理装置１００は、第１ベクトルデータの値と、第２ベクトルデータの値とを、ベクトルレジスタに格納する。スカラ制御部１１１は、主記憶装置からＬＶＡ命令を読み込み、ベクトル制御部１１２に送出する。

ベクトル制御部１１２はステップＳ１で送出されたＬＶＡ命令を受け入れて、当該ＬＶＡ命令を実行する（ステップＳ２）。
ベクトル制御部１１２は、ＬＶＡ命令に関わるベクトルレジスタに格納されたベクトルデータをアドレス計算部１２に送出する（ステップＳ３）。上記ＬＶＡ命令に関わるベクトルレジスタに格納されたベクトルデータとは、ステップＳ１のベクトルロードに係る第１ベクトルデータの値と、第２ベクトルデータの値である。

アドレス計算部１２は、ステップＳ３の第１ベクトルデータの値と第２ベクトルデータの値とを受け入れて、第１ベクトルデータの値を物理アドレスに変換する。また、アドレス計算部１２はループ制御文におけるループの単位で、変換された第１ベクトルデータの物理アドレスと、第２ベクトルデータの要素とを格納するパケットを生成して、クロスバ１３に当該パケットを送出する（ステップＳ４）。

クロスバ１３はステップＳ４のパケットを受け入れて、パケットに含まれたアドレスに基づいて、各パケットをキャッシュメモリ３の対応するバンク３１に同時に送出する（ステップＳ５）。

各バンク３１のコントロール部３１３は、ステップＳ５で送出されたパケットに含まれるアドレスに基づいて、当該バンク３１のデータアレイ３１１に当該アドレスはあるか否かを判定する（ステップＳ６）。例えば、コントロール部３１３はアドレスを、アドレスとデータアレイ３１１とが関連付けられた情報であるデータアレイ情報に照らし合わせて、当該アドレスがデータアレイ３１１にあるか否かを判定する。

コントロール部３１３が、ステップＳ５で送出されたパケットのアドレスが、データアレイ３１１にあると判定した場合（ステップＳ６：ＹＥＳ）、当該アドレスに基づいてデータアレイ３１１にアクセスして、第１ベクトルデータの要素が示す第１要素を含むキャッシュラインを読み出す。その後、コントロール部３１３は、読み出したキャッシュラインから、パケットのアドレスから第１要素を抽出し、第２ベクトルデータの要素第２要素と共に第１要素を演算部３１２に送出する（ステップＳ７）。

ステップＳ７の後、演算部３１２は、ステップＳ７で送出された値である第１要素と第２要素に基づいて演算処理を行う（ステップＳ８）。すなわち、演算部３１２は第１要素であるアドレスに対応するデータと第２要素との加算処理を行う。

他方、コントロール部３１３が、ステップＳ８で送出されたパケットのアドレスが、データアレイ３１１に無いと判定した場合（ステップＳ６：ＮＯ）、コントロール部３１３は、当該アドレスに基づいて主記憶装置にアクセスして、アドレスに対応するデータを読み出す（ステップＳ９）。コントロール部３１３は、主記憶装置から読み出したデータをキャッシュラインに格納し、再度アドレスの比較一致の判定を行う。コントロール部３１３は、キャッシュラインからアドレスに対応するデータを読み出す。その後、コントロール部３１３は、読み出したキャッシュラインから、パケットのアドレスから第１要素を抽出し、第２要素と共に第１要素を演算部３１２に送出する（ステップＳ７）。
ステップＳ９の後、演算部３１２はステップＳ９で送出された値に基づいて演算処理を行う（ステップＳ８）。すなわち、演算部３１２は第１要素であるアドレスに対応するデータと第２要素との加算処理を行う。

コントロール部３１３は、ステップＳ８の演算処理により得られた値を、パケットのアドレスに基づいてデータアレイ３１１に格納する（ステップＳ１０）。

ステップＳ７でデータアレイ３１１の読み出しが発生し、ステップＳ１０においてデータアレイ３１１への格納がある間、当該データアレイ３１１への他のアクセスは生じさせない原子的な操作、つまりこれ以上分けることのできない操作とすることで、情報処理装置１００は、ＬＶＡ命令の対象となるアドレスに対する後続のストア等による書き換えを防ぐことができる。本発明の実施形態は、上記の具体的な実施形態に限定されるものでなく、キャッシュメモリ３の複数のバンクにおいて原子的に演算処理を行うことにより、所定のベクトル命令などを省略しなくても、メインメモリアクセスを減らして、演算処理を高速化できる。

また、クロスバ１３は、アドレスに基づいてバンク３１を特定してパケットを送出するため、同一アドレスに係る演算処理が行われる場合、同一のバンク３１の演算部３１２での演算処理とデータアレイ３１１への格納が行われる。このような場合であっても、同一のバンク３１に係るキャッシュメモリ３のバッファでパケットを待ち合わせて、順次的に演算処理が行われる。上記の実施形態と異なる構成の情報処理装置は、重複するアドレスを含む場合、バンクに対しスカラ制御部が複数回メモリアクセスを行い、スカラ制御部で加算を行い、バンクに書き込む必要がある。これに対し、第１の実施形態に係る情報処理装置１００によれば、重複するアドレスを含む加算が１度のＬＶＡ命令で完了する。また、第１の実施形態に係る情報処理装置１００は、バンク３１に閉じて加算を複数回実行するのみであり、コア１からのメモリアクセス回数を削減することができる。

他方、各コア１が重複の無いアドレスに係るパケットを各バンク３１に送出した場合、各バンク３１の演算部３１２は並列して演算処理を行うことができ、演算処理に係るメモリアクセスを減らすことができる。

また、上記の実施形態における記憶装置はキャッシュメモリ３であるが、記憶装置はメインメモリであっても良い。

また、上記の実施形態においては、重複するアドレスに対しアドレス計算部１２がパケットの送出順序を保証することで連続実行を可能としたが、コンパイラによって重複するアドレスを含むループをあらかじめ特定し、重複するアドレスの数だけ複数回のＬＶＡ命令を発行することでも効率を高めることができる。

また、上記の実施形態におけるキャッシュメモリ３はコア１と接続されているが、キャッシュメモリ３はコア１に設けられても良い。すなわち、情報処理装置１００が備える記憶装置は、コア１が備えるキャッシュメモリであっても良い。

《作用・効果》
本発明の実施形態に係る情報処理装置１００は、独立して読み書き可能な記憶領域である複数のバンク３１を備える記憶装置と、複数のバンクに並行してアクセス可能な処理装置と、を備え、処理装置は、ループ制御文におけるループの単位で、インデックス配列のアドレスと、ベクトルデータの要素を格納するパケットを生成する生成手段と、を備え、複数のバンク３１のそれぞれは、パケットの単位で該当するアドレスに対応するデータの読み出しと演算処理と演算結果の値を格納する一連の処理を原子的に同時に行う。

情報処理装置１００は、記憶装置の複数のバンク３１にてパケットの単位で演算処理と格納を原子的に行う。これにより、情報処理装置１００のユーザは、値が重複する間接参照を含むリストベクトルの演算処理に係るメモリアクセスを減らすことができる。

また、情報処理装置１００の処理装置は、パケットに格納されたインデックス配列のアドレスに基づいて、当該パケットを送出するバンク３１を特定し、当該パケットを当該バンク３１に送出する送出手段、を備え、バンク３１は、送出されたパケットを受け入れて演算処理を行う。

情報処理装置１００は、アドレスに基づいてパケットを送出するバンク３１を特定する。情報処理装置１００は、特定されたバンク３１にてパケットの単位で演算処理を行う。これにより、情報処理装置１００のユーザは、値が重複する間接参照を含むベクトルの演算処理に係るメモリアクセスを減らすことができる。

また、情報処理装置１００の記憶装置は、処理装置と有線又は無線で接続される。
これにより、処理装置と記憶装置とが分離された状態の情報処理装置１００であっても、情報処理装置１００のユーザは、値が重複する間接参照を含むベクトルの演算処理に係るメモリアクセスを減らすことができる。

また、情報処理装置１００の記憶装置は、処理装置の内部に設けられる。
これにより、記憶装置が処理装置の内部に設けられた情報処理装置１００であっても、情報処理装置１００のユーザは、値が重複する間接参照を含むベクトルの演算処理に係るメモリアクセスを減らすことができる。

また、情報処理装置１００の記憶装置は、キャッシュメモリ３である。
これにより、情報処理装置１００のユーザは、キャッシュメモリ３の複数のバンク３１を用いて、値が重複する間接参照を含むベクトルの加算処理に係るメモリアクセスを減らすことができる。

本発明の実施形態に係る情報処理方法は、独立して読み書き可能な記憶領域である複数のバンク３１を備える記憶装置と、複数のバンク３１に並行してアクセス可能な処理装置と、を備える情報処理装置において、ループ制御文におけるループの単位で、インデックス配列のアドレスと、ベクトルデータの要素を格納するパケットを生成するステップと、複数のバンク３１のそれぞれにおいて、パケットの単位で該当するアドレスに対応するデータの読み出しと演算処理と演算結果の値を格納する一連の処理を原子的に同時に行うステップを有する。

情報処理方法を用いると、記憶装置の複数のバンク３１にてパケットの単位で演算処理を行うことができる。これにより、情報処理方法のユーザは、値が重複する間接参照を含むベクトルの演算処理に係るメモリアクセスを減らすことができる。

〈他の実施形態〉
以上、図面を参照して一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、様々な設計変更等をすることが可能である。

上記の実施形態における情報処理装置１００は、各バンク３１において演算処理を行うが、各バンク３１にパケットの待ち合わせが可能なバッファ領域を設けて、複数のバンク３１でパケットの演算処理を行っても良い。この場合、情報処理装置１００は各バンク３１における演算部３１２の演算処理を待たずに、他の演算部３１２を用いてパケットの演算処理を行うことができ、さらなる性能向上を実現できる。

また、各バンク３１の演算部３１２は、ＳＩＭＴ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎＭｕｌｔｉｐｌｅＴｈｒｅａｄｓ）方式やＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎＭｕｌｔｉｐｌｅＤａｔａ）方式で、パケットの演算処理を行っても良い。

また、情報処理装置１００は、コア１の代わりにＤＭＵ（ＤｉｒｅｃｔＭｅｍｏｒｙＵｎｉｔ）を備えても良い。すなわち、情報処理装置１００は、ＤＭＡ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）を制御するユニットであるＤＭＵに接続されたキャッシュメモリ３に複数設けられたバンク３１を用いて、パケットの演算処理を行っても良い。

また、上記の実施形態における演算部３１２は加算器であるが、演算部３１２は別の演算器でも良い。例えば、加算器に加え乗算器も備え、ＬＶＭ（ＬｉｓｔＶｅｃｔｏｒＭｕｌｔｉｐｌｙ）命令を追加することで、上記の実施形態を乗算に置き換えた乗算の高速化も可能である。

〈基本構成〉
図４は、情報処理装置１００の基本構成を示す概略ブロック図である。
上述した実施形態では、情報処理装置１００の一実施形態として図１に示す構成について説明したが、情報処理装置１００の基本構成は、図４に示すとおりである。
すなわち、基本構成に係る情報処理装置１００の構成は、第１の実施形態に係る情報処理装置１００の構成から、クロスバ１３を備えない構成である。

基本構成に係る情報処理装置１００は、独立して読み書き可能な記憶領域である複数のバンク３１を備える記憶装置と、複数のバンクに並行してアクセス可能な処理装置と、を備え、処理装置は、ループ制御文におけるループの単位で、インデックス配列のアドレスと、ベクトルデータの要素を格納するパケットを生成する生成手段と、を備え、複数のバンク３１のそれぞれは、パケットの単位で演算処理と演算結果の値を格納する一連の処理を原子的に同時に行う。

情報処理装置１００は、記憶装置の複数のバンク３１にてパケットの単位で演算処理と格納を原子的に行う。これにより、情報処理装置１００のユーザは、値が重複する間接参照を含むベクトルの演算処理に係るメモリアクセスを減らすことができる。

この出願は、２０２０年３月１８日に出願された日本国特願２０２０－０４７４８８号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明の各態様は、情報処理装置及び情報処理方法に適用してもよい。

１コア
３キャッシュメモリ
１１命令発行部
１２アドレス計算部
１３クロスバ
３１バンク
１１１スカラ制御部
１１２ベクトル制御部
３１１データアレイ
３１２演算部
３１３コントロール部

Claims

独立して読み書き可能な記憶領域である複数のバンクを備える記憶装置と、
複数の前記バンクに並行してアクセス可能な処理装置と、
を備え、
前記処理装置は、ループ制御文におけるループの単位で、インデックス配列のアドレスと、ベクトルデータの要素を格納するパケットを生成する生成手段と、を備え、複数の前記バンクのそれぞれは、前記パケットの単位で該当する前記アドレスに対応するデータの読み出しと演算処理と演算結果の値を格納する一連の処理を原子的に同時に行う
情報処理装置。
前記処理装置は、前記パケットに格納された前記インデックス配列のアドレスに基づいて、当該パケットを送出する前記バンクを特定し、当該パケットを当該バンクに送出する送出手段、を備え、
前記バンクは、送出された前記パケットを受け入れて前記演算処理を行う
請求項１に記載の情報処理装置。
前記記憶装置は、前記処理装置と有線又は無線で接続される
請求項１又は請求項２に記載の情報処理装置。
前記記憶装置は、前記処理装置の内部に設けられる
請求項１又は請求項２に記載の情報処理装置。
前記記憶装置は、キャッシュメモリである
請求項１から請求項４の何れか１項に記載の情報処理装置。
独立して読み書き可能な記憶領域である複数のバンクを備える記憶装置と、
複数の前記バンクに並行してアクセス可能な処理装置と、
を備える情報処理装置によって実行される情報処理方法であって、
ループ制御文におけるループの単位で、インデックス配列のアドレスと、ベクトルデータの要素を格納するパケットを生成するステップと、
複数の前記バンクのそれぞれにおいて、前記パケットの単位で該当する前記アドレスに対応するデータの読み出しと演算処理と演算結果の値を格納する一連の処理を原子的に同時に行うステップと、
を有する情報処理方法。