JP2023030745A

JP2023030745A - 計算機および計算方法

Info

Publication number: JP2023030745A
Application number: JP2021136048A
Authority: JP
Inventors: 宏中尾; Hiroshi Nakao
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2023-03-08
Also published as: US20230065733A1

Abstract

【課題】レジスタ内のサブレジスタ間での加算処理を最小限にして最近接一致ベクトルの検索効率を向上する。【解決手段】複数の第２ベクトルをレジスタのサブレジスタサイズと等しいサブベクトルに分割し、複数の第２ベクトルのサブベクトルのグループ単位で読み出し可能にメモリに順次配置し、第１ベクトルのサブベクトルの１つを第１レジスタの複数のサブレジスタに転送する第１処理と、転送した第１ベクトルのサブベクトルに対応する複数の第２ベクトルのサブベクトルを、第２レジスタの複数のサブレジスタに転送する第２処理と、第１および第２レジスタにおいて互いに対応するサブレジスタ内のサブベクトルのビット値の不一致数を算出して積算する第３処理と、を第１ベクトルの全てのサブベクトルに対して繰り返し実行し、算出した不一致数の積算値が最も小さい第２ベクトルを最近接一致ベクトルと判定する。【選択図】図２

Description

本発明は、計算機および計算方法に関する。

１つの命令で複数のデータを並列に処理するＳＩＭＤ（Single Instruction Multiple Data）演算命令をサポートした演算処理装置が知られている。この種の演算処理装置では、例えば、メモリマトリクスから複数組のデータが一括に読み出されて複数の演算器で並列に演算が実行され、複数組の演算結果データがメモリマトリクスに一括に書き込まれる（例えば、特許文献１参照）。また、この種の演算処理装置は、ＳＩＭＤ演算用のレジスタを使用して実行した比較演算の結果が全て同じ場合、条件フラグレジスタをセットする回路を有する（例えば、特許文献２参照）。

同一のプログラムを実行する複数のスレッドで複数の異なるデータを並列に処理する場合、複数のスレッドは、同期用のハードバリアにより各スレッドの処理が終了するまで次の処理の実行を待つ（例えば、特許文献３参照）。ＳＩＭＤによる縮約操作を実行するマルチスレッドコンピュータは、スレッドで使用するレーンを入れ替えるクロスバーと、クロスバーを制御するクロスバーコントローラとを有する（例えば、特許文献４参照）。

特開２０１８－１５６１１９号公報特開２００４－１１８４７０号公報米国特許第７７８８４６８号明細書米国特許第８２００９４０号明細書

ところで、シードベクトルに最も近い最近接一致ベクトルを複数の情報ベクトルから検索する場合、例えば、計算機は、シードベクトルの各要素のビット値と１つの情報ベクトルの各要素のビット値とを比較し、ビット値が異なる要素の数を積算する。計算機は、複数の情報ベクトルの各々について、ビット値の比較とビット値が異なる要素の数の積算とを実行する。そして、計算機は、積算値が最も少ない情報ベクトルを最近接一致ベクトルと判定する。

シードベクトルに対してビット値が異なる要素の数を、ＳＩＭＤレジスタを使用して情報ベクトル毎に算出する場合、計算機は、ＳＩＭＤレジスタ内の複数のサブレジスタに保持される部分的な積算値をサブレジスタ間で加算する。しかしながら、ＳＩＭＤレジスタに含まれるサブレジスタ間での加算に掛かるクロックサイクル数は、ＳＩＭＤレジスタ間でのサブレジスタ同士の加算に掛かるクロックサイクル数に比べて多い。このため、ＳＩＭＤレジスタ内の複数のサブレジスタに保持される部分的な積算値をサブレジスタ間で加算する最近接一致ベクトルを検索手法は、演算効率が低く、検索時間が長くなる。

１つの側面では、本発明は、レジスタ内のサブレジスタ間での加算処理を最小限にして最近接一致ベクトルの検索効率を向上することを目的とする。

一つの観点によれば、計算機は、演算に使用する複数のデータをそれぞれ保持する複数のサブレジスタを各々含む複数のレジスタと、前記複数のサブレジスタにそれぞれ保持されるデータの演算を並列に実行する演算器と、第１ベクトルおよび前記第１ベクトルと比較される複数の第２ベクトルを保持可能なメモリと、を有する計算機であって、前記複数の第２ベクトルを前記サブレジスタのサイズと等しいサブベクトルにそれぞれ分割し、前記複数の第２ベクトルのサブベクトルを各々含む複数のサブベクトルグループを、サブベクトルグループ単位で読み出し可能に前記メモリに順次配置し、前記メモリに保持された前記第１ベクトルのサブベクトルの１つを前記複数のレジスタのうちの第１レジスタの複数のサブレジスタに転送する第１処理と、前記メモリに保持された、前記第１ベクトルの転送したサブベクトルに対応する前記複数の第２ベクトルのサブベクトルを、前記複数のレジスタのうちの第２レジスタの複数のサブレジスタにそれぞれ転送する第２処理と、前記第１レジスタおよび前記第２レジスタにおいて、互いに対応するサブレジスタが保持するサブベクトルのビット値の不一致数を算出して積算する第３処理と、を前記第１ベクトルの全てのサブベクトルに対して繰り返し実行し、算出した前記不一致数の積算値が最も小さい第２ベクトルを最近接一致ベクトルと判定する。

レジスタ内のサブレジスタ間での加算処理を最小限にして最近接一致ベクトルの検索効率を向上することができる。

一実施形態における計算機の一例を示すブロック図である。図１の計算機の動作の一例を示す説明図である。別の実施形態における計算機の一例を示すブロック図である。図３の計算機による最近接一致ベクトルの検索の概要を示す説明図である。図３のＳＩＭＤレジスタと、データメモリ領域に保持されるデータとの一例を示す説明図である。図３の計算機により最近接一致ベクトルを検索する例を示す説明図である。図６の最近接一致ベクトルの検索の続きを示す説明図である。図７の最近接一致ベクトルの検索の続きを示す説明図である。図８の最近接一致ベクトルの検索の続きを示す説明図である。図３のデータメモリ領域に保持されるデータの別の例を示す説明図である。図１０の配列のデータを使用して最近接一致ベクトルを検索する例を示す説明図である。図１１の式（１）中の和ｓｕｍ（ｉ）を算出する例を示す説明図である。図１１の式（１）で得られる総和Ｓ（０）－Ｓ（７）の最小値を算出する例を示す説明図である。図１３で算出した最小の相違ビット数に対応する情報ベクトルを検索する例を示す説明図である。別の実施形態における計算機においてベクトル長が可変の場合の調整例を示す説明図である。図１５のベクトル長の調整後のデータをデータメモリ領域に格納する例を示す説明図である。別の実施形態における計算機において情報ベクトルを更新する例を示す説明図である。

以下、図面を参照して、実施形態が説明される。

図１は、一実施形態における計算機の一例を示す。図１に示す計算機１は、演算処理装置２およびメモリ７を有する。例えば、演算処理装置２は、ＳＩＭＤ演算命令を使用して、複数の積和演算等を並列に実行可能なプロセッサである。演算処理装置２は、複数のＳＩＭＤレジスタ４（４ａ、４ｂ、４ｃ、４ｄ、...）を含むレジスタファイル３と、演算器６とを有する。各ＳＩＭＤレジスタ４は、演算対象のデータがそれぞれ格納される複数のサブレジスタ５（５ａ、５ｂ、５ｃ、５ｄ）を含む。なお、図１では、各ＳＩＭＤレジスタ４には、４個のサブレジスタ５が割り当てられるが、各ＳＩＭＤレジスタ４に割り当てられるサブレジスタ５の数は、ＳＩＭＤ演算命令の種別により変化する。以下では、ＳＩＭＤレジスタ４は、単にレジスタとも称される。

例えば、演算器６は、演算処理装置２に投入されるＳＩＭＤ演算命令に基づいて、サブレジスタ５に保持されているデータのレジスタ４間での算術演算（加算または乗算等）を実行する。また、演算器６は、ＳＩＭＤ演算命令に基づいて、レジスタ４内の各サブレジスタ５に保持されているデータの論理演算（アンド、オア、排他的論理和等）を実行する。

メモリ７は、シードベクトルＶ１と複数の情報ベクトルＶ２０、Ｖ２１、Ｖ２２、Ｖ２３とを保持する記憶領域を有する。図１に示す例では、シードベクトルＶ１および情報ベクトルＶ２のベクトル長（ビット長）は、レジスタ４のビット幅に等しいが、レジスタ４のビット幅より大きくてもよい。以下では、情報ベクトルＶ２０、Ｖ２１、Ｖ２２、Ｖ２３を区別せずに説明する場合、情報ベクトルＶ２とも称される。シードベクトルＶ１は、第１ベクトルの一例であり、情報ベクトルＶ２は、第２ベクトルの一例である。

シードベクトルＶ１は、サブレジスタ５のサイズ（ビット幅）と等しいサイズのデータＶ１ａ、Ｖ１ｂ、Ｖ１ｃ、Ｖ１ｄを含む。データＶ１ａ、Ｖ１ｂ、Ｖ１ｃ、Ｖ１ｄの各々は、サブベクトルの一例である。

情報ベクトルＶ２０は、サブレジスタ５のサイズと等しいサイズに分割されたデータＶ２０ａ、Ｖ２０ｂ、Ｖ２０ｃ、Ｖ２０ｄを含む。情報ベクトルＶ２１は、サブレジスタ５のサイズと等しいサイズに分割されたデータＶ２１ａ、Ｖ２１ｂ、Ｖ２１ｃ、Ｖ２１ｄを含む。情報ベクトルＶ２２は、サブレジスタ５のサイズと等しいサイズに分割されたデータＶ２２ａ、Ｖ２２ｂ、Ｖ２２ｃ、Ｖ２２ｄを含む。情報ベクトルＶ２３は、サブレジスタ５のサイズと等しいサイズに分割されたデータＶ２３ａ、Ｖ２３ｂ、Ｖ２３ｃ、Ｖ２３ｄを含む。データＶ２０ａ－２０ｄ、Ｖ２１ａ－Ｖ２１ｄ、Ｖ２２ａ－Ｖ２２ｄ、Ｖ２３ａ－Ｖ２３ｄの各々は、サブベクトルの一例である。

例えば、計算機１は、計算機１の外部から受信するシードベクトルＶ１および情報ベクトルＶ２をメモリ７に配置する。計算機１は、シードベクトルＶ１を、メモリ７においてアドレスが連続する領域に配置する。計算機１は、情報ベクトルＶ２０－Ｖ２３のデータＶ２０ａ、Ｖ２１ａ、Ｖ２２ａ、Ｖ２３ａを、メモリ７においてアドレスが連続する領域に配置する。計算機１は、情報ベクトルＶ２０－Ｖ２３のデータＶ２０ｂ、Ｖ２１ｂ、Ｖ２２ｂ、Ｖ２３ｂを、メモリ７においてアドレスが連続する領域に配置する。

計算機１は、情報ベクトルＶ２０－Ｖ２３のデータＶ２０ｃ、Ｖ２１ｃ、Ｖ２２ｃ、Ｖ２３ｃを、メモリ７においてアドレスが連続する領域に配置する。計算機１は、情報ベクトルＶ２０－Ｖ２３のデータＶ２０ｄ、Ｖ２１ｄ、Ｖ２２ｄ、Ｖ２３ｄを、メモリ７においてアドレスが連続する領域に配置する。このように、計算機１は、各情報ベクトルＶ２０－Ｖ２３をサブレジスタ５のサイズで折り返してメモリ７に順次配置する。

データＶ２０ａ、Ｖ２１ａ、Ｖ２２ａ、Ｖ２３ａおよびデータＶ２０ｂ、Ｖ２１ｂ、Ｖ２２ｂ、Ｖ２３ｂのそれぞれは、サブベクトルグループの一例である。データＶ２０ｃ、Ｖ２１ｃ、Ｖ２２ｃ、Ｖ２３ｃおよびデータＶ２０ｄ、Ｖ２１ｄ、Ｖ２２ｄ、Ｖ２３ｄのそれぞれは、サブベクトルグループの一例である。演算処理装置２は、サブベクトルグループ単位でメモリ７から情報ベクトルＶ２０－Ｖ２３を並列に読み出し可能である。

例えば、演算処理装置２が、転送元のソースアドレスがＡａで転送先がレジスタ４ａのロード命令をフェッチしたとする。この場合、演算処理装置２は、シードベクトルＶ１のデータＶ１ａ、Ｖ１ｂ、Ｖ１ｃ、Ｖ１ｄをレジスタ４ａのサブレジスタ５ａ、５ｂ、５ｃ、５ｄにそれぞれ格納する。演算処理装置２が、転送元のソースアドレスがＡｂで転送先がレジスタ４ｂのロード命令をフェッチしたとする。この場合、演算処理装置２は、情報ベクトルＶ２０のデータＶ２０ａおよび情報ベクトルＶ２１のデータＶ２１ａをレジスタ４ｂのサブレジスタ５ａ、５ｂにそれぞれ格納する。また、演算処理装置２は、」情報ベクトルＶ２２のデータＶ２２ａおよび情報ベクトルＶ２３のデータＶ２３ａをレジスタ４ｂのサブレジスタ５ｃ、５ｄにそれぞれ格納する。

図２は、図１の計算機１の動作の一例を示す説明図である。図２では、情報ベクトルＶ２０－Ｖ２３のうち、シードベクトルＶ１に最も近い最近接一致ベクトルを検索する例が示される。図２に示す動作は、計算機１の計算方法の一例を示しており、演算処理装置２が最近接一致ベクトルの検索プログラムを実行することで実現される。特に断らない限り、検索プログラムに含まれる算術演算および論理演算を実行する演算命令は、ＳＩＭＤ演算命令であり、サブレジスタ５ａ－５ｄに保持されたデータが並列に処理される。

まず、演算処理装置２は、シードベクトルＶ１のデータＶ１ａをレジスタ４ａのサブレジスタ５ａ、５ｂ、５ｃ、５ｄにブロードキャストする（図２（ａ））。データＶ１ａをレジスタ４ａのサブレジスタ５ａ、５ｂ、５ｃ、５ｄにブロードキャストする処理は、第１処理の一例である。データＶ１ａが転送されるレジスタ４ａは、第１レジスタの一例である。

次に、演算処理装置２は、情報ベクトルＶ２０－Ｖ２３のデータＶ２０ａ、Ｖ２１ａ、Ｖ２２ａ、Ｖ２３ａをレジスタ４ｂのサブレジスタ５ａ、５ｂ、５ｃ、５ｄに転送する（図２（ｂ））。データＶ２０ａ、Ｖ２１ａ、Ｖ２２ａ、Ｖ２３ａをレジスタ４ｂのサブレジスタ５ａ、５ｂ、５ｃ、５ｄに転送する処理は、第２処理の一例である。データＶ２０ａ、Ｖ２１ａ、Ｖ２２ａ、Ｖ２３ａが転送されるレジスタ４ｂは、第２レジスタの一例である。

次に、演算処理装置２は、レジスタ４ａ、４ｂのサブレジスタ５に保持されたデータの各ビットの排他的論理和ｘｏｒ０ａ、ｘｏｒ１ａ、ｘｏｒ２ａ、ｘｏｒ３ａを算出し、レジスタ４ｃに格納する（図２（ｃ））。例えば、排他的論理和ｘｏｒ０ａにおいて論理値１のビットは、シードベクトルＶ１のデータＶ１ａと情報ベクトルのＶ２０のデータＶ２０ａにおいて、ビット値が互いに異なるビットを示す。排他的論理和ｘｏｒ１ａにおいて論理値１のビットは、シードベクトルＶ１のデータＶ１ａと情報ベクトルのＶ２１のデータＶ２１ａにおいて、ビット値が互いに異なるビットを示す。

次に、演算処理装置２は、各サブレジスタ５の論理値１のビット数を算出するＰＯＰＣＮＴ命令を実行し、実行結果をレジスタ４ｄに格納する（図２（ｄ））。ＰＯＰＣＮＴ命令の実行により、シードベクトルＶ１のデータＶ１ａと、情報ベクトルＶ２０－Ｖ２３の各データＶ２０ａ－Ｖ２３ａとにおいて、ビット値が互いに異なるビット数が算出される。以下では、ビット値が互いに異なるビット数は、相違ビット数とも称される。相違ビット数は、不一致数の一例である。図２に示す例では、データＶ１ａとデータＶ２０ａ－Ｖ２３ａとの相違ビット数は、それぞれ"４"、"８"、"３"、"６"であるとする。

次に、演算処理装置２は、レジスタ４ｄに保持された相違ビット数をレジスタ４ｈに格納する（図２（ｅ））。なお、レジスタ４ｄに保持された相違ビット数のレジスタ４ｈへの格納は、例えば、"０"に初期化されたレジスタ４ｈのサブレジスタの値とレジスタ４ｄのサブレジスタの値とを加算（積算）することで実行されてもよい。排他的論理和を算出する処理と、論理値１のビット数を算出する処理と、レジスタ４ｈのサブレジスタの値およびレジスタ４ｄのサブレジスタの値を積算する処理とは、第３処理の一例である。

この後、演算処理装置２は、シードベクトルＶ１の他の全てのデータＶ１ｂ、Ｖ１ｃ、Ｖ１ｄに対して、図２（ａ）－図２（ｄ）と同様の処理を繰り返し実行する。例えば、演算処理装置２は、データＶ１ｂをレジスタ４ａのサブレジスタ５ａ、５ｂ、５ｃ、５ｄにブロードキャストする。演算処理装置２は、データＶ１ｂと情報ベクトルＶ２０－Ｖ２３のデータＶ２０ｂ、Ｖ２１ｂ、Ｖ２２ｂ、Ｖ２３ｂとの相違ビット数"３"、"５"、"１"、"６"を算出し、レジスタ４ｅに格納する（図２（ｆ））。次に、演算処理装置２は、レジスタ４ｈ、４ｅのサブレジスタ５ａ－５ｄに保持されたデータ同士を加算命令ＡＤＤにより加算し、レジスタ４ｈに上書きする（図２（ｇ））。

演算処理装置２は、データＶ１ｃをレジスタ４ａのサブレジスタ５ａ、５ｂ、５ｃ、５ｄにブロードキャストする。演算処理装置２は、データＶ１ｃと情報ベクトルＶ２０－Ｖ２３のデータＶ２０ｃ、Ｖ２１ｃ、Ｖ２２ｃ、Ｖ２３ｃとの相違ビット数"２"、"９"、"７"、"４"を算出し、レジスタ４ｆに格納する（図２（ｈ））。次に、演算処理装置２は、レジスタ４ｈ、４ｆのサブレジスタ５ａ－５ｄに保持されたデータ同士を加算命令ＡＤＤにより加算し、レジスタ４ｈに上書きする（図２（ｉ））。

演算処理装置２は、データＶ１ｄをレジスタ４ａのサブレジスタ５ａ、５ｂ、５ｃ、５ｄにブロードキャストする（図２（ｊ））。演算処理装置２は、情報ベクトルＶ２０－Ｖ２３のデータＶ２０ｄ、Ｖ２１ｄ、Ｖ２２ｄ、Ｖ２３ｄをレジスタ４ｂのサブレジスタ５ａ、５ｂ、５ｃ、５ｄにロードする（図２（ｋ））。

次に、演算処理装置２は、レジスタ４ａ、４ｂのサブレジスタ５に保持されたデータの排他的論理和を算出した後、相違ビット数"２"、"４"、"１"、"８"を算出し、レジスタ４ｇに格納する（図２（ｌ））。次に、演算処理装置２は、レジスタ４ｈ、４ｇのサブレジスタ５ａ－５ｄに保持されたデータ同士を加算命令ＡＤＤにより加算し、レジスタ４ｈに上書きする（図２（ｍ））。レジスタ４ｈの各サブレジスタ５ａ－５ｄに保持された値は、各情報ベクトルＶ２０、Ｖ２１、Ｖ２２、Ｖ２３の全体の相違ビット数の積算値を示す。各情報ベクトルＶ２０、Ｖ２１、Ｖ２２、Ｖ２３の相違ビット数の積算値がそれぞれ格納されるレジスタ４ｄ、４ｅ、４ｆ、４ｇは、第３レジスタの一例である。各情報ベクトルＶ２０、Ｖ２１、Ｖ２２、Ｖ２３の全体の相違ビット数の積算値がそれぞれ格納されるレジスタ４ｈは、第４レジスタの一例である。

次に、演算処理装置２は、レジスタ４ｈの各サブレジスタ５ａ－５ｄに保持された相違ビット数の積算値の最小値（ＭＩＮ）を算出し、レジスタ４ｌの全てのサブレジスタ５ａ－５ｄに格納する（図２（ｎ））。図２に示す例では、最小値は"１１"である。そして、演算処理装置２は、レジスタ４ｌの各サブレジスタ５ａ－５ｄに保持されたデータを、レジスタ４ｈの各サブレジスタ５ａ－５ｄに保持されたデータと比較し、相違ビット数の最小値が情報ベクトルＶ２０に対応することを判定する。そして、演算処理装置２は、シードベクトルＶ１に最も近い最近接一致ベクトルが情報ベクトルＶ２０であると判定する（図２（ｏ））。

以上、この実施形態では、計算機１は、各情報ベクトルＶ２０－Ｖ２３をサブレジスタ５のサイズで折り返してメモリ７に配置する。そして、計算機１は、例えば、レジスタ４ａのサブレジスタ５にブロードキャストしたシードベクトルＶ１のデータＶ１ａと、レジスタ４ｂのサブレジスタ５に格納したデータＶ２０ａ、Ｖ２１ａ、Ｖ２２ａ、Ｖ２３ａとの相違ビット数を算出し、積算する。

これにより、計算機１は、ＰＯＰＣＮＴ命令を除き、ＳＩＭＤレジスタ４内のサブレジスタ５間での加算処理を実行しない。例えば、各情報ベクトルＶ２の部分的な積算値の加算は、異なるＳＩＭＤレジスタ４間での加算命令ＡＤＤを使用して実行される。したがって、ＳＩＭＤレジスタ４内のサブレジスタ５間での加算処理を多用する場合に比べて、最近接一致ベクトルの検索に掛かるクロックサイクル数を削減することができる。この結果、最近接一致ベクトルの検索効率を向上することができ、検索時間を短縮することができる。

演算処理装置２は、情報ベクトルＶ２０－Ｖ２３の一部であるサブベクトルとシードベクトルＶ１の一部であるサブベクトルとの相違ビット数をＳＩＭＤレジスタ４ｄ、４ｅ、４ｆ、４ｇにそれぞれ保持し、ＳＩＭＤレジスタ４ｈに足し込む。これにより、ＳＩＭＤレジスタ４内のサブレジスタ５間での加算処理を多用することなく、異なるＳＩＭＤレジスタ４間での加算命令ＡＤＤを使用して、各情報ベクトルＶ２０－Ｖ２３の相違ビット数を積算することができる。

図３は、別の実施形態における計算機の一例を示す。上述した実施形態と同様の要素および動作については、詳細な説明は省略する。図３に示す計算機１００は、演算処理装置２００、メインメモリ３００およびストレージ４００を有する。例えば、計算機１００は、サーバ等の情報処理装置でもよく、メインフレームまたはスーパーコンピュータ等でもよい。また、ストレージ４００は、計算機１００の外部に配置されてもよい。

演算処理装置２００は、命令キャッシュ１０、メモリインタフェース２０、命令デコーダ３０、データキャッシュ４０、メモリインタフェース５０、レジスタファイル６０、演算器７０およびクロック生成器８０を有する。レジスタファイル６０は、複数のレジスタ６２および複数のＳＩＭＤレジスタ６４を有する。メインメモリ３００は、命令コードを記憶するコードメモリ領域３１０とシードベクトルＡおよび複数の情報ベクトルＢを記憶するデータメモリ領域３２０とを有する。

命令キャッシュ１０は、コードメモリ領域３１０に記憶されている命令コードの一部を記憶可能である。メモリインタフェース２０は、命令キャッシュ１０にデコード対象の命令コードが記憶されている場合、命令キャッシュ１０からデコード対象の命令コードを読み出し、読み出した命令コードを命令デコーダ３０に出力する。メモリインタフェース２０は、命令キャッシュ１０にデコード対象の命令コードが記憶されていない場合、メインメモリ３００からデコード対象の命令コードを読み出して命令デコーダ３０に出力し、読み出した命令コードを命令キャッシュ１０に格納する。

データキャッシュ４０は、データメモリ領域３２０に記憶されているシードベクトルＡおよび情報ベクトルＢの一部を記憶可能である。メモリインタフェース５０は、データキャッシュ４０に読み出し対象のデータが記憶されている場合、データキャッシュ４０から読み出し対象のデータを読み出し、読み出したデータをレジスタファイル６０に出力する。メモリインタフェース５０は、データキャッシュ４０に読み出し対象のデータが記憶されていない場合、メインメモリ３００から読み出し対象のデータを読み出してレジスタファイル６０に出力し、読み出したデータをデータキャッシュ４０に格納する。

なお、記憶容量が大きいデータキャッシュ４０を演算処理装置２００の外部に配置し、最近接一致ベクトルの検索に使用するシードベクトルＡおよび情報ベクトルＢの全てのデータを、データキャッシュ４０に保持してもよい。

例えば、データキャッシュ４０において、メインメモリ３００に対するデータの読み書きの単位であるキャッシュラインサイズは２５６ビットである。そして、メモリインタフェース５０は、２５６ビットのデータを１クロックサイクルでＳＩＭＤレジスタ６４に読み書きできる。なお、この実施形態では、レジスタファイル６０からデータキャッシュ４０にデータを書き込む処理についての説明がされないため、データの書き込み動作の説明は省略される。

各レジスタ６２は、例えば、６４ビット幅を有し、メモリインタフェース５０または演算器７０によりアクセスされる。各ＳＩＭＤレジスタは、例えば、２５６ビット幅を有し、メモリインタフェース５０または演算器７０によりアクセスされる。例えば、演算器７０は、２５６ビットのデータを１クロックサイクルでＳＩＭＤレジスタ６４に読み書きできる。

演算器７０は、命令デコーダ３０でデコードされた命令に基づいて動作し、算術演算、論理演算およびレジスタアクセスを実行する。例えば、演算器７０は、算術演算または論理演算としてＳＩＭＤ演算命令を実行する場合、２５６ビット単位でＳＩＭＤレジスタ６４にアクセス可能である。クロック生成器８０は、演算処理装置２００の外部から供給される図示しないクロックに基づいて、演算処理装置２００を動作させるクロックを生成し、生成したクロックを、演算器７０等のクロック同期回路とメインメモリ３００とに出力する。

以下では、説明の簡単化のため、各ＳＩＭＤレジスタ６４に転送されるデータは、メインメモリ３００から読み出されるとする。なお、シードベクトルＡおよび情報ベクトルＢがデータキャッシュ４０に保持可能な場合、各ＳＩＭＤレジスタ６４に転送されるデータは、データキャッシュ４０から読み出されてもよい。この場合、以下の説明のデータメモリ領域３２０は、データキャッシュ４０に読み替えればよい。

図４は、図３の計算機１００による最近接一致ベクトルの検索の概要を示す。計算機１００は、ｎビットのシードベクトルＡの各ビットａ０、ａ１、...、ａｎ－１と、ｍ個のｎビットの情報ベクトルＢ０からＢｍ－１の各々の各ビット（例えば、ｂ０ｊ、ｂ１ｊ、...、ｂｎ－１ｊ）とを比較する。例えば、計算機１００は、シードベクトルＡと各情報ベクトルＢとのビット毎の排他的論理和演算ｘｏｒを実行し、排他的論理和演算ｘｏｒの結果が論理値１になるビットの総和（ビット数）を算出する。排他的論理和演算ｘｏｒの結果の論理値１は、シードベクトルＡと各情報ベクトルＢとにおいてビットの論理値が互いに相違することを示す。そして、計算機１００は、論理値１のビット数が最小の情報ベクトルＢをシードベクトルＡに最も近い最近接一致ベクトルと判定する。

図５は、図３のＳＩＭＤレジスタ６４と、データメモリ領域３２０に保持されるデータとの一例を示す。ＳＩＭＤレジスタ６４（６４ａ、６４ｂ、...）は、８個の３２ビットのサブレジスタＲ（Ｒ０、Ｒ１、Ｒ２、...、Ｒ７）を含む。

データメモリ領域３２０には、例えば、１００１６ビットのシードベクトルＡと、１００１６ビットの８個の情報ベクトルＢ０－Ｂ７とが記憶される。なお、シードベクトルＡおよび情報ベクトルＢのビット長は、１００１６ビットに限定されず、データメモリ領域３２０に記憶される情報ベクトルＢは、８個に限定されない。シードベクトルＡおよび情報ベクトルＢのデータメモリ領域３２０への配置方法は、上述した実施形態（図１）と同様である。

計算機１００は、シードベクトルＡを、データメモリ領域３２０に割り当てられた連続するアドレスＷＡ－０からアドレスＷＡ－３９に２５６ビットずつ配置する。各アドレスＷＡに対応する２５６ビットのデータは、ＳＩＭＤレジスタ６４のサブレジスタＲに対応する８個の３２ビットのデータＡ（例えば、データＡ－０、Ａ－１、...、Ａ－７）を含む。なお、計算機１００は、アドレスＷＡ－３９に、最終のデータＡ－３１２のみを配置する。

情報ベクトルＢ０－Ｂ７は、サブレジスタＲ０－Ｒ７にそれぞれ対応して、アドレスＷ０－０からアドレスＷ０－３１２に３２ビットずつ保持される。これにより、図３の演算処理装置２００は、データメモリ領域３２０に対する１回の読み出しアクセスにより、８個の情報ベクトルＢ０－Ｂ７の３２ビットを同時に取得することができる。

図６から図９は、図３の計算機１００により最近接一致ベクトルを検索する例を示す。図６から図９に示す動作は、計算機１００の計算方法の一例を示しており、演算処理装置２００が最近接一致ベクトルの検索プログラムを実行することで実現される。検索プログラムの実行にはＳＩＭＤ演算命令が使用される。図６から図８において、"１ＣＬＫ"、"２ＣＬＫ"等は、動作の実行に掛かるクロックサイクル数を示す。但し、クロックサイクル数には、メモリアクセスに掛かるクロックサイクルは含まれない。以下では、ＳＩＭＤレジスタ６４は、単にレジスタ６４とも称される。

図６は、シードベクトルＡの３２ビットのデータＡ０と８個の情報ベクトルＢの３２ビットのデータＢ＊－０－０との相違ビット数を算出する動作を示す。符号＊は、"０"から"７"のいずれかを示す。まず、演算処理装置２００は、シードベクトルＡのデータＡ－０をレジスタ６４ａの各サブレジスタＲ０－Ｒ７にブロードキャストする（図６（ａ））。シードベクトルＡのデータＡ０をレジスタ６４ａのサブレジスタＲ０－Ｒ７にブロードキャストする処理は、第１処理の一例である。次に、演算処理装置２００は、情報ベクトルＢ０－Ｂ７のデータＢ０－０－０、Ｂ１－０－０、...、Ｂ７－０－０をレジスタ６４ｂのサブレジスタＲ０－Ｒ７にロードする（図６（ｂ））。レジスタ６４ａは、第１レジスタの一例であり、レジスタ６４ｂは、第２レジスタの一例である。情報ベクトルＢ０－Ｂ７のデータＢ０－０－０、Ｂ１－０－０、...、Ｂ７－０－０をレジスタ６４ｂのサブレジスタＲ０－Ｒ７にロードする処理は、第２処理の一例である。

次に、演算処理装置２００は、レジスタ６４ａ、６４ｂのサブレジスタＲ０－Ｒ７に保持されたデータの排他的論理和演算ＸＯＲを実行し、レジスタ６４ｃに格納する（図６（ｃ））。図６に示す例では、レジスタ６４ｃのサブレジスタＲ０、Ｒ１、Ｒ２、Ｒ７に"００００ｈ"、"００４０ｈ"、"０１１０ｈ、"ＡＡ５１ｈ"（ｈは１６進数を示す）がそれぞれ格納される。

次に、演算処理装置２００は、各サブレジスタＲ０－Ｒ７の論理値１のビット数を算出するＰＯＰＣＮＴ命令を実行し、演算結果をレジスタ６４ｄに格納する（図６（ｄ））。図６に示す例では、シードベクトルＡのデータＡ０と、情報ベクトルＢ０、Ｂ１、Ｂ２、...、Ｂ７のデータＢ０－０－０、Ｂ１－０－０、Ｂ２－０－０、...、Ｂ７－０－０との相違ビット数は、それぞれ"０"、"１"、"２"、...、"７"である。レジスタ６４ｄは、第３レジスタの一例である。

次に、演算処理装置２００は、レジスタ６４ｄの各サブレジスタＲの値とレジスタ６４ｅの各サブレジスタＲの値とを加算する加算命令ＡＤＤを実行し、演算結果をレジスタ６４ｅの各サブレジスタＲに格納する（図６（ｅ））。なお、レジスタ６４ｅの初期値は"０"である。レジスタ６４ｅは、第４レジスタの一例である。排他的論理和演算ＸＯＲを実行する処理と、論理値１のビット数を算出する処理と、レジスタ６４ｄのサブレジスタの値をレジスタ６４ｅのサブレジスタに積算する処理とは、第３処理の一例である。

そして、演算処理装置２００は、図６に示す動作を３１３回ループすることで、シードベクトルＡの各データＡ０－Ａ３１２に対応する相違ビット数を算出し、算出した相違ビット数をレジスタ６４ｅのサブレジスタＲ０－Ｒ７を使用して積算する。この結果、レジスタ６４ｅのサブレジスタＲ０－Ｒ７には、各情報ベクトルＢ０－Ｂ７の１００１６ビット中の相違ビット数が格納される。図６に示す各情報ベクトルＢ０－Ｂ７の３２ビットの相違ビット数の１回の算出には、カウンタの更新とループの終了判定とに掛かる２クロックサイクルを含めて７クロックサイクルが掛かる。このため、情報ベクトルＢ０－Ｂ７の各々の１００１６ビットの相違ビット数の算出には、３１３回のループで２１９１クロックサイクルが掛かる。

次に、図７において、演算処理装置２００は、図６で算出した各情報ベクトルＢ０－Ｂ７の相違ビット数のうちの最小値を算出する。まず、演算処理装置２００は、レジスタ６４ｅの値をレジスタ６４ｆにコピー（ＣＰＹ）する（図７（ａ））。ここで、図６で算出した各情報ベクトルＢ０－Ｂ７の１００１６ビット中の相違ビット数は、０１２３ｈ、０２３４ｈ、０３４５ｈ、０４５６ｈ、０５６７ｈ、０６７８ｈ、０７８９ｈ、０８９Ａｈであるとする。レジスタ６４ｆは、第５レジスタの一例である。

次に、演算処理装置２００は、レジスタ６４ｆに保持されたデータを３２ビット右ローテートし、レジスタ６４ｇに格納する（図７（ｂ））。レジスタ６４ｇは、第６レジスタの一例である。次に、演算処理装置２００は、レジスタ６４ｆのサブレジスタＲ０－Ｒ７に保持された３２ビットの相違ビット数と、レジスタ６４ｇのサブレジスタＲ０－Ｒ７に保持されたローテート後の３２ビットの相違ビット数との最小値演算命令ＭＩＮを実行する。そして、演算処理装置２００は、演算結果をレジスタ６４ｆに格納する（図７（ｃ））。

次に、演算処理装置２００は、レジスタ６４ｆに保持されたデータを６４ビット右ローテートし、レジスタ６４ｇに格納する（図７（ｄ））。次に、演算処理装置２００は、レジスタ６４ｆのサブレジスタＲ０－Ｒ７に保持された３２ビットの相違ビット数と、レジスタ６４ｇのサブレジスタＲ０－Ｒ７に保持されたローテート後の３２ビットの相違ビット数との最小値演算命令ＭＩＮを実行する（不図示）。演算処理装置２００は、演算結果をレジスタ６４ｆに格納する（不図示）。

次に、演算処理装置２００は、レジスタ６４ｆに保持されたデータを１２８ビット右ローテートし、レジスタ６４ｇに格納する（図７（ｅ））。次に、演算処理装置２００は、レジスタ６４ｆのサブレジスタＲ０－Ｒ７に保持された３２ビットの相違ビット数と、レジスタ６４ｇのサブレジスタＲ０－Ｒ７に保持されたローテート後の３２ビットの相違ビット数との最小値演算命令ＭＩＮを実行する（不図示）。演算処理装置２００は、演算結果をレジスタ６４ｆに格納する（図７（ｆ））。

図７に示す例では、"０１２３ｈ"が相違ビット数の最小値として求まる。しかしながら、最小の相違ビット数"０１２３ｈ"が情報ベクトルＢ０－Ｂ７の何れに対応するかは不明である。そこで、演算処理装置２００は、図８において、最小相違ビット数"０１２３ｈ"が情報ベクトルＢ０－Ｂ７の何れに対応するかを判定する。

図８において、演算処理装置２００は、レジスタ６４ｅの各サブレジスタＲ０－Ｒ７に保持された各情報ベクトルＢ０－Ｂ７の相違ビット数と、レジスタ６４ｆの各サブレジスタＲ０－Ｒ７に保持された最小の相違ビット数とを比較する（図８（ａ））。相違ビット数は、比較命令ＣＭＰを実行することで比較される。演算処理装置２００は、比較結果が一致するとき、マスクレジスタＭＳＫＲＥＧの対応するビットを"１"にセットし、比較結果が一致しないとき、マスクレジスタＭＳＫＲＥＧの対応するビットを"０"にリセットする（図８（ｂ））。

演算処理装置２００は、マスクレジスタＭＳＫＲＥＧの"１"に対応するポインタ値ＰＯＩＮＴと最小の相違ビット数ＭＩＮとのペアを最小値テーブルＭＩＮＴＢＬに格納する（図８（ｃ））。ポインタ値ＰＯＩＮＴは、マスクレジスタＭＳＫＲＥＧの"１"のビット位置にオフセット値ｏｆｆｓｅｔを加えた値である。ポインタ値ＰＯＩＮＴは、最小の相違ビット数ＭＩＮの情報ベクトルＢに対応する識別情報の一例である。最小値テーブルＭＩＮＴＢＬは、保持部の一例である。

オフセット値ｏｆｆｓｅｔは、初期値が"０"であり、８個の情報ベクトルＢ毎に"＋８"される。そして、演算処理装置２００は、８個の情報ベクトルＢの最小の相違ビット数ＭＩＮを算出する毎に、ポインタ値ＰＯＩＮＴと最小の相違ビット数ＭＩＮとのペアとを最小値テーブルＭＩＮＴＢＬに格納する。最小値テーブルＭＩＮＴＢＬは、演算処理装置２００に搭載される内蔵ＲＡＭに割り当てられてもよい。

例えば、最小値テーブルＭＩＮＴＢＬの０行目には、図６および図７の動作で取得された８個の情報ベクトルＢ０－Ｂ７のいずれかを示すポインタ値ＰＯＩＮＴと、最小の相違ビット数ＭＩＮとが格納される。最小値テーブルＭＩＮＴＢＬの１行目には８個の情報ベクトルＢ８－Ｂ１５のいずれかを示すポインタ値ＰＯＩＮＴと、最小の相違ビット数ＭＩＮとが格納される。図８に示す例では、最小値テーブルＭＩＮＴＢＬは、１０万個のポインタ値ＰＯＩＮＴと最小の相違ビット数ＭＩＮとのペアが格納される領域を有する。これにより、演算処理装置２００は、最大で８０万個の情報ベクトルＢをシードベクトルＡと比較し、情報ベクトルＢの少なくともいずれかを最近接一致ベクトルとして検出できる。

次に、図９において、演算処理装置２００は、図８の最小値テーブルＭＩＮＴＢＬに格納した情報に基づいて、最近接一致ベクトルを検索する処理を実行する。まず、図９（Ａ）において、演算処理装置２００は、例えば、図７に示した手法により、最小値テーブルＭＩＮＴＢＬの８行毎に、８個の最小の相違ビット数ＭＩＮのうち、最も小さい相違ビット数を求める。これにより、最小値テーブルＭＩＮＴＢＬのサイズを、図９（Ｂ）の１．２５万行に圧縮することができる。

次に、演算処理装置２００は、図９（Ｂ）の最小値テーブルＭＩＮＴＢＬの８行毎に、８個の最小の相違ビット数ＭＩＮのうち、最も小さい相違ビット数を求め、最小値テーブルＭＩＮＴＢＬのサイズを、図９（ｃ）の１６００行に圧縮する。さらに、演算処理装置２００は、最小値テーブルＭＩＮＴＢＬの８行毎に最も小さい相違ビット数を求める処理を繰り返すことで、８０万個の情報ベクトルＢの中から最近接一致ベクトルを検出する。

図１０は、図３のデータメモリ領域３２０に保持されるデータの別の例を示す。図１０では、各情報ベクトルＢ０－Ｂ７は、シードベクトルＡと同様に、データメモリ領域３２０に割り当てられた連続する４０個のアドレスＷＢ毎に２５６ビットずつ保持される。なお、図１０では、シードベクトルＡおよび情報ベクトルＢのビット長を１０２４０ビットとしているが、図５と同様に、１００１６ビットとしてもよい。

図１１は、図１０の配列のデータを使用して最近接一致ベクトルを検索する例を示す。図６と同様の動作については、詳細な説明は省略する。まず、演算処理装置２００は、シードベクトルＡのデータＡ－０－０からＡ－０－７をレジスタ６４ａの各サブレジスタＲ０－Ｒ７にロードする（図１１（ａ））。次に、演算処理装置２００は、情報ベクトルＢ０のデータＢ０－０－０からＢ０－０－７をレジスタ６４ｂのサブレジスタＲ０－Ｒ７にロードする（図１１（ｂ））。

次に、演算処理装置２００は、レジスタ６４ａ、６４ｂのサブレジスタＲ０－Ｒ７に保持されたデータの排他的論理和演算ＸＯＲを実行し、演算結果をレジスタ６４ｂに格納する（図１１（ｃ））。次に、演算処理装置２００は、ＰＯＰＣＮＴ命令を実行し、レジスタ６４ｂの各サブレジスタＲ０－Ｒ７の論理値１のビット数を算出し、レジスタ６４ｂに格納する（図１１（ｄ））。図１１（ａ）から図１１（ｄ）までの１回の処理に４クロックサイクルが掛かる。

そして、演算処理装置２００は、図１１中の式（１）に示すように、図１１（ａ）～図１１（ｄ）の処理と、レジスタ６４ｂのサブレジスタＲ０－Ｒ７に格納された相違ビット数の和ｓｕｍ（ｉ）を算出する処理とを４０回繰り返す。これにより、演算処理装置２００は、１つの情報ベクトルＢ０の相違ビット数の総和Ｓ（ｊ）を算出する。式（１）において、符号ｋは、レジスタ６４ｂのサブレジスタＲ０－Ｒ７の番号を示す。符号ｉは、図１０のデータメモリ領域３２０の１つアドレスＷＢからレジスタ６４ｂにロードされる２５６ビットの情報ベクトルＢを示す。符号ｊは、情報ベクトルＢの識別番号を示す。

図１２は、図１１の式（１）中の和ｓｕｍ（ｉ）を算出する例を示す。まず、演算処理装置２００は、ｈａｄｄ命令を実行し、レジスタ６４ｂに保持されている８個の相違ビット数を２つのサブレジスタＲ毎に加算する（図１２（ａ））。次に、演算処理装置２００は、Ｖａｌｉｇｎｄ命令を実行し、レジスタ６４ｂに保持されているデータを６４ビット右ローテートし、サブレジスタＲ４、Ｒ５のデータとサブレジスタＲ６、Ｒ７のデータとを入れ替える（図１２（ｂ））。

次に、演算処理装置２００は、ｈａｄｄ命令を実行し、レジスタ６４ｂに保持されている８個のデータを２つのサブレジスタＲ毎に加算する（図１２（ｃ））。次に、演算処理装置２００は、ｈａｄｄ命令を実行し、レジスタ６４ｂに保持されている８個のデータを２つのサブレジスタＲ毎に加算する（図１２（ｄ））。

これにより、レジスタ６４ｂの全てのサブレジスタＲ０－Ｒ７に、和ｓｕｍ（ｉ）が保持される。和ｓｕｍ（ｉ）の算出には、ｉカウンタの更新とループの終了判定とに掛かる２クロックサイクルを含めて９クロックサイクルが掛かる。このように、レジスタ６４に含まれるサブレジスタＲ間での加算に掛かるクロックサイクル数（＝"７"）は、レジスタ６４間でのサブレジスタＲ同士の加算に掛かるクロックサイクル数（＝"１"）に比べて多い。

図１１および図１２に示す１回の処理には１３クロックが掛かる。図１１および図１２に示す処理は、図１０のアドレスＷＢ毎に４０回実行されるため、１個の情報ベクトルＢの相違ビット数の算出には５２０クロックサイクルが掛かる。この結果、８個の情報ベクトルＢの相違ビット数の算出には、ｊカウンタの更新とループの終了判定とを含めて、４１７６クロックサイクルが掛かる。これは、図６で説明した２１９１クロックサイクル数に比べて１９８５クロックサイクル多い（約１．９倍）。換言すれば、図６で説明した算出方法は、図１１および図１２に示す算出方法の５２％のクロックサイクル数で８個の情報ベクトルＢの総ビット数を求めることができる。

図１３は、図１１の式（１）で得られる総和Ｓ（０）－Ｓ（７）の最小値を算出する例を示す。図１３の処理で使用するレジスタ６４を識別する符号ｔは、任意の整数である。まず、演算処理装置２００は、情報ベクトルＢ０の相違ビット数の総和Ｓ（０）と情報ベクトルＢ１の相違ビット数の総和Ｓ（１）との最小値Ｓ（ｍｉｎ１）を算出する。次に、演算処理装置２００は、最小値Ｓ（ｍｉｎ１）と情報ベクトルＢ２の相違ビット数の総和Ｓ（２）との最小値Ｓ（ｍｉｎ２）を算出する。

同様に、演算処理装置２００は、最小値Ｓ（ｍｉｎ２）と総和Ｓ（３）との最小値Ｓ（ｍｉｎ３）、最小値Ｓ（ｍｉｎ３）と総和Ｓ（４）との最小値Ｓ（ｍｉｎ４）、最小値Ｓ（ｍｉｎ４）と総和Ｓ（５）との最小値Ｓ（ｍｉｎ５）を算出する。さらに、演算処理装置２００は、最小値Ｓ（ｍｉｎ５）と総和Ｓ（６）との最小値Ｓ（ｍｉｎ６）および最小値Ｓ（ｍｉｎ６）と総和Ｓ（７）との最小値Ｓ（ｍｉｎ７）を算出する。そして、演算処理装置２００は、総和Ｓ（０）－Ｓ（７）のうちの最小値を最小値Ｓ（ｍｉｎ７）として算出する。図１３の最小値Ｓ（ｍｉｎ７）の算出に７クロックサイクルが掛かる。

図１４は、図１３で算出した最小の相違ビット数に対応する情報ベクトルＢを検索する例を示す。演算処理装置２００は、最小値Ｓ（ｍｉｎ７）と各情報ベクトルＢの総和Ｓ（０）－Ｓ（７）とが一致するまで比較を続ける。平均で４回の比較で最小の相違ビット数に対応する情報ベクトルＢが求まるとすると、各回の比較とカウンタの更新とにそれぞれ１クロックサイクルが掛かるため、平均８クロックサイクルが掛かる。

以上、この実施形態においても、上述した実施形態と同様の効果を得ることができる。例えば、ＳＩＭＤレジスタ６４内のサブレジスタＲ間での加算処理を多用する場合に比べて、最近接一致ベクトルの検索に掛かるクロックサイクル数を削減することができる。この結果、最近接一致ベクトルの検索効率を向上することができ、検索時間を短縮することができる。

さらに、この実施形態では、図７に示したように、右ローテート処理と最小値演算命令ＭＩＮとの実行により、ＳＩＭＤレジスタ６４のサブレジスタＲに保持されたデータのうちの最小値を検出することができる。

計算機１００は、情報ベクトルＢの数がＳＩＭＤレジスタ６４のサブレジスタＲの数より多い場合、サブレジスタＲの数と同じ数の情報ベクトルＢ毎に最小の相違ビット数を求める。そして、計算機１００は、最小の相違ビット数を、情報ベクトルＢを識別するポインタ値ＰＯＩＮＴとともに最小値テーブルＭＩＮＴＢＬに格納する。これにより、計算機１００は、シードベクトルＡと比較する情報ベクトルＢの数にかかわりなく、最近接一致ベクトルを検出できる。

図１５は、別の実施形態における計算機においてベクトル長が可変の場合の調整例を示す。この実施形態の計算機１００は、情報ベクトルＢの少なくともいずれかのサイズ（ビット長、ベクトル長）がシードベクトルＡのサイズより大きいことを除き、図３の計算機１００と同様である。また、この実施形態では、シードベクトルＡと比較する情報ベクトルＢの数が、ＳＩＭＤレジスタ６４のサブレジスタＲ０－Ｒ７の数（＝８）で割り切れないとする。

この場合、計算機１００は、図３のデータメモリ領域３２０に格納されたシードベクトルＡおよび情報ベクトルＢの少なくともいずれにビット値を追加する処理を実行する。例えば、計算機１００は、ビット長が最も大きい情報ベクトルＢｌｏｎｇに合わせてシードベクトルＡに論理値０を追加し、他の情報ベクトルＢに論理値０と反対の論理値１を追加する。シードベクトルＡに追加する論理値０は、第１論理値の一例であり、他の情報ベクトルＢに追加する論理値１は、第２論理値の一例である。

シードベクトルＡに追加するビット値と情報ベクトルＢに追加するビット値とを互いに逆の論理にすることで、最近接一致ベクトルの判定に影響を与えることを抑制することができる。なお、追加する最大のビット長は、情報ベクトルＢｌｏｎｇのビット長よりも十分に短いことが望ましい（例えば、１０％程度以下）。なお、計算機１００は、シードベクトルＡに論理値１を追加し、他の情報ベクトルＢに論理値０を追加してもよい。

さらに、情報ベクトルＢの数が、ＳＩＭＤレジスタ６４のサブレジスタＲ０－Ｒ７の数で割り切れない場合、計算機１００は、情報ベクトルＢを埋められないサブレジスタＲの余りの部分に情報ベクトルＢｒｅｍ１－Ｂｒｅｍｎをダミーデータとして追加する。情報ベクトルＢｒｅｍ１－Ｂｒｅｍｎの各ビットの論理値１は、上記他の情報ベクトルＢに追加される論理値１と同じである。

これにより、計算機１００は、全てのサブレジスタＲ０－Ｒ７を常に使用して最近接一致ベクトルを検索できる。したがって、計算機１００は、サブレジスタＲの余りに応じて使用するサブレジスタＲの数を変更することなく、サブレジスタＲを使用した演算処理を実行できる。この結果、サブレジスタＲの余りに応じて使用するサブレジスタＲの数の変更する場合に比べて、最近接一致ベクトルの検索プログラムを簡易にすることができる。

図１６は、図１５のベクトル長の調整後のデータをデータメモリ領域３２０に格納する例を示す。図５と同様の要素については、詳細な説明は省略する。計算機１００は、図１６に網掛けで示すように、情報ベクトルＢｌｏｎｇのビット長に合わせて、シードベクトルＡおよび他の情報ベクトルＢの末尾に論理値１または論理値０のダミーデータを埋め込む処理を実行する。

また、計算機１００は、図１６に網掛けで示すように、情報ベクトルＢを埋められないサブレジスタＲの余りの部分に情報ベクトルＢｒｅｍ１－Ｂｒｅｍｎ（論理値１）をダミーデータとして埋め込む。そして、計算機１００は、図６から図９に示したように、最近接一致ベクトルを検索する処理を実行する。

以上、この実施形態においても、上述した実施形態と同様の効果を得ることができる。さらに、この実施形態では、計算機１００は、情報ベクトルＢの少なくともいずれかのサイズがシードベクトルＡのサイズより大きい場合、ビット値を埋め込んでベクトル長を合わせる処理を、最近接一致ベクトルの検索前に実行する。また、情報ベクトルＢを埋められないサブレジスタＲの余りの部分に情報ベクトルＢｒｅｍ１－Ｂｒｅｍｎ（論理値１）を埋め込む処理を、最近接一致ベクトルの検索前に実行する。

これにより、計算機１００は、図６から図９に示した動作により、最近接一致ベクトルを検索できる。換言すれば、計算機１００は、情報ベクトルＢがシードベクトルＡより長い場合、または、情報ベクトルＢを埋められないサブレジスタＲがある場合にも、検索プログラムを変更することなく、最近接一致ベクトルを検索できる。

また、シードベクトルＡに埋め込む論理値と情報ベクトルＢに埋め込む論理値とを互いに逆にすることで、最近接一致ベクトルの判定に影響を与えることを抑制することができる。

図１７は、別の実施形態における計算機において情報ベクトルを更新する例を示す。図１７の処理を実行する計算機１００は、図３に示す計算機１００と同様であり、図６から図９に示す処理を実行可能である。

例えば、深層学習では、推論時の認識率を向上するため、ニューラルネットワークの演算に使用する重み等のパラメータが更新される。計算機１００が深層学習に最近接一致ベクトルを利用する場合、情報ベクトルＢは、学習の進行にしたがい、更新または追加される場合がある。

図１７に示す例では、計算機１００は、ベクトルＢ０、Ｂｐ０、Ｂｑ０に対して最頻値または平均等の任意の演算を実行し、新たな情報ベクトルＢｎｅｗ０を生成する。そして、計算機１００は、情報ベクトルＢ０を情報ベクトルＢｎｅｗ０に差し替えることで更新する。

また、計算機１００は、情報ベクトルＢ１、Ｂｐ１、Ｂｑ１に対して任意の演算を実行し、新たな情報ベクトルＢｎｅｗ１を生成する。そして、計算機１００は、情報ベクトル群Ｂ０からＢｍ－１に、新たな情報ベクトルＢｎｅｗ１を追加する。

情報ベクトルＢの更新または追加は、部分的に実行される。このため、計算機１００は、図５に示すデータメモリ領域３２０に記憶された情報ベクトルＢの全体をアクセスせずに、部分的にアクセスすることで更新処理または追加処理を実行できる。したがって、図５に示すように１つのアドレスＷＡに対応して複数の情報ベクトルＢが配置される場合にも、計算機１００は、１つのアドレスＷＡに対応して１つの情報ベクトルＢが配置される場合と同様に、情報ベクトルＢの更新処理または追加処理を実行できる。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

１計算機
２演算処理装置
３レジスタファイル
４（４ａ、４ｂ、４ｃ、４ｄ、...）レジスタ
５（５ａ、５ｂ、５ｃ、５ｄ）サブレジスタ
６演算器
７メモリ
１０命令キャッシュ
２０メモリインタフェース
３０命令デコーダ
４０データキャッシュ
５０メモリインタフェース
６０レジスタファイル
６２レジスタ
６４ＳＩＭＤレジスタ
７０演算器
８０クロック生成器
１００計算機
２００演算処理装置
３００メインメモリ
３１０コードメモリ領域
３２０データメモリ領域
４００ストレージ
ＭＩＮＴＢＬ最小値テーブル
ＭＳＫＲＥＧマスクレジスタ
Ｖ１シードベクトル
Ｖ２（Ｖ２０、Ｖ２１、Ｖ２２、Ｖ２３）情報ベクトル

Claims

演算に使用する複数のデータをそれぞれ保持する複数のサブレジスタを各々含む複数のレジスタと、前記複数のサブレジスタにそれぞれ保持されるデータの演算を並列に実行する演算器と、第１ベクトルおよび前記第１ベクトルと比較される複数の第２ベクトルを保持可能なメモリと、を有する計算機であって、
前記複数の第２ベクトルを前記サブレジスタのサイズと等しいサブベクトルにそれぞれ分割し、前記複数の第２ベクトルのサブベクトルを各々含む複数のサブベクトルグループを、サブベクトルグループ単位で読み出し可能に前記メモリに順次配置し、
前記メモリに保持された前記第１ベクトルのサブベクトルの１つを前記複数のレジスタのうちの第１レジスタの複数のサブレジスタに転送する第１処理と、前記メモリに保持された、前記第１ベクトルの転送したサブベクトルに対応する前記複数の第２ベクトルのサブベクトルグループを、前記複数のレジスタのうちの第２レジスタの複数のサブレジスタに転送する第２処理と、前記第１レジスタおよび前記第２レジスタにおいて、互いに対応するサブレジスタが保持するサブベクトルのビット値の不一致数を算出して積算する第３処理と、を前記第１ベクトルの全てのサブベクトルに対して繰り返し実行し、
算出した前記不一致数の積算値が最も小さい第２ベクトルを最近接一致ベクトルと判定する
計算機。
前記第３処理において、サブベクトル毎のビット値の不一致数を、第３レジスタの対応するサブレジスタに格納し、前記第３レジスタのサブレジスタに格納した前記不一致数を、第４レジスタのサブレジスタにそれぞれ積算し、
最も小さい値を保持する前記第４レジスタのサブレジスタに対応する第２ベクトルを最近接一致ベクトルと判定する
請求項１に記載の計算機。
前記第４レジスタのサブレジスタに保持された前記不一致数の積算値を第５レジスタのサブレジスタにコピーし、
前記第５レジスタのサブレジスタの値をローテートして第６レジスタのサブレジスタにそれぞれ格納し、前記第５レジスタと前記第６レジスタとにおいて対応するサブレジスタの値のうち小さい値を前記第５レジスタのサブレジスタに格納する処理を、前記第５レジスタのサブレジスタに同じ値が保持されるまで繰り返し実行し、
前記第５レジスタのサブレジスタに保持された値を前記不一致数の積算値の最小値と判定する
請求項２に記載の計算機。
前記第１ベクトルと比較する前記第２ベクトルの数が前記第２レジスタのサブレジスタの数より多い場合、前記第２レジスタのサブレジスタの数と等しい数の前記第２ベクトルのグループ毎に前記第１処理から前記第３処理を実行し、
前記グループ毎に算出した積算値のうちの最小の積算値を、積算値が最小の第２ベクトルに対応する識別情報とともに保持部に保持し、
前記保持部に保持された積算値のうち、最小の積算値に対応する識別情報により示される第２ベクトルを最近接一致ベクトルと判定する
請求項１ないし請求項３のいずれか１項に記載の計算機。
前記複数の第２ベクトルの少なくともいずれかのサイズが前記第１ベクトルのサイズより大きい場合、
前記第１ベクトルに第１論理値を追加することで、前記第１ベクトルのサイズを、サイズが最も大きい第２ベクトルのサイズに合わせ、サイズを合わせた第１ベクトルを前記メモリに配置し、
サイズが最も大きい第２ベクトルを除く他の第２ベクトルに前記第１論理値と反対の第２論理値を追加することで、前記他の第２ベクトルのサイズを、最も大きい第２ベクトルのサイズに合わせ、サイズを合わせた第２ベクトルをサイズが最も大きい第２ベクトルとともに前記メモリに配置する
請求項１ないし請求項４のいずれか１項に記載の計算機。
前記第２ベクトルの数が前記レジスタのサブレジスタの数で割り切れない場合、前記第２ベクトルのサブベクトルを格納しないサブレジスタに前記第２論理値を格納する
請求項５に記載の計算機。
演算に使用する複数のデータをそれぞれ保持する複数のサブレジスタを各々含む複数のレジスタと、前記複数のサブレジスタにそれぞれ保持されるデータの演算を並列に実行する演算器と、第１ベクトルおよび前記第１ベクトルと比較される複数の第２ベクトルを保持可能なメモリと、を有する計算機の計算方法であって、
前記複数の第２ベクトルを前記サブレジスタのサイズと等しいサブベクトルにそれぞれ分割し、前記複数の第２ベクトルのサブベクトルを各々含む複数のサブベクトルグループを、サブベクトルグループ単位で読み出し可能に前記メモリに順次配置し、
前記メモリに保持された前記第１ベクトルのサブベクトルの１つを前記複数のレジスタのうちの第１レジスタの複数のサブレジスタに転送する第１処理と、前記メモリに保持された、前記第１ベクトルの転送したサブベクトルに対応する前記複数の第２ベクトルのサブベクトルグループを、前記複数のレジスタのうちの第２レジスタの複数のサブレジスタに転送する第２処理と、前記第１レジスタおよび前記第２レジスタにおいて、互いに対応するサブレジスタが保持するサブベクトルのビット値の不一致数を算出して積算する第３処理と、前記第１ベクトルの全てのサブベクトルに対して繰り返し実行し、
算出した前記不一致数の積算値が最も小さい第２ベクトルを最近接一致ベクトルと判定する
計算方法。