JP2002207589A

JP2002207589A - 演算回路および演算方法

Info

Publication number: JP2002207589A
Application number: JP2000386069A
Authority: JP
Inventors: Koji Takano; 光司高野; Akashi Sato; 証佐藤
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-12-19
Filing date: 2000-12-19
Publication date: 2002-07-26
Anticipated expiration: 2020-12-19
Also published as: ATE440320T1; EP1217512A2; TW530260B; JP3709553B2; CN1366234A; DE60139597D1; CN1221891C; US20020074391A1; EP1217512A3; KR20020050105A; KR100441036B1; US6772942B2; EP1217512B1

Abstract

(57)【要約】【課題】モンゴメリ乗算回路におけるメモリアクセス
のボトルネックを２ポートやシングルポートの汎用メモ
リを使いながら解消する。【解決手段】２つのメモリ７、８を設け、演算に必要
な変数のうちメモリから読み出す必要のある変数につい
ては異なるメモリに記録する。そしてパイプライン処理
の同一の読出しステージでメモリ７からレジスタ５に変
数を読出し、メモリ８からその他のレジスタに他の変数
を読み出す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、演算回路および演
算方法に関し、特に公開鍵暗号化方式等に好適な乗剰余
計算の高速化に関するものである。

【０００２】

【従来の技術】情報を伝送する際に、セキュリティの確
保あるいは認証のために公開鍵暗号（非対称暗号）が用
いられる。公開鍵暗号は公開鍵と秘密鍵の一対の鍵を用
いて情報を伝送する暗号方式である。送信者が受信者の
公開鍵で平文を暗号化し、暗号文を受取った受信者は受
信者しか知りえない秘密鍵を用いて暗号文を復号する。
このような公開鍵暗号では共通鍵暗号（対称鍵暗号）の
ように１つの共通鍵を共有する必要がなく、また、公開
鍵暗号では公開鍵を広く公開することができるので不特
定多数の者との通信の秘密が確保できる。さらに、公開
鍵暗号を電子認証あるいは電子署名に用いて面識のない
他人との信頼関係を確立することができる。インターネ
ット等通信技術が支えるネットワーク社会あるいはその
中で営まれる商取引等において必須の技術と位置付けら
れる。

【０００３】公開鍵暗号方式の一つにＲＳＡが知られて
いる。ＲＳＡは非常に大きな整数の離散対数問題あるい
は素因数分解の困難性にその安全性の基礎をおく。たと
えば、公開鍵（ｅ，ｎ）を用いて、平文ＭをＣ＝Ｍ^ｅ（ｍｏｄｎ）の関係式から暗号文Ｃを生成する（なお、Ｍは整数ｎ未
満になるようブロック化されている）。この暗号文Ｃの
解読には離散対数計算（ａ、ｙ、ｐからｙ＝ａ^ｘ（ｍｏ
ｄｐ）となるｘを見出す）が必要となり Ο（２^{ＳＱＲＴ（ｌｏｇｎ）}）の計算量を必要とする（ＳＱＲＴは二乗根を与える関数
である）。整数ｎが少なくとも５１２ビット長以上、好
ましくは１０２４ビット長以上であれば実用的な計算時
間での解読は困難になる。

【０００４】ところが、公開鍵（ｅ，ｎ）とｅｄ（ｍｏｄｌｃｍ（ｐ−１、ｑ−１））＝１，
ｎ＝ｐｑ、（ただしｐ、ｑは十分大きな素数）の関係にある秘密鍵（ｄ，ｎ）を用いれば、Ｍ＝Ｃ^ｄ（ｍｏｄｎ）の関係式を用いて平文Ｍを簡単に求めることができる
（ただし、ｌｃｍ（ａ，ｂ）はａとｂの最小公倍数を与
える）。

【０００５】たとえば、ｄ＝１１の場合、Ｃ^１１＝（（Ｃ^２）^２Ｃ）^２）Ｃのようにｄを２進展開して、自乗剰余演算と乗算剰余演
算を繰り返せば、高々ｄのビット長の２倍の回数の乗剰
余演算で計算できる。

【０００６】しかしながら、上記べき乗剰余演算であっ
ても、たとえばＤＥＳ（ｄａｔａｅｎｃｒｙｐｔｉｏｎ
ｓｔａｎｄａｒｄ）等の対称暗号に比較すれば計算量
が多くなる。このためできるだけ効率的なアルゴリズム
とその実装が求められる。

【０００７】上記べき乗剰余演算における自乗剰余演算
と乗算剰余演算を高速化する手法に、たとえばPeter L.
Montgomery著、「Modular Multiplication Without Tr
ialDivision」、Mathematics of computations, Vol.4
4, No.170 April 1985, pp 519-522、に記載されている
モンゴメリ乗算手法がある。モンゴメリ乗算は乗剰余算
を、加算、乗算、シフト演算の繰り返しにより、減算を
繰り返す除算よりも少ない計算量で実現する手法であ
る。以下にモンゴメリ乗算の計算主要部Ｐ≡ＸＹＲ^−１（ｍｏｄｎ）を擬似コード１．ｘに示す。なお、上式において、Ｒ＝（２^ｒ）^ｍＮ≡−ｎ^−１（ｍｏｄ２^ｒ）とする。また、擬似コードにおいて各行の左側には行番
号を付す（以下同様）。

【０００８】(1.1) P = 0; (1.2) for (i=0 ; i < m ; i++){ (1.3) t = (p₀+ x_iy₀) N (mod 2^r); (1.4) P = (P + x_iY + t・n) / 2^r; (1.5) }; (1.6) if (P => n) P = P-n; 上記擬似コード１．ｘに示すように、その主要部分の繰
り返し演算は次のようになる。まず、Ｘをｍ個のブロッ
クｘ_ｉに区切り（Ｘ＝（ｘ_ｍ−１，ｘ_ｍ−２，…，
ｘ_１，ｘ_０））、Ｙとの部分積加算（ｘ_ｉＹ）をｍ回繰
り返す（行番号１．２〜１．５）。このとき、途中結果
Ｐの最下位ブロックｐ_０が０となるようなｎの倍数「ｔ
・ｎ」を毎回加算する（行番号１．４）。ｔは行番号
１．３において定義されている。さらに、Ｐをｒビット
だけ右にシフト、つまり「２^−ｒ」を乗ずる（行番号
１．４）。なお、ｒビットのシフト演算は、ｍ回のシフ
ト演算により２^−ｒｍ＝Ｒ^−１となってＲ^−１の乗算を
することになる。

【０００９】たとえば、５１２ビットのモンゴメリ乗算
を３２ビット乗算器によって実行すると仮定すると、ｍ
＝５１２／３２＝１６回のループを繰り返すことにな
る。上記擬似コードでは簡単のためにｘ_ｉ・Ｙや、ｔ・
ｎのように３２ビット×５１２ビットのように示した
が、実際は５１２ビットのＹとｎも１６個の３２ビット
ブロックに分割して計算を実行する。つまり、Ｐの部分
積加算は演算においてｍ＝１６の二重ループとなる。以
下に二重ループによってモンゴメリ乗算を実行する手順
の一例を擬似コード２．ｘに示す。

【００１０】 (2.1) P = 0; (2.2) for (i=0 ; i < m ; i++){ (2.3) t = p₀+ x_iy₀ (mod 2^r); (2.4) t = t・N (mod 2^r); (2.5) c = 0; (2.6) for (j=0 ; j < m ; j++){ (2.7) tmp = p_j + x_i・y_j + c; (2.8) tmp = tmp + t・n_j; (2.9) if (j != 0) p_j-1 = tmp(mod 2^r); (2.10) c = tmp/2^r; (2.11) }; (2.12) p_m-1 = c; (2.13) }; (2.14) if (P => n) P = P-n; なお、ここで、Ｘ，Ｙ，ｎはｍ個のブロックに分割され
ている。つまり、Ｘ＝（ｘ_ｍ−１，ｘ_ｍ−２，…，ｘ_１，ｘ_０）Ｙ＝（ｙ_ｍ−１，ｙ_ｍ−２，…，ｙ_１，ｙ_０）ｎ＝（ｎ_ｍ−１，ｎ_ｍ−２，…，ｎ_１，ｎ_０）乗算器が一つの場合を仮定すると、途中結果ｔｍｐの計
算に二回の積和演算が必要となる。変数ｐ_ｊ，ｘ_ｉ，ｙ
_ｊ，ｔ，ｎ_ｊは全てｒビット長の数、変数ｃは下位ブロ
ックからのキャリーである。上記擬似コード２．ｘの例
では、一回のｊループで２ｒビットの数ｘ_ｉ・ｙ_jとｔ
・ｎ_j、そしてｒ＋１ビットの数ｐ_ｊとｃの加算を行い
（行番号２．６〜２．１１）、積和演算後の途中結果ｔ
ｍｐは２ｒ＋１ビット長を持つ。ｔｍｐの下位ｒビット
は変数ｐ_ｊに，上位ｒ＋１ビットは変数ｃにストアされ
る（行番号２．９、２．１０）。

【００１１】一方、ｘ_ｉ・ｙ_ｊとｔ・ｎ_jの加算を２つ
の別のループで行うことも可能である。この例を擬似コ
ード３．ｘに示す。

【００１２】 (3.1) P = 0; (3.2) for (i=0 ; i < m ; i++){ (3.3) c = 0; (3.4) for (j=0 ; j < m ; j++){ (3.5) tmp = p_j + x_i・y_j + c; (3.6) p_j = tmp(mod 2^r); (3.7) c = tmp/2^r; (3.8) }; (3.9) p_m = c; c = 0; (3.10) t = p₀・N (mod 2^r); (3.11) for (j=0 ; j < m ; j++){ (3.12) tmp = p_j + t・n_j + c; (3.13) if (j != 0) p_j-1 = tmp(mod 2^r); (3.14) c = tmp/2^r; (3.15) }; (3.16) p_m-1 = p_m + c; (3.17) }; (3.18) if (P => n) P = P-n; 擬似コード３．ｘの例では、変数ｐ_ｊはｒビット長、変
数ｔｍｐは２ｒビット長となる。

【００１３】擬似コード２．ｘ、３．ｘの両例ともモン
ゴメリ乗算の二重ループを抜けた後の結果Ｐは２ｎ未満
となるが、ｎ以下である保証はないので必要に応じて、
「Ｐ＝Ｐ−ｎ」とする（行番号２．１４，３．１８）。

【００１４】上記擬似コード２．ｘ、３．ｘの例におい
て、基本的にｐ_ｊは、Ｐをｍ個に分割したｒビットレジ
スタで正の値をとる。しかし、擬似コード２．ｘの例で
は、行番号２．１２の「ｐ_ｍ−１＝ｃ」において、ｃは
最大ｒ＋１ビットとなる。この時、演算ビット数がｒビ
ットで割り切れる場合には１ビットあふれることにな
る。よって、ループ回数をｍ＋１にするか、ループ回数
をｍ回に押さえるための最上位ビットの特別な処理が必
要となる。本明細書では簡単のため上記例の両者ともｊ
ループは同じループ回数ｍであるものとする。なお両例
の行番号２．１４，３．１８の比較演算「ｉｆ（Ｐ＝
＞ｎ）」において、符号ビットの考慮などを行う必要が
ある。

【００１５】

【発明が解決しようとする課題】上記擬似コード２．
ｘ、３．ｘの例により、モンゴメリ乗算の計算を実行す
ることができる。しかし、本発明者らがその演算サイク
ルを詳細に検討したところ、演算のパフォーマンスは変
数のレジスタ割り付けやメモリ構成に大きく影響される
ことが判明した。以下検討結果について説明する。

【００１６】上記擬似コード２．ｘの場合、ｒビット長
の変数Ｎはｉループ（擬似コード２．２〜２．１３）内
で値が変わらずに繰り返し使用される。また、ｔとｘ_ｉ
はｊループ（擬似コード２．６〜２．１１）内で値が変
らずに繰り返し使用される。このため、変数Ｎ，ｔ，ｘ
_ｉについては、一旦計算あるいはメモリから読み出した
後は各ループを抜けるまでレジスタに保持して繰り返し
使用することができる。またｊループ内で使用する途中
変数ｔｍｐとｃはレジスタに直接割り付けられる。その
他の変数は，読み出しと書き込みが独立したアドレスに
対して実行できる一般的な２ポートメモリに記録する。
またメモリ読み出し→演算→書き込みの一連の処理はパ
イプライン処理されるものとする。そうすると、演算と
書き込みは基本的に１サイクルで終了するのでメモリ読
み出しがパフォーマンスのボトルネックになる。以下、
メモリ読み出しのサイクル数を検討する。

【００１７】まず行番号２．１の「Ｐ＝０」の処理につ
いては、行番号２．７の演算ｔｍｐ＝ｐ_ｊ＋ｘ_ｉ・ｙ_ｊ＋ｃなどで最初にｐ_ｊを読み出すときにその値をリセットす
ればよい。このためサイクル数０である。

【００１８】行番号２．３，２．４の変数ｔの計算ｔ＝ｐ_０＋ｘ_ｉｙ_０（ｍｏｄ２^ｒ）ｔ＝ｔ・Ｎ（ｍｏｄ２^ｒ）ではレジスタに割り付けられているＮ以外の変数
（ｐ_０、ｘ_ｉ、ｙ_０）をメモリから読み出すのに３サイ
クルを要する。なお、ｔについては前記した通り行番号
２．３の演算結果が直接レジスタに割り付けられるので
読出しの必要はない。行番号２．５の「ｃ＝０」は、
「Ｐ＝０」の処理と同様０サイクルである。

【００１９】ｊループに入って、行番号２．７の演算ｔｍｐ＝ｐ_ｊ＋ｘ_ｉ・ｙ_ｊ＋ｃはｐ_ｊとｙ_ｊの読み出しで２サイクルを必要とする。ｘ
_ｉは行番号２．３のｔの計算の際に読み出されているの
でここでの読出しの必要はない。また、ｃについては前
記の通り直接レジスタに割り付けられるので読出しの必
要はない。

【００２０】行番号２．８の演算ｔｍｐ＝ｔｍｐ＋ｔ・ｎ_ｊはｎ_ｊの読み出しで１サイクルを要する。ｔｍｐ、ｔに
ついては前記した通り直接レジスタに割り付けられるの
で読出しの必要はない。

【００２１】行番号２．９の演算ｐ_ｊ−１＝ｔｍｐ（ｍｏｄ２^ｒ）ｃ＝ｔｍｐ／２^ｒの実際のハードウェア上の動作は、「ｔｍｐ＋ｔ・
ｎ_ｊ」を一旦レジスタｔｍｐで受けずに直接ｐ_ｊ−１と
ｃに書き込めばよい。よってどちらも０サイクルとな
る。

【００２２】ｊループを抜けた直後の行番号２．１２の
演算ｐ_ｍ−１＝ｃはパイプライン処理により０サイクルとなる。

【００２３】したがってｉループ内の演算サイクル数
は、３＋ｍ（２＋１）＝３ｍ＋３となる。これにｉループのｍを乗じてｍ（３ｍ＋３）＝３ｍ^２＋３ｍとなる。しかし、先に述べたようにｉ＝０のときｐ_ｊ＝
０なのでｐ_ｊを読み出す必要はなく、入力を０リセット
すればよい。よってｉループ全体ではこの分のｍを減じ
て３ｍ^２＋３ｍ−ｍ＝３ｍ^２＋２ｍとなる。行番号２．１４の比較動作ｉｆ（Ｐ＝＞ｎ）では減算「Ｐ−ｎ」によって大小を判定するのでこれに
２ｍサイクル、最後にパイプラインを抜けるのに２サイ
クルを要する。結局最終的なサイクル数は３ｍ^２＋４ｍ＋２となる。これはパイプライン処理が乱れなく実行できる
場合であり、演算ビット数が乗算器のビット数に対して
あまり大きくないとき、つまりブロック数ｍが少ないと
きは、書き込もうとした値を直ぐに読み出す必要がある
ためメモリアクセス待ちのオーバーヘッドが加わること
になる。ただしブロック数が４〜５あれば実用上このよ
うな問題は生じない。また逆にブロック数が２〜３とい
った小さな数に対してモンゴメリ法を適用する意味はあ
まりないので、上記事情は考慮する必要がない。つま
り、二重ループによるｍ^２項の係数「３」が大きく変わ
ることはない。また、実装形態によってはｊループ前後
でパイプライン動作が乱れることがあり、前記最終的な
サイクル数が実際には若干異なることがある。しかし、
この場合であっても二重ループによるｍ^２項の係数
「３」は変わらず、最終的なサイクル数が前記値と大き
く異なることはない。

【００２４】これと同様に擬似コード３．ｘの例を詳細
に検討すれば、以下の通りである。行番号３．１の「Ｐ
＝０」の処理は、行番号３．５の演算ｔｍｐ＝ｐ_ｊ＋ｘ_ｉ・ｙ_ｊ＋ｃで最初にｐ_ｊを読み出すときにその値を０リセットすれ
ばよいのでサイクル数は０である。行番号３．１の「ｃ
＝０」の処理についても、擬似コード２．ｘと同様０サ
イクルである。

【００２５】第１ｊループ（行番号３．４〜３．８）に
入って、行番号３．５の演算ｔｍｐ＝ｐ_ｊ＋ｘ_ｉ・ｙ_ｊ＋ｃでは、ｐ_ｊとｙ_ｊの読み出しで２サイクルを必要とし、
第１ｊループの最初にｘ _ｉを読み出す必要がある。行番
号３．６の演算ｐ_ｊ＝ｔｍｐ（ｍｏｄ２^ｒ）ｃ＝ｔｍｐ／２^ｒは擬似コード２．ｘの場合と同様にｔｍｐを直接ｐ_ｊ、
ｃに書き込むので０サイクルとなる。よって、１番目の
ｊループのサイクル数は、２ｍ＋１となる。

【００２６】第１ｊループを抜けた後の行番号３．９の
演算ｐ_ｍ＝ｃ；ｃ＝０；はパイプライン処理により０サイクルとなり、行番号
３．１０の演算ｔ＝ｐ_０・Ｎ（ｍｏｄ２^ｒ）では、ｐ_０とＮの読み出しに２サイクルを要する。

【００２７】次に第２ｊループ（行番号３．１１〜３．
１５）に入って、行番号３．１２の演算ｔｍｐ＝ｐ_ｊ＋ｔ・ｎ_ｊ＋ｃでは、ｐ_ｊとｎ_ｊの読み出しで２サイクルを要する。な
お、ｔとｃはレジスタに直接書込まれるので読出しの必
要はない。それに続く行番号３．１３の演算ｐ_ｊ−１＝ｔｍｐ（ｍｏｄ２^ｒ）ｃ＝ｔｍｐ／２^ｒは、擬似コード２．ｘの場合と同様０サイクルとなる。
従って、２番目のｊループのサイクル数は２ｍとなる。
そして２番目のｊループを抜けた後の行番号３．１６の
演算ｐ_ｍ−１＝ｐ_ｍ＋ｃでは、ｐ_ｍの読出しに１サイクル必要である。

【００２８】よって、ｉループ内の演算サイクル数は、（２ｍ＋１）＋２＋２ｍ＋１＝４ｍ＋４となる。これにｉループのｍを乗じてｍ（４ｍ＋４）＝４ｍ^２＋４ｍとなる。しかし、先に述べたようにｉ＝０のときｐ_ｊを
読み出す必要はなく、入力を０リセットすればよいの
で、ｉループ全体ではこの分のｍを減じて４ｍ^２＋４ｍ−ｍ＝４ｍ^２＋３ｍとなる。行番号３．１８の比較動作ｉｆ（Ｐ＝＞ｎ）では減算「Ｐ−ｎ」によって大小を判定するのでこれに
２ｍサイクル、最後にパイプラインを抜けるのに２サイ
クルを要する。結局最終的なサイクル数は４ｍ^２＋５ｍ＋２となる。擬似コード３．ｘの例でｍ^２サイクル多いの
は、ｔｍｐへの部分積加算を一つのｊループで行わない
ため、行番号３．４〜３．８のループでメモリに書き込
んだｐ_ｊを行番号３．１１から３．１５のループで読み
出すためである。サイクル数こそ多いものの桁上がりが
１ビット少なくｒビットブロックにおさまり、レジスタ
に保持すべき変数も少ないという擬似コード２．ｘの例
と比較したメリットがある。このため、制御と回路規模
の点では３．ｘの例の方が有利である。図７に擬似コー
ド３．ｘの場合のモンゴメリ乗算回路データパス部の概
略を、また図８にこの回路におけるブロック数ｍ＝４の
最終ループ処理近辺のタイミングチャートを示す。な
お、パイプライン処理の乱れ等により、前記最終的な読
出しサイクル数が実際には若干変化することがあるのは
擬似コード２．ｘの場合と同様である。

【００２９】上記のメモリ読出しタイミングにおいてモ
ンゴメリ乗算の高速化を考えるとするなら、二重ループ
の内側で乗算を２回行うので、単純に乗算器を２つ実装
すれば２倍の速度が得られるように思える。しかし、メ
モリ読み出しがボトルネックとなるのは前記した通りで
ある。このボトルネック解消の方法として、独立な読み
出しを行える読出しポートを２つ、書き込みポートを１
つ持つ３ポートメモリを使用することが考えられる。し
かしながら３ポートメモリにより高速化が図れるもの
の、３ポートメモリは一般的ではなく、使用できるテク
ノロジーが限定される。すなわち、回路の汎用性が損な
われてしまう。このため半導体設計における回路設計の
標準化（ＩＰコア化）の障害になる可能性がある。さら
に、３ポートメモリは素子面積が大きくなり小型化の要
請にそぐわない。

【００３０】本発明の目的は、モンゴメリ乗算回路にお
けるメモリアクセスのボトルネックを２ポートやシング
ルポートの汎用メモリを使いながら解消することにあ
る。これにより高いパフォーマンスと素子の小型化を実
現し、暗号生成回路を低いコストで提供することが可能
になる。

【００３１】

【課題を解決するための手段】本発明の概要を説明すれ
ば以下の通りである。すなわち、本発明の演算回路およ
び演算方法では、１サイクルで実行する演算に必要な変
数のうちメモリから読み出す必要のある変数については
異なるメモリに記録し、１つの読出しステージでこれら
変数を同時に読み出すことを可能にしたものである。こ
れにより、読出しによる待ち時間を最小にして計算のパ
フォーマンスを向上することができる。しかも、変数を
記録するメモリには３ポートメモリ等複雑な回路、大面
積を要する回路を用いることなく、２ポートやシングル
ポートの汎用的なメモリを用いてＩＰコア化をし易く
し、また素子面積を最小限にすることを可能にする。

【００３２】以下本発明を列記すれば以下の通りであ
る。すなわち、本発明の演算回路は、複数のレジスタ
と、前記複数のレジスタに入力される値を入力とする演
算器と、複数のメモリとを有し、前記複数のメモリから
前記複数のレジスタへの複数の変数の読出しを、前記演
算器のパイプライン処理における同一の読出しステージ
で行うものである。また、本発明の演算方法は、複数の
入力レジスタを有する演算器と複数のメモリとを備えた
演算回路を用いた演算方法であって、前記入力レジスタ
に入力されている値に基づいて演算を行うステップと、
前記演算の結果を前記入力レジスタまたは前記メモリに
書き込むステップと、前記複数のメモリから前記複数の
入力レジスタに複数の変数を同一のパイプラインステー
ジで読み出すステップと、を含む。

【００３３】なお、前記演算器は、第１レジスタ、第２
レジスタ、第３レジスタ、第４レジスタの各々に入力さ
れたｒビット長を有するｘ_１、ｘ_２、ｘ_３、ｘ_４の各入
力値に基づいて、２ｒまたは２ｒ＋１ビット長を有する
ｘ_１＋ｘ_２・ｘ_３＋ｘ_４の演算結果Ｑを与える積和演算
器とすることができる。この場合、前記複数のメモリに
は、第１メモリおよび第２メモリを含み、前記パイプラ
イン処理の演算ステージに続く演算結果の書き込みステ
ージにおいて、前記演算結果Ｑの下位ｒビットＱ_Ｌが前
記第１メモリに記録され、前記演算結果Ｑの前記Ｑ_Ｌを
除く上位ビットＱ_Ｈが前記第４レジスタに入力され、前
記書き込みステージに続く前記レジスタへの変数の読出
しステージにおいて、前記第１メモリから前記第１レジ
スタに変数ｘ_１が、前記第２メモリから前記第３レジス
タに変数ｘ_３が、同一の読出しステージで読み出される
ものとすることができる。また、前記第１および第２メ
モリを、データの書き込みポートと読出しポートとを各
々１つ有する２ポートメモリとすること、あるいは、前
記第１メモリをデータの書き込みポートと読出しポート
とを各々１つ有する２ポートメモリ、前記第２メモリを
データの書き込みおよび読出しが１つのポートで行われ
る１ポートメモリとすることができる。

【００３４】また、前記演算器は、第１レジスタ、第２
レジスタ、第３レジスタ、第４レジスタ、第５レジス
タ、第６レジスタの各々に入力されたｒビット長を有す
るｘ_１、ｘ_２、ｘ_３、ｘ_４、ｘ_５、ｘ_６の各入力値に基
づいて、２ｒまたは２ｒ＋１ビット長を有するｘ_１＋ｘ
_２・ｘ_３＋ｘ_４・ｘ_５＋ｘ_６の演算結果Ｑを与える積和演
算器とすることができる。この場合、前記複数のメモリ
には、第１メモリ、第２メモリおよび第３メモリを含
み、前記パイプライン処理の演算ステージに続く演算結
果の書き込みステージにおいて、前記演算結果Ｑの下位
ｒビットＱ_Ｌが前記第１メモリに記録され、前記演算結
果Ｑの前記Ｑ_Ｌを除く上位ビットＱ_Ｈが前記第６レジス
タに入力され、前記書き込みステージに続く前記レジス
タへの変数の読出しステージにおいて、前記第１メモリ
から前記第１レジスタに変数ｘ_１が、前記第２メモリか
ら前記第３レジスタに変数ｘ_３が、前記第３メモリから
前記第５レジスタに変数ｘ_５が、同一の読出しステージ
で読み出されるものとすることができる。また。前記第
１メモリをデータの書き込みポートと読出しポートとを
各々１つ有する２ポートメモリとし、前記第２および第
３メモリを、データの書き込みおよび読出しが１つのポ
ートで行われる１ポートメモリとすることができる。

【００３５】

【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて詳細に説明する。ただし、本発明は多くの異
なる態様で実施することが可能であり、本実施の形態の
記載内容に限定して解釈すべきではない。なお、実施の
形態の全体を通して同じ要素には同じ番号を付するもの
とする。

【００３６】（実施の形態１）図１は、本発明の一実施
の形態であるモンゴメリ乗算回路の一例をそのデータパ
ス部について示したブロック図である。本実施の形態の
モンゴメリ乗算回路は積和演算回路１と、入力レジスタ
２〜５と、マルチプレクサ６と、２つのメモリ７（メモ
リＡ）およびメモリ８（メモリＢ）とを有する。

【００３７】積和演算回路１は、レジスタ３とレジスタ
４の入力値（ｒビット長）の積に、レジスタ２とレジス
タ５の入力値（ｒビット長）を加算して２ｒビット長の
出力ｔｍｐを与える。すなわち、加算入力ｐ_ｊ，ｃと積
算入力ｙ_ｊ，ｘ_ｉとから出力ｔｍｐ＝ｐ_ｊ＋ｙ_ｊ・ｘ_ｉ
＋ｃを得る。積和演算回路１は、たとえば公知の全加算
器ＦＡと半加算器ＨＡとを用いて構成できる。なお、図
１においてｘ_ｉ(0)のように示しているのは、変数ｘ_ｉ
の括弧内の数字に相当するビットを抜き出した値に対応
する。

【００３８】入力レジスタ２〜５には、メモリ７，８か
ら値が読み出されて入力され、あるいは積和演算回路１
からの出力が直接入力される。マルチプレクサ６は３つ
の入力に対し１つの出力を与えるスイッチである。

【００３９】メモリ７，８は汎用的な２ポートメモリ、
すなわちデータの書き込みと読出しを各々独立した１つ
のポートから行えるメモリである。メモリ７（メモリ
Ａ）には二重ループ処理中の途中変数Ｐ（ｐ_ｊ）が記録
され、メモリ８（メモリＢ）には、その他の変数Ｘ（ｘ
_ｉ），Ｙ（ｙ_ｊ），ｎ（ｎ_ｊ），Ｎと最終結果Ｐ
（ｐ_ｊ）が記録される。メモリ７，８は何れも２ポート
メモリであり、素子のＩＰコア化の障害、素子面積の増
大の問題を生じない。

【００４０】本実施の形態の演算回路では、データの読
出し、演算、書き込みが一連のパイプラインとして処理
される。すなわち、メモリからレジスタへのデータの読
出しステージと、レジスタに入力された値に基づく演算
ステージと、演算結果をレジスタまたはメモリに書き込
む書き込みステージとが並列に処理される。

【００４１】図２は、図１の回路において擬似コード
３．ｘの処理を実行した時の処理のタイミングを示した
タイミングチャートである。図２では、ｍ＝４の場合の
処理の最終ループ近辺を示している。なお前記および以
下のタイミングチャートにおいて一連のパイプライン処
理（データの読出し、演算、結果の書き込み）を同じ背
景色で示すようにグレーまたは白に濃淡分けてして示し
ている。また、チャートの左端には、読出し先のメモリ
（MemA(read)、MemB(read)）、レジスタ（p_ｊ（レジス
タ５）、ｙ_ｊ，ｎ_ｊ，Ｎ（レジスタ４）、c（レジスタ
２）、ｘ_ｉ，ｔ（レジスタ３））、書込み先のメモリ
（MemA(write)、MemB(write)）を指標として示してい
る。チャートの各行には、読出しステージにおいて各メ
モリから読み出される値、演算ステージにおけるレジス
タ内の値、書込みステージにおけるメモリ書込まれる値
が記入されている。

【００４２】擬似コード３．ｘの第１ｊループ（行番号
３．４〜３．８）における処理、たとえば図２のｉ＝３
ループ中の最初のｊ＝０〜３の処理では、まず、ｊ＝０
のループで、メモリ７（ＭｅｍＡ）からレジスタ５（ｐ
_ｊ）にｐ_０を、メモリ８（ＭｅｍＢ）からレジスタ４
（ｙ_ｊ，ｎ_ｊ，Ｎ）にｙ_０を読み出す（読出しステー
ジ）。なおこの読出しステージと同時に前サイクルの演
算ステージ（行番号３．１６の計算）および前々サイク
ルの書込みステージ（メモリ７（ＭｅｍＡ）へのｐ _２の
書込み、ｃレジスタへの上位ビットｔｍｐ_Ｈの書込み）
が行われている。

【００４３】次に、ｊ＝１の読出しステージでメモリ７
（ＭｅｍＡ）からレジスタ５（ｐ_ｊ）にｐ_１を、メモリ
８（ＭｅｍＢ）からレジスタ４（ｙ_ｊ，ｎ_ｊ，Ｎ）にｙ
_１を読み出すと同時に先に読み込まれたｐ_０、ｙ_０とレ
ジスタ２（ｃ）に入力されている前ステップの演算結果
（ｔｍｐ_Ｈ）およびレジスタ３（ｘ_ｉ，ｔ）に入力され
ているｘ_３に基づいて行番号３．５の演算を実行する
（演算ステージ）。なお、この時前サイクルの書込みス
テージ（メモリ７（ＭｅｍＡ）へのｐ_３の書込み、ｃレ
ジスタ（レジスタ２）への上位ビットｔｍｐ_Ｈの書込
み）が行われている。

【００４４】次に、ｊ＝２の読出しステージでメモリ７
（ＭｅｍＡ）からレジスタ５（ｐ_ｊ）にｐ_２を、メモリ
８（ＭｅｍＢ）からレジスタ４（ｙ_ｊ，ｎ_ｊ，Ｎ）にｙ
_２を読み出すと同時に前サイクルでレジスタに読み出さ
れた値に基づいて演算を実行し、先の演算結果（変数ｐ
_０、ｘ_３、ｙ_０、ｃに基づく演算結果）の上位ビットｔ
ｍｐ_Ｈおよび下位ビットｐ_０を各々ｃレジスタとメモリ
７（ＭｅｍＡ）に書き込む（書込みステージ）。このよ
うにして、ｐ_０、ｙ_０の入力以降結果が記録されるまで
の一連のパイプライン処理が行われる。その他のｐ_ｊ、
ｙ_ｊについても同様である。

【００４５】次に、行番号３．９の処理では、読み込み
サイクルに１サイクルの空きを設け、ｊ＝３の演算ステ
ージの後にレジスタｃの内容をｐ_４としてメモリ７に記
録する。

【００４６】次に、行番号３．１０の処理（ｔの計算）
では、メモリ７からｐ_０を、メモリ８からＮを同一の読
出しステージで各々レジスタ３およびレジスタ４に読出
し、演算の結果を次の書込みステージでレジスタ４に変
数ｔとして書き込む。

【００４７】次に、行番号３．１１〜３．１５の第２ｊ
ループの処理では、第１ｊループの場合と同様にメモリ
７からｐ_ｊが、メモリ８からｎ_ｊが同一読出しステージ
で読み出され、先に入力された変数ｔ、ｃを用いて行番
号３．１２の演算を行う。その後、演算結果の下位ビッ
トはｐ_ｊ−１としてメモリ７に記録され（行番号３．１
３）、上位ビットはｃレジスタに記録される（行番号
３．１４）。なお、この第２ｊループのｊ＝０における
処理ではｃは０リセットされる。また、ｊ＝０では演算
結果の下位ビットは記録されない。

【００４８】行番号３．１６の処理では、メモリ７から
ｐ_４がレジスタ５（ｐ_ｊ）読み出され、ｃレジスタの値
との和をとってｐ_３としてメモリ７に記録される。ただ
し、最後のｉループのメモリへの書込み処理では、ｐ_ｊ
はメモリ７だけでなくメモリ８にも記録する。

【００４９】最後に、行番号３．１８の処理では、メモ
リ７からｐ_ｊとｎ_ｊを各々レジスタに読出し、比較演算
を行う。つまり減算「Ｐ＝Ｐ−ｎ」の結果はメモリ８
（ＭｅｍＢ）の前回の結果Ｐを上書きしない場所に保存
する。メモリ８（ＭｅｍＢ）は最後のｊループを抜けた
時のＰと、それからｎを減じたＰ−ｎを保持することに
なるが、Ｐ−ｎが正であればＰ−ｎを、Ｐ−ｎが負であ
ればＰを最終結果とする。最後のｊループを抜けた時に
メモリ７（ＭｅｍＡ）にもＰを書き込むのは単にＰ−ｎ
の計算でメモリ８（ＭｅｍＢ）に保持されているｎと同
時に読み出すためである。

【００５０】上記のようにして、擬似コード３．ｘの演
算処理を終了する。上記演算処理では、メモリからの変
数の読出しを同一の読出しステージで行う。このように
同一の読出しステージで変数の読出しが行えるのは、メ
モリを２つ設け、同時に読み出す可能性のある変数を相
違するメモリに記録できるようにしたためである。これ
により、従来の方式に比較してメモリ読出しの待ち時間
を短縮して、処理のパフォーマンスを向上できる。

【００５１】上記処理による読出しステージのサイクル
数を検討すれば、以下の通りである。第１ｊループの処
理でｍ、行番号３．９，３．１０の処理で２、第２ｊル
ープの処理でｍ、行番号３．１６の処理で１、よってｉ
ループ内の処理に必要なサイクル数は２ｍ＋３となる。
これにｉループのｍ回を乗じて２ｍ^２＋３ｍ。なおｉ＝
０のときにｐ_ｊを読み出す必要はないがそのサイクルで
ｙ_ｊを読み出す必要があるのでｍを減じることはない。
行番号３．１８の比較動作にｍサイクル、パイプライン
を抜けるのに２サイクルを要する。結局最終的なサイク
ル数は２ｍ^２＋４ｍ＋２となる。従来方式において４ｍ^２＋５ｍ＋２の読出しサ
イクルを必要としたことと比較すれば、約半分のサイク
ル数に減少する。

【００５２】なお、前記実施の形態では擬似コード３．
ｘの場合を説明したが、擬似コード２．ｘのようにｘ_ｉ
・ｙ_ｊとｔ・ｎ_jを一つのループで加算することも可能
である。擬似コード２．ｘの場合は、擬似コード３．ｘ
の場合に比べ変数ｐ_ｊの読み出しの待ちサイクルが半分
と少ないため、全体のサイクル数が少ないというメリッ
トがあったが、前記実施の形態のようにメモリを２つ設
けてこれを使い分ける場合、両者に違いはない。これは
図２からもわかるように、本実施の形態ではｐ _ｊとｙ_ｊ
またはｐ_ｊとｎ_jの読み出しを別のメモリから同時に行
え、余計な待ちが生じないためである。本実施の形態で
は、擬似コード２．ｘの場合であっても、従来方式のサ
イクル数、３ｍ^２＋４ｍ＋２と比較して、そのおよそ２
／３になる。ｐ_ｍ−１に余計な桁上がりが生じてｒ＋１
ビットになることもないので、例外処理が不要であり、
回路構成が簡単になるメリットもある。

【００５３】（実施の形態２）図３は、本発明の他の実
施の形態であるモンゴメリ乗算回路の一例をそのデータ
パス部について示したブロック図である。本実施の形態
の演算回路はメモリ８（メモリＢ）が１ポートメモリ、
つまりデータの読出しと書込みの双方を１つのポートで
行うメモリとすることを除き、実施の形態１と同様であ
る。このように本実施の形態ではメモリ８を１ポートメ
モリとすることにより、メモリサイズを小さくして回路
の小型化を図ることが可能になる。

【００５４】図４は、図３の回路において擬似コード
３．ｘの処理を実行した時の処理のタイミングを示した
タイミングチャートである。図４では、ｍ＝４の場合の
処理の最終ループ近辺を示している。図示するようにｉ
ループが終了するまでの処理は実施の形態１と同様であ
る。Ｐ＝Ｐ−ｎの処理において、本実施の形態ではメモ
リ８に１ポートメモリを用いているので最終的な計算結
果であるｐ_ｊの書込みをメモリ８に行わず、メモリ７に
行う。そして、最後にメモリ７（ＭｅｍＡ）からメモリ
８（ＭｅｍＢ）にｐ_ｊの転送を行う。すなわち、最終結
果Ｐの補正演算は、Ｐ≧ｎならばＰ−ｎを最終結果とす
るものであるが、Ｐ≧ｎかどうかは減算を一回実行する
まで判定できない。そのため実施の形態１ではＰとＰ−
ｎの双方をメモリ８（ＭｅｍＢ）に書き込んで、減算結
果の符合を見ていずれか一方を選択するようにした。本
実施の形態ではＰとＰ−ｎをメモリ７（ＭｅｍＡ）にだ
け書き込み、減算結果に応じてＰかＰ−ｎのいずれか一
方をメモリ８（ＭｅｍＢ）に書き込むようにする。この
ようにすれば、ｍ＋１サイクル増加するだけのペナルテ
ィーでメモリ８（ＭｅｍＢ）をシングルポートメモリに
することができる。これによりメモリの小型化を図るこ
とが可能になる。なお、本実施の形態の場合のサイクル
数は２ｍ^２＋５ｍ＋３となる。これに対して、従来のよう１つのシングルポー
トメモリで擬似コード２．ｘを処理した場合、４ｍ^２＋５ｍ＋２擬似コード３．ｘを処理した場合、６ｍ^２＋７ｍ＋２のサイクル数が必要になる。本発明の優位性がより顕著
となる。

【００５５】（実施の形態３）図５は、本発明のさらに
他の実施の形態であるモンゴメリ乗算回路の一例をその
データパス部について示したブロック図である。本実施
の形態のモンゴメリ乗算回路は積和演算回路９と、入力
レジスタ１０〜１５と、３つのメモリ１６（メモリ
Ａ）、メモリ１７（メモリＢ１）およびメモリ１８（メ
モリＢ２）とを有する。

【００５６】積和演算回路９は、レジスタ１１（ｔレジ
スタ）とレジスタ１２（ｎ_ｊ，Ｎレジスタ）の入力値
（ｒビット長）の積と、レジスタ１３（ｘ_ｉレジスタ）
とレジスタ１４（ｙ_ｊレジスタ）の入力値（ｒビット
長）の積と、レジスタ１０（ｃレジスタ）の入力値（ｒ
＋１ビット長）と、レジスタ１５（ｐ_ｊレジスタ）の入
力値（ｒビット長）を加算した２ｒ＋１ビット長の出力
ｔｍｐを与える。すなわち、積和演算回路９は２つの乗
算器を有し、加算入力ｐ_ｊ，ｃと積算入力ｙ_ｊ，ｘ
_ｉと、積算入力ｔ，ｎ_ｊとから出力ｔｍｐ＝ｐ_ｊ＋ｙ_ｊ
・ｘ_ｉ＋ｔ・ｎ_ｊ＋ｃを得る。

【００５７】レジスタについては実施の形態１と同様で
ある。また、メモリ１６（ＭｅｍＡ）は汎用的な２ポー
トメモリであり、メモリ１７，１８（ＭｅｍＢ１，Ｂ
２）はシングルポートメモリである。これら汎用的なメ
モリを用いるため、素子のＩＰコア化の障害が生じず、
また、メモリ数の増加をシングルポートメモリを採用す
ることによる素子面積の低減で補うことができる。

【００５８】図６は、図５の回路において擬似コード
２．ｘの処理を実行した時の処理のタイミングを示した
タイミングチャートである。図５では、ｍ＝４の場合の
処理の最終ループ近辺を示している。

【００５９】まず、ｉループの最初にｔの計算（擬似コ
ード２．３，２．４）を行う。メモリ１６からｐ_０を読
出し、メモリ１７からｘ_３を読出し、メモリ１８からｙ
_０を読み出す。これら読出しは１つの読出しステージで
行われる。これら読み出した変数を用いて行番号２．３
の演算を行い、演算結果の下位ビットｔｍｐ_Ｌをｔレジ
スタに入力する。前記演算と並行してメモリ１７からＮ
を読出し、前記ｔとＮを用いて行番号２．４の演算を行
う。演算結果の下位ビットｔｍｐ_Ｌがｔレジスタに入力
され、本ループ内を通じてこのｔの値が用いられる。な
お、先に読み出したｘ_３も本ループ内を通じて用いられ
る。

【００６０】次にｊループに入り、ｐ_０，ｎ_０，ｙ_０が
各々メモリ１６，１７，１８からｐ _ｊレジスタ、ｎ_ｊ，
Ｎレジスタ、ｙ_ｊレジスタに同一サイクル内で読み込ま
れる。その後、ｃ、ｔ、ｘ_３の値を用いて演算が行わ
れ、演算結果の下位ビットはｐ _ｊ−１としてメモリ１６
に、上位ビットはｃレジスタに書込まれる（行番号２．
９，２．１０）。なお、このｊループのｊ＝０における
処理ではｃは０リセットされる。また、ｊ＝０では演算
結果の下位ビットは記録されない。

【００６１】行番号２．１４の処理では、ｃレジスタの
値がｐ_ｍとしてメモリ１６に記録される。その後のＰ＝
Ｐ−ｎ、ＭｅｍＡ→ＭｅｍＢの処理は実施の形態２と同
様である。

【００６２】本実施の形態によれば、２つの乗算器を設
け、さらにメモリを３つ設けたので、３変数を同時に読
み出すことが可能になり、２つの乗算器を最大限に活用
するデータの読出しを行うことが可能になる。

【００６３】本実施の形態で必要な処理サイクルは以下
の通りである。ｉループ内のｔの計算で２サイクル、ｊ
ループでｍサイクル、擬似コード２．１２の処理で１サ
イクル、合計ｍ＋３サイクルがｉループ内の処理で必要
である。ｉループのｍ回を乗じてｍ^２＋３ｍとなる。な
おｉ＝０のときにｐ_ｊを読み出す必要はないがそのサイ
クルでｘ_ｉ，ｙ_ｊを読み出す必要があるのでｍを減じる
ことはない。行番号２．１４の比較動作とメモリ間転送
に２ｍサイクル、パイプラインを抜けるのに２サイクル
を要する。結局最終的なサイクル数はｍ^２＋５ｍ＋２と
なる。従来方式はもとより、実施の形態１，２と比較し
ても大幅にサイクル数が低減される。特にｍの値が大き
くなるとｍ^２項が効いてくるので、その効果がより顕著
になる。本実施の形態を用いることにより２乗算器の場
合のメモリアクセスのボトルネックを解消でき、サイク
ル数を大幅に改善することが可能になる。

【００６４】以上、本発明者によってなされた発明を発
明の実施の形態に基づき具体的に説明したが、本発明は
前記実施の形態に限定されるものではなく、その要旨を
逸脱しない範囲で種々変更可能であることは言うまでも
ない。たとえば、前記実施の形態では、メモリとしてシ
ングルポートまたは２ポートのメモリを例示したが、３
ポートメモリにも適用できる。

【００６５】

【発明の効果】本願で開示される発明のうち、代表的な
ものによって得られる効果は、以下の通りである。すな
わち、モンゴメリ乗算回路におけるメモリアクセスのボ
トルネックを２ポートやシングルポートの汎用メモリを
使いながら解消することができる。これにより、高いパ
フォーマンスと素子の小型化を実現し、暗号生成回路を
低いコストで提供できる。

【図面の簡単な説明】

【図１】本発明の一実施の形態であるモンゴメリ乗算回
路の一例をそのデータパス部について示したブロック図
である。

【図２】図１の回路において擬似コード３．ｘの処理を
実行した時の処理のタイミングを示したタイミングチャ
ートである。

【図３】本発明の他の実施の形態であるモンゴメリ乗算
回路の一例をそのデータパス部について示したブロック
図である。

【図４】図３の回路において擬似コード３．ｘの処理を
実行した時の処理のタイミングを示したタイミングチャ
ートである。

【図５】本発明のさらに他の実施の形態であるモンゴメ
リ乗算回路の一例をそのデータパス部について示したブ
ロック図である。

【図６】図５の回路において擬似コード２．ｘの処理を
実行した時の処理のタイミングを示したタイミングチャ
ートである。

【図７】従来方式において擬似コード３．ｘの場合のモ
ンゴメリ乗算回路データパス部の概略を示すブロック図
である。

【図８】図７におけるブロック数ｍ＝４の最終ループ処
理近辺のタイミングチャートである。

【符号の説明】

１，９…積和演算回路、２〜５、１０〜１５…入力レジ
スタ、６…マルチプレクサ、７，８，１６〜１８…メモ
リ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者高野光司神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者佐藤証神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内Ｆターム(参考） 5B016 AA01 BA06 DA03 5B060 AC08 CA05 CA14

Claims

【特許請求の範囲】

【請求項１】複数のレジスタと、前記複数のレジスタ
に入力される値を入力とする演算器と、複数のメモリ
と、を含み、前記複数のメモリから前記複数のレジスタへの複数の変
数の読出しを、前記演算器のパイプライン処理における
同一の読出しステージで行う演算回路。
【請求項２】前記演算器は、第１レジスタ、第２レジ
スタ、第３レジスタ、第４レジスタの各々に入力された
ｒビット長を有するｘ_１、ｘ_２、ｘ_３、ｘ_４の各入力値
に基づいて、２ｒまたは２ｒ＋１ビット長を有するｘ_１
＋ｘ_２・ｘ_３＋ｘ_４の演算結果Ｑを与える積和演算器で
ある請求項１記載の演算回路。
【請求項３】前記複数のメモリには、第１メモリおよ
び第２メモリを含み、前記パイプライン処理の演算ステージに続く演算結果の
書き込みステージにおいて、前記演算結果Ｑの下位ｒビ
ットＱ_Ｌが前記第１メモリに記録され、前記演算結果Ｑ
の前記Ｑ_Ｌを除く上位ビットＱ_Ｈが前記第４レジスタに
入力され、前記書き込みステージに続く前記レジスタへの変数の読
出しステージにおいて、前記第１メモリから前記第１レ
ジスタに変数ｘ_１が、前記第２メモリから前記第３レジ
スタに変数ｘ_３が、同一の読出しステージで読み出され
る請求項２記載の演算回路。
【請求項４】前記第１および第２メモリは、データの
書き込みポートと読出しポートとを各々１つ有する２ポ
ートメモリである請求項３記載の演算回路。
【請求項５】前記第１メモリはデータの書き込みポー
トと読出しポートとを各々１つ有する２ポートメモリで
あり、前記第２メモリはデータの書き込みおよび読出し
が１つのポートで行われる１ポートメモリである請求項
３記載の演算回路。
【請求項６】前記演算器は、第１レジスタ、第２レジ
スタ、第３レジスタ、第４レジスタ、第５レジスタ、第
６レジスタの各々に入力されたｒビット長を有する
ｘ_１、ｘ_２、ｘ_３、ｘ_４、ｘ_５、ｘ_６の各入力値に基づ
いて、２ｒまたは２ｒ＋１ビット長を有するｘ_１＋ｘ_２
・ｘ_３＋ｘ_４・ｘ_５＋ｘ_６の演算結果Ｑを与える積和演算
器である請求項１記載の演算回路。
【請求項７】前記複数のメモリには、第１メモリ、第
２メモリおよび第３メモリを含み、前記パイプライン処理の演算ステージに続く演算結果の
書き込みステージにおいて、前記演算結果Ｑの下位ｒビ
ットＱ_Ｌが前記第１メモリに記録され、前記演算結果Ｑ
の前記Ｑ_Ｌを除く上位ビットＱ_Ｈが前記第６レジスタに
入力され、前記書き込みステージに続く前記レジスタへの変数の読
出しステージにおいて、前記第１メモリから前記第１レ
ジスタに変数ｘ_１が、前記第２メモリから前記第３レジ
スタに変数ｘ_３が、前記第３メモリから前記第５レジス
タに変数ｘ_５が、同一の読出しステージで読み出される
請求項６記載の演算回路。
【請求項８】前記第１メモリはデータの書き込みポー
トと読出しポートとを各々１つ有する２ポートメモリで
あり、前記第２および第３メモリは、データの書き込み
および読出しが１つのポートで行われる１ポートメモリ
である請求項７記載の演算回路。
【請求項９】複数の入力レジスタを有する演算器と複
数のメモリとを備えた演算回路を用いた演算方法であっ
て、前記入力レジスタに入力されている値に基づいて演算を
行うステップと、前記演算の結果を前記入力レジスタまたは前記メモリに
書き込むステップと、前記複数のメモリから前記複数の入力レジスタに複数の
変数を同一のパイプラインステージで読み出すステップ
と、を含む演算方法。
【請求項１０】前記演算器は、第１レジスタ、第２レ
ジスタ、第３レジスタ、第４レジスタの各々に入力され
たｒビット長を有するｘ_１、ｘ_２、ｘ_３、ｘ _４の各入力
値に基づいて、２ｒまたは２ｒ＋１ビット長を有するｘ
_１＋ｘ_２・ｘ _３＋ｘ_４の演算結果Ｑを与える積和演算器
である請求項９記載の演算方法。
【請求項１１】前記複数のメモリには、第１メモリお
よび第２メモリを含み、前記演算結果Ｑの下位ｒビットＱ_Ｌが前記第１メモリに
記録され、前記演算結果Ｑの前記Ｑ_Ｌを除く上位ビット
Ｑ_Ｈが前記第４レジスタに入力される前記演算器のパイ
プライン処理における書き込みステップと、前記第１メモリから前記第１レジスタへの変数ｘ_１の読
出しと、前記第２メモリから前記第３レジスタへの変数
ｘ_３の読出しとが前記パイプライン処理の同一の読出し
ステージで行われる読出しステップと、を含む請求項１０記載の演算方法。
【請求項１２】前記第１および第２メモリは、データ
の書き込みポートと読出しポートとを各々１つ有する２
ポートメモリである請求項１１記載の演算方法。
【請求項１３】前記第１メモリはデータの書き込みポ
ートと読出しポートとを各々１つ有する２ポートメモリ
であり、前記第２メモリはデータの書き込みおよび読出
しが１つのポートで行われる１ポートメモリである請求
項１１記載の演算方法。
【請求項１４】前記演算器は、第１レジスタ、第２レ
ジスタ、第３レジスタ、第４レジスタ、第５レジスタ、
第６レジスタの各々に入力されたｒビット長を有するｘ
_１、ｘ_２、ｘ_３、ｘ_４、ｘ_５、ｘ_６の各入力値に基づい
て、２ｒまたは２ｒ＋１ビット長を有するｘ_１＋ｘ_２・
ｘ_３＋ｘ_４・ｘ_５＋ｘ_６の演算結果Ｑを与える積和演算
器である請求項９記載の演算回路。
【請求項１５】前記複数のメモリには、第１メモリ、
第２メモリおよび第３メモリを含み、前記演算結果Ｑの下位ｒビットＱ_Ｌが前記第１メモリに
記録され、前記演算結果Ｑの前記Ｑ_Ｌを除く上位ビット
Ｑ_Ｈが前記第６レジスタに入力される前記演算器のパイ
プライン処理における書き込みステップと、前記第１メモリから前記第１レジスタへの変数ｘ_１の読
出しと、前記第２メモリから前記第３レジスタへの変数
ｘ_３の読出しと、前記第３メモリから前記第５レジスタ
への変数ｘ_５の読出しとが、前記パイプライン処理の同
一の読出しステージで行われる読出しステップと、を含む請求項１４記載の演算方法。
【請求項１６】前記第１メモリはデータの書き込みポ
ートと読出しポートとを各々１つ有する２ポートメモリ
であり、前記第２および第３メモリはデータの書き込み
および読出しが１つのポートで行われる１ポートメモリ
である請求項１５記載の演算方法。