JPH0580985A

JPH0580985A - Ｍを法として長い整数を乗算するための算術ユニツト及びそのような乗算デバイスを具えるｒ．ｓ．ａ．変換器

Info

Publication number: JPH0580985A
Application number: JP4062200A
Authority: JP
Inventors: Jozef L W Kessels; ラウレンテイウスウイルヘルムスケツセルスヨゼフ
Original assignee: Philips Gloeilampenfabrieken NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1991-03-22
Filing date: 1992-03-18
Publication date: 1993-04-02
Anticipated expiration: 2016-10-02
Also published as: DE69226110D1; JP3213628B2; DE69226110T2; EP0504996A2; EP0504996A3; US5414651A; EP0504996B1

Abstract

(57)【要約】【目的】２つの自然数Ｐ, ＱをモジュロＭで乗算する
シストリック・マシンの処理能力速度を高める。【構成】シストリック化されたモジュラー算術デバイ
スが、制御モジュールと、それに続く処理モジュールの
直列配置と、更にそれに続く末尾モジュールとを有す
る。整数Ｐと整数Ｑとを３番目の多ビット整数Ｍを法と
して乗算するために、Ｐ中のビット"1" に対しては中間
の積を２倍してから毎回Ｑを掛け、Ｐ中のビット"0" に
対して単に２倍する。mod Ｍの正規化は、伝播された桁
上げ値の制御の下に、Ｍ, Ｗの補数を加算して実現す
る。同様の手順が羃乗Ｑ＾Ｆについても提案される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は長い整数を、ある整数Ｍ
を法として<modulo an integer M> 乗算するための算術
ユニット<arithmetic unit> に関する。（以下、「Ｍを
法として」を簡単のために適宜「モジュロＭ」、「mod
Ｍ」等と略記する。）算術ユニットは８ビット、16ビッ
ト、32ビットというような標準語長<standard word len
gths>に対して一般的に使用されて来ており、従って実
際の語長に対して最適化されている。ある語について演
算を行っている間に、結果は通常平行して与えられる
が、それは複雑な特性<features>、例えば桁上げリップ
ル<carry ripples> 等に対して必要とされたのである。
そのような用意をして置くことの複雑さとそのために課
せられる応答時間<response time> とは、語長が増すの
に伴って急速に増大する。本発明は、語長とは独立のク
ロック速度<clock rate>を持つ算術演算をサポートす
る。

【０００２】

【従来の技術】その設計はシストリック<systolic>であ
って、単一の制御モジュール<module>とそれに続く処理
モジュールのアレイとの連続配置<serial arrangement>
から成り、それらは総て同時に能動的<active>になるの
である。かようなデバイスは、よく知られた RSA暗号化
<RSA encryption>用の変換器<converter> として有用で
あり、それについてはComm.ACM誌 Vol.21(1978年２月
号)120-126ページ所載R.L.Rivest他による"A Method fo
r obtaining Digital Signatures and Public-KeyCrypt
osystems"という文献を参照されたい。茲で慣例に従っ
て記号^*印は乗算を意味し、記号^**印は冪乗を意味する
ものとすれば、 RSA暗号化というのは、任意の整数メッ
セージＸ＜Ｍに対して：

【数１】（Ｘ^**( Ｅ^*Ｄ )）mod Ｍ＝Ｘとなるような三つ揃い<triad> の整数Ｅ，Ｄ，Ｍを認識
することに基づく。ＥとＤとは共にＭより小さい。典型
的な利用分野では、Ｍは 512ビットから成る。特に、符
号化鍵<encoding key>(E,M)と復号化鍵<decoding key>
(D,M) とは、実際には互いに相手から導くことは出来な
いが故に、この算法<algorithm> は公開暗号システム<p
ublic cryptographic systems>に使用されるのである。
ある特定の数の冪乗は、最初の整数Ｘの繰り返し乗算に
よってこれを為すことが出来る。

【０００３】非整数メッセージの乗算は１つの明白な拡
張<obvious extension> と考えられている。ＮをＭのビ
ット数とすれば、上記冪乗の複雑さは、普通はＯ(N3)の
程度<order> であり、だから順序汎用マシン<sequentia
l general purpose machine>上で実行する場合には例え
それが本来的に高速であっても、変換速度は低いものに
なってしまう。

【０００４】

【発明が解決しようとする課題】本発明の目的は、とり
わけ、２つの自然数Ｐ, Ｑを、３番目の自然数Ｍを法と
して乗算するシストリック・マシンで、そのマシン・サ
イズＯ(N) はＰ, Ｑ, Ｍを収容する<accommodate> のに
十分であり且つ処理能力<throughput>速度の高いものを
提供することである。これに対する在来からの解答は２
つの問題点を持っている。その１つは、乗算フェーズ<p
hase> 及びそれに続く別個の減算フェーズが、両フェー
ズの間にサイズ 2^*Ｎの中間結果<intermediate result
> をもたらすことである。今までは、乗算手順中の制御
オペランド<control operand> のビットを、シグニフィ
カンス<significance>が減少する順序<order> で、慣例
にとらわれない<unconventionally>取扱いをして、乗算
手順の演算と減算手順の演算とを、中間結果を限定し続
けるようにインターリーブすることができる。両手順を
インターリーブすることはダイナミックな制御系列<con
trol sequence>をもたらす。それ故に算術ユニットには
どちらの演算を実行するのかを示す制御信号が必要であ
る。２番目の問題点は、そのようなサイズの大きい算術
ユニットでは、桁上げの伝播<propagation of carries>
と制御信号の放送<broadcasting>との両方が、高いクロ
ック速度を妨げる。それ故にシストリックな解答にあっ
ては、シグニフィカンスの増加する方向に桁上げが波及
<ripple>する（桁上げ節約技術）のに対し、制御信号は
その反対の方向に移動する。

【０００５】

【課題を解決するための手段】処理能力速度がＯ(1/N)
を達成するための以下に述べるような設定を許容するの
は、必要な要素<ingredients> を計算に交差的に<cross
-wise>伝播する上記のやり方（局所的に存在する量的な
部分は別として）なのである。本発明の１つの特定の態
様によれば、本発明の目的は以下に記述する算術デバイ
スを提供することにより実現される。すなわち：１番目
の多ビット<multibit>整数Ｑを２番目の多ビット整数Ｐ
と、３番目の多ビット整数Ｍを法として乗算するため
の、シストリック化されたモジュラー算術デバイス<sys
tolized and modular arithmetic device>であって、該
算術ユニットは、制御<control> モジュールと、それに
続く処理<processing>モジュールの直列配置<seriesarr
angement>と、更にそれに続く末尾<tail>モジュールと
を有して成り、該処理モジュールは、上記１番目の整数
Ｑの相互に排他的な１番目のビット部分と、対としては
等しいシグニフィカンス<pairwise equal significance
> の且つ制御モジュールから遠ざかるに伴いそのシグニ
フィカンス・レベルが単調に減少する<monotonously de
creasing> 上記直列配置に沿う上記３番目の整数Ｍを示
す相互に排他的な２番目のビット部分と、を記憶するた
めのモジュラー記憶手段を持ち、上記制御モジュール
は、上記２番目の整数Ｐの引き続くビット位置に基づい
て制御ビット・ストリングを提示するための提示手段を
持ち、それによって、各サイクルの１番目のサイクル部
分では上記直列配置を通して低シグニフィカント方向に
初等乗算演算のリップリング<rippling>を、２番目のサ
イクル部分では高シグニフィカント方向に桁上げ伝播の
リップリングを、３番目のサイクル部分では選択的に上
記３番目の整数上の出現<egression> を検出すると低シ
グニフィカント方向にモジュラー化演算のリップリング
を、また４番目のサイクル部分では高シグニフィカント
方向にボロウ量<borrow quantity> を、各制御ビットに
より提示し、４つの引き続くサイクル部分は上記２番目
の多ビット整数Ｐの特定のビット位置に関連する完全な
サイクルを構成し、また、上記末尾モジュールは、上記
直列配置の低シグニフィカント端に関して上記１番目及
び３番目の整数のダミー部分<dummy parts> をエミュレ
ート<emulate> するためのエミュレート手段を持つシストリック化されたモジュラー算術デバイスにより実
現される。

【０００６】この一般的原理に従う一般的設定は巧妙に
働くけれども、モジュラー化はＭの補数の加算に翻訳す
る方がよいと考えられている。これに関しては、制御モ
ジュールは、上記直列配置を通して前方向の伝播のため
の制御信号ストリングを連続的に提示する提示手段を持
ち、該連続的に提示することは、単調に減少するシグニ
フィカンス・レベルに従って上記２番目の整数の引き続
くビット位置の制御の下に、すなわち、Ｐ中の "1"ビッ
トの制御の下では“２倍”命令とそれに続く"addＱ" 命
令によって、しかしＰ中の "0"ビットの制御の下では
“２倍”命令のみによってなされ、上記直列配置は、各
制御信号の後に桁上げ信号を後方向に伝播する後方向伝
播手段を持ち、制御モジュールは、受け取った各桁上げ
値に対して"addＷ" 命令を前方向に伝播してその結果Ｍ
の減算を有効にもたらすのが好適である。好適には、正
規化値Ｗは上記３番目の整数Ｍの補数である（ＮをＭの
サイズとするとき、すなわち２^**（Ｎ−１）−１＜Ｍ
＜２^**Ｎとするとき、

【数２】Ｗ＝２^**Ｎ−Ｍである）。

【０００７】各処理モジュールは、単一ビット・シグニ
フィカンス・レベルでのみ演算を行うことを好適とす
る。このことは、細分化<granularity> することが必要
な数のモジュールのみを用いることを許容するが故に、
極度に簡単なモジュールのレイアウトをもたらす。又は
その代わりにモジュールは、例えば２, ４又は８という
ような一連のビット・シグニフィカンス・レベルで演算
することもできる。各モジュールの内部では、モジュー
ルが単一ビット・モジュールを用いて可能であるより速
く動作するように、演算は在来型<conventional>であっ
てもよい。引き続くモジュールの中間に、発明的な手順
とハードウェアの用意がなされている。これは大抵の場
合に十分な柔軟性<flexibility> を許容し、しかもなお
相対的に簡単なモジュールの設計は維持される。

【０００８】本発明はまた、ある整数Ｘを、上記３番目
の整数Ｍを法として指数Ｅで羃乗するために、上記直列
配置は上記１番目の整数Ｑを代表するものとして上記整
数Ｘを搭載するための制御手段を持ち、上記制御モジュ
ールは、上記２番目の整数Ｐを代表するものとして上記
整数Ｘの種々の羃乗を提示するための上記提示手段を能
動化する２番目の制御手段を持ち、更にまた、上記２番
目の整数Ｐのその次の値を代表するものとして予備的<p
reliminary> な積を上記制御モジュールに戻してリサイ
クルするためのリサイクル手段が設けられて成るシストリック化されたモジュラー算術デバイスにも関す
る。羃乗というのは、最初の整数Ｘから構築される２つ
の因数の乗算である。初等的な設定では、指数を１つ上
げるために積をリサイクルしてまたＸを掛けるというだ
けのことである。

【０００９】しかし更に速い演算のためには、予備的な
積をリサイクルしてから、問題の指数ビットが１である
か０であるかに基づいて、それ自身を乗算し更に続けて
Ｘを掛けるか、又はそれ自身を乗算するだけとする。そ
れに必要な要件は１モジュール当たりの記憶容量が十分
なことだけである、すなわちこの場合には常に、実際に
形成された積である因数Ｑと、前段の乗算の結果である
予備的な積とを記憶しなければならないからである。例
えば、Ｅ＝11（２進の1011）に対して１番目のビットが、Ｘを生成する, ２番目のビットが、Ｘ・Ｘ＝Ｘ²を生成する, ３番目のビットが、Ｘ²・Ｘ²・Ｘ＝Ｘ⁵を生成する, ４番目のビットが、Ｘ⁵・Ｘ⁵・Ｘ＝Ｘ¹¹を生成する。なお、１番目のビットは実は、Ｘ⁰・Ｘ⁰・Ｘ＝Ｘで
あることに注意されたい。

【００１０】種々の態様の利点が従属的な請求項に列挙
されている。

【００１１】

【実施例】本発明の好適実施例が、図面及び表を用いて
以下に説明される。まず最初に実施例に関する一般的な
設定<setup> が説明され、次に制御モジュールの実施例
が説明され、その後で処理モジュールの実施例が説明さ
れる。

【００１２】〔好適実施例の記述〕図１は、本発明によ
る冪乗・乗算デバイスの初等的なブロック図である。茲
では該デバイスは、制御モジュールＲとブロックSA_Nで
表される処理モジュールのアレイとに、概念的に分解さ
れる。但しＮはモジュールの数である。制御モジュール
は外部の世界、例えば更に高レベルのホスト・マシンか
ら、信号Ｈ_in, Ｖ_inを受け取り、Ｖ_outを通して外部の
世界へ出力する。制御モジュールはまた、処理モジュー
ルのアレイへ向けて信号Ｆ_outを出力し、そちらから信
号信号Ｃ_in,Ｐ_inを受け取る。同じように処理モジュー
ルのアレイはＦ_inを受け取り、制御モジュールへ戻すよ
うにＣ_out，Ｐ_outを出力する。処理モジュール相互間
では、インターフェースは、制御モジュールと処理モジ
ュールのストリングとの間のインターフェースと同じで
ある。

【００１３】示される設定は、以後冪乗について詳細に
説明する。乗算は冪乗の部分計算である。制御モジュー
ル内で用いられるデータは、Ｍより小さい冪の指数値Ｅ
と、ＮをＭのビット数とするとき 0, N の範囲内での２
つのカウンタn0, n1とから成る。さて、処理モジュール
のアレイは、

【数３】（Ｘ^**Ｅ）mod Ｍを計算しなければならない。これを実行するために、処
理モジュールのアレイは次の量すなわち：Ｗ＝２^**Ｎ−
Ｍ、及び指数Ｅで冪乗されるべき量Ｘ、を記憶する。処
理モジュールは更に、中間結果Ｐ, Ｑ, ｒを記憶する手
段を持つ。詳しく云えば、Ｑは冪乗の中間結果であり、
ｒは（ＰをＸとＱのどちらかとすると）オペランドＰと
Ｑとの乗算の中間結果である。

【００１４】〔演算過程の記述〕表１はこの方法中に現
れる種々の量のタイプを特定するものである。フェーズ
<phase> は２値<binary value>である。１番目の値で鍵
<key> が搭載される。２番目の値でメッセージ・ブロッ
ク<message blocks>が搭載され変換されて最後に出力す
る。タイプ・ビット<type bit>は標準２進<standard bi
nary> である。タイプ桁上げ<type carry>は３値の桁上
げ量である。タイプ命令<type instruction>は11個の値
のいずれかをとることができ、それらはその後に列記さ
れているように名付けられている。特に、以下に詳しく
論じるが、-store- の付いた命令は、量ｒのために取っ
てある記憶スペースから量Ｗ, Ｑ, Ｘ, Ｐのために取っ
てある記憶スペースへ移す(storeＷ,storeＱ,storeＸ,s
toreＰ) という意味である。命令は通常のやり方、例え
ば４ビット量で符号化することができる。使用されない
値は、例えばテストのような特殊の機能を制御するよう
に設計することができる。命令loadＸは、情報をＸから
ｒに移す。次に、チャネル・タイプが特定される。Ｈ_in
は外部的に制御されるフェーズであり、Ｖ_in, Ｖ_out，
Ｐ_inは２値チャネル<binary channels> であり、Ｃ_inは
タイプ桁上げのチャネルであり、Ｆ_outはタイプ命令の
制御値を出力するためのものである。制御モジュールは
入力ポートＣ_inを通して桁上げ<carries> を受け取る。
制御モジュールと処理モジュールのアレイとの間の通信
においては、命令チャネルＦ_outを通しての通信と、桁
上げチャネルＣ_inを通しての通信とが、交互になされ
る。この章では制御モジュールの演算を機能レベルでの
み考察する。ハードウェア・レベルでは、プログラムさ
れたマイクロプロセッサのエレメント上へのこれらの機
能の写像が普通であろう。あるいはその代わりに、専用
の<dedicated> 特殊目的ハードウェアへの翻訳<transla
tion> は、この技術の当業者にとって明白であろう。一
般的には、数個のモジュールが１つの集積回路で実現で
きる。あるいはその代わりに、計算機援用設計<compute
r-assisted-designed>で単一集積回路とすることもでき
る。

【００１５】次に、特に制御モジュールに対して表２
が、変数宣言<variable declaration>と制御モジュール
による主要な実行ループ<execution loop>とを与える。
其処でタイプ-phase- の変数ｈと、タイプ桁上げの２つ
の桁上げ値 car及びc と、タイプ(0..N)の２つのカウン
ト値<count values>と、ビット値ｂと、指数を含むＮビ
ットのアレイＥとが宣言されている。

【００１６】無限ループ<infinite loop> はフェーズ制
御信号を待っており、それをチャネルＨ_inを通して変数
ｈ中に受け取る。フェーズ値"loadkey"(これは実際には
２値) を受け取ったら、変換鍵<conversion key>が搭載
される。特にこの鍵は、２つの量ＥとＷ、すなわち指数
<exponent>とモジュロ値Ｍ<modulo value M>の補数から
成る。最初に指数がビット・アレイＥに搭載され、その
次に値Ｗが、分配された<distributed> 変数ｒ（ｒは処
理モジュールの全体に分配される）に搭載される。続い
て、命令 storeＷを処理モジュールのアレイに送り込む
ことにより、この値が分配された変数Ｗ中に記憶され
る。 storeＷ命令の後に、処理モジュールから制御モジ
ュールへの桁上げ通信が続く。

【００１７】これとは反対に、受け取ったフェーズが
"convert"であるならば、メッセージ・ブロックＸが変
数ｒ中に搭載され、続いて命令 storeＸを送り込むこと
によりＸ中に記憶され、桁上げ値を待つ。それに続いて
2Nより小さい値を生ずる手順

【数４】Ｘ exp Ｅ mod Ｍが呼び出される。その結果はＭより小さい筈だから、正
規化演算が実行されてＭより小さい（モジュロＭで）等
価の値をもたらす。最後に結果が出力される。冪乗と正
規化は、これから詳細に説明する一連の処理モジュール
によって効果的に実行される。ｈはただ２つの異なる値
のみをとり得るのだから、どちらかのフェーズが常に成
り立っている。

【００１８】制御モジュールでは、Ｖ_in, Ｖ_out及びＰ
_inを経由して、Ｎビットのブロックが、最上位ビット<m
ostsignificant bit>で開始している間は常にビット連
続的に<bit-serially>通信されている。表３は２つの演
算load exponentとload rとを具体的に与える。演算l
oad exponentでは、カウントn0がＮに初期化される。
その後で、各ビット位置に対して信号Ｖ_in上のビットを
待ち受けてこれをアレイＥ中に記憶するというループ動
作に入る。演算load r では、変数ｒは最初に命令set0を
与えることにより０に初期化され、それにより桁上げ値
ｃをＣ_in上に待ち受ける。次いでカウントn0がＮに初期
化される。その後で制御モジュールは各ビット位置に対
して先ずポートＶ_in上のビットを受け取り、それからカ
ウントを１つ下げるというループ動作を実行する。次
に、命令mul2を与えてＣ_inから桁上げ値ｃを待ち受ける
ことにより、ｒの値を２倍する。もしＶ_inを通して受け
取ったビットが０に等しいならば、繰り返しステップは
完了である。もし受け取ったビットが１に等しいなら
ば、命令add1を与えＣ_inから桁上げ値ｃをもう１度受け
取ることにより、ｒの値を１つ上げる。このようなステ
ップをＮ回行った後にｒはポートＶ_inを通して受け取っ
た値を持つ。

【００１９】（Ｘ^**Ｅ）mod Ｍを計算するのに用いられ
る手順は、表６に示す算法に基づくのである。羃乗は不
変式

【数５】（Ｑ^**２^**ｎ）^*Ｘ^**（Ｅ mod２^**ｎ）＝Ｘ^**Ｅを維持する。最初にＱが１と設定され、ｎがＮと設定さ
れる。そこで指数中の最上位から０ビットはスキップさ
れる。その後で、ｎが正である限り次のループが実行さ
れる。該ループは：最初にｎを１つ下げてＱを２乗す
る；その次に、もし指数の目下の値が１に等しければＱ
をＸ倍する, 然らざればＱは変えない；というループで
ある。

【００２０】同様に、表７は乗算のアルゴリズム、すな
わち（Ｐ^*Ｑ）を計算する算法を与える。この計算は不
変式

【数６】（Ｐ mod２^**ｎ）^*Ｑ＋ｒ^*（２^**ｎ）＝（Ｐ^*Ｑ）を維持する。この場合には変数ｒが０と設定され、変数
ｎがＮと設定される。そこでｎが正である限り、先ずｎ
を１つ下げてｒを２乗する。次に、２つのガード<guard
s>のうちのどちらが真であるかによって、何も演算を実
行しないか、又はＱにｒを加算する。

【００２１】表４は、制御モジュールによって実行され
る手順

【数７】Ｘ exp Ｅ mod Ｍを示す。分配された変数Ｑは、３つの命令を与えること
により１と設定される。最初に命令set0が出力され、桁
上げ値ｃを待ち受け、これによりｒは０に等しくされ
る。そこで命令add1が出力され、桁上げ値ｃを待ち受け
る。その後で、命令storeＱが出力され、桁上げ値を待
ち受ける。以上３つの演算の組合せにより変数Ｑは１と
設定される。次に、カウンタn0がＮに初期化される。そ
の後で、指数中の最上位から０ビットはスキップされ
る。指数の残りのビットは、変数ｒ及びＱが同じ値を持
つ状態で各ステップを開始するループを実行することに
より、処理される。各ステップでは最初に手順

【数８】mul Ｑ mod Ｍが実行される。その演算については次の段落で詳述す
る。この手順は特に、ｒとＱの双方に値ｒ^*Ｑ modＭ
を割り当てる。従って手順は、この手順実行の始めに
はｒはＱと等しかったのだから、ＱをモジュロＭで２乗
したのである。その次に、n0によって指定された指数ビ
ットの０値に対して繰り返しステップが完成する。問題
の指数ビットの１値に対しては、最初に、命令loadＸを
与え、続いて桁上げ値を受け取ることにより、変数ｒは
Ｘと設定される。続いて手順

【数９】mul Ｑ mod Ｍが実行され、その結果

【数１０】Ｑ^*Ｘ modulo Ｍが計算される。

【００２２】表５は手順

【数１１】mul Ｑ mod Ｍを詳細に記述したものである。羃乗を行う時の、Ｐは乗
算のための補助変数である。先ず最初に、命令 storeＰ
を出してｒの値を変数Ｐに記憶し、続いて桁上げ値を受
け取る。次に命令set0が出力され、桁上げ値ｃを待ち受
ける。そこで、量car とｂとは０にされ、カウントn1は
Ｎに等しくセットされる。n0は指数値のビットに沿って
順に並び、またn1は乗算因数Ｐのビットに沿って順に並
ぶことに留意されたい。その次に、 carの値か又はｂ若
しくはn1が正(car＞0 又は b＝1 又はn1＞0)である限り
ループを実行する。ループの各ステップで３つの命令の
うちの１つが実行される。もし carの値が正(car＞0)で
あれば carの値は１つ減少して、命令 addＷが出され
る。桁上げ値は値２^**Ｎを表し、またＭ＝２^**Ｎ−Ｗで
あるから、この２つの演算を併せてＭによる減算が実現
する。もし carの値が０でｂが１に等しければ(car＝0
且つ b＝1)、ｂは０にセットされ、命令 addＱが出力さ
れる。もし carとｂが共に０(car＝0 且つ b＝0)であれ
ば（ループの条件から）n1は正であり、従って因数Ｐの
ビットを受け取ることができ、カウントn1は１つ下が
る。次いで命令mul2が出力される。３つの命令のうちの
１つが出された後で、桁上げ値ｃが待ち受けられて、そ
れは carの値に加算される。このようにして因数Ｐの全
ビットが処理されて、ループの終わりにはｒはモジュロ
ＭでＰ ^*Ｑに等しくなるが、それは必ずしも２^**Ｎより
小さくはない。従って、処理モジュール中の総ての可能
な桁上げ値が制御モジュールに向かって伝播するような
新しいループに入る。最初にカウントn1が再びＮにセッ
トされる。 carか又はn1かどちらかの値が正である限り
ループは継続する。もし carが正であれば、 carが１つ
下げられ、n1がＮにセットされ、且つ命令 addＷが出力
される。もし carが０に等しければ（すなわちn1が正で
あれば）カウントn1が１つ下げられ、命令ident が出力
される。命令ident は、ｒの値を変えないで桁上げ値を
伝播するのに用いられるのみである。２つの命令のうち
の１つが出された後で、桁上げ値ｃが待ち受けられて、
それは carの値に加算される。ループが終わると、ｒの
値は２^**Ｎより小さくなる。そうすると、命令 storeＱ
が出され、桁上げ値を受け取ることにより、ｒの値はＱ
の中に記憶される。

【００２３】羃乗の後でｒの値が正規化される。表８は
正規化演算、すなわち変数ｒに対してｒ modＭの値を割
り付ける演算の詳細である。最初からｒは２^**Ｎより小
さくなっており、正規化後には更にＭより小さくなって
いる。最初にはｒの値もまたＱ中に存在する。先ず始め
に、命令 addＷを出し、続いて全桁上げ値を伝播するこ
とによりＷの値をｒに加算する。もし桁上げ値が受け取
られると、当初のｒはＭより大きかったのであり、更新
された値は r−M である。反対にもし桁上げ値が受け取
られなければ、依然としてＱ中に存在する古いｒの値は
正しかったのであり、出力されるべきものである。それ
故に演算は、命令 addＷを送出し、桁上げ値を待ち受け
ることから始まる。カウントn1がＮにセットされる。そ
うすると、 c＝0 でn1が０でない限り、命令ident が出
力されカウンタn1が減り、桁上げ値が受け取られる。ル
ープから出るときは、次の条件のうちの１つが成り立
つ。もし桁上げ値が受け取られなければ(c＝0)、最初に
命令set0を出し、桁上げ値を受け取り、続いて命令 add
Ｑを出し、桁上げ値を受け取ることにより、Ｑの値はｒ
中に復活する。反対にもし桁上げ値が１に等しければ、
更新されたｒの値は正しく、そのまま変更されない。最
後に、結果は表９に示すように出力される。先ず最初
に、ｒの値は、命令 storeＰを出し桁上げ値を待ち受け
ることにより、シフト・レジスタに記憶される。次に、
カウントn0がＮに等しくセットされる。それに続くルー
プでn0＞0 である限りＰ_inから１ビットを受け取り、続
いてＶ_outを通して出力し、その後でn0は下げられる。

【００２４】図２は、SA_nのシストリック設計を更に詳
細に示すものである。この設計は回帰的<recursive> で
あって、モジュールSA_n+1は、算術セルＡと、シフトレ
ジスタ・セルＳと、類似だがより小さいモジュールSA_n
とから成る。もしｎが正ならば、モジュールSA_nは同様
に一対のＡ／ＳセルとモジュールSA_n-1とから成る。最
後には、何らの算術演算も有効に実行しない末尾<tail>
セルSA₀がある。

【００２５】表10は、末尾セルSA₀の機能を例示するも
のである。それは命令ｆを受け取っている間中は、連続
的にループ動作をし、この命令の性質に依存して１か又
は０かのいずれかを桁上げ出力Ｃ_outに出力する。SA₀
はポートＰ_outを通して通信することは決して無い。表
11も同様に、シフトレジスタ・セルＳの機能を示すもの
である。それは連続的にループ動作をし、各ループ段階
で先ず最初に、対応する算術セルからのポートinを通し
て（搭載演算）か、又は右隣りからのポートＰ _inを通し
て（シフト演算）か、のいずれかによる１ビットを待ち
受ける。受け取ったビットは、続いてポートＰ_outを通
して左隣りへ出力される。実際には、セルは多重入力を
持つ１ビット・シフトレジスタなのである。いかなる時
にも、２つの入力ポートのうちの最大でも１つのポート
が、１ビットを出していることに留意されたい。

【００２６】同様に、表12は算術セルＡの機能を示すも
のである。それは、０ないし４の値域を持つ可変桁上げ
すなわち桁上げ型の変数ｃと、命令型の変数ｆと、３つ
のビットｗ, ｑ, ｘとを持つ。先ず始めには、このセル
は入力Ｆ_inからの命令を待ち受けており、それを受け取
ったら、変数 car, c は０にリセットされる。次に、ル
ープが実行されて、そこで命令値がどの演算を実行する
かを決定する。以前に挙げた11の命令に対して次の演算
が実行される： set0 car を０にセットする, add1 car の値を維持する, mul2 car の値を２倍する, ident car の値を維持する, addＷｗを carに加算する, addＱｑを carに加算する, load Ｘ car にｘの値を割り当てる, storeＷｗに carの最下位ビット(car mod 2) を割
り当てる, storeＱｑに値(car mod 2) を割り当てる, storeＸｘに値(car mod 2) を割り当てる, storeＰ値(car mod 2) を出力ポートout を通して
出力する. その次に、命令ｆが出力ポートＦ_outを通して出力さ
れ、carの２つの最上位ビットがＣ_outを通して出力さ
れる。それから、次の命令がＦ_inを通して受け取られ、
桁上げ値がＣ_inを通して受け取られる。受け取った桁上
げ値は carの最下位ビットに加算され、その後に、次の
ループ・ステップが実行される。

【００２７】シストリック設計はその極度のときに、各
処理モジュールが値Ｐ, Ｑ, Ｗの１ビットを含んでい
る。かような解答は迅速ではあるが、かようなビット・
スライス構造<bit-slice architecture>は乗算器を構築
するのに最大数のセルを必要とするから、領域及び電力
消費に対して多大な需要を生じる。それほどの高速を必
要としないならば、遅くても安価な設計が、スライスの
サイズを増すことにより達成される。

【００２８】記述を完全なものにするために、図３ａ及
び図３ｂは、いずれも３ビット整数であるＰ＝４(100)
にＱ＝５(101) をモジュロＭで掛け算して、Ｗ＝２(01
0) で表す乗算の完全な例を与えるものである。図には
制御モジュールRSと処理モジュールH2, H1, H0とが、そ
れらの含む量と共に示されている。図３ｂでは左端の列
に37通りの状態<states>が示され、その各々が、サイク
ル部分（矢印で示す）中の演算と転移された量に対応す
るか又はそのような転移後の位置<situation> 及びそれ
に続く演算に対応する。その結果として、連続した８行
が１サイクルに対応する。量ｎは処理を待っているビッ
トの数であり、真<true>と偽<false> とはそれぞれｔ,
ｆと略記され、ｄはダミー量<dummy quantity>をエミュ
レートする末尾モジュールにより生成される２進数であ
る。id(ident),aw(addw),aq(addq),db(double)について
は自明であろう。行37で、制御モジュールはｄ＝真であ
ることを見出し、これは終了を示す。２つの被乗数のビ
ット長が与えられていれば、それは行37より前に来るこ
ともでき、それ故に計数によって決定されることもあ
る。種々の量Ｗ, Ｐ, Ｑに依存して終了が早く来ること
もあり、それ故に示された実施例は特定の環境下では若
干早くなる。

【表１】

【表２】

【表３】

【表４】

【表５】

【表６】

【表７】

【表８】

【表９】

【表１０】

【表１１】

【表１２】

【図面の簡単な説明】

【図１】図１は、羃乗・乗算デバイスの実施例のシンボ
リックな概略図である。

【図２】図２も、羃乗・乗算デバイスの実施例の、シス
トリック設計のシンボリックな概略図である。

【図３】図３ａ及び図３ｂは、モジュロＭで３ビット乗
算兼正規化の演算を説明する図である。

【符号の説明】

Ａ算術セルＲ制御モジュールＳシフト・レジスタ・セル SA_N処理モジュールのアレイ SA_nモジュール

Claims

【特許請求の範囲】

【請求項１】１番目の多ビット整数Ｑを２番目の多ビ
ット整数Ｐと、３番目の多ビット整数Ｍを法として乗算
するための、シストリック化されたモジュラー算術デバ
イスにおいて、該算術ユニットは、制御モジュールと、それに続く処理
モジュールの直列配置と、更にそれに続く末尾モジュー
ルとを有して成り、該処理モジュールは、上記１番目の整数Ｑの相互に排他
的な１番目のビット部分と、対としては等しいシグニフ
ィカンスの且つ制御モジュールから遠ざかるに伴いその
シグニフィカンス・レベルが単調に減少する上記直列配
置に沿う上記３番目の整数Ｍを示す相互に排他的な２番
目のビット部分と、を記憶するためのモジュラー記憶手
段を持ち、上記制御モジュールは、１番目のサイクル中の制御ビッ
ト・ストリングの制御ビットを提示するための提示手段
と、２番目のサイクル部分中の桁上げ値を受け取るため
の受信手段とを持ち、そして、上記処理モジュールは、それらそれぞれのより大きくシ
グニフィカントな隣りから上記制御ビット・ストリング
からの制御ビットを、またそれらそれぞれのより小さく
シグニフィカントな隣りから桁上げ値を、同時に１番目
のサイクル位相中に受け取る手段を持ち、それと共に、
それらそれぞれのより大きくシグニフィカントな隣りへ
桁上げ値を、またそれらそれぞれのより小さくシグニフ
ィカントな隣りへ上記上記制御ビット・ストリングの制
御ビットを、共に２番目の位相中に提示するための提示
手段をも持ち、更に、各処理モジュールは、隣りに関して位相を半サイクルず
らして動作し、更にまた、上記末尾モジュールは、上記直列配置の低シグニフィカ
ント端に関して上記１番目及び３番目の整数のダミー部
分をエミュレートするためのエミュレート手段を持つこ
とを特徴とするシストリック化されたモジュラー算術デ
バイス。
【請求項２】上記制御モジュールは、上記直列配置を
通して前方向の伝播のための制御信号ストリングを連続
的に提示する提示手段を持ち、該連続的に提示することは、単調に減少するシグニフィ
カンス・レベルに従って上記２番目の整数の引き続くビ
ット値及び受け取った桁上げ値の制御の下に、すなわ
ち、Ｐ中の "1"ビットの制御の下では“２倍”命令とそ
れに続く"addＱ"命令によって、しかしＰ中の "0"ビッ
トの制御の下では“２倍”命令のみによってなされ、上記直列配置は、各制御信号の後に桁上げ信号を後方向
に伝播する後方向伝播手段を持ち、制御モジュールは、受け取った各桁上げ値に対して"add
Ｗ" 命令を前方向に伝播してその結果Ｍの減算を有効に
もたらして成ることを特徴とする請求項１に記載のシス
トリック化されたモジュラー算術デバイス。
【請求項３】各処理モジュールは、単一ビット・シグ
ニフィカンス・レベルで演算を行うことを特徴とする請
求項１又は２に記載のシストリック化されたモジュラー
算術デバイス。
【請求項４】上記制御モジュールは、上記２番目の整
数の全ビット信号の提示の後に、上記末尾モジュールか
ら来る変化していないダミー信号の到着を検出し、該変
化していないダミー信号は、モジュラー化された積の適
用可能であることをそれによって信号するために、上記
直列配置中には桁上げ信号も非ダミー制御信号も何ら伝
播されていないことを信号するものであるとするための
検出手段を持つことを特徴とする請求項１ないし３のう
ちのいずれか１項に記載のシストリック化されたモジュ
ラー算術デバイス。
【請求項５】上記制御モジュールは、上記２番目の整
数の全ビット信号の提示の後に上記サイクルをカウント
し、このカウントは、上記直列配置の長さによって定ま
る特定のカウント数に到達したときに、モジュラー化さ
れた積の適用可能であることをそれによって信号するた
めに、何らかの桁上げ信号又は非ダミー制御信号が既に
リップル・アウトされていることを信号するためのカウ
ント手段を持つことを特徴とする請求項１ないし３のう
ちのいずれか１項に記載のシストリック化されたモジュ
ラー算術デバイス。
【請求項６】ある整数Ｘを、上記３番目の整数Ｍを法
として指数Ｅで羃乗するために、上記直列配置は上記１番目の整数Ｑを代表するものとし
て上記整数Ｘを搭載するための制御手段を持ち、上記制御モジュールは、上記２番目の整数Ｐを代表する
ものとして上記整数Ｘの種々の羃乗を提示するための上
記提示手段を能動化する２番目の制御手段を持ち、更に
また、上記２番目の整数Ｐのその次の値を代表するものとして
予備的な積を上記制御モジュールに戻してリサイクルす
るためのリサイクル手段が設けられて成ることを特徴と
する請求項１に記載のシストリック化されたモジュラー
算術デバイス。
【請求項７】上記制御モジュールは、上記羃の指数中
の次々のビットの制御の下に、上記予備的な積を平方す
るか、又は上記予備的な積を平方し続いて新しい予備的
な積に上記整数Ｘを乗算するかのいずれかのための選択
手段を持つことを特徴とする請求項６に記載のシストリ
ック化されたモジュラー算術デバイス。