JP2001067206A

JP2001067206A - モジュラー乗算を実行するためのシステム並びに方法

Info

Publication number: JP2001067206A
Application number: JP2000219243A
Authority: JP
Inventors: Dominic Hugo Symes; ユーゴサイムズドミニク; James Seale David; ジェームズシールデビッド
Original assignee: ARM Ltd; Advanced Risc Machines Ltd
Current assignee: ARM Ltd
Priority date: 1999-07-21
Filing date: 2000-07-19
Publication date: 2001-03-16
Also published as: GB9917137D0; GB2352309A; US6598061B1; GB2352309B

Abstract

(57)【要約】【課題】大規模な高速記憶装置を必要とすることなく
大きな数のモジュラー乗算を実現するシステム及び方法
を提供する。【解決手段】モジュラー乗算を行う被乗数と乗数を固
定ビットで構成された複数の区部に区分して、モジュラ
ー乗算をこの様に区分された区部で構成されるブロック
毎に実行し、この乗算を順に処理することでモジュラー
乗算される被乗数、乗数の大きさに関係なく演算中に使
用される高速記憶装置のサイズを固定することが可能で
ある。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はモジュラー乗算を実
行するためのシステム並びに方法に係わり、更に詳細に
はｎを法としたモジュラー乗算axbx2^-N、ここでａ，ｂ
およびｎはｎを端数とするＮビット整数である。整数
ａ，ｂおよびｎは整数を指定するためにＮビット全てを
必要とするわけではないことが理解されるであろうが、
その様な数値はＮビット数としてその最上位ビットに適
当な個数のゼロを追加することでＮビットで指定できる
ことは明らかであろう。

【０００２】

【従来の技術】ｎを法とするモジュラー乗算axbx2^-Nを
実施することを必要とする場合が多数存在し、この特別
な型式のモジュラー乗算はしばしばモントゴメリ乗算と
呼ばれる。

【０００３】モントゴメリ乗算を使用する１つの特別な
実施例は、スマート・カードまたはその他の安全装置で
使用されるＲＳＡ暗号化／暗号解読である。ＲＳＡは大
きな整数、例えば５１２または１０２４ビット長の大き
な整数の迅速なモジュラー乗算を必要とし、それはモジ
ュラー累乗法を実施するためである。モントゴメリ乗算
技術はモジュラー演算結果の効率的な方法を、これらの
演算が生成し積算された部分積に対して補正を加えるこ
とで提供する。

【０００４】モントゴメリ乗算を通常に実施する際に、
この乗算はｗビット長のワード内で取り扱われなければ
ならない、ここでｗは典型的に１６または３２である。
モントゴメリ・アルゴリズムは（Ｎ＋ｗ＋１）ビットの
格納レジスタ”ｃ”を必要とし、これは部分積が生成さ
れた際の保持と積算、またモントゴメリ補正係数である
暫定的ｗビット数ｍを保持し積算するためのものであ
る。

【０００５】モントゴメリ・アルゴリズムに関する以下
の説明の中で、表記b[j]はｂのｊ番目のｗビット・ワー
ドを示す、すなわちb[0]はｂの最下位ｗビット・ワード
であり、b[s-1]はｂの最上位ｗビット・ワードであり、
ここでs=N/w、すなわちＮビット数内のワード数であ
る。

【０００６】モントゴメリ補正係数ｍはn[0]を法とする
最下位ｗビット・ワードから導かれた定数n0pを使用す
る。この定数n0pは以下の関係に従う： n[0]xn0p=-1 mod 2^W 上記関係が与えられると、標準のモントゴメリ・アルゴ
リズムは下記の擬似コードで表現できる： c:=0 for j=0 to s-1 do c:=c+axb[j] //部分積の計算および積算 m:=(c[0]xn0p)mod2^W //モントゴメリ補正係数の計算 c:=c+nxm //モントゴメリ変形の適用 c:=c>>w //常にゼロであるｃの下位ワード削除 endfor result:=c //最終（Ｎ＋１）ビット結果がｃの中に入る

【０００７】実際、上記擬似コード内のaxb[j]およびnx
m乗算は、固定サイズ乗算積算（ＭＡＣ）演算に分解さ
れる、例えばｗ＝１６場合３２ｘ１６ビットＭＡＣ演算
である。このＭＡＣのサイズは一方でデータ処理量を最
大とし、もう一方で不使用領域を最少としてタイミング
要求を容易にする点で良好なバランスである。しかしな
がら、理解されるようにモントゴメリ乗算が効率的な方
法で実行されるためには、乗算ブロックは入力Ｎビット
整数ａ，ｂおよびｎ、並びにＮ＋ｗ＋１ビットを必要と
する生成された部分積を格納するための十分高速な記憶
装置にアクセスしなければならない。乗算ブロックをハ
ードウェアで実現する際には、高速記憶装置は典型的に
ハードウェア・レジスタの形式をとり、一方ソフトウェ
アで実現する際には高速記憶装置はキャッシュまたはＳ
ＲＡＭの形式を取るはずである。

【０００８】その様な従来技術による手法の１例は、Ｓ
ＩＤＳＡ製の単独ＲＳＡ補助プロセッサsRSAC2048Aであ
り、これは最大４個の２０４８ビット・ワードを保持す
るための２５６個の３２ビット・ワードの基板装着メモ
リの大規模バンクを使用している。

【０００９】理解されるであろうが大きなＮビット整数
に対して、かなりな量の高速記憶装置が必要とされ、こ
れらのＮビット数に対する現在の流れはサイズが増す傾
向にあり、従ってモントゴメリ乗算を実行するためのシ
ステムの記憶装置に対する要求も増大している。

【００１０】

【発明の要約】第１の特徴に鑑み、本発明はｎを法とす
るモジュラー乗算axbx2^-Nを実行するためのシステムを
提供しており、ここでａ，ｂおよびｎはＮビット整数で
あり、このシステムは：Ｙビット数とＺビット数とを乗
算するための乗算器と；整数ａを各々がＹの倍数である
複数の第１区部に区分し、整数ｂを各々がＺの倍数であ
る複数の第２区部に区分するための区分ロジックと；乗
算器を制御して前記第１区部の１つと前記第２区部の１
つとを乗算する乗算シーケンスを実行して、乗算ユニッ
トで実行される後続の演算で使用するための多数の出力
被演算数（オペランド）を生成するための演算を適用す
る乗算ユニットと；前記第１区部の１つと前記第２区部
の１つを、乗算ユニットで実行された先行の演算から前
記出力被演算数の予め定められたものに従って、各々の
第１区部が各々の第２区部と乗算されるまで乗算ユニッ
トの中に順番に入力するための制御装置とを含む。

【００１１】本発明によれば、Ｙビット数とＺビット数
とを乗算するための乗算器が具備されており、これは例
えば３２ビットと１６ビットの乗算を実行するように構
成されている。次に本発明によれば、Ｎビット整数ａお
よびｂはそれぞれ複数の第１および第２区部に区分され
ていて、ここで各々の第１区部のサイズはＹの整数倍で
あり、また各々の第２区部のサイズはＺの整数倍であ
る。好適な実施例において、この区分を実行するために
使用される区分ロジックはソフトウェアで実現されてい
る。

【００１２】更に、乗算ユニットが具備されており、こ
れは乗算器を制御して乗算のシーケンスを実行させて、
第１区部の１つと第２区部の１つを乗算し、乗算ユニッ
トで実行される後続の演算で使用するための複数の出力
被演算数を生成することが可能である。制御装置が具備
されていて、これは第１区部の１つと第２区部の１つ
を、乗算ユニットの中に、乗算ユニットで実行された先
行の演算からの出力被演算数（オペランド）の予め定め
られたものに沿って順番に入力し、各々の第１区部が各
々の第２区部と乗算出来るようにしている。

【００１３】この手法により、固定サイズで入力整数ａ
ｂおよびｎのサイズに無関係な乗算ユニットが提供さ
れる。これらの整数は複数の区部に区分され、各々の区
部は乗算ユニットで取り扱うことの出来るサイズであ
り、次に制御装置が具備されていて、これらの区部が乗
算ユニットで演算される順番が管理される。この方法は
増大する大規模高速記憶装置への要求を軽減し、高速記
憶装置のサイズはＮビット整数の最終サイズに依存する
のではなく、これらの整数が区分けされた区部の予め定
められたサイズに依存する。

【００１４】例えば、１つの実施例において、Ｎビット
整数が区分される区部は２５６ビット長であり、従って
高速記憶装置、例えば乗算ユニットがハードウェアで実
現される場合はハードウェア・レジスタ、はＮビット整
数全てを格納するのではなくて、整数ａ，ｂおよびｎの
２５６ビット区部のみを格納できる必要がある。従って
Ｎビット整数上の全モントゴメリ乗算は、乗算ユニット
を制御装置の制御下で連鎖形式で数回コールする事で実
行される。従って、被乗数ａと乗数ｂが７６８ビット数
で、乗算ユニットがこれらの数の２５６ビット区部を取
り扱うように構成されている場合、乗算ユニットは乗算
を２５６ｘ２５６ビットサイズのブロックの３ｘ３配列
に分解して使用される。同様に、被乗数ａと乗数ｂが１
０２４ビット数の場合、乗算ユニットは乗算を２５６ｘ
２５６ビットサイズのブロックの４ｘ４配列に分解して
使用される。

【００１５】従って、理解されるように本発明は大規模
高速記憶装置に対する増大する要求を軽減するのみなら
ず、Ｎビット整数のサイズに無関係に固定サイズの乗算
ユニットを使用することを可能とする。従って、Ｎビッ
ト整数のサイズが増大しても同一の乗算ユニットを、要
求されたモジュラー乗算を実行するための乗算ユニット
のシーケンシャルな演算を管理する適切な制御を行う制
御装置と共に使用することが出来る。

【００１６】理解されるように第１および第２区部は乗
算ユニットで操作するのに好適な任意の適切なサイズに
選択することが可能である。しかしながら、好適に第１
および第２区部のサイズは共にＫであり、ここでＮはＫ
の倍数である。

【００１７】好適な実施例において、出力被演算数は行
積算値を含み、整数ａの最下位ビットを表す第１区部以
外の第１区部Ｖが、整数ｂの最上位ビットを表す第２区
部以外の第２区部Ｗと乗算される場合、生成された行積
算値が第１区部Ｖ−１と第２区部Ｗ＋１を乗算するため
に乗算ユニットで実行される後続の演算で使用するため
に出力される。

【００１８】更に、好適な実施例において、出力被演算
数は列桁上げ値を含み、整数ａの最上位ビットを表す第
１区部以外の第１区部Ｖが、第２区部Ｗと乗算される場
合、生成された列桁上げ値が第１区部Ｖ＋１と第２区部
Ｗを乗算するために乗算ユニットで実行される後続の演
算で使用するために出力される。

【００１９】好適に、区分ロジックは更に整数ｎを複数
の第３区部に区分するように構成されており、各々の第
３区部のサイズはＹの倍数であり、乗算ユニットは乗算
器を制御して前記第３区部の１つと補正値とを乗算する
ための乗算シーケンスを実行させるように構成されてい
る。

【００２０】典型的に、第１区部と第３区部は同一サイ
ズである。この実施例において、補正値は第２区部と同
一サイズになるように計算されている。

【００２１】好適な実施例において、乗算ユニットが整
数ａの最下位ビットを表す第１区部を含んで乗算を実行
するようになされている場合、乗算ユニットは乗算ユニ
ットから出力された行積算値がゼロの値を有するような
補正値を計算するように構成されている。

【００２２】好適に特定の第２区部に対して、乗算ユニ
ットがその第２区部が任意の第１区部と乗算されるよう
にする場合、同一の補正値が使用される。

【００２３】乗算ユニットはハードウェアで実現するこ
とも、また代わって乗算器を制御するために使用される
ソフトウェアで実現することも可能である。しかしなが
ら好適な実施例において、乗算ユニットはハードウェア
で実現されており、乗算器と制御装置で供給される第１
および第２区部と、乗算ユニットで実行される演算中に
生成された出力被演算数を格納するための複数のレジス
タとを含む。

【００２４】第２の特徴に鑑み、本発明はｎを法とする
モジュラー乗算axbx2^-Nを実行するための方法を提供し
ており、ここでａ，ｂおよびｎはＮビット整数であり、
この方法は：（ａ）Ｙビット数とＺビット数とを乗算す
るための乗算器を提供し；（ｂ）整数ａを各々がＹの倍
数である複数の第１区部に区分し；（ｃ）整数ｂを各々
がＺの倍数である複数の第２区部に区分し；（ｄ）乗算
器を制御して前記第１区部の１つと前記第２区部の１つ
とを乗算する乗算シーケンスを実行して、乗算ユニット
で実行される後続の演算で使用するための複数の出力被
演算数を生成するための演算を適用する乗算ユニットを
採用し；（ｅ）前記第１区部の１つと前記第２区部の１
つを、乗算ユニットで実行された先行の演算から前記出
力被演算数の予め定められたものに従って乗算ユニット
の中に順番に入力し、そして各々の第１区部が各々の第
２区部と乗算されるまでステップ（ｄ）を繰り返す、以
上のステップを含む。

【００２５】第３の特徴に鑑み、本発明はｎを法とする
モジュラー乗算axbx2^-Nを実行するためのコンピュータ
システムを動作させるためのコンピュータプログラムま
たはコンピュータプログラム製品を提供しており、ここ
でａ，ｂおよびｎはＮビット整数であり、このコンピュ
ータシステムはＹビット数とＺビット数とを乗算するた
めの乗算器を有し；コンピュータプログラムは；整数ａ
を各々がＹの倍数である複数の第１区部に区分し、整数
ｂを各々がＺの倍数である複数の第２区部に区分するよ
うに動作するように構成された区分ルーチンと；乗算器
を制御して前記第１区部の１つと前記第２区部の１つと
を乗算する乗算シーケンスを実行して、乗算ユニットで
実行される後続の演算で使用するための複数の出力被演
算数を生成するための演算を適用するように構成された
乗算ユニットの動作を管理するための制御装置とを含
み；制御装置が前記第１区部の１つと前記第２区部の１
つを乗算ユニットで実行された先行の演算から前記出力
被演算数の予め定められたものに従って、各々の第１区
部が各々の第２区部と乗算されるまで乗算ユニットの中
に、順番に入力するよう動作するように構成されてい
る。

【００２６】先に説明したように、乗算ユニットはハー
ドウェアまたはソフトウェアの何れでも実現できる。し
かしながら、ソフトウェアで実現される場合、好適な実
施例ではコンピュータプログラムは更に乗算ユニットを
含む。

【００２７】

【課題を解決するための手段】本発明を例として示すだ
けの好適な実施例を参照して添付図と共に更に詳細に説
明する。

【００２８】

【好適な実施例の説明】図１は本発明の好適な実施例に
基づくシステムを図示するブロック図である。本発明に
よれば処理ユニット１０、例えばＣＰＵがバス２０経由
で読みとり専用メモリ（ＲＯＭ）３０とランダム（随
意）アクセスメモリ（ＲＡＭ）４０に接続されている。
処理ユニット１０で作動されるソフトウェアはＲＯＭ３
０内部に格納されている一方、ＲＡＭ４０は処理ユニッ
ト１０で操作されたパラメータの値を格納するための作
業領域メモリとして使用される。好適な実施例におい
て、このデータ処理装置は大きなＮビット整数上でモン
トゴメリ乗算を実行するために使用され、従って典型的
にスマートカードまたはその他の安全装置の中で使用さ
れるＲＡＳ暗号化／暗号解読で使用することが出来る。
好適な実施例において、ここで乗算加速ブロックと呼ば
れる個別のハードウェア・モントゴメリ乗算ユニット５
０が、入力被演算数の部分に演算を行うために使用され
ている。続いて実行ソフトウェアがＲＯＭ３０内に格納
されている処理ユニット１０を使用して、乗算ユニット
５０を制御して乗算ユニット５０内の入力被演算数の複
数区部上で実行される乗算を連鎖結合することによりモ
ントゴメリ乗算を実行させる。

【００２９】これに代わる実施例では、モントゴメリ乗
算ユニット５０を例えばＲＯＭ３０内に格納されている
ソフトウェア処理ルーチンで実現することが可能である
ことは理解できよう、またこの実施例では処理ユニット
１０は好適に基本乗算器、例えば３２ビット数と１６ビ
ット数との乗算へのアクセスと、例えばＳＲＡＭまたは
キャッシュの様な使用される入力被演算数の複数区部を
格納するための何らかの高速記憶素子、およびソフトウ
ェア乗算ユニットで生成される出力被演算数を有する。
しかしながら以下の説明の目的で乗算ユニットはハード
ウェアの中に組み込まれていて、ハードウェア・レジス
タと乗算器とが好適に接続されていると仮定する。乗算
ユニット５０の１つの実現例が図２に図示されている。

【００３０】図２に図示されている乗算加速ブロック５
０は好適な実施例ではＫビットのサイズで、以下の「状
態」を有する：Ｋビット数ｓａ（ａの一区部）Ｋビット数ｓｂ（ｂの一区部）Ｋビット数ｓｎ（ｎの一区部）Ｋビット数ｓｍ（ｍの一区部）Ｋビット数ｓａｃｃ（行積算器）（Ｋ＋１７）ビット数ｃ（列桁上げ）１ビット・フラグＮＲ（新たな行フラグ）１６ビット数ｎ０ｐ（ｎを法として導き出される
定数）

【００３１】従って、乗算加速器ブロック５０は、値
ｃ，ｓｎ，ｓａ，ｓｂ，ｓｍおよびｓａｃｃをそれぞれ
格納するための複数セットのパイプライン・レジスタ１
１０，１２０，１３０，１４０，１５０および１６０を
有する。更に別のレジスタ１７０も定数ｎ０ｐを格納す
るために具備されていて、これは先に説明したように、
法ｎ［０］の最下位ｗビット・ワードから導かれたもの
である。

【００３２】図３はこれらのレジスタの内容を更に詳細
に図示している。好適な実施例において、乗算加速器ブ
ロック５０で取り扱われる値のサイズＫは２５６ビット
に選択されており、従って入力被演算数ｓａ，ｓｎおよ
びｓｂのレジスタの長さは２５６ビットである。同様に
値ｓａｃｃおよびｓｍ用レジスタの長さもまた２５６ビ
ットであり、一方桁上げ値ｃ用のレジスタの長さは実際
２７３ビットである、それは先に説明したように桁上げ
レジスタｃの長さはＮ＋ｗ＋１ビット必要であり、ここ
でｗ＝１６だからである。

【００３３】図３に示され、また図２から明らかなよう
に、値ｓａ，ｓｎおよびｃは乗算積算（ＭＡＣ）ブロッ
ク１００への３２ビット単位での入力であり、従ってｓ
ａおよびｓｎはそれぞれレジスタ１３０および１２０の
中に３２ビット単位で８個書き込まれる。同様にｃの値
は関連するレジスタ１１０の中に３２ビット単位で格納
される。

【００３４】これも図３から明らかなように、値ｓｂ，
ｓａｃｃ，ｓｍおよびｎ０ｐは全てＭＡＣブロック１０
０に１６ビット単位で提供され、従って値ｓｂ，ｓａｃ
ｃおよびｓｍはそれらのそれぞれのレジスタ１４０，１
６０および１５０の中に１６個の１６ビット単位で書き
込まれる。図２に図示されるように、これは実際は８個
の３２ビット幅レジスタを用いて実施され、マルチプレ
クサ１４５，１５５および１６５がレジスタの出力部に
具備されており、要求に基づいて上位１６ビットまたは
下位１６ビットを選択する。

【００３５】図２に図示されるデータ経路の流れは、図
７から図１２の流れ図を参照して後程更に詳細に説明す
る。

【００３６】ＭＡＣユニット１００の基本動作が図４に
図示されている。理解されるであろうが、好適な実施例
では単一ＭＡＣユニットが具備されているが、その機能
は種々の方法で実施できて、例えば個別の乗算器と加算
ブロックを制御して希望する乗算加算動作を実行させる
ようにもできる。図４に図示されているように、ＭＡＣ
ユニット１００は符号無し３２ビット被乗数（mcand）
と符号無し１６ビット乗数（mplier）とを乗算し、その
結果を符号無し３２ビット整数（sum1）と符号無し１６
ビット整数（sum2）の中に加算して４８ビット結果（ma
cresult）を生成することを、全て単一クロック周期の
中で行う。従ってmacresultは次の式で表わすことがで
きる：

【外１】

【００３７】４８ビット結果の異なるセグメントが種々
の操作途中で使用される。この４８ビット結果は次の説
明で示されるように決してオーバフローすることは無
い。

【００３８】mcandとmplierの最大値はそれぞれ２³²−
１および２¹⁶−１である。従って最大乗算器出力は：

【数１】

【００３９】sum1とsum2の最大値での加算は：

【数２】

【００４０】従って、macresultの最大値は４８ビット
数のフルスケールに丁度等しくなる。

【００４１】図５はＭＡＣ入力ポートへのレジスタ・デ
ータの可能性のある信号源と、macresultの値を出力す
る結果の部分に対する行き先を図式的に示している。値
macresultの種々の部分の使用に付いては図７から図１
２の流れ図を参照して更に詳細に説明する。

【００４２】本発明の好適な実施例のデータ処理装置の
動作を詳細に説明する前に、図６を参照すると、これは
乗算加速ブロック５０がソフトウェアで周期制御されて
最終モジュラー乗算結果を生成する様子を図式的に示し
ている。この例の中で、モントゴメリ乗算装置への入力
ａ，ｂおよびｎは７６８ビット数であり、乗算加速ブロ
ック５０は一度に２５６ビット区部の上で作動するよう
に構成されている。図６はレジスタｃおよびｓａｃｃ内
の出力被演算数の値が、乗算加速ブロック５０で実行さ
れる演算の個別シーケンスの終わりに、後続の演算でど
のように使用されるかを図示している。これは図７から
図１２の流れ図を参照して更に詳細に説明する。

【００４３】好適な実施例の乗算加速ブロック５０をコ
ールすると、下記の機能が実行される（パラメータＮＲ
は新たな行を指定するために使用され、新たな行が開始
される際に１にセットされる、例えば図６を参照すると
ＮＲは段１，４および７で１に等しくセットされる）： If NR=０ then: Temp =c+sacc+saxsb+snxsm Sacc =temp のビット０からＫ−１ C =temp のビットＫから２Ｋ If NR=1 then: 入力のｓｍの値は無視される。代わりにｓｍは上記の計
算の中でsacc=0となる値にセットされる。すなわち：ｓ
ｍは、 (c+sacc+saxsb+snxsm)==0 mod 2^k となるようにセットされ、従って c= (c+sacc+saxsb+snxsm)のビットＫから２Ｋ

【００４４】先に説明したように本発明の好適な実施例
において、レジスタｃの長さはＫ＋１７ビットに増やさ
れており、また余分の１６ビット状態値ｎ０ｐが具備さ
れている。ｎ０ｐは（ユニークな）１６ビット値で次の
ように書かれる： nxn0p= -1 modulo２¹⁶

【００４５】本発明の好適な実施例を説明する目的で、
Ｋは３２の倍数と仮定している。従ってパラメータＣａ
はＫ／３２に等しいようにセットされ、一方パラメータ
ＣｂはＫ／１６に等しいようにセットされている。ｘを
任意のsa,snまたはcとするとき、表現x[ｉ]は以下の流
れ図の中でｘの３２ビット部分のｉ番目を示すように使
用される。同様に、ｙを任意のsb,smまたはsaccとする
とき、表現y[j]はｙの１６ビット部分の第ｊ番目を示す
ように使用される。従って乗算加速ブロック５０は図７
から図１０の流れ図に示すように動作する。

【００４６】図７に示されるように、第１ステージは乗
算加速ブロック５０が入力sa,sb,sm,sn,sacc,c,NR,n0p,
CaおよびCbを受信する。続いてステップ３１０で変数ｊ
がゼロに等しくセットされ、乗算加速ブロックで演算さ
れる２５６ｘ２５６ブロックの最初の１６ビット副行を
選択する。従って図６を参照すると、第１繰り返しの中
で、乗算加速ブロックは図６の最上行の右端に図示され
ている２５６ｘ２５６のブロック１上で演算するように
構成され、ステップ３１０で最初の１６ビット幅副行が
選択される。

【００４７】処理工程は次にステップ３２０に進み、こ
こで演算は副行ｊに対して実施され、この処理工程は図
８に更に詳細に図示されている。

【００４８】図８に図示されるように、加速ブロック副
行ｊ上で実行される演算はステップ４００で開始され、
ステップ４１０に進み、ここで下記の計算が実行され
る： c=c+saxsb[j]+sacc[j]

【００４９】この計算を実行する方法が更に詳細に図９
を参照して図示されている。図９に図示されるように、
ステップ５００においてパラメータrowcarryがsacc[j]
に等しくセットされ、ｉはゼロに等しいようにセットさ
れる。続いて、ステップ５１０で下記の計算がＭＡＣユ
ニット１００内で実行される： macresult=sa[i]xsb[j]+c[i]+rowcarry

【００５０】図２および図５を参照すると、この演算は
sa[i]を入力mcandとしてマルチプレクサ１７５を経由し
て入力し、sb[j]をマルチプレクサ１４５および１８０
を経由して入力mplierとして入力し、c[i]を入力sum1と
してマルチプレクサ１８５経由で入力し、そしてsacc
[j]を入力sum2としてマルチプレクサ１６５および１９
０を経由して入力して実行されることが分かる。

【００５１】パラメータrowcarryは続いてmacresultの
上位１６ビットに更新され、これは図２および図５から
分かるようにマルチプレクサ１９０の入力に戻される一
方で、c[i]はmacresultの下位３２ビットに等しくなる
ように更新され、これは図２および図５から分かるよう
にマルチプレクサ１９５を経由してレジスタ１１０に戻
される。

【００５２】処理工程は次にステップ５２０に進み、こ
こでｉは１だけ更新され、次にステップ５３０でｉがCa
より小さいか否か、すなわち演算されるべきｓａの３２
ビット区部が更に存在するか否かが判定される。存在す
る場合は、処理工程はステップ５１０に戻り、一方ｉが
Caより小さくない場合は、処理工程はステップ５４０に
進み、ここで以下の計算がＭＡＣブロック１００の中で
実行される。 c[Ca]=c[Ca]+rowcarry

【００５３】この処理工程はrowcarryの値をｃの現在値
に加算するために使用される。

【００５４】処理工程は次にステップ５５０で終了し、
これで図８のブロック４１０で設定された計算が完了す
る。

【００５５】従って図８に戻ると、次に処理工程はステ
ップ４２０に進み、ここでＮＲの値が１に等しいか否か
の判定がなされ、これは乗算加速ブロックが新たな行を
取り扱うことを示している（例えば図６を参照すると、
ブロック１，４または７に対して演算がなされるか否か
が判定される）。ＮＲが１に等しい場合は、処理工程は
ステップ４３０に進みsm[j]の値を計算する。これを実
行するためにＭＡＣブロック１００は次の演算を実行す
るように構成されている： macresult=c[0]xn0p+0+0

【００５６】図２を参照すると、この式はc[0]を入力mc
andとしてマルチプレクサ１７５経由で入力し、一方n0p
を入力mplierとしてマルチプレクサ１８０経由で入力し
て実行できる。次にsm[j]の値がmacresultの下位１６ビ
ットとして与えられ、これは図２および図５から分かる
ようにレジスタ１５０に戻される。

【００５７】処理工程は次にステップ４４０に進むか、
またはＮＲが１に等しくない場合はステップ４２０から
直接４４０に進む。ブロック４４０において、下記の計
算が実行される： c=c+snxsm[j]

【００５８】パラメータsacc[j]はｃの下位１６ビット
に等しいようにセットされ、次にｃは１６ビット右にシ
フトされたｃの前回値に等しくセットされる。

【００５９】この計算を実行する方法が更に詳細に図１
０に説明されている。

【００６０】図１０に図示されるように、ステップ６０
０で下記の計算が実行される： macresult=sn[0]xsm[j]+c[0]+0

【００６１】図２から明らかなように、この計算はＭＡ
Ｃブロック１００の中で、sn[0]を入力mcandとしてマル
チプレクサ１７５経由で入力し、sm[j]を入力mplierと
してマルチプレクサ１５５および１８０経由で入力し、
そしてc[0]を入力sum1としてマルチプレクサ１８５経由
で入力して実行できる。

【００６２】続いて、ステップ６１０で、図２および図
５に図示されているように、sacc[j]がmacresultの下位
１６ビットと等しくなるようにセットされ、レジスタ１
６０に戻されたこの値で、パラメータpiperegがmacresu
ltの中間１６ビットに等しいようにセットされ、パラメ
ータrowcarry（行桁上げ）がmacresultの上位１６ビッ
トにセットされてマルチプレクサ１９０に入力される。

【００６３】処理工程は続いてステップ６２０へ進み、
ここでｉは１に等しくなるようにセットされ、次に処理
工程はステップ６３０に進み、ここで下記の計算が実行
される： macresult=sn[i]xsm[j]+c[i]+rowcarry

【００６４】図２から分かるように、この計算はＭＡＣ
ブロック１００によって、sn[i]を入力mcandとしてマル
チプレクサ１７５経由で入力し、sm[j]を入力mplierと
してマルチプレクサ１５５および１８０経由で入力し、
c[i]を入力sum1としてマルチプレクサ１８５経由で入力
し、そしてrowcarryを入力sum2としてマルチプレクサ１
９０経由で入力して実行できる。続いてあたいc[i-1]が
２¹⁶を乗算されたmacresultの下位１６ビットに等しく
なるように更新され、図２に図示されるようにpipereg
に加算され、この値はマルチプレクサ１９５を経由して
レジスタ１１０に戻される。

【００６５】次にpiperegの値がmacresultの中間１６ビ
ットに等しくなるように更新され、一方rowcarryの値は
macresultの上位１６ビットに等しくなるように更新さ
れる。

【００６６】ステップ６４０でｉは１増加更新され、ス
テップ６５０でｉがCaより小さいか否かが判定される。
小さい場合は処理工程はステップ６３０に戻り、ｉがCa
より小さく無い場合、これはsnの全ての３２ビット区部
が処理されたことを意味し、従って処理工程はステップ
６６０に進む。

【００６７】ステップ６６０で、macresultの値はc[Ca]
+rowcarryに等しくなるように更新され、この演算はＭ
ＡＣブロック１００でc[Ca]の値を入力sum1として入力
し、入力sum2をrowcarryとして入力して実行される。

【００６８】次にc[Ca-1]の値がmacresultの下位１６ビ
ットに２¹⁶を乗算して、piperegの現在値を加算したも
のに等しくなるように更新される。先に説明したよう
に、また図２から明らかなように、この値は続いてマル
チプレクサ１９５を経由してレジスタ１１０に戻され
る。次にc[Ca]の値がmacresultの１６から３３ビットに
等しくなるようにセットされ、この値は０または１であ
る。処理工程はステップ６７０で終了し、これによって
図８のステップ４４０が完了する。図８の処理工程は次
にステップ４５０で終了する。

【００６９】従ってこの段階で図７のステップ３２０が
完了し、要求される演算は乗算加速ブロック５０で取り
扱われる特定の２５６ｘ２５６ブロック内の副行ｊの上
で実行される。処理工程はここで各々の副行に対して繰
り返される必要があり、従ってステップ３３０でｊは１
だけ増加更新され、次にｊがCbより小さいか否かが判定
される。小さい場合は処理工程はステップ３２０に戻
り、同一の演算シーケンスが次の副行に対して実行され
るようにする。ｊがCbより小さくない場合は、全ての副
行に対して演算されたことであり、従って処理工程はス
テップ３５０に進み、ここで乗算加速ブロック５０の演
算は対象としている特定の２５６ｘ２５６ブロックに対
して完了する。

【００７０】乗算加速ブロック５０がどの様にして特定
の２５６ｘ２５６ブロックに対して本発明の好適な実施
例に基づいて演算するかを説明したので、次に乗算加速
ブロック５０の演算を互いに連鎖的に結合して全モジュ
ラー乗算を実行させる方法を図１１および図１２の流れ
図を参照して説明する。

【００７１】ステップ７００で、パラメータａ，ｂ，
ｎ，ｚおよびｎ０ｐが確立され、ｚはｎを法とするモジ
ュラー乗算axbx2^-Nの結果を保持することを意図してい
る。

【００７２】ステップ７１０で、ｚの値がゼロに等しく
なるようにセットされ、そしてまたｚｃもゼロに等しく
なるようにセットされる、ｚｃはｚからの１ビット桁上
げで示される１ビットフラグである。ステップ７２０
で、パラメータCaがＫ／３２に等しくなるようにセット
され、一方ステップ７３０でパラメータCbがＫ／１６に
等しくなるようにセットされる。続いてステップ７４０
でパラメータＪがゼロに等しくなるようにセットされ
る。

【００７３】処理工程は次にステップ７５０に進み、こ
こで１行全体に対して演算が行われる、例えば図６を参
照すると演算される第１行はブロック１，２および３で
作られる行である。

【００７４】ステップ７５０でｓｍに対するＫビット値
が次のように選択される： zc.z+axb{J}+nxsm=0 mod 2^K ここで zc.z=zcx2^N+z でb{J}はｂのＪ番目の２５６ビ
ット区部を表す。

【００７５】次に下記の演算がzc.zの値を決定するため
に実行される： set zc.z =(zc.z+axb{J}+nxsm)/2^K

【００７６】この処理工程は更に図１２を参照して説明
する。図１２に図示されるように、ステップ８００でパ
ラメータｃがゼロに等しくなるようにセットされ、ｓｂ
はb{J}に等しくなるようにセットされ、Ｉはゼロに等し
くセットされそしてＮＲは１に等しくなるようにセット
される。次にステップ８１０で、ｓａはa{I}に等しくな
るようにセットされ、ｓｎはn{I}に等しくなるようにセ
ットされそしてsaccはz{I}に等しくなるようにセットさ
れる、ここで{I}はａ，ｎまたはｚの第Ｉ番目の２５６
ビット区部を示す。次に乗算加速ブロック５０はステッ
プ８２０で作動し、処理工程は先に図７から図１０を参
照して説明したように実行される。

【００７７】続いてステップ８２５で、Ｉがゼロに等し
いか否かが判定され、等しい場合、これはsaccがゼロに
等しいことを意味し、処理工程は直接ステップ８４０に
進む。そうでない場合、処理工程はステップ８３０に進
み、ここでz{I-1}はsaccの値に等しくなるようにセット
される。次に処理工程はステップ８４０に進む。ステッ
プ８４０でＩの値が１だけ増加更新され、ＮＲがゼロに
等しくなるようにセットされる。次にステップ８５０で
ＩがＮ／Ｋより小さいか否かが判定され、小さい場合、
これは乗算加速ブロック５０で取り扱われるべき別のブ
ロックがその行内に存在することを示している。従っ
て、処理工程はステップ８１０に戻る。しかしながらＩ
がＮ／Ｋより小さく無い場合、処理工程はステップ８６
０に進み、ここで１つの値TEMPがｃ＋ｚｃに等しくなる
ようにセットされ、従ってＫ＋１ビットを有するはずで
ある。次にz{N/K-1}がTEMPの下位Ｋビットに等しくなる
ようにセットされ、一方ｚｃはTEMPの上位ビットに等し
くなるようにセットされる。続いて処理工程はステップ
８７０で終了し、これによって図１１のステップ７５０
で行に対して実行された演算が完了する。

【００７８】次に処理工程はステップ７６０に進み、こ
こでＪの値が１だけ増加更新され、次にステップ７７０
でＪがＮ／Ｋよりも小さいか否かが判定される。小さい
場合、これは実行されるべき行が更に存在することを示
しており、処理工程はステップ７５０に戻る。そうでな
い場合は、処理工程はステップ７８０に進み、ここでzc
がゼロに等しいか否かが判定される。等しい場合、更な
る作業は不要であり、ｚの値がモジュラー乗算の結果を
与える。従って処理工程はステップ７９５で終了する。
しかしながら、zcがゼロに等しくない場合、ステップ７
９０でｚはz-nに等しくなるようにセットされｚが確実
にＮビット出力となるようにしている。ｚはｎを法とす
るaxbx2^-Nの結果を保持しているので、ｎをその結果か
ら引き算してもｎを法とするaxbx2^-Nの有効な結果を与
えることは明らかであろう。次に処理工程はステップ７
９５で終了する。

【００７９】好適な実施例の上記の説明はＮがＫの倍数
の状況に基づくものであった。しかしながら、好適な実
施例の中でCaおよびCbは乗算ユニット５０の中で構成可
能である。Caの値は１からＫ／３２（含む）の範囲で、
またCbは１からＫ／１６（含む）の範囲でセット出来
る。この特別なフレキシビリティーにより、乗算ブロッ
ク５０は図７から図１０で説明した動作に関して、Ｎが
Ｋの倍数でない場合（Ｎは３２の倍数であるが）も取り
扱うことを可能とする。図１１および図１２で図示され
た区分ロジックは、ＮがＫの倍数でない場合、下記に説
明するような修正変更を必要とする。

【００８０】図６は図１１および図１２のアルゴリズム
を図示する。ＮがＫの倍数で無い場合、行の終わりおよ
び列の終わりのブロック（図６のブロック３，６，７，
８，９）はフルサイズのブロックでは無いことが理解さ
れよう。実際、ＲがＮをＫで除算した余りとすると、行
の終わりのブロックのサイズはＲｘＫビット、列の終わ
りではＫｘＲビット、また左下隅のブロックではＲｘＲ
ビットとなるはずである。ＮｘＮを法とする乗算を完了
するために、どの様な特別な操作がこれらの不完全なブ
ロックに対して実行されなければならないかを次に説明
する。このアルゴリズムの残りの部分は図１１および図
１２で説明した通りである。

【００８１】サイズＮｘＭビットの一般ブロックに対し
て、ここでＬおよびＭはＫ以下の３２の倍数とすると
き、図１２のステップ８２０で乗算加速ブロックをコー
ルする際に、CaをＬ／３２に、そしてCbをＭ／１６にセ
ットする。

【００８２】ステップ８００を、sbをｂの次のＭビット
にセットするように変更する。ステップ８１０を、sa,s
n,saccをそれぞれａ，ｎ，ｚの次のＬビットにセットす
るように変更する。

【００８３】ブロックが正方形で無い場合（ＬはＭに等
しく無い）、ステップ８１０は更に別の機能を必要とす
る。Ｌ＜Ｍの場合、これは行の終わりの場合であるが、
saccのビットＬからＭ−１をｃのビットＬからＭ−１に
セットし、ｃのビットＬからＬ＋３１をzcの値にセット
し、そしてzcをｃのビットＭにセットする。Ｌ＞Ｍの場
合、これは列の終わりの場合であるが、saccのビットＭ
からＬ−１をｃのビットＭからＬ＋１６に加算する（ｃ
のこれらのビットはこの場合、０または１を含むはずで
ある）。

【００８４】saccの下位Ｍビットをｚの中に書き込むよ
うにステップ８３０を変更する。Ｍ＜Ｌの場合、ｃを
（Ｌ−Ｍ）ビットシフトダウンし、シフトアウトされた
（Ｌ−Ｍ）ビットをｚの中に書き込むようにステップ８
４０を変更する。

【００８５】TEMPをzc＋（ｃの下位Ｌ＋１ビット）にセ
ットするようにステップ８６０を変更する。TEMPの下位
Ｌビットをｚに、またTEMPの上位ビットをzcに書き込
む。

【００８６】これでＮが３２の倍数ではあるがＫの倍数
で無い場合に必要なアルゴリズムの変更が完了する。

【００８７】本発明の特定の実施例を説明してきたが、
理解されるように本発明はこれらに限定されるものでは
なく、多くの修正変更および追加を本発明の範囲内で行
うことが可能であろう。例えば、添付の請求項の特徴を
種々組み合わせることが、本発明の範囲から逸脱するこ
となく独立する請求項の特徴に基づいて行うことが可能
である。

【図面の簡単な説明】

【図１】図１は本発明の好適な実施例に基づくシステム
のブロック図である。

【図２】図２は本発明の好適な実施例に基づく乗算ユニ
ット内のデータ経路を図示する。

【図３】図３は図２に図示された乗算ユニットの被演算
数と作業レジスタを更に詳細に図示する。

【図４】図４は図２の乗算ユニット内の乗算累積ブロッ
クの動作を図示する。

【図５】図５は図２の乗算ユニット内の乗算累積ユニッ
トの種々のポートに関するデータ源および行き先を図示
する。

【図６】図６は好適な実施例のシステムがどの様にして
乗算ブロックを互いに連鎖して使用できるかを図示す
る。

【図７】図７は本発明の好適な実施例の乗算ユニットの
動作を図示する流れ図。

【図８】図８は本発明の好適な実施例の乗算ユニットの
動作を図示する流れ図。

【図９】図９は本発明の好適な実施例の乗算ユニットの
動作を図示する流れ図。

【図１０】図１０は本発明の好適な実施例の乗算ユニッ
トの動作を図示する流れ図。

【図１１】図１１はＮビット数ａ，ｂおよびｎ上の全モ
ジュラー乗算を実行するために乗算ブロックを互いに連
鎖する際に使用される動作を図示する流れ図。

【図１２】図１２はＮビット数ａ，ｂおよびｎ上の全モ
ジュラー乗算を実行するために乗算ブロックを互いに連
鎖する際に使用される動作を図示する流れ図。

【符号の説明】

１０処理ユニット２０通信バス３０読み取り専用メモリ４０随意アクセスメモリ５０乗算加速ブロック１１０，１２０，１３０，１４０，１５０，１６０，１
７０レジスタ１４５，１５５，１６５，１７５，１８０，１８５，１
９０，１９５マルチプレクサ

Claims

【特許請求の範囲】

【請求項１】ｎを法とするモジュラー乗算axbx2^-Nを
実行するためのシステムであって、ここでａ，ｂおよび
ｎはＮビット整数であり：Ｙビット数とＺビット数とを
乗算するための乗算器と；整数ａを各々がＹの倍数であ
る複数の第１区部に区分し、整数ｂを各々がＺの倍数で
ある複数の第２区部に区分するための区分ロジックと；
乗算器を制御して前記第１区部の１つと前記第２区部の
１つとを乗算する乗算シーケンスを実行して、乗算ユニ
ットで実行される後続の演算で使用するための多数の出
力被演算数（オペランド）を生成するための演算を適用
する乗算ユニットと；前記第１区部の１つと前記第２区
部の１つを、乗算ユニットで実行された先行の演算から
前記出力被演算数の予め定められたものに従って、各々
の第１区部が各々の第２区部と乗算されるまで乗算ユニ
ットの中に、順番に入力するための制御装置とを含む、
前記システム。
【請求項２】請求項１記載のシステムにおいて、第１
および第２区部のサイズが共にＫであり、ここでＮはＫ
の倍数である、前記システム。
【請求項３】請求項１記載のシステムにおいて、出力
被演算数が行積算値を含み、整数ａの最下位ビットを表
す第１区部以外の第１区部Ｖが、整数ｂの最上位ビット
を表す第２区部以外の第２区部Ｗと乗算される場合、生
成された行積算値が第１区部Ｖ−１と第２区部Ｗ＋１を
乗算するために乗算ユニットで実行される後続の演算で
使用するために出力される、前記システム。
【請求項４】請求項１記載のシステムにおいて、出力
被演算数が列桁上げ値を含み、整数ａの最上位ビットを
表す第１区部以外の第１区部Ｖが、第２区部Ｗと乗算さ
れる場合、生成された列桁上げ値が第１区部Ｖ＋１と第
２区部Ｗを乗算するために乗算ユニットで実行される後
続の演算で使用するために出力される、前記システム。
【請求項５】請求項１記載のシステムにおいて、区分
ロジックが更に整数ｎを複数の第３区部に区分するよう
に構成されており、各々の第３区部のサイズはＹの倍数
であり、乗算ユニットは乗算器を制御して前記第３区部
の１つと補正値とを乗算するための乗算シーケンスを実
行させるように構成されている、前記システム。
【請求項６】請求項５記載のシステムにおいて、第１
区部および第３区部が同一サイズである、前記システ
ム。
【請求項７】請求項５記載のシステムにおいて、乗算
ユニットが整数ａの最下位ビットを表す第１区部を含ん
で乗算を実行するようになされている場合、乗算ユニッ
トは乗算ユニットから出力された行積算値がゼロの値を
有するような補正値を計算するように構成されている、
前記システム。
【請求項８】請求項７記載のシステムにおいて、特定
の第２区部に対して、乗算ユニットがその第２区部が任
意の第１区部と乗算されるようにする場合、同一の補正
値が使用される、前記システム。
【請求項９】請求項１記載のシステムにおいて、乗算
ユニットが乗算器と制御装置で供給される第１および第
２区部と、乗算ユニットで実行される演算中に生成され
た出力被演算数を格納するための複数のレジスタとを含
む、前記システム。
【請求項１０】ｎを法とするモジュラー乗算axbx2^-N
を実行するための方法であって、ここでａ，ｂおよびｎ
はＮビット整数であり：（ａ）Ｙビット数とＺビット数とを乗算するための乗算
器を提供し；（ｂ）整数ａを各々がＹの倍数である複数の第１区部に
区分し；（ｃ）整数ｂを各々がＺの倍数である複数の第２区部に
区分し；（ｄ）乗算器を制御して前記第１区部の１つと前記第２
区部の１つとを乗算する乗算シーケンスを実行して、乗
算ユニットで実行される後続の演算で使用するための複
数の出力被演算数を生成するための演算を適用する乗算
ユニットを採用し；（ｅ）前記第１区部の１つと前記第２区部の１つを乗算
ユニットの中に、乗算ユニットで実行された先行の演算
から前記出力被演算数の予め定められた１つと一緒に順
番に入力し、そして各々の第１区部が各々の第２区部と
乗算されるまでステップ（ｄ）を繰り返す、以上のステ
ップを含む、前記方法。
【請求項１１】ｎを法とするモジュラー乗算axbx2^-N
を実行するためのコンピュータシステムを動作させるた
めのコンピュータプログラムであって、ここでａ，ｂお
よびｎはＮビット整数であり、このコンピュータシステ
ムはＹビット数とＺビット数とを乗算するための乗算器
を有し；コンピュータプログラムは：整数ａを各々がＹ
の倍数である複数の第１区部に区分し、整数ｂを各々が
Ｚの倍数である複数の第２区部に区分するように動作す
るように構成された区分ルーチンと；乗算器を制御して
前記第１区部の１つと前記第２区部の１つとを乗算する
乗算シーケンスを実行して、乗算ユニットで実行される
後続の演算で使用するための複数の出力被演算数を生成
するための演算を適用するように構成された乗算ユニッ
トの動作を管理するための制御装置とを含み；制御装置
が前記第１区部の１つと前記第２区部の１つを乗算ユニ
ットの中に、乗算ユニットで実行された先行の演算から
前記出力被演算数の予め定められた１つと一緒に、各々
の第１区部が各々の第２区部と乗算されるまで順番に入
力するよう動作するように構成されている、前記コンピ
ュータプログラム。
【請求項１２】請求項１１記載のコンピュータプログ
ラムにおいて、このコンピュータプログラムが更に乗算
ユニットを含む、前記コンピュータプログラム。