JPH11305995A

JPH11305995A - 計算装置のデ―タ処理高速化方法および装置。

Info

Publication number: JPH11305995A
Application number: JP11020232A
Authority: JP
Inventors: Matthew Scott Mcgregor; スコットマクレガーマシュー
Original assignee: Rainbow Technologies Inc
Current assignee: Rainbow Technologies Inc
Priority date: 1998-03-30
Filing date: 1999-01-28
Publication date: 1999-11-05
Also published as: DE69818798D1; EP0947915A1; EP0947915B1; US6240436B1; CA2251162A1; DE69818798T2

Abstract

(57)【要約】【課題】モントゴメリーアルゴリズムを用いる計算装
置のデータ処理を、ｍビットオペランドデータを扱うプ
ロセッサを用いて高速化する。【解決手段】入力データである任意の除数ｎについて
２^2kmod(n)と定義されたモントゴメリ値の計算を行い、
２^2kmod(n)を計算装置に与えデータ処理を高速化する。
２^h*m+1の値を第１のレジスタにロードし、除数ｎを第
２のレジスタにロードし、除数ｎのビットを最上位ビッ
ト方向にシフトする。前記第１のレジスタの値が入力デ
ータｎの値より小さくなるまで第１のレジスタの値から
第２のレジスタの値を繰り返し引いて剰余算処理する。
第１のレジスタの剰余算処理済みの値をlog₂(k)回二乗
する乗算処理する。限られたオペランドサイズを有する
プロセッサに必要な計算回数を減らしながら、任意の除
数についてモントゴメリー値を計算して計算装置に提供
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、計算装置のデータ
処理高速化方法および装置に関する。特に、任意の除数
の大きさを扱う指数剰余算処理を用いた暗号復号処理を
実行する計算装置のデータ処理高速化方法および装置に
関する。

【０００２】

【従来の技術】暗号システムは、通常、セキュリティの
低い通信チャネルを介して通信されるメッセージに対す
る不正なアクセスを制限するために使用される。一般
に、暗号システムは、羅列した数字などの独特の鍵を使
用することにより暗号化アルゴリズムを制御し、メッセ
ージをセキュリティの低い通信チャネルを介して受け手
に送信する前にメッセージを暗号化する。受け手が暗号
化されたメッセージを復号するためには同じ鍵が必要と
なる。したがって、暗号システムのセキュリティを維持
するために、前もって鍵が送り手から受け手に対して安
全なチャネルを介して配送されていることが不可欠であ
る。しかし、安全な通信チャネルの構築の困難性、また
そのコストが、安全な鍵配送の妨げになっている。さら
に、この事前に鍵配送を行う必要性があることがほとん
どの商用通信において利用の妨げとなっている。

【０００３】安全なチャネルを介して鍵配送する困難性
および不便性に鑑み、システムのセキュリティを損なう
ことなく安全性の低いチャネルを介して鍵配送すること
ができる、いわゆる公開鍵暗号システムが提案されてい
る。公開鍵暗号システムは、一対の鍵を利用する。一方
は、公に配送される、すなわち、公開鍵であり、他方
は、受け手によって秘密にされる、すなわち、秘密鍵で
ある。秘密鍵は、公開鍵と数学的に関連しているが、公
開鍵だけから秘密鍵を計算することは実際には不可能な
ものである。このように、メッセージを暗号化するため
に公開鍵が使用され、メッセージを復号するために秘密
鍵が使用される。

【０００４】このような暗号システムは、ｙ=ｂ^emod
(ｎ)形式の指数剰余演算を必要とすることが多い。ここ
で、底ｂ、指数ｅ、および除数ｎは、非常に大きい数と
し、たとえば1,024二進デジット、つまり1,024ビットの
長さを有する。たとえば、指数ｅが公開鍵として配送さ
れ、底ｂおよび除数ｎが前もって受け手に知られている
場合、指数剰余演算を計算することによって秘密鍵ｙを
得ることができる。底ｂおよび除数ｎを知らずに指数ｅ
から秘密鍵ｙを素因数分解するには、膨大な計算および
時間が必要であるので、復号メッセージへの不正なアク
セスは事実上不可能である。

【０００５】

【発明が解決しようとする課題】しかしながら、このよ
うな暗号システムの欠点は、正当な受け手が高速コンピ
ュータを使用した場合でさえ、指数剰余演算がやっかい
な数学的タスクであることである。個人的、商用的、お
よび公的な目的で秘密データを送信するために利用され
る公衆コンピュータネットワークの普及に伴い、多くの
コンピュータユーザーがデータへの不正アクセスを制限
するために暗号システムを必要とすることが予想され
る。しかしセキュリティが増したにもかかわらず、指数
剰余演算の困難性により、コンピュータリソースをかな
り消耗し、データスループットが低下するため、商用暗
号システムの広い範囲での利用の大きな障害となってい
る。

【０００６】暗号評価を行うのに必要な計算を減らす一
つの技術として、マスマティックス・オブ・コンピュー
テーション（Mathematics of Computation）、vol. 4
8、n.177、 1987年1月、pp.243-264に発表された「試し
除算のない剰余乗算」（"Modular Multiplication with
out Trail Division"）において、ピィ・エル・モント
ゴメリー（P.L. Montgomery）によって仮定されたアル
ゴリズムを用いるものが知られている。このアルゴリズ
ムは、「モントゴメリー法」（"Montgomery's Metho
d"）として知られている。このアルゴリズムを実行する
ために、２^2kmod(n)と定義されたモントゴメリー値を計
算しなければならない。ここで、ｎは除数であり、ｋは
除数ｎを表わすビット数であり、Ａmod(n)はｎによるＡ
の剰余算を示す。

【０００７】モントゴメリー値を決定するための強力な
計算方法の一つは、２^k+1mod(n)の計算、またはｎによ
る２^k+1の剰余算である。この剰余算を完了するのに必
要な減算の回数は、除数ｎおよびプロセッサのオペラン
ドサイズの関数として与えられる。したがって、除数ｎ
の所与の値に対して、必要な計算回数を減らすために適
切なオペランドサイズのプロセッササイズを選択するこ
とができる。残念ながら、暗号システムは、通常、任意
の除数に関する剰余算機能が必要である。そのような場
合、固定オペランドサイズを有するプロセッサは、２
^k+1mod(n)を効率的に計算するのにはあまり適していな
い。

【０００８】上記から明らかなように、暗号技術におい
て、剰余算を実行し、固定プロセッサオペランドのサイ
ズと関連して任意の除数の大きさに関して２^2kmod(n)の
値を決定する装置および方法が必要である。本発明はこ
の要求を満たすものである。

【０００９】本発明は、任意の除数の大きさを扱う指数
剰余算処理を用いた暗号復号処理を実行する計算装置の
データ処理高速化方法および装置を提供することを目的
とする。

【００１０】

【課題を解決するための手段】上記目的を達成するため
に、本発明の計算装置のデータ処理高速化方法は、指数
剰余算処理を用いる計算装置のデータ処理をｍビットオ
ペランドデータを扱うプロセッサを用いて高速化する方
法であって、入力データｎに対して、ｎを２進化ビット
に変換し、そのビット数ｋを求める処理ステップと、前
記オペランドビット数ｍとの積が前記ｋ以上となる整数
のうち、最小の整数ｈを検知し、第１のレジスタに、２
^h*m+1ビットが１でありそれより下位の全ビットが０で
あるデータを形成するデータ形成処理ステップと、前記
オペランドビット数ｍの整数倍のビット長を持つ第２の
レジスタに、前記入力データｎを表わすｋビットデータ
をロードするデータロード処理ステップと、前記第２の
レジスタにロードした前記ｎを表わすｋビットデータの
最上位ノンゼロビットが前記オペランドビット数ｍの整
数倍のビット位置にくるまで、前記ｎを表わすｋビット
データ列を上位ビット方向にシフトするシフト処理ステ
ップと、前記第１のレジスタに形成したデータの値が前
記入力データｎの値より小さくなるまで、前記第１のレ
ジスタのデータ値から前記シフト処理済みの第２のレジ
スタの値を繰り返し引く剰余算処理ステップと、前記プ
ロセッサが、前記第１のレジスタにある剰余算処理済み
の値をlog₂(k)回二乗する乗算処理ステップとを備え、
入力データｎに対して、ｎを除数とした、ｎの２進化ビ
ット数をｋとして、２^2kmod(n)を計算して前記計算装置
に与えることを特徴とする。

【００１１】上記構成により、入力データｎに対して、
ビットシフト、減算、乗算の効率的処理ステップにより
２^2kmod(n)を計算して計算装置に与えることができ、モ
ントゴメリーアルゴリズムで用いる２^2kmod(n)の指数剰
余算処理を高速化することができ、計算装置のデータ処
理を高速化することができる。

【００１２】次に、前記計算装置のデータ処理高速化方
法は、前記剰余算処理ステップにおいて、前記第１のレ
ジスタの値から前記第２のレジスタの値をｍビットずつ
繰り返し引くことが好ましい。

【００１３】上記構成により、除数ｎを表わすビット列
を適切な回数ｍビット単位の減算によりでビットシフト
することによって、除数ｎの０でない最上位ビットをｍ
の第二の整数倍によって規定されるビット位置に合わす
ことができる。

【００１４】次に、前記計算装置のデータ処理高速化方
法は、前記データ形成処理ステップが、前記第１のレジ
スタをクリアする処理ステップと、前記第１のレジスタ
の２ ^h*m+1ビット位置に１をロードする処理ステップと
を備えることが好ましい。

【００１５】上記構成により、前回の剰余算処理結果が
残っている場合でも次の新たな指数剰余演算処理を実行
することができる。

【００１６】また、上記目的を達成するために、本発明
の計算装置のデータ処理高速化方法は、指数剰余算処理
を用いる計算装置のデータ処理を、ｍビットオペランド
データを扱うプロセッサを用いて高速化する方法であっ
て、入力データｎに対して、ｎを２進化ビットに変換
し、そのビット数ｋを求める処理ステップと、前記オペ
ランドビット数ｍとの積が前記ｋ以上となる整数のう
ち、最小の整数ｈを検知し、第１のレジスタに、２
^h*m+1ビットが１でありそれより下位の全ビットが０で
あるデータを形成するデータ形成処理ステップと、前記
オペランドビット数ｍの整数倍のビット長を持つ第２の
レジスタに、前記入力データｎを表わすｋビットデータ
をロードするデータロード処理ステップと、前記第２の
レジスタにロードした前記ｎを表わすｋビットデータの
最上位ノンゼロビットが（ｈ＊ｍ）−１ビット位置にく
るまで、前記ｎを表わすｋビットデータ列を上位ビット
方向にシフトするシフト処理ステップと、前記シフト処
理済みの第２のレジスタの値により前記第１のレジスタ
の値を剰余算する剰余算処理ステップと、前記プロセッ
サが、前記第１のレジスタにある剰余算処理済みの値を
log₂(k)回二乗する乗算処理ステップとを備え、入力デ
ータｎに対して、ｎを除数とした、ｎの２進化ビット数
をｋとして、２^2kmod(n)を計算して前記計算装置に与え
ることを特徴とする。

【００１７】上記構成により、入力データｎに対して、
ビットシフト、減算、乗算の効率的処理ステップにより
２^2kmod(n)を計算して計算装置に与えることができ、モ
ントゴメリーアルゴリズムで用いる２^2kmod(n)の指数剰
余算処理を高速化することができ、計算装置のデータ処
理を高速化することができる。

【００１８】次に、前記剰余算処理ステップが、前記第
１のレジスタに形成したデータの値が前記入力データｎ
の値より小さくなるまで、前記第１のレジスタのデータ
値から前記シフト処理済みの第２のレジスタの値を繰り
返し引く処理ステップであることが好ましい。さらに、
前記剰余算処理ステップにおいて、前記第１のレジスタ
の値から前記第２のレジスタの値をｍビットずつ繰り返
し引くことが好ましい。

【００１９】上記構成により、剰余算処理をレジスタに
ある値を用いた減算処理の繰り返しで高速に実行でき
る。

【００２０】また、上記目的を達成するために、本発明
の計算装置のデータ処理高速化方法は、指数剰余算処理
を用いる計算装置のデータ処理を、ｍビットオペランド
データを扱うプロセッサを用いて高速化する方法であっ
て、入力データｎに対して、ｎを２進化ビットに変換
し、そのビット数ｋを求める処理ステップと、前記オペ
ランドビット数ｍとの積が前記ｋ以上となる整数のう
ち、最小の整数ｈを検知し、第１のレジスタに、２
^h*m+1ビットが１でありそれより下位の全ビットが０で
あるデータを形成するデータ形成処理ステップと、前記
オペランドビット数ｍの整数倍のビット長を持つ第２の
レジスタに、前記入力データｎを表わすｋビットデータ
列の最上位ノンゼロビットの位置が前記第２のレジスタ
の（ｈ＊ｍ）−１ビット位置にくるようにデータを形成
する第２のデータ形成処理ステップと、前記第２のレジ
スタの値により前記第１のレジスタの値を剰余算する剰
余算処理ステップと、前記プロセッサが、前記第１のレ
ジスタにある剰余算処理済みの値をlog₂(k)回二乗する
乗算処理ステップとを備え、入力データｎに対して、ｎ
を除数とした、ｎの２進化ビット数をｋとして、２^2kmo
d(n)を計算して前記計算装置に与えることを特徴とす
る。

【００２１】上記構成により、入力データｎに対して、
ビットシフト、減算、乗算の効率的処理ステップにより
２^2kmod(n)を計算して計算装置に与えることができ、モ
ントゴメリーアルゴリズムで用いる２^2kmod(n)の指数剰
余算処理を高速化することができ、計算装置のデータ処
理を高速化することができる。

【００２２】次に、前記剰余算処理ステップが、前記第
１のレジスタの値が前記入力データｎの値より小さくな
るまで、前記第１のレジスタのデータ値から前記第２の
レジスタの値を繰り返し引く処理ステップであることが
好ましい。さらに、前記剰余算処理ステップにおいて、
前記第１のレジスタの値から前記第２のレジスタの値を
ｍビットずつ繰り返し引くことが好ましい。

【００２３】上記構成により、剰余算処理をレジスタに
ある値を用いた減算処理の繰り返しで高速に実行でき
る。

【００２４】上記目的を達成するために、本発明の計算
装置のデータ処理高速化装置は、指数剰余算処理を用い
る計算装置のデータ処理を高速化する装置であって、ｍ
（ｍは２以上の整数）ビットオペランドデータを扱うプ
ロセッサと、入力データｎに対して、ｎを２進化ビット
に変換し、そのビット数ｋを求める２進化ビット数算出
手段と、前記オペランドビット数ｍとの積が前記ｋ以上
となる整数のうち、最小の整数ｈを検知し、第１のレジ
スタに、２^h*m+1ビットが１でありそれより下位の全ビ
ットが０であるデータを形成するデータ形成手段と、前
記オペランドビット数ｍの整数倍のビット長を持つ第２
のレジスタに、前記入力データｎを表わすｋビットデー
タをロードするデータロード手段と、前記第２のレジス
タにロードした前記ｎを表わすｋビットデータの最上位
ノンゼロビットが前記オペランドビット数ｍの整数倍の
ビット位置にくるまで、前記ｎを表わすｋビットデータ
列を上位ビット方向にシフトするビットシフト手段と、
前記第１のレジスタに形成したデータの値が前記入力デ
ータｎの値より小さくなるまで、前記第１のレジスタの
データ値から前記シフト処理済みの第２のレジスタの値
を繰り返し引く剰余算処理手段と、前記第１のレジスタ
にある剰余算処理済みの値をlog₂(k)回二乗する乗算処
理手段を備え、入力データｎに対して、ｎを除数とし
た、ｎの２進化ビット数をｋとして、２^2kmod(n)を計算
して前記計算装置に与えることを特徴とする。

【００２５】上記構成により、入力データｎに対して、
ビットシフト、減算、乗算処理を実行して２^2kmod(n)を
効率的に生成して計算装置に与え、モントゴメリーアル
ゴリズムで用いる２^2kmod(n)の指数剰余算処理を高速化
することができる。

【００２６】次に、前記剰余算処理手段が、前記第１の
レジスタの値が前記入力データｎの値より小さくなるま
で、前記第１のレジスタのデータ値から前記第２のレジ
スタの値を繰り返し引くことが好ましい。さらに、前記
剰余算処理手段が、前記第１のレジスタの値から前記第
２のレジスタの値をｍビットずつ繰り返し引くものであ
ることが好ましい。

【００２７】上記構成により、剰余算処理をレジスタに
ある値を用いた減算処理の繰り返しで高速に実行でき
る。

【００２８】また、上記目的を達成するために、本発明
の計算装置のデータ処理高速化方法は、固定オペランド
サイズｍ（ｍは正の整数）のプロセッサを有し、除数ｎ
（ｎは正の整数）により値ｘ（ｘは正の整数）を剰余算
する剰余算装置の剰余算処理を高速化する方法であっ
て、入力データｎに対して、ｎを２進化ビットに変換
し、そのビット数ｋを求める２進化ビット数算出処理ス
テップと、第１のレジスタに値ｘをロードする処理ステ
ップと、前記オペランドビット数ｍとの積が前記ｋ以上
となる整数のうち、最小の整数をｈとし、前記入力デー
タｎを表わすｋビットデータ列の最上位ノンゼロビット
の位置が第２のレジスタの（ｈ＊ｍ）−１ビット位置に
くるようにデータを形成する第２のデータ形成処理ステ
ップと、前記第１のレジスタに形成したデータの値が前
記入力データｎの値より小さくなるまで、前記第１のレ
ジスタのデータ値から前記第２のレジスタの値を繰り返
し引く剰余算処理ステップを備えることが好ましい。

【００２９】上記剰余算方法によれば、入力データｎに
対して、ビットシフト、減算、乗算処理を実行して２^2k
mod(n)を効率的に生成して計算装置に与え、モントゴメ
リーアルゴリズムで用いる２^2kmod(n)の指数剰余算処理
を高速化することができる。

【００３０】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照しながら説明する。

【００３１】本発明は、任意の除数の大きさを扱うモン
トゴメリーアルゴリズムを用いた暗号復号処理を実行す
る計算装置のデータ処理を高速化する方法および装置で
あって、特に入力に対して指数剰余演算処理を高速に実
行して計算装置に提供し、計算装置のシステム性能およ
びデータスループットに対する影響を最小にしつつ、十
分なレベルの通信セキュリティ構築を確保せしめるもの
である。以下の説明では、計算装置のデータ処理を高速
化する方法および装置複数の図面にわたり、同一または
類似の番号は同一または類似の要素を表わしている。

【００３２】図１には、典型的な暗号システム装置１０
に対して本発明の指数剰余演算装置２０を適用した例の
ブロック図が示されている。暗号システム装置１０は、
中央処理ユニット（ＣＰＵ）１２、ランダムアクセスメ
モリ（ＲＡＭ）１４、読み出し専用メモリ（ＲＯＭ）１
６、および指数剰余演算装置２０を含んでいる。暗号シ
ステム装置１０の各要素は、データおよびコントロール
メッセージが送信される双方向データバスおよびコント
ロールバス１８によって共に結合されている。ＣＰＵ１
２は、暗号システム１０の処理を制御しており、従来の
マイクロプロセッサまたはデジタルシグナルプロセッサ
によって提供してもよい。ＲＡＭ１４は、ＣＰＵ１２の
制御処理のための一時データ記憶を行い、ＲＯＭ１６
は、ソフトウェアの不揮発記憶を行うもので、ＣＰＵ１
２によりシーケンシャルに処理される暗号システム１０
の全体的処理に関する制御命令セットが記憶される。指
数剰余演算装置２０は、暗号システム装置１０の暗号処
理・復号処理を高速化するための装置であって、特定用
向け集積回路（ＡＳＩＣ）またはフィールドプログラマ
ブルゲートアレイ（ＦＰＧＡ）などの特殊機能デバイス
を含み、ＣＰＵ１２における指数剰余演算に関する処理
の実行のために利用される。上記構成の代わりに、暗号
システム装置１０の各要素と指数剰余演算装置２０が埋
め込みコアプロセスとして提供されるＡＳＩＣまたはＦ
ＰＧＡ内に含まれていてもよい。

【００３３】従来技術において周知であるように、暗号
システムは、安全性の低い通信チャネルとデータユーザ
との間のインタフェースを提供する。暗号システムは、
通信チャネルを介して暗号システムと通信するリモート
送信機（図示せず）などの外部ソースから暗号データを
受信する。暗号データは、暗号システムによって復号さ
れ、復号データがデータユーザに提供される。逆にデー
タユーザは、平文データを暗号化して通信チャネルを介
して送信するため暗号システムに入力する。暗号システ
ムは、コントロールデータ、公開鍵情報などの様々な平
文メッセージも送受信する。暗号システムにおける通信
のすべてがデータバスおよびコントロールバス１８を介
して行なわれている。

【００３４】指数剰余演算装置２０を図２により詳細に
示す。指数剰余演算装置２０は、インタフェース回路２
２、一対の並列処理ユニット２４ａ、２４ｂ、およびＲ
ＡＭ２５を含み、これらはすべてデータバスおよびコン
トロールバス２７を介して内部でつながっている。イン
タフェース回路２２は、指数剰余演算装置２０と前記暗
号システム装置１０のデータバスおよびコントロールバ
ス１８との間の通信を制御する。処理ユニット２４ａ、
２４ｂは、それぞれの制御ユニット２６ａ、２６ｂおよ
び乗算器ユニット２８ａ、２８ｂを含み、これらは、以
下さらに説明するように指数剰余演算プロセスを実行す
る内部回路要素をさらに含む。指数剰余演算処理を実行
している間、ＲＡＭ２５は、制御ユニット２６ａ、２６
ｂおよび乗算器ユニット２８ａ、２８ｂによって生成さ
れたデータ値の一時記憶を行う。

【００３５】図３に、指数剰余演算装置２０によって実
行される機能のシステムレベルのフローダイアグラムを
示す。ステップ１０１において示されているように、指
数剰余演算装置２０は、入力データｎに対して、モント
ゴメリー形式であるｙ=ｂ^emod(ｎ)形式の指数剰余演算
を計算して出力する。ここで、ｎは除数である。除数
ｎ、底ｂおよび指数ｅは２進数表現で各々ｋビットの長
さとする。本発明の好ましい実施の形態においては、ｋ
は1,024ビットである。従来の方法を用いると、そのよ
うな指数剰余演算を解くには、実行しなければならない
乗算計算および剰余計算の回数が多く、それらのデータ
長が大きいため、膨大な計算が必要であろう。本発明に
おいては、問題の大きさを小さくし、実行する乗算の回
数を減らすことによって、指数剰余演算を高効率な方法
により実行する。

【００３６】指数剰余演算を効率的に求める方法につい
て以下、検討する。

【００３７】指数剰余演算を解くための第一のステップ
として、下記（数１）のように元の指数剰余演算を各コ
ンポーネントに分ける。

【００３８】

【数１】

【００３９】ここで、ｐおよびｑは大きい素数であり、
ｎ＝ｐ＊ｑである。セキュリティのために、ｐおよびｑ
はほぼ同じ大きさであるべきである。従来技術として周
知であるように、項ｑ^-1mod(ｐ)は、中国人剰余定理か
ら導出される逆数と呼ばれる特殊値である。ｑ^-1mod
(ｐ)はｑmodｐの逆数である。この逆数は、ｂ_r ^e(p)mod
ｐと同じオーダの指数剰余演算を表わすので、ステップ
１０８において前もって逆数を予め計算し、ＲＡＭ２５
に記憶しておいてもよい。値ｅ(p)およびｅ(q)は、それ
ぞれｅmod(p-1)およびｅmod(ｑ-1)に等しいｋ／２ビッ
ト値である。ｂ_r ^e(p)modｐおよびｂ_r ^e(q)modｑにおける
値低減された低減底項ｂ_rは、それぞれｐおよびｑに関
してｂの剰余算を行うことによって提供される。したが
って、低減底項ｂ_rもｋ／２ビット長を有する。

【００４０】図３に示されているように、指数剰余演算
を分けることにより、二つの並列パスによる処理が可能
となり、これらは、図２のそれぞれの処理ユニット２４
ａ、２４ｂによって別々に処理される。ステップ１０
４、１０５において、以下さらに説明する技術を用いて
指数剰余演算ｂ_r ^e(p)modｐおよびｂ_r ^e(q)modｑを別々に
計算する。ステップ１０２、１０３において、前もって
両者の指数剰余演算の各底項ｂ_rを予め計算し、ＲＡＭ
２５に記憶しておいてもよい。

【００４１】ｐおよびｑの長さが各々ｋ/２ビットであ
るので、それぞれの問題の大きさが元の形よりかなり小
さく低減されている。さらに、二つの低減化された（ｋ
／２ビットの）指数剰余演算の計算は、一つの処理ユニ
ット内で、対応する元の（ｋビットの）指数剰余演算の
計算より、必要とするコンピュータ処理時間がかなり短
くなる。この処理時間の減少は、以下に説明するような
効率的なアルゴリズムで指数剰余演算を実行する際に必
要となる乗算回数が、２ｓ²＋ｓに比例することから達
成され得る。ここで、ｓは、ｋを乗算オペランドのビッ
トサイズで割った値に等しい。ｓワードの問題を二つの
分割したｓ／２ワードの問題として処理すると、１累乗
あたりの乗算処理の回数が(ｓ²／２)＋(ｓ／２)に比例
して減少する。たとえば、ｋが１,０２４ビットであ
り、乗算オペランドが１２８ビットであれば、ｓは８に
なる。したがって、ｓワードの問題は、１３６に比例す
る回数の乗算処理を必要とし、一方、二つに分割したｓ
／２ワードの問題は、それぞれ３６に比例する回数の乗
算処理を必要とするであろう。したがって、乗算処理の
回数は、３．７７８倍減少する。

【００４２】ｂ_r＝ｂmodｐの計算は、１９９６年６月、
ＩＥＥＥマイクロ（IEEE Micro）において発表された、
セチン・カヤ・コス（Cetin Kaya Coc）らによる論文
「モントゴメリー乗算アルゴリズムの分析および比較」
（"Analyzing and Comparing Montgomery Multiplicati
on Algorithms"）に記載されているように、ユークリッ
ド逆数を計算し、モントゴメリーアルゴリズムを適用す
ることによって行うことができる。この計算の一部は、
任意のｎに関して２^2kmod(ｎ)の計算が必要である。こ
こで、任意のｎに関して２^2kmod(ｎ)の計算が高速に行
なうことができるとｂ_r＝ｂmodｐ、ｂ_r ^e(p)modｐおよび
ｂ_r ^e(q)modｑの計算が高速化され、指数剰余演算全体の
高速化を達成することができる。この２^2kmod(ｎ)の計
算を実行する効率的な計算処理方法は、図９および図１
０を参照して後述する。

【００４３】ステップ１０４、１０５の計算に続き、ス
テップ１０６において、ｂ_r ^e(p)modｐから項ｂ_r ^e(q)mod
ｑを引き、その結果にｐを加える。ステップ１０７にお
いて、得られた和にステップ１０８において予め計算さ
れていた逆数ｑ^-1modｐを乗じる。このステップは、以
下さらに説明するように剰余演算処理のために最適化し
た乗算器２８ａ、２８ｂのうちの一つによって実行して
もよい。ステップ１０９において、ｐに関して得られた
積を剰余算し、ステップ１１０において、さらにその積
にｑを乗じて、ｋビット値を生成する。最後に、ステッ
プ１１１において、ステップ１０５において予め計算さ
れていたｂ_r ^e(q)modｑに最終乗算積を加える。元の項ｂ
^eの大きさのかなりの減少に鑑み、ステップ１０９にお
いて実行する剰余算が、元の指数剰余演算よりかなり容
易であることが理解されるべきである。この指数剰余演
算の最終的な解は、データバスおよびコントロールバス
１８に提供され、ＣＰＵ１２によってさらに使用され
る。

【００４４】ここで図４および図５ａ〜図５ｃを参照す
ると、図３のステップ１０４、１０５のｂ_r ^e(p)modｐお
よびｂ_r ^e(q)modｑの指数剰余演算がより詳細に示されて
いる。図４には、累乗を実行するのに必要な乗算回数を
減らすのに使用される指数ビットスキャン法と呼ばれる
ルーチンを説明するフローチャートが示されている。一
般に、指数ビットスキャンルーチンは、指数関数ｂ_r
^e(p)およびｂ_r ^e(q)をｂ_rの累乗項の積に分解する。この
ルーチンは、ファームウェアにおいてコーディングして
もよく、ソフトウェアプログラムの形式で前記それぞれ
の処理ユニット２４ａ、２４ｂによってシーケンシャル
に実行されてもよい。代わりに、このルーチンを、指数
ビットスキャンルーチンの様々な機能を実行するように
最適化した専用論理回路としてハードワイヤードで構成
してもよい。簡便にするために、以下、指数関数ｂ_r
^e(p)に関する指数ビットスキャンルーチン処理のみにつ
いて説明するが、指数関数ｂ_r ^e(q)に関しても同様の処
理を実行しなければならないことが理解されるべきであ
る。

【００４５】ステップ２００において指数ビットスキャ
ンルーチンを呼び出し、ステップ２０１においてランニ
ングトータル値を１に初期設定する。ステップ２０２に
おいて、ビットスキャンされる指数ｅ(p)をレジスタ３
２にロードする。図５ａ〜図５ｃには、レジスタ３２に
ロードされているｋビットの指数ｅ（例えば、ｅ_k-1-ｅ
₀）が示されている。レジスタ３２は、ＲＡＭ２５内で
所定のメモリ空間を含んでいてもよい。まず、指数ｅの
所定数のビットに対してアクセスするためのウィンドウ
枠３４を規定する。ここでは、例として３ビットのウィ
ンドウサイズを使用するが、異なったサイズのものを状
況に応じて使用することもできる。ステップ２０３およ
び２０４で規定されるループによって示されているよう
に、３ビットウィンドウの最上位ビット（ＭＳＢ）に１
が現われるまでウィンドウ枠３４をレジスタ３２の左側
からシフトする。ステップ２０３において、１があるか
どうかＭＳＢをチェックし、１を検出しなければ、ステ
ップ２０４において、ウィンドウ枠３４を１ビット右側
にシフトする。図５ｂには、１ビット右側にシフトされ
たウィンドウ枠３４が示されている。このように１を検
出するまでステップ２０３および２０４を繰り返す。

【００４６】ステップ２０５において、ＭＳＢで１を検
出すると、ウィンドウ枠３４の３ビットの二進数値を読
み出す。ＭＳＢが１であるので、この数は必然的に４、
５、６または７（すなわち、それぞれ二進数１００、１
０１、１１０または１１１である）となる。ステップ２
０６において、低減底ｂ_rをウィンドウ枠３４から読み
出した二進数値で累乗した値で、予め計算して用意され
ている値（すなわち、それぞれｂ_r ⁴、ｂ_r ⁵、ｂ_r ⁶または
ｂ_r ⁷）をメモリからフェッチする。ステップ２０７にお
いて、この予め計算して用意した値をランニングトータ
ル値に乗じる。このためルーチンを通る最初のパスにお
いて、ランニングトータル値をデフォルトとして１に設
定する必要がある。

【００４７】その後、ステップ２０９においてループが
開始し、指数ｅ(p)の最下位ビット（ＬＳＢ）がウィン
ドウ枠３４に入っているかどうか確かめるためにレジス
タ３２をチェックする。ウィンドウ枠３４のＭＳＢを読
み出すステップ２０３とは対照的に、ステップ２０９で
は、指数ｅ(p)全体のＬＳＢに関してチェックする。Ｌ
ＳＢがウィンドウ枠３４にまだ入っていなければ、ルー
プはステップ２１２に続き、ウィンドウ枠３４を連続的
に右側にシフトし、ステップ２１３において、前記各シ
フトごとにランニングトータル値を二乗剰余演算をす
る。ループは、前の３ビットがウィンドウ枠３４からな
くなるまで３回繰り返し、すなわち、ウィンドウ枠の３
シフトを行う。３シフトを行うと、ルーチンはステップ
２１６においてＭＳＢが１であるかどうか判断する。Ｍ
ＳＢが１であれば、ルーチンはステップ２０５に戻り、
ウィンドウ枠３４の値をもう一度読み出す。ＭＳＢが０
であれば、ステップ２１７において、指数ｅ(p)のＬＳ
Ｂがウィンドウ３４に入っているかどうか確かめるため
にレジスタ３２を再びチェックする。ＬＳＢがウィンド
ウ枠３４になければ、ステップ２１２および２１３を含
むループを再び繰り返し、ウィンドウを再び１ビット右
側にシフトし、シフトによってランニングトータル値を
二乗剰余演算する。

【００４８】ステップ２１７において、ＬＳＢがウィン
ドウ枠３４に入っていれば、指数ｅ(p)の端に達してお
り、指数ビットスキャンルーチンがほぼ完了しているこ
とを示す。ステップ２２２において、ウィンドウ枠３４
の最後の２ビットを読み出し、ステップ２２３におい
て、ウィンドウ枠３４から読み出された値の回数、ラン
ニングトータル値に低減底ｂ_rを乗じる。たとえば、下
位２ビットが１、２または３（すなわち、それぞれ二進
数０１、１０または１１）であれば、それぞれ１回、２
回または３回、前回ランニングトータル値に低減底ｂ_r
を乗じる。下位２ビットの値が０であれば、ランニング
トータル値は変わらない（すなわち、１を乗じる）。次
に、ステップ２２４において、指数ビットスキャンルー
チンが終了する。

【００４９】前記ステップ２０９における処理の説明に
戻る。ループが開始する前に、指数ｅ(p)のＬＳＢがウ
ィンドウ枠３４に入っているかどうか確かめるためにレ
ジスタ３２をチェックする。ＬＳＢがウィンドウ枠３４
に入っていれば、一連のステップを実行し、カウンタ値
をチェックする。カウンタ値は、前記ループを通ったパ
スの回数を示している。カウンタ値が３であれば、ウィ
ンドウ枠３４内のビットがすべて既にスキャンされてい
ることを示し、ステップ２２４において指数ビットスキ
ャンルーチンが終了する。カウント値が２であれば、ウ
ィンドウ枠３４内の最後のビット以外が既にスキャンさ
れており、ステップ２２１において、最後のビット値を
読み出す。カウンタ値が１であれば、ウィンドウ３４の
最初のビットだけが既にスキャンされており、ステップ
２２２において、（前記したように）下２ビットの値を
読み出す。説明を繰り返すが、ステップ２２３におい
て、ウィンドウで読み出された値の回数、ランニングト
ータル値に低減底ｂ_rを乗じる。次に、ステップ２２４
において指数ビットスキャンルーチンが終了する。

【００５０】図８には、１０ビット指数ｅで累乗した底
ｂの指数剰余演算に関する指数ビットスキャン技術の一
例が示されている。ここでは、ｅ=1011010011である。
連続シフトにより、項ｂ^1011010011を、((((((((ｂ⁵)²)
²)²)＊ｂ⁵)²)²)²)²＊ｂ³に換算する。項ｂ⁵が予め計算
して用意されており、メモリからフェッチされているの
で、その項を計算しなくてよいため、処理時間が節約さ
れる。さらに、剰余算の分配則により、上記項のｎにつ
いての剰余算処理についてさらに処理時間の節約ができ
る。膨大な回数の乗算、それに続く等量に膨大な剰余算
ではなく、９回の乗算および剰余算のみが必要となり、
計算処理の中間値がより小さいものなので剰余算の方が
その処理の大きさがより小さいものとなる。

【００５１】指数ｅ(p)のＭＳＢより指数ビットスキャ
ンが開始するので、各シフトによって二乗剰余算のステ
ップが必要となる。ここで、ウィンドウ枠３４内の値は
実際には４、５、６または７ではなく、２^kにかかる
４、５、６または７という要素であり、ｋはウィンドウ
のＬＳＢビットの指数ビット位置である。指数ｅ(p)の
値が底ｂ_rの累乗として解釈されるので、２^kは、ｋ回二
乗することを示唆している。指数ｅ(p)のすべての１を
確実に考慮に入れ、必要とされる予め計算して用意する
値の合計数を減らすために、ウィンドウ内のＭＳＢが１
であれば、予め計算された値を乗じて処理する。

【００５２】指数ビットスキャンルーチンにより、ｂ_r
^e(p)modｐおよびｂ_r ^e(q)modｑのそれぞれの計算におい
て実行しなければならない乗算の回数が減っているが、
依然として実行しなければならない乗算が多数ある。こ
こで指数剰余演算装置２０は、従来技術においてモント
ゴメリー乗算と呼ばれる剰余演算項の効率的な乗算アル
ゴリズムを利用する。モントゴメリーアルゴリズムは、
下記（数２）のように規定されている。

【００５３】

【数２】

【００５４】ここで、ｋは除数ｎのビット数であり、ｎ
は２^kと互いに素であり、ｎ＞ａ、ｎ＞ｂである。繰り
返し乗算に対するアルゴリズムを使用するために、モン
トゴメリー乗算を実行する前に、ａおよびｂの値をモン
トゴメリー形式にしなければならない。ここで、Ｘ＊２^kmodｎ＝Ｘ_Mont である。

【００５５】モントゴメリー乗算される二つの値がモン
トゴメリー形式であれば、結果もモントゴメリー形式で
ある。

【００５６】図６には、指数剰余演算装置２０によって
実行されるモントゴメリー乗算処理を説明するフローチ
ャートが示されている。図４により前記説明した指数ビ
ットスキャンルーチンのように、モントゴメリー乗算処
理は、ファームウェアにおいてコーディングしてもよ
く、以下さらに説明する処理の特定用途のために用意し
た乗算器２８ａ、２８ｂをアクセスする制御ユニット２
６ａ、２６ｂによって、それぞれの処理ユニット２４
ａ、２４ｂ内でシーケンシャルに実行されてもよい。ま
た代わりに、モントゴメリー乗算ルーチンを、ルーチン
の様々な機能を実行するように最適化された専用論理回
路としてハードワイヤードで構成してもよい。

【００５７】図６に示されているように、モントゴメリ
ー乗算ルーチンは、一つの主ループと二つの副ループを
含む。主ループにおいて、被乗数ｂ_iのワードに被乗数
ａ_jの各ワードを乗じる。ここで、ｊは被乗数ａ_jのワー
ド数であり、ｉは被乗数ｂ_iのワード数である。ステッ
プ３０１において、モントゴメリー乗算ルーチンを呼び
出す。ステップ３０２において、二つの被乗数ａ_jおよ
びｂ_iを二乗フラグとともにそれぞれのレジスタにロー
ドする。二つの被乗数ａ_jおよびｂ_iが等しければ、二乗
フラグを１に設定し、ステップ４００において二乗スピ
ードアップサブルーチンを呼び出すことができる。二乗
スピードアップサブルーチンは、以下より詳細に説明す
る。二つの被乗数ａ_jおよびｂ_iが等しくなければ、二乗
フラグを０に設定する。

【００５８】最初の主ループを開始する前に、ステップ
３０５において、ｉを１に設定し、被乗数ｂ_iの最初の
ワードをアクセスする。ステップ３０６において、二乗
スピードアップサブルーチンを呼び出すべきかどうか判
断するために二乗フラグをチェックする。呼び出さない
場合は、ステップ３０７においてｊを１に設定する。ス
テップ３０８において、第一の副ループ内で、二つのワ
ードａ_jおよびｂ_iを乗算する。前の桁上げおよび前のｃ
_jにその積を加える。このルーチンを通る最初のパスに
おいて、桁上げおよびｃ_jの初期値が０とする必要があ
る。その結果のうち、下位側のワードをｃ_jとして記憶
し、その結果の上位側のワードを次の桁上げとして使用
する。ステップ３０９においてａ_jの最後のワードを検
出するまで、ステップ３１０においてｊを増分すること
によって第一の副ループを繰り返し、ステップ３０９に
おいてａ_jの最後のワードを検出すると、第一の副ルー
プを終了する。第二の副ループを開始する前に、ステッ
プ３１１において、ｃ_jに乗じるとｃ_jの最下位ワードを
全て「０」とする特別換算値を計算し、ｊを２に設定す
る。その後、ステップ３１２において、特別換算値に除
数ｎ_jを乗じ、前の桁上げおよびｃ_jに加える。その結果
のうち下位側のワードをｃ_j-1として記憶し、その結果
の上位側のワードを次のけた上げとして使用する。ステ
ップ３１３においてｃ_jの最後のワードを検出するま
で、ステップ３１４においてｊを増分することによって
第二の副ループを繰り返し、ステップ３１３においてｃ
_jの最後のワードを検出すると、第二の副ループを終了
する。第二の副ループが終了すると、ステップ３１６に
おいて_iを増分し、ｂ_iの最後のワードが主ループを通過
するまで主ループを繰り返す。次に、ステップ３１７に
おいて、ｎに関するｃ_jの最終結果の剰余値が得られ
る。ステップ３１８において、モントゴメリー乗算ルー
チンが終了する。図９には、両方の被乗数が４ワード長
であるａ_jとｂ_iのモントゴメリー乗算の一例が示されて
いる。この例において、前の値すべての組み合わせを示
すために記号Σを使用している。

【００５９】図６のモントゴメリー乗算ルーチンは、乗
算の部分積のいくつかが等しいことを認識して二乗計算
のために応用すると、スピードアップをすることができ
る。特に、被乗数ａ_jが被乗数ｂ_iに等しい場合、すなわ
ち、二乗処理の場合、通常、乗算の様々な成分の部分積
が繰り返されるであろう。たとえば、ａ₂とｂ₃の部分積
は、ａ₃とｂ₂の部分積に等しい。図９に示されているよ
うに、これらの部分積の両方が第三回目の主ループ反復
時に発生する。したがって、最初にその部分積に出会っ
た時、第二回目の発生を考慮してその部分積に２を乗じ
ることができ、第二の部分積の乗算を完全にスキップす
ることができる。２の乗算は、二進数での一回の左シフ
トを構成するので、全数計算による乗算処理よりかなり
速い。前記指数ビットスキャンルーチンの処理により、
指数剰余演算装置２０によって多数の二乗処理が実行さ
れ、二乗処理の速度の増加が、特定の指数剰余演算の全
体的な処理時間にかなり影響を及ぼすことが理解される
べきである。

【００６０】図７には、ステップ４０１で呼び出される
二乗スピードアップサブルーチンを説明するフローチャ
ートが示されている。最初、ステップ４０２においてｊ
をｉに等しく設定する。これは、図６の主ループの最初
の反復においては１である。しかし、その後の主ループ
の反復においては、ｊがｉの最後の値で始まるので、す
でに出て来た部分積の処理をスキップできることは明ら
かである。ステップ４０３において、ｉとｊを比較す
る。ｉがｊに等しければ、ステップ４０５において係数
を１に設定する。ｉとｊが等しくなければ、ステップ４
０４において係数を２に設定する。その後、ステップ４
０６において、ａ_jおよびｂ_iならびに係数を乗算し、前
の桁上げおよびｃ_jにその積を加える。図６のステップ
３０８のように、その結果のうち下位側のワードをｃ_j
として記憶し、その結果の上位側のワードを次の桁上げ
として使用する。乗算ステップ４０６の完了後、ステッ
プ４０８においてｊを増分し、ｂ_jの最後のワードがル
ープを通過するまでループを繰り返す。ｂ_jの最後のワ
ードがループを通過するとステップ４０９において二乗
スピードアップサブルーチンが終了する。図６のステッ
プ４１０において、第一の副ループのすぐ後でモントゴ
メリー乗算ルーチンが再開する。二乗フラグを設定する
と、モントゴメリー乗算ルーチンの主ループの反復ごと
に第一の副ループの代わりに二乗スピードアップサブル
ーチンが動作する。

【００６１】モントゴメリー乗算ルーチンをより効率的
に実行するために、専用処理を行うように乗算器２８
ａ、２８ｂを調整する。特に、乗算器２８ａ、２８ｂ
は、（二乗スピードアップルーチンによって使用され
る）２を乗じるための特定機能と、ａ＊ｂ＋ｃ関数を実
行するための特定機能と、より上位側ｎビットを桁上げ
レジスタに残しながら２ｎビットの結果に関してmod２ⁿ
関数を実行するための特定機能とを含む。

【００６２】図３のブロック１０２および１０３におい
て実行する計算は、２^2kmod(n)の計算が必要である。こ
こで、ｎは除数であり、ｋは除数ｎを表わすのに用いら
れるビット数である。２^2kmod(n)の値は、２^k+1mod(n)
の値を求め、この結果をlog₂(k)回二乗することによっ
て決定することができる。これは、モントゴメリー形式
において、（ａ＊ｂ）＝［（ａ＊ｂ）／２^k］mod(n)で
あるので可能である。したがって、下記（数３）が成り
立つ。

【００６３】

【数３】

【００６４】例として、ｋ＝５１２ビットの場合の２^2k
mod(n)の計算を表１に示す。表１に示されているよう
に、計算を完了するのに、log₂(512)＝9の二乗剰余演算
処理が必要である。

【００６５】

【表１】

【００６６】二乗剰余演算処理は、比較的単純で簡単で
ある。２^2kmod(n)の決定に関係している計算のほとんど
が、ｎによる２^k+1の剰余算に関係している。この剰余
算を実行する直接の方法は、剰余が除数ｎより小さくな
るまで、２^k+1から除数ｎを繰り返し引くことである。
典型的には、これらの処理は、ｍビットの所与の固定オ
ペランドサイズを有する乗算器２８ａ、２８ｂなどのプ
ロセッサによって、一度にｍビットずつ実行される。こ
こで、ｍは１より大きい正の整数である。除数ｎの最上
位ノンゼロビットがプロセッサオペランドの最上位ビッ
ト位置にあれば、この計算は、多くて４回の減算が必要
である。

【００６７】除数の大きさが乗算器オペランドサイズの
整数倍でなければ、減算処理回数を最大４回に維持する
ために、新たな２^k+1の値を生成しなければならない。
通常、これは、コントローラが、除数の大きさごとに新
たな２^k+1の値を計算することを必要とする。除数の大
きさごとに新たな２^k+1の値を生成するのに必要なコン
トローラの複雑さを低減するために、本発明の一実施形
態は、代わりに、２^h* ^m+1の値を生成する。ここで、ｍ
は乗算器スライスのビット数であり、ｈは１以上の整数
である。

【００６８】除数の大きさが乗算器スライスサイズの整
数倍である場合、ｋ＝（ｈ＊ｍ）となるので、２^h*m+1
は２^k+1に等しい。２^k+1の値が上記条件となれば、ｎの
シフトされた値がｋの有意ビットと続く０が埋められた
ビットにより（ｈ＊ｍ）ビットの除数となるような（ｈ
＊ｍ）ビットフィールドのｎのＭＳＢ位置調整により、
２^k+1mod(n)を計算することができる。したがって、シ
フトされたｎによる２ ^h*m+1の低減は、前のように、多
くて４回の減算が必要である。この方法は、任意の大き
さの除数をｍビットブロックとして扱い、簡単な態様で
処理することができるので、モントゴメリー値の計算を
さらに容易にする。

【００６９】図１０および図１１は、入力ｎに対して２
^2kmod(n)を計算して出力する処理ステップを示す。これ
らの処理により、ｍビットの固定オペランドサイズを受
け取る乗算器２８ａ、２８ｂなどの固定プロセッサは、
２^2kmod(n)の値を決定して出力することができる。ここ
で、ｎは任意の除数であり、ｋは除数ｎを表わすのに用
いられるビット数である。このプロセスは、第一のレジ
スタ６０２に２^h*m+1の値を入れることから始まる。こ
のプロセスは、図１０においてブロック５０２として示
されており、得られたデータ構成は、図１１において第
一のレジスタ６０２として示されている。第一のレジス
タ６０２は、いくつかの方法で、２^h*m+ ¹ビット位置６
０４に「１」があり、それより下位の全ビット位置６０
６に０があるように構成してもよい。一つの方法として
は、第一のレジスタ６０２をクリアし、２^h*m+1ビット
位置６０４に１を入れる処理ステップとする。別の方法
としては、２⁰ビット位置６０８に１を入れ、０を加え
ながら、そのビットを適切なビット分左側にシフトす
る。いずれの場合も、積（ｈ＊ｍ）がｋの値以上である
という関係から、２^h*m+1ビット位置を決定する。ｍ
（乗算器のオペランドのビットサイズ）およびｋ（除数
のビット数）が知られているので、この関係を満たすｈ
の値を決定することができる。

【００７０】次に、除数ｎを表わすｋビットを第２のレ
ジスタ６１０にロードする。これは、ブロック５０４に
示されている。第２のレジスタ６１０は、一般に、除数
ｎを表わすのに必要以上のビット容量を持つ。したがっ
て、除数ｎの任意の値に関して、ｋビットは、上位のビ
ット位置６１２に０である一連の先行ビット（以下、
「ゼロビット」と呼ぶ）を一般に含む。残りのビット
は、除数ｎの最上位ノンゼロビット６１４、続いて１ま
たは０のいずれでもよいビット（以下、「ノンゼロビッ
ト」と呼ぶ）を含む。

【００７１】上記のように、除数のノンゼロビット６１
６がｍの整数倍として表わされる場合（すなわち、最上
位ノンゼロビット６１４が（ｈ＊ｍ）−１の位置にある
場合）、剰余算は、多くて４回の減算処理で完了するこ
とができる。そうでない場合、必要な処理回数は、もっ
と多くなってしまう。必要な処理回数を減らすために、
ｎの最上位ノンゼロビットがプロセッサオペランドサイ
ズｍの整数倍によって規定されるビット位置にくるま
で、第二のレジスタ６１０のノンゼロビット６１６を最
上位ビット方向にシフトする。これは、図１０のブロッ
ク５０６および５０８に示されている。

【００７２】図１１は、第２のレジスタ６１０の上記ビ
ットシフトの一例を示す。ここで、ｎ＝２８６０６であ
り、ｍ＝７ビットである。ｎ＝２８６０６を表わすのに
１５ビットが必要であり、最上位バイナリビットが２¹⁴
ビット位置にある。ｎを表わすのに１５ビットが必要で
あるので、ｎのフルオペランド値を処理するのに、最小
３個のプロセッサスライス６１８が必要である。したが
って、ｈ＝３である。処理の回数を減らすために、ｎの
最上位ビット６１４が、ｍの整数倍（図１１の「ｈ」）
によって規定される位置６２０にくるまで、除数ｎのビ
ットをより上位のビット方向にシフトアップする。この
例では、ｎの最上位ビットが第三のプロセッサスライス
の最上位ビット位置にくるように、除数ｎのビットを６
桁シフトアップする。

【００７３】ビットシフト処理終了後、第１のレジスタ
６０２の値が除数ｎの値より小さくなるまで、第１のレ
ジスタ６０２の値から第２のレジスタ６１０の値を繰り
返し引き、２^k+1mod(n)の値を生じる。このプロセス
は、図１０のブロック５１２および５１４に示されてい
る。最後に、ブロック５１６および５１８に示されてい
るように、剰余算した値２^k+1mod(n)をlog₂(k)回二乗
し、２^2kmod(n)の値を生じる。

【００７４】以上の処理により、本発明のモントゴメリ
ーアルゴリズムを用いる暗号符号復号化装置のデータ処
理高速化方法および装置は、入力データｎに対して、２
^2kmod(n)を効率的かつ高速に計算し、モントゴメリーア
ルゴリズムを用いる暗号システム装置に対して計算した
２^2kmod(n)の値を与え、当該暗号システム装置の暗号復
号処理を高速化することができる。

【００７５】指数剰余演算装置の好ましい実施の形態を
説明したが、本システムにおいていくつかの利点が達成
されていることが当業者には明らかであろう。

【００７６】また、本実施形態で説明した指数剰余演算
装置による処理を、一般のコンピュータ、つまり制御ユ
ニット（ＣＰＵ）、算術論理演算ユニット（ＡＬＵ）、
ＲＯＭ、ＲＡＭの記憶装置、入出力装置を備えたコンピ
ュータの処理ステップの形でプログラムとして記述する
ことおよびコンピュータに当該処理を実行させることは
当業者にとり明らかであり、かかるプログラムを記録し
たコンピュータ読み取り可能な記録媒体を提供すること
ができる。

【００７７】また、上記記録媒体としては、ＲＡＭ，Ｒ
ＯＭ，ＣＤ−ＲＯＭ，フレキシブルディスク（ＦＤ）、
ハードディスクなどコンピュータが扱う記憶媒体であれ
ば良いことは言うまでもなく、また、ネットワーク上に
配された記憶媒体であっても良い。

【００７８】また、本発明の範囲および思想内で様々な
変形、適応、代替的な実施の形態が構成されてもよいこ
とが理解されるべきである。たとえば、本発明は、専用
プロセッサで実現した暗号システムに非常に適している
が、非暗号システムにおいても有用であり、汎用プロセ
ッサにおいて実現してもよい。そのような場合、本発明
を実現する命令の１以上のコンピュータ実行可能なプロ
グラムを、フロッピーディスクまたは他の記憶媒体など
のコンピュータ読み取り可能プログラム記憶装置に取り
入れてもよい。

【００７９】

【発明の効果】本発明の計算装置のデータ処理高速化方
法によれば、ｍビットオペランドデータを扱うプロセッ
サを用いて入力データｎに対して、２^2kmod(n)を効率的
に２^2kmod(n)を高速に計算することができ、モントゴメ
リーアルゴリズムを用いる計算装置に対して計算した２
^2kmod(n)の値を与え、当該計算装置の暗号復号処理を高
速化することができる。

【００８０】本発明のモントゴメリーアルゴリズムを用
いる計算装置のデータ処理装置は、入力データｎに対し
て、２^2kmod(n)を効率的に２^2kmod(n)を高速に計算する
ことができ、モントゴメリーアルゴリズムを用いる計算
装置に対して計算した２^2kmod(n)の値を与え、当該計算
装置の暗号復号処理を高速化することができる。

【図面の簡単な説明】

【図１】暗号システム内の指数剰余演算装置の典型的
な適用例のブロック図である。

【図２】指数剰余演算装置のブロック図である。

【図３】指数剰余演算装置によって実行される機能の
システムレベルのフローダイアグラムである。

【図４】指数剰余演算装置によって実行される指数ビ
ットスキャン処理を示すフローチャートである。

【図５】図４の指数ビットスキャン処理の様々な段階
の指数レジスタのブロック図である。

【図６】指数剰余演算装置によって実行される乗算処
理を示すフローチャートである。

【図７】図６の乗算処理と関連して実行される二乗処
理を示すフローチャートである。

【図８】図４のフローチャートに従う典型的な指数ビ
ットスキャン処理を示すチャートである。

【図９】図６および図７のフローチャートに従う典型
的な乗算および二乗処理を示すチャートである。

【図１０】高速モントゴメリー値計算において実行さ
れる処理を示すフローチャートである。

【図１１】高速モントゴメリー値計算において実行さ
れる処理を示す図である。

【符号の説明】

１０暗号システム１２ＣＰＵ１４，２５ＲＡＭ１６ＲＯＭ２０指数剰余演算装置２２インタフェース回路２４乗算処理部２６制御ユニット２８乗算器３２レジスタ３４ウィンドウ６０２第1のレジスタ６１０第２のレジスタ

Claims

【特許請求の範囲】

【請求項１】指数剰余演算処理を用いる計算装置のデ
ータ処理を、ｍビットオペランドデータを扱うプロセッ
サを用いて高速化する方法であって、入力データｎに対して、ｎを２進化ビットに変換し、そ
のビット数ｋを求める処理ステップと、前記オペランドビット数ｍとの積が前記ｋ以上となる整
数のうち、最小の整数ｈを検知し、第１のレジスタに、
２^h*m+1ビットが１でありそれより下位の全ビットが０
であるデータを形成するデータ形成処理ステップと、前記オペランドビット数ｍの整数倍のビット長を持つ第
２のレジスタに、前記入力データｎを表わすｋビットデ
ータをロードするデータロード処理ステップと、前記第２のレジスタにロードした前記ｎを表わすｋビッ
トデータの最上位ノンゼロビットが前記オペランドビッ
ト数ｍの整数倍のビット位置にくるまで、前記ｎを表わ
すｋビットデータ列を上位ビット方向にシフトするシフ
ト処理ステップと、前記第１のレジスタに形成したデータの値が前記入力デ
ータｎの値より小さくなるまで、前記第１のレジスタの
データ値から前記シフト処理済みの第２のレジスタの値
を繰り返し引く剰余算処理ステップと、前記プロセッサが、前記第１のレジスタにある剰余算処
理済みの値をlog₂(k)回二乗する乗算処理ステップとを
備え、入力データｎに対して、ｎを除数とした、ｎの２進化ビ
ット数をｋとして、２ ^2kmod(n)を計算して前記計算装置
に与えることを特徴とする計算装置のデータ処理高速化
方法。
【請求項２】前記剰余算処理ステップにおいて、前記
第１のレジスタの値から前記第２のレジスタの値をｍビ
ットずつ繰り返し引く請求項１に記載の計算装置のデー
タ処理高速化方法。
【請求項３】前記データ形成処理ステップが、前記第
１のレジスタをクリアする処理ステップと、前記第１の
レジスタの２^h*m+1ビット位置に１をロードする処理ス
テップとを備えた請求項１に記載の計算装置のデータ処
理高速化方法。
【請求項４】指数剰余算処理を用いる計算装置のデー
タ処理を、ｍビットオペランドデータを扱うプロセッサ
を用いて高速化する方法であって、入力データｎに対して、ｎを２進化ビットに変換し、そ
のビット数ｋを求める処理ステップと、前記オペランドビット数ｍとの積が前記ｋ以上となる整
数のうち、最小の整数ｈを検知し、第１のレジスタに、
２^h*m+1ビットが１でありそれより下位の全ビットが０
であるデータを形成するデータ形成処理ステップと、前記オペランドビット数ｍの整数倍のビット長を持つ第
２のレジスタに、前記入力データｎを表わすｋビットデ
ータをロードするデータロード処理ステップと、前記第２のレジスタにロードした前記ｎを表わすｋビッ
トデータの最上位ノンゼロビットが（ｈ＊ｍ）−１ビッ
ト位置にくるまで、前記ｎを表わすｋビットデータ列を
上位ビット方向にシフトするシフト処理ステップと、前記シフト処理済みの第２のレジスタの値により前記第
１のレジスタの値を剰余算する剰余算処理ステップと、前記プロセッサが、前記第１のレジスタにある剰余算処
理済みの値をlog₂(k)回二乗する乗算処理ステップとを
備え、入力データｎに対して、ｎを除数とした、ｎの２進化ビ
ット数をｋとして、２ ^2kmod(n)を計算して前記計算装置
に与えることを特徴とする計算装置のデータ処理高速化
方法。
【請求項５】前記剰余算処理ステップが、前記第１の
レジスタに形成したデータの値が前記入力データｎの値
より小さくなるまで、前記第１のレジスタのデータ値か
ら前記シフト処理済みの第２のレジスタの値を繰り返し
引く処理ステップである請求項４に記載の計算装置のデ
ータ処理高速化方法。
【請求項６】前記剰余算処理ステップにおいて、前記
第１のレジスタの値から前記第２のレジスタの値をｍビ
ットずつ繰り返し引く請求項５に記載の計算装置のデー
タ処理高速化方法。
【請求項７】指数剰余算処理を用いる計算装置のデー
タ処理を、ｍビットオペランドデータを扱うプロセッサ
を用いて高速化する方法であって、入力データｎに対して、ｎを２進化ビットに変換し、そ
のビット数ｋを求める処理ステップと、前記オペランドビット数ｍとの積が前記ｋ以上となる整
数のうち、最小の整数ｈを検知し、第１のレジスタに、
２^h*m+1ビットが１でありそれより下位の全ビットが０
であるデータを形成するデータ形成処理ステップと、前記オペランドビット数ｍの整数倍のビット長を持つ第
２のレジスタに、前記入力データｎを表わすｋビットデ
ータ列の最上位ノンゼロビットの位置が前記第２のレジ
スタの（ｈ＊ｍ）−１ビット位置にくるようにデータを
形成する第２のデータ形成処理ステップと、前記第２のレジスタの値により前記第１のレジスタの値
を剰余算する剰余算処理ステップと、前記プロセッサが、前記第１のレジスタにある剰余算処
理済みの値をlog₂(k)回二乗する乗算処理ステップとを
備え、入力データｎに対して、ｎを除数とした、ｎの２進化ビ
ット数をｋとして、２ ^2kmod(n)を計算して前記計算装置
に与えることを特徴とする計算装置のデータ処理高速化
方法。
【請求項８】前記剰余算処理ステップが、前記第１の
レジスタの値が前記入力データｎの値より小さくなるま
で、前記第１のレジスタのデータ値から前記第２のレジ
スタの値を繰り返し引く処理ステップである請求項７に
記載の計算装置のデータ処理高速化方法。
【請求項９】前記剰余算処理ステップにおいて、前記
第１のレジスタの値から前記第２のレジスタの値をｍビ
ットずつ繰り返し引く請求項８に記載の計算装置のデー
タ処理高速化方法。
【請求項１０】指数剰余算処理を用いる計算装置のデ
ータ処理を高速化する装置であって、ｍ（ｍは２以上の整数）ビットオペランドデータを扱う
プロセッサと、入力データｎに対して、ｎを２進化ビットに変換し、そ
のビット数ｋを求める２進化ビット数算出手段と、前記オペランドビット数ｍとの積が前記ｋ以上となる整
数のうち、最小の整数ｈを検知し、第１のレジスタに、
２^h*m+1ビットが１でありそれより下位の全ビットが０
であるデータを形成するデータ形成手段と、前記オペランドビット数ｍの整数倍のビット長を持つ第
２のレジスタに、前記入力データｎを表わすｋビットデ
ータをロードするデータロード手段と、前記第２のレジスタにロードした前記ｎを表わすｋビッ
トデータの最上位ノンゼロビットが前記オペランドビッ
ト数ｍの整数倍のビット位置にくるまで、前記ｎを表わ
すｋビットデータ列を上位ビット方向にシフトするビッ
トシフト手段と、前記第１のレジスタに形成したデータの値が前記入力デ
ータｎの値より小さくなるまで、前記第１のレジスタの
データ値から前記シフト処理済みの第２のレジスタの値
を繰り返し引く剰余算処理手段と、前記第１のレジスタにある剰余算処理済みの値をlog
₂(k)回二乗する乗算処理手段を備え、入力データｎに対して、ｎを除数とした、ｎの２進化ビ
ット数をｋとして、２ ^2kmod(n)を計算して前記計算装置
に与えることを特徴とする計算装置のデータ処理装置。
【請求項１１】前記剰余算処理手段が、前記第１のレ
ジスタの値が前記入力データｎの値より小さくなるま
で、前記第１のレジスタのデータ値から前記第２のレジ
スタの値を繰り返し引く請求項１０に記載の計算装置の
データ処理装置方法。
【請求項１２】前記剰余算処理手段が、前記第１のレ
ジスタの値から前記第２のレジスタの値をｍビットずつ
繰り返し引くものである請求項１１に記載の計算装置の
データ処理装置。
【請求項１３】固定オペランドサイズｍ（ｍは正の整
数）のプロセッサを有し、除数ｎ（ｎは正の整数）によ
り値ｘ（ｘは正の整数）を剰余算する剰余算装置の剰余
算処理を高速化する方法であって、入力データｎに対して、ｎを２進化ビットに変換し、そ
のビット数ｋを求める２進化ビット数算出処理ステップ
と、第１のレジスタに値ｘをロードする処理ステップと、前記オペランドビット数ｍとの積が前記ｋ以上となる整
数のうち、最小の整数をｈとし、前記入力データｎを表
わすｋビットデータ列の最上位ノンゼロビットの位置が
第２のレジスタの（ｈ＊ｍ）−１ビット位置にくるよう
にデータを形成する第２のデータ形成処理ステップと、前記第１のレジスタに形成したデータの値が前記入力デ
ータｎの値より小さくなるまで、前記第１のレジスタの
データ値から前記第２のレジスタの値を繰り返し引く剰
余算処理ステップを備えたことを特徴とする剰余算方法