JPH11305996A

JPH11305996A - 乗算を用いる計算装置のデ―タ処理高速化方法および装置

Info

Publication number: JPH11305996A
Application number: JP11020245A
Authority: JP
Inventors: Matthew Scott Mcgregor; スコットマクレガーマシュー; Thuan P Le; ピー．エルイースーザン
Original assignee: Rainbow Technologies Inc
Current assignee: Rainbow Technologies Inc
Priority date: 1998-03-30
Filing date: 1999-01-28
Publication date: 1999-11-05
Also published as: US6434585B2; EP0947914A1; DE69828150T2; US20010010077A1; DE69828150D1; US20020103843A1; CA2251178A1; EP0947914B1

Abstract

(57)【要約】【課題】【解決手段】乗算装置は、ＫＮビットバスを介して第
二の入力ポートで乗算器に結合されたプリロードレジス
タを用いて、１クロックパルスで被乗数「ａ」の値を乗
算器にロードする。被乗数「ｂ」（ＫＮビット長）を、
一度にＮビットずつ、乗算器の第一の入力ポートに結合
されたＮビットバスを介してメモリ出力ポートから乗算
器に供給する。乗算器は、被乗数「ｂ」のＮビットに被
乗数「ａ」のＫＮビットを乗じ、その積を一度にＮビッ
トずつ乗算器出力で与え、メモリ入力ポートを介してメ
モリに供給することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、乗算処理を用いる
計算装置のデータ処理を高速化する方法および装置に関
する。特に、暗号システムの鍵計算において欠かせない
乗算演算を効率的に実行する方法および装置に関する。

【０００２】

【従来の技術】暗号システムは、通常、セキュリティの
低い通信チャネルを介して通信されるメッセージに対す
る不正なアクセスを制限するために使用される。一般
に、暗号システムは、羅列した数字などの独特の鍵を使
用することにより暗号化アルゴリズムを制御し、メッセ
ージをセキュリティの低い通信チャネルを介して受け手
に送信する前にメッセージを暗号化する。受け手が暗号
化されたメッセージを復号するためには同じ鍵が必要と
なる。したがって、暗号システムのセキュリティを維持
するために、前もって鍵が送り手から受け手に対して安
全なチャネルを介して配送されていることが不可欠であ
る。しかし、安全な通信チャネルの構築の困難性、また
そのコストが、安全な鍵配送の妨げになっている。さら
に、この事前に鍵配送を行う必要性があることがほとん
どの商用通信において利用の妨げとなっている。

【０００３】安全なチャネルを介して鍵配送する困難性
および不便性に鑑み、システムのセキュリティを損なう
ことなく安全性の低いチャネルを介して鍵配送すること
ができる、いわゆる公開鍵暗号システムが提案されてい
る。公開鍵暗号システムは、一対の鍵を利用する。一方
は、公に配送される、すなわち、公開鍵であり、他方
は、受け手によって秘密にされる、すなわち、秘密鍵で
ある。秘密鍵は、公開鍵に数学的に関連しているが、公
開鍵だけから秘密鍵を計算することは実際には不可能な
ものである。このように、メッセージを暗号化するため
に公開鍵が使用され、メッセージを復号するために秘密
鍵が使用される。

【０００４】このような暗号システムは、ｙ=ｂ^emodｎ
形式の指数剰余演算を必要とすることが多い。ここで、
底ｂ、指数ｅ、および除数ｎは、非常に大きい数とし、
たとえば1,024二進デジット、つまり1,024ビットの長さ
を有する。たとえば、指数ｅが公開鍵として配送され、
底ｂおよび除数ｎが前もって受け手に知られている場
合、指数剰余演算を計算することによって秘密鍵ｙを得
ることができる。底ｂおよび除数ｎを知らずに指数ｅか
ら秘密鍵ｙを素因数分解するには、膨大な計算および時
間が必要であるので、復号メッセージへの不正なアクセ
スは事実上不可能である。

【０００５】

【発明が解決しようとする課題】しかしながら、このよ
うな暗号システムの欠点は、正当な受け手が高速コンピ
ュータを使用した場合でさえ、指数剰余演算がやっかい
な数学的タスクであることであり、相当の処理能力を消
費し、時間を必要とすることである。個人的、商用的、
および公的な目的で秘密データを送信するために利用さ
れる公衆コンピュータネットワークの普及に伴い、多く
のコンピュータユーザーがデータへの不正アクセスを制
限するために暗号システムを必要とすることが予想され
る。しかしセキュリティが増したにもかかわらず、指数
剰余演算の困難性により、コンピュータリソースをかな
り消耗し、データスループットが低下するため、商用暗
号システムの広い範囲での利用の大きな障害となってい
る。

【０００６】上記問題に鑑み、本発明は、指数剰余演算
に必要な処理を効率的に実行し、乗算処理を用いる計算
装置のデータ処理を高速化する方法および装置を提供す
る。この方法および装置は、モントゴメリーアルゴリズ
ムを用いた暗号復号装置における処理の高速化を実現す
ることに特に適する。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、本発明の乗算処理を用いる計算装置のデータ処理高
速化方法は、ＫＮビットで表すことができる第１の数と
ＫＮビットで表すことができる第２の数の乗算を実行
し、乗算処理を用いる計算装置のデータ処理を高速化す
る方法であって、１クロックパルスで前記第２の数のＫ
Ｎビット分のデータをプリロードレジスタから乗算器の
第２の入力ポートに与える第２の数のＫＮビットデータ
ロード処理ステップと、１クロックパルスでメモリから
前記第１の数のＫＮビットデータのうちＮビット分のデ
ータを取り出して乗算器の第１の入力ポートに与える第
１の数のＮビットデータロード処理ステップと、前記第
２の数のＫＮビットデータと前記第１の数のＮビットデ
ータとを乗じる乗算処理ステップを備え、前記第１の数
のＮビットデータロード処理ステップと前記乗算処理ス
テップとをＫ回繰り返し、前記第１の数のＫＮビットデ
ータすべてがメモリから読み出されて乗算処理されるま
で繰り返して、前記第１の数と前記第２の数の乗算結果
を生成し、前記計算装置に出力することを特徴とする。

【０００８】上記構成により、乗算処理を高速化するこ
とができ、計算装置のデータ処理を高速化することがで
きる。

【０００９】次に、前記乗算処理を用いる計算装置のデ
ータ処理高速化方法は、前記計算装置が採用しているア
ルゴリズムから予測される次のＫＮビットの第２の数を
検知する処理ステップと、前記第１の数のＮビットデー
タロード処理ステップの後、１クロックパルスで前記次
の第２の数の予測値データのうちＮビット分のデータを
前記メモリから取り出して前記プリロードレジスタに与
える予測値プリロード処理ステップを備え、前記予測値
プリロード処理ステップをＫ回繰り返し、前記第２の数
の予測値のＫＮビットデータすべてがメモリから読み出
されてプリロードレジスタにプリロードされるまで繰り
返すことが好ましい。

【００１０】上記構成により、適用するアルゴリズムか
ら予測できる次の乗算処理に用いる数をプリロードして
乗算をすることができ、乗算処理を高速化することがで
き、計算装置のデータ処理を高速化することができる。

【００１１】次に、前記計算装置のデータ処理高速化方
法は、１クロックパルスで前記第１の数と前記第２の数
の乗算結果のうちＮビット分のデータを取り出して乗算
器出力ポートに与える出力処理ステップを備え、前記出
力処理ステップをＫ回繰り返し、前記乗算結果のＫＮビ
ットデータすべてが前記乗算器から出力されるまで繰り
返す請求項１に記載の乗算を用いることが好ましい。

【００１２】上記構成により、１クロックパルスで前記
第１の数と前記第２の数の乗算結果のうちＮビット分の
データを取り出して乗算器出力ポートに与えることがで
き、データ処理を高速化することができる。

【００１３】次に、前記乗算を用いる計算装置のデータ
処理高速化方法は、１クロックパルスで前記第１の数と
前記第２の数の乗算結果のうちＮビット分のデータ出力
を前記メモリに与えるメモリ書き込み処理ステップを備
え、前記メモリ書き込み処理ステップをＫ回繰り返し、
前記乗算結果のＫＮビットデータすべてが前記メモリに
与えられるまで繰り返すことが好ましい。

【００１４】上記構成により、１クロックパルスで前記
第１の数と前記第２の数の乗算結果のうちＮビット分の
データ出力を前記メモリに書き込むことができ、データ
処理を高速化することができる。

【００１５】次に、前記乗算処理を用いる計算装置のデ
ータ処理高速化方法は、前記計算装置が採用しているア
ルゴリズムから予測される次のＫＮビットの第２の数を
検知する処理ステップと、１クロックパルスで前記第１
の数と前記第２の数の乗算結果のうちＮビット分のデー
タ出力を前記メモリに与えるメモリ書き込み処理ステッ
プと、前記第１の数のＮビットデータロード処理ステッ
プの後、前記次の第２の数の予測値データのうちＮビッ
ト分のデータを前記メモリから取り出して前記プリロー
ドレジスタに与える予測値プリロード処理ステップを備
え、前記メモリ書き込み処理ステップと予測値プリロー
ド処理ステップをＫ回繰り返すことが好ましい。

【００１６】上記構成により、適用するアルゴリズムか
ら予測できる次の乗算処理に用いる数のプリロード、１
クロックパルスで前記第１の数と前記第２の数の乗算結
果のうちＮビット分のデータ出力の前記メモリへの書き
込み、Ｎビット分のデータの予測値プリロードができ、
乗算処理を高速化することができ、計算装置のデータ処
理を高速化することができる。

【００１７】次に、前記乗算処理を用いる計算装置のデ
ータ処理高速化方法は、前記メモリの出力ポート、前記
乗算器の出力ポート、および前記プリロードレジスタに
結合されたマルチプレクサを介して、前記メモリ出力の
ポートおよび前記乗算器の出力ポートから選択的に前記
第２の数を前記プリロードレジスタに与えることが好ま
しい。

【００１８】上記構成により、マルチプレクサを介し
て、前記メモリ出力のポートおよび前記乗算器の出力ポ
ートから選択的に前記第２の数を前記プリロードレジス
タに与えることができ、柔軟な処理が可能となる。

【００１９】次に、１クロックパルスで前記第２の数の
ＫＮビットデータのうちＮビット分のデータを前記メモ
リから取り出して前記プリロードレジスタに与えるプリ
ロード処理ステップを備え、前記プリロード処理ステッ
プをＫ回繰り返し、前記第２の数のＫＮビットデータす
べてがメモリから読み出されてプリロードレジスタにプ
リロードされるまで繰り返すことが好ましい。

【００２０】上記構成により、前記乗算処理を用いる計
算装置のデータ処理高速化方法は、１クロックパルスで
前記第２の数のＫＮビットデータのうちＮビット分のデ
ータを前記メモリから取り出して前記プリロードレジス
タに与える処理を繰り返すことができ、計算装置のデー
タ処理を高速化することができる。

【００２１】また、上記課題を解決するため、本発明の
乗算処理を用いる計算装置のデータ処理を高速化する装
置は、ＫＮビットで表すことができる第１の数とＫＮビ
ットで表すことができる第２の数の乗算を実行し、乗算
処理を用いる計算装置のデータ処理を高速化する装置で
あって、前記第１の数を受け取る第１の入力ポートと第
２の数を受け取る第２の入力ポートと、前記第１の数と
第２の数を乗算して結果を出力する出力ポートを備えた
乗算器と、第１の数のＫＮビットデータと第２の数のＫ
Ｎビットデータを含み、第１のＮビットデータチャネル
を介して前記乗算器出力ポートからデータを受け取るメ
モリ入力ポートと、第２のＮビットデータチャネルを介
して前記乗算器の第１の入力ポートにデータを与えるメ
モリ出力ポートとを備えたメモリと、入力ポートと出力
ポートを備え、ＫＮビットデータチャネルの出力ポート
を介して前記乗算器の第２の入力ポートに与える前記第
２の数を記憶するプリロードレジスタと、１クロックパ
ルスで前記第２の数のＫＮビット分のデータを前記プリ
ロードレジスタから前記乗算器の第２の入力ポートに与
える第２の数のＫＮビットデータロード機能と、１クロ
ックパルスで前記メモリから前記第１の数のＫＮビット
データのうちＮビット分のデータを取り出して前記乗算
器の第１の入力ポートに与える第１の数のＮビットデー
タロード機能と、前記第２の数のＫＮビットデータと前
記第１の数のＮビットデータとを前記乗算器において乗
じる乗算処理機能を備え、前記第１の数のＮビットデー
タロード処理と前記乗算処理とをＫ回繰り返し、前記第
１の数のＫＮビットデータすべてがメモリから読み出さ
れて乗算処理されるまで繰り返して、前記第１の数と前
記第２の数の乗算結果を生成し、前記暗号符号復号化装
置に出力することを特徴とする。

【００２２】上記構成により、乗算処理を用いる計算装
置のデータ処理高速化装置は、暗号符号復号化装置の乗
算処理を高速化することができ、計算装置のデータ処理
を高速化することができる。

【００２３】次に、前記乗算処理を用いる計算装置のデ
ータ処理高速化装置は、前記乗算器出力ポートからの出
力が、前記プリロードレジスタの入力ポートに伝達的に
結合されていることが好ましい。

【００２４】上記構成により、乗算器の出力をプリロー
ドレジスタに入力することができ、乗算結果をプリロー
ドレジスタを介して利用することができ、計算装置のデ
ータ処理を高速化することができる。

【００２５】次に、前記乗算処理を用いる計算装置のデ
ータ処理高速化装置は、前記メモリの出力ポートからの
出力が、前記プリロードレジスタの入力ポートに伝達的
に結合されていることが好ましい。

【００２６】上記構成により、メモリの出力をプリロー
ドレジスタに入力することができ、メモリ出力値をプリ
ロードレジスタを介して利用することができ、計算装置
のデータ処理を高速化することができる。

【００２７】次に、前記プリロードレジスタ、前記乗算
器出力ポート、および前記メモリ出力ポート間の伝達的
結合を選択的に制御するマルチプレクサを介して、前記
乗算器出力ポートからの出力と、前記メモリ出力ポート
からの出力が、前記プリロードレジスタに伝達的に結合
されていることが好ましい。

【００２８】上記構成により、マルチプレクサを介し
て、前記メモリ出力のポートおよび前記乗算器の出力ポ
ートから選択的に前記第２の数を前記プリロードレジス
タに与えることができ、柔軟な処理が可能となる。

【００２９】次に、上記課題を解決するため、本発明の
乗算装置は、ＫＮビットで表すことができる第１の数と
ＫＮビットで表すことができる第２の数を乗算する乗算
装置であって、Ｎビット幅チャネルの第１の入力ポート
と、ＫＮビット幅の第２の入力ポートと、出力ポートを
備え、１クロックパルスで前記第２の数のＫＮビットデ
ータを前記乗算器の第２入力ポートを介して入力する第
２の数の入力手段と、１クロックパルスで前記第１の数
のＫＮビットデータのうちＮビットデータを前記乗算器
の第１の入力ポートを介して入力する第１の数の入力手
段と、前記第２の数のＫＮビットデータと前記第１の数
のＮビットデータを乗ずる乗算処理手段と、前記乗算処
理手段をＫ回繰り返し、前記第１の数の全ＫＮビットデ
ータが前記第２の数の全ＫＮビットデータと乗算処理を
行ない、乗算結果出力を生成することを特徴とする。

【００３０】上記構成により、所定ビット幅の入力ポー
トを備えた乗算装置とし、ＫＮビットデータとＮビット
データの乗算処理の繰り返しにより乗算処理を高速化す
ることができる。

【００３１】次に、前記乗算装置は、前記出力の全ＫＮ
ビットを前記乗算器の出力ポートに与えるまで、前記出
力のＮビットを１クロックパルスで前記乗算器の出力ポ
ートに繰り返し与える出力手段を備えることが好まし
い。

【００３２】Ｎビットを１クロックパルスで前記乗算器
の出力ポートに繰り返し与えることができ、乗算処理を
高速化することができる。

【００３３】次に、前記乗算装置は、メモリ出力ポー
ト、前記乗算器出力ポート、および前記プリロードレジ
スタに結合されたマルチプレクサを介して、前記メモリ
出力ポートおよび前記乗算器出力ポートから選択的に前
記第２の数を前記プリロードレジスタに与えることが好
ましい。

【００３４】上記構成により、マルチプレクサを介し
て、前記メモリ出力のポートおよび前記乗算器の出力ポ
ートから選択的に前記第２の数を前記プリロードレジス
タに与えることができ、柔軟な処理が可能となる。

【００３５】次に、前記乗算装置は、前記出力の全ＫＮ
ビットを前記プリロードレジスタおよび前記メモリに与
えるまで、１クロックパルスで前記出力のＮビットを前
記プリロードレジスタおよび前記メモリに繰り返し与え
る手段をさらに備えることが好ましい。

【００３６】上記構成により、前記乗算装置は、１クロ
ックパルスで前記第２の数のＫＮビットデータのうちＮ
ビット分のデータを前記メモリから取り出して前記プリ
ロードレジスタに与えることができ、乗算処理を高速化
することができる。

【００３７】次に、前記乗算装置は、前記第２の数の全
ＫＮビットを前記プリロードレジスタに与えるまで、１
クロックパルスで前記第２の数のＮビットデータを前記
メモリから前記プリロードレジスタに繰り返し与える手
段を備えることが好ましい。

【００３８】上記構成により、前記乗算装置は、１クロ
ックパルスで前記第２の数のＫＮビットデータのうちＮ
ビット分のデータを前記メモリから取り出して前記プリ
ロードレジスタに与える処理を繰り返すことができ、乗
算処理を高速化することができる。

【００３９】次に、前記乗算装置は、次のＫＮビットの
第２の数を予測する手段と、前記第２の数の予測値デー
タを保持するプリロードレジスタと、前記第１の数の入
力手段実行後、１クロックパルスで前記第２の数の予測
値データのうちＮビット分のデータを前記メモリから取
り出して前記プリロードレジスタに与える予測値プリロ
ード入力手段を備え、前記予測値プリロード入力手段を
Ｋ回繰り返し、前記第２の数の予測値のＫＮビットデー
タすべてがメモリから読み出されて前記プリロードレジ
スタにプリロードされるまで繰り返すことが好ましい。

【００４０】上記構成により、前記乗算装置は、適用す
るアルゴリズムから予測できる次の乗算処理に用いる数
をプリロードして乗算をすることができ、乗算処理を高
速化することができる。

【００４１】また、上記目的を達成するために、本発明
の乗算装置は、第１の数を受け取る第１の入力ポート
と、第２の入力数を受け取る第２入力ポートと、Ｋクロ
ックサイクルにわたって計算された前記第１の数と前記
第２の数の積の出力を与える乗算器出力ポートとを備え
た乗算器と、前記乗算器出力ポートに結合された入力ポ
ートと、前記乗算器の第１の入力ポートに結合された出
力ポートとを備えた前記第１の数および第２の数を記憶
するメモリと、Ｋクロックサイクルにわたって前記第２
の数を受け取って記憶し、１サイクルで前記第２の数を
前記乗算器の第２の入力ポートに出力するプリロードレ
ジスタとを備えたことを特徴とする。

【００４２】上記構成により、上記された乗算器、メモ
リ、プリロードレジスタをもって乗算装置を提供でき、
ＫＮビットデータとＮビットデータの乗算処理の繰り返
しにより乗算処理を高速化することができる。

【００４３】次に、前記乗算装置は、前記プリロードレ
ジスタ、前記乗算器出力ポート、および前記メモリ出力
ポート間の伝達的結合を選択的に制御するマルチプレク
サを介して、前記プリロードレジスタが前記乗算器出力
ポートおよび前記メモリ出力ポートに伝達的に結合され
ていることが好ましい。

【００４４】上記構成により、前記乗算装置は、マルチ
プレクサを介して、前記メモリ出力のポートおよび前記
乗算器の出力ポートから選択的に前記第２の数を前記プ
リロードレジスタに与えることができ、柔軟な処理が可
能となる。

【００４５】なお、次の好ましい実施の形態の詳細な説
明を考慮することにより、当業者は計算的に効率的な乗
算器がより完全に理解でき、さらにその付随する利点お
よび目的が理解されるであろう。

【００４６】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照しながら説明する。

【００４７】本発明は、乗算処理を用いる計算装置のデ
ータ処理を高速化する方法および装置であって、特に、
任意の除数の大きさを扱うモントゴメリーアルゴリズム
を用いた暗号復号処理を実行する計算装置のデータ処理
を高速化し、２つの入力に対して乗算演算処理を高速に
実行して計算装置に提供する。計算装置のシステム性能
およびデータスループットに対する影響を最小にしつ
つ、十分なレベルの通信セキュリティ構築を確保せしめ
るものである。以下の説明では、複数の図面にわたり、
同一または類似の番号は同一または類似の要素を表わし
ている。

【００４８】図１には、典型的な暗号システム装置１０
に対して本発明に係る乗算処理機能を含む指数剰余演算
装置２０を適用した例のブロック図が示されている。暗
号システム装置１０は、中央処理ユニット（ＣＰＵ）１
２、ランダムアクセスメモリ（ＲＡＭ）１４、読み出し
専用メモリ（ＲＯＭ）１６、および指数剰余演算装置２
０を含んでいる。暗号システム装置１０の各要素は、デ
ータおよびコントロールメッセージが送信される双方向
データバスおよびコントロールバス１８によって共に結
合されている。ＣＰＵ１２は、暗号システム１０の処理
を制御しており、従来のマイクロプロセッサまたはデジ
タルシグナルプロセッサによって提供してもよい。ＲＡ
Ｍ１４は、ＣＰＵ１２の制御処理のための一時データ記
憶を行い、ＲＯＭ１６は、ソフトウェアの不揮発記憶を
行うもので、ＣＰＵ１２によりシーケンシャルに処理さ
れる暗号システム１０の全体的処理に関する制御命令セ
ットが記憶される。指数剰余演算装置２０は、特定用向
け集積回路（ＡＳＩＣ）またはフィールドプログラマブ
ルゲートアレイ（ＦＰＧＡ）などの特殊機能デバイスを
含み、ＣＰＵ１２における指数剰余演算に関する処理の
実行のために利用される。上記構成の代わりに、暗号シ
ステム装置１０の各要素と指数剰余演算装置２０が埋め
込みコアプロセスとして提供されるＡＳＩＣまたはＦＰ
ＧＡ内に含まれていてもよい。

【００４９】従来技術において周知であるように、暗号
システムは、安全性の低い通信チャネルとデータユーザ
との間のインタフェースを提供する。暗号システムは、
通信チャネルを介して暗号システムと通信するリモート
送信機（図示せず）などの外部ソースから暗号データを
受信する。暗号データは、暗号システムによって復号さ
れ、復号データがデータユーザに提供される。逆にデー
タユーザは、平文データを暗号化して通信チャネルを介
して送信するため暗号システムに入力する。暗号システ
ムは、コントロールデータ、公開鍵情報などの様々な平
文メッセージも送受信する。暗号システムにおける通信
のすべてがデータバスおよびコントロールバス１８を介
して行なわれている。

【００５０】指数剰余演算装置２０を図２により詳細に
示す。指数剰余演算装置２０は、インタフェース回路２
２、一対の並列処理ユニット２４ａ、２４ｂ、およびＲ
ＡＭ２５を含み、これらはすべてデータバスおよびコン
トロールバス２７を介して内部でつながっている。イン
タフェース回路２２は、指数剰余演算装置２０と前記暗
号システム装置１０のデータバスおよびコントロールバ
ス１８との間の通信を制御する。処理ユニット２４ａ、
２４ｂは、それぞれの制御ユニット２６ａ、２６ｂおよ
び乗算器ユニット２８ａ、２８ｂを含み、これらは、以
下さらに説明するように指数剰余演算プロセスを実行す
る内部回路要素をさらに含む。指数剰余演算処理を実行
している間、ＲＡＭ２５は、制御ユニット２６ａ、２６
ｂおよび乗算器ユニット２８ａ、２８ｂによって生成さ
れたデータ値の一時記憶を行う。

【００５１】図３に、指数剰余演算装置２０によって実
行される機能のシステムレベルのフローダイアグラムを
示す。ステップ１０１において示されているように、指
数剰余演算装置２０は、入力データｎに対して、モント
ゴメリー形式であるｙ=ｂｅmod(ｎ)形式の指数剰余演算
を計算して出力する。ここで、ｎは除数である。除数
ｎ、底ｂおよび指数ｅは２進数表現で各々ｋビットの長
さとする。本発明の好ましい実施の形態においては、ｋ
は1,024ビットである。従来の方法を用いると、そのよ
うな指数剰余演算を解くには、実行しなければならない
乗算計算および剰余計算の回数が多く、それらのデータ
長が大きいため、膨大な計算が必要であろう。本発明に
おいては、問題の大きさを小さくし、実行する乗算の回
数を減らすことによって、指数剰余演算を高効率な方法
により実行する。

【００５２】指数剰余演算を効率的に求める方法につい
て以下、検討する。

【００５３】指数剰余演算を解くための第一のステップ
として、下記（数１）のように元の指数剰余演算を各コ
ンポーネントに分ける。

【００５４】

【数１】

【００５５】ここで、ｐおよびｑは大きい素数であり、
ｎ＝ｐ＊ｑである。セキュリティのために、ｐおよびｑ
はほぼ同じ大きさであるべきである。従来技術として周
知であるように、項ｑ^-1mod(ｐ)は、中国人剰余定理か
ら導出される逆数と呼ばれる特殊値である。ｑ^-1mod
(ｐ)はｑmodｐの逆数である。この逆数は、ｂ_r ^e(p)mod
ｐと同じオーダの指数剰余演算を表わすので、ステップ
１０８において前もって逆数を予め計算し、ＲＡＭ２５
に記憶しておいてもよい。値ｅ(p)およびｅ(q)は、それ
ぞれｅmod(p-1)およびｅmod(ｑ-1)に等しいｋ／２ビッ
ト値である。ｂ_r ^e(p)modｐおよびｂ_r ^e(q)modｑにおける
値低減された低減底項ｂ_rは、それぞれｐおよびｑに関
してｂの剰余算を行うことによって提供される。したが
って、低減底項ｂ_rもｋ／２ビット長を有する。

【００５６】図３に示されているように、指数剰余演算
を分けることにより、二つの並列パスによる処理が可能
となり、これらは、図２のそれぞれの処理ユニット２４
ａ、２４ｂによって別々に処理される。ステップ１０
４、１０５において、以下さらに説明する技術を用いて
指数剰余演算ｂ_r ^e(p)modｐおよびｂ_r ^e(q)modｑを別々に
計算する。ステップ１０２、１０３において、前もって
両者の指数剰余演算の各底項ｂ_rを予め計算し、ＲＡＭ
２５に記憶しておいてもよい。

【００５７】ｐおよびｑの長さが各々ｋ/２ビットであ
るので、それぞれの問題の大きさが元の形よりかなり小
さく低減されている。さらに、二つの低減化された（ｋ
／２ビットの）指数剰余演算の計算は、一つの処理ユニ
ット内で、対応する元の（ｋビットの）指数剰余演算の
計算より、必要とするコンピュータ処理時間がかなり短
くなる。この処理時間の減少は、以下に説明するような
効率的なアルゴリズムで指数剰余演算を実行する際に必
要となる乗算回数が、２ｓ²＋ｓに比例することから達
成され得る。ここで、ｓは、ｋを乗算オペランドのビッ
トサイズで割った値に等しい。ｓワードの問題を二つの
分割したｓ／２ワードの問題として処理すると、１累乗
あたりの乗算処理の回数が(ｓ²／２)＋(ｓ／２)に比例
して減少する。たとえば、ｋが１,０２４ビットであ
り、乗算オペランドが１２８ビットであれば、ｓは８に
なる。したがって、ｓワードの問題は、１３６に比例す
る回数の乗算処理を必要とし、一方、二つに分割したｓ
／２ワードの問題は、それぞれ３６に比例する回数の乗
算処理を必要とするであろう。したがって、乗算処理の
回数は、３．７７８倍減少する。

【００５８】ステップ１０４、１０５の計算に続き、ス
テップ１０６において、ｂ_r ^e(p)modｐから項ｂ_r ^e(q)mod
ｑを引き、その結果にｐを加える。ステップ１０７にお
いて、得られた和にステップ１０８において予め計算さ
れていた逆数ｑ^-1modｐを乗じる。このステップは、以
下さらに説明するように剰余演算処理のために最適化し
た乗算器２８ａ、２８ｂのうちの一つによって実行して
もよい。ステップ１０９において、ｐに関して得られた
積を剰余算し、ステップ１１０において、さらにその積
にｑを乗じて、ｋビット値を生成する。最後に、ステッ
プ１１１において、ステップ１０５において予め計算さ
れていたｂ_r ^e(q)modｑに最終乗算積を加える。元の項ｂ
^eの大きさのかなりの減少に鑑み、ステップ１０９にお
いて実行する剰余算が、元の指数剰余演算よりかなり容
易であることが理解されるべきである。この指数剰余演
算の最終的な解は、データバスおよびコントロールバス
１８に提供され、ＣＰＵ１２によってさらに使用され
る。

【００５９】ここで図４および図５ａ〜図５ｃを参照す
ると、図３のステップ１０４、１０５のｂ_r ^e(p)modｐお
よびｂ_r ^e(q)modｑの指数剰余演算がより詳細に示されて
いる。図４には、累乗を実行するのに必要な乗算回数を
減らすのに使用される指数ビットスキャン法と呼ばれる
ルーチンを説明するフローチャートが示されている。一
般に、指数ビットスキャンルーチンは、指数関数ｂ_r
^e(p)およびｂ_r ^e(q)をｂ_rの累乗項の積に分解する。この
ルーチンは、ファームウェアにおいてコーディングして
もよく、ソフトウェアプログラムの形式で前記それぞれ
の処理ユニット２４ａ、２４ｂによってシーケンシャル
に実行されてもよい。代わりに、このルーチンを、指数
ビットスキャンルーチンの様々な機能を実行するように
最適化した専用論理回路としてハードワイヤードで構成
してもよい。簡便にするために、以下、指数関数ｂ_r
^e(p)に関する指数ビットスキャンルーチン処理のみにつ
いて説明するが、指数関数ｂ_r ^e(q)に関しても同様の処
理を実行しなければならないことが理解されるべきであ
る。

【００６０】ステップ２００において指数ビットスキャ
ンルーチンを呼び出し、ステップ２０１においてランニ
ングトータル値を１に初期設定する。ステップ２０２に
おいて、ビットスキャンされる指数ｅ(p)をレジスタ３
２にロードする。図５ａ〜図５ｃには、レジスタ３２に
ロードされているｋビットの指数ｅ（例えば、ｅ_k-1-ｅ
₀）が示されている。レジスタ３２は、ＲＡＭ２５内で
所定のメモリ空間を含んでいてもよい。まず、指数ｅの
所定数のビットに対してアクセスするためのウィンドウ
枠３４を規定する。ここでは、例として３ビットのウィ
ンドウサイズを使用するが、異なったサイズのものを状
況に応じて使用することもできる。ステップ２０３およ
び２０４で規定されるループによって示されているよう
に、３ビットウィンドウの最上位ビット（ＭＳＢ）に１
が現われるまでウィンドウ枠３４をレジスタ３２の左側
からシフトする。ステップ２０３において、１があるか
どうかＭＳＢをチェックし、１を検出しなければ、ステ
ップ２０４において、ウィンドウ枠３４を１ビット右側
にシフトする。図５ｂには、１ビット右側にシフトされ
たウィンドウ枠３４が示されている。このように１を検
出するまでステップ２０３および２０４を繰り返す。

【００６１】ステップ２０５において、ＭＳＢで１を検
出すると、ウィンドウ枠３４の３ビットの二進数値を読
み出す。ＭＳＢが１であるので、この数は必然的に４、
５、６または７（すなわち、それぞれ二進数１００、１
０１、１１０または１１１である）となる。ステップ２
０６において、低減底ｂｒをウィンドウ３４から読み
出した二進数値で累乗した値で、予め計算して用意され
ている値（すなわち、それぞれｂ_r ⁴、ｂ_r ⁵、ｂ_r ⁶または
ｂ_r ⁷）をメモリからフェッチする。ステップ２０７にお
いて、この予め計算して用意した値をランニングトータ
ル値に乗じる。このためルーチンを通る最初のパスにお
いて、ランニングトータル値をデフォルトとして１に設
定する必要がある。

【００６２】その後、ステップ２０９においてループが
開始し、指数ｅ(p)の最下位ビット（ＬＳＢ）がウィン
ドウ枠３４に入っているかどうか確かめるためにレジス
タ３２をチェックする。ウィンドウ枠３４のＭＳＢを読
み出すステップ２０３とは対照的に、ステップ２０９で
は、指数ｅ(p)全体のＬＳＢに関してチェックする。Ｌ
ＳＢがウィンドウ枠３４にまだ入っていなければ、ルー
プはステップ２１２に続き、ウィンドウ枠３４を連続的
に右側にシフトし、ステップ２１３において、前記各シ
フトごとにランニングトータル値を二乗剰余演算をす
る。ループは、前の３ビットがウィンドウ枠３４からな
くなるまで３回繰り返し、すなわち、ウィンドウ枠の３
シフトを行う。３シフトを行うと、ルーチンはステップ
２１６においてＭＳＢが１であるかどうか判断する。Ｍ
ＳＢが１であれば、ルーチンはステップ２０５に戻り、
ウィンドウ枠３４の値をもう一度読み出す。ＭＳＢが０
であれば、ステップ２１７において、指数ｅ(p)のＬＳ
Ｂがウィンドウ３４に入っているかどうか確かめるため
にレジスタ３２を再びチェックする。ＬＳＢがウィンド
ウ枠３４になければ、ステップ２１２および２１３を含
むループを再び繰り返し、ウィンドウを再び１ビット右
側にシフトし、シフトによってランニングトータル値を
二乗剰余演算する。

【００６３】ステップ２１７において、ＬＳＢがウィン
ドウ枠３４に入っていれば、指数ｅ(p)の端に達してお
り、指数ビットスキャンルーチンがほぼ完了しているこ
とを示す。ステップ２２２において、ウィンドウ枠３４
の最後の２ビットを読み出し、ステップ２２３におい
て、ウィンドウ枠３４から読み出された値の回数、ラン
ニングトータル値に低減底ｂ_rを乗じる。たとえば、下
位２ビットが１、２または３（すなわち、それぞれ二進
数０１、１０または１１）であれば、それぞれ１回、２
回または３回、前回ランニングトータル値に低減底ｂ_r
を乗じる。下位２ビットの値が０であれば、ランニング
トータル値は変わらない（すなわち、１を乗じる）。次
に、ステップ２２４において、指数ビットスキャンルー
チンが終了する。

【００６４】前記ステップ２０９における処理の説明に
戻る。ループが開始する前に、指数ｅ(p)のＬＳＢがウ
ィンドウ枠３４に入っているかどうか確かめるためにレ
ジスタ３２をチェックする。ＬＳＢがウィンドウ枠３４
に入っていれば、一連のステップを実行し、カウンタ値
をチェックする。カウンタ値は、前記ループを通ったパ
スの回数を示している。カウンタ値が３であれば、ウィ
ンドウ枠３４内のビットがすべて既にスキャンされてい
ることを示し、ステップ２２４において指数ビットスキ
ャンルーチンが終了する。カウント値が２であれば、ウ
ィンドウ枠３４内の最後のビット以外が既にスキャンさ
れており、ステップ２２１において、最後のビット値を
読み出す。カウンタ値が１であれば、ウィンドウ３４の
最初のビットだけが既にスキャンされており、ステップ
２２２において、（前記したように）下２ビットの値を
読み出す。説明を繰り返すが、ステップ２２３におい
て、ウィンドウで読み出された値の回数、ランニングト
ータル値に低減底ｂ_rを乗じる。次に、ステップ２２４
において指数ビットスキャンルーチンが終了する。

【００６５】図８には、１０ビット指数ｅで累乗した底
ｂの指数剰余演算に関する指数ビットスキャン技術の一
例が示されている。ここでは、ｅ=1011010011である。
連続シフトにより、項ｂ^1011010011を、((((((((ｂ⁵)²)
²)²)＊ｂ⁵)²)²)²)²＊ｂ³に換算する。項ｂ⁵が予め計算
して用意されており、メモリからフェッチされているの
で、その項を計算しなくてよいため、処理時間が節約さ
れる。さらに、剰余算の分配則により、上記項のｎにつ
いての剰余算処理についてさらに処理時間の節約ができ
る。膨大な回数の乗算、それに続く等量に膨大な剰余算
ではなく、９回の乗算および剰余算のみが必要となり、
計算処理の中間値がより小さいものなので剰余算の方が
その処理の大きさがより小さいものとなる。

【００６６】指数ｅ(p)のＭＳＢより指数ビットスキャ
ンが開始するので、各シフトによって二乗剰余算のステ
ップが必要となる。ここで、ウィンドウ枠３４内の値は
実際には４、５、６または７ではなく、２^kにかかる
４、５、６または７という要素であり、ｋはウィンドウ
のＬＳＢビットの指数ビット位置である。指数ｅ(p)の
値が底ｂ_rの累乗として解釈されるので、２^kは、ｋ回二
乗することを示唆している。指数ｅ(p)のすべての１を
確実に考慮に入れ、必要とされる予め計算して用意する
値の合計数を減らすために、ウィンドウ内のＭＳＢが１
であれば、予め計算された値を乗じて処理する。

【００６７】指数ビットスキャンルーチンにより、ｂ_r ^e
（ｐ）modｐおよびｂ_r ^e(q)modｑのそれぞれの計算にお
いて実行しなければならない乗算の回数が減っている
が、依然として実行しなければならない乗算が多数あ
る。ここで指数剰余演算装置２０は、従来技術において
モントゴメリー乗算と呼ばれる剰余演算項の効率的な乗
算アルゴリズムを利用する。モントゴメリーアルゴリズ
ムは、下記（数２）のように規定されている。

【００６８】

【数２】

【００６９】ここで、ｋは除数ｎのビット数であり、ｎ
は２ｋと互いに素であり、ｎ＞ａ、ｎ＞ｂである。繰り
返し乗算に対するアルゴリズムを使用するために、モン
トゴメリー乗算を実行する前に、ａおよびｂの値をモン
トゴメリー形式にしなければならない。ここで、Ｘ＊２^kmodｎ＝Ｘ_Mont である。

【００７０】モントゴメリー乗算される二つの値がモン
トゴメリー形式であれば、結果もモントゴメリー形式で
ある。

【００７１】図６には、指数剰余演算装置２０によって
実行されるモントゴメリー乗算処理を説明するフローチ
ャートが示されている。図４により前記説明した指数ビ
ットスキャンルーチンのように、モントゴメリー乗算処
理は、ファームウェアにおいてコーディングしてもよ
く、以下さらに説明する処理の特定用途のために用意し
た乗算器２８ａ、２８ｂをアクセスする制御ユニット２
６ａ、２６ｂによって、それぞれの処理ユニット２４
ａ、２４ｂ内でシーケンシャルに実行されてもよい。ま
た代わりに、モントゴメリー乗算ルーチンを、ルーチン
の様々な機能を実行するように最適化された専用論理回
路としてハードワイヤードで構成してもよい。

【００７２】図６に示されているように、モントゴメリ
ー乗算ルーチンは、一つの主ループと二つの副ループを
含む。主ループにおいて、被乗数ｂ_iのワードに被乗数
ａ_jの各ワードを乗じる。ここで、ｊは被乗数ａ_jのワー
ド数であり、ｉは被乗数ｂ_iのワード数である。ステッ
プ３０１において、モントゴメリー乗算ルーチンを呼び
出す。ステップ３０２において、二つの被乗数ａ_jおよ
びｂ_iを二乗フラグとともにそれぞれのレジスタにロー
ドする。二つの被乗数ａ_jおよびｂ_iが等しければ、二乗
フラグを１に設定し、ステップ４００において二乗スピ
ードアップサブルーチンを呼び出すことができる。二乗
スピードアップサブルーチンは、以下より詳細に説明す
る。二つの被乗数ａ_jおよびｂ_iが等しくなければ、二乗
フラグを０に設定する。

【００７３】最初の主ループを開始する前に、ステップ
３０５において、ｉを１に設定し、被乗数ｂ_iの最初の
ワードをアクセスする。ステップ３０６において、二乗
スピードアップサブルーチンを呼び出すべきかどうか判
断するために二乗フラグをチェックする。呼び出さない
場合は、ステップ３０７においてｊを１に設定する。ス
テップ３０８において、第一の副ループ内で、二つのワ
ードａ_jおよびｂ_iを乗算する。前の桁上げおよび前のｃ
_jにその積を加える。このルーチンを通る最初のパスに
おいて、桁上げおよびｃ_jの初期値が０とする必要があ
る。その結果のうち、下位側のワードをｃ_jとして記憶
し、その結果の上位側のワードを次の桁上げとして使用
する。ステップ３０９においてａ_jの最後のワードを検
出するまで、ステップ３１０においてｊを増分すること
によって第一の副ループを繰り返し、ステップ３０９に
おいてａ_jの最後のワードを検出すると、第一の副ルー
プを終了する。第二の副ループを開始する前に、ステッ
プ３１１において、ｃ_jに乗じるとｃ_jの最下位ワードを
全て「０」とする特別換算値を計算し、ｊを２に設定す
る。その後、ステップ３１２において、特別換算値に除
数ｎ_jを乗じ、前の桁上げおよびｃ_jに加える。その結果
のうち下位側のワードをｃ_j-1として記憶し、その結果
の上位側のワードを次のけた上げとして使用する。ステ
ップ３１３においてｃ_jの最後のワードを検出するま
で、ステップ３１４においてｊを増分することによって
第二の副ループを繰り返し、ステップ３１３においてｃ
_jの最後のワードを検出すると、第二の副ループを終了
する。第二の副ループが終了すると、ステップ３１６に
おいてｉを増分し、ｂ_iの最後のワードが主ループを通
過するまで主ループを繰り返す。次に、ステップ３１７
において、ｎに関するｃ _jの最終結果の剰余値が得られ
る。ステップ３１８において、モントゴメリー乗算ルー
チンが終了する。図９には、両方の被乗数が４ワード長
であるａ_jとｂ_iのモントゴメリー乗算の一例が示されて
いる。この例において、前の値すべての組み合わせを示
すために記号Σを使用している。

【００７４】図６のモントゴメリー乗算ルーチンは、乗
算の部分積のいくつかが等しいことを認識して二乗計算
のために応用すると、スピードアップをすることができ
る。特に、被乗数ａ_jが被乗数ｂ_iに等しい場合、すなわ
ち、二乗処理の場合、通常、乗算の様々な成分の部分積
が繰り返されるであろう。たとえば、ａ₂とｂ₃の部分積
は、ａ₃とｂ₂の部分積に等しい。図９に示されているよ
うに、これらの部分積の両方が第三回目の主ループ反復
時に発生する。したがって、最初にその部分積に出会っ
た時、第二回目の発生を考慮してその部分積に２を乗じ
ることができ、第二の部分積の乗算を完全にスキップす
ることができる。２の乗算は、二進数での一回の左シフ
トを構成するので、全数計算による乗算処理よりかなり
速い。前記指数ビットスキャンルーチンの処理により、
指数剰余演算装置２０によって多数の二乗処理が実行さ
れ、二乗処理の速度の増加が、特定の指数剰余演算の全
体的な処理時間にかなり影響を及ぼすことが理解される
べきである。

【００７５】図７には、ステップ４０１で呼び出される
二乗スピードアップサブルーチンを説明するフローチャ
ートが示されている。最初、ステップ４０２においてｊ
をｉに等しく設定する。これは、図６の主ループの最初
の反復においては１である。しかし、その後の主ループ
の反復においては、ｊがｉの最後の値で始まるので、す
でに出て来た部分積の処理をスキップできることは明ら
かである。ステップ４０３において、ｉとｊを比較す
る。ｉがｊに等しければ、ステップ４０５において係数
を１に設定する。ｉとｊが等しくなければ、ステップ４
０４において係数を２に設定する。その後、ステップ４
０６において、ａ_jおよびｂ_iならびに係数を乗算し、前
の桁上げおよびｃ_jにその積を加える。図６のステップ
３０８のように、その結果のうち下位側のワードをｃ_j
として記憶し、その結果の上位側のワードを次の桁上げ
として使用する。乗算ステップ４０６の完了後、ステッ
プ４０８においてｊを増分し、ｂ_jの最後のワードがル
ープを通過するまでループを繰り返す。ｂ_jの最後のワ
ードがループを通過するとステップ４０９において二乗
スピードアップサブルーチンが終了する。図６のステッ
プ４１０において、第一の副ループのすぐ後でモントゴ
メリー乗算ルーチンが再開する。二乗フラグを設定する
と、モントゴメリー乗算ルーチンの主ループの反復ごと
に第一の副ループの代わりに二乗スピードアップサブル
ーチンが動作する。

【００７６】モントゴメリー乗算ルーチンをより効率的
に実行するために、専用処理を行うように乗算器２８
ａ、２８ｂを調整する。特に、乗算器２８ａ、２８ｂ
は、（二乗スピードアップルーチンによって使用され
る）２を乗じるための特定機能と、ａ＊ｂ＋ｃ関数を実
行するための特定機能と、より上位側ｎビットを桁上げ
レジスタに残しながら２ｎビットの結果に関してmod２ⁿ
関数を実行するための特定機能とを含む。

【００７７】図１０は、本発明を実施することができる
システムアーキテクチャのブロック図である。本実施形
態において、このシステムは、ＡＳＩＣ５００で実現さ
れる。ＡＳＩＣ５００は、本発明を実現するのに必要な
処理を実行するプロセッサ５０２を備えたＣＰＵ１２を
含む。一実施形態において、プロセッサ５０２は、ＩＢ
Ｍ^TMコーポレーション（IBM^TM Corporation）から市場
において入手可能なＲＩＳＣ（縮小命令セットコンピュ
ータ）ＰＯＷＥＲＰＣ^TM４０１コアプロセッサからな
る。プロセッサ５０２は、インタフェース５０４および
ウォッチインタフェース５０６を提供し、外部ＦＬＡＳ
Ｈメモリ／ＳＲＡＭメモリとのインタフェースモジュー
ル５２０および３２ビット外部メモリインタフェース５
２２を介して命令を得る。インタフェース５０４および
ウォッチインタフェース５０６は、誤り検出およびデバ
ッグ機能を備えている。性能を向上させるために、プロ
セッサ５０２は、データキャッシュ５０８および命令キ
ャッシュ５１０を備えており、ＡＳＩＣモジュールバス
５２４とのデータ入出力インタフェースを持っている。
ＡＳＩＣ５００インタフェースロジック２２は、４ビッ
ト外部インタフェース５１８を備えた汎用Ｉ／Ｏモジュ
ール５１６と、外部メモリインタフェースモジュール５
２０および外部メモリインタフェース５２２と、ＰＣＩ
インタフェースモジュール５１２およびＰＣＩインタフ
ェース５１４とを含む。ＰＣＩインタフェース５１４
は、通常３３ＭＨｚで動作する３２ビットデータチャネ
ルを提供する。ＰＣＩインタフェースモジュール５１２
は、効率的なデータ転送のためのビルトインした先入れ
先出し（ＦＩＦＯ）入出力バッファを含めて、ＰＣＩイ
ンタフェースＩ／Ｏおよびコマンドプロトコルに従って
必要な処理を行う。ＡＳＩＣ５００における他のモジュ
ール間のデータ転送は、ＡＳＩＣモジュールバス５２４
により行われる。

【００７８】ＡＳＩＣ５００は、任意に、鍵生成および
パディングのための高速専用乱数発生器５２６を含む。
また、本件に記載する原理に従って、ＡＳＩＣ５００
は、指数剰余演算装置２０を含む。指数剰余演算装置２
０は、一対の並列処理ユニット２４ａ、２４ｂを含んで
いる。

【００７９】図１１は、処理ユニット２４ａ、２４ｂ、
関連ＲＡＭ２５のより詳細な図である。処理ユニット２
４ａ、２４ｂは、乗算器６０２、プリロードレジスタ６
０４およびマルチプレクサ６０６を含む。制御ユニット
２６ａ、２６ｂは、乗算器６０２、プリロードレジスタ
６０４、メモリ２５、およびマルチプレクサ６０６に結
合されており、クロック６０８により与えられるクロッ
ク信号に従って、これらそれぞれのデバイスの処理を制
御する。

【００８０】できるだけ速く、好ましくは、３３ＭＨｚ
クロック速度において５ｍｓ未満で、指数剰余演算など
の1,024ビットのＲＳＡ計算を実行できることが望まし
い。上記に説明したようにビット数低減処理により1,02
4ビットのＲＳＡ計算を５１２ビットの計算に低減する
ことができるが、５ｍｓ間隔以内に２回の５１２ビット
の計算を実行するという問題が依然としてある。

【００８１】通常、乗算器６０２は、乗算すべき入力デ
ータを入出力する６４ビットバスを含む。しかし、その
ような設計では、６４ビットバスによりデータを入出力
するのに必要となるクロック数が、３３ＭＨｚクロック
で５ｍｓの計算速度を維持するには大きすぎる。本発明
は、乗算器６０２がプリロードレジスタに結合された５
１２ビット乗算器入力ポートを持ち、効率的な計算プロ
トコルを適用する制御ユニット２４とを含む独特のアー
キテクチャで、この高速化機能を提供し、５１２×５１
２ビットの乗算を効率的に実行する。さらに、モントゴ
メリー乗算を実行するのに必要な計算が予測可能である
ので、制御ユニット２６ａ、２６ｂは、クロックサイク
ルを最小にする計算プロトコルを適用し、新たな数をプ
リロードレジスタに入力する。

【００８２】上記構成によれば、乗算器６０２は、Ｎビ
ット容量の第１の入力ポート６１０と、Ｋ＊Ｎ（以下Ｋ
Ｎ）ビット容量の第２の入力ポート６１２とを含む。こ
こで、ＮおよびＫは１より大きい整数である。例示され
た実施形態では、第１の入力ポートが６４ビット並列入
力ポートであり、第２の入力ポートが５１２ビット並列
入力ポートである状態とし、Ｎ＝６４およびＫ＝８のシ
ステムを示している。乗算器の第１の入力ポート６１０
の容量が乗算器の第２の入力ポート６１２の容量より小
さくなるように選択することにより、乗算器６０２のス
ループットに実質的な影響を及ぼさずにシステム規模増
大を抑制することができる。これは、乗算を実行してい
る間、４クロックごとに第一の入力ポート６１０の数
（被乗数「ｂ」）の６４ビットデータを処理するだけて
良いからである。

【００８３】連続の乗算処理においてポート６１２の被
乗数「ａ」の値を制御するために、マルチプレクサ６０
６および制御ユニット２６ａ、２６ｂによる選択制御
下、（乗算器出力ポート６１４を介して乗算器６０２か
ら、または、メモリ出力ポート６１６を介してメモリ２
５から、プリロードレジスタ６０４へ入力データ（被乗
数「ａ」を表わす入力データ）を与えることができる。
ここで、モントゴメリーアルゴリズムは、次の計算の
「ａ」の望ましい値が、先行する乗算の「ａ」の値とし
ばしば同じであるという性質があることが知られてい
る。（たとえば、図９を参照）。そのような場合、プリ
ロードレジスタ６０４は、「ａ」の新たな値が必要では
なく、制御ユニット２６ａ、２６ｂは、プリロードレジ
スタの前の「ａ」の値を維持し、必要な時にその値を乗
算器６０２に与える。また、すぐに必要な結果がメモリ
２５に対して入出力できるように、乗算器出力ポート６
１４からプリロードレジスタ６０４までのデータパスが
設けられており、必要な場合のみ被乗数「ａ」のデータ
のトラフィックが発生することとなりメモリバストラフ
ィックが低減する。

【００８４】第１の数（「ｂ」）がメモリ２５に記憶さ
れており、第２の数（「ａ」）がプリロードレジスタ６
０４にロードされていると仮定すると、ａ＊ｂの乗算
は、以下のように行われる。第１のクロックサイクルに
おいて、第２の数（「ａ」）の全５１２ビット値を、プ
リロードレジスタ６０４から乗算器６０２に入力する。
次に、第１の数（「ｂ」）の最初の６４ビット分のデー
タを乗算器６０２にロードする。次に、次の３クロック
サイクルにわたって、６４ビットの第１の数（「ｂ」）
に５１２ビットの第２の数（「ａ」）を乗じる処理を実
行する。次に、第１の数（「ｂ」）の次の６４ビット分
のデータを乗算器６０２にロードし、「ｂ」のその部分
に５１２ビットの第２の数（「ａ」）を乗じる。被乗数
「ｂ」の全ビットに被乗数「ａ」の全ビットを乗じる処
理が終了するまで、このプロセスを繰り返す。「ｂ」の
全ビットをロードし、「ｂ」の全ビットに「ａ」の全ビ
ットを乗じるには、８×４＝３２クロックサイクルが必
要である。その後、乗算器６０２の内部処理に必要な４
クロックサイクル後、さらに次の８クロックサイクルの
期間、第１の数（「ｂ」）と第２の数（「ａ」）の積の
最下位５１２ビットのデータを６４ビットずつ出力す
る。その積の最上位５１２ビットは、乗算器６０２に残
り、さらなる桁上げ処理に用いられる。したがって、
「ａ」と「ｂ」の積を決定するのに、合計４５クロック
サイクルが必要である。

【００８５】プリロードレジスタ６０４から乗算器６０
２までのデータチャネル６２２は、５１２ビットである
が、メモリ２５を含む他の入出力ポートのバス容量はす
べて、６４ビットだけである。したがって、プリロード
値（新たな「ａ」の値）が必要である場合、メモリ２５
からの値を６４ビットデータチャネルからプリロードレ
ジスタ６０４にロードするのに、通常、付加的な８クロ
ックサイクルが必要である。これは、新たな「ａ」の値
を必要とする乗算の場合、処理を完了するのに必要なク
ロックサイクルの数が４５＋８＝５３であることを意味
する。この問題を回避するために、本発明の制御ユニッ
ト２６ａ、２６ｂは、新たな「ａ」の値が必要となると
予測される場合、異なったコマンドプロトコルを呼び出
して使用する。このプロトコルは、６４ビットの「ｂ」
値を各々、乗算器６０２に供給した後、３クロックの
間、６４ビット入力バスを利用し、次の「ａ」の予測値
を先にプリロードレジスタ６０４にプリフェッチしてお
くことにより処理に必要な全体のクロックサイクル数低
減を図る。つまり、乗算器６０２への「ｂ」値の入力に
続くクロック期間中、次の乗算に必要な予測値をメモリ
２５からフェッチし、プリロードレジスタ６０４に先に
送っておく。ここで、「ａ」の予測値は、「ｂ」値のみ
を変化させながら、同じ「ａ」値を用いる可能性が高い
というモントゴメリー乗算ルーチンの性質による。

【００８６】図１２は、上記論理を示すタイミング図で
ある。タイミングチャート７０２は、クロック６０８か
らの信号を表す。タイミングチャート７０４は、「ｂ」
の値をメモリ２５から乗算器６０２に供給する場合のク
ロックサイクルを示す。メモリ２５の出力ポート６１６
と乗算器の第一の入力ポート６１０とを接続しているバ
スが６４ビットバスであるので、５１２ビットの数
「ｂ」の値を６４ビット分ずつ乗算器６０２に供給す
る。したがって、タイミングチャート７０４に示した位
置７０８は、５１２ビットの数「ｂ」の最初の６４ビッ
トを乗算器の第一の入力ポート６１０を介して乗算器６
０２に転送する場合を示す。「ｂ」値の最初の６４ビッ
トを乗算器６０２に転送したクロックパルス後のクロッ
クパルスにおいて、次の乗算の「ａ」の予測値の６４ビ
ットデータをプリロードレジスタ６０４にプリロードさ
せるためにメモリ２５からプリフェッチして転送する。
これは、タイミングチャート７０６上のパルス７１０に
示されている。上記は、「ｂ」の情報をロードしたサイ
クル後、必要数のサイクルを発生するパルス７１０によ
って実現することもできる。このプロセスは、「ｂ」を
表わす全ビットを乗算器６０２にロードし、新たな
「ａ」値を表わす全ビットをプリロードレジスタ６０４
にプリロードするまで繰り返す。

【００８７】図１３および図１４は、本発明の一実施形
態の乗算処理を示すフローチャートである。最初に、ブ
ロック８０２に示されているように、「ａ」のＫＮビッ
トをプリロードレジスタ６０４から乗算器６０２の第２
の入力ポート６１２へ与える。これは１クロックパルス
で行われる。次に、１クロックパルスで「ｂ」のＮビッ
トを乗算器６０２の第一の入力ポート６１０に与える。
これは、ブロック８０４に示されている。

【００８８】モントゴメリーアルゴリズムにおいて、オ
ペランド「ａ」は、連続的計算によく用いられ、過去の
値から予測することもできる。この性質のため、連続計
算における「ａ」の値を予測することができる。次の計
算における「ａ」の新たな値が予測されると、１クロッ
クで、予測された「ａ」の値のＮビットをメモリ２５か
らプリロードレジスタ６０４に与える。これは、「ｂ」
のＮビットを乗算器に与えるパルスに続くクロックパル
スで行うことができ、ブロック８０６および８１４に示
されている。図１２に関して上述したように、この時、
メモリ２５から予測された「ａ」の値を与えることによ
り、新たな「ａ」の値に関するデータフローエラーの可
能性が最小になる。「ａ」の新たな値が予想されなけれ
ば、ロジックは、ブロック８０６からブロック８０８に
進み、「ａ」のＫＮビットに「ｂ」のＮビットを乗じる
乗算処理を実行する。

【００８９】このプロセスは、ブロック８１０に示され
ているように、「ｂ」の全ＫＮビットに「ａ」の全ＫＮ
ビットを乗じると完了し、ブロック８１２示されている
出力数を生じる。次に、図１４のブロック８１４に示さ
れているように、１クロックパルスで、出力数のＮビッ
トを乗算器出力ポートに与える。次の乗算に乗算器６０
２からの現在の出力値が必要であれば、出力数のＮビッ
トをプリロードレジスタ６０４に与える。これは、ブロ
ック８１６および８１８に示されている。現在の出力値
が必要でなければ、ロジックがブロック８２０に進み、
出力数のＮビットをメモリ２５に与える。ブロック８２
２に示されているように、ブロック８１４から８２２に
おいて行われた処理は、出力数の全ＫＮビットをメモリ
２５に与えるまで繰り返す。

【００９０】上記技術を用いると、乗算器６０２は、乗
算に加えて、「ａ」および「ｂ」の多くの処理を効率的
に行うことができる。これらの処理は、下記の表１に示
されている。

【００９１】

【表１】

【００９２】以上、乗算処理を用いる計算装置のデータ
処理を高速化する乗算装置および方法を説明した。この
装置は、ＫＮビット幅バスを介して乗算器に結合された
プリロードレジスタを用いて、１クロックパルスで被乗
数「ａ」の値をプリロードレジスタから乗算器にロード
する。被乗数「ｂ」（ＫＮビット長）を、一度にＮビッ
トずつ、Ｎビット幅バスを介してメモリから乗算器に供
給する。乗算器は、被乗数「ｂ」の全ＫＮビットに被乗
数「ａ」のＫＮビットを乗じるまで、「ｂ」のＮビット
データに「ａ」のＫＮビットデータを乗じる。

【００９３】この方法では、１クロックパルスで被乗数
「ａ」のＫＮビットをプリロードレジスタから乗算器に
与える。次に、１クロックパルスで被乗数「ｂ」のＮビ
ットを乗算器に与える。次に、被乗数「ｂ」のＫＮビッ
トをＮビット幅バスによりＮビットずつ第１の乗算器入
力ポートに与え、被乗数数「ａ」のＫＮビットに対して
被乗数「ｂ」をＮビットずつを繰り返し乗じる。被乗数
「ｂ」のＫＮビット分のデータすべてを被乗数「ａ」に
対して乗算する処理が完了すると、ＫＮビットの被乗数
「ａ」とＫＮビットの被乗数「ｂ」との乗算結果出力が
得られる。次に、出力データを一度にＮビットずつメモ
リに伝送する。

【００９４】なお、上記説明において、一例としてＫ＝
８、Ｎ＝６４ビットとしたが、これらの数値に限られな
いことは言うまでもない。

【００９５】モントゴメリーアルゴリズムの性質に従っ
て、本発明の一実施形態では、現在の被乗数「ａ」およ
び「ｂ」の乗算処理を実行している間、被乗数「ａ」の
予測値をプリロードレジスタにロードする。この技術に
より、これらのパラメータをロードして乗算するために
必要なクロックサイクルをさらに低減させることができ
る。

【００９６】また、本発明の範囲および思想内で計算的
に効率的な乗算器の様々な変形、適応、代替的な実施の
形態が構成されてもよいことが理解されるべきである。
たとえば、本発明は、専用プロセッサで実現される暗号
システムに非常に適しているが、非暗号システムにおい
ても有用であり、また、汎用プロセッサで実現してもよ
い。そのような場合、本発明を実現する命令のコンピュ
ータ実行可能なプログラムを一つ以上、フロッピーディ
スクなどのコンピュータ読み取り可能なプログラム記憶
装置または他の記憶媒体に取り入れてもよい。

【００９７】

【発明の効果】本発明の乗算処理を用いる計算装置のデ
ータ処理を高速化する方法によれば、ＫＮビットの被乗
数「ａ」とＫＮビットの被乗数「ｂ」との乗算処理を効
率的かつ高速に実行して当該暗号システムに与えること
ができ、当該暗号システム装置の暗号復号処理を高速化
することができる。

【００９８】本発明の乗算処理を用いる計算装置のデー
タ処理を高速化する装置によれば、ＫＮビットの被乗数
「ａ」とＫＮビットの被乗数「ｂ」との乗算処理を効率
的かつ高速に実行して当該暗号システムに与えることが
でき、当該暗号システム装置の暗号復号処理を高速化す
ることができる。

【図面の簡単な説明】

【図１】暗号システム内の指数剰余演算装置の典型的
な適用例のブロック図である。

【図２】指数剰余演算装置のブロック図である。

【図３】指数剰余演算装置によって実行される機能の
システムレベルのフローダイアグラムである。

【図４】指数剰余演算装置によって実行される指数ビ
ットスキャン処理を示すフローチャートである。

【図５】図４の指数ビットスキャン処理の様々な段階
の指数レジスタのブロック図である。

【図６】指数剰余演算装置によって実行される乗算処
理を示すフローチャートである。

【図７】図６の乗算処理と関連して実行される二乗処
理を示すフローチャートである。

【図８】図４のフローチャートに従う典型的な指数ビ
ットスキャン処理を示すチャートである。

【図９】図６および図７のフローチャートに従う典型
的な乗算および二乗処理を示すチャートである。

【図１０】本発明を実施するのに用いることができる
システムアーキテクチャを示すブロック図である。

【図１１】乗算器および関連モジュールの一実施形態
を示すブロック図である。

【図１２】予測被乗数のプリロードを示すタイミング
図である。

【図１３】乗算処理を示すフローチャートである。

【図１４】乗算処理を示すフローチャートである。

【符号の説明】１０暗号システム１２ＣＰＵ１４，２５ＲＡＭ１６ＲＯＭ２０指数剰余演算装置２２インタフェース回路２４乗算処理部２５メモリ２６制御ユニット２８乗算器３２レジスタ３４ウィンドウ５００ＡＳＩＣ６０２乗算器６０４プリロードレジスタ６０６マルチプレクサ

Claims

【特許請求の範囲】

【請求項１】ＫＮビットで表すことができる第１の数
とＫＮビットで表すことができる第２の数の乗算を実行
し、乗算処理を用いる計算装置のデータ処理を高速化す
る方法であって、１クロックパルスで前記第２の数のＫＮビット分のデー
タをプリロードレジスタから乗算器の第２の入力ポート
に与える第２の数のＫＮビットデータロード処理ステッ
プと、１クロックパルスでメモリから前記第１の数のＫＮビッ
トデータのうちＮビット分のデータを取り出して乗算器
の第１の入力ポートに与える第１の数のＮビットデータ
ロード処理ステップと、前記第２の数のＫＮビットデータと前記第１の数のＮビ
ットデータとを乗じる乗算処理ステップを備え、前記第１の数のＮビットデータロード処理ステップと前
記乗算処理ステップとをＫ回繰り返し、前記第１の数の
ＫＮビットデータすべてがメモリから読み出されて乗算
処理されるまで繰り返して、前記第１の数と前記第２の
数の乗算結果を生成し、前記計算装置に出力することを
特徴とする乗算を用いる計算装置のデータ処理高速化方
法。
【請求項２】前記計算装置が採用しているアルゴリズ
ムから予測される次のＫＮビットの第２の数を検知する
処理ステップと、前記第１の数のＮビットデータロード処理ステップの
後、１クロックパルスで前記次の第２の数の予測値デー
タのうちＮビット分のデータを前記メモリから取り出し
て前記プリロードレジスタに与える予測値プリロード処
理ステップを備え、前記予測値プリロード処理ステップをＫ回繰り返し、前
記第２の数の予測値のＫＮビットデータすべてがメモリ
から読み出されてプリロードレジスタにプリロードされ
るまで繰り返す請求項１に記載の乗算を用いる計算装置
のデータ処理高速化方法。
【請求項３】１クロックパルスで前記第１の数と前記
第２の数の乗算結果のうちＮビット分のデータを取り出
して乗算器出力ポートに与える出力処理ステップを備
え、前記出力処理ステップをＫ回繰り返し、前記乗算結果の
ＫＮビットデータすべてが前記乗算器から出力されるま
で繰り返す請求項１に記載の乗算を用いる計算装置のデ
ータ処理高速化方法。
【請求項４】１クロックパルスで前記第１の数と前記
第２の数の乗算結果のうちＮビット分のデータ出力を前
記メモリに与えるメモリ書き込み処理ステップを備え、前記メモリ書き込み処理ステップをＫ回繰り返し、前記
乗算結果のＫＮビットデータすべてが前記メモリに与え
られるまで繰り返す請求項１に記載の乗算を用いる計算
装置のデータ処理高速化方法。
【請求項５】前記計算装置が採用しているアルゴリズ
ムから予測される次のＫＮビットの第２の数を検知する
処理ステップと、１クロックパルスで前記第１の数と前記第２の数の乗算
結果のうちＮビット分のデータ出力を前記メモリに与え
るメモリ書き込み処理ステップと、前記第１の数のＮビ
ットデータロード処理ステップの後、前記次の第２の数
の予測値データのうちＮビット分のデータを前記メモリ
から取り出して前記プリロードレジスタに与える予測値
プリロード処理ステップを備え、前記メモリ書き込み処理ステップと予測値プリロード処
理ステップをＫ回繰り返す請求項１に記載の乗算処理を
用いる計算装置のデータ処理高速化方法。
【請求項６】前記メモリの出力ポート、前記乗算器の
出力ポート、および前記プリロードレジスタに結合され
たマルチプレクサを介して、前記メモリ出力のポートお
よび前記乗算器の出力ポートから選択的に前記第２の数
を前記プリロードレジスタに与える請求項４に記載の乗
算処理を用いる計算装置のデータ処理高速化方法。
【請求項７】１クロックパルスで前記第２の数のＫＮ
ビットデータのうちＮビット分のデータを前記メモリか
ら取り出して前記プリロードレジスタに与えるプリロー
ド処理ステップを備え、前記プリロード処理ステップをＫ回繰り返し、前記第２
の数のＫＮビットデータすべてがメモリから読み出され
てプリロードレジスタにプリロードされるまで繰り返す
請求項１に記載の乗算処理を用いる計算装置のデータ処
理高速化方法。
【請求項８】ＫＮビットで表すことができる第１の数
とＫＮビットで表すことができる第２の数の乗算を実行
し、乗算処理を用いる計算装置のデータ処理を高速化す
る装置であって、前記第１の数を受け取る第１の入力ポートと第２の数を
受け取る第２の入力ポートと、前記第１の数と第２の数
を乗算して結果を出力する出力ポートを備えた乗算器
と、第１の数のＫＮビットデータと第２の数のＫＮビットデ
ータを含み、第１のＮビットデータチャネルを介して前
記乗算器出力ポートからデータを受け取るメモリ入力ポ
ートと、第２のＮビットデータチャネルを介して前記乗
算器の第１の入力ポートにデータを与えるメモリ出力ポ
ートとを備えたメモリと、入力ポートと出力ポートを備え、ＫＮビットデータチャ
ネルの出力ポートを介して前記乗算器の第２の入力ポー
トに与える前記第２の数を記憶するプリロードレジスタ
と、１クロックパルスで前記第２の数のＫＮビット分のデー
タを前記プリロードレジスタから前記乗算器の第２の入
力ポートに与える第２の数のＫＮビットデータロード機
能と、１クロックパルスで前記メモリから前記第１の数のＫＮ
ビットデータのうちＮビット分のデータを取り出して前
記乗算器の第１の入力ポートに与える第１の数のＮビッ
トデータロード機能と、前記第２の数のＫＮビットデータと前記第１の数のＮビ
ットデータとを前記乗算器において乗じる乗算処理機能
を備え、前記第１の数のＮビットデータロード処理と前記乗算処
理とをＫ回繰り返し、前記第１の数のＫＮビットデータ
すべてがメモリから読み出されて乗算処理されるまで繰
り返して、前記第１の数と前記第２の数の乗算結果を生
成し、前記暗号符号復号化装置に出力することを特徴と
する乗算処理を用いる計算装置のデータ処理高速化装
置。
【請求項９】前記乗算器出力ポートからの出力が、前
記プリロードレジスタの入力ポートに伝達的に結合され
ている請求項８に記載の乗算処理を用いる計算装置のデ
ータ処理高速化装置。
【請求項１０】前記メモリの出力ポートからの出力
が、前記プリロードレジスタの入力ポートに伝達的に結
合されている請求項８に記載の乗算処理を用いる計算装
置のデータ処理高速化装置。
【請求項１１】前記プリロードレジスタ、前記乗算器
出力ポート、および前記メモリ出力ポート間の伝達的結
合を選択的に制御するマルチプレクサを介して、前記乗
算器出力ポートからの出力と、前記メモリ出力ポートか
らの出力が、前記プリロードレジスタに伝達的に結合さ
れている請求項８に記載の乗算処理を用いる計算装置の
データ処理高速化装置。
【請求項１２】ＫＮビットで表すことができる第１の
数とＫＮビットで表すことができる第２の数を乗算する
乗算装置であって、Ｎビット幅チャネルの第１の入力ポ
ートと、ＫＮビット幅の第２の入力ポートと、出力ポー
トを備え、１クロックパルスで前記第２の数のＫＮビットデータを
前記乗算器の第２入力ポートを介して入力する第２の数
の入力手段と、１クロックパルスで前記第１の数のＫＮビットデータの
うちＮビットデータを前記乗算器の第１の入力ポートを
介して入力する第１の数の入力手段と、前記第２の数のＫＮビットデータと前記第１の数のＮビ
ットデータを乗ずる乗算処理手段と、前記乗算処理手段をＫ回繰り返し、前記第１の数の全Ｋ
Ｎビットデータが前記第２の数の全ＫＮビットデータと
乗算処理を行ない、乗算結果出力を生成することを特徴
とする乗算装置。
【請求項１３】前記出力の全ＫＮビットを前記乗算器
の出力ポートに与えるまで、前記出力のＮビットを１ク
ロックパルスで前記乗算器の出力ポートに繰り返し与え
る出力手段を備えた請求項１２に記載の乗算装置。
【請求項１４】メモリ出力ポート、前記乗算器出力ポ
ート、および前記プリロードレジスタに結合されたマル
チプレクサを介して、前記メモリ出力ポートおよび前記
乗算器出力ポートから選択的に前記第２の数を前記プリ
ロードレジスタに与える請求項１３に記載の乗算装置。
【請求項１５】前記出力の全ＫＮビットを前記プリロ
ードレジスタおよび前記メモリに与えるまで、１クロッ
クパルスで前記出力のＮビットを前記プリロードレジス
タおよび前記メモリに繰り返し与える手段をさらに備え
た請求項１２に記載の乗算装置。
【請求項１６】前記第２の数の全ＫＮビットを前記プ
リロードレジスタに与えるまで、１クロックパルスで前
記第２の数のＮビットデータを前記メモリから前記プリ
ロードレジスタに繰り返し与える手段を備えた請求項１
２に記載の乗算装置。
【請求項１７】次のＫＮビットの第２の数を予測する
手段と、前記第２の数の予測値データを保持するプリロ
ードレジスタと、前記第１の数の入力手段実行後、１クロックパルスで前
記第２の数の予測値データのうちＮビット分のデータを
前記メモリから取り出して前記プリロードレジスタに与
える予測値プリロード入力手段を備え、前記予測値プリロード入力手段をＫ回繰り返し、前記第
２の数の予測値のＫＮビットデータすべてがメモリから
読み出されて前記プリロードレジスタにプリロードされ
るまで繰り返す請求項１２に記載の乗算装置。
【請求項１８】第１の数を受け取る第１の入力ポート
と、第２の入力数を受け取る第２入力ポートと、Ｋクロ
ックサイクルにわたって計算された前記第１の数と前記
第２の数の積の出力を与える乗算器出力ポートとを備え
た乗算器と、前記乗算器出力ポートに結合された入力ポートと、前記
乗算器の第１の入力ポートに結合された出力ポートとを
備えた前記第１の数および第２の数を記憶するメモリ
と、Ｋクロックサイクルにわたって前記第２の数を受け取っ
て記憶し、１サイクルで前記第２の数を前記乗算器の第
２の入力ポートに出力するプリロードレジスタとを備え
たことを特徴とする乗算装置。
【請求項１９】前記プリロードレジスタ、前記乗算器
出力ポート、および前記メモリ出力ポート間の伝達的結
合を選択的に制御するマルチプレクサを介して、前記プ
リロードレジスタが前記乗算器出力ポートおよび前記メ
モリ出力ポートに伝達的に結合されている請求項１８に
記載の乗算装置。