JP3406914B2

JP3406914B2 - 演算装置及びこれを備えた暗号化装置、復号装置

Info

Publication number: JP3406914B2
Application number: JP22598691A
Authority: JP
Inventors: 恵市岩村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1991-09-05
Filing date: 1991-09-05
Publication date: 2003-05-19
Anticipated expiration: 2018-05-19
Also published as: JPH0568032A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は２つの整数を乗算し、そ
の結果をさらに他の整数で除算した剰余を求める演算、
すなわち、整数Ａ、Ｂ、Ｎに関して、Ａ・Ｂ mod Ｎの
剰余乗算を行う整数の演算装置に関する。特に、ＲＳＡ
暗号（池野信一，小山謙二：“現代暗号学”，電子情報
通信学会，1986，６章参照）のような暗号化技術に好適
な大きな桁の整数の剰余乗算を行う演算装置に関するも
のである。

【０００２】また、本発明は上記演算装置を用いた暗号
化によって行われる、コンピュータネットワークにおけ
るホームバンク，ファームバンク，及び電子メールや電
子郵便などの様々な通信サービスに用いられる暗号化通
信方法に関する。

【０００３】

【従来の技術】近年、コンピュータネットワークを用い
た情報通信システムの急速な進展とともに、データ内容
の保護を目的とする暗号化技術の重要性が高まってきて
いる。特にネットワークの高速化・大容量化が進展する
中で、高速な暗号化技術が不可欠になりつつある。

【０００４】従来、暗号には、公開鍵暗号系と共通鍵暗
号系とがあることが知られている。中でも、公開鍵暗号
系は、鍵の管理が用意であり、デジタル署名が可能であ
るという共通鍵暗号系にない特徴を持つ暗号系として、
注目を集めている。

【０００５】ＲＳＡ暗号は、公開鍵暗号系の代表的な暗
号であり、現時点では、最も有力な公開鍵暗号であると
みなされている。

【０００６】ＲＳＡ暗号は、べき乗剰余演算：Ｒ＝Ｍ^e
mod Ｎ（Ｒ，Ｍ，Ｎ，ｅは整数）によって演算される。
べき乗剰余演算は剰余乗算：Ｄ＝Ａ・Ｂ mod Ｎ（Ａ，
Ｂ，Ｄは整数）の繰り返しによって実現される。しか
し、ＲＳＡ暗号において、不正な解読に対する安全性を
確保するには、Ｎ、ｅは５１２ビット以上必要であり、
その計算量は、莫大なものとなっている。

【０００７】従来、整数Ａ、Ｂ、ＮによるＲ＝Ａ・Ｂ m
od Ｎの演算を行う大きな桁の整数の剰余乗算回路の方
式は大きく２つに分けられる。１つは剰余乗算をＣ＝Ａ
・Ｂの乗算とＤ＝Ｃ mod Ｎの剰余計算の２つに分けて
実行する方式であり、もう１つはＡを１ビット毎に分割
したａn-i(i=1・・・n)に対してＲ＝２・Ｒ＋ａn-i・Ｂ mod
Ｎ(i=1・・・n) の部分積演算と剰余演算をｎ回繰り返す
方式である。

【０００８】

【発明が解決しようとしている課題】前者の方式は乗算
回路と剰余計算回路をパイプライン化した構成を取るこ
とが多く、構成及び制御が比較的簡単である。しかし、
この方式は乗算結果Ｃを一旦蓄えるメモリや乗算と剰余
計算の回路を独立に持つ必要があり、小さな回路規模で
装置を実現することは困難であった。

【０００９】また、後者の方式は部分積演算とそれに対
する剰余演算であるので回路は比較的コンパクトにまと
めることができる。しかし、１回の部分積剰余演算に対
する桁上がり遅延時間の問題と、mod Ｎを実行するため
のＲ＞Ｎ判定をいかに行うか等の問題があった。

【００１０】また、乗算に関しては乗算器を用いずａn-
i ＝１の時のみ２・ＲにＢを加算することによって演算
を行うことが多く、この場合少なくともｎクロック以上
必要になり処理速度が低下すると言う問題点もあった。

【００１１】また、それを回避するために、Ａの分割を
ａn-i を複数ビットとした場合、大きな桁の乗算器や除
算器が必要になり、大きな桁数の乗算器や除算器はＲＯ
Ｍやセルライブラリ等がないといった問題があった。そ
して、大きな桁数の乗算器や除算器を自分で設計する場
合、小さな桁数の乗算器や除算器の回路構成をそのまま
拡張したのでは回路構成が非常に複雑になり実現が難し
かった。

【００１２】以上のように、従来の方式には種々の問題
点があり、効率的な剰余乗算回路の実現は難しかった。

【００１３】そこで、本発明は、上述の欠点を除去し、
大きな桁の整数に関する剰余乗算を、小さな回路規模で
効率よく高速に実行する演算装置及びこれを用いた暗号
化装置、復号装置を提供することを目的とする。

【００１４】

【課題を解決するための手段】上記目的を達成するため
に、本発明では、与えられた整数Ａ、Ｂの積を所定の整
数Ｎで除した剰余を演算する演算装置に、複数段の演算
部を備え、該複数段の演算部の各段に、値を保持する保
持手段と、前段の演算部の前記保持手段に保持された値
につき、前記整数Ｎの最大桁を越える部分の前記整数Ｎ
に対する剰余における各段の演算部毎に定められた所定
ビット部分を求める剰余演算手段と、前記整数Ｂを所定
ビット単位で順次入力して前記整数Ａの各段の演算部毎
に定められた所定ビット部分に乗じる乗算手段と、該乗
算手段による乗算結果の下位部分と、後段の演算部の前
記乗算手段による乗算結果の上位部分と、前段の演算部
の前記保持手段に保持された値の下位部分と、前々段の
演算部の前記保持手段に保持された値の上位部分と、前
記剰余演算手段の演算結果とを加算し、加算結果を前記
保持手段に保持させる加算手段とを備える。

【００１５】

【実施例】（実施例１）まず、ＲＳＡ暗号による通信方
法を説明する。通信しようとする平文をＭ，暗号文を
Ｃ，公開暗号鍵をｅ，復号鍵をｄ，公開された法をＮと
すると、暗号化と復号は次のようなべき乗剰余演算で表
される。

【００１６】暗号化：Ｃ＝Ｍ^e mod Ｎ復号：Ｍ＝Ｃ^d mod Ｎ従って、ＲＳＡ暗号の暗号化と復号は同様なべき乗剰余
演算回路によって実現できる。そこで、以下では暗号化
について説明する。

【００１７】べき乗剰余演算：Ｃ＝Ｍ^e mod Ｎは、単純
に２数の剰余乗算を行っても実現できるが、Ｍ、ｅが大
きいと、その計算量は莫大なものとなる。そのため、本
発明では、以下のアルゴリズムに従って計算を実行す
る。ただし、ｅはｋビットからなる整数であり、ｅ＝e
k,ek-1,・・・,e2,e1 で表されるとする。

【００１８】 INPUT Ｍ，ｅ，Ｎ（入力）Ｃ＝１（初期設
定） FOR i=k TO 1 IF ei＝１ THEN Ｃ＝Ｃ・Ｍ mod Ｎ（演算１） IF i ＞１ THEN Ｃ＝Ｃ・Ｃ mod Ｎ（演算２） NEXT

【００１９】従って、この場合、べき乗剰余演算は、Ｃ
＝Ｃ・Ｂ mod Ｎ（ＢはＭまたはＣ）の剰余乗算の繰り
返しによって実現される。そこで、この剰余乗算を効率
的に実行する回路について以下に説明する。は図１のご
とき回路によって実現できる。このアルゴリズムを効率
的に実行する回路を図２に示す。

【００２０】簡単のためにｎ・ｍビットの３つの整数を
Ａ，Ｂ，Ｎとし、Ａ・Ｂ mod Ｎ＝Ｒの演算を実行する
ことを考える。ここで、ｍビットの小さな桁の２つの整
数ａ，ｂの乗算ａ・ｂ＝ｃを実行する乗算器は公知の構
成によって簡単に実現できる。１例としてＲＯＭによっ
て簡単に構成できることは明らかである。

【００２１】Ａ，Ｂ，Ｎを各々ｍビット毎にｎ分割する
と、次のように表せる。

【００２２】Ａ＝Ａn-1・Ｘ^n-1 ＋Ａn-2・Ｘ^n-2 ＋・・・＋Ａ1・Ｘ＋Ａ0 Ｂ＝Ｂn-1・Ｘ^n-1 ＋Ｂn-2・Ｘ^n-2＋・・・＋Ｂ1・Ｘ＋Ｂ0 Ｎ＝Ｎn-1・Ｘ^n-1 ＋Ｎn-2・Ｘ^n-2＋・・・＋Ｎ1・Ｘ＋Ｎ0 ここで、Ｘ＝２^m とし、Ａ，Ｂ，Ｎについてｍビット毎
に上位桁から分割したビット系列を各々Ａn-i ，Ｂn-i
，Ｎn-i(i=1・・・n)とする。この場合Ａ，Ｂ，Ｎは多項
式とみなすことができ、Ｒ＝Ａ・Ｂ mod Ｎは次のよう
に表すことができる。

【００２３】Ｒ＝Ａ・Ｂ−Ｑ・Ｎ（Ｑ＝［Ａ・Ｂ／Ｎ］）ただし、［Ｚ］はＺを超えない整数を表す。

【００２４】従って、次のような方法によってＲを求め
ることができる。

【００２５】（アルゴリズム１）Ｒ0 ＝０ＦＯＲｊ＝１ＴＯｎＲj ＝Ｒj-1・Ｘ＋Ａn-j・Ｂ−Ｑj-1・Ｎ・Ｘ^y ＝Ｒj-1・Ｘ＋Ａn-j・Ｂ＋（Ｅj-1 ・Ｘ^y −Ｌj-1・Ｘ^n+x ）ＮＥＸＴＩＦＲn ＞ＮＴＨＥＮＲn ＝Ｒn −Ｑn・Ｎただし、Ｌj-1 ＝［Ｒj-1 ／Ｘⁿ ］Ｑj-1 ＝［Ｌj-1・Ｘⁿ⁺¹ ／Ｎ］，Ｑn ＝［Ｒn ／Ｎ］Ｌj-1・Ｘ^n+x ＝（Ｑj-1・Ｎ＋Ｅj-1 ）・Ｘ^y ( Ｅj-1 ＜Ｎ，x,y は任意の整数）アルゴリズム１はＲ＞Ｎの判定を行わないためにＮの最
大桁であるＸⁿを超えたＲj-1 の値Ｌj-1・Ｘ^n+x に対し
て、剰余をとっている。即ち、ビット的にＸ^n+x を超え
たＲの係数に対してmod Ｎを行っているのでＲ＞Ｎの判
定を必要としない。また、Ｌj-1・Ｘ^n+x mod Ｎ・Ｘ^y で
ある−Ｑj-1・Ｎ・Ｘ^y を実行する代わりに、Ｌj-1・Ｘ
^n+x を引いてその剰余であるＥj-1・Ｘ^y を加えている。
即ち、Ｌj-1 からＥj-1 を導出して加算している。これ
によって、剰余乗算に必要な減算をすべて加算で行うこ
とができる。

【００２６】ただしこの場合、最後に１度だけＲn ＞Ｎ
を判定して、Ｒn ＝Ｒn −Ｑn・Ｎの演算を行う必要があ
るが、これは上に示した繰り返し演算が終わった後であ
り、従来のように繰り返し演算の途中でＲ＞Ｎの判定を
行う必要がないので、別の回路等で行うことができ、全
体の処理速度には影響しない。

【００２７】また、Ｒj の演算に伴う遅延時間をなくす
ために、アルゴリズム１においてＲj をＲj,n-i 、Ｂを
Ｂn-i に分解して次のアルゴリズム２のように表現す
る。ここでx,y は任意の整数でよいが、以下では、x=y=
1 とした場合について説明する。

【００２８】（アルゴリズム２）ＦＯＲｊ＝１ＴＯｎＦＯＲｉ＝１ＴＯｎＲj,n-i ＝Ｄj-1,n-i ＋Ｃj-2,n-i ＋dwm （Ａn-j・Ｂn-i ）＋upm （Ａn-j-1・Ｂn-i ）＋Ｅj-1,n-i Ｄj,n-i ＝dwm （Ｒj,n-i ）Ｓj,n-i ＝upm （Ｒj,n-i ）Ｃj-1,n-i ＝Ｓj-1,n-i ＮＥＸＴＮＥＸＴただし、Ｒj-1,n・Ｘn ＝Ｑj-1・Ｎ＋Ｅj-1 ，Ｑj-1 ＝［Ｒj-1,n・Ｘn ／Ｎ］ (1) Ｅj-1 ＝Ｅj-1,n-1・Ｘn-1 ＋Ｅj-1,n-2・Ｘn-2 ＋・・・＋Ｅj-1,1・Ｘ＋Ｅj-1,0 (2) Ｄ0,n-i-1 ＝０，Ｃ0,n-i-1 ＝０，Ｅ0,n-i ＝０，Ｂn ＝Ｂ-1＝０ dwm （Ｚ）：Ｚの２m 桁以下の値 upm （Ｚ）：Ｚの２m+1 以上の値を２m+1 で割った値を
意味する。

【００２９】基本的にアルゴリズム１とアルゴリズム２
は同じであるが、アルゴリズム２の方がより実際の回路
の動作に近い形で表している。アルゴリズム２は図１，
図２のような回路で乗算器を構成できる。

【００３０】図１は剰余乗算の基本演算Ｒ＝Ｒ・Ｘ＋Ａ
n-j・ＢｍｏｄＮを実行する回路で、基本演算素子
（プロセッシング・エレメント：以後ＰＥ）と呼ばれ
る。具体的にはアルゴリズム（２）に示されるように、
Ｒj,n-i ＝Ｄj-1,n-i ＋Ｃj-2,n-i ＋dwm （Ａn-j・Ｂn-
i ）＋upm （Ａn-j-1・Ｂn-i ）＋Ｅj-1,n-i の演算を実
行する。

【００３１】図２は全体がシストリックアレイ（村岡洋
一：“並列処理”，昭晃堂，1986，pp131-133 参照）と
呼ばれる構成になっている。シストリックアレイは小さ
な同一の機能ブロックであるＰＥによるパイプライン処
理によって演算が実行される。そのＰＥが図１のように
構成される。

【００３２】図１のＰＥはＡn-j・Ｂn-i を演算するｍ*
ｍビットの乗算器と、Ｒj-1,n の値から(1)、(2) 式によ
ってＥj-1,n-i の値を各々出力するＲＯＭと、２ビット
のキャリーを持つ４入力ｍビット加算器または５入力加
算器ｎ＋１個と、Ｒj,n-i(i=1・・・n)を格納するｍ＋２ビ
ットのレジスタと各々Ａn-i ，Ｑj-1 を格納するレジス
タとＢn-i ，Ｔn-i を遅らせる２段のレジスタから構成
される。

【００３３】このレジスタの下位ｍビットはＲj,n-i の
下位ｍ桁（dwm （Ｒj,n-i ）＝Ｄj,n-i ）を意味し、上
位２ビットはＲj,n-i のｍ＋１桁以上の値（upm （Ｒj,
n-i）＝Ｓj,n-i ）を意味する。これによって、各加算
器毎の桁上がりはＳj,n-i によって各クロック毎に吸収
される。またＳj,n-iは右隣のＰＥにおいてＣj,n-iとな
り、２つ右隣のＰＥにおいて桁上がりとして右隣のレジ
スタの下位ｍビットともに加算される。従って、アルゴ
リズム１のようなＲj の演算に伴う遅延時間をなくすこ
とができる。

【００３４】以上のように、Ｄj,n-i ，Ｒj,n-i ，Ｃj,
n-i はレジスタの状態を表すが、添え字のｉはクロック
を意味し、ｊは図２における＃の数を表し、右から左に
ｊ＝１（＃１）からｊ＝ｎ（＃ｎ）となるＰＥの位置を
示す。

【００３５】次に図１，２の動作について説明する。以
下にｎ＝４の場合の図１，２の回路に対するタイミング
チャートを示す。

【００３６】＃１：Ｌ out |AB6|AB5|AB4|AB3| 0 | 0 |AB6|AB5|AB4|AB3| Ｂ in |Ｂ3|Ｂ2|Ｂ1|Ｂ0| 0 |Ｂ3|Ｂ2|Ｂ1|Ｂ0| 0 | Ｕ(A3) |AB7|AB6|AB5|AB4| 0 | 0 |AB6|AB5|AB4| 0 | Ｐ | 0 | 0 | Ｅ j-1 | 0 | 0 | Ｄ out |Ｄ7|Ｄ6|Ｄ5|Ｄ4|Ｄ3|Ｄ7|Ｄ6|Ｄ5|Ｄ4|Ｄ3| Ｓ out | 0 |Ｓ7|Ｓ6|Ｓ5| 0 | 0 |Ｓ7|Ｓ6|Ｓ5|Ｓ4| ＃２：Ｌ out |AB5|AB4|AB3|AB2| 0 | 0 |AB5|AB4|AB3|AB2| Ｂ in |Ｂ3|Ｂ2|Ｂ1|Ｂ0| 0 |Ｂ3|Ｂ2|Ｂ1|Ｂ0|0| Ｕ(A3) |AB6|AB5|AB4|AB3| 0 |AB6|AB5|AB4|AB3|0| Ｐ |Ｄ7+Ｓ7 |Ｄ7+Ｓ7 | Ｅ j-1 |Ｅ6|Ｅ5|Ｅ4|Ｅ3| 0 |Ｅ5|Ｅ4|Ｅ3|Ｅ2| 0 | Ｄ out |Ｄ6|Ｄ5|Ｄ4|Ｄ3|Ｄ2|Ｄ6|Ｄ5|Ｄ4|Ｄ3| Ｃ out | 0 | 0 |Ｃ6|Ｃ5| 0 | 0 | 0 |Ｃ6|Ｃ5|Ｃ4| Ｓ out | 0 |Ｓ7|Ｓ6|Ｓ5|Ｓ4| 0 |Ｓ7|Ｓ6|Ｓ5|Ｓ4| ＃３：Ｌ out | 0 |AB4|AB3|AB2|AB1| 0 |AB4|AB3| Ｂ in |Ｂ3|Ｂ2|Ｂ1|Ｂ0| 0 |Ｂ3|Ｂ2|Ｂ1| Ｕ(A3) |AB5|AB4|AB3|AB2| 0 |AB5|AB4|AB3| Ｐ |Ｓ7;Ｄ6+Ｓ6 |Ｓ7;Ｄ6+Ｃ6 Ｅ j-1 |Ｅ5|Ｅ4|Ｅ3|Ｅ2| 0 |Ｅ4|Ｅ3|Ｅ2| Ｄ out |Ｄ5|Ｄ4|Ｄ3|Ｄ2|Ｄ1|Ｄ5|Ｄ4| Ｃ out | 0 | 0 |Ｃ5|Ｃ4| 0 | 0 | 0 |Ｃ5|Ｃ4| Ｓ out |Ｓ6|Ｓ5|Ｓ4|Ｓ3| 0 |Ｓ6|Ｓ5| ＃４：Ｌ out | 0 |AB4|AB3|AB2|AB1| 0 | Ｂ in |Ｂ3|Ｂ2|Ｂ1|Ｂ0| 0 |Ｂ3| Ｕ(A3) |AB5|AB4|AB3|AB2| 0 |AB4| Ｐ |Ｓ6;Ｄ5+Ｓ5 |Ｓ6;ＤＥ j-1 |Ｅ4|Ｅ3|Ｅ2|Ｅ1| 0 |Ｅ3| Ｄ out |Ｄ4|Ｄ3|Ｄ2|Ｄ1|Ｄ0| Ｃ out | 0 | 0 |Ｃ4|Ｃ3| 0 | 0 | 0 | Ｓ out |Ｓ5|Ｓ4|Ｓ3|Ｓ2| 0 |

【００３７】図１，２において各レジスタの初期状態は
オール０とする。

【００３８】最初のＰＥ（ｊ＝１）においてＢがＢinか
らｍビット毎にＢ3・・・Ｂ0 の順で入力されると、その値
を受ける乗算器からＡ3・Ｂn-i(i=1・・・4)が順次出力され
る。この出力は２ｍビットあるので、例えばＡ3・Ｂ3 は
多項式の乗算で考えるとＸ⁶の係数であるがＸ⁷ の係数
も含んでいることになる。従って、乗算器からの出力を
上位と下位のｍ桁毎に分けて上位ｍビットの出力ＵはＸ
⁷ からＸ⁴ までの係数であるので、上記チャートではＡ
Ｂi(i=7・・・4)で表し、下位ｍビットの出力Ｌout Ｘ⁶ か
らＸ³ までの係数であるのでＡＢi(i=6・・・3)で表す。上
位ｍビット出力Ｕは同じＰＥの加算器に入力し、下位ｍ
ビット出力Ｌout は１度外部のレジスタで１クロック遅
らせてＤ0,n-i として＃１のＰＥの加算器で加える。ま
た、その加算器は後述する＃２のＰＥからのフィードバ
ック出力Ｌout を加え、その結果をレジスタ（Ｒ1,n-i
）に入力する。このとき、Ｒ1,n-i(i=1・・4) の下位ｍ
ビットはＤ1,n-i として次のＰＥに出力され、桁上がり
であるｍ＋１ビット以上はＳ1,n-i として出力され、次
のＰＥを通ってＣ1,n-i として２つ先のＰＥに出力され
る。このとき、Ｄ1,n-i ，Ｃ1,n-i は多項式の係数で考
えると各々Ｘ⁷ 〜Ｘ⁴，Ｘ⁷ 〜Ｘ⁵ の係数を表すのでＤk
(k=7・・・4)，Ｃk(k=7・・・5)で表しており、上記のチャー
トでは、他の信号についても多項式の係数による表現を
用いている。また、剰余を表すＥ0,n-i は０であり、Ｂ
n-i(n=1・・・4)及び剰余に対するタイミングであるＴn-i
(i=1・・・4)はレジスタによって各々２クロック遅らされ
て次のＰＥに出力される。

【００３９】次のＰＥ（ｊ＝２）においてｊ＝１のとき
と同様にＢが入力されるとＡ2・Ｂn-i(i=1・・・4)が乗算器
から上位と下位ｍビット毎に出力される。このとき、下
位ｍビットはＬout として＃１のＰＥにフィードバック
される。ここで、＃１のＰＥから入力されるＤ7 とＳ7
を加えた結果をＲ1,n としてレジスタＰに格納し、式
(1) からＥj-1 の値をＴn-i に同期させてＥ1,n-i とし
てＲＯＭから順次出力させ加算器に入力し、その結果を
Ｒ2,n-i としてレジスタに入力し、Ｄk ，Ｓk として次
のＰＥに出力する。

【００４０】更に次のＰＥ（ｊ＝３）でＢが入力される
とＡ1・Ｂn-i(i=1・・・4)が乗算器から上位と下位ｍビット
毎に出力され、前ＰＥと同様Ｕ，Ｌout ，Ｄin，Ｅj-1
を加えるが、このとき２つ前のＰＥからの桁上がりキャ
リーであるＣ1,n-i も加えることによってアルゴリズム
（２）の演算が実行される。Ｕ，Ｌout ，Ｄin，Ｅj-1
は各々ｍビットであるので加算器の出力はｍ＋２ビット
であり、Ｒj,n-i のレジスタはｍ＋２ビット必要であ
る。また、桁上がりビットが２ビットであればキャリー
として加算器に加えても加算器の出力はｍ＋２ビットと
なり、変わらない。

【００４１】更に、次のＰＥ（ｊ＝４）においてもｊ＝
３と同様の動作を行う。その結果、各レジスタに格納さ
れた値がＲn となっていることが判る。

【００４２】（剰余乗算回路の実施例２）図１のＰＥに
おいてＢin，Ｔinを受けるレジスタ４つはＢin，Ｔinの
入力を２クロック遅らせるためだけに必要である。従っ
て、図１のＰＥからＢ，Ｔに関する出力とレジスタ４つ
を省き、図４に示すようにＢ，Ｔの値は別のシフトレジ
スタに格納してレジスタ２つおきに各ＰＥに順次入力す
るようにすると、全体の回路規模を小さくすることがで
きる。

【００４３】（剰余乗算回路の実施例３）また、全ての
ＰＥで行われる演算が同じであるので、図４に示すよう
に初めＰＥにＡn-1 を設定してＢを入力して演算を行
い、そのＰＥからの出力を１度メモリに蓄えて、ＰＥの
動作が終了し次第、Ａn-2 を同じＰＥに設定しなおして
Ｂとメモリから出力をフィードバック入力し演算を行
い、それをＡn-i （i=3・・・n)について繰り返すことによ
って１つのＰＥで剰余乗算を行うこともできる。ｐ個の
ＰＥを組み合わせて１つのＰＥとみなせば、フィードバ
ック回数は１／ｐになるので処理速度はｐ倍になる。従
って、この方式は、ＰＥの個数によって任意に回路規模
と処理速度のトレードオフが容易に行える構成になって
いる。

【００４４】フィードバックを用いる方法について以下
に説明する。

【００４５】まず、アルゴリズム１をアルゴリズム２と
同様、j をＲj,n-i 、ＢをＢn-i に分解して次のアルゴ
リズム３のように表現する。ここでもx,y は任意の整数
でよいが、以下では、x=y=1 とした場合について説明す
る。

【００４６】（アルゴリズム３）ＦＯＲｈ＝１ＴＯｎ／ｐＦＯＲｋ＝１ＴＯｐＦＯＲｉ＝１ＴＯｎｊ＝ｐ・（ｈ−１）＋ｋＲj,n-i ＝Ｄj-1,n-i ＋Ｃj-2,n-i ＋dwm （Ａn-j・Ｂn-i ）＋upm （Ａn-j-1・Ｂn-i ）＋Ｅj-1,n-i Ｄj,n-i ＝dwm （Ｒj,n-i ）Ｓj,n-i ＝upm （Ｒj,n-i ）Ｃj-1,n-i ＝Ｓj-1,n-i ＮＥＸＴＮＥＸＴＮＥＸＴただし、Ｒj-1,n・Ｘⁿ ＝Ｑj-1・Ｎ＋Ｅj-1 ，Ｑj-1 ＝［Ｒj-1,n・Ｘⁿ ／Ｎ］ (1) Ｅj-1 ＝Ｅj-1,n-1・Ｘ^n-1 ＋Ｅj-1,n-2・Ｘn-2 ＋・・・＋Ｅj-1,1・Ｘ＋Ｅj-1,0 (2) Ｄ0,n-i-1 ＝Ｃ0,n-i-2 ＝Ｅ0,n-i ＝Ｂn ＝Ｂ-1＝０ dwm （Ｚ）：Ｚの２^m 桁以下の値 upm （Ｚ）：Ｚの２^m+1 以上の値を２^m+1 で割った値を
意味する。

【００４７】アルゴリズム３は図１，図５のような回路
で剰余乗算回路を構成できる。

【００４８】図１のＰＥはＡn-j・Ｂn-i を演算するｍ*
ｍビットの乗算器と、Ｒj-1,n の値から(1)、(2) 式によ
ってＥj-1,n-i の値を各々出力するＲＯＭと、２ビット
のキャリーを持つ４入力ｍビット加算器または５入力加
算器ｎ＋１個と、Ｒj,n-i(i=1・・・n)を格納するｍ＋２ビ
ットのレジスタと各々Ａn-i ，Ｑj-1 を格納するレジス
タとＢn-i ，Ｔn-i を遅らせる２段のレジスタから構成
される。このレジスタの下位ｍビットはＲj,n-i の下位
ｍ桁（dwm （Ｒj,n-i ）＝Ｄj,n-i ）を意味し、上位２
ビットはＲj,n-i のｍ＋１桁以上の値（upm（Ｒj,n-i
）＝Ｓj,n-i ）を意味する。これによって、各加算器
毎の桁上がりはＳj,n-i によって各クロック毎に吸収さ
れる。またＳj,n-i は右隣のＰＥにおいてＣj,n-i とな
り、２つ右隣のＰＥにおいて桁上がりとして右隣のレジ
スタの下位ｍビットともに加算される。従って、アリゴ
リズム（１）のようなＲj の演算に伴う遅延時間をなく
すことができる。以上のように、Ｄj,n-i ，Ｒj,n-i ，
Ｃj,n-i はレジスタの状態を表すが、添え字のｉはクロ
ックを意味する。また、アルゴリズム（２）におけるｋ
は図５における＃の数を表し、１つの演算装置に含まれ
るＰＥの数を表す。図５はｐ個のＰＥから構成される演
算装置である。ｈは図５の演算装置への入力またはフィ
ードバック入力の回数を表す。図６は図５の演算装置と
その出力を受け、再び図５の演算回路にフィードバック
入力するメモリと、それらをコントロールする制御回路
からなる剰余乗算装置を表す。制御回路はクロックをカ
ウントするカウンタと、その出力をアドレスとするＲＯ
Ｍ等から簡単に構成できる。

【００４９】次に図１、５、６の動作について説明す
る。以下にｎ＝４，ｐ＝２の場合のタイミングチャート
を示す。

【００５０】＃１：Ｌ out |AB6|AB5|AB4|AB3| 0 | 0 |AB4|AB3|AB2|AB1| Ｂ in |Ｂ3|Ｂ2|Ｂ1|Ｂ0| 0 |Ｂ3|Ｂ2|Ｂ1|Ｂ0| 0 | Ｕ(A3) |AB7|AB6|AB5|AB4| 0 |AB5|AB4|AB3|AB2| 0 | Ｐ | 0 |Ｓ7;Ｄ6+Ｓ6 | Ｅ j-1 | 0 |Ｅ5|Ｅ4|Ｅ3|Ｅ2| 0 | Ｄ out |Ｄ7|Ｄ6|Ｄ5|Ｄ4|Ｄ3|Ｄ5|Ｄ4|Ｄ3|Ｄ2|Ｄ1| Ｃ out | 0 | 0 | 0 |Ｃ5|Ｃ4| 0 | 0 | 0 | Ｓ out | 0 |Ｓ7|Ｓ6|Ｓ5| 0 |Ｓ6|Ｓ5|Ｓ4|Ｓ3| 0 | ＃２：Ｌ out |AB5|AB4|AB3|AB2| 0 | 0 |AB4|AB3|AB2|AB1| Ｂ in |Ｂ3|Ｂ2|Ｂ1|Ｂ0| 0 |Ｂ3|Ｂ2|Ｂ1|Ｂ0| 0 | Ｕ(A3) |AB6|AB5|AB4|AB3| 0 |AB5|AB4|AB3|AB2| 0 | Ｐ |Ｄ7+Ｓ7 |Ｓ6;Ｄ5+Ｓ5 | Ｅ j-1 |Ｅ6|Ｅ5|Ｅ4|Ｅ3| 0 |Ｅ4|Ｅ3|Ｅ2|Ｅ1| 0 | Ｄ out |Ｄ6|Ｄ5|Ｄ4|Ｄ3|Ｄ2|Ｄ4|Ｄ3|Ｄ2|Ｄ1| Ｃ out | 0 | 0 |Ｃ6|Ｃ5| 0 | 0 | 0 |Ｃ4|Ｃ3| 0 | 0 | Ｓ out |Ｓ7|Ｓ6|Ｓ5|Ｓ4| 0 |Ｓ5|Ｓ4|Ｓ3|Ｓ2|

【００５１】図１、５、６において各レジスタの初期状
態はオール０とする。更に、図５の各ＰＥには＃１のＰ
ＥにＡ3 ，＃２のＰＥにＡ2 が設定されているとする。

【００５２】最初のＰＥ（ｊ＝１）においてＢがＢinか
らｍビット毎にＢ3・・・Ｂ0 の順で入力されると、その値
を受ける乗算器からＡ3・Ｂn-i(i=1・・・4)が順次出力され
る。この出力は２ｍビットあるので、例えばＡ3・Ｂ3 は
多項式の乗算で考えるとＸ⁶の係数であるがＸ⁷ の係数
も含んでいることになる。従って、乗算器からの出力を
上位と下位のｍ桁毎に分けて上位ｍビットの出力ＵはＸ
⁷ からＸ⁴ までの係数であるので、図３においてＡＢi
(i=7・・・4)で表し、下位ｍビットの出力Ｌout Ｘ⁶ から
Ｘ³ までの係数であるのでＡＢi(i=6・・・3)で表す。上位
ｍビット出力Ｕは同じＰＥの加算器に入力し、下位ｍビ
ット出力Ｌout は１度外部のレジスタで１クロック遅ら
せてＤ0,n-i として＃１のＰＥの加算器で加える。ま
た、その加算器は後述する＃２のＰＥからのフィードバ
ック出力Ｌout を加え、その結果をレジスタ（Ｒ1,n-i
）に入力する。このとき、Ｒ1,n-i(i=1・・4) の下位ｍ
ビットはＤ1,n-i として次のＰＥに出力され、桁上がり
であるｍ＋１ビット以上はＳ1,n-i として出力され、次
のＰＥを通ってＣ1,n-i として２つ先のＰＥに出力され
る。このとき、Ｄ1,n-i ，Ｃ1,n-i は多項式の係数で考
えると各々Ｘ7 〜Ｘ4 ，Ｘ⁷ 〜Ｘ⁵ の係数を表すのでＤ
k(k=7・・・4)，Ｃk(k=7・・・5)で表しており、上記チャート
では、他の信号についても多項式の係数による表現を用
いる。また、剰余を表すＥ0,n-i は０であり、Ｂn-i(n=
1・・・4)及び剰余に対するタイミングであるＴn-i(i=1・・・
4)はレジスタによって各々２クロック遅らされて次のＰ
Ｅに出力される。次のＰＥ（ｊ＝２）においてｊ＝１
のときと同様にＢが入力されるとＡ2・Ｂn-i(i=1・・・4)が
乗算器から上位と下位ｍビット毎に出力される。このと
き、下位ｍビットはＬout として＃１のＰＥにフィード
バックされる。ここで、＃１のＰＥから入力されるＤ7
とＳ7 を加えた結果をＲ1,n としてレジスタＰに格納
し、式(1) からＥj-1 の値をＴn-i に同期させてＥ1,n-
i としてＲＯＭから順次出力させ加算器に入力し、その
結果をＲ2,n-i としてレジスタに入力し、Ｄk ，Ｓk と
して次のＰＥに出力する。

【００５３】ｐ＝２であるので、図５の演算装置からＤ
k ，Ｓk が順次出力される。Ｄk Ｓk の出力が開始され
たとき、＃１のＰＥはまだ演算中であるので、メモリに
Ｄk，Ｓk の出力を入力し遅延させる。ここでは１クロ
ック分の遅延で＃１の演算が終了する。従って、メモリ
で１クロック遅延させて再び図５の演算装置にＤk Ｓk
及びＢn-i ，Ｔn-i をフィードバック入力する。それと
同時に図５の＃１のＰＥにはＡ1 ，＃２のＰＥにはＡ0
を設定する。

【００５４】フィードバック入力（ｊ＝３）によって最
初のＰＥにＢが入力されるとＡ1・Ｂn-i(i=1・・・4)が乗算
器から上位と下位ｍビット毎に出力され、前ＰＥと同様
Ｕ，Ｌout ，Ｄin，Ｅj-1 を加えるが、このとき２つ前
のＰＥからの桁上がりキャリーであるＣ1,n-i も加える
ことによってアルゴリズム（２）の演算が実行される。
Ｕ，Ｌout ，Ｄin，Ｅj-1 は各々ｍビットであるので加
算器の出力はｍ＋２ビットであり、Ｒj,n-i のレジスタ
はｍ＋２ビット必要である。また、桁上がりビットが２
ビットであればキャリーとして加算器に加えても加算器
の出力はｍ＋２ビットとなり変わらない。

【００５５】更に、次のＰＥ（ｊ＝４）においてもｊ＝
３と同様の動作を行う。その結果、図５の演算装置から
出力される値がＲn となっていることが判る。

【００５６】（剰余乗算回路の実施例４）図１のＰＥに
おいてＢin，Ｔinを受けるレジスタ４つはＢin，Ｔinの
入力を２クロック遅らせるためだけに必要なものであ
る。従って、図１のＰＥからＢ，Ｔに関する出力とレジ
スタ４つを省き、図７に示すようにＢ，Ｔの値は別のシ
フトレジスタに格納してレジスタ２つおきに各ＰＥに順
次入力するようにすると、全体の回路規模を小さくする
ことができる。

【００５７】（剰余乗算回路の実施例５）図５の演算装
置をＬＳＩ化したとき、そのＬＳＩを複数縦続に接続す
ることによって処理を高速化することができることも明
かである。ｑ個のＬＳＩによって高速化する場合、これ
はアルゴリズム２においてｐの値をｑ倍することに相当
する。２つのＬＳＩによって剰余乗算を実行する場合を
図８に示す。

【００５８】（剰余乗算回路の実施例６）これは、整数
上の剰余乗算回路に限らず有限体上の剰余乗算にも適用
できる。ただしこの場合、図１のＰＥの構成は図９に示
すように変える必要がある。

【００５９】有限体上では桁上がりがないために、加算
の桁上がりから生成されるＣin，Ｃout ，Ｓin，Ｓout
に関する信号と、乗算の桁上がりから生成されるＬout
，Ｌinに関する信号が省かれ、非常に簡単な構成にな
る。

【００６０】従って、図９に示すＰＥのＢinとＢout ，
ＴinとＴout ，ＤinとＤout を縦続に接続することによ
って有限体上の剰余乗算が整数上の剰余上算と同様に生
成されることは明かである。

【００６１】また、剰余演算において−Ｑ・Ｎの代わり
にＥを加えているが、従来のように−Ｑ・Ｎの演算によ
って本方式の剰余乗算回路を構成してもよいのは明かで
ある。

【００６２】また、“現代暗号理論”６章６．４．１節
にＲＳＡ暗号装置の高速化として、次のような手法が示
されている。

【００６３】暗号化：暗号化鍵ｅの値をできるだけ小さ
く選ぶ。（最低値は３）復号化：中国人の剰余定理によって高速化を行う。

【００６４】この手法でＲＳＡ暗号装置を構成しようと
した場合、従来の剰余乗算回路では暗号化と復号化で乗
数や除数の桁数が異なるため、同じ剰余乗算回路によっ
て暗号化と復号化を実行しにくいといった問題点が生じ
る。そのために、剰余乗算を完全にソフト的な手法で行
うか、別々の回路によって行うことが多かった。しか
し、本発明による剰余乗算回路は乗数や除数の桁数は回
路規模ではなく、処理回数となっているので、同じ回路
によって暗号化と復号化を行いやすいといった利点がで
てくる。この処理回数は図２の演算装置へのフィードバ
ック入力回数が暗号化と復号化で異なるだけであるの
で、制御回路による制御を変えるだけで簡単に実現でき
る。

【００６５】また、中国人の剰余定理によるＲＳＡ暗号
の演算は、基本的に並列に実行できるので複数の演算装
置によって剰余乗算を実行する本発明の方式には最適で
ある。

【００６６】（剰余乗算回路の実施例７）Ｒ＝Ａ・Ｂ m
od Ｎ（Ａはｋビット，Ｂはｍ・ｎビットの整数）の剰
余乗算を考える。Ａを１ビット毎，Ｂをｍビット毎に分
割すると、次のように表せる。

【００６７】Ａ＝Ａk-1・２k-1+Ａk-2・２k-2+・・・+Ａ1・２+ Ａ0 (3) Ｂ＝Ｂn-1・Ｘn-1+Ｂn-2・Ｘn-2+・・・+Ｂ1・Ｘ+ Ｂ0 (4) ここで、Ｘ＝２m とし、Ａ，Ｂについて上位桁から分割
したビット系列を各々Ａk-i(i=1・・・k)，Ｂn-i(i=1・・・n)
とする。この場合、剰余乗算は次の演算をj=1らk に対
して繰り返すことよって求められることが知られてい
る。

【００６８】Ｒ＝Ｒ・２＋Ａk-j・Ｂ−Ｑ・Ｎ (5) ただし、Ｑ＝［Ｒ／Ｎ］，Ｒの初期値は０この演算をシストリックアレイで実現するために、上の
演算を次のようなアルゴリズムで表す。

【００６９】（アルゴリズム４）Ｄ0,n-i-1 ＝０；Ｃ0,n-i-1 ＝０ＦＯＲｊ＝１ＴＯｋＦＯＲｉ＝１ＴＯｎＲj,n-i ＝２・Ｄj-1,n-i ＋Ｃj-2,n-i ＋Ａk-j・Ｂn-i ＋Ｅj,n-i Ｄj,n-i ＝dwm-1 （Ｒj,n-i ）Ｓj,n-i ＝upm-1 （Ｒj,n-i ）Ｃj-1,n-i ＝Ｓj-1,n-i ＮＥＸＴＮＥＸＴただし、Ｓj-1,n-1・Ｘn ＝Ｑj-1・Ｎ＋Ｅj-1 ， (6) Ｅj-1 ＝Ｅj-1,n-1・Ｘn-1+・・・+Ｅj-1,1・Ｘ+ Ｅj-1,0 (7) ｄｗｍ−１（Ｚ）：Ｚの２m-1 桁以下の値 upm-1 （Ｚ）：Ｚの２m 以上の値を２m で割った値このアルゴリズムは図１０，図１１のような回路で構成
できる。図１１は全体がシストリックアレイ構成になっ
ている。シストリックアレイはプロセッシングエレメン
ト（ＰＥ）と呼ばれる小さな同一の機能ブロックによる
パイプライン処理によって演算が実行される。そのＰＥ
は図１０のように構成される。

【００７０】上記のアルゴリズム４におけるｉはクロッ
クを意味し、ｊは図１１における＃の数を表し、右から
左にｊ＝１（＃１）からｊ＝ｎ（＃ｎ）となるＰＥの位
置を示す。図１１の各ＰＥはＡk-j(j=1・・・k)の値が内部
レジスタに設定されているとする。＃１のＰＥにはＢin
にＢn-i(i=1・・・n)が上位桁から順に入力され、それに合
わせてＴinから剰余出力に対するタイミング信号Ｔn-i
(i=・・・n) が入力される。各々レジスタによって遅らさ
れて各々Ｂout ，Ｔout から次のＰＥに出力される。＃
１のＰＥのＤin，Ｓin，Ｃinには０が設定される。ＰＥ
の構成要素及び動作を次のように分解して考える。１）乗算部各ＰＥのＡk-j・Ｂn-i の乗算部はＡk-j が１ビットであ
るので、Ａk-j ＝１のときのみＢn-i を出力するｍ個の
アンドによって簡単に実現できる。２）加算部加算器は乗算器出力Ａk-j・Ｂn-i と後述する剰余出力Ｅ
j-1,n-i と２・Ｄj-1,n-i とＣj-2,n-i を入力とする４
入力加算器によって構成されるので２ビットのキャリー
が出力される。従って、加算器出力を受ける各レジスタ
はｍ＋２ビットのレジスタでよい。また、ｊ番目のＰＥ
のレジスタＲj,n-i のｍ−１ビット以下の値をＤj,n-i
，ｍビット以上の値をＣj,n-i として次のＰＥに出力
する。ただし、２・Ｄj-1,n-i はＤj-1,n-i を１ビット
ずらして加算器に入力することによって実現する。３）剰余部ここでは簡単のために、Ｎを値としてではなく桁で超え
た値であるＳj-1,n-1に対してＱj-1 を求める。また、
−Ｑj-1・Ｎを実行する代わりに−Ｓj-1,n-1・Ｘⁿ ＋Ｅj-
1 を実行することによって剰余演算を行う。なぜなら
ば、Ｓj-1,n-1・Ｘn ＝Ｑj-1・Ｎ＋Ｅj-1 （Ｅj-1 ＜Ｎ）
となるためである。−Ｓj-1,n-1・Ｘn はＳj-1,n-1 がオ
ーバーフローすることによって自動的に行われるので、
剰余演算に関する実際の演算はＥj-1 を加算するだけで
よい。Ｅj-1 を加算する方法は次のようにして行う。＃
ｊのＰＥにおけるＥj-1 を式のように表すとＢn-i と
Ｅj-1,n-i は同じ桁であるので、Ｂn-i に同期させたタ
イミング信号Ｔn-i によってＥj-1,n-i(i=1・・・n)を順次
出力させる。Ｓj-1,n-1 は３ビットであり、Ｔn-i はｎ
−ｉを表す値であるので３＋log(ｎ−ｉ) ビットの入力
を持つＲＯＭによってＥj,n-i 出力回路を実現すること
ができる。また、Ｓj-1,n-1 を入力・保持するｍ＋３ビ
ットのレジスタとセレクタも必要とする。４）遅延部Ｂn-i とＴn-i の値をパイプライン的に伝送するための
レジスタによって構成される。Ｂn-i ，Ｔn-i に対して
各々ｍビット，log(ｎ−ｉ) ビットのレジスタを必要と
する。

【００７１】以下にｋ＝ｎ＝ｍ＝４とした場合の図１１
の回路の動作を表すタイミング・チャートを示す。

【００７２】＃１：ＡＢ1 ｜a3B3｜a3B2｜a3B1｜a3B0｜Ｅ1 ｜０｜Ｓ1 ｜０｜０｜０｜０｜Ｄ1=AB1 ｜Ｄ15｜Ｄ11｜Ｄ7 ｜Ｄ3 ｜＃２：Ｑ2 ｜ｄ18 ｜ＡＢ2 ｜a2B3｜a2B2｜a2B1｜a2B0｜Ｅ2 ｜Ｅ14｜Ｅ10｜Ｅ6 ｜Ｅ2 ｜Ｓ2 ｜Ｓ18｜Ｓ14｜Ｓ10｜Ｓ6 ｜Ｄ2=2・D1+AB2+E2 ｜Ｄ14｜Ｄ10｜Ｄ6 ｜Ｄ2 ｜＃３：Ｑ3:S2,D2 ｜Ｓ18, Ｄ17 ｜ＡＢ3 ｜a1B3｜a1B2｜a1B1｜a1B0｜Ｅ3 ｜Ｅ13｜Ｅ9 ｜Ｅ5 ｜Ｅ1 ｜Ｓ3 ｜Ｓ17｜Ｓ13｜Ｓ9 ｜Ｓ5 ｜Ｄ3=2・D2+AB3+E3 ｜Ｄ13｜Ｄ9 ｜Ｄ5 ｜Ｄ1 ｜＃４：Ｑ4:S3,D3 ｜Ｓ17, Ｄ16 ｜ＡＢ4 ｜a0B3｜a0B2｜a0B1｜a0B0｜Ｅ4 ｜Ｅ12｜Ｅ8 ｜Ｅ4 ｜Ｅ0 ｜Ｓ4 ｜Ｓ16｜Ｓ12｜Ｓ8 ｜Ｓ4 ｜Ｄ4=2・D3+AB4+E4+C2 ｜Ｄ12｜Ｄ8 ｜Ｄ4 ｜Ｄ0 ｜

【００７３】図１０，１１において各レジスタの初期状
態はオール０とする。

【００７４】最初のＰＥ（ｊ＝１）においてＢがＢinか
らｍビット毎にＢ3・・・Ｂ0 の順で入力されると、その値
を受ける乗算器からａ3・Ｂn-i(i=1・・・4)が順次出力され
る。この値を加算器に入力しレジスタでラッチし出力さ
れる。この出力をＤx で表すと、＃１のＰＥからはＤ1
5，Ｄ11，Ｄ7 ，Ｄ3 が出力される。ここで、Ｄx は次
のような意味を持つ。Ａは１ビット毎に分解されるので
ａjはＡのｊ＋１桁目のビットを表す。また、Ｂはｍ＝
４より４ビット毎に分解されるのでＢi はＢの４・(ｉ＋
１) 桁目から４ｉ＋１桁目までのビットｂ4(i+1)-1〜ｂ
4iを表す。従って、ａj・Ｂi は多項式の乗算で考えると
４・(ｉ＋１) ＋ｊ桁目から４ｉ＋ｊ＋１桁目のビットを
表すことになるので、Ｄx は桁によってＤ4i+jと表され
る。ここで、Ｄ4i+jはｄ4(i+1)+j-1〜ｄ4i+jの４ビット
から構成される。

【００７５】次のＰＥ（ｊ＝２）において、１クロック
遅れてＢがＢinから入力されると乗算器からａ2・Ｂn-i
(i=4・・・1)が出力される。このとき、Ｄinから最初の入
力Ｄ15が入力しているので、最上位桁ｄ18から(4) 式に
従って、剰余Ｅ14〜Ｅ2 がタイミング信号Ｔn-i に従っ
て出力される。ここで、Ｅi も４ビット毎の出力であ
る。乗算出力と剰余出力とＤin入力との加算を行うこと
によって、Ｄ14〜Ｄ2 とＳ18〜Ｓ6 の出力がレジスタか
ら出力される。ここで、Ｓ18〜Ｓ6 は加算によって生じ
た桁上がりキャリーであり、２ビットの値である。

【００７６】次のＰＥ（ｊ＝３）においてもｊ＝２のＰ
Ｅと同様の演算が行われるが、剰余は最上位桁のＳ18と
その１ビット下の桁であるｄ17から(4) 式によって生成
される。

【００７７】最後のＰＥ（ｊ＝４）においてもｊ＝３の
ＰＥと同様の演算が行われるが、ここでは＃２のＰＥか
らのキャリーが更に加算される。ここで、＃４のＰＥで
の加算は最初Ｅ12で示されるように１６桁目から１３桁
目である。＃２のＰＥからの最初のキャリーはＳ14の２
ビットであるであるので１６桁目と１５桁目である。従
って、同じ加算器によって加算できる。このＰＥからの
出力が剰余乗算の結果となっていることがわかる。ま
た、図１０のＰＥ１つでＡk-j に対する(5) 式の演算が
実行できることが判る。

【００７８】（剰余乗算回路の実施例８）シストリック
アレイは全てのＰＥで行われる処理が同一であり、ＰＥ
間の入出力関係も同一である。従って、シストリックア
レイは同一回路の時分割処理が行いやすいアーキテクチ
ャとなっている。

【００７９】最も簡単な構成は、図１０に示したＰＥ１
つとメモリによって実現できる。それを図１２に示す。
図１２は次のように動作する。

【００８０】１）最初、ＰＥにＡk-1 を設定しＢn-i ，
Ｔn-i(i=1・・・n)を順次ＰＥに入力する。上述したよう
に、１つのＰＥは(5) 式の演算を実行するので、その出
力であるＲ＝Ａk-1・Ｂがメモリに入力される。また、Ｂ
n-i ，Ｔn-i(i=1・・・n)の入力が終わり次第、ＰＥの設定
をＡk-2 に変える。

【００８１】２）ＰＥにメモリから前演算結果であるＲ
をフィードバック入力し、Ｂn-i ，Ｔn-i も繰り返し入
力する。それによって、ＰＥからＲ＝Ｒ・Ｘ＋Ａk-2・Ｂ
−Ｑ・Ｎが出力されるので、その出力を再びメモリに蓄
える。

【００８２】３) ＰＥの設定をＡk-j(j=3・・・k)に変えて
２）の動作を繰り返す。

【００８３】以上によって、図１２の回路で剰余乗算が
実行できることが言える。これはｋ個のＰＥ１回で行う
演算を１個のＰＥをｋ回用いることで行ったものであ
る。さらに、ＰＥを１個ではなくｐ個パイプライン状に
接続し、Ａk-j〜Ａk-j+p-1 を連続して設定することに
よってｐ個のＰＥによるｋ／ｐ回の演算の繰り返しで剰
余乗算を実行することができる。これは回路規模（ｐ個
のＰＥ）を処理速度（ｋ／ｐ回の演算）でトレードオフ
したものと考えることができる。このようにシストリッ
クアレイで構成した回路は簡単に回路規模と処理速度の
トレードオフができ、回路の小型化を行うことができ
る。

【００８４】剰余乗算のみであれば、前述の実施例のよ
うにしてシストリックアレイによって剰余乗算回路が構
成できることが示された。ここで、ＲＳＡ暗号装置を構
成することを考える。上述の実施例に示す剰余乗算回路
は１回の剰余乗算を実行するが、この回路から得られる
剰余乗算結果はｍビット毎に２ビットのキャリービット
を含む。その剰余乗算結果を用いて剰余乗算を繰り返す
場合、キャリービットを補正しなければ前と同じ回路に
よって剰余乗算を実行できない。従って、ＲＳＡ暗号の
ように前の剰余乗算結果を用いて剰余乗算を繰り返し行
う場合、前の剰余乗算結果をいかに簡単かつ効率的に補
正するかということも重要な問題になる。

【００８５】ここで、キャリービットを持つ系列Ａc ，
Ｂc を式(3) ，(4) に示すＡ，Ｂとキャリービット系列
ａ，ｂに分けて考えると、次のように表わすことができ
る。Ａc ＝Ａ＋ａ・Ｘａ＝ａk-m・Ｘ^n-2 ＋・・・＋ａ2・m・Ｘ＋ａm Ｂc ＝Ｂ＋ｂ・Ｘｂ＝ｂn-1・Ｘ^n-2 ＋・・・＋ｂ2・Ｘ＋ｂ1 そこで、Ａc ，Ｂc に対するＲc ＝Ａc・Ｂc mod Ｎの剰
余乗算を次のように表す。

【００８６】（ＲＳＡ暗号装置用剰余乗算回路の実施例１）Ｄ0,n-i-1 ＝０；Ｃ0,n-i-1 ＝０ＦＯＲｓ＝１ＴＯｋ／ｍＦＯＲｃ＝１ＴＯｍＦＯＲｉ＝１ＴＯｎｊ＝( ｓ−１)・ｍ+ ｃＰＲj,n-i ＝2・dwm-1 （Ｒj-1,n-i ）＋Ｃj-2,n-i Ｅ＋Ａk-j・( Ｂn-i+ｂn-i)＋Ｅj,n-i ＡＣj-1,n-i ＝upm-1 （Ｒj-1,n-i ）ＮＥＸＴＮＥＸＴＦＯＲｉ＝１ＴＯｎＰＲj,n-i ＝dwm （Ｒj-1,n-i ）＋Ｃj-2,n-i Ｅ＋ａk-j・( Ｂn-i+ｂn-i)＋Ｅj,n-i ＢＣj-1,n-i ＝upm （Ｒj-1,n-i ）ＮＥＸＴＮＥＸＴＦＯＲｉ＝１ＴＯｎＰＲk,n-i ＝Ｒk,n-i ＋Ｃk-1,n-i ＥＲk+1,n-i ＝dwm （Ｒk,n-i ）+upm（Ｒk,n-i-1 ）ＣＲk+2,n-i ＝dwm （Ｒk+1,n-i ）＋upm （Ｒk+1,n-i-1 ）＋Ｅk+1,n-i ＮＥＸＴ上のアルゴリズムに示したＰＥＡ，ＰＥＢ，ＰＥＣの処
理は図１２〜１４のようなＰＥによって各々実現でき
る。各ＰＥは次のような動作を行う。

【００８７】ＰＥＣ：剰余乗算の最後に図１４に示す
ようなＰＥを挿入し、このＰＥからのキャリー出力を１
ビットにする。図１４のＰＥはまず前ＰＥからの出力で
あるＤout Ｓout ，Ｃout を加算し１つの値Ｒk,n-i に
する。次にＲk,n-i のｍ＋１ビット以上の値Ｃk,n-i を
レジスタで遅らせてｍビット以下の値Ｄk,n-i と加算す
ることによってその加算結果のキャリーＣk+1,n-i を１
ビットにする。ただし、最上位桁のキャリーＣk,n-1 は
別のレジスタに保持しておく。次に、Ｃk,n-1＋Ｃk+1,n
-1 から最上位桁の剰余Ｅk+1,n-1 を計算し、剰余乗算
の最上位桁であるＤk+1,n-1 ＋Ｃk+1,n-2 ＋Ｅk+1,n-1
を予め計算する。ここで、この最上位桁にキャリーが生
成される場合、最終結果であるＲk+2,n-i の演算には１
＋Ｃk,n-1 ＋Ｃk+1,n-i に対する剰余を出力し、最上位
桁のキャリービットをないように判定・制御する。この
判定回路は３ビットのＲＯＭと加算器によって実現され
る。

【００８８】ＰＥＡ：Ｂのキャリー補正のためにＢin
からの入力をＢn-i からＢn-i ＋ｂn-i にする。従っ
て、図１２に示すようにＢn-i とｂn-i を同時にＢinに
入力し、Ａn-j とのアンドを行う。よって、ＰＥの乗算
部のアンド回路はｍ＋１個になる。ただし、Ａn-j・ｂn-
i のアンド出力はＡn-j・Ｂn-i のアンド出力の最下位ビ
ットと同じ桁である。

【００８９】ＰＥＢ：Ａのキャリー補正を行うために
ＰＥＡｍ個毎に１個ＰＥＢを挿入する。ＰＥＢにはＡの
キャリービットａk-j が設定される。ａk-j は前のＰＥ
に設定されたＡk-j と同じ桁であるので、ＰＥＢは式
の代わりに桁上げのないＲ＝Ｒ＋ａk-j・Ｂ−Ｑ・Ｎの演
算を実行する。従って、前ＰＥの出力Ｒj-1,n-i をｍビ
ット以下をＤj-1,n-i としてＤ'in から入力し、ｍ＋１
ビット以上をＳj-1,n-i としてＳ'in から入力する必要
がある。ただし、ＰＥＣから最上位桁のキャリーａk-1
＝０であるので、最上位桁のキャリーに対するＰＥＢは
必要としない。従って、ＲＳＡ暗号装置は図１５のよう
な構成を持つシストリック剰余乗算回路によって実現さ
れる。図１５においてＰＥＡがｍ個毎にＰＥＢが１個用
いられ、剰余乗算の最後にＰＥＢの代わりにＰＥＣが１
個用いられる。これによって、図１５のシストリックア
レイと同様の構成を持つ回路に図１５からの出力を入力
しても同様の剰余乗算を実行することができる。

【００９０】また、シストリックアレイの小型化に対し
ても、図１２のＰＥを中心にＰＥＡ〜ＰＥＣの機能をセ
レクタによって切り替える図１６のＰＥを１つ含む回路
によって同様の小型剰余乗算回路を構成できる。ＰＥＡ
〜ＰＥＣの機能は類似しているので、大部分の回路を共
有でき図１６のＰＥの回路規模の増大は小さい。

【００９１】（ＲＳＡ暗号装置用剰余乗算回路の実施例２）前述したように、次のような高速化手法が知られてい
る。

【００９２】暗号化：暗号化鍵ｅの値をできるだけ小さ
く選ぶ。

【００９３】復号化：中国人の剰余定理によって高速化
を行う。

【００９４】この手法でＲＳＡ暗号装置を構成しようと
した場合、暗号化と復号化で乗数や除数の桁数が異なる
ため、同じ剰余乗算回路によって暗号化と復号化を実行
しにくいといった問題点が生じる。そのために、剰余乗
算をソフト的な手法で行うか、別々の回路によって行う
ことが考えられる。しかし、本発明による剰余乗算方式
は回路規模と処理回数で簡単にトレードオフできるの
で、乗数や除数の桁数の違いは処理回数を変えることに
よって同じ回路で暗号化と復号化を簡単に実現できる。

【００９５】また、中国人の剰余定理によるＲＳＡ暗号
の演算は基本的に並列に実行できるので並列処理によっ
てＲＳＡ暗号化を行う本発明の方式には最適である。

【００９６】以上によって剰余乗算回路及びＲＳＡ暗号
装置がシストリックアレイによって効率的に構成できる
ことが示された。

【００９７】本発明による剰余乗算方式はシストリック
アレイの小型化からもわかるように、任意のｐ個のＰＥ
によって剰余乗算回路を構成できる。従って、この方式
は、非常に回路化及びゲートアレイ化しやすいという特
徴を持っている。そこで、ＰＥを１個から数個を単位と
してチップ化（以後ＳＲＣ：シストリックＲＳＡチップ
と呼ぶ）し、ＲＡＭと組合せ、それらを外部からプログ
ラミング制御することによってＲＳＡ暗号装置を簡単に
実現することができる。外部のプログラミング制御はＲ
ＯＭによって柔軟に組むことができる。

【００９８】また、高速処理が必要な場合は図１８に示
すようにＳＲＣを複数個用い、縦続に接続することによ
ってＰＥの総数が増す。それに合わせてプログラミング
を組替えることによって簡単に高速化していくことがで
きる。従って、本発明による剰余乗算方式はマルチ・プ
ロセッシング方式へも適用できる。

【００９９】従って、この方式でＲＳＡ暗号装置を構成
すると、次のような効果がある。

【０１００】１）１つのＰＥにおいて行われる演算は簡
単な整数演算である。従って、本発明による剰余乗算ア
ルゴリズムはＣＰＵやＤＳＰによって容易に装置化され
る。従って、ＩＣカードや電話回線程度の低速な伝送速
度における暗号化においては、ＣＰＵやＤＳＰを用いて
より簡単なＲＳＡ暗号装置を実現することに有効であ
る。

【０１０１】２）本発明による剰余乗算回路は任意個数
のＰＥによって剰余乗算回路を構成することが可能であ
る。従って、現在の半導体技術で安価に量産可能な２０
Ｋゲート程度以内のＣ- ＭＯＳのゲートアレイで、高速
なＲＳＡ暗号処理が１チップで実現できる。

【０１０２】３）複数チップによるＲＳＡ暗号のマルチ
・プロセッシング処理が簡単に実現できるので、チップ
数に比例した処理の高速化が簡単に行える。

【０１０３】４）剰余乗算を行う入力値の桁数がどんな
に大きくなっても、ＰＥを継ぎ足して行くだけでよい、
即ちチップ数を増すだけでよく拡張性に富んでいる。

【０１０４】５）暗号化と復号化で乗数や除数の桁数が
異なるＲＳＡ暗号処理を行う場合、本発明による剰余乗
算方式は回路規模と処理回数で簡単にトレードオフでき
るので、乗数や除数の桁数の違いは処理回数を変えるこ
とによって同じ回路で暗号化と復号化を簡単に実現でき
る。これによって非常に効率的なＲＳＡ暗号装置を構成
することができる。

【０１０５】また、剰余は簡単のために(7) 式からＲＯ
ＭによってＥj-1 を出力するが、乗算器によって−Ｑ・
Ｎを出力し演算できることも明かである。

【０１０６】

【発明の効果】以上説明したごとく、本発明の演算装置
によれば、小さな回路規模で、高速な剰余乗算が実行で
きるという効果がある。

【０１０７】以上説明したごとく、本発明の演算装置に
よれば、剰余乗算回路がシストリックアレイによって効
率的に構成できる。

【０１０８】この剰余乗算を行うシストリックアレイは
大きな桁の乗算を各ＰＥ毎に小さな桁（ｍビット）の乗
算に分解して行い、かつＲ＜Ｎの判定を行う必要がなく
１クロックに必要な処理時間は乗算または除算用のＲＯ
Ｍと加算器を信号が通過する時間だけでよいので、高速
なパイプライン処理が可能である。

【０１０９】また、シストリックアレイは簡単な同一Ｐ
Ｅの規則的な構成によって実現されるのでＶＬＳＩ等の
大規模回路を構成しやすく、制御も各ＰＥについて同一
で済み、データも同一クロックによって同期して動作す
るので非常に簡単に実現できるという利点もある。

【０１１０】複数個のＰＥからなる演算装置はＰＥの個
数に制限がないため回路規模の制約がなく、ＬＳＩ化が
簡単である。また、この演算装置は簡単な同一ＰＥの規
則的な構成によって実現されるのでＬＳＩ化に最適で、
制御も各ＰＥについて同一で済み、データも同一クロッ
クによって同期して動作するので非常に簡単に実現でき
るという利点もある。また、Ａ，Ｂの桁数が大きくなっ
たり、更なる高速化が要求されてもＰＥまたは演算装置
を継ぎ足して行くだけでよく拡張性に富んでいる。

【０１１１】また、ＰＥで行われる演算は簡単な整数演
算であるのでマイクロプロセッサやディジタルシグナル
プロセッサによっても簡単に実現できる。

【０１１２】また、ｍが大きくなると回路規模は大きく
なり、処理速度は高速になる。従って、ｍの値によって
回路規模と処理速度を選択することができ、処理速度と
のトレードオフが容易に行える点でも効率的な剰余乗算
回路となっている。

【０１１３】また、本発明によれば、暗号化装置や復号
装置を小さな回路規模で実現できるという効果がある。

【図面の簡単な説明】

【図１】剰余乗算を行うプロセッシング・エレメントの
回路構成例を示す図である。

【図２】本発明演算装置の回路構成例を示す図である。

【図３】本発明演算装置の他の回路構成例を示す図であ
る。

【図４】本発明演算装置の他の回路構成例を示す図であ
る。

【図５】本発明演算装置の他の回路構成例を示す図であ
る。

【図６】本発明演算装置の他の回路構成例を示す図であ
る。

【図７】本発明演算装置の他の回路構成例を示す図であ
る。

【図８】本発明演算装置の他の回路構成例を示す図であ
る。

【図９】有限体上の剰余乗算を行うＰＥの構成例を示す
図である。

【図１０】剰余乗算を行うＰＥの構成例を示す図であ
る。

【図１１】剰余乗算を行うプロセッシング・エレメント
の回路構成例を示す図である。

【図１２】本発明演算装置の回路構成例を示す図であ
る。

【図１３】ＲＳＡ暗号のための剰余乗算を行うＰＥの構
成例を示す図である。

【図１４】ＲＳＡ暗号のための剰余乗算を行うＰＥの構
成例を示す図である。

【図１５】ＲＳＡ暗号のための剰余乗算を行うＰＥの構
成例を示す図である。

【図１６】本発明演算装置の他の回路構成例を示す図で
ある。

【図１７】本発明演算装置の他の回路構成例を示す図で
ある。

【図１８】ＳＲＣによるマルチ・プロセッシング処理回
路の構成例を示す図である。

【符号の説明】

ＲレジスタＰレジスタＳセレクタ＋加算器Ａn-j Ａn-j を被乗数とした乗算器Ｅj-1 Ｒj-1,n を受けて剰余Ｅj-1,n-i を出力するＲ
ＯＭＰＥプロセッシングエレメントＰＥＡプロセッシングエレメントＰＥＢプロセッシングエレメントＰＥＰ複数のＰＥよりなる回路ＰＥＳ演算装置Ｃ判定回路

フロントページの続き (56)参考文献特開昭63−138448（ＪＰ，Ａ) 特開昭63−192131（ＪＰ，Ａ) 特開昭63−129388（ＪＰ，Ａ) 高速ＲＳＡ暗号装置の構成法，電子情報通信学会技術研究報告，1991年３月８日，Ｖｏｌ．90 Ｎｏ．460，ｐ. 25−32 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G09C 1/00 H04L 9/00 G06F 7/72 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】与えられた整数Ａ、Ｂの積を所定の整数
Ｎで除した剰余を演算し、キャリービットを含む当該剰
余を新たな整数ＡまたはＢとして演算を繰り返す演算装
置であって、キャリービットを除いた前記整数Ａと前記
整数Ｂとの積を前記整数Ｎで除した剰余を求めるための
パイプライン状に複数段接続された第１のプロセッシン
グエレメント群と、前記整数Ａのキャリービットと前記
整数Ｂとの積を前記整数Ｎで除した剰余を求めるための
第２のプロセッサエレメントとが交互に接続され、最後
段の前記第２のプロセッサエレメントにキャリービット
を制御するための第３のプロセッサエレメントが後続し
ており、前記第１のプロセッシングエレメントの各々
が、値を保持する保持手段と、前段のプロセッシングエレメントの前記保持手段に保持
された値に基づいて、前記キャリービットを除いた前記
整数Ａと前記整数Ｂとの積のうち前記整数Ｎの最大桁を
越える部分の前記整数Ｎに対する剰余に関して、各プロ
セッシングエレメント毎に定められた当該剰余の所定ビ
ット部分を求める剰余演算手段と、前記整数Ｂを所定ビット単位で順次入力して前記キャリ
ービットを除いた前記整数Ａの各段のプロセッシングエ
レメント毎に定められた所定ビット部分に乗じる乗算手
段と、該乗算手段による乗算結果の下位部分と、後段のプロセ
ッシングエレメントの前記乗算手段による乗算結果の上
位部分と、前段のプロセッシングエレメントの前記保持
手段に保持された値の下位部分と、前々段のプロセッシ
ングエレメントの前記保持手段に保持された値の上位部
分と、前記剰余演算手段の演算結果とを加算し、加算結
果を前記保持手段に保持させる加算手段とを備えること
を特徴とする演算装置。
【請求項２】請求項１に記載の演算装置を備え、送信
すべき情報Ｍに対して、与えられた暗号鍵ｅに基づい
て、当該演算装置による繰り返し演算により暗号Ｃ＝Ｍ
^ｅ mod Ｎを求めることを特徴とする暗号化装置。
【請求項３】前記整数Ａ、Ｂとして、前記繰り返し演
算における前回の演算結果または前記情報Ｍを選択する
選択手段を有することを特徴とする請求項２に記載の暗
号化装置。
【請求項４】前記暗号鍵ｅの各ビットの値に基づいて
前記選択手段の選択動作を制御する制御手段を有するこ
とを特徴とする請求項３に記載の暗号化装置。
【請求項５】請求項１に記載の演算装置を備え、受信
した暗号Ｃに対して、与えられた復号鍵ｄに基づいて、
当該演算装置による繰り返し演算により情報Ｍ＝Ｃ^ｄ m
od Ｎを求めることを特徴とする復号装置。
【請求項６】前記整数Ａ、Ｂとして、前記繰り返し演
算における前回の演算結果または暗号Ｃを選択する選択
手段を有することを特徴とする請求項５に記載の復号装
置。
【請求項７】前記復号鍵ｄの各ビットの値に基づいて
前記選択手段の選択動作を制御する制御手段を有するこ
とを特徴とする請求項６に記載の復号装置。