DE10357661B4

DE10357661B4 - Modularer Montgomery-Multiplizierer und zugehöriges Multiplikationsverfahren

Info

Publication number: DE10357661B4
Application number: DE10357661A
Authority: DE
Inventors: Hee-Kwan Son
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-12-30
Filing date: 2003-12-03
Publication date: 2009-04-16
Anticipated expiration: 2023-12-04
Also published as: FR2851348A1; US20040125948A1; DE10357661A1; US7412474B2; FR2849512A1; FR2849512B1; KR100459732B1; FR2867580B1; KR20040060445A; FR2867580A1

Abstract

Modularer Montgomery-Multiplizierer, gekennzeichnet durch
– ein Register (110) für einen Multiplikanden A zum Speichern eines Bitwertes a_i des Multiplikanden A,
– ein Register (130) für einen Modulus M zum Speichern eines Bitwertes m_i des Modulus M,
– ein Register (120) für einen Multiplikator B zum Speichern eines Bitwertes b_i des Multiplikators B,
– eine logische b_iA-Berechnungsschaltung (140) zum Multiplizieren von A mit dem Bitwert b_i, um jedes Bit von b_iA zu erhalten,
– eine logische q_i-Berechnungsschaltung (150) zum Berechnen einer Bool'schen Logikgleichung „s₀ XOR c₀ XOR (b_i UND a₀)", um einen Bitwert q_i, mit i als einer ganzen Zahl zwischen null und n-1, zu erhalten, wobei s₀ das niedrigstwertige Bit einer Summe S, c₀ das niedrigstwertige Bit eines Übertrags C, b_i einen jeweiligen Bitwert von B und a₀ das niedrigstwertige Bit von A bezeichnen,
– eine logische q_iM-Berechnungsschaltung (160) zum Multiplizieren des Modulus M...

Description

Die Erfindung bezieht sich auf einen modularen Montgomery-Multiplizierer, wie er insbesondere für kryptografische Systeme mit öffentlichem Schlüssel benutzt wird, und auf ein zugehöriges Multiplikationsverfahren.
Kryptografische Systeme werden in Kommunikationsanwendungen mit intelligenten Karten (Smartcards), IC-Karten und dergleichen benutzt, wobei eine Entwicklung von Systemen mit geheimem Schlüssel zu solchen mit öffentlichem Schlüssel zu beobachten ist. In kryptografischen Systemen mit geheimem Schlüssel teilen sich zwei Nutzer einen identischen, geheimen Schlüssel, um miteinander verschlüsselt zu kommunizieren. Dies macht die Schlüsselverwaltung und die digitale Unterschrift basierend auf kryptografischen Systemen mit geheimem Schlüssel relativ aufwendig. In kryptografischen Systemen mit öffentlichem Schlüssel ist hingegen ein geheimer Schlüssel bei jedem Nutzer hinterlegt, und jeder Nutzer, der den öffentlichen Schlüssel eines anderen Nutzers kennt, kann mit diesem kommunizieren, was den Prozess von komfortablen geheimen Kommunikationsvorgängen vereinfacht.
Beispiele von kryptografischen Systemen mit öffentlichem Schlüssel umfassen das System von Ron Rivest, Adi Schamir und Len Adleman (RSA-System), das Diffie-Hellman-System, das System mit Digitalsignaturalgorithmus (DSA-System), das Kryptosystem vom elliptischen Kurventyp (ECC) und dergleichen. Da kryptografische Systeme mit öffentlichem Schlüssel eine modulare Multiplikation ausführen, um eine modulare Exponentialoperation zu realisieren, brauchen solche Systeme einen modularen Multiplizierer.

Ein modularer Multiplikationsalgorithmus vom Montgomery-Typ ist als effektivster modularer Multiplikationsalgorithmus bekannt und kann in Pseudocode durch folgenden Algorithmus 1 ausgedrückt werden:

Stimulus:
	A = (a_n-1 a_n-2 ...a₁ a₀)₂ und A < M B = (b_n-1 b_n-2 ...b₁ b₀)₂ und B < M M = (m_n-1 m_n-2 ...m₁ m₀)₂, mit M ungerade.
Antwort:
	S = (S_n S_n-1 S_n-2 ...S₁ S₀)₂ ≡ ABR^–1(mod M)
Verfahren:
	S: = 0 For i: = 0 to n-1 do q_i: = s₀ XOR(b_i AND a₀) S: = (S + b_iA + q_iM)/2
endfor

Dies bedeutet, dass im Algorithmus 1 ein Endwert S, der als eine Summe in einer "for"-Schleife berechnet wird, kongruent zu AB^–1(mod M) ist, wobei im Algorithmus 1 ein Übertrag als S_n bezeichnet ist. Dabei bezeichnet "R^–1" das Inverse von R modular-multipliziert für "mod M". Wenn R = 2ⁿ ist, hat "(R × R^–1) mod M" den Wert 1.
Der modulare Montgomery-Multiplikationsalgorithmus führt nur Multiplikationen mit gegebenen Zahlen A, B und M ohne Verwendung von Divisionen aus und ist schneller als andere Algorithmen. Deshalb wird der modulare Montgomery-Multiplikationsalgorithmus häufig in kryptografischen Systemen mit öffentlichem Schlüssel verwendet, die eine modulare Exponentialoperation erfordern.
Herkömmliche modulare Montgomery-Multiplizierer, die auf einem modularen Montgomery-Multiplikationsalgorithmus basieren, werden nach parallelen Multiplizierern, die einen Übertragpropagationsaddierer als einen grundlegenden Akkumulator benutzen, und serielle Multiplizierer unterschieden, die einen Kompressor, d. h. einen aus Volladdierern aufgebauten Addierer mit Übertragbehalt, mit drei Eingängen und zwei Ausgängen als einen grundlegenden Akkumulator benutzen.
Ein Übertragpropagationsaddierer benötigt eine Übertragpropagationsverzögerungszeit auf einer Basis von Takt zu Takt, um einen Übertrag bei jeder Addition von mehreren Bits weiterzuleiten. Da der Übertragpropagationsaddierer die Übertragpropagationsverzögerungszeit nicht unbegrenzt erhöhen kann, ist eine Multiplikation von Zahlen, die durch 32 oder mehr Bits repräsentiert werden, relativ schwierig. Der Übertragpropagationsaddierer hat mit anderen Worten ein höheres Leistungs-Verzögerungs-Produkt als ein Übertragbehaltaddierer. Es muss daher wiederholt eine Multiplikation einer 32-Bit-Zahl mit einer 32-Bit-Zahl ausgeführt werden, um eine Multiplikation von Zahlen auszuführen, die durch 32 oder mehr Bits repräsentiert werden. Da ein serieller Multiplizierer, der einen Übertragbehaltaddierer benutzt, einen 3-2-Kompressor, d. h. einen solchen mit drei Eingängen und zwei Ausgängen, benutzt, d. h. Volladdierer, gibt es keine Schwierigkeiten wegen einer Propagationsverzögerungszeit, der serielle Multiplizierer mit dem Übertragbehaltaddierer ist jedoch nicht ohne weiteres in Hardware zu implementieren. Der 3-2-Kompressor vermeidet die Propagationsverzögerungszeit mittels Durchführen aller Additionen von jedem Bit bei einer der Bitanzahl entsprechenden Anzahl von Taktpulsen. Mit anderen Worten müssen in einem modularen Montgomery-Multiplikationsalgorithmus, wie dem Algorithmus 1, die vier Wortüberträge, S, b_i, A und q_iM summiert werden. Der 3-2-Kompressor kann jedoch nur drei Worte empfangen, so dass dementsprechend die Schwierigkeit auftritt, dass die beiden Haupteingabeworte b_iA und q_iM vorab summiert werden müssen. Außerdem muss der 3-2-Kompressor bei der Durchführung der Addition einen Übertrag, S und eines der vier Worte, d. h. den Übertrag, S, b_iA und q_iM, empfangen, so dass ein 4:1-Multiplexer benötigt wird, um je eines der vier Worte auszuwählen.
In der Patentschrift DE 695 06 674 T2 ist ein modularer Montgomery-Multiplizierer offenbart, der aus drei Schieberegistern, drei vor diesen angeordneten Multiplexern, drei Registern, zwei mit diesen gekoppelten Multiplikationsschaltkreisen, weiteren Multiplexern, einem Demultiplexer, seriellen Subtraktionsschaltkreisen, seriellen Additionsschaltkreisen, Verzögerungsschaltkreisen und einem Vergleichsergebnisspeicher schaltkreis in einer spezifischen Weise aufgebaut ist, um eine spezielle Art der modularen Montgomery-Multiplikation auszuführen.
In der Offenlegungsschrift WO 02/067108 A2 ist ein modularer Montgomery-Multiplizierer offenbart, der eine Einrichtung zum Durchführen eines Multiplikations-Vorausschauverfahrens, eine Einrichtung zum Multiplizieren, eine Einrichtung zum Durchführen eines Reduktions-Vorausschauverfahrens, eine weitere Einrichtung zum Multiplizieren, eine Summiereinrichtung und eine Einrichtung zur Steuerung der vorgenannten Komponenten derart umfasst, dass eine spezielle Art der modularen Montgomery-Multiplikation ausgeführt wird.
Der Erfindung liegt als technisches Problem die Bereitstellung eines modularen Montgomery-Multiplizierers und eines zugehörigen Montgomery-Multiplikationsverfahrens zugrunde, die sich mit relativ geringem Aufwand realisieren lassen und mit denen eine hohe Betriebsgeschwindigkeit und ein niedriges Leistungs-Verzögerungs-Produkt ermöglicht wird.
Die Erfindung löst dieses Problem durch die Bereitstellung eines modularen Montgomery-Multiplizierers mit den Merkmalen des Anspruchs 1 und eines Verfahrens zur Durchführung einer modularen Montgomery-Multiplikation mit den Merkmalen des Anspruchs 8 oder 17.
Erfindungsgemäß wird eine Übertragbehalt-Addiererstruktur (CSA-Struktur) verwendet, bei der alle benötigten Bitadditionen für vier Worte, wie Übertrag, S, b_iA und q_iM, ausgeführt werden, während Additionen in einer Übertragpropagationsaddiererstruktur (CPA-Struktur) in einer Ausgangsstufe durchgeführt werden, so dass eine hohe Betriebsgeschwindigkeit und ein kleines Leistungs-Verzögerungs-Produkt erzielbar sind.
Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen angegeben.
Vorteilhafte Ausführungsformen der Erfindung sind in den Zeichnungen dargestellt und werden nachfolgend beschrieben. Hierbei zeigen:
1 ein Blockschaltbild eines modularen Montgomery-Multiplizierers,
2 ein Blockschaltbild eines 4-2-Kompressors für den Multiplizierer von 1 mit zugehörigen peripheren Schaltkreisen,
3 ein Flussdiagramm zur Veranschaulichung des Betriebs des Multiplizierers von 1,
4 ein Blockdiagramm zur Veranschaulichung des Betriebs eines Übertragbehaltaddierers im Multiplizierer von 1 und
5 ein Blockdiagramm zur Veranschaulichung des Betriebs eines Übertragpropagationsaddierers im Multiplizierer von 1.
1 zeigt einen modularen Montgomery-Multiplizierer zur Berechnung eines Wertes kongruent zu "ABR^–1" (mod M). Hierbei sind A und B Eingabewerte mit n Bit und R^–1 ist das Inverse von R modular-multipliziert für "mod M". Dazu beinhaltet der modulare Montgomery-Multiplizierer ein A-Register 110, ein B-Register 120, ein M-Register 130, eine logische Berechnungsschaltung 140 für b_iA, eine logische Berechnungsschaltung 150 für q_i, eine logische Berechnungsschaltung 160 für q_iM, einen 4-2-Kompressor 170, ein S-Register 180 und ein C-Register 190.
Das A-Register 110 speichert die Bitwerte a_i der Zahl A, die kleiner als der Modulus M ist, mit i als einer ganzen Zahl zwischen 0 und n-1. Die Zahl A bezeichnet ein Wort, das eine Eingabezahl mit n Bit repräsentiert, während a_i das jeweilige Bit der Bits a₀ bis a_n-1 bezeichnet, welche die Zahl A binär darstellen.
Das B-Register 120 speichert die Bitwerte b_i der Zahl B, die kleiner als der Modulus M ist, mit i als ganzer Zahl zwischen 0 und n-1. Die Zahl B bezeichnet ein Wort, das eine Eingabezahl mit n Bit repräsentiert, wobei b_i das jeweilige Bit der Bits b₀ bis b_b-1 bezeichnet, aus denen die Binärdarstellung der Zahl B besteht.
Das M-Register 130 speichert die Bitwerte m_i des Modulus M, der eine ungerade Zahl ist, mit i als einer ganzen Zahl zwischen 0 und n-1. Der Modulus M bezeichnet ein Wort, das eine Eingabezahl mit n Bit darstellt, wobei m_i das jeweilige Bit der Bits m₀ bis m_n-1 bezeichnet, aus denen die Binärdarstellung des Modulus M besteht.
Die logische Berechnungsschaltung 140 für b_iA berechnet jedes Bit von b_iA durch Multiplizieren der Zahl A mit dem Bitwert b_i. Dementsprechend werden die Werte der n Bits b_ia₀ bis b_ia_n-1 ausgegeben. Da hierbei der Index i in der "for"-Schleife des Algorithmus 1 von 0 bis n-1 läuft, wird der Wert b_i aus der Position des niedrigstwertigen Bits (LSB) des B-Registers 120 erhalten, dessen Inhalt bei jeder Durchführung des Algorithmus in der "for"-Schleife nach rechts verschoben wird, wie in 1 dargestellt.
Die logische Berechnungsschaltung 150 für q_i berechnet den Wert q_i, mit i als einer ganzen Zahl zwischen 0 und n-1, wie er in der "for"-Schleife des Algorithmus 1 benutzt wird, indem die Bool'sche Logikgleichung "s₀ XOR c₀ XOR (b_i UND a₀)" gelöst wird. Hierbei bezeichnen s₀ das LSB einer Summe S, c₀ das LSB eines Übertrags C, b_i einen Bitwert der Zahl B und a₀ das LSB der Zahl A. Da hierbei der Index i in der "for"-Schleife des Algorithmus 1 von 0 bis n-1 läuft, wird der Wert b_i von der Position des LSB des B-Registers 120 erhalten, dessen Inhalt bei jeder Ausführung des Algorithmus in der "for"-Schleife um 1 nach rechts verschoben wird, wie in 1 dargestellt.
Die logische Berechnungsschaltung 160 für q_iM berechnet jedes Bit von q_iM durch Multiplizieren des Modulus M mit dem Bitwert q_i. Dementsprechend werden die Werte der n Bits q_im₀ bis q_im_n-1 ausgegeben. Da hierbei der Index i in der "for"-Schleife des Algorithmus 1 von 0 bis n-1 läuft, erhöht er sich bei jeder Ausführung des Algorithmus in der "for"-Schleife um 1, wie in 1 dargestellt. Dementsprechend werden die Werte der n Bits q₀ bis q_n-1 ausgegeben.
In einer vorteilhaften Realisierung führt der 4-2-Kompressor 170 in Reaktion auf ein Übertragpropagationsaddierersignal ONCPA n Additionen mit C, S, b_iA und q_iM aus, um Zwischenberechnungswerte für jedes Bit von S und C zu erhalten, was in einer Übertragbehaltaddiererstruktur erfolgt. Dann summiert der 4-2-Kompressor 170 die Zwischenberechnungswerte, um die endgültigen Resultate für S und C zu erhalten, was in einer Übertragpropagationsaddiererstruktur erfolgt. Wenn sich das Übertragpropagationsaddierersignal ONCPA in einem inaktiven Zustand befindet, z. B. in einem ersten Logikzustand "0", arbeiten erste und zweite Volladdierer gleichzeitig in der Übertragbehaltaddiererstruktur und bilden dadurch eine Struktur mit vier Eingängen und zwei Ausgängen. Wenn sich das Übertragpropagationsaddierersignal ONCPA in einem aktiven Zustand befindet, z. B. in einem zweiten Logikzustand "1", arbeiten nur die zweiten Volladdierer in der Übertragpropagationsaddiererstruktur, wodurch eine Struktur mit drei Eingängen und zwei Ausgängen gebildet wird.
Das S-Register 180 aktualisiert und speichert die Bitwerte s_i von S, mit i als einer ganzen Zahl zwischen 0 und n-1. Mit anderen Worten bezeichnet S ein Wort, das eine Zahl mit n Bit darstellt, die als Summe ausgegeben wird, wobei s_i den jeweiligen Bitwert aller Bits s₀ bis s_n-1 bezeichnet, welche die Binärdarstellung des Wortes S bilden. Das Wort S wird bei jeder Durchführung einer Addition im Übertragbehaltaddierer oder im Übertragpropagationsaddierer, die im 4-2-Kompressor 170 enthalten sind, aktualisiert.
Das C-Register 190 aktualisiert und speichert die Bitwerte c_i von C, mit i als einer ganzen Zahl zwischen 0 und n-1. Mit anderen Worten bezeichnet C ein Wort, das eine Zahl mit n Bit repräsentiert, die als Übertrag ausgegeben wird, wobei c_i den jeweiligen Bitwert aller Bits c₀ bis c_n-1 bezeichnet, aus denen die Binärdarstellung des Wortes C besteht. Das Wort C wird bei jeder Durchführung einer Addition im Übertragbehaltaddierer oder Übertragpropagationsaddierer aktualisiert, die im 4-2-Kompressor 170 enthalten sind.
2 veranschaulicht eine vorteilhafte Realisierung des 4-2-Kompressors 170 von 1 und seine peripheren Schaltkreise detaillierter. Wie daraus ersichtlich, umfasst der 4-2-Kompressor 170 erste und zweite Volladdierereinheiten 171, 175 und eine Multiplexereinheit 173, wodurch ein Addierer mit einer Struktur mit vier Eingängen und zwei Ausgängen gebildet wird.
Alle ersten Volladdierer der ersten Volladdierereinheit 171 summieren ihre zugehörigen Bitwerte, d. h. denjenigen von b_iA, den Bitwert s_i+1 von S und den Bitwert c_i von C, um einen Übertrag cA_i und eine Summe sA_i zu erhalten. Der zugehörige Bitwert von b_iA ist b_ia_i.
Alle Multiplexer in der Multiplexereinheit 173 geben selektiv entweder ihren zugehörigen Bitwert von q_iM, den Übertrag cA_i-1 und die Summe sA_i oder den Bitwert s_i+1 von S, den Bitwert c_i von C und den Bitwert c_i-1 von C in Reaktion auf das Übertragpropagationsaddierersignal ONCPA ab. Der zugehörige Bitwert von q_iM ist q_iM_i.
Wenn das Übertragpropagationsaddierersignal ONCPA in einem inaktiven Zustand ist, d. h. im ersten Logikzustand „0", führt jeder der zweiten Volladdierer der zweiten Volladdierereinheit 175n Additionen des Bitwertes q_im_i von q_iM, des Übertrags cA_i-1 und der Summe sA_i aus, um Zwischenbitwerte s_i und c_i von S bzw. C zu berechnen. Wenn das Übertragpropagationsaddierersignal ONCPA in einem aktiven Zustand ist, d. h. im zweiten Logikzustand „1", summiert jeder der zweiten Volladdierer der zweiten Volladdierereinheit 175 den Bitwert s_i+1 von S mit dem Bitwert c_i von C und dem Bitwert c_i-1 von C, um die Endergebnisse von S und C zu erhalten.
Der Übertrag cA_i-1 bezeichnet den Übertrag eines Bits, das sich an einer um ein Bit niedrigeren Stelle befindet als das Bit des Übertrags cA_i, der von der ersten Volladdierereinheit 171 ausgegeben wird. Der Bitwert s_i+1 von S bezeichnet die Summe eines Bits, das sich an einer um ein Bit höheren Stelle als der Zwischenbitwert s_i befindet, der von der zweiten Volladdierereinheit 175 ausgegeben wird. Der Bitwert c_i-1 von C bezeichnet den Übertrag eines Bits, das sich an einer um ein Bit niedrigeren Stelle als der Bitwert c_i befindet, der von der zweiten Volladdierereinheit 175 ausgegeben wird.
Wie in 2 dargestellt, befinden sich die niedrigstwertigen Bits des Übertrags cA_i-1 und des Übertrags c_i-1 zum Zeitpunkt eines Taktpulses vor Aktivierung des Übertragpropagationsaddierersignals ONCPA im ersten Logikzustand, und das höchstwertige Bit der Summe s_i+1 ist gleich dem Bitwert cA_i-1. Der Bitwert cA_i-1 ist das höchstwertige Bit des Übertrags cA_i, der von der ersten Volladdierereinheit 171 ausgegeben wird.
Die Betriebsweise des modularen Montgomery-Multiplizierers gemäß der Ausführungsform der 1 und 2 wird nachfolgend unter Bezugnahme auf 3 ausführlicher beschrieben.
Der erfindungsgemäße modulare Montgomery-Multiplizierer umfasst, wie erläutert, Register zum Speichern von Bitwerten a₁, b₁, m_i, c_i und s_i, mit i als einer ganzen Zahl im Bereich von null bis n-1, die zu einem Wort A, einem Wort B, einem Modulus M, einem Übertrag C bzw. einer Summe S gehören, und berechnet einen Wert kongruent zu „ABR^–1 (mod M). Dabei sind A und B Eingabezahlen mit n Bit, und R^–1 ist das Inverse von R modular multipliziert für „mod A".
Im Betrieb des modularen Montgomery-Multiplizierers werden zunächst in einem Schritt S311 die Zahlen A und B und der Modulus M empfangen. In einem Schritt S313 werden Register, die den Parameter i und die Summe S speichern, auf null zurückgesetzt und initialisiert. Die Zahlen A und B sind kleiner als der Modulus M, wobei M eine ungerade Zahl ist.
Danach bestimmt die logische Berechnungsschaltung 150 für q_i des modularen Montgomery-Multiplizierers in Schritten S315, S317 und S319 einen Wert q_i, mit i als einer ganzen Zahl im Bereich zwischen null und n-1, wie er in der „for"-Schleife des Algorithmus 1 benutzt wird, durch Lösen der Bool'schen Logikgleichung „s₀ XOR c₀ XOR (b_i UND a₀)". Hierbei bezeichnen s₀ das niedrigstwertige Bit der Summe S, c₀ das niedrigstwertige Bit des Übertrags C, b_i einen Bitwert der Zahl B und a₀ das niedrigstwertige Bit der Zahl A. Außerdem multipliziert in den Schritten S315, S317 und S319 die logische Berechnungsschaltung 140 für b_iA die Zahl A mit dem Bitwert b_i, um jedes Bit von b_iA zu erhalten, und die logische Berechnungsschaltung 160 für q_iM berechnet jedes Bit von q_iM durch Multiplizieren des Modulus M mit dem Bitwert q_i. Des weiteren führt in den Schritten S315, S317 und S319 der 4-2-Kompressor 170 n Additionen mit C, S, b_iA und q_iM aus, um Zwischenwerte für jedes Bit von S und C zu erhalten, und zwar in einer Übertragbehaltaddiererstruktur, die gebildet wird, wenn sich das Übertragpropagationsaddierersignal ONCPA in einem inaktiven Zustand befindet, d. h. in einem ersten Logikzustand „0".
4 veranschaulicht im Blockdiagramm die Betriebsweise eines Übertragbehaltaddierers im erfindungsgemäßen modularen Montgomery-Multiplizierer. Wie aus den 3 und 4 ersichtlich, summiert in den Schritten S315 und S317 jeder erste Volladdierer der ersten Volladdierereinheit 171 seinen zugehörigen Bitwert von b_iA, den Bitwert s_i+1 von S und den Bitwert c_i von C, um den Übertrag cA_i und die Summe sA_i zu erhalten. Jeder zweite Volladdierer der zweiten Volladdierereinheit 175 führt n Additionen mit seinem zugehörigen Bitwert von q_iM, der Summe sA_i und dem Übertrag cA_i-1 aus, die durch die Multiplexereinheit 173 ausgewählt werden, um die Zwischenwerte s_i und c_i der Summe S bzw. des Übertrags C zu berechnen.
Wie in 2 dargestellt, wird das vom Übertrag C ausgegebene Bit in einen ersten, diesem Bit zugeordneten Volladdierer eingegeben, das von der Summe S ausgegebene Bit wird in einen diesem Bit zugeordneten ersten Volladdierer eingegeben, das von der Summe S ausgegebene Bit wird in einen ersten Volladdierer eingegeben, der einem Bit zugeordnet ist, das sich an einer um eine Bitstelle niedrigeren Position als das Ausgabebit befindet, und eine in der „for"-Schleife des Algorithmus 1 enthaltene ½-Divisionsoperation wird ausgeführt, und zwar im Schritt S315 von 3. Das niedrigstwertige Bit des Übertrags cA_i-1 befindet sich im ersten Logikzustand „0". Mit anderen Worten erzeugt der 4-2-Kompressor 170, wenn sich das Übertragpropagationsaddierersignal ONCPA in einem inaktiven Zustand befindet, die Übertragbehaltaddiererstruktur, die eine Struktur mit vier Eingängen und zwei Ausgängen darstellt, und berechnet die Zwischenwerte von S und C unter Verwendung von b_iA und q_iM.
Nach Berechnung der Zwischenwerte von S und C für jedes Bit wird das Übertragpropagationsaddierersignal ONCPA aktiviert und nimmt dann den zweiten Logikzustand „1" ein, siehe Schritt S321. In Schritten S323 bis S327 summiert der 4-2-Kompressor 170 die berechneten Zwischenwerte von S und C, um die Endwerte von S und C zu erhalten, und zwar in der Übertragpropagationsaddiererstruktur.
5 veranschaulicht im Blockdiagramm die Betriebsweise des Übertragpropagationsaddierers im erfindungsgemäßen modularen Montgomery-Multiplizierer. Wie aus den 3 und 5 ersichtlich, summiert die zweite Volladdierereinheit 175 im Schritt S323 den Bitwert s_i+1 von S, den Bitwert c_i von C und den Bitwert c_i-1 von C, die von der Multiplexereinheit 173 ausgewählt werden, um die Endresultate von S und C zu berechnen. Wie in 2 dargestellt, ist das höchstwertige Bit der Summe s_i+1 zum Zeitpunkt eines Taktes vor Aktivierung des Übertragpropagationsaddierersignals ONCPA gleich dem Bitwert cA_n-1. Das niedrigstwertige Bit des Übertrags c_i-1 befindet sich im ersten Logikzustand „0".
Im Schritt S325 werden der Bitwert s_i+1 von S, der Bitwert c_i von C und der Bitwert c_i-1 von C für eine gewisse Zeitspanne, und zwar gleich dem Produkt aus einer Propagationsverzögerungszeit für ein Bit mit der Anzahl n an Bits, in der Übertragpropagationsaddiererstruktur summiert. Die Propagationsverzögerungszeit für ein Bit besteht aus der Propagationsverzögerungszeit der zweiten Volladdierereinheit 175 und der Verzögerungszeit jedes der 2:1-Multiplexer der Multiplexereinheit 173. Mit anderen Worten ist, wenn sich das Übertragpropagationsaddierersignal ONCPA in einem aktiven Zustand befindet, eine Übertragpropagationsaddiererstruktur mit drei Eingängen und zwei Ausgängen realisiert, und die Zwischenwerte von S und C werden in dieser Struktur mit drei Ein gängen und zwei Ausgängen summiert, um die Endwerte von S und C zu berechnen.
Wie oben beschrieben, beinhaltet der erfindungsgemäße modulare Montgomery-Multiplizierer Register, welche die Bitwerte a_i, b_i, m_i, c_i und s_i, mit i als einer ganzen Zahl zwischen null und n-1, speichern, die zu einem Wort A, einem Wort B, einem Modulus M, einem Übertrag C bzw. einer Summe S gehören, und berechnet einen Wert kongruent zu „ABR^–1" (mod M). Hierbei sind A und B Eingabezahlen mit n Bit, und R^–1 ist das Inverse von R modular multipliziert für „mod A". Die logische Berechnungsschaltung 140 für b_iA berechnet jedes Bit von b_iA durch Multiplizieren der Zahl A mit dem Bitwert b_i. Gleichzeitig berechnet die logische Berechnungseinheit 150 für q_i den Wert q_i durch Lösen der Bool'schen Logikgleichung „s₀ XOR c₀ XOR (b_i UND a₀)". Hierbei sind s₀ das niedrigstwertige Bit der Summe S, c₀ das niedrigstwertige Bit des Übertrags C, b_i ein Bitwert der Zahl B und a₀ das niedrigstwertige Bit der Zahl A. Die logische Berechnungsschaltung 160 für q_iM berechnet jedes Bit von q_iM durch Multiplizieren des Modulus M mit dem Bitwert q_i. Der 4-2-Kompressor 170 führt in Reaktion auf das Übertragpropagationsaddierersignal ONCPA n Additionen von C, S, b_iA und q_iM aus, um berechnete Zwischenwerte für jedes Bit von S und C zu erhalten, und zwar in einer Übertragbehaltaddiererstruktur. Dann summiert der 4-2-Kompressor 170 die berechneten Zwischenwerte, um die Endresultate für S und C zu erhalten, und zwar in einer Übertragpropagationsaddiererstruktur. Die Endresultate von S und C werden zum S- bzw. C-Register 180, 190 ausgegeben.
Wie oben erläutert, beseitigt bzw. reduziert der erfindungsgemäße modulare Montgomery-Multiplizierer die Propagationsverzögerungszeit, indem eine Übertragbehaltaddiererstruktur (CSA-Struktur) verwendet wird, bei der alle Additionen, die für jedes Bit benötigt werden, zuerst für vier Worte, z. B. C, S, b_iA und q_iM, durchgeführt werden, wonach Additionen in einer Übertragpropagationsaddiererstruktur (CPA-Struktur) erst in einer abschließenden Ausgangsstufe ausgeführt werden. Auf diese Weise werden eine hohe Betriebsgeschwindigkeit und ein geringes Leistungs-Verzögerungs-Produkt erzielt, was das Leistungsvermögen eines modularen Montgomery-Multiplikationsalgorithmus erhöht.
Es versteht sich, dass die Erfindung außer den gezeigten noch zahlreiche weitere Ausführungsformen umfasst. So ist z. B. in 1 die Verwendung eines einzigen 4-2-Kompressors angegeben. Die Erfindung ist jedoch hierauf nicht beschränkt, sondern umfasst auch Ausführungsformen mit einem beliebigen t-s-Kompressor mit t > 3 und s > 1, oder mit einer Mehrzahl solcher Kompressoren. Des weiteren ist die Erfindung nicht auf die Verwendung von drei Registern A, M und B beschränkt. Vielmehr können andere Register in Kombination mit einem Kompressor vorgesehen sein, der mehrere Eingänge und Ausgänge aufweist. Außerdem ist eine Wurzel bei den oben beschriebenen Ausführungsbeispielen nicht auf einen bestimmten Wurzelwert beschränkt.

Claims

Modularer Montgomery-Multiplizierer, gekennzeichnet durch – ein Register (110) für einen Multiplikanden A zum Speichern eines Bitwertes a_i des Multiplikanden A, – ein Register (130) für einen Modulus M zum Speichern eines Bitwertes m_i des Modulus M, – ein Register (120) für einen Multiplikator B zum Speichern eines Bitwertes b_i des Multiplikators B, – eine logische b_iA-Berechnungsschaltung (140) zum Multiplizieren von A mit dem Bitwert b_i, um jedes Bit von b_iA zu erhalten, – eine logische q_i-Berechnungsschaltung (150) zum Berechnen einer Bool'schen Logikgleichung „s₀ XOR c₀ XOR (b_i UND a₀)", um einen Bitwert q_i, mit i als einer ganzen Zahl zwischen null und n-1, zu erhalten, wobei s₀ das niedrigstwertige Bit einer Summe S, c₀ das niedrigstwertige Bit eines Übertrags C, b_i einen jeweiligen Bitwert von B und a₀ das niedrigstwertige Bit von A bezeichnen, – eine logische q_iM-Berechnungsschaltung (160) zum Multiplizieren des Modulus M mit dem Bitwert q_i, um jedes Bit von q_iM zu erhalten, und – einen t-s-Kompressor (170), mit t > 3 und s > 1 zur Durchführung von n Additionen des Übertrags C, der Summe S, b_iA und q_iM in einer Übertragbehaltaddiererstruktur, um Zwischenwerte für jedes Bit der Summe S und des Übertrags C zu erhalten, und zum Summieren der Zwischenwerte in einer Übertragpropagationsaddiererstruktur, um Endresultate für S und C zu erhalten, in Reaktion auf ein Übertragpropagationsaddierersignal.
Modularer Montgomery-Multiplizierer nach Anspruch 1, weiter dadurch gekennzeichnet, dass er einen Wert kongruent zu „ABR^–1" (mod M) berechnet, wobei A und B Eingabezahlen mit n Bit sind und R^–1 das Inverse von R modular multipliziert für „mod M" ist, wobei A kleiner als M ist, B kleiner als M ist, M eine ungerade Zahl ist, der Kompressor ein 4-2-Kompressor ist, ein S-Register (180) zum Aktualisieren eines Bitwertes s_i der Summe S und zum Speichern des aktualisierten Bitwertes vorgesehen ist und ein C-Register (190) zum Aktualisieren eines Bitwertes c_i des Übertrags C und zum Speichern des aktualisierten Bitwertes vorgesehen ist.
Modularer Montgomery-Multiplizierer nach Anspruch 1 oder 2, weiter dadurch gekennzeichnet, dass der Kompressor folgende Elemente enthält: – eine erste Volladdierereinheit zum Summieren eines Bitwertes b_i-a_i von b_iA, eines Bitwertes s_i ₊₁ der Summe S und eines Bitwertes c_i des Übertrags C, um einen Übertrag cA_i und eine Summe sA_i zu erhalten, – eine Multiplexereinheit zum selektiven Ausgeben entweder eines Bitwertes q_iM_i von q_iM, des Übertrags cA_i_₁ und sA_i oder des Bitwertes s_i+1 von S, des Bitwertes c_i des Übertrags C und des Bitwertes c_i-1 von C in Reaktion auf das Übertragpropagationsaddierersignal und – eine zweite Volladdierereinheit zur Durchführung von n Additionen des Bitwertes q_im_i von q_iM, cA_i-1 und sA_i, um Zwischenbitwerte s_i und c_i von S bzw. C zu berechnen, wenn das Übertragpropagationsaddierersignal in einem inaktiven Zustand ist, und zum anschließenden Summieren des Bitwertes s_i+1 von S, des Bitwertes c_i von C und des Bitwertes c_i-1 von C, um Endergebnisse für die Summe S und den Übertrag C zu erhalten, wenn das Übertragpropagationsaddierersignal in einem aktiven Zustand ist.
Modularer Montgomery-Multiplizierer nach Anspruch 2 oder 3, weiter dadurch gekennzeichnet, dass die Übertragbehaltaddiererstruktur eine Struktur mit vier Eingängen und zwei Ausgängen ist, bei welcher die ersten und zweiten Volladdierereinheiten arbeiten, wenn sich das Übertragpropagationsaddierersignal in einem inaktiven Zustand befindet.
Modularer Montgomery-Multiplizierer nach einem der Ansprüche 2 bis 4, weiter dadurch gekennzeichnet, dass die Übertragpropagationsaddiererstruktur eine Struktur mit drei Eingängen und zwei Ausgängen ist, bei welcher nur die zweite Volladdierereinheit arbeitet, wenn sich das Übertragpropagationsaddierersignal in einem aktiven Zustand befindet.
Modularer Montgomery-Multiplizierer nach einem der Ansprüche 3 bis 5, weiter dadurch gekennzeichnet, dass das niedrigstwertige Bit des Übertrags cA_i-1, und das niedrigstwertige Bit des Übertrags c_i-1 in einem ersten logischen Zustand sind.
Modularer Montgomery-Multiplizierer nach einem der Ansprüche 3 bis 6, weiter dadurch gekennzeichnet, dass zum Zeitpunkt eines Taktpulses vor Aktivierung des Übertragpropagationsaddierersignals das höchstwertige Bit der Summe s_i+1 gleich dem Übertrag cA_n-1 ist.
Verfahren zur Durchführung einer modularen Montgomery-Multiplikation in einem modularen Montgomery-Multiplizierer, der Register zum Speichern von Bitwerten a_i, b_i, m_i, c_i und s_i, mit i als einer ganzen Zahl zwischen null ein n-1, eines Wortes A, eines Wortes B, eines Modulus M, eines Übertrags C bzw. einer Summe S umfasst und einen Wert kongruent zu „ABR^–1" (mod M) berechnet, wobei A und B Eingabezahlen mit n Bit sind, R^–1 das Inverse von R modular multipliziert für „mod M" ist und M ein Modulus ist, gekennzeichnet durch folgende Schritte: – Empfangen der Zahl A, der Zahl B und des Modulus M, – Multiplizieren der Zahl A mit einem Bitwert b_i, um jedes Bit von b_iA zu erhalten, – Lösen einer Bool'schen Logikgleichung „s₀ XOR c₀ XOR (b_i UND a₀)", mit s₀ als niedrigstwertigem Bit einer Summe S, c₀ als niedrigstwertigem Bit eines Übertrags C, b_i als Bitwert der Zahl B und a₀ als niedrigstwertiges Bit der Zahl A, mit i als einer ganzen Zahl zwischen null und n-1, um einen Bitwert q_i zu erhalten, – Multiplizieren der Zahl M mit dem Bitwert q_i, um jedes Bit von q_iM zu erhalten, – Durchführen von n Additionen des Übertrags C, der Summe S, von b_iA und q_iM in einer Übertragbehaltaddiererstruktur in Reaktion auf ein Übertragpropagationsaddierersignal, um Zwischenwerte für jedes Bit der Summe S und des Übertrags C zu erhalten, und – Summieren der Zwischenwerte in einer Übertragpropagationsaddiererstruktur in Reaktion auf das Übertragpropagationsaddierersignal, um Endresultate für die Summe S und den Übertrag C zu erhalten.
Verfahren nach Anspruch 8, weiter dadurch gekennzeichnet, dass die Zahl A kleiner als der Modulus M ist.
Verfahren nach Anspruch 8 oder 9, weiter dadurch gekennzeichnet, dass die Zahl B kleiner als der Modulus M ist.
Verfahren nach einem der Ansprüche 8 bis 10, weiter dadurch gekennzeichnet, dass der Modulus M eine ungerade Zahl ist.
Verfahren nach einem der Ansprüche 8 bis 11, weiter dadurch gekennzeichnet, dass der Zwischenwert und der Endwert von S sowie der Zwischenwert und der Endwert von C wie folgt berechnet werden: – Summieren eines Bitwertes b_iA_i von b_iA, eines Bitwertes s_i+1 von S und eines Bitwertes c_i von C, um einen Übertrag cA_i und sA_i zu erhalten, – Selektives Ausgeben entweder eines Bitwertes q_iM_i von q_iM,, cA_i+1 und sA_i oder des Bitwertes s_i+1 von S, des Bitwertes c_i von C und eines Bitwertes c_i-1 von C in Reaktion auf das Übertragpropagationsaddierersignal, – Durchführen von n Additionen des Bitwertes q_im_i von q_iM, cA_i-1 und sA_i, um zwischen Bitwerte s_i und c_i von S bzw. C zu berechnen, wenn das Übertragpropagationsaddierersignal in einem inaktiven Zustand ist, und – Summieren des Bitwertes s_i+1 von S, des Bitwertes c_i von C und des Bitwertes c_i-1 von C, um Endresultate für S und C zu erhalten, wenn sich das Übertragpropagationsaddierersignal in einem aktiven Zustand befindet.
Verfahren nach einem der Ansprüche 8 bis 12, weiter dadurch gekennzeichnet, dass die Übertragbehaltaddiererstruktur eine Struktur mit vier Eingängen und zwei Ausgängen ist, bei der die Zwischenwerte S und C aus b_iA und q_iM erhalten werden, wenn das Übertragpropagationsaddierersignal in einem inaktiven Zustand ist.
Verfahren nach einem der Ansprüche 8 bis 13, weiter dadurch gekennzeichnet, dass die Übertragpropagationsaddiererstruktur eine Struktur mit drei Eingängen und zwei Ausgängen ist, bei der die Endwerte von S und C aus den Zwischenwerten von S und C erhalten werden, wenn sich das Übertragpropagationsaddierersignal in einem aktiven Zustand befindet.
Verfahren nach einem der Ansprüche 12 bis 14, weiter dadurch gekennzeichnet, dass sich das niedrigstwertige Bit von cA_i-1 und das niedrigstwertige Bit von c_i-1 in einem ersten Logikzustand befinden.
Verfahren nach einem der Ansprüche 12 bis 15, weiter dadurch gekennzeichnet, dass das höchstwertige Bit von s_i+1 zum Zeitpunkt eines Taktes vor Aktivierung des Übertragpropagationsaddierersignals gleich dem Bitwert cA_n-1 ist.
Verfahren zur Durchführung einer 2^N-Wurzel-Montgomery-Multiplikation, mit N ≥ 1, gekennzeichnet durch folgende Schritte: – Empfangen eines Multiplikanden (A), eines Modulus (M) und eines Multiplikators (B), – Durchführen einer Übertragbehaltaddition mit wenigstens vier Eingaben, die mit dem Multiplikanden, dem Modulus und dem Multiplikator in Beziehung stehen, um ein Ergebnis in redundanter Darstellung zu erzeugen, und – Durchführen einer Übertragpropagationsaddition in Reaktion auf ein Übertragpropagationsaddierersignal, um ein Ergebnis in normaler Darstellung zu erzeugen.