CN103813313B

CN103813313B - 一种祖冲之算法的硬件实现装置及方法

Info

Publication number: CN103813313B
Application number: CN201210441283.4A
Authority: CN
Inventors: 黑勇; 任高峰; 乔树山; 王晨光
Original assignee: Institute of Microelectronics of CAS
Current assignee: China core Microelectronics Technology Chengdu Co., Ltd
Priority date: 2012-11-07
Filing date: 2012-11-07
Publication date: 2017-06-06
Anticipated expiration: 2032-11-07
Also published as: CN103813313A

Abstract

本发明公开了一种祖冲之算法的硬件实现装置及方法，该装置包括：控制逻辑单元，用于协调控制祖冲之算法硬件装置的初始密钥加载、LFSR寄存器初始化以及密钥的产生；LFSR单元，采用素域GF(2³¹‑1)的m序列，每个时钟周期产生一次寄存器移位；比特重组单元，采用相应寄存器值取半合并技术，实现LFSR寄存器值单元到非线性函数F(X₀，X₁，X₂)和密钥输出Z的数据转换；非线性函数F(X₀，X₁，X₂)单元，通过将输入的X₀，X₁，X₂经过分组密码设计，结合S盒以及高扩散性的线性变换L，实现非线性函数变换。本发明能够简单高效地硬件实现祖冲之算法，并且，既能保证以较小的芯片面积和较低的芯片功耗实现祖冲之算法，还能保证祖冲之算法输出密钥的高吞吐率。

Description

一种祖冲之算法的硬件实现装置及方法

技术领域

本发明涉及安全技术领域的加解密技术领域，尤其涉及一种祖冲之算法的硬件实现装置及方法。

背景技术

随着现代技术的发展，对通信过程中传输的数据和数字图像进行加密以保障数据传输的安全，显得尤为重要。

祖冲之算法(ZUC)是我国第一个成为国际密码标准的密码算法，是中国科学院数据保护和通信安全研究中心自主设计的加密算法，现在已被3GPP(3rd GenerationPartnership Proj ect)确定为LTE(Long TermEvaluation)的国际标准，即4G国际通信标准。在安全算法方面，LTE空中接口预留了16个机密性算法和16个完整性算法的接口。ZUC算法，作为3GPP机密性算法EEA3和完整性算法EIA3的核心，于2011年9月正式被3GPP SA全会通过，成为了继美国的高级加密标准AES和欧洲的SNOW3G之外的第三套加密标准核心算法。

ZUC算法在逻辑上采用三层结构设计：线性反馈移位寄存器(LFSR)、比特重组和非线性函数F(X₀，X₁，X₂)。并在LFSR的设计中，采用了素域GF(231-1)的m序列，该序列周期长、统计特性好，具有线性结构弱、比特关系符合率低等优点，因而ZUC算法具有天然的强抵抗二元域上密码攻击方法的能力。同时比特重组采用相应寄存器值取半合并技术，实现LFSR寄存器单元到非线性函数F(X₀，X₁，X₂)和密钥输出Z的数据转换，这样可以破坏LFSR寄存器的线性结构，使得一些在素域GF(2³¹-1)上的密码攻击方法变得非常困难。

此外，ZUC算法充分结合了分组密码的设计技巧、S盒以及高扩散性的线性变换L，设计出了高安全性的非线性函数F(X₀，X₁，X₂)。非线性函数F(X₀，X₁，X₂)具有高的抵抗区分分析、快速相关攻击和猜测确定攻击等方法的能力。所以，ZUC算法具有高可靠的安全性能。

ZUC算法在设计时既充分考虑了安全问题，又充分考虑了软硬件实现的复杂度，在保证高可靠的安全性能的同时也可以高效地软硬件实现。本发明能够简单高效地硬件实现祖冲之算法，既能保证以较小的芯片面积和较低的芯片功耗实现祖冲之算法，还能保证祖冲之算法输出密钥的高吞吐率。

发明内容

(一)要解决的技术问题

有鉴于此，本发明的主要目的在于提供一种简易高效的祖冲之算法的硬件实现装置及方法。

(二)技术方案

为达到上述目的，本发明提供了一种祖冲之算法的硬件实现装置，该装置包括控制逻辑单元、线性反馈移位寄存器(LFSR)单元、比特重组单元和非线性函数F(X₀，X₁，X₂)单元，其中：

控制逻辑单元，用于协调控制祖冲之算法硬件装置的初始密钥加载、LFSR寄存器初始化以及密钥的产生；

LFSR单元，采用素域GF(2³¹-1)的m序列，每个时钟周期产生一次寄存器移位；

比特重组单元，采用相应寄存器值取半合并技术，实现LFSR寄存器值单元到非线性函数F(X₀，X₁，X₂)和密钥输出Z的数据转换；

非线性函数F(X₀，X₁，X₂)单元，通过将输入的X₀，X₁，X₂经过分组密码设计，结合S盒以及高扩散性的线性变换L，实现非线性函数变换。

上述方案中，所述控制逻辑单元在祖冲之算法的一开始，控制一初始密钥加载单元为LFSR单元中的寄存器加载初始密钥，然后控制LFSR单元中的寄存器初始化一次，直到LFSR单元完成32次的寄存器初始化操作，接下来执行祖冲之算法的工作模式一次，第一次工作模式的密钥输出无效，然后循环执行ZUC工作模式并不断输出有效密钥，如果输出的密钥长度达到设定的密钥长度，则祖冲之算法结束。

上述方案中，所述初始密钥加载单元用于根据祖冲之算法硬件装置的输入产生初始密钥并加载入LFSR单元中的寄存器。

上述方案中，所述初始密钥加载单元将输入的COUNT、BEARER和DIRECTION组合成16个初始向量Initial Vector_i(i＝0，1，2，3......15)，再由初始向量和输入的16个Initial Key_i(i＝0，1，2，3......15)以及固定的16个常向量D_i(i＝0，1，2，3......15)组合成祖冲之算法的初始密钥，也即LFSR的16个寄存器的初始状态值S_i(i＝0，1，2，3......15)，然后将LFSR单元的16个寄存器的初始状态值S_i(i＝0，1，2，3......15)输出给LFSR单元的16个31位的寄存器。

上述方案中，所述LFSR单元是由16个31位的寄存器组成，分别为s_i(0≤i≤15)。

上述方案中，所述LFSR单元具有两种操作模式，分别为LFSR寄存器初始化模式和LFSR工作模式，LFSR工作模式即为ZUC工作模式。

上述方案中，在LFSR单元的16个寄存器获得初始密钥后，LFSR单元即进入寄存器初始化模式，经过32次的寄存器移位初始化后，LFSR单元即进入工作模式；在进入工作模式后的第一次的密钥输出丢弃，以后循环执行LFSR工作模式，每次的密钥输出都是有效密钥输出，直到达到设定的密钥长度为止。

上述方案中，所述比特重组单元用于将LFSR的相应寄存器值取半合并，实现LFSR寄存器值单元到非线性函数F(X₀，X₁，X₂)和密钥输出Z的数据转换，比特重组的实现过程如下：

(1)X₀＝s_15H||s_14L；

(2)X₁＝s_11L||s_9H；

(3)X₂＝s_7L||s_5H；

(4)X₃＝s_2L||s_0H.

上述操作中，s_iH为s_i的高16位，s_iL为s_i的低16位，s_iH||s_iL表示s_iH和s_iL拼接在一起，且s_iH在高位。

上述方案中，所述比特重组单元的三个32位的输出X₀、X₁和X₂是非线性函数F(X₀，X₁，X₂)的输入，32位的W为F(X₀，X₁，X₂)的输出，F(X₀，X₁，X₂)中的R₁和R₂为32位的寄存器。

上述方案中，所述非线性函数F(X₀，X₁，X₂)单元通过将输入的X₀，X₁ 和X₂经过分组密码设计，结合S盒以及高扩散性的线性变换L，实现非线性函数变换。

上述方案中，所述S盒是一个32×32的S盒，等效为4个8×8的S盒，即S＝(S₀，S₁，S₂，S₃)；因为S₀＝S2，S₁＝S₃，所以实现时仅需要S₀盒和S₁盒；而S₀和S₁都是256×8的查找表，表中的每个值都是8位，且表中的每一个值都是确定的；所以，硬件实现时，需要两个256×8bit的ROM存储S₀和S₁的值。

上述方案中，为使S盒的硬件实现芯片面积和功耗最小化，采用一个512×8bit的单端口ROM来存储S₀和S₁的值；通过对ROM的读逻辑控制和寄存器寄存的方法分四步读出一个S盒的32位的输出，以完成S盒的功能。

上述方案中，所述非线性函数F(X₀，X₁，X₂)单元的操作如下：

(7)W₁＝R₁田X₁；

(9)R₁＝S(L₁(W_1L‖W_2H))

(10)R₂＝S(L₂(W_2L‖W_1H))

上述操作中，田表示模2³²的加法，S表示S盒，L₁和L₂为两个线性变换函数。

上述方案中，所述L₁和L₂是两个线性变换函数，具体操作如下所示：

其中，<<<表示循环左移。

为达到上述目的，本发明还提供了一种祖冲之算法的硬件实现方法，该方法包括：

在祖冲之算法开始时，控制逻辑单元先根据相应输入控制初始密钥加载单元向线性反馈移位寄存器(LFSR)单元加载初始密钥；

初始密钥加载结束后，线性反馈移位寄存器(LFSR)单元开始初始化操作一次，然后线性反馈移位寄存器(LFSR)单元重复初始化操作32次；此期间的密钥输出Z为无效输出；

LFSR寄存器初始化操作循环执行32次以后，进入LFSR工作模式，即为ZUC工作模式；ZUC工作模式执行第一次的密钥输出Z为无效输出，不用做加解密；此后循环执行ZUC工作模式，每执行一ZUC工作模式，即可得到一个32位的密钥输出Z，即可用作加解密；

当输出密钥Z的长度达到预先设定的密钥长度时，祖冲之算法结束。

(三)有益效果

从上述技术方案可以看出，本发明具有以下有益效果：

1、本发明采用了S盒硬件实现面积和功耗最小化的优化策略，使得祖冲之算法实现的芯片面积和功耗最小化。

2、本发明采用了简单高效的硬件设计策略实现了祖冲之算法，保证了祖冲之算法输出密钥的高吞吐率。

3、本发明的祖冲之算法硬件实现具有芯片面积小和芯片功耗低的优点，非常适用于对芯片面积和功耗有较高要求的移动设备。

附图说明

下面结合附图和实施例对本发明进一步说明：

图1是本发明提供的祖冲之算法的硬件实现装置的结构示意图；

图2是祖冲之算法的初始密钥加载单元结构图；

图3是祖冲之算法的控制逻辑框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1所示，图1是本发明提供的祖冲之算法的硬件实现装置的结构示意图，该装置包括控制逻辑单元、线性反馈移位寄存器(LFSR)单元、比特重组单元和非线性函数F(X₀，X₁，X₂)单元，其中：控制逻辑单元，用于协调控制祖冲之算法硬件装置的初始密钥加载、LFSR寄存器初始化以及密钥的产生；LFSR单元，采用素域GF(2³¹-1)的m序列，每个时钟周期产生一次寄存器移位；比特重组单元，采用相应寄存器值取半合并技术，

实现LFSR寄存器值单元到非线性函数F(X₀，X₁，X₂)和密钥输出Z的数据转换；非线性函数F(X₀，X₁，X₂)单元，通过将输入的X₀，X₁，X₂经过分组密码设计，结合S盒以及高扩散性的线性变换L，实现非线性函数变换。

控制逻辑单元在祖冲之算法的一开始，控制一初始密钥加载单元为LFSR单元中的寄存器加载初始密钥，然后控制LFSR单元中的寄存器初始化一次，直到LFSR单元完成32次的寄存器初始化操作，接下来执行祖冲之算法的工作模式一次，第一次工作模式的密钥输出无效，然后循环执行ZUC工作模式并不断输出有效密钥，如果输出的密钥长度达到设定的密钥长度，则祖冲之算法结束。

初始密钥加载单元如图2所示，用于根据祖冲之算法硬件装置的输入产生初始密钥并加载入LFSR单元中的寄存器。初始密钥加载单元将输入的COUNT、BEARER和DIRECTION组合成16个初始向量Initial Vectori(i＝0，1，2，3......15)，再由初始向量和输入的16个Initial Key_i(i＝0，1，2，3......15)以及固定的16个常向量D_i(i＝0，1，2，3......15)组合成祖冲之算法的初始密钥，也即LFSR的16个寄存器的初始状态值S_i(i＝0，1，2，3......15)，然后将LFSR单元的16个寄存器的初始状态值S_i(i＝0，1，2，3......15)输出给LFSR单元的16个31位的寄存器。

LFSR单元是由16个31位的寄存器组成，分别为s_i(0≤i≤15)。LFSR单元具有两种操作模式，分别为LFSR寄存器初始化模式和LFSR工作模式，LFSR工作模式即为ZUC工作模式。在LFSR单元的16个寄存器获得初始密钥后，LFSR单元即进入寄存器初始化模式，经过32次的寄存器移位初始化后，LFSR单元即进入工作模式；在进入工作模式后的第一次的密钥输出丢弃，以后循环执行LFSR工作模式，每次的密钥输出都是有效密钥输出，直到达到设定的密钥长度为止。

在LFSR寄存器初始化和工作之前，需要对LFSR的16个寄存器加载初始密钥。如图2所示，初始密钥加载过程中，由输入的32位的COUNT，5位的BEARER和1位的DIRECTION可以得到128位的INITIALVECTOR(以下简称VECTOR)，VECTOR由16个8位的VECTOR_i组成。VECTOR生成过程如下所示：

COUNT＝COUNT₀||COUNT₁||COUNT₂||COUNT₃

VECTOR＝VECTOR₀||VECTOR₁||...||VECTOR₁₅；

VECTOR₀＝COUNT₀；

VECTOR₁＝COUNT₁；

VECTOR₂＝COUNT₂；

VECTOR₃＝COUNT₃；

VECTOR₄＝BEARER||DIRECTION||2′b00；

VECTOR₅＝8′b0；

VECTOR₆＝8′b0； VECTOR₁₁＝VECTOR₃；

VECTOR₇＝8′b0； VECTOR₁₂＝VECTOR₄；

VECTOR₈＝VECTOR₀； VECTOR₁₃＝VECTOR₅；

VECTOR₉＝VECTOR₁； VECTOR₁₄＝VECTOR₆；

VECTOR₁₀＝VECTOR₂； VECTOR₁₅＝VECTOR₇.

‖表示拼接运算，左右两个数按位拼接在一起成为一个新数。

如图2所示，VECTOR结合输入的128位的INITIAL KEY(以下简称KEY)以及240位的固定常值向量D，可以产生LFSR的16个寄存器的初始值S₀～S₁₅。KEY由16个8位的KEY_i组成，D由16个15位的D_i组成。具体产生过程如下所示：

KEY＝KEY₀||KEY₁||...||KEY₁₅；

VECTOR＝VECTOR₀‖VECTOR₁||...||VECTOR₁₅；

D＝D₀||D₁||...‖D₁₅；

s_i＝KEY_i|D_i‖VECTOR_i，0≤i≤15.

LFSR的16个寄存器S₀～S₁₅得到初始值以后，ZUC开始进入LFSR寄存器初始化过程。如图1所示，设置非线性函数F(X₀，X₁，X₂)中32位的R1和R2为全零。经过比特重组，可以得到X0，X1，X2，X3的初始值，进而可以得到非线性函数F(X₀，X₁，X₂)的输出W以及表示异或操作。此u值用来进行第一次LFSR寄存器初始化模式下的操作。如图1所示，更新X0，X1，X2，X3、R1、R2、W和u后，进行下一次LFSR寄存器初始化。如此循环执行，重复LFSR寄存器初始化操作共32次。在初始化阶段，ZUC算法计算得到的不是有效密钥，不作输出密钥使用。

如图1所示，LFSR寄存器初始化过程中，LFSR一开始收到一个31位的输入u，即非线性函数F(X₀，X₁，X₂)的32位的输出 W与X3的异或结果向右移一位。它的操作过程如下：

(1)v＝[2¹⁵s₁₅+2¹⁷s₁₃+2²¹s₁₀+2²⁰s₄+(1+2⁸)s₀]mod(2³¹-1)；

(2)If v＝0，then set v＝2³¹-1；

(3)

(4)If s₁₆＝0，then set s₁₆＝2³¹-1；

(5)

上述操作(1)为模(2³¹-1)的加法，在硬件实现时将加和结果的第32位与低31位相加即可实现，硬件实现简单。(1)式中还包括2的整数次幂加权，为保证硬件与算法的等效性，可以实现如下：

2^m s_i mod(2³¹-1)＝(si＜＜m|si＞＞(31-m))mod(2³¹-1)

ZUC算法结束初始化模式后，即进入工作模式，如图1所示。工作模式中，LFSR没有输入，实现16个寄存器的移位操作如下：

(1)s₁₆＝[2¹⁵s₁₅+2¹⁷s₁₃+2²¹s₁₀+2²⁰s₄+(1+2⁸)s₀]mod(2³¹-1)；

(2)If s₁₆＝0，then set s₁₆＝2³¹-1；

(3)

ZUC算法使用LFSR初始化后的寄存器的值进行LFSR工作模式下的操作一次，第一次LFSR工作模式得到的密钥输出Z为无效输出。此后重复工作模式操作，每执行一次工作模式操作并更新相关寄存器的值后，就能得到一个32位的有效密钥Z，即可开始加解密工作。

比特重组单元用于将LFSR的相应寄存器值取半合并，实现LFSR寄存器值单元到非线性函数F(X₀，X₁，X₂)和密钥输出Z的数据转换，比特重组的实现过程如下：

(1)X₀＝s_15H||s_14L；

(2)X₁＝s_11L‖s_9H；

(3)X₂＝s_7L‖s_5H；

(4)X₃＝s_2L||s_0H.

如图1所示，比特重组单元的三个32位的输出X₀、X₁和X₂是非线性函数F(X₀，X₁，X₂)的输入，32位的W为F(X₀，X₁，X₂)的输出，F(X₀，X₁，X₂)中的R₁和R₂为32位的寄存器。

非线性函数F(X₀，X₁，X₂)单元通过将输入的X₀，X₁和X₂经过分组密码设计，结合S盒以及高扩散性的线性变换L，实现非线性函数变换。

S盒是一个32×32的S盒，等效为4个8×8的S盒，即S＝(S₀，S₁，S₂，S₃)；因为S₀＝S₂，S₁＝S₃，所以实现时仅需要S₀盒和S₁盒；而S₀和S₁都是256×8的查找表，表中的每个值都是8位，且表中的每一个值都是确定的；所以，硬件实现时，需要两个256×8bit的ROM存储S₀和S₁的值。

为使S盒的硬件实现芯片面积和功耗最小化，采用一个512×8bit的单端口ROM来存储S₀和S₁的值；通过对ROM的读逻辑控制和寄存器寄存的方法分四步读出一个S盒的32位的输出，以完成S盒的功能。

非线性函数F(X₀，X₁，X₂)单元的操作如下：

(12)W₁＝R₁田X₁；

(14)R₁＝S(L₁(W_1L||W_2H))

(15)R₂＝S(L₂(W_2L||W_1H))

ZUC算法的S盒是一个32×32的S盒，可以等效为4个8×8的S盒，即S＝(S₀，S₁，S₂，S₃)。又因为S₀＝S₂，S₁＝S₃，所以实现时仅需要S₀盒和S₁盒。而S₀和S₁都是256×8的查找表，表中的每个值都是8位，且表中的每一个值都是确定的。所以，硬件实现时，需要两个256×8bit的ROM存储S₀和S₁的值。

ZUC算法的S盒的输入为32位的X，输出为32位的Y，其中X＝x₁||x₂||x₃||x₄，Y＝y₁||y₂||y₃||y₄，x_i和y_i都是8位。则y₁＝S0(x₁)，y₂＝S1(x₂)，y₃＝S0(x₃)，y₄＝S1(x₄)。

硬件实现时，用一个512×8bit的单端口ROM来存储S₀和S₁的值，以使S盒的硬件实现芯片面积和功耗最小化。通过对ROM的读逻辑控制和寄存器寄存的方法分四步读出一个S盒的32位的输出，以完成S盒的功能。

L₁和L₂为两个线性变换函数，具体操作如下所示：

其中，<<<表示循环左移。

图1所示的控制逻辑单元的功能结构图如图3所示，该方法包括：在祖冲之算法开始时，控制逻辑单元先根据相应输入控制初始密钥加载单元向线性反馈移位寄存器(LFSR)单元加载初始密钥；初始密钥加载结束后，线性反馈移位寄存器(LFSR)单元开始初始化操作一次，然后线性反馈移位寄存器(LFSR)单元重复初始化操作32次；此期间的密钥输出Z为无效输出；LFSR寄存器初始化操作循环执行32次以后，进入LFSR工作模式，即为ZUC工作模式；ZUC工作模式执行第一次的密钥输出Z为无效输出，不用做加解密；此后循环执行ZUC工作模式，每执行一ZUC工作模式，即可得到一个32位的密钥输出Z，即可用作加解密；当输出密钥Z的长度达到预先设定的密钥长度时，祖冲之算法结束。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种祖冲之算法的硬件实现装置，其特征在于，该装置包括控制逻辑单元、线性反馈移位寄存器(LFSR)单元、比特重组单元和非线性函数F(X₀,X₁,X₂)单元，其中：

比特重组单元，采用相应寄存器值取半合并技术，实现LFSR寄存器值单元到非线性函数F(X₀,X₁,X₂)和密钥输出Z的数据转换；

非线性函数F(X₀,X₁,X₂)单元，通过将输入的X₀，X₁，X₂经过分组密码设计，结合S盒以及高扩散性的线性变换L，实现非线性函数变换；

其中，所述控制逻辑单元在祖冲之算法的一开始，控制一初始密钥加载单元为LFSR单元中的寄存器加载初始密钥，然后控制LFSR单元中的寄存器初始化一次，直到LFSR单元完成32次的寄存器初始化操作，接下来执行祖冲之算法的工作模式一次，第一次工作模式的密钥输出无效，然后循环执行ZUC工作模式并不断输出有效密钥，如果输出的密钥长度达到设定的密钥长度，则祖冲之算法结束。

2.根据权利要求1所述的祖冲之算法的硬件实现装置，其特征在于，所述初始密钥加载单元用于根据祖冲之算法硬件装置的输入产生初始密钥并加载入LFSR单元中的寄存器。

3.根据权利要求2所述的祖冲之算法的硬件实现装置，其特征在于，所述初始密钥加载单元将输入的COUNT、BEARER和DIRECTION组合成16个初始向量Initial Vector_i(i＝0,1,2,3……15)，再由初始向量和输入的16个Initial Key_i(i＝0,1,2,3……15)以及固定的16个常向量D_i(i＝0,1,2,3……15)组合成祖冲之算法的初始密钥，也即LFSR的16个寄存器的初始状态值S_i(i＝0,1,2,3……15)，然后将LFSR单元的16个寄存器的初始状态值S_i(i＝0,1,2,3……15)输出给LFSR单元的16个31位的寄存器。

4.根据权利要求1所述的祖冲之算法的硬件实现装置，其特征在于，所述LFSR单元是由16个31位的寄存器组成，分别为s_i(0≤i≤15)。

5.根据权利要求4所述的祖冲之算法的硬件实现装置，其特征在于，所述LFSR单元具有两种操作模式，分别为LFSR寄存器初始化模式和LFSR工作模式，LFSR工作模式即为ZUC工作模式。

6.根据权利要求5所述的祖冲之算法的硬件实现装置，其特征在于，在LFSR单元的16个寄存器获得初始密钥后，LFSR单元即进入寄存器初始化模式，经过32次的寄存器移位初始化后，LFSR单元即进入工作模式；在进入工作模式后的第一次的密钥输出丢弃，以后循环执行LFSR工作模式，每次的密钥输出都是有效密钥输出，直到达到设定的密钥长度为止。

7.根据权利要求1所述的祖冲之算法的硬件实现装置，其特征在于，所述比特重组单元用于将LFSR的相应寄存器值取半合并，实现LFSR寄存器值单元到非线性函数F(X₀,X₁,X₂)和密钥输出Z的数据转换，比特重组的实现过程如下：

(1)X₀＝s_15H||s_14L；

(2)X₁＝s_11L||s_9H；

(3)X₂＝s_7L||s_5H；

(4)X₃＝s_2L||s_0H.

8.根据权利要求7所述的祖冲之算法的硬件实现装置，其特征在于，所述比特重组单元的三个32位的输出X₀、X₁和X₂是非线性函数F(X₀,X₁,X₂)的输入，32位的W为F(X₀,X₁,X₂)的输出，F(X₀,X₁,X₂)中的R₁和R₂为32位的寄存器。

9.根据权利要求8所述的祖冲之算法的硬件实现装置，其特征在于，所述非线性函数F(X₀,X₁,X₂)单元通过将输入的X₀，X₁和X₂经过分组密码设计，结合S盒以及高扩散性的线性变换L，实现非线性函数变换。

10.根据权利要求9所述的祖冲之算法的硬件实现装置，其特征在于，所述S盒是一个32×32的S盒，等效为4个8×8的S盒，即S＝(S₀,S₁,S₂,S₃)；因为S₀＝S₂，S₁＝S₃，所以实现时仅需要S₀盒和S₁盒；而S₀和S₁都是256×8的查找表，表中的每个值都是8位，且表中的每一个值都是确定的；所以，硬件实现时，需要两个256×8bit的ROM存储S₀和S₁的值。

11.根据权利要求10所述的祖冲之算法的硬件实现装置，其特征在于，为使S盒的硬件实现芯片面积和功耗最小化，采用一个512×8bit的单端口ROM来存储S₀和S₁的值；通过对ROM的读逻辑控制和寄存器寄存的方法分四步读出一个S盒的32位的输出，以完成S盒的功能。

12.根据权利要求10所述的祖冲之算法的硬件实现装置，其特征在于，所述非线性函数F(X₀,X₁,X₂)单元的操作如下：

(1)W＝(X₀⊕R₁)田R₂；

(2)W₁＝R₁田X₁；

(3)W₂＝R₂⊕X₂

(4)R₁＝S(L₁(W_1L||W_2H))

(5)R₂＝S(L₂(W_2L||W_1H))

13.根据权利要求12所述的祖冲之算法的硬件实现装置，其特征在于，所述L₁和L₂是两个线性变换函数，具体操作如下所示：

L₁(X)＝X⊕(X<<<2)⊕(X<<<10)⊕(X<<<18)⊕(X<<<24)；

L₂(X)＝X⊕(X<<<8)⊕(X<<<14)⊕(X<<<22)⊕(X<<<30).

其中，<<<表示循环左移。

14.一种祖冲之算法的硬件实现方法，应用于权利要求1至13中任一项所述的硬件实现装置，其特征在于，该方法包括：