CN102184088A

CN102184088A - 一种基于串并结合实现有限域乘法的方法及装置

Info

Publication number: CN102184088A
Application number: CN2011100710806A
Authority: CN
Inventors: 寿国础; 毛泽湘; 白岩; 张学茹; 胡怡红; 郭志刚
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2011-03-23
Filing date: 2011-03-23
Publication date: 2011-09-14
Anticipated expiration: 2031-03-23
Also published as: CN102184088B

Abstract

本发明公开了一种基于串并结合实现有限域乘法的方法及装置，所述方法包括：对m位的乘法因子A按从低位到高位进行分组，以k位为一组，分为p组，分组后的各组表示为e_i，其中i＝0，1，...，p-1；将e₀与乘法因子B进行有限域内的乘法运算，得到D₀；将D′₀作下一步中的C′₁输出；对乘法因子B进行有限域内左移k位操作，得到E¹；将e_j与E^j进行有限域内乘法运算，得到D′_j；将D′_j与C′_j进行有限域内的加法运算，得到C′_j+1；将E^j进行有限域内左移k位操作，得到E^j+1；其中，j＝1，2，3...p-2；将e_p-1与E_p-1进行有限域内乘法运算，得到D′_p-1；将D′_p-1与C′_p-1进行有限域内的加法运算，得到C′_p；输出C′_p即为乘法因子A和乘法因子B在有限域内的乘积。本发明的技术方案能提高有限域乘法的运算效率。

Description

一种基于串并结合实现有限域乘法的方法及装置

技术领域

本发明涉及信息技术领域，特别是一种基于串并结合实现有限域乘法的方法及装置。

背景技术

有限域运算在差错控制、密码学领域均得到广泛应用。特别是在加密认证算法中，有限域运算应用广泛，它是指在特定的规则下进行的两类运算：加法运算和乘法运算。

有限域GF(2)仅包含两个元素0和1，加法运算很容易利用一个异或门来实现，而乘法运算利用一个与门也可以轻易实现。特别地，有限域GF(2^m)可以看做GF(2)的m维扩域，包括2^m个元素。此时，有限域加法可由m个异或门实现，而乘法运算的实现则要复杂很多。

在实现上，加法运算对应相应位数的异或门，而乘法的实现，效率远低于加法，资源消耗则远高于加法，是有限域运算的关键。另一方面，其他运算，如指数运算、除法运算、求逆运算等都是通过乘法的多次运算来实现。

因而乘法器的性能是有限域运算在上述领域应用的关键。

目前已提出的有限域乘法器主要有两类：比特串行乘法器和比特并行乘法器。在输入位宽为m的情况下。比特串行乘法器具有O(m)空间复杂度(O(m)表示算法的空间消耗与m成正比)，该方法对同一个模块进行轮询操作，能够将资源消耗降至最低。但该方案需要等待m个周期后才能得到输出，时延大。比特并行乘法器具有(O(m²))空间复杂度，该方法结构紧凑，易于硬件实现，能够实现较高的吞吐量，适宜于现今高速的通信系统，但其消耗大量资源，不适宜成本的节约。

发明内容

本发明提供了一种基于串并结合实现有限域乘法的方法，该方法能将简化乘法器结构，提高有限域内乘法运算的效率。

为达到上述目的，该方法是这样实现的：

本发明公开了一种基于串并结合实现有限域乘法的方法，本方法用于实现有限域内m位乘法因子A和m位乘法因子B的相乘运算，该方法包括：

对m位的乘法因子A按从低位到高位进行分组，以k位为一组，分为p组，分组后的各组表示为e_i，其中

i＝0，1，...，p-1；

将e₀与乘法因子B进行有限域内的乘法运算，得到D′₀；将D′₀作下一步中的C′₁输出；对乘法因子B进行有限域内左移k位操作，得到E¹；

将e_j与E^j进行有限域内乘法运算，得到D′_j；将D′_j与C′_j进行有限域内的加法运算，得到C′_j+1；将E^j进行有限域内左移k位操作，得到E^j+1；其中，j＝1，2，3...p-2；

将e_p-1与E^p-1进行有限域内乘法运算，得到D′_p-1；将D′_p-1与C′_p-1进行有限域内的加法运算，得到C′_p；输出C′_p即为乘法因子A和乘法因子B在有限域内的乘积。

本发明还提供了一种基于串并结合实现有限域乘法的装置，该装置用于实现有限域内m位乘法因子A和m位乘法因子B的相乘运算，所述装置包括：输入模块，分组模块，输出模块，p个PM模块，p个PM模块包括PM₁模块、PM₂模块...、PM_p模块；

输入模块，用于将m位乘法因子A发送给分组模块，将m位乘法因子B发送给PM₁模块；

分组模块，用于接收输入模块发送的乘法因子A，将乘法因子A从低位到高位进行分组操作，以k位为一组，分成p组，分组后的各组表示为e_i，将e_i依次发送给相应的PM_i+1模块；其中

i＝0，1，...，p-1；

PM₁模块，用于接收分组模块发送的e₀，以及输入模块发送的乘法因子B；将e₀和B进行有限域内的乘法运算，得到D′₀；将D′₀作为C′₁发送给PM₂模块；将乘法因子B进行有限域内左移k位操作，得到E¹，将E¹发送给PM₂模块；

PM_j+1模块，用于接收分组模块发送的e_j，以及PM_j模块发送的E^j与C′_j；将e_j与E^j进行有限域内的乘法运算，得到D′_j；将D′_j与C′_j进行有限域内的加法运算，得到C′_j+1，将C′_j+1发送给PM_j+2模块；将E^j进行有限域内左移k位操作，得到E^j+1，将E^j+1发送给PM_j+2模块，其中，j＝1，2，3...p-2；

PM_p模块，用于接收分组模块发送的e_p-1，以及PM_p-1模块发送的E^p-1与C′_p-1；将e_p-1与E^p-1进行有限域内乘法运算，得到D′_p-1，将D′_p-1与C′_p-1进行有限域内的加法运算，得到C′_p，将C′_p发送给输出模块；

输出模块，用于接收PM_p模块发送的C′_p，将C′_p输出。

有上述可知，本发明这种通过串并结合的方法，将高位宽的相乘运算分解成多个低位宽的相乘运算，缩短了有限域乘法计算的关键路径，降低了空间复杂度，提高了有限域内乘法运算的效率。

附图说明

图1是本发明中的一种基于串并结合实现有限域乘法的方法的流程图；

图2是本发明中一种基于串并结合实现有限域乘法的装置的整体结构示意图；

图3是本发明中一种基于串并结合实现有限域乘法的装置的PM₁模块的内部结构图；

图4是本发明中一种基于串并结合实现有限域乘法的装置的PM_j+1模块的内部结构图；

图5是本发明中一种基于串并结合实现有限域乘法的装置的PM_p模块的内部结构图；

图6是本发明中一种基于串并结合实现有限域乘法的装置的改进的Arash乘法器模块结构示意图；

图7是本发明中一种基于串并结合实现有限域乘法的装置的MTP单元的结构示意图；

图8是本发明中一种基于串并结合实现有限域乘法的装置的移位模块的结构示意图；

图9是本发明中一种基于串并结合实现有限域乘法的装置的异或门阵列模块结构示意图；

图10是本发明中一种基于串并结合实现有限域乘法的装置的实施例的结构示意图。

具体实施方式

本发明公开了一种基于串并结合实现有限域乘法的方法，本方法用于实现有限域内m位乘法因子A和m位乘法因子B的相乘运算，为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1是本发明中的一种基于串并结合实现有限域乘法的方法的流程图，如图1所示：

步骤101，对m位的乘法因子A按从低位到高位进行分组，以k位为一组，分为p组，分组后的各组表示为e_i，其中

i＝0，1，...，p-1；

步骤102，将e₀与乘法因子B进行有限域内的乘法运算，得到D′₀；将D′₀作下一步中的C′₁输出；对乘法因子B进行有限域内左移k位操作，得到E¹；

步骤103，将e_j与E^j进行有限域内乘法运算，得到D′_j；将D′_j与C′_j进行有限域内的加法运算，得到C′_j+1；将E^j进行有限域内左移k位操作，得到E^j+1；其中，j＝1，2，3...p-2；

步骤104，将e_p-1与E^p-1进行有限域内乘法运算，得到D′_p-1；将D′_p-1与C′_p-1进行有限域内的加法运算，得到C′_p；输出C′_p即为乘法因子A和乘法因子B在有限域内的乘积。

本发明这种将有限域内的高阶乘法运算分解成有限域内多个低阶乘法运算，其中，将上一个低阶乘法运算的结果作为下一个低阶乘法运算的输入；

表示向上取整函数，

即分组个数p的值等于将m/k的值向上取整；其中，最高位e_p-1不足k位时，将不足的位数进行补0操作，补成k位。

本发明中，乘法因子A的第一个分组e₀与B进行有限域内的乘法运算得到D′₀与将e_j与E^j进行有限域内乘法运算得到D′_j的过程相同，其中E^j由乘法因子B经过j次左移操作得到；下面以e_j与E^j进行有限域内乘法运算得到D′_j为例说明；

首先，E^j进行m次左移位操作，每次左移一位，得到m个m位的数，将依次得到的数构成矩阵L_m，m；将矩阵L_m，m进行矩阵列截短得到m行k列的矩阵L_m，k，将矩阵L_m，k与e_j进行相乘运算，得到L_m，k×e_j；

E^j进行m-1次右移位操作，每次右移一位，得到m-1个m位的数，将依次得到的数构成矩阵U_m-1，m；将矩阵U_m-1，m进行矩阵行列截短得到k-1行k列矩阵U_k-1，k，将矩阵U_k-1，k与e_j进行相乘运算，得到矩阵U_k-1，k×e_j；

将U_k-1，k×e_j进行矩阵化简运算后，与L_m，k×e_j一起进行异或操作，所述异或操作即得进行相加运算；得到D′_j。

本发明还公开了一种基于串并结合实现有限域乘法的装置，该装置用于实现有限域内m位乘法因子A和m位乘法因子B的相乘运算，如图2所示，图2是本发明中一种基于串并结合实现有限域乘法的装置的整体结构示意图。该装置包括：输入模块201，分组模块202，输出模块206，p个PM模块，该p个PM模块包括PM₁模块203、...PM_j+1模块204...、PM_p模块205；

输入模块201，用于将m位乘法因子A发送给分组模块202，将m位乘法因子B发送给PM₁模块203；

分组模块202，用于接收输入模块201发送的乘法因子A，将乘法因子A从低位到高位进行分组操作，以k位为一组，分成p组，分后的各组表示为e_i，将e_i依次发送给相应的PM_i+1模块；其中

i＝0，1，...，p-1；

PM₁模块203，用于接收分组模块202发送的e₀，输入模块201发送的乘法因子B；将e₀和B进行有限域内的乘法运算，得到D′₀；将D′₀作为C′₁发送给PM₂模块；将乘法因子B进行有限域内左移k位操作，得到E¹，将E¹发送给PM₂模块；

PM_j+1204模块，用于接收分组模块202发送的e_j，PM_j模块发送的E^j与C′_j；将e_j与E^j进行有限域内的乘法运算，得到D′_j；将D′_j与C′_j进行有限域内的加法运算，得到C′_j+1，将C′_j+1发送给PM_j+2模块；将E^j进行有限域内左移k位操作，得到E^j+1，将E^j+1发送给PM_j+2模块，其中，j＝1，2，3...p-2；

PM_p模块205，用于接收分组模块发送的e_p-1，PM_p-1模块发送的E^p-1与C′_p+1；将e_p-1与E^p-1进行有限域内乘法运算，得到D′_p-1，将D′_p-1与C′_p-1进行有限域内的加法运算，得到C′_p，将C′_p发送给输出模块206；

输出模块206，用于接收PM_p模块205发送的C′_p，将C′_p输出。所述输出模块206输出的C′_p即为m位乘法因子A和m位乘法因子B在有限域内的相乘运算的结果。

如图2所示，该装置中共有p个PM模块，其中

在该p个PM模块中，除PM₁模块203和PM_p模块205外，其余的PM₂模块至PM_p-1模块都有相同的结构，并且该p个PM模块依次相连。

图3是本发明中一种基于串并结合实现有限域乘法的装置的PM₁模块的内部结构图，如图3所示，所示PM₁模块203包括改进的Arash乘法器模块302，移位模块301，寄存器Z₁ 303，寄存器C₁ 304；

改进的Arash乘法器模块302，用于接收输入模块201发送的乘法因子B，分组模块202发送的e₀；将B与e₀进行有限域内的乘法运算，将得到的相乘结果D′₀作为C′₁发送寄存器C₁ 304；

移位模块301，用于接收输入模块201发送的乘法因子B，将乘法因子B进行在有限域内左移k位操作，得到E¹，将E¹发送给寄存器Z₁ 303；

寄存器Z₁ 303，用于存储移位模块301发送的E¹；

寄存器C₁ 304，用于存储改进的Arash乘法器模块302发送的C′₁。

PM₁模块203的输入由图2中的输入模块201和分组模块202提供输入。

图4是本发明中一种基于串并结合实现有限域乘法的装置的PM_j+1模块的内部结构图，如图4所示，所述PM_j+1模块204包括：改进的Arash乘法器模块401，移位模块402，异或阵列模块403，寄存器Z_j+1 404，寄存器C_j+1 405；其中，

改进的Arash乘法器模块401，用于从寄存器Z_j中读取E^j，接收分组模块202发送的e_j，将E^j与e_j进行有限域内的乘法运算，得到D′_j；将D′_j发送异或阵列模块403；

移位模块402，用于读取寄存器Z_j中的E^j，将E^j进行有限域内左移k位操作，得到E^j+1，将E^j+1发送给寄存器Z_j+1；

异或阵列模块403，用于读取寄存器C_j中的C′_j，接收改进的Arash乘法器模块401发送的D′_j；将C′_j与D′_j进行有限域内的加法运算；得到C′_j+1，将C′_j+1发送给寄存器C_j+1 404；

寄存器Z_j+1 405，用于存储移位模块402发送的E^j+1；

寄存器C_j+1 404，用于存储异或阵列模块403发送的C′_j+1。

其中寄存器Z_j和寄存器C_j是PM_j模块中的寄存器模块。

图5是本发明中一种基于串并结合实现有限域乘法的装置的PM_p模块的内部结构图，如图5所示，所述PM_p模块205包括：改进的Arash乘法器模块501，异或阵列模块502，寄存器C_p 503；其中，

改进的Arash乘法器模块501，用于从寄存器Z_p-1中读取E^p-1，接收分组模块202发送的e_p-1，将E^p-1与e_p-1进行有限域内的乘法运算；得到D′_p-1，将D′_p-1发送异或阵列模块502；

异或阵列模块502，用于从寄存器C_p-1读取C′_p-1，接收改进的Arash乘法器模块501发送的D′_p-1；将C′_p-1与D′_p-1进行有限域内的加法运算，得到C′_p；将C′_p发送给寄存器C_p 503；

寄存器C_p 503，用于存储异或阵列模块502发送的C′_p。

在各PM模块中，所包含的改进的Arash乘法器模块、异或阵列模块、移位模块、寄存器都具有相同的结构。

图6是本发明中一种基于串并结合实现有限域乘法的装置的改进的Arash乘法器模块结构示意图；如图6所示，所述改进的Arash乘法器模块包括：左移位模块601，矩阵列截短模块602，矩阵相乘模块605，右移位模块603，矩阵行列截短模块604，矩阵简化模块606，二元异或门列模块607；其中，

左移位模块601，用于接收输入模块201发送的乘法因子B或读取寄存器Z_j存储的E^j，将获取到的操作数进行m次左移位操作，得到m行m列的矩阵L_m，m，将所述矩阵L_m，m发送给矩阵列截短模块602；

所述左移位模块601包括m个m位的移位寄存器，将所获得的操作数E^j或是乘法因子B进行左移位操作，将每次左移得到的数存放在对应的移位寄存器中，经过m次左移位操作，得到m个m位的数，将该m个m位寄存器中的数构成一个m行m列的矩阵L_m，m；其中，每个操作数都有一个与之相对应的矩阵L_m，m。

矩阵列截短模块602，用于接收左移位模块601发送的矩阵L_m，m，将所述矩阵L_m，m进行矩阵列截短操作，得到m行k列的矩阵L_m，k；将矩阵L_m，k发送给矩阵相乘模块605，其中L_m，k即在矩阵L_m，m中取前m行k列的数构成；

右移位模块603，用于接收输入模块201发送的乘法因子B或读取寄存器Z_j中存储的E^j，将获取到的操作数进行m-1次右移位操作，得到m-1行m列的矩阵U_m-1，m，将所述矩阵U_m-1，m发送给矩阵行列截短模块604；所述右移位模块603包括m-1个m位的移位寄存器，；

矩阵行列截短模块604，用于接收右移位模块603发送的矩阵U_m-1，m，将所述矩阵U_m-1，m进行矩阵行列截短操作，得到k-1行k列的矩阵U_k-1，k；将矩阵U_k-1，k发送给矩阵相乘模块605；

矩阵相乘模块605，用于将矩阵列截短模块602发送的与E^j相对应的左移矩阵L_m， _k和分组模块202发送的e_j进行相乘运算，得到L_m，k×e_j；将L_m，k×e_j发送给二元异或门列模块607；用于将矩阵行列截短模块604发送的与E^j相对应的右移矩阵U_k-1，k和分组模块202发送的e_j进行相乘运算，得到U_k-1，k×e_j；将U_k-1，k×e_j发送给矩阵简化模块606；

如图6所示，矩阵相乘模块605包括m+k-1个MTP单元，其中，m个MTP单元与矩阵列截短模块602相连，用于实现矩阵L_m，k与e_j的相乘运算，将得到中间结果L_m，k×e_j发送给二元异或门列模块607，其中，中间结果L_m，k×e_j为m行1列的矩阵；该m个MTP从第1列到到k列依次为MTP₁、MTP₂...MTP_k；从第k+1列到m列都为MTP_k。

矩阵相乘模块605中k-1个MTP单元与矩阵行列截短模块604相连，用于实现矩阵U_k-1，k与e_j的相乘运算得到中间结果为U_k-1，k×e_j，该U_k-1，k×e_j为k-1行1列的矩阵。该k-1个MTP单元分别为MTP_k-1、...、MTP₂、MTP₁。

矩阵简化模块606，用于接收矩阵相乘模块605发送的U_k-1，k×e_j，将U_k-1，k×e_j化简成m行1列的矩阵R_m，1；将矩阵R_m，1发送给二元异或门列模块607；

上述矩阵简化模块606用于实现矩阵相乘模块605发送的U_k-1，k×e_j与简化矩阵R相乘，将k-1行1列的矩阵转换成m行1列的矩阵R_m，1。所述简化矩阵R矩阵由有限域上的不可约多项式P(x)＝x^m+x^kt+..+x^k2+x^k1+1确定且具有唯一性，其生成规则如下：

R矩阵的第0行有t+1列1，其余列为0，1的分布分别在0，k1，k2，...，kt列，其中0，k1，k2，...，kt为表示P(x)＝x^m+x^kt+..+x^k2+x^k1+1中x的幂，t为计数单位，表示为第几个；

R矩阵的第1行至m-kt-1行由第0行依次右移位得到。

R矩阵的第m-kt至m-2行的构造规则如下：

当i行最后一列以1结尾时，i+1行向右移一位并与第0行的值进行异或运算；

当i行最后一列以0结尾时，i+1行向右移一位。

在本发明中按照上述构造规则，构造第0行至第k-2行，得到的简化矩阵R为k-1行m列矩阵。

二元异或门列模块607，用于接收矩阵相乘模块605发送的L_m，k×e_j和矩阵简化模块606发送的相对应的矩阵R_m，1；将L_m，k×e_j与R_m，1进行异或操作，得到D′_j，将D′_j输出。其中L_m，k×e_j为m行1列的矩阵，R_m，1也是m行1列的矩阵，将L_m，k×e_j与R_m，1进行异或操作得到的结果即D′_j。D′_j即低阶乘法装置将m位乘法因子与k位的乘法因子相乘得到的结果。该结果D′_j与寄存器C_j中的C′_j进行异或操作，将得到的结果C′_j+1存储在寄存器C_j+1中，将用于下一个低阶乘法装置的输入，依次进行运算，得到最终结果C′_p。

图7是本发明中一种基于串并结合实现有限域乘法的装置的MTP_x单元的结构示意图，如图7所示，所述MTP_x单元包括x个与门和x-1个异或门，其中，x个与门为并列结构，位于第一级，x-1个异或门为树形结构，x个与门与x-1异或门次级连接。

图8是本发明中一种基于串并结合实现有限域乘法的装置的移位模块的结构示意图，所述移位模块用于对操作数Eⁱ依次进行有限域内左移K位的操作，得到结果为Eⁱ⁺¹。如图8所示，所述移位模块包括R_k，m矩阵模块801和异或门结果802。其中，R_k，m矩阵模块801中的矩阵R_k，m与矩阵简化模块606中的矩阵R_k-1，m的原理与生成规则相同，即都是由简化矩阵R转换得到的；所述R_k，m由简化矩阵R中的k行m列构造而成。

以操作数E^i-1为例，其中

(j＝0...m-1)用来表示E^i-1的第j位的位值；所述E^i-1共有m为分别为

如图所示，其中从

直接发送给异或门模块802，从

到

发送给R_k，m矩阵模块801，经R_k，m矩阵模块801的简化矩阵R_k，m相乘后将m位数，分别为其中直接输出，其余的发送给异或门模块802，通过异或门模块802与进行异或操作得到

所述输出的数共m位即E^i-1经过左移k位得到的Eⁱ。

图9是本发明中一种基于串并结合实现有限域乘法的装置的异或门阵列模块结构示意图，如图9所示，所述异或门阵列模块901有m个并列结构的异或门构成。

下面结合具体实施例来说明本发明。GCM(Galois/Counter Mode)是一种在二元Galois域使用泛散列提供加密认证的分组密码算法。其中认证方案核心为128位乘法装置。即实现m位的乘法因子A和m位的乘法因子B的乘法运算，其中m＝128。图10是本发明中一种基于串并结合实现有限域乘法的装置的实施例的结构示意图；如图10所示，

步骤1，m＝128，对128位宽的乘法因子A进行位宽分割，以k＝8比特位宽为一组，可以分为p＝[128/8]＝16个组；即乘法因子A的[7:0]为e₀，[15:8]为e₁，L[127:120]记为e_p-1；乘法因子B不进行分组，直接由输入模块发送给PM₁模块。可知其所对应的有限域GF(2¹²⁸)上的不可约多项式为P(x)＝x¹²⁸+x⁷+x²+x+1，即k1＝1，k2＝2，k3＝7，共有3个数则t＝3。则构造的简化矩阵R的第0行有t+1＝4个1，分别在0，1，2，7列；简化矩阵R的第1行至6行由第0行依次右移位得到。得到简化矩阵R为：

R = \{\begin{matrix} 11100001000000 & L & 00000000 \\ 01110000100000 & L & 00000000 \\ 00111000010000 & L & 00000000 \\ 00011100001000 & L & 00000000 \\ 00001110000100 & L & 00000000 \\ \begin{matrix} 00000111000010 \\ 00000011100001 \end{matrix} & L & \begin{matrix} 00000000 \\ 00000000 \end{matrix} \end{matrix}\}

步骤2，构造128个128为的移位寄存器，每个移位寄存器分别用于将获得的与之相连的上一个移位寄存器中的操作数进行左移一位的操作并将所得到的数存储；共得到128个128位的数，构成矩阵L_128，128；将所得到的矩阵发送给矩阵列截短模块，经过矩阵列截短后，得到一个128行8列的矩阵L_128，8。将矩阵L_128，8发送给矩阵相乘模块。

步骤3，构造127个128为的移位寄存器，每个移位寄存器分别用于将获得的与之相连的上一个移位寄存器中的操作数进行又移一位的操作并将所得到的数存储；共得到127个128位的数，构成矩阵U_127，128；将所得到的矩阵发送给矩阵列截短模块，经过矩阵列截短后，得到一个7行8列的矩阵U_7，8。将矩阵U_7，8发送给矩阵相乘模块。所述矩阵相乘模块包括135个MTP单元，其中，与矩阵列截短模块相连的128个MTP单元，用于实现矩阵L_128，8与e₀的相乘运算，得到中间结果L_128，8×e₀，该中间结果L_128，8×e₀为128行1列的矩阵；其中，与矩阵行列截短模块相连的7个MTP单元，用于实现矩阵e₀与U_7，8的相乘运算得到中间结果为U_7，8×e₀，该U_7，8×e₀为7行1列的矩阵。

步骤5，将该U_7，8×e₀发送给简化矩阵模块进行与简化矩阵R进行相乘运算，生成R^T×U_7，8×e₀为128行1列的矩阵，在将该R^T×U_7，8×e₀与L_128，8×e₀进行异或操作。得到的结果即有限域内B与e₀的乘积。将该结果存储在寄存器C₁。

步骤6，乘法因子B进行GF(2¹²⁸)域内的左移8位的移位操作，将得到的E¹存入寄存器Z₁中。其中，B在GF(2¹²⁸)域内的进行左移8位的操作，所用到的R_k，m矩阵模块中的矩阵R_8，128如下所示：

R_{8.128} = \{\begin{matrix} 111000010000000 & L & 00000000 \\ 01110000100000 & L & 00000000 \\ 001110000100000 & L & 00000000 \\ 000111000010000 & L & 00000000 \\ 000011100001000 & L & 00000000 \\ \begin{matrix} 000001110000100 \\ 000000111000010 \end{matrix} & L & \begin{matrix} 00000000 \\ 00000000 \end{matrix} \\ 000000011100001 & 00000000 \end{matrix}\}

步骤7，取寄存器Z₁中的数据与乘法因子A的第二个分组e₁进行乘法运算，具体步骤同上步骤1到步骤6，将得到的乘积与寄存器C₁中的值异或，并将结果存入寄存器C₂中。取寄存器Z₁中的数据，经过GF(2¹²⁸)域内的左移8位操作将结果存入寄存器Z₂中。

重复步骤7，直到A的最后一个分组e₁₅，最终得到C₁₆，即为GF(2¹²⁸)A和B的乘积。

综上所述，本发明采用分治思想，通过串并结合的方法，将高位宽的相乘运算分解成多个低位宽的相乘运算，缩短了有限域乘法计算的关键路径，降低了空间复杂度；本发明中乘法器在结构上采用流水线结构，具有低复杂度、高吞吐量的特性。

有限域乘法器的时间复杂度通常用时延衡量。在m位下的时间复杂度是其中T_A是一个而输入与门的时延，T_X是一个二输入异或门的时延。有限域乘法器空间复杂度通常用所使用的与门异或门数量衡量，本发明的乘法器在m位下的空间复杂度是：与门数m²，异或门数m²-(3-p-2/p)m-p。

同时参数k(或p)可调整，即调节时间复杂度和空间复杂度的关系，(用时间换低空间复杂度，或用空间复杂度换低时延)，以适应不同应用场景对时空复杂度的要求。

Claims

1.一种基于串并结合实现有限域乘法的方法，本方法用于实现有限域内m位乘法因子A和m位乘法因子B的相乘运算，其特征在于，该方法包括：

i＝0，1，...，p-1；

2.根据权利要求1所述的方法，其特征在于，所述将e₀与B进行有限域内乘法运算，得到D′₀包括：

B进行m次左移位操作，将依次得到的数构成矩阵L_m，m；将矩阵L_m，m进行矩阵列截短得到矩阵L_m，k，将矩阵L_m，k与e₀进行相乘运算，得到L_m，k×e₀；

B进行m-1次右移位操作，将依次得到的数构成矩阵U_m-1，m；将矩阵U_m-1，m进行矩阵行列截短得到矩阵U_k-1，k，将矩阵U_k-1，k与e₀进行相乘运算，得到U_k-1，k×e₀；

将U_k-1，k×e₀进行矩阵化简运算后，与L_m，k×e₀一起进行异或操作，得到D′₀；

3.根据权利要求1所述的方法，其特征在于，所述将e_j与E^j进行有限域内乘法运算，得到D′_j包括：

E^j进行m次左移位操作，将依次得到的数构成矩阵L_m，m；将矩阵L_m，m进行矩阵列截短得到矩阵L_m，k，将矩阵L_m，k与e_j进行相乘运算，得到L_m，k×e_j；

E^j进行m-1次右移位操作，将依次得到的数构成矩阵U_m-1，m；将矩阵U_m-1，m进行矩阵行列截短得到矩阵U_k-1，k，将矩阵U_k-1，k与e_j进行相乘运算，得到U_k-1，k×e_j；

将U_k-1，k×e_j进行矩阵化简运算后，与L_m，k×e_j一起进行异或操作，得到D′_j；

其中，j＝1，2，3...p-2。

4.根据权利要求1所述的方法，其特征在于，将e_p-1与E^p-1进行有限域内乘法运算，得到D′_p-1包括：

E^p-1进行m次左移位操作，将依次得到的数构成矩阵L_m，m；将矩阵L_m，m进行矩阵列截短得到矩阵L_m，k，将矩阵L_m，k与e_p-1进行相乘运算，得到L_m，k×e_p-1；

E^p-1进行m-1次右移位操作，将依次得到的数构成矩阵U_m-1，m；将矩阵U_m-1，m进行矩阵行列截短得到矩阵U_k-1，k，将矩阵U_k-1，k与e_p-1进行相乘运算，得到U_k-1，k×e_p-1；

将U_k-1，k×e_p-1进行矩阵化简运算后，与L_m，k×e_p-1一起进行异或操作，得到D′_p-1；

5.一种基于串并结合实现有限域乘法的装置，该装置用于实现有限域内m位乘法因子A和m位乘法因子B的相乘运算，其特征在于，该乘法器包括：输入模块，分组模块，输出模块，p个PM模块，这p个PM模块分别为：PM₁模块、PM₂模块、...、PM_p模块；

i＝0，1，...，p-1；

输出模块，用于接收PM_p模块发送的C′_p，将C′_p输出。

6.根据权利要求5所述的装置，所述PM₁模块包括：改进的Arash乘法器模块，移位模块，寄存器Z₁，寄存器C₁；其中，

改进的Arash乘法器模块，用于接收输入模块发送的乘法因子B，分组模块发送的e₀；将B与e₀进行有限域内的乘法运算，将得到的相乘结果D′₀作为C′₁发送寄存器C₁；

移位模块，用于接收输入模块发送的乘法因子B，将乘法因子B进行在有限域内左移k位操作，得到E¹，将E¹发送给寄存器Z₁；

寄存器Z₁，用于存储移位模块发送的E¹；

寄存器C₁，用于存储改进的Arash乘法器模块发送的C′₁。

7.根据权利要求5所述的装置，所述PM_j+1模块包括：改进的Arash乘法器模块，移位模块，异或阵列模块，寄存器Z_j+1，寄存器C_j+1；其中，

改进的Arash乘法器模块，用于从寄存器Z_j中读取E^j，接收分组模块发送的e_j，将E^j与e_j进行有限域内的乘法运算，得到D′_j；将D′_j发送异或阵列模块；

移位模块，用于读取寄存器Z_j中的E^j，将E^j进行有限域内左移k位操作，得到E^j+1，将E^j+1发送给寄存器Z_j+1；

异或阵列模块，用于读取寄存器C_j中的C′_j，接收改进的Arash乘法器模块发送的D′_j；将C′_j与D′_j进行有限域内的加法运算；得到C′_j+1，将C′_j+1发送给寄存器C_j+1；

寄存器Z_j+1，用于存储移位模块发送的E^j+1；

寄存器C_j+1，用于存储异或阵列模块发送的C′_j+1；

其中，j＝1，2，3...p-2。

8.根据权利要求5所述的装置，所述PM_p模块包括：改进的Arash乘法器模块，异或阵列模块，寄存器C_p；其中，

改进的Arash乘法器模块，用于从寄存器Z_p-1中读取E^p-1，接收分组模块发送的e_p-1，将E^p-1与e_p-1进行有限域内的乘法运算；得到D′_p-1，将D′_p-1发送异或阵列模块；

异或阵列模块，用于从寄存器C_p-1读取C′_p-1，接收改进的Arash乘法器模块发送的D′_p-1；将C′_p-1与D′_p-1进行有限域内的加法运算，得到C′_p；将C′_p发送给寄存器C_p；

寄存器C_p，用于存储异或阵列模块发送的C′_p。

9.根据权利要求6至8中任一项所述的装置，其特征在于，所述改进的Arash乘法器模块包括：左移位模块，矩阵列截短模块，矩阵相乘模块，右移位模块，矩阵行列截短模块，矩阵简化模块，二元异或门列模块；其中，

左移位模块，用于接收输入模块发送的乘法因子B或读取寄存器Z_j存储的E^j，将获取到的操作数进行m次左移位操作，得到m行m列的矩阵L_m，m，将所述矩阵L_m，m发送给矩阵列截短模块；

矩阵列截短模块，用于接收左移位模块发送的矩阵L_m，m，将所述矩阵L_m，m进行矩阵列截短操作，得到m行k列的矩阵L_m，k；将矩阵L_m，k发送给矩阵相乘模块；

右移位模块，用于接收输入模块发送的乘法因子B或读取寄存器Z_j中存储的E^j，将获取到的操作数进行m-1次右移位操作，得到m-1行m列的矩阵U_m-1，m，将所述矩阵U_m-1，m发送给矩阵行列截短模块；

矩阵行列截短模块，用于接收右移位模块发送的矩阵U_m-1，m，将所述矩阵U_m-1，m进行矩阵行列截短操作，得到k-1行k列的矩阵U_k-1，k；将矩阵U_k-1，k发送给矩阵相乘模块；

矩阵相乘模块，用于将矩阵列截短模块发送的与E^j相对应的左移矩阵L_m，k和分组模块发送的e_j进行相乘运算，得到L_m，k×e_j；将L_m，k×e_j发送给二元异或门列模块；用于将矩阵行列截短模块发送的与E^j相对应的右移矩阵U_k-1，k和分组模块发送的e_j进行相乘运算，得到U_k-1，k×e_j；将U_k-1，k×e_j发送给矩阵简化模块；

矩阵简化模块，用于接收矩阵相乘模块发送的U_k-1，k×e_j，将U_k-1，k×e_j化简成m列1行的矩阵R_m，1；将矩阵R_m，1发送给二元异或门列模块；

二元异或门列模块，用于接收矩阵相乘模块发送的L_m，k×e_j和矩阵简化模块发送的相对应的矩阵R_m，1；将L_m，k×e_j与R_m，1进行异或操作，得到D′_j，将D′_j输出。

10.根据权利要求9所述的装置，其特征在于，所述矩阵相乘模块包括m+k-1个MTP单元：

其中的m个MTP单元用于实现与E^j相对应的矩阵L_m，k和输入模块发送的e_j的相乘运算；这m个MTP单元依次为MTP₁、MTP₂...MTP_k、...、MTP_k；

k-1个MTP单元用于实现输入模块发送的e_j和与E^j相对应的矩阵U_k-1，k的相乘运算；该k-1个MTP单元分别为MTP_k-1、...、MTP₂、MTP₁；

MTP_x单元包括x个与门和x-1个异或门，其中，x个与门为并列结构，x-1个异或门为树形结构，x个与门与x-1异或门次级连接；x＝1，2，...，k。