CN116192359B

CN116192359B - 一种同态乘法阵列电路和数据处理方法

Info

Publication number: CN116192359B
Application number: CN202211690687.7A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2024-01-05
Anticipated expiration: 2042-12-27
Also published as: CN116192359A

Abstract

本发明实施例提供了一种同态乘法阵列电路和数据处理方法，其中，该电路包括：第一存储单元，用于通过第一输入端口接收以向量为单位的第一同态多项式，并暂存所述第一同态多项式；第二存储单元，用于通过第二输入端口接收以向量为单位的第二同态多项式，并暂存所述第二同态多项式；同态乘法器阵列，与所述第一存储单元和所述第二存储单元相连，用于对所述第一同态多项式和所述第二同态多项式逐项进行相乘运算，得到同态密文向量乘法结果多项式；第三存储单元，用于接收所述同态密文向量乘法结果多项式，并通过输出端口输出同态密文向量乘法结果多项式。通过上述方案达到了简单高效实现向量运算的技术效果，有效提升了计算性能和计算效率。

Description

一种同态乘法阵列电路和数据处理方法

技术领域

本发明涉及电子电路技术领域，特别涉及一种同态乘法阵列电路和数据处理方法。

背景技术

在现代信息化建设中，隐私问题是限制数据共享和跨组织协作的主要因素。同态加密因为允许在密文上进行计算，而无需对数据先行解密，使得可以对信息提供更安全的保护。

然而，同态加密技术需要耗费大量的计算资源，如果软件使用同态加密技术，往往无法满足应用计算的需求，这也就限制了同态加密服务在数据中心的部署。

针对如何在数据中心对同态加密算法进行硬件加速，目前尚未提出有效的解决方案。

发明内容

有鉴于此，本发明实施例提供了一种同态乘法阵列电路和数据处理方法，以解决了现有技术中无法对同态加密算法进行硬件加速的技术问题。

一方面，提供了一种同态乘法阵列电路，包括：

第一存储单元，设置有第一输入端口，用于通过第一输入端口接收以向量为单位的第一同态多项式，并暂存所述第一同态多项式；

第二存储单元，设置有第二输入端口，用于通过第二输入端口接收以向量为单位的第二同态多项式，并暂存所述第二同态多项式；

同态乘法器阵列，与所述第一存储单元和所述第二存储单元相连，用于对所述第一同态多项式和所述第二同态多项式逐项进行相乘运算，得到同态密文向量乘法结果多项式；

第三存储单元，与所述同态乘法器阵列和输出端口相连，用于接收所述同态密文向量乘法结果多项式，并通过输出端口输出同态密文向量乘法结果多项式。

在一个实施方式中，所述同态乘法器阵列包括：并行运算的N个同态向量处理单元，在每个时钟周期，N个同态向量处理单元完成N条向量长度为M的第一同态多项式和一条向量长度为M的第二同态多项式的逐项相乘运算，其中，N和M为正整数。

在一个实施方式中，每个同态向量处理单元包括：M个并行运算的计算路径单元，其中，每个计算路径单元包括：

第一多项式寄存器，用于存储当前计算周期参与计算的第一同态多项式向量中的元素项，其中，一个计算周期L个时钟周期；

第二多项式寄存器，用于暂存下一计算周期参与计算的第一同态多项式向量中的元素项；

同态乘法器，第一输入端与第一多项式寄存器的输出端相连，第二输入端与第二存储单元的输出端相连，用于对来自第一多项式寄存器的当前计算周期参与计算的第一同态多项式向量中的元素项和来自第二存储单元的当前时钟周期参与计算的第二同态多项式向量中的元素项做模乘运算，得到同态密文向量乘法结果多项式。

在一个实施方式中，所述同态乘法器还包括：输出口，与第三存储单元相连，用于将同态密文向量乘法结果多项式输出至第三存储单元。

在一个实施方式中，所述第一多项式寄存器为流水寄存器，所述同态乘法器的第二输入端与第二存储单元的输出端之间连接有流水寄存器，以使得第一同态多项式向量中的元素项和第二同态多项式向量中的元素项仅在横向上流动。

在一个实施方式中，所述第一存储单元用于通过广播的方式，通过N个时钟周期将N条向量长度为M的第一同态多项式，发送至所述N个同态向量处理单元。

另一方面，提供了一种基于上述同态乘法阵列电路的数据处理方法，包括：

获取以向量为单位的第一同态多项式和以向量为单位的第二同态多项式，将所述第一同态多项式加载至第一存储单元，将第二同态多项式加载到第二存储单元；

通过N个时钟周期，将N条向量长度为M的第一同态多项式传送至同态乘法器阵列；

通过一个时钟周期，将一条向量长度为M的第二同态多项式传送至所述同态乘法器阵列；

所述同态乘法器阵列通过L个时钟周期，完成N条向量长度为M的第一同态多项式和L条向量长度为M的第二同态多项式的逐项相乘运算，其中，N、M和L为正整数。

在一个实施方式中，所述同态乘法器阵列通过L个时钟周期，完成N条向量长度为M的第一同态多项式和L条向量长度为M的第二同态多项式的逐项相乘运算，包括：

在每个时钟周期，同态乘法器阵列中的N个同态向量处理单元完成N条向量长度为M的第一同态多项式和一条向量长度为M的第二同态多项式的逐项相乘运算。

在每个时钟周期，将下个计算周期的一条向量长度为M的第一同态多项式传送至所述同态乘法器阵列进行暂存，其中，一个计算周期包括L个时钟周期。

又一方面，提供了一种计算机设备，包括：上述的同态乘法阵列电路。

又一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意的数据处理方法。

又一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述任意的数据处理方法的计算机程序。

与现有技术相比，本说明书实施例提供了一种同态乘法阵列电路，通过同态乘法器阵列实现对以向量为单位的第一同态多项式和以向量为单位的第二同态多项式逐项进行相乘运算，从而得到同态密文向量乘法结果多项式，并输出。通过上述方案，可以解决单一向量运算电路所存在的软件编程比较复杂且数据重用性较低的问题，以及脉动阵列电路的端到端的时延较高，且控制逻辑较为复杂的问题，达到了简单高效实现向量运算的技术效果，有效提升了计算性能和计算效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种同态乘法阵列电路的电路结构框图；

图2是本发明实施例提供的一种同态乘法器阵列的结构示意图；

图3是本发明实施例提供的一种数据处理方法的方法流程图；

图4是本发明实施例提供的一种同态乘法器阵列的另一结构示意图；

图5是本发明实施例提供的一种同态向量处理单元的具体结构示意图；

图6是本发明实施例提供的一种数据处理方法的电子设备的硬件结构框图；

图7是本发明实施例提供的一种数据处理装置的结构框图。

具体实施方式

下面结合一个具体实施例对上述方法进行说明，然而，值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

考虑到在数据中心，为了提高系统的吞吐率，通常将多条请求组成批(batch)进行处理。例如，在人脸识别系统中，可以在满足服务质量的前提下，将每16条请求组成一个数据批次，和人脸特征底库进行人脸比对运算。在批处理过程中，数据(包括底库数据和请求数据)存在大量的可重用性，因此可以利用大量的乘法器逻辑并行处理，以提高数据的复用率，减少访存次数和延迟，从而提高吞吐率。

乘法器并行电路一般有：向量运算电路、脉动阵列电路。其中，向量运算电路通常由向量运算逻辑和向量寄存器组成。向量运算电路一般包含多个LANE，多个LANE可以以齐步方式(Lockstep)同时完成计算，因此，向量运算电路有助于提高数据处理和运算的吞吐率。其中，基于脉动阵列电路一般采用二维脉动阵列，将若干个标量PE连接起来，PE之间实现并行操作，来提高运算效率，脉动阵列的特点是数据沿着水平和垂直两个方向流动。

然而，向量运算电路虽然结构简单，但是软件编程比较复杂且数据重用性较低，脉动阵列电路阵列的端到端的时延较高，且控制逻辑较为复杂。

基于此，在本例中提供了一种同态乘法阵列电路，如图1所示，可以包括：

1)第一存储单元，设置有第一输入端口，用于通过第一输入端口接收以向量为单位的第一同态多项式，并暂存所述第一同态多项式；

2)第二存储单元，设置有第二输入端口，用于通过第二输入端口接收以向量为单位的第二同态多项式，并暂存所述第二同态多项式；

3)同态乘法器阵列，与所述第一存储单元和所述第二存储单元相连，用于对所述第一同态多项式和所述第二同态多项式逐项进行相乘运算，得到同态密文向量乘法结果多项式；

4)第三存储单元，与所述同态乘法器阵列和输出端口相连，用于接收所述同态密文向量乘法结果多项式，并通过输出端口输出同态密文向量乘法结果多项式。

具体的，上述同态乘法器阵列(也可以叫同态加密乘法器阵列)可以是由多个并行运算的同态向量处理单元组成的，如图2所示，上述同态乘法器阵列可以包括：并行运算的N个同态向量处理单元(HVPE1、HVPE2…HVPEN)，在每个时钟周期，这N个同态向量处理单元完成N条向量长度为M的第一同态多项式(a1…aN)和一条向量长度为M的第二同态多项式(b1)的逐项相乘运算，其中，N和M为正整数，其中，a1为向量(a11、a12…a1M)，b1为向量(b11、b12…b1M)。

对于每个同态向量处理单元(HVPE)而言，可以包括：M个并行运算的计算路径单元，其中，每个计算路径单元可以包括：

同态乘法器，第一输入端与第一多项式寄存器的输出端相连，第二输入端与第二存储单元的输出端相连，用于对来自第一多项式寄存器的当前计算周期参与计算的第一同态多项式向量中的元素项和来自第二存储单元的当前时钟周期参与计算的第二同态多项式向量中的元素项做模乘运算，得到同态密文向量乘法结果多项式，该同态乘法器还可以包括：输出口，与第三存储单元相连，用于将同态密文向量乘法结果多项式输出至第三存储单元。

在图2中，每个小方框表示一个计算路径单元，一列为一个同态向量处理单元HVPE，整个阵列共包含(横向)N个同态向量处理单元，每个同态向量处理单元(纵向)包含M个计算路径单元，因此阵列共包含M*N个计算路径单元。其中，a向量和b向量可以广播到所有计算路径单元。当N条长度为M的a向量加载到所有同态向量处理单元后，可以每个周期向阵列发送一条b向量。L个时钟周期内可以向该阵列发送L条长度为M的b向量，每个时钟周期可以完成一条b向量和N条a向量的同态多项式计算。

考虑到为了使得向量的元素项可以在横向上流动，上述的第一多项式寄存器可以为流水寄存器，所述同态乘法器的第二输入端与第二存储单元的输出端之间连接有流水寄存器，以使得第一同态多项式向量中的元素项和第二同态多项式向量中的元素项仅在横向上流动。

对于第一存储单元可以通过广播的方式，通过N个时钟周期将N条向量长度为M的第一同态多项式，发送至所述N个同态向量处理单元，采用广播的方式，对于每个同态向量处理单元而言，是可以接收到所有被广播的数据，但是仅保存自己需要保存的数据，其它数据可以忽略。通过广播的方式，不再需要为每个同态向量处理单元设置单独的数据传输线，所有同态向量处理单元可以共用同一数据传输线。

基于上述的同态乘法阵列电路，在本例中还提供了一种数据处理方法，可以如图3所示，包括如下步骤：

步骤301：获取以向量为单位的第一同态多项式和以向量为单位的第二同态多项式，将所述第一同态多项式加载至第一存储单元，将第二同态多项式加载到第二存储单元；

步骤302：通过N个时钟周期，将N条向量长度为M的第一同态多项式传送至同态乘法器阵列；

步骤303：通过一个时钟周期，将一条向量长度为M的第二同态多项式传送至所述同态乘法器阵列；

步骤304：所述同态乘法器阵列通过L个时钟周期，完成N条向量长度为M的第一同态多项式和L条向量长度为M的第二同态多项式的逐项相乘运算，其中，N、M和L为正整数。

具体的，对于同态乘法器阵列而言，通过L个时钟周期，完成N条向量长度为M的第一同态多项式和L条向量长度为M的第二同态多项式的逐项相乘运算的时候，在每个时钟周期，同态乘法器阵列中的N个同态向量处理单元可以完成N条向量长度为M的第一同态多项式和一条向量长度为M的第二同态多项式的逐项相乘运算。

为了减少数据传输的时间，在每个时钟周期进行运算的时候，可以将下个计算周期的一条向量长度为M的第一同态多项式传送至所述同态乘法器阵列进行暂存，其中，一个计算周期包括L个时钟周期，即，在数据处理的时候，可以完成对第一同态多项式的传送和存储。

上述的同态乘法阵列电路和数据处理方法，可以但不限于用于以下应用场景：

1)人脸识别场景：

例如，在人脸识别应用中，人脸特征数据库包含有大量的用户隐私信息，因此需要经过同态加密后存储在数据中心。端设备提取人脸特征，送到数据中心进行比对。数据中心将待查询的人脸特征和加密的特征底库进行比对，通过同态加密数据处理阵列加速获得特征比对结果。在该过程中，人脸特征数据库包含有以密文形式存储和运算，从而可以保护用户隐私，待查询的人脸特征可以是明文、也可以是密文。

2)远程医疗诊断场景：

在远程医疗诊断中，患者的隐私信息和症状信息一般是经过加密，从而可以保护患者的隐私。对于加密后的患者信息和医疗专家数据库进行特征比对，并得到加密的诊断信息，然后传回给患者进行解密处理。

3)金融风险控制场景：

在金融风险控制应用中，银行系统A希望获得某个客户的风险信息，但是也不希望将客户的信息泄露给其它银行。为此，银行A可以将客户的身份信息经过同态加密发给其它银行系统，其它银行系统在密文上完成运算后再把计算的加密结果返回给银行A，由A进行解密后再进行后续处理。在这个过程中，银行系统可以在互相没有泄露本系统机密的情况下，完成风险控制。

在本例中提供了一种利用以同态向量处理单元(HVPE)为基本单元的一维阵列电路加速同态加密算法，可以结合向量电路和脉动阵列的优点，同时又可以避开两者的缺点，以提高计算性能和效率。

具体的，如图4所示，提供了一种同态乘法器阵列，包括：三个端口：PORT-A、PORT-B、PORT_C)分别连接到三个存储单元：RAM_A、RAM_B、RAM_C)。其中，RAM_B和RAM_A分别用于暂存用于相乘的两个输入多项式A和B，RAM_C用于接收并保存乘法器阵列的输出结果R＝AxB。

在本例中，以上述M和N取值为16为例进行说明，即，在本例中提供了一个16x16的同态乘法器阵列可以由16个同态向量处理单元(hvpe、hvpe2…hvpe16)组成，在每个时钟周期，每个同态向量处理单元(HVPE)均完成长度为16的同态多项式A和B的逐项相乘运算，产生的同态密文向量乘法结果多项式C从PORT-C端口输出。对于每个同态向量处理单元而言，内部可以有两个多项式寄存器(Ri、Rc)组成乒乓缓存用于保存密文输入向量。

如图5所示，为一个由16个LANE组成的同态向量处理单元(HVPE)的内部逻辑，每个HVPE内部结构是相同的16个LANE，每个LANE由一个同态模乘法器和相关的寄存器(Ri、Rc)以及连线组成。其中，Mul方块是同态模乘法器，用于完成模乘法操作，HVPE中每一LANE有两个输入端口(a_in、b_in)和三个输出端口(a_out、b_out、c_out)，为了描述清晰，在图中输入输出的端口a和端口b均用箭头表示方向，而略去了in和out等标识。

基于上述同态乘法器阵列进行数据处理，可以包括如下步骤：

步骤1，将需要计算的输入数据(例如：多项式A和多项式B)从DRAM加载到RAM_A和RAM_B中；

步骤2，将16条同态多项式A(A1、A2、A3…A16)通过阵列端口PORT-A分别加载到阵列中16个HVPE的缓存寄存器Ri中，这一步可以通过16个周期完成；

步骤3，将16个HVPE的寄存器Ri中的数据传输到Rc中；

步骤4，在每个计算周期中，从RAM_B中依次读取一条同态多项式Bi(B1、B2…Bn)，通过阵列的端口PORT-B送到阵列中，这一过程需要n个时钟周期(n取决于需要输入的多项式Bi的条数)；

步骤5，阵列中的每个HVPEj将寄存器Rc中暂存的Aj和输入的Bi进行多项式乘操作，即Cj＝Aj x Bi，计算结果从PORT-C端口输出到RAM_C中；

当需要输入的多项式A和多项式B数量超过16x16时，数据A和B可以通过数据分块技术，分解为多个子阵列，该过程可以重复执行完成每个子阵列的多项式计算。

为了提升速率，除了第一次加载多项式A以外，上一轮数据在执行步骤3至步骤5的同时，可以将新的一批多项式数据A加载到HVPE的寄存器Ri中，因为在步骤2中仅仅更新寄存器Ri，而步骤3至步骤5中仅仅使用寄存器Rc，因此，两者的并行执行并不会产生数据冲突或竞争。因此。只要有输入数据可用，乘法阵列就可以一直保持繁忙，不会陷入停顿。

在实现的时候，对于每一路乘法器的输入a经过Ri和Rc两个寄存器。在上述步骤2中，输入的多项式a会先暂存在Ri中，只有在步骤3时，多项式a才会从Ri转移到Rc中；在步骤4和步骤5中同态乘法器Mul使用寄存器Rc中的多项式和输入的b多项做模乘，产生的结果从端口c输出；同时，输出端口a_out和b_out在控制电路作用下把a和b传递给下一个HVPE。

上述多项式a和多项式b是可以通过广播的方式发给16个HVPE，在功耗和时序紧张的情况下，也可以通过流水方式将多项式a和b在多个HVPE之间传递。例如，多项式a可以利用Ri作为流水寄存器，而多项式b如果使用流水方式传递，则需要在两个HVPE之间插入一个流水寄存器。

上例中是以16x16维度的同态加密乘法阵列为例进行的说明，在实际实现的时候，也可以是其它维度组合，在本例中，脉动阵列的数据流向在16个LANE之间不存在垂直方向的数据交换，同态多项式Bi可以通过广播方式、也可以通过流水方式在不同的HVPE单元之间传递。

在上例中，由于不存在二维脉动阵列中的启动和排空开销，因此计算资源利用率的空闲周期大大缩短，在数据量足够的情况下，可以完全保持满负荷运转，从而可以提高资源利用率，降低端到端的数据延迟。与向量处理方式相比，本例中采用乘法器阵列，可以提高数据的复用率，减少访存次数和延迟，提高系统吞吐率；与二维脉动阵列相比，本例中每个输入的多项式，从进入阵列到离开阵列，延迟只需要1个周期，可以大大缩短端到端的延迟。进一步的，由于数据是以向量的方式供给阵列，因此，数据也不存在二维脉动阵列中数据Skew或者数据重排的开销，不仅降低了端到端延迟，也降低了控制电路的复杂度，没有数据重排等开销，软件编程也变得更加容易，即，逻辑控制更为简单，软件编程也更为容易，硬件功耗和面积开销也较少。由于HVPE中在不同的mul模块之间不存在数据流动，每个HVPE可以用同一组控制逻辑和连线控制若干个Mul模块，与现有的向量单元和脉动阵列相比，可以缩减控制逻辑和连线数量，从而减少了面积和功耗开销。

本申请上述实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在电子设备上为例，以运行在电子设备上为例，图6是本申请提供的一种数据处理方法的电子设备的硬件结构框图。如图6所示，电子设备10可以包括一个或多个(图中仅示出一个)处理器02(处理器02可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器04、以及用于通信功能的传输模块06。本领域普通技术人员可以理解，图6所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备10还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。

存储器04可用于存储应用软件的软件程序以及模块，如本申请实施例中的数据处理方法对应的程序指令/模块，处理器02通过运行存储在存储器04内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器04可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器04可进一步包括相对于处理器02远程设置的存储器，这些远程存储器可以通过网络连接至电子设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块06用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备10的通信供应商提供的无线网络。在一个实例中，传输模块06包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块06可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在软件层面，上述数据处理装置可以如图7所示，可以包括：

获取模块701，用于获取以向量为单位的第一同态多项式和以向量为单位的第二同态多项式，将所述第一同态多项式加载至第一存储单元，将第二同态多项式加载到第二存储单元；

第一传送模块702，用于通过N个时钟周期，将N条向量长度为M的第一同态多项式传送至同态乘法器阵列；

第二传送模块703，用于通过一个时钟周期，将一条向量长度为M的第二同态多项式传送至所述同态乘法器阵列；

同态乘法器阵列704，用于通过L个时钟周期，完成N条向量长度为M的第一同态多项式和L条向量长度为M的第二同态多项式的逐项相乘运算，其中，N、M和L为正整数。

在一个实施方式中，同态乘法器阵列704具体可以在每个时钟周期，同态乘法器阵列中的N个同态向量处理单元完成N条向量长度为M的第一同态多项式和一条向量长度为M的第二同态多项式的逐项相乘运算。

在一个实施方式中，同态乘法器阵列704具体可以在每个时钟周期，将下个计算周期的一条向量长度为M的第一同态多项式传送至所述同态乘法器阵列进行暂存，其中，一个计算周期包括L个时钟周期。

本申请的实施例还提供能够实现上述实施例中的数据处理方法中全部步骤的一种电子设备的具体实施方式，所述电子设备具体包括如下内容：处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的数据处理方法中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤1：获取以向量为单位的第一同态多项式和以向量为单位的第二同态多项式，将所述第一同态多项式加载至第一存储单元，将第二同态多项式加载到第二存储单元；

步骤2：通过N个时钟周期，将N条向量长度为M的第一同态多项式传送至同态乘法器阵列；

步骤3：通过一个时钟周期，将一条向量长度为M的第二同态多项式传送至所述同态乘法器阵列；

步骤4：同态乘法器阵列通过L个时钟周期，完成N条向量长度为M的第一同态多项式和L条向量长度为M的第二同态多项式的逐项相乘运算，其中，N、M和L为正整数。

本申请的实施例还提供能够实现上述实施例中的数据处理方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的数据处理方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

从上述描述可知，本申请实施例通过同态乘法器阵列实现对以向量为单位的第一同态多项式和以向量为单位的第二同态多项式逐项进行相乘运算，从而得到同态密文向量乘法结果多项式，并输出。通过上述方案，可以解决单一向量运算电路所存在的软件编程比较复杂且数据重用性较低的问题，以及脉动阵列电路的端到端的时延较高，且控制逻辑较为复杂的问题，达到了简单高效实现向量运算的技术效果，有效提升了计算性能和计算效率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

Claims

1.一种同态乘法阵列电路，其特征在于，包括：

第三存储单元，与所述同态乘法器阵列和输出端口相连，用于接收所述同态密文向量乘法结果多项式，并通过输出端口输出同态密文向量乘法结果多项式；

所述同态乘法器阵列包括：并行运算的N个同态向量处理单元，在每个时钟周期，N个同态向量处理单元完成N条向量长度为M的第一同态多项式和一条向量长度为M的第二同态多项式的逐项相乘运算，其中，N和M为正整数；

每个同态向量处理单元包括：M个并行运算的计算路径单元，其中，每个计算路径单元包括：

第一多项式寄存器，用于存储当前计算周期参与计算的第一同态多项式向量中的元素项，其中，一个计算周期包括L个时钟周期；

2.根据权利要求1所述的同态乘法阵列电路，其特征在于，所述同态乘法器还包括：输出口，与第三存储单元相连，用于将同态密文向量乘法结果多项式输出至第三存储单元。

3.根据权利要求1所述的同态乘法阵列电路，其特征在于，所述第一多项式寄存器为流水寄存器，所述同态乘法器的第二输入端与第二存储单元的输出端之间连接有流水寄存器，以使得第一同态多项式向量中的元素项和第二同态多项式向量中的元素项仅在横向上流动。

4.根据权利要求1所述的同态乘法阵列电路，其特征在于，所述第一存储单元用于通过广播的方式，通过N个时钟周期将N条向量长度为M的第一同态多项式，发送至所述N个同态向量处理单元。

5.一种基于权利要求1至4中任一项所述的同态乘法阵列电路的数据处理方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述同态乘法器阵列通过L个时钟周期，完成N条向量长度为M的第一同态多项式和L条向量长度为M的第二同态多项式的逐项相乘运算，包括：

7.根据权利要求5所述的方法，其特征在于，所述同态乘法器阵列通过L个时钟周期，完成N条向量长度为M的第一同态多项式和L条向量长度为M的第二同态多项式的逐项相乘运算，包括：

8.一种计算机设备，包括：权利要求1至4中任一项所述的同态乘法阵列电路。