CN113253972A - 一种lac中稀疏多项式乘法加速器的fpga实现方法 - Google Patents

一种lac中稀疏多项式乘法加速器的fpga实现方法 Download PDF

Info

Publication number
CN113253972A
CN113253972A CN202110520678.2A CN202110520678A CN113253972A CN 113253972 A CN113253972 A CN 113253972A CN 202110520678 A CN202110520678 A CN 202110520678A CN 113253972 A CN113253972 A CN 113253972A
Authority
CN
China
Prior art keywords
accelerator
lac
layer
design
parallelism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110520678.2A
Other languages
English (en)
Inventor
刘哲
张吉鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110520678.2A priority Critical patent/CN113253972A/zh
Publication of CN113253972A publication Critical patent/CN113253972A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/523Multiplying only
    • G06F7/53Multiplying only in parallel-parallel fashion, i.e. both operands being entered in parallel

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Advance Control (AREA)

Abstract

本发明公开了一种LAC中稀疏多项式乘法加速器的FPGA实现方法,自底向上包括4个层次:并行设计层、模约简层、流水线设计层以及可伸缩架构设计层,并行设计层采用内外层循环双并行的技术以实现更高效的并行设计架构;模约简层基于格基密码LAC方案模数251的数学特征,设计了新的硬件友好型模约简算法;流水线设计层对流水线进行更细致的划分以提高加速器运行频率;可伸缩架构设计层采用参数p来控制加速器的并行度以实现可伸缩的加速器架构设计,p越大所使用的硬件资源越多、并行度越高,同理p越小所使用的硬件资源越少、并行度越低。本发明的一种LAC中稀疏多项式乘法加速器的FPGA实现方法并行度更高、工作频率更高、不同场景中的适用性更强。

Description

一种LAC中稀疏多项式乘法加速器的FPGA实现方法
技术领域
本发明涉及一种格基密码(LAC)方案中的稀疏多项式乘法加速器的FPGA实现,属于计算机领域中的网络空间安全领域。
背景技术
后量子密码是一种既能抵抗经典计算机攻击又能抵抗量子计算机攻击的密码。目前,后量子密码分为基于格的密码、基于编码的密码和基于多变量的密码。在各种后量子密码中,基于格的密码以其抗量子性、通用性和高效性是最有希望取代传统公钥密码的一类密码。LAC是国人自主设计的一种后量子密码方案,其基于“环上容错学习问题”构建,且入围了NIST后量子密码标准的第二轮评估,得益于其较小的模数,LAC方案具有不错的性能。
在LAC方案中,计算量最大的程序是多项式乘法。LAC中的秘密多项式的系数服从中心二项分布,且其取值范围为{-1,0,1}。值得注意的是,在LAC中,半数以上的秘密多项式系数的值为0。因此,当与该多项式相乘时,如果系数为0,则此次运算可以被忽略,这就是稀疏多项式乘法(SPM)的核心思想。SPM的复杂度取决于非零系数的数量,SPM可以使LAC中的乘法指令数量减半。除此之外,LAC中的秘密多项式非零系数为-1或1,一个数乘以1得到它自己,一个数乘以-1得到它的相反数。因此,可以用简单的加法和减法指令实现LAC中的多项式乘法,从而消除了昂贵的乘法指令。
FPGA即现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编辑器件门电路数有限的缺点。FPGA在密码工程领域被广泛用于设计密码加速器。本发明专利旨在利用FPGA的高并行性,针对国人自主设计的LAC方案,设计一种LAC中稀疏多项式乘法加速器的FPGA实现架构,使得LAC方案的稀疏多项式乘法可以在FPGA平台上得到性能优化,进而为我国后量子密码算法LAC和其它格密码算法体制的多项式乘法提供高效且可伸缩的实现。
发明内容
发明目的:本发明为了解决LAC方案运行效率低的问题,提出一种LAC中稀疏多项式乘法加速器的FPGA实现方法,稀疏多项式乘法为LAC方案中最耗时的模块,本发明在FPGA平台上设计稀疏多项式乘法加速器,可大幅度提升LAC方案的运行效率。
技术方案:一种LAC中稀疏多项式乘法加速器的FPGA实现方法,自底向上包括4个层次:并行设计层、模约简层、流水线设计层以及可伸缩架构设计层,并行设计层采用内外层循环双并行的技术以实现更高效的并行设计架构;模约简层基于格基密码LAC方案模数251的数学特征,设计了新的硬件友好型模约简算法;流水线设计层对流水线进行更细致的划分,将复杂的运算拆分成多个简单的运算,提高了加速器的运行频率;可伸缩架构设计层采用参数p来控制加速器的并行度以实现可伸缩的加速器架构设计,p越大所使用的硬件资源越多、并行度越高,同理p越小所使用的硬件资源越少、并行度越低。
进一步地,在并行设计层,采用内外层循环双并行的技术,利用FPGA中分布式内存(DistributedRAM)和块内存(BlockRAM)具有不同带宽的特点,FPGA中分布式内存作为外层,宽度可灵活调整,每次能从分布式内存中得到若干个多项式系数,即位置(position)系数,位置系数的个数与参数p相同,实现了外层循环的p路并行;块内存作为内层,宽度只能是8比特或16比特,每次能从块内存中得到2个8比特的多项式系数,实现了内层循环的2路并行。
进一步地,在模约简层,在模251体系下,28与28-251等价,28=28-251=256-251=5=22+1(mod251),设计了新的硬件友好型模约简算法;在LAC的多项式乘法运算中,每2个多项式系数相加后都进行模约简是可行的,但是效率较低,因此4个、8个、16个或更多个多项式系数相加后再进行约简,可以有效减少模约简的次数,并提高运行效率,以4个多项式系数相加即4个8比特数据相加为例,其结果需要使用10比特来容纳,记为c[9:0],利用上述数学特征进行化简:c[9:0]=28c[9:8]+c[7:0]=(22+1)c[9:8]+c[7:0](mod251),上述结果的前半部分(22+1)c[9:8]可使用8比特数据来容纳,后半部分c[7:0]也可使用8比特数据来容纳,两者相加只需使用9比特来容纳,最后判断如果该结果大于等于q,则减去q;FPGA平台上的乘法运算需要使用额外的数字信号处理(DSP)单元来实现,DSP单元的引入会增加整体设计的资源消耗,而本专利提出的模约简算法无需使用乘法指令,可以更加高效的完成模约简运算。
进一步地,在流水线设计层,对流水线设计进行划分,流水线划分的越细致,加速器的工作频率也会越高,以两个多项式系数即两个8比特的值相加并约简为例,该过程可以在一个周期内完成,但会产生较长的关键路径,但会使设计较为复杂;对其进行更细粒度的划分,在第一个周期计算加法,并将加法结果进行缓存,第二个周期对加法结果做约简,从而简化了设计,提高了加速器工作频率;
进一步地,可伸缩的加速器架构设计,即灵活地利用参数p来调整该加速器的并行度,参数p的可选值为2,4,8,16,参数p越大,加速器的并行度越大,性能越好,同时消耗的计算资源越多,适合于高性能计算场景;反之,参数p越小,加速器所使用的硬件资源越少,同时性能较差,适合于资源受限场景,根据不同应用场景下的需求调整参数p,可将该加速器部署到各种应用场景中。
有益效果:本发明的一种LAC中稀疏多项式乘法加速器的FPGA实现方法,并行度更高、工作频率更高、不同场景中的适用性更强,具体地,内外层循环双并行技术以少量的资源消耗换取了2倍的并行度提升,使得LAC的稀疏多项式乘法的计算时间减半;新的硬件友好型模约简算法以及流水线设计的更细致划分提高了加速器的工作频率;通过调整参数p,可调整加速器的并行度,并为加速器带来了可伸缩的特性,可以使该加速器应用到各种场景中,以满足不同场景对性能与资源占用的不同需求。
附图说明
图1是稀疏多项式乘法加速器硬件架构;
图2(a)是ram_pos内存布局图,图2(b)是ram_res的内存布局图;
图3是ram_poly的内存布局图;
图4是新的硬件友好型模约简架构图。
具体实施方式
下面结合附图对本发明的稀疏多项式乘法加速器的工作流程做进一步详细说明。
一种LAC中稀疏多项式乘法加速器的FPGA实现方法,自底向上包括4个层次:并行设计层、模约简层、流水线设计层以及可伸缩架构设计层,并行设计层采用内外层循环双并行的技术以实现更高效的并行设计架构;模约简层基于格基密码LAC方案模数251的数学特征,设计了新的硬件友好型模约简算法;流水线设计层对流水线进行更细致的划分,将复杂的运算拆分成多个简单的运算,提高了加速器的运行频率;可伸缩架构设计层采用参数p来控制加速器的并行度以实现可伸缩的加速器架构设计,p越大所使用的硬件资源越多、并行度越高,同理p越小所使用的硬件资源越少、并行度越低。
在并行设计层,采用内外层循环双并行的技术,利用FPGA中分布式内存和块内存具有不同带宽的特点,FPGA中分布式内存作为外层,宽度可灵活调整,每次能从分布式内存中得到若干个位置(position)系数,位置系数的个数与参数p相同,实现了外层循环的p路并行;块内存作为内层,宽度只能是8比特或16比特,每次能从块内存中得到2个多项式系数,实现了内层循环的2路并行。
在模约简层,在模251体系下,28与28-251等价,28=28-251=256-251=5=22+1(mod251),设计了新的硬件友好型模约简算法;在LAC的多项式乘法运算中,采用多个多项式系数相加后再进行约简以减少模约简的次数,并提高运行效率,以4个多项式系数相加即4个8比特数据相加为例,其结果需要使用10比特来容纳,记为c[9:0],利用上述数学特征进行化简:c[9:0]=28c[9:8]+c[7:0]=(22+1)c[9:8]+c[7:0](mod251),上述结果的前半部分(22+1)c[9:8]可使用8比特数据来容纳,后半部分c[7:0]也可使用8比特数据来容纳,两者相加只需使用9比特来容纳,最后判断如果该结果大于等于q,则减去q;模约简算法无需使用乘法指令,可以更加高效的完成模约简运算。
在流水线设计层,对流水线设计进行划分,以两个多项式系数即两个8比特的值相加并约简为例,在第一个周期计算加法,并将加法结果进行缓存,第二个周期对加法结果做约简,从而简化了设计,提高了加速器工作频率;
可伸缩的加速器架构设计层,即灵活地利用参数p来调整该加速器的并行度,参数p的可选值为2,4,8,16,参数p越大,加速器的并行度越大,性能越好;反之,参数p越小,加速器所使用的硬件资源越少,根据不同应用场景下的需求调整参数p,可将该加速器部署到各种应用场景中
Algorithm 4为LAC中的稀疏多项式乘法(spare polynomial multiplication缩写为spm),该算法的输入包含一个密集多项式(dense polynomial)
Figure BDA0003063831500000041
一个稀疏多项式(sparse polynomial)
Figure BDA0003063831500000042
其系数的值为-1,0,1,还包含一个位置多项式(positionpolynomial)
Figure BDA0003063831500000043
其前h/2个系数用来表示稀疏多项式中值为1的系数索引,后h/2个系数用来表示稀疏多项式中值为-1的系数索引,h表示稀疏多项式中不为0的系数个数。上述多项式均包含n个系数,在LAC中n取512或1024。该算法的输出为上述密集多项式
Figure BDA0003063831500000044
和稀疏多项式
Figure BDA0003063831500000045
相乘的结果。算法的第1行对结果多项式
Figure BDA0003063831500000046
进行初始化,将其所有系数置为0。算法的第2行控制外层循环,循环次数为h,i为外层循环控制变量。算法的第3行从位置多项式中取第i个系数保存至pos中。算法的第4行控制内层循环,循环次数为n,j为内层循环控制变量。算法的第5行用于判断pos所指示的稀疏多项式系数是否为1,判断条件成立意味着系数为1,算法的第6行计算加法;算法的第7行表示判断条件不成立,即系数为-1,算法的第8行计算减法。算法的第9、10、11行分别表示判断语句结束、内存循环结束、外层循环结束。算法的第12行返回结果多项式
Figure BDA0003063831500000051
Figure BDA0003063831500000052
加速器的工作流程如下:
步骤1)加速器开始工作,图1中的控制器单元计算ram_pos的读地址,并向ram_pos发出读请求。
步骤2)ram_pos的输出被送到地址计算单元,如图2(a)所示,ram_pos的输出包含p个位置系数,地址计算单元利用p个位置系数计算ram_poly的读地址,如图2(b)所示,ram_res的输出包含2个结果系数,以这种每次输出两个结果系数的方式,可以充分利用块内存的带宽优势。
步骤3)地址计算单元的输出包含p个ram_poly的读地址,然后并行发出p个对ram_poly的读请求,如图3所示,共有p/2个ram_poly,每个均有两个端口,因此可并行处理p个读请求。
步骤4)ram_poly的结果被送到累加和约简单元,其对ram_poly的p个输出进行累加和约简,约简算法架构如图4所示,最后将约简后的结果发送至ram_res。
步骤5)控制器单元更新ram_poly的读地址,然后返回到步骤3),步骤3)到步骤5)相当于算法的内层循环,该循环一直重复直到ram_res的所有内存内容都被更新。
步骤6)内循环执行完毕后,控制器单元更新ram_pos的读地址,然后返回到步骤1),步骤1)到步骤6)相当于算法的外循环。
图4展示了本专利提出的新的硬件友好型模约简算法架构图,其中的addition,subtraction,comparison和multiplexer分别表示加法,减法,比较和选择操作。以16个8比特多项式系数相加为例,16个8比特系数相加得到了12bit结果,记为c[11∶0]。如图4所示,c[11:0]被拆分成了两部分,分别是低8位c[7:0]和高4位c[11:8],表示为c[11:0]=28c[11:8]+c[7:0],由28=28-251=256-251=5=22+1可得c[11:0]=(22+1)c[11:8]+c[7:0]=22c[11:8]+c[11:8]+c[7:0]={c[11:8],0,0}+c[11:8]+c[7:0],其中{c[11:8],0,0}表示在c[11:8]低位插入两个0比特,其与22c[11:8]等价。上述过程在stage1阶段完成,并得到9比特的输出c′[8:0]。图4中的stage2用于判断c′[8:0]是否大于等于q,如果大于等于q,则将c′[8:0]减q。其中的comparison单元用于比较c′[8:0]和q的关系,multiplexer单元用于选择值,如果c′[8:0]大于等于q则选择减法结果c′[8:0]-q,否则选择原值c′[8:0]。以这样的方式,加法约简运算被拆分为两个简单的步骤执行,该设计更为简单,且具有更高的运行频率。
综上,可得到表1所示的性能分析及资源占用信息,表中的第二行到第五行是本发明得到的结果,后四行是之前相关工作的结果,其中第二列表示参数p的选择,第三列是测试所使用的设备名称,第四列是查找表(LUTs)、寄存器(FFs)和块内存(BRAM18)资源的使用情况,第五列是加速器的运行频率,第六列是执行完整算法的时钟周期数。以第二行和第六行为例,在相同参数、相同设备下,使用本专利得到的结果虽然资源使用略微增加,但是时钟频率从196MHz提升到了263MHz,时钟周期数从66432周期降低到了34048周期,运行效率得到了大幅度提升。
表1本发明稀疏多项式乘法加速器性能及对比
Figure BDA0003063831500000061
Figure BDA0003063831500000071
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种LAC中稀疏多项式乘法加速器的FPGA实现方法,其特征在于,自底向上包括4个层次:并行设计层、模约简层、流水线设计层以及可伸缩架构设计层,并行设计层采用内外层循环双并行的技术以实现更高效的并行设计架构;模约简层基于格基密码LAC方案模数251的数学特征,设计了新的硬件友好型模约简算法;流水线设计层对流水线进行更细致的划分,将复杂的运算拆分成多个简单的运算,提高了加速器的运行频率;可伸缩架构设计层采用参数p来控制加速器的并行度以实现可伸缩的加速器架构设计,p越大所使用的硬件资源越多、并行度越高,同理p越小所使用的硬件资源越少、并行度越低。
2.根据权利要求1所述的一种LAC中稀疏多项式乘法加速器的FPGA实现方法,其特征在于,在并行设计层,采用内外层循环双并行的技术,利用FPGA中分布式内存和块内存具有不同带宽的特点,FPGA中分布式内存作为外层,宽度可灵活调整,每次能从分布式内存中得到若干个位置(position)系数,位置系数的个数与参数p相同,实现了外层循环的p路并行;块内存作为内层,宽度只能是8比特或16比特,每次能从块内存中得到2个多项式系数,实现了内层循环的2路并行。
3.根据权利要求1所述的一种LAC中稀疏多项式乘法加速器的FPGA实现方法,其特征在于,在模约简层,在模251体系下,28与28-251等价,28=28-251=256-251=5=22+1(mod251),设计了新的硬件友好型模约简算法;在LAC的多项式乘法运算中,采用多个多项式系数相加后再进行约简以减少模约简的次数,并提高运行效率,以4个多项式系数相加即4个8比特数据相加为例,其结果需要使用10比特来容纳,记为c[9:0],利用上述数学特征进行化简:c[9:0]=28c[9:8]+c[7:0]=(22+1)c[9:8]+c[7:0](mod251),上述结果的前半部分(22+1)c[9:8]可使用8比特数据来容纳,后半部分c[7:0]也可使用8比特数据来容纳,两者相加只需使用9比特来容纳,最后判断如果该结果大于等于q,则减去q;模约简算法无需使用乘法指令,可以更加高效的完成模约简运算。
4.根据权利要求1所述的一种LAC中稀疏多项式乘法加速器的FPGA实现方法,其特征在于,在流水线设计层,对流水线设计进行划分,以两个多项式系数即两个8比特的值相加并约简为例,在第一个周期计算加法,并将加法结果进行缓存,第二个周期对加法结果做约简,从而简化了设计,提高了加速器工作频率。
5.根据权利要求1所述的一种LAC中稀疏多项式乘法加速器的FPGA实现方法,其特征在于,可伸缩的加速器架构设计层,即灵活地利用参数p来调整该加速器的并行度,参数p的可选值为2,4,8,16,参数p越大,加速器的并行度越大,性能越好;反之,参数p越小,加速器所使用的硬件资源越少,根据不同应用场景下的需求调整参数p,可将该加速器部署到各种应用场景中。
CN202110520678.2A 2021-05-13 2021-05-13 一种lac中稀疏多项式乘法加速器的fpga实现方法 Pending CN113253972A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110520678.2A CN113253972A (zh) 2021-05-13 2021-05-13 一种lac中稀疏多项式乘法加速器的fpga实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110520678.2A CN113253972A (zh) 2021-05-13 2021-05-13 一种lac中稀疏多项式乘法加速器的fpga实现方法

Publications (1)

Publication Number Publication Date
CN113253972A true CN113253972A (zh) 2021-08-13

Family

ID=77181737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110520678.2A Pending CN113253972A (zh) 2021-05-13 2021-05-13 一种lac中稀疏多项式乘法加速器的fpga实现方法

Country Status (1)

Country Link
CN (1) CN113253972A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581676A (zh) * 2022-03-01 2022-06-03 北京百度网讯科技有限公司 特征图像的处理方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110016167A1 (en) * 2005-05-12 2011-01-20 Atmel Rousset S.A.S. Randomized modular polynomial reduction method and hardware therefor
CN108763159A (zh) * 2018-05-22 2018-11-06 中国科学技术大学苏州研究院 一种基于fpga的lstm前向运算加速器
CN109388955A (zh) * 2017-08-07 2019-02-26 英飞凌科技股份有限公司 用于实施加密运算的方法和设备及存储介质
CN112819168A (zh) * 2021-01-07 2021-05-18 南京航空航天大学 一种格密码加解密中的环多项式乘法器电路

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110016167A1 (en) * 2005-05-12 2011-01-20 Atmel Rousset S.A.S. Randomized modular polynomial reduction method and hardware therefor
CN109388955A (zh) * 2017-08-07 2019-02-26 英飞凌科技股份有限公司 用于实施加密运算的方法和设备及存储介质
CN108763159A (zh) * 2018-05-22 2018-11-06 中国科学技术大学苏州研究院 一种基于fpga的lstm前向运算加速器
CN112819168A (zh) * 2021-01-07 2021-05-18 南京航空航天大学 一种格密码加解密中的环多项式乘法器电路

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIPENG ZHANG等: "An Efficient and Scalable Sparse Polynomial Multiplication Accelerator for LAC on FPGA", 《2020 IEEE 26TH INTERNATIONAL CONFERENCE ON PARALLEL AND DISTRIBUTED SYSTEMS》, 25 February 2021 (2021-02-25), pages 390 - 398 *
秦帆;戴紫彬;: "可伸缩双域Montgomery乘法器的优化设计与实现", 电子技术应用, no. 06, 6 June 2009 (2009-06-06) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581676A (zh) * 2022-03-01 2022-06-03 北京百度网讯科技有限公司 特征图像的处理方法、装置和存储介质
CN114581676B (zh) * 2022-03-01 2023-09-26 北京百度网讯科技有限公司 特征图像的处理方法、装置和存储介质

Similar Documents

Publication Publication Date Title
Ketcheson et al. Spatially Partitioned Embedded Runge--Kutta Methods
Liu et al. A high-throughput subspace pursuit processor for ECG recovery in compressed sensing using square-root-free MGS QR decomposition
CN113253972A (zh) 一种lac中稀疏多项式乘法加速器的fpga实现方法
Raju et al. Parallel prefix adders—A comparative study for fastest response
Shenoy et al. Residue to binary conversion for RNS arithmetic using only modular look-up tables
Yang et al. Approximate adder with hybrid prediction and error compensation technique
CN106682258A (zh) 一种高层次综合工具中的多操作数加法优化方法及系统
CN112819168A (zh) 一种格密码加解密中的环多项式乘法器电路
Khurshid et al. High Efficiency Generalized Parallel Counters for Look‐Up Table Based FPGAs
Kumar et al. Complex multiplier: implementation using efficient algorithms for signal processing application
CN114594925A (zh) 适用于sm2加密运算的高效模乘电路及其运算方法
US8868634B2 (en) Method and apparatus for performing multiplication in a processor
CN110213037B (zh) 一种适合硬件环境的流密码加密方法及系统
Sideris et al. Image hashing based on sha-3 implemented on fpga
Jagadeeshkumar et al. A novel design of low power and high speed hybrid multiplier
Yang et al. Approximate computing based low power image processing architecture for intelligent satellites
Omran et al. A new truncation algorithm of low hardware cost multiplier
Ayhan et al. A power efficient system design methodology employing approximate arithmetic units
Penchalaiah et al. A facile approach to design truncated multiplier based on HSCG-SCG CSLA adder
KR101318992B1 (ko) 모듈로 n 연산방법 및 그 장치
Senthilkumar et al. Power Reduction in DCT Implementation using Comparative Input Method
Silviyasara et al. Efficient architecture reverse converter design using Han Carlson structure with carry look ahead adder
Yu et al. Run-time accuracy reconfigurable stochastic computing for dynamic reliability and power management: Work-in-progress
Yu et al. Run-Time Accuracy Reconfigurable Stochastic Computing for Dynamic Reliability and Power Management
JP2002091297A (ja) F関数内部にspn構造を用いた演算装置および演算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination