CN109660339B

CN109660339B - 连续变量量子密钥分发数据协调fpga异构加速方法

Info

Publication number: CN109660339B
Application number: CN201811380426.9A
Authority: CN
Inventors: 郭大波; 冯强; 穆健穆; 贺超
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2021-12-31
Anticipated expiration: 2038-11-20
Also published as: CN109660339A

Abstract

本发明公开了一种连续变量量子密钥分发数据协调FPGA异构加速方法，解决CV‑QKD系统中数据协调的SEC(slice error correction，样条错误纠正)协议的并行加速问题，SEC协议采用多级译码方式，各级分别进行LDPC译码，译码算法采用对数域译码。LDPC码的校验矩阵为随机稀疏矩阵，译码需要多次BP(Belief Propagation)信息迭代方能校正错码。应用于CV‑QKD系统数据协调中的LDPC码的校验矩阵规模大，规模达到20万´20万，使得存贮困难、译码速度非常缓慢，系统时延长，影响实用性。本方案采用基于OpenCL的CPU+FPGA异构计算的处理模式，对LDPC译码过程进行并行化处理，提出了一种静态十字双向循环链表存贮庞大LDPC码的校验矩阵的方案，从而提高了整个数据协调方案的速率。

Description

连续变量量子密钥分发数据协调FPGA异构加速方法

技术领域

本发明属于数据处理技术领域，具体涉及一种连续变量量子密钥分发数据协调FPGA异构加速方法。

背景技术

连续变量量子密钥分发(Continuous-variable Quantum Key Distribution，CV-QKD)是近年来量子保密通信系统新兴的研究方向之一。它是基于量子态的点对点保密通信技术，具有保密性强、光源的抗噪声能力比较强且稳定、可实现性强等特点。

CV-QKD系统的基本流程如图1所示，其中CV-QKD的步骤包括：

1)Alice发送端使用连续变量光场产生服从高斯分布的随机数x_A和p_A，通过量子通信信道发送到接收端Bob。

2)Bob接收端收到Alice端发送的包含量子态的消息序列后，随机抽取

对其进行平衡零拍探测。多次重复步骤1，2，收发双方得到一组相关的裸码数据。

3)公开部分裸码数据，通过这部分数据计算出信道参数(T,ε)、互信息量I_AB和窃听者能够窃听的最大密钥量χ_BE，通过以上信息计算得到安全密钥速率K＝βI_AB-χ_BE。将可能泄露的数据通过私密放大全部清除，从而得到安全密钥。

4)接下来，双方利用反向协调程序，使得双方能够从裸码中得到一组完全一致的数据。

5)通过私密放大过程将所有可能泄露的信息数据(包括Eve窃听的信息和反向协调过程中泄露的信息)全部清除，最后得到一组完全安全的最终密钥。

6)通信双方随机从最终得到的安全密钥中抽取一部分数据公开对比，以保证反向数据协调的成功。

步骤4)数据协调是CV-QKD系统中不可或缺的一部分，它的本质是利用信道编码对密钥信息进行误码纠错。方案将通信信道分为经典信道和量子通信信道，通信双方在量子通信信道中数据传输完成后，再通过数据协调协议来对通信收发双方之间不一致的序列进行纠错，最后形成一致的二进制序列。

目前，CV-QKD数据协调系统的技术瓶颈有：

一、码长较短时，由于高斯信道的最小纠错信噪比较高，在SEC数据协调是是7.5dB，致使数据协调的效率较低，从而使得CV-QKD系统的通信距离无法提升。

二、研究表明，为了延长CV-QKD系统的通信距离，数据协调的LDPC码长要达到200000以上，但这种超长码导致数据协调过程中的计算量大，译码速度低，译码时延长，降低了CV-QKD系统的实用性。

发明内容

本发明主为解决现有连续变量量子密钥分发数据协调速度慢，时延长的不足，提供了一种基于FPGA的异构加速方法，其中包括以下步骤：

在通信发送端构建静态十字双向循环链表，并用静态十字双向循环链表的数据结构来存贮超大稀疏校验矩阵H；

通信发送端使用连续变量光场产生服从高斯分布的随机数x_A和p_A，通过量子通信信道发送到接收端，通过零拍探测器探测后接收序列Y；

通信接收端对连续变量Y进行16电平的非均匀量化得到Y′；，然后将量化值Y′映射为4级二进制码字L1，L2，L3，L4，其中，L₁、L₂完全公开，不参与译码过程，L₃、L₄序列由优化方法构建的各自的校验矩阵H₃和H₄，通过公式S_j＝L_j×H_j计算出各自的校验子S₃、S₄，将L₁、L₂、S₃、S₄通过公开信道传输到发送端；

通信发送端根据x_A和p_A、校验子S₃、S₄以及L₁、L₂进行Slepain-Wolf式译码，最后得到译码结果

与

实现数据协调。

步骤1中，构建静态十字双向循环链表数据结构来存贮超大稀疏校验矩阵H还包括步骤：

在host主机程序中创建静态十字双向循环链表数据结构；

创建行头指针与列头指针数组，分别逐个指向各行及各列第一个非零元素的位置信息；

对创建的静态十字双向循环链表按照OpenCL编程规范进行规范化；

host端通过OpenCL语言定义的接口clEnqueueWriteBuffer()与clReadBuffer()与FPGA并行设备进行数据的交换，使得程序可以进行FPGA并行计算。

步骤4中的Slepain-Wolf式译码还包括如下子步骤：

初始化；令O_(i)表示y_i量化后的值Y_i经编码后形成的变量节点集，O_(i)的边信息O_(i,j)由变量x_i提供，设迭代的当前变量节点为ij，与之相邻的校验节点集为N_(ij)，设K为校验节点集N_(ij)中的一个校验节点，与之相邻的校验节点集为M_(k)；

式(1)中，a表示使

量化为1的区间符号，量化区间为[t_a,t_a-1],a′表示使

量化为0的区间符号，量化区间为[t_a',t_a'-1]；

取级间迭代次数为1，LDPC码BP算法的迭代次数为P_max＝100；对LDPC码采用BP算法进行迭代译码。

其中，对LDPC码采用BP算法进行迭代译码的步骤包括：

a、初始p和t为1，以p＝p+1迭代，校验节点K传递给消息变量节点ij的外信息为：

b、消息变量节点ij到校验节点K的外消息为：

c、跳转至步骤a，直到p＞P_max；

d、硬判决解码，对所有变量节点计算：

然后用以下公式进行判别：

同时满足：

e、

级间迭代，令j′＝4，引入同一时间所有级的硬信息：

令t＝t+1，若计算结果t>t_max，则迭代完成，退出程序，否则跳转到步骤a继续执行。

区别于现有技术，本发明的连续变量量子密钥分发数据协调FPGA异构加速方法解决CV-QKD系统中数据协调的SEC协议的并行加速问题，SEC协议采用多级译码方式，各级分别进行LDPC译码，译码算法采用对数域译码。LDPC码的校验矩阵为随机稀疏矩阵，矩阵规模大，规模达到20万×20万，需要多次BP迭代译码方能校正错码，使得译码速度非常缓慢，系统时延长，影响实用性。本方案采用基于OpenCL的CPU+FPGA异构计算的处理模式，对LDPC译码过程进行并行化处理，从而提高整个数据协调方案的速率。

附图说明

图1是现有技术中CV-QKD系统的基本流程示意图。

图2是本发明提供的一种连续变量量子密钥分发数据协调FPGA异构加速方法的逻辑示意图。

图3是本发明提供的一种为连续变量量子密钥分发数据协调存储H矩阵的一般十字双向循环链表数据结构图。

图4是本发明提供的一种为连续变量量子密钥分发数据协调FPGA异构加速的静态十字双向循环链表数据结构图。

图5是本发明提供的SEC协议中连续变量16电平非均匀量化和分层函数S_1…4(y)

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

参阅图2，图2是本发明提供的一种连续变量量子密钥分发数据协调FPGA异构加速方法的逻辑示意图，该方法的步骤包括：

与

实现数据协调。

优选的，构建静态十字双向循环链表，并用静态十字双向循环链表的数据结构来存贮超大稀疏校验矩阵H的步骤中，还包括步骤：

在host主机程序中创建静态十字双向循环链表数据结构；存储H矩阵的静态十字双向循环链表数据结构图如图3所示。

host端通过OpenCL语言定义的接口clEnqueueWriteBuffer()与clReadBuffer()与FPGA并行设备进行数据的交换，使得程序可以进行FPGA并行计算。针对OpenCL优化后H矩阵的数据结构中的内部成员变量关系如图4所示。

优选的，译码的步骤包括：

式(1)中，a表示使

量化为1的区间符号，量化区间为[t_a,t_a-1],a′表示使

量化为0的区间符号，量化区间为[t_a',t_a'-1]；

优选的，对LDPC码采用BP算法进行迭代译码的步骤包括：

a、初始p为1以p＝p+1迭代，校验节点K传递给消息变量节点ij的外信息为：

b、消息变量节点ij到校验节点K的外消息为：

c、跳转至步骤a，直到p＞P_max；

d、硬判决解码，对所有变量节点计算：

然后用以下公式进行判别：

同时满足：

e、

级间迭代，令j′＝4，引入同一时间所有级的硬信息：

令p＝0,t＝t+1，若计算结果t>t_max，则迭代完成，退出程序，否则跳转到步骤a继续执行。

异构加速是指用开放计算语言OpenCL(Open Computing Language)架构，通过并行计算方式在GPU、DSP、FPGA以及多核CPU等多种异构加速处理器上高速处理数据，本发明硬件采用高性能FPGA加速板。FPGA可以以超低的功耗实现高性能，可针对特定的电路进行硬件设计，它通常有几百到几百万个逻辑单元，每个逻辑单元实现一个逻辑功能。AOCL(Altera SKD for OpenCL)的出现使得在FPGA实现OpenCL架构更加方便快捷。本发明直接应用领域为连续变量量子密钥分发数据协调，目标为加速处理高达20万个光脉冲的信息纠错，以下称之为数据协调。大规模的FPGA异构加速方案主要有两个技术瓶颈:方案中Slepian-Wolf(SW)译码算法的计算量大，迭代次数多，导致译码速度有限；存储大规模稀疏校验矩阵的静态十字双向循环链表数据结构不符合OpenCL编程架构的规范，导致方案无法使用AOCL进行FPGA异构编程。本发明提供了连续变量量子密钥分发数据协调的FPGA异构加速计算方案，将SW译码算法部分进行并行化，提高数据协调的计算速度达6倍以上。

本发明解决CV-QKD系统中数据协调的SEC协议的并行加速问题，SEC协议采用多级译码方式，各级分别进行LDPC译码，译码算法采用对数域译码。LDPC码的校验矩阵为随机稀疏矩阵，矩阵规模大，规模达到20万，需要多次BP迭代译码方能校正错码，使得译码速度非常缓慢，系统时延长，影响实用性。本方案采用基于OpenCL的CPU+FPGA异构计算的处理模式，对LDPC译码过程进行并行化处理，从而提高整个数据协调方案的速率。

如果采用普通顺序存贮方式存放规模达到20万的校验矩阵H，将需要160T左右的内存，一般的计算机是无法胜任的。考虑到校验矩阵H的稀疏性，可以采用三元组表法和动态十字链表法存贮之。三元组表法适合在矩阵H中的非零元位置和个数固定不变的情况使用；动态十字循环链表适合稀疏矩阵中非零元的位置或个数经常变动时使用，校验矩阵H属于第二种情况。但是动态十字循环链表在内存中存储地址是不连续的，不符合OpenCL编程规范。本发明提出用静态十字双向循环链表数据结构来存储超大校验矩阵H，对该链表结构进行较大改进，使之在保持只存储非零元素的同时符合OpenCL编程规范，可以应用在CPU+FPGA并行计算中。

如图4，本发明使用静态十字双向循环链表的数据结构来存贮超大稀疏校验矩阵H，并对该数据结构进行改进，使之适用于OpenCL编程规范。，它反映了符合OpenCL规范的H矩阵数据结构、以及内部成员变量之间的关系

1)在host主机程序中创建静态十字双向循环链表数据结构：申请大小为矩阵非零元个数的定长数组，数组中每一个元素为如下结构体变量：结构体成员变量包括非零元素节点的对数似然比值、相邻结点的位置信息以及该节点的位置信息。其中up变量指向该非零元素所在列中的上一个非零元素的行位置索引信息；down变量指向该非零元素所在列中的下一个非零元素的行位置索引信息；left变量表示该非零元素所在行中的左边非零元素的列位置索引信息；right变量表示该非零元素所在行中的右边非零元素的列位置索引信息，并且上下首尾之间、左右首尾之间构成循环，其结构如图3及图4所示；

2)创建行头指针与列头指针数组，分别逐个指向各行及各列第一个非零元素的位置信息；

3)OpenCL编程规范规定了，在内核与宿主机之间进行数据交换时，内核参数不能有二级或者多级指针，为了解决该规范与原存储结构之间的冲突，本方案设计了如图5所示的数据结构，该结构将原结构体中指针变量通过定长数组的形式来代替，并将原结构体中各指针变量之间的地址间联系与变量值间联系用代码来具体化，数据结构从二元的十字双向循环形式变换为一元的定长数组形式，但是通过辅助数组的作用，该结构又能实现与原数据结构相同的功能，通过这种方式由上可知，图4中的数据结构是对原结构体进行去指针操作而得到的，使之适用于因而符合OpenCL编程规范，从而可以进行FPGA异构计算。

4)host端通过OpenCL语言定义的接口clEnqueueWriteBuffer()与clReadBuffer()与FPGA并行设备进行数据的交换，使得程序可以进行FPGA并行计算。

译码方案中，各级码流的解码结果之间互相有引导作用。在本发明中我们在使用外信息的基础上也使用了这种级间流动的信息，即在L₄的级间迭代的同时把L₃硬判决结果代入进来，因为使用的是L₃的硬判决结果，所以也称之为硬信息间迭代。Alice端通过MSD方案结合边信息X对校验子S₃、S₄进行译码，最后得到

与

实现数据协调的全过程。令O_(i)表示y_i量化后的值Y_i经编码后形成的变量节点集。边信息O_(i,j)由变量x_i提供，设迭代的当前变量节点为ij，与之相邻的校验节点集为N_(ij)，设K为校验节点集N_(ij)中的一个校验节点，与之相邻的校验节点集为M_(k)。

整个协调过程的重点与耗时的步骤是SW算法部分。算法需要大量的迭代计算，限制了整个协调方案的译码速度，因此此部分在FPGA开发板上并行执行。

对GF(2)域上的(n,k)线性分组码，在译码的迭代计算过程中，信息在变量节点和校验节点之间传递，因此SW算法在并行计算中设计包含了初始化信息内核、处理校验节点消息的内核、处理变量节点消息的内核等三个内核函数。在内核在局部内存中工作时其运算速度会比在全局内存中快很多，因而在每个内核工作的时候，将内核各参数的数据从全局内存拷贝到局部内存，内核工作结束后再将数据拷贝回全局内存交予宿主机端进行下一步的工作。每个内核数据拷贝之后的工作都会与本地内存有一些交叉，所以三个内核用全局内存同步来分割。初始化内核与变量节点消息处理内核的作用主要是对校验矩阵的列进行处理。选择为这两个内核分配N个工作项，并为每个工作组分配1024个工作项(N即LDPC码码长)，而为校验节点消息处理内核共分配M个工作项，同时也为每个工作组分配1024个工作项，经实验证明这样设置工作项与工作组可以最大限度利用好FPGA的并行资源。

具体的，在信噪比4.9dB、码长为2×105的条件下实现可靠协调，协调效率可达91.71％，在FPGA开发板为DE5-Net、Inter(R)Xeon(R)CPU、内存为32GB的硬件平台上仿真的译码速率可达42.41kbit/s，相对于传统CPU平台实现，译码速度提高了接近6倍。执行译码速度的对比如表1所示。

表1在FPGA和CPU执行译码速度的对比

区别于现有技术，本发明的连续变量量子密钥分发数据协调FPGA异构加速方法解决CV-QKD系统中数据协调的SEC协议的并行加速问题，SEC协议采用多级译码方式，各级分别进行LDPC译码，译码算法采用对数域译码。LDPC码的校验矩阵为随机稀疏矩阵，矩阵规模大，规模达到20万，需要多次BP迭代译码方能校正错码，使得译码速度非常缓慢，系统时延长，影响实用性。本方案采用基于OpenCL的CPU+FPGA异构计算的处理模式，对LDPC译码过程进行并行化处理，从而提高整个数据协调方案的速率。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种连续变量量子密钥分发数据协调FPGA异构加速方法，其特征在于，包括以下步骤：

其中，在host主机程序中创建静态十字双向循环链表数据结构：申请大小为矩阵非零元个数的定长数组，数组中每一个元素为如下结构体变量：结构体成员变量包括非零元素节点的对数似然比值、相邻结点的位置信息以及该节点的位置信息；其中up变量指向该非零元素所在列中的上一个非零元素的行位置索引信息；down变量指向该非零元素所在列中的下一个非零元素的行位置索引信息；left变量表示该非零元素所在行中的左边非零元素的列位置索引信息；right变量表示该非零元素所在行中的右边非零元素的列位置索引信息，并且上下首尾之间、左右首尾之间构成循环；

在内核与宿主机之间进行数据交换时，内核参数不能有二级或者多级指针，将指针变量通过定长数组的形式来代替，并各指针变量之间的地址间联系与变量值间联系用代码来具体化，数据结构从二元的十字双向循环形式变换为一元的定长数组形式；

host端通过OpenCL语言定义的接口clEnqueueWriteBuffer()与clReadBuffer()与FPGA并行设备进行数据的交换，使得程序可以进行FPGA并行计算；

Alice端通过MSD方案结合边信息X对校验子S₃、S₄进行译码，最后得到

与

实现数据协调的全过程；令O_(i)表示y_i量化后的值Y_i经编码后形成的变量节点集；边信息O_(i,j)由变量x_i提供，设迭代的当前变量节点为ij，与之相邻的校验节点集为N_(ij)，设K为校验节点集N_(ij)中的一个校验节点，与之相邻的校验节点集为M_(k)；

对GF(2)域上的(n,k)线性分组码，在译码的迭代计算过程中，信息在变量节点和校验节点之间传递，SW算法在并行计算中设计包含了初始化信息内核、处理校验节点消息的内核、处理变量节点消息的内核等三个内核函数；将内核各参数的数据从全局内存拷贝到局部内存，内核工作结束后再将数据拷贝回全局内存交予宿主机端进行下一步的工作；三个内核用全局内存同步来分割；初始化内核与变量节点消息处理内核的作用是对校验矩阵的列进行处理；选择为两个内核分配N个工作项，并为每个工作组分配1024个工作项，其中N即LDPC码码长，而为校验节点消息处理内核共分配M个工作项，同时也为每个工作组分配1024个工作项，经实验证明这样设置工作项与工作组可以最大限度利用好FPGA的并行资源；

通信发送端发送量子相干态光脉冲X，通过量子通信信道发送到接收端，通过零拍探测器探测后接收序列Y；

通信接收端对连续变量Y进行16电平的非均匀量化得到Y′，然后将量化值Y′映射为4级二进制码字L₁，L₂，L₃，L₄，其中，L₁、L₂完全公开，不参与译码过程，L₃、L₄序列由优化方法构建的各自的校验矩阵H₃和H₄，通过公式S_j＝L_j×H_j计算出各自的校验子S₃、S₄，将L₁、L₂、S₃、S₄通过公开信道传输到发送端；