CN117275583B

CN117275583B - 基于量子技术的基因搜索blast加速方法及系统

Info

Publication number: CN117275583B
Application number: CN202311254777.6A
Authority: CN
Inventors: 章乐; 喻扬超; 李冰
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-04-16
Anticipated expiration: 2043-09-27
Also published as: CN117275583A

Abstract

本发明提供了一种基于量子技术的基因搜索BLAST加速方法及系统，该方法主要包含三个部分：第一个部分结合量子计算，降低了经典BLAST算法的时间复杂度，突破了其算力瓶颈；第二个部分提供了一种化简量子线路的方案，可以在较小的时间开销下化简基于量子技术的BLAST加速算法对应的量子线路，降低其空间复杂度；第三个部分为物理量子计算机提供了一种简易的量子线路映射方案。本方案有效提升了BLAST方法的运行效率，降低了对应的量子计算中量子线路的空间复杂度。

Description

基于量子技术的基因搜索BLAST加速方法及系统

技术领域

本发明涉及量子计算和生物信息领域，尤其涉及基于量子的序列比对方法、量子线路化简与量子线路映射，具体涉及一种基于量子技术的基因搜索BLAST加速方法及系统，用于加速经典BLAST算法并降低其对应量子线路在物理量子计算机的运行要求。

背景技术

干扰素是免疫学研究领域中的关键因子，其对于多个免疫学中研究领域的发展具有重要作用。如它可以调节增强人类的免疫反应；抑制病毒的复制和传播；抑制肿瘤细胞的增殖和增长。目前对于干扰素的研究一般都基于注释信息。对于已注释的物种，可以非常方便的获取其在染色体上的位置；而对于未注释的物种，其全基因组信息是数以百万计的ATCG字符组成的序列，这将为研究带来巨大的阻碍。为此，研究者需要使用已知干扰素序列去和全基因序列进行比对，来获得干扰素的具体信息。

序列比对是一种在生物信息学中常用的关键分析方法。通过序列比对，研究者可以获得未注释物种中干扰素的位置等信息。当前应用最广泛的序列比对算法之一是BLAST。其在NCBI等多个知名数据库中都有使用。不仅如此，BLAST对基因注释、疾病研究、进化生物学及新基因的发现都起到了关键作用。随着生物数据量的快速增长，BLAST成为确保数据整合、解析和应用的必备工具。

经典BLAST主要流程为三步，第一步根据查询序列query sequence生成固定长度的字段words；第二步通过words，在数据库中扫描索引，并得到位点hits；第三步以hits为中心向两端延伸从而寻找超过设定阈值的高分片段。BLAST算法中第一步和第三步的时间复杂度依赖于query sequence的长度L，为O(L)，第二步的时间复杂度依赖于目标序列subject sequence的长度N，为O(N)。由于query sequence的长度远小于subjectsequence，所以经典BLAST算法的主要时间开销来源于第二步。

目前，已经有许多针对BLAST的优化方法被提出，比如在第三步前进行剪枝，使用多核CPU或GPU进行并行运算。尽管这些方法较好地改善了经典BLAST的运行效率，但未从时间复杂度上改变经典BLAST算法的运行效率。近年来，量子计算的快速发展，为加速BLAST提供了一种新的可能。

因为受制于物理量子计算机(物理机)的硬件缺陷，量子算法中的门操作会引入误差，所以针对量子线路的简化和等效替代对减少物理机上的计算误差具有重要作用。ZX-calculus是一种通用量子电路的优化方法，但是，该方法的计算时间复杂度很高。

在现有的物理机中，量子比特之间的纠缠效果较弱，且这种纠缠效果会随着距离的增加而进一步减弱。这意味着量子门仅在相邻的两个量子比特之间产生作用。相隔较远的量子比特在执行操作前，需要先进行多个SWAP操作使其相邻。然而这会引入额外门操作，增加量子计算误差。需要使用量子线路映射算法来将量子线路映射至物理机。然而，目前多数物理机缺乏线路映射方法，映射量子线路需要手动映射，较为困难，无法有效减少SWAP操作。

有鉴于此，构建一种基于量子技术的基因搜索BLAST加速方法具有重要意义。

发明内容

本发明的目的在于针对传统方法无法改善经典BLAST算法的时间复杂度、通用线路化简方法化简基于量子计算的BLAST算法的量子线路的时间开销大以及如何方便的映射量子线路的问题，提供了基于量子技术的BLAST加速方案。本发明基于量子技术的量子基因序列比对方法QGSA(Quantum Gene Sequence Alignment)改进了经典BLAST算法的时间复杂度，基于真值表的量子线路化简方法OQCBTT(Optimization of Quantum Circuit Basedon Truth Table)降低了化简QGSA量子线路的时间开销，并基于神经布局的映射模型QCMM(Quantum Circuit Mapping Model)提供了一种简易的线路映射方法。

具体而言，本发明提供了以下技术方案：

一方面，本发明提供了一种基于量子技术的基因搜索BLAST加速方法，该方法包括：

S1、对目标序列和字段进行量子比特编码，并构建初始状态，所述初始状态包括索引串比特、目标串比特和模式串比特；目标序列形成目标串比特，字段形成模式串比特；进行循环位移操作，依据索引串比特将目标串比特转换为各状态的叠加；寻找正确的解状态，并对解状态进行振幅放大；

S2、基于S1循环位移操作中索引串比特状态与目标串比特状态的对应关系获得真值表并提取简化的真值表，根据简化的真值表获得目标串比特、模式串比特和索引串比特；遍历索引串(即遍历索引串比特状态)并更新计数表以完成量子线路的搭建，获得化简后量子线路；其中，每个目标比特维护一张计数表，所述目标比特指目标串比特中的一个比特；所述索引串指索引串比特状态对应二进制串，索引串可以指示出索引串比特的状态；

S3、训练QCMM模型，将简化后的量子线路映射到物理机上。

优选地，所述S1中，对目标序列和字段进行量子比特编码，在构建初始状态中，对于索引串比特用H门构建叠加态，对于目标串比特与模式串比特用X门构建量子状态。

优选地，构建初始状态结束后，量子比特状态公式为：

其中，t_i为目标串比特第i位，p_j为模式串比特第j位，T为目标串比特长度，P为模式串比特长度，k表示索引串比特对应的量子状态。

优选地，所述S1中，循环位移操作具体为：利用索引串比特的叠加态对目标串比特进行位移，索引串比特的状态指示位移的位数,并对应不同的目标串比特状态；位移操作结束后量子比特的状态为：

其中，t_i为目标串比特第i位，p_j为模式串比特第j位，T为目标串比特长度，P为模式串比特长度，k表示索引串比特对应的量子状态，表示索引串比特形成的均匀叠加态|s>，即各状态的叠加。

优选地，所述S1中，寻找正确的解状态的方式为：使用CNOT门实现XOR操作，以识别均匀叠加态|s>中正确的解状态|w>，运算结束后量子比特的状态为：

然后通过U_w为|s>中正确的解状态|w>添加负相位,U_w如下所示：

其中，p_i为模式串比特第i位，P为模式串比特长度。

优选地，对状态U_w|s>(即对均匀叠加态|s>施加U_w操作后的状态)运用U_s进行振幅放大，其中：

U_s＝2|s><s|-I(关于状态|s>的反射)到状态U_w|s>；

I表示单位门。

优选地，所述S2中还包括：

对每个目标比特，维护一张N×logN的计数表，其中N表示目标序列长度；

为计数表第i个索引串添加指针：若该索引串比特中1的数量为j，那么以计数表的第i行第j列为起点添加指针，指针指向计数表中同列位置，并且该位置对应索引串比特中为1的位置，必须包含第i个索引串比特中为1的位置。

优选地，所述S2还包括：根据简化的真值表获取索引表，索引表第一列为索引串比特的不同状态，第二列为不同状态的索引串比特对应的目标串比特的前P个量子比特对应状态，其中P表示模式串比特长度；

遍历索引串并更新计数表具体方式为：

遍历索引表；

index表示索引表第一列索引串比特的不同状态对应的十进制值。x表示目标串比特中的一个量子比特，称作目标比特。q_xi表示index＝i时,目标比特x在索引表中对应的状态，称作目标比特值。若索引表中索引index为0，且对应q_x0为1，则在目标比特x对应的量子线路上施加X门；如果index不为0，则计算该行索引在目标比特x的计数表中对应行所有列的和sum；如果sum/2＝0，则temp＝q_x0,否则，比较temp和目标比特值q_xindex,如果temp≠q_xindex,则根据索引串施加门；其中temp是一暂存数据的变量；

如果在index＝i时增加了一个门，则记录其对应索引串比特为1的位置end，并且以目标比特x的计数表第i+1行第end列为起点的指针所指向的记数表位置全部加1。

优选地，所述QCMM模型结构包括：输入层、共享层、Dropout层以及多个SLOT结构；

所述输入层连接所述共享层，所述共享层连接所述Dropout层，所述Dropout层连接多个SLOT结构；

单个SLOT结构包含dense1层，dense2层以及slot层；dense1层接收所述Dropout层的输出数据；dense1层连接dense2层，dense2层连接slot层；

每个SLOT结构产生一组结果，选取每个SLOT结构中概率最大的类别作为该SLOT结构的分类结果。

优选地，所述S3还包括，处理各个SLOT结构之间的冲突：

S3-1、记录SLOT结构数目num，每个SLOT结构输出的结果存放至sList列表中，sList＝[pList₀,…,pList_num-1]，其中pLis_t表示第i+1个SLOT结构输出的结果；flag＝[flag₀,…,flag_num-1]，其中flag_i＝1表示第i+1个SLOT结构对应的物理比特已确定，flag_i＝0表示第i+1个SLOT结构对应的物理比特不确定；y＝[y₀,…,y_num-1]，其中y_i表示第i+1个SLOT结构对应的物理比特，初始y的每个位置都设置为-1；初始oknum＝0，oknum的值表示已确定对应物理比特的SLOT结构数量；

S3-2、如果oknum＝num，则输出结果y，否则执行S3-3；

S3-3、初始化一个空列表ntemp；依次遍历sList列表，寻找其中每一个pList_i中最大的概率pmax_i；如果flag_i≠1，则将pmax_i加入ntemp列表中，否则将-1加入ntemp末尾；

S3-4、寻找ntemp中最大的值ntempMax，以及ntempMax在ntemp中的索引ntempIndex，置yvalue的值为ntempMax在pList_ntempIndex中的索引；

S3-5、如果yvalue不在输出结果y中，那么将y_ntempIndex的值置为yvalue，并将flag_ntempIndex置1，oknum的值加1；否则，将pList_ntempIndex[yvalue]的值置为-1。回到S3-2。

另一方面，本发明还提供了一种基于量子技术的基因搜索BLAST加速系统，该系统包括：

QGSA加速模块，用于对目标序列和字段进行量子比特编码，并构建初始状态，所述初始状态包括索引串比特、目标串比特和模式串比特；进行循环位移操作，依据索引串比特将目标串比特转换为各状态的叠加；寻找正确的解状态，并对解状态进行振幅放大；

量子线路化简模块，用于基于QGSA加速模块循环位移操作中索引串比特状态与目标串比特状态的对应关系获得真值表并提取简化的真值表，根据简化的真值表获得目标串比特、模式串比特和索引串比特；遍历索引串并更新计数表以完成量子线路的搭建，获得化简后量子线路；其中，每个目标比特维护一张计数表，所述目标比特指目标串比特中的一个比特；所述索引串指索引串比特状态对应二进制串；

映射模块，用于训练QCMM模型，将简化后的量子线路映射到物理机上。

再一方面，本发明还提供了一种电子装置，所述电子装置包含处理器及存储设备，所述处理器调用所述存储设备中存储的指令，以执行如上所述的基于量子技术的基因搜索BLAST加速方法。

与现有技术相比，本技术方案具有以下有益效果：

(1)本发明提出的QGSA算法，通过将BLAST第二步的时间复杂度从O(N)优化至(N表示目标序列的长度)，从而加快BLAST的运行效率。

(2)本发明提出的OQCBTT量子线路简化算法，相比于通用的ZX-calculus方法(最坏情况下的时间复杂度为O(s²n²)，s代表ZX图中节点的数量，n代表量子比特数量)，不仅可以在更低的时间复杂度O(n)下获得QGSA算法等价的简化量子电路，还可以将其空间复杂度从O(n)降低至O(logn)，从而减小计算规模，降低其在物理机上的运行要求。

(3)本发明提出的QCMM模型，为物理机提供了一种简易的线路映射方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是QGSA循环位移实例图；

图2是QGSA两次操作状态变化图；

图3是QGSA概率放大图；

图4是OQCBTT索引串寄存器中量子比特状态和目标串寄存器中量子比特状态的对应关系图；

图5是OQCBTT计数表初始化图；

图6是OQCBTT计数表添加指针图；

图7是OQCBTT化简线路展示图；

图8是OQCBTT化简线路展示图；

图9是OQCBTT计数表更新图；

图10是OQCBTT化简结果图；

图11是物理机的部分量子拓扑结构图；

图12是QCMM网络结构图；

图13是QCMM的SLOT结构图；

图14是物理比特编码结果；

图15是各量子门示意图；

图16是研究实例对应量子线路图；

图17是QGSA与BLAST计算时间对比图；

图18是QGSA与BLAST运行时间比较图；

图19是量子线路对比图，其中，a是未化简的量子线路；b是OQCBTT化简后的量子线路；

图20是使用OQCBTT方法前后的线路量子门数量和空间复杂度对比图，其中，a是使用OQCBTT方法前后的线路量子门数量，b是使用OQCBTT方法前后的线路空间复杂度；

图21是OQCBTT和ZX-calculus时间复杂度对比图；

图22是物理机实际运行结果图；

图23是QCMM和Dense Layout方法映射量子线路到物理机结果对比图，其中，a是QCMM映射，b是Dense Layout映射；

图24是本发明方案的主要流程示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域技术人员应当知晓，下述具体实施例或具体实施方式，是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式，而该些设置方式之间均是可以相互结合或者相互关联使用的，除非在本发明明确提出了其中某些或某一具体实施例或实施方式无法与其他的实施例或实施方式进行关联设置或共同使用。同时，下述的具体实施例或实施方式仅作为最优化的设置方式，而不作为限定本发明的保护范围的理解。

本发明的主要目的在于针对传统方法无法改善经典BLAST算法的时间复杂度、通用线路化简方法化简基于量子计算的BLAST算法的量子线路的时间开销大以及如何方便的映射量子线路的问题，提供基于量子技术的BLAST加速方案。本发明利用量子技术的量子基因序列比对方法QGSA(Quantum Gene Sequence Alignment)改进了经典BLAST算法的时间复杂度，基于真值表的量子线路化简方法OQCBTT(Optimization of Quantum CircuitBased on Truth Table)降低了化简QGSA量子线路的时间开销，并基于神经布局的映射模型QCMM(Quantum Circuit Mapping Model)提供了一种简易的线路映射方法。

在一个具体的实施例中，结合图24所示，本方案主要包括三个部分。第一个部分是基于量子计算的BLAST加速方法QGSA，用于降低BLAST算法的时间复杂度。第二个部分是基于真值表的量子线路化简办法OQCBTT方法，用于降低化简QGSA量子线路的时间开销。第三个部分是基于神经布局的映射模型QCMM，其为量子计算机提供了一种简易的线路映射方案。以下结合干扰素基因搜索，对本方案详细阐述。

步骤1、构建QGSA算法。

步骤1.1、编码。针对目标序列(长度为N)和字段(长度为M)的字符特点，使用2位量子比特对4种碱基进行编码，例如，我们可以设置其对应关系为['A':'00','C':'01','G':'10','T':'11']。经过编码之后，目标序列与字段都会变为二进制串。

步骤1.2、初始化。构建初始状态时我们优选设置3类量子比特，分别为索引串比特、目标串比特和模式串比特，3类量子比特分别存储于索引寄存器、目标寄存器和模式寄存器。在对目标序列和字段进行量子比特编码后，目标序列形成目标串比特，字段形成模式串比特。其中，索引串比特在初始化阶段应用H门构建叠加态，目标串比特与模式串比特在初始化阶段应用X门构建对应的量子状态。该初始化阶段结束后，量子比特的状态公式如下所示：

其中，t_i为目标串比特第i位，p_j为模式串比特第j位。T为目标串比特长度，P为模式串比特长度。总共需要log₂N个索引串比特、T个目标串比特(即目标串比特个数等于目标串比特长度)以及P个模式串比特，k表示索引串比特对应的量子状态。

步骤1.3、循环位移。以索引比特为控制位，依据索引串比特将目标串比特转换为各状态的叠加。该阶段结束后量子比特的状态公式如下所示：

该步骤本质上是利用索引比特的叠加态对目标串比特进行位移，索引串比特的状态指示位移的位数,并对应不同的目标串比特状态。例如：当索引串比特(q₁q₀)处于10时，循环位移线路可以通过以q₁比特作为控制位的CSWAP门，来对目标串比特实现2位循环位移，依此类推。故可以使用log₂N个索引比特,对长度为T的目标串比特，实现任意m位位移(m≤T)。8位目标串比特循环位移2位的示例如图1所示。在图1中，连线连接的两个比特需要使用CSWAP执行交换操作，图中所有CSWAP操作的控制比特都是q₁。以索引串比特q₁为控制位，从目标比特1开始，以2为间隔进行第一轮交换。每次交换可以确定一个交换下游目标比特的位置，在图1中体现为第一轮交换后，目标比特3，4，7，8的位置已固定，不参与下一轮交换。第二轮交换以4为间隔进行，最后即可实现2位循环位移。更为通用的说法是对2ⁿ(n＝log₂T)位目标串比特位移2^m位，以2^m,2^m+1..2^n-1为间隔依次交换。

步骤1.4、寻找解状态。使用CNOT门实现XOR操作，以识别均匀叠加态|s>中正确的解状态|w>，运算结束后量子比特的状态为：

然后通过U_w为|s>中正确的解状态|w>添加负相位,U_w如下所示：

其中，p_i为模式串比特第i位，P为模式串比特长度。

图3展示了运用(U_sU_w)之后，解状态|w>的概率放大情况。事实上，每执行一次U_sU_w，解状态|w>的概率就会放大一部分。该步骤可以通过多次运用，来最大化观测结果中解状态|w>的概率。具体概率放大情况如下所示：

|ψ_t>＝sin[(2t+1)θ]|w>+cos[(2t+1)θ]|s′>

若存在R个解状态时，此时t满足：

步骤2、构建OQCBTT算法。本发明以目标序列subject sequence＝‘ACGT’(编码为00011011)，words＝‘A’(编码为00)为例，详细阐述本步骤的方法。

步骤2.1、初始化。对于长度为N的subject sequence(即目标序列)和长度为M的words(即字段)，其编码后的二进制串长度分别为T(T＝2N)和P(P＝2M)。其中存储subjectsequence二进制串的寄存器称为目标串寄存器(存储目标串比特)，存储words二进制串的寄存器称为模式串寄存器(存储模式串比特)，存储索引串比特的寄存器称为索引串寄存器。根据循环位移对应真值表(见表1)，提取简化后的真值表(见表2)。

表1循环位移对应真值表

索引串	对应的目标串寄存器中序列
		00	00011011
01	01101100
		10	10110001
11	11000110

根据表1，在QGSA算法的寻找解状态步骤中，需要使用CNOT门来依次比较目标串寄存器中的前2位(2M)和模式寄存器中的序列。事实上，目标串寄存器的后6位(2N-2M)不参与后续运算。为了减少线路中量子比特，该步骤可以删去目标寄存器中的后6位。

故依据本方法搭建量子线路需要log₂N个索引串比特，2M个目标串比特，2M个模式串比特。

因此，在上述例子中搭建量子线路总计需要2个索引串比特，2个目标串比特，2个模式串比特。

即真值表可以化简为表2中的形式：

表2简化后的真值表

索引串	对应的目标串寄存器中序列
		00	00
01	01
		10	10
11	11

根据简化的真值表(表2)获取索引表，索引表第一列为索引串比特的不同状态，第二列为不同状态的索引串比特对应的目标串比特的前2M个量子比特对应状态，这里，我们引入索引串，所述索引串指索引串比特状态对应的二进制串，索引串可以指示出索引串比特的状态；索引表的构建如图4所示。

在图4中，索引串寄存器中量子比特为q₁、q₀。目标串寄存器中量子比特为q₂、q₃。对于每个目标比特x(即目标串比特中的一个比特)，该步骤维护一张N×logN的计数表，计数表中各个位置初值为0，目标序列的长度为N。计数表中的值表示目标比特x对应线路中添加量子门的数量。图5展示了目标比特q₂对应计数表的初始化状态。

步骤2.2、添加指针。为计数表第i个索引串添加指针。在一个优选的实施例中，指针添加可以采用如下方式：若该索引串中1的数量为j，那么以计数表的第i行第j列为起点添加指针，指针指向计数表中同列位置，并且该位置对应索引串中为1的位置，必须包含第i个索引串中为1的位置。图6展示了目标比特q₂对应计数表添加指针的过程。

步骤2.3、遍历索引表中索引串比特状态并更新计数表。

步骤2.3.1、index表示索引表第一列索引串比特的不同状态对应的十进制值，称作索引。对于每一个目标比特x，q_xi表示index＝i时,目标比特x在索引表中对应的状态，称作目标比特值。依次遍历索引index。索引串比特状态00，01，10，11的索引分别为0，1，2，3。

步骤2.3.2、如果index＝0，并且q_x0＝1(这里，为了说明方便，q_x0是指目标比特x在索引index为0的时候对应的状态)，在目标比特x对应的量子线路上施加X门。如果index≠0，计算该行索引在计数表中对应行所有列的和sum。如果sum/2＝0，则temp＝q_x0,否则，(其中temp是一暂存数据的变量)。比较temp和该索引对应目标比特值q_xindex,如果temp≠q_xindex,则根据索引串施加门。(如果索引串中仅一位为1，则以该位为控制位，x为目标位施加CNOT门；如果索引串中多位为1，则以为1的位为控制位，x为目标位施加Toffoli门)。

步骤2.3.3、如果在索引为index时增加了一个门，记录index对应的索引比特为1的位置end。那么以计数表第index行第end列为起点的指针所指向的记数表位置全部加1。

此处以目标比特q₂为例(线路化简不涉及模式串寄存器，此处仅给出索引串寄存器和目标串寄存器的线路)：

(1)索引串00：

索引串全为0，观察目标比特x在真值表中对应的的值q_x0，若q_x0为1，则对该目标比特施加X门。此过程结束后线路如图7所示。

(2)索引串01:

此过程不涉及任何参数更新，故线路不变。

(3)索引串10:

当前temp＝0，而q_x2＝1。temp≠q_x2,则根据索引串施加门。此时添加CNOT门之后线路如图8所示。

增加了门之后需要更新计数表，当前计数表更新如图9所示。图9展示了遍历索引串10之后，由添加CNOT门操作引起的计数表更新。按照上述方法依次遍历所有索引，即可获得添加到q₂比特上所有的门。再针对目标比特q₃遍历，最终获得如图10的电路。

图10展示了以subject sequence＝‘ACGT’(编码为00011011)，words＝‘A’(编码为00)例，使用OQCBTT方法化简量子线路的结果。对于多个目标比特，可以在一次遍历索引中完成，只需要同时维护多个目标比特的计数表。

步骤3、训练QCMM模型。该步骤选取的物理比特为物理机“祖冲之号”

(ClosedBetaQC)上的Q3，Q9，Q14，Q21，Q15和Q10这六个量子比特，图11显示了该步骤所选取的物理机上物理比特的拓扑结构。

步骤3.1、模型化量子线路映射。将量子线路映射问题模型化为分类问题。线路映射的本质是逻辑线路中的每一个量子比特(逻辑比特)都要对应一个物理机(物理比特)的比特，也可以说是每一个逻辑比特都要映射到一个物理比特上。该步骤将物理比特视作类别，对m个物理比特p，n个逻辑比特l(m>n)进行映射。为完成线路映射，该步骤可以将这个分类任务描述为f:l_j→p_i，其中i＝1,…,m。j＝1,…,n。f是从逻辑比特到物理比特的映射。每个映射线路的标签向量y＝[p₁,…,p_m]。标签y的索引指示逻辑比特，其对应的值指示这个逻辑比特应该映射的物理比特。在一个实施方式中，为减少训练参数与模型复杂度，该步骤不考虑量子线路中的各种误差，仅考虑量子线路的结构。

该步骤使用线路的以下特征作为QCMM模型的训练数据：线路总的逻辑比特数量，线路总的CZ门数量，以及CZ门的具体作用信息。其中，CZ门的具体作用信息由一个n×n的matrix矩阵表示，matrix[i][j]＝1表示比特i和j存在一个CZ门。基于上述特征，该步骤总共会从每个逻辑线路中提取38维的数据。

步骤3.2、数据生成。根据选定的物理机结构随机生成用于训练的量子线路。已经证明{Ry,Rz,CNOT}是量子计算中一个通用门集合。任何量子门都可以用这个门集合展开。在一种实施方式下，对于通用门集合中的CNOT门，可以使用一个CZ门和两个H门来进行替换。物理量子计算机提供了Ry,Rz,CZ,H量子门的使用方法。所以任何量子线路都可以在物理量子计算机上使用Ry,Rz,CZ,H量子门形成的线路进行替换。该步骤假设需要映射的逻辑线路中仅存在Ry,Rz,CZ,H四种门。由于在上述四个门操作中，仅双量子比特CZ门会在映射过程中引入SWAP操作，所以在获取QCMM模型的训练数据时，该步骤仅考虑双量子比特门的结构。为此该步骤随机生成仅包含CZ门的6比特量子线路。

步骤3.3、数据标记。使用IBM提供的两种算法来为线路数据生成对应标签。生成训练所需线路数据之后，该步骤需要获取每个线路对应标签。为获得每个线路的最佳标签，该步骤可以使用IBM qiskit中的著名映射算法Dense Layout和Trivial Layout等算法实现。该步骤使用这两种算法映射逻辑线路到存在指定约束的物理机，使用最少SWAP门的映射结果作为标签。标记每个随机产生的逻辑线路的流程如下：

步骤3.3.1、使用qiskit提供的Dense Layout和Trivial Layout计算逻辑线路的映射结果。

步骤3.3.2、统计两种映射方法中使用的SWAP门数量。

步骤3.3.3、选择使用最少SWAP门的映射结果作为标签。

步骤3.4、搭建网络。本步骤中，我们基于神经布局思想搭建网络用于训练模型。基于神经布局网络，该步骤修改了特征编码的部分，神经布局输出层slot的结构以及输出标签的结构。对于输入数据的特征，该步骤仅考虑逻辑线路中，CNOT门之间的相互作用信息；对于神经布局输出层，该步骤修改了最终输出结果，该步骤不再考虑逻辑比特未映射的情况；对于输出标签的结构，神经布局的标签y中的值表示逻辑比特，索引表示物理比特，该步骤的模型标签y值意义相反。图12展示了训练QCMM的网络结构，其包含输入层，共享层，Dropout层以及各个SLOT。

图13显示了SLOT的具体结构，其包含dense1层，dense2层以及slot层。

结合图12、13，本实施例中设计的QCMM网络，输入层的输入为38维数据，输出256维；输入层连接共享层，共享层输出1024维数据；共享层连接Dropout层，Dropout层连接多个SLOT层。单个SLOT层包含dense1层，dense2层以及slot层；dense1层接收所述Dropout层的输出数据，dense1层输出为256维数据；dense1层连接dense2层，输出为128维数据；dense2层连接slot层，输出为6维数据。

修改后的神经布局网络中每个SLOT结构会产生一组结果，该步骤选取每个SLOT中概率最大的类别，作为该SLOT的分类结果，SLOT_i＝j表示第i个逻辑比特应该映射到第j个物理比特上。所有SLOT的分类结果共同组成输出结果y。然而，按照上述方法，y中可能存在相同的元素，这会导致两个逻辑比特映射到同一个物理比特上，从而产生冲突。为解决冲突问题，本实施例中设置了冲突处理层，为了便于计算，该步骤将所使用的物理比特进行编码，编码后结构如图14所示。

步骤3.5、冲突处理。处理不同SLOT结构产生的冲突从而获取映射结果。

步骤3.5.1、记录SLOT数目num，每个SLOT输出的结果存放至sList列表中，sList＝[pList₀,…,pList_num-1]，其中pList_i表示第i+1个SLOT结构输出的结果；flag＝[flag₀,…,flag_num-1]，其中flag_i＝1表示第i+1个SLOT结构对应的物理比特已确定，flag_i＝0表示不确定；y＝[y₀,…,y_num-1]，其中y_i表示第i+1个SLOT结构对应的物理比特，初始y的每个位置都设置为-1；初始oknum＝0，oknum的值表示已确定对应物理比特的SLOT结构数量。

步骤3.5.2、如果oknum＝num，那么输出结果y，否则执行下一步。

步骤3.5.3、初始化一个空列表ntemp。依次遍历sList，寻找其中每一个pList_i中最大的概率pmax_i；如果flag_i≠1，则将pmax_i加入ntemp列表中，否则将-1加入ntemp末尾。

步骤3.5.4、ntempMax表示ntemp中最大的值，ntempIndex表示ntempMax在ntemp中的索引。yvalue表示暂存数据的变量。置yvalue的值为ntempMax在pList_ntempIndex中的索引。

步骤3.5.5、如果yvalue不在输出结果y中，那么将y_ntempIndex的值置为yvalue，并将flag_ntempIndex置1，oknum的值加1；否则，将pList_ntempIndex[yvalue]的值置为-1。回到步骤3.5.2。

本实施例中，我们以subject sequence＝‘ACGT’(编码为00011011)，words＝‘A’(编码为00)为例，展示各部分的对应结果，以进一步阐述本发明的方案。

第一部分QGSA：

本方案中使用的量子门如图15所示。本实施例中为上述研究案例搭建了量子线路。线路图16所示。

基于这个案例，本发明在虚拟机上运行了QGSA算法并与经典BLAST进行了比较，对于经典BLAST的第二步，其时间开销主要由制作数据库和搜索数据库两部分组成。本实施例中仅考虑制作数据库这一步骤，其耗时比较如图17所示。

图17中横轴对应运行次数，纵轴对应每一次运行的时间。其中虚线对应经典BLAST算法第二步的运行时间，实线对应QGSA方法的运行时间。

从图17、18可以看出，QGSA方法的运行效率明显高于经典BLAST算法，其中图18展示QGSA执行速度统计显著性的快于经典BLAST算法。

第二部分OQCBTT：

本发明使用OQCBTT化简了上述研究案例的量子线路图。图19展示了未使用OQCBTT化简的量子线路(图19中的a部分)和使用OQCBTT化简后的量子线路(图19中的b部分)。

图20中a部分展示了简化前后线路的量子门数量。由于OQCBTT化简后的线路中量子门数量远低于化简前的数量，预示OQCBTT可以显著降低当前案例对应量子线路在物理机上的计算误差。由于对长度N的目标序列搭建量子线路时，只需要使用logN个量子比特，所以OQCBTT算法可以将QGSA算法的空间复杂度从O(N)降低为O(logN)(图20中b部分，实线表示化简后)。

最后，本发明对比了OQCBTT方法和ZX-calculus方法的时间复杂度，图21展示了两种化简方法的时间复杂度，其中横轴表示线路中的量子比特数量，纵轴表示算法的计算时间。图21显示OQCBTT方法的时间复杂度远低于ZX-calculus方法。

第三部分QCMM：

本实施例中一共生成了5000例随机的6比特量子线路作为数据集。其中训练集、测试集和验证集的比例我们设置为0.8:0.1:0.1。在500例测试数据中，QCMM方法引入SWAP数小于等于Dense方法的结果有364例，占总测试数据的72.8％；引入SWAP数小于等于Trivial方法的结果有365例，占总测试数据的73％。

将上述研究案例的逻辑线路(图19中b部分)编码后送入QCMM，其输出结果为y＝[2,5,4,1,0,3]，即图19中b部分中逻辑线路的量子比特[0,1,2,3,4,5]分别对应量子计算机中的比特[2,5,4,1,0,3]。完成线路映射并运行后，其结果如图22所示。

由图22可以看出，由于受到噪声的影响，正确的匹配位置00的命中概率并未达到1，但明显高于其他位置。因此，QCMM成功将逻辑线路映射到量子计算机上。

并且由图23中a部分可以看出，在经过QCMM量子线路映射后，量子线路中仅使用了1个SWAP操作(图中×-×表示SWAP操作)，而使用一般方式(例如Qiskit Dense Layout方式)映射的线路中使用了2个SWAP操作(图23中b部分所示)。这说明在当前研究案例中QCMM有效地减少了SWAP的操作数，显著提高了最后计算结果的准确性。

在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本方案的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本方案的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本方案中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.基于量子技术的基因搜索BLAST加速方法，其特征在于，所述方法包括：

S1、对目标序列和字段进行量子比特编码，并构建初始状态，所述初始状态包括索引串比特、目标串比特和模式串比特；进行循环位移操作，依据索引串比特将目标串比特转换为各状态的叠加；寻找正确的解状态，并对解状态进行振幅放大；

S2、基于S1循环位移操作中索引串比特状态与目标串比特状态的对应关系获得真值表，并提取简化的真值表，根据简化的真值表获得目标串比特、模式串比特和索引串比特；遍历索引串并更新计数表以完成量子线路的搭建，获得化简后量子线路；其中，每个目标比特维护一张计数表，所述目标比特指目标串比特中的一个比特；所述索引串指索引串比特状态对应二进制串；

S3、训练QCMM模型，将简化后的量子线路映射到物理机上；

所述S1中，循环位移操作具体为：利用索引串比特的叠加态对目标串比特进行位移，索引串比特的状态指示位移的位数,并对应不同的目标串比特状态；位移操作结束后量子比特的状态为：

其中，t_i为目标串比特第i位，p_j为模式串比特第j位，T为目标串比特长度，P为模式串比特长度，k表示索引串比特对应的量子状态,表示索引串比特形成的均匀叠加态|s>，即各状态的叠加；

所述S1中，寻找正确的解状态的方式为：使用CNOT门实现XOR操作，以识别均匀叠加态|s>中正确的解状态|w>，运算结束后量子比特的状态为：

然后通过U_w为|s>中正确的解状态|w>添加负相位,U_w如下：

其中，p_i为模式串比特第i位，P为模式串比特长度；

对状态U_w|s>运用U_s进行振幅放大，其中：

U_s＝2|s><s|-I(关于状态|s>的反射)到状态U_w|s>；

I表示单位门；

所述QCMM模型结构包括：输入层、共享层、Dropout层以及多个SLOT结构；

2.根据权利要求1所述的方法，其特征在于，所述S1中，对目标序列和字段进行量子比特编码，在构建初始状态中，对于索引串比特用H门构建叠加态，对于目标串比特与模式串比特用X门构建量子状态。

3.根据权利要求2所述的方法，其特征在于，构建初始状态结束后，量子比特状态公式为：

4.根据权利要求1所述的方法，其特征在于，所述S2中还包括：

对每个目标比特，维护一张N×log N的计数表，其中N表示目标序列长度；

5.根据权利要求4所述的方法，其特征在于，所述S2还包括：根据简化的真值表获取索引表，索引表第一列为索引串比特的不同状态，第二列为不同状态的索引串比特对应的目标串比特的前P个量子比特对应状态，其中P表示模式串比特长度；

遍历索引串并更新计数表具体方式为：

遍历索引表；

index表示索引表第一列索引串比特的不同状态对应的十进制值；x表示目标比特；q_xi表示index＝i时，目标比特x在索引表中对应的状态，称作目标比特值；若索引表中索引index为0，且对应q_x0为1，则在目标比特x对应的量子线路上施加X门；如果index不为0，则计算该行索引在目标比特x的计数表中对应行所有列的和sum；如果sum/2＝0，则temp＝q_x0，否则，比较temp和目标比特值q_xindex，如果temp≠q_xindex，则根据索引串施加门；其中temp是一暂存数据的变量；

如果在index＝i时增加了一个门，则记录其对应索引串比特为1的位置end，并且以目标比特x的计数表第i+1行第end列为起点的指针所指向的计数表位置全部加1。

6.根据权利要求1所述的方法，其特征在于，所述S3还包括，处理各个SLOT结构之间的冲突：

S3-1、记录SLOT结构数目num，每个SLOT结构输出的结果存放至sList列表中，sList＝[pList₀，...，pList_num-1]，其中pList_i表示第i+1个SLOT结构输出的结果；flag＝[flag₀，...，flag_num-1]，其中flag_i＝1表示第i+1个SLOT结构对应的物理比特已确定，flag_i＝0表示不确定；y＝[y₀，...，y_num-1]，其中y_i表示第i+1个SLOT结构对应的物理比特，初始y的每个位置都设置为-1；初始oknum＝0，oknum的值表示已确定对应的物理比特的SLOT结构的数量；

S3-2、如果oknum＝num，则输出结果y，否则执行S3-3；

S3-3、初始化一个空列表ntemp；依次遍历sList列表，寻找pList_i中最大的概率pmax_i；如果flag_i≠1，则将pmax_i加入ntemp列表中，否则将-1加入ntemp末尾；

S3-5、如果yvalue不在输出结果y中，那么将y_ntempIndex的值置为yvalue，并将flag_ntempIndex置1，oknum的值加1；否则，将pList_ntempIndex[yvalue]的值置为-1，并返回S3-2。

7.基于量子技术的基因搜索BLAST加速系统，其特征在于，所述系统包括：

量子线路化简模块，用于基于QGSA加速模块循环位移操作中索引串比特状态与目标串比特状态的对应关系获得真值表，并提取简化的真值表，根据简化的真值表获得目标串比特、模式串比特和索引串比特；遍历索引串并更新计数表以完成量子线路的搭建，获得化简后量子线路；其中，每个目标比特维护一张计数表，所述目标比特指目标串比特中的一个比特；所述索引串指索引串比特状态对应二进制串；

映射模块，用于训练QCMM模型，将简化后的量子线路映射到物理机上；

所述循环位移操作具体为：利用索引串比特的叠加态对目标串比特进行位移，索引串比特的状态指示位移的位数，并对应不同的目标串比特状态；位移操作结束后量子比特的状态为：

其中，t_i为目标串比特第i位，p_j为模式串比特第j位，T为目标串比特长度，P为模式串比特长度，k表示索引串比特对应的量子状态，表示索引串比特形成的均匀叠加态|s>，即各状态的叠加；

所述寻找正确的解状态的方式为：使用CNOT门实现XOR操作，以识别均匀叠加态|s>中正确的解状态|w>，运算结束后量子比特的状态为：

然后通过U_w为|s>中正确的解状态|w>添加负相位，U_w如下：

其中，p_i为模式串比特第i位，P为模式串比特长度；

对状态U_w|s>运用U_s进行振幅放大，其中：

U_s＝2|s><s|-I(关于状态|s>的反射)到状态U_w|s>；

I表示单位门；