CN117457067A - 基因组组装方法、基因组组装装置、存储介质和设备 - Google Patents
基因组组装方法、基因组组装装置、存储介质和设备 Download PDFInfo
- Publication number
- CN117457067A CN117457067A CN202310267687.4A CN202310267687A CN117457067A CN 117457067 A CN117457067 A CN 117457067A CN 202310267687 A CN202310267687 A CN 202310267687A CN 117457067 A CN117457067 A CN 117457067A
- Authority
- CN
- China
- Prior art keywords
- optimal
- obtaining
- genome
- constructing
- objective function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 17
- 238000012163 sequencing technique Methods 0.000 claims abstract description 15
- 238000010276 construction Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 239000002096 quantum dot Substances 0.000 claims description 3
- 238000007671 third-generation sequencing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000002349 favourable effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 9
- 239000012634 fragment Substances 0.000 description 6
- 108700041286 delta Proteins 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012268 genome sequencing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000005283 ground state Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Physiology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基因组组装方法、基因组组装装置、存储介质和计算机设备。基因组组装方法包括:根据待测序基因组构建有向有环图;根据有向有环图构建得到组合优化问题的无约束条件的目标函数;根据无约束条件的目标函数构建得到哈密顿量;利用量子变分算法获得所述哈密顿量的最优本征值及其对应最优本征态;根据所述最优本征态获得所述有向有环图中最优组装路径。该方法充分利用了量子的叠加性和纠缠性,有利于解决高通量基因测序过程中计算资源消耗过大的问题。同时,该方法充分考虑了重复基因片段的情况,有利于解决实际操作中因存在基因重复片段而不能正确进行基因组组装的棘手问题。
Description
技术领域
本发明属于基因测序技术领域,具体地讲,涉及一种基因组组装方法、基因组组装装置、计算机可读存储介质和计算机设备。
背景技术
基因组测序是人类社会发展过程中至关重要的技术之一。由于当前的测序技术和测序仪器所能测序的基因组序列长度远远小于实际的基因组长度。实验上往往通过“鸟枪法”将实际的基因组随机切成大小适宜的片段,再通过测序仪器读取片段的碱基信息,生成数据,后续通过基因组组装技术将海量的数据组装成基因组,最终达到基因组测序的目的。
目前,常用的基因组组装算法有OLC(Overlap-layout-consensus)、DBG(Debrujin Graph)。其中,OLC算法的核心是先通过动态规划算法对所有的测序读段(reads)进行相互比对,并根据比对结果绘制哈密顿(Hamilton)图,然后在此图中寻找合适的通路,从而将短的序列组装成contig。DBG算法的核心思想是将reads分割为更短的k-mers(长度为k),根据每两个相邻且有k-1个碱基重叠的k-mers,构成一个德布鲁因图(De Bruijngraph)。最后在该图中寻找一条包含尽可能多reads的路径,从而将短的序列组装成contig,其中在理想的情况下,该路径为欧拉路径,在计算方面远远优于OLC算法。
在OLC算法的哈密顿图中寻找通路或在德布鲁因图中寻找欧拉路径过程中,由于高通量测序得到的数据量巨大,增加了组装过程的计算复杂度和消耗更高的计算资源,并且所需的计算资源可能会超过经典计算机的极限,最终导致经典计算机无法计算。
因此,基因测序和组装过程中计算资源消耗巨大是本领域亟需解决的技术问题。
发明内容
本发明解决的技术问题是:如何解决高通量基因测序中计算资源消耗巨大的问题。
一种基因组组装方法,所述基因组组装方法包括:
根据待测序基因组构建有向有环图;
根据所述有向有环图构建得到组合优化问题的无约束条件的目标函数;
根据所述无约束条件的目标函数构建得到哈密顿量;
利用量子变分算法获得所述哈密顿量的最优本征值及其对应最优本征态;
根据所述最优本征态获得所述有向有环图中最优组装路径。
优选地,所述根据待测序基因组构建有向有环图的方法是:
根据待测序基因组得到的各个k-mers构建有向有环图的节点;
对各个k-mers的碱基进行比对,确定各个k-mers之间的有向边;
根据第二代、第三代测序技术得到的实验结果,定义各条有向边的权重值ωΔ,i,j,Δ为有向路径中第i个节点和第j个节点之间边的数量。
优选地,根据所述有向有环图构建得到组合优化问题的无约束条件的目标函数的方法包括:
根据有向有环图构建有约束条件的目标函数f(x)和约束条件G(x);
结合有约束条件的目标函数f(x)和约束条件G(x),构建无约束条件的目标函数C(x)。
优选地,所述有约束条件的目标函数f(x)的表达式为:f(x)=∑Δ∑p∑i,jωΔ,i, jxi,pxj,p+Δ,
ωΔ,i,j为第i个节点和第j个节点之间边的权重。
优选地,所述约束条件包括第一约束条件和第二约束条件,其中,
第一约束条件为:基因组组装从源头开始,第1步仅选择一个节点i,表达式为:n表示节点数,i表示第i个节点,i∈[1,n];
所述第二约束条件为:当第p步选择第i个节点后,第p+1步可以选择第j个节点或者不选择任何一个节点,当第p步没有选择任何节点后,第p+1步不能选择任何节点,第二约束条件的表达式为:
或∑ixi,p+1=0,∑ixi,p=0。
优选地,所述无约束条件的目标函数C(x)的表达式为: 其中A、B为判罚函数,且满足B>A>>|∑Δ∑i,jωΔ,i,j|。
优选地,根据所述无约束条件的目标函数C(x)构建得到哈密顿量的方法为:
使用比特串X=x1,x2,…,xN编码比特xi,p+Δ,其中N=P*n,P为总步长数,n为节点数,当xi,p+Δ=1时,比特串X中的x(p+Δ-1)*n+i=1;
将比特串X=x1,x2,…,xN中的xl(l∈[1,2n2])转换为泡利算符σz和单位算符I,其转换关系式为:其中Zl为作用在第l个量子比特的泡利算符σz;
将无约束条件的目标函数C(x)转换为哈密顿量H,表达式为:
优选地,利用量子变分算法获得所述哈密顿量的最优本征值及其对应最优本征态的方法为:
获取当前迭代轮的参数化量子态,基于所述参数化量子态测量得到所述哈密顿量的当前轮期望值;
根据所述当前轮期望值更新得到下一迭代轮的参数化量子态并测量得到所述哈密顿量的下一轮期望值,继续迭代直至所述哈密顿量的期望值收敛,将最后一轮测量得到的哈密顿量的的期望值作为最优本征值,将所述最优本征值对应的量子态作为最优本征态。
优选地,所述根据所述最优本征态获得所述有向有环图中最优组装路径的方法为:
根据所述最优本征态得到长度为2n2的二进制比特串;
将所述二进制比特串的高位转为低位,获得待解码二进制比特串;
将所述待解码二进制比特串均分为2n个长度为n的子比特串;
将各个子比特串转为十进制,得到最优组装路径径;
其中,n表示节点数。
本申请还公开了一种基因组组装装置,所述基因组组装装置包括:
第一构建模块,用于根据待测序基因组构建有向有环图;
第二构建模块,用于根据所述有向有环图构建得到组合优化问题的无约束条件的目标函数;
第三构建模块,用于根据所述无约束条件的目标函数构建得到哈密顿量;
量子变分求解模块,用于利用量子变分算法获得所述哈密顿量的最优本征值及其对应最优本征态;
路径解码模块,用于根据所述最优本征态获得所述有向有环图中的最优组装路径。
本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有基因组组装程序,所述基因组组装程序被处理器执行时实现上述的基因组组装方法。
本申请还公开了一种计算机设备,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的基因组组装程序,所述基因组组装程序被处理器执行时实现上述的基因组组装方法。
本发明公开的一种基因组组装方法和基因组组装装置,具有如下技术效果:
通过将基因组组装路径选择问题转化为组合优化模型中的最优解求解问题,进一步转化为哈密顿量的最优本征值求解问题,并利用量子变分算法进行求解,最后经过解码来得到最优组装路径,充分利用了量子的叠加性和纠缠性,有利于解决高通量基因测序过程中计算资源消耗过大的问题。
附图说明
图1为本发明的实施例一的基因组组装方法的流程图;
图2为本发明的实施例一的基因组组装问题转为组合优化问题的示意图;
图3为本发明的实施例一的参数化量子电路示意图;
图4为本发明的实施例一的量子变分算法的原理示意图;
图5为本发明的实施例一的解码路径示意图;
图6为本发明的实施例二的基因组组装装置的原理框图;
图7为本发明的实施例四的计算机设备示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
在详细描述本申请的各个实施例之前,首先简单描述本申请的技术构思:现有技术的基因组组装过程中,需要通过大量计算来获取最佳的组装路径,面对高通量基因片段数据,往往要耗费巨大的计算资源,且可能会超过经典计算机的极限。为此,本申请提供的基因组组装方法,首先通过将传统的基因组组装问题转化为组合优化问题,接着将组合优化问题的求解转换为哈密顿量的求解,并利用量子变分算法来获得最优解,从而获得基因组最佳组装路径,充分利用了量子的叠加性和纠缠性,可以有效地提高计算能力。
具体来说,如图1所示,本实施例一的基因组组装方法包括如下步骤:
步骤S10、根据待测序基因组构建有向有环图;
步骤S20、根据所述有向有环图构建得到组合优化问题的无约束条件的目标函数;
步骤S30、根据所述无约束条件的目标函数构建得到哈密顿量;
步骤S40、利用量子变分算法获得哈密顿量的最优本征值及其对应最优本征态;
步骤S50、根据所述最优本征态获得所述有向有环图中最优组装路径。
具体地,本实施例一首先基于DBG算法,根据各个基因片段的测序信息构建得到有向有环图,以描述基因组组装问题。进一步来讲,步骤S10包括如下步骤:
步骤S101、根据待测序基因组得到的各个k-mers构建有向有环图的节点。通过基因组“鸟枪法”,获得随机长度的待测序基因组reads片段,将所有reads分割成较短固定长度的k-mers,将k-mers作为有向有环图的节点,k-mers的长度为k。
步骤S102、对各个k-mers的碱基进行比对,确定各个k-mers之间的有向边。其中,若上一个k-mers除去第一位碱基后所剩余的碱基和下一个k-mers除去最后一位碱基后所剩余的碱基相同,则分配两个k-mers对应的节点一条有向的边。
步骤S103、根据第二代、第三代测序技术得到的实验结果,定义各条有向边的权重值ωΔ,i,j,Δ为有向路径中第i个节点和第j个节点之间边的数量。其中,当Δ>N环+1时,N环为所述有向有环图中构建环的节点数,可以通过设置绝对值较大的权重值来解决重复基因片段问题。
示例性地,如图2中的左半部分所示,图中节点表示为基因组组装分割reads得到长度为k的k-mers,边的连接关系表示两个有长度为k-1个碱基重叠的k-mers,边上的数值表示权重ω1,i,j。由于基因测序技术的过程中会发生错误,因此可以通过设置不同的权重值来表示。如图中权重值为-2表示基因测序发生错误时,k-mers的连接情况;权重值为-4表示基因测序正确的k-mers的连接情况。
图中环状结构表示重复序列的连接情况,箭头表示组装顺序。为了解决重复基因片段问题,可以定义一个绝对值较大的权重值来解决。如图2的曲线,其权重值为ωΔ,i,j=-200,Δ=3。图中的右半部分所示,将基因组组装问题转换为组合优化问题,在形式上为将有向有环图中各节点表示的k-mers转换为数字表示的节点顺序,例如ATC为第一个节点,TCG为第二个节点,以此类推。椭圆为节点,椭圆中的数字为节点序号,有向边上的数字为两个节点之间边的权重,在右图中找到在某种条件中寻找权重最小的一条路径即代表最优组装路径。
进一步地,基因组组装问题转换为组合优化问题的实质在于,将基因组组装问题中的最优路径选择转为对组合优化问题的最优解。具体来讲,步骤S20中根据待测序基因所对应的有向有环图构建得到组合优化模型的方法包括如下步骤:
步骤S201、根据有向有环图构建有约束条件的目标函数f(x)和约束条件G(x);
步骤S202、结合有约束条件的目标函数f(x)和约束条件G(x),构建无约束条件的目标函数C(x),目标函数C(x)的解代表有向有环图的组装路径。
其中,所述第一目标函数的表达式为:f(x)=∑Δ∑p∑i,jωΔ,i,jxi,pxj,p+Δ,
ωΔ,i,j为第i个节点和第j个节点之间边的权重。
进一步地,从头组装(de novo assembly)策略需要从源头出发,当存在重复序列时,中途可以再经过该源头,因此第一约束条件设定为第1步仅选择一个节点i,表达式为:n表示节点数。
进一步地,还需要确定中间第p+1步是否选择k-mers(节点)的情形。情形一为:当第p步仅选择一个k-mers(节点)i,即则第p+1步可以仅选择一个节点j,即或者不选择任何一个节点,即/>情形二为:当第p步不选择任何一个k-mers(节点),即/>则p+1步不能选择任何一个节点,即/>结合两种情形,第二约束条件的表达式为:
或∑ixi,p+1=0,∑ixi,p=0
在步骤S202中,构建得到的无约束条件的目标函数C(x)的表达式为:
其中A、B为判罚函数,且满足B>A>>|∑Δ∑i,jωΔ,i,j|。
进一步地,在步骤S30中根据组合优化模型构建得到哈密顿量的本质在于将无约束条件的目标函数C(x)转换为矩阵形式的哈密顿量。
首先,使用比特串X=x1,x2,…,xN编码比特xi,p+Δ,其中N=P*n,P为总步长数,n为节点数,当xi,p+Δ=1时,比特串X中的x(p+Δ-1)*n+i=1。其中,xi,p+Δ∈{0,1},i∈[1,n],p+Δ∈[1,2n]。
当节点数量为n个,最大步数为2n,因此共有2n2个变量xi,p+Δ。编码后,我们将使用长度为2n2的比特串X表示xi,p+Δ的所有取值情况。举例来讲,当xi,p+Δ=1时,则比特串X中的第(p+Δ-1)*n+i位对应的比特值为1,即x(p+Δ-1)*n+i=1。反之亦然。
进一步地,将比特串X=x1,x2,…,xN中的xl(l∈[1,2n2])转换为泡利算符σz和单位算符I,其转换关系式为:其中Zl为作用在第l个量子比特的泡利算符σz。因此,将无约束条件的目标函数C(x)转换为哈密顿量H后的表达式为:
进一步地,在步骤S40中,量子变分算法主要包括生成参数化量子电路、制备参数化量子态、哈密顿量的期望值的测量和参数更新等步骤。
具体地,生成2n2个量子比特的量子线路,如图3所示,首先作用一层Rx(θ)旋转门或Ry(θ)旋转门。虚线框量子包含CNOT门和Rx(θ)旋转门或Ry(θ)旋转门。其中每两个量子线路作用一个CNOT门(控制非门),规则是每一个比特有且只有一个是控制位,一个是受控位。然后作用一个Rx(θ)旋转门或Ry(θ)旋转门。重复作用d个虚线框的量子线路,构成参数化量子线路。
进一步地,制备初始量子态初始化得到d*2n2个参数并将参数化量子线路作用到初始量子态|ψ0>,得到带参数θ0的叠加态|Ψ(θ0)>,即参数化量子态。该参数化量子态|Ψ(θ0)>包含了所有的计算基态,换言之包含所有的基因组组装路径。
进一步地,如图4所示,基于当前迭代轮的参数化量子态测量得到哈密顿量的当前轮期望值:
E(θs)=<Ψ(θs)|H|Ψ(θs)>
这里的s∈N+(N+为正整数),s表示为第s次迭代。应用梯度下降方法,根据当前轮期望值E(θs)更新参数θs得到新的参数θs+1,并将参数θs+1代入到参数化量子线路中得到下一迭代轮的参数化量子态|Ψ(θs+1)>,再测量得到哈密顿量的下一轮期望值E(θs+1),继续迭代直至哈密顿量的期望值收敛,即|E(θs+1)-E(θs)|<δ(δ的值一般取10-8)时,终止优化。此时最后一轮测量得到的哈密顿量的期望值E(θfinal)为最优本征值,对应的叠加态为|Ψ(θfinal)>,其中概率最大的计算基矢为对应的最优本征态,记为|D>,其中
此时得到的最优本征值和最优本征态,相当于组合优化模型的最优解和有向有环图中的最佳组装路径,因此在步骤S40中,通过对最优本征态进行解码来得到组装路径。具体来讲,根据最优本征态获得有向有环图中最优组装路径的方法包括如下步骤:
步骤S401、根据最优本征态|D>得到长度为2n2的二进制比特串。
步骤S402、将二进制比特串的高位转为低位,获得待解码二进制比特串。
步骤S403、将待解码二进制比特串均分为2n个长度为n的子比特串。
步骤S404、将各个子比特串转为十进制,得到最优组装路径。
示例性地,如图5所示,当节点为n=4时,将最优本征态转成长度为32位的二进制比特串,如图中的比特串1,将二进制比特串的高位转为低位后得到待解码二进制比特串,如图中的比特串2。接着将二进制比特串划分成8个长度为4的子比特串,如图中的P1、P2、P3、P4、P5、P6、P7、P8。将每个子比特串转换为十进制i,即可确定第k步选择第i个k-mers。根据图中的解码路径可知,第一步选择第一个k-mers,第二步选择第二个k-mers,第三步选择第三个k-mers,第四步选择第四个k-mers,第五步、第六步、第七步、第八步不选择任何k-mers。最终组装k-mers的顺序为k-mer1→k-mer2→k-mer3→k-mer4。
本实施例一公开的基因组组装方法,通过将基因组组装路径选择问题转化为组合优化模型中的最优解求解问题,进一步转化为哈密顿量的最优本征值求解问题,并利用量子变分算法进行求解,最后经过解码来得到最优组装路径,充分利用了量子的叠加性和纠缠性,有利于解决高通量基因测序过程中计算资源消耗过大的问题,同时还可以解决因基因组存在大量基因重复片段而导致基因组组装困难的问题。
如图6所示,本实施例二公开了一种基因组组装装置,基因组组装装置包括第一构建模块100、第二构建模块200、第三构建模块300、量子变分求解模块400和路径解码模块500。第一构建模块100用于根据待测序基因组构建有向有环图,第二构建模块200用于根据所述有向有环图构建得到组合优化问题的无约束条件的目标函数,第三构建模块300用于根据所述无约束条件的目标函数构建得到哈密顿量,量子变分求解模块400用于利用量子变分算法获得哈密顿量的最优本征值及其对应最优本征态,路径解码模块500用于根据所述最优本征态获得所述有向有环图中最优组装路径。其中,基因组组装装置中各个模块更详细的工作过程可参考实施例一的描述,在此不进行赘述。
本实施例三还公开了一种计算机可读存储介质,计算机可读存储介质存储有基因组组装程序,基因组组装程序被处理器执行时实现上述的基因组组装方法。
本实施例四还公开了一种计算机设备,在硬件层面,如图7所示,该计算机设备包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行,在逻辑层面上形成请求处理装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。计算机可读存储介质11上存储有基因组组装程序,所述基因组组装程序被处理器执行时实现上述的基因组组装方法。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上面对本发明的具体实施方式进行了详细描述,虽然已表示和描述了一些实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下,可以对这些实施例进行修改和完善,这些修改和完善也应在本发明的保护范围内。
Claims (10)
1.一种基因组组装方法,其特征在于,所述基因组组装方法包括:
根据待测序基因组构建有向有环图;
根据所述有向有环图构建得到组合优化问题的无约束条件的目标函数;
根据所述无约束条件的目标函数构建得到哈密顿量;
利用量子变分算法获得所述哈密顿量的最优本征值及其对应最优本征态;
根据所述最优本征态获得所述有向有环图中最优组装路径。
2.根据权利要求1所述的基因组组装方法,其特征在于,所述根据待测序基因组构建有向有环图的方法是:
根据待测序基因组得到的各个k-mers构建有向有环图的节点;
对各个k-mers的碱基进行比对,确定各个k-mers之间的有向边;
根据各个k-mers的深度对各个k-mers进行基因测序,得到根据第二代、第三代测序技术得到的实验结果,定义各条有向边的权重值ωΔ,i,j,Δ为有向路径中第i个节点和第i个节点之间边的数量。
3.根据权利要求1所述的基因组组装方法,其特征在于,根据所述有向有环图构建得到组合优化问题的无约束条件的目标函数的方法包括:
根据有向有环图构建有约束条件的目标函数f(x)和约束条件G(x);
结合有约束条件的目标函数f(x)和约束条件G(x),构建无约束条件的目标函数C(x),目标函数C(x)的解代表有向有环图的组装路径;
所述有约束条件的目标函数f(x)的表达式为:f(x)=∑Δ∑p∑i,jωΔ,i,jxi,pxj,p+Δ,
ωΔ,i,j为第i个节点和第j个节点之间边的权重;
所述约束条件包括第一约束条件和第二约束条件,其中,
第一约束条件为:基因组组装从源头开始,第1步仅选择一个节点i,表达式为:n表示节点数,i表示第i个节点,i∈[1,n];
所述第二约束条件为:当第p步选择第i个节点后,第p+1步可以选择第j个节点或者不选择任何一个节点,当第p步没有选择任何节点后,第p+1步不能选择任何节点,第二约束条件的表达式为:
或∑ixi,p+1=0,∑ixi,p=0。
4.根据权利要求3所述的基因组组装方法,其特征在于,所述无约束条件的目标函数C(x)的表达式为:
其中A、B为判罚函数,且满足B>A>>|∑Δ∑i,jωΔ,i,j|。
5.根据权利要求1所述的基因组组装方法,其特征在于,根据所述无约束条件的目标函数C(x)构建得到哈密顿量的方法为:
使用比特串X=x1,x2,...,xN编码比特xi,p+Δ,其中N=P×n,P为总步长数,n为节点数,当xi,p+Δ=1时,比特串X中的x(p+Δ-1)*n+i=1;
将比特串X=x1,x2,...,xN中的xl(l∈[1,2n2])转换为泡利算符σz和单位算符I,其转换关系式为:其中Zl为作用在第l个量子比特的泡利算符σz;
将无约束条件的目标函数C(x)转换为哈密顿量H,表达式为:
6.根据权利要求1所述的基因组组装方法,其特征在于,利用量子变分算法获得所述哈密顿量的最优本征值及其对应最优本征态的方法为:
获取当前迭代轮的参数化量子态,基于所述参数化量子态测量得到所述哈密顿量的当前轮期望值;
根据所述当前轮期望值更新得到下一迭代轮的参数化量子态并测量得到所述哈密顿量的下一轮期望值,继续迭代直至所述哈密顿量的期望值收敛,将最后一轮测量得到的哈密顿量的期望值作为最优本征值,将所述最优本征值对应的量子态作为最优本征态。
7.根据权利要求1所述的基因组组装方法,其特征在于,所述根据所述最优本征态获得所述有向有环图中最优组装路径的方法为:
根据所述最优本征态得到长度为2n2的二进制比特串;
将所述二进制比特串的高位转为低位,获得待解码二进制比特串;
将所述待解码二进制比特串均分为2n个长度为n的子比特串;
将各个子比特串转为十进制,得到最优组装路径;
其中,n表示节点数。
8.一种基因组组装装置,其特征在于,所述基因组组装装置包括:
第一构建模块,用于根据待测序基因组构建有向有环图;
第二构建模块,用于根据所述有向有环图构建得到组合优化问题的无约束条件的目标函数;
第三构建模块,用于根据所述无约束条件的目标函数构建得到哈密顿量;
量子变分求解模块,用于利用量子变分算法获得所述哈密顿量的最优本征值及其对应最优本征态;
路径解码模块,用于根据所述最优本征态获得所述有向有环图中的最优组装路径。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基因组组装程序,所述基因组组装程序被处理器执行时实现权利要求1至7任一项所述的基因组组装方法。
10.一种计算机设备,其特征在于,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的基因组组装程序,所述基因组组装程序被处理器执行时实现权利要求1至7任一项所述的基因组组装方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267687.4A CN117457067A (zh) | 2023-03-14 | 2023-03-14 | 基因组组装方法、基因组组装装置、存储介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267687.4A CN117457067A (zh) | 2023-03-14 | 2023-03-14 | 基因组组装方法、基因组组装装置、存储介质和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117457067A true CN117457067A (zh) | 2024-01-26 |
Family
ID=89587950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310267687.4A Pending CN117457067A (zh) | 2023-03-14 | 2023-03-14 | 基因组组装方法、基因组组装装置、存储介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117457067A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228972A (zh) * | 2016-12-12 | 2018-06-29 | 德国弗劳恩霍夫应用研究促进协会 | 确定用于可重配置逻辑器件的至少一个电路的布置的方法和计算机程序 |
CN108371105A (zh) * | 2018-03-16 | 2018-08-07 | 广东省农业科学院水稻研究所 | 一种基于核心系谱品种的高密度分子标记辅助聚合育种方法 |
CN112567396A (zh) * | 2018-09-11 | 2021-03-26 | 国际商业机器公司 | 用混合经典-量子计算系统计算分子系统的激发态属性 |
CN113710609A (zh) * | 2019-07-08 | 2021-11-26 | 腾讯美国有限责任公司 | 用于模拟量子系统的量子变分方法、装置及存储介质 |
CN115577776A (zh) * | 2022-09-28 | 2023-01-06 | 北京百度网讯科技有限公司 | 基态能量的确定方法、装置、设备及存储介质 |
-
2023
- 2023-03-14 CN CN202310267687.4A patent/CN117457067A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228972A (zh) * | 2016-12-12 | 2018-06-29 | 德国弗劳恩霍夫应用研究促进协会 | 确定用于可重配置逻辑器件的至少一个电路的布置的方法和计算机程序 |
CN108371105A (zh) * | 2018-03-16 | 2018-08-07 | 广东省农业科学院水稻研究所 | 一种基于核心系谱品种的高密度分子标记辅助聚合育种方法 |
CN112567396A (zh) * | 2018-09-11 | 2021-03-26 | 国际商业机器公司 | 用混合经典-量子计算系统计算分子系统的激发态属性 |
CN113710609A (zh) * | 2019-07-08 | 2021-11-26 | 腾讯美国有限责任公司 | 用于模拟量子系统的量子变分方法、装置及存储介质 |
CN115577776A (zh) * | 2022-09-28 | 2023-01-06 | 北京百度网讯科技有限公司 | 基态能量的确定方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
李丽翠 等: "真菌基因组de novo测序组装的方法与实践", 《 基因组学与应用生物学》, 31 January 2020 (2020-01-31), pages 173 - 180 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11880741B2 (en) | Systems and methods for embedding problems into an analog processor | |
CN113544711B (zh) | 用于使用聚类收缩的混合算法系统和方法 | |
US20200104715A1 (en) | Training of neural networks by including implementation cost as an objective | |
Li et al. | Development and investigation of efficient artificial bee colony algorithm for numerical function optimization | |
US8700548B2 (en) | Optimization technique using evolutionary algorithms | |
CN111581343A (zh) | 基于图卷积神经网络的强化学习知识图谱推理方法及装置 | |
KR20180004226A (ko) | 고전적 프로세서 상에서 양자-유사 계산을 에뮬레이트하기 위한 퀀톤 표현 | |
Zhang et al. | PS-Tree: A piecewise symbolic regression tree | |
JP2022522180A (ja) | 断熱発展経路の予測方法、装置、機器及びコンピュータプログラム | |
CN110598867A (zh) | 一种量子态信息转化方法 | |
CN110738362A (zh) | 一种基于改进的多元宇宙算法构建预测模型的方法 | |
US20240095535A1 (en) | Executing a genetic algorithm on a low-power controller | |
Yu et al. | Optimizing sequential diagnostic strategy for large-scale engineering systems using a quantum-inspired genetic algorithm: A comparative study | |
EP4089593A1 (en) | Method and apparatus for executing quantum operation, and chip, device and storage medium | |
CN103810388A (zh) | 基于面向映射的分块技术的大规模本体映射方法 | |
CN115545210A (zh) | 量子计算的方法和相关装置 | |
KR102542574B1 (ko) | 단백질 구조 예측 모델을 학습시키는 방법 | |
CN117291323A (zh) | 基于量子算法的车辆路径优化方法、装置、设备及介质 | |
Nguyen et al. | Improvement of code fragment fitness to guide feature construction in XCS | |
CN117457067A (zh) | 基因组组装方法、基因组组装装置、存储介质和设备 | |
CN116776996A (zh) | 组合优化问题的量子化求解方法、装置、存储介质和设备 | |
CN116682506A (zh) | 数据处理方法、训练方法、确定方法、设计方法和装置 | |
CN116739096A (zh) | 使量子计算的成本函数最小化的方法和系统 | |
KR20230132186A (ko) | 딥러닝 기반 분자 설계 방법, 이를 수행하는 장치 및 컴퓨터 프로그램 | |
Minhaz et al. | Solution of a Classical Cryptarithmetic Problem by using parallel genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |