CN113284555B

CN113284555B - 一种基因突变网络的构建方法、装置、设备及存储介质

Info

Publication number: CN113284555B
Application number: CN202110653805.6A
Authority: CN
Inventors: 杜向军; 舒跃龙; 张弛; 王樱涵; 陈材; 龙浩雨; 白俊博; 曾金锋; 曹子成; 张兵; 沈伟; 唐凤; 梁诗雯; 孙彩军
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2023-08-22
Anticipated expiration: 2041-06-11
Also published as: CN113284555A

Abstract

本发明实施例公开了一种基因突变网络的构建方法、装置、设备及存储介质，所述方法包括：获取各毒株序列的基因序列数据，根据各毒株序列的基因序列数据确定各毒株序列之间的突变概率；根据各毒株序列之间的突变概率构建至少一个初始子网络；遍历各初始子网络，将两两初始子网络之间的全局最大突变概率的毒株序列对连接，得到连通网络；基于毒株序列的采样时间确定根毒株序列，根据连通网络的连通路径以及各毒株序列与根毒株序列的突变概率确定连通网络的网络方向，得到基因突变网络。本发明实施例提供的方法通过构建拓扑结构的基因突变网络，保留了更多进化与拓扑信息，所需参数少，构建方便、节省算力。

Description

一种基因突变网络的构建方法、装置、设备及存储介质

技术领域

本发明实施例涉及生物信息学技术领域，尤其涉及一种基因突变网络的构建方法、装置、设备及存储介质。

背景技术

病毒无处不在，在医学、生物学、生物技术和生态学中都很重要。在公共卫生领域，由病毒引起的各种疾病给全球造成了巨大的疾病负担。从基因序列的角度研究病毒的演化过程对于认识病毒的演化规律、预防由病毒引起的各种疾病有着非常重要的作用。

目前，基于病毒序列开展的演化研究主要是以进化树为基础发展而来的各种系统发育分析方法，如谱系生物地理学等，这种方法往往需要借助贝叶斯的框架，要推断的参数过多，消耗过多的时间与计算资源，方法鲁棒性也较差。并且在病毒的演化过程中，毒株之间的亲缘关系并非总是单一垂直的，会存在基因水平转移的现象，同时伴有许多重组、重配的事件发生，这使得病毒演化比较复杂，用进化树研究的效果较差。

发明内容

本发明实施例提供了一种基因突变网络的构建方法、装置、设备及存储介质，以实现重建病毒的进化网络，以研究病毒的演化规律。

第一方面，本发明实施例提供了一种基因突变网络的构建方法，包括：

获取各毒株序列的基因序列数据，根据各毒株序列的基因序列数据确定各毒株序列之间的突变概率；

根据各毒株序列之间的突变概率构建至少一个初始子网络；

遍历各初始子网络，将两两初始子网络之间全局最大突变概率的毒株序列对连接，得到连通网络；

基于毒株序列的采样时间确定根毒株序列，根据连通网络的连通路径以及各毒株序列与根毒株序列的突变概率确定连通网络的网络方向，得到基因突变网络。

第二方面，本发明实施例还提供了一种基因突变网络的构建装置，包括：

突变概率确定模块，用于获取各毒株序列的基因序列数据，根据各毒株序列的基因序列数据确定各毒株序列之间的突变概率；

初始子网络构建模块，用于根据各毒株序列之间的突变概率构建至少一个初始子网络；

连通网络构建模块，用于遍历各初始子网络，将两两初始子网络之间全局最大突变概率的毒株序列对连接，得到连通网络；

基因突变网络构建模块，用于基于毒株序列的采样时间确定根毒株序列，根据连通网络的连通路径以及各毒株序列与根毒株序列的突变概率确定连通网络的网络方向，得到基因突变网络。

第三方面，本发明实施例还提供了一种计算机设备，设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如本发明任意实施例所提供的基因突变网络的构建方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的基因突变网络的构建方法。

本发明实施例通过获取各毒株序列的基因序列数据，根据各毒株序列的基因序列数据确定各毒株序列之间的突变概率；根据各毒株序列之间的突变概率构建至少一个初始子网络；遍历各初始子网络，将两两初始子网络之间全局最大突变概率的毒株序列对连接，得到连通网络；基于毒株序列的采样时间确定根毒株序列，根据连通网络的连通路径以及各毒株序列与根毒株序列的突变概率确定连通网络的网络方向，得到基因突变网络，实现了构建拓扑结构的基因突变网络，相对于现有技术中的进化树保留了更多进化与拓扑信息，所需参数少，构建方便、节省算力，并且能很好地同网络科学中的相关算法相结合，运用到病毒区域传播分析中。

附图说明

图1是本发明实施例一所提供的一种基因突变网络的构建方法的流程图；

图2是本发明实施例二所提供的一种基因突变网络的构建方法的流程图；

图3是本发明实施例三所提供的一种基因突变网络的构建方法的流程图；

图4是本发明实施例四所提供的一种基因突变网络的构建方法的流程示意图；

图5是本发明实施例五所提供的一种基因突变网络的构建装置的结构示意图；

图6是本发明实施例六所提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一所提供的一种基因突变网络的构建方法的流程图。本实施例可适用于构建基因突变网络时的情形。该方法可以由基因突变网络的构建装置执行，该基因突变网络的构建装置可以采用软件和/或硬件的方式实现，例如，该基因突变网络的构建装置可配置于计算机设备中。如图1所示，该方法包括：

S110、获取各毒株序列的基因序列数据，根据各毒株序列的基因序列数据确定各毒株序列之间的突变概率。

在本实施例中，毒株序列的基因序列数据可以通过公共数据库和/或实验测序获取。

可选的，从公共数据库和/或测序获取各毒株序列的原始序列数据，对原始序列数据进行数据预处理，得到各毒株序列的基因序列数据。可以理解的是，来自公共数据库或者实验测序得到的序列数据，由于测序条件、技术上的不同，质量上往往参差不齐，将获取的原始序列数据进行序列比对后会存在许多gap位点。为了避免因gap位点导致的后续分析过程中产生偏倚，可以对gap位点进行碱基填补，以获取规则的基因序列数据。

示例性的，对gap位点进行碱基填补可以为：定义数据集中所有毒株序列的集合为S＝{s₁，s₂，s₃，……，s_N}，存在gap的序列集合为对/>计算其与其他毒株序列之间的汉明距离(表示两条相同长度的序列对应位点碱基类型不同的数量)集合根据集合D_i每个元素中的/>对集合进行正向排序后取top₁₀的元素中的毒株序列作为参考，根据上述10条参考序列在同一位点出现的最大频率的碱基类型进行填补。重复上述过程，直至数据集中每一条序列均不存在gap位点。

得到各毒株序列的基因序列数据后，针对每两个毒株序列，根据毒株序列的基因序列数据计算其突变概率。可选的，可以首先计算不同碱基类型之间的转换概率，然后根据不同碱基类型之间的转换概率计算毒株序列之间的突变概率。

示例性的，计算不同碱基类型之间的转换概率可以为：依据GTR核苷酸替换模型，两种核苷酸之间的相互转换概率相同，则共有6种核苷酸碱基的替换类型。对于时间间隔较短或者回复突变发生较少的病原体，可以简化计算过程。首先定义6种核苷酸碱基转换类型统计数据集中两两毒株序列之间汉明距离为1的序列对的碱基差异类型，得到6种核苷酸碱基转换类型发生的频数F＝{f_i|i∈I}，随后计算得到6种核苷酸碱基转换类型对应的概率π＝{π_i}，其中/>i∈I。计算毒株序列之间的突变概率可以为：两两毒株序列(s₁，s₂)之间的突变概率计算为其中ni为s₁，s₂之间第i(i∈I)种碱基差异类型发生的数量。

S120、根据各毒株序列之间的突变概率构建至少一个初始子网络。

得到两两毒株序列之间的突变概率后，基于突变概率判断毒株序列之间是否存在进化关系，并将可能存在进化关系的毒株序列连接，得到至少一个初始子网络。

可选的，可以预先设置初始子网络突变阈值，将突变概率大于预先设置的初始子网络突变阈值的毒株序列判定为可能存在进化关系的毒株序列。毒株序列的不同，初始子网络突变阈值的设置也相应不同，但人为设置的初始子网络突变阈值通常基于经验确定，准确性不高。因此，可以基于毒株序列之间的突变概率确定初始子网络突变阈值，以使初始子网络突变阈值的设置更加准确，进而使初始子网络的构建更加准确。

在本发明的一种实施方式中，根据各毒株序列之间的突变概率构建至少一个初始子网络，包括：针对每个毒株序列，根据各毒株序列之间的突变概率，确定毒株序列与其他毒株序列的最大突变概率，并将最大突变概率对应的毒株序列和其他毒株序列构成的序列对作为基准初始网络序列对；基于各基准初始网络序列对的突变概率确定初始子网络突变阈值，并根据初始子网络突变阈值从各毒株序列的两两毒株序列对中选取目标初始网络序列对；将目标初始网络序列对中的毒株序列连接，得到至少一个初始子网络。可选的，针对每个毒株序列，基于该毒株序列与其他毒株序列之间的突变概率，选取出与该毒株序列之间的突变概率最大的其他毒株序列，构建基准初始网络序列对。将每个毒株序列对应的基准初始网络序列对的突变概率组成最大突变概率集合，计算最大突变概率集合中的突变概率特征值作为初始子网络突变阈值，选取大于初始子网络突变阈值的突变阈值对应的各毒株序列的两两毒株序列对作为目标初始网络序列对，将目标初始网络序列对中的毒株序列连接，得到初始子网络。可以理解的是，基准初始网络序列对的数量不多于毒株序列的数量。最大突变概率集合中的突变概率特征值可以根据毒株序列之间的亲缘程度以及最终网络的稀疏程度进行调整，如可以为集合中第10百分位数的突变概率值、突变概率的均值等。

示例性的，假设共有4个毒株序列：毒株序列s₁、毒株序列s₂、毒株序列s₃和毒株序列s₄，毒株序列s₁与毒株序列s₂之间的突变概率为p(s₁,s₂)，毒株序列s₁与毒株序列s₃之间的突变概率为p(s₁,s₃)，毒株序列s₁与毒株序列s₄之间的突变概率为p(s₁,s₄)；毒株序列s₂与毒株序列s₃之间的突变概率为p(s₂,s₃)，毒株序列s₂与毒株序列s₄之间的突变概率为p(s₂,s₄)；毒株序列s₃与毒株序列s₄之间的突变概率为p(s₃,s₄)。则针对毒株序列s₁，从p(s₁,s₂)、p(s₁,s₃)和p(s₁,s₄)中选取出最大突变概率，假设p(s₁,s₃)为p(s₁,s₂)、p(s₁,s₃)和p(s₁,s₄)中的最大突变概率，则将毒株序列s₁和毒株序列s₃组成的序列对作为基准初始网络序列对；针对毒株序列s₂，从p(s₁,s₂)、p(s₂,s₃)和p(s₂,s₄)中选取出最大突变概率，假设p(s₂,s₄)为p(s₁,s₂)、p(s₂,s₃)和p(s₂,s₄)中的最大突变概率，则将毒株序列s₂和毒株序列s₄组成的序列对作为基准初始网络序列对；针对毒株序列s₃，从p(s₁,s₃)、p(s₂,s₃)和p(s₃,s₄)中选取出最大突变概率，假设p(s₂,s₃)为p(s₁,s₃)、p(s₂,s₃)和p(s₃,s₄)中的最大突变概率，则将毒株序列s₂和毒株序列s₃组成的序列对作为基准初始网络序列对；针对毒株序列s₄，从p(s₁,s₄)、p(s₂,s₄)和p(s₃,s₄)中选取出最大突变概率，假设p(s₃,s₄)为p(s₃,s₄)、p(s₂,s₄)和p(s₃,s₄)中的最大突变概率，则将毒株序列s₃和毒株序列s₄组成的序列对作为基准初始网络序列对；即得到基准初始网络序列对：{毒株序列s₁和毒株序列s₃}、{毒株序列s₂和毒株序列s₄}{毒株序列s₂和毒株序列s₃}和{毒株序列s₃和毒株序列s₄}，其对应的突变概率依次为p(s₁,s₃)、p(s₂,s₄)、p(s₂,s₃)和p(s₃,s₄)。然后计算集合{p(s₁,s₃)、p(s₂,s₄)、p(s₂,s₃)和p(s₃,s₄)}的突变概率特征值作为初始子网络突变阈值。遍历4个毒株序列的两两序列组合，假设p(s₁,s₂)、p(s₁,s₃)、p(s₂,s₄)、p(s₂,s₃)大于初始子网络突变阈值，则将毒株序列s₁和毒株序列s₂连接，将毒株序列s₁和毒株序列s₃连接，将毒株序列s₂和毒株序列s₄连接，将毒株序列s₂和毒株序列s₃连接，得到初始子网络。

可以理解的是，上述示例中，毒株序列的数量较少，因此筛选出的毒株序列连接成了一个初始子网络。当实际构建网络时，毒株序列的数量较多，可能会得到不止一个初始子网络。

在上述方案的基础上，基于各基准初始网络序列对的突变概率确定初始子网络突变阈值，并根据初始子网络突变阈值从各所述毒株序列的两两毒株序列对中选取目标初始网络序列对，包括：将各基准初始网络序列对的突变概率的第10百分位数作为初始子网络突变阈值；将各所述毒株序列的两两毒株序列对中突变概率大于初始子网络突变阈值的毒株序列对对作为目标初始网络序列对。可选的，可以将突变概率的第10百分位数作为初始子网络突变阈值，将突变概率大于第10百分位数的突变阈值对应的毒株序列对作为目标初始网络序列对。

S130、遍历各初始子网络，将两两初始子网络之间全局最大突变概率的毒株序列对连接，得到连通网络。

初始子网络通常不是一个连通网络，为得到连通的基因突变网络，可以基于初始子网络之间的突变概率将不同初始子网络中的毒株序列连接，得到连通的网络。

可选的，将不同初始子网络中的毒株序列相连接可以为当两个初始子网络中突变概率最大的两个毒株序列为所有两两初始子网络之间突变概率最大的两个毒株序列时，将两个初始子网络中突变概率最大的两个毒株序列相连接，生成新的子网络。

一个实施例中，遍历各初始子网络，将两两所述初始子网络之间全局最大突变概率的毒株序列对连接，得到连通网络，包括：遍历各初始子网络，将当前初始子网络中的初始毒株序列与其他初始子网络中的其他毒株序列组成的毒株序列对作为基准连通网络序列对，并确定各基准连通网络序列对的突变概率；将所有两两初始子网络之间的基准连通网络序列对中全局突变概率最大的序列对作为目标连通网络序列对，将目标连通网络序列对中的毒株序列连接，直到遍历完所有所述初始子网络，得到连通网络。具体的，遍历各初始子网络，针对遍历到的初始子网络，计算该初始子网络同其他初始子网络之间的所有序列对的突变概率，将所有两两初始子网络之间的全局最大突变概率所对应的序列对作为目标连通网络序列对，将目标连通网络序列对中的毒株序列连接，生成新的子网络，迭代上述过程，直至遍历完所有初始子网络，得到连通网络。

示例性的，假设构建了3个互不连接的初始子网络：初始子网络H₁、初始子网络H₂和初始子网络H₃，初始子网络H₁中包含毒株序列s₁和毒株序列s₂，初始子网络H₂中包含毒株序列s₃和毒株序列s₄，初始子网络H₃中包含毒株序列s₅和毒株序列s₆。具体的，计算初始子网络H₁与初始子网络H₂的两两序列对的突变概率p(s₁,s₃)、p(s₁,s₄)、p(s₂,s₃)和p(s₂,s₄)，假设最大值(即最大突变概率)为p(s₁,s₄)，以及初始子网络H₁与初始子网络H₃的两两序列对的突变概率p(s₁,s₅)、p(s₁,s₆)、p(s₂,s₅)和p(s₂,s₆)，假设最大值为p(s₁,s₅)；初始子网络H₂与初始子网络H₃的两两序列对的突变概率p(s₃,s₅)、p(s₃,s₆)、p(s₄,s₅)和p(s₅,s₆)，假设最大值为p(s₃,s₅)；再计算p(s₁,s₄)、p(s₁,s₅)和p(s₃,s₅)中的最大值，假设为p(s₁,s₄)，则将毒株序列s₁和毒株序列s₄作为目标连通网络序列对，将毒株序列s₁和毒株序列s₄连接实现初始子网络H₁和初始子网络H₂的连通，生成新的子网络H₄；迭代上述过程，采用上述同样方式确定新的目标连通网络序列对，将其连接，实现新的子网络H₄和初始子网络H₃的连通，得到一个连通网络，连边的权重为两节点毒株序列之间的突变概率。

S140、基于毒株序列的采样时间确定根毒株序列，根据连通网络的连通路径以及各毒株序列与根毒株序列的突变概率确定连通网络的网络方向，得到基因突变网络。

在得到一个连通网络后，确定连通网络中连边的方向，即可得到一个完整的基因突变网络。根据基因的进化突变属性可知，基因是随时间进行突变的，因此可以将采样时间最早的毒株序列作为根毒株序列，即作为基因突变网络的根节点，然后基于采样时间，及突变概率确定网络方向。

可选的，基于毒株序列的采样时间确定根毒株序列，根据连通网络的连通路径以及各毒株序列与根毒株序列的突变概率确定连通网络的网络方向，包括：将采样时间最早的毒株序列作为根毒株序列；根据根毒株序列到其他毒株序列的最短路径确定主干连边方向；根据其他毒株序列与根毒株序列的突变概率，以及各毒株序列的采样时间确定局部连边方向。由于连边的权重为两节点毒株序列之间的突变概率，为了方便计算，先将网络连边的权重进行负log转换，可以理解的是，突变概率越小，负log转换后的连边权重越大，表明基因突变的次数可能越多，采样时间越晚，表明基因突变的时间越晚。基于上述思路，可以采用Dijkstra算法求出对应的最短路径及其长度。根据从根节点到所有其他毒株节点的最短路径来定义主干连边的方向，主干的连边方向确定之后还剩余局部连边，局部连边的方向具体可根据三个条件来判断：1)基于连边的两端节点同根节点最短路径长度，由路径短的指向路径长的；2)基于连边的两端节点同根节点的突变概率，由突变概率大的指向突变概率小的；3)基于连边的两端节点的采样时间，由采样时间早的指向采样时间晚的。上述三个条件的优先级依次由1>2>3，最终得到一个有权有向的连通网络，即得到基因突变网络。

实施例二

图2是本发明实施例二所提供的一种基因突变网络的构建方法的流程图。本实施例在上述实施例的基础上，增加了区域传播分析的操作。如图2所示，该方法包括：

S210、获取各毒株序列的基因序列数据，根据各毒株序列的基因序列数据确定各毒株序列之间的突变概率。

S220、根据各毒株序列之间的突变概率构建至少一个初始子网络。

S230、遍历各初始子网络，将两两初始子网络之间全局最大突变概率的毒株序列对连接得到连通网络。

S240、基于毒株序列的采样时间确定根毒株序列，根据连通网络的连通路径以及各毒株序列与根毒株序列的突变概率确定连通网络的网络方向，得到基因突变网络。

S250、通过随机游走方法，以及各毒株序列的区域属性，确定基因突变网络中各区域间的传播强度。

在图论中，节点之间的连边与连边的权重反应了两节点之间联系的紧密程度，而节点的重要性可以通过随机游走算法进行度量，结合连边的权重以及随机游走算法可以度量网络中不同重要性的节点之间的关系强弱。对应基因突变网络中，将毒株序列之间的突变概率作为毒株序列连边的权重，基于此，通过随机游走方法，结合毒株序列的区域属性，可以实现对毒株在各区域间的传播强度进行分析。其中，毒株序列的区域属性可以在公共数据库和/或测序中直接获取。

示例性的，可以首先计算节点(即毒株序列)v_i的Pagerank值pg_i，将其作为概率随机抽取网络中的节点作为游走的起始点。从起始点开始，沿着有向的连边路径游走，其下一步的游走方向(即到达的子节点)基于概率进行随机选取，不断游走，直至到达终端节点，结束一次游走。结合节点的区域属性，统计每一条随机游走路径中发生的区域间传播次数。随机游走过程重复多次，合计每一次随机游走的区域转换事件，再除以游走次数即可得到各区域间的传播强度矩阵，完成毒株在各区域间的传播强度分析。

本发明实施例在上述实施例的基础上，增加了区域传播分析的操作，通过随机游走方法，以及各毒株序列的区域属性，确定在基因突变网络中各区域间的传播强度，实现了病毒的区域传播分析，使得基于基因突变网络的区域间的传播强度分析更加准确。

实施例三

图3是本发明实施例三所提供的一种基因突变网络的构建方法的流程图。本实施例在上述实施例的基础上，增加了突变主干分析的操作。如图3所示，该方法包括：

S310、获取各毒株序列的基因序列数据，根据各毒株序列的基因序列数据确定各毒株序列之间的突变概率。

S320、根据各毒株序列之间的突变概率构建至少一个初始子网络。

S330、遍历各初始子网络，将两两初始子网络之间全局最大突变概率的毒株序列对连接，得到连通网络。

S340、基于毒株序列的采样时间确定根毒株序列，根据连通网络的连通路径以及各毒株序列与根毒株序列的突变概率确定连通网络的网络方向，得到基因突变网络。

S350、随机确定初始毒株序列节点以及目标毒株序列节点。

从序列的角度研究病毒的区域传播时，往往会构建其系统发生树，随后推断祖先节点以重建系统发生树的主干，通过计算各个区域在进化树主干中的占比来分析各区域在病毒区域间传播中所处的地位，占比越大，说明该区域更可能是传播发生的源头区域以及扩散过程中的重要区域。在本实施例构建的基因突变网络中，存在相应的网络主干。

可选的，突变主干分析可以基于重复随机选取初始节点和目标节点确定的最短路径实现。示例性的，可以将突变网络中的节点集合V划分为两个集合V_source和V_sink，其中V_sink是网络中出度为0的边缘节点集合，而V_source是网络中出度不为0的节点集合，每次从V_source中随机抽取一个节点v_i作为初始毒株序列节点，将V_sink中的节点V_j作为目标毒株序列节点，基于确定的初始毒株序列节点和目标毒株序列节点进行路径确定及突变主干分析。

S360、基于初始毒株序列节点到目标毒株序列节点的最短路径得到途径毒株序列节点。

S370、根据途径毒株序列节点的区域属性确定各区域在基因突变网络中的主干占比。

可选的，确定初始毒株序列节点到目标毒株序列节点的最短路径，将最短路径中途径的节点作为途径毒株序列节点，统计多次最短路径的途径毒株序列节点，结合毒株序列的区域属性确定区域的主干占比。

仍以初始毒株序列节点为V_i，目标毒株序列为节点V_j为例，计算V_i到之间的最短路径(l_ij)，得到节点V_i对应的末端最短路径集合L_vi，对/>可以取出该条路径上经过的节点的集合V(l_ij)，得到每次抽样节点V_i所对应的所有最短路径上经过的节点的集合V_vi。该过程重复多次，即可得到所有在最短路径上出现的节点的集合V_l，统计在集合V_l的占比即得到该节点的BC_i′。每个节点均有自己的区域属性r_i，于是将集合V_l转换为最短路径上出现的区域集合R_l，对于所有区域R＝{r₁，r₂，……，r_n}，统计在集合R_l的占比即得到各区域在突变网络主干中的占比集合，完成区域的突变主干分析。

本发明实施例在上述实施例的基础上，增加了突变主干分析的操作，通过随机确定初始毒株序列节点以及目标毒株序列节点，基于所述初始毒株序列节点到所述目标毒株序列节点的最短路径得到途径毒株序列节点，根据途径毒株序列节点的区域属性确定各区域在所述基因突变网络中的主干占比，实现了病毒的区域突变主干分析，使得基于基因突变网络的突变主干分析更加准确。。

实施例四

本实施例在上述实施例的基础上，提供了一种优选实施例。

一、病毒基因突变网络的构建

图4是本发明实施例四所提供的一种基因突变网络的构建方法的流程示意图。图4中以病毒序列为流感DNA为例，对基因突变网络的构建进行说明。

结合图4，基因突变网络的构建主要包括：

1)数据预处理

来自公共数据库或者实验测序得到的序列数据，由于测序条件、技术上的不同，质量上往往参差不齐。为了避免因gap而导致后续分析过程中产生偏倚，采取了一定的方式对存在gap的位点进行碱基填补。

具体的，定义数据集中所有毒株序列的集合为S＝{s₁，s₂，s₃，……，s_N}，存在gap的序列集合为对/>计算它与其他毒株序列之间的汉明距离(表示两条相同长度的序列对应位点碱基类型不同的数量)集合/>根据集合D_i每个元素中的/>对集合进行正向排序后取top₁₀的元素中的毒株序列作为参考，根据这10条参考序列在同一位点出现的最大频率的碱基类型进行填补。重复上述过程，直至数据集中每一条序列均不存在gap位点。

然后，计算不同碱基类型之间的转换概率以及毒株序列之间的突变概率，具体方式可参照上述实施例，在此不再赘述。

2)构建初始网络

需要确定一个初始连接阈值，作为不能拒绝两毒株序列之间存在直接进化关系的突变概率值。首先，对每一条毒株序列s_i，计算它与其他毒株序列之间的突变概率集合得到该条毒株序列在数据集中的最大突变概率p_max(i)＝max(P_i)，遍历所有毒株，则得到所有毒株的最大突变概率集合P_max＝{P_max(i)|i∈N}，以该集合的第10百分位数P_max10作为初始连接阈值(可以根据毒株序列之间的亲缘程度以及最终网络的稀疏程度进行调整)，小于该值则认为两序列之间不存在直接进化关系。当两两毒株序列之间的突变概率大于或等于这个阈值时，将两毒株相连，得到初始网络G₀＝(V₀，E₀)(即初始子网络)，连边的权重为连边两端节点之间的突变概率。

3)连通子网络

初始网络G₀往往是不连通的，存在许多子网络定义集合C_i为每个子网络中包含的毒株序列。两个子网络之间的突变概率定义为/>所有两两子网络之间的全局最大突变概率计算为/>基于最大概率连接的原则，每次迭代向初始网络G₀中添加新的连边e_k，定义为e_k＝{(s_i，s_j)i,j∈P_H}，每添加一次连边后形成新的网络G_i，随后重复上述过程直至形成一个连通的网络G＝(V，E)(即连通网络)。

4)确定网络方向

病毒的进化突变过程往往是一个有向的过程，因此需要定义网络中连边的方向。首先需要定义一个根节点v₀，本发明实施例以采样时间最早的毒株为根节点，随后计算根节点到所有其他毒株节点v_n之间的最大突变概率路径l_n及其长度d_n，其中d_n＝∏w(e_ij)|e_ij∈l_n。为了方便计算，在计算时将连边的权重进行负log转换：w′(e_ij)＝-log₂w(e_ij)，即将最大突变概率路径问题转换为最短路径问题，最后计算根节点到节点v_n的最短路径长度为：d′_n＝∑w′(e_ij)|e_ij∈l_n。采用Dijkstra算法求出对应的最短路径l_n及其长度d′。根据从根节点到所有其他毒株节点的最短路径来定义主干连边的方向，主干的连边方向确定之后还剩余的局部连边，局部连边的方向根据三个条件来判断：a、基于连边的两端节点同根节点最短路径长度，由路径短的指向路径长的；b、基于连边的两端节点同根节点的突变概率，由突变概率大的指向突变概率小的；c、基于连边的两端节点的采样时间，由采样时间早的指向采样时间晚的。三个条件的优先级依次由a->b->c，最终得到一个有权有向的连通网络G，即基因突变网络。

二、区域传播分析

在图论中，节点之间的连边与连边的权重反应了两节点之间联系的紧密程度，而节点的重要性可以通过随机游走算法进行度量，结合连边的权重以及随机游走算法可以度量网络中不同重要性的节点之间的关系强弱。病毒的进化突变过程往往是逐步发生的，结合上述思想可以探究突变网络G中毒株节点之间的传播关系，数据库中下载以及测序得到的每株毒株都有自己的区域属性r_i，所有区域的集合为R＝{r₁，r₂，……，r_n}。可以通过计算突变网络中节点间的传播关系结合节点的区域属性来探讨病毒的区域传播关系。

具体的，可以基于随机游走进行区域传播分析：定义其出度为表示节点v_i的子节点数量，其子节点的集合为/>在有权图中，其出强度为首先在突变网络G(V,E)中计算每个节点v_i的Pagerank值pg_j，以此作为概率随机抽取网络中的节点作为游走的起始点。从起始点开始，沿着有向的连边路径游走，其下一步的游走方向(即到达的子节点)是基于概率/>进行随机选取，不断游走，直至到达终端节点/>结束一次游走。结合节点的区域属性，统计每一条随机游走路径中发生的区域间传播次数。随机游走过程重复10000次，合计每一次随机游走的区域转换事件，再除以游走次数(10000)得到区域间的传播强度矩阵其中t_ij对应每一次游走中发生的区域r_i到区域r_j的转换次数。

三、突变主干分析

分析突变网络G(V,E)中的突变主干以定量计算各个区域在主干中的占比来衡量各区域在病毒传播中的重要性。首先，运用Dijkstra算法进行计算时需要将连边的权重进行负log转换：w′(e_ij)＝-log₂w(e_ij)。将突变网络中的节点集合V划分为两个集合每次从V_source中随机抽取一个节点v_i，计算v_i到/>之间的最短路径(l_ij)，得到节点v_i对应的末端最短路径集合L_vi＝{l_ij|v_j∈V_sink}，对/>可以取出该条路径上经过的节点的集合V(l_ij)＝{v_k|v_k∈l_ij，k≠i≠j}，随后得到每次抽样节点v_i所对应的所有最短路径上经过的节点的集合/>该过程重复1000次，得到所有在最短路径上出现的节点的集合/>基于各节点的区域属性r_i将集合V_l转换为最短路径上出现的区域集合R_l＝{r_i|v_i∈V_l}，对于所有区域R＝{r₁，r₂，……，r_n}，统计在集合R_l的占比即得到各区域在突变网络主干中的占比集合

本发明实施例提供的技术方案，发展了一套基于流感病毒基因序列的流感病毒突变网络构建框架，相较于传统的进化树分析，网络的拓扑结构保留了更多的进化可能与拓扑信息，所需参数少，构建方便、节省算力，同现有一些网络分析的应用相比，突变网络框架更系统，并且可以很好地同网络科学中的相关算法相结合。

实施例五

图5是本发明实施例五所提供的一种基因突变网络的构建装置的结构示意图。该基因突变网络的构建装置可以采用软件和/或硬件的方式实现，例如该基因突变网络的构建装置可以配置于计算机设备中。如图5所示，该装置包括突变概率确定模块510、初始子网络构建模块520、连通网络构建模块530和基因突变网络构建模块540，其中：

突变概率确定模块510，用于获取各毒株序列的基因序列数据，根据各毒株序列的基因序列数据确定各毒株序列之间的突变概率；

初始子网络构建模块520，用于根据各毒株序列之间的突变概率构建至少一个初始子网络；

连通网络构建模块530，用于遍历各初始子网络，将两两所述初始子网络之间全局最大突变概率的毒株序列对连接，得到连通网络；

基因突变网络构建模块540，用于基于毒株序列的采样时间确定根毒株序列，根据连通网络的连通路径以及各毒株序列与根毒株序列的突变概率确定连通网络的网络方向，得到基因突变网络。

本发明实施例通过突变概率确定模块获取各毒株序列的基因序列数据，根据各毒株序列的基因序列数据确定各毒株序列之间的突变概率；初始子网络构建模块根据各毒株序列之间的突变概率构建至少一个初始子网络；连通网络构建模块遍历各初始子网络，将两两所述初始子网络之间全局最大突变概率的毒株序列对连接，得到连通网络；基因突变网络构建模块基于毒株序列的采样时间确定根毒株序列，根据连通网络的连通路径以及各毒株序列与根毒株序列的突变概率确定连通网络的网络方向，得到基因突变网络，实现了构建拓扑结构的基因突变网络，相对于现有技术中的进化树保留了更多进化与拓扑信息，所需参数少，构建方便、节省算力，并且能很好地同网络科学中的相关算法相结合，运用到病毒区域传播分析中。

可选的，在上述方案的基础上，初始子网络构建模块520具体用于：

针对每个毒株序列，根据各毒株序列之间的突变概率，确定毒株序列与其他毒株序列的最大突变概率，并将最大突变概率对应的毒株序列和其他毒株序列构成的序列对作为基准初始网络序列对；

基于各基准初始网络序列对的突变概率确定初始子网络突变阈值，并根据初始子网络突变阈值从各所述毒株序列的两两毒株序列对中选取目标初始网络序列对；

将目标初始网络序列对中的毒株序列连接，得到至少一个初始子网络。

将各基准初始网络序列对的突变概率的第10百分位数作为初始子网络突变阈值；

将各所述毒株序列的两两毒株序列对中突变概率大于初始子网络突变阈值的毒株序列对对作为目标初始网络序列对。

可选的，在上述方案的基础上，连通网络构建模块530具体用于：

遍历各初始子网络，将当前初始子网络中的初始毒株序列与其他初始子网络中的其他毒株序列组成的毒株序列对作为基准连通网络序列对，并确定各基准连通网络序列对的突变概率；

将所有两两初始子网络之间的基准连通网络序列对中全局突变概率最大的序列对作为目标连通网络序列对，将目标连通网络序列对中的毒株序列连接，直到遍历完所有初始子网络，得到连通网络。

可选的，在上述方案的基础上，基因突变网络构建模块540具体用于：

将采样时间最早的毒株序列作为根毒株序列；

根据根毒株序列到其他毒株序列的最短路径确定主干连边方向；

根据其他毒株序列与根毒株序列的突变概率，以及各毒株序列的采样时间确定局部连边方向。

可选的，在上述方案的基础上，装置还包括传播分析模块，用于：

通过随机游走方法，以及各毒株序列的区域属性，确定基因突变网络中各区域间的传播强度。

可选的，在上述方案的基础上，装置还包括突变分析模块，用于：

随机确定初始毒株序列节点以及目标毒株序列节点；

基于初始毒株序列节点到目标毒株序列节点的最短路径得到途径毒株序列节点；

根据途径毒株序列节点的区域属性确定各区域在基因突变网络中的主干占比。

本发明实施例所提供的基因突变网络的构建装置可执行本发明任意实施例所提供的基因突变网络的构建方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6是本发明实施例六所提供的一种计算机设备的结构示意图。图6是本发明实施例六所提供的计算机设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备612的框图。图6显示的计算机设备612仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备612以通用计算设备的形式表现。计算机设备612的组件可以包括但不限于：一个或者多个处理器616，系统存储器628，连接不同系统组件(包括系统存储器628和处理器616)的总线618。

总线618表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器616或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备612访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器628可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)630和/或高速缓存存储器632。计算机设备612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储装置634可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储器628可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块642的程序/实用工具640，可以存储在例如存储器628中，这样的程序模块642包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备612也可以与一个或多个外部设备614(例如键盘、指向设备、显示器624等)通信，还可与一个或者多个使得用户能与该计算机设备612交互的设备通信，和/或与使得该计算机设备612能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且，计算机设备612还可以通过网络适配器620与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器620通过总线618与计算机设备612的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备612使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器616通过运行存储在系统存储器628中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的基因突变网络的构建方法，该方法包括：

根据各毒株序列之间的突变概率构建至少一个初始子网络；

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的基因突变网络的构建方法的技术方案。

实施例七

本发明实施例七还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例所提供的基因突变网络的构建方法，该方法包括：

根据各毒株序列之间的突变概率构建至少一个初始子网络；

当然，本发明实施例所提供的一种计算机可读存储介质，其上存储的计算机程序不限于如上的方法操作，还可以执行本发明任意实施例所提供的基因突变网络的构建方法的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基因突变网络的构建方法，其特征在于，包括：

获取各毒株序列的基因序列数据，根据各所述毒株序列的基因序列数据确定各所述毒株序列之间的突变概率；

根据各所述毒株序列之间的突变概率构建至少一个初始子网络；

遍历各所述初始子网络，将两两所述初始子网络之间全局最大突变概率的毒株序列对连接，得到连通网络；

基于所述毒株序列的采样时间确定根毒株序列，根据所述连通网络的连通路径以及各所述毒株序列与所述根毒株序列的突变概率确定所述连通网络的网络方向，得到所述基因突变网络；

其中，所述根据各所述毒株序列之间的突变概率构建至少一个初始子网络，包括：

针对每个所述毒株序列，根据各所述毒株序列之间的突变概率，确定所述毒株序列与其他毒株序列的最大突变概率，并将所述最大突变概率对应的所述毒株序列和其他毒株序列构成的序列对作为基准初始网络序列对；

基于各所述基准初始网络序列对的突变概率确定初始子网络突变阈值，并根据所述初始子网络突变阈值从各所述毒株序列的两两毒株序列对中选取目标初始网络序列对；

将所述目标初始网络序列对中的毒株序列连接，得到至少一个初始子网络；

所述遍历各初始子网络，将两两所述初始子网络之间的全局最大突变概率的毒株序列对连接，得到连通网络，包括：

遍历各所述初始子网络，将当前初始子网络中的初始毒株序列与其他初始子网络中的其他毒株序列组成的毒株序列对作为基准连通网络序列对，并确定各所述基准连通网络序列对的突变概率；

将所有两两初始子网络之间的基准连通网络序列对中全局突变概率最大的序列对作为目标连通网络序列对，将所述目标连通网络序列对中的毒株序列连接，直到遍历完所有所述初始子网络，得到所述连通网络。

2.根据权利要求1所述的方法，其特征在于，所述基于各所述基准初始网络序列对的突变概率确定初始子网络突变阈值，并根据所述初始子网络突变阈值从各所述毒株序列的两两毒株序列对中选取目标初始网络序列对，包括：

将各所述基准初始网络序列对的突变概率的第10百分位数作为所述初始子网络突变阈值；

将各所述毒株序列的两两毒株序列对中突变概率大于所述初始子网络突变阈值的毒株序列对作为所述目标初始网络序列对。

3.根据权利要求1所述的方法，其特征在于，所述基于所述毒株序列的采样时间确定根毒株序列，根据所述连通网络的连通路径以及各所述毒株序列与所述根毒株序列的突变概率确定所述连通网络的网络方向，包括：

将采样时间最早的毒株序列作为所述根毒株序列；

根据所述根毒株序列到其他毒株序列的最短路径确定主干连边方向；

根据其他毒株序列与所述根毒株序列的突变概率，以及各所述毒株序列的采样时间确定局部连边方向。

4.根据权利要求1所述的方法，其特征在于，还包括：

通过随机游走方法，以及各所述毒株序列的区域属性，确定所述基因突变网络中各区域间的传播强度。

5.根据权利要求1所述的方法，其特征在于，还包括：

随机确定初始毒株序列节点以及目标毒株序列节点；

基于所述初始毒株序列节点到所述目标毒株序列节点的最短路径得到途径毒株序列节点；

根据途径毒株序列节点的区域属性确定各区域在所述基因突变网络中的主干占比。

6.一种基因突变网络的构建装置，其特征在于，包括：

突变概率确定模块，用于获取各毒株序列的基因序列数据，根据各所述毒株序列的基因序列数据确定各所述毒株序列之间的突变概率；

初始子网络构建模块，用于根据各所述毒株序列之间的突变概率构建至少一个初始子网络；

连通网络构建模块，用于遍历各所述初始子网络，将两两所述初始子网络之间全局最大突变概率的毒株序列对连接，得到连通网络；

基因突变网络构建模块，用于基于所述毒株序列的采样时间确定根毒株序列，根据所述连通网络的连通路径以及各所述毒株序列与所述根毒株序列的突变概率确定所述连通网络的网络方向，得到所述基因突变网络；

其中，所述初始子网络构建模块具体用于：

将目标初始网络序列对中的毒株序列连接，得到至少一个初始子网络；

所述连通网络构建模块具体用于：

7.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的基因突变网络的构建方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的基因突变网络的构建方法。