CN111899791A

CN111899791A - 一种基于基因序列相似的病毒源头筛选方法

Info

Publication number: CN111899791A
Application number: CN202010551838.5A
Authority: CN
Inventors: 刘杨; 刘子超
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-11-06
Anticipated expiration: 2040-06-17
Also published as: CN111899791B

Abstract

本发明涉及一种基于基因序列相似的病毒源头筛选方法，属于生物基因数据处理技术领域。本发明先获取目前已知病毒的基因序列及其对应的病毒源头信息，组建病毒基因数据库；接着对病毒基因序列进行切片，得到基因片段；对待测病毒基因序列也按照相同切片手段切割成若干基因片段，根据基因序列相似算法在数据库中检索其相似的病毒基因片段，以实现查找病毒源头的目的。本发明与现有技术相比，主要解决了现有技术针对病毒源头筛选时存在的病毒变异而导致的准确度不高、对比效率低等现象，在保证对比效率的同时优化了匹配的准确度，实现了高质量的病毒源头筛选工作。

Description

一种基于基因序列相似的病毒源头筛选方法

技术领域

本发明涉及一种基于基因序列相似的病毒源头筛选方法，属于生物基因数据处理技术领域。

背景技术

在当今生物基因数据处理领域，已经有成熟的动态规划算法用于基因序列相似比对中，如BlasT和FASTA。通过动态规划算法，可以有效地计算待测基因序列与数据库中现有基因序列的相似程度。

然而，就病毒基因而言，在现有动态规划算法的实际应用中，因病毒变异而导致的匹配失败现象非常多，从而拉低了整体的匹配准确度。现有技术公开了申请号为201910807357.3的一种基因序列比对方法及装置，可以根据待检测的基因序列生成第一哈希值序列；将第一哈希值序列分别与标准哈希值序列中的各哈希值子序列进行比对，确定第一哈希值序列分别相对于各哈希值子序列的比对结果，比对结果为相同或不相同，其中，标准哈希值序列根据标准基因序列生成；根据比对结果确定第一数量和第二数量，根据第一数量和第二数量确定待检测的基因序列与标准基因序列的匹配程度，其中，各比对结果中为不相同的比对结果的数量为第一数量，各比对结果中为相同的比对结果对应的各哈希值子序列中相邻的哈希值子序列的数量为第二数量。该技术同样可造成因病毒变异而导致的匹配失败现象，为了提高病毒基因的匹配，发现病毒源头信息，还是需要一种高准确度的基因序列相似算法。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足，提供一种基于基因序列相似的病毒源头筛选方法，以解决现有技术针对病毒源头筛选时存在的病毒变异而导致的准确度不高、对比效率低等问题。

本发明的技术方案是：一种基于基因序列相似的病毒源头筛选方法，具体步骤为：

Step1：获取目前已知病毒virus_i,i∈[1,D]的基因序列gene_i,i∈[1,D]及其对应的病毒源头信息info_i,i∈[1,D]，组建病毒基因数据库，其中D为病毒基因数据库中病毒的个数。

Step2：对病毒基因数据库中的病毒基因序列gene_i,i∈[1,D]进行M段切片，如公式(1)所示，其中gene_i,j,i∈[1,D],j∈[1,M]为病毒基因序列gene_i,i∈[1,D]的基因片段。

gene_i＝[gene_i,1,gene_i,2,…,gene_i,M],i∈[1,D] (1)

Step3：对待测病毒基因序列retgene也按照Step2所述切片手段切割成若干基因片段，如公式(2)所示，其中retgene_j,j∈[1,M]为待测病毒基因序列retgene的基因片段。

retgene＝[retgene₁,retgene₂,…,retgene_M] (2)

Step4：根据基因序列相似算法在数据库中检索与待测病毒基因序列retgene的基因片段retgene_j,j∈[1,M]相似的病毒基因片段gene_i,j,i∈[1,D],j∈[1,M]，若两者的相似度sim≥α，则将病毒基因片段gene_i,j,i∈[1,D],j∈[1,M]所对应的病毒virus_i,i∈[1,D]、病毒基因序列gene_i,i∈[1,D]以及病毒源头信息info_i,i∈[1,D]输出。

进一步地，所述Step1中，所述病毒通常指DNA病毒，且病毒有明确的源头信息。

进一步地，所述Step2中，M段切片通常是均等分切片，切片后的基因片段无交叉重复部分；也可以使用滑动窗口的方式切片，切片后的基因片段有交叉重复部分；两者均可进行接下来步骤的工作。

进一步地，所述Step4中，基因序列相似算法的具体实施步骤如下：

为描述方便，接下来将待测病毒基因序列retgene的基因片段retgene_j,j∈[1,M]记为X，将数据库中的病毒基因片段gene_i,j,i∈[1,D],j∈[1,M]记为Y。

Step4.1：通过检索获得数据库中的待测病毒基因序列retgene的基因片段X的基因长度lenx，以及数据库中的病毒基因片段Y的基因长度leny，并生成检测矩阵I(X,Y)_lenx×leny。

Step4.2：根据公式(3)计算匹配窗口值MW。

Step4.3：由检测矩阵I(X,Y)_lenx×leny及匹配窗口值MW，计算匹配基因数m和匹配基因换位数n。

对于匹配基因数m的计算，若基因片段X和Y中相同基因相差距离小于匹配窗口值MW，则视为该基因匹配，但应注意在匹配过程中，需排除被匹配过的基因，若找到匹配基因，则需跳出此次匹配，进行下一基因的匹配。

而对于匹配基因换位数n的计算，则需看基因片段X和Y中对于匹配基因集的顺序是否一致，若不一致，则换位数目的一半即为匹配基因换位数n。

另外，匹配基因数m和匹配基因换位数n理应满足公式(4)的要求。

Step4.4：由上述步骤所得匹配基因数m和匹配基因换位数n，根据公式(5)计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的初步相似度fsim：

Step4.5：获取待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的最长公共子片段XY，并得到其长度lenxy。

Step4.6：根据公式(6)进一步计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim。

其中，b为是否需要进一步计算的阈值，p为缩放因子。

Step4.7：定义相似阈值α，若待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim≥α，则将病毒基因片段Y所对应的病毒、病毒基因序列以及病毒源头信息输出。

所述Step4中，基因序列相似算法使用基因窗口值匹配方法，可以很好地克服因基因变异而导致的匹配失败现象，从而提高匹配的准确度。

本发明的有益效果是：本发明与现有技术相比，主要解决了现有技术针对病毒源头筛选时存在的病毒变异而导致的准确度不高、对比效率低等现象，在保证对比效率的同时优化了匹配的准确度，实现了高质量的病毒源头筛选工作。

附图说明

图1是本发明的步骤流程图；

图2是本发明基因序列均等分切片图；

图3是本发明基因序列滑动窗口切片图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种基于基因序列相似的病毒源头筛选方法，首先获取目前已知病毒的基因序列及其对应的病毒源头信息，组建病毒基因数据库；接着对病毒基因序列进行切片，得到基因片段；对待测病毒基因序列也按照相同切片手段切割成若干基因片段，根据基因序列相似算法在数据库中检索其相似的病毒基因片段，以实现查找病毒源头的目的。

具体步骤为：

Step1：获取目前已知病毒virus_i,i∈[1,D]的基因序列gene_i,i∈[1,D]及其对应的病毒源头信息info_i,i∈[1,D]，组建病毒基因数据库，其中D为病毒基因数据库中病毒的个数；

Step2：对病毒基因数据库中的病毒基因序列gene_i,i∈[1,D]进行M段切片，如公式(1)所示，其中gene_i,j,i∈[1,D],j∈[1,M]为病毒基因序列gene_i,i∈[1,D]的基因片段；

gene_i＝[gene_i,1,gene_i,2,…,gene_i,M],i∈[1,D] (1)

Step3：对待测病毒基因序列retgene也按照Step2所述切片手段切割成若干基因片段，如公式(2)所示，其中retgene_j,j∈[1,M]为待测病毒基因序列retgene的基因片段；

retgene＝[retgene₁,retgene₂,…,retgene_M] (2)

Step4：根据基因序列相似算法在数据库中检索与待测病毒基因序列retgene的基因片段retgene_j,j∈[1,M]相似的病毒基因片段gene_i,j,i∈[1,D],j∈[1,M]，若两者的相似度sim≥α，则将病毒基因片段gene_i,j,i∈[1,D],j∈[1,M]所对应的病毒virus_i,i∈[1,D]、病毒基因序列gene_i,i∈[1,D]以及病毒源头信息info_i,i∈[1,D]输出，通常令α＝0.9。

所述Step1中，所述病毒通常指DNA病毒，且病毒有明确的源头信息。

所述Step2中，如图2所示，M段切片通常是均等分切片，切片后的基因片段无交叉重复部分。

如图3所示，也可以使用滑动窗口的方式切片，切片后的基因片段有交叉重复部分；两者均可进行接下来步骤的工作。

所述Step4中，基因序列相似算法的具体实施步骤如下：

为描述方便，接下来将待测病毒基因序列retgene的基因片段retgene_j,j∈[1,M]记为X，将数据库中的病毒基因片段gene_i,j,i∈[1,D],j∈[1,M]记为Y；

Step4.1：通过检索获得数据库中的待测病毒基因序列retgene的基因片段X的基因长度lenx，以及数据库中的病毒基因片段Y的基因长度leny，并生成检测矩阵I(X,Y)_lenx×leny；

Step4.2：根据公式(3)计算匹配窗口值MW；

Step4.3：由检测矩阵I(X,Y)_lenx×leny及匹配窗口值MW，计算匹配基因数m和匹配基因换位数n；

对于匹配基因数m的计算，若基因片段X和Y中相同基因相差距离小于匹配窗口值MW，则视为该基因匹配，但应注意在匹配过程中，需排除被匹配过的基因，若找到匹配基因，则需跳出此次匹配，进行下一基因的匹配；

而对于匹配基因换位数n的计算，则需看基因片段X和Y中对于匹配基因集的顺序是否一致，若不一致，则换位数目的一半即为匹配基因换位数n；

另外，匹配基因数m和匹配基因换位数n理应满足公式(4)的要求；

Step4.5：获取待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的最长公共子片段XY，并得到其长度lenxy；

Step4.6：根据公式(6)进一步计算待测病毒基因序列retgene的基因片段X和数据库中的病毒基因片段Y的相似度sim；

其中，b为是否需要进一步计算的阈值，通常取值为0.7，可根据实际检测结果作小幅度调整，主要是为了提高检测准确性；p为缩放因子，通常取值为0.1，可根据实际检测结果做小幅度调整，主要是为了避免最终计算结果大于1的情况发生。

若M＝10，则每个病毒基因序列切分成10段基因片段，相应地，待测病毒基因序列也是切分成10段基因片段，在进行相似匹配时要计算10段基因片段中每个基因片段的相似度，只要有某一基因片段符合相似阈值的要求即将该基因片段所对应的病毒、病毒基因序列以及病毒源头信息输出。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于基因序列相似的病毒源头筛选方法，其特征在于：

gene_i＝[gene_i,1,gene_i,2,…,gene_i,M],i∈[1,D] (1)

retgene＝[retgene₁,retgene₂,…,retgene_M] (2)

2.根据权利要求1所述的基于基因序列相似的病毒源头筛选方法，其特征在于：所述Step4中，基因序列相似算法的具体实施步骤如下：

Step4.2：根据公式(3)计算匹配窗口值MW；

对于匹配基因数m的计算，若基因片段X和Y中相同基因相差距离小于匹配窗口值MW，则视为该基因匹配，在匹配过程中，需排除被匹配过的基因，若找到匹配基因，则需跳出此次匹配，进行下一基因的匹配；

其中，b为是否需要进一步计算的阈值，p为缩放因子；

3.根据权利要求1所述的基于基因序列相似的病毒源头筛选方法，其特征在于：所述Step1中，所述病毒为DNA病毒，且病毒有明确的源头信息。

4.根据权利要求1所述的基于基因序列相似的病毒源头筛选方法，其特征在于：所述Step2中，M段切片均等分切片，切片后的基因片段无交叉重复部分。

5.根据权利要求1所述的基于基因序列相似的病毒源头筛选方法，其特征在于：所述Step2中，M段切片为滑动窗口的方式切片，切片后的基因片段有交叉重复部分。