CN116646010B

CN116646010B - 人源性病毒检测方法及装置、设备、存储介质

Info

Publication number: CN116646010B
Application number: CN202310930697.1A
Authority: CN
Inventors: 夏慧华; 杨悦; 王谷丰; 刘二凯; 赵陆洋
Original assignee: Shenzhen Sailu Medical Technology Co ltd
Current assignee: Shenzhen Sailu Medical Technology Co ltd
Priority date: 2023-07-27
Filing date: 2023-07-27
Publication date: 2024-03-29
Anticipated expiration: 2043-07-27
Also published as: CN116646010A

Abstract

本发明属于生物信息学技术领域，公开了一种人源性病毒检测方法及装置、设备、存储介质，通过对多个目标基因序列进行聚类分类获得多个聚类类别，将每个聚类类别中的代表性序列与人源性病毒对应的目标扩增子序列进行比对，获得比对结果，然后根据比对结果计算比对上目标扩增子序列的目标指标值、覆盖度和平均覆盖深度，输入分类模型进行预测获得分类结果，该分类结果用于表征从基因测序数据中是否检测到人源性病毒，从而无需将目标基因序列逐个与目标扩增子序列进行比对，可以大大降低比对耗时，进而提高检测效率。

Description

人源性病毒检测方法及装置、设备、存储介质

技术领域

本发明属于生物信息学技术领域，具体涉及一种基于基因测序数据的人源性病毒检测方法及装置、设备、存储介质。

背景技术

在科研、临床检测等领域，常常需要对人源性病毒，例如丙肝病毒(hepatitis Cvirus，HCV)的个别基因或全基因组的基因型进行检测。

传统上设置有丙肝预测评价的健康管理系统，其使用的预测方式为数据匹配。其原理是将个人生活数据输入系统由系统匹配固定数据然后得出患病几率。但由于人体和疾病的复杂性、不可预测性，在生物信号与信息的表现形式上对其进行检测与信号表达，获取的数据及信息的分析、决策等诸多方面都存在非常复杂的非线性联系。所以使用传统的数据匹配只能是盲目的数据筛查，无法判断数据与数据之间的逻辑关联以及变量，得到的值域偏差大，造成系统预测的特异性十分差，所以无法有效对个人的丙肝病毒进行准确预测。

近年来，随着测序技术的发展，聚合酶链式反应(Polymerase Chain Reaction，PCR)技术是应用最广泛的一种实时在线的检测技术，基于PCR的分子标记方法为目的基因的筛选提供了成熟的工具。既能够对靶基因进行定性，又能够定量，是近年来进行检测的新的“黄金标准”。基于PCR技术的HCV检测系统代替了人员对用HCV数据库和临床文献的检索，结果判读由人工转变为电脑自动化，可一次性处理大批量实验数据，减少了人员操作过程中的出错率，有利于项目的临床推广。但是在实践中发现，每个样本的测序序列达到几百万条，将每条测序序列与数据库进行比对，比对过程耗时,导致检测效率较低。

发明内容

本发明的目的在于提供一种人源性病毒检测方法及装置、设备、存储介质，可以降低比对耗时，进而提高检测效率。

本发明第一方面公开一种人源性病毒检测方法，包括：

对基因测序数据进行处理，获得多个目标基因序列；

对多个所述目标基因序列进行聚类分类，获得多个聚类类别；

将每个所述聚类类别中的代表性序列与目标扩增子序列进行比对，获得比对结果；其中，所述目标扩增子序列根据人源性病毒的全基因组序列而确定；

根据所述比对结果，计算比对上所述目标扩增子序列的目标指标值、覆盖度和平均覆盖深度；

将所述目标指标值、所述覆盖度和所述平均覆盖深度，输入预先训练的分类模型获得分类结果；所述分类结果用于表征从所述基因测序数据中是否检测到所述人源性病毒。

本发明第二方面公开一种人源性病毒检测装置，包括：

处理单元，用于对基因测序数据进行处理，获得多个目标基因序列；

聚类单元，用于对多个所述目标基因序列进行聚类分类获得多个聚类类别；

比对单元，用于将每个所述聚类类别中的代表性序列与目标扩增子序列进行比对，获得比对结果；其中，所述目标扩增子序列根据人源性病毒的全基因组序列而确定；

计算单元，用于根据所述比对结果，计算比对上所述目标扩增子序列的目标指标值、覆盖度和平均覆盖深度；

预测单元，用于将所述目标指标值、所述覆盖度和所述平均覆盖深度，输入预先训练的分类模型获得分类结果；所述分类结果用于表征从所述基因测序数据中是否检测到所述人源性病毒。

本发明第三方面公开一种电子设备，包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行第一方面公开的人源性病毒检测方法。

本发明第四方面公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行第一方面公开的人源性病毒检测方法。

本发明的有益效果在于，通过对多个目标基因序列进行聚类分类获得多个聚类类别，将每个聚类类别中的代表性序列与人源性病毒对应的目标扩增子序列进行比对，获得比对结果，然后根据比对结果计算比对上目标扩增子序列的目标指标值、覆盖度和平均覆盖深度，输入分类模型进行预测获得分类结果，该分类结果用于表征从基因测序数据中是否检测到人源性病毒，从而无需将目标基因序列逐个与目标扩增子序列进行比对，可以大大降低比对耗时，进而提高检测效率。

附图说明

此处的附图，示出了本发明所述技术方案的具体实例，并与具体实施方式构成说明书的一部分，用于解释本发明的技术方案、原理及效果。

除非特别说明或另有定义，不同附图中，相同的附图标记代表相同或相似的技术特征，对于相同或相似的技术特征，也可能会采用不同的附图标记进行表示。

图1是本发明实施例公开的一种人源性病毒检测方法的流程图；

图2是本发明实施例公开的一种人源性病毒检测装置的结构示意图；

图3是本发明实施例公开的一种电子设备的结构示意图。

附图标记说明：

201、处理单元；202、聚类单元；203、比对单元；204、计算单元；205、预测单元；301、存储器；302、处理器。

具体实施方式

为了便于理解本发明，下面将参照说明书附图对本发明的具体实施例进行更详细的描述。

除非特别说明或另有定义，本文所使用的所有技术和科学术语与所属技术领域的技术人员通常理解的含义相同。在结合本发明的技术方案以现实的场景的情况下，本文所使用的所有技术和科学术语也可以具有与实现本发明的技术方案的目的相对应的含义。本文所使用的“第一、第二…”仅仅是用于对名称的区分，不代表具体的数量或顺序。本文所使用的术语“和／或”包括一个或多个相关的所列项目的任意的和所有的组合。

需要说明的是，当元件被认为“固定于”另一个元件，它可以是直接固定在另一个元件上，也可以是存在居中的元件；当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件，也可以是同时存在居中元件；当一个元件被认为是“安装在”另一个元件，它可以是直接安装在另一个元件，也可以是同时存在居中元件。当一个元件被认为是“设在”另一个元件，它可以是直接设在另一个元件，也可以是同时存在居中元件。

除非特别说明或另有定义，本文所使用的“所述”、“该”为相应位置之前所提及或描述的技术特征或技术内容，该技术特征或技术内容与其所提及的技术特征或技术内容可以是相同的，也可以是相似的。此外，本文所使用的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

如图1所示，本发明实施例公开一种人源性病毒检测方法，该方法可以通过计算机编程实现。该方法的执行主体可为如计算机电脑、笔记本电脑、平板电脑等电子设备，或内嵌于电子设备中的人源性病毒检测装置，本发明对此不作限定。在本实施例中，该方法包括以下步骤110~150：

110、对基因测序数据进行处理，获得多个目标基因序列。

在本发明实施例中，基因测序数据指的是二代基因测序下机数据，包括多个测序得到的测序基因序列（即reads）。

作为一种可选的实施方式，步骤110包括以下步骤1101~1104：

1101、对基因测序数据进行过滤，获得第一基因序列。

首先可以对基因测序数据进行质控过滤处理，过滤掉低质量序列和包含接头的序列，得到过滤后的第一基因序列。其中具体的，可以以长度为8、步长为1的滑动窗口，在基因测序数据上滑动，每滑动一次就获得一个窗口序列，并计算窗口序列内8个碱基的平均测序质量，若平均测序质量<13，则判定该窗口序列为低质量区域，将该窗口序列所在的整条reads删除。然后进一步对删除后保留下来的reads进行长度判断，若删除后保留下来的reads的序列长度<19bp，则认为该reads为低质量序列，将整条reads删除，删除后最终保留的则为过滤后的reads。

1102、将第一基因序列与内参基因的参考序列进行比对，获得比对上的第二基因序列。

其中，内参基因的参考序列指的是人类基因组上、与目标病毒不同源的一段序列，用来质控待测样本的测序是否成功。也即，将过滤后的第一基因序列与内参基因的参考序列进行比对，统计比对上参考序列的（Reads per million mapped reads，RPM）值，RPM值即每百万映射读取的序列数。将该RPM值作为指标值，若该值符合最低阈值要求，表示该待测样本的建库测序成功，可进行下一步分析，否则需重新建库测序。

1103、根据第一基因序列和第二基因序列的数量，计算比对上参考序列的参考指标值。

通过以下公式（1）计算比对上参考序列的参考指标值：

（1）

其中，R1代表参考指标值，n₁代表比对上的第二基因序列的数量，n₂代表过滤后的第一基因序列的数量。

1104、当参考指标值达到指定阈值时，从第一基因序列中去除第二基因序列，获得多个目标基因序列。

当参考指标值达到指定阈值时，即符合最低阈值要求，表示该待测样本的建库测序成功。则滤除比对上人类内参基因的参考序列的reads（第二基因序列），而将未比对上的reads（第一基因序列）保留为高质量测序数据（即目标基因序列）用作后续分析，可以避免人类内参基因的参考序列对分析结果的干扰作用，提高检测准确性。

120、对多个目标基因序列进行聚类分类，获得多个聚类类别。

在本发明中，可以直接将多个目标基因序列按照一定的相似程度进行聚类，划分为多个聚类类别。或者在一些实施例中，考虑到扩增和测序过程中均会产生错误、这些错误会降低比对结果的准确性。因此优选的，可以先对目标基因序列按照一定的相似程度进行聚类，再将仅有少数序列的类别去掉，可以去除扩增或测序导致的错误序列或者嵌合体序列等噪音序列，提高检测准确性。

具体的，步骤120可以包括以下步骤1201~1203：

1201、对多个目标基因序列进行聚类分类，获得多个分类类别。

以指定比例（例如96%、97%等）的相似性（identity）进行序列聚类，也即，将大于或等于指定比例的相似性的目标基因序列归为来源于同一个参考序列的reads），从而得到若干个分类类别（clusters），每个分类类别均有一个代表性序列。

1202、获取每个分类类别的目标基因序列数量。

1203、将目标基因序列数量大于预设数量的分类类别确定为聚类类别。

假设预设数量为5，通过统计每个分类类别中包含的目标基因序列的数量，将目标基因序列数量小于或等于5条的分类类别去掉，保留目标基因序列数量大于5条的分类类别确定为最终的聚类类别。

130、将每个聚类类别中的代表性序列与目标扩增子序列进行比对，获得比对结果。其中，目标扩增子序列根据人源性病毒的全基因组序列而确定。

具体的，目标扩增子序列是目标病毒（即需要检测的人源性病毒）的全基因组序列中的一部分。

其中，比对结果包括但不限于比对上的代表性序列的序列数、目标扩增子序列被覆盖的长度和比对上的代表性序列的碱基总数。

140、根据比对结果，计算比对上目标扩增子序列的目标指标值、覆盖度和平均覆盖深度。

那么，根据比对结果计算比对上目标扩增子序列的目标指标值的方式为：

通过以下公式（2）计算比对上目标扩增子序列的目标指标值：

（2）

其中，R2代表目标指标值，n₃代表比对上的代表性序列的序列数，n₂代表过滤后的第一基因序列的数量。

另外，计算目标扩增子序列被至少覆盖1次的长度占目标扩增子序列总长度的比例，作为目标扩增子序列的覆盖度（coverage）。

以及，计算比对上的代表性序列的碱基总数与目标扩增子序列的碱基数的比值，作为目标扩增子序列的平均覆盖深度（coverage depth）。

150、将目标指标值、覆盖度和平均覆盖深度，输入预先训练的分类模型获得分类结果。分类结果用于表征从基因测序数据中是否检测到人源性病毒。

其中，分类结果可为1或0。如设置1代表阳性，即检测到人源性病毒；设置0代表阴性，即未检测到人源性病毒。或者，如设置0代表阳性，即检测到人源性病毒；设置1代表阴性，即未检测到人源性病毒。

对于样本的阳性、阴性判断，可基于上述计算得到的3项指标，用支持向量机（Nu-SVM）的按有监督学习（supervised learning）方式对这些指标进行二元分类的广义线性分类器（generalized linear classifier），用已知结果的标签样本进行训练和测试，来构建用于样本阴阳性判定的分类模型。具体的，分类模型的训练过程可以包括以下步骤1501~1503：

1501、将已知结果的标签样本按比例80%和20%随机的分为训练集和测试集。其中，标签样本的80%是训练集、20%是测试集。

1502、利用训练集进行训练，找到支持向量机的最佳参数，并用K-fold验证方法验证训练集预测结果的正确性，直到K-fold平均正确率达到预设正确率，获得建好的分类模型。

其中，最佳参数包括kernel、degree、gamma和coef0等参数，预设正确率可由开发人员根据实际需求设定，如设定为0.95。

1503、用建好的分类模型预测测试集的标签样本，不断重复以上步骤1501~1503，直到测试集的预测正确率达到预设正确率，表示该分类模型训练完成。

训练完成的分类模型可用于预测真实临床样本。通过将真实临床的待测样本的目标指标值、覆盖度和平均覆盖深度，输入分类模型，即可获得预测的分类结果。

由此可见，实施本发明实施例，无需将目标基因序列逐个与目标扩增子序列进行比对，可以大大降低比对耗时，进而提高检测效率。同等条件下的分析速率是分析报告人员的数百倍，缩短了分析报告周期，也降低了检测的人工成本，可以快速、省时、省力地给出预测结果。

除此之外，当不同待测样本的测序序列数不同时，统计每个待测样本中比对上的序列的RPM值，相当于标准化了不同待测样本间测序数据量/测序深度的影响，就可以平行地比较不同待测样本的比对序列数。也即，采用RPM值来代替比对序列数，可以去除样本测序数据差异化影响，提高样本阴阳性预测准确率。

此外，用支持向量机（Nu-SVM）的按有监督学习（supervised learning）方式应用到人源性病毒的检测上，对上述3项指标进行建模和训练，可以提高预测成功率及准确率。

在本发明实施例中，分别用2批HCV临床样本对本发明的检测性能进行了测试和验证。

对同一批建库的47例临床样本（9例阳性样本和38例阴性样本）、1例阳性质控样本和1例阴性质控样本的测序数据进行分析和阴阳性预测，结果显示：基于本发明构建的模型能准确检测出阳性质控样本和阴性质控样本；对47例临床样本的HCV预测结果与临床参考结果完全一致，样本预测准确率为100%，详见下表1。其中，临床参考结果指的是qPCR检测结果。

表1：第一批47例临床样本、1例阳性质控样本和1例阴性质控样本的预测结果

对同一批建库的46例临床样本（33例阳性样本和13例阴性样本）、1例阳性质控样本和1例阴性质控样本的测序数据进行分析和阴阳性预测，结果显示：基于本发明构建的模型能准确检测出阳性质控样本和阴性质控样本；对46例临床样本的HCV预测结果与临床参考结果完全一致，样本预测准确率为100%，详见下表2。

表2：第一批46例临床样本、1例阳性质控样本和1例阴性质控样本的预测结果

/>

由表1和2可总结得出，2个批次的临床样本结果显示，本发明的分类模型对临床样本具有较高的预测准确率。

如图2所示，本发明实施例公开一种人源性病毒检测装置，包括处理单元201、聚类单元202、比对单元203、计算单元204、预测单元205，其中，

处理单元201，用于对基因测序数据进行处理，获得多个目标基因序列；

聚类单元202，用于对多个目标基因序列进行聚类分类获得多个聚类类别；

比对单元203，用于将每个聚类类别中的代表性序列与目标扩增子序列进行比对，获得比对结果；其中，目标扩增子序列根据人源性病毒的全基因组序列而确定；

计算单元204，用于根据比对结果，计算比对上目标扩增子序列的目标指标值、覆盖度和平均覆盖深度；

预测单元205，用于将目标指标值、覆盖度和平均覆盖深度，输入预先训练的分类模型获得分类结果；分类结果用于表征从基因测序数据中是否检测到人源性病毒。

作为一种可选的实施方式，处理单元201可以包括以下未图示的子单元：

过滤子单元，用于对基因测序数据进行过滤，获得第一基因序列；

比对子单元，用于将第一基因序列与内参基因的参考序列进行比对，获得比对上的第二基因序列；

计算子单元，用于根据第一基因序列和第二基因序列的数量，计算比对上参考序列的参考指标值；

去除子单元，用于在参考指标值达到指定阈值时，从第一基因序列中去除第二基因序列，获得多个目标基因序列。

进一步可选的，计算子单元，具体用于通过以下公式计算比对上参考序列的参考指标值：

进一步可选的，比对结果包括比对上的代表性序列的序列数；那么计算单元204用于根据比对结果计算比对上目标扩增子序列的目标指标值的方式为：

通过以下公式计算比对上目标扩增子序列的目标指标值：

作为一种可选的实施方式，聚类单元202可以包括以下未图示的子单元：

划分子单元，用于对多个目标基因序列进行聚类分类，获得多个分类类别；

获取子单元，用于获取每个分类类别的目标基因序列数量；

确定子单元，用于将目标基因序列数量大于预设数量的分类类别确定为聚类类别。

如图3所示，本发明实施例公开一种电子设备，包括存储有可执行程序代码的存储器301以及与存储器301耦合的处理器302；

其中，处理器302调用存储器301中存储的可执行程序代码，执行上述各实施例中描述的人源性病毒检测方法。

本发明实施例还公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行上述各实施例中描述的人源性病毒检测方法。

以上实施例的目的，是对本发明的技术方案进行示例性的再现与推导，并以此完整的描述本发明的技术方案、目的及效果，其目的是使公众对本发明的公开内容的理解更加透彻、全面，并不以此限定本发明的保护范围。

以上实施例也并非是基于本发明的穷尽性列举，在此之外，还可以存在多个未列出的其他实施方式。在不违反本发明构思的基础上所作的任何替换与改进，均属本发明的保护范围。

Claims

1.人源性病毒检测方法，其特征在于，包括：

对基因测序数据进行过滤，获得第一基因序列；

将所述第一基因序列与内参基因的参考序列进行比对，获得比对上的第二基因序列；其中，内参基因的参考序列指的是人类基因组上、与目标病毒不同源的一段序列；

根据所述第一基因序列和所述第二基因序列的数量，通过以下公式计算比对上所述参考序列的参考指标值：

其中，R1代表参考指标值，表示每百万映射读取的第二基因序列数；n₁代表比对上的第二基因序列的数量，n₂代表过滤后的第一基因序列的数量；

当所述参考指标值达到指定阈值时，从所述第一基因序列中去除所述第二基因序列，获得多个目标基因序列；

以96%或97%的相似性对多个所述目标基因序列进行聚类分类，获得多个分类类别；

获取每个所述分类类别的目标基因序列数量；

将目标基因序列数量大于5的分类类别确定为聚类类别；

将所述目标指标值、所述覆盖度和所述平均覆盖深度，输入预先训练的分类模型获得分类结果；所述分类结果用于表征从所述基因测序数据中是否检测到所述人源性病毒；所述分类模型为支持向量机，所述目标指标值用于表示每百万映射读取的代表性序列数；

其中，所述比对结果包括比对上的代表性序列的序列数；根据所述比对结果，计算比对上所述目标扩增子序列的目标指标值，包括：

通过以下公式计算比对上所述目标扩增子序列的目标指标值：

其中，R2代表目标指标值，n₃代表比对上的代表性序列的序列数，n₂代表过滤后的第一基因序列的数量；

其中，所述基因测序数据包括多个测序得到的reads；以及，对基因测序数据进行过滤获得第一基因序列，包括：

以长度为8、步长为1的滑动窗口，在所述基因测序数据上滑动，每滑动一次就获得一个窗口序列，并计算窗口序列内8个碱基的平均测序质量，若平均测序质量<13，判定该窗口序列为低质量区域，将该窗口序列所在的整条reads删除；对删除后保留下来的reads进行长度判断，若删除后保留下来的reads的序列长度<19bp，认为该reads为低质量序列，将整条reads删除，删除后最终保留的则为过滤后的reads，作为第一基因序列；

其中，所述分类模型的训练过程包括：

将已知结果的标签样本按比例80%和20%随机的分为训练集和测试集；其中，标签样本的80%是训练集、20%是测试集；利用训练集进行训练，找到支持向量机的最佳参数，并用K-fold验证方法验证训练集预测结果的正确性，直到K-fold平均正确率达到预设正确率，获得建好的分类模型。

2.人源性病毒检测装置，其特征在于，包括：

预测单元，用于将所述目标指标值、所述覆盖度和所述平均覆盖深度，输入预先训练的分类模型获得分类结果；所述分类结果用于表征从所述基因测序数据中是否检测到所述人源性病毒；所述分类模型为支持向量机，所述目标指标值用于表示每百万映射读取的代表性序列数；

其中，所述处理单元包括以下子单元：

比对子单元，用于将所述第一基因序列与内参基因的参考序列进行比对，获得比对上的第二基因序列；其中，内参基因的参考序列指的是人类基因组上、与目标病毒不同源的一段序列；

计算子单元，用于根据所述第一基因序列和所述第二基因序列的数量，通过以下公式计算比对上所述参考序列的参考指标值：

去除子单元，用于在所述参考指标值达到指定阈值时，从所述第一基因序列中去除所述第二基因序列，获得多个目标基因序列；

其中，所述聚类单元包括以下子单元：

划分子单元，用于以96%或97%的相似性对多个所述目标基因序列进行聚类分类，获得多个分类类别；

获取子单元，用于获取每个所述分类类别的目标基因序列数量；

确定子单元，用于将目标基因序列数量大于5的分类类别确定为聚类类别；

其中，所述比对结果包括比对上的代表性序列的序列数；所述计算单元用于根据比对结果计算比对上目标扩增子序列的目标指标值的方式为：

通过以下公式计算比对上目标扩增子序列的目标指标值：

其中，所述基因测序数据包括多个测序得到的reads；以及，所述过滤子单元，具体用于以长度为8、步长为1的滑动窗口，在所述基因测序数据上滑动，每滑动一次就获得一个窗口序列，并计算窗口序列内8个碱基的平均测序质量，若平均测序质量<13，判定该窗口序列为低质量区域，将该窗口序列所在的整条reads删除；对删除后保留下来的reads进行长度判断，若删除后保留下来的reads的序列长度<19bp，认为该reads为低质量序列，将整条reads删除，删除后最终保留的则为过滤后的reads，作为第一基因序列；

其中，所述分类模型的训练过程包括：

3.电子设备，其特征在于，包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1所述的人源性病毒检测方法。

4.计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1所述的人源性病毒检测方法。