CN110610741B

CN110610741B - 一种人类病原体的识别方法、装置及电子设备

Info

Publication number: CN110610741B
Application number: CN201910809866.XA
Authority: CN
Inventors: 刘少飞; 赵百慧; 朱兆奎
Original assignee: Shanghai Berger Medical Technology Co ltd
Current assignee: Shanghai Berger Medical Technology Co ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2022-03-04
Anticipated expiration: 2039-08-29
Also published as: CN110610741A

Abstract

本发明公开了一种人类病原体的识别方法、装置及电子设备，识别方法包括以下步骤：获得样本核酸序列；若样本核酸序列不只是病毒感染且样本量大于预设样本量，则将样本核酸序列与病毒数据库比对并识别出病毒序列，将样本核酸序列中除病毒序列之外的样本核酸序列与细菌库比对并识别出细菌序列，将样本核酸序列中除病毒序列和细菌序列之外的样本核酸序列与真菌库比对，分别获得样本在三种库的中的统计和注释结果。本发明的上述方案可以实现分情况快速进行病原体确定，能够使患者及时得到准确的治疗。

Description

一种人类病原体的识别方法、装置及电子设备

技术领域

本发明属于医疗技术领域，具体涉及一种人类病原体的识别方法、装置及电子设备。

背景技术

目前，国内对于病原体的检测缺乏相应的病原体数据库支持，局限于特定种类的病原体的检测，并且检测也只能根据医生对于患者的症状进行病毒或者细菌或者真菌的单个门类的检测，很多真菌或者细菌引起的疾病可能跟病毒的疾病可能有相同的症状，这样很多患者就可能被轻易的判断为只是病毒性疾病或者只是细菌性疾病或者只是真菌性疾病，这样在很多情况下延误了正确治疗病人的时间。另外，即便医生发现了某一病原体引起的疾病，也需要费时费力通过检索才能发现关于该种病原体的生物学特性，基因组特性，药物疗效和治疗方案等一系列全面的医疗信息。目前，针对涉及真菌的测序探测技术或者真菌数据库很小或者真菌数据库冗余导致耗费大量计算。

发明内容

针对上述现有技术中的不足，本发明要解决的技术问题是提供一种人类病原体的识别方法，使用过程中，只需要客户提供患病样本的核酸测序序列，采用本发明构建的病原体数据库就可以准确确定哪些病原体导致该种疾病以及可能的医疗对策，本发明的系统可以分情况快速进行病原体的确定，使病人能够在最短时间内得到最正确的治疗。

为实现上述目的提供一种人类病原体的识别方法，本发明包括以下步骤：

获得样本核酸序列；

若样本核酸序列不只是病毒感染且样本量小于等于预设样本量，则将样本核酸序列分别与病毒数据库、细菌库、真菌库比对，获得样本在三种库的中的统计和注释结果；

若样本核酸序列不只是病毒感染且样本量大于预设样本量，则将样本核酸序列与所述病毒数据库比对并识别出病毒序列，将样本核酸序列中除病毒序列之外的样本核酸序列与所述细菌库比对并识别出细菌序列，将样本核酸序列中除病毒序列和细菌序列之外的样本核酸序列与所述真菌库比对，分别获得样本在三种库的中的统计和注释结果。

优选地，在所述的获得样本核酸序列之后还包括：

若样本核酸序列只是病毒感染则与所述病毒数据库比对，获得样本的病毒统计和和注释结果。

优选地，在所述的获得样本核酸序列之后还包括：

将样本核酸序列与人类基因组比对，去除人类基因组序列。

优选地，在所述的将样本核酸序列与病毒数据库比对并识别出病毒序列，将样本核酸序列中除病毒序列之外的样本核酸序列与细菌库比对并识别出细菌序列，将样本核酸序列中除病毒序列和细菌序列之外的样本核酸序列与真菌库比对，分别获得样本在三种库的中的统计和注释结果具体包括：

将样本核酸序列与所述病毒数据库进行比对，识别出病毒序列获得样本的病毒统计和注释结果，并剔除样本中的病毒序列；

将剔除样本中病毒序列后的样本与所述细菌库进行比对，识别出细菌序列获得样本的细菌统计和注释结果，并剔除样本中的细菌序列；

将剔除样本中病毒序列和细菌序列后的样本与所述真菌库进行比对，获得样本的真菌统计和注释结果。

优选地，所述病毒数据库的构建方法包括：

根据病毒宿主数据库获得人类病毒的基因组结构和医疗信息；

根据RefSeq数据库和所述病毒宿主数据库获得病毒序列；

利用核酸序列数据库和病毒的相关文献进行手动添加处理得到人类病毒的基因组名称和种属；

所述人类病毒的基因组结构、医疗信息、病毒序列、人类病毒的基因组名称和种属构成所述病毒数据库。

进一步，优选地，所述病毒数据库包括：

病毒的名称、病毒的基因组名称、病毒的全基因组序列、病毒的基因组特征、病毒的生物学特征、病毒所属的种属、病毒的包括人类在内的所有宿主和病毒的传染途径。

优选地，所述细菌数据库的构建方法包括：

利用病理系统资源整合中心提取人类致病性细菌的基因信息和医疗信息数据；

将提取的所述人类致病性细菌的基因信息和医疗信息数据进行去冗余耦合，并进一步耦合基因组序列形成所述细菌数据库。

进一步，优选地，所述细菌数据库包括：

细菌的基因组ID、细菌的基因组名称、细菌的NCBI种名、细菌的基因组的类型、细菌的文献、细菌的GenBank号、细菌的RefSeq号、细菌的基因组长度、细菌基因组的GC含量、细菌的RefSeq CDS数量、细菌的来源样本类型及其收集时间和地理位置、细菌宿主的名称，细菌宿主的性别，细菌宿主的年龄和健康状况，及细菌宿主的医疗信息，细菌的抗生素，细菌的耐药表型，细菌的实验室分型方法，细菌的实验室分型平台或证据，细菌的革兰氏特性，细菌所引起的疾病。

优选地，所述真菌数据库的构建方法为：

根据伊沙姆条码数据库和临床真菌图谱的真菌种类信息进行真菌种类的合并，并利用NCBI分类法对合并种类后的真菌进行名称核验；

若真菌的名称没有被NCBI分类法收录，则需要核验真菌所在的文献或真菌所在的mycobank，然后下载真菌的序列号，最后利用真菌的名称耦合临床真菌图谱相关的生物学和医疗信息。

优选地，所述下载真菌的序列的方法为：

利用Genbank号下载真菌的基因组序列，若无法下载，表明其没有进行完整的基因组序列；

则利用nt数据库下载真菌的基因片段序列。

再进一步，优选地，所述真菌数据库包括：

真菌的名称、真菌的种属、真菌病原体的基本描述、真菌的菌落特征、真菌的显微特征、真菌的致病性和对应的药物、真菌的形态图像。

本发明还公开了一种人类病原体的识别装置，包括以下模块：

获取模块，用于获得样本核酸序列；

第一比对分析模块，若样本核酸序列不只是病毒感染且样本量小于等于预设样本量，则将样本核酸序列分别与病毒数据库、细菌库、真菌库比对，获得样本在三种库的中的统计和注释结果；

第二比对分析模块，若样本核酸序列不只是病毒感染且样本量大于预设样本量，则将样本核酸序列与所述病毒数据库比对并识别出病毒序列，将样本核酸序列中除病毒序列之外的样本核酸序列与所述细菌库比对并识别出细菌序列，将样本核酸序列中除病毒序列和细菌序列之外的样本核酸序列与所述真菌库比对，分别获得样本在三种库的中的统计和注释结果。

本发明还公开了一种人类病原体识别的电子设备，包括处理器、用于存储所述处理器可执行指令的存储器，所述处理器执行指令时，实现以下步骤：

获得样本核酸序列；

本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前任一项所述方法的步骤。

有益效果

本发明对病毒感染的样本直接与病毒库进行比对，对少量样本的处理方式，能够把病毒，细菌和真菌的同源序列找到；而对大量样本的处理方式，能够加快速度，直接将序列依次定位到这三个病原体的门类，其中，大量样本和少量样本的界限是按照服务器的运算能力进行的一种计算模式最优化的假设，保证快速准确的获得结果。实际使用过程中，我们可以根据服务器的运算能力，比如设置大量样本为20个以上，少量样本为20个以下，来提高运算速度，同时大量样本的运算模式比少量样本的运算模式的精确度稍微低一些。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为依据本发明建立的人类病原体少量样本的识别方法的流程示意图。

图2是本发明一示例性实施例示出的一种人类病原体大量样本的识别方法的流程示意图。

图3是本发明另一示例性实施例示出的一种病毒感染人类病原体的识别方法的流程示意图。

图4是本发明再一示例性实施例示出的人类病原体去除人类基因组序列的识别方法的流程示意图。

图5是本发明一示例性实施例示出的一种人类病原体的识别方法的识别装置的逻辑框图。

图6是本申请一示例性实施例示出的一种人类病原体的识别方法的电子设备的逻辑框图。

图7是本申请又一示例性实施例示出的一种人类病原体的识别方法的流程示意图。

附图标记说明：

识别装置700；获取模块710；第一比对分析模块720；

第二比对分析模块730；电子设备800。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求中所详述的、本发明的一些方面相一致的装置和方法的例子，

下面结合具体实施例来进一步描述本发明，但这些实施例仅是范例性的，并不对本发明的范围构成任何限制。本技术领域的普通技术人员应该理解的是,在不脱离本发明原理的前提下，还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

本实施例提供一种少量样本人类病原体的识别方法，如图1所示，本发明包括以下步骤：

S1、获得样本核酸序列；

S311、若样本核酸序列不只是病毒感染且样本量小于等于20，则将样本核酸序列与病毒数据库比对获得样本的病毒统计和注释结果；

S312、将样本核酸序列与细菌库比对获得样本的细菌统计和注释结果；

S313、将样本核酸序列与真菌库比对获得样本的真菌统计和注释结果；

根据步骤S311中得到的样本的病毒统计和注释结果和步骤S312中得到的细菌统计和注释结果和步骤S313中得到的真菌统计和注释结果得到医疗建议。

少量样本模式情况下，少量样本分别跟病毒库、细菌库和真菌库三个库进行比对，三个库各自独立，能够找出病毒、细菌和真菌的同源序列(有些序列可能在在两个数据库中都找到，这就是同源序列)采用此方式可以提高精确度，但是又不会降低运算速度。

本实施例提供另一种大量样本人类病原体的识别方法，如图2所示，本发明包括以下步骤：

S1、获得样本核酸序列；

S41、若样本核酸序列不只是病毒感染且样本量大于20，则将样本核酸序列与病毒数据库比对获得样本的病毒统计和注释结果；

S42、剔除样本中的病毒序列；

S51、将样本核酸序列中除病毒序列之外的样本核酸序列与细菌库比对获得样本的细菌统计和注释结果；

S52、剔除样本中的细菌序列；

S6、将样本核酸序列中除病毒序列和细菌序列之外的样本核酸序列与所述真菌库比对，获得样本的真菌统计和注释结果；

根据步骤S41中得到的样本的病毒统计和注释结果和步骤S51中得到的细菌统计和注释结果和步骤S6中得到的真菌统计和注释结果得到医疗建议。

大量样本模式情况下，病毒库、细菌库和真菌库这三个数据库有先后顺序，先比对病毒库，剔除病毒信息后再与细菌库比对，再剔除细菌信息后最后比对真菌库，由于这三个数据库跟人类基因组的关系是由远到近，病毒与人类，细菌和真菌亲缘关系太远，同源序列很低，所以先比对病毒库；其次是细菌(与真菌和人类亲缘关系稍远)，再次是真菌，这样首先剔除病毒序列，就会加快细菌运算，再次剔除细菌序列，就会加快真菌运算。

同源序列有可能会在病毒，细菌和真菌中都存在，但是这种同源序列是极少量的，即便同源序列在计算过程中被剔除掉，也不会影响物种的鉴定，因为我们使用整个物种的基因组序列来鉴定，而不只是全基因组序列中的一小块同源序列。

本实施例中，只需获取患病样本的核酸测序序列，就可以根据本发明的人类病原体的识别方法分情况快速进行病原体确定。为了实现人类病原体的快速发现，本发明采取了根据样本量进行后续不同的工况。

综上，本实施例中对病毒感染的样本直接与病毒库进行比对，对少量样本的处理方式，能够把病毒，细菌和真菌的同源序列找到；而对大量样本的处理方式，能够加快速度，直接将序列依次定位到这三个病原体的门类，其中，大量样本和少量样本的界限是按照服务器的运算能力进行的一种计算模式最优化的假设，保证快速准确的获得结果。实际使用过程中，我们可以根据服务器的运算能力，比如设置大量样本为20个以上，少量样本为20个以下，来提高运算速度，同时大量样本的运算模式比少量样本的运算模式的精确度稍微低一些。

本具体实施例中，统计和注释是针对某个病原体的某条或者全部序列进行的统计注释，基本统计包括：种名，该物种对应的GI号和ref名称，该物种的跟病原库的比对的reads的数量，该物种的比对上的reads数量占比对上的所有病原的reads数量的百分比，该物种的比对上的reads数量占所有用来参与比对的reads的数量的百分比。

注释分别在实施例4、5、6中提到，病毒，细菌和真菌的注释分别是按照实施例4、5、6进行的。

本实施例提供又一种病毒感染人类病原体的识别方法，如图3所示，本发明包括以下步骤：

S1、获得样本的核酸序列和样本信息；

S31、若样本核酸序列只是病毒感染则与病毒数据库比对，获得样本的病毒统计和注释结果。

根据步骤S31中得到的样本的病毒统计和注释结果得到医疗建议。

本具体实施例中对病毒感染的样本直接与病毒库进行比对，具有针对性。

如图4所示，本具体实施例公开了本发明的再一种实施方式，具体方法如下：

S1、获得样本的核酸序列和样本信息；

S2、将样本核酸序列与人类基因组比对，去除人类基因组序列。

本具体实施例中首先将人类基因组序列去除，可以避免人类基因组序列对后续病毒、细菌、真菌序列的影响，提高了识别效率。

本具体实施例在前述实施例的基础上，具体公开了病毒数据库的构建方法包括：

根据病毒宿主数据库(Virus Host DB)获得人类病毒的基因组结构和医疗信息；

根据RefSeq数据库和病毒宿主数据库(Virus Host DB)获得病毒序列；

利用核酸序列数据库(GenBank序列数据库)和病毒的相关文献进行手动添加处理得到人类病毒的基因组名称和种属；

人类病毒的基因组结构、医疗信息、病毒序列、人类病毒的基因组名称和种属构成病毒数据库。

具体的，病毒数据库包括：

本具体实施例在前述实施例的基础上，具体公开了细菌数据库的构建方法包括：

利用病理系统资源整合中心(Pathosystems Resource Integration Center，PATRIC)提取人类致病性细菌(包括噬菌体(phage))的基因信息和医疗信息数据，将提取的人类致病性细菌的基因信息和医疗信息数据进行去冗余耦合，并进一步耦合基因组序列形成细菌数据库。

具体地，细菌数据库包括：

细菌的基因组ID、细菌的基因组名称、细菌的NCBI物种名、细菌的基因组的类型、细菌的文献、细菌的GenBank号、细菌的RefSeq号、细菌的基因组长度、细菌基因组的GC含量、细菌的RefSeq CDS数量、细菌的来源样本类型及其收集时间和地理位置、细菌宿主的名称，细菌宿主的性别，细菌宿主的年龄和健康状况，及细菌宿主的医疗信息，细菌的抗生素，细菌的耐药表型，细菌的实验室分型方法，细菌的实验室分型平台或证据，细菌的革兰氏特性，细菌所引起的疾病。

本具体实施例在前述实施例的基础上，具体公开了真菌数据库的构建方法为：

根据伊沙姆条码数据库(ISHAM Barcoding Database)和临床真菌图谱(ATLASofCLINICAL FUNGI)的真菌种类信息进行真菌种类的合并，并利用NCBI分类法(NCBItaxonomy)对合并种类后的真菌进行名称核验；

若真菌的名称没有被NCBI分类法(NCBI taxonomy)收录，则需要核验真菌所在的文献或真菌所在的mycobank，然后利用Genbank号下载真菌的基因组序列，如果无法下载，表明是没有完整的基因组序列，则利用nt数据库进行基因片段序列下载。最后利用真菌名称耦合临床真菌图谱(ATLAS ofCLINICAL FUNGI)相关的生物学和医疗信息。

具体的，真菌数据库包括：

根据上述实施例所构建的数据库配合人类病原体的识别方法中的二代或者三代测序手段快速发现病原体的流程，让医生可以通过测序技术，准确的获得患者的病原体的种类以及相关医疗信息给患者提供及时快速准确的治疗。

上述实施例在不冲突的情况下可以任意组合使用，不以说明书所述为限。

请参考图5，本发明还公开了一种人类病原体的识别装置700，包括以下模块：

获取模块710，用于获得样本核酸序列；

第一比对分析模块720，若样本核酸序列不只是病毒感染且样本量小于等于预设样本量，则将样本核酸序列分别与病毒数据库、细菌库、真菌库比对，获得样本在三种库的中的统计和注释结果；

第二比对分析模块730，若样本核酸序列不只是病毒感染且样本量大于预设样本量，则将样本核酸序列与所述病毒数据库比对并识别出病毒序列，将样本核酸序列中除病毒序列之外的样本核酸序列与所述细菌库比对并识别出细菌序列，将样本核酸序列中除病毒序列和细菌序列之外的样本核酸序列与所述真菌库比对，分别获得样本在三种库的中的统计和注释结果。

请参考图6，本发明还公开了一种人类病原体识别的电子设备800，包括处理器、用于存储所述处理器可执行指令的存储器，所述处理器执行指令时，实现以下步骤：

根据样本信息，获得样本核酸序列；

本发明还提供了一种包括指令的非临时性计算机可读存储介质，一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时能够执行一种人类病原体的识别方法，如图7所示，所述方法包括：

S1、根据样本信息获得样本的核酸序列；

S3、根据样本的核酸序列判断该样本是否是只是病毒感染，是则进入步骤S31，反之，则进入步骤S32；

S31、将样本的核酸序列与病毒数据库比对，获得样本的病毒统计和注释结果；

S32、判断样本的数量是否小于或等于20，是则进入步骤S311，反之，则进入步骤S41；

S42、剔除样本中的病毒序列；

S52、剔除样本中的细菌序列；

根据上述步骤得到的样本病毒统计和注释结果或细菌统计和注释结果或真菌统计和注释结果得到医疗建议。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，既可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

注解：

Virus Host DB，即Virush Host DataBase病毒宿主数据库。

RefSeq数据库，即RefSeq参考序列数据库，是美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质序列。

GenBank是美国国家生物技术信息中心(National Center for Biotechnol ogyInformation，NCBI)建立的核酸序列数据库。

PATRIC，即Pathosystems Resource Integration Center是病理系统资源整合中心。

Phage，即噬菌体，是寄生在细菌中的病毒，故又称细菌病毒。

GC含量，GC含量又称为G+C比值或GC比值，在序列中，鸟嘌呤(G)和胞嘧啶(C)所占的比率称为GC含量。

mycobank：由国际真菌联合会拥有，主旨在于服务真菌科学团体的在线数据库，提供真菌的最新分类(新的名称)以及相关数据。

nt数据库，是NCBI的核酸数据库，包含各种来源的核酸序列：GenBa nk，Refseq,TPA和PDB。

GI号，Gene Identification。

ref名称:指的是NCBI里面的refseq的名称。

基因组ID，基因组名称标签。

Fragment，就是测序仪准备测序的原始片段。Reads是测序仪测出来的序列，可能是Fragment的一部分。

CDS，指一个基因中编码蛋白的序列,从起始密码子到终止密码子。

NCBI taxonomy，NCBI分类法。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种人类病原体的识别方法，其特征在于，所述方法包括以下步骤：

获得样本核酸序列；

若样本核酸序列不只是病毒感染且样本量大于预设样本量，则将样本核酸序列与所述病毒数据库比对并识别出病毒序列，将样本核酸序列中除病毒序列之外的样本核酸序列与所述细菌库比对并识别出细菌序列，将样本核酸序列中除病毒序列和细菌序列之外的样本核酸序列与所述真菌库比对，分别获得样本在三种库的中的统计和注释结果；

在所述的将样本核酸序列与病毒数据库比对并识别出病毒序列，将样本核酸序列中除病毒序列之外的样本核酸序列与细菌库比对并识别出细菌序列，将样本核酸序列中除病毒序列和细菌序列之外的样本核酸序列与真菌库比对，分别获得样本在三种库的中的统计和注释结果具体包括：

将样本核酸序列与所述病毒数据库进行比对，识别出病毒序列并剔除样本中的病毒序列，获得样本的病毒统计和注释结果；

将剔除样本中病毒序列后的样本与所述细菌库进行比对，识别出细菌序列并剔除样本中的细菌序列，获得样本的细菌统计和注释结果；

2.如权利要求1所述的一种人类病原体的识别方法，其特征在于，在所述的获得样本核酸序列之后还包括：

若样本核酸序列只是病毒感染则与所述病毒数据库比对，获得样本的病毒统计和注释结果。

3.如权利要求1所述的一种人类病原体的识别方法，其特征在于，在所述的获得样本核酸序列之后还包括：

将样本核酸序列与人类基因组比对，去除人类基因组序列。

4.如权利要求1所述的一种人类病原体的识别方法，其特征在于，所述病毒数据库的构建方法包括：

根据RefSeq数据库和所述病毒宿主数据库获得病毒序列；

5.如权利要求1所述的一种人类病原体的识别方法，其特征在于，所述细菌库的构建方法包括：

将提取的所述人类致病性细菌的基因信息和医疗信息数据进行去冗余耦合，并进一步耦合基因组序列形成所述细菌库。

6.如权利要求1所述的一种人类病原体的识别方法，其特征在于，所述真菌库的构建方法为：

7.一种人类病原体的识别装置，其特征在于，包括以下模块：

获取模块，用于获得样本核酸序列；

第二比对分析模块，若样本核酸序列不只是病毒感染且样本量大于预设样本量，则将样本核酸序列与所述病毒数据库比对并识别出病毒序列，将样本核酸序列中除病毒序列之外的样本核酸序列与所述细菌库比对并识别出细菌序列，将样本核酸序列中除病毒序列和细菌序列之外的样本核酸序列与所述真菌库比对，分别获得样本在三种库的中的统计和注释结果；

8.一种人类病原体识别的电子设备，其特征在于，包括处理器、用于存储所述处理器可执行指令的存储器，所述处理器执行指令时，实现以下步骤：

获得样本核酸序列；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：

该程序被处理器执行时实现如权利要求1~6任一项方法的步骤。