CN117708569B - 一种病原微生物信息的识别方法、装置、终端及存储介质 - Google Patents
一种病原微生物信息的识别方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN117708569B CN117708569B CN202410160852.0A CN202410160852A CN117708569B CN 117708569 B CN117708569 B CN 117708569B CN 202410160852 A CN202410160852 A CN 202410160852A CN 117708569 B CN117708569 B CN 117708569B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- recognition
- identification
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 244000000010 microbial pathogen Species 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 106
- 239000013598 vector Substances 0.000 claims abstract description 83
- 238000001514 detection method Methods 0.000 claims abstract description 72
- 241000894007 species Species 0.000 claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 31
- 244000005700 microbiome Species 0.000 claims description 29
- 238000012795 verification Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012550 audit Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000001172 regenerating effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 241000700605 Viruses Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000813 microbial effect Effects 0.000 description 3
- 244000045947 parasite Species 0.000 description 3
- 230000001717 pathogenic effect Effects 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 241000233866 Fungi Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 244000052769 pathogen Species 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 244000052616 bacterial pathogen Species 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002538 fungal effect Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明涉及物种识别与数据处理技术领域,提供一种病原微生物信息的识别方法、装置、终端及存储介质,该方法包括:获取检测报告;对检测报告进行特征提取,获得初始特征数据;对初始特征数据进行处理,生成标准化特征向量;将标准化特征向量作为输入,利用训练好的识别模型进行识别,获得物种信息识别结果;识别模型包括至少一个泛化识别模型和至少一个高危识别模型,高危识别模型基于第一训练集训练得到,泛化识别模型基于第二训练集得到,第一训练集中的训练数据为第二训练集中经泛化识别模型识别后输出结果为指定类别的训练数据,本发明能够提高病原微生物信息的识别效率。
Description
技术领域
本发明涉及物种识别与数据处理技术领域,尤其涉及一种病原微生物信息的识别方法、装置、终端及存储介质。
背景技术
目前,宏基因组(mNGS)测序技术通过分析感染病人样本中的病原DNA、RNA将宏基因组技术从实验层面推向了应用层面,利用病原宏基因组方法识别病原微生物作为一项应用领域的前沿技术,受到了较多医疗机构的认可。相较于传统微生物培养、PCR等方法在病原体发现过程中存在的局限性,基于mNGS的方法具备多方面的优势,在实现全面准确的感染病原检测的同时,还提高了检测速度。
然而,由于在宏基因组检测过程中,往往伴随着几十种乃至上百种微生物并存的情况,故单个样本可能鉴定出多达数十到数百乃至上千种微生物,而这些微生物之中,往往只有几种是临床医生真正需要关注的物种,其他物种可能是环境背景物种,也可能是关键致病菌的近源物种,乃至于一些可能存在的污染物种。如何从纷繁复杂的候选微生物列表中,识别出个别高危决定性的责任病原微生物对医学报告人员而言是一项繁琐且具有挑战性的工作。相关技术中,对关注物种的准确判断和识别需要依靠临床医生或者报告审核人员。然而当样本量提高,或者送检样本包含的微生物种类繁多,审核人员对于报告解读的工作量和工作难度都将大幅度提升。
发明内容
本发明提供了一种病原微生物信息的识别方法、装置、终端及存储介质,以降低现有技术中进行病原微生物信息识别的工作量和工作难度,提高病原微生物信息的识别效率。
第一方面,本发明提供了一种病原微生物信息的识别方法,包括:
获取检测报告,所述检测报告为对检测样本进行病原微生物宏基因组检测得到的报告;
对所述检测报告进行特征提取,获得初始特征数据;
对所述初始特征数据进行处理,生成标准化特征向量;
将所述标准化特征向量作为输入,利用训练好的识别模型进行识别,获得物种信息识别结果;其中,所述识别模型包括至少一个泛化识别模型和至少一个高危识别模型,所述高危识别模型基于第一训练集训练得到,所述泛化识别模型基于第二训练集得到,所述第一训练集为所述第二训练集的子集,所述第一训练集中的训练数据为所述第二训练集中经所述泛化识别模型识别后输出结果为指定类别的训练数据,所述泛化识别模型和所述高危识别模型均为深度神经网络模型;
其中,所述泛化识别模型的输出结果包括:不关注、疑似背景微生物、关注和重点关注;所述指定类别包括:关注和重点关注。
第二方面,本发明提供了一种病原微生物信息的识别装置,包括:
信息获取单元,用于获取检测报告,所述检测报告为对检测样本进行病原微生物宏基因组检测得到的报告;
特征提取单元,用于对所述检测报告进行特征提取,获得初始特征数据;
数据处理单元,用于对所述初始特征数据进行处理,生成标准化特征向量;
模型识别单元,用于将所述标准化特征向量作为输入,利用训练好的识别模型进行识别,获得物种信息识别结果;其中,所述识别模型包括至少一个泛化识别模型和至少一个高危识别模型,所述高危识别模型基于第一训练集训练得到,所述泛化识别模型基于第二训练集得到,所述第一训练集为所述第二训练集的子集,所述第一训练集中的训练数据为所述第二训练集中经所述泛化识别模型识别后输出结果为指定类别的训练数据,所述泛化识别模型和所述高危识别模型均为深度神经网络模型;
其中,所述泛化识别模型的输出结果包括:不关注、疑似背景微生物、关注和重点关注;所述指定类别包括:关注和重点关注。
第三方面,本发明提供了一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
本发明提供一种病原微生物信息的识别方法、装置、终端及存储介质,通过对检测样本的病原微生物宏基因组检测报告进行特征提取和数据处理,得到能体现病原微生物特征的标准化特征向量,再利用训练好的识别模型对标准化特征向量进行识别,从而获得病原微生物信息的识别结果,解决了现有技术中主要依赖临床医生或者报告审核人员进行识别带来的工作量大工作难度高的问题,提高了识别效率。并且,识别模型包括泛化识别模型和高危识别模型,通过泛化识别模型可汇总尽可能多的微生物特征,有利于对一些新的或少见的物种的识别检出,提高了识别的全面性;通过高危识别模型可聚焦于已知的易感物种,快速识别出检测样本中需关注及需重点关注的病原微生物信息,进一步提升了识别效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的病原微生物信息的识别方法的应用场景图;
图2是本发明实施例提供的病原微生物信息的识别方法的实现流程图;
图3是本发明实施例提供的病原微生物信息的识别方法中数据处理的实现流程图;
图4是本发明实施例提供的病原微生物信息的识别装置的结构示意图;
图5是本发明实施例提供的终端的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。
图1为本发明实施例提供的病原微生物信息的识别方法的应用场景图。如图1所示,可以直接将病原微生物宏基因组检测得到的报告作为输入,识别终端对输入的报告进行特征提取和数据处理,之后由终端内预先存储的训练好的识别模型输入数据进行流式识别分类,以确定检测报告中检测出的数百乃至上千种微生物的识别结果,识别结果中对微生物的关注程度进行了分类,包括不关注、疑似背景微生物、关注和重点关注,从而可以替代人工审核,快速得到大量微生物数据的识别结果。
参见图2,其示出了本发明实施例提供的病原微生物信息的识别方法的实现流程图,详述如下:
在步骤201中、获取检测报告。
在本发明实施例中,检测报告为对检测样本进行病原微生物宏基因组检测得到的报告。本发明应用于识别终端,识别终端获取检测报告并对其中的检测数据进行特征提取,以根据检测数据的特征对微生物进行分类,确定检测样本中所包含的微生物类型,以及对检测样本中包括的需关注或需重点关注的微生物物种进行标注。
在步骤202中、对检测报告进行特征提取,获得初始特征数据。
在本发明实施例中,检测报告的检测结果中包括了众多的检测结果数据,需要从中筛选和提取与识别结果相关的数据作为初始特征数据。
示例性的,细菌列表可以包括检测到的细菌所属、属名称、属序列数、属相对丰度、细菌种名称、种序列数、种相对丰度、种基因组覆盖度等;真菌列表可以包括检测到的真菌所属名称、属序列数、属相对丰度、真菌种名称、种序列数、种相对丰度、种基因组覆盖度;病毒列表可以包括检测到的病毒所属、属名称、属序列数、属相对丰度、病毒种名称、种序列数、种相对丰度、种基因组覆盖度等;寄生虫列表可以包括检测到的寄生虫所属名称、属序列数、属相对丰度、寄生虫种名称、种序列数、种相对丰度、种基因组覆盖度。
在一个实现方式中,可以从上述检测结果信息中,找出对识别分类结果有影响的检测结果信息作为初始特征数据。示例性的,可以通过统计分析的手段实现,结合相关的审核标准确定最终的初始特征数据。
在一个具体的实施例中,上述初始特征数据可以包括:数据条数、文库浓度、检测出的总微生物数、文库类型、样本类型、该层级物种的总数、每百万条序列含有多少条该物种、唯一比对至物种的序列数、物种的taxonomy索引、物种的所属的大类、物种在所在属属内占比、人源序列的数据量、样本类型和物种的taxonomy索引的混合型。
上述数据条数可以是经过质检后的数据条数,例如通过一些数据检查软件进行筛选清洗后的数据,从而具备更高的数据质量。
在步骤203中、对初始特征数据进行处理,生成标准化特征向量。
在本发明实施例中,提取的初始特征数据包含了多种类型的数据,比如包括了数值型数据,例如数据条数、文库浓度、检测出的总微生物数等;又比如包括了类别型数据,例如文库类型、样本类型等;再比如还包括了特有的交叉型数据,例如样本类型和物种的taxonomy索引的混合型。不同类型的数据信息含量不同,如果直接作为识别模型的数据输入会导致识别不准确或者泛化能力差,因此需要对数据类型进行识别,并针对不同类型的数据分别进行处理,最终生成标准化特征向量,作为识别模型的输入。
图3是本发明实施例提供的病原微生物信息的识别方法中数据处理的实现流程图,如图3所示,在一个实施例中,上述步骤203具体可以通过以下步骤实现:
步骤2031、识别初始特征数据中的类别型数据、交叉型数据和数值型数据;
步骤2033、对类别型数据进行稀疏编码,并通过特征嵌入映射为第一高维向量;
步骤2033、根据预设的关联关系将交叉型数据进行组合拼接,对组合拼接后的数据进行稀疏编码,并通过特征嵌入映射为第二高维向量;
步骤2034、对数值型数据进行向量表示,生成第三高维向量;
步骤2035、将第一高维向量、第二高维向量与第三高维向量进行向量拼接,合并为更高维向量;
步骤2036、对更高维向量进行标准化处理以压缩至标准区间内,得到标准化特征向量。
在本发明实施例中,针对初始特征数据中不同类型的数据进行分别处理,对类别型数据进行稀疏编码,并通过特征嵌入映射为第一高维向量。例如,可以对类别型数据采用独热编码处理,再将编码后的结果通过嵌入层映射为第一高维向量。对于交叉型数据而言,二者相互关联、相互影响共同作用与识别结果,故需要将交叉型数据先进行组合拼接,组合拼接的过程是一个降维过程,之后再采用独热编码处理,最后将编码后的结果通过嵌入层映射为第二高维向量。对于数值型数据而言,不同类别的数据数值类型存在较大的量级差异,比如总序列数可以达到几千万,而样本浓度可能只有零点几。另外,上述类别型数据和交叉型数据处理后同样属于数值型数据,存在量级差异,为了提供识别模型的收敛速度,可以将第一高维向量、第二高维向量和第三高维向量进行拼接,整合为更高维向量,例如数值型为20维的数据,类别型为32维的数据,合并后变成一个52维的数据。最后对更高维数据进行标准化处理,将数据大小控制在接近的区间内,从而可以缩短拟合时间,提高处理效率。
在步骤204中、将标准化特征向量作为输入,利用训练好的识别模型进行识别,获得物种信息识别结果。
在本发明实施例中的识别模型包括至少一个泛化识别模型和至少一个高危识别模型,其中,高危识别模型基于第一训练集训练得到,泛化识别模型基于第二训练集得到,第一训练集为第二训练集的子集,第一训练集中的训练数据为第二训练集中经泛化识别模型识别后输出结果为指定类别的训练数据,泛化识别模型和高危识别模型均为深度神经网络模型;
在本发明实施例中,泛化识别模型的输出结果可以包括:不关注、疑似背景微生物、关注和重点关注;所述指定类别包括:关注和重点关注。
在本发明实施例中,上述识别模型的训练步骤可以包括:
获取已识别的历史检测报告;
根据所述历史检测报告生成训练集和验证集;
利用所述训练集对预先构建的初始识别模型进行预设轮次的训练;
利用所述验证集对训练后的模型进行精确度评分,并选取精确度评分符合预设条件的模型作为训练好的识别模型;
在本发明实施例中,需要对识别模型进行训练,首先,利用已识别的历史检测报告生成训练集和验证集,已识别的历史检测报告可以是预先人工识别好的,例如对检测报告中的各类微生物中的不关注类型、疑似背景微生物类型、关注类型、重点关注类型进行了分类标注。将历史检测报告按照上述同样的特征提取和数据处理方式进行了处理,得到训练用的标准化特征向量,将标准化特征向量可以按照一定比例,例如10比1的比例,划分为训练集和验证集,其中,验证集不参与训练。
在本发明实施例中,可以利用训练集对预先构建的深度神经网络模型进行预设轮次的训练,预设轮次例如可以是30次,对训练后的模型利用验证集进行精确度评分,将精确度评分符合预设条件的模型作为训练好的识别模型,其中,精确度评分大于一定阈值的可以认为符合预设条件,或者,精确度评分前预设名次可以认为符合预设条件。
在本发明实施例中,进行精确度评分的公式可以是:
其中,表示模型对类型i的预测精确度评分,Precision表示模型的精确度,Recall表示模型的召回率,no表示不关注类型,background表示疑似背景微生物类型,conern表示关注类型,highly_concern表示重点关注类型,/>表示模型的精确度评分。
在本发明实施例中,全部的训练集可以作为第二训练集,对泛化识别模型进行训练,得到训练好的泛化识别模型;将经训练好的泛化识别模型识别后结果为关注或重点关注的训练集数据形成第一训练集,利用第一训练重新训练一个深度神经网络模型,得到训练好的高危识别模型。
在本发明实施例中,上述选取精确度评分符合预设条件的模型作为训练好的识别模型可以包括:
选取精确度评分大于预设分值的N个泛化识别模型和N个高危识别模型,其中,N大于30;
计算所述N个泛化识别模型中两两之间的欧式距离;
计算所述N个高危识别模型中两两之间的欧式距离;
选择两两之间的欧式距离和最大的5个识别模型作为训练好的识别模型,其中,所述5个识别模型包括3个泛化识别模型和2个高危识别模型。
在本发明实施例中,通过训练可以得到多个识别模型,通过选取欧式距离和最大的组合形成最终训练好的识别模型,可以提高选取模型的互补能力,提高识别结果的准确性。
在一个实施例中,当检测报告的审核流程逻辑发生变化时,需要对模型进行更新,常规方法中需要重新收集数据,重新训练识别模型。本发明实施例利用数据拟合的方式,无需重新训练,从而降低了工作量,又可便捷的适配寻得审核规范和标准,具体方法可以如下:
提取历史检测报告中与审核流程逻辑变化相关的数据信息,并重新生成测试集和验证集;
基于重新生成的测试集对训练好的识别模型进行预设轮次的数据拟合,以更新模型参数,适配变化后的审核流程逻辑;
利用重新生成的验证集对数据拟合后的识别模型进行精确度评分,并选取精确度评分符合预设条件的模型作为拟合好的识别模型。
在一个实施例中,上述步骤203还可以包括:将标准化特征向量作为输入,利用多个训练好的识别模型进行识别,获得多个初始识别结果;对多个初始识别结果取众数作为最终的物种信息识别结果。
在本实施例中,利用多模型综合评估,通过取众数作为最终的物种信息识别结果,进一步提高了识别结果的准确性。
由上可知,本发明提供一种病原微生物信息的识别方法、装置、终端及存储介质,通过对检测样本的病原微生物宏基因组检测报告进行特征提取和数据处理,得到能体现病原微生物特征的标准化特征向量,再利用训练好的识别模型对标准化特征向量进行识别,从而获得病原微生物信息的识别结果,解决了现有技术中主要依赖临床医生或者报告审核人员进行识别带来的工作量大工作难度高的问题,提高了识别效率。并且,识别模型包括泛化识别模型和高危识别模型,通过泛化识别模型可汇总尽可能多的微生物特征,有利于对一些新的或少见的物种的识别检出,提高了识别的全面性;通过高危识别模型可聚焦于已知的易感物种,快速识别出检测样本中需关注及需重点关注的病原微生物信息,进一步提升了识别效率。
本发明实施例还提供一种汇总的模型训练流程,具体如下:
第一,提取每份检测报告中的相关数据信息,具体数据可参见表1,然后按照10:1的比例将数据分为训练集和验证集,验证集数据不参与训练,用于检验模型训练效果。
表1
第二,对所有提取的信息做预处理,类别型数据和混合型数据需要通过独热编码稀疏化,数值型数据做标准化。
第三,将得到的各个类型数据作为输入添加到预设好结构的模型中,该结构(嵌入层,embeding)会对类别混合型数据进行embeding处理,然后经过embeding层的类别型数据会和数值型数据结合进入一个8层组合模块(每个模块由1个全连接层(激活函数为relu),1个批标准化层,1个丢失层构成,每一层的参数可以自由调节并不固定),混合型数据会进入一个2层组合模块,最后,将两边的输出通过组合层组合在一起,通过一个激活函数为softmax的全连接层,输出结果。
第四,通过多轮(例如30轮左右)的训练,模型每个层的参数会不断更新,并会在验证集上做确认,目前取精确度评分最大值时的模型参数作为最终选取结果。
第五,通过调整模型内部各个层级里面的各种超级参数(层数,units,丢失层的丢失率,不同类别的权重等)生成30个以上的模型;通过上述提到筛选方法,选出最佳的五个模型的组合(3个泛化模型,2个保守模型)。
第六,通过组合模型结果取众数的方式,获得最终结果,如果存在2:2:1的情况(优先报出疑似其次是关注,然后是重点关注,最后是不关注)。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
以下为本发明的装置实施例,对于其中未详尽描述的细节,可以参考上述对应的方法实施例。
图4示出了本发明实施例提供的病原微生物信息的识别装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
如图4所示,病原微生物信息的识别装置4包括:信息获取单元41,特征提取单元42,数据处理单元43和模型识别单元44。
信息获取单元41,用于获取检测报告,所述检测报告为对检测样本进行病原微生物宏基因组检测得到的报告;
特征提取单元42,用于对检测报告进行特征提取,获得初始特征数据;
数据处理单元43,用于对初始特征数据进行处理,生成标准化特征向量;
模型识别单元44,用于将标准化特征向量作为输入,利用训练好的识别模型进行识别,获得物种信息识别结果;其中,所述识别模型包括至少一个泛化识别模型和至少一个高危识别模型,所述高危识别模型基于第一训练集训练得到,所述泛化识别模型基于第二训练集得到,所述第一训练集为所述第二训练集的子集,所述第一训练集中的训练数据为所述第二训练集中经所述泛化识别模型识别后输出结果为指定类别的训练数据,所述泛化识别模型和所述高危识别模型均为深度神经网络模型;
其中,所述泛化识别模型的输出结果包括:不关注、疑似背景微生物、关注和重点关注;所述指定类别包括:关注和重点关注。
在一种可能的实现方式中,特征提取单元42提取的初始特征数据包括:数据条数、文库浓度、检测出的总微生物数、文库类型、样本类型、该层级物种的总数、每百万条序列含有多少条该物种、唯一比对至物种的序列数、物种的taxonomy索引、物种的所属的大类、物种在所在属属内占比、人源序列的数据量、样本类型和物种的taxonomy索引的混合型。
在一种可能的实现方式中,数据处理单元43具体用于:
识别初始特征数据中的类别型数据、交叉型数据和数值型数据;
对类别型数据进行稀疏编码,并通过特征嵌入映射为第一高维向量;
根据预设的关联关系将交叉型数据进行组合拼接,对组合拼接后的数据进行稀疏编码,并通过特征嵌入映射为第二高维向量;
对数值型数据进行向量表示,生成第三高维向量;
将第一高维向量、第二高维向量与第三高维向量进行向量拼接,合并为更高维向量;
对所述更高维向量进行标准化处理以压缩至标准区间内,得到标准化特征向量。
在一种可能的实现方式中,病原微生物信息的识别装置4还包括模型训练单元,具体用于:获取已识别的历史检测报告;
根据所述历史检测报告生成训练集和验证集;
利用所述训练集对预先构建的初始识别模型进行预设轮次的训练;
利用所述验证集对训练后的模型进行精确度评分,并选取精确度评分符合预设条件的模型作为训练好的识别模型;
其中,进行精确度评分的公式包括:
其中,表示模型对类型i的预测精确度评分,Precision表示模型的精确度,Recall表示模型的召回率,no表示不关注类型,background表示疑似背景微生物类型,conern表示关注类型,highly_concern表示重点关注类型,/>表示模型的精确度评分。
在一种可能的实现方式中,模型训练单元选取精确度评分符合预设条件的模型作为训练好的识别模型包括:
选取精确度评分大于预设分值的N个泛化识别模型和N个高危识别模型,其中,N大于30;
计算所述N个泛化识别模型中两两之间的欧式距离;
计算所述N个高危识别模型中两两之间的欧式距离;
选择两两之间的欧式距离和最大的5个识别模型作为训练好的识别模型,其中,所述5个识别模型包括3个泛化识别模型和2个高危识别模型。
在一种可能的实现方式中,病原微生物信息的识别装置4还包括参数更新单元,用于提取历史检测报告中与所述审核流程逻辑变化相关的数据信息,并重新生成测试集和验证集;
基于重新生成的测试集对训练好的识别模型进行预设轮次的数据拟合,以更新模型参数,适配变化后的审核流程逻辑;
利用重新生成的验证集对数据拟合后的识别模型进行精确度评分,并选取精确度评分符合预设条件的模型作为拟合好的识别模型。
在一种可能的实现方式中,模型识别单元44具体还用于,将标准化特征向量作为输入,利用多个训练好的识别模型进行识别,获得多个初始识别结果;对多个初始识别结果取众数作为最终的物种信息识别结果。
由上可知,本发明提供一种病原微生物信息的识别方法、装置、终端及存储介质,通过对检测样本的病原微生物宏基因组检测报告进行特征提取和数据处理,得到能体现病原微生物特征的标准化特征向量,再利用训练好的识别模型对标准化特征向量进行识别,从而获得病原微生物信息的识别结果,解决了现有技术中主要依赖临床医生或者报告审核人员进行识别带来的工作量大工作难度高的问题,提高了识别效率。并且,识别模型包括泛化识别模型和高危识别模型,通过泛化识别模型可汇总尽可能多的微生物特征,有利于对一些新的或少见的物种的识别检出,提高了识别的全面性;通过高危识别模型可聚焦于已知的易感物种,快速识别出检测样本中需关注及需重点关注的病原微生物信息,进一步提升了识别效率。
图5是本发明实施例提供的终端的示意图。如图5所示,该实施例的终端5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个病原微生物信息的识别方法实施例中的步骤,例如图2所示的步骤201至步骤204。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各单元的功能,例如图4所示单元41至44的功能。
示例性的,所述计算机程序52可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述终端5中的执行过程。例如,所述计算机程序52可以被分割成图4所示的单元41至44。
所述终端5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端5可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端5的示例,并不构成对终端5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端5的内部存储单元,例如终端5的硬盘或内存。所述存储器51也可以是所述终端5的外部存储设备,例如所述终端5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个病原微生物信息的识别方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (7)
1.一种病原微生物信息的识别方法,其特征在于,包括:
获取检测报告,所述检测报告为对检测样本进行病原微生物宏基因组检测得到的报告;
对所述检测报告进行特征提取,获得初始特征数据;
对所述初始特征数据进行处理,生成标准化特征向量;
将所述标准化特征向量作为输入,利用训练好的识别模型进行识别,获得物种信息识别结果;其中,所述识别模型包括至少一个泛化识别模型和至少一个高危识别模型,所述高危识别模型基于第一训练集训练得到,所述泛化识别模型基于第二训练集得到,所述第一训练集为所述第二训练集的子集,所述第一训练集中的训练数据为所述第二训练集中经所述泛化识别模型识别后输出结果为指定类别的训练数据,所述泛化识别模型和所述高危识别模型均为深度神经网络模型;
其中,所述泛化识别模型的输出结果包括:不关注、疑似背景微生物、关注和重点关注;所述指定类别包括:关注和重点关注;
所述识别模型的训练步骤包括:
获取已识别的历史检测报告;
根据所述历史检测报告生成训练集和验证集;
利用所述训练集对预先构建的初始识别模型进行预设轮次的训练;
利用所述验证集对训练后的模型进行精确度评分,并选取精确度评分符合预设条件的模型作为训练好的识别模型;
其中,进行精确度评分的公式包括:
其中,表示模型对类型i的预测精确度评分,Precision表示模型的精确度,Recall表示模型的召回率,no表示不关注类型,background表示疑似背景微生物类型,conern表示关注类型,highly_concern表示重点关注类型,/>表示模型的精确度评分;
所述选取精确度评分符合预设条件的模型作为训练好的识别模型包括:
选取精确度评分大于预设分值的N个泛化识别模型和N个高危识别模型,其中,N大于30;
计算所述N个泛化识别模型中两两之间的欧式距离;
计算所述N个高危识别模型中两两之间的欧式距离;
选择两两之间的欧式距离和最大的5个识别模型作为训练好的识别模型,其中,所述5个识别模型包括3个泛化识别模型和2个高危识别模型;
所述将所述标准化特征向量作为输入,利用训练好的识别模型进行识别,获得物种信息识别结果包括:
将所述标准化特征向量作为输入,利用多个训练好的识别模型进行识别,获得多个初始识别结果;
对所述多个初始识别结果取众数作为最终的物种信息识别结果。
2.如权利要求1所述的病原微生物信息的识别方法,其特征在于,所述初始特征数据包括:
数据条数、文库浓度、检测出的总微生物数、文库类型、样本类型、所在层级物种的总数、每百万条序列含有多少条该物种、唯一比对至物种的序列数、物种的taxonomy索引、物种的所属的大类、物种在所在属属内占比、人源序列的数据量、样本类型和物种的taxonomy索引的混合型。
3.如权利要求2所述的病原微生物信息的识别方法,其特征在于,所述对所述初始特征数据进行处理,生成标准化特征向量包括:
识别初始特征数据中的类别型数据、交叉型数据和数值型数据;
对类别型数据进行稀疏编码,并通过特征嵌入映射为第一高维向量;
根据预设的关联关系将交叉型数据进行组合拼接,对组合拼接后的数据进行稀疏编码,并通过特征嵌入映射为第二高维向量;
对数值型数据进行向量表示,生成第三高维向量;
将第一高维向量、第二高维向量与第三高维向量进行向量拼接,合并为更高维向量;
对所述更高维向量进行标准化处理以压缩至标准区间内,得到标准化特征向量。
4.如权利要求1所述的病原微生物信息的识别方法,其特征在于,若所述检测报告的审核流程逻辑发生变化,所述方法还包括:
提取历史检测报告中与所述审核流程逻辑变化相关的数据信息,并重新生成测试集和验证集;
基于重新生成的测试集对训练好的识别模型进行预设轮次的数据拟合,以更新模型参数,适配变化后的审核流程逻辑;
利用重新生成的验证集对数据拟合后的识别模型进行精确度评分,并选取精确度评分符合预设条件的模型作为拟合好的识别模型。
5.一种病原微生物信息的识别装置,其特征在于,包括:
信息获取单元,用于获取检测报告,所述检测报告为对检测样本进行病原微生物宏基因组检测得到的报告;
特征提取单元,用于对所述检测报告进行特征提取,获得初始特征数据;
数据处理单元,用于对所述初始特征数据进行处理,生成标准化特征向量;
模型识别单元,用于将所述标准化特征向量作为输入,利用训练好的识别模型进行识别,获得物种信息识别结果;其中,所述识别模型包括至少一个泛化识别模型和至少一个高危识别模型,所述高危识别模型基于第一训练集训练得到,所述泛化识别模型基于第二训练集得到,所述第一训练集为所述第二训练集的子集,所述第一训练集中的训练数据为所述第二训练集中经所述泛化识别模型识别后输出结果为指定类别的训练数据,所述泛化识别模型和所述高危识别模型均为深度神经网络模型;
其中,所述泛化识别模型的输出结果包括:不关注、疑似背景微生物、关注和重点关注;所述指定类别包括:关注和重点关注;
所述病原微生物信息的识别装置还包括模型训练单元,用于:
获取已识别的历史检测报告;
根据所述历史检测报告生成训练集和验证集;
利用所述训练集对预先构建的初始识别模型进行预设轮次的训练;
利用所述验证集对训练后的模型进行精确度评分,并选取精确度评分符合预设条件的模型作为训练好的识别模型;
其中,进行精确度评分的公式包括:
其中,表示模型对类型i的预测精确度评分,Precision表示模型的精确度,Recall表示模型的召回率,no表示不关注类型,background表示疑似背景微生物类型,conern表示关注类型,highly_concern表示重点关注类型,/>表示模型的精确度评分;
模型训练单元选取精确度评分符合预设条件的模型作为训练好的识别模型包括:
选取精确度评分大于预设分值的N个泛化识别模型和N个高危识别模型,其中,N大于30;
计算所述N个泛化识别模型中两两之间的欧式距离;
计算所述N个高危识别模型中两两之间的欧式距离;
选择两两之间的欧式距离和最大的5个识别模型作为训练好的识别模型,其中,所述5个识别模型包括3个泛化识别模型和2个高危识别模型;
模型识别单元具体还用于:
将所述标准化特征向量作为输入,利用多个训练好的识别模型进行识别,获得多个初始识别结果;
对所述多个初始识别结果取众数作为最终的物种信息识别结果。
6.一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至4中任一项所述病原微生物信息的识别方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上的权利要求1至4中任一项所述病原微生物信息的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410160852.0A CN117708569B (zh) | 2024-02-05 | 2024-02-05 | 一种病原微生物信息的识别方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410160852.0A CN117708569B (zh) | 2024-02-05 | 2024-02-05 | 一种病原微生物信息的识别方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117708569A CN117708569A (zh) | 2024-03-15 |
CN117708569B true CN117708569B (zh) | 2024-04-05 |
Family
ID=90148254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410160852.0A Active CN117708569B (zh) | 2024-02-05 | 2024-02-05 | 一种病原微生物信息的识别方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708569B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816245A (zh) * | 2020-07-20 | 2020-10-23 | 成都博欣医学检验实验室有限公司 | 结合mNGS和临床知识库的病原微生物检测方法及系统 |
CN111951895A (zh) * | 2020-07-09 | 2020-11-17 | 苏州协云基因科技有限公司 | 基于宏基因组学的病原分析方法、分析装置、设备及存储介质 |
CN113744807A (zh) * | 2021-11-03 | 2021-12-03 | 微岩医学科技(北京)有限公司 | 一种基于宏基因组学的病原微生物检测方法及装置 |
WO2022028624A1 (zh) * | 2020-08-07 | 2022-02-10 | 西安中科茵康莱医学检验有限公司 | 通过测序获取微生物物种及相关信息的方法、装置、计算机可读存储介质和电子设备 |
CN115862739A (zh) * | 2022-11-04 | 2023-03-28 | 深圳吉因加医学检验实验室 | 一种病原微生物分析鉴定系统及其应用 |
CN115927565A (zh) * | 2022-09-30 | 2023-04-07 | 武汉波睿达生物科技有限公司 | 基于mNGS检测CAR-T细胞制品中病原微生物的方法建立及应用 |
-
2024
- 2024-02-05 CN CN202410160852.0A patent/CN117708569B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951895A (zh) * | 2020-07-09 | 2020-11-17 | 苏州协云基因科技有限公司 | 基于宏基因组学的病原分析方法、分析装置、设备及存储介质 |
CN111816245A (zh) * | 2020-07-20 | 2020-10-23 | 成都博欣医学检验实验室有限公司 | 结合mNGS和临床知识库的病原微生物检测方法及系统 |
WO2022028624A1 (zh) * | 2020-08-07 | 2022-02-10 | 西安中科茵康莱医学检验有限公司 | 通过测序获取微生物物种及相关信息的方法、装置、计算机可读存储介质和电子设备 |
CN113744807A (zh) * | 2021-11-03 | 2021-12-03 | 微岩医学科技(北京)有限公司 | 一种基于宏基因组学的病原微生物检测方法及装置 |
CN115927565A (zh) * | 2022-09-30 | 2023-04-07 | 武汉波睿达生物科技有限公司 | 基于mNGS检测CAR-T细胞制品中病原微生物的方法建立及应用 |
CN115862739A (zh) * | 2022-11-04 | 2023-03-28 | 深圳吉因加医学检验实验室 | 一种病原微生物分析鉴定系统及其应用 |
Non-Patent Citations (1)
Title |
---|
Background Filtering of Clinical Metagenomic Sequencing with a Library Concentration-Normalized Model;Juan Du 等;Microbiology Spectrum;20220922;第10卷(第5期);第1-17页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117708569A (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109048492B (zh) | 基于卷积神经网络的刀具磨损状态检测方法、装置及设备 | |
CN109241741B (zh) | 一种基于图像纹理指纹的恶意代码分类方法 | |
CN112187752A (zh) | 一种基于随机森林的入侵检测分类方法及装置 | |
WO2016205286A1 (en) | Automatic entity resolution with rules detection and generation system | |
CN112910859B (zh) | 基于c5.0决策树和时序分析的物联网设备监测预警方法 | |
CN111798312A (zh) | 一种基于孤立森林算法的金融交易系统异常识别方法 | |
CN111915437A (zh) | 基于rnn的反洗钱模型的训练方法、装置、设备及介质 | |
CN116363440B (zh) | 基于深度学习的土壤中有色微塑料的识别检测方法及系统 | |
CN113449725B (zh) | 对象分类方法、装置、设备及存储介质 | |
CN109067800A (zh) | 一种固件漏洞的跨平台关联检测方法 | |
CN112308148A (zh) | 缺陷类别识别、孪生神经网络训练方法、装置及存储介质 | |
CN116842240B (zh) | 一种基于全链路治理管控的数据治理系统 | |
CN113486664A (zh) | 文本数据可视化分析方法、装置、设备及存储介质 | |
CN112632000A (zh) | 日志文件聚类方法、装置、电子设备和可读存储介质 | |
CN117708569B (zh) | 一种病原微生物信息的识别方法、装置、终端及存储介质 | |
CN115277159B (zh) | 一种基于改进随机森林的工业互联网安全态势评估方法 | |
CN113392086B (zh) | 基于物联网的医疗数据库构建方法、装置及设备 | |
CN109145554A (zh) | 一种基于支持向量机的击键特征异常用户识别方法及系统 | |
CN115511454A (zh) | 一种生成审核规则的方法、装置及相关产品 | |
CN115700557A (zh) | 一种用于对核酸样本进行分类的方法、设备和存储介质 | |
CN114972273A (zh) | 流水化产品数据集增强方法、系统、设备及存储介质 | |
CN114496196A (zh) | 医疗实验室临床生化检验自动审核系统 | |
CN111383716A (zh) | 基因对的筛选方法、装置、计算机设备和存储介质 | |
CN113378881B (zh) | 基于信息熵增益svm模型的指令集识别方法及装置 | |
CN113904801B (zh) | 一种网络入侵检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |