CN115841847B - 一种微生物信息测定及提取系统和方法 - Google Patents
一种微生物信息测定及提取系统和方法 Download PDFInfo
- Publication number
- CN115841847B CN115841847B CN202211593693.0A CN202211593693A CN115841847B CN 115841847 B CN115841847 B CN 115841847B CN 202211593693 A CN202211593693 A CN 202211593693A CN 115841847 B CN115841847 B CN 115841847B
- Authority
- CN
- China
- Prior art keywords
- information
- microorganism
- microorganism information
- sample
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 244000005700 microbiome Species 0.000 title claims abstract description 202
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000000605 extraction Methods 0.000 title claims description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 50
- 238000005070 sampling Methods 0.000 claims abstract description 43
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000013145 classification model Methods 0.000 claims abstract description 23
- 238000012163 sequencing technique Methods 0.000 claims abstract description 19
- 238000012216 screening Methods 0.000 claims abstract description 18
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 10
- 230000000813 microbial effect Effects 0.000 claims description 42
- 230000002906 microbiologic effect Effects 0.000 claims description 19
- 230000035945 sensitivity Effects 0.000 claims description 6
- 239000002352 surface water Substances 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000011282 treatment Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000736262 Microbiota Species 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000000386 microscopy Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Abstract
本发明提出了一种微生物信息测定及提取系统和方法,属于微生物信息学技术领域,对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接,获取每一水质样品的微生物信息序列拼接结果;对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列;对不同采样点的相同优质微生物信息序列打分,得到优质微生物信息序列的微生物信息因子;用微生物信息聚类的方法对m个微生物信息因子进行聚类,并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息;用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类,得到特征微生物信息集合;根据正确分类后的多个微生物信息,提取特征微生物信息,从而判断每个类别多代表的微生物类别。
Description
技术领域
本发明涉及微生物信息学技术领域,具体涉及一种微生物信息测定及提取系统和方法。
背景技术:
微生物是地球上种类最多、数量最大、分布最广的微生物群,与人类、动植物和环境有着密切的相互作用,同时也是工业微生物技术的核心及重要的国际竞争战略资源。当前人类面对各种严峻挑战,如重大慢性疾病高发、环境污染日益严重、资源短缺问题日渐凸显等,微生物组技术的革新和应用的将提供新的解决思路。微生物研究将会给人类健康维护、疾病诊治、工农业生产、生态保护环境治理、微生物安全保障和微生物资源等方面带来重大性的变化。
而对于特定区域微生物信息多样性的调查,传统方法是通过专业人员对采集物种的形态学特征进行数小时的观察来确定的,例如:传统浮游植物的物种鉴定,需要专业人员将采集样品进行固定及凝聚后,再通过显微镜实现镜检。这一过程受限于专业人员的影响,易受主观因素的影响导致检测结果的差异性;此外,一些对生存环境比较敏感的物种也很难通过先采集再镜检的形式被发现,从而影响了调查和评价的准确性。传统的用于微生物的研究是通过对微生物进行培养,再进行生化表型的观察,这样要花费数十天的时间去完成。近年来发展起来的宏基因组学技术可以直接提取样本微生物信息进行全基因组测序,通过对这些微生物信息进行分析和解读,已经可以做到对环境中微生物的群落结构、物种分类、系统进化、基因功能及代谢网络等进行研究。本发明整合了微生物学,数学,统计学和计算机信息工程学,使用数学和统计的方法,实现对水中微生物信息进行测定及提取分析。
发明内容
为了解决上述技术问题,本发明提出了一种微生物信息测定及提取方法,包括如下步骤:
S1、在目标区域内设置n个水质采样点,采集每个采样点的表层水样,得到n个水质样品;
S2、对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接,获取每一水质样品的微生物信息序列拼接结果;
S3、对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列,去除混杂体序列,获得每一水质样品的优质微生物信息序列;
S4、对不同采样点的相同优质微生物信息序列打分,得到优质微生物信息序列的微生物信息因子;
S5、用微生物信息聚类的方法对m个微生物信息因子进行聚类,并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息;
S6、用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类,得到特征微生物信息集合;
S7、根据正确分类后的多个微生物信息,提取特征微生物信息,从而判断每个类别多代表的微生物类别。
进一步地,步骤S4中,用gij表示第j个采样点的第i个优质微生物信息,1≤i≤m,1≤j≤n,m表示优质微生物信息的个数,n表示采样点个数,gij表示第j个采样点的第i个优质微生物信息,通过打分函数计算不同n个采样点的第i个优质微生物信息gi的分值S(i),作为该优质微生物的微生物信息因子;
打分函数定义如下:
其中,μi和σi分别表示不同n个采样点的第i个相同优质微生物信息序列表达值的均值和方差。
进一步地,步骤S5采用均值聚类方法,包括:
S51、对m个微生物信息因子进行标准化处理;
S52、任意取k个微生物信息因子作为初聚类中心;
S53、将每个初聚类中所有因子均值作为聚类中心,计算m个微生物信息因子中每个因子与该聚类中心的距离,设定距离阈值,重新对距离阈值内的微生物信息因子行划分聚类,并计算每个聚类中的因子均值作为中心;
S54、从每个聚类中选取具有最高分值S(i)的微生物信息作为该聚类的代表微生物信息。
进一步地,步骤S6中,
设有样本集S={(xi,yi)|i=1,2,…n},其中xi∈X为微生物信息样本,yi∈Y={+1,-1}为聚类类别,则分类模型Gt(xi):xi→{-1,+1};
在样本集上每次保留一个样本作为测试样本,其余样本用做分类模型Gt(xi)的训练样本,依次更换样本作为测试样本,重复上述过程,直到训练集上所有样本均被用做测试样本为止;
进一步地,记录所有被错误分类的样本数作为分类错误数,记为E1;
利用样本集中的所有样本作为分类模型Gt(xi)的训练样本,对测试集中的样本逐一进行识别,所有被错误分类的样本数作为分类错误数,记为E2;
利用该分类模型Gt(xi)作为分类器,在上述两个步骤中,若最后得到的分类错误数E1及E2均为0,则表明利用分类器选出的多个微生物信息,可实现对样本集中所有样本的正确分类。
进一步地,步骤S7中,根据特征微生物信息P=[p1、p2…pm]中各个分量对决策函数0(P)的影响,定义特征微生物信息P的灵敏度函数S(pj)为:
其中,pj为特征微生物信息P=[p1、p2…pm]中的一个分量,决策函数使得每个类别的特征微生物信息间隔最大化的边界;
通过查询灵敏度函数值,判断每个类别代表的微生物类别信息。
本发明还提出了一种微生物信息测定及提取系统,用于实现微生物信息测定及提取方法,包括:数据采集单元,测序拼接单元,信息筛选单元,序列打分单元,聚类单元,样本类型识别单元,
所述数据采集单元用于在目标区域内设置n个水质采样点,采集每个采样点的表层水样,得到n个水质样品;
所述测序拼接单元用于对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接,获取每一水质样品的微生物信息序列拼接结果;
所述信息筛选单元用于对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列,去除混杂体序列,获得每一水质样品的优质微生物信息序列;
所述序列打分单元用于对不同采样点的相同优质微生物信息序列打分,得到优质微生物信息序列的微生物信息因子;
所述聚类单元用于用微生物信息聚类的方法对多个微生物信息因子进行聚类,并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息;
所述样本类型识别单元用于用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类,得到特征微生物信息集合。
相比于现有技术,本发明具有如下有益技术特征:通过对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列,去除混杂体序列,有效获得每一水质样品的优质微生物信息序列;用微生物信息聚类的方法对微生物信息因子进行聚类,并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息;用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类,得到特征微生物信息集合,提高了分类的准确性;根据正确分类后的多个微生物信息,提取特征微生物信息,准确判断出每个类别多代表的微生物类别。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的微生物信息测定及提取方法流程图;
图2为本发明的微生物信息测定及提取系统的结构示意图。
具体实施方案
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本发明的具体实施例附图中,为了更好、更清楚的描述系统中的各元件的工作原理,表现所述装置中各部分的连接关系,只是明显区分了各元件之间的相对位置关系,并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。
如图1所示,为本发明的微生物信息测定及提取方法流程图,该微生物信息测定及提取方法包括如下步骤:
S1、采集研究区域样品,在目标区域内设置n个水质采样点i,i=1,2…,n,采集每个采样点的表层水样,得到n个水质样品,设置多个采样点以便后续对样品中优质微生物信息打分。
S2、对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接,获取每一水质样品的微生物信息序列拼接结果。
S21、对各个采样点的水质样品中的微生物信息进行基因测序,测序得到的原始数据以双端FASTQ格式保存。优选地,可对每一采样点的水质进行元素检测,检测指标包括:Zn、Cd、Pb、SO4 2-、NO2-中的一项或几项。
S22、采用滑动窗口法对以双端FASTQ格式保存的原始数据进行质量过滤,并对通过质量过滤的序列进行拼接,要求read1和read2的窗口长度值≥10bp,且不允许碱基错配,由此完成每一水质样品微生物信息基因测序结果的序列拼接。
S3、对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列,去除混杂体序列,获得每一水质样品的优质微生物信息序列。
S31、将每一水质样品微生物信息序列拼接结果,与用于筛选微生物信息的预定的碱基序列索引进行匹配,从每一水质样品微生物信息序列拼接结果中挑选出与预定的碱基序列索引完全匹配的有效序列。即,将预定的碱基序列索引作为筛选标准,据此从每一水质样品微生物信息序列拼接结果中寻找相应的序列,当某段序列与预定的碱基序列索引完全匹配时,即认为该段序列为有效微生物信息序列。
S32、对每一水质样品的有效微生物信息序列进行序列过滤,去除混杂体序列,以获得每一水质样品的优质微生物信息序列。由于在对微生物信息进行基因测序时用高通量测序方法建库,过程中的PCR扩增会产生混杂体序列,测序过程中会产生点突变等测序错误,为了保证分析结果的准确性,需要对有效序列进行进一步过滤和去除混杂体处理。
S4、对不同采样点的相同优质微生物信息序列打分,得到优质微生物信息序列的微生物信息因子。
具体地,用gij表示第j个采样点的第i个优质微生物信息,1≤i≤m,1≤j≤n,m表示优质微生物信息的个数,n表示采样点个数,gij表示第j个采样点的第i个优质微生物信息,通过打分函数计算不同n个采样点的第i个优质微生物信息gi的分值S(i),作为该优质微生物的微生物信息因子;
打分函数定义如下:
其中,μi和σi分别表示不同n个采样点的第i个相同优质微生物信息序列表达值的均值和方差。
S5、用微生物信息聚类的方法对m个微生物信息因子进行聚类,并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息。
聚类分析就是将相似主要微生物信息划分到相同组别,把不是相似的主要微生物信息划分到不同组别的过程。
本实施例优选采用均值聚类方法。
S51、对m个微生物信息因子进行标准化处理。
S52、任意取k个微生物信息因子作为初聚类中心;
S53、将每个初聚类中所有因子均值作为聚类中心,计算m个微生物信息因子中每个因子与该聚类中心的距离,设定距离阈值,重新对距离阈值内的微生物信息因子行划分聚类,并计算每个聚类中的因子均值作为中心。
S54、从每个聚类中选取具有最高分值S(i)的微生物信息作为该聚类的代表微生物信息。
S6、用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类,得到特征微生物信息集合。
由于微生物信息表达谱数据集样本数量少,本发明采用如下两个步骤进行样本类型的识别:
设有样本集S={(xi,yi)|i=1,2,…n},其中xi∈X为微生物信息样本,yi∈Y={+1,-1}为聚类类别,则分类模型Gt(xi):xi→{-1,+1}。
在样本集上每次保留一个样本作为测试样本,其余样本用做分类模型Gt(xi)的训练样本,依次更换样本作为测试样本,重复上述过程,直到训练集上所有样本均被用做测试样本为止。
记录所有被错误分类的样本数作为分类错误数,记为E1。
利用样本集中的所有样本作为分类模型Gt(xi)的训练样本,对测试集中的样本逐一进行识别,所有被错误分类的样本数作为分类错误数,记为E2。
利用该分类模型Gt(xi)作为分类器,在上述两个步骤中,若最后得到的分类错误数E1及E2均为0,则表明利用分类器选出的多个微生物信息,可实现对样本集中所有样本的正确分类。
S7、根据正确分类后的多个微生物信息,提取特征微生物信息,从而判断每个类别代表的微生物类别信息。
依据步骤S6可以做到对样本集中所有样本的准确分类,该组微生物信息就可以作为特征微生物信息。
根据特征微生物信息P=[p1、p2…pm]中各个分量对决策函数0(P)的影响,定义特征微生物信息P的灵敏度函数S(pj)为:
其中,pj为特征微生物信息P=[p1、p2…pm]中的一个分量,决策函数用于确定特征微生物信息的决策边界,即使得每个类别的特征微生物信息间隔最大化的边界。
通过查询灵敏度函数值,即可判断每个类别代表的微生物类别信息。
如图2所示,为本发明的微生物信息测定及提取系统的结构示意图,该微生物信息测定及提取系统包括:数据采集单元,测序拼接单元,信息筛选单元,序列打分单元,聚类单元,样本类型识别单元,
数据采集单元用于在目标区域内设置n个水质采样点,在一定时期内连续采集每采样点的表层水样,得到n个水质样品。
测序拼接单元用于对所有水质样品中的微生物信息进行测序和序列拼接,获取每一水质样品的微生物信息序列拼接结果。
信息筛选单元用于对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列,再去除混杂体序列,获得每一水质样品微生物的优质微生物信息序列。
序列打分单元用于对所得优质微生物信息序列打分,选出打分较高的微生物信息,去除大部分的无关微生物信息,得到主要微生物信息因子。
聚类单元用于微生物信息聚类并从每类中选取具有较高打分的那个微生物信息作为代表微生物信息;
样本类型识别单元用于微生物信息样本类型的识别,用分类器测试代表微生物信息错分率并实现对所有样本微生物信息类型的正确分类,得到特征微生物信息集合,进一步排除冗余微生物信息,降低特征微生物信息集合的维数,优化分类器。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (4)
1.一种微生物信息测定及提取方法,其特征在于,包括如下步骤:
S1、在目标区域内设置n个水质采样点,采集每个采样点的表层水样,得到n个水质样品;
S2、对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接,获取每一水质样品的微生物信息序列拼接结果;
S3、对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列,去除混杂体序列,获得每一水质样品的优质微生物信息序列,包括:
S31、将每一水质样品微生物信息序列拼接结果,与用于筛选微生物信息的预定的碱基序列索引进行匹配,从每一水质样品微生物信息序列拼接结果中挑选出与预定的碱基序列索引完全匹配的有效序列;
S32、对每一水质样品微生物信息的有效序列进行序列过滤,去除混杂体序列,以获得每一水质样品的优质微生物信息序列;
S4、对不同采样点的相同优质微生物信息序列打分,得到优质微生物信息序列的微生物信息因子;
用gij表示第j个采样点的第i个优质微生物信息,,m表示优质微生物信息的个数,n表示采样点个数,gij表示第j个采样点的第i个优质微生物信息,通过打分函数计算不同n个采样点的第i个优质微生物信息gi的分值S(i),作为该优质微生物的微生物信息因子;
打分函数定义如下:
;
其中,和分别表示不同n个采样点的第i个相同优质微生物信息序列表达值的均值和方差;
S5、用微生物信息聚类的方法对微生物信息因子进行聚类,并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息;
S6、用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类,得到特征微生物信息集合;
设有样本集S={(xi,yi)|i=1,2,...n},其中xi∈X为微生物信息样本,yi∈Y={+1,-1}为聚类类别,则分类模型Gt(xi):xi→{-1,+1};
在样本集上每次保留一个样本作为测试样本,其余样本用做分类模型Gt(xi)的训练样本,依次更换样本作为测试样本,直到训练集上所有样本均被用做测试样本为止;
记录所有被错误分类的样本数作为分类错误数,记为E1;
利用样本集中的所有样本作为分类模型Gt(xi)的训练样本,对测试集中的样本逐一进行识别,所有被错误分类的样本数作为分类错误数,记为E2;
利用该分类模型Gt(xi)作为分类器,若最后得到的分类错误数E1及E2均为0,则表明利用分类器选出的多个微生物信息能够实现对样本集中所有样本的正确分类;
S7、根据正确分类后的多个微生物信息,提取特征微生物信息,从而判断每个类别多代表的微生物类别。
2.根据权利要求1所述的信息测定及提取方法,其特征在于,步骤S5采用均值聚类方法,包括:
S51、对微生物信息因子进行标准化处理;
S52、任意取k个微生物信息因子作为初聚类中心;
S53、将每个初聚类中所有因子均值作为聚类中心,计算微生物信息因子中每个因子与该聚类中心的距离,设定距离阈值,重新对距离阈值内的微生物信息因子行划分聚类,并计算每个聚类中的因子均值作为中心;
S54、从每个聚类中选取具有最高分值S(i)的微生物信息作为该聚类的代表微生物信息。
3.根据权利要求1所述的信息测定及提取方法,其特征在于,步骤S7中,根据特征微生物信息P=[p1、p2…pm]中各个分量对决策函数O(P)的影响,定义特征微生物信息P的灵敏度函数S(pj)为:
;
其中,pj为特征微生物信息P=[p1、p2…pm]中的一个分量,决策函数使得每个类别的特征微生物信息间隔最大化的边界;
通过查询灵敏度函数值,判断每个类别代表的微生物类别信息。
4.一种微生物信息测定及提取系统,其特征在于,用于实现权利要求1-3中任意一项所述的微生物信息测定及提取方法,包括:数据采集单元,测序拼接单元,信息筛选单元,序列打分单元,聚类单元,样本类型识别单元,
所述数据采集单元用于在目标区域内设置n个水质采样点,采集每个采样点的表层水样,得到n个水质样品;
所述测序拼接单元用于对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接,获取每一水质样品的微生物信息序列拼接结果;
所述信息筛选单元用于对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列,去除混杂体序列,获得每一水质样品的优质微生物信息序列;将每一水质样品微生物信息序列拼接结果,与用于筛选微生物信息的预定的碱基序列索引进行匹配,从每一水质样品微生物信息序列拼接结果中挑选出与预定的碱基序列索引完全匹配的有效序列;对每一水质样品微生物信息的有效序列进行序列过滤,去除混杂体序列,以获得每一水质样品的优质微生物信息序列;
所述序列打分单元用于对不同采样点的相同优质微生物信息序列打分,得到优质微生物信息序列的微生物信息因子;
用gij表示第j个采样点的第i个优质微生物信息,,m表示优质微生物信息的个数,n表示采样点个数,gij表示第j个采样点的第i个优质微生物信息,通过打分函数计算不同n个采样点的第i个优质微生物信息gi的分值S(i),作为该优质微生物的微生物信息因子;
打分函数定义如下:
;
其中,和分别表示不同n个采样点的第i个相同优质微生物信息序列表达值的均值和方差;
所述聚类单元用于用微生物信息聚类的方法对多个微生物信息因子进行聚类,并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息;
所述样本类型识别单元用于用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类,得到特征微生物信息集合;
设有样本集S={(xi,yi)|i=1,2,...n},其中xi∈X为微生物信息样本,yi∈Y={+1,-1}为聚类类别,则分类模型Gt(xi):xi→{-1,+1};
在样本集上每次保留一个样本作为测试样本,其余样本用做分类模型Gt(xi)的训练样本,依次更换样本作为测试样本,直到训练集上所有样本均被用做测试样本为止;
记录所有被错误分类的样本数作为分类错误数,记为E1;
利用样本集中的所有样本作为分类模型Gt(xi)的训练样本,对测试集中的样本逐一进行识别,所有被错误分类的样本数作为分类错误数,记为E2;
利用该分类模型Gt(xi)作为分类器,若最后得到的分类错误数E1及E2均为0,则表明利用分类器选出的多个微生物信息能够实现对样本集中所有样本的正确分类;
根据正确分类后的多个微生物信息,提取特征微生物信息,从而判断每个类别多代表的微生物类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211593693.0A CN115841847B (zh) | 2022-12-12 | 2022-12-12 | 一种微生物信息测定及提取系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211593693.0A CN115841847B (zh) | 2022-12-12 | 2022-12-12 | 一种微生物信息测定及提取系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115841847A CN115841847A (zh) | 2023-03-24 |
CN115841847B true CN115841847B (zh) | 2023-05-12 |
Family
ID=85578485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211593693.0A Active CN115841847B (zh) | 2022-12-12 | 2022-12-12 | 一种微生物信息测定及提取系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115841847B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107533587A (zh) * | 2015-04-09 | 2018-01-02 | 皇家飞利浦有限公司 | 用于估计样本中的分类单位内的微生物的量的方法和装置 |
CN107577923A (zh) * | 2017-09-26 | 2018-01-12 | 广东美格基因科技有限公司 | 一种高度相似微生物的鉴定和分类方法 |
CN107860781A (zh) * | 2017-10-12 | 2018-03-30 | 兰州职业技术学院 | 一种食品微生物定性与定量的检测方法 |
CN109001386A (zh) * | 2018-04-17 | 2018-12-14 | 中国地质大学(武汉) | 一种水体径流连通性的探测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2985350B1 (de) * | 2014-08-14 | 2017-10-04 | microBIOMix GmbH | Verfahren zur Mikrobiom-Analyse |
US20180137243A1 (en) * | 2016-11-17 | 2018-05-17 | Resilient Biotics, Inc. | Therapeutic Methods Using Metagenomic Data From Microbial Communities |
CN108342465A (zh) * | 2018-03-02 | 2018-07-31 | 南京大学 | 一种基于高通量测序检测作物根际原核微生物的方法 |
CN113744807B (zh) * | 2021-11-03 | 2022-03-11 | 微岩医学科技(北京)有限公司 | 一种基于宏基因组学的病原微生物检测方法及装置 |
-
2022
- 2022-12-12 CN CN202211593693.0A patent/CN115841847B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107533587A (zh) * | 2015-04-09 | 2018-01-02 | 皇家飞利浦有限公司 | 用于估计样本中的分类单位内的微生物的量的方法和装置 |
CN107577923A (zh) * | 2017-09-26 | 2018-01-12 | 广东美格基因科技有限公司 | 一种高度相似微生物的鉴定和分类方法 |
CN107860781A (zh) * | 2017-10-12 | 2018-03-30 | 兰州职业技术学院 | 一种食品微生物定性与定量的检测方法 |
CN109001386A (zh) * | 2018-04-17 | 2018-12-14 | 中国地质大学(武汉) | 一种水体径流连通性的探测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115841847A (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190087638A1 (en) | Analyzing digital holographic microscopy data for hematology applications | |
CN107133651B (zh) | 基于超网络判别子图的功能磁共振影像数据分类方法 | |
CN113256636B (zh) | 一种自底向上的寄生虫虫种发育阶段及图像像素分类方法 | |
CN112687344B (zh) | 一种基于宏基因组的人腺病毒分子分型和溯源方法及系统 | |
CN112634987B (zh) | 一种单样本肿瘤dna拷贝数变异检测的方法和装置 | |
CN113658174B (zh) | 基于深度学习和图像处理算法的微核组学图像检测方法 | |
CN112949517B (zh) | 基于深度迁移学习的植物气孔密度和开度识别方法及系统 | |
CN113392894A (zh) | 一种多组学数据的聚类分析方法和系统 | |
CN110659682A (zh) | 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法 | |
CN111863135B (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN117152152B (zh) | 检测试剂盒的生产管理系统及方法 | |
CN114121158A (zh) | 一种基于深度网络自适应的scRNA-seq细胞类型识别方法 | |
CN112183459B (zh) | 一种基于进化多目标优化的遥感水质图像分类方法 | |
CN115841847B (zh) | 一种微生物信息测定及提取系统和方法 | |
CN112908414A (zh) | 一种大规模单细胞分型方法、系统及存储介质 | |
CN113889274B (zh) | 一种孤独症谱系障碍的风险预测模型构建方法及装置 | |
CN115392375A (zh) | 一种多源数据融合度智能评估方法及其系统 | |
CN115165366A (zh) | 一种旋转机械变工况故障诊断方法及系统 | |
CN114067164A (zh) | 胚胎发育阶段的检测方法、装置、电子设备及存储介质 | |
CN111310792A (zh) | 一种基于决策树的药敏实验结果识别方法与系统 | |
CN116646010B (zh) | 人源性病毒检测方法及装置、设备、存储介质 | |
CN115881218B (zh) | 用于全基因组关联分析的基因自动选择方法 | |
CN116741384B (zh) | 一种基于床旁护理的重症急性胰腺炎临床数据管理方法 | |
CN116665906B (zh) | 基于相似性孪生网络的静息态功能磁共振脑龄预测方法 | |
CN117198506A (zh) | 一种基于元学习的甲状腺结节良恶性判别模型训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |