CN115841847B

CN115841847B - 一种微生物信息测定及提取系统和方法

Info

Publication number: CN115841847B
Application number: CN202211593693.0A
Authority: CN
Inventors: 刘珍; 张峰
Original assignee: Harbin Yinji Technology Co ltd
Current assignee: Harbin Yinji Technology Co ltd
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-05-12
Anticipated expiration: 2042-12-12
Also published as: CN115841847A

Abstract

本发明提出了一种微生物信息测定及提取系统和方法，属于微生物信息学技术领域，对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接，获取每一水质样品的微生物信息序列拼接结果；对微生物信息序列拼接结果进行筛选，获得有效微生物信息序列；对不同采样点的相同优质微生物信息序列打分，得到优质微生物信息序列的微生物信息因子；用微生物信息聚类的方法对m个微生物信息因子进行聚类，并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息；用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类，得到特征微生物信息集合；根据正确分类后的多个微生物信息，提取特征微生物信息，从而判断每个类别多代表的微生物类别。

Description

一种微生物信息测定及提取系统和方法

技术领域

本发明涉及微生物信息学技术领域，具体涉及一种微生物信息测定及提取系统和方法。

背景技术：

微生物是地球上种类最多、数量最大、分布最广的微生物群，与人类、动植物和环境有着密切的相互作用，同时也是工业微生物技术的核心及重要的国际竞争战略资源。当前人类面对各种严峻挑战，如重大慢性疾病高发、环境污染日益严重、资源短缺问题日渐凸显等，微生物组技术的革新和应用的将提供新的解决思路。微生物研究将会给人类健康维护、疾病诊治、工农业生产、生态保护环境治理、微生物安全保障和微生物资源等方面带来重大性的变化。

而对于特定区域微生物信息多样性的调查，传统方法是通过专业人员对采集物种的形态学特征进行数小时的观察来确定的，例如：传统浮游植物的物种鉴定，需要专业人员将采集样品进行固定及凝聚后，再通过显微镜实现镜检。这一过程受限于专业人员的影响，易受主观因素的影响导致检测结果的差异性；此外，一些对生存环境比较敏感的物种也很难通过先采集再镜检的形式被发现，从而影响了调查和评价的准确性。传统的用于微生物的研究是通过对微生物进行培养，再进行生化表型的观察，这样要花费数十天的时间去完成。近年来发展起来的宏基因组学技术可以直接提取样本微生物信息进行全基因组测序，通过对这些微生物信息进行分析和解读，已经可以做到对环境中微生物的群落结构、物种分类、系统进化、基因功能及代谢网络等进行研究。本发明整合了微生物学，数学，统计学和计算机信息工程学，使用数学和统计的方法，实现对水中微生物信息进行测定及提取分析。

发明内容

为了解决上述技术问题，本发明提出了一种微生物信息测定及提取方法，包括如下步骤：

S1、在目标区域内设置n个水质采样点，采集每个采样点的表层水样，得到n个水质样品；

S2、对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接，获取每一水质样品的微生物信息序列拼接结果；

S3、对微生物信息序列拼接结果进行筛选，获得有效微生物信息序列，去除混杂体序列，获得每一水质样品的优质微生物信息序列；

S4、对不同采样点的相同优质微生物信息序列打分，得到优质微生物信息序列的微生物信息因子；

S5、用微生物信息聚类的方法对m个微生物信息因子进行聚类，并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息；

S6、用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类，得到特征微生物信息集合；

S7、根据正确分类后的多个微生物信息，提取特征微生物信息，从而判断每个类别多代表的微生物类别。

进一步地，步骤S4中，用g_ij表示第j个采样点的第i个优质微生物信息，1≤i≤m，1≤j≤n，m表示优质微生物信息的个数，n表示采样点个数，g_ij表示第j个采样点的第i个优质微生物信息，通过打分函数计算不同n个采样点的第i个优质微生物信息g_i的分值S(i)，作为该优质微生物的微生物信息因子；

打分函数定义如下：

其中，μ_i和σ_i分别表示不同n个采样点的第i个相同优质微生物信息序列表达值的均值和方差。

进一步地，步骤S5采用均值聚类方法，包括：

S51、对m个微生物信息因子进行标准化处理；

S52、任意取k个微生物信息因子作为初聚类中心；

S53、将每个初聚类中所有因子均值作为聚类中心，计算m个微生物信息因子中每个因子与该聚类中心的距离，设定距离阈值，重新对距离阈值内的微生物信息因子行划分聚类，并计算每个聚类中的因子均值作为中心；

S54、从每个聚类中选取具有最高分值S(i)的微生物信息作为该聚类的代表微生物信息。

进一步地，步骤S6中，

设有样本集S＝{(x_i，y_i)|i＝1，2，…n}，其中x_i∈X为微生物信息样本，y_i∈Y＝{+1，-1}为聚类类别，则分类模型Gt(x_i)：x_i→{-1，+1}；

在样本集上每次保留一个样本作为测试样本，其余样本用做分类模型Gt(x_i)的训练样本，依次更换样本作为测试样本，重复上述过程，直到训练集上所有样本均被用做测试样本为止；

进一步地，记录所有被错误分类的样本数作为分类错误数，记为E1；

利用样本集中的所有样本作为分类模型Gt(x_i)的训练样本，对测试集中的样本逐一进行识别，所有被错误分类的样本数作为分类错误数，记为E2；

利用该分类模型Gt(x_i)作为分类器，在上述两个步骤中，若最后得到的分类错误数E1及E2均为0，则表明利用分类器选出的多个微生物信息，可实现对样本集中所有样本的正确分类。

进一步地，步骤S7中，根据特征微生物信息P＝[p₁、p₂…p_m]中各个分量对决策函数0(P)的影响，定义特征微生物信息P的灵敏度函数S(p_j)为：

其中，p_j为特征微生物信息P＝[p₁、p₂…p_m]中的一个分量，决策函数使得每个类别的特征微生物信息间隔最大化的边界；

通过查询灵敏度函数值，判断每个类别代表的微生物类别信息。

本发明还提出了一种微生物信息测定及提取系统，用于实现微生物信息测定及提取方法，包括：数据采集单元，测序拼接单元，信息筛选单元，序列打分单元，聚类单元，样本类型识别单元，

所述数据采集单元用于在目标区域内设置n个水质采样点，采集每个采样点的表层水样，得到n个水质样品；

所述测序拼接单元用于对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接，获取每一水质样品的微生物信息序列拼接结果；

所述信息筛选单元用于对微生物信息序列拼接结果进行筛选，获得有效微生物信息序列，去除混杂体序列，获得每一水质样品的优质微生物信息序列；

所述序列打分单元用于对不同采样点的相同优质微生物信息序列打分，得到优质微生物信息序列的微生物信息因子；

所述聚类单元用于用微生物信息聚类的方法对多个微生物信息因子进行聚类，并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息；

所述样本类型识别单元用于用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类，得到特征微生物信息集合。

相比于现有技术，本发明具有如下有益技术特征：通过对微生物信息序列拼接结果进行筛选，获得有效微生物信息序列，去除混杂体序列，有效获得每一水质样品的优质微生物信息序列；用微生物信息聚类的方法对微生物信息因子进行聚类，并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息；用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类，得到特征微生物信息集合，提高了分类的准确性；根据正确分类后的多个微生物信息，提取特征微生物信息，准确判断出每个类别多代表的微生物类别。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的微生物信息测定及提取方法流程图；

图2为本发明的微生物信息测定及提取系统的结构示意图。

具体实施方案

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本发明的具体实施例附图中，为了更好、更清楚的描述系统中的各元件的工作原理，表现所述装置中各部分的连接关系，只是明显区分了各元件之间的相对位置关系，并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。

如图1所示，为本发明的微生物信息测定及提取方法流程图，该微生物信息测定及提取方法包括如下步骤：

S1、采集研究区域样品，在目标区域内设置n个水质采样点i，i＝1，2…，n，采集每个采样点的表层水样，得到n个水质样品，设置多个采样点以便后续对样品中优质微生物信息打分。

S2、对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接，获取每一水质样品的微生物信息序列拼接结果。

S21、对各个采样点的水质样品中的微生物信息进行基因测序，测序得到的原始数据以双端FASTQ格式保存。优选地，可对每一采样点的水质进行元素检测，检测指标包括：Zn、Cd、Pb、SO₄ ^2-、NO^2-中的一项或几项。

S22、采用滑动窗口法对以双端FASTQ格式保存的原始数据进行质量过滤，并对通过质量过滤的序列进行拼接，要求read1和read2的窗口长度值≥10bp，且不允许碱基错配，由此完成每一水质样品微生物信息基因测序结果的序列拼接。

S3、对微生物信息序列拼接结果进行筛选，获得有效微生物信息序列，去除混杂体序列，获得每一水质样品的优质微生物信息序列。

S31、将每一水质样品微生物信息序列拼接结果，与用于筛选微生物信息的预定的碱基序列索引进行匹配，从每一水质样品微生物信息序列拼接结果中挑选出与预定的碱基序列索引完全匹配的有效序列。即，将预定的碱基序列索引作为筛选标准，据此从每一水质样品微生物信息序列拼接结果中寻找相应的序列，当某段序列与预定的碱基序列索引完全匹配时，即认为该段序列为有效微生物信息序列。

S32、对每一水质样品的有效微生物信息序列进行序列过滤，去除混杂体序列，以获得每一水质样品的优质微生物信息序列。由于在对微生物信息进行基因测序时用高通量测序方法建库，过程中的PCR扩增会产生混杂体序列，测序过程中会产生点突变等测序错误，为了保证分析结果的准确性，需要对有效序列进行进一步过滤和去除混杂体处理。

S4、对不同采样点的相同优质微生物信息序列打分，得到优质微生物信息序列的微生物信息因子。

具体地，用g_ij表示第j个采样点的第i个优质微生物信息，1≤i≤m，1≤j≤n，m表示优质微生物信息的个数，n表示采样点个数，g_ij表示第j个采样点的第i个优质微生物信息，通过打分函数计算不同n个采样点的第i个优质微生物信息g_i的分值S(i)，作为该优质微生物的微生物信息因子；

打分函数定义如下：

S5、用微生物信息聚类的方法对m个微生物信息因子进行聚类，并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息。

聚类分析就是将相似主要微生物信息划分到相同组别，把不是相似的主要微生物信息划分到不同组别的过程。

本实施例优选采用均值聚类方法。

S51、对m个微生物信息因子进行标准化处理。

S52、任意取k个微生物信息因子作为初聚类中心；

S53、将每个初聚类中所有因子均值作为聚类中心，计算m个微生物信息因子中每个因子与该聚类中心的距离，设定距离阈值，重新对距离阈值内的微生物信息因子行划分聚类，并计算每个聚类中的因子均值作为中心。

S6、用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类，得到特征微生物信息集合。

由于微生物信息表达谱数据集样本数量少，本发明采用如下两个步骤进行样本类型的识别：

设有样本集S＝{(x_i，y_i)|i＝1，2，…n}，其中x_i∈X为微生物信息样本，y_i∈Y＝{+1，-1}为聚类类别，则分类模型Gt(x_i)：x_i→{-1，+1}。

在样本集上每次保留一个样本作为测试样本，其余样本用做分类模型Gt(x_i)的训练样本，依次更换样本作为测试样本，重复上述过程，直到训练集上所有样本均被用做测试样本为止。

记录所有被错误分类的样本数作为分类错误数，记为E1。

利用样本集中的所有样本作为分类模型Gt(x_i)的训练样本，对测试集中的样本逐一进行识别，所有被错误分类的样本数作为分类错误数，记为E2。

S7、根据正确分类后的多个微生物信息，提取特征微生物信息，从而判断每个类别代表的微生物类别信息。

依据步骤S6可以做到对样本集中所有样本的准确分类，该组微生物信息就可以作为特征微生物信息。

根据特征微生物信息P＝[p₁、p₂…p_m]中各个分量对决策函数0(P)的影响，定义特征微生物信息P的灵敏度函数S(p_j)为：

其中，p_j为特征微生物信息P＝[p₁、p₂…p_m]中的一个分量，决策函数用于确定特征微生物信息的决策边界，即使得每个类别的特征微生物信息间隔最大化的边界。

通过查询灵敏度函数值，即可判断每个类别代表的微生物类别信息。

如图2所示，为本发明的微生物信息测定及提取系统的结构示意图，该微生物信息测定及提取系统包括：数据采集单元，测序拼接单元，信息筛选单元，序列打分单元，聚类单元，样本类型识别单元，

数据采集单元用于在目标区域内设置n个水质采样点，在一定时期内连续采集每采样点的表层水样，得到n个水质样品。

测序拼接单元用于对所有水质样品中的微生物信息进行测序和序列拼接，获取每一水质样品的微生物信息序列拼接结果。

信息筛选单元用于对微生物信息序列拼接结果进行筛选，获得有效微生物信息序列，再去除混杂体序列，获得每一水质样品微生物的优质微生物信息序列。

序列打分单元用于对所得优质微生物信息序列打分，选出打分较高的微生物信息，去除大部分的无关微生物信息，得到主要微生物信息因子。

聚类单元用于微生物信息聚类并从每类中选取具有较高打分的那个微生物信息作为代表微生物信息；

样本类型识别单元用于微生物信息样本类型的识别，用分类器测试代表微生物信息错分率并实现对所有样本微生物信息类型的正确分类，得到特征微生物信息集合，进一步排除冗余微生物信息，降低特征微生物信息集合的维数，优化分类器。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种微生物信息测定及提取方法，其特征在于，包括如下步骤：

S3、对微生物信息序列拼接结果进行筛选，获得有效微生物信息序列，去除混杂体序列，获得每一水质样品的优质微生物信息序列，包括：

S31、将每一水质样品微生物信息序列拼接结果，与用于筛选微生物信息的预定的碱基序列索引进行匹配，从每一水质样品微生物信息序列拼接结果中挑选出与预定的碱基序列索引完全匹配的有效序列；

S32、对每一水质样品微生物信息的有效序列进行序列过滤，去除混杂体序列，以获得每一水质样品的优质微生物信息序列；

用g_ij表示第j个采样点的第i个优质微生物信息，，m表示优质微生物信息的个数，n表示采样点个数，g_ij表示第j个采样点的第i个优质微生物信息，通过打分函数计算不同n个采样点的第i个优质微生物信息g_i的分值S(i)，作为该优质微生物的微生物信息因子；

打分函数定义如下:

；

其中，和分别表示不同n个采样点的第i个相同优质微生物信息序列表达值的均值和方差；

S5、用微生物信息聚类的方法对微生物信息因子进行聚类，并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息；

设有样本集S＝{(x_i，y_i)|i＝1，2，...n}，其中x_i∈X为微生物信息样本，y_i∈Y＝{+1，-1}为聚类类别，则分类模型Gt(x_i)：x_i→{-1，+1}；

在样本集上每次保留一个样本作为测试样本，其余样本用做分类模型Gt(x_i)的训练样本，依次更换样本作为测试样本，直到训练集上所有样本均被用做测试样本为止；

记录所有被错误分类的样本数作为分类错误数，记为E1；

利用该分类模型Gt(x_i)作为分类器，若最后得到的分类错误数E1及E2均为0，则表明利用分类器选出的多个微生物信息能够实现对样本集中所有样本的正确分类；

2.根据权利要求1所述的信息测定及提取方法，其特征在于，步骤S5采用均值聚类方法，包括：

S51、对微生物信息因子进行标准化处理；

S52、任意取k个微生物信息因子作为初聚类中心；

S53、将每个初聚类中所有因子均值作为聚类中心，计算微生物信息因子中每个因子与该聚类中心的距离，设定距离阈值，重新对距离阈值内的微生物信息因子行划分聚类，并计算每个聚类中的因子均值作为中心；

3.根据权利要求1所述的信息测定及提取方法，其特征在于，步骤S7中，根据特征微生物信息P＝［p₁、p₂…p_m］中各个分量对决策函数O（P）的影响，定义特征微生物信息P的灵敏度函数S（p_j）为：

；

其中，p_j为特征微生物信息P＝［p₁、p₂…p_m］中的一个分量，决策函数使得每个类别的特征微生物信息间隔最大化的边界；

4.一种微生物信息测定及提取系统，其特征在于，用于实现权利要求1-3中任意一项所述的微生物信息测定及提取方法，包括：数据采集单元，测序拼接单元，信息筛选单元，序列打分单元，聚类单元，样本类型识别单元，

所述信息筛选单元用于对微生物信息序列拼接结果进行筛选，获得有效微生物信息序列，去除混杂体序列，获得每一水质样品的优质微生物信息序列；将每一水质样品微生物信息序列拼接结果，与用于筛选微生物信息的预定的碱基序列索引进行匹配，从每一水质样品微生物信息序列拼接结果中挑选出与预定的碱基序列索引完全匹配的有效序列；对每一水质样品微生物信息的有效序列进行序列过滤，去除混杂体序列，以获得每一水质样品的优质微生物信息序列；

打分函数定义如下:

；

所述样本类型识别单元用于用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类，得到特征微生物信息集合；

记录所有被错误分类的样本数作为分类错误数，记为E1；

根据正确分类后的多个微生物信息，提取特征微生物信息，从而判断每个类别多代表的微生物类别。