CN115116542A - 基于宏基因组的样本特异的物种互作网络构建方法及系统 - Google Patents

基于宏基因组的样本特异的物种互作网络构建方法及系统 Download PDF

Info

Publication number
CN115116542A
CN115116542A CN202210786638.7A CN202210786638A CN115116542A CN 115116542 A CN115116542 A CN 115116542A CN 202210786638 A CN202210786638 A CN 202210786638A CN 115116542 A CN115116542 A CN 115116542A
Authority
CN
China
Prior art keywords
sample
species
combination
abundance
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210786638.7A
Other languages
English (en)
Other versions
CN115116542B (zh
Inventor
王颖
马智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202210786638.7A priority Critical patent/CN115116542B/zh
Publication of CN115116542A publication Critical patent/CN115116542A/zh
Application granted granted Critical
Publication of CN115116542B publication Critical patent/CN115116542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于宏基因组的样本特异的物种互作网络构建方法及系统,属于物种相关性研究技术领域。先根据多个样本的宏基因组数据绘制样本物种丰度矩阵,再对样本物种丰度矩阵中的微生物物种进行两两组合,对于每一组合,根据样本物种丰度矩阵绘制散点图,并基于散点图确定组合在每一样本内的局部相关性,最后对于每一样本,根据每一组合在样本内的局部相关性绘制物种相互作用网络,从而基于不同样本的宏基因组数据构建每一样本的具有样本特异性的微生物物种相互作用网络。

Description

基于宏基因组的样本特异的物种互作网络构建方法及系统
技术领域
本发明涉及物种相关性研究技术领域,特别是涉及一种基于宏基因组的具有微生物群落样本特异性的物种相互作用网络的构建方法及系统。
背景技术
对微生物群落及其结构进行的大量研究表明,微生物在人类健康和生态系统中发挥着重要的作用。但目前,还没有一种能够构建具有样本特异性的微生物物种相互作用网络来估计物种局部相关性的方法及系统。
发明内容
本发明的目的是提供一种基于宏基因组的样本特异的物种互作网络构建方法及系统,基于不同样本的宏基因组数据构建每一样本的具有样本特异性的微生物物种相互作用网络。
为实现上述目的,本发明提供了如下方案:
一种基于宏基因组的样本特异的物种互作网络构建方法,所述构建方法包括:
获取多个样本中每一所述样本的宏基因组数据;
对于每一所述样本,根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度;
根据所有所述样本所包括的微生物物种以及每一所述微生物物种的丰度绘制样本物种丰度矩阵;所述样本物种丰度矩阵的第i行第j列的元素的值为第j个样本所包括的第i个微生物物种的丰度;
对所述样本物种丰度矩阵中的微生物物种进行两两组合,得到
Figure BDA0003728989980000011
个组合;其中,m为所述微生物物种的总个数;
对于每一所述组合,根据所述样本物种丰度矩阵绘制散点图,并基于所述散点图确定所述组合在每一所述样本内的局部相关性;所述散点图的横坐标为所述组合中的一个微生物物种x的丰度,纵坐标为所述组合中的另一个微生物物种y的丰度,所述散点图包括n个数据点,每一所述数据点代表一个样本,n为所述样本的总个数;
对于每一所述样本,根据每一所述组合在所述样本内的局部相关性绘制物种相互作用网络;所述物种相互作用网络包括m个结点以及若干个连接边;每一所述结点代表一所述微生物物种。
一种基于宏基因组的样本特异的物种互作网络构建系统,所述构建系统包括:
宏基因组数据获取模块,用于获取多个样本中每一所述样本的宏基因组数据;
样本物种丰度矩阵确定模块,用于对于每一所述样本,根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度;根据所有所述样本所包括的微生物物种以及每一所述微生物物种的丰度绘制样本物种丰度矩阵;所述样本物种丰度矩阵的第i行第j列的元素的值为第j个样本所包括的第i个微生物物种的丰度;
组合模块,用于对所述样本物种丰度矩阵中的微生物物种进行两两组合,得到
Figure BDA0003728989980000021
个组合;其中,m为所述微生物物种的总个数;
局部相关性确定模块,用于对于每一所述组合,根据所述样本物种丰度矩阵绘制散点图,并基于所述散点图确定所述组合在每一所述样本内的局部相关性;所述散点图的横坐标为所述组合中的一个微生物物种x的丰度,纵坐标为所述组合中的另一个微生物物种y的丰度,所述散点图包括n个数据点,每一所述数据点代表一个样本,n为所述样本的总个数;
物种相互作用网络绘制模块,用于对于每一所述样本,根据每一所述组合在所述样本内的局部相关性绘制物种相互作用网络;所述物种相互作用网络包括m个结点以及若干个连接边;每一所述结点代表一所述微生物物种。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明用于提供一种基于宏基因组的样本特异的物种互作网络构建方法及系统,先根据多个样本的宏基因组数据绘制样本物种丰度矩阵,再对样本物种丰度矩阵中的微生物物种进行两两组合,对于每一组合,根据样本物种丰度矩阵绘制散点图,并基于散点图确定组合在每一样本内的局部相关性,最后对于每一样本,根据每一组合在样本内的局部相关性绘制物种相互作用网络,从而基于不同样本的宏基因组数据构建每一样本的具有样本特异性的微生物物种相互作用网络。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1所提供的构建方法的方法流程图;
图2为本发明实施例1所提供的散点图的示意图;
图3为本发明实施例1所提供的物种相互作用网络的示意图;
图4为本发明实施例2所提供的构建系统的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于宏基因组的样本特异的物种互作网络构建方法及系统,基于不同样本的宏基因组数据构建每一样本的具有样本特异性的微生物物种相互作用网络。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
本实施例用于提供一种基于宏基因组的样本特异的物种互作网络构建方法,如图1所示,所述构建方法包括:
S1:获取多个样本中每一所述样本的宏基因组数据;
本实施例通过采样获得宏基因组数据,宏基因组为环境中全部微小生物遗传物质的总和,包含可培养和未可培养的微生物的基因,指环境样本中的细菌和真菌的基因组总和。
S2:对于每一所述样本,根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度;
在S2之前,本实施例的构建方法还包括宏基因组测序所得到的宏基因组数据的数据预处理步骤,具体包括:对每一样本的宏基因组数据进行筛选,得到筛选后数据,并以筛选后数据作为样本的新的宏基因组数据,执行S2。
其中,筛选过程可以包括:过滤筛选测序质量和测序深度不符合要求等可能受到污染的数据,具体的,删除测序时所用的序列引物以及所包含微生物数据量较少的fasta测序文件,删除fasta测序文件中序列分数低于20,长度小于50bp的碱基序列reads。
S2可以包括:对样本的宏基因组数据中的有效序列进行聚类,划分不同的微生物物种,得到样本所包括的微生物物种,再基于宏基因组数据确定每一微生物物种的丰度。聚类过程可以包括:按照指定的序列相似度(如97%,99%)将宏基因组数据中的有效序列聚类成不同的OTU(operational taxonomic units,操作分类单元),每个OTU对应于一个微生物物种。
S3:根据所有所述样本所包括的微生物物种以及每一所述微生物物种的丰度绘制样本物种丰度矩阵;所述样本物种丰度矩阵的第i行第j列的元素的值为第j个样本所包括的第i个微生物物种的丰度;
本实施例的样本物种丰度矩阵的每一行代表一微生物物种在各个样本内的丰度,每一列代表一样本所包括的各个微生物物种的丰度。
S4:对所述样本物种丰度矩阵中的微生物物种进行两两组合,得到
Figure BDA0003728989980000041
个组合;其中,m为所述微生物物种的总个数;
样本物种丰度矩阵中的任意两个不同的微生物物种进行组合,则可得到
Figure BDA0003728989980000042
个组合。
S5:对于每一所述组合,根据所述样本物种丰度矩阵绘制散点图,并基于所述散点图确定所述组合在每一所述样本内的局部相关性;所述散点图的横坐标为所述组合中的一个微生物物种x的丰度,纵坐标为所述组合中的另一个微生物物种y的丰度,所述散点图包括n个数据点,每一所述数据点代表一个样本,n为所述样本的总个数;
样本物种丰度矩阵中的两个不同的微生物物种x和微生物物种y组成一组合,该组合分别作为x轴和y轴,利用该组合在不同样本里的丰度值绘制散点图,如图2所示,散点图里的每个数据点代表一个样本,共有n个数据点,数据点的横坐标代表微生物物种x在该样本的丰度值,数据点的纵坐标代表微生物物种y在该样本的丰度值。
S5中,基于散点图确定组合在每一样本内的局部相关性可以包括:
(1)对于每一样本,以散点图中该样本对应的数据点为中心,沿横坐标方向确定第一对称区间,使散点图在第一对称区间内的数据点的个数为第一预设值,并沿纵坐标方向确定第二对称区间,使散点图在第二对称区间内的数据点的个数为第二预设值;
作为一种可选的实施方式,第一预设值和第二预设值相等,均为0.1n,即预先设定好两个常量:第一预设值nx和第二预设值ny,nx=ny=0.1×n。
(2)根据第一对称区间和第二对称区间确定一交叉区域,统计散点图在交叉区域内的数据点的个数,得到交叉点个数;
(3)根据第一预设值、第二预设值和交叉点个数计算组合在样本内的统计量,并对统计量进行标准化,得到标准化后统计量;
以样本k为例,介绍组合在样本k内的统计量的计算方法:如图2所示,在散点图中,选择样本k对应的数据点k,以点k为中心确定一个第一对称区间[x1,x2],使得散点图在该第一对称区间内的数据点的个数为第一预设值nx。以点k为中心确定一个第二对称区间[y1,y2],使得散点图在该第二对称区间内的数据点的个数为第二预设值ny。根据第一对称区间[x1,x2]和第二对称区间[y1,y2]确定一个交叉区域,该交叉区域的四个顶点坐标分别为(x1,y2),(x2,y2),(x1,y1),(x2,y1),并统计交叉区域内的数据点的个数,得到交叉点个数nxy
其中,根据第一预设值、第二预设值和交叉点个数计算组合在样本内的统计量可以包括:根据第一预设值、第二预设值和交叉点个数,利用统计量计算公式计算组合在样本内的统计量。
本实施例所用的统计量计算公式为:
Figure BDA0003728989980000051
式(1)中,右上角的k代表样本k;ρxy (k)为由微生物物种x和微生物物种y所构成的组合在样本k内的统计量;nxy (k)为样本k对应的交叉点个数;nx (k)为第一预设值;ny (k)为第二预设值;n为样本的总个数。
统计量ρxy (k)是用来衡量微生物物种x和微生物物种y在样本k内的相关性的。之所以要在nxy (k)、nx (k)、ny (k)的右上角加k,是因为要先在散点图中确定一个样本k,然后以样本k对应的数据点为中心,确定垂直和水平区域,才能统计出垂直和水平区域的交叉区域内的交叉点个数nxy (k),进一步计算出统计量ρxy (k)。nx (k)和ny (k)是预先设定好的常量,其值为0.1n,这两个常量的作用是为了在散点图中确定一个垂直和一个水平的矩形区域,使得在垂直的矩形区域里的数据点的个数等于nx (k),在水平的矩形区域里的数据点的个数等于ny (k)。但根据定义0.1n,nx (k)和ny (k)在所有样本中的值都是一样的。
其中,对统计量进行标准化,得到标准化后统计量可以包括:利用标准化公式对统计量进行标准化,得到标准化后统计量;
标准化公式包括:
Figure BDA0003728989980000061
式(2)中,
Figure BDA0003728989980000062
为样本k对应的标准化后统计量;ρxy (k)为由微生物物种x和微生物物种y所构成的组合在样本k内的统计量;μxy (k)为样本k对应的均值;σxy (k)为样本k对应的标准差。
其中,μxy (k)=0,
Figure BDA0003728989980000063
Figure BDA0003728989980000064
(4)根据标准化后统计量确定组合在样本内的局部相关性,得到组合在每一样本内的局部相关性。
具体的,对标准化后统计量进行显著性判断,若标准化后统计量大于预设显著水平,则组合在样本内的局部相关性为相互作用,否则,则组合在样本内的局部相关性为相互独立。
更为具体的,对微生物物种x和微生物物种y是否有相互作用关系做假设检验,预设显著水平设为0.01。
无效假设:微生物物种x和微生物物种y在样本k中相互独立。
备选假设:微生物物种x和微生物物种y在样本k中相互作用,即有相互作用关系。
若标准化后统计量大于预设显著水平0.01,则拒绝无效假设,代表在样本k内,微生物物种x和微生物物种y之间有相互作用关系,在样本k内构成的物种相互作用网络中结点x和结点y之间有边相连;若标准化后统计量小于预设显著水平0.01,则接受无效假设,代表在样本k内,微生物物种x和微生物物种y之间相互独立。
按照上述方法依次选择散点图中的每一个数据点作为中心点,计算统计量、标准化和假设检验,则可确定该组合在每一样本内的局部相关性,再针对每一组合均绘制散点图,进而可得到每一组合在每一样本内的局部相关性。
S6:对于每一所述样本,根据每一所述组合在所述样本内的局部相关性绘制物种相互作用网络;所述物种相互作用网络包括m个结点以及若干个连接边;每一所述结点代表一所述微生物物种。
如图3所示,S6可以包括:绘制m个结点;根据每一组合在样本内的局部相关性确定任意两个结点之间是否存在连接边,绘制物种相互作用网络;若两个结点之间的局部相关性为相互作用,则在两个结点之间绘制连接边,否则,则两个结点之间不存在连接边。进而得到具有样本特异性的n个物种相互作用网络,每个物种相互作用网络由m个代表微生物物种的结点组成。
在单个样本里,微生物物种x和y之间的关系叫‘相关性’,但在一个样本中相关的两个物种,在另一个样本中并不一定相关,所以这种相关性是根据样本不同而不同的,具有样本特异性,从全局来看,单个样本中物种和物种之间的相关性就叫‘局部相关性’。物种相互作用网络是以样本为基本单位建立的,即每个样本内都建立一个物种相互作用网络。通过计算每个样本内两两物种之间的相关性,则可以在每个样本内以物种作为结点,以局部相关性决定两个结点之间是否有边,来建立网络,最终网络的形式是一个矩阵,就像数据结构里存储图一样,用邻接矩阵。
本实施例的方法主要是以样本物种丰度矩阵作为输入,计算两两物种在不同样本内的局部相关性,最终在每个样本内构建一个微生物物种相互作用网络。每个物种相互作用网络中,以微生物物种作为结点,两个不同结点之间若有边连接,说明在此样本中两物种之间具有相互作用关系,若没有边连接,说明两物种之间相互独立。假设样本物种丰度矩阵有m个物种和n个样本,则最终本方法会构建n个微生物物种相互作用网络,每个网络由m个微生物物种结点组成。
本实施例基于宏基因组测序数据中微生物物种基因组和对应不同样本内的丰度信息,提出一种通过估计物种局部相关性的方法进行样本特异的物种相互作用网络构建。该方法利用统计模型,根据微生物物种在样本的丰度邻域区间内概率密度情况,估计两两物种之间在单个样本内的局部相关性,综合单个样本内所有不同物种间的局部相关性,构建各样本内具有样本特异性的微生物物种相互作用网络。
宏基因组测序技术可以有效地对微生物群落中所有类型的遗传物质进行测序,而不考虑它们的可培养性。微生物物种之间的相关性对研究微生物群落结构和微观动力学是至关重要的,本实施例提出的方法可以从微生物群落样本数据的丰度邻域区间内概率密度情况估计两两物种之间在各个样本内的局部相关性,从而构建样本特异的微生物物种相互作用网络,有助于识别在传统物种相互作用网络构建方法下被忽视的关键物种以及比较不同样本间的物种与物种的相关性,探究样本表型差异的机理等后续研究。
实施例2:
本实施例用于提供一种基于宏基因组的样本特异的物种互作网络构建系统,如图4所示,所述构建系统包括:
宏基因组数据获取模块M1,用于获取多个样本中每一所述样本的宏基因组数据;
样本物种丰度矩阵确定模块M2,用于对于每一所述样本,根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度;根据所有所述样本所包括的微生物物种以及每一所述微生物物种的丰度绘制样本物种丰度矩阵;所述样本物种丰度矩阵的第i行第j列的元素的值为第j个样本所包括的第i个微生物物种的丰度;
组合模块M3,用于对所述样本物种丰度矩阵中的微生物物种进行两两组合,得到
Figure BDA0003728989980000081
个组合;其中,m为所述微生物物种的总个数;
局部相关性确定模块M4,用于对于每一所述组合,根据所述样本物种丰度矩阵绘制散点图,并基于所述散点图确定所述组合在每一所述样本内的局部相关性;所述散点图的横坐标为所述组合中的一个微生物物种x的丰度,纵坐标为所述组合中的另一个微生物物种y的丰度,所述散点图包括n个数据点,每一所述数据点代表一个样本,n为所述样本的总个数;
物种相互作用网络绘制模块M5,用于对于每一所述样本,根据每一所述组合在所述样本内的局部相关性绘制物种相互作用网络;所述物种相互作用网络包括m个结点以及若干个连接边;每一所述结点代表一所述微生物物种。
本说明书中每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于宏基因组的样本特异的物种互作网络构建方法,其特征在于,所述构建方法包括:
获取多个样本中每一所述样本的宏基因组数据;
对于每一所述样本,根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度;
根据所有所述样本所包括的微生物物种以及每一所述微生物物种的丰度绘制样本物种丰度矩阵;所述样本物种丰度矩阵的第i行第j列的元素的值为第j个样本所包括的第i个微生物物种的丰度;
对所述样本物种丰度矩阵中的微生物物种进行两两组合,得到
Figure FDA0003728989970000011
个组合;其中,m为所述微生物物种的总个数;
对于每一所述组合,根据所述样本物种丰度矩阵绘制散点图,并基于所述散点图确定所述组合在每一所述样本内的局部相关性;所述散点图的横坐标为所述组合中的一个微生物物种x的丰度,纵坐标为所述组合中的另一个微生物物种y的丰度,所述散点图包括n个数据点,每一所述数据点代表一个样本,n为所述样本的总个数;
对于每一所述样本,根据每一所述组合在所述样本内的局部相关性绘制物种相互作用网络;所述物种相互作用网络包括m个结点以及若干个连接边;每一所述结点代表一所述微生物物种。
2.根据权利要求1所述的构建方法,其特征在于,在对于每一所述样本,根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度之前,所述构建方法还包括:对每一所述样本的宏基因组数据进行筛选,得到筛选后数据,并以所述筛选后数据作为所述样本的新的宏基因组数据。
3.根据权利要求1或2所述的构建方法,其特征在于,所述根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度具体包括:
对所述样本的宏基因组数据中的有效序列进行聚类,得到所述样本所包括的微生物物种;
基于所述宏基因组数据确定每一所述微生物物种的丰度。
4.根据权利要求1所述的构建方法,其特征在于,所述基于所述散点图确定所述组合在每一所述样本内的局部相关性具体包括:
对于每一所述样本,以所述散点图中所述样本对应的数据点为中心,沿所述横坐标的方向确定第一对称区间,使所述散点图在所述第一对称区间内的数据点的个数为第一预设值,并沿所述纵坐标的方向确定第二对称区间,使所述散点图在所述第二对称区间内的数据点的个数为第二预设值;
根据所述第一对称区间和所述第二对称区间确定一交叉区域,统计所述散点图在所述交叉区域内的数据点的个数,得到交叉点个数;
根据所述第一预设值、所述第二预设值和所述交叉点个数计算所述组合在所述样本内的统计量,并对所述统计量进行标准化,得到标准化后统计量;
根据所述标准化后统计量确定所述组合在所述样本内的局部相关性,得到所述组合在每一所述样本内的局部相关性。
5.根据权利要求4所述的构建方法,其特征在于,所述第一预设值和所述第二预设值相等,均为0.1n。
6.根据权利要求4所述的构建方法,其特征在于,所述根据所述第一预设值、所述第二预设值和所述交叉点个数计算所述组合在所述样本内的统计量具体包括:根据所述第一预设值、所述第二预设值和所述交叉点个数,利用统计量计算公式计算所述组合在所述样本内的统计量;
所述统计量计算公式包括:
Figure FDA0003728989970000021
其中,ρxy (k)为由微生物物种x和微生物物种y所构成的组合在样本k内的统计量;nxy (k)为样本k对应的交叉点个数;nx (k)为第一预设值;ny (k)为第二预设值。
7.根据权利要求4所述的构建方法,其特征在于,所述对所述统计量进行标准化,得到标准化后统计量具体包括:利用标准化公式对所述统计量进行标准化,得到标准化后统计量;
所述标准化公式包括:
Figure FDA0003728989970000031
其中,
Figure FDA0003728989970000032
为样本k对应的标准化后统计量;ρxy (k)为由微生物物种x和微生物物种y所构成的组合在样本k内的统计量;μxy (k)为样本k对应的均值;σxy (k)为样本k对应的标准差。
8.根据权利要求4所述的构建方法,其特征在于,所述根据所述标准化后统计量确定所述组合在所述样本内的局部相关性具体包括:
对所述标准化后统计量进行显著性判断,若所述标准化后统计量大于预设显著水平,则所述组合在所述样本内的局部相关性为相互作用,否则,则所述组合在所述样本内的局部相关性为相互独立。
9.根据权利要求1所述的构建方法,其特征在于,所述根据每一所述组合在所述样本内的局部相关性绘制物种相互作用网络具体包括:
绘制m个结点;
根据每一所述组合在所述样本内的局部相关性确定任意两个所述结点之间是否存在连接边,绘制物种相互作用网络;若两个所述结点之间的局部相关性为相互作用,则在两个所述结点之间绘制连接边,否则,则两个所述结点之间不存在连接边。
10.一种基于宏基因组的样本特异的物种互作网络构建系统,其特征在于,所述构建系统包括:
宏基因组数据获取模块,用于获取多个样本中每一所述样本的宏基因组数据;
样本物种丰度矩阵确定模块,用于对于每一所述样本,根据所述样本的宏基因组数据确定所述样本所包括的微生物物种以及每一所述微生物物种的丰度;根据所有所述样本所包括的微生物物种以及每一所述微生物物种的丰度绘制样本物种丰度矩阵;所述样本物种丰度矩阵的第i行第j列的元素的值为第j个样本所包括的第i个微生物物种的丰度;
组合模块,用于对所述样本物种丰度矩阵中的微生物物种进行两两组合,得到
Figure FDA0003728989970000033
个组合;其中,m为所述微生物物种的总个数;
局部相关性确定模块,用于对于每一所述组合,根据所述样本物种丰度矩阵绘制散点图,并基于所述散点图确定所述组合在每一所述样本内的局部相关性;所述散点图的横坐标为所述组合中的一个微生物物种x的丰度,纵坐标为所述组合中的另一个微生物物种y的丰度,所述散点图包括n个数据点,每一所述数据点代表一个样本,n为所述样本的总个数;
物种相互作用网络绘制模块,用于对于每一所述样本,根据每一所述组合在所述样本内的局部相关性绘制物种相互作用网络;所述物种相互作用网络包括m个结点以及若干个连接边;每一所述结点代表一所述微生物物种。
CN202210786638.7A 2022-07-04 2022-07-04 基于宏基因组的样本特异的物种互作网络构建方法及系统 Active CN115116542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210786638.7A CN115116542B (zh) 2022-07-04 2022-07-04 基于宏基因组的样本特异的物种互作网络构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210786638.7A CN115116542B (zh) 2022-07-04 2022-07-04 基于宏基因组的样本特异的物种互作网络构建方法及系统

Publications (2)

Publication Number Publication Date
CN115116542A true CN115116542A (zh) 2022-09-27
CN115116542B CN115116542B (zh) 2023-05-23

Family

ID=83333005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210786638.7A Active CN115116542B (zh) 2022-07-04 2022-07-04 基于宏基因组的样本特异的物种互作网络构建方法及系统

Country Status (1)

Country Link
CN (1) CN115116542B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110669818A (zh) * 2019-10-30 2020-01-10 中南大学 多发性骨髓瘤肠道微生物标志物及应用和检测制剂
CN110917207A (zh) * 2019-10-10 2020-03-27 浙江立恩生物科技有限公司 用于预防和治疗炎症性肠病的生物多糖及其应用
CN112151117A (zh) * 2020-08-11 2020-12-29 康美华大基因技术有限公司 一种基于时间序列宏基因组数据的动态观测装置及其检测方法
CN112151118A (zh) * 2020-08-11 2020-12-29 康美华大基因技术有限公司 一种多时间序列肠道菌群数据分析流程控制方法
CN112669899A (zh) * 2020-12-24 2021-04-16 广州基迪奥生物科技有限公司 一种16s和宏基因组测序数据关联分析方法、系统及设备
CN114023386A (zh) * 2021-10-26 2022-02-08 艾德范思(北京)医学检验实验室有限公司 宏基因组数据分析及特征菌筛选方法
CN114530249A (zh) * 2022-02-15 2022-05-24 北京浩鼎瑞生物科技有限公司 一种基于肠道微生物的疾病风险评估模型构建方法及应用

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110917207A (zh) * 2019-10-10 2020-03-27 浙江立恩生物科技有限公司 用于预防和治疗炎症性肠病的生物多糖及其应用
CN110669818A (zh) * 2019-10-30 2020-01-10 中南大学 多发性骨髓瘤肠道微生物标志物及应用和检测制剂
CN112151117A (zh) * 2020-08-11 2020-12-29 康美华大基因技术有限公司 一种基于时间序列宏基因组数据的动态观测装置及其检测方法
CN112151118A (zh) * 2020-08-11 2020-12-29 康美华大基因技术有限公司 一种多时间序列肠道菌群数据分析流程控制方法
CN112669899A (zh) * 2020-12-24 2021-04-16 广州基迪奥生物科技有限公司 一种16s和宏基因组测序数据关联分析方法、系统及设备
CN114023386A (zh) * 2021-10-26 2022-02-08 艾德范思(北京)医学检验实验室有限公司 宏基因组数据分析及特征菌筛选方法
CN114530249A (zh) * 2022-02-15 2022-05-24 北京浩鼎瑞生物科技有限公司 一种基于肠道微生物的疾病风险评估模型构建方法及应用

Also Published As

Publication number Publication date
CN115116542B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
Anders et al. Differential expression analysis for sequence count data
Cai et al. Covariate-adjusted precision matrix estimation with an application in genetical genomics
Hillis et al. Contemporary methods and evidence for species delimitation
CN109994200A (zh) 一种基于相似度融合的多组学癌症数据整合分析方法
Jaffe et al. iSeq: a new double-barcode method for detecting dynamic genetic interactions in yeast
CN107301328B (zh) 基于数据流聚类的癌症亚型精准发现与演化分析方法
CN111312334A (zh) 一种影响细胞间通讯的受体-配体系统分析方法
CN113555062A (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
CN115798598B (zh) 一种基于超图的miRNA-疾病关联预测模型及方法
Chen Geographical scale, industrial diversity, and regional economic stability
Andersson et al. A landmark-based common coordinate framework for spatial transcriptomics data
CN109101783B (zh) 一种基于概率模型的癌症网络标志物确定方法及系统
US20190348150A1 (en) Method and system for identification of key driver organisms from microbiome / metagenomics studies
CN113192556B (zh) 基于小样本的多组学数据中基因型与表型关联分析方法
CN109448842A (zh) 人体肠道微生态失衡的确定方法、装置及电子设备
CN115116542A (zh) 基于宏基因组的样本特异的物种互作网络构建方法及系统
CN109997193B (zh) 一种对特定群中的亚群进行定量分析的方法
Yuan et al. Self-organizing maps for cellular in silico staining and cell substate classification
CN110223786B (zh) 基于非负张量分解的药物-药物相互作用预测方法及系统
CN114724625A (zh) 一种基于内容的基因互作网络及其构建方法
Chen et al. Multi-objective evolutionary triclustering with constraints of time-series gene expression data
Read et al. Hypothesis-driven science in large-scale studies: the case of GWAS
Tsuyuzaki et al. Sctensor detects many-to-many cell–cell interactions from single cell RNA-sequencing data
Rosenfeld et al. Numerical deconvolution of cDNA microarray signal: simulation study
Schlichting Modeling synchronization effects in the yeast cell cycle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared
OL01 Intention to license declared