CN112435756B

CN112435756B - 基于多数据集差异互证的肠道菌群关联疾病风险预测系统

Info

Publication number: CN112435756B
Application number: CN202011370244.0A
Authority: CN
Inventors: 刘庆军; 沈鹤霄; 李国龙; 张帆; 靳瀚博; 孙楚晴; 陈卫华
Original assignee: Wuhan Yiding Tianyang Biotechnology Co ltd
Current assignee: Maintain Biomedical Wuhan Co ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2024-02-09
Anticipated expiration: 2040-11-30
Also published as: CN112435756A

Abstract

本发明公开了一种基于多数据集差异互证的肠道菌群关联疾病风险预测系统，包括原始数据采集模块、单数据集验证模块、多数据集验证模块、验证结果整合模块、以及疾病风险预测模块。本发明通过对数据量的扩充，保证在某种表型内，具有一定量的随机差异(如饮食、地域等对肠道菌群的影响)，从而使得到的差异菌群真正能够反映疾病与健康之间的肠道菌群物种组成差异；然后评估多个差异菌对疾病风险的加权贡献，整合后形成对疾病风险的综合打分。实验结果显示较为有效可靠。

Description

基于多数据集差异互证的肠道菌群关联疾病风险预测系统

技术领域

本发明属于肠道微生物技术领域，更具体地，涉及一种基于多数据集差异互证的肠道菌群关联疾病风险预测系统。

背景技术

肠道菌群，作为寄居在人体肠道内微生物群落的总称，是近年来微生物学、医学、基因学等领域最引人关注的研究焦点之一。

近年来的研究逐渐揭示了肠道菌群的构成、数量、如何进入人体、如何辅助消化、如何影响肠道发育，以及肠道菌群失衡如何影响整体健康。但肠道菌群如此庞大，与人体的交互关系如此复杂，关于肠道菌群仍有诸多悬而未解的难题。

人体肠道微生物组与许多健康因素有关，但研究之间的差异限制了它们之间效应的探索。目前很多疾病预测方法都仅针对于单一疾病进行差异菌群的建模和预测，通常使用的样本量较小，且可能受到各种因素的影响，不具有普适性。不同的测序方法、序列处理工具、分析软件和参考数据库都会对最后分析的结果产生影响，产出结果在项目间不具有可比性，从而无法有效的整合多个项目分析结果，导致每一种表型的数据量都较小。

因为数据量较小，所以只能尽量使项目内某种表型之间的差异降低，比如统一用药，在同一条件下采样等。但仍旧可能存在一些随机因素，如饮食、地域、年龄等对肠道菌群的影响，影响其最终结果。

所以得到的差异菌群可能不仅仅反映了疾病与健康之间的肠道菌群物种组成差异，同时还存在一些其他因素带来的差异，但这两种差异从结果是无法区分的。而不属于疾病所造成的差异往往会对后续的疾病预测造成一定量的影响，比如使用了错误的肠道细菌来预测疾病，而导致预测结果不准确。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于多数据集差异互证的肠道菌群关联疾病风险预测系统，其目的在于其采用不同质量的数据进行复合获得更多更准确肠道关联的菌群信息，由此解决现有的肠道菌群数据不够丰富准确和一致导致的采用肠道菌群丰度预测疾病风险不准确的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种肠道菌群关联疾病风险预测系统，包括原始数据采集模块、单数据集验证模块、多数据集验证模块、验证结果整合模块、以及疾病风险预测模块；

所述原始数据采集模块，用于按照疾病关联的项目收集肠道菌群丰度信息，分别提交给所述单数据集验证模块和多数据集验证模块；

所述单数据集验证模块，用于根据单个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据，检测该疾病关联的差异菌种，对于该疾病关联的差异菌种，获取该菌种关于该疾病的影响因子并评价所采用的所述单个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据的数据质量参数，将所述差异菌种的质量参数和影响因子提交给验证结果整合模块；

所述多数据集验证模块，用于根据该特定疾病的所有项目收集的患者和健康人群肠道菌群丰度数据，检测该疾病关联的差异菌种，对于该疾病关联的差异菌种，获取该菌种关于该疾病的影响因子并评价所采用的所述多个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据的数据质量参数，将所述差异菌种的质量参数和影响因子提交给验证结果整合模块；

所述验证结果整合模块，用于根据菌群丰度数据的数据质量参数，按照菌群丰度数据的数据质量参数表征的数据质量越好其影响因子越可信的原则，合并所述单数据集验证模块和所述多数据集验证模块获得的该疾病关联的差异菌种及该菌种的影响因子；

所述疾病风险预测模块，用于按照待预测样本的菌群丰度与健康菌群丰度的加权偏移量越大该样本关于该疾病的风险值越大的原则，获取所述待预测样本关于该疾病的风险值，所述菌群丰度与健康菌群丰度的加权偏移量为该样本中该疾病关联的菌群丰度在健康人菌群丰度的偏移量加权值，权重为该疾病各相关菌种的影响因子。

优选地，所述肠道菌群关联疾病风险预测系统，其所述单数据集验证模块和所述多数据集验证模块，按照以下方法获得疾病关联的差异菌群：

对于特定菌种在特定疾病的患者和健康人肠道菌群的丰度数据，通过统计检验计算零假设p值，零假设为：所述菌种不是该疾病关联的差异菌；当零假设p值≤0.05时，拒绝零假设，将所述菌种作为该疾病的差异菌种。

优选地，所述肠道菌群关联疾病风险预测系统，其所述单数据集验证模块和所述多数据集验证模块，通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值。

优选地，所述肠道菌群关联疾病风险预测系统，其所述通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值，包括以下步骤：

(1)对于特定疾病的患者和健康人群肠道菌群丰度数据中关于特定菌种的丰度值，按照丰度值由小到达排列获得各样本的秩次；具有相同所述菌种丰度的样本，其秩更新为原样本秩的平均值；

(2)对于患者样本集合和健康人样本集合，取其中样本含量较小的样本集合计算其包含的样本的秩次之和即秩和T值；

(3)根据所述样本含量较小的样本集合的样本含量n₁、患者样本集合和健康人样本集合的样本含量差值n₂-n₁及T值查检验界值表获得零假设p值；

(4)当零假设下的零假设p值小于预设阈值时，拒绝零假设，认为所述菌种是该疾病关联的差异菌。

优选地，所述肠道菌群关联疾病风险预测系统，其步骤(3)当样本数量超过10时，采用正态近似得到零假设下的零假设p值。

优选地，所述肠道菌群关联疾病风险预测系统，其所述单数据集验证模块和所述多数据集验证模块，按照以下方法获得所述疾病关联的差异菌种影响因子；所述疾病关联的差异菌种影响因子为其通过统计检验计算获得的零假设p值的一半所对应的下分位点z与样本数量n₁+n₂的平方根之商，记作：

其中，r为所述疾病关联的差异菌种影响因子，是样本间差异或相关程度的量化指标。

优选地，所述肠道菌群关联疾病风险预测系统，其菌群丰度数据的数据质量参数采用线性判别分析获得的LDA值。

优选地，所述肠道菌群关联疾病风险预测系统，其所述LDA值计算方法具体如下：

S1、对于特定疾病的患者和健康人的特定菌种丰度数据其中i＝1，2，...，n₁+n₂，n₁为患者或健康人的样本含量，n₂为健康人或患者的样板含量，x_i为样本i的菌种丰度值，y_i为样本i的类别标识符，y_i∈{C₁，C₂}，C₁用于标记患者或健康人类别，C₂用于标记健康人或患者类别，分别获取两类样本的均值μ_j和协方差矩阵X_j，如下：

S2、将特定疾病的患者和健康人的特定菌种丰度数据分别对直线进行投影，获取当类间差异尽可能大且类别内差异尽可能小时的数据投影，即特定疾病的患者和健康人的特定菌种丰度数据投影

所述当类间差异尽可能大且类别内差异尽可能小，为优化目标，记作：

其中w为直线向量，对任意一个样本本其所述菌种的丰度值x_i,它在直线w的投影为w^Tx_i，为类间差异，w^TX_jw为类别内差异，j＝C₁，C₂；

定义类别内散度矩阵S_w，如下：

定义类间散度矩阵S_b，如下：

则所述优化目标，重写为：

对于两类类别，有S_bw的方向横平行于故令/> 则有：可得：/>λ为特征值，w为特征向量，即投影的直线。

获取当类间差异尽可能大且类别内差异尽可能小时的数据投影，具体为：

获取当达到优化目标时的特征值λ^*和特征向量w^*，获得投影矩阵λ^*w^*，对于样本的特定菌种丰度值x，其数据投影x′为x′＝(λ^*w^*)^Tx。

S3、根据步骤S2获得的特定菌种丰度数据投影计算两类别数据投影均值差异δ′；根据特定疾病的患者和健康人的特定菌种丰度数据/> 计算丰度均值差异δ；具体如下：

S4、取步骤S3获取的投影均值差异和丰度均值差异的算数平均数作为LDA值，即LDA＝(δ+δ′)/2。

优选地，所述肠道菌群关联疾病风险预测系统，其所述验证结果整合模块，当所述单数据集验证模块和所述多数据集验证模块将相同的菌种作为特定疾病的差异菌种时，取菌群丰度数据的数据质量参数LDA值较高的模块提供的该菌种的影响因子作为整合后该差异菌种的影响因子。

优选地，所述肠道菌群关联疾病风险预测系统，其所述菌群偏移量，为与健康人群相比该菌群丰度与健康人群对应菌群分布的差异情况；优选地，所述菌群丰度与健康菌群丰度的加权偏移量v，按照如下方法计算：

其中，v为所述待预测样本的菌群丰度与健康菌群丰度的加权偏移量，k为该疾病关联的差异菌群的种类数量，t＝1，...，k；O_t为所述待预测样本的第t类差异菌群的菌群偏移量；r_t为该疾病关联的第t类差异菌群影响因子。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

首先，本发明通过对数据量的扩充，保证在某种表型内，具有一定量的随机差异(如饮食、地域等对肠道菌群的影响)，从而使得到的差异菌群真正能够反映疾病与健康之间的肠道菌群物种组成差异；然后评估多个差异菌对疾病风险的加权贡献，整合后形成对疾病风险的综合打分。

优选方案，通过对大量的疾病样本和健康样本的丰度组成进行Wilcoxon秩和检验，得到某种疾病与健康人群的差异菌群，同时计算这些差异菌群的差异程度作为基本数据用于对新输入样本进行评估，实验结果显示较为有效可靠。

附图说明

图1是本发明提供的基于多数据集差异互证的肠道菌群关联疾病风险预测系统结构示意图；

图2是本发明实施例提供的验证结果整合模块整合结果示例。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的基于多数据集差异互证的肠道菌群关联疾病风险预测系统，包括原始数据采集模块、单数据集验证模块、多数据集验证模块、验证结果整合模块、以及疾病风险预测模块；

所述原始数据采集模块，用于按照疾病关联的项目收集肠道菌群丰度信息，分别提交给所述单数据集验证模块和多数据集验证模块；通常一个项目针对某一类疾病的患者和健康人群收集肠道菌群丰度数据，实验条件一致性高，然而样本量较小。

所述单数据集验证模块和所述多数据集验证模块，按照以下方法获得疾病关联的差异菌群：

优选通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值，包括以下步骤：

(1)对于特定疾病的患者和健康人群肠道菌群丰度数据中关于特定菌种的丰度值，按照丰度值由小到达排列获得各样本的秩次；具有相同所述菌种丰度的样本，其秩更新为原样本秩的平均值，例如样本值为1,4,4,5，其更新后的秩为1,2.5,2.5,4；

(4)当零假设下的零假设p值小于预设阈值时，拒绝零假设，认为所述菌种是该疾病关联的差异菌，预设阈值通常为0.05。

Wilcoxon秩和检验：该可看作是就成对观察值而进行的参数方式的T检验的代用品，非参数检验具有无需对总体分布作假定的优点，而就成对观察值作的参数方式的T检验，必须假定有关的差别总体服从正态分布。

由于目前疾病与健康菌群丰度分布数据本身样本总量有限，本发明需要通过多个项目进行整合，因此通常不符合参数检验方法t-test的假设条件，即正态分布或者样本总量很大、多个项目的样本方差相同。而秩和检验不受总体分布的限制，适用面广，如果两个样本来自两个独立的但非正态或形态不清的两总体，为适应目前疾病关联的肠道菌群数据量有限、影响因素多的数据，要检验两样本之间的差异是否显著，本发明采用秩和检验获得更为可靠的检验结果。

所述单数据集验证模块和所述多数据集验证模块，按照以下方法获得所述疾病关联的差异菌种影响因子；所述疾病关联的差异菌种影响因子为其通过统计检验计算获得的零假设p值的一半所对应的下分位点z与样本数量n₁+n₂的平方根之商，记作：

菌群丰度数据的数据质量参数，优选采用线性判别分析获得的LDA值；计算方法具体如下：

定义类别内散度矩阵S_w，如下：

定义类间散度矩阵S_b，如下：

则所述优化目标，重写为：

LDA是利用线性判别投影分析量化所采用的菌群丰度数据类别间的差异，我们认为类间差异大且类别内差异小的数据具有更高的质量，由此数据计算得到的菌种影响因子更为可靠，从而尽量减少样本数据量较少带来的不确定性。

优选地，所述验证结果整合模块，当所述单数据集验证模块和所述多数据集验证模块将相同的菌种作为特定疾病的差异菌种时，取菌群丰度数据的数据质量参数LDA值较高的模块提供的该菌种的影响因子作为整合后该差异菌种的影响因子。

所述疾病风险预测模块，用于按照待预测样本的菌群丰度与健康菌群丰度的加权偏移量越大该样本关于该疾病的风险值越大的原则，获取所述待预测样本关于该疾病的风险值，所述菌群丰度与健康菌群丰度的加权偏移量为该样本中该疾病关联的菌群丰度在健康人菌群丰度的偏移量加权值，权重为该疾病各相关菌种的影响因子；所述菌群偏移量，为与健康人群相比该菌群丰度与健康人群对应菌群分布的差异情况。具体地，所述菌群丰度与健康菌群丰度的加权偏移量v，按照如下方法计算：

其中，v为所述待预测样本的菌群丰度与健康菌群丰度的加权偏移量，k为该疾病关联的差异菌群的种类数量，y＝1，...，k；O_t为所述待预测样本的第t类差异菌群的菌群偏移量；r_t为该疾病关联的第t类差异菌群影响因子。

所述菌群偏移量，优选地按照如下方法获取：

当菌群丰度高于95％的健康人群所述菌群的丰度时，所述样本的菌群偏移量为4分；当菌群丰度高于90％的健康人群所述菌群的丰度时，所述样本的菌群偏移量为3分；当菌群丰度高于85％的健康人群所述菌群的丰度时，所述样本的菌群偏移量为2分；当菌群丰度高于80％的健康人群所述菌群的丰度时，所述样本的菌群偏移量为1分；

当菌群丰度低于95％的健康人群所述菌群的丰度时，所述样本的菌群偏移量为-4分；当菌群丰度低于90％的健康人群所述菌群的丰度时，所述样本的菌群偏移量为-3分；当菌群丰度低于85％的健康人群所述菌群的丰度时，所述样本的菌群偏移量为-2分；当菌群丰度低于80％的健康人群所述菌群的丰度时，所述样本的菌群偏移量为-1分；

否则，所述样本的菌群偏移量为0分。

以下为实施例：

一种基于多数据集差异互证的肠道菌群关联疾病风险预测系统，包括原始数据采集模块、单数据集验证模块、多数据集验证模块、验证结果整合模块、以及疾病风险预测模块；

所述原始数据采集模块，用于按照疾病关联的项目收集肠道菌群丰度信息，分别提交给所述单数据集验证模块和多数据集验证模块；通常一个项目针对某一类疾病的患者和健康人群收集肠道菌群丰度数据，实验条件一致性高，然而样本量较小。具体地，首先从GMrepo获取某种疾病的项目和样本信息，若满足项目疾病样本数量大于100个样本且含有健康样本，则提交给单数据集验证模块；若不满足项目疾病样本数量大于100个样本且含有健康样本，则提交给多数据集验证模块，否则弃用。

所述肠道菌群丰度信息，采用粪便16s测序样本。

通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值，包括以下步骤：

疾病与健康菌群丰度分布数据通常不符合参数检验方法t-test的假设条件(即正态分布或者样本总量很大(>30)且方差相同)，而Wilcoxon检验不受总体分布的限制，适用面广，如果两个样本来自两个独立的但非正态或形态不清的两总体，要检验两样本之间的差异是否显著优选采用秩和检验。

菌群丰度数据的数据质量参数，采用线性判别分析获得的LDA值，计算方法具体如下：

定义类别内散度矩阵S_w，如下：

定义类间散度矩阵S_b，如下：

则所述优化目标，重写为：

S3、根据步骤S2获得的特定菌种丰度数据投影计算两类别数据投影均值差异δ′；根据特定疾病的患者和健康人的特定菌种丰度数据/>/>计算丰度均值差异δ；具体如下：

所述验证结果整合模块，当所述单数据集验证模块和所述多数据集验证模块将相同的菌种作为特定疾病的差异菌种时，取菌群丰度数据的数据质量参数较高的模块提供的该菌种的影响因子作为整合后该差异菌种的影响因子。整合结果如图2所示例。

所述菌群偏移量，按照如下方法获取：

否则，所述样本的菌群偏移量为0分。

采用本实施例提供的基于多数据集差异互证的肠道菌群关联疾病风险预测系统，随机抽选了300个健康样本与肥胖、便秘、二型糖尿病、克罗恩病、炎症性肠道疾病、结肠疾病、高血压、自闭症、抑郁症、非酒精性肝炎，这10个疾病的样本分别进行了以上打分流程，获得每个样本的各个疾病的打分。根据其打分结果与所属分组进行了AUC绘制以评估该方法的可行性。大部分AUC图都表明了该方法能够较为准确的评估对应的疾病，准确率从70％～95％不等，其中便秘、二型糖尿病、肥胖、结肠疾病、克罗恩病、炎症性肠道疾病、结肠疾病、自闭症的准确率在90％以上，显示与肠道菌群强相关；非酒精性肝炎、抑郁症的准确率在72％至80％，显示与肠道菌群相关。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种肠道菌群关联疾病风险预测系统，其特征在于，包括原始数据采集模块、单数据集验证模块、多数据集验证模块、验证结果整合模块、以及疾病风险预测模块；

其中，r为所述疾病关联的差异菌种影响因子，是样本间差异或相关程度的量化指标；

所述疾病风险预测模块，用于按照待预测样本的菌群丰度与健康菌群丰度的加权偏移量越大该样本关于该疾病的风险值越大的原则，获取所述待预测样本关于该疾病的风险值，所述菌群丰度与健康菌群丰度的加权偏移量为该样本中该疾病关联的菌群丰度在健康人菌群丰度的偏移量加权值，权重为该疾病各相关菌种的影响因子；

所述菌群丰度在健康人菌群丰度的偏移量，为与健康人群相比该菌群丰度与健康人群对应菌群分布的差异情况；所述菌群丰度与健康菌群丰度的加权偏移量v，按照如下方法计算：

其中，v为所述待预测样本的菌群丰度与健康菌群丰度的加权偏移量，k为该疾病关联的差异菌群的种类数量，t＝1,...,k；O_t为所述待预测样本的第t类差异菌群的菌群偏移量；r_t为该疾病关联的第t类差异菌群影响因子。

2.如权利要求1所述的肠道菌群关联疾病风险预测系统，其特征在于，所述单数据集验证模块和所述多数据集验证模块，按照以下方法获得疾病关联的差异菌群：

3.如权利要求2所述的肠道菌群关联疾病风险预测系统，其特征在于，所述单数据集验证模块和所述多数据集验证模块，通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值。

4.如权利要求3所述的肠道菌群关联疾病风险预测系统，其特征在于，所述通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值，包括以下步骤：

(1)对于特定疾病的患者和健康人群肠道菌群丰度数据中关于特定菌种的丰度值，按照丰度值由小到大排列获得各样本的秩次；具有相同所述菌种丰度的样本，其秩更新为原样本秩的平均值；

5.如权利要求4所述的肠道菌群关联疾病风险预测系统，其特征在于，步骤(3)当样本数量超过10时，采用正态近似得到零假设下的零假设p值。

6.如权利要求1所述的肠道菌群关联疾病风险预测系统，其特征在于，菌群丰度数据的数据质量参数采用线性判别分析获得的LDA值。

7.如权利要求6所述的肠道菌群关联疾病风险预测系统，其特征在于，所述LDA值计算方法具体如下：

S1、对于特定疾病的患者和健康人的特定菌种丰度数据其中i＝1,2,...,n₁+n₂，n₁为患者或健康人的样本含量，n₂为健康人或患者的样板含量，x_i为样本i的菌种丰度值，y_i为样本i的类别标识符，y_i∈{C₁,C₂}，C₁用于标记患者或健康人类别，C₂用于标记健康人或患者类别，分别获取两类样本的均值μ_j和协方差矩阵X_j，如下：

其中w为直线向量，对任意一个样本本其所述菌种的丰度值x_i,它在直线w的投影为w^Tx_i，为类间差异，w^TX_jw为类别内差异，j＝C₁,C₂；

定义类别内散度矩阵S_w，如下：

定义类间散度矩阵S_b，如下：

则所述优化目标，重写为：

8.如权利要求1所述的肠道菌群关联疾病风险预测系统，其特征在于，所述验证结果整合模块，当所述单数据集验证模块和所述多数据集验证模块将相同的菌种作为特定疾病的差异菌种时，取菌群丰度数据的数据质量参数LDA值较高的模块提供的该菌种的影响因子作为整合后该差异菌种的影响因子。