CN112435756B - 基于多数据集差异互证的肠道菌群关联疾病风险预测系统 - Google Patents

基于多数据集差异互证的肠道菌群关联疾病风险预测系统 Download PDF

Info

Publication number
CN112435756B
CN112435756B CN202011370244.0A CN202011370244A CN112435756B CN 112435756 B CN112435756 B CN 112435756B CN 202011370244 A CN202011370244 A CN 202011370244A CN 112435756 B CN112435756 B CN 112435756B
Authority
CN
China
Prior art keywords
flora
abundance
disease
strain
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011370244.0A
Other languages
English (en)
Other versions
CN112435756A (zh
Inventor
刘庆军
沈鹤霄
李国龙
张帆
靳瀚博
孙楚晴
陈卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maintain Biomedical Wuhan Co ltd
Original Assignee
Wuhan Yiding Tianyang Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Yiding Tianyang Biotechnology Co ltd filed Critical Wuhan Yiding Tianyang Biotechnology Co ltd
Priority to CN202011370244.0A priority Critical patent/CN112435756B/zh
Publication of CN112435756A publication Critical patent/CN112435756A/zh
Application granted granted Critical
Publication of CN112435756B publication Critical patent/CN112435756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种基于多数据集差异互证的肠道菌群关联疾病风险预测系统,包括原始数据采集模块、单数据集验证模块、多数据集验证模块、验证结果整合模块、以及疾病风险预测模块。本发明通过对数据量的扩充,保证在某种表型内,具有一定量的随机差异(如饮食、地域等对肠道菌群的影响),从而使得到的差异菌群真正能够反映疾病与健康之间的肠道菌群物种组成差异;然后评估多个差异菌对疾病风险的加权贡献,整合后形成对疾病风险的综合打分。实验结果显示较为有效可靠。

Description

基于多数据集差异互证的肠道菌群关联疾病风险预测系统
技术领域
本发明属于肠道微生物技术领域,更具体地,涉及一种基于多数据集差异互证的肠道菌群关联疾病风险预测系统。
背景技术
肠道菌群,作为寄居在人体肠道内微生物群落的总称,是近年来微生物学、医学、基因学等领域最引人关注的研究焦点之一。
近年来的研究逐渐揭示了肠道菌群的构成、数量、如何进入人体、如何辅助消化、如何影响肠道发育,以及肠道菌群失衡如何影响整体健康。但肠道菌群如此庞大,与人体的交互关系如此复杂,关于肠道菌群仍有诸多悬而未解的难题。
人体肠道微生物组与许多健康因素有关,但研究之间的差异限制了它们之间效应的探索。目前很多疾病预测方法都仅针对于单一疾病进行差异菌群的建模和预测,通常使用的样本量较小,且可能受到各种因素的影响,不具有普适性。不同的测序方法、序列处理工具、分析软件和参考数据库都会对最后分析的结果产生影响,产出结果在项目间不具有可比性,从而无法有效的整合多个项目分析结果,导致每一种表型的数据量都较小。
因为数据量较小,所以只能尽量使项目内某种表型之间的差异降低,比如统一用药,在同一条件下采样等。但仍旧可能存在一些随机因素,如饮食、地域、年龄等对肠道菌群的影响,影响其最终结果。
所以得到的差异菌群可能不仅仅反映了疾病与健康之间的肠道菌群物种组成差异,同时还存在一些其他因素带来的差异,但这两种差异从结果是无法区分的。而不属于疾病所造成的差异往往会对后续的疾病预测造成一定量的影响,比如使用了错误的肠道细菌来预测疾病,而导致预测结果不准确。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多数据集差异互证的肠道菌群关联疾病风险预测系统,其目的在于其采用不同质量的数据进行复合获得更多更准确肠道关联的菌群信息,由此解决现有的肠道菌群数据不够丰富准确和一致导致的采用肠道菌群丰度预测疾病风险不准确的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种肠道菌群关联疾病风险预测系统,包括原始数据采集模块、单数据集验证模块、多数据集验证模块、验证结果整合模块、以及疾病风险预测模块;
所述原始数据采集模块,用于按照疾病关联的项目收集肠道菌群丰度信息,分别提交给所述单数据集验证模块和多数据集验证模块;
所述单数据集验证模块,用于根据单个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据,检测该疾病关联的差异菌种,对于该疾病关联的差异菌种,获取该菌种关于该疾病的影响因子并评价所采用的所述单个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据的数据质量参数,将所述差异菌种的质量参数和影响因子提交给验证结果整合模块;
所述多数据集验证模块,用于根据该特定疾病的所有项目收集的患者和健康人群肠道菌群丰度数据,检测该疾病关联的差异菌种,对于该疾病关联的差异菌种,获取该菌种关于该疾病的影响因子并评价所采用的所述多个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据的数据质量参数,将所述差异菌种的质量参数和影响因子提交给验证结果整合模块;
所述验证结果整合模块,用于根据菌群丰度数据的数据质量参数,按照菌群丰度数据的数据质量参数表征的数据质量越好其影响因子越可信的原则,合并所述单数据集验证模块和所述多数据集验证模块获得的该疾病关联的差异菌种及该菌种的影响因子;
所述疾病风险预测模块,用于按照待预测样本的菌群丰度与健康菌群丰度的加权偏移量越大该样本关于该疾病的风险值越大的原则,获取所述待预测样本关于该疾病的风险值,所述菌群丰度与健康菌群丰度的加权偏移量为该样本中该疾病关联的菌群丰度在健康人菌群丰度的偏移量加权值,权重为该疾病各相关菌种的影响因子。
优选地,所述肠道菌群关联疾病风险预测系统,其所述单数据集验证模块和所述多数据集验证模块,按照以下方法获得疾病关联的差异菌群:
对于特定菌种在特定疾病的患者和健康人肠道菌群的丰度数据,通过统计检验计算零假设p值,零假设为:所述菌种不是该疾病关联的差异菌;当零假设p值≤0.05时,拒绝零假设,将所述菌种作为该疾病的差异菌种。
优选地,所述肠道菌群关联疾病风险预测系统,其所述单数据集验证模块和所述多数据集验证模块,通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值。
优选地,所述肠道菌群关联疾病风险预测系统,其所述通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值,包括以下步骤:
(1)对于特定疾病的患者和健康人群肠道菌群丰度数据中关于特定菌种的丰度值,按照丰度值由小到达排列获得各样本的秩次;具有相同所述菌种丰度的样本,其秩更新为原样本秩的平均值;
(2)对于患者样本集合和健康人样本集合,取其中样本含量较小的样本集合计算其包含的样本的秩次之和即秩和T值;
(3)根据所述样本含量较小的样本集合的样本含量n1、患者样本集合和健康人样本集合的样本含量差值n2-n1及T值查检验界值表获得零假设p值;
(4)当零假设下的零假设p值小于预设阈值时,拒绝零假设,认为所述菌种是该疾病关联的差异菌。
优选地,所述肠道菌群关联疾病风险预测系统,其步骤(3)当样本数量超过10时,采用正态近似得到零假设下的零假设p值。
优选地,所述肠道菌群关联疾病风险预测系统,其所述单数据集验证模块和所述多数据集验证模块,按照以下方法获得所述疾病关联的差异菌种影响因子;所述疾病关联的差异菌种影响因子为其通过统计检验计算获得的零假设p值的一半所对应的下分位点z与样本数量n1+n2的平方根之商,记作:
其中,r为所述疾病关联的差异菌种影响因子,是样本间差异或相关程度的量化指标。
优选地,所述肠道菌群关联疾病风险预测系统,其菌群丰度数据的数据质量参数采用线性判别分析获得的LDA值。
优选地,所述肠道菌群关联疾病风险预测系统,其所述LDA值计算方法具体如下:
S1、对于特定疾病的患者和健康人的特定菌种丰度数据 其中i=1,2,...,n1+n2,n1为患者或健康人的样本含量,n2为健康人或患者的样板含量,xi为样本i的菌种丰度值,yi为样本i的类别标识符,yi∈{C1,C2},C1用于标记患者或健康人类别,C2用于标记健康人或患者类别,分别获取两类样本的均值μj和协方差矩阵Xj,如下:
S2、将特定疾病的患者和健康人的特定菌种丰度数据分别对直线进行投影,获取当类间差异尽可能大且类别内差异尽可能小时的数据投影,即特定疾病的患者和健康人的特定菌种丰度数据投影
所述当类间差异尽可能大且类别内差异尽可能小,为优化目标,记作:
其中w为直线向量,对任意一个样本本其所述菌种的丰度值xi,它在直线w的投影为wTxi为类间差异,wTXjw为类别内差异,j=C1,C2
定义类别内散度矩阵Sw,如下:
定义类间散度矩阵Sb,如下:
则所述优化目标,重写为:
对于两类类别,有Sbw的方向横平行于故令/> 则有:可得:/>λ为特征值,w为特征向量,即投影的直线。
获取当类间差异尽可能大且类别内差异尽可能小时的数据投影,具体为:
获取当达到优化目标时的特征值λ*和特征向量w*,获得投影矩阵λ*w*,对于样本的特定菌种丰度值x,其数据投影x′为x′=(λ*w*)Tx。
S3、根据步骤S2获得的特定菌种丰度数据投影 计算两类别数据投影均值差异δ′;根据特定疾病的患者和健康人的特定菌种丰度数据/> 计算丰度均值差异δ;具体如下:
S4、取步骤S3获取的投影均值差异和丰度均值差异的算数平均数作为LDA值,即LDA=(δ+δ′)/2。
优选地,所述肠道菌群关联疾病风险预测系统,其所述验证结果整合模块,当所述单数据集验证模块和所述多数据集验证模块将相同的菌种作为特定疾病的差异菌种时,取菌群丰度数据的数据质量参数LDA值较高的模块提供的该菌种的影响因子作为整合后该差异菌种的影响因子。
优选地,所述肠道菌群关联疾病风险预测系统,其所述菌群偏移量,为与健康人群相比该菌群丰度与健康人群对应菌群分布的差异情况;优选地,所述菌群丰度与健康菌群丰度的加权偏移量v,按照如下方法计算:
其中,v为所述待预测样本的菌群丰度与健康菌群丰度的加权偏移量,k为该疾病关联的差异菌群的种类数量,t=1,...,k;Ot为所述待预测样本的第t类差异菌群的菌群偏移量;rt为该疾病关联的第t类差异菌群影响因子。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
首先,本发明通过对数据量的扩充,保证在某种表型内,具有一定量的随机差异(如饮食、地域等对肠道菌群的影响),从而使得到的差异菌群真正能够反映疾病与健康之间的肠道菌群物种组成差异;然后评估多个差异菌对疾病风险的加权贡献,整合后形成对疾病风险的综合打分。
优选方案,通过对大量的疾病样本和健康样本的丰度组成进行Wilcoxon秩和检验,得到某种疾病与健康人群的差异菌群,同时计算这些差异菌群的差异程度作为基本数据用于对新输入样本进行评估,实验结果显示较为有效可靠。
附图说明
图1是本发明提供的基于多数据集差异互证的肠道菌群关联疾病风险预测系统结构示意图;
图2是本发明实施例提供的验证结果整合模块整合结果示例。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的基于多数据集差异互证的肠道菌群关联疾病风险预测系统,包括原始数据采集模块、单数据集验证模块、多数据集验证模块、验证结果整合模块、以及疾病风险预测模块;
所述原始数据采集模块,用于按照疾病关联的项目收集肠道菌群丰度信息,分别提交给所述单数据集验证模块和多数据集验证模块;通常一个项目针对某一类疾病的患者和健康人群收集肠道菌群丰度数据,实验条件一致性高,然而样本量较小。
所述单数据集验证模块,用于根据单个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据,检测该疾病关联的差异菌种,对于该疾病关联的差异菌种,获取该菌种关于该疾病的影响因子并评价所采用的所述单个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据的数据质量参数,将所述差异菌种的质量参数和影响因子提交给验证结果整合模块;
所述多数据集验证模块,用于根据该特定疾病的所有项目收集的患者和健康人群肠道菌群丰度数据,检测该疾病关联的差异菌种,对于该疾病关联的差异菌种,获取该菌种关于该疾病的影响因子并评价所采用的所述多个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据的数据质量参数,将所述差异菌种的质量参数和影响因子提交给验证结果整合模块;
所述单数据集验证模块和所述多数据集验证模块,按照以下方法获得疾病关联的差异菌群:
对于特定菌种在特定疾病的患者和健康人肠道菌群的丰度数据,通过统计检验计算零假设p值,零假设为:所述菌种不是该疾病关联的差异菌;当零假设p值≤0.05时,拒绝零假设,将所述菌种作为该疾病的差异菌种。
优选通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值,包括以下步骤:
(1)对于特定疾病的患者和健康人群肠道菌群丰度数据中关于特定菌种的丰度值,按照丰度值由小到达排列获得各样本的秩次;具有相同所述菌种丰度的样本,其秩更新为原样本秩的平均值,例如样本值为1,4,4,5,其更新后的秩为1,2.5,2.5,4;
(2)对于患者样本集合和健康人样本集合,取其中样本含量较小的样本集合计算其包含的样本的秩次之和即秩和T值;
(3)根据所述样本含量较小的样本集合的样本含量n1、患者样本集合和健康人样本集合的样本含量差值n2-n1及T值查检验界值表获得零假设p值;
(4)当零假设下的零假设p值小于预设阈值时,拒绝零假设,认为所述菌种是该疾病关联的差异菌,预设阈值通常为0.05。
Wilcoxon秩和检验:该可看作是就成对观察值而进行的参数方式的T检验的代用品,非参数检验具有无需对总体分布作假定的优点,而就成对观察值作的参数方式的T检验,必须假定有关的差别总体服从正态分布。
由于目前疾病与健康菌群丰度分布数据本身样本总量有限,本发明需要通过多个项目进行整合,因此通常不符合参数检验方法t-test的假设条件,即正态分布或者样本总量很大、多个项目的样本方差相同。而秩和检验不受总体分布的限制,适用面广,如果两个样本来自两个独立的但非正态或形态不清的两总体,为适应目前疾病关联的肠道菌群数据量有限、影响因素多的数据,要检验两样本之间的差异是否显著,本发明采用秩和检验获得更为可靠的检验结果。
所述单数据集验证模块和所述多数据集验证模块,按照以下方法获得所述疾病关联的差异菌种影响因子;所述疾病关联的差异菌种影响因子为其通过统计检验计算获得的零假设p值的一半所对应的下分位点z与样本数量n1+n2的平方根之商,记作:
其中,r为所述疾病关联的差异菌种影响因子,是样本间差异或相关程度的量化指标。
菌群丰度数据的数据质量参数,优选采用线性判别分析获得的LDA值;计算方法具体如下:
S1、对于特定疾病的患者和健康人的特定菌种丰度数据 其中i=1,2,...,n1+n2,n1为患者或健康人的样本含量,n2为健康人或患者的样板含量,xi为样本i的菌种丰度值,yi为样本i的类别标识符,yi∈{C1,C2},C1用于标记患者或健康人类别,C2用于标记健康人或患者类别,分别获取两类样本的均值μj和协方差矩阵Xj,如下:
S2、将特定疾病的患者和健康人的特定菌种丰度数据分别对直线进行投影,获取当类间差异尽可能大且类别内差异尽可能小时的数据投影,即特定疾病的患者和健康人的特定菌种丰度数据投影
所述当类间差异尽可能大且类别内差异尽可能小,为优化目标,记作:
其中w为直线向量,对任意一个样本本其所述菌种的丰度值xi,它在直线w的投影为wTxi为类间差异,wTXjw为类别内差异,j=C1,C2
定义类别内散度矩阵Sw,如下:
定义类间散度矩阵Sb,如下:
则所述优化目标,重写为:
对于两类类别,有Sbw的方向横平行于故令/> 则有:可得:/>λ为特征值,w为特征向量,即投影的直线。
获取当类间差异尽可能大且类别内差异尽可能小时的数据投影,具体为:
获取当达到优化目标时的特征值λ*和特征向量w*,获得投影矩阵λ*w*,对于样本的特定菌种丰度值x,其数据投影x′为x′=(λ*w*)Tx。
S3、根据步骤S2获得的特定菌种丰度数据投影 计算两类别数据投影均值差异δ′;根据特定疾病的患者和健康人的特定菌种丰度数据/> 计算丰度均值差异δ;具体如下:
S4、取步骤S3获取的投影均值差异和丰度均值差异的算数平均数作为LDA值,即LDA=(δ+δ′)/2。
LDA是利用线性判别投影分析量化所采用的菌群丰度数据类别间的差异,我们认为类间差异大且类别内差异小的数据具有更高的质量,由此数据计算得到的菌种影响因子更为可靠,从而尽量减少样本数据量较少带来的不确定性。
所述验证结果整合模块,用于根据菌群丰度数据的数据质量参数,按照菌群丰度数据的数据质量参数表征的数据质量越好其影响因子越可信的原则,合并所述单数据集验证模块和所述多数据集验证模块获得的该疾病关联的差异菌种及该菌种的影响因子;
优选地,所述验证结果整合模块,当所述单数据集验证模块和所述多数据集验证模块将相同的菌种作为特定疾病的差异菌种时,取菌群丰度数据的数据质量参数LDA值较高的模块提供的该菌种的影响因子作为整合后该差异菌种的影响因子。
所述疾病风险预测模块,用于按照待预测样本的菌群丰度与健康菌群丰度的加权偏移量越大该样本关于该疾病的风险值越大的原则,获取所述待预测样本关于该疾病的风险值,所述菌群丰度与健康菌群丰度的加权偏移量为该样本中该疾病关联的菌群丰度在健康人菌群丰度的偏移量加权值,权重为该疾病各相关菌种的影响因子;所述菌群偏移量,为与健康人群相比该菌群丰度与健康人群对应菌群分布的差异情况。具体地,所述菌群丰度与健康菌群丰度的加权偏移量v,按照如下方法计算:
其中,v为所述待预测样本的菌群丰度与健康菌群丰度的加权偏移量,k为该疾病关联的差异菌群的种类数量,y=1,...,k;Ot为所述待预测样本的第t类差异菌群的菌群偏移量;rt为该疾病关联的第t类差异菌群影响因子。
所述菌群偏移量,优选地按照如下方法获取:
当菌群丰度高于95%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为4分;当菌群丰度高于90%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为3分;当菌群丰度高于85%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为2分;当菌群丰度高于80%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为1分;
当菌群丰度低于95%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为-4分;当菌群丰度低于90%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为-3分;当菌群丰度低于85%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为-2分;当菌群丰度低于80%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为-1分;
否则,所述样本的菌群偏移量为0分。
以下为实施例:
一种基于多数据集差异互证的肠道菌群关联疾病风险预测系统,包括原始数据采集模块、单数据集验证模块、多数据集验证模块、验证结果整合模块、以及疾病风险预测模块;
所述原始数据采集模块,用于按照疾病关联的项目收集肠道菌群丰度信息,分别提交给所述单数据集验证模块和多数据集验证模块;通常一个项目针对某一类疾病的患者和健康人群收集肠道菌群丰度数据,实验条件一致性高,然而样本量较小。具体地,首先从GMrepo获取某种疾病的项目和样本信息,若满足项目疾病样本数量大于100个样本且含有健康样本,则提交给单数据集验证模块;若不满足项目疾病样本数量大于100个样本且含有健康样本,则提交给多数据集验证模块,否则弃用。
所述肠道菌群丰度信息,采用粪便16s测序样本。
所述单数据集验证模块,用于根据单个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据,检测该疾病关联的差异菌种,对于该疾病关联的差异菌种,获取该菌种关于该疾病的影响因子并评价所采用的所述单个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据的数据质量参数,将所述差异菌种的质量参数和影响因子提交给验证结果整合模块;
所述多数据集验证模块,用于根据该特定疾病的所有项目收集的患者和健康人群肠道菌群丰度数据,检测该疾病关联的差异菌种,对于该疾病关联的差异菌种,获取该菌种关于该疾病的影响因子并评价所采用的所述多个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据的数据质量参数,将所述差异菌种的质量参数和影响因子提交给验证结果整合模块;
所述单数据集验证模块和所述多数据集验证模块,按照以下方法获得疾病关联的差异菌群:
对于特定菌种在特定疾病的患者和健康人肠道菌群的丰度数据,通过统计检验计算零假设p值,零假设为:所述菌种不是该疾病关联的差异菌;当零假设p值≤0.05时,拒绝零假设,将所述菌种作为该疾病的差异菌种。
通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值,包括以下步骤:
(1)对于特定疾病的患者和健康人群肠道菌群丰度数据中关于特定菌种的丰度值,按照丰度值由小到达排列获得各样本的秩次;具有相同所述菌种丰度的样本,其秩更新为原样本秩的平均值,例如样本值为1,4,4,5,其更新后的秩为1,2.5,2.5,4;
(2)对于患者样本集合和健康人样本集合,取其中样本含量较小的样本集合计算其包含的样本的秩次之和即秩和T值;
(3)根据所述样本含量较小的样本集合的样本含量n1、患者样本集合和健康人样本集合的样本含量差值n2-n1及T值查检验界值表获得零假设p值;
(4)当零假设下的零假设p值小于预设阈值时,拒绝零假设,认为所述菌种是该疾病关联的差异菌,预设阈值通常为0.05。
疾病与健康菌群丰度分布数据通常不符合参数检验方法t-test的假设条件(即正态分布或者样本总量很大(>30)且方差相同),而Wilcoxon检验不受总体分布的限制,适用面广,如果两个样本来自两个独立的但非正态或形态不清的两总体,要检验两样本之间的差异是否显著优选采用秩和检验。
所述单数据集验证模块和所述多数据集验证模块,按照以下方法获得所述疾病关联的差异菌种影响因子;所述疾病关联的差异菌种影响因子为其通过统计检验计算获得的零假设p值的一半所对应的下分位点z与样本数量n1+n2的平方根之商,记作:
其中,r为所述疾病关联的差异菌种影响因子,是样本间差异或相关程度的量化指标。
菌群丰度数据的数据质量参数,采用线性判别分析获得的LDA值,计算方法具体如下:
S1、对于特定疾病的患者和健康人的特定菌种丰度数据 其中i=1,2,...,n1+n2,n1为患者或健康人的样本含量,n2为健康人或患者的样板含量,xi为样本i的菌种丰度值,yi为样本i的类别标识符,yi∈{C1,C2},C1用于标记患者或健康人类别,C2用于标记健康人或患者类别,分别获取两类样本的均值μj和协方差矩阵Xj,如下:
S2、将特定疾病的患者和健康人的特定菌种丰度数据分别对直线进行投影,获取当类间差异尽可能大且类别内差异尽可能小时的数据投影,即特定疾病的患者和健康人的特定菌种丰度数据投影
所述当类间差异尽可能大且类别内差异尽可能小,为优化目标,记作:
其中w为直线向量,对任意一个样本本其所述菌种的丰度值xi,它在直线w的投影为wTxi为类间差异,wTXjw为类别内差异,j=C1,C2
定义类别内散度矩阵Sw,如下:
定义类间散度矩阵Sb,如下:
则所述优化目标,重写为:
对于两类类别,有Sbw的方向横平行于故令/> 则有:可得:/>λ为特征值,w为特征向量,即投影的直线。
获取当类间差异尽可能大且类别内差异尽可能小时的数据投影,具体为:
获取当达到优化目标时的特征值λ*和特征向量w*,获得投影矩阵λ*w*,对于样本的特定菌种丰度值x,其数据投影x′为x′=(λ*w*)Tx。
S3、根据步骤S2获得的特定菌种丰度数据投影 计算两类别数据投影均值差异δ′;根据特定疾病的患者和健康人的特定菌种丰度数据/>/>计算丰度均值差异δ;具体如下:
S4、取步骤S3获取的投影均值差异和丰度均值差异的算数平均数作为LDA值,即LDA=(δ+δ′)/2。
所述验证结果整合模块,用于根据菌群丰度数据的数据质量参数,按照菌群丰度数据的数据质量参数表征的数据质量越好其影响因子越可信的原则,合并所述单数据集验证模块和所述多数据集验证模块获得的该疾病关联的差异菌种及该菌种的影响因子;
所述验证结果整合模块,当所述单数据集验证模块和所述多数据集验证模块将相同的菌种作为特定疾病的差异菌种时,取菌群丰度数据的数据质量参数较高的模块提供的该菌种的影响因子作为整合后该差异菌种的影响因子。整合结果如图2所示例。
所述疾病风险预测模块,用于按照待预测样本的菌群丰度与健康菌群丰度的加权偏移量越大该样本关于该疾病的风险值越大的原则,获取所述待预测样本关于该疾病的风险值,所述菌群丰度与健康菌群丰度的加权偏移量为该样本中该疾病关联的菌群丰度在健康人菌群丰度的偏移量加权值,权重为该疾病各相关菌种的影响因子;所述菌群偏移量,为与健康人群相比该菌群丰度与健康人群对应菌群分布的差异情况。具体地,所述菌群丰度与健康菌群丰度的加权偏移量v,按照如下方法计算:
其中,v为所述待预测样本的菌群丰度与健康菌群丰度的加权偏移量,k为该疾病关联的差异菌群的种类数量,t=1,...,k;Ot为所述待预测样本的第t类差异菌群的菌群偏移量;rt为该疾病关联的第t类差异菌群影响因子。
所述菌群偏移量,按照如下方法获取:
当菌群丰度高于95%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为4分;当菌群丰度高于90%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为3分;当菌群丰度高于85%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为2分;当菌群丰度高于80%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为1分;
当菌群丰度低于95%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为-4分;当菌群丰度低于90%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为-3分;当菌群丰度低于85%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为-2分;当菌群丰度低于80%的健康人群所述菌群的丰度时,所述样本的菌群偏移量为-1分;
否则,所述样本的菌群偏移量为0分。
采用本实施例提供的基于多数据集差异互证的肠道菌群关联疾病风险预测系统,随机抽选了300个健康样本与肥胖、便秘、二型糖尿病、克罗恩病、炎症性肠道疾病、结肠疾病、高血压、自闭症、抑郁症、非酒精性肝炎,这10个疾病的样本分别进行了以上打分流程,获得每个样本的各个疾病的打分。根据其打分结果与所属分组进行了AUC绘制以评估该方法的可行性。大部分AUC图都表明了该方法能够较为准确的评估对应的疾病,准确率从70%~95%不等,其中便秘、二型糖尿病、肥胖、结肠疾病、克罗恩病、炎症性肠道疾病、结肠疾病、自闭症的准确率在90%以上,显示与肠道菌群强相关;非酒精性肝炎、抑郁症的准确率在72%至80%,显示与肠道菌群相关。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种肠道菌群关联疾病风险预测系统,其特征在于,包括原始数据采集模块、单数据集验证模块、多数据集验证模块、验证结果整合模块、以及疾病风险预测模块;
所述原始数据采集模块,用于按照疾病关联的项目收集肠道菌群丰度信息,分别提交给所述单数据集验证模块和多数据集验证模块;
所述单数据集验证模块,用于根据单个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据,检测该疾病关联的差异菌种,对于该疾病关联的差异菌种,获取该菌种关于该疾病的影响因子并评价所采用的所述单个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据的数据质量参数,将所述差异菌种的质量参数和影响因子提交给验证结果整合模块;
所述单数据集验证模块和所述多数据集验证模块,按照以下方法获得所述疾病关联的差异菌种影响因子;所述疾病关联的差异菌种影响因子为其通过统计检验计算获得的零假设p值的一半所对应的下分位点z与样本数量n1+n2的平方根之商,记作:
其中,r为所述疾病关联的差异菌种影响因子,是样本间差异或相关程度的量化指标;
所述多数据集验证模块,用于根据该特定疾病的所有项目收集的患者和健康人群肠道菌群丰度数据,检测该疾病关联的差异菌种,对于该疾病关联的差异菌种,获取该菌种关于该疾病的影响因子并评价所采用的所述多个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据的数据质量参数,将所述差异菌种的质量参数和影响因子提交给验证结果整合模块;
所述验证结果整合模块,用于根据菌群丰度数据的数据质量参数,按照菌群丰度数据的数据质量参数表征的数据质量越好其影响因子越可信的原则,合并所述单数据集验证模块和所述多数据集验证模块获得的该疾病关联的差异菌种及该菌种的影响因子;
所述疾病风险预测模块,用于按照待预测样本的菌群丰度与健康菌群丰度的加权偏移量越大该样本关于该疾病的风险值越大的原则,获取所述待预测样本关于该疾病的风险值,所述菌群丰度与健康菌群丰度的加权偏移量为该样本中该疾病关联的菌群丰度在健康人菌群丰度的偏移量加权值,权重为该疾病各相关菌种的影响因子;
所述菌群丰度在健康人菌群丰度的偏移量,为与健康人群相比该菌群丰度与健康人群对应菌群分布的差异情况;所述菌群丰度与健康菌群丰度的加权偏移量v,按照如下方法计算:
其中,v为所述待预测样本的菌群丰度与健康菌群丰度的加权偏移量,k为该疾病关联的差异菌群的种类数量,t=1,...,k;Ot为所述待预测样本的第t类差异菌群的菌群偏移量;rt为该疾病关联的第t类差异菌群影响因子。
2.如权利要求1所述的肠道菌群关联疾病风险预测系统,其特征在于,所述单数据集验证模块和所述多数据集验证模块,按照以下方法获得疾病关联的差异菌群:
对于特定菌种在特定疾病的患者和健康人肠道菌群的丰度数据,通过统计检验计算零假设p值,零假设为:所述菌种不是该疾病关联的差异菌;当零假设p值≤0.05时,拒绝零假设,将所述菌种作为该疾病的差异菌种。
3.如权利要求2所述的肠道菌群关联疾病风险预测系统,其特征在于,所述单数据集验证模块和所述多数据集验证模块,通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值。
4.如权利要求3所述的肠道菌群关联疾病风险预测系统,其特征在于,所述通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值,包括以下步骤:
(1)对于特定疾病的患者和健康人群肠道菌群丰度数据中关于特定菌种的丰度值,按照丰度值由小到大排列获得各样本的秩次;具有相同所述菌种丰度的样本,其秩更新为原样本秩的平均值;
(2)对于患者样本集合和健康人样本集合,取其中样本含量较小的样本集合计算其包含的样本的秩次之和即秩和T值;
(3)根据所述样本含量较小的样本集合的样本含量n1、患者样本集合和健康人样本集合的样本含量差值n2-n1及T值查检验界值表获得零假设p值;
(4)当零假设下的零假设p值小于预设阈值时,拒绝零假设,认为所述菌种是该疾病关联的差异菌。
5.如权利要求4所述的肠道菌群关联疾病风险预测系统,其特征在于,步骤(3)当样本数量超过10时,采用正态近似得到零假设下的零假设p值。
6.如权利要求1所述的肠道菌群关联疾病风险预测系统,其特征在于,菌群丰度数据的数据质量参数采用线性判别分析获得的LDA值。
7.如权利要求6所述的肠道菌群关联疾病风险预测系统,其特征在于,所述LDA值计算方法具体如下:
S1、对于特定疾病的患者和健康人的特定菌种丰度数据 其中i=1,2,...,n1+n2,n1为患者或健康人的样本含量,n2为健康人或患者的样板含量,xi为样本i的菌种丰度值,yi为样本i的类别标识符,yi∈{C1,C2},C1用于标记患者或健康人类别,C2用于标记健康人或患者类别,分别获取两类样本的均值μj和协方差矩阵Xj,如下:
S2、将特定疾病的患者和健康人的特定菌种丰度数据分别对直线进行投影,获取当类间差异尽可能大且类别内差异尽可能小时的数据投影,即特定疾病的患者和健康人的特定菌种丰度数据投影
所述当类间差异尽可能大且类别内差异尽可能小,为优化目标,记作:
其中w为直线向量,对任意一个样本本其所述菌种的丰度值xi,它在直线w的投影为wTxi为类间差异,wTXjw为类别内差异,j=C1,C2
定义类别内散度矩阵Sw,如下:
定义类间散度矩阵Sb,如下:
则所述优化目标,重写为:
对于两类类别,有Sbw的方向横平行于故令/> 则有:可得:/>λ为特征值,w为特征向量,即投影的直线。
获取当类间差异尽可能大且类别内差异尽可能小时的数据投影,具体为:
获取当达到优化目标时的特征值λ*和特征向量w*,获得投影矩阵λ*w*,对于样本的特定菌种丰度值x,其数据投影x′为x′=(λ*w*)Tx。
S3、根据步骤S2获得的特定菌种丰度数据投影 计算两类别数据投影均值差异δ′;根据特定疾病的患者和健康人的特定菌种丰度数据/> 计算丰度均值差异δ;具体如下:
S4、取步骤S3获取的投影均值差异和丰度均值差异的算数平均数作为LDA值,即LDA=(δ+δ′)/2。
8.如权利要求1所述的肠道菌群关联疾病风险预测系统,其特征在于,所述验证结果整合模块,当所述单数据集验证模块和所述多数据集验证模块将相同的菌种作为特定疾病的差异菌种时,取菌群丰度数据的数据质量参数LDA值较高的模块提供的该菌种的影响因子作为整合后该差异菌种的影响因子。
CN202011370244.0A 2020-11-30 2020-11-30 基于多数据集差异互证的肠道菌群关联疾病风险预测系统 Active CN112435756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011370244.0A CN112435756B (zh) 2020-11-30 2020-11-30 基于多数据集差异互证的肠道菌群关联疾病风险预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011370244.0A CN112435756B (zh) 2020-11-30 2020-11-30 基于多数据集差异互证的肠道菌群关联疾病风险预测系统

Publications (2)

Publication Number Publication Date
CN112435756A CN112435756A (zh) 2021-03-02
CN112435756B true CN112435756B (zh) 2024-02-09

Family

ID=74698743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011370244.0A Active CN112435756B (zh) 2020-11-30 2020-11-30 基于多数据集差异互证的肠道菌群关联疾病风险预测系统

Country Status (1)

Country Link
CN (1) CN112435756B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628714B (zh) * 2021-07-30 2022-04-19 美益添生物医药(武汉)有限公司 针对疾病的营养素干预方法、系统、设备及存储介质
CN114283890B (zh) * 2021-12-15 2023-04-07 南京医科大学 一种基于瘤胃球菌微生物群的疾病风险预测装置
CN117037914B (zh) * 2023-07-25 2024-04-02 中科国康(浙江)生命科学有限公司 一种基于个体特征定向制备的肠道菌群的系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046094A (zh) * 2015-08-26 2015-11-11 深圳谱元科技有限公司 肠道菌群的检测系统及其方法和动态式数据库
CN107480474A (zh) * 2017-08-01 2017-12-15 山东师范大学 基于肠道菌群丰度的分类器建模评价校验方法及系统
CN109616208A (zh) * 2018-12-17 2019-04-12 广东美立康生物科技有限公司 一种评估肠道菌群紊乱程度的分析技术
JP2020030800A (ja) * 2019-04-23 2020-02-27 一般社団法人日本農業フロンティア開発機構 疾病評価指標算出方法、装置、システム、及び、プログラム、並びに、疾病評価指標を算出するためのモデル作成方法。

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2699517C2 (ru) * 2018-02-15 2019-09-05 Атлас Биомед Груп Лимитед Способ оценки риска заболевания у пользователя на основании генетических данных и данных о составе микробиоты кишечника

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046094A (zh) * 2015-08-26 2015-11-11 深圳谱元科技有限公司 肠道菌群的检测系统及其方法和动态式数据库
CN107480474A (zh) * 2017-08-01 2017-12-15 山东师范大学 基于肠道菌群丰度的分类器建模评价校验方法及系统
CN109616208A (zh) * 2018-12-17 2019-04-12 广东美立康生物科技有限公司 一种评估肠道菌群紊乱程度的分析技术
JP2020030800A (ja) * 2019-04-23 2020-02-27 一般社団法人日本農業フロンティア開発機構 疾病評価指標算出方法、装置、システム、及び、プログラム、並びに、疾病評価指標を算出するためのモデル作成方法。

Also Published As

Publication number Publication date
CN112435756A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN112435756B (zh) 基于多数据集差异互证的肠道菌群关联疾病风险预测系统
CN105512477B (zh) 基于降维组合分类算法非计划性再入院风险评估预测模型
Chetty et al. Role of attributes selection in classification of Chronic Kidney Disease patients
US8126690B2 (en) Algorithms to predict clinical response, adherence, and shunting with thiopurines
Ritchie et al. A scalable permutation approach reveals replication and preservation patterns of network modules in large datasets
Beyersmann et al. A competing risks analysis of bloodstream infection after stem‐cell transplantation using subdistribution hazards and cause‐specific hazards
MX2008013978A (es) Metodos y aparatos para identificar el estado de enfermedades utilizando biomarcadores.
CN102930163A (zh) 一种2型糖尿病风险状态判定方法
CN110634563A (zh) 一种糖尿病肾病-非糖尿病肾病鉴别诊断装置
JP2013088880A (ja) 診療情報処理装置および方法並びにプログラム
CN108345768B (zh) 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合
CN115099331A (zh) 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统
CN106951710B (zh) 基于特权信息学习支持向量机的cap数据系统及方法
WO2022178947A1 (zh) 基于多维度的监测预警方法、装置、设备及存储介质
Villarroel et al. Cluster analysis using multivariate mixed effects models
CN110991517A (zh) 一种面向脑卒中非平衡数据集的分类方法及系统
Ihnsook et al. Predictive accuracy of severity scoring system: a prospective cohort study using APACHE III in a Korean intensive care unit
Soutinho et al. survidm: An R package for Inference and Prediction in an Illness-Death Model
CN114141360A (zh) 基于惩罚cox回归的乳腺癌预测方法
CN109243533B (zh) 一种用于计算基因的组织特异表达的鲁棒z-score打分方法
CN112259231A (zh) 一种高危胃肠间质瘤患者术后复发风险评估方法与系统
CN116864062B (zh) 一种基于互联网的健康体检报告数据分析管理系统
CN110441505A (zh) 一种长白猪血常规数据分析方法
Lan et al. Comparison of state occupation, entry, exit and waiting times in two or more groups based on current status data in a multistate model
TWI817795B (zh) 癌症進展判別方法及其系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240228

Address after: Room 04, 4th Floor, Building B10, Phase I, Block B, Wuhan High tech Medical Equipment Park, No. 818 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province, 430200

Patentee after: MAINTAIN BIOMEDICAL (WUHAN) Co.,Ltd.

Country or region after: China

Address before: 430074 No.3, 4th floor, building B10, phase I, block B, Wuhan hi tech medical instrument Park, 818 Gaoxin Avenue, Wuhan East Lake New Technology Development Zone, Wuhan City, Hubei Province

Patentee before: Wuhan Yiding Tianyang Biotechnology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right