CN114664382B - 多组学联合分析方法、装置及计算设备 - Google Patents
多组学联合分析方法、装置及计算设备 Download PDFInfo
- Publication number
- CN114664382B CN114664382B CN202210462384.3A CN202210462384A CN114664382B CN 114664382 B CN114664382 B CN 114664382B CN 202210462384 A CN202210462384 A CN 202210462384A CN 114664382 B CN114664382 B CN 114664382B
- Authority
- CN
- China
- Prior art keywords
- group
- chemical
- machine learning
- feature
- sets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请公开了一种多组学联合分析方法、装置及计算设备。其中,方法,包括:将第一组学数据集输入第一机器学习模型中得到第一组学候选特征集;将第二组学数据集输入第二机器学习模型中得到第二组学候选特征集;以第一组学候选特征集为特征向量、第二组学候选特征集为标签,输入至机器学习回归训练模型进行训练,获得最优机器学习回归训练模型,并利用SHAP值将第二组学候选特征集中每一种特征筛选对应的第一组学候选特征集的前N个特征,得到不同的第一组学特征和不同的第二组学特征之间的调控关系。本申请实施例,能够更好地拟合如肠道宏基因组和代谢组的相互作用,可以从双向找出两种组学关联的相互作用,对于后期的精准医疗提供重要的参考。
Description
技术领域
本申请涉及生物信息分析技术领域,尤其涉及一种多组学联合分析方法、装置及计算设备。
背景技术
随着高通量测序方法的迅速发展,能够获得的多组学数据越来越多,每种组学数据的特征也越来越大,人类生命系统的调控是多种组学共同作用的结果,组学之间存在一定的相互作用。目前核酸、蛋白质等大分子的功能性变化最终都体现于代谢层面,如神经递质的变化,激素调控,受体作用效应,细胞信号释放,能量传递以及细胞间的通讯等。宏基因组学与代谢组学密切相关,对于宏基因组与代谢组相互调控的研究是非常重要的。
相关技术中,调控方式包括:MelonnPan:基于模型的利用宏基因组信息预测微生物群落代谢。主要利用弹性网络(Elastic Net)回归的方法,以宏基因组的丰度数据作为特征,以代谢组数据作为标签,进行构建模型、训练、预测的方法。该方法目前是基于人类肠道宏基因组学的数据进行构建的。以及Pearson相关性分析:主要通过Pearson相关性系数分析某微生物与代谢物是否有数量上的相关性。首先通过统计假设检验方法如T检验,找到观测组与控制组之间有显著差异的微生物、代谢物;随后针对这些差异微生物和代谢物,利用Pearson相关性系数等相关性分析方法,计算微生物与代谢物之间在数值上的线性相关度,同时利用统计假设检验计算该相关度是否显著,显著相关的微生物和代谢物被认为有调控关系。最后,多组有调控关系的微生物和代谢物组成了微生物-代谢物调控网络。
存在以下缺点:Elastic Net是一种线性模型,所以目前所学习到的信息是线性关系,但生命系统是非常复杂的,单纯依靠线性关系拟合,有时并不能完全地学习到特征之间以及特征与标签之间的关系。Elastic Net的局限性还表现在,只针对特征之间彼此相关的情况下表现良好。但宏基因组、代谢组等多组学数据包含了大量的特征,并不清楚任意特征之间是否相关以及相关程度是多少。Pearson相关性分析代表着一类线性相关分析方法,目前广泛应用于微生物-代谢物调控网络的建立。同上所述,单纯的靠线性关系去拟合,有时并不能完全地学习到特征之间以及特征与标签之间的关系。细菌与代谢物的相互影响是复杂的生物过程,单一微生物丰度和代谢物产量之间的线性相关可以反映两者之间的调控作用,但在大量微生物和代谢物共存的情况下,发生假阳性和假阴性的概率较高。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种多组学联合分析方法、装置及计算设备,能够更好地拟合如肠道宏基因组和代谢组的相互作用,可以从双向找出两种组学关联的相互作用,对于后期的精准医疗提供重要的参考。
第一方面,本申请实施例提供了一种多组学联合分析方法,包括:
获取第一组学数据集,将所述第一组学数据集输入第一机器学习模型中,得到第一组学特征集,所述第一组学特征集包含分类标签,并基于SHAP值从所述第一组学特征集中筛选出第一组学候选特征集;
获取第二组学数据集,将所述第二组学数据集输入第二机器学习模型中,得到第二组学特征集,所述第二组学特征集包括与所述第一组学特征集相同的分类标签,并基于SHAP值从所述第二组学特征集中筛选出第二组学候选特征集;
以所述第一组学候选特征集作为特征向量、所述第二组学候选特征集作为标签,将所述第一组学候选特征集和所述第二组学候选特征集输入至机器学习回归训练模型进行训练,获得最优机器学习回归训练模型,并利用SHAP值将所述第二组学候选特征集中每一种特征所对应的所述第一组学候选特征集的前N个特征筛选出来,得到不同的第一组学特征和不同的第二组学特征之间的调控关系;
其中,所述的机器学习回归模型为RFCN-ResNet神经网络,所述RFCN-ResNet神经网络外集成超参搜索的框架,以为所述RFCN-ResNet神经网络搜索出所述最优机器学习回归训练模型。
在一些示例中,所述获取第一组学数据集,将所述第一组学数据集输入第一机器学习模型中,得到第一组学特征集,所述第一组学特征集包含分类标签,并基于SHAP值从所述第一组学特征集中筛选出第一组学候选特征集,包括:
确定第一机器学习模型对应的待优化超参数;
将第一组学数据集输入所述第一机器学习模型,根据所述待优化超参数对应的超参数搜索范围,采用k折交叉验证的网格超参数搜索方法进行训练,并使用评价指标对模型优劣程度进行评估,获得最优第一机器学习模型;
通过SHAP值描述每一折中各特征对结果的贡献值,把每一折中贡献值大于预设值的特征或贡献值排名前N的特征进行汇总,获得所述第一组学候选特征集。
在一些示例中,所述获取第二组学数据集,将所述第二组学数据集输入第二机器学习模型中,得到第二组学特征集,所述第二组学特征集包括与所述第一组学特征集相同的分类标签,并基于SHAP值从所述第二组学特征集中筛选出第二组学候选特征集,包括:
确定第二机器学习模型对应的待优化超参数;
将第二组学数据集输入所述第二机器学习模型,根据所述待优化超参数对应的超参数搜索范围,采用k折交叉验证的网格超参数搜索方法进行训练,并使用评价指标对模型优劣程度进行评估,获得最优第二机器学习模型;
通过SHAP值描述每一折中各特征对结果的贡献值,把每一折中贡献值大于预设值的特征或贡献值排名前N的特征进行汇总,获得所述第二组学候选特征集。
在一些示例中,所述第一机器学习模型和第二机器学习模型均为所述RFCN-ResNet神经网络,在该神经网络外会集成超参搜索的框架,搜索出最优模型,所述RFCN-ResNet神经网络外集成超参搜索的框架,以为所述RFCN-ResNet神经网络搜索出所述最优机器学习回归训练模型。
在一些示例中,以所述第一组学候选特征集作为特征向量、所述第二组学候选特征集作为标签,将所述第一组学候选特征集和所述第二组学候选特征集输入至机器学习回归训练模型进行训练,获得最优机器学习回归训练模型,并利用SHAP值将所述第二组学候选特征集中每一种特征所对应的所述第一组学候选特征集的前N个特征筛选出来,得到不同的第一组学特征和不同的第二组学特征之间的调控关系,包括:
确定机器学习回归训练模型对应的待优化超参数;
根据所述待优化超参数对应的超参数搜索范围,采用k折交叉验证的超参数搜索方法进行训练,并使用评价指标对模型优劣程度进行评估,获得最优机器学习回归训练模型;
通过SHAP值描述各特征向量对结果的贡献值,将贡献值大于预设值的特征向量作为关键特征,或者,将贡献值排名前N的特征向量作为关键特征,以得到不同的第一组学特征和不同的第二组学特征之间的调控关系。
在一些示例中,所述第一组学为宏基因组学,所述第二组学为代谢组学。
在一些示例中,获取第一组学数据集,包括:
采集包含分类标签的生物个体的组织样本,提取所述组织样本中整个微生物群落的遗传物质总和,并进行宏基因组测序,获得所述第一组学数据集;
其中,所述组织样本为血液、尿液、粪便、组织、细胞、汗液、脑脊液、淋巴液、唾液、羊水、胆汁中的至少一种。
在一些示例中,获取第二组学数据集,包括:
采集包含分类标签的生物个体的组织样本,使用代谢组学分析方法对所述组织样本进行分析,获得所述第二组学数据集;
其中,所述组织样本为血液、尿液、粪便、组织、细胞、汗液、脑脊液、淋巴液、唾液、羊水、胆汁中的至少一种;
其中,所述代谢组学分析方法为核磁共振波谱分析法、液相色谱-质谱联用技术、气相色谱-质谱联用技术、红外光谱法、紫外光谱法、拉曼光谱法中的至少一种。
第二方面,本申请实施例提供一种多组学联合分析装置,包括:
获取模块,用于
获取第一组学数据集,将所述第一组学数据集输入第一机器学习模型中,得到第一组学特征集,所述第一组学特征集包含分类标签,并基于SHAP值从所述第一组学特征集中筛选出第一组学候选特征集,以及获取第二组学数据集,将所述第二组学数据集输入第二机器学习模型中,得到第二组学特征集,所述第二组学特征集包括与所述第一组学特征集相同的分类标签,并基于SHAP值从所述第二组学特征集中筛选出第二组学候选特征集;
联合分析模块,用于以所述第一组学候选特征集作为特征向量、所述第二组学候选特征集作为标签,将所述第一组学候选特征集和所述第二组学候选特征集输入至机器学习回归训练模型进行训练,获得最优机器学习回归训练模型,并利用SHAP值将所述第二组学候选特征集中每一种特征所对应的所述第一组学候选特征集的前N个特征筛选出来,得到不同的第一组学特征和不同的第二组学特征之间的调控关系;
其中,所述的机器学习回归模型为RFCN-ResNet神经网络,所述RFCN-ResNet神经网络外集成超参搜索的框架,以为所述RFCN-ResNet神经网络搜索出所述最优机器学习回归训练模型。
第三方面,本申请实施例提供一种计算设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述第一方面所述的多组学联合分析方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于实现如上第一方面所述的多组学联合分析方法。
第五方面,本申请实施例提供一种计算机程序产品,其上存储有计算机程序,该计算机程序用于实现如上第一方面所述的多组学联合分析方法。
本申请实施例提供的多组学联合分析方法、装置及计算设备,基于模型对如宏基因组和代谢组数据构建调控网络,首先根据样本的类别分别对两个组学进行训练,提取出较为重要的特征,然后利用两个组学的特征构建新的数据集和标签集再进行训练和预测。最终挑选出对于该模型预测的较为重要的特征,形成两种组学的调控网络。通过超参自动搜索的方式融合了线性与非线性的方式,能够更好地拟合如肠道宏基因组和代谢组的相互作用。此外,基于模型生成两种组学调控网络的方式,可以从双向找出两种组学关联的相互作用,对于后期的精准医疗提供重要的参考。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例的多组学联合分析方法的流程图;
图2为本申请实施例的多组学联合分析方法的详细流程图;
图3为本申请实施例的多组学联合分析装置的结构示意图;
图4为本申请实施例的计算设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关公开,而非对该公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与公开相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
以下结合附图描述根据本发明实施例的多组学联合分析方法、装置及计算设备。
图1是本申请一个实施例的多组学联合分析方法的流程图,如图1所示,根据本申请实一个实施例的多组学联合分析方法,包括如下步骤:
S101:获取第一组学数据集,将所述第一组学数据集输入第一机器学习模型中,得到第一组学特征集,所述第一组学特征集包含分类标签,并基于SHAP值从所述第一组学特征集中筛选出第一组学候选特征集。
具体来说,确定第一机器学习模型对应的待优化超参数;将第一组学数据集输入所述第一机器学习模型,根据所述待优化超参数对应的超参数搜索范围,采用k折交叉验证的网格超参数搜索方法进行训练,并使用评价指标对模型优劣程度进行评估,获得最优第一机器学习模型;通过SHAP值描述每一折中各特征对结果的贡献值,把每一折中贡献值大于预设值的特征或贡献值排名前N的特征进行汇总,获得所述第一组学候选特征集。
该实例中,第一机器学习模型为RFCN-ResNet神经网络,RFCN-ResNet神经网络外集成超参搜索的框架,以为所述RFCN-ResNet神经网络搜索出所述最优机器学习回归训练模型。
在本发明的一个实施例中,第一组学例如为宏基因组学,所述第二组学为代谢组学。
在具体示例中,获取第一组学数据集,包括:采集包含分类标签的生物个体的组织样本,提取所述组织样本中整个微生物群落的遗传物质总和,并进行宏基因组测序,获得所述第一组学数据集;其中,所述组织样本为但不限于血液、尿液、粪便、组织、细胞、汗液、脑脊液、淋巴液、唾液、羊水、胆汁中的至少一种。
以宏基因组学为例,结合图2所示,所用的宏基因组学的数据为包含类别的样本数据,这些类别可以是患病和未患病,汉族和藏族等,利用模型对宏基因组训练分类模型,模型的选择为RFCN-ResNet,同时利用超参搜索的方式选取表现最好的模型。为了进一步提高模型的准确性以及挑选出较为全面的重要特征,这里进行了五折交叉验证。最终根据SHAP值挑选出每一折中较为重要的特征。
S102:获取第二组学数据集,将所述第二组学数据集输入第二机器学习模型中,得到第二组学特征集,所述第二组学特征集包括与所述第一组学特征集相同的分类标签,并基于SHAP值从所述第二组学特征集中筛选出第二组学候选特征集。
具体来说,确定第二机器学习模型对应的待优化超参数;将第二组学数据集输入所述第二机器学习模型,根据所述待优化超参数对应的超参数搜索范围,采用k折交叉验证的网格超参数搜索方法进行训练,并使用评价指标对模型优劣程度进行评估,获得最优第二机器学习模型;通过SHAP值描述每一折中各特征对结果的贡献值,把每一折中贡献值大于预设值的特征或贡献值排名前N的特征进行汇总,获得所述第二组学候选特征集。
该示例中,第二机器学习模型为RFCN-ResNet神经网络,RFCN-ResNet神经网络外集成超参搜索的框架,以为所述RFCN-ResNet神经网络搜索出所述最优机器学习回归训练模型。
在本发明的一个实施例中,第二组学例如为代谢组学。其中,获得第二组学数据集,包括:
采集包含分类标签的生物个体的组织样本,使用代谢组学分析方法对所述组织样本进行分析,获得所述第二组学数据集;其中,所述组织样本为但不限于血液、尿液、粪便、组织、细胞、汗液、脑脊液、淋巴液、唾液、羊水、胆汁中的至少一种;其中,所述代谢组学分析方法为但不限于核磁共振波谱分析法、液相色谱-质谱联用技术、气相色谱-质谱联用技术、红外光谱法、紫外光谱法、拉曼光谱法中的至少一种。
以代谢组学为例,结合图2所示,利用模型对代谢组数据训练分类模型,模型的选择为RFCN-ResNet,同时利用超参搜索的方式选取表现最好的模型。为了进一步提高模型的准确性以及挑选出较为全面的重要特征,这里进行了五折交叉验证。最终根据SHAP值挑选出每一折中较为重要的特征。
S103:以所述第一组学候选特征集作为特征向量、所述第二组学候选特征集作为标签,将所述第一组学候选特征集和所述第二组学候选特征集输入至机器学习回归训练模型进行训练,获得最优机器学习回归训练模型,并利用SHAP值将所述第二组学候选特征集中每一种特征所对应的所述第一组学候选特征集的前N个特征筛选出来,得到不同的第一组学特征和不同的第二组学特征之间的调控关系;其中,所述的机器学习回归模型为RFCN-ResNet神经网络,所述RFCN-ResNet神经网络外集成超参搜索的框架,以为所述RFCN-ResNet神经网络搜索出所述最优机器学习回归训练模型。
在本发明的一个实施例中,S103具体可以通过如下方式实现:确定机器学习回归训练模型对应的待优化超参数;根据所述待优化超参数对应的超参数搜索范围,采用k折交叉验证的超参数搜索方法进行训练,并使用评价指标对模型优劣程度进行评估,获得最优机器学习回归训练模型;通过SHAP值描述各特征向量对结果的贡献值,将贡献值大于预设值的特征向量作为关键特征,或者,将贡献值排名前N的特征向量作为关键特征,以得到不同的第一组学特征和不同的第二组学特征之间的调控关系。
结合图2所示,根据挑选出的两种组学的特征构建新的训练集,以宏基因组作为特征,代谢组作为标签。再基于RFCN-ResNet模型进行回归训练,同样利用超参搜索的方式选取表现最好的模型。根据该模型基于SHAP值挑选出较为重要的特征,最终形成宏基因组和代谢组的调控网络,即得到不同的第一组学特征和不同的第二组学特征之间的调控关系。
在以上描述中,组学(omics):是指生物学中对各类研究对象(一般为生物分子)的集合所进行的系统研究,而这些研究对象的集合被称为组,例如,基因组学、蛋白质组学和代谢组学等。在英文中,“组”以-ome作为后缀,“组学”以-omics作为后缀。例如,基因组学(Genomics)是系统性研究生物体基因组(genome)中各种基因(gene)以及它们之间的相互关系的学科。
组学数据(omics data):在生物医学领域,随着二代测序(next-generationsequencing)等技术的兴起,产生了海量的组学数据,包括基因组学数据,转录组学数据,蛋白组学数据等。组学数据一般存在数据量大,维度多,各个特征(feature)之间的非线性结构复杂等点。
基因组学(genomics):基因组学的目的是对一个生物体所有基因进行集体表征和量化,并研究它们之间的相互关系对生物体的影响。基因组学还包括基因组测序和分析,通过高通量DNA测序和生物信息学来组装和分析整个基因组的功能和结构。
宏基因组(metagenomics):是指特定环境中全微生物遗传物质的总和。宏基因组测序以特定环境中的整个微生物群落作为研究对象,不需对微生物进行分离培养,而是提取环境微生物总DNA进行研究。其摆脱了传统研究中微生物分离培养的技术限制,在基因组水平解读微生物群体的多样性和丰度,探索微生物与环境及宿主之间的关系。
代谢组学(metabonomics):继基因组学和蛋白质组学之后新近发展起来的一门学科,是系统生物学的重要组成部分。代谢组学的概念来源于代谢组,代谢组是指某一生物或细胞在一特定生理时期内所有的低分子量代谢产物,代谢组学则是对某一生物或细胞在某一特定生理时期内所有低分子量代谢产物同时进行定性和定量分析的一门新科学。
弹性网络(ElasticNet):弹性网络是同时使用了系数向量的L1范数和L2范数的线性回归模型,使得可以学习得到类似于Lasso的一个稀疏模型,同时还保留了Ridge的正则化属性,结合了二者的优点,尤其适用于有多个特征彼此相关的场合。
沙普利加和解释(SHAP):目前机器学习方法在很多问题上的表现都比较好,但许多模型都是一个黑盒子状态,所以模型的可解释性是非常重要的。沙普利加和解释可以观察到某一个样本的各个预测特征对预测结果产生的影响。
在具体的实施例中,例如使用了人类平原汉族、藏族、高原汉族以及在高原地区生活一定时间范围的汉族。类别分别为藏族、高原汉族、平原汉族、在高原生活一周的汉族,在高原生活3个月的汉族、在高原生活6个月的汉族。总的样本数为446例,所用的组学数据为粪便宏基因组和代谢组,即:是以粪便宏基因组和代谢组为例的。
具体实施如下:
1)宏基因组和代谢组数据预处理:在构建模型之前需要对组学数据进行归一化处理,使得所有的特征都在统一标准下。同时对数据进行五折拆分,为后面做五折交叉验证做准备。
2)对两种组学分别进行分类模型的构建:基于RFCN-ResNet模型对两个组学的数据分别进行训练,同时进行五折交叉验证。
3)对于每个组学数据的每一折选取前面较为重要的特征(基于SHAP值),最后将所有折的特征进行去重融合。这里选取了宏基因组的每折数据中的前25个,代谢组的每折数据中的前8个,去重后宏基因组的特征数为101个,代谢组的特征为27个。
4)利用3)选取的宏基因组和代谢组的特征构建新的数据集,新的训练集特征为宏基因组数据,标签为代谢组数据。对新的数据集进行回归训练,同样是基于RFCN-ResNet模型进行训练,利用超参搜索选择表现最好的模型。
5)基于4)中的模型再选择出较为重要的宏基因组特征(基于SHAP值)。最终形成宏基因组和代谢组的调控网络。
根据本发明实施例的多组学联合分析方法,基于模型对如宏基因组和代谢组数据构建调控网络,首先根据样本的类别分别对两个组学进行训练,提取出较为重要的特征,然后利用两个组学的特征构建新的数据集和标签集再进行训练和预测。最终挑选出对于该模型预测的较为重要的特征,形成两种组学的调控网络。通过超参自动搜索的方式融合了线性与非线性的方式,能够更好地拟合如肠道宏基因组和代谢组的相互作用。此外,基于模型生成两种组学调控网络的方式,可以从双向找出两种组学关联的相互作用,对于后期的精准医疗提供重要的参考。
另一方面,如图3所示,本申请实施例提供了一种多组学联合分析装置,包括:获取模块310和联合分析模块320,其中:
获取模块310,用于获取第一组学数据集,将所述第一组学数据集输入第一机器学习模型中,得到第一组学特征集,所述第一组学特征集包含分类标签,并基于SHAP值从所述第一组学特征集中筛选出第一组学候选特征集,以及获取第二组学数据集,将所述第二组学数据集输入第二机器学习模型中,得到第二组学特征集,所述第二组学特征集包括与所述第一组学特征集相同的分类标签,并基于SHAP值从所述第二组学特征集中筛选出第二组学候选特征集;
联合分析模块320,用于以所述第一组学候选特征集作为特征向量、所述第二组学候选特征集作为标签,将所述第一组学候选特征集和所述第二组学候选特征集输入至机器学习回归训练模型进行训练,获得最优机器学习回归训练模型,并利用SHAP值将所述第二组学候选特征集中每一种特征所对应的所述第一组学候选特征集的前N个特征筛选出来,得到不同的第一组学特征和不同的第二组学特征之间的调控关系;其中,所述的机器学习回归模型为RFCN-ResNet神经网络,RFCN-ResNet神经网络外集成超参搜索的框架,以为所述RFCN-ResNet神经网络搜索出所述最优机器学习回归训练模型,即:在该神经网络外会集成超参搜索的框架,搜索出最优模型。
根据本发明实施例的多组学联合分析装置,基于模型对如宏基因组和代谢组数据构建调控网络,首先根据样本的类别分别对两个组学进行训练,提取出较为重要的特征,然后利用两个组学的特征构建新的数据集和标签集再进行训练和预测。最终挑选出对于该模型预测的较为重要的特征,形成两种组学的调控网络。通过超参自动搜索的方式融合了线性与非线性的方式,能够更好地拟合如肠道宏基因组和代谢组的相互作用。此外,基于模型生成两种组学调控网络的方式,可以从双向找出两种组学关联的相互作用,对于后期的精准医疗提供重要的参考。
需要说明的是,本申请实施例的多组学联合分析装置的具体实现方式与本申请实施例的多组学联合分析方法的具体实现方式类似,具体请参见方法部分的描述,此处不做赘述。
图4为本申请实施例的计算设备的结构示意图。
如图4所示,计算设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分602加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有计算设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的计算设备中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的计算设备、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行计算设备、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行计算设备、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的处理接收设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的计算设备来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,处理器用于执行所述程序时实现多组学联合分析方法:获取第一组学数据集,将所述第一组学数据集输入第一机器学习模型中,得到第一组学特征集,所述第一组学特征集包含分类标签,并基于SHAP值从所述第一组学特征集中筛选出第一组学候选特征集;获取第二组学数据集,将所述第二组学数据集输入第二机器学习模型中,得到第二组学特征集,所述第二组学特征集包括与所述第一组学特征集相同的分类标签,并基于SHAP值从所述第二组学特征集中筛选出第二组学候选特征集;以所述第一组学候选特征集作为特征向量、所述第二组学候选特征集作为标签,将所述第一组学候选特征集和所述第二组学候选特征集输入至机器学习回归训练模型进行训练,获得最优机器学习回归训练模型,并利用SHAP值将所述第二组学候选特征集中每一种特征所对应的所述第一组学候选特征集的前N个特征筛选出来,得到不同的第一组学特征和不同的第二组学特征之间的调控关系;其中,所述的机器学习回归模型为RFCN-ResNet神经网络,所述RFCN-ResNet神经网络外集成超参搜索的框架,以为所述RFCN-ResNet神经网络搜索出所述最优机器学习回归训练模型。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (9)
1.一种多组学联合分析方法,其特征在于,包括:
获取第一组学数据集,包括:采集包含分类标签的生物个体的组织样本,提取所述组织样本中整个微生物群落的遗传物质总和,并进行宏基因组测序,获得所述第一组学数据集,所述第一组学为宏基因组学,将所述第一组学数据集输入第一机器学习模型中,得到第一组学特征集,所述第一组学特征集包含分类标签,并基于SHAP值从所述第一组学特征集中筛选出第一组学候选特征集;
获取第二组学数据集,包括:采集包含分类标签的生物个体的组织样本,使用代谢组学分析方法对所述组织样本进行分析,获得所述第二组学数据集,所述第二组学为代谢组学,将所述第二组学数据集输入第二机器学习模型中,得到第二组学特征集,所述第二组学特征集包括与所述第一组学特征集相同的分类标签,并基于SHAP值从所述第二组学特征集中筛选出第二组学候选特征集;
以所述第一组学候选特征集作为特征向量、所述第二组学候选特征集作为标签,将所述第一组学候选特征集和所述第二组学候选特征集输入至机器学习回归训练模型进行训练,获得最优机器学习回归训练模型,并利用SHAP值将所述第二组学候选特征集中每一种特征所对应的所述第一组学候选特征集的前N个特征筛选出来,得到不同的第一组学特征和不同的第二组学特征之间的调控关系;
其中,所述的机器学习回归模型为RFCN-ResNet神经网络,所述RFCN-ResNet神经网络外集成超参搜索的框架,以为所述RFCN-ResNet神经网络搜索出所述最优机器学习回归训练模型。
2.根据权利要求1所述的多组学联合分析方法,其特征在于,所述获取第一组学数据集,将所述第一组学数据集输入第一机器学习模型中,得到第一组学特征集,所述第一组学特征集包含分类标签,并基于SHAP值从所述第一组学特征集中筛选出第一组学候选特征集,包括:
确定第一机器学习模型对应的待优化超参数;
将第一组学数据集输入所述第一机器学习模型,根据所述待优化超参数对应的超参数搜索范围,采用k折交叉验证的网格超参数搜索方法进行训练,并使用评价指标对模型优劣程度进行评估,获得最优第一机器学习模型;
通过SHAP值描述每一折中各特征对结果的贡献值,把每一折中贡献值大于预设值的特征或贡献值排名前N的特征进行汇总,获得所述第一组学候选特征集。
3.根据权利要求1所述的多组学联合分析方法,其特征在于,所述获取第二组学数据集,将所述第二组学数据集输入第二机器学习模型中,得到第二组学特征集,所述第二组学特征集包括与所述第一组学特征集相同的分类标签,并基于SHAP值从所述第二组学特征集中筛选出第二组学候选特征集,包括:
确定第二机器学习模型对应的待优化超参数;
将第二组学数据集输入所述第二机器学习模型,根据所述待优化超参数对应的超参数搜索范围,采用k折交叉验证的网格超参数搜索方法进行训练,并使用评价指标对模型优劣程度进行评估,获得最优第二机器学习模型;
通过SHAP值描述每一折中各特征对结果的贡献值,把每一折中贡献值大于预设值的特征或贡献值排名前N的特征进行汇总,获得所述第二组学候选特征集。
4.根据权利要求2或3所述的多组学联合分析方法,其特征在于,所述第一机器学习模型和第二机器学习模型均为所述RFCN-ResNet神经网络。
5.根据权利要求1所述的多组学联合分析方法,其特征在于,以所述第一组学候选特征集作为特征向量、所述第二组学候选特征集作为标签,将所述第一组学候选特征集和所述第二组学候选特征集输入至机器学习回归训练模型进行训练,获得最优机器学习回归训练模型,并利用SHAP值将所述第二组学候选特征集中每一种特征所对应的所述第一组学候选特征集的前N个特征筛选出来,得到不同的第一组学特征和不同的第二组学特征之间的调控关系,包括:
确定机器学习回归训练模型对应的待优化超参数;
根据所述待优化超参数对应的超参数搜索范围,采用k折交叉验证的超参数搜索方法进行训练,并使用评价指标对模型优劣程度进行评估,获得最优机器学习回归训练模型;
通过SHAP值描述各特征向量对结果的贡献值,将贡献值大于预设值的特征向量作为关键特征,或者,将贡献值排名前N的特征向量作为关键特征,以得到不同的第一组学特征和不同的第二组学特征之间的调控关系。
6.根据权利要求1所述的多组学联合分析方法,其特征在于,所述组织样本为血液、尿液、粪便、组织、细胞、汗液、脑脊液、淋巴液、唾液、羊水、胆汁中的至少一种。
7.根据权利要求1所述的多组学联合分析方法,其特征在于,所述代谢组学分析方法为核磁共振波谱分析法、液相色谱-质谱联用技术、气相色谱-质谱联用技术、红外光谱法、紫外光谱法、拉曼光谱法中的至少一种。
8.一种多组学联合分析装置,其特征在于,包括:
获取模块,用于获取第一组学数据集,包括:采集包含分类标签的生物个体的组织样本,提取所述组织样本中整个微生物群落的遗传物质总和,并进行宏基因组测序,获得所述第一组学数据集,所述第一组学为宏基因组学,将所述第一组学数据集输入第一机器学习模型中,得到第一组学特征集,所述第一组学特征集包含分类标签,并基于SHAP值从所述第一组学特征集中筛选出第一组学候选特征集,以及获取第二组学数据集,包括:采集包含分类标签的生物个体的组织样本,使用代谢组学分析方法对所述组织样本进行分析,获得所述第二组学数据集,所述第二组学为代谢组学,将所述第二组学数据集输入第二机器学习模型中,得到第二组学特征集,所述第二组学特征集包括与所述第一组学特征集相同的分类标签,并基于SHAP值从所述第二组学特征集中筛选出第二组学候选特征集;
联合分析模块,用于以所述第一组学候选特征集作为特征向量、所述第二组学候选特征集作为标签,将所述第一组学候选特征集和所述第二组学候选特征集输入至机器学习回归训练模型进行训练,获得最优机器学习回归训练模型,并利用SHAP值将所述第二组学候选特征集中每一种特征所对应的所述第一组学候选特征集的前N个特征筛选出来,得到不同的第一组学特征和不同的第二组学特征之间的调控关系;
其中,所述的机器学习回归模型为RFCN-ResNet神经网络,所述RFCN-ResNet神经网络外集成超参搜索的框架,以为所述RFCN-ResNet神经网络搜索出所述最优机器学习回归训练模型。
9.一种计算设备,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现如权利要求1~7任一项所述的多组学联合分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210462384.3A CN114664382B (zh) | 2022-04-28 | 2022-04-28 | 多组学联合分析方法、装置及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210462384.3A CN114664382B (zh) | 2022-04-28 | 2022-04-28 | 多组学联合分析方法、装置及计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114664382A CN114664382A (zh) | 2022-06-24 |
CN114664382B true CN114664382B (zh) | 2023-01-31 |
Family
ID=82037686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210462384.3A Active CN114664382B (zh) | 2022-04-28 | 2022-04-28 | 多组学联合分析方法、装置及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114664382B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240296929A1 (en) * | 2023-03-01 | 2024-09-05 | International Business Machines Corporation | Precision combination therapy using tumor clone response prediction from cell data |
CN116597902B (zh) * | 2023-04-24 | 2023-12-01 | 浙江大学 | 基于药物敏感性数据的多组学生物标志物筛选方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133448A (zh) * | 2017-04-10 | 2017-09-05 | 温州医科大学 | 一种代谢组学数据融合优化处理方法 |
CN111325353A (zh) * | 2020-02-28 | 2020-06-23 | 深圳前海微众银行股份有限公司 | 训练数据集的贡献度计算方法、装置、设备及存储介质 |
CN111781292A (zh) * | 2020-07-15 | 2020-10-16 | 四川大学华西医院 | 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 |
CN111933212A (zh) * | 2020-08-26 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种基于机器学习的临床组学数据处理方法及装置 |
CN112364880A (zh) * | 2020-11-30 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 基于图神经网络的组学数据处理方法、装置、设备及介质 |
CN112669899A (zh) * | 2020-12-24 | 2021-04-16 | 广州基迪奥生物科技有限公司 | 一种16s和宏基因组测序数据关联分析方法、系统及设备 |
CN114093515A (zh) * | 2021-11-17 | 2022-02-25 | 江南大学 | 一种基于肠道菌群预测模型集成学习的年龄预测方法 |
CN114255886A (zh) * | 2022-02-28 | 2022-03-29 | 浙江大学 | 基于多组学相似度引导的药物敏感性预测方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021202620A1 (en) * | 2020-03-31 | 2021-10-07 | The Board Of Trustees Of The Leland Stanford Junior University | Metabolomics approach combined with machine learning to recognize a medical condition |
-
2022
- 2022-04-28 CN CN202210462384.3A patent/CN114664382B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133448A (zh) * | 2017-04-10 | 2017-09-05 | 温州医科大学 | 一种代谢组学数据融合优化处理方法 |
CN111325353A (zh) * | 2020-02-28 | 2020-06-23 | 深圳前海微众银行股份有限公司 | 训练数据集的贡献度计算方法、装置、设备及存储介质 |
CN111781292A (zh) * | 2020-07-15 | 2020-10-16 | 四川大学华西医院 | 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 |
CN111933212A (zh) * | 2020-08-26 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种基于机器学习的临床组学数据处理方法及装置 |
CN112364880A (zh) * | 2020-11-30 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 基于图神经网络的组学数据处理方法、装置、设备及介质 |
CN112669899A (zh) * | 2020-12-24 | 2021-04-16 | 广州基迪奥生物科技有限公司 | 一种16s和宏基因组测序数据关联分析方法、系统及设备 |
CN114093515A (zh) * | 2021-11-17 | 2022-02-25 | 江南大学 | 一种基于肠道菌群预测模型集成学习的年龄预测方法 |
CN114255886A (zh) * | 2022-02-28 | 2022-03-29 | 浙江大学 | 基于多组学相似度引导的药物敏感性预测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114664382A (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hulsen et al. | From big data to precision medicine | |
Caudai et al. | AI applications in functional genomics | |
Tsamardinos et al. | Just Add Data: automated predictive modeling for knowledge discovery and feature selection | |
US10810213B2 (en) | Phenotype/disease specific gene ranking using curated, gene library and network based data structures | |
Woolf et al. | A fuzzy logic approach to analyzing gene expression data | |
CN114664382B (zh) | 多组学联合分析方法、装置及计算设备 | |
Karlsson et al. | Nonlinear mixed-effects modelling for single cell estimation: when, why, and how to use it | |
Erfanian et al. | Deep learning applications in single-cell genomics and transcriptomics data analysis | |
Fenstermacher et al. | The cancer biomedical informatics grid (caBIG TM) | |
Ebbels et al. | Recent advances in mass spectrometry-based computational metabolomics | |
Fischer et al. | Scaling up reproducible research for single-cell transcriptomics using MetaNeighbor | |
Watford et al. | Progress in data interoperability to support computational toxicology and chemical safety evaluation | |
Naik et al. | Will the future of knowledge work automation transform personalized medicine? | |
Gil et al. | Towards continuous scientific data analysis and hypothesis evolution | |
Chicco et al. | Ten quick tips for avoiding pitfalls in multi-omics data integration analyses | |
Mallick et al. | An integrated Bayesian framework for multi‐omics prediction and classification | |
Sigurdsson et al. | Deep integrative models for large-scale human genomics | |
Gao et al. | scEpiTools: a database to comprehensively interrogate analytic tools for single-cell epigenomic data | |
Mursalim et al. | BiCaps-DBP: Predicting DNA-binding proteins from protein sequences using Bi-LSTM and a 1D-capsule network | |
Heintz-Buschart et al. | A beginner’s guide to integrating multi-omics data from microbial communities | |
Kilic et al. | Monte Carlo samplers for efficient network inference | |
Luo et al. | A Caps-UBI model for protein ubiquitination site prediction | |
Zheng et al. | Translation rate prediction and regulatory motif discovery with multi-task learning | |
Payton et al. | Navigating the bridge between wet and dry lab toxicology research to address current challenges with high-dimensional data | |
Zhou et al. | Applications of machine learning models to predict and prevent obesity: A mini-review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |