CN115565610A - 基于多组学数据的复发转移分析模型建立方法及系统 - Google Patents

基于多组学数据的复发转移分析模型建立方法及系统 Download PDF

Info

Publication number
CN115565610A
CN115565610A CN202211198172.5A CN202211198172A CN115565610A CN 115565610 A CN115565610 A CN 115565610A CN 202211198172 A CN202211198172 A CN 202211198172A CN 115565610 A CN115565610 A CN 115565610A
Authority
CN
China
Prior art keywords
data
omics
analysis model
recurrence
omic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211198172.5A
Other languages
English (en)
Other versions
CN115565610B (zh
Inventor
李冰
章乐
袁勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202211198172.5A priority Critical patent/CN115565610B/zh
Publication of CN115565610A publication Critical patent/CN115565610A/zh
Application granted granted Critical
Publication of CN115565610B publication Critical patent/CN115565610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于多组学数据的复发转移分析模型建立方法及系统。本发明的基于多组学数据的复发转移分析模型建立方法利用多组学数据信息,从多层次对复发转移的数据进行分析,使得对复发转移数据的分析更为全面有效,同时,通过对多组学数据进行系统化的组学特征数据的选择和降维处理,有效利用和筛选了不同组学的数据,对进行复发转移分析模型建立的多组学数据进行了质量控制,最终综合多种经典机器学习模型,提高了复发转移分析模型的准确性。

Description

基于多组学数据的复发转移分析模型建立方法及系统
技术领域
本发明涉及一种分析模型建立方法,尤其涉及一种基于多组学数据的复发转移分析模型建立方法及应用基于多组学数据的转移分析模型建立方法的系统。
背景技术
最新研究中指出,利用多组学信息,即蛋白质组学和磷蛋白组学数据,成功且极有效地区分了是否复发转移。但是目前国内外的研究和模型无法有效对多组学数据进行特征筛选,无法有效利用多维度的数据构建综合的数据分析模型和系统。此外,当前的模型构建还存在分析结果准确率不高,模型构建方法较为单一等问题。
具体的,从数据局限性的角度讲,现有预测模型的数据来源较为单一。大部分研究皆采用单一的影像放射学数据、基因数据和临床相关数据作为研究的数据来源。然而由于癌症等其它疾病的成因和发展复杂,如结直肠癌,相较于多组学数据,仅使用单一数据无法全面完整的阐释患者的状态并进行分析。
从特征工程的角度讲,由于现有预测模型的数据来源较为单一,故而缺乏一个针对多组学数据的系统全面的特征选择和降维方法。其临床和基因表达特征选择大多由人工选择或单个统计检验方法完成,例如相关系数检验,卡方检验,T检验或Mann-Whitney U检验等。从而存在特征选择不客观,特征选择方法和结果不相同等等问题。除此之外,利用得到多组学数据的关键特征后,数据可能仍存在特征维数较高的情况,不利于模型构建,故而需要一个系统的针对多组学数据的特征选择和降维方法。
进一步的,从模型构建的角度讲,现有的预测模型建模方法单一。在使用机器学习对术后转移预测进行模型构建时,以往的研究采用了比例风险回归模型(Cox模型),logistics回归,决策树,随机森林等机器学习模型和算法进行分析。这些研究大多只使用了单个模型方法进行构建,没有使用集成学习等方法将各类机器学习的优势进行集成,由于不同模型的表现依赖于数据的选取,这些模型很难迁移或整合多组学数据,并且存在准确率不高的问题。
有鉴于此,确有必要提出一种基于多组学数据的复发转移预测模型和系统,以解决上述问题。
发明内容
本发明的目的在于提供一种基于多组学数据的复发转移分析模型建立方法及系统,本发明的基于多组学数据的复发转移分析模型建立方法利用多组学数据信息,从多层次对复发转移的数据进行分析。
为实现上述发明目的,本发明提供了一种基于多组学数据的复发转移分析模型建立方法,包括以下步骤:
S1、对来自不同组学的数据源进行归一化处理、比较分析,建立不同组间数据的关系,获取多组学数据,并对所述多组学数据中的组学特征数据进行提取;
S2、利用主成分分析法对所述组学特征数据进行降维处理;
S3、对降维处理后的所述组学特征数据进行数据增强,使得所述组学特征数据符合样本量要求;
S4、基于符合样本量要求的所述组学特征数据,采用集成学习算法构建复发转移分析模型;所述复发转移分析模型表示为:
Figure BDA0003871354490000021
其中,H(x)是集成分类器;c0为常数,cm是每个弱分类器的权值;M是弱分类器的指标,M=1,2,3;HmT是每个弱分类器的权重的同态积分。
作为本发明的进一步改进,当所述多组学数据为为离散数据时,通过Fisher精确检验法或卡方检验法来确定每组组学数据的数据特征与复发转移标签之间的相关性,对所述组学特征数据进行提取。
作为本发明的进一步改进,当所述多组学数据为为连续数据时,根据复发转移标签将所述多组学数据分为第一数据和第二数据,至少结合T检验法、Mann-Whitney U检验法以及方差分析法的假设检验结果的交集,获取所述组学特征数据。
作为本发明的进一步改进,所述组学特征数据至少包括10组。
作为本发明的进一步改进,所述S2中,所述主成分分析法具体为:
TL=XWL
其中,WL为将包含i个变量的原始组学数据X映射到数据集上包含i个不相关变量的新空间T,仅保留前L个主成分进行降维操作。
作为本发明的进一步改进,所述S3具体为:
S31、样本量的估计,计算每个选定的所述组学特征数据相对应于预设统计显著性的最佳样本量n,对所述组学特征数据进行数据扩充;
S32、对所述组学特征数据扩充后的伪数据集进行评估,通过最大Fisher判别比F1验证生成的所述组学特征数据是否可以用于分类,并评估伪数据集数据增强的质量。
作为本发明的进一步改进,所述S31中,所述最佳样本量n表示为:
Figure BDA0003871354490000031
其中,σ为标准差,μα和μβ是第一类错误率和第二类错误率下μ检验的临界值,Q1和Q2为经过二分类后的群体中各部分的比例,δ为两组数据均值的差值。
作为本发明的进一步改进,所述S31中,当所述最佳样本量n不满足最佳样本量的要求时,使用SMOTE算法对所述组学特征数据进行数据增强,生成伪数据集来扩充所述组学特征数据以达到最佳样本量的要求。
作为本发明的进一步改进,在所述S4中,所述复发转移分析模型为基于逻辑回归(LR)、支持向量机(SVM)和朴素贝叶斯(Naive-Bayes)三种分类方法构建获取。
为实现上述发明目的,本发明还提供了一种基于多组学数据的复发转移分析模型建立系统,可用于执行前述的基于多组学数据的复发转移分析模型建立方法;所述基于多组学数据的复发转移分析模型建立系统包括:数据采集模块,所述数据采集模块用于获取及存储多组学数据;数据处理模块,所述数据处理模块用于根据所述多组学数据中每组组学数据的数据特征与复发转移标签进行提取,获取组学特征数据;其中,所述复发转移标签用于标注是否复发;中央处理器,包括主成分分析模块,根据TL=XWL对所述组学特征数据进行降维处理;其中,WL为将包含i个变量的原始组学数据X映射到数据集上包含i个不相关变量的新空间T,仅保留前L个主成分进行降维操作;所述中央处理器还包括数据增强模块,所述数据增强模块至少用于执行SMOTE算法,对所述组学特征数据进行数据增强,生成伪数据集来扩充所述组学特征数据以达到最佳样本量的要求所述中央处理器用于对所述组学特征数据进行多组学数据进行处理;以及集成数据模块,所述集成数据模块被配置为根据至少三个弱分类器的模型进行复发转移分析模型的建立;所述复发转移分析模型为:
Figure BDA0003871354490000041
其中,H(x)是集成分类器;c0为常数,cm是每个弱分类器的权值;M是弱分类器的指标,M=1,2,3;HmT是每个弱分类器的权重的同态积分。
本发明的有益效果是:
本发明的基于多组学数据的复发转移分析模型建立方法利用多组学数据信息,从多层次对复发转移的数据进行分析,使得对复发转移数据的分析更为全面有效,同时,通过对多组学数据进行系统化的组学特征数据的选择和降维处理,有效利用和筛选了不同组学的数据,对进行复发转移分析模型建立的多组学数据进行了质量控制,最终综合多种经典机器学习模型,提高了复发转移分析模型的准确性。
附图说明
图1是本发明基于多组学数据的复发转移分析模型建立方法的流程图;
图2是多组学数据为离散数据时,提取组学特征数据流程图;
图3是多组学数据为连续数据时,提取组学特征数据流程图;
图4是复发转移分析模型的构建流程图;
图5是复发转移分析模型与LR、SVM、NB三种分析模型的分类性能比较图;
图6是复发转移分析模型与LR、SVM、NB三种分析模型的ROC曲线比较图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
另外,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
请参阅图1所示,为本发明提供的一种基于多组学数据的复发转移分析模型建立方法,其特征在于,包括以下步骤:
S1、对来自不同组学的数据源进行归一化处理、比较分析,建立不同组间数据的关系,获取多组学数据,并对所述多组学数据中的组学特征数据进行提取;
S2、利用主成分分析法对所述组学特征数据进行降维处理;
S3、对降维处理后的所述组学特征数据进行数据增强,使得所述组学特征数据符合样本量要求;
S4、基于符合样本量要求的所述组学特征数据构件复发转移分析模型;所述复发转移分析模型表示为:
Figure BDA0003871354490000061
其中,H(x)是集成分类器;c0为常数,cm是每个弱分类器的权值;M是弱分类器的指标,M=1,2,3;HmT是每个弱分类器的权重ht的同态积分。
以下说明书部分将针对S1~S2进行详细描述。
在S1中,对所述多组学数据中的组学特征数据进行提取为根据所述多组学数据的类型进行提取。请参阅图2所示,当所述多组学数据为离散数据时,通过Fisher精确检验法或卡方检验法来确定每组组学数据中的数据特征与其复发转移标签之间的相关性,对所述组学特征数据进行提取。
具体的,所述Fisher精确检验法具体为:根据所述多组学数据构建列联表(如下表1所示),并根据选取合适的阈值p确定是否选取该数据特征。
表1列联表
Figure BDA0003871354490000062
其中,第一数据为复发转移标签数据;第二数据为数据特征;a、b、c、d、n均为构建列联表时的统计获取的数据。
进一步的,在本发明的一较佳实施例中,数据特征共包含四类,分别是临床特征、体细胞突变特征、蛋白质组学特征以及磷酸化蛋白质组学特征,当然本发明的其它实施例中数据特征还可为其它特征。
在本方法中,阈值p表示为:
Figure BDA0003871354490000063
优选的,阈值p为0.05或0.01,当然在本发明的其他实施例中,所述阈值p还可为其它数值。
所述卡方检验法具体为:
Figure BDA0003871354490000071
其中,n是观察次数,k是不同类别的数量,xi是观察值,pi是第i类出现的概率。
请参阅图3所示,当所述多组学数据为为连续数据时,根据标签将所述多组学数据分为第一数据和第二数据,至少结合T检验法、Mann-Whitney U检验法以及方差分析法的假设检验结果的交集,获取所述组学特征数据。
具体的,T检验法具体为:
Figure BDA0003871354490000072
Figure BDA0003871354490000073
其中,
Figure BDA0003871354490000077
Figure BDA0003871354490000078
是第一数据和第二数据两个集合的方差,n是第一数据和第二数据两个集合的大小。
Mann-WhitneyU检验法具体为:
Figure BDA0003871354490000074
Figure BDA0003871354490000075
其中,n表示第一数据的数量;m表示第二数据的数量;Xi表示第i个第一数据;Yj表示第i个第二数据。
方差分析法(ANOVA)具体为:
SStotal=SStreatment+SSerror
DFtotal=DFtreatment+DFerror
MStreatment=SStreatment/DFtreatment
MSerror=SSerror/DFerror
Figure BDA0003871354490000076
其中,SS表示平方和,DF表示自由度,MS表示均方;Treatment表示不同组组学数据;Error表示同一组组学数据。
需要说明的是,在本发明中,获取的所述组学特征数据至少包括10组。
所述S2为利用主成分分析法对所述组学特征数据进行降维处理。具体的,S1中获取的组学特征数据为高维的组学特征,所述主成分分析法具体为:
TL=XWL
其中,WL为将包含i个变量的原始数据X映射到数据集上包含i个不相关变量的新空间T,仅保留前L个主成分进行降维操作。
如此设置,可以将高维的组学特征缩减到新的低维特征上,从而便于所述组学特征数据进一步分析和后续复发转移分析模型的建立。
所述S3具体为:
S31、样本量的估计,计算每个选定的所述组学特征数据相对应于预设统计显著性的最佳样本量n,对所述组学特征数据进行数据扩充;
S32、对所述组学特征数据扩充后的伪数据集进行评估,通过最大Fisher判别比或F1验证生成的所述所述组学特征数据是否可以用于分类,并评估伪数据集数据增强的质量。
具体的,所述S31中,所述最佳样本量n表示为:
Figure BDA0003871354490000081
其中,σ为标准差,μα和μβ是第一类错误率和第二类错误率下μ检验的临界值,Q1和Q2为经过二分类后的群体中各部分的比例,δ为两组数据均值的差值。
进一步的,所述S31中,当所述最佳样本量n不满足最佳样本量的要求时,使用SMOTE算法对所述组学特征数据进行数据增强,生成伪数据集来扩充所述组学特征数据以达到最佳样本量的要求。
具体的,S31为使用SMOTE算法对所述组学特征数据进行过采样,SMOTE算法具体包括:
定义组学特征数据集T;组学特征数据集T表示为:
T={(x1,y1),(x2,y2),…,(xn,yn)},
其中,xi为样本i对应的所述组学特征数据,yi为样本i对应的复发转移标签;n为样本数量;
进一步的,采用最近邻算法对组学特征数据集T中的每个数据(xi,yi)选择具有相同标签的最近邻居,且所述最近邻居的选择数量为k,且k个最近邻居所构成的最近邻居集为K,最近邻居集K为:
K={(xi1,yi),(xi2,yi),…,(xik,yi)};
在最近邻居集K中随机选取m个邻居,m个邻居构成随机邻居集M,随机邻居集M为:
M={(xi1,yi),(xi2,yi),…,(xim,yi)};
进一步的,根据随机邻居集M中的每个数据(xij,yij)生成新数据:
xnew=xi+rand(0,1)*(xij-xi);
ynew=yi
根据随机邻居集M中的每个数据(xij,yij)整理获取伪数据集G;伪数据集G表示为:
G={(x1,yi),(x2,yi),…,(xn*m,yi)};
其中,yi为标签。
所述S32具体为对所述组学特征数据扩充后的伪数据集进行评估,通过最大Fisher判别比或F1验证生成的所述所述组学特征数据是否可以用于分类,并评估伪数据集数据增强的质量。
在本发明中,对所述组学特征数据扩充后的伪数据集进行评估为通过最大Fisher判别比F1进行验证,以确保扩充后的伪数据集G中每个数据均足以用于分类,以对扩充的伪数据集数据的质量进行增强。
具体的,F1值表示伪数据集G中伪数据的重叠程度;F1值越大,说明伪数据集G中的重叠程度越低,越适合分类;进一步的,重叠程度值F1为通过每个特征的重叠程度值fi计算获取;
Figure BDA0003871354490000091
F1=max(fi);
其中,μ1,μ2,σ1和σ2分别是第一数据和第二数据的均值和标准差。
如此,可通过分别计算初始数据集的F1值和伪数据集的F1值对伪数据集G的质量进行评估;且若伪数据集的F1值比初始数据集的F1值大或者相近,则认为构造的伪数据集G质量较好,否则构造的伪数据集G可能影响后续的复发转移分析模型的准确性。
请参阅图4所示,S4为基于符合样本量要求的所述组学特征数据构件复发转移分析模型;在本申请中,所述复发转移分析模型为基于逻辑回归(LR)、支持向量机(SVM)和朴素贝叶斯(Naive-Bayes)三种分类方法构建获取。
具体的,复发转移分析模型的建立主要通过以下方程依次计算获取;首先,获取所述组学特征数据的权重分布Dt(i),其中,所述组学特征数据为获取的最佳样本量n符合最佳样本量要求的原始组学特征数据;也可为经扩充后补充伪数据集G的组学特征数据。
Figure BDA0003871354490000101
其中,i为样本指标,n为样本个数;
获取各弱分类器的错误率εt;错误率εt表示为:
Figure BDA0003871354490000102
其中,ht为弱分类器;
获取各弱分类器的权重αt,权重αt表示为:
Figure BDA0003871354490000103
进一步的,对权重分布Dt(i)进行更新,获取更新后的权重分布Dt+1(i);权重分布Dt+1(i)表示为:
Figure BDA0003871354490000104
其中,样本集S={(x1,y1),(x2,y2),…,(xi,yi)},为符合最佳样本量n的组合特征数据样本集;xi为样本集S中的第i个样本,yi∈{0,1}表示第n个样本的复发转移标签;yi=0表示第i个样本xi不是复发转移患者,yi=1表示第i个样本xi是复发转移患者
获取每个弱分类器ht的同态积分HmT;同态积分HmT表示为:
Figure BDA0003871354490000111
其中,T为迭代时间的阈值。
进一步的,通过上述方程,拟合获取复发转移分析模型,复发转移分析模型表示为:
Figure BDA0003871354490000112
其中,M是弱分类器的指标,M=1,2,3;H(x)是集成分类器;cm是每个弱分类器ht的权值。
需要说明的是,本发明中优选弱分类器为3个,并分别为LR、Naive-Bayes、SVM分类模型,当然在本发明的其他实施例中,弱分类器还可以设置为其它数量。
进一步的,参阅下表2所示,为本发明复发转移分析模型与LR、Naive-Bayes、SVM分类模型的性能比较表。
表2本发明与LR、Naive-Bayes、SVM分类模型的性能比较
Figure BDA0003871354490000113
图5为本发明复发转移分析模型与LR、Naive-Bayes、SVM分类模型的分类性能图,可见,相较于传统的LR、Naive-Bayes、SVM分类模型,本发明的复发转移分析模型的分类性能明显优于其他三种模型。
进一步的,从图6可以看出,通过构造ROC曲线综合考虑灵敏度和特异性,本发明复发转移分析模型的ROC曲线优于LR、Naive-Bayes和SVM模型。
本发明还提供了一种基于多组学数据的复发转移分析模型建立系统,可用于执行所述基于多组学数据的复发转移分析模型建立方法;所述基于多组学数据的复发转移分析模型建立系统包括:数据采集模块,所述数据采集模块用于获取及存储多组学数据;数据处理模块,所述数据处理模块用于根据所述多组学数据中每组组学数据的数据特征与复发转移标签进行提取,获取组学特征数据;其中,所述复发转移标签用于标注是否复发。
中央处理器,包括主成分分析模块,根据TL=XWL对所述组学特征数据进行降维处理;其中,WL为将包含i个变量的原始组学数据X映射到数据集上包含i个不相关变量的新空间T,仅保留前L个主成分进行降维操作。
所述中央处理器还包括数据增强模块,所述数据增强模块至少用于执行SMOTE算法,对所述组学特征数据进行数据增强,生成伪数据集来扩充所述组学特征数据以达到最佳样本量的要求所述中央处理器用于对所述组学特征数据进行多组学数据进行处理。
所述中央处理器进一步还包括集成数据模块,所述集成数据模块被配置为根据至少三个弱分类器的模型进行复发转移分析模型的建立;所述复发转移分析模型为:
Figure BDA0003871354490000121
其中,H(x)是集成分类器;c0为常数,cm是每个弱分类器的权值;M是弱分类器的指标,M=1,2,3;HmT是每个弱分类器的权重的同态积分
所述中央处理器还用于基于所述多组学数据获取所述组学特征数据,并基于修正后的所述组学特征数据构件复发转移分析模型。
综上所述,本发明的基于多组学数据的复发转移分析模型建立方法利用多组学数据信息,从多层次对复发转移的数据进行分析,使得对复发转移数据的分析更为全面有效,同时,通过对多组学数据进行系统化的组学特征数据的选择和降维处理,有效利用和筛选了不同组学的数据,对进行复发转移分析模型建立的多组学数据进行了质量控制,最终综合多种经典机器学习模型,提高了复发转移分析模型的准确性。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于多组学数据的复发转移分析模型建立方法,其特征在于,包括以下步骤:
S1、对来自不同组学的数据源进行归一化处理、比较分析,建立不同组间数据的关系,获取多组学数据,并对所述多组学数据中的组学特征数据进行提取;
S2、利用主成分分析法对所述组学特征数据进行降维处理;
S3、对降维处理后的所述组学特征数据进行数据增强,使得所述组学特征数据符合样本量要求;
S4、基于符合样本量要求的所述组学特征数据,采用集成学习算法构建复发转移分析模型;所述复发转移分析模型表示为:
Figure FDA0003871354480000011
其中,H(x)是集成分类器;c0为常数,cm是每个弱分类器的权值;M是弱分类器的指标,M=1,2,3;HmT是每个弱分类器的权重的同态积分。
2.根据权利要求1所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,当所述多组学数据为为离散数据时,通过Fisher精确检验法或卡方检验法来确定每组组学数据的数据特征与复发转移标签之间的相关性,对所述组学特征数据进行提取。
3.根据权利要求1所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,当所述多组学数据为为连续数据时,根据复发转移标签将所述多组学数据分为第一数据和第二数据,至少结合T检验法、Mann-Whitney U检验法以及方差分析法的假设检验结果的交集,获取所述组学特征数据。
4.根据权利要求1所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,所述组学特征数据至少包括10组。
5.根据权利要求4所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,所述S2中,所述主成分分析法具体为:
TL=XWL
其中,WL为将包含i个变量的原始组学数据X映射到数据集上包含i个不相关变量的新空间T,仅保留前L个主成分进行降维操作。
6.根据权利要求5所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,所述S3具体为:
S31、样本量的估计,计算每个选定的所述组学特征数据相对应于预设统计显著性的最佳样本量n,对所述组学特征数据进行数据扩充;
S32、对所述组学特征数据扩充后的伪数据集进行评估,通过最大Fisher判别比F1验证生成的所述组学特征数据是否可以用于分类,并评估伪数据集数据增强的质量。
7.根据权利要求6所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,所述S31中,所述最佳样本量n表示为:
Figure FDA0003871354480000021
其中,σ为标准差,μα和μβ是第一类错误率和第二类错误率下μ检验的临界值,Q1和Q2为经过二分类后的群体中各部分的比例,δ为两组数据均值的差值。
8.根据权利要求6所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,所述S31中,当所述最佳样本量n不满足最佳样本量的要求时,使用SMOTE算法对所述组学特征数据进行数据增强,生成伪数据集来扩充所述组学特征数据以达到最佳样本量的要求。
9.根据权利要求1所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,在所述S4中,所述复发转移分析模型为基于逻辑回归(LR)、支持向量机(SVM)和朴素贝叶斯(Naive-Bayes)三种分类方法构建获取。
10.一种基于多组学数据的复发转移分析模型建立系统,可用于执行所述权利要求1~9中任一项所述的基于多组学数据的复发转移分析模型建立方法;其特征在于,所述基于多组学数据的复发转移分析模型建立系统包括:
数据采集模块,所述数据采集模块用于获取及存储多组学数据;
数据处理模块,所述数据处理模块用于根据所述多组学数据中每组组学数据的数据特征与复发转移标签进行提取,获取组学特征数据;其中,所述复发转移标签用于标注是否复发;
中央处理器,包括主成分分析模块,根据TL=XWL对所述组学特征数据进行降维处理;其中,WL为将包含i个变量的原始组学数据X映射到数据集上包含i个不相关变量的新空间T,仅保留前L个主成分进行降维操作;
所述中央处理器还包括数据增强模块,所述数据增强模块至少用于执行SMOTE算法,对所述组学特征数据进行数据增强,生成伪数据集来扩充所述组学特征数据以达到最佳样本量的要求所述中央处理器用于对所述组学特征数据进行多组学数据进行处理;以及
集成数据模块,所述集成数据模块被配置为根据至少三个弱分类器的模型进行复发转移分析模型的建立;所述复发转移分析模型为:
Figure FDA0003871354480000031
其中,H(x)是集成分类器;c0为常数,cm是每个弱分类器的权值;M是弱分类器的指标,M=1,2,3;HmT是每个弱分类器的权重的同态积分。
CN202211198172.5A 2022-09-29 2022-09-29 基于多组学数据的复发转移分析模型建立方法及系统 Active CN115565610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211198172.5A CN115565610B (zh) 2022-09-29 2022-09-29 基于多组学数据的复发转移分析模型建立方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211198172.5A CN115565610B (zh) 2022-09-29 2022-09-29 基于多组学数据的复发转移分析模型建立方法及系统

Publications (2)

Publication Number Publication Date
CN115565610A true CN115565610A (zh) 2023-01-03
CN115565610B CN115565610B (zh) 2024-06-11

Family

ID=84742580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211198172.5A Active CN115565610B (zh) 2022-09-29 2022-09-29 基于多组学数据的复发转移分析模型建立方法及系统

Country Status (1)

Country Link
CN (1) CN115565610B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117457079A (zh) * 2023-11-21 2024-01-26 四川大学 基于简并编码及深度学习的mhc预测模型构建方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790344A (zh) * 2004-12-15 2006-06-21 北京交通大学 一种城市道路交通流数据抽样存储方法与装置
CN104504393A (zh) * 2014-12-04 2015-04-08 西安电子科技大学 基于集成学习的极化sar图像半监督分类方法
CN107548498A (zh) * 2015-01-20 2018-01-05 南托米克斯有限责任公司 用于反应预测高级别膀胱癌中的化疗的系统和方法
CN109948667A (zh) * 2019-03-01 2019-06-28 桂林电子科技大学 用于对头颈部癌症远端转移预测的图像分类方法及装置
CN110807785A (zh) * 2019-11-01 2020-02-18 上海理工大学 一种非小细胞肺癌患者术后复发相关性因素研究方法
CN110916666A (zh) * 2019-12-11 2020-03-27 大连医科大学附属第一医院 一种基于多模态mri图像预测手术切除肝细胞癌复发的影像组学特征处理方法
CN111161882A (zh) * 2019-12-04 2020-05-15 深圳先进技术研究院 一种基于深度神经网络的乳腺癌生存期预测方法
CN112768072A (zh) * 2021-01-12 2021-05-07 哈尔滨医科大学 基于影像组学定性算法构建癌症临床指标评估系统
CN113555112A (zh) * 2021-07-30 2021-10-26 青岛大学附属医院 基于影像组学的肝癌肝外转移预测模型、其构建方法及应用
US20220028550A1 (en) * 2020-07-22 2022-01-27 Iterative Scopes, Inc. Methods for treatment of inflammatory bowel disease
CN114927162A (zh) * 2022-05-19 2022-08-19 大连理工大学 基于超图表征与狄利克雷分布的多组学关联表型预测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790344A (zh) * 2004-12-15 2006-06-21 北京交通大学 一种城市道路交通流数据抽样存储方法与装置
CN104504393A (zh) * 2014-12-04 2015-04-08 西安电子科技大学 基于集成学习的极化sar图像半监督分类方法
CN107548498A (zh) * 2015-01-20 2018-01-05 南托米克斯有限责任公司 用于反应预测高级别膀胱癌中的化疗的系统和方法
CN109948667A (zh) * 2019-03-01 2019-06-28 桂林电子科技大学 用于对头颈部癌症远端转移预测的图像分类方法及装置
CN110807785A (zh) * 2019-11-01 2020-02-18 上海理工大学 一种非小细胞肺癌患者术后复发相关性因素研究方法
CN111161882A (zh) * 2019-12-04 2020-05-15 深圳先进技术研究院 一种基于深度神经网络的乳腺癌生存期预测方法
CN110916666A (zh) * 2019-12-11 2020-03-27 大连医科大学附属第一医院 一种基于多模态mri图像预测手术切除肝细胞癌复发的影像组学特征处理方法
US20220028550A1 (en) * 2020-07-22 2022-01-27 Iterative Scopes, Inc. Methods for treatment of inflammatory bowel disease
CN112768072A (zh) * 2021-01-12 2021-05-07 哈尔滨医科大学 基于影像组学定性算法构建癌症临床指标评估系统
CN113555112A (zh) * 2021-07-30 2021-10-26 青岛大学附属医院 基于影像组学的肝癌肝外转移预测模型、其构建方法及应用
CN114927162A (zh) * 2022-05-19 2022-08-19 大连理工大学 基于超图表征与狄利克雷分布的多组学关联表型预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SURAN LIU ET AL: "Developing an Embedding, Koopman and Autoencoder Technologies-Based Multi-Omics Time Series Predictive Model (EKATP) for Systems Biology research", 《ORIGINAL RESEARCH》, vol. 12, 26 October 2021 (2021-10-26), pages 1 - 13 *
VIDHI MALIK ET AL: "Multi-omics Integration based Predictive Model for Survival Prediction of Lung Adenocarcinaoma", 《2019 GRACE HOPPER CELEBRATION INDIA》, 20 April 2020 (2020-04-20), pages 1 - 5 *
杨晨雨 等: "基于多组学数据的肿瘤药物敏感性预测", 《生物工程学报》, vol. 38, no. 6, 25 June 2022 (2022-06-25), pages 2201 - 2212 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117457079A (zh) * 2023-11-21 2024-01-26 四川大学 基于简并编码及深度学习的mhc预测模型构建方法及系统

Also Published As

Publication number Publication date
CN115565610B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
Larranaga et al. Machine learning in bioinformatics
US20190316209A1 (en) Multi-Assay Prediction Model for Cancer Detection
US11482305B2 (en) Artificial intelligence analysis of RNA transcriptome for drug discovery
Mandal et al. An improved minimum redundancy maximum relevance approach for feature selection in gene expression data
Jacobs et al. A Bayesian approach to model selection in hierarchical mixtures-of-experts architectures
Abdulla et al. G-Forest: An ensemble method for cost-sensitive feature selection in gene expression microarrays
Latkowski et al. Computerized system for recognition of autism on the basis of gene expression microarray data
CN113555062B (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
Shukla Identification of cancerous gene groups from microarray data by employing adaptive genetic and support vector machine technique
Geeitha et al. Incorporating EBO-HSIC with SVM for gene selection associated with cervical cancer classification
CN115565610B (zh) 基于多组学数据的复发转移分析模型建立方法及系统
CN117591953A (zh) 基于多组学数据的癌症分类方法、系统及电子设备
CN117423391A (zh) 一种基因调控网络数据库的建立方法、系统及设备
Wong et al. A probabilistic mechanism based on clustering analysis and distance measure for subset gene selection
US20230326542A1 (en) Genomic sequence dataset generation
Syafiandini et al. Multimodal deep boltzmann machines for feature selection on gene expression data
CN114334168A (zh) 结合协同学习策略的粒子群混合优化的特征选择算法
Zhou et al. A two-stage hidden Markov Model design for biomarker detection, with application to microbiome research
Moghimi et al. Two new methods for DNA splice site prediction based on neuro-fuzzy network and clustering
Czajkowski Relative relations in biomedical data classification
US20220301713A1 (en) Systems and methods for disease and trait prediction through genomic analysis
Wassan et al. A new phylogeny-driven random forest-based classification approach for functional metagenomics
Lengerich Sample-Specific Models for Precision Medicine
Azuaje et al. Non-linear mapping for exploratory data analysis in functional genomics
Hequet Biologically-informed interpretable deep learning techniques for BMI prediction and gene interaction detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant