CN115565610A - 基于多组学数据的复发转移分析模型建立方法及系统 - Google Patents
基于多组学数据的复发转移分析模型建立方法及系统 Download PDFInfo
- Publication number
- CN115565610A CN115565610A CN202211198172.5A CN202211198172A CN115565610A CN 115565610 A CN115565610 A CN 115565610A CN 202211198172 A CN202211198172 A CN 202211198172A CN 115565610 A CN115565610 A CN 115565610A
- Authority
- CN
- China
- Prior art keywords
- data
- omics
- analysis model
- recurrence
- omic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 63
- 238000012546 transfer Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000000126 substance Substances 0.000 claims abstract description 33
- 206010027476 Metastases Diseases 0.000 claims description 31
- 230000009401 metastasis Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 22
- 238000007477 logistic regression Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000012706 support-vector machine Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012847 principal component analysis method Methods 0.000 claims description 7
- 238000000585 Mann–Whitney U test Methods 0.000 claims description 4
- 238000000546 chi-square test Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 4
- 238000000729 Fisher's exact test Methods 0.000 claims description 3
- 238000010835 comparative analysis Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 6
- 238000010276 construction Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 238000010998 test method Methods 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 238000000540 analysis of variance Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001394 metastastic effect Effects 0.000 description 2
- 206010061289 metastatic neoplasm Diseases 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于多组学数据的复发转移分析模型建立方法及系统。本发明的基于多组学数据的复发转移分析模型建立方法利用多组学数据信息,从多层次对复发转移的数据进行分析,使得对复发转移数据的分析更为全面有效,同时,通过对多组学数据进行系统化的组学特征数据的选择和降维处理,有效利用和筛选了不同组学的数据,对进行复发转移分析模型建立的多组学数据进行了质量控制,最终综合多种经典机器学习模型,提高了复发转移分析模型的准确性。
Description
技术领域
本发明涉及一种分析模型建立方法,尤其涉及一种基于多组学数据的复发转移分析模型建立方法及应用基于多组学数据的转移分析模型建立方法的系统。
背景技术
最新研究中指出,利用多组学信息,即蛋白质组学和磷蛋白组学数据,成功且极有效地区分了是否复发转移。但是目前国内外的研究和模型无法有效对多组学数据进行特征筛选,无法有效利用多维度的数据构建综合的数据分析模型和系统。此外,当前的模型构建还存在分析结果准确率不高,模型构建方法较为单一等问题。
具体的,从数据局限性的角度讲,现有预测模型的数据来源较为单一。大部分研究皆采用单一的影像放射学数据、基因数据和临床相关数据作为研究的数据来源。然而由于癌症等其它疾病的成因和发展复杂,如结直肠癌,相较于多组学数据,仅使用单一数据无法全面完整的阐释患者的状态并进行分析。
从特征工程的角度讲,由于现有预测模型的数据来源较为单一,故而缺乏一个针对多组学数据的系统全面的特征选择和降维方法。其临床和基因表达特征选择大多由人工选择或单个统计检验方法完成,例如相关系数检验,卡方检验,T检验或Mann-Whitney U检验等。从而存在特征选择不客观,特征选择方法和结果不相同等等问题。除此之外,利用得到多组学数据的关键特征后,数据可能仍存在特征维数较高的情况,不利于模型构建,故而需要一个系统的针对多组学数据的特征选择和降维方法。
进一步的,从模型构建的角度讲,现有的预测模型建模方法单一。在使用机器学习对术后转移预测进行模型构建时,以往的研究采用了比例风险回归模型(Cox模型),logistics回归,决策树,随机森林等机器学习模型和算法进行分析。这些研究大多只使用了单个模型方法进行构建,没有使用集成学习等方法将各类机器学习的优势进行集成,由于不同模型的表现依赖于数据的选取,这些模型很难迁移或整合多组学数据,并且存在准确率不高的问题。
有鉴于此,确有必要提出一种基于多组学数据的复发转移预测模型和系统,以解决上述问题。
发明内容
本发明的目的在于提供一种基于多组学数据的复发转移分析模型建立方法及系统,本发明的基于多组学数据的复发转移分析模型建立方法利用多组学数据信息,从多层次对复发转移的数据进行分析。
为实现上述发明目的,本发明提供了一种基于多组学数据的复发转移分析模型建立方法,包括以下步骤:
S1、对来自不同组学的数据源进行归一化处理、比较分析,建立不同组间数据的关系,获取多组学数据,并对所述多组学数据中的组学特征数据进行提取;
S2、利用主成分分析法对所述组学特征数据进行降维处理;
S3、对降维处理后的所述组学特征数据进行数据增强,使得所述组学特征数据符合样本量要求;
S4、基于符合样本量要求的所述组学特征数据,采用集成学习算法构建复发转移分析模型;所述复发转移分析模型表示为:
其中,H(x)是集成分类器;c0为常数,cm是每个弱分类器的权值;M是弱分类器的指标,M=1,2,3;HmT是每个弱分类器的权重的同态积分。
作为本发明的进一步改进,当所述多组学数据为为离散数据时,通过Fisher精确检验法或卡方检验法来确定每组组学数据的数据特征与复发转移标签之间的相关性,对所述组学特征数据进行提取。
作为本发明的进一步改进,当所述多组学数据为为连续数据时,根据复发转移标签将所述多组学数据分为第一数据和第二数据,至少结合T检验法、Mann-Whitney U检验法以及方差分析法的假设检验结果的交集,获取所述组学特征数据。
作为本发明的进一步改进,所述组学特征数据至少包括10组。
作为本发明的进一步改进,所述S2中,所述主成分分析法具体为:
TL=XWL;
其中,WL为将包含i个变量的原始组学数据X映射到数据集上包含i个不相关变量的新空间T,仅保留前L个主成分进行降维操作。
作为本发明的进一步改进,所述S3具体为:
S31、样本量的估计,计算每个选定的所述组学特征数据相对应于预设统计显著性的最佳样本量n,对所述组学特征数据进行数据扩充;
S32、对所述组学特征数据扩充后的伪数据集进行评估,通过最大Fisher判别比F1验证生成的所述组学特征数据是否可以用于分类,并评估伪数据集数据增强的质量。
作为本发明的进一步改进,所述S31中,所述最佳样本量n表示为:
其中,σ为标准差,μα和μβ是第一类错误率和第二类错误率下μ检验的临界值,Q1和Q2为经过二分类后的群体中各部分的比例,δ为两组数据均值的差值。
作为本发明的进一步改进,所述S31中,当所述最佳样本量n不满足最佳样本量的要求时,使用SMOTE算法对所述组学特征数据进行数据增强,生成伪数据集来扩充所述组学特征数据以达到最佳样本量的要求。
作为本发明的进一步改进,在所述S4中,所述复发转移分析模型为基于逻辑回归(LR)、支持向量机(SVM)和朴素贝叶斯(Naive-Bayes)三种分类方法构建获取。
为实现上述发明目的,本发明还提供了一种基于多组学数据的复发转移分析模型建立系统,可用于执行前述的基于多组学数据的复发转移分析模型建立方法;所述基于多组学数据的复发转移分析模型建立系统包括:数据采集模块,所述数据采集模块用于获取及存储多组学数据;数据处理模块,所述数据处理模块用于根据所述多组学数据中每组组学数据的数据特征与复发转移标签进行提取,获取组学特征数据;其中,所述复发转移标签用于标注是否复发;中央处理器,包括主成分分析模块,根据TL=XWL对所述组学特征数据进行降维处理;其中,WL为将包含i个变量的原始组学数据X映射到数据集上包含i个不相关变量的新空间T,仅保留前L个主成分进行降维操作;所述中央处理器还包括数据增强模块,所述数据增强模块至少用于执行SMOTE算法,对所述组学特征数据进行数据增强,生成伪数据集来扩充所述组学特征数据以达到最佳样本量的要求所述中央处理器用于对所述组学特征数据进行多组学数据进行处理;以及集成数据模块,所述集成数据模块被配置为根据至少三个弱分类器的模型进行复发转移分析模型的建立;所述复发转移分析模型为:
其中,H(x)是集成分类器;c0为常数,cm是每个弱分类器的权值;M是弱分类器的指标,M=1,2,3;HmT是每个弱分类器的权重的同态积分。
本发明的有益效果是:
本发明的基于多组学数据的复发转移分析模型建立方法利用多组学数据信息,从多层次对复发转移的数据进行分析,使得对复发转移数据的分析更为全面有效,同时,通过对多组学数据进行系统化的组学特征数据的选择和降维处理,有效利用和筛选了不同组学的数据,对进行复发转移分析模型建立的多组学数据进行了质量控制,最终综合多种经典机器学习模型,提高了复发转移分析模型的准确性。
附图说明
图1是本发明基于多组学数据的复发转移分析模型建立方法的流程图;
图2是多组学数据为离散数据时,提取组学特征数据流程图;
图3是多组学数据为连续数据时,提取组学特征数据流程图;
图4是复发转移分析模型的构建流程图;
图5是复发转移分析模型与LR、SVM、NB三种分析模型的分类性能比较图;
图6是复发转移分析模型与LR、SVM、NB三种分析模型的ROC曲线比较图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
另外,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
请参阅图1所示,为本发明提供的一种基于多组学数据的复发转移分析模型建立方法,其特征在于,包括以下步骤:
S1、对来自不同组学的数据源进行归一化处理、比较分析,建立不同组间数据的关系,获取多组学数据,并对所述多组学数据中的组学特征数据进行提取;
S2、利用主成分分析法对所述组学特征数据进行降维处理;
S3、对降维处理后的所述组学特征数据进行数据增强,使得所述组学特征数据符合样本量要求;
S4、基于符合样本量要求的所述组学特征数据构件复发转移分析模型;所述复发转移分析模型表示为:
其中,H(x)是集成分类器;c0为常数,cm是每个弱分类器的权值;M是弱分类器的指标,M=1,2,3;HmT是每个弱分类器的权重ht的同态积分。
以下说明书部分将针对S1~S2进行详细描述。
在S1中,对所述多组学数据中的组学特征数据进行提取为根据所述多组学数据的类型进行提取。请参阅图2所示,当所述多组学数据为离散数据时,通过Fisher精确检验法或卡方检验法来确定每组组学数据中的数据特征与其复发转移标签之间的相关性,对所述组学特征数据进行提取。
具体的,所述Fisher精确检验法具体为:根据所述多组学数据构建列联表(如下表1所示),并根据选取合适的阈值p确定是否选取该数据特征。
表1列联表
其中,第一数据为复发转移标签数据;第二数据为数据特征;a、b、c、d、n均为构建列联表时的统计获取的数据。
进一步的,在本发明的一较佳实施例中,数据特征共包含四类,分别是临床特征、体细胞突变特征、蛋白质组学特征以及磷酸化蛋白质组学特征,当然本发明的其它实施例中数据特征还可为其它特征。
在本方法中,阈值p表示为:
优选的,阈值p为0.05或0.01,当然在本发明的其他实施例中,所述阈值p还可为其它数值。
所述卡方检验法具体为:
其中,n是观察次数,k是不同类别的数量,xi是观察值,pi是第i类出现的概率。
请参阅图3所示,当所述多组学数据为为连续数据时,根据标签将所述多组学数据分为第一数据和第二数据,至少结合T检验法、Mann-Whitney U检验法以及方差分析法的假设检验结果的交集,获取所述组学特征数据。
具体的,T检验法具体为:
Mann-WhitneyU检验法具体为:
其中,n表示第一数据的数量;m表示第二数据的数量;Xi表示第i个第一数据;Yj表示第i个第二数据。
方差分析法(ANOVA)具体为:
SStotal=SStreatment+SSerror
DFtotal=DFtreatment+DFerror
MStreatment=SStreatment/DFtreatment
MSerror=SSerror/DFerror
其中,SS表示平方和,DF表示自由度,MS表示均方;Treatment表示不同组组学数据;Error表示同一组组学数据。
需要说明的是,在本发明中,获取的所述组学特征数据至少包括10组。
所述S2为利用主成分分析法对所述组学特征数据进行降维处理。具体的,S1中获取的组学特征数据为高维的组学特征,所述主成分分析法具体为:
TL=XWL;
其中,WL为将包含i个变量的原始数据X映射到数据集上包含i个不相关变量的新空间T,仅保留前L个主成分进行降维操作。
如此设置,可以将高维的组学特征缩减到新的低维特征上,从而便于所述组学特征数据进一步分析和后续复发转移分析模型的建立。
所述S3具体为:
S31、样本量的估计,计算每个选定的所述组学特征数据相对应于预设统计显著性的最佳样本量n,对所述组学特征数据进行数据扩充;
S32、对所述组学特征数据扩充后的伪数据集进行评估,通过最大Fisher判别比或F1验证生成的所述所述组学特征数据是否可以用于分类,并评估伪数据集数据增强的质量。
具体的,所述S31中,所述最佳样本量n表示为:
其中,σ为标准差,μα和μβ是第一类错误率和第二类错误率下μ检验的临界值,Q1和Q2为经过二分类后的群体中各部分的比例,δ为两组数据均值的差值。
进一步的,所述S31中,当所述最佳样本量n不满足最佳样本量的要求时,使用SMOTE算法对所述组学特征数据进行数据增强,生成伪数据集来扩充所述组学特征数据以达到最佳样本量的要求。
具体的,S31为使用SMOTE算法对所述组学特征数据进行过采样,SMOTE算法具体包括:
定义组学特征数据集T;组学特征数据集T表示为:
T={(x1,y1),(x2,y2),…,(xn,yn)},
其中,xi为样本i对应的所述组学特征数据,yi为样本i对应的复发转移标签;n为样本数量;
进一步的,采用最近邻算法对组学特征数据集T中的每个数据(xi,yi)选择具有相同标签的最近邻居,且所述最近邻居的选择数量为k,且k个最近邻居所构成的最近邻居集为K,最近邻居集K为:
K={(xi1,yi),(xi2,yi),…,(xik,yi)};
在最近邻居集K中随机选取m个邻居,m个邻居构成随机邻居集M,随机邻居集M为:
M={(xi1,yi),(xi2,yi),…,(xim,yi)};
进一步的,根据随机邻居集M中的每个数据(xij,yij)生成新数据:
xnew=xi+rand(0,1)*(xij-xi);
ynew=yi;
根据随机邻居集M中的每个数据(xij,yij)整理获取伪数据集G;伪数据集G表示为:
G={(x1,yi),(x2,yi),…,(xn*m,yi)};
其中,yi为标签。
所述S32具体为对所述组学特征数据扩充后的伪数据集进行评估,通过最大Fisher判别比或F1验证生成的所述所述组学特征数据是否可以用于分类,并评估伪数据集数据增强的质量。
在本发明中,对所述组学特征数据扩充后的伪数据集进行评估为通过最大Fisher判别比F1进行验证,以确保扩充后的伪数据集G中每个数据均足以用于分类,以对扩充的伪数据集数据的质量进行增强。
具体的,F1值表示伪数据集G中伪数据的重叠程度;F1值越大,说明伪数据集G中的重叠程度越低,越适合分类;进一步的,重叠程度值F1为通过每个特征的重叠程度值fi计算获取;
F1=max(fi);
其中,μ1,μ2,σ1和σ2分别是第一数据和第二数据的均值和标准差。
如此,可通过分别计算初始数据集的F1值和伪数据集的F1值对伪数据集G的质量进行评估;且若伪数据集的F1值比初始数据集的F1值大或者相近,则认为构造的伪数据集G质量较好,否则构造的伪数据集G可能影响后续的复发转移分析模型的准确性。
请参阅图4所示,S4为基于符合样本量要求的所述组学特征数据构件复发转移分析模型;在本申请中,所述复发转移分析模型为基于逻辑回归(LR)、支持向量机(SVM)和朴素贝叶斯(Naive-Bayes)三种分类方法构建获取。
具体的,复发转移分析模型的建立主要通过以下方程依次计算获取;首先,获取所述组学特征数据的权重分布Dt(i),其中,所述组学特征数据为获取的最佳样本量n符合最佳样本量要求的原始组学特征数据;也可为经扩充后补充伪数据集G的组学特征数据。
其中,i为样本指标,n为样本个数;
获取各弱分类器的错误率εt;错误率εt表示为:
其中,ht为弱分类器;
获取各弱分类器的权重αt,权重αt表示为:
进一步的,对权重分布Dt(i)进行更新,获取更新后的权重分布Dt+1(i);权重分布Dt+1(i)表示为:
其中,样本集S={(x1,y1),(x2,y2),…,(xi,yi)},为符合最佳样本量n的组合特征数据样本集;xi为样本集S中的第i个样本,yi∈{0,1}表示第n个样本的复发转移标签;yi=0表示第i个样本xi不是复发转移患者,yi=1表示第i个样本xi是复发转移患者
获取每个弱分类器ht的同态积分HmT;同态积分HmT表示为:
其中,T为迭代时间的阈值。
进一步的,通过上述方程,拟合获取复发转移分析模型,复发转移分析模型表示为:
其中,M是弱分类器的指标,M=1,2,3;H(x)是集成分类器;cm是每个弱分类器ht的权值。
需要说明的是,本发明中优选弱分类器为3个,并分别为LR、Naive-Bayes、SVM分类模型,当然在本发明的其他实施例中,弱分类器还可以设置为其它数量。
进一步的,参阅下表2所示,为本发明复发转移分析模型与LR、Naive-Bayes、SVM分类模型的性能比较表。
表2本发明与LR、Naive-Bayes、SVM分类模型的性能比较
图5为本发明复发转移分析模型与LR、Naive-Bayes、SVM分类模型的分类性能图,可见,相较于传统的LR、Naive-Bayes、SVM分类模型,本发明的复发转移分析模型的分类性能明显优于其他三种模型。
进一步的,从图6可以看出,通过构造ROC曲线综合考虑灵敏度和特异性,本发明复发转移分析模型的ROC曲线优于LR、Naive-Bayes和SVM模型。
本发明还提供了一种基于多组学数据的复发转移分析模型建立系统,可用于执行所述基于多组学数据的复发转移分析模型建立方法;所述基于多组学数据的复发转移分析模型建立系统包括:数据采集模块,所述数据采集模块用于获取及存储多组学数据;数据处理模块,所述数据处理模块用于根据所述多组学数据中每组组学数据的数据特征与复发转移标签进行提取,获取组学特征数据;其中,所述复发转移标签用于标注是否复发。
中央处理器,包括主成分分析模块,根据TL=XWL对所述组学特征数据进行降维处理;其中,WL为将包含i个变量的原始组学数据X映射到数据集上包含i个不相关变量的新空间T,仅保留前L个主成分进行降维操作。
所述中央处理器还包括数据增强模块,所述数据增强模块至少用于执行SMOTE算法,对所述组学特征数据进行数据增强,生成伪数据集来扩充所述组学特征数据以达到最佳样本量的要求所述中央处理器用于对所述组学特征数据进行多组学数据进行处理。
所述中央处理器进一步还包括集成数据模块,所述集成数据模块被配置为根据至少三个弱分类器的模型进行复发转移分析模型的建立;所述复发转移分析模型为:
其中,H(x)是集成分类器;c0为常数,cm是每个弱分类器的权值;M是弱分类器的指标,M=1,2,3;HmT是每个弱分类器的权重的同态积分
所述中央处理器还用于基于所述多组学数据获取所述组学特征数据,并基于修正后的所述组学特征数据构件复发转移分析模型。
综上所述,本发明的基于多组学数据的复发转移分析模型建立方法利用多组学数据信息,从多层次对复发转移的数据进行分析,使得对复发转移数据的分析更为全面有效,同时,通过对多组学数据进行系统化的组学特征数据的选择和降维处理,有效利用和筛选了不同组学的数据,对进行复发转移分析模型建立的多组学数据进行了质量控制,最终综合多种经典机器学习模型,提高了复发转移分析模型的准确性。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于多组学数据的复发转移分析模型建立方法,其特征在于,包括以下步骤:
S1、对来自不同组学的数据源进行归一化处理、比较分析,建立不同组间数据的关系,获取多组学数据,并对所述多组学数据中的组学特征数据进行提取;
S2、利用主成分分析法对所述组学特征数据进行降维处理;
S3、对降维处理后的所述组学特征数据进行数据增强,使得所述组学特征数据符合样本量要求;
S4、基于符合样本量要求的所述组学特征数据,采用集成学习算法构建复发转移分析模型;所述复发转移分析模型表示为:
其中,H(x)是集成分类器;c0为常数,cm是每个弱分类器的权值;M是弱分类器的指标,M=1,2,3;HmT是每个弱分类器的权重的同态积分。
2.根据权利要求1所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,当所述多组学数据为为离散数据时,通过Fisher精确检验法或卡方检验法来确定每组组学数据的数据特征与复发转移标签之间的相关性,对所述组学特征数据进行提取。
3.根据权利要求1所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,当所述多组学数据为为连续数据时,根据复发转移标签将所述多组学数据分为第一数据和第二数据,至少结合T检验法、Mann-Whitney U检验法以及方差分析法的假设检验结果的交集,获取所述组学特征数据。
4.根据权利要求1所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,所述组学特征数据至少包括10组。
5.根据权利要求4所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,所述S2中,所述主成分分析法具体为:
TL=XWL;
其中,WL为将包含i个变量的原始组学数据X映射到数据集上包含i个不相关变量的新空间T,仅保留前L个主成分进行降维操作。
6.根据权利要求5所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,所述S3具体为:
S31、样本量的估计,计算每个选定的所述组学特征数据相对应于预设统计显著性的最佳样本量n,对所述组学特征数据进行数据扩充;
S32、对所述组学特征数据扩充后的伪数据集进行评估,通过最大Fisher判别比F1验证生成的所述组学特征数据是否可以用于分类,并评估伪数据集数据增强的质量。
8.根据权利要求6所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,所述S31中,当所述最佳样本量n不满足最佳样本量的要求时,使用SMOTE算法对所述组学特征数据进行数据增强,生成伪数据集来扩充所述组学特征数据以达到最佳样本量的要求。
9.根据权利要求1所述的基于多组学数据的复发转移分析模型建立方法,其特征在于,在所述S4中,所述复发转移分析模型为基于逻辑回归(LR)、支持向量机(SVM)和朴素贝叶斯(Naive-Bayes)三种分类方法构建获取。
10.一种基于多组学数据的复发转移分析模型建立系统,可用于执行所述权利要求1~9中任一项所述的基于多组学数据的复发转移分析模型建立方法;其特征在于,所述基于多组学数据的复发转移分析模型建立系统包括:
数据采集模块,所述数据采集模块用于获取及存储多组学数据;
数据处理模块,所述数据处理模块用于根据所述多组学数据中每组组学数据的数据特征与复发转移标签进行提取,获取组学特征数据;其中,所述复发转移标签用于标注是否复发;
中央处理器,包括主成分分析模块,根据TL=XWL对所述组学特征数据进行降维处理;其中,WL为将包含i个变量的原始组学数据X映射到数据集上包含i个不相关变量的新空间T,仅保留前L个主成分进行降维操作;
所述中央处理器还包括数据增强模块,所述数据增强模块至少用于执行SMOTE算法,对所述组学特征数据进行数据增强,生成伪数据集来扩充所述组学特征数据以达到最佳样本量的要求所述中央处理器用于对所述组学特征数据进行多组学数据进行处理;以及
集成数据模块,所述集成数据模块被配置为根据至少三个弱分类器的模型进行复发转移分析模型的建立;所述复发转移分析模型为:
其中,H(x)是集成分类器;c0为常数,cm是每个弱分类器的权值;M是弱分类器的指标,M=1,2,3;HmT是每个弱分类器的权重的同态积分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211198172.5A CN115565610B (zh) | 2022-09-29 | 2022-09-29 | 基于多组学数据的复发转移分析模型建立方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211198172.5A CN115565610B (zh) | 2022-09-29 | 2022-09-29 | 基于多组学数据的复发转移分析模型建立方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115565610A true CN115565610A (zh) | 2023-01-03 |
CN115565610B CN115565610B (zh) | 2024-06-11 |
Family
ID=84742580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211198172.5A Active CN115565610B (zh) | 2022-09-29 | 2022-09-29 | 基于多组学数据的复发转移分析模型建立方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565610B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117457079A (zh) * | 2023-11-21 | 2024-01-26 | 四川大学 | 基于简并编码及深度学习的mhc预测模型构建方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1790344A (zh) * | 2004-12-15 | 2006-06-21 | 北京交通大学 | 一种城市道路交通流数据抽样存储方法与装置 |
CN104504393A (zh) * | 2014-12-04 | 2015-04-08 | 西安电子科技大学 | 基于集成学习的极化sar图像半监督分类方法 |
CN107548498A (zh) * | 2015-01-20 | 2018-01-05 | 南托米克斯有限责任公司 | 用于反应预测高级别膀胱癌中的化疗的系统和方法 |
CN109948667A (zh) * | 2019-03-01 | 2019-06-28 | 桂林电子科技大学 | 用于对头颈部癌症远端转移预测的图像分类方法及装置 |
CN110807785A (zh) * | 2019-11-01 | 2020-02-18 | 上海理工大学 | 一种非小细胞肺癌患者术后复发相关性因素研究方法 |
CN110916666A (zh) * | 2019-12-11 | 2020-03-27 | 大连医科大学附属第一医院 | 一种基于多模态mri图像预测手术切除肝细胞癌复发的影像组学特征处理方法 |
CN111161882A (zh) * | 2019-12-04 | 2020-05-15 | 深圳先进技术研究院 | 一种基于深度神经网络的乳腺癌生存期预测方法 |
CN112768072A (zh) * | 2021-01-12 | 2021-05-07 | 哈尔滨医科大学 | 基于影像组学定性算法构建癌症临床指标评估系统 |
CN113555112A (zh) * | 2021-07-30 | 2021-10-26 | 青岛大学附属医院 | 基于影像组学的肝癌肝外转移预测模型、其构建方法及应用 |
US20220028550A1 (en) * | 2020-07-22 | 2022-01-27 | Iterative Scopes, Inc. | Methods for treatment of inflammatory bowel disease |
CN114927162A (zh) * | 2022-05-19 | 2022-08-19 | 大连理工大学 | 基于超图表征与狄利克雷分布的多组学关联表型预测方法 |
-
2022
- 2022-09-29 CN CN202211198172.5A patent/CN115565610B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1790344A (zh) * | 2004-12-15 | 2006-06-21 | 北京交通大学 | 一种城市道路交通流数据抽样存储方法与装置 |
CN104504393A (zh) * | 2014-12-04 | 2015-04-08 | 西安电子科技大学 | 基于集成学习的极化sar图像半监督分类方法 |
CN107548498A (zh) * | 2015-01-20 | 2018-01-05 | 南托米克斯有限责任公司 | 用于反应预测高级别膀胱癌中的化疗的系统和方法 |
CN109948667A (zh) * | 2019-03-01 | 2019-06-28 | 桂林电子科技大学 | 用于对头颈部癌症远端转移预测的图像分类方法及装置 |
CN110807785A (zh) * | 2019-11-01 | 2020-02-18 | 上海理工大学 | 一种非小细胞肺癌患者术后复发相关性因素研究方法 |
CN111161882A (zh) * | 2019-12-04 | 2020-05-15 | 深圳先进技术研究院 | 一种基于深度神经网络的乳腺癌生存期预测方法 |
CN110916666A (zh) * | 2019-12-11 | 2020-03-27 | 大连医科大学附属第一医院 | 一种基于多模态mri图像预测手术切除肝细胞癌复发的影像组学特征处理方法 |
US20220028550A1 (en) * | 2020-07-22 | 2022-01-27 | Iterative Scopes, Inc. | Methods for treatment of inflammatory bowel disease |
CN112768072A (zh) * | 2021-01-12 | 2021-05-07 | 哈尔滨医科大学 | 基于影像组学定性算法构建癌症临床指标评估系统 |
CN113555112A (zh) * | 2021-07-30 | 2021-10-26 | 青岛大学附属医院 | 基于影像组学的肝癌肝外转移预测模型、其构建方法及应用 |
CN114927162A (zh) * | 2022-05-19 | 2022-08-19 | 大连理工大学 | 基于超图表征与狄利克雷分布的多组学关联表型预测方法 |
Non-Patent Citations (3)
Title |
---|
SURAN LIU ET AL: "Developing an Embedding, Koopman and Autoencoder Technologies-Based Multi-Omics Time Series Predictive Model (EKATP) for Systems Biology research", 《ORIGINAL RESEARCH》, vol. 12, 26 October 2021 (2021-10-26), pages 1 - 13 * |
VIDHI MALIK ET AL: "Multi-omics Integration based Predictive Model for Survival Prediction of Lung Adenocarcinaoma", 《2019 GRACE HOPPER CELEBRATION INDIA》, 20 April 2020 (2020-04-20), pages 1 - 5 * |
杨晨雨 等: "基于多组学数据的肿瘤药物敏感性预测", 《生物工程学报》, vol. 38, no. 6, 25 June 2022 (2022-06-25), pages 2201 - 2212 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117457079A (zh) * | 2023-11-21 | 2024-01-26 | 四川大学 | 基于简并编码及深度学习的mhc预测模型构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115565610B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Larranaga et al. | Machine learning in bioinformatics | |
US20190316209A1 (en) | Multi-Assay Prediction Model for Cancer Detection | |
US11482305B2 (en) | Artificial intelligence analysis of RNA transcriptome for drug discovery | |
Mandal et al. | An improved minimum redundancy maximum relevance approach for feature selection in gene expression data | |
Jacobs et al. | A Bayesian approach to model selection in hierarchical mixtures-of-experts architectures | |
Abdulla et al. | G-Forest: An ensemble method for cost-sensitive feature selection in gene expression microarrays | |
Latkowski et al. | Computerized system for recognition of autism on the basis of gene expression microarray data | |
CN113555062B (zh) | 一种用于基因组碱基变异检测的数据分析系统及分析方法 | |
Shukla | Identification of cancerous gene groups from microarray data by employing adaptive genetic and support vector machine technique | |
Geeitha et al. | Incorporating EBO-HSIC with SVM for gene selection associated with cervical cancer classification | |
CN115565610B (zh) | 基于多组学数据的复发转移分析模型建立方法及系统 | |
CN117591953A (zh) | 基于多组学数据的癌症分类方法、系统及电子设备 | |
CN117423391A (zh) | 一种基因调控网络数据库的建立方法、系统及设备 | |
Wong et al. | A probabilistic mechanism based on clustering analysis and distance measure for subset gene selection | |
US20230326542A1 (en) | Genomic sequence dataset generation | |
Syafiandini et al. | Multimodal deep boltzmann machines for feature selection on gene expression data | |
CN114334168A (zh) | 结合协同学习策略的粒子群混合优化的特征选择算法 | |
Zhou et al. | A two-stage hidden Markov Model design for biomarker detection, with application to microbiome research | |
Moghimi et al. | Two new methods for DNA splice site prediction based on neuro-fuzzy network and clustering | |
Czajkowski | Relative relations in biomedical data classification | |
US20220301713A1 (en) | Systems and methods for disease and trait prediction through genomic analysis | |
Wassan et al. | A new phylogeny-driven random forest-based classification approach for functional metagenomics | |
Lengerich | Sample-Specific Models for Precision Medicine | |
Azuaje et al. | Non-linear mapping for exploratory data analysis in functional genomics | |
Hequet | Biologically-informed interpretable deep learning techniques for BMI prediction and gene interaction detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |