CN116680594A - 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 - Google Patents
一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 Download PDFInfo
- Publication number
- CN116680594A CN116680594A CN202310496632.0A CN202310496632A CN116680594A CN 116680594 A CN116680594 A CN 116680594A CN 202310496632 A CN202310496632 A CN 202310496632A CN 116680594 A CN116680594 A CN 116680594A
- Authority
- CN
- China
- Prior art keywords
- feature
- representing
- data
- subset
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000024770 Thyroid neoplasm Diseases 0.000 title claims abstract description 40
- 201000002510 thyroid cancer Diseases 0.000 title claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000000126 substance Substances 0.000 title claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 6
- 108090000623 proteins and genes Proteins 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 230000011987 methylation Effects 0.000 claims description 10
- 238000007069 methylation reaction Methods 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 9
- 201000011510 cancer Diseases 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 108091029430 CpG site Proteins 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000004393 prognosis Methods 0.000 abstract description 6
- 230000008859 change Effects 0.000 abstract description 4
- 210000001685 thyroid gland Anatomy 0.000 abstract description 4
- 230000007067 DNA methylation Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000007385 chemical modification Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- XTWQOSYEUVHDIT-CQRHUGCQSA-M sodium 3alpha,7alpha-dihydroxy-5beta-cholane-24-sulfonate Chemical compound [Na+].C([C@H]1C[C@H]2O)[C@H](O)CC[C@]1(C)[C@@H]1[C@@H]2[C@@H]2CC[C@H]([C@@H](CCCS([O-])(=O)=O)C)[C@@]2(C)CC1 XTWQOSYEUVHDIT-CQRHUGCQSA-M 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,属于生物医学技术领域。包括:数据预处理;基于权重定义的特征相关性筛选特征子集;将筛选出的特征子集输入进神经网络进行学习分类,得到多组学癌症的最终分类结果。本发明提出了新的基于权重定义的特征相关性,权重包含动态变化特征的更全面的信息,为了评估特征的关联度以及冗余性,提出了新的评估准则。最后将筛选后的特征子集输入具有四层隐藏层的DNN神经网络进行训练预测,最终得到基于甲状腺的多组学数据的预后预测,大大提高了分类精度。
Description
技术领域
本发明涉及一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,可以提取重要的相关性和冗余信息,在解决高维高噪声方面有了进一步的进展,多组学的引入明显提高了癌症的分类精度,对临床的预测预后起到了关键性作用,通过利用四层DNN神经网络进行训练,最终提高甲状腺癌的多组学分类性能,属于生物医学技术领域。
背景技术
甲状腺癌作为惰性癌症之一,生存率高,可超过95%,但近30年发病率略有波动,近10年死亡率有所下降,生存无明显改善,但大多数甲状腺癌患者需要终生切除甲状腺并服药,临床诊断误诊率较高。因此,设计高效的算法对甲状腺癌的临床及时预测至关重要。近年来,基因组数据技术已成为癌症预测的重要工具,但现有的甲状腺癌分类算法大多基于单一的一组组织学数据。多组学数据可以弥补单组学信息的不完整,更有利于准确分析癌症的发病机制,为甲状腺癌的诊断和预测提供必要的数据支持。因此,利用特征相关性冗余权值的多组学深度特征选择算法降维的同时提高甲状腺癌的预后预测,具有重要意义。
甲状腺数据是常见的癌症,但深度学习领域的研究较少。Mourad等人通过特征提取甲状腺癌患者临床信息提高了分类准确率,具体参见:M.Mourad,S.Moubayed,A.Dezube,Y.Mourad,K.Park,A.Torreblanca-Zanca,J.S.Torrecilla,J.C.Cancilla,and J.Wang,“Machine learning and feature selection applied to seer data to reliablyassess thyroid cancer prognosis,”Scientific reports,vol.10,no.1,p.5176,2020。Raweh等人使用混合特征选择算法改进了包括甲状腺癌在内的多种癌症的预测,具体参见:A.A.Raweh,M.Nassef,and A.Badr,“Ahybridized feature selection and extractionapproach for enhancing cancer prediction based on dna methylation,”IEEEAccess,vol.6,pp.15212-15223,2018。Lang等人改进了使用深度学习进行医学图像分割的甲状腺癌风险预测,具体参见:S.Lang,Y.Xu,L.Li,B.Wang,Y.Yang,Y.Xue,and K.Shi,“Joint detection of tap and cea based on deep learning medical imagesegmentation:risk prediction of thyroid cancer,”Journal of HealthcareEngineering,vol.2021,pp.1-9,2021。
以上研究均采用单组学数据进行分类预测,在分类性能上仍存在不足。
发明内容
针对现有技术的不足,本发明提供了一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,通过整合转录组数据、拷贝数变异数据和DNA甲基化数据,以提高甲状腺癌的预测准确性,利用最大化特征相关性和最小化特征冗余来提高甲状腺癌的分类性能。
术语解释:
1、组学数据:主要包括转录组学、脂类组学、免疫组学、RNA组学、影像组学、超声组学等。
2、多组学数据:指的是两个或两个以上组学数据整合分析。
3、表达数据(Exp):反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度,这些数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基因的活动是如何受影响的。
4、拷贝数变异(CNV):是由基因组发生重排而导致的,一般指长度为1kb以上的基因。
5、甲基化数据(DNA Methylation):是DNA化学修饰的一种形式,能够在不改变DNA序列的前提下,改变遗传表现。
6、数据整合:指的是多种组学数据经过预处理等操作整合成另外一种数据。
本发明主要解决的问题如下:
(1)解决了因数据冗余等问题造成的数据干扰。(2)为解决特征间的关联度,提出了新的基于权重定义的特征相关性,权重包含动态变化特征的更全面的信息。(3)为解决特征的关联度以及冗余性,提出了新的评估准则。(4)为解决多组学数据精度不高的问题,本发明提出了一种于特征相关性及冗余权值的多组学深度特征选择算法,以提高甲状腺癌的分类精度。
本发明采用以下技术方案:
一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,包括:
步骤1:数据预处理;
步骤2:基于权重定义的特征相关性筛选特征子集;
步骤3:将筛选出的特征子集输入进神经网络进行学习分类,得到多组学癌症的最终分类结果。
优选的,步骤1中,表达数据通过R语言利用差异分析中调整后的adjPvaule<0.5得到重要基因,拷贝数变异数据通过R语言将metadata文件与样本进行匹配,挑选出肿瘤样本与正常样本,然后通过GISTIC2.0平台进行数据分析得到样本与基因数据,甲基化数据通过利用R包中的limma分析差异表达基因和差异甲基化CpG位点,通过fdrFilter和logFCfiiler筛选差异甲基化基因,完成数据的预处理。
优选的,步骤2中,定义特征相关冗余权重FRRW,使用特征相关冗余权重来区分具有相似特征的特征子集,如公式(1)所示:
其中I(fk,fi;C)表示由候选特征子集、最佳特征子集以及类的联合互信息,也代表综合考虑所选子集动态变化时的相关性和交互作用,p(fi|C)表示在类别C中第i个最佳特征所发生的概率,p(fk|C)表示在类别C中第k个候选特征所发生的概率,p(fi,fk,C)表示第k个候选特征与第i个最佳特征以及类别C所发生的概率;
H(fk)表示候选子集的信息熵,该数据的获得方式如下:其中p(fk)表示候选特征子集在第k个候选特征在当前子集中的所发生的概率;
H(fi)表示最佳特征子集的信息熵,该数据的获得方式如下:其中p(fi)表示第i个最佳特征在当前子集中所发生的概率;
H(fk,fi)表示候选特征子集与最佳特征子集的联合熵,该数据的获得通过该公式获取其中p(fk,,fi)表示第k个候选特征与第i个最佳特征在当前特征子集中所发生的概率;
I(fi;fk|C)代表当确定最佳特征子集时,从类别中获得的候选特征子集信息是条件互信息,该数据的获得通过该公式获取:
定义特征相关性FR,特征相关性用于衡量两个被评估特征之间的相关性,如式(2)所示:
FR=FRRW(fk,fi)*I(fk;C|fi) (2)
其中,I(fk;C|fi)表示当确定候选特征子集时,从最佳特征子集中获得的类信息是条件互信息,或者表示特征的冗余度,其中,p(fk,C,fi)表示第k个候选特征与类别C以及第i个最佳特征所发生的概率;p(fk|fi)表示在第i个特征中第k个最佳特征所发生的的概率;p(C|fi)表示在第i个特征中类别C中所发生的的概率;
定义特征评价标准:
I(fk;fi)表示由最佳特征子集与候选特征子集所构成的互信息,该数据通过该公式获得:其中S表示选择出的最佳特征子集,F={f1,f2,f3……fn}表示候选特征子集,C表示类;
首先计算所有的候选特征子集与类别的互信息,然后筛选出特征fi中值最大的特征,并将其并入到S中,此时F表示去除掉该特征的候选特征子集,根据需要设置所选特征的数目K,利用循环计算出剩余候选特征子集F中每次循环中公式(3)中J(fk)值最大的特征,并将其并入到S中,直到循环结束。
优选的,步骤3中,神经网络采用DNN,DNN包括输入层、四层隐藏层和输出层,将筛选后的特征子集输入到DNN中,通过多次迭代提高甲状腺癌的多组学的分类精度。其中,X=(X1,X2,X3…,Xn)T代表多组学中甲状腺癌的特征子集矩阵,z代表样本标签,正常样本设z=0,癌症样本设z=1;W代表神经网络中的特征权重,σ(·)代表该神经网络的激活函数,作为激活函数在隐藏层中使用,g(·)代表分类函数,将输出值转换成概率预测。
优选的,步骤3中,使用Adam作为优化器,使用交叉熵损失计算各层的训练误差:
其中,n代表特征数目,代表pi的拟合值,yi代表特征i的真实样本标签,/>代表预测的概率值,表示真实样本标签与预测概率之间的差值;最后在输出层使用Sigmoid函数作为分类器,最终输出甲状腺癌的分类预测精度。
本发明构造了一个特征相关及冗余权重共同提取重要的相关和冗余信息,提出了新的基于权重定义的特征相关性,权重包含动态变化特征的更全面的信息,最后针对特征评估提出了新的准则。将该发明应用于甲状腺癌的多组学数据中,通过神经网络分类得到三种组学以及多组学的精度。
本发明未详尽之处,均可采用现有技术。
本发明的有益效果为:
本发明的利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,提出了新的基于权重定义的特征相关性,权重包含动态变化特征的更全面的信息,为了评估特征的关联度以及冗余性,提出了新的评估准则。最后将筛选后的特征子集输入具有四层隐藏层的DNN神经网络进行训练预测,最终得到基于甲状腺的多组学数据的预后预测,大大提高了分类精度。
附图说明
图1为本发明的利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法流程图;
图2为本发明单组学与多组学数据的对比结果;
图3为本发明与现存算法的对比结果;
图4为本发明与其他深度特征选择算法的对比结果。
具体实施方式:
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,但不仅限于此,本发明未详尽说明的,均按本领域常规技术。
实施例1
一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,如图1,主要分为数据、方法以及性能评估。其中数据包括:转录组学数据、拷贝数变异以及DNA甲基化数据,方法包括:
步骤1:数据预处理;
步骤2:基于权重定义的特征相关性筛选特征子集;
步骤3:将筛选出的特征子集输入进神经网络进行学习分类,得到多组学癌症的最终分类结果。
实施例2
一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,如实施例1所述,所不同的是,步骤1中,预处理的过程为:
表达数据通过R语言利用差异分析中调整后的adjPvaule<0.5得到重要基因,拷贝数变异数据通过R语言将metadata文件与样本进行匹配,挑选出肿瘤样本与正常样本,然后通过GISTIC2.0平台进行数据分析得到样本与基因数据,甲基化数据通过利用R包中的limma分析差异表达基因和差异甲基化CpG位点,通过fdrFilter和logFCfiiler筛选差异甲基化基因,完成数据的预处理。
方法采用该发明提出的基于特征相关性及冗余权值的多组学深度特征选择算法工作方法,性能评估主要采用Accuracy、Precision、Recall、F-measure。
实施例3
一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,如实施例1所述,所不同的是,步骤2中,在本发明中,基于特征相关性及冗余权值属于特征选择部分。提出了新的基于权重定义的特征相关性,权重包含动态变化特征的更全面的信息。为了评估特征的关联度以及冗余性,提出了新的评估准则。
定义特征相关冗余权重FRRW,使用特征相关冗余权重来区分具有相似特征的特征子集,如公式(1)所示:
其中I(fk,fi;C)表示由候选特征子集、最佳特征子集以及类的联合互信息,也代表综合考虑所选子集动态变化时的相关性和交互作用,p(fi|C)表示在类别C中第i个最佳特征所发生的概率,p(fk|C)表示在类别C中第k个候选特征所发生的概率,p(fi,fk,C)表示第k个候选特征与第i个最佳特征以及类别C所发生的概率;
H(fk)表示候选子集的信息熵,该数据的获得方式如下:其中p(fk)表示候选特征子集在第k个候选特征在当前子集中的所发生的概率;
H(fi)表示最佳特征子集的信息熵,该数据的获得方式如下:其中p(fi)表示第i个最佳特征在当前子集中所发生的概率;
H(fk,fi)表示候选特征子集与最佳特征子集的联合熵,该数据的获得通过该公式获取其中p(fk,,fi)表示第k个候选特征与第i个最佳特征在当前特征子集中所发生的概率;
I(fi;fk|C)代表当确定最佳特征子集时,从类别中获得的候选特征子集信息是条件互信息,该数据的获得通过该公式获取:
定义特征相关性FR,特征相关性用于衡量两个被评估特征之间的相关性,如式(2)所示:
FR=FRRW(fk,fi)*I(fk;C|fi) (2)
其中,I(fk;C|fi)表示当确定候选特征子集时,从最佳特征子集中获得的类信息是条件互信息,或者表示特征的冗余度,其中,p(fk,C,fi)表示第k个候选特征与类别C以及第i个最佳特征所发生的概率;p(fk|fi)表示在第i个特征中第k个最佳特征所发生的的概率;p(C|fi)表示在第i个特征中类别C中所发生的的概率;
定义特征评价标准:
I(fk;fi)表示由最佳特征子集与候选特征子集所构成的互信息,该数据通过该公式获得:其中S表示选择出的最佳特征子集,F={f1,f2,f3……fn}表示候选特征子集,C表示类;
首先计算所有的候选特征子集与类别的互信息,然后筛选出特征fi中值最大的特征,并将其并入到S中,此时F表示去除掉该特征的候选特征子集,根据需要设置所选特征的数目K,利用循环计算出剩余候选特征子集F中每次循环中公式(3)中J(fk)值最大的特征,并将其并入到S中,直到循环结束。
实施例4
一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,如实施例1所述,所不同的是,步骤3中,神经网络采用DNN,DNN包括输入层、四层隐藏层和输出层,将筛选后的特征子集输入到DNN中,通过多次迭代提高甲状腺癌的多组学的分类精度。其中,X=(X1,X2,X3…,Xn)T代表多组学中甲状腺癌的特征子集矩阵,z代表样本标签,正常样本设z=0,癌症样本设z=1;W代表神经网络中的特征权重,σ(·)代表该神经网络的激活函数,作为激活函数在隐藏层中使用,g(·)代表分类函数,将输出值转换成概率预测。
本实施例中,针对DNN使用的四层神经网络,其详细信息如表1所示。
表1:神经网络参数信息表
针对DNN使用了四层神经网络,其隐藏层神经元的个数依据特征数目的不同变化。本发明进行大量试验证明训练60次时已经达到很好效果。最后设置每次batch-size(批处理大小)为15个特征。
优选的,步骤3中,使用Adam作为优化器,使用交叉熵损失计算各层的训练误差:
其中,n代表特征数目,代表pi的拟合值,yi代表特征i的真实样本标签,/>代表预测的概率值,表示真实样本标签与预测概率之间的差值;最后在输出层使用Sigmoid函数作为分类器,最终输出甲状腺癌的分类预测精度。
图2为本发明单组学与多组学数据的对比结果,其中,横坐标代表特征数目,纵坐标代表保留不同特征数目时对应的准确率。Exp、Cnv、DNA methylation分别代表基因表达数据、拷贝数变异数据、DNA甲基化数据。RWDFS代表以上三种组学数据整合的多组学数据,该多组学在保留不同特征数目时对应的准确率。
图3为本发明与现存算法的对比结果;其中,CWJR代表条件权重联合相关性算法,DCSF代表所选特征随类别的动态变化算法,MRI代表最大化独立分类信息的特征选择算法,mRMR代表最小冗余最大相关性准则算法,RWDFS代表本实施例的算法。
图4为本发明与其他深度特征选择算法的对比结果,其中forgeNet代表图深度神经网络算法,RDFS代表胃癌分类算法,fDNN代表特征提取算法,RWDFS代表本实施例的算法。从图3、图4可以看出,本实施例的算法Accuracy(准确性)最高。
以上所述是本发明的选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,其特征在于,包括:
步骤1:数据预处理;
步骤2:基于权重定义的特征相关性筛选特征子集;
步骤3:将筛选出的特征子集输入进神经网络进行学习分类,得到多组学癌症的最终分类结果。
2.根据权利要求1所述的利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,其特征在于,步骤1中,表达数据通过R语言利用差异分析中调整后的adjPvaule<0.5得到重要基因,拷贝数变异数据通过R语言将metadata文件与样本进行匹配,挑选出肿瘤样本与正常样本,然后通过GISTIC2.0平台进行数据分析得到样本与基因数据,甲基化数据通过利用R包中的limma分析差异表达基因和差异甲基化CpG位点,通过fdrFilter和logFCfiiler筛选差异甲基化基因,完成数据的预处理。
3.根据权利要求2所述的利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,其特征在于,步骤2中,定义特征相关冗余权重FRRW,使用特征相关冗余权重来区分具有相似特征的特征子集,如公式(1)所示:
其中I(fk,fi;C)表示由候选特征子集、最佳特征子集以及类的联合互信息,也代表综合考虑所选子集动态变化时的相关性和交互作用,p(fi|C)表示在类别C中第i个最佳特征所发生的概率,p(fk|C)表示在类别C中第k个候选特征所发生的概率,p(fi,fk,C)表示第k个候选特征与第i个最佳特征以及类别C所发生的概率;
H(fk)表示候选子集的信息熵,该数据的获得方式如下:其中p(fk)表示候选特征子集在第k个候选特征在当前子集中的所发生的概率;
H(fi)表示最佳特征子集的信息熵,该数据的获得方式如下:其中p(fi)表示第i个最佳特征在当前子集中所发生的概率;
H(fk,fi)表示候选特征子集与最佳特征子集的联合熵,该数据的获得通过该公式获取其中p(fk,,fi)表示第k个候选特征与第i个最佳特征在当前特征子集中所发生的概率;
I(fi;fk|C)代表当确定最佳特征子集时,从类别中获得的候选特征子集信息是条件互信息,该数据的获得通过该公式获取:
定义特征相关性FR,特征相关性用于衡量两个被评估特征之间的相关性,如式(2)所示:
FR=FRRW(fk,fi)*I(fk;C|fi) (2)
其中,I(fk;C|fi)表示当确定候选特征子集时,从最佳特征子集中获得的类信息是条件互信息,或者表示特征的冗余度,其中,p(fk,C,fi)表示第k个候选特征与类别C以及第i个最佳特征所发生的概率;p(fk|fi)表示在第i个特征中第k个最佳特征所发生的的概率;p(C|fi)表示在第i个特征中类别C中所发生的的概率;
定义特征评价标准:
I(fk;fi)表示由最佳特征子集与候选特征子集所构成的互信息,该数据通过该公式获得:其中S表示选择出的最佳特征子集,F={f1,f2,f3……fn}表示候选特征子集,C表示类;
首先计算所有的候选特征子集与类别的互信息,然后筛选出特征fi中值最大的特征,并将其并入到S中,此时F表示去除掉该特征的候选特征子集,根据需要设置所选特征的数目K,利用循环计算出剩余候选特征子集F中每次循环中公式(3)中J(fk)值最大的特征,并将其并入到S中,直到循环结束。
4.根据权利要求3所述的利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,其特征在于,步骤3中,神经网络采用DNN,DNN包括输入层、四层隐藏层和输出层,X=(X1,X2,X3…,Xn)T代表多组学中甲状腺癌的特征子集矩阵,z代表样本标签,正常样本设z=0,癌症样本设z=1;W代表神经网络中的特征权重,σ(·)代表该神经网络的激活函数,作为激活函数在隐藏层中使用,g(·)代表分类函数,将输出值转换成概率预测。
5.根据权利要求4所述的利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法,其特征在于,步骤3中,使用Adam作为优化器,使用交叉熵损失计算各层的训练误差:
其中,n代表特征数目,代表pi的拟合值,yi代表特征i的真实样本标签,/>代表预测的概率值,表示真实样本标签与预测概率之间的差值;最后在输出层使用Sigmoid函数作为分类器,最终输出甲状腺癌的分类预测精度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310496632.0A CN116680594A (zh) | 2023-05-05 | 2023-05-05 | 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310496632.0A CN116680594A (zh) | 2023-05-05 | 2023-05-05 | 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116680594A true CN116680594A (zh) | 2023-09-01 |
Family
ID=87779910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310496632.0A Pending CN116680594A (zh) | 2023-05-05 | 2023-05-05 | 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116680594A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117133466A (zh) * | 2023-10-26 | 2023-11-28 | 中日友好医院(中日友好临床医学研究所) | 基于转录组学和影像组学的生存预测方法及装置 |
CN117133466B (zh) * | 2023-10-26 | 2024-05-24 | 中日友好医院(中日友好临床医学研究所) | 基于转录组学和影像组学的生存预测方法及装置 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050144147A1 (en) * | 2003-12-26 | 2005-06-30 | Lee Shih-Jong J. | Feature regulation for hierarchical decision learning |
KR101752255B1 (ko) * | 2016-01-14 | 2017-06-30 | 중앙대학교 산학협력단 | 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치 |
CN107255785A (zh) * | 2017-04-28 | 2017-10-17 | 南京邮电大学 | 基于改进mRMR的模拟电路故障诊断方法 |
US20190361919A1 (en) * | 2018-05-23 | 2019-11-28 | Tata Consultancy Services Limited | Method and system for joint selection of a feature subset-classifier pair for a classification task |
CN111161882A (zh) * | 2019-12-04 | 2020-05-15 | 深圳先进技术研究院 | 一种基于深度神经网络的乳腺癌生存期预测方法 |
CN111709460A (zh) * | 2020-05-27 | 2020-09-25 | 西安理工大学 | 基于相关系数的互信息特征选择方法 |
US20210033282A1 (en) * | 2019-05-14 | 2021-02-04 | Beijing University Of Technology | Method for detecting a dioxin emission concentration of a municipal solid waste incineration process based on multi-level feature selection |
CN112926640A (zh) * | 2021-02-22 | 2021-06-08 | 齐鲁工业大学 | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 |
CN112966703A (zh) * | 2020-10-10 | 2021-06-15 | 天津大学 | 采用冗余性动态权重的特征选择方法 |
CN113241122A (zh) * | 2021-06-11 | 2021-08-10 | 长春工业大学 | 自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法 |
CN113362888A (zh) * | 2021-06-02 | 2021-09-07 | 齐鲁工业大学 | 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 |
CN113707293A (zh) * | 2021-07-30 | 2021-11-26 | 电子科技大学 | 一种基于特征选择的中医主症选择方法 |
WO2022022683A1 (zh) * | 2020-07-31 | 2022-02-03 | 中兴通讯股份有限公司 | 特征选择方法及装置、网络设备和计算机可读存储介质 |
CN114139634A (zh) * | 2021-12-03 | 2022-03-04 | 吉林大学 | 一种基于成对标签权重的多标签特征选择方法 |
CN114566223A (zh) * | 2022-03-01 | 2022-05-31 | 青岛农业大学 | 一种基因表达量特征选择方法 |
CN116052885A (zh) * | 2023-02-07 | 2023-05-02 | 齐鲁工业大学(山东省科学院) | 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质 |
-
2023
- 2023-05-05 CN CN202310496632.0A patent/CN116680594A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050144147A1 (en) * | 2003-12-26 | 2005-06-30 | Lee Shih-Jong J. | Feature regulation for hierarchical decision learning |
KR101752255B1 (ko) * | 2016-01-14 | 2017-06-30 | 중앙대학교 산학협력단 | 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치 |
CN107255785A (zh) * | 2017-04-28 | 2017-10-17 | 南京邮电大学 | 基于改进mRMR的模拟电路故障诊断方法 |
US20190361919A1 (en) * | 2018-05-23 | 2019-11-28 | Tata Consultancy Services Limited | Method and system for joint selection of a feature subset-classifier pair for a classification task |
US20210033282A1 (en) * | 2019-05-14 | 2021-02-04 | Beijing University Of Technology | Method for detecting a dioxin emission concentration of a municipal solid waste incineration process based on multi-level feature selection |
CN111161882A (zh) * | 2019-12-04 | 2020-05-15 | 深圳先进技术研究院 | 一种基于深度神经网络的乳腺癌生存期预测方法 |
CN111709460A (zh) * | 2020-05-27 | 2020-09-25 | 西安理工大学 | 基于相关系数的互信息特征选择方法 |
WO2022022683A1 (zh) * | 2020-07-31 | 2022-02-03 | 中兴通讯股份有限公司 | 特征选择方法及装置、网络设备和计算机可读存储介质 |
CN112966703A (zh) * | 2020-10-10 | 2021-06-15 | 天津大学 | 采用冗余性动态权重的特征选择方法 |
CN112926640A (zh) * | 2021-02-22 | 2021-06-08 | 齐鲁工业大学 | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 |
CN113362888A (zh) * | 2021-06-02 | 2021-09-07 | 齐鲁工业大学 | 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 |
CN113241122A (zh) * | 2021-06-11 | 2021-08-10 | 长春工业大学 | 自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法 |
CN113707293A (zh) * | 2021-07-30 | 2021-11-26 | 电子科技大学 | 一种基于特征选择的中医主症选择方法 |
CN114139634A (zh) * | 2021-12-03 | 2022-03-04 | 吉林大学 | 一种基于成对标签权重的多标签特征选择方法 |
CN114566223A (zh) * | 2022-03-01 | 2022-05-31 | 青岛农业大学 | 一种基因表达量特征选择方法 |
CN116052885A (zh) * | 2023-02-07 | 2023-05-02 | 齐鲁工业大学(山东省科学院) | 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质 |
Non-Patent Citations (5)
Title |
---|
LA THE VINH ET AL.: "An Improved Maximum Relevance and Minimum Redundancy Feature Selection Algorithm Based on Normalized Mutual Information", 2010 10TH IEEE/IPSJ INTERNATIONAL SYMPOSIUM ON APPLICATIONS AND THE INTERNET, 7 October 2010 (2010-10-07) * |
QU, K., XU, J., HAN, Z. ET AL.: "Maximum relevance minimum redundancy-based feature selection using rough mutual information in adaptive neighborhood rough sets", APPLIED INTELLIGENCE, 11 January 2023 (2023-01-11) * |
周传华;李鸣;吴幸运;: "最大相关与独立分类信息最大化特征选择算法", 计算机技术与发展, no. 08, 10 August 2020 (2020-08-10) * |
李扬;顾雪平;: "基于改进最大相关最小冗余判据的暂态稳定评估特征选择", 中国电机工程学报, no. 34, 5 December 2013 (2013-12-05) * |
郭凯文;潘宏亮;侯阿临;: "基于特征选择和聚类的分类算法", 吉林大学学报(理学版), no. 02, 26 March 2018 (2018-03-26) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117133466A (zh) * | 2023-10-26 | 2023-11-28 | 中日友好医院(中日友好临床医学研究所) | 基于转录组学和影像组学的生存预测方法及装置 |
CN117133466B (zh) * | 2023-10-26 | 2024-05-24 | 中日友好医院(中日友好临床医学研究所) | 基于转录组学和影像组学的生存预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Piatetsky-Shapiro et al. | Microarray data mining: facing the challenges | |
Bonilla-Huerta et al. | Hybrid framework using multiple-filters and an embedded approach for an efficient selection and classification of microarray data | |
EP1498825A1 (en) | Apparatus and method for analyzing data | |
US8572018B2 (en) | Method, system and software arrangement for reconstructing formal descriptive models of processes from functional/modal data using suitable ontology | |
CN108335756B (zh) | 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
CN112926640B (zh) | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 | |
Simon | Analysis of DNA microarray expression data | |
Zolfaghari et al. | Cancer prognosis and diagnosis methods based on ensemble learning | |
CN115274136A (zh) | 整合多组学与必需基因的肿瘤细胞系药物响应预测方法 | |
CN109801681B (zh) | 一种基于改进的模糊聚类算法的snp选择方法 | |
CN108320797B (zh) | 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
Huerta et al. | Fuzzy logic for elimination of redundant information of microarray data | |
Lin et al. | Cluster analysis of genome-wide expression data for feature extraction | |
CN110942808A (zh) | 一种基于基因大数据的预后预测方法及预测系统 | |
CN116680594A (zh) | 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
Chandrakar et al. | Design of a novel ensemble model of classification technique for gene-expression data of lung cancer with modified genetic algorithm | |
JP2004030093A (ja) | 遺伝子発現データ解析方法 | |
Muhammad et al. | Gvdeepnet: Unsupervised deep learning techniques for effective genetic variant classification | |
CN111755074A (zh) | 一种酿酒酵母菌中dna复制起点的预测方法 | |
Bhonde et al. | Predictive modelling for molecular cancer profile classification using hybrid learning techniques | |
Sinha et al. | A study of feature selection and extraction algorithms for cancer subtype prediction | |
Joshi et al. | Classification and prediction of disease classes using gene microarray data | |
Mohammadi-Jenghara et al. | Extraction of Co-Behaving Genes by Similarity Ensembles | |
CN117992913A (zh) | 一种基于双峰注意力融合网络的多模态数据分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |