CN116680594A

CN116680594A - 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法

Info

Publication number: CN116680594A
Application number: CN202310496632.0A
Authority: CN
Inventors: 赵龙; 刘娇; 司呈坤
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-09-01

Abstract

本发明涉及一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，属于生物医学技术领域。包括：数据预处理；基于权重定义的特征相关性筛选特征子集；将筛选出的特征子集输入进神经网络进行学习分类，得到多组学癌症的最终分类结果。本发明提出了新的基于权重定义的特征相关性，权重包含动态变化特征的更全面的信息，为了评估特征的关联度以及冗余性，提出了新的评估准则。最后将筛选后的特征子集输入具有四层隐藏层的DNN神经网络进行训练预测，最终得到基于甲状腺的多组学数据的预后预测，大大提高了分类精度。

Description

一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法

技术领域

本发明涉及一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，可以提取重要的相关性和冗余信息，在解决高维高噪声方面有了进一步的进展，多组学的引入明显提高了癌症的分类精度，对临床的预测预后起到了关键性作用，通过利用四层DNN神经网络进行训练，最终提高甲状腺癌的多组学分类性能，属于生物医学技术领域。

背景技术

甲状腺癌作为惰性癌症之一，生存率高，可超过95％，但近30年发病率略有波动，近10年死亡率有所下降，生存无明显改善，但大多数甲状腺癌患者需要终生切除甲状腺并服药，临床诊断误诊率较高。因此，设计高效的算法对甲状腺癌的临床及时预测至关重要。近年来，基因组数据技术已成为癌症预测的重要工具，但现有的甲状腺癌分类算法大多基于单一的一组组织学数据。多组学数据可以弥补单组学信息的不完整，更有利于准确分析癌症的发病机制，为甲状腺癌的诊断和预测提供必要的数据支持。因此，利用特征相关性冗余权值的多组学深度特征选择算法降维的同时提高甲状腺癌的预后预测，具有重要意义。

甲状腺数据是常见的癌症，但深度学习领域的研究较少。Mourad等人通过特征提取甲状腺癌患者临床信息提高了分类准确率，具体参见：M.Mourad,S.Moubayed,A.Dezube,Y.Mourad,K.Park,A.Torreblanca-Zanca,J.S.Torrecilla,J.C.Cancilla,and J.Wang,“Machine learning and feature selection applied to seer data to reliablyassess thyroid cancer prognosis,”Scientific reports,vol.10,no.1,p.5176,2020。Raweh等人使用混合特征选择算法改进了包括甲状腺癌在内的多种癌症的预测，具体参见：A.A.Raweh,M.Nassef,and A.Badr,“Ahybridized feature selection and extractionapproach for enhancing cancer prediction based on dna methylation,”IEEEAccess,vol.6,pp.15212-15223,2018。Lang等人改进了使用深度学习进行医学图像分割的甲状腺癌风险预测，具体参见：S.Lang,Y.Xu,L.Li,B.Wang,Y.Yang,Y.Xue,and K.Shi,“Joint detection of tap and cea based on deep learning medical imagesegmentation:risk prediction of thyroid cancer,”Journal of HealthcareEngineering,vol.2021,pp.1-9,2021。

以上研究均采用单组学数据进行分类预测，在分类性能上仍存在不足。

发明内容

针对现有技术的不足，本发明提供了一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，通过整合转录组数据、拷贝数变异数据和DNA甲基化数据，以提高甲状腺癌的预测准确性，利用最大化特征相关性和最小化特征冗余来提高甲状腺癌的分类性能。

术语解释：

1、组学数据：主要包括转录组学、脂类组学、免疫组学、RNA组学、影像组学、超声组学等。

2、多组学数据：指的是两个或两个以上组学数据整合分析。

3、表达数据(Exp)：反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度，这些数据可以用于分析哪些基因的表达发生了改变，基因之间有何相关性，在不同条件下基因的活动是如何受影响的。

4、拷贝数变异(CNV)：是由基因组发生重排而导致的，一般指长度为1kb以上的基因。

5、甲基化数据(DNA Methylation)：是DNA化学修饰的一种形式，能够在不改变DNA序列的前提下，改变遗传表现。

6、数据整合：指的是多种组学数据经过预处理等操作整合成另外一种数据。

本发明主要解决的问题如下：

(1)解决了因数据冗余等问题造成的数据干扰。(2)为解决特征间的关联度，提出了新的基于权重定义的特征相关性，权重包含动态变化特征的更全面的信息。(3)为解决特征的关联度以及冗余性，提出了新的评估准则。(4)为解决多组学数据精度不高的问题，本发明提出了一种于特征相关性及冗余权值的多组学深度特征选择算法，以提高甲状腺癌的分类精度。

本发明采用以下技术方案：

一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，包括：

步骤1：数据预处理；

步骤2：基于权重定义的特征相关性筛选特征子集；

步骤3：将筛选出的特征子集输入进神经网络进行学习分类，得到多组学癌症的最终分类结果。

优选的，步骤1中，表达数据通过R语言利用差异分析中调整后的adjPvaule<0.5得到重要基因，拷贝数变异数据通过R语言将metadata文件与样本进行匹配，挑选出肿瘤样本与正常样本，然后通过GISTIC2.0平台进行数据分析得到样本与基因数据，甲基化数据通过利用R包中的limma分析差异表达基因和差异甲基化CpG位点，通过fdrFilter和logFCfiiler筛选差异甲基化基因，完成数据的预处理。

优选的，步骤2中，定义特征相关冗余权重FRRW，使用特征相关冗余权重来区分具有相似特征的特征子集，如公式(1)所示：

其中I(f_k,f_i；C)表示由候选特征子集、最佳特征子集以及类的联合互信息，也代表综合考虑所选子集动态变化时的相关性和交互作用，p(f_i|C)表示在类别C中第i个最佳特征所发生的概率，p(f_k|C)表示在类别C中第k个候选特征所发生的概率，p(f_i，f_k,C)表示第k个候选特征与第i个最佳特征以及类别C所发生的概率；

H(f_k)表示候选子集的信息熵，该数据的获得方式如下：其中p(f_k)表示候选特征子集在第k个候选特征在当前子集中的所发生的概率；

H(f_i)表示最佳特征子集的信息熵，该数据的获得方式如下：其中p(f_i)表示第i个最佳特征在当前子集中所发生的概率；

H(f_k,f_i)表示候选特征子集与最佳特征子集的联合熵，该数据的获得通过该公式获取其中p(f_k,,f_i)表示第k个候选特征与第i个最佳特征在当前特征子集中所发生的概率；

I(f_i；f_k|C)代表当确定最佳特征子集时，从类别中获得的候选特征子集信息是条件互信息，该数据的获得通过该公式获取：

定义特征相关性FR，特征相关性用于衡量两个被评估特征之间的相关性，如式(2)所示：

FR＝FRRW(f_k,f_i)*I(f_k；C|f_i) (2)

其中，I(f_k；C|f_i)表示当确定候选特征子集时，从最佳特征子集中获得的类信息是条件互信息，或者表示特征的冗余度，其中，p(f_k,C,f_i)表示第k个候选特征与类别C以及第i个最佳特征所发生的概率；p(f_k|f_i)表示在第i个特征中第k个最佳特征所发生的的概率；p(C|f_i)表示在第i个特征中类别C中所发生的的概率；

定义特征评价标准：

I(f_k；f_i)表示由最佳特征子集与候选特征子集所构成的互信息，该数据通过该公式获得：其中S表示选择出的最佳特征子集，F＝{f₁,f₂,f₃……f_n}表示候选特征子集，C表示类；

首先计算所有的候选特征子集与类别的互信息，然后筛选出特征f_i中值最大的特征，并将其并入到S中，此时F表示去除掉该特征的候选特征子集，根据需要设置所选特征的数目K，利用循环计算出剩余候选特征子集F中每次循环中公式(3)中J(f_k)值最大的特征，并将其并入到S中，直到循环结束。

优选的，步骤3中，神经网络采用DNN，DNN包括输入层、四层隐藏层和输出层，将筛选后的特征子集输入到DNN中，通过多次迭代提高甲状腺癌的多组学的分类精度。其中，X＝(X₁,X₂,X₃…,X_n)^T代表多组学中甲状腺癌的特征子集矩阵，z代表样本标签，正常样本设z＝0，癌症样本设z＝1；W代表神经网络中的特征权重，σ(·)代表该神经网络的激活函数，作为激活函数在隐藏层中使用，g(·)代表分类函数，将输出值转换成概率预测。

优选的，步骤3中，使用Adam作为优化器，使用交叉熵损失计算各层的训练误差：

其中，n代表特征数目，代表p_i的拟合值，y_i代表特征i的真实样本标签，/>代表预测的概率值，表示真实样本标签与预测概率之间的差值；最后在输出层使用Sigmoid函数作为分类器，最终输出甲状腺癌的分类预测精度。

本发明构造了一个特征相关及冗余权重共同提取重要的相关和冗余信息，提出了新的基于权重定义的特征相关性，权重包含动态变化特征的更全面的信息，最后针对特征评估提出了新的准则。将该发明应用于甲状腺癌的多组学数据中，通过神经网络分类得到三种组学以及多组学的精度。

本发明未详尽之处，均可采用现有技术。

本发明的有益效果为：

本发明的利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，提出了新的基于权重定义的特征相关性，权重包含动态变化特征的更全面的信息，为了评估特征的关联度以及冗余性，提出了新的评估准则。最后将筛选后的特征子集输入具有四层隐藏层的DNN神经网络进行训练预测，最终得到基于甲状腺的多组学数据的预后预测，大大提高了分类精度。

附图说明

图1为本发明的利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法流程图；

图2为本发明单组学与多组学数据的对比结果；

图3为本发明与现存算法的对比结果；

图4为本发明与其他深度特征选择算法的对比结果。

具体实施方式：

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述，但不仅限于此，本发明未详尽说明的，均按本领域常规技术。

实施例1

一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，如图1，主要分为数据、方法以及性能评估。其中数据包括：转录组学数据、拷贝数变异以及DNA甲基化数据，方法包括：

步骤1：数据预处理；

步骤2：基于权重定义的特征相关性筛选特征子集；

实施例2

一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，如实施例1所述，所不同的是，步骤1中，预处理的过程为：

表达数据通过R语言利用差异分析中调整后的adjPvaule<0.5得到重要基因，拷贝数变异数据通过R语言将metadata文件与样本进行匹配，挑选出肿瘤样本与正常样本，然后通过GISTIC2.0平台进行数据分析得到样本与基因数据，甲基化数据通过利用R包中的limma分析差异表达基因和差异甲基化CpG位点，通过fdrFilter和logFCfiiler筛选差异甲基化基因，完成数据的预处理。

方法采用该发明提出的基于特征相关性及冗余权值的多组学深度特征选择算法工作方法，性能评估主要采用Accuracy、Precision、Recall、F-measure。

实施例3

一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，如实施例1所述，所不同的是，步骤2中，在本发明中，基于特征相关性及冗余权值属于特征选择部分。提出了新的基于权重定义的特征相关性，权重包含动态变化特征的更全面的信息。为了评估特征的关联度以及冗余性，提出了新的评估准则。

定义特征相关冗余权重FRRW，使用特征相关冗余权重来区分具有相似特征的特征子集，如公式(1)所示：

FR＝FRRW(f_k,f_i)*I(f_k；C|f_i) (2)

定义特征评价标准：

实施例4

一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，如实施例1所述，所不同的是，步骤3中，神经网络采用DNN，DNN包括输入层、四层隐藏层和输出层，将筛选后的特征子集输入到DNN中，通过多次迭代提高甲状腺癌的多组学的分类精度。其中，X＝(X₁,X₂,X₃…,X_n)^T代表多组学中甲状腺癌的特征子集矩阵，z代表样本标签，正常样本设z＝0，癌症样本设z＝1；W代表神经网络中的特征权重，σ(·)代表该神经网络的激活函数，作为激活函数在隐藏层中使用，g(·)代表分类函数，将输出值转换成概率预测。

本实施例中，针对DNN使用的四层神经网络，其详细信息如表1所示。

表1：神经网络参数信息表

针对DNN使用了四层神经网络，其隐藏层神经元的个数依据特征数目的不同变化。本发明进行大量试验证明训练60次时已经达到很好效果。最后设置每次batch-size(批处理大小)为15个特征。

图2为本发明单组学与多组学数据的对比结果，其中，横坐标代表特征数目，纵坐标代表保留不同特征数目时对应的准确率。Exp、Cnv、DNA methylation分别代表基因表达数据、拷贝数变异数据、DNA甲基化数据。RWDFS代表以上三种组学数据整合的多组学数据，该多组学在保留不同特征数目时对应的准确率。

图3为本发明与现存算法的对比结果；其中，CWJR代表条件权重联合相关性算法，DCSF代表所选特征随类别的动态变化算法，MRI代表最大化独立分类信息的特征选择算法，mRMR代表最小冗余最大相关性准则算法，RWDFS代表本实施例的算法。

图4为本发明与其他深度特征选择算法的对比结果，其中forgeNet代表图深度神经网络算法，RDFS代表胃癌分类算法，fDNN代表特征提取算法，RWDFS代表本实施例的算法。从图3、图4可以看出，本实施例的算法Accuracy(准确性)最高。

以上所述是本发明的选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，其特征在于，包括：

步骤1：数据预处理；

步骤2：基于权重定义的特征相关性筛选特征子集；

2.根据权利要求1所述的利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，其特征在于，步骤1中，表达数据通过R语言利用差异分析中调整后的adjPvaule<0.5得到重要基因，拷贝数变异数据通过R语言将metadata文件与样本进行匹配，挑选出肿瘤样本与正常样本，然后通过GISTIC2.0平台进行数据分析得到样本与基因数据，甲基化数据通过利用R包中的limma分析差异表达基因和差异甲基化CpG位点，通过fdrFilter和logFCfiiler筛选差异甲基化基因，完成数据的预处理。

3.根据权利要求2所述的利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，其特征在于，步骤2中，定义特征相关冗余权重FRRW，使用特征相关冗余权重来区分具有相似特征的特征子集，如公式(1)所示：

H(fk,f_i)表示候选特征子集与最佳特征子集的联合熵，该数据的获得通过该公式获取其中p(f_k,,f_i)表示第k个候选特征与第i个最佳特征在当前特征子集中所发生的概率；

FR＝FRRW(f_k,f_i)*I(f_k；C|f_i) (2)

定义特征评价标准：

4.根据权利要求3所述的利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，其特征在于，步骤3中，神经网络采用DNN，DNN包括输入层、四层隐藏层和输出层，X＝(X_1,X₂,X₃…,X_n)^T代表多组学中甲状腺癌的特征子集矩阵，z代表样本标签，正常样本设z＝0，癌症样本设z＝1；W代表神经网络中的特征权重，σ(·)代表该神经网络的激活函数，作为激活函数在隐藏层中使用，g(·)代表分类函数，将输出值转换成概率预测。

5.根据权利要求4所述的利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法，其特征在于，步骤3中，使用Adam作为优化器，使用交叉熵损失计算各层的训练误差：