CN116052885A

CN116052885A - 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质

Info

Publication number: CN116052885A
Application number: CN202310069802.7A
Authority: CN
Inventors: 赵龙; 刘娇; 司呈坤
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-05-02
Anticipated expiration: 2043-02-07
Also published as: CN116052885B

Abstract

本发明涉及一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质，属于生物医学技术领域。本发明基于改进ReliefF的癌症组学特征选择算法提高三种癌症的预后预测精度，在特征选择部分，提出了引入差异系数，在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性，提出使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新，保留最具关键性的特征子集，实现最佳特征子集的筛选。在神经网络的训练部分，将筛选后冗余度低且信息全面的三种癌症特征子集传入神经网络进行训练预测，最终得到三种不同癌症的预后预测精度。

Description

基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质

技术领域

本发明涉及一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质，通过将深度学习与神经网络相结合的方式提高癌症组学的分类效果，属于生物医学技术领域。

背景技术

在全球癌症统计中，癌症致死率在近几年呈上升趋势，位居排行首列中的胃癌、乳腺癌以及甲状腺癌也成为高死亡率的癌症之一。乳腺癌虽作为女性最常被检测出的癌症，但死亡率却仍居高不下。胃癌和甲状腺作为人群中普遍发生的疾病，但治愈率却不见提升，及时准确的诊断是治疗该类疾病的重要环节。因此，设计行之有效地方法提高三种癌症的预测准确度是极其重要的。目前，由于组学数据高维低样本的特点，单一数据集会因样本不平衡等多种因素影响预测效果，导致分类效果不佳。多组组学数据可有效规避因信息不全、数据不平衡等问题，可有效改善实验效果。因此，利用深度特征选择降维的同时提高组学数据分类效果对于预后预测极为重要。

近年来，虽然乳腺癌、胃癌和甲状腺癌逐渐成为全球患病最频繁的癌症，但在深度学习领域的研究较少。Mourad等人通过特征选择对甲状腺癌数据集进行预后的评估，具体参见：Mourad,M.,Moubayed,S.P.,Dezube,A.R.,Mourad,Y.,Park,K.,Torreblanca-Zanca,A.,Torrecilla,J.S.,Cancilla,J.C.,&Wang,J.(2020).Machine Learning and FeatureSelection Applied to SEER Data to Reliably Assess Thyroid CancerPrognosis.Scientific Reports,10.Solanki等人采用特征选择等方法对乳腺癌进行预后，具体参见：Solanki,Y.S.,Chakrabarti,P.,Jasinski,M.F.,Leonowicz,Z.,Bolshev,V.,Vinogradov,A.,Jasińska,E.,Goňo,R.,&Nami,M.(2021).A Hybrid SupervisedMachine Learning Classifier System for Breast Cancer Prognosis Using FeatureSelection and Data Imbalance Handling Approaches.Electronics.Kim等人结合机器学习对胃癌进行预测，具体参见：Kim,Y.,Lee,S.,Kim,D.,Chae,J.,Ham,H.,Cho,H.C.,&Cho,H.(2020).Machine Learning based Gastric Cancer Computer-aided DiagnosisSystem using Feature Selection.The Transactions of the Korean Institute ofElectrical Engineers,69,170-176。

以上研究虽然已经取得了一定的成果，但是分类精度方面还存在不足，这也证明在癌症研究领域还存在很大的提升空间。着机器学习的出现，越来越多的研究者开始使用机器学习的方法对癌症数据进行研究。Thara等人利用机器学习对胃癌进行预测，具体参见：Thara,L.,&Gunasundari,R.(2018).Swarm Intelligence Based Feature SelectionAlgorithms and Classifiers for Gastric Cancer Prediction.InternationalConference on Intelligent Data Communication Technologies and Internet ofThings(ICICI)2018.Sarkar等人使用机器学习方法预测乳腺癌亚型标志物，具体参见：]Sarkar,J.P.,Saha,I.,Sarkar,A.,&Maulik,U.(2021).Machine learning integratedensemble of feature selection methods followed by survival analysis forpredicting breast cancer subtype specific miRNA biomarkers.Computers inbiology and medicine,131,104244.Wu等人结合机器学习预测甲状腺的转移，具体参见：Wu,Y.,Rao,K.V.,Liu,J.,Han,C.,Gong,L.,Chong,Y.,Liu,Z.,&Xu,X.(2020).MachineLearning Algorithms for the Prediction of Central Lymph Node Metastasis inPatients With Papillary Thyroid Cancer.Frontiers in Endocrinology,11。

以上研究表明，机器学习的加入可以明显提高分类效果，但由于基因数据的高维高噪比的特性导致分类精度低。因此，本发明提出了一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度的系统及方法，将该方法应用于三种不同癌症数据集，以提高预后预测的精度。

发明内容

在现阶段中，特征选择算法在组学应用中得到广泛推崇，但是很少考虑使用深度特征选择算法提高癌症的预后预测精度。针对此问题，本发明提供了一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质。

术语解释：

1、组学数据：主要包括转录组学、脂类组学、免疫组学、RNA组学、影像组学、超声组学等。

2、基因表达数据(Exp)：反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度，这些数据可以用于分析哪些基因的表达发生了改变，基因之间有何相关性，在不同条件下基因的活动是如何受影响的。基因表达数据属于组学数据中的一种。

3、胃癌：发生于胃黏膜上皮的恶性肿瘤。

4、乳腺癌：乳腺上皮细胞在多种致癌因子的作用下，发生增殖失控的现象。

5、甲状腺癌：起源于甲状腺滤泡上皮细胞的恶性肿瘤。

本发明的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度的系统及方法主要解决的问题如下：(1)传统的机器学习算法在处理组学数据过程中存在数据冗余、数据高维等问题，均对癌症预后预测造成干扰。(2)为了解决组学数据中出现的高维高噪声的问题，提出了引入差异系数，在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性，提出使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新，保留最具关键性的特征子集，实现最佳特征子集的筛选。(3)针对组学数据分类精度不高的问题，提出了改进的Relief特征选择算法与神经网络相结合的方法，提高三种不同癌症的分类精度。

本发明采用以下技术方案：

一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统，包括特征选择模块和预后预测模块；

所述特征选择模块，用于在ReliefF算法的基础上，引入了差异系数，在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性，使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新，保留最具关键性的特征子集，实现最佳特征子集的筛选；

所述预后预测模块，用于将筛选出的三种癌症特征子集输入进神经网络进行学习分类，得到三种癌症最终的分类结果。

一种上述基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法，包括如下步骤：

(1)特征选择模块使用改进后的ReliefF算法，根据特征与样本之间的相关性赋予特征相应的权值，引入差异系数，在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性，使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新，保留最具关键性的特征子集，最终通过权重降序原则，筛选出最佳特征子集；

(2)预后预测模块将步骤(1)筛选出的最佳特征子集输入进神经网络进行学习分类，得到三种癌症最终的分类结果。

优选的，步骤(1)的具体实现过程为：

假设在癌症组学数据集中有x个样本，f为特征集，其中f＝{f₁,f₂,f₃…f_i…f_p}，一个样本x由p维向量(x₁,x₂,x₃,…x_i…x_p)构成，进行t次迭代，随机选取一个训练样本x_i，然后选取该样本的k个近邻同类样本和k个异类样本(本发明属于二分类，从训练集中随机选择一个样本x_i，然后从与x_i同类的样本中寻找k个最近邻样本，与x_i不同类的样本中选取k个异类样本)，代入特征权值更新；

两个不同样本x_i与x_j在特征f_i上的差异系数如公式I所示：

式中，x_i(f_i)是样本x_i在特征f_i的取值，x_j(f_i)是样本x_j在特征f_i的取值，max(f_i)和min(f_i)分别表示特征f_i在样本中的最大值和最小值；

特征权重更新公式如II所示：

式中：其中d_same为k个近邻同类样本的差异系数，d_diff为k个异类样本的差异系数，t代表该算法的迭代次数，l表示类别，l_xi表示样本x_i在类别中的所属标记，p(l)表示标记l的概率，p(l_xi)表示样本x_i所属标记的概率，w_fi表示f_i的权重，link_ij表示Jaccard相似系数，

表示样本x_i与k个近邻同类样本在f_i上的权重贡献，

表示样本x_i与k个异类样本在f_i上的权重贡献；

将候选特征子集通过权重降序原则得到特征子集，将得到的特征子集进行特征提取筛选出包含信息丰富且冗余度低的候选特征子集，最终实现最佳特征子集的筛选。

优选的，所述神经网络中设置有四层隐藏层、一层输入层和一层输出层，其隐藏层的节点数分别为16、32、32、2，迭代次数优选设置为50，虽然迭代次数增多可能会提高实验效果，但具体情况还需要具体分析，本发明进行了大量试验证明训练50次时效果较好。最后设置每次batch-size为16个特征。

优选的，隐藏层的标准架构如式(III)所示：

P(y|X,θ)＝G(L_outW_out+b_out)，

……，

L_out＝σ(L₁W₁+b₁),

……，

L_k+1＝σ(L_kW_k+b_k),

……，

L₁＝σ(XW_in+b_in)(III)

其中，P(y|X,θ)表示预测结果即分类结果，X＝(X₁,X₂,X₃,...,.X_n)^T是三种癌症的转录组学的特征子集矩阵，y代表样本标签，如设置y＝0表示正常样本，y＝1表示甲状腺肿瘤样本，θ代表神经网络的所有参数；G(·)表示分类函数，σ(·)表示隐含层的激活函数；L_out表示输出层，W_out表示神经网络中输出层中的特征矩阵权重值，b_out表示输出层误差值，b₁、b_k表示隐藏层的误差值，b_in表示输入层误差值，L₁表示第一层隐藏层，W₁表示第一层隐藏层的特征矩阵权重值，L_k+1表示第k+1层隐藏层，L_k表示第k层隐藏层，W_k表示第k层隐藏层的特征矩阵权重值，W_in表示输入层的特征矩阵权重值。

优选的，分类函数为softmax分类函数，隐含层的激活函数为Relu函数。

本发明提出的REDFS算法(指改进的ReliefF)，采用了四层隐藏层，对特征子集进行提取，使用Adam优化器，Relu函数作为隐含层的激活函数，使用softmax函数将最后神经元的输出结果映射到(0,1)之间得到癌症的分类精度。

优选的，在步骤(1)之前还包括获取数据，所述数据来源于TCGA数据库，采用胃癌、乳腺癌以及甲状腺癌的基因表达数据作为数据集；

通过R语言分别将三种基因表达数据处理成计算机可识别的微阵列数据；利用R语言中的差异分析进行差异分析，通过pvalue>0.5和log2Foldchange>1筛选出符合包含信息多且冗余度低的候选特征子集。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行计算机程序时实现上述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。

本发明未详尽之处，均可采用现有技术。

本发明的有益效果为：

本发明基于改进ReliefF的癌症组学特征选择算法提高三种癌症的预后预测精度，在特征选择部分，提出了引入差异系数，在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性，提出使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新，保留最具关键性的特征子集，实现最佳特征子集的筛选。在神经网络的训练部分，将筛选后冗余度低且信息全面的三种癌症特征子集传入神经网络进行训练预测，最终得到三种不同癌症的预后预测精度。

附图说明

图1为基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法流程示意图；

图2为本发明神经网络的结构框图；

图3为本发明与现存的ReliefF算法的对比结果示意图，其中(a)为准确度，(b)为曲线下方面积，(c)为敏感度，(d)为精确度；

图4为本发明与传统特征选择分类的对比结果示意图，其中(a)表示胃癌在保留不同特征选择数目时Accuracy结果；(b)表示甲状腺癌在保留不同特征选择数目时Accuracy结果；(c)表示乳腺癌在保留不同特征选择数目时Accuracy结果；(d)三种癌症在REDFS算法下不同特征数目时Accuracy结果；

图5为本发明与深度特征选择分类的对比结果示意图，其中(a)为准确度，(b)为曲线下方面积，(c)为敏感度，(d)为精确度。

具体实施方式：

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述，但不仅限于此，本发明未详尽说明的，均按本领域常规技术。

实施例1

实施例2

一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法，如图1所示，该流程图主要分为数据获取、方法以及性能评估；

所述数据来源于TCGA数据库，采用胃癌、乳腺癌以及甲状腺癌的基因表达数据作为数据集，并对数据集进行预处理；

方法包括如下步骤：

(1)特征选择模块使用改进后的ReliefF算法，属于特征权重算法，根据特征与样本之间的相关性赋予特征相应的权值，引入差异系数，在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性，使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新，保留最具关键性的特征子集，最终通过权重降序原则，筛选出最佳特征子集；

性能评估使用机器学习中的二分类评估指标。

在图1中，通过TCGA官网分别下载胃癌、乳腺癌以及甲状腺癌的基因表达数据；通过R语言分别将三种基因表达数据处理成计算机可识别的微阵列数据；利用R语言中的差异分析进行差异分析，通过pvalue>0.5和log2Foldchange>1筛选出符合包含信息多且冗余度低的候选特征子集；利用本发明提出的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法得到最终候选特征子集；最后将特征子集传入神经网络进行训练预测得到最终的分类精度。

本发明的重点论述的是改进的ReliefF算法，通过ReliefF特征权重排列得到特征子集，进行特征提取得到低维特征子集。本发明中加入差异系数，通过扩大相似样本与差异样本之间差异，提高特征选择的稳定性，提出使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新，保留最具关键性的特征子集，最终通过权重降序原则，实现最佳特征子集的筛选。

实施例3

一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法，如实施例2所述，所不同的是，步骤(1)的具体实现过程为：

两个不同样本x_i与x_j在特征f_i上的差异系数如公式I所示：

特征权重更新公式如II所示：

表示样本x_i与k个近邻同类样本在f_i上的权重贡献，

表示样本x_i与k个异类样本在f_i上的权重贡献；

实施例4

一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法，如实施例3所述，所不同的是，神经网络中设置有四层隐藏层、一层输入层和一层输出层，其隐藏层的节点数分别为16、32、32、2，迭代次数优选设置为50，虽然迭代次数增多可能会提高实验效果，但具体情况还需要具体分析，本发明进行了大量试验证明训练50次时效果较好。最后设置每次batch-size为16个特征。

隐藏层的标准架构如式(III)所示：

P(y|X,θ)＝G(L_outW_out+b_out)，

……，

L_out＝σ(L₁W₁+b₁),

……，

L_k+1＝σ(L_kW_k+b_k),

……，

L₁＝σ(XW_in+b_in)(III)

分类函数为softmax分类函数，隐含层的激活函数为Relu函数。

实施例5

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例3的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。

实施例6

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例3的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。

为了证明面向甲状腺癌的深度特征选择算法的有效性，本发明进行了大量的对比试验。首先使用机器学习中专有的Accuracy，AUC，SN和SP对模型进行性能评估。其中accuracy代表准确度，AUC代表曲线下方面积，SN表示敏感度，SP表示精确度，表1为本发明与现存的ReliefF算法的对比结果表，图3为本发明与现存的ReliefF算法的对比结果示意图，与表1相对应，其中(a)为准确度Accuracy，(b)为曲线下方面积AUC，(c)为敏感度SN，(d)为精确度SP。

表1：本发明与现存的ReliefF算法的对比结果

其中，ReliefF、ML-ReliefF、IML-ReliefF是其中三种现存的ReliefF方法，Datasets代表数据类型，将该三种方法与本发明改进的ReliefF方法(REDFS)进行对比，通过图3，可以看出本发明的方法在性能上明显优于现存的三种ReliefF方法。

表2为本发明与传统特征选择分类的对比结果，图4为本发明与传统特征选择分类的对比结果示意图，与表2是对应的；

表2：本发明与传统特征选择分类的对比结果

其中，CHI是指卡方检验方法，一般指皮尔森卡方检验；F-test指F-检验又称相关系数法，该方法通过检测特征与标签之间的相关性进行特征选择；RF是指随机森林的方法，通过自身的特性可以进行分类；LR-RFE是指L1正则化-递归消除方法，该方法使用RFE进行特征选择，LR用来分类；RF-RFE是指随机森林-递归消除方法，该方法同样使用RFE进行特征选择，RF进行分类；REDFS是指本发明使用的方法，即基于改进ReliefF的癌症组学特征选择算法。

图4中(a)-(c)分别表示三种癌症数据的准确度变化区线，(d)为将三种癌症的精度放在一起进行对比，图4(d)中，STCA表示胃癌的转录组学数据；THCA表示甲状腺的转录组学数据；BRCA表示乳腺癌的转录组学数据，通过对比三种不同癌症数据在保留相同特征数目其精度的变化存在差异，本发明的方法在精度上取得较好的效果

通过图4，可以看出，三种癌症数据随保留特征数目的不同呈现不同的起伏且波动较大，而本发明的方法在三种数据中均取得较好的效果，并且相对稳定，精度均保持在90％以上。

表3为本发明与深度特征选择分类的对比结果，图5为本发明与深度特征选择分类的对比结果示意图，(a)为准确度，(b)为曲线下方面积，(c)为敏感度，(d)为精确度，与表3对应，其中，DNP-AAP、RDFS、fDNN代表深度特征选择方法的三种方法，REDFS是指本发明使用的方法，即基于改进ReliefF的癌症组学特征选择算法。

表3：本发明与深度特征选择分类的对比结果

通过表3和图5，本发明在三个数据集中均高出Relief准确率的10％，高出IML-ReliefF算法准确率的9.74％。总体来说，四种算法均取得较好地实验效果，但REDFS算法在三种癌症数据集中分类性能更高，更具有研究意义。

以上所述是本发明的选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统，其特征在于，包括特征选择模块和预后预测模块；

2.一种权利要求1所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法，其特征在于，包括如下步骤：

(1)特征选择模块使用改进后的ReliefF算法，引入差异系数，在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性，使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新，保留最具关键性的特征子集，筛选出最佳特征子集；

3.根据权利要求2所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法，其特征在于，步骤(1)的具体实现过程为：

假设在癌症组学数据集中有x个样本，f为特征集，其中f＝{f₁,f₂,f₃…f_i…f_p}，一个样本x由p维向量(x₁,x₂,x₃,…x_i…x_p)构成，进行t次迭代，随机选取一个训练样本x_i，然后选取该样本的k个近邻同类样本和k个异类样本，代入特征权值更新；

两个不同样本x_i与x_j在特征f_i上的差异系数如公式I所示：

特征权重更新公式如II所示：

表示样本x_i与k个近邻同类样本在f_i上的权重贡献，

表示样本x_i与k个异类样本在f_i上的权重贡献；

4.根据权利要求2所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法，其特征在于，所述神经网络中设置有四层隐藏层，其隐藏层的节点数分别为16、32、32、2，迭代次数优选设置为50。

5.根据权利要求4所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法，其特征在于，隐藏层的标准架构如式(III)所示：

P(y|X,θ)＝G(L_outW_out+b_out)，

……，

L_out＝σ(L₁W₁+b₁),

……，

L_k+1＝σ(L_kW_k+b_k),

……，

L₁＝σ(XW_in+b_in)(III)

其中，P(y|X,θ)表示预测结果即分类结果，X＝(X₁,X₂,X₃,...,.X_n)^T是三种癌症的转录组学的特征子集矩阵，y代表样本标签，θ代表神经网络的所有参数；G(·)表示分类函数，σ(·)表示隐含层的激活函数；L_out表示输出层，W_out表示神经网络中输出层中的特征矩阵权重值，b_out表示输出层误差值，b₁、b_k表示隐藏层的误差值，b_in表示输入层误差值，L₁表示第一层隐藏层，W₁表示第一层隐藏层的特征矩阵权重值，L_k+1表示第k+1层隐藏层，L_k表示第k层隐藏层，W_k表示第k层隐藏层的特征矩阵权重值，W_in表示输入层的特征矩阵权重值。

6.根据权利要求5所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法，其特征在于，分类函数为softmax分类函数，隐含层的激活函数为Relu函数。

7.根据权利要求5所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法，其特征在于，在步骤(1)之前还包括获取数据，所述数据来源于TCGA数据库，采用胃癌、乳腺癌以及甲状腺癌的基因表达数据作为数据集；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求2-7任一所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求2-7任一所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。