CN112926640B

CN112926640B - 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质

Info

Publication number: CN112926640B
Application number: CN202110196365.6A
Authority: CN
Inventors: 董祥军; 胡艳羽
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2023-02-28
Anticipated expiration: 2041-02-22
Also published as: CN112926640A

Abstract

本发明涉及一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质，包括：A、训练癌症基因分类模型：(1)获取训练数据：第一阶段：集成三种特征选择算法进行全面特征选择，得到特征子集；第二阶段：使用非监督神经网络获得特征子集最佳表示；(2)将特征子集最佳表示分为训练集和测试集，输入神经网络中进行训练；B、癌症基因分类：将待检测癌症基因数据预处理后输入训练好的癌症基因分类模型，实现癌症基因分类。本发明通过使用集成特征选择方法，实现考虑各个方面进行特征选择；并通过使用非监督神经网络提取特征最佳表示，获得更为干净的基因特征，提高分类精度。

Description

一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质

技术领域

本发明涉及一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质，属于基因表达技术领域。

背景技术

癌症是世界上最致命的疾病之一。癌症发现时间的早晚，直接决定了病人的治疗效果和生命安全。

利用机器学习处理基因微阵列数据集对于协助癌症的早期诊断具有重要的作用，但微阵列数据集中基因特征的数目远大于样本数目，造成了样本不平衡，影响了分类的效率和精度，对此基因阵列数据进行特征选择就显得尤为重要。现有的深度特征选择算法都致力于从高维度中选出重要的特征，但没有考虑最终保留特征数目较多和神经网络性能较差问题。

例如，Ibrahim等人提出一种基于深度和主动学习的多层特征选择算法(MLFS)(参见文献[1]Ibrahim R,Yousri N A,Ismail M A,et al.Multi-level gene/MiRNA featureselection using deep belief nets and active learning[C]//Proc of 2014 36thAnnual International Conference of the IEEE Engineering in Medicine andBiology Society.Piscataway,NJ:IEEE,2014:3957-3960)，使用深度置信网络(DBN)作为特征选择框架，捕捉癌症基因的上层表示，之后通过无监督学习算法进行分类评估。

Koul等人提出一种基于交叉验证和无监督学习的特征选择策略确定癌症生物标记(参见文献[2]Koul N,Manvi S S.A Scheme for Feature Selection from GeneExpression Data using Recursive Feature Elimination with Cross Validation andUnsupervised Deep Belief Network Classifier[C]//Proc of 2019 3rdInternational Conference on Computing and Communications Technologies(ICCCT).Piscataway,NJ:IEEE,2019:31-36)。使用递归特征消除进行特征选择，随机森林用来对选择后的基因进行五次交叉验证，最后使用DBN网络分类器对这些基因进行分类。

Syafiandini等人对直肠癌基因进行降维并查看分类精度，深度模型使用深度玻尔兹曼机(DBM)对基因训练，测试，得到重构数据，根据重构数据与原始数据的均方误差(MSE)得到最优特征基因(参见文献[3]Syafiandini A F,Wasito I,Yazid S,etal.Multimodal Deep Boltzmann Machines for feature selection on geneexpression data[C]//Proc of 2016International Conference on Advanced ComputerScience and Information Systems(ICACSIS).Piscataway,NJ:IEEE,2016:407-412)。

Sutawika和Wasito同样使用DBM通过比对重构数据与原始数据的误差进行特征选择，之后使用最小二乘法对选择的特征进行合成用于分类(参见文献[4]Sutawika L A,Wasito I.Restricted Boltzmann machines for unsupervised feature selectionwith partial least square feature extractor for microarray datasets[C]//Procof 2017International Conference on Advanced Computer Science and InformationSystems(ICACSIS).Piscataway,NJ:IEEE,2017:257-260)。

Wisesty等人使用互信息(MI)对癌症基因进行特征选择，结果作为在输入层输入到DBN网络中进行分类(参见文献[5]Wisesty U N,Pratama B P B,Aditsania A,etal.Cancer Detection Based on Microarray Data Classification Using Deep BeliefNetwork and Mutual Information[C]//Proc of 2017 5th International Conferenceon Instrumentation,Communications,Information Technology,and BiomedicalEngineering(ICICI-BME).Piscataway,NJ:IEEE,2017:157-162)。

Kilicarslana等人提出一种混合方法来提高分类精度。使用ReliefF算法进行特征选择,CNN作为分类器对特征选择后的结果进行分类(参见文献[6]Kilicarslana S,Ademb K,Mete C.Diagnosis and classification of cancer using hybrid modelbased on ReliefF and convolutional neural network[J].Medical Hypotheses,2020,137(2020):109577)。

Zeebaree使用方差分析选择特征,CNN对基因数据集进行特征提取和分类(参见文献[7]Zeebaree D Q.Gene Selection and Classification of Microarray Data UsingConvolutional Neural Network[C]//Proc of 2018International Conference onAdvanced Science and Engineering(ICOASE).Piscataway,NJ:IEEE,2018:145-150)。

由上可知，在深度特征选择技术应用中，研究者多采用单一条件的特征选择算法，导致选择后的基因特征较多；另外，对于神经网络的选择多采用存在已久的网络具有较低的分类精度，即使使用像CNN这种高效地神经网络模型，它也主要作为分类模型分类基因特征，对特征选择过程并没有较大的贡献。而且在将神经网络应用到特征选择时很少考虑使用神经网络得到特征的最佳表示。

以上问题都是需要解决的。

发明内容

对于深度特征选择算法研究至今，解决了不少问题，但还是存在选择特征数目较多和分类精度较低问题，为了解决这些问题，本发明提供了一种基于两阶段深度特征选择的癌症基因分类方法，通过两阶段深度特征选择来提高最终的分类精度，本发明主要解决的问题如下：

1)对于深度特征选择算法中存在单一特征选择问题，导致特征选择数目较多。设计基于boosting的集成特征选择方法，该方法实现对基因特征进行全面选择，避免重要基因特征遗漏，并且保留较少的特征数目。

2)对于神经网络模型存在已久和网络模型作用不大问题，寻找新型高效的神经网络，选择出的神经网络不仅提高了最终的分类精度，并弥补神经网络作用不大问题。设计通过使用神经网络实现对特征进一步特征提取，获取特征最佳低维表示，得到更为干净的特征，从而提高分类精度。

本发明还提供了一种计算机设备及存储介质。

术语解释：

1、boosting集成特征选择方法：是一种迭代特征选择方法，每次特征选择的训练集都依赖于上一次选择特征的结果。

2、方差分析(ANOVA)：是一种基于统计学的特征选择算法，该方法通过求得每个特征的方差来对特征进行排序。

3、RReliefF算法：它根据特征与实例之间的差异程度来估计一个特征区分其相邻样本的能力，并且根据数据特征与标签之间的相关性给每个特征分配不同的权重。

4、随机森林算法(RF)：作为一个新兴的、高度灵活的学习算法具有广泛的操作前景，由多棵决策树组成可以很好地防止过拟合。它通过特征重要性来排序特征。

5、癌症微阵列数据：是一种可以被计算机识别的二维数据矩阵，是人类基因组计划的逐步实施和分子生物学的迅猛发展及运用的产物，是生物芯片中的一种。

6、新型网络变分自编码器VAE：VAE是一种生成式神经网络，通过构建隐变量z来生成新的特征，新的特征与原来特征不同但相似。

本发明的技术方案为：

一种基于两阶段深度特征选择的癌症基因分类方法，通过两阶段深度特征选择来提高癌症分类准确度，包括步骤如下：

A、训练癌症基因分类模型

(1)获取训练数据

第一阶段：集成三种特征选择算法进行全面特征选择，得到特征子集；这保证最后选择的特征子集少而精；

第二阶段：使用非监督神经网络获得特征子集最佳表示；提高了最终分类精度。

(2)将特征子集最佳表示分为训练集和测试集，输入癌症基因分类模型中进行训练；

B、癌症基因分类

将待检测癌症基因数据预处理后输入训练好的癌症基因分类模型，实现癌症基因分类，判断是否为癌症基因。

进一步优选的，步骤B中，检测癌症基因数据进行预处理的过程为：去掉待检测癌症基因数据中的空值及非数值型数据后，通过所述第一阶段及第二阶段的处理得到特征子集最佳表示，将特征子集输入训练好的癌症基因分类模型。

本发明通过使用集成特征选择方法，实现考虑各个方面进行特征选择；并通过使用非监督神经网络提取特征最佳表示，获得更为干净的基因特征，提高分类精度。

根据本发明优选的，基于boosting集成特征选择方法，集成三种特征选择算法，实现全面特征选择，三种特征选择算法包括方差分析(ANOVA)、RReliefF算法和随机森林算法(RF)；全面特征选择的实现过程如下：

(1)通过方差分析及RReliefF算法对原始数据进行特征选择，根据两种内部操作得到候选特征子集；

(2)使用随机森林算法根据特征重要性对候选特征子集进行排序，选择出所需要的特征子集。

这三种方法进行特征选择时分别考虑到基因特征自身特点，基因特征之间相关性问题和基因特征与学习器(学习器指的是机器学习中监督算法)之间的关系。针对以上三方面进行特征选择最终保留下的特征数目较少，且满足各方面优点，选择出的特征具有较高的识别性。

进一步优选的，原始数据是指癌症微阵列数据。该数据具有高维少样本特点。

进一步优选的，步骤(1)的具体实现步骤包括：

a、设置方差分析中参数p，p是指设置的特征方差阈值，通过方差计算公式(Ⅰ)进行一轮特征选择，求出每一个特征的特征方差，选择出特征方差高于p的特征；

Var(x)＝p(1-p)(Ⅰ)

式(Ⅰ)中，Var(x)代表特征x的方差值；

进一步优选的，p＝0.8；

b、根据RReliefF算法中不同的权重W来确定候选特征子集；

设置权重阈值W，由于每一种癌症微阵列数据基因特征数目不一，所以对于权重W的设置也不固定，实验过程中W取值范围为0.001～0.1之间，根据以下规则计算权重：

从所有样本(即步骤a得到的特征方差高于p的特征)中随机选出一个样本R，通过对特征之间距离计算，分别寻找样本R同类与异类中的最近样本，得到特征权重，若得到R中某一特征在相同分类上的特征距离小于不同分类上的距离，这说明该特征具有一定的意义，特征权重较高，反之降低特征权重。RReliefF算法通过样概率定义模拟样本之间的绝对距离，特征权重计算公式如式(II)所示：

式(II)中，W[A]是指特征A的权重，对于概率P_diffC|diffA,P_diffA,P_diffC的定义如(Ⅲ)，(Ⅳ)，(V)所示。P_diffA是指特征A在所有样本中对应概率值，如式(Ⅲ)所示，P_diffC表示对特征A在所有样本中对应的预测概率值，如式(Ⅳ)所示，P_diffC|diffA表示在已知特征A在样本中具体概率时，预测结果为diffC的概率值，如式(V)所示，NSs是指最近样本(the nearestsamples)，并且DNSs代表diffC和它的NSs，P_diffC|diffA、P_diffA、P_diffC的定义如式(Ⅲ)、(Ⅳ)、(V)所示：

P_diffA＝P(diffA|NSs)(Ⅲ)

P_diffC＝P(diffC|NSs)(Ⅳ)

P_diffC|diffA＝P(diffC|DNSs)(V)

求取得到所有特征的权重。

进一步优选的，步骤(2)中，通过基尼系数作为随机森林算法的评价指标，来表示候选特征子集中每个候选特征的特征重要性，基尼系数某指某一特征在RF所有决策树中节点分裂不纯度的平均改变量，具体实现步骤包括：

求取候选特征子集中每个候选特征的基尼系数，基尼系数求取公式如式(VI)所示：

式(VI)中，I_G是指基尼系数，f是指某一特征，f_i是指第i个特征，m是指特征总数；随机森林算法根据基尼系数求解出每个特征的特征重要性，根据重要性排序选择出满足该随机森林算法的特征，得到所需要的特征子集(通过调用随机森林函数就实现该过程，得到选择特征结果)；

通过以上三种特征选择算法，去掉较多的冗余和不相关特征，得到较少数目的特征子集。

根据本发明优选的，第二阶段的具体实现步骤是指：针对神经网络存在已久和网络模型作用不大问题，设计使用新型网络变分自编码器(VAE)来解决该问题，对于存在已久的神经网络，虽然在深度特征选择中解决了一些问题，但还存在分类较低问题，VAE作为自编码器的一种延伸神经网络模型，它不仅具有降维功能，还具有较高的去噪能力，将特征子集导入新型网络变分自编码器中，进行去噪并获得特征子集低维表示即特征子集最佳表示。该特征子集具有较低的冗余性，且包含识别性信息更多。根据以上两步操作后提高分类精度。

进一步优选的，将特征子集作为输入层输入到VAE中，对其进行特征提取获得最佳特征低维表示，得到包含信息量更多的特征子集。对于VAE的设置，由于操作的是微阵列数据集，是一种一维数据，所以不需要设计太复杂的网络结果，所述新型网络变分自编码器包括输入层、第一全连接层、隐含层、第二全连接层及输出层，所述隐含层的节点数为256，epoch为50次，batch size为25。通过对隐含层节点设置来降低特征维度获得特征低维表示，并且获得低维表示的同时去除原始维度中包含的噪声。

进一步优选的，所述隐含层的激活函数为relu函数，所述输出层的激活函数为sigmoid函数，使用Adam作为优化器。

根据以上两步，得到最佳低维特征子集，该特征子集包含更具有识别性的癌症基因特征。选择使用新型网络变分自编码器(VAE)，该网络模型作为新型神经网络具有较高的性能，它克服了存在已久神经网络分类较低问题，而且也考虑到获得特征最佳低维表示这在提高分类精度方面有了巨大的提升。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于两阶段深度特征选择的癌症基因分类方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于两阶段深度特征选择的癌症基因分类方法的步骤。

本发明的有益效果为：

1、本发明使用基于boosting集成特征选择方法，该方法将与特征有关的所有方面均考虑在内，避免重要基因不能被选择，保证最终选择特征较少求具有较高识别性；

2、本发明使用了VAE获得特征低维表示，它不仅提高了最终的分类精度，而且也弥补了深度特征选择时一些神经网络模型作用性不高问题。通过使用VAE对特征选择后的结果进行进一步特征提取，去除特征中存在的噪声和冗余性，使得最后得到的特征更为干净，具有较高的研究价值。为了验证该方法的有效性，通过监督分类算法支持向量机来得到分类精度。通过实验证明，该方法具有较高的分类性能。

附图说明

图1为本发明基于两阶段深度特征选择的癌症基因分类方法的流程示意图；

图2为本发明新型网络变分自编码器VAE的结构框图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于两阶段深度特征选择的癌症基因分类方法，通过两阶段深度特征选择来提高癌症分类准确度，如图1所示，包括步骤如下：

A、训练癌症基因分类模型

(1)获取训练数据

B、癌症基因分类

实施例2

根据实施例1所述的一种基于两阶段深度特征选择的癌症基因分类方法，其区别在于：

步骤B中，检测癌症基因数据进行预处理的过程为：去掉待检测癌症基因数据中的空值及非数值型数据后，通过第一阶段及第二阶段的处理得到特征子集最佳表示，将特征子集输入训练好的癌症基因分类模型。

实施例3

根据实施例1所述的一种基于两阶段深度特征选择的癌症基因分类方法，如图1所示，其区别在于：

基于boosting集成特征选择方法，集成三种特征选择算法，实现全面特征选择，三种特征选择算法包括方差分析(ANOVA)、RReliefF算法和随机森林算法(RF)；全面特征选择的实现过程如下：

原始数据是指癌症微阵列数据。该数据具有高维少样本特点。

实施例4

根据实施例3所述的一种基于两阶段深度特征选择的癌症基因分类方法，其区别在于：

步骤(1)的具体实现步骤包括：

Var(x)＝p(1-p) (Ⅰ)

式(Ⅰ)中，Var(x)代表特征x的方差值；

p＝0.8；

b、根据RReliefF算法中不同的权重W来确定候选特征子集；

P_diffA＝P(diffA|NSs)(Ⅲ)

P_diffC＝P(diffC|NSs)(Ⅳ)

P_diffC|diffA＝P(diffC|DNSs)(V)

求取得到所有特征的权重。

步骤(2)中，通过基尼系数作为随机森林算法的评价指标，来表示候选特征子集中每个候选特征的特征重要性，基尼系数某指某一特征在RF所有决策树中节点分裂不纯度的平均改变量，具体实现步骤包括：

为了验证该方法选择出的特征子集具有较高的分类精度，对数据集按比例划分成测试集和训练集，通过监督分类算法对划分好的数据集进行评估操作，图1中ANOVA代表方差分析，RF表示随机森林算法，accuracy和acc均表示准确度，SN代表敏感度，SP代表特异度，precision代表精确度。acc，accuracy，SN，SP，precision(由于使用的微阵列数据集包含二分类和三分类数据所以使用不同的评估标准。对于二分类数据使用accuracy，SN，SP，precision这四种作为评估准则，对于三分类数据只能使用accuracy作为最后评估准则，为了和二分类accuracy作为区分，所以使用acc作为代替)均为最终评估指标。通过实验证明，该方法具有较高的分类性能。

实施例5

第二阶段的具体实现步骤是指：针对神经网络存在已久和网络模型作用不大问题，设计使用新型网络变分自编码器(VAE)来解决该问题，对于存在已久的神经网络，虽然在深度特征选择中解决了一些问题，但还存在分类较低问题，VAE作为自编码器的一种延伸神经网络模型，它不仅具有降维功能，还具有较高的去噪能力，将特征子集导入新型网络变分自编码器中，进行去噪并获得特征子集低维表示即特征子集最佳表示。该特征子集具有较低的冗余性，且包含识别性信息更多。根据以上两步操作后提高分类精度。

将特征子集作为输入层输入到VAE中，对其进行特征提取获得最佳特征低维表示，得到包含信息量更多的特征子集。对于VAE的设置，由于操作的是微阵列数据集，是一种一维数据，所以不需要设计太复杂的网络结果，如图2所示，新型网络变分自编码器包括输入层(Input)、第一全连接层、隐含层(Hiden Layer)、第二全连接层及输出层(Output)，隐含层的节点数为256，epoch为50次，batch size为25。通过对隐含层节点设置来降低特征维度获得特征低维表示，并且获得低维表示的同时去除原始维度中包含的噪声。

隐含层的激活函数为relu函数，输出层的激活函数为sigmoid函数，使用Adam作为优化器。

实施例6

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1-5任一所述基于两阶段深度特征选择的癌症基因分类方法的步骤。

实施例7

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1-5任一所述基于两阶段深度特征选择的癌症基因分类方法的步骤。

Claims

1.一种基于两阶段深度特征选择的癌症基因分类方法，其特征在于，包括步骤如下：

A、训练癌症基因分类模型

(1)获取训练数据

第一阶段：集成三种特征选择算法进行全面特征选择，得到特征子集；

第二阶段：使用非监督神经网络获得特征子集最佳表示；

B、癌症基因分类

将待检测癌症基因数据预处理后输入训练好的癌症基因分类模型，实现癌症基因分类，判断是否为癌症基因；

基于boosting集成特征选择方法，集成三种特征选择算法，实现全面特征选择，三种特征选择算法包括方差分析、RReliefF算法和随机森林算法；全面特征选择的实现过程如下：

(1.1)通过方差分析及RReliefF算法对原始数据进行特征选择，得到候选特征子集；

(1.2)使用随机森林算法根据特征重要性对候选特征子集进行排序，选择出所需要的特征子集。

2.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法，其特征在于，原始数据是指癌症微阵列数据。

3.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法，其特征在于，步骤B中，检测癌症基因数据进行预处理的过程为：去掉待检测癌症基因数据中的空值及非数值型数据后，通过所述第一阶段及第二阶段的处理得到特征子集最佳表示，将特征子集输入训练好的癌症基因分类模型。

4.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法，其特征在于，步骤(1.1)的具体实现步骤包括：

Var(x)＝p(1-p) (Ⅰ)

式(Ⅰ)中，Var(x)代表特征x的方差值；

b、根据RReliefF算法中不同的权重W来确定候选特征子集；

设置权重阈值W，根据以下规则计算权重：

从所有样本中随机选出一个样本R，通过对特征之间距离计算，分别寻找样本R同类与异类中的最近样本，得到特征权重，RReliefF算法通过样概率定义模拟样本之间的绝对距离，特征权重计算公式如式(II)所示：

式(II)中，W[A]是指特征A的权重，P_diffA是指特征A在所有样本中对应概率值，如式(Ⅲ)所示，P_diffC表示对特征A在所有样本中对应的预测概率值，如式(Ⅳ)所示，P_diffC|diffA表示在已知特征A在样本中具体概率时，预测结果为diffC的概率值，如式(Ⅴ)所示，NSs是指最近样本，并且DNSs代表diffC和它的NSs，P_diffC|diffA、P_diffA、P_diffC的定义如式(Ⅲ)、(Ⅳ)、(Ⅴ)所示：

P_diffA＝P(diffA|NSs) (Ⅲ)

P_diffC＝P(diffC|NSs) (Ⅳ)

P_diffC|diffA＝P(diffC|DNSs) (Ⅴ)

求取得到所有特征的权重。

5.根据权利要求4所述的一种基于两阶段深度特征选择的癌症基因分类方法，其特征在于，p＝0.8。

6.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法，其特征在于，步骤(1.2)中，通过基尼系数作为随机森林算法的评价指标，来表示候选特征子集中每个候选特征的特征重要性，基尼系数某指某一特征在RF所有决策树中节点分裂不纯度的平均改变量，具体实现步骤包括：

求取候选特征子集中每个候选特征的基尼系数，基尼系数求取公式如式(Ⅵ)所示：

式(Ⅵ)中，I_G是指基尼系数，f是指某一特征，f_i是指第i个特征，m是指特征总数；

随机森林算法根据基尼系数求解出每个特征的特征重要性，根据重要性排序选择出满足该随机森林算法的特征，得到所需要的特征子集。

7.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法，其特征在于，第二阶段的具体实现步骤是指：将特征子集导入新型网络变分自编码器中，进行去噪并获得特征子集低维表示即特征子集最佳表示。

8.根据权利要求7所述的一种基于两阶段深度特征选择的癌症基因分类方法，其特征在于，所述新型网络变分自编码器包括输入层、第一全连接层、隐含层、第二全连接层及输出层，所述隐含层的节点数为256，epoch为50次，batch size为25。

9.根据权利要求8所述的一种基于两阶段深度特征选择的癌症基因分类方法，其特征在于，所述隐含层的激活函数为relu函数，所述输出层的激活函数为sigmoid函数，使用Adam作为优化器。

10.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-9任一所述基于两阶段深度特征选择的癌症基因分类方法的步骤。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一所述基于两阶段深度特征选择的癌症基因分类方法的步骤。