CN115588467B

CN115588467B - 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法

Info

Publication number: CN115588467B
Application number: CN202211131995.6A
Authority: CN
Inventors: 王培培; 叶明全; 黎青青; 梅雅欣; 周运锋; 袁金龙
Original assignee: Wannan Medical College
Current assignee: Wannan Medical College
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2023-05-09
Anticipated expiration: 2042-09-16
Also published as: CN115588467A

Abstract

本发明公开了一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法，包括以下步骤：步骤S1、利用基于快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择得到候选基因子集和非候选基因子集，基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充；步骤S2、利用基于多层感知机分类器封装式特征选择方法，引入粒子群搜索策略及建立动态适应度函数进行二次特征选择得到最优基因子集。本发明基于多层感知机的过滤‑封装式组合基因选择方法，由于采用快速关联的过滤算法过滤式基因选择法，能够快速去除冗余基因，可以显著降低后续基因子集筛选的计算复杂度。

Description

一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法

技术领域

本发明涉及基因筛选技术领域，具体涉及一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法。

背景技术

测序技术的发展产生了大量的高维生物组学数据，从高维生物组学数据中提炼与研究疾病相关的关键基因信息一直是生物信息学领域的研究热点。生物组学数据常呈现高维小样本、冗余度高的特点。颅内动脉瘤破裂是导致蛛网膜下腔出血的主要原因，对颅内动脉瘤生物标志物的识别有利于揭示其特征与疾病的内在关联和病发机理。颅内动脉瘤生物组学数据同其他肿瘤数据一样，都存在着大量冗余，噪声和与分类目标无关的基因，并且在利用生物标志物进行的功能验证实验方面，生物标志物越多，实验所产生的时间成本和经济成本就越大，因此生物学家或者临床研究人员往往更倾向于选择特征个数较少的关键特征子集作为生物标志物。

机器学习中的特征选择和分类等技术是识别生物标志物重要的方法，可提取、筛选、识别出高维生物组学数据中蕴藏的重要信息。通过构建分类模型的性能来寻找最优特征集合，从而达到挖掘重要生物信息的目的，同时可协助生物学家或者临床研究人员判断基因表达与疾病之间的潜在机制。特征选择可以看作是机器学习在生物组学数据中的预处理步骤，在基因表达数据分析方面有着不可或缺的作用。

特征选择的目的是剔除完全不相关和噪声特征、弱相关且冗余特征，筛选出建模相关的弱相关且不冗余特征、强相关特征。通过特征选择得到的最优特征子集在理论上应该使建模运行时间更短、模型性能越高，并且特征选择后数据中特征值的数值没有发生变化。根据特征子集的评价方式不同，基因特征选择方法可分为过滤式（F ilter-BasedMethods）、封装式（Wrapper-Based Methods）、嵌入式（Embedded-Based Methods），以及近几年比较流行的混合式（Hybr id-Based Methods）和整合式（Ensemble-Based Methods）。过滤式特征子集选择方法与封装式、嵌入式方法的最大不同之处在于过滤式特征子集选择过程不依赖于分类学习算法，计算复杂度也比较低，因此适用于大多数学习算法，通常也作为高维数据的特征选择方法，但是它无法在某一学习算法上去的稳定而理想的学习性能。封装式是在特征子集选择过程中引入分类学习算法作为特征子集学习性能评估的一部分，而嵌入型则是将分类学习算法的模型构建和特征选择过程融为一体，因此封装式和嵌入式方法在处理高维数据时都会导致其计算效率低下。以上三种方法各有优缺点，研究人员通常将以上几种方法进行结合构成混合式特征选择方法，常见的混合方式是过滤式和封装式结合，以便在计算效率和分类性能之间达成互补。现有技术中的混合方式在第一阶段进行特征过滤方法按照某种特定规则筛选出一些特征，所以可能会遗漏一些对分类结果起重要作用的特征，而且在运用智能搜索算法进行第二阶段特征精选中固定适应度函数，难以适应各个迭代过程的动态变化过程以实现得到提高分类有效性和提高分类速率性的最优基因子集。

发明内容

本发明目的在于提供一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法，以解决现有技术中会遗漏一些对分类结果起重要作用的特征，难以适应各个迭代过程的动态变化过程以实现得到提高分类有效性和提高分类速率性的最优基因子集的技术问题。

为了解决上述技术问题，本发明具体提供下述技术方案：

一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法，其特征在于，包括以下步骤：

步骤S1、利用基于快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择得到表征分类相关性高且基因冗余性低的候选基因子集和非候选基因子集，基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充，以避免过滤掉重要基因使得关键基因有机会进入最优基因子集；

步骤S2、利用基于多层感知机分类器封装式特征选择方法，引入粒子群搜索策略及建立动态适应度函数进行二次特征选择得到最优基因子集，以实现获取模型分类准确度的最优化表达的颅内动脉瘤破裂关键基因。

作为本发明的一种优选方案，所述候选基因子集和非候选基因子集的获取，包括：

利用Spearman秩相关系数构建分类相关性，以及利用协方差构建基因冗余性，所述基因冗余性衡量候选基因子集中候选基因间的冗余性，所述分量相关性为衡量候选基因子集中候选基因与颅内动脉瘤破裂分类标签间的相关性；

将最高分类相关性和最低基因冗余性作为快速关联的过滤算法的目标函数，并以所述目标函数利用快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择得到表征分类相关性高且基因冗余性低的候选基因子集，并将候选基因子集中的基因标记为候选基因；

将原始基因数据集中除候选基因子集外的剩余基因标记为非候选基因，将非候选基因归置于同一子集得到非候选基因子集。

作为本发明的一种优选方案，所述基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充，包括：

步骤1、选取10组颅内动脉瘤破裂分类模型，利用10折交叉验证获取10组颅内动脉瘤破裂分类模型的平均分类准确度作为所述模型分类准确度，利用主成分分析法获取非候选基因的数据贡献度作为所述基因重要性，所述颅内动脉瘤破裂分类模型用于利用颅内动脉瘤破裂基因得到颅内动脉瘤破裂分类标签的；

步骤2、将基因重要性高于预设重要度的非候选基因组合为补充基因集；

步骤3、依次将补充基因集中各个非候选基因逐个补充至候选基因子集得到多个补充候选基因子集，计算出每个补充候选基因子集的模型分类准确度并保留最高模型分类准确度对应的补充候选基因子集作为最优候选基因子集，在补充基因集中删除补充至最优候选基因子集的非候选基因；

步骤4、重复步骤3，直至最优候选基因子集中候选基因数量固定于一定值不再增加。

作为本发明的一种优选方案，所述利用主成分分析法获取非候选基因的数据贡献度，包括：

利用主成分分析法对原始基因数据集进行主成分分析得到原始基因数据集中各个基因的数据贡献度，并在原始基因数据集中各个基因的数据贡献度中查询出非候选基因的数据贡献度。

作为本发明的一种优选方案，所述最优基因子集的获取，包括：

利用最优基因子集的基因数据总量和模型分类准确度构建出粒子群搜索策略的动态适应度函数，所述动态适应度函数的函数表达式为：

；

式中，F_i为粒子群搜索策略中第 i次迭代搜索处的适应度值，Len_i为粒子群搜索策略中第 i次迭代搜索得到的最优基因子集的基因数据总量，P_i为粒子群搜索策略中第 i次迭代搜索得到的最优基因子集的模型分类准确度，W为Len_i的动态加权权重，V为P_i的动态加权权重；

以第 i次迭代搜索处最优基因子集的基因数量构建W和V，以实现在基因数量少时侧重提升P_i的在适应度值中的权重，在基因数量多时侧重提升Len_i的在适应度值中的权重，所述W和V的函数表达式为：

；

式中，K为最优候选基因子集中的候选基因数量，L_i为第 i次迭代搜索得到最优基因子集中基因数量，N为迭代搜索总次数，lenr_i为第 i次迭代搜索得的最优基因子集中的基因数据总量，lenR_i为第 i次迭代搜索得的最优候选基因子集中的基因数据总量，所述基因数据总量为各个基因与各个基因的数据量乘积之和；

利用基于多层感知机分类器封装式特征选择方法，以动态适应度函数引入粒子群搜索策略对最优候选基因子集进行二次特征选择得到最优基因子集。

作为本发明的一种优选方案，所述原始基因数据集中各个基因进行数据归一化处理。

作为本发明的一种优选方案，所述颅内动脉瘤破裂分类模型的模型参数利用核函数进行设定。

作为本发明的一种优选方案，所述将最优基因子集中所有基因均作为颅内动脉瘤破裂关键基因。

作为本发明的一种优选方案，所述多层感知机分类器利用学习率、迭代周期数、隐藏层数、每层的隐藏单元数进行联合优化以提升最优基因子集获取的收敛速度。

作为本发明的一种优选方案，所述平均分类准确度为利用10折交叉验证得到的10组颅内动脉瘤破裂分类模型的10组分类准确度的平均值。

本发明与现有技术相比较具有如下有益效果：

本发明是基于多层感知机的过滤-封装式组合基因选择方法，由于采用快速关联的过滤算法过滤式基因选择法，能够快速去除冗余基因，可以显著降低后续基因子集筛选的计算复杂度；又由于在生成的候选基因子集上，采用基于支多层感知机分类器封装式基因选择方法，引入改进的粒子群搜索策略进行二次基因选择，选择具有强区分能力的最优基因子集，克服关键基因被误删，以及基因评价结果与最终分类算法存在偏差的问题，从而显著提高基因表达在相关疾病中的分类精度。该方法科学合理，适用性强，可广泛适用于高维小样本组学数据的处理。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的颅内动脉瘤破裂关键基因筛选方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法，其特征在于，包括以下步骤：

候选基因子集和非候选基因子集的获取，包括：

利用Spearman秩相关系数构建分类相关性，以及利用协方差构建基因冗余性，基因冗余性衡量候选基因子集中候选基因间的冗余性，分量相关性为衡量候选基因子集中候选基因与颅内动脉瘤破裂分类标签间的相关性；

将最高分类相关性和最低基因冗余性作为快速关联的过滤算法的目标函数，并以目标函数利用快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择得到表征分类相关性高且基因冗余性低的候选基因子集，并将候选基因子集中的基因标记为候选基因；

基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充，包括：

步骤1、选取10组颅内动脉瘤破裂分类模型，利用10折交叉验证获取10组颅内动脉瘤破裂分类模型的平均分类准确度作为模型分类准确度，利用主成分分析法获取非候选基因的数据贡献度作为基因重要性，颅内动脉瘤破裂分类模型用于利用颅内动脉瘤破裂基因得到颅内动脉瘤破裂分类标签的；

利用主成分分析法获取非候选基因的数据贡献度，包括：

利用基于快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择，是一种算法的核心思想是通过对称不确定性方法（Symmetr ical Uncerta inty，SU）作为度量标准衡量两个特征的相关性。该算法有效删除高维数据中冗余和不相关的特征，挖掘出与分类标签即分类类别最大相关的特征，是一种过滤式特征筛选方法，是按照特定规则筛选出一些特征，所以可能会存在遗漏一些对分类结果起重要作用的特征的弊端，因此本实施例提供了基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充，以避免过滤掉重要基因使得关键基因有机会进入最优基因子集，其中，主成分分析可以分析出每个基因在进行模型分类时的数据贡献度，贡献度越高则表明该基因在进行模型分类是的重要性越高，模型分类准确度越高，则表明补充进候选基因子集中的基因对模型分类的分类效果越有益，将被误删进非候选基因子集中但数据重要性高且对提高模型分类准确度有助益的非候选基因恢复为候选基因，本实施例为提高分类准确率，使过滤掉的重要特征有机会选入最优的特征子集。

在经过第一阶段的过滤式特征选择后的候选特征子集，及数据集S上进行封装式二次特征选择，基于多层感知机(MLP)学习算法，引入基于改进的二进制粒子群的搜索策略，再次选择出具有高分类准确率的最优特征子集，最终将过滤-封装式组合的混合式特征选择模型选出的最优特征子集。

最优基因子集的获取，包括：

利用最优基因子集的基因数据总量和模型分类准确度构建出粒子群搜索策略的动态适应度函数，动态适应度函数的函数表达式为：

；

以第 i次迭代搜索处最优基因子集的基因数量构建W和V，以实现在基因数量少时侧重提升P_i的在适应度值中的权重，在基因数量多时侧重提升Len_i的在适应度值中的权重，W和V的函数表达式为：

；

式中，K为最优候选基因子集中的候选基因数量，L_i为第 i次迭代搜索得到最优基因子集中基因数量，N为迭代搜索总次数，lenr_i为第 i次迭代搜索得的最优基因子集中的基因数据总量，lenR_i为第 i次迭代搜索得的最优候选基因子集中的基因数据总量，基因数据总量为各个基因与各个基因的数据量乘积之和；

本实施例将适应度函数设定为动态形式，在粒子群搜索策略中初期最优基因子集中基因数量少，则将适应度值侧重于衡量最优基因子集对模型分类准确度，即侧重于模型分类的有效性度量，则随着搜索中后期的到来，最优基因子集中基因数量增多，将适应度值侧重于衡量最优基因子集对基因数据总量，即侧重于模型分类的速率性度量，在初期W接近于0，V接近于1，而中后期W逐渐增加至1，V逐渐降低至0，实质是在初期基因数量少，颅内动脉瘤破裂分类模型运算处理的数量量小，速率本身就高，此时以最优基因子集进行模型分类准确度度量为主进行适应度评价即可，因此将基因数据总量的权重W设定较低，模型分类准确度的权重V设定较高，而后期随着最优基因子集中基因数量的增多，颅内动脉瘤破裂分类模型运算处理的数量量增多，速率降低，此时需要对基因数量进行限定，期望其增加速率减慢，避免造成数据冗余，而且在中后期模型分类准确度也趋于稳定，不一定会根据基因数量增加而改变，因此对以最优基因子集中基因数据总量为主进行适应度评价即可，因此该动态适应度函数能够实现保证获得的最优基因子集具有高模型分类有效性同时具有高模型运算速率。

原始基因数据集中各个基因进行数据归一化处理。

颅内动脉瘤破裂分类模型的模型参数利用核函数进行设定。

将最优基因子集中所有基因均作为颅内动脉瘤破裂关键基因。

多层感知机分类器利用学习率、迭代周期数、隐藏层数、每层的隐藏单元数进行联合优化以提升最优基因子集获取的收敛速度。

平均分类准确度为利用10折交叉验证得到的10组颅内动脉瘤破裂分类模型的10组分类准确度的平均值。

本发明基于多层感知机的过滤-封装式组合基因选择方法，由于采用快速关联的过滤算法过滤式基因选择法，能够快速去除冗余基因，可以显著降低后续基因子集筛选的计算复杂度；又由于在生成的候选基因子集上，采用基于支多层感知机分类器封装式基因选择方法，引入改进的粒子群搜索策略进行二次基因选择，选择具有强区分能力的最优基因子集，克服关键基因被误删，以及基因评价结果与最终分类算法存在偏差的问题，从而显著提高基因表达在相关疾病中的分类精度。该方法科学合理，适用性强，可广泛适用于高维小样本组学数据的处理。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法，其特征在于，包括以下步骤：

步骤S2、利用基于多层感知机分类器封装式特征选择方法，引入粒子群搜索策略及建立动态适应度函数进行二次特征选择得到最优基因子集，以实现获取模型分类准确度的最优化表达的颅内动脉瘤破裂关键基因；

步骤4、重复步骤3，直至最优候选基因子集中候选基因数量固定于一定值不再增加；

利用主成分分析法获取非候选基因的数据贡献度，包括：

利用主成分分析法对原始基因数据集进行主成分分析得到原始基因数据集中各个基因的数据贡献度，并在原始基因数据集中各个基因的数据贡献度中查询出非候选基因的数据贡献度；

最优基因子集的获取，包括：

式中，F_i为粒子群搜索策略中第i次迭代搜索处的适应度值，Len_i为粒子群搜索策略中第i次迭代搜索得到的最优基因子集的基因数据总量，P_i为粒子群搜索策略中第i次迭代搜索得到的最优基因子集的模型分类准确度，W为Len_i的动态加权权重，V为P_i的动态加权权重；

以第i次迭代搜索处最优基因子集的基因数量构建W和V，以实现在基因数量少时侧重提升P_i的在适应度值中的权重，在基因数量多时侧重提升Len_i的在适应度值中的权重，W和V的函数表达式为：式中，K为最优候选基因子集中的候选基因数量，L_i为第i次迭代搜索得到最优基因子集中基因数量，N为迭代搜索总次数，lenr_i为第i次迭代搜索得的最优基因子集中的基因数据总量，lenR_i为第i次迭代搜索得的最优候选基因子集中的基因数据总量，基因数据总量为各个基因与各个基因的数据量乘积之和；

2.根据权利要求1所述的一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法，其特征在于：所述候选基因子集和非候选基因子集的获取，包括：

利用Spearman秩相关系数构建分类相关性，以及利用协方差构建基因冗余性，所述基因冗余性衡量候选基因子集中候选基因间的冗余性，所述分类相关性为衡量候选基因子集中候选基因与颅内动脉瘤破裂分类标签间的相关性；

3.根据权利要求1所述的一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法，其特征在于：所述原始基因数据集中各个基因进行数据归一化处理。

4.根据权利要求1所述的一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法，其特征在于，所述颅内动脉瘤破裂分类模型的模型参数利用核函数进行设定。

5.根据权利要求1所述的一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法，其特征在于，将最优基因子集中所有基因均作为颅内动脉瘤破裂关键基因。

6.根据权利要求1所述的一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法，其特征在于，所述多层感知机分类器利用学习率、迭代周期数、隐藏层数、每层的隐藏单元数进行联合优化以提升最优基因子集获取的收敛速度。