CN115588467B - 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法 - Google Patents

一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法 Download PDF

Info

Publication number
CN115588467B
CN115588467B CN202211131995.6A CN202211131995A CN115588467B CN 115588467 B CN115588467 B CN 115588467B CN 202211131995 A CN202211131995 A CN 202211131995A CN 115588467 B CN115588467 B CN 115588467B
Authority
CN
China
Prior art keywords
gene
candidate
genes
subset
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211131995.6A
Other languages
English (en)
Other versions
CN115588467A (zh
Inventor
王培培
叶明全
黎青青
梅雅欣
周运锋
袁金龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wannan Medical College
Original Assignee
Wannan Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wannan Medical College filed Critical Wannan Medical College
Priority to CN202211131995.6A priority Critical patent/CN115588467B/zh
Publication of CN115588467A publication Critical patent/CN115588467A/zh
Application granted granted Critical
Publication of CN115588467B publication Critical patent/CN115588467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法,包括以下步骤:步骤S1、利用基于快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择得到候选基因子集和非候选基因子集,基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充;步骤S2、利用基于多层感知机分类器封装式特征选择方法,引入粒子群搜索策略及建立动态适应度函数进行二次特征选择得到最优基因子集。本发明基于多层感知机的过滤‑封装式组合基因选择方法,由于采用快速关联的过滤算法过滤式基因选择法,能够快速去除冗余基因,可以显著降低后续基因子集筛选的计算复杂度。

Description

一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法
技术领域
本发明涉及基因筛选技术领域,具体涉及一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法。
背景技术
测序技术的发展产生了大量的高维生物组学数据,从高维生物组学数据中提炼与研究疾病相关的关键基因信息一直是生物信息学领域的研究热点。生物组学数据常呈现高维小样本、冗余度高的特点。颅内动脉瘤破裂是导致蛛网膜下腔出血的主要原因,对颅内动脉瘤生物标志物的识别有利于揭示其特征与疾病的内在关联和病发机理。颅内动脉瘤生物组学数据同其他肿瘤数据一样,都存在着大量冗余,噪声和与分类目标无关的基因,并且在利用生物标志物进行的功能验证实验方面,生物标志物越多,实验所产生的时间成本和经济成本就越大,因此生物学家或者临床研究人员往往更倾向于选择特征个数较少的关键特征子集作为生物标志物。
机器学习中的特征选择和分类等技术是识别生物标志物重要的方法,可提取、筛选、识别出高维生物组学数据中蕴藏的重要信息。通过构建分类模型的性能来寻找最优特征集合,从而达到挖掘重要生物信息的目的,同时可协助生物学家或者临床研究人员判断基因表达与疾病之间的潜在机制。特征选择可以看作是机器学习在生物组学数据中的预处理步骤,在基因表达数据分析方面有着不可或缺的作用。
特征选择的目的是剔除完全不相关和噪声特征、弱相关且冗余特征,筛选出建模相关的弱相关且不冗余特征、强相关特征。通过特征选择得到的最优特征子集在理论上应该使建模运行时间更短、模型性能越高,并且特征选择后数据中特征值的数值没有发生变化。根据特征子集的评价方式不同,基因特征选择方法可分为过滤式(F ilter-BasedMethods)、封装式(Wrapper-Based Methods)、嵌入式(Embedded-Based Methods),以及近几年比较流行的混合式(Hybr id-Based Methods)和整合式(Ensemble-Based Methods)。过滤式特征子集选择方法与封装式、嵌入式方法的最大不同之处在于过滤式特征子集选择过程不依赖于分类学习算法,计算复杂度也比较低,因此适用于大多数学习算法,通常也作为高维数据的特征选择方法,但是它无法在某一学习算法上去的稳定而理想的学习性能。封装式是在特征子集选择过程中引入分类学习算法作为特征子集学习性能评估的一部分,而嵌入型则是将分类学习算法的模型构建和特征选择过程融为一体,因此封装式和嵌入式方法在处理高维数据时都会导致其计算效率低下。以上三种方法各有优缺点,研究人员通常将以上几种方法进行结合构成混合式特征选择方法,常见的混合方式是过滤式和封装式结合,以便在计算效率和分类性能之间达成互补。现有技术中的混合方式在第一阶段进行特征过滤方法按照某种特定规则筛选出一些特征,所以可能会遗漏一些对分类结果起重要作用的特征,而且在运用智能搜索算法进行第二阶段特征精选中固定适应度函数,难以适应各个迭代过程的动态变化过程以实现得到提高分类有效性和提高分类速率性的最优基因子集。
发明内容
本发明目的在于提供一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法,以解决现有技术中会遗漏一些对分类结果起重要作用的特征,难以适应各个迭代过程的动态变化过程以实现得到提高分类有效性和提高分类速率性的最优基因子集的技术问题。
为了解决上述技术问题,本发明具体提供下述技术方案:
一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法,其特征在于,包括以下步骤:
步骤S1、利用基于快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择得到表征分类相关性高且基因冗余性低的候选基因子集和非候选基因子集,基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充,以避免过滤掉重要基因使得关键基因有机会进入最优基因子集;
步骤S2、利用基于多层感知机分类器封装式特征选择方法,引入粒子群搜索策略及建立动态适应度函数进行二次特征选择得到最优基因子集,以实现获取模型分类准确度的最优化表达的颅内动脉瘤破裂关键基因。
作为本发明的一种优选方案,所述候选基因子集和非候选基因子集的获取,包括:
利用Spearman秩相关系数构建分类相关性,以及利用协方差构建基因冗余性,所述基因冗余性衡量候选基因子集中候选基因间的冗余性,所述分量相关性为衡量候选基因子集中候选基因与颅内动脉瘤破裂分类标签间的相关性;
将最高分类相关性和最低基因冗余性作为快速关联的过滤算法的目标函数,并以所述目标函数利用快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择得到表征分类相关性高且基因冗余性低的候选基因子集,并将候选基因子集中的基因标记为候选基因;
将原始基因数据集中除候选基因子集外的剩余基因标记为非候选基因,将非候选基因归置于同一子集得到非候选基因子集。
作为本发明的一种优选方案,所述基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充,包括:
步骤1、选取10组颅内动脉瘤破裂分类模型,利用10折交叉验证获取10组颅内动脉瘤破裂分类模型的平均分类准确度作为所述模型分类准确度,利用主成分分析法获取非候选基因的数据贡献度作为所述基因重要性,所述颅内动脉瘤破裂分类模型用于利用颅内动脉瘤破裂基因得到颅内动脉瘤破裂分类标签的;
步骤2、将基因重要性高于预设重要度的非候选基因组合为补充基因集;
步骤3、依次将补充基因集中各个非候选基因逐个补充至候选基因子集得到多个补充候选基因子集,计算出每个补充候选基因子集的模型分类准确度并保留最高模型分类准确度对应的补充候选基因子集作为最优候选基因子集,在补充基因集中删除补充至最优候选基因子集的非候选基因;
步骤4、重复步骤3,直至最优候选基因子集中候选基因数量固定于一定值不再增加。
作为本发明的一种优选方案,所述利用主成分分析法获取非候选基因的数据贡献度,包括:
利用主成分分析法对原始基因数据集进行主成分分析得到原始基因数据集中各个基因的数据贡献度,并在原始基因数据集中各个基因的数据贡献度中查询出非候选基因的数据贡献度。
作为本发明的一种优选方案,所述最优基因子集的获取,包括:
利用最优基因子集的基因数据总量和模型分类准确度构建出粒子群搜索策略的动态适应度函数,所述动态适应度函数的函数表达式为:
式中,F i 为粒子群搜索策略中第 i次迭代搜索处的适应度值,Len i 为粒子群搜索策略中第 i次迭代搜索得到的最优基因子集的基因数据总量,P i 为粒子群搜索策略中第 i次迭代搜索得到的最优基因子集的模型分类准确度,W为Len i 的动态加权权重,V为P i 的动态加权权重;
以第 i次迭代搜索处最优基因子集的基因数量构建W和V,以实现在基因数量少时侧重提升P i 的在适应度值中的权重,在基因数量多时侧重提升Len i 的在适应度值中的权重,所述W和V的函数表达式为:
式中,K为最优候选基因子集中的候选基因数量,L i 为第 i次迭代搜索得到最优基因子集中基因数量,N为迭代搜索总次数,lenr i 为第 i次迭代搜索得的最优基因子集中的基因数据总量,lenR i 为第 i次迭代搜索得的最优候选基因子集中的基因数据总量,所述基因数据总量为各个基因与各个基因的数据量乘积之和;
利用基于多层感知机分类器封装式特征选择方法,以动态适应度函数引入粒子群搜索策略对最优候选基因子集进行二次特征选择得到最优基因子集。
作为本发明的一种优选方案,所述原始基因数据集中各个基因进行数据归一化处理。
作为本发明的一种优选方案,所述颅内动脉瘤破裂分类模型的模型参数利用核函数进行设定。
作为本发明的一种优选方案,所述将最优基因子集中所有基因均作为颅内动脉瘤破裂关键基因。
作为本发明的一种优选方案,所述多层感知机分类器利用学习率、迭代周期数、隐藏层数、每层的隐藏单元数进行联合优化以提升最优基因子集获取的收敛速度。
作为本发明的一种优选方案,所述平均分类准确度为利用10折交叉验证得到的10组颅内动脉瘤破裂分类模型的10组分类准确度的平均值。
本发明与现有技术相比较具有如下有益效果:
本发明是基于多层感知机的过滤-封装式组合基因选择方法,由于采用快速关联的过滤算法过滤式基因选择法,能够快速去除冗余基因,可以显著降低后续基因子集筛选的计算复杂度;又由于在生成的候选基因子集上,采用基于支多层感知机分类器封装式基因选择方法,引入改进的粒子群搜索策略进行二次基因选择,选择具有强区分能力的最优基因子集,克服关键基因被误删,以及基因评价结果与最终分类算法存在偏差的问题,从而显著提高基因表达在相关疾病中的分类精度。该方法科学合理,适用性强,可广泛适用于高维小样本组学数据的处理。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的颅内动脉瘤破裂关键基因筛选方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法,其特征在于,包括以下步骤:
步骤S1、利用基于快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择得到表征分类相关性高且基因冗余性低的候选基因子集和非候选基因子集,基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充,以避免过滤掉重要基因使得关键基因有机会进入最优基因子集;
候选基因子集和非候选基因子集的获取,包括:
利用Spearman秩相关系数构建分类相关性,以及利用协方差构建基因冗余性,基因冗余性衡量候选基因子集中候选基因间的冗余性,分量相关性为衡量候选基因子集中候选基因与颅内动脉瘤破裂分类标签间的相关性;
将最高分类相关性和最低基因冗余性作为快速关联的过滤算法的目标函数,并以目标函数利用快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择得到表征分类相关性高且基因冗余性低的候选基因子集,并将候选基因子集中的基因标记为候选基因;
将原始基因数据集中除候选基因子集外的剩余基因标记为非候选基因,将非候选基因归置于同一子集得到非候选基因子集。
基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充,包括:
步骤1、选取10组颅内动脉瘤破裂分类模型,利用10折交叉验证获取10组颅内动脉瘤破裂分类模型的平均分类准确度作为模型分类准确度,利用主成分分析法获取非候选基因的数据贡献度作为基因重要性,颅内动脉瘤破裂分类模型用于利用颅内动脉瘤破裂基因得到颅内动脉瘤破裂分类标签的;
步骤2、将基因重要性高于预设重要度的非候选基因组合为补充基因集;
步骤3、依次将补充基因集中各个非候选基因逐个补充至候选基因子集得到多个补充候选基因子集,计算出每个补充候选基因子集的模型分类准确度并保留最高模型分类准确度对应的补充候选基因子集作为最优候选基因子集,在补充基因集中删除补充至最优候选基因子集的非候选基因;
步骤4、重复步骤3,直至最优候选基因子集中候选基因数量固定于一定值不再增加。
利用主成分分析法获取非候选基因的数据贡献度,包括:
利用主成分分析法对原始基因数据集进行主成分分析得到原始基因数据集中各个基因的数据贡献度,并在原始基因数据集中各个基因的数据贡献度中查询出非候选基因的数据贡献度。
利用基于快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择,是一种算法的核心思想是通过对称不确定性方法(Symmetr ical Uncerta inty,SU)作为度量标准衡量两个特征的相关性。该算法有效删除高维数据中冗余和不相关的特征,挖掘出与分类标签即分类类别最大相关的特征,是一种过滤式特征筛选方法,是按照特定规则筛选出一些特征,所以可能会存在遗漏一些对分类结果起重要作用的特征的弊端,因此本实施例提供了基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充,以避免过滤掉重要基因使得关键基因有机会进入最优基因子集,其中,主成分分析可以分析出每个基因在进行模型分类时的数据贡献度,贡献度越高则表明该基因在进行模型分类是的重要性越高,模型分类准确度越高,则表明补充进候选基因子集中的基因对模型分类的分类效果越有益,将被误删进非候选基因子集中但数据重要性高且对提高模型分类准确度有助益的非候选基因恢复为候选基因,本实施例为提高分类准确率,使过滤掉的重要特征有机会选入最优的特征子集。
步骤S2、利用基于多层感知机分类器封装式特征选择方法,引入粒子群搜索策略及建立动态适应度函数进行二次特征选择得到最优基因子集,以实现获取模型分类准确度的最优化表达的颅内动脉瘤破裂关键基因。
在经过第一阶段的过滤式特征选择后的候选特征子集,及数据集S上进行封装式二次特征选择,基于多层感知机(MLP)学习算法,引入基于改进的二进制粒子群的搜索策略,再次选择出具有高分类准确率的最优特征子集,最终将过滤-封装式组合的混合式特征选择模型选出的最优特征子集。
最优基因子集的获取,包括:
利用最优基因子集的基因数据总量和模型分类准确度构建出粒子群搜索策略的动态适应度函数,动态适应度函数的函数表达式为:
式中,F i 为粒子群搜索策略中第 i次迭代搜索处的适应度值,Len i 为粒子群搜索策略中第 i次迭代搜索得到的最优基因子集的基因数据总量,P i 为粒子群搜索策略中第 i次迭代搜索得到的最优基因子集的模型分类准确度,W为Len i 的动态加权权重,V为P i 的动态加权权重;
以第 i次迭代搜索处最优基因子集的基因数量构建W和V,以实现在基因数量少时侧重提升P i 的在适应度值中的权重,在基因数量多时侧重提升Len i 的在适应度值中的权重,W和V的函数表达式为:
 ;
式中,K为最优候选基因子集中的候选基因数量,L i 为第 i次迭代搜索得到最优基因子集中基因数量,N为迭代搜索总次数,lenr i 为第 i次迭代搜索得的最优基因子集中的基因数据总量,lenR i 为第 i次迭代搜索得的最优候选基因子集中的基因数据总量,基因数据总量为各个基因与各个基因的数据量乘积之和;
利用基于多层感知机分类器封装式特征选择方法,以动态适应度函数引入粒子群搜索策略对最优候选基因子集进行二次特征选择得到最优基因子集。
本实施例将适应度函数设定为动态形式,在粒子群搜索策略中初期最优基因子集中基因数量少,则将适应度值侧重于衡量最优基因子集对模型分类准确度,即侧重于模型分类的有效性度量,则随着搜索中后期的到来,最优基因子集中基因数量增多,将适应度值侧重于衡量最优基因子集对基因数据总量,即侧重于模型分类的速率性度量,在初期W接近于0,V接近于1,而中后期W逐渐增加至1,V逐渐降低至0,实质是在初期基因数量少,颅内动脉瘤破裂分类模型运算处理的数量量小,速率本身就高,此时以最优基因子集进行模型分类准确度度量为主进行适应度评价即可,因此将基因数据总量的权重W设定较低,模型分类准确度的权重V设定较高,而后期随着最优基因子集中基因数量的增多,颅内动脉瘤破裂分类模型运算处理的数量量增多,速率降低,此时需要对基因数量进行限定,期望其增加速率减慢,避免造成数据冗余,而且在中后期模型分类准确度也趋于稳定,不一定会根据基因数量增加而改变,因此对以最优基因子集中基因数据总量为主进行适应度评价即可,因此该动态适应度函数能够实现保证获得的最优基因子集具有高模型分类有效性同时具有高模型运算速率。
原始基因数据集中各个基因进行数据归一化处理。
颅内动脉瘤破裂分类模型的模型参数利用核函数进行设定。
将最优基因子集中所有基因均作为颅内动脉瘤破裂关键基因。
多层感知机分类器利用学习率、迭代周期数、隐藏层数、每层的隐藏单元数进行联合优化以提升最优基因子集获取的收敛速度。
平均分类准确度为利用10折交叉验证得到的10组颅内动脉瘤破裂分类模型的10组分类准确度的平均值。
本发明基于多层感知机的过滤-封装式组合基因选择方法,由于采用快速关联的过滤算法过滤式基因选择法,能够快速去除冗余基因,可以显著降低后续基因子集筛选的计算复杂度;又由于在生成的候选基因子集上,采用基于支多层感知机分类器封装式基因选择方法,引入改进的粒子群搜索策略进行二次基因选择,选择具有强区分能力的最优基因子集,克服关键基因被误删,以及基因评价结果与最终分类算法存在偏差的问题,从而显著提高基因表达在相关疾病中的分类精度。该方法科学合理,适用性强,可广泛适用于高维小样本组学数据的处理。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (6)

1.一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法,其特征在于,包括以下步骤:
步骤S1、利用基于快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择得到表征分类相关性高且基因冗余性低的候选基因子集和非候选基因子集,基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充,以避免过滤掉重要基因使得关键基因有机会进入最优基因子集;
步骤S2、利用基于多层感知机分类器封装式特征选择方法,引入粒子群搜索策略及建立动态适应度函数进行二次特征选择得到最优基因子集,以实现获取模型分类准确度的最优化表达的颅内动脉瘤破裂关键基因;
基于候选基因子集的模型分类准确度和基因重要性在非候选基因子集中向候选基因子集中进行关键基因的补充,包括:
步骤1、选取10组颅内动脉瘤破裂分类模型,利用10折交叉验证获取10组颅内动脉瘤破裂分类模型的平均分类准确度作为模型分类准确度,利用主成分分析法获取非候选基因的数据贡献度作为基因重要性,颅内动脉瘤破裂分类模型用于利用颅内动脉瘤破裂基因得到颅内动脉瘤破裂分类标签的;
步骤2、将基因重要性高于预设重要度的非候选基因组合为补充基因集;
步骤3、依次将补充基因集中各个非候选基因逐个补充至候选基因子集得到多个补充候选基因子集,计算出每个补充候选基因子集的模型分类准确度并保留最高模型分类准确度对应的补充候选基因子集作为最优候选基因子集,在补充基因集中删除补充至最优候选基因子集的非候选基因;
步骤4、重复步骤3,直至最优候选基因子集中候选基因数量固定于一定值不再增加;
利用主成分分析法获取非候选基因的数据贡献度,包括:
利用主成分分析法对原始基因数据集进行主成分分析得到原始基因数据集中各个基因的数据贡献度,并在原始基因数据集中各个基因的数据贡献度中查询出非候选基因的数据贡献度;
最优基因子集的获取,包括:
利用最优基因子集的基因数据总量和模型分类准确度构建出粒子群搜索策略的动态适应度函数,动态适应度函数的函数表达式为:
式中,F i 为粒子群搜索策略中第i次迭代搜索处的适应度值,Len i 为粒子群搜索策略中第i次迭代搜索得到的最优基因子集的基因数据总量,P i 为粒子群搜索策略中第i次迭代搜索得到的最优基因子集的模型分类准确度,W为Len i 的动态加权权重,V为P i 的动态加权权重;
以第i次迭代搜索处最优基因子集的基因数量构建W和V,以实现在基因数量少时侧重提升P i 的在适应度值中的权重,在基因数量多时侧重提升Len i 的在适应度值中的权重,W和V的函数表达式为: 式中,K为最优候选基因子集中的候选基因数量,L i 为第i次迭代搜索得到最优基因子集中基因数量,N为迭代搜索总次数,lenr i 为第i次迭代搜索得的最优基因子集中的基因数据总量,lenR i 为第i次迭代搜索得的最优候选基因子集中的基因数据总量,基因数据总量为各个基因与各个基因的数据量乘积之和;
利用基于多层感知机分类器封装式特征选择方法,以动态适应度函数引入粒子群搜索策略对最优候选基因子集进行二次特征选择得到最优基因子集。
2.根据权利要求1所述的一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法,其特征在于:所述候选基因子集和非候选基因子集的获取,包括:
利用Spearman秩相关系数构建分类相关性,以及利用协方差构建基因冗余性,所述基因冗余性衡量候选基因子集中候选基因间的冗余性,所述分类相关性为衡量候选基因子集中候选基因与颅内动脉瘤破裂分类标签间的相关性;
将最高分类相关性和最低基因冗余性作为快速关联的过滤算法的目标函数,并以所述目标函数利用快速关联的过滤算法对颅内动脉瘤破裂的原始基因数据集进行初次特征选择得到表征分类相关性高且基因冗余性低的候选基因子集,并将候选基因子集中的基因标记为候选基因;
将原始基因数据集中除候选基因子集外的剩余基因标记为非候选基因,将非候选基因归置于同一子集得到非候选基因子集。
3.根据权利要求1所述的一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法,其特征在于:所述原始基因数据集中各个基因进行数据归一化处理。
4.根据权利要求1所述的一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法,其特征在于,所述颅内动脉瘤破裂分类模型的模型参数利用核函数进行设定。
5.根据权利要求1所述的一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法,其特征在于,将最优基因子集中所有基因均作为颅内动脉瘤破裂关键基因。
6.根据权利要求1所述的一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法,其特征在于,所述多层感知机分类器利用学习率、迭代周期数、隐藏层数、每层的隐藏单元数进行联合优化以提升最优基因子集获取的收敛速度。
CN202211131995.6A 2022-09-16 2022-09-16 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法 Active CN115588467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211131995.6A CN115588467B (zh) 2022-09-16 2022-09-16 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211131995.6A CN115588467B (zh) 2022-09-16 2022-09-16 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法

Publications (2)

Publication Number Publication Date
CN115588467A CN115588467A (zh) 2023-01-10
CN115588467B true CN115588467B (zh) 2023-05-09

Family

ID=84777952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211131995.6A Active CN115588467B (zh) 2022-09-16 2022-09-16 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法

Country Status (1)

Country Link
CN (1) CN115588467B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2009314502A1 (en) * 2008-11-17 2010-05-20 Veracyte, Inc. Methods and compositions of molecular profiling for disease diagnostics
CN106548041A (zh) * 2016-12-08 2017-03-29 江苏大学 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN108985010A (zh) * 2018-06-15 2018-12-11 河南师范大学 基因分类方法与装置
CN110177886A (zh) * 2017-04-24 2019-08-27 洛博生物科技有限公司 基于胃癌生物学特征的集群分类及预后预测系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951728B (zh) * 2017-03-03 2020-08-28 江苏大学 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
JP7195033B2 (ja) * 2017-07-18 2022-12-23 ザ リサーチ ファウンデイション フォー ザ ステイト ユニバーシティー オブ ニューヨーク 頭蓋内動脈瘤のためのバイオマーカー
CN112394743B (zh) * 2020-10-12 2021-12-10 天津航天中为数据系统科技有限公司 一种电力杆塔巡检航线危险点检测的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2009314502A1 (en) * 2008-11-17 2010-05-20 Veracyte, Inc. Methods and compositions of molecular profiling for disease diagnostics
CN106548041A (zh) * 2016-12-08 2017-03-29 江苏大学 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN110177886A (zh) * 2017-04-24 2019-08-27 洛博生物科技有限公司 基于胃癌生物学特征的集群分类及预后预测系统
CN108985010A (zh) * 2018-06-15 2018-12-11 河南师范大学 基因分类方法与装置

Also Published As

Publication number Publication date
CN115588467A (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
US10402748B2 (en) Machine learning methods and systems for identifying patterns in data
CN114787876A (zh) 用于图像预处理的系统和方法
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
Bhanot et al. A robust meta‐classification strategy for cancer detection from MS data
CN112927757B (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
CN104598774A (zh) 基于logistic与相关信息熵的特征基因选择方法
Golugula et al. Evaluating feature selection strategies for high dimensional, small sample size datasets
US8572006B2 (en) Method for multi-layer classifier
WO2023197825A1 (zh) 多癌种早筛模型构建方法以及检测装置
CN113963182A (zh) 基于多尺度空洞卷积注意力网络的高光谱影像分类方法
Bennet et al. A Hybrid Approach for Gene Selection and Classification Using Support Vector Machine.
CN113643756A (zh) 一种基于深度学习的蛋白质相互作用位点预测方法
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
Morovvat et al. An ensemble of filters and wrappers for microarray data classification
CN115588467B (zh) 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
KR20100001177A (ko) 주성분 분석을 이용한 유전자 선택 알고리즘
CN115206422A (zh) 质谱谱图解析方法、装置及智能终端
CN111354415B (zh) 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
Bosio et al. Gene expression data classification combining hierarchical representation and efficient feature selection
CN113160881B (zh) 一种基于mRMR和MBFA的高维数据特征选择方法
CN114512188B (zh) 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant