CN111354415A - 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法 - Google Patents

基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法 Download PDF

Info

Publication number
CN111354415A
CN111354415A CN202010097216.XA CN202010097216A CN111354415A CN 111354415 A CN111354415 A CN 111354415A CN 202010097216 A CN202010097216 A CN 202010097216A CN 111354415 A CN111354415 A CN 111354415A
Authority
CN
China
Prior art keywords
particle
gene
mouse
screening
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010097216.XA
Other languages
English (en)
Other versions
CN111354415B (zh
Inventor
韩飞
温猛猛
汤智豪
管天华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202010097216.XA priority Critical patent/CN111354415B/zh
Publication of CN111354415A publication Critical patent/CN111354415A/zh
Application granted granted Critical
Publication of CN111354415B publication Critical patent/CN111354415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,该方法首先对原始小鼠脑皮层蛋白质检测随机将原始数据集分为两部份:训练集和测试集,分别用于粒子群的优化和最终结果的测试;然后对数据集进行维度提取,用于初始化种群获得原始种群;计算初始种群中每一维度基因的适应度,决定该维度的基因是否被选中,根据选中基因计算该粒子预测的正确率,识别出检测小鼠唐氏综合征的关键类别蛋白质。在粒子群优化方面,本发明相比于传统的小鼠唐氏综合征关键蛋白质筛选方法,本方法能过在原始数据集里快速高效地识别出数目较少且分类性能较好的关键特征子集。

Description

基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征 关键蛋白质筛选方法
技术领域
本发明属于特征选择的计算机分析技术的应用领域,一种基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法。
背景技术
模式识别可用于医学诊断和遥感、语音和文字识别等方面。该方法应用计算机技术对一组过程或事件进行分类或者辨识,所识别的数据、过程或事件等可以是声音、图像、文字等具体对象,也可以是抽象对象,如状态、程度等。这些对象以及数字形式等的信息数据相区别,被称为模式信息。具体应用中,在X射线照片分析、癌细胞检测、染色体分析、血液化验、脑电图诊断和心电图诊断等方面,该方法已经取得了诸多成效。
特征选择,也被称为特征子集选择,或者属性选择。它是模式识别方法中关键的预处理步骤,此方法侧重于通过减少无关、冗余或嘈杂的基因从原始表达数据集中筛选出最佳的基因子集。特征选择在算法中可以分为两个问题:一个是特征子集搜索问题,另外一个则是特征子集的评价问题。根据算法中特征基因与目标类别序列评估方法的不同,特征选择主要可以分为过滤法,封装法以及混合法。过滤法不使用分类器进行特征子集的评价,而且多数的过滤法不会将特征基因相互之间的关联性考虑进来,常见的操作方法是使用粗糙集算法,计算决定子集对于特征子集的依赖程度。封装法是将分类器和预定的学习算法集成,根据预测的准确度对最佳特征子集进行分组。虽然过滤法相较封装法具有更好的表现,但是后者在分类性能方面要比前者表现更好。混合法是将过滤法和封装法相结合的一种特征选择方法,利用二者的各自的优势互补以期能够获得更加优越的性能。
微粒群优化算法(Particle Swarm Optimization,PSO)具有比较强的全局搜索能力,并且其收敛速度较快。PSO相较于传统遗传算法而言,不需要进行过程繁琐的遗传操作,同时需要调用的参数较少,便于实现,因此近年来该算法在特征选择的特征子集搜索问题上被广泛应用。通常,特征选择是一个单目标问题,它主要是提高对原始数据集筛选后提高属性子集对于决定分类的预测性能,如预测的准确率或者决定分类对于特征子集的依赖程度。骨架粒子群优化算法(BBPSO)进一步减少了PSO法在运算过程中所需要的参数,在种群中粒子的位置进行更新是,舍弃了速度更新公式,进而舍弃了粒子的惯性因子和两个学习因子,只考虑粒子的历史最优点和种群全局最优点,利用高斯分布获取的随机位置进行更新。基于基因强化的粒子群算法(GEPSO)使用随机的选择参数对特征基因子集进行筛选,该算法考虑到选择参数较小时的情况,若选中的基因因较小的选择参数而被选中且预测性能较好时,被选中的基因可能不足以引导其他粒子的更新,所以该算法在迭代过程中对于所有被选中的基因进行强化。尽管上述方法都在一定程度上提高了算法的收敛性或多样性,但在面对诸如多模态问题或者非凸问题时等复杂问题时,这些算法的性能常常会有所降低。此外,如果在迭代过程中未产生新的全局最优解,且同时某些粒子未产生新的历史最优解,则这些粒子的搜索范围就会被限制在一定范围内,在实践过程中,增强特征子集的的预测性能是特征选择的主要目的必然有更高的概率会陷入局部最优。
发明内容
发明目的:提出一种基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,此方法能够筛选出与小鼠唐氏综合征类别相关度高的特征基因子集。
技术方案:一种基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,包括对于原始数据集进行分类,对于预测性能较好的特征基因子集进行定向强化,在更新公式中引入粒子自身位置,在不增加计算成本的同时扩大粒子在邻域内的搜索范围:
步骤1蛋白质检测数据的预处理,包括把原始数据集分成训练集和测试集,分别用于种群迭代过程的适应度计算和最终筛选结果的测试;
步骤2提取出蛋白质检测数据集的维度,也即检测的蛋白质的种类对粒子群进行均匀初始化,粒子的每一维度代表该种类型蛋白质被选中的概率;
步骤3根据粒子每一维度的值选出相应特征维度,计算蛋白质筛选粒子选择的正确率;
步骤4提出改进的粒子基因增强算法,对于表现较好且强度较低蛋白质筛选粒子进行基因增强;
步骤5根据正确率选出当前的领导粒子,并使用引入粒子当前位置的方法对粒子的位置进行更新,然后进入步骤3;
步骤6如果满足终止条件转到步骤7,否则进入步骤5;
步骤7输出最终筛选出的关键蛋白质及其在测试集上的正确率;
进一步,所述步骤1中包含下列步骤:
步骤1.1载入原始蛋白质检测数据集,并按照小鼠种类、实验环境和测试方法对原始数据集进行重新分类,分类标准如表1:
表1本发明对于原始数据集的重新分类
Figure BDA0002385492380000031
其中Genotype列指实验小鼠的基因型,分为正常Control基因型和唐氏综合征Ts65Dn基因型,Treatment指对小鼠的治疗方式,分为注射美金刚胺(Memantine)和注射生理盐水(Saline),Behavior指是否通过外部刺激激发小鼠学习,分为激发学习(C/S)和不激发学习(S/C);
步骤1.2将重新分类的数据集按照7:3的比例划分训练集和测试集
步骤1.3使用10折交叉法将训练集随机等分为10个子集,训练过程中不重复地选取其中一个子集作为当前测试集,其余九份作为当前训练集。
进一步,所述步骤2中包含下列步骤:
步骤2.1初始化算法的参数,根据处理后的数据集的维度获取待初始化的粒子的维度,函数的上下界限定,初始化筛选因子VLim;
步骤2.2初始化蛋白质筛选种群的种群大小,迭代次数,随机初始化n个筛选粒子的维度、位置,本发明采用均匀初始化的方法,即让n个蛋白质筛选粒子的位置,均匀的分布在函数的上界与下界之间,使得初始化的蛋白质筛选粒子能够布满整个决策空间;
进一步,所述步骤3中包含下列步骤:
步骤3.1蛋白质筛选粒子的每一维度表示该维度所表示蛋白质种类被选中的概率,将粒子所有大于筛选因子VLim的维度选出并保存;
步骤3.2根据选出的维度在利用10折交叉验证法选出训练集数据中的1份对当前粒子进行测试,得到测试结果正确率Ei,重复本步骤直至训练集所有数据被选完计算方式见公式1,其中TP指判断为正向的的正确率,TN为判断为负向的正确率,FP为漏报率(即将负向判断为正向),FN为漏报率(即将正向判断为负向);
步骤3.3根据公式2计算出当前蛋白质筛选粒子的适应度即正确率,其中k为交叉验证过程中折叠次数,也即训练集的分组数;
Ei=(FP+FN)/(FP+FN+TP+TN) (1)
Figure BDA0002385492380000041
步骤3.3将ErrorRate作为适应度函数F。
进一步,所述步骤4中包含下列步骤:
步骤4.1根据步骤3中选中的特征基因,获取当前粒子的特征基因子集,按找公式3计算特征基因子集的基因强度均值,其中xi为选中基因的强度,n为选中的特征基因的个数;
Figure BDA0002385492380000042
步骤4.2比较粒子当前正确率并于其历史最优点Pbest比较,根据公式4对当前粒子进行基因增强,Xi代表当前蛋白质筛选粒子其中xij代表蛋白质筛选粒子的基因强度,对于每一个蛋白质筛选粒子,其基因被选中的条件是大于初始化过程中所确定的随机数VLim,采用随机数对粒子进行筛选的目的是为了确保在多次实验过程中具有不同的选择压力(VLim越小选择压力越小,VLim越大选择压力越大),进而得出在不同选择压力下的筛选结果,本发明提出的基因增强算法只针对蛋白质筛选粒子之中选中的特征基因中基因强度弱于所有选中的特征基因强度的特征基因,相对于传统的基因增强算法不会出现对于强度较高的基因的增强或是对于选中基因的重复增强;
Figure BDA0002385492380000043
进一步,所述步骤5中包含下列步骤:
步骤5.1比较所有粒子的历史最优解Pbest,从中选出适应度最好,也即正确率最低的一个作为粒子位置更新的引导粒子Gbest;
步骤5.2本发明提出了一种引入当前粒子位置的骨架粒子群算法的更新公式,公式5表示粒子位置更新时期望位置的选取,其中Pbestij(t)表示第i个粒子Xi的历史最有点在第j维特征基因的强度,Gbestj(t)表示全局最优点在第j维特征基因的强度,mid表示Xi的历史最优点和全局最优点在每一维上的中点,Xij为Xi在第j维特征基因的强度,μij表示Xij与mid的中点,传统骨架粒子群更新算法在计算粒子更新期望位置时只考虑当前粒子历史最优解和全局最优解,对某个粒子而言若更新后未产生新的历史最优点和全局最优点,则其搜索范围仍与上次更新相同,将粒子本身位置引入后,大大扩展了粒子在决策空间内的搜索范围;
Figure BDA0002385492380000051
步骤5.3使用公式6更新粒子的位置,当rand随机数小于0.5时,执行位置更新操作,更新的位置为以μij为中心、以历史最优点Pbest和全局最优点Gbest为方差的正太分布下的随机位置,当rand大于0.5时则将当前粒子直接移动到其历史最优点Pbest;
Figure BDA0002385492380000052
进一步,所述步骤6中包含下列步骤:
步骤6.1判断这里的多目标粒子算法是否满足终止条件,若满足终止条件,保存当前全局最优解;
步骤6.2若不满足终止条件,则转入步骤3;
进一步,所述步骤7中包含下列步骤:
步骤7.1根据保存的最优粒子得出最终筛选出的关键蛋白质类别,并计算在测试集上的正确率;
步骤7.2输出最终筛选出的蛋白质类别,输出在测试集和训练集上的正确率。
本发明具有以下技术效果:本发明提出的基因增强算法只针对蛋白质筛选粒子之中选中的特征基因中基因强度弱于所有选中的特征基因强度的特征基因,相对于传统的基因增强算法不会出现对于强度较高的基因的增强或是对于选中基因的重复增强,从而在保证对于特征子类筛选的正确性的同时使得算法避免过早收敛;本发明提出了一种新的粒子更新算法,传统骨架粒子群更新算法在计算粒子更新期望位置时只考虑当前粒子历史最优解和全局最优解,对某个粒子而言若更新后未产生新的历史最优点和全局最优点,则其搜索范围仍与上次更新相同,将粒子本身位置引入后,大大扩展了粒子在决策空间内的搜索范围。
附图说明
图1是本发明的特征选取示意图;
图2是本发明的设计结构框图;
具体实施方式
一种基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,包括对于原始数据集进行分类,对于预测性能较好的特征基因子集进行定向强化,在更新公式中引入粒子自身位置,在不增加计算成本的同时扩大粒子在邻域内的搜索范围:
步骤1蛋白质检测数据的预处理,包括把原始数据集分成训练集和测试集,分别用于种群迭代过程的适应度计算和最终筛选结果的测试;
步骤2提取出蛋白质检测数据集的维度,也即检测的蛋白质的种类对粒子群进行均匀初始化,粒子的每一维度代表该种类型蛋白质被选中的概率;
步骤3根据粒子每一维度的值选出相应特征维度,计算蛋白质筛选粒子选择的正确率;
步骤4提出改进的粒子基因增强算法,对于表现较好且强度较低蛋白质筛选粒子进行基因增强;
步骤5根据正确率选出当前的领导粒子,并使用引入粒子当前位置的方法对粒子的位置进行更新,然后进入步骤3;
步骤6如果满足终止条件转到步骤7,否则进入步骤5;
步骤7输出最终筛选出的关键蛋白质及其在测试集上的正确率;
进一步,所述步骤1中包含下列步骤:
表1本发明对于原始数据集的重新分类
Figure BDA0002385492380000061
其中Genotype列指实验小鼠的基因型,分为正常Control基因型和唐氏综合征Ts65Dn基因型,Treatment指对小鼠的治疗方式,分为注射美金刚胺(Memantine)和注射生理盐水(Saline),Behavior指是否通过外部刺激激发小鼠学习,分为激发学习(C/S)和不激发学习(S/C);
步骤1.1载入原始蛋白质检测数据集,并按照小鼠种类、实验环境和测试方法对原始数据集进行重新分类,分类标准如表1;
步骤1.2将重新分类的数据集按照7:3的比例划分训练集和测试集;
步骤1.3使用10折交叉法将训练集随机等分为10个子集,训练过程中不重复地选取其中一个子集作为当前测试集,其余九份作为当前训练集。
上述述步骤2中包含下列步骤:
步骤2.1初始化算法的参数,根据处理后的数据集的维度获取待初始化的粒子的维度,函数的上下界限定,初始化筛选因子VLim;
步骤2.2初始化蛋白质筛选种群的种群大小,迭代次数,随机初始化n个筛选粒子的维度、位置,本发明采用均匀初始化的方法,即让n个蛋白质筛选粒子的位置,均匀的分布在函数的上界与下界之间,使得初始化的蛋白质筛选粒子能够布满整个决策空间;
上述步骤3中包含下列步骤:
步骤3.1蛋白质筛选粒子的每一维度表示该维度所表示蛋白质种类被选中的概率,将粒子所有大于筛选因子VLim的维度选出并保存;
步骤3.2根据选出的维度在利用10折交叉验证法选出训练集数据中的1份对当前粒子进行测试,得到测试结果正确率Ei,重复本步骤直至训练集所有数据被选完计算方式见公式1,其中TP指判断为正向的的正确率,TN为判断为负向的正确率,FP为漏报率(即将负向判断为正向),FN为漏报率(即将正向判断为负向);
步骤3.3根据公式2计算出当前蛋白质筛选粒子的适应度即正确率,其中k为交叉验证过程中折叠次数,也即训练集的分组数;
Ei=(FP+FN)/(FP+FN+TP+TN) (1)
Figure BDA0002385492380000071
步骤3.3将ErrorRate作为适应度函数F。
上述步骤4中包含下列步骤:
步骤4.1根据步骤3中选中的特征基因,获取当前粒子的特征基因子集,按找公式3计算特征基因子集的基因强度均值,其中xi为选中基因的强度,n为选中的特征基因的个数;
Figure BDA0002385492380000072
步骤4.2比较粒子当前正确率并于其历史最优点Pbest比较,根据公式4对当前粒子进行基因增强,Xi代表当前蛋白质筛选粒子,其中xij代表蛋白质筛选粒子的基因强度,当前粒子适应度F(Xi(t+1))的适应度大于其历史最优点的适应度F(Pbesti(t))时对其较弱的特征基因执行基因增强,对于每一个蛋白质筛选粒子,其基因被选中的条件是大于初始化过程中所确定的随机数VLim,采用随机数对粒子进行筛选的目的是为了确保在多次实验过程中具有不同的选择压力(VLim越小选择压力越小,VLim越大选择压力越大),进而得出在不同选择压力下的筛选结果,本发明提出的基因增强算法只针对蛋白质筛选粒子之中选中的特征基因中基因强度弱于所有选中的特征基因强度的特征基因,相对于传统的基因增强算法不会出现对于强度较高的基因的增强或是对于选中基因的重复增强;如图1所示。
Figure BDA0002385492380000081
上述步骤5中包含下列步骤:
步骤5.1比较所有粒子的历史最优解Pbest,从中选出适应度最好,也即正确率最低的一个作为粒子位置更新的引导粒子Gbest;
步骤5.2本发明提出了一种引入当前粒子位置的骨架粒子群算法的更新公式,公式5表示粒子位置更新时期望位置的选取,其中Pbestij(t)表示第i个粒子Xi的历史最有点在第j维特征基因的强度,Gbestj(t)表示全局最优点在第j维特征基因的强度,mid表示Xi的历史最优点和全局最优点在每一维上的中点,Xij为Xi在第j维特征基因的强度,μij表示Xij与mid的中点,传统骨架粒子群更新算法在计算粒子更新期望位置时只考虑当前粒子历史最优解和全局最优解,对某个粒子而言若更新后未产生新的历史最优点和全局最优点,则其搜索范围仍与上次更新相同,将粒子本身位置引入后,大大扩展了粒子在决策空间内的搜索范围;
Figure BDA0002385492380000082
步骤5.3使用公式6更新粒子的位置,当rand随机数小于0.5时,执行位置更新操作,更新的位置为以μij为中心、以历史最优点Pbest和全局最优点Gbest为方差的正太分布下的随机位置,当rand大于0.5时则将当前粒子直接移动到其历史最优点Pbest;
Figure BDA0002385492380000083
上述步骤6中包含下列步骤:
步骤6.1判断这里的多目标粒子算法是否满足终止条件,若满足终止条件,保存当前全局最优解;
步骤6.2若不满足终止条件,则转入步骤3;
上述步骤7中包含下列步骤:
步骤7.1根据保存的最优粒子得出最终筛选出的关键蛋白质类别,并计算在测试集上的正确率;
步骤7.2输出最终筛选出的蛋白质类别,输出在测试集和训练集上的正确率。
针对传统BBPSO搜索方式搜索范围小容易过早收敛的问题,以及针对面对较小选择因子时的基因退化问题,本发明提出基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,用于获取更有效的特征基因子集,进而提高小鼠唐氏综合征识别的精度。
面以小鼠唐氏综合征蛋白质检测数据为例,来简单地描述本发明执行的过程。本实例选择不同检测方式下唐氏综合征(Down Syndrome)蛋白质检测数据集,总共包含1080个样本,主要有八种类型:患有唐氏综合征的34只小鼠和38只正常小鼠分别在不同的习性和不同的检测方法下检测的蛋白质数据。每个样本包含77个蛋白质检测基因,数据集来源于https://archive.ics.uci.edu/ml/datasets/Mice+Protein+Expression#。尽管对于小鼠的基因型种类只有两个类别,但由于不同的实验方法以及对于小鼠行为的分类,最终的主要分类达到八个,另外由于样本的数量较多,所以计算的成本也相对较高。本发明在这个数据集上具体操作的步骤如下:
如图2所示,一种基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,包括利用分类信息指数对原始特征基因进行初步筛选,然后利用获取到的数据维度粒子进行编码及初始化,以及利用基于定向基因强化改进的骨架粒子群优化算法的步骤,包括以下步骤:
(1)载入原始数据集,将原始数据集按元由的多元分类重新分类,形成单一分类的数据集,并以7:3的比例将原始数据集随机分为训练子集和测试子集,其中训练子集样本756个,测试子集样本324个,形成初始的基因池。
(2)获取处理后初始数据集的基因维度,对种群中的粒子进行初始化,粒子的基因随机初始化为[0,1]内的随机数,初始化选择因子VLim为[0,1]内的随机数,粒子所有维度的集合表示其在种群多维邻域中的位置,粒子的位置某一坐标维度上的越过VLim就表示该粒子对应维度的特征基因被选中,反之若小于选择因子VLim就表示未被选中,由于选择因子是在初始化阶段随机获取的,表示在多次实验中不同的选择压力。
(3)设置粒子群算法的评价指标,本发明中选择封装法中的准确率作为评价指标。f为准确率acc(i),它表示的是第i个粒子在验证子集上的预测分类准确率,计算方式是利用选择因子选出的特征基因选出验证集中的子集,计算选出子集预测准确率。
(4)运用基因增强的骨架粒子群优化特征选择算法在初始基因池中筛选出关键的蛋白质特征基因,其具体步骤如下:
①按照步骤2初始化种群,每个粒子的基因维度设置为原始数据集获取的基因维度,这里设置为小鼠唐氏综合征蛋白质检测数据的属性维度77,选择因子VLim在本阶段通过随机方式获取获取范围是[0,1],种群大小设置为30,最大迭代次数设为100,粒子各维度的搜索范围设置为[0,1]之间。
②比较粒子各维度与选择因子VLim选出相应的基因维度,根据步骤3的评估目标计算出各个粒子的适应值。
③将粒子本次迭代的适应度与其历史最优点比较,若优于历史最优解,则根据步骤4.1计算当前粒子选中基因的平均强度,然后根据步骤4.2对相应的基因进行增强。
④根据步骤5.1选取出全局引导粒子,然后根据步骤5.2使用引入粒子自身位置的骨架粒子群算法对粒子位置进行更新。
⑤如果实验未达到预先设置的最大迭代数(在本文实例中为100),则返回至步骤②,否则输出计算的结果,当前全局最优解即为所要搜寻的最终解,然后计算该解在测试集上的准确率并一起输出。
表1本发明在脑癌数据集上选出的不同基因子集上,ELM的分类准确率
Figure BDA0002385492380000101
表1给出了本发明的实例中所识别出的特征基因子集上的分类准确率,在第一组关键特征基因上,10折交叉在验证集上准确率和测试集上准确率分别达到95.98%和95.35%。第三组的10折交叉准确率和测试准确率分别为96.10%和95.48%。这进一步说明了本发明能够识别筛选出与小鼠唐氏综合征相关的关键蛋白质,且能够找到基因数量较少、对小鼠唐氏综合征蛋白质检测数据分类性能更具有帮助的关键特征基因。
表2给出了用本发明的方法在小鼠蛋白质检测数据上进行300次实验筛选出频次最高的15个检测小鼠唐氏综合征蛋白质的关键热症基因。通过表1和表2中可以看出,在小鼠唐氏综合征蛋白质检测数据集(Down syndrome)上,本发明中提出的方法所筛选的特征基因子集数目较少,而特征基因序号为21、33、49和56的蛋白质,不仅出现地频次高,并且反复在所选出的关键特征基因中出现。使用表2中选取出地特征基因再一次在验证集和测试集上计算所选出地基因地准确度,得出在验证集上的准确率为97.96%,在测试集上的准确率为96.6%,准确率进一步被提高。
表2本发明在小鼠唐氏综合征蛋白质检测数据集上识别频次最高的15个基因
Figure BDA0002385492380000111
综上,本发明的一种基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,用于针对小鼠唐氏综合征检测时关键类型蛋白质的筛选,并提高检测的精度。该方法首先对原始小鼠脑皮层蛋白质检测随机将原始数据集分为两部份:训练集和测试集,分别用于粒子群的优化和最终结果的测试;然后对数据集进行维度提取,用于初始化种群获得原始种群;计算初始种群中每一维度基因的适应度,决定该维度的基因是否被选中,根据选中基因计算该粒子预测的正确率,识别出检测小鼠唐氏综合征的关键类别蛋白质。在粒子群优化方面,本发明将骨架粒子群优化算法(BBPSO)的迭代过程中将粒子当前位置信息引入位置更新公式之内,增强了粒子对于自身附近空间的搜索能力的同时,扩展了粒子在邻域内的搜索范围;同时通过一种改进的基因增强方法对于已被选中且强度较弱的基因进行增强,提高了算法对于特征选择的效率和收敛性能。相比于传统的小鼠唐氏综合征关键蛋白质筛选方法,本方法能过在原始数据集里快速高效地识别出数目较少且分类性能较好的关键特征子集。

Claims (8)

1.一种基于基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,其特征在于,包括下列步骤:
步骤1蛋白质检测数据的预处理,包括把原始数据集分成训练集和测试集,分别用于种群迭代过程的适应度计算和最终筛选结果的测试;
步骤2提取出蛋白质检测数据集的维度,也即检测的蛋白质的种类对粒子群进行均匀初始化,粒子的每一维度的值代表该种类型蛋白质被选中的概率;
步骤3根据粒子每一维度的值选出相应特征维度,计算蛋白质筛选粒子选择的正确率;
步骤4提出改进的粒子基因增强算法,对于表现较好且强度较低蛋白质筛选粒子进行基因增强;
步骤5根据正确率选出当前的领导粒子,并使用引入粒子当前位置的方法对粒子的位置进行更新,然后进入步骤3;
步骤6如果满足终止条件转到步骤7,否则进入步骤5;
步骤7输出最终筛选出的关键蛋白质及其在测试集上的正确率。
2.根据权利要求1所述的基于基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,其特征在于,所述步骤1中包含下列步骤:
步骤1.1载入原始蛋白质检测数据集,并按照小鼠种类、实验环境和测试方法对原始数据集进行重新分类,分类标准为:
其中实验小鼠的基因型Genotype,分为正常Control基因型和唐氏综合征Ts65Dn基因型,对小鼠的治疗方式Treatment,分为注射美金刚胺(Memantine)和注射生理盐水(Saline),根据是否通过外部刺激激发小鼠学习Behavior,分为激发学习(C/S)和不激发学习(S/C);具体为以下七种分类:
实验小鼠的基因型Genotype为正常Control基因型,对小鼠的治疗方式Treatment为注射美金刚胺Memantine,外部刺激激发小鼠学习Behavior为激发学习C/S,重新分类为0;
实验小鼠的基因型Genotype为正常Control基因型,对小鼠的治疗方式Treatment为注射美金刚胺Memantine,外部刺激激发小鼠学习Behavior为不激发学习S/C,重新分类为1;
实验小鼠的基因型Genotype为正常Control基因型,对小鼠的治疗方式Treatment为注射生理盐水Saline,外部刺激激发小鼠学习Behavior为激发学习C/S,重新分类为2;
实验小鼠的基因型Genotype为正常Control基因型,对小鼠的治疗方式Treatment为注射生理盐水Saline,外部刺激激发小鼠学习Behavior为不激发学习S/C,重新分类为3;
实验小鼠的基因型Genotype为唐氏综合征Ts65Dn基因型,对小鼠的治疗方式Treatment为注射美金刚胺Memantine,外部刺激激发小鼠学习Behavior为激发学习C/S,重新分类为4;
实验小鼠的基因型Genotype为唐氏综合征Ts65Dn基因型,对小鼠的治疗方式Treatment为注射美金刚胺Memantine,外部刺激激发小鼠学习Behavior为不激发学习S/C,重新分类为5;
实验小鼠的基因型Genotype为唐氏综合征Ts65Dn基因型,对小鼠的治疗方式Treatment为注射生理盐水Saline,外部刺激激发小鼠学习Behavior为激发学习C/S,重新分类为6;
实验小鼠的基因型Genotype为唐氏综合征Ts65Dn基因型,对小鼠的治疗方式Treatment为注射生理盐水Saline,外部刺激激发小鼠学习Behavior为不激发学习S/C,重新分类为7;
步骤1.2将重新分类的数据集按照7:3的比例划分训练集和测试集;
步骤1.3使用10折交叉法将训练集随机等分为10个子集,训练过程中不重复地选取其中一个子集作为当前测试集,其余九份作为当前训练集。
3.根据权利要求1所述的基于基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,其特征在于,所述步骤2中包含下列步骤:
步骤2.1初始化算法的参数,根据处理后的数据集的维度获取待初始化的粒子的维度,函数的上下界限定,初始化筛选因子VLim;
步骤2.2初始化蛋白质筛选种群的种群大小,迭代次数,随机初始化n个筛选粒子的维度、位置,本发明采用均匀初始化的方法,即让n个蛋白质筛选粒子的位置,均匀的分布在函数的上界与下界之间,使得初始化的蛋白质筛选粒子能够布满整个决策空间。
4.根据权利要求1所述的基于基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,其特征在于,所述步骤3中包含下列步骤:
步骤3.1蛋白质筛选粒子的每一维度表示该维度所表示蛋白质种类被选中的概率,将粒子所有大于筛选因子VLim的维度选出并保存;
步骤3.2根据选出的维度在利用10折交叉验证法选出训练集数据中的1份对当前粒子进行测试,得到测试结果正确率Ei,重复本步骤直至训练集所有数据被选完计算方式见公式(1),其中TP指判断为正向的的正确率,TN为判断为负向的正确率,FP为漏报率,将负向判断为正向,FN为漏报率,将正向判断为负向;
步骤3.3根据公式(2)计算出当前蛋白质筛选粒子的适应度即正确率,其中k为交叉验证过程中折叠次数,也即验证集的分组数;
Ei=(FP+FN)/(FP+FN+TP+TN) (1)
Figure FDA0002385492370000031
步骤3.3将ErrorRate作为适应度函数F。
5.根据权利要求1所述的基于基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,其特征在于,所述步骤4中包含下列步骤:
步骤4.1根据步骤3中选中的特征基因,获取当前粒子的特征基因子集,按找公式(3)计算特征基因子集的基因强度均值G,其中xi为选中基因的强度,n为选中的特征基因的个数;
Figure FDA0002385492370000032
步骤4.2比较粒子当前正确率并于其历史最优点Pbest比较,根据公式(4)对当前粒子进行基因增强,Xi代表当前蛋白质筛选粒子,其中xij代表蛋白质筛选粒子的基因强度,当前粒子适应度F(Xi(t+1))的适应度大于其历史最优点的适应度F(Pbesti(t))时对其较弱的特征基因执行基因增强。对于每一个蛋白质筛选粒子,其基因被选中的条件是大于初始化过程中所确定的随机数VLim,采用随机数对粒子进行筛选的目的是为了确保在多次实验过程中具有不同的选择压力,VLim越小选择压力越小,VLim越大选择压力越大,进而得出在不同选择压力下的筛选结果,本发明提出的基因增强算法只针对蛋白质筛选粒子之中选中的特征基因中基因强度弱于所有选中的特征基因强度的特征基因,相对于传统的基因增强算法不会出现对于强度较高的基因的增强或是对于选中基因的重复增强;
Figure FDA0002385492370000033
6.根据权利要求1所述的基于基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,其特征在于,所述步骤5中包含下列步骤:
步骤5.1比较所有粒子的历史最优解Pbest,从中选出适应度最好,也即正确率最低的一个作为粒子位置更新的引导粒子Gbest;
步骤5.2本发明提出了一种引入当前粒子位置的骨架粒子群算法的更新公式,公式(5)表示粒子位置更新时期望位置的选取,其中Pbestij(t)表示第i个粒子Xi的历史最有点在第j维特征基因的强度,Gbestj(t)表示全局最优点在第j维特征基因的强度,mid表示Xi的历史最优点和全局最优点在每一维上的中点,Xij为Xi在第j维特征基因的强度,μij表示Xij与mid的中点。传统骨架粒子群更新算法在计算粒子更新期望位置时只考虑当前粒子历史最优解和全局最优解,对某个粒子而言若更新后未产生新的历史最优点Pbest和全局最优点Gbest,则其搜索范围仍与上次更新相同,将粒子本身位置引入后,大大扩展了粒子在决策空间内的搜索范围;
Figure FDA0002385492370000041
步骤5.3使用公式(6)更新粒子的位置,当rand随机数小于0.5时,执行位置更新操作,更新的位置为以μij为中心、以历史最优点Pbest和全局最优点Gbest为方差的正太分布下的随机位置,当rand大于0.5时则将当前粒子直接移动到其历史最优点Pbest;
Figure FDA0002385492370000042
7.根据权利要求1所述的于基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,其特征在于,所述步骤6中包含下列步骤:
步骤6.1判断这里的多目标粒子算法是否满足终止条件,若满足终止条件,保存当前全局最优解;
步骤6.2若不满足终止条件,则转入步骤3。
8.根据权利要求1所述的于基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法,其特征在于,所述步骤7中包含下列步骤:
步骤7.1根据保存的最优粒子得出最终筛选出的关键蛋白质类别,并计算在测试集上的正确率;
步骤7.2输出最终筛选出的蛋白质类别,输出在测试集和训练集上的正确率。
CN202010097216.XA 2020-02-17 2020-02-17 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法 Active CN111354415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010097216.XA CN111354415B (zh) 2020-02-17 2020-02-17 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010097216.XA CN111354415B (zh) 2020-02-17 2020-02-17 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法

Publications (2)

Publication Number Publication Date
CN111354415A true CN111354415A (zh) 2020-06-30
CN111354415B CN111354415B (zh) 2023-09-26

Family

ID=71197004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010097216.XA Active CN111354415B (zh) 2020-02-17 2020-02-17 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法

Country Status (1)

Country Link
CN (1) CN111354415B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035957A (zh) * 2022-05-31 2022-09-09 陕西师范大学 基于粒子群算法的改进最小残差法分析混合str图谱

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718943A (zh) * 2016-01-19 2016-06-29 南京邮电大学 基于粒子群优化算法的特征选择方法
CN108537005A (zh) * 2018-04-03 2018-09-14 福州大学 一种基于BPSO-KNN模型的关键lncRNA预测方法
US20180357584A1 (en) * 2017-06-12 2018-12-13 Hefei University Of Technology Method and system for collaborative scheduling of production and transportation in supply chains based on improved particle swarm optimization
CN109284766A (zh) * 2018-07-20 2019-01-29 深圳大学 一种多元离散的特征选择方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718943A (zh) * 2016-01-19 2016-06-29 南京邮电大学 基于粒子群优化算法的特征选择方法
US20180357584A1 (en) * 2017-06-12 2018-12-13 Hefei University Of Technology Method and system for collaborative scheduling of production and transportation in supply chains based on improved particle swarm optimization
CN108537005A (zh) * 2018-04-03 2018-09-14 福州大学 一种基于BPSO-KNN模型的关键lncRNA预测方法
CN109284766A (zh) * 2018-07-20 2019-01-29 深圳大学 一种多元离散的特征选择方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIA GUO等: "《A pair-wise bare bones particle swarm optimization algorithm》" *
张翠军等: "《基于多目标骨架粒子群优化的特征选择算法》" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035957A (zh) * 2022-05-31 2022-09-09 陕西师范大学 基于粒子群算法的改进最小残差法分析混合str图谱

Also Published As

Publication number Publication date
CN111354415B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
Bonilla-Huerta et al. Hybrid framework using multiple-filters and an embedded approach for an efficient selection and classification of microarray data
CN111000553B (zh) 一种基于投票集成学习的心电数据智能分类方法
US20060259246A1 (en) Methods for efficiently mining broad data sets for biological markers
Golugula et al. Evaluating feature selection strategies for high dimensional, small sample size datasets
Cord et al. Feature selection in robust clustering based on Laplace mixture
CN114067915A (zh) 一种基于深度对抗变分自编码器的scRNA-seq数据降维方法
Kusrini et al. The effect of Gaussian filter and data preprocessing on the classification of Punakawan puppet images with the convolutional neural network algorithm
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN111354415A (zh) 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法
Khoirunnisa et al. Implementing principal component analysis and multinomial logit for cancer detection based on microarray data classification
Khalilabad et al. Fully automatic classification of breast cancer microarray images
Wang et al. Learning models for predicting recognition performance
Zhang et al. A hierarchical feature selection model using clustering and recursive elimination methods
TWI399661B (zh) 從微陣列資料中分析及篩選疾病相關基因的系統
KR20100001177A (ko) 주성분 분석을 이용한 유전자 선택 알고리즘
CN115376614A (zh) 基于卷积神经网络与注意力机制结合的关键路径识别方法
Shu et al. A Novel Feature Selection with Many-Objective Optimization and Learning Mechanism
Salesi et al. A hybrid model for classification of biomedical data using feature filtering and a convolutional neural network
De Faria et al. Understanding the multiclass classification of lymphomas from simple descriptors
CN113707320A (zh) 一种基于相关性分析的en结合mpa-svm的异常体征矿工判别方法
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
CN111383716A (zh) 基因对的筛选方法、装置、计算机设备和存储介质
Valkenborg et al. A cross-validation study to select a classification procedure for clinical diagnosis based on proteomic mass spectrometry
Kim et al. Spatial clustering of array CGH features in combination with hierarchical multiple testing
CN117634618B (zh) 一种迭代更新的生物学高维数据集的知识推理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant