CN108985010B - 基因分类方法与装置 - Google Patents

基因分类方法与装置 Download PDF

Info

Publication number
CN108985010B
CN108985010B CN201810623452.3A CN201810623452A CN108985010B CN 108985010 B CN108985010 B CN 108985010B CN 201810623452 A CN201810623452 A CN 201810623452A CN 108985010 B CN108985010 B CN 108985010B
Authority
CN
China
Prior art keywords
gene
sample
samples
coefficient
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810623452.3A
Other languages
English (en)
Other versions
CN108985010A (zh
Inventor
孙林
孔祥琳
陈清利
翟瑞冰
刘延
李源
赵婧
秦小营
殷腾宇
王学敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Normal University
Original Assignee
Henan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Normal University filed Critical Henan Normal University
Priority to CN201810623452.3A priority Critical patent/CN108985010B/zh
Publication of CN108985010A publication Critical patent/CN108985010A/zh
Application granted granted Critical
Publication of CN108985010B publication Critical patent/CN108985010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及基因分类方法与装置,根据设定基因的变异系数,采用属性加权算法为基因样本中的每个基因配置权重系数,按照权重系数从大到小的顺序,依次选取前N1个基因,作为候选基因集;利用蚁群算法在所述候选基因集中选取最优基因子集,并利用该基因子集进行基因分类。本发明首先采用属性加权算法初步筛选出候选基因集,然后再在候选基因集中进行再次筛选,利用蚁群算法再在候选基因集中选取基因子集,有效地去除了冗余或无效的基因。

Description

基因分类方法与装置
技术领域
本发明属于基因分类技术领域,具体涉及基因分类方法与装置。
背景技术
基因数据分类是当下信息和决策领域的研究重点和热点问题,由于基因数据具有小样本、高维数、高噪声、高冗余等特点,采用传统数据分析方法可能面临耗费时间较长、分类精度不足等问题。由于基因数据的这些特点,基因数据处理是实现基因表达数据分类高效、准确、可靠的必要步骤。
ReliefF算法(属性加权算法)是典型的Filter方法,是效率较高的维数约简方法,主要用于解决多分类、数据缺失和存在噪声等问题。其核心思想是一种权值搜索的属性子集选择方法,它为每个属性赋予一个权值,这个权值表征了属性与类别的相关性,其思想为好的属性应该使同类的样本接近,不同类的样本之间远离,通过不断调整权值逐步凸现属性的相关程度。例如,吴辰文等撰写的《基于ReliefF和蚁群算法的基因选择方法》(该论文发表在期刊《计算机应用研究》的2018年第35卷第9期第31页到第35页),该论文中基于特征权重的算法在基因选择时仅能提高标签关联度高的权重,剔除权重值低的基因,不能有效的去除冗余基因。
蚁群算法是一种用于求解组合优化问题的元启发式方法,其思想是模拟生物世界中蚂蚁觅食行为。蚂蚁在搜索食物时,在其走过的路径上释放一种信息激素,以此指导自己和同类的运动方向。当某些路径上走过的蚂蚁越多时,信息素强度就越大,后来蚂蚁选择该路径的概率也越高,从而更增加了该路径的信息素强度。例如,夏亚梅等撰写的《基于改进蚁群算法的服务组合优化》(该论文发表在期刊《计算机学报》的2012年第35卷第2期的第2270页到第2281页),该文章中基于蚁群算法在选择特征时存在收敛速度慢、极易陷入局部最优等缺点。
发明内容
本发明的目的是提供一种基因分类方法与装置,用于解决现有技术无法有效去除冗余或无效基因的问题。
为解决上述技术问题,本发明提出一种基因分类方法,包括以下步骤:
1)根据设定基因的变异系数,采用属性加权算法为基因样本中的每个基因配置权重系数,按照权重系数从大到小的顺序,依次选取前N1个基因,作为候选基因集;
2)利用蚁群算法在所述候选基因集中选取最优子集作为基因子集,并利用该基因子集进行基因分类。
本发明首先设定基因的变异系数,采用属性加权算法初步筛选出前N1个基因作为候选基因集,然后再在候选基因集中进行再次筛选,利用蚁群算法在候选基因集中选取基因子集,有效去除了冗余或无效的基因。
为了避免随意选取基因样本导致配置的权重系数不准确,进一步,步骤1)还包括:
获取基因表达谱数据集,基因表达谱数据集包括M个基因样本,M≥2,每个基因样本包括N个基因;将M个基因样本分成同类基因样本和不同类基因样本,在同类基因样本中,对每种基因挑取样本数据求均值作为对应基因样本实例的值,按照属性加权算法依据基因样本实例对每个基因配置权重系数,得到每个基因在各基因样本中的权重系数。
为了避免训练数据的溢出,另外也能简化规则,更易于用户的理解,还包括对所述候选基因集中的N1个基因进行规则剪枝,保留权重系数大于平均权重系数的基因。
为了提高基因的信息素浓度,信息素会随着时间的流逝被淹没,进一步,步骤1)中每个基因的权重系数的更新公式如下:
Figure GDA0003471131640000031
式中,A0是原始基因表达谱数据集的基因集,A是筛选后的基因表达谱数据集的基因子集,W[A]为更新后的权重系数,W[A0]为更新前的权重系数,CVnear为同类的最近邻基因样本集合的差异系数,diff(A,xi,H)为基因样本xi与H内各基因样本在基因样本属性A上的差异量化表示,xi为第i个基因样本,H表示与基因样本xi同类的最近邻基因样本集合,I为累积重复次数,z为最近邻样本个数,CVmiss为不同类的最近邻基因样本集合的差异系数,P(C)为目标样本数C占样本总数的比例,Mq(C)代表不同类别C中的第q个最近邻样本,P(class(xi))为xi类目标样本数占样本总数的比例,diff(A,xi,Mq(C))为基因样本xi与Mq(C)内各基因样本在基因样本属性A上的差异化量。
进一步,采用欧氏距离算法分别求取与基因样本xi同类的最近邻基因样本集合,以及与基因样本xi不同类的最近邻基因样本集合。
为了突出反映变量之间相关关系的密切程度,增大相关性大的路径可见度,进一步,所述蚁群算法中采用以下适应度函数在所述候选基因集中选取下一基因:
Figure GDA0003471131640000041
式中,
Figure GDA0003471131640000042
为蚁群算法中t时刻蚂蚁k从i基因到j基因的概率分布,ω为所述权重系数的绝对值,r为卡尔皮尔逊相关系数,
Figure GDA0003471131640000043
为在t时刻从i基因到j基因的路径上残留的信息素,
Figure GDA0003471131640000044
为在t时刻从i基因到下一步允许选择的s基因的路径上残留的信息素,
Figure GDA0003471131640000045
为i基因和j基因在t时刻的期望启发函数,通常定义为i基因和j基因间距离的倒数,
Figure GDA0003471131640000046
为i基因和蚂蚁下一步允许选择的s基因间距离的倒数,allowedk为蚂蚁下一步允许选择的基因。
为提高重要基因的信息素浓度,防止蚂蚁留下的信息素随着时间的流逝被淹没,所述蚁群算法中采用如下蚁群的信息素更新公式:
τij(t+Δt)=(1-ρ)τij(t)+Δτij(t)+ω(j)
Figure GDA0003471131640000047
Figure GDA0003471131640000048
式中,t为时刻,τij(t+Δt)为i基因和j基因更新后的信息素值,Δτij(t)为所有蚂蚁走过之后增加的信息素总和,ρ为信息素挥发系数,
Figure GDA0003471131640000049
为第k只蚂蚁在本次循环中残留的信息素,
Figure GDA00034711316400000410
为第k只蚂蚁在本次循环中残留的信息素的总和,ω(j)为基因j的权重系数的绝对值,Q为信息素的强度,Lk为第k只蚂蚁在当次循环中所经过的距离。
为解决上述技术问题,本发明还提出一种基因分类装置,包括处理单元,用于执行实现以下步骤的指令:
1)根据设定基因的变异系数,采用属性加权算法为基因样本中的每个基因配置权重系数,按照权重系数从大到小的顺序,依次选取前N1个基因,作为候选基因集;
2)利用蚁群算法在所述候选基因集中选取最优子集作为基因子集,并利用该基因子集进行基因分类。
进一步,步骤1)中每个基因的权重系数的更新公式如下:
Figure GDA0003471131640000051
式中,A0是原始基因表达谱数据集的基因集,A是筛选后的基因表达谱数据集的基因子集,W[A]为更新后的权重系数,W[A0]为更新前的权重系数,CVnear为同类的最近邻基因样本集合的差异系数,diff(A,xi,H)为基因样本xi与H内各基因样本在基因样本属性A上的差异量化表示,xi为第i个基因样本,H表示与基因样本xi同类的最近邻基因样本集合,I为累积重复次数,z为最近邻样本个数,CVmiss为不同类的最近邻基因样本集合的差异系数,P(C)为目标样本数C占样本总数的比例,Mq(C)代表不同类别C中的第q个最近邻样本,P(class(xi))为xi类目标样本数占样本总数的比例,diff(A,xi,Mq(C))为基因样本xi与Mq(C)内各基因样本在基因样本属性A上的差异化量。
进一步,步骤1)还包括:
获取基因表达谱数据集,基因表达谱数据集包括M个基因样本,M≥2,每个基因样本包括N个基因;将M个基因样本分成同类基因样本和不同类基因样本,在同类基因样本中,对每种基因挑取样本数据求均值作为对应基因样本实例的值,按照属性加权算法依据基因样本实例对每个基因配置权重系数,得到每个基因在各基因样本中的权重系数。
进一步,还包括对所述候选基因集中的N1个基因进行规则剪枝,保留权重系数大于平均权重系数的基因。
进一步,采用欧氏距离算法分别求取与基因样本xi同类的最近邻基因样本集合,以及与基因样本xi不同类的最近邻基因样本集合。
进一步,所述蚁群算法中采用以下适应度函数在所述候选基因集中选取下一基因:
Figure GDA0003471131640000061
式中,
Figure GDA0003471131640000062
为蚁群算法中t时刻蚂蚁k从i基因到j基因的概率分布,ω为所述权重系数的绝对值,r为卡尔皮尔逊相关系数,
Figure GDA0003471131640000063
为在t时刻从i基因到j基因的路径上残留的信息素,
Figure GDA0003471131640000064
为在t时刻从i基因到下一步允许选择的s基因的路径上残留的信息素,
Figure GDA0003471131640000065
为i基因和j基因在t时刻的期望启发函数,通常定义为i基因和j基因间距离的倒数,
Figure GDA0003471131640000066
为i基因和蚂蚁下一步允许选择的s基因间距离的倒数,allowedk为蚂蚁下一步允许选择的基因。
进一步,所述蚁群算法中采用如下蚁群的信息素更新公式:
τij(t+Δt)=(1-ρ)τij(t)+Δτij(t)+ω(j)
Figure GDA0003471131640000067
Figure GDA0003471131640000068
式中,t为时刻,τij(t+Δt)为i基因和j基因更新后的信息素值,Δτij(t)为所有蚂蚁走过之后增加的信息素总和,ρ为信息素挥发系数,
Figure GDA0003471131640000069
为第k只蚂蚁在本次循环中残留的信息素,
Figure GDA00034711316400000610
为第k只蚂蚁在本次循环中残留的信息素的总和,ω(j)为基因j的权重系数的绝对值,Q为信息素的强度,Lk为第k只蚂蚁在当次循环中所经过的距离。
附图说明
图1是本发明的一种基因分类方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的说明。
本发明的一种基因分类方法,包括以下步骤:
1)根据设定基因的变异系数,采用属性加权算法为基因样本中的每个基因配置权重系数,按照权重系数从大到小的顺序,依次选取前N1个基因,作为候选基因集。
2)利用蚁群算法在所述候选基因集中选取最优子集作为基因子集,并利用该基因子集进行基因分类。
本发明首先对传统属性加权算法进行改进,设定基因的变异系数,采用属性加权算法初步筛选出N1个基因作为候选基因集,然后再在候选基因集中进行再次筛选,利用蚁群算法在在候选基因集中选取基因子集,根据该基因子集进行基因分类,筛选出有病基因和无病基因,有效去除了冗余或无效的基因。
具体的,传统属性加权算法配置每个基因的权重系数。ReliefF算法(属性加权算法)根据属性的重要性进行次序排列,将高于指定阈值的属性作为属性子集,对于任意一个样本集合X中的实例xi,基本的ReliefF算法可以表示为:
首先找出k个与xi同类的最近邻的样本实例集合H。设diff(A,xi,H)是n*1的矩阵,表示对象xi与H内各对象在样本属性A上的差异量化表示:
Figure GDA0003471131640000071
式中j=1,2,…,K。hj为样本实例集合H第q个样本实例。
其次,找出与xi不同类的样本实例中z个最近邻的样本集合M(C)。设diff(A,xi,M(C))是n*1矩阵,xi为在与M(C)内各对象在样本属性A上的差异量化表示:
Figure GDA0003471131640000081
式中:Mq(C)为样本实例集合M(C)第q个样本实例,P(C)为C目标样本数占样本总数的比例,P(C)=C类目标本数/集合X的样本总数,P(class(xi))为xi类目标样本数占样本总数的比例。
具体的属性加权算法参见作者吴辰文等发表的论文《基于ReliefF和蚁群算法的基因选择方法》所记载的内容。该论文发表在期刊《计算机应用研究》的2018年第35卷第9期第31页到第35页,具体的网址为http://www.arocmag.com/article/02-2018-09-009.html。
为了提高基因的信息素浓度,信息素会随着时间的流逝被淹没,本发明对传统属性加权算法进行了改进,其差异系数被重新定义为:
Figure GDA0003471131640000082
其中,z为基因个数,
Figure GDA0003471131640000083
为平均数,xi为第i个基因样本。采用差异系数CV表示一组数据变异程度或者离散程度的量,根据定义可知,变异程度越大,CV越大。步骤1)中每个基因的权重系数的更新公式如下:
Figure GDA0003471131640000084
式中,A0是原始基因表达谱数据集的基因集,A是筛选后的基因表达谱数据集的基因子集,W[A]为更新后的权重系数,W[A0]为更新前的权重系数,CVnear为同类的最近邻基因样本集合的差异系数,diff(A,xi,H)为基因样本xi与H内各基因样本在基因样本属性A上的差异量化表示,xi为第i个基因样本,H表示与基因样本xi同类的最近邻基因样本集合,I为累积重复次数,z为最近邻样本个数,CVmiss为不同类的最近邻基因样本集合的差异系数,P(C)为目标样本数C占样本总数的比例,Mq(C)代表不同类别C中的第q个最近邻样本,P(class(xi))为xi类目标样本数占样本总数的比例,diff(A,xi,Mq(C))为基因样本xi与Mq(C)内各基因样本在基因样本属性A上的差异化量。
差异系数进一步减少了计算时的不稳定性,使得在突发情况下依然能有较稳定的结果。同时使相同样本间距离减小,不同样本间的距离增大,使权重区分更加明显。
进一步,也可以采用以下改进的属性加权算法配置权重系数:
首先,要对样本属性权重值做出最有效的评估,必须使选取的累积样本尽量均匀地覆盖于每个样本类别的整个样本数据集中。由于m次迭代使用的样本都是随机选择,即使是同一组训练样本集,每运行一次该算法,算法随机选中的样本点都不可能完全相同,这样造成了权重值波动。
为了避免随意选取基因样本导致配置的权重系数不准确,第一个改进点在于,步骤1)还包括获取基因表达谱数据集的步骤,基因表达谱数据集包括M个基因样本,M≥2,每个基因样本包括N个基因;将M个基因样本分成两部分,即同类基因样本和不同类基因样本。在同类基因样本中,对每种基因挑取多个样本数据求均值作为该基因样本实例的值,按照属性加权算法,依据基因样本实例对每个基因配置权重系数,得到每个基因在各基因样本中的权重系数。
其次,为了找出最近邻的样本实例,第二个改进点在于,采用欧氏距离算法分别求取所述与基因样本xi同类的最近邻基因样本集合,以及所述与基因样本xi不同类的最近邻基因样本集合。欧氏距离是基于合理性计算原理的基础上对真实数据直接进行计算,这种直观的计算使得结果与真实数据的情况更加贴切,量化数据间的差异,因此求得的最近邻基因样本比较直观。
由于基因种类过多,而有关基因数据很少,作为其他实施方式,可以根据ReliefF算法,排除部分无关基因,按照权重排序取前N1个权重大的基因数据,在一次搜索结束后,对信息素重新排序,并在下一次搜索时,随机选取前N1个权重较大的基因数据,如此可加快收敛速度,排除局部最优解,同时使得运行时间缩减。
上述候选基因集中选取最优子集的过程既可以利用传统蚁群算法,也可以利用改进的蚁群算法。蚂蚁算法(蚁群算法)是一种模拟蚂蚁智能行为的仿生优化算法,没有视觉的蚂蚁运动时会在通过的道路上释放出一种特殊的信息素。其碰到一个未通过的岔口时,就会根据信息素随机挑选一条路径,在行走的过程中持续释放等量的信息素,该信息素会随着时间的推移逐渐挥发,而距离较长的路径的信息素挥发时间相对长,因此其信息素浓度相对较低。蚂蚁算法是指用来描述这一由简单个体组成的群体所表现出的极其复杂的行为特征的方法。
传统蚁群算法的基本规则为:
Figure GDA0003471131640000101
式中:j∈allowedk
Figure GDA0003471131640000102
为在t时刻从i节点到j节点的路径上残留的信息素,其中指数α是信息素启发因子;
Figure GDA0003471131640000103
为i节点和j节点在t时刻的期望启发函数,通常定义为i节点和j节点间距离dij的倒数,即
Figure GDA0003471131640000104
其中指数β为期望启发因子;allowedk为蚂蚁下一步允许选择的节点。
在蚂蚁留下信息素的同时,为避免因残留信息素过多造成路径上启发信息被淹没,信息素会随着时间的流逝而挥发,设ρ为信息素挥发系数,其中,0≤ρ≤1,t+Δt时刻i节点和j节点上的信息素更新规则为
τij(t+Δt)=(1-ρ)τij(t)+Δτij(t)
Figure GDA0003471131640000111
上式中:
Figure GDA0003471131640000112
为第k只蚂蚁在本次循环中残留的信息素,通常采用Ant-Cycle模型表示为:
Figure GDA0003471131640000113
上式中:Q为信息素的强度;Lk为第k只蚂蚁在该次循环中经过的距离。
采用如下算法:
输入:训练集D(p*n矩阵),迭代次数I,蚂蚁个数k,每次迭代中蚂蚁选择的属性数量NG;
输出:约简后的训练集D。
S1.信息素
Figure GDA0003471131640000114
的初始化强度设为常数,任意i,j=1,2,…,n。
S2.For i:=1to t;EC[i,j](EC为边计数器)初始化为0,任意i,j=1,2,…,n。
S3.蚂蚁放入任意地方,根据状态转换规则,选择下一个基因,即将第k个蚂蚁移至新选择的基因,增加访问边对应的边计数器。
S4.使用适应度函数评估所选特征子集,寻找全局最优解。
S5.应用信息素更新规则更新信息素值,进行下一次迭代,在迭代中保持全局最佳子集。
S6.满足迭代次数时输出全局最佳子集。
具体的蚂蚁算法见作者夏亚梅等发表的《基于改进蚁群算法的服务组合优化》记载的内容,该论文发表在期刊《计算机学报》的2012年第35卷第2期第2270页到2281页。
改进的蚁群算法包括三个改进点,使用时可以采用如下任意一个或几个改进点:
第一个改进点在于,在选取N1个基因作为候选基因集后,需要对候选基因集中的N1个基因权重剪枝,保留权重大于平均值的基因,使得运算速度更快。该平均值是所有基因的权重系数的平均值,作为其他实施方式,也可以设定一个阈值,选择权重系数大于设定阈值的基因。
在待选基因的概率分布公式中,
Figure GDA0003471131640000121
为路径(i,j)的可见度;α和β分别表征信息素的浓度和路线可见度的相对重要程度,为了突出反应变量之间相关关系的密切程度,增大相关性大的路径可见度,引用卡尔皮尔逊相关系数r代替β,权重的绝对值ω代替α。因此,第二个改进点在于,蚁群算法中采用以下适应度函数在所述候选基因集中选取下一基因:
Figure GDA0003471131640000122
式中,
Figure GDA0003471131640000123
为蚁群算法中t时刻蚂蚁k从i基因到j基因的概率分布,ω为所述权重系数的绝对值,r为卡尔皮尔逊相关系数,
Figure GDA0003471131640000124
为在t时刻从i基因到j基因的路径上残留的信息素,
Figure GDA0003471131640000125
为在t时刻从i基因到下一步允许选择的s基因的路径上残留的信息素,
Figure GDA0003471131640000126
为i基因和j基因在t时刻的期望启发函数,通常定义为i基因和j基因间距离的倒数,
Figure GDA0003471131640000127
为i基因和蚂蚁下一步允许选择的s基因间距离的倒数,allowedk为蚂蚁下一步允许选择的基因。
为了减少了计算时的不稳定性,使相同样本间距离减小,不同样本间的距离增大,第三个改进点在于,蚁群算法中采用如下蚁群的信息素更新公式:
τij(t+Δt)=(1-ρ)τij(t)+Δτij(t)+ω(j)
Figure GDA0003471131640000131
Figure GDA0003471131640000132
式中,t为时刻,τij(t+Δt)为i基因和j基因更新后的信息素值,Δτij(t)为所有蚂蚁走过之后增加的信息素总和,ρ为信息素挥发系数,
Figure GDA0003471131640000133
为第k只蚂蚁在本次循环中残留的信息素,
Figure GDA0003471131640000134
为第k只蚂蚁在本次循环中残留的信息素的总和,ω(j)为基因j的权重系数的绝对值,Q为信息素的强度,Lk为第k只蚂蚁在该次循环中所经过的距离。
引入权重后,使得信息素的浓度计算更加精准,并尽可能排除了差异数据的干扰。使运算过程更具有稳定性,运算结果更加准确。
具体的,以肿瘤基因选择为例,首先采用ReliefF算法计算权重筛选出与类别标签相关性强的基因,进行降序排列,根据排序结果过滤掉无关基因,选择与分类属性相关度较高的数据作为候选基因集,再利用蚁群算法进行规则剪枝,迭代进行,最终获得基因个数最少,分类准确率最高的基因集合作为最优解,为确保实验结果的稳定性及可靠性,采用改进的C4.5(C4.5是用于产生决策树的算法,产生的决策树可以被用作分类目的)计算精确度,算法流程如图1所示,其具体步骤如下:
输入:原始基因表达谱数据集set;
输出:基因集合s。
P1.对原始基因数据进行预处理,即将set的初始值设置为0。
P2.采用改进的ReliefF算法的权重公式对每一个基因的权重进行计算,根据权重大小,进行降序排列。
P3.按排列顺序,去除冗余基因,获得与分类属性关联度较高的预选基因子集。
P4.定义新的规则,进行规则剪枝,除去规则外数据,把蚂蚁随机放入一个基因;ReliefF算法能够处理大量实例的高维数据集,但不能去除属性之间的相关度高的冗余属性,利用蚁群的剪枝规则,依据属性之间的相关度进行剪枝筛选,是去除冗余属性的一种精确的筛选方法。
P5.将k只蚂蚁随机放入基因。
P6.按照本发明的概率公式计算待选基因的概率分布,选择下一个基因,重复P6至蚂蚁完成各自的周游。
P7.利用本发明的信息素更新公式更新信息素,设置迭代次数,通过多次迭代步骤P5至步骤P7,确定最优子集。
P8.分别计算上述方法在测试样本集上的误分率,返回获得的基因子集s。
基于上述步骤进行实验做进一步验证,选用4个基因表达谱数据集colon、leukemia、prostate和lung,均从http://featureselection.asu.edu/datasets.php的网址下载得到,其数据的详细信息如表1所示。
表1 4个基因表达谱数据描述
Figure GDA0003471131640000141
由表1可以看出,样本数在63到204之间,基因数在2000到12600之间,是典型的高维度小样本数据,实验目的通过研究样本构建模型,对测试样本进行评估。
利用上述数据,本发明具体的实验过程为:
将ReliefF算法和蚁群算法结合起来,ReliefF算法求权重系数,将权重系数作为蚁群算法的基础数据。并且在此基础上经过一系列的改进,达到运行速率快,结果更精确,基因分类更加明显,程序牢固性高的特点。实验主要分为2部分,第一部分是新算法对不同基因数在分类精度上的实验结果;第二部分是不同的基因选择方法在准确率上的比较。
实验环境的操作系统为Windows 10,Intel酷睿i55200U,主频1.50GHZ,内存为4.0GB。
第一步,在ReliefF算法求权重的过程中,在选取每个基因的数据时,我们采用每次循环选取n个随机数据求得平均数作为被测基因,并在权重的计算公式中引入差异系数。
第二步,将ReliefF算法求得的权重数据放入蚁群算法,进行规则剪枝,在蚁群算法中将Alpha系数(即α)为设为ReliefF算出来的权重的绝对值(即ω),用相似度r来求beta系数(即β),在信息素公式里面引入权重进行计算。
为探究基于ReliefF和蚁群算法的基因选择方法(ReliefF and Ant ColonyAlgorithm-Based Gene Selection Method,RFAC-GS)对所选的基因数对分类精度的影响,现给出3种分类算法在3个数据集上的分类性能对比,对原始数据集直接进行分类(Original Dataset Processing,简称ODP),采用支持向量机进行的分类方法(SupportVector Machine,简称SVM),采用随机森林方法进行分类(Random Forest,简称RF)为。各个方法的精确度如表2所示,表中ACC表示精确度。
表2 3个基因表达谱数据集在4种方法下的分类精度结果
Figure GDA0003471131640000161
由表2可以看出,在Lung数据集中,本发明方法的分类正确率为99.5%,远高于其他3种算法的84.62%、86.37%和86.36%;在Leukemia数据集中,本发明算法的分类正确率为95.8%,高于其他3种算法的94.44%、94.10%和90.18%;但在prostate数据集中,本发明的分类正确率为89.2%,略低于SVM和RF方法,这说明本发明采用信噪比进行无关基因过滤时,错误的过滤掉了对分类影响较大的基因,从而影响了分类正确率。实验结果表明,本发明在3个数据集上都表现出了好的分类效果,不仅能够选择出关联度高、低冗余度的基因子集,而且有效地提高了基因分类算法的正确率。
为了充分证明本发明的有效性,利用本发明提出的基于ReliefF和蚁群算法的基因选择方法(RFAC-GS)与其他三种常用的基因选择方法进行比较,其中,吴辰文等撰写的《基于ReliefF和蚁群算法的基因选择方法》中提出了ReliefF采用权值搜素属性子集,调整权值凸显属性相关程度;Hall M.A.等发表的《Correlation-based feature selectionfor discrete and numeric class machine learning》(Proceeding of the 17thInternational Conference on Machine Learning,San Francisco,2000:359-366)中提出了基于相关性的特征选择方法(Correlation-based Feature Selection,CFS),采用基于属性与标签相关性的启发式方法来评价属性的重要性;Zhang Y.等发表的《Geneselection algorithm by combining ReliefF and mRMR》(BMC Genomics,2008,9:1-10)提出了基于Relief最大相关最小冗余算法(Maximum Relevance Minimum Redundancy-Relief,mRMR-Relief),它是一种二阶消除算法,该算法首先应用ReliefF算法筛选掉权重较低的属性,然后通过冗余度和相关性计算来选择属性子集。实验结果如表3所示。
表3 3个基因表达谱数据集在4种方法下选择的基因个数
Figure GDA0003471131640000171
表3给出了四种基因选择算法在三种数据集上所选基因个数。其中本发明利用的基因选择方法所选择的基因个数最少,ReliefF次之,而mRMR-Relief所选基因最多。从三个数据集的运行结果可以看出,改进后的蚁群算法数据结果差异较大,优势显著。本发明利用ReliefF算法算出来的权重本身就对基因进行了比重上的分类,对其的改进使得权重的计算更加精准,同时权重结果又贴合真实数据。在此基础上,使得蚁群算法搜索更加快速,运行效率高,结果不会脱离真实数据。同时,蚁群算法信息素公式的改进使运算结果更加准确,且具有稳定性,排除了一些差异数据的干扰。
本发明首先对基因数据进行降维,通过改进ReliefF算法,筛选出与类别标签相关性强的基因,很大程度的进行了降维,在蚁群算法中引入权重和相似度,通过迭代运行,显著提高了基因分类的精度和运行速度以及计算的稳定性。
对应上述基因分类方法,本发明还提出一种基因分类装置,包括处理单元,用于执行实现以下步骤的指令:
1)根据设定基因的变异系数,采用属性加权算法为基因样本中的每个基因配置权重系数,按照权重系数从大到小的顺序,依次选取前N1个基因,作为候选基因集;
2)利用蚁群算法在所述候选基因集中选取最优子集作为基因子集,并利用该基因子集进行基因分类。
上述实施例中所指的基因分类装置,实际上是基于本发明方法流程的一种计算机解决方案,即一种软件构架,可以应用到计算机中,上述装置即为与方法流程相对应的处理进程。由于对上述方法的介绍已经足够清楚完整,故不再详细进行描述。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (12)

1.一种基因分类方法,其特征在于,包括以下步骤:
1)根据设定基因的变异系数,采用属性加权算法为基因样本中的每个基因配置权重系数,按照权重系数从大到小的顺序,依次选取前N1个基因,作为候选基因集;
2)利用蚁群算法在所述候选基因集中选取最优子集作为基因子集,并利用该基因子集进行基因分类;
步骤1)中每个基因的权重系数的更新公式如下:
Figure FDA0003510973330000011
式中,A0是原始基因表达谱数据集的基因集,A是筛选后的基因表达谱数据集的基因子集,W[A]为更新后的权重系数,W[A0]为更新前的权重系数,CVnear为同类的最近邻基因样本集合的差异系数,diff(A,xi,H)为基因样本xi与H内各基因样本在基因样本属性A上的差异量化表示,xi为第i个基因样本,H表示与基因样本xi同类的最近邻基因样本集合,I为累积重复次数,z为最近邻样本个数,CVmiss为不同类的最近邻基因样本集合的差异系数,P(C)为目标样本数C占样本总数的比例,Mq(C)代表不同类别C中的第q个最近邻样本,P(class(xi))为xi类目标样本数占样本总数的比例,diff(A,xi,Mq(C))为基因样本xi与Mq(C)内各基因样本在基因样本属性A上的差异化量;
差异系数的计算公式为:
Figure FDA0003510973330000021
其中,
Figure FDA0003510973330000022
为平均数。
2.根据权利要求1所述的基因分类方法,其特征在于,步骤1)还包括:
获取基因表达谱数据集,基因表达谱数据集包括M个基因样本,M≥2,每个基因样本包括N个基因;将M个基因样本分成同类基因样本和不同类基因样本,在同类基因样本中,对每种基因挑取样本数据求均值作为对应基因样本实例的值,按照属性加权算法依据基因样本实例对每个基因配置权重系数,得到每个基因在各基因样本中的权重系数。
3.根据权利要求1所述的基因分类方法,其特征在于,还包括对所述候选基因集中的N1个基因进行规则剪枝,保留权重系数大于平均权重系数的基因。
4.根据权利要求1所述的基因分类方法,其特征在于,采用欧氏距离算法分别求取与基因样本xi同类的最近邻基因样本集合,以及与基因样本xi不同类的最近邻基因样本集合。
5.根据权利要求1所述的基因分类方法,其特征在于,所述蚁群算法中采用以下适应度函数在所述候选基因集中选取下一个基因:
Figure FDA0003510973330000023
式中,
Figure FDA0003510973330000024
为蚁群算法中t时刻蚂蚁k从i基因到j基因的概率分布,ω为所述权重系数的绝对值,r为卡尔皮尔逊相关系数,
Figure FDA0003510973330000025
为在t时刻从i基因到j基因的路径上残留的信息素,
Figure FDA0003510973330000026
为在t时刻从i基因到下一步允许选择的s基因的路径上残留的信息素,
Figure FDA0003510973330000031
为i基因和j基因在t时刻的期望启发函数,定义为i基因和j基因间距离的倒数,
Figure FDA0003510973330000032
为i基因和蚂蚁下一步允许选择的s基因间距离的倒数,allowedk为蚂蚁下一步允许选择的基因。
6.根据权利要求5所述的基因分类方法,其特征在于,所述蚁群算法中采用如下蚁群的信息素更新公式:
τij(t+Δt)=(1-ρ)τij(t)+Δτij(t)+ω(j)
Figure FDA0003510973330000033
Figure FDA0003510973330000034
式中,t为时刻,τij(t+Δt)为i基因和j基因更新后的信息素值,Δτij(t)为所有蚂蚁走过之后增加的信息素总和,ρ为信息素挥发系数,
Figure FDA0003510973330000035
为第k只蚂蚁在本次循环中残留的信息素,
Figure FDA0003510973330000036
为第k只蚂蚁在本次循环中残留的信息素的总和,ω(j)为基因j的权重系数的绝对值,Q为信息素的强度,Lk为第k只蚂蚁在当次循环中所经过的距离。
7.一种基因分类装置,其特征在于,包括处理单元,用于执行实现以下步骤的指令:
1)根据设定基因的变异系数,采用属性加权算法为基因样本中的每个基因配置权重系数,按照权重系数从大到小的顺序,依次选取前N1个基因,作为候选基因集;
2)利用蚁群算法在所述候选基因集中选取最优子集作为基因子集,并利用该基因子集进行基因分类;
步骤1)中每个基因的权重系数的更新公式如下:
Figure FDA0003510973330000041
式中,A0是原始基因表达谱数据集的基因集,A是筛选后的基因表达谱数据集的基因子集,W[A]为更新后的权重系数,W[A0]为更新前的权重系数,CVnear为同类的最近邻基因样本集合的差异系数,diff(A,xi,H)为基因样本xi与H内各基因样本在基因样本属性A上的差异量化表示,xi为第i个基因样本,H表示与基因样本xi同类的最近邻基因样本集合,I为累积重复次数,z为最近邻样本个数,CVmiss为不同类的最近邻基因样本集合的差异系数,P(C)为目标样本数C占样本总数的比例,Mq(C)代表不同类别C中的第q个最近邻样本,P(class(xi))为xi类目标样本数占样本总数的比例,diff(A,xi,Mq(C))为基因样本xi与Mq(C)内各基因样本在基因样本属性A上的差异化量;
差异系数的计算公式为:
Figure FDA0003510973330000042
其中,
Figure FDA0003510973330000043
为平均数。
8.根据权利要求7所述的基因分类装置,其特征在于,步骤1)还包括:
获取基因表达谱数据集,基因表达谱数据集包括M个基因样本,M≥2,每个基因样本包括N个基因;将M个基因样本分成同类基因样本和不同类基因样本,在同类基因样本中,对每种基因挑取样本数据求均值作为对应基因样本实例的值,按照属性加权算法依据基因样本实例对每个基因配置权重系数,得到每个基因在各基因样本中的权重系数。
9.根据权利要求7所述的基因分类装置,其特征在于,还包括对所述候选基因集中的N1个基因进行规则剪枝,保留权重系数大于平均权重系数的基因。
10.根据权利要求7所述的基因分类装置,其特征在于,采用欧氏距离算法分别求取与基因样本xi同类的最近邻基因样本集合,以及与基因样本xi不同类的最近邻基因样本集合。
11.根据权利要求7所述的基因分类装置,其特征在于,所述蚁群算法中采用以下适应度函数在所述候选基因集中选取下一基因:
Figure FDA0003510973330000051
式中,
Figure FDA0003510973330000052
为蚁群算法中t时刻蚂蚁k从i基因到j基因的概率分布,ω为所述权重系数的绝对值,r为卡尔皮尔逊相关系数,
Figure FDA0003510973330000053
为在t时刻从i基因到j基因的路径上残留的信息素,
Figure FDA0003510973330000054
为在t时刻从i基因到下一步允许选择的s基因的路径上残留的信息素,
Figure FDA0003510973330000055
为i基因和j基因在t时刻的期望启发函数,定义为i基因和j基因间距离的倒数,
Figure FDA0003510973330000056
为i基因和蚂蚁下一步允许选择的s基因间距离的倒数,allowedk为蚂蚁下一步允许选择的基因。
12.根据权利要求11所述的基因分类装置,其特征在于,所述蚁群算法中采用如下蚁群的信息素更新公式:
τij(t+Δt)=(1-ρ)τij(t)+Δτij(t)+ω(j)
Figure FDA0003510973330000057
Figure FDA0003510973330000058
式中,t为时刻,τij(t+Δt)为i基因和j基因更新后的信息素值,Δτij(t)为所有蚂蚁走过之后增加的信息素总和,ρ为信息素挥发系数,
Figure FDA0003510973330000061
为第k只蚂蚁在本次循环中残留的信息素,
Figure FDA0003510973330000062
为第k只蚂蚁在本次循环中残留的信息素的总和,ω(j)为基因j的权重系数的绝对值,Q为信息素的强度,Lk为第k只蚂蚁在当次循环中所经过的距离。
CN201810623452.3A 2018-06-15 2018-06-15 基因分类方法与装置 Active CN108985010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810623452.3A CN108985010B (zh) 2018-06-15 2018-06-15 基因分类方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810623452.3A CN108985010B (zh) 2018-06-15 2018-06-15 基因分类方法与装置

Publications (2)

Publication Number Publication Date
CN108985010A CN108985010A (zh) 2018-12-11
CN108985010B true CN108985010B (zh) 2022-04-08

Family

ID=64541443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810623452.3A Active CN108985010B (zh) 2018-06-15 2018-06-15 基因分类方法与装置

Country Status (1)

Country Link
CN (1) CN108985010B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109634315B (zh) * 2018-12-29 2021-12-03 福建龙净环保股份有限公司 一种控制浆液ph值的方法及装置
CN111723831B (zh) * 2019-03-20 2023-11-14 北京嘀嘀无限科技发展有限公司 一种数据融合方法及装置
CN110211638B (zh) * 2019-05-28 2023-03-24 河南师范大学 一种考虑基因相关度的基因选择方法与装置
CN110287268A (zh) * 2019-06-30 2019-09-27 智慧谷(厦门)物联科技有限公司 一种基于区块链的数字资产处理方法和系统
CN112786111A (zh) * 2021-01-18 2021-05-11 上海理工大学 一种基于ReliefF和蚁群的特征基因选择方法
CN115588467B (zh) * 2022-09-16 2023-05-09 皖南医学院 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814082A (zh) * 2010-01-20 2010-08-25 中国人民解放军总参谋部第六十三研究所 一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法
CN104809069A (zh) * 2015-05-11 2015-07-29 中国电力科学研究院 一种基于集成神经网络的源代码漏洞检测方法
CN105243296A (zh) * 2015-09-28 2016-01-13 丽水学院 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN106250442A (zh) * 2016-07-26 2016-12-21 新疆大学 一种网络安全数据的特征选择方法及系统
CN106599936A (zh) * 2016-12-29 2017-04-26 湖北工业大学 一种基于二进制蚁群算法的特征选择方法及系统
CN106951728A (zh) * 2017-03-03 2017-07-14 江苏大学 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN107194433A (zh) * 2017-06-14 2017-09-22 电子科技大学 一种基于深度自编码网络的雷达一维距离像目标识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008146056A1 (en) * 2007-05-30 2008-12-04 Ruder Boskovic Institute A method for determining importance of fractions of biological mixtures separated by a chromatographic method for discrimination of cell or tissue physiological conditions
US20110256545A1 (en) * 2010-04-14 2011-10-20 Nancy Lan Guo mRNA expression-based prognostic gene signature for non-small cell lung cancer

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814082A (zh) * 2010-01-20 2010-08-25 中国人民解放军总参谋部第六十三研究所 一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法
CN104809069A (zh) * 2015-05-11 2015-07-29 中国电力科学研究院 一种基于集成神经网络的源代码漏洞检测方法
CN105243296A (zh) * 2015-09-28 2016-01-13 丽水学院 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN106250442A (zh) * 2016-07-26 2016-12-21 新疆大学 一种网络安全数据的特征选择方法及系统
CN106599936A (zh) * 2016-12-29 2017-04-26 湖北工业大学 一种基于二进制蚁群算法的特征选择方法及系统
CN106951728A (zh) * 2017-03-03 2017-07-14 江苏大学 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN107194433A (zh) * 2017-06-14 2017-09-22 电子科技大学 一种基于深度自编码网络的雷达一维距离像目标识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A hybrid gene selection approach for microarray data classification using cellular learning automata and ant colony optimization;Fatemeh Vafaee Sharbaf等;《Genomics》;20160503;第107卷;第231-238页 *
A novel ensemble algorithm for biomedical classification based on Ant Colony Optimization;Lei Shi等;《Applied Soft Computing》;20110402;第11卷;第5674-5683页 *
Theoretical and Empirical Analysis of ReliefF and RReliefF;MARKO ROBNIK-SIKONJA等;《Machine Learning》;20031231;第53卷;第26、43页 *
基于ReliefF和蚁群算法的特征基因选择方法;吴辰文等;《计算机应用研究》;20170828;第35卷(第9期);第2610-2613页 *
基于ReliefF和蚁群算法的特征基因选择方法分析;杨丽;《电脑知识与技术》;20171231;第13卷(第32期);第199-200页 *
基于蚁群优化聚类算法的DNA序列分类方法;梁冰等;《计算机工程与应用》;20101231;第46卷(第25期);第124-126页 *

Also Published As

Publication number Publication date
CN108985010A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN108985010B (zh) 基因分类方法与装置
Shishavan et al. An improved cuckoo search optimization algorithm with genetic algorithm for community detection in complex networks
Reynolds et al. Clustering rules: a comparison of partitioning and hierarchical clustering algorithms
Zabihi et al. A novel history-driven artificial bee colony algorithm for data clustering
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
CN110135494A (zh) 基于最大信息系数和基尼指标的特征选择方法
Örkcü et al. Estimating the parameters of 3-p Weibull distribution using particle swarm optimization: A comprehensive experimental comparison
Drews- et al. Microalgae classification using semi-supervised and active learning based on Gaussian mixture models
CN106951489A (zh) 一种用于稀疏大数据的个性化推荐方法和装置
CN109344994A (zh) 一种基于改进飞蛾优化算法的预测模型方法
Mu et al. Multi-objective ant colony optimization algorithm based on decomposition for community detection in complex networks
de Arruda et al. A complex networks approach for data clustering
Azhir et al. An efficient automated incremental density-based algorithm for clustering and classification
Paul et al. Rule based hybrid weighted fuzzy classifier for tumor data
CN111429970B (zh) 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统
Yang et al. Ant colony classification mining algorithm based on pheromone attraction and exclusion
Gao Stability analysis of rock slope based on an abstraction ant colony clustering algorithm
Yang et al. Experimental analysis and evaluation of wide residual networks based agricultural disease identification in smart agriculture system
Abualigah et al. Hybrid Harris hawks optimization with differential evolution for data clustering
Poterie et al. Classification tree algorithm for grouped variables
KR100895481B1 (ko) 다중 클래스 svm을 이용한 영역 기반 이미지 검색 방법
Kaushik et al. Numerical association rule mining: a systematic literature review
Messaoudi et al. Community detection using fireworks optimization algorithm
Ghosal et al. A comparative study among clustering techniques for leaf segmentation in rosette plants
Dey et al. Canonical pso based-means clustering approach for real datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant