CN105095494A - 一种对分类数据集进行测试的方法 - Google Patents

一种对分类数据集进行测试的方法 Download PDF

Info

Publication number
CN105095494A
CN105095494A CN201510519054.3A CN201510519054A CN105095494A CN 105095494 A CN105095494 A CN 105095494A CN 201510519054 A CN201510519054 A CN 201510519054A CN 105095494 A CN105095494 A CN 105095494A
Authority
CN
China
Prior art keywords
population
fitness value
sub
value
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510519054.3A
Other languages
English (en)
Other versions
CN105095494B (zh
Inventor
颜雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201510519054.3A priority Critical patent/CN105095494B/zh
Publication of CN105095494A publication Critical patent/CN105095494A/zh
Application granted granted Critical
Publication of CN105095494B publication Critical patent/CN105095494B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了描述了一种测试分类数据集的方法。在获得分类数据集之后,若需要对其进行标准化处理,则使用绝对标准差的方式对所述分类数据集进行标准化;然后将分类数据集分成训练集和测试集,并利用小生境文化算法学习获得双重加权朴素贝叶斯多标签分类器的双重权值,然后对所述训练集进行训练,得到优化权重值;然后代入测试集进行预测。本发明在传统朴素贝叶斯多标签算法的基础上增加了数据的训练过程,然后再对分类数据集进行预测。本发明通过使用粒子群优化算法对传统的数据分类进行改进,改进后的算法可以提高分类的准确度。

Description

一种对分类数据集进行测试的方法
技术领域
本申请涉及多标签分类技术领域,尤其涉及一种对分类数据集进行测试的方法。
背景技术
多标签学习源自于文本分类问题,如每个文件可能会属于几个预定义的主题:卫生和政府。但是现在,该类问题也非常广泛的存在于现实生活的应用中:在视频搜索领域,每个音频剪辑可以划分到不同的情感标签,例如“欢快”和“愉悦”;在基因功能学中,基因可能对应到多个功能标签,例如“身材高大”和“皮肤白皙”;在图像归属领域,一副图像可能同时属于几个场景标签,例如“大树”和“高楼”。凡此种种,多标签分类问题在越来越多的实际应用程序中得到广泛应用,对其进行更深入研究将会给我们的日常生活带来更大的益处。在机器学习和数据挖掘领域,分类成为了一个研究最多的任务。这个任务主要包括根据所给数据集的特点,构造一个分类器,然后利用所构造的分类器对未知类标签的对象实例赋予类标签的过程。
作为一种具有监督和指导功能的学习方法,朴素贝叶斯分类器(NaiveBayesClassifier,NBC)凭借其简单、高效的优点,成为了众多分类学习方法中的佼佼者。朴素贝叶斯(Bayes,NB)技术,是基于所谓的贝叶斯定理,而且即使针对于高维问题也具有适用性。虽然其原理很简单,但朴素贝叶斯通常表现了很好的分类效果。但是,朴素贝叶斯分类器是基于一个简单但是却不现实的假设,就是“假定属性间的相互独立性”,因此其分类精度不高。
发明内容
本发明了提供了一种对分类数据集进行测试的方法,以解决现有技术中分类精度不高的技术问题。
为解决上述技术问题,本发明提供了一种对分类数据集进行测试的方法,所述方法包括:
S1,获得所述分类数据集;
S2,判断所述分类数据集是否需要标准化;若需要标准化,使用绝对标准差的方式对所述分类数据集进行标准化;
S3,标准化之后,将所述分类数据集分成训练集和测试集;
S4,利用小生境文化算法对双重加权朴素贝叶斯多标签分类器的双重权值进行学习,对所述训练集进行训练,得到优化权重值;
S5,基于所述优化权重值,对所述测试集进行分类测试。
优选的,所述S4包括:
步骤1,初始化所述训练集的种群空间个体,获得初始种群;
步骤2,将所述初始种群隔离成m个子种群,每个子种群的数目为Nk
步骤3,根据每个子种群对应的适应度函数,计算各自子种群中的每个个体的适应值,综合获得所述初始种群的第一平均适应度值;
步骤4,按照所述第一平均适应度值,重新将所述初始种群中的Nk*m个初始个体隔离成m个子种群,每个子种群的数目为Nk
优选的,所述S4还包括:
步骤5,利用第一信仰空间对重新隔离的m个子种群中的每个个体进行进化演化,获得进化演化后的m个子种群;
步骤6,计算进化演化后的m个子种群中的每个个体的适应度值,获得第二平均适应度值;
步骤7,根据所述第二平均适应度值,确定新种群的规模,其中,最小子种群规模≤新的规模≤最大子种群规模;
步骤8,对所述新种群设置保护措施;
步骤9,判断所述新种群是否陷入局部最优;
步骤10,若所述新种群没有陷入局部最优,基于所述新种群的平均适应度值获得所述最优权重值。
优选的,在所述步骤9之后,所述方法还包括:
步骤11,若所述新种群陷入局部最优,判断当前进化代数是否已经达到最大进化代数;
步骤12:若所述当前进化代数已经达到所述最大进化代数,基于所述新种群的平均适应度值获得所述最优权重值。
优选的,在所述步骤12之后,所述方法还包括:
步骤13:若所述当前进化代数没有所述达到最大进化代数,更新所述第一信仰空间获得第二信仰空间,然后使用所述第二信仰空间替换所述第一信仰空间,转入所述步骤5执行。
优选的,所述适应度函数的公式为:
其中,表示计算第k个小种群的第i个体的适应度值的计算模型,n为第k个小种群中的测试实例数目,m为类标签集合的维度。
所述适应度函数根据不同类标签进行划分,对应不同的小种群,针对类标签有不同的适应度函数。
优选的,在所述步骤9中,所述局部最优的条件是:所述新种群中的子种群在连续进化20代之后的平均适应度值都是最小。
优选的,所述S5中的步骤具体为:
对迭代之后获得的最后一代种群中的个体适应度值进行排序,选取最好适应度值对应的权值组合;
选取所述最后一代种群的适应度值拓扑排名为前10、前20、前30的个体对应的权值组合,分别对应求取平均值,得出各自对应的3组权值组合,加上所述最好适应度值对应的权值组合;
利用所述最好适应度值对应的权值组合以及所述3组权值组合,分别对所述测试集进行类标签的预测,根据实验评价准则,得出分类精度。
优选的,所述S5中的步骤具体为:
对迭代之后获得的最后一代种群中且对应最好适应度值的个体求取平均值,将是平均值作为最好适应度值对应的权值组合;
选取所述最后一代种群的适应度值拓扑排名为前10、前20、前30的个体对应的权值组合,分别对应求取平均值,得出各自对应的3组权值组合,加上所述最好适应度值对应的权值组合;
利用所述最好适应度值对应的权值组合以及所述3组权值组合,分别对所述测试集进行类标签的预测,根据实验评价准则,得出分类精度。
优选的,所述S5中的步骤具体为:
将在迭代之后获得的最后一代种群中且对应最好适应度值的个体的权值组合分别循环代入到所述测试集中,进行类标签取值预测,选取最大预测准确度的个体作为最优的预测准确度;
分别选取前10、前20、前30的个体对应的权值组合,依照循环迭代的方法分别求出各自对应的最好的分类准确度;
基于所述最优的预测准确度和三组分类准确度对所述测试集进行分类精度测试。
通过本发明的一个或者多个技术方案,本发明具有以下有益效果或者优点:
在本发明中,描述了一种测试分类数据集的方法。在获得分类数据集之后,若需要对其进行标准化处理,则使用绝对标准差的方式对所述分类数据集进行标准化;然后将分类数据集分成训练集和测试集,并利用小生境文化算法学习获得双重加权朴素贝叶斯多标签分类器的双重权值,然后对所述训练集进行训练,得到优化权重值;然后代入测试集进行预测。本发明在传统朴素贝叶斯多标签算法的基础上增加了数据的训练过程,然后再对分类数据集进行预测。本发明通过使用粒子群优化算法对传统的数据分类进行改进,改进后的算法可以提高分类的准确度。
进一步的,在计算初始度适应值时,是根据多标记学习中的二分类评估标准,采用0/1向量标记集的方式,设计相应的适应度函数。
进一步的,采用了两种不同的方式对测试数据集进行预测,以提高分类的准确度。
附图说明
图1为本发明实施例中一种对分类数据集进行测试的方法的实施过程图;
图2为本发明实施例计算优化权重值的实施过程图;
图3为本发明实施例信仰空间的示意图;
图4A-图4B为本发明实施例中以高斯分布、柯西分布和连续属性离散化为拟合方式的NCA-DWNB与NBMLC算法在两种预测方法下,各自运行10次计算所得的最优权值(best)对应的预测准确度;
图5A-图5B为本发明实施例中以高斯分布、柯西分布和连续属性离散化为拟合方式的NCA-DWNB与NBMLC算法在两种预测方法下,各自运行10次计算所得的最优权值(best)对应的预测准确度。
具体实施方式
本发明的核心点在于,针对朴素贝叶斯多标签分类算法在进行数据分类时,忽略了‘不同属性对类标签选择重要性不同’这一特点,提出利用双重加权朴素贝叶斯多标签分类方法对分类数据集进行分类。根据不同条的属性特征对决策类标签集合中不同的类标签选择决策的重要程度,对每个属性及每个类标签之间的边进行加权,也就是说对每个属性特征及每个类标签进行双重加权。
具体来说,本发明采用了小生境文化算法,对双重加权朴素贝叶斯多标签分类器中的双重权值进行学习优化,得出最优权值组合代入到当前双重加权朴素贝叶斯多标签分类器,并利用当前带有最优权值的分类器对测试集进行预测。该算法相较于简单文化算法与朴素贝叶斯多标签分类器,对训练集中特征属性与类标签之间的关系进行深度挖掘,并用于对测试集测试实例类标签的预测,在一定程度上提升了训练集数据的利用率;另外,引入小生境的文化算法,降低了问题复杂度,提高了分类精度,同时也减小了算法陷入局部最优的可能。
为了使本申请所属技术领域中的技术人员更清楚地理解本申请,下面结合附图,通过具体实施例对本申请技术方案作详细描述。
具体请参看图1,描述了一种对分类数据集进行测试的方法,该方法包括:
S1,获得分类数据集。
S2,判断分类数据集是否需要标准化;若需要标准化,使用绝对标准差的方式对分类数据集进行标准化。
具体来说,由于数据集的某些属性之间的数据差异较大,会影响属性对预测结果的准确性,因此研究合适的分类数据集标准化处理策略,减小数据间差异较大时对数据集分类准确度的预测误差是很有必要的。本发明对数据集的标准化处理采用的是统计学中的“对变量标准化”方法,使用数据的绝对标准差的方式进行标准化。
S3,标准化之后,将分类数据集分成训练集和测试集。
采用分层取样的方式,随机将分类数据集划分为训练集和测试集。
具体来说,采用分层随机取样的方法,对分类数据集进行预处理操作。例如,随机取读入的分类数据集的70%进入到训练集,剩余30%进入到测试集。
S4,利用小生境文化算法对双重加权朴素贝叶斯多标签分类器的双重权值进行学习,对训练集进行训练,得到优化权重值。
双重加权朴素贝叶斯多标签分类算法的双重权值,是通过小生境文化算法优化学习所得。
具体来说,请参看图2,是具体的实施过程图。
步骤1:种群初始化。即:随机初始化训练集的种群空间个体,获得初始种群。
其中,初始种群的种群规模为Nk*m。其中,Nk表示每个子种群的大小,m表示类标签集合的维度(种群个数),在初始种群中,每个个体对应一组特征权重组合。
步骤2:将初始种群隔离成m个子种群,每个子种群的大小为Nk
步骤3,根据每个子种群对应的适应度函数,计算各自子种群中的每个个体的适应值,综合获得初始种群的第一平均适应度值。
在计算第一平均适应度值时,是按照各个每个子种群来进行划分计算之后,然后计算获得的初始种群中的所有个体的共同的第一平均适应度值。
例如,在前一个步骤已经将初始种群隔离成m个子种群。那么就会按照m个子种群来进行划分计算。
具体来说,将每个子种群的个体对应代入到朴素贝叶斯后验概率计算公式,对训练集进行对应类标签的分类预测,然后根据每个子种群各自对应的子适应度函数,计算每个子种群个体的适应值。
小生境文化算法对双重权值进行优化,适应度函数的选取非常关键,本发明的评判标准为分类精度。由于多标签数据集的标签集包含的类标签很多,而分类训练器几乎不能与实际标签集合完全吻合,反而有可能差距很大,则会导致评估标准的取值大大降低,不利于分析。因此发明采用0/1的二类分类标签方式对类标签进行向量标记,具体而言:若该测试实例属于该类标签,则对应向量记为1,否则记为0,预测时只要预测的标记向量与实际类标签向量在某一位上相等,就认为预测准确,准确度值就加1。将所得的准确度进行整体平均后,作为本次优化的适应度函数值,即为分类精度。
具体来说:适应度函数的公式如下,例如:第k个小种群的第i个体针对第k个类标签,对应有自己的适应度函数
适应度函数的公式为:
其中,表示计算第k个小种群的第i个体的适应度值的计算模型,n为第k个小种群中的测试实例数目,m为类标签集合的维度。
每个类标签适应度函数的计算方法,依然通过投票的方法,即为将复杂的m维多标签分类问题,转化为m个简单的单标签分类问题,用加权朴素贝叶斯的方法分而治之。这是一种将多标签问题简化的策略。
单个类标签适应度函数fk(Xik)的计算,是通过算法演化优化(初始化)之后得出的权值,代入到朴素贝叶斯后验概率计算公式得出该标签k取值为1(即为该测试实例属于该类标签)的概率,与该标签k取值为0(即为该测试实例不属于该类标签)的概率,比较两个概率,得出该标签的最终理论取值。并将所得类标签的理论取值与实际取值Ji,k相比较,如果相等则得1分,如若不等,则得0分。
假设在训练集中,第k个小种群中的测试实例数目为n,类标签维数为m,则第k个小种群中第i个体的适应度值计算模型为:
步骤4:按照第一平均适应度值,重新将初始种群中的Nk*m个初始个体隔离成m个子种群,每个子种群的数目为Nk
具体来说,第一平均适应度值是初始种群中所有个体对应的平均适应度值,利用第一平均适应度值对初始种群的种群空间进行隔离,即是:将训练集的种群空间中的Nk*m个初始个体,根据对应类标签的第一平均适应度值,分给m个子种群,每个子种群个体数目为Nk。这次分类是根据第一平均适应度值进行划分的,即:先根据第一平均适应度值划分子种群的参数范围,每个子种群的参数范围距离第一平均适应度值不同。然后将每个个体的适应度值按照参数范围分给各个子种群,要保证每个子种群的个体数目为Nk。假设有初始种群的规模为5*4,即初始种群分为4个子种群,每个子种群中具有5个个体。假设第一平均适应度值为D,那么按照D的范围分类,可确定出四个子种群的范围,例如【D-2,D-1】,(D-1,D】,(D,D+1】,(D+1,D+2】,而每个个体有自己的适应度值,按照各自的适应度值将个体分配到对应的子种群中。应当注意,此处的分配需要保证每个子种群的都包含5个个体。
步骤5:利用第一信仰空间对重新隔离的m个子种群中的每个个体进行进化演化,获得进化演化后的m个子种群。
具体来说,先初始化信仰空间,获得第一信仰空间,即:将m个子种群,根据接受函数的规则,产生对应子信仰空间的形势知识和规范知识。
小生境文化算法中的信仰空间设计,具体为:信仰空间同样有对应的m(类标签维度)个小信仰(Smallbelief),具体结构如图3所示,其中BeliefSpace(信仰空间)中的实心方框表示第k个类标签对应的小信仰空间,其中包含形势知识和规范知识。PopulationSpace(种群空间)中SPOPk表示第k个类标签对应的种群空间。每个类标签对应的属性权值对应一个小信仰。小信仰空间中,NCA-DWNB算法也采用<Sk,Nk>结构,其中Sk表示第k个类标签对应的小信仰空间形势知识,Nk表示第k个类标签对应的小信仰空间规范知识,其中1≤k≤m,m为类标签集合的类标签维度。
然后衍生新种群,即:基于影响函数,利用子信仰空间的形势知识和规范知识,对应指导种群空间中的各个子种群个体的进化演化,获得进化演化后的m个子种群。进化演化的目的是获得最优的权值。
步骤6:计算进化演化后的m个子种群中的每个个体的适应度值,获得第二平均适应度值。
在计算适应度值时,也是按照适应度函数计算,这里的适应度函数的公式和上面步骤中使用的适应度函数的公式是一样的。
步骤7:根据第二平均适应度值,确定新种群的规模。
如果其平均适应度值高,则其规模加大,反之,则减小,但是范围满足最小子种群规模≤新种群的规模≤最大子种群规模。
步骤8:对新种群设置保护措施。
设置保护措施的目的是要求适应度值要达到要求。
当新的子种群达到撤除保护的条件时,则对新的子种群撤销保护。
具体来说,对于种群空间中,也是按照子种群来进行划分及保护的。而已经施加过保护措施的子种群,即为新的子种群,其平均适应度值不免小于其他子种群,此时对该子种群设置保护措施,即:将这些适应度值小的种群进行保护,在计算时将其忽略,只使用适应度值满足要求的种群进行计算。而当其达到撤除保护的条件时,则对其撤销保护。
步骤9:判断新种群是否陷入局部最优。
具体来说,在判断的过程中,具体是判断新的子种群是否陷入局部最优。
若新种群没有陷入局部最优,则可以执行步骤10:基于新种群的平均适应度值获得最优权重值。这里说的最优权重值就是新种群的平均适应度值。
若子种群连续进化20代的平均适应度值都是最小,可以认为该子种群初始化效果不是太好,陷入了局部最优。若子种群连续进化20代的平均适应度值都是最小,而且其中不包含适应度值最大的个体时,也可以认为该子种群初始化效果不是太好,陷入了局部最优。
在陷入局部最优之后,执行步骤11,判断当前进化代数是否已经达到最大进化代数。
若当前进化代数已经达到最大进化代数,执行步骤12:基于新种群的平均适应度值获得最优权重值。
具体来说,如果进化代数已经过了1/2,则不再实施该策略;或者当连续初始化3次,都是平均适应度值最差的子种群,则会默认该类标签与属性之间的关联性不就不大,不再对其进行上述策略的实施。
若当前进化代数没有达到最大进化代数,执行步骤13:更新第一信仰空间获得第二信仰空间,然后使用第二信仰空间替换第一信仰空间,转入步骤5执行。
具体来说,在简单文化算法的基础之上,引入一种并行小生境的策略。根据多标签数据集中类标签集合的类标签维度,将初始种群空间(POP)划分为多个子种群空间(SPOP),每个SPOP对应一个类标签,其中包含的个体即为其对该类标签的适应度值拓扑排名靠前的个体。当迭代进化之后,每个SPOP的规模将会有不同程度的变化,每个SPOP进化的规模取决于其中包含的个体的平均适应度值,当平均适应度值较大时,该SPOP规模则对应变大;反之,则减小,这就模拟了SPOP之间的竞争机制。另外,当一个SPOP连续20代的平均适应度值都是最小,而且其中不包含适应度值最大的个体时,我们默认为该SPOP初始化效果不是太好,陷入了局部最优,则执行步骤13.但是该机制是在种群进化代数一半之前做的,之后就不再实施步骤13。或者当连续初始化3次,都是平均适应度值最差的SPOP,则会默认该类标签与属性之间的关联性本就不大,不再对其执行步骤13。
法优化的训练集数据学习过程,得出所需要的最优权值组合,然后根据双重加权朴素贝叶斯后验概率计算公式对未知类标号的测试数据集实例进行类标签的选择预测,根据得分制,预测值与理论值相同则得分,否则不得分,最终得出测试数据集实例的平均分类精度。
S5,基于优化权重值,对分类数据集进行分类测试。
具体来说,文化算法迭代过程完成后,我们将得到最后一代的NP(种群规模)个个体所对应的特征权重组合。研究采用两种分类方法对测试集样本进行分类准确度的预测。
预测方法一(P1):对迭代之后获得的最后一代种群中的个体适应度值进行排序,选取最好适应度值对应的权值组合,但是在迭代之后获得的最后一代种群中,可能对应最好适应度值的个体不只有一个,而是多个(设为n),则求取该n组权值组合的平均值,作为最好适应度值(best)对应的权值组合。再选取最后一代种群的适应度值拓扑排名为前10(Top10)、前20(Top20)、前30(Top30)的个体对应的权值组合,分别对应求取其平均值,得出Top10,Top20,Top30各自对应的3组权值组合,加上best对应的权值组合,共四组分别对测试集样本数据进行类标签的预测,根据实验评价准则,得出分类精度。
预测方法二(P2):对迭代之后获得的最后一代种群中的个体适应度值进行排序,选择最好适应度值所对应个体表示的权值组合,与预测法一不同的是,预测法二不会对相同最好适应度值对应的多个(设为n)权值组合求取平均值,而是将这n组权值组合分别循环代入到测试集数据实例,进行类标签取值预测,选取最大预测准确度的个体作为预测方法二best对应的预测准确度。然后再分别选取Top10,Top20,Top30个体对应的权值组合依照同样循环迭代的方法分别求出其中对应的最好的分类准确度,与best对应所得的分类准确度,共四组作为分类算法预测方法二所得分类精度。
下面使用具体的示例对上述方法进行说明。
1.下载相关测试所用的数据集,本发明以数据集emotions进行说明,该数据集是关于音乐曲目的分类问题,训练集样本数为415,测试集样本数为178,属性为数值型,共72个,类标签个数为6。
2.判断数据集是否需要标准化,若需要则采用本发明提到的标准化处理策略对数据集进行处理,否则直接进行试验测试。
3.设置小生境文化算法的各参数值,初始化种群,采用本发明设计的适应度函数对文化个体进行评价。
4.利用小生境文化算法对双重加权朴素贝叶斯多标签分类器的双重权值进行学习,对训练集进行训练,优化得到最终的权值,并对每个个体按照适应度值递减的顺序进行排序。
5.采用本发明提出的两种方式对测试集进行分类预测,保存预测结果和该算法的运行时间,用以实验对比。
6.采用朴素贝叶斯多标签分类算法对数据集进行分类预测,保存实验结果与程序运行时间,用以实验对比。
7.对实验结果进行对比统计,以表格、图片及文字的方式对分类结果进行统计说明。
表1-1~1-8表示基于高斯分布、柯西分布、连续属性离散化(NCA-DWNB)算法与本发明的预测方法一与预测方法二对应实验结果比较。实验结果取10次独立运行结果的最大值(MAX),最小值(MIN)与平均值(AVE)。其中NCA-DWNB-P1与NCA-DWNB-P2分别表示NCA-DWNB算法根据两种预测方法获取的实验结果。
具体来说:
表1-1是best对应NCA-DWNB与NBMLC算法实验结果(高斯分布与柯西分布)。
表1-2是Top10对应NCA-DWNB与NBMLC算法实验结果(高斯分布与柯西分布)。
表1-3是Top20对应NCA-DWNB与NBMLC算法实验结果(高斯分布与柯西分布)。
表1-4是Top30对应NCA-DWNB与NBMLC算法实验结果(高斯分布与柯西分布)。
表1-5是best对应NCA-DWNB与NBMLC算法实验结果(连续属性离散化)。
表1-6是Top10对应NCA-DWNB与NBMLC算法实验结果(连续属性离散化)。
表1-7是Top20对应NCA-DWNB与NBMLC算法实验结果(连续属性离散化)。
表1-8是Top30对应NCA-DWNB与NBMLC算法实验结果(连续属性离散化)。
表1-1
表1-2
表1-3
表1-4
表1-5
表1-6
表1-7
表1-8
(图4A、图4B)~(图5A、图5B)分别表示了以高斯分布、柯西分布和连续属性离散化为拟合方式的NCA-DWNB与NBMLC算法在两种预测方法下,各自运行10次计算所得的最优权值(best)对应的预测准确度。其中横轴表示运行次数(runtime),纵轴表示算法在对应预测方法下计算所得的分类精度(accurcy)。DWNB-P1与DWNB-P2分别表示高斯概率分布为拟合方式的NCA-DWNB算法根据预测方法一与预测方法二计算所得准确度;NBMLC表示高斯概率分布为拟合方式的NBMLC算法所得准确度。
由于Top10、Top20、Top30对应实验结果图与best相近,将不再在此处列出。下面表1-9~1-12分别统计了emotions,在以高斯分布、柯西分布、连续属性离散化为条件概率拟合方式时,算法NCA-DWNB与NBMLC在不同预测方法下,最后一代个体适应度值拓扑排名best、Top10、Top20、Top30对应权值组合平均分类精度,以及用两种预测方法预测,NCA-DWNB算法相较于NBMLC算法平均分类精度提升百分比。
具体来说:
表1-9是NCA-DWNB与NBMLC实验结果分析(高斯分布)。
表1-10是NCA-DWNB与NBMLC实验结果分析(柯西分布)。
表1-11是NCA-DWNB与NBMLC实验结果分析(num=10)。
表1-12是NCA-DWNB与NBMLC实验结果分析(num=20)。
表1-9
表1-10
表1-11
表1-12
通过本发明的一个或者多个实施例,本发明具有以下有益效果或者优点:
在本发明中,描述了一种测试分类数据集的方法。在获得分类数据集之后,若需要对其进行标准化处理,则使用绝对标准差的方式对所述分类数据集进行标准化;然后将分类数据集分成训练集和测试集,并利用小生境文化算法学习获得双重加权朴素贝叶斯多标签分类器的双重权值,然后对所述训练集进行训练,得到优化权重值;然后代入测试集进行预测。本发明在传统朴素贝叶斯多标签算法的基础上增加了数据的训练过程,然后再对分类数据集进行预测。本发明通过使用粒子群优化算法对传统的数据分类进行改进,改进后的算法可以提高分类的准确度。
进一步的,在计算初始度适应值时,是根据多标记学习中的二分类评估标准,采用0/1向量标记集的方式,设计相应的适应度函数。
进一步的,采用了两种不同的方式对测试数据集进行预测,以提高分类的准确度。
尽管已描述了本申请的优选实施例,但本领域内的普通技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种对分类数据集进行测试的方法,其特征在于,所述方法包括:
S1,获得所述分类数据集;
S2,判断所述分类数据集是否需要标准化;若需要标准化,使用绝对标准差的方式对所述分类数据集进行标准化;
S3,标准化之后,将所述分类数据集分成训练集和测试集;
S4,利用小生境文化算法对双重加权朴素贝叶斯多标签分类器的双重权值进行学习,对所述训练集进行训练,得到优化权重值;
S5,基于所述优化权重值,对所述测试集进行分类测试。
2.如权利要求1所述的方法,其特征在于,所述S4包括:
步骤1,初始化所述训练集的种群空间个体,获得初始种群;
步骤2,将所述初始种群隔离成m个子种群,每个子种群的数目为Nk
步骤3,根据每个子种群对应的适应度函数,计算各自子种群中的每个个体的适应值,综合获得所述初始种群的第一平均适应度值;
步骤4,按照所述第一平均适应度值,重新将所述初始种群中的Nk*m个初始个体隔离成m个子种群,每个子种群的数目为Nk
3.如权利要求2所述的方法,其特征在于,所述S4还包括:
步骤5,利用第一信仰空间对重新隔离的m个子种群中的每个个体进行进化演化,获得进化演化后的m个子种群;
步骤6,计算进化演化后的m个子种群中的每个个体的适应度值,获得第二平均适应度值;
步骤7,根据所述第二平均适应度值,确定新种群的规模,其中,最小子种群规模≤新的规模≤最大子种群规模;
步骤8,对所述新种群设置保护措施;
步骤9,判断所述新种群是否陷入局部最优;
步骤10,若所述新种群没有陷入局部最优,基于所述新种群的平均适应度值获得所述最优权重值。
4.如权利要求3所述的方法,其特征在于,在所述步骤9之后,所述方法还包括:
步骤11,若所述新种群陷入局部最优,判断当前进化代数是否已经达到最大进化代数;
步骤12:若所述当前进化代数已经达到所述最大进化代数,基于所述新种群的平均适应度值获得所述最优权重值。
5.如权利要求4所述的方法,其特征在于,在所述步骤12之后,所述方法还包括:
步骤13:若所述当前进化代数没有所述达到最大进化代数,更新所述第一信仰空间获得第二信仰空间,然后使用所述第二信仰空间替换所述第一信仰空间,转入所述步骤5执行。
6.如权利要求2所述的方法,其特征在于,所述适应度函数的公式为:
其中,表示计算第k个小种群的第i个体的适应度值的计算模型,n为第k个小种群中的测试实例数目,m为类标签集合的维度;
所述适应度函数根据不同类标签进行划分,对应不同的小种群,针对类标签有不同的适应度函数。
7.如权利要求3所述的方法,其特征在于,在所述步骤9中,所述局部最优的条件是:所述新种群中的子种群在连续进化20代之后的平均适应度值都是最小。
8.如权利要求1所述的方法,其特征在于,所述S5中的步骤具体为:
对迭代之后获得的最后一代种群中的个体适应度值进行排序,选取最好适应度值对应的权值组合;
选取所述最后一代种群的适应度值拓扑排名为前10、前20、前30的个体对应的权值组合,分别对应求取平均值,得出各自对应的3组权值组合,加上所述最好适应度值对应的权值组合;
利用所述最好适应度值对应的权值组合以及所述3组权值组合,分别对所述测试集进行类标签的预测,根据实验评价准则,得出分类精度。
9.如权利要求1所述的方法,其特征在于,所述S5中的步骤具体为:
对迭代之后获得的最后一代种群中且对应最好适应度值的个体求取平均值,将是平均值作为最好适应度值对应的权值组合;
选取所述最后一代种群的适应度值拓扑排名为前10、前20、前30的个体对应的权值组合,分别对应求取平均值,得出各自对应的3组权值组合,加上所述最好适应度值对应的权值组合;
利用所述最好适应度值对应的权值组合以及所述3组权值组合,分别对所述测试集进行类标签的预测,根据实验评价准则,得出分类精度。
10.如权利要求1所述的方法,其特征在于,所述S5中的步骤具体为:
将在迭代之后获得的最后一代种群中且对应最好适应度值的个体的权值组合分别循环代入到所述测试集中,进行类标签取值预测,选取最大预测准确度的个体作为最优的预测准确度;
分别选取前10、前20、前30的个体对应的权值组合,依照循环迭代的方法分别求出各自对应的最好的分类准确度;
基于所述最优的预测准确度和三组分类准确度对所述测试集进行分类精度测试。
CN201510519054.3A 2015-08-21 2015-08-21 一种对分类数据集进行测试的方法 Expired - Fee Related CN105095494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510519054.3A CN105095494B (zh) 2015-08-21 2015-08-21 一种对分类数据集进行测试的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510519054.3A CN105095494B (zh) 2015-08-21 2015-08-21 一种对分类数据集进行测试的方法

Publications (2)

Publication Number Publication Date
CN105095494A true CN105095494A (zh) 2015-11-25
CN105095494B CN105095494B (zh) 2019-03-26

Family

ID=54575929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510519054.3A Expired - Fee Related CN105095494B (zh) 2015-08-21 2015-08-21 一种对分类数据集进行测试的方法

Country Status (1)

Country Link
CN (1) CN105095494B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573843A (zh) * 2015-12-22 2016-05-11 北京兆易创新科技股份有限公司 一种数据处理方法和系统
CN105700549A (zh) * 2016-01-21 2016-06-22 北京理工大学 一种基于序列小生境粒子群算法的无人机多航迹规划方法
CN106022293A (zh) * 2016-05-31 2016-10-12 华南农业大学 一种基于自适应共享小生境进化算法的行人再识别方法
CN107526805A (zh) * 2017-08-22 2017-12-29 杭州电子科技大学 一种基于权重的ML‑kNN多标签中文文本分类方法
CN108052796A (zh) * 2017-12-26 2018-05-18 云南大学 基于集成学习的全球人类mtDNA发育树分类查询方法
CN108664562A (zh) * 2018-04-10 2018-10-16 华东师范大学 粒子群优化的文本特征选择方法
CN110059756A (zh) * 2019-04-23 2019-07-26 东华大学 一种基于多目标优化的多标签分类系统
CN110568286A (zh) * 2019-09-12 2019-12-13 齐鲁工业大学 基于加权的双隐朴素贝叶斯的变压器故障诊断方法及系统
CN116738415A (zh) * 2023-08-10 2023-09-12 北京中超伟业信息安全技术股份有限公司 基于粒子群优化加权朴素贝叶斯入侵检测方法及装置
CN116934385A (zh) * 2023-09-15 2023-10-24 山东理工昊明新能源有限公司 用户流失预测模型的构建方法、用户流失预测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187944A (zh) * 2007-11-30 2008-05-28 中国科学院合肥物质科学研究院 基于小生境粒子群优化算法的分类器集成的多层选择方法
CN102855387A (zh) * 2012-08-06 2013-01-02 哈尔滨工程大学 一种基于小生境粒子群的二维空间多路径规划方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187944A (zh) * 2007-11-30 2008-05-28 中国科学院合肥物质科学研究院 基于小生境粒子群优化算法的分类器集成的多层选择方法
CN102855387A (zh) * 2012-08-06 2013-01-02 哈尔滨工程大学 一种基于小生境粒子群的二维空间多路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
范海雄等: "基于概率LS-SVM的多标签非均衡样本分类算法", 《解放军理工大学学报》 *
陈云凤: "基于多类图像的SVM分类优化方法比较研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573843A (zh) * 2015-12-22 2016-05-11 北京兆易创新科技股份有限公司 一种数据处理方法和系统
CN105573843B (zh) * 2015-12-22 2019-02-12 北京兆易创新科技股份有限公司 一种数据处理方法和系统
CN105700549A (zh) * 2016-01-21 2016-06-22 北京理工大学 一种基于序列小生境粒子群算法的无人机多航迹规划方法
CN105700549B (zh) * 2016-01-21 2018-09-25 北京理工大学 一种基于序列小生境粒子群算法的无人机多航迹规划方法
CN106022293A (zh) * 2016-05-31 2016-10-12 华南农业大学 一种基于自适应共享小生境进化算法的行人再识别方法
CN106022293B (zh) * 2016-05-31 2019-05-07 华南农业大学 一种基于自适应共享小生境进化算法的行人再识别方法
CN107526805A (zh) * 2017-08-22 2017-12-29 杭州电子科技大学 一种基于权重的ML‑kNN多标签中文文本分类方法
CN108052796B (zh) * 2017-12-26 2021-07-13 云南大学 基于集成学习的全球人类mtDNA发育树分类查询方法
CN108052796A (zh) * 2017-12-26 2018-05-18 云南大学 基于集成学习的全球人类mtDNA发育树分类查询方法
CN108664562A (zh) * 2018-04-10 2018-10-16 华东师范大学 粒子群优化的文本特征选择方法
CN110059756A (zh) * 2019-04-23 2019-07-26 东华大学 一种基于多目标优化的多标签分类系统
CN110568286A (zh) * 2019-09-12 2019-12-13 齐鲁工业大学 基于加权的双隐朴素贝叶斯的变压器故障诊断方法及系统
CN116738415A (zh) * 2023-08-10 2023-09-12 北京中超伟业信息安全技术股份有限公司 基于粒子群优化加权朴素贝叶斯入侵检测方法及装置
CN116934385A (zh) * 2023-09-15 2023-10-24 山东理工昊明新能源有限公司 用户流失预测模型的构建方法、用户流失预测方法及装置
CN116934385B (zh) * 2023-09-15 2024-01-19 山东理工昊明新能源有限公司 用户流失预测模型的构建方法、用户流失预测方法及装置

Also Published As

Publication number Publication date
CN105095494B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN105095494A (zh) 一种对分类数据集进行测试的方法
CN111339306B (zh) 分类模型训练方法、分类方法及装置、设备和介质
CN106611052B (zh) 文本标签的确定方法及装置
Bifet et al. Fast perceptron decision tree learning from evolving data streams
CN108090510A (zh) 一种基于间隔优化的集成学习方法及装置
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN105069483B (zh) 一种对分类数据集进行测试的方法
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN108304316A (zh) 一种基于协同迁移的软件缺陷预测方法
CN110263979A (zh) 基于强化学习模型预测样本标签的方法及装置
Tomani et al. Towards trustworthy predictions from deep neural networks with fast adversarial calibration
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
Islam et al. InceptB: a CNN based classification approach for recognizing traditional bengali games
Zhukov et al. Learning actionness via long-range temporal order verification
CN111325264A (zh) 一种基于熵的多标签数据分类方法
Picek et al. Plant recognition by AI: Deep neural nets, transformers, and kNN in deep embeddings
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN101226521A (zh) 一种用于多义性数据对象预测建模的机器学习方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
US11829442B2 (en) Methods and systems for efficient batch active learning of a deep neural network
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN106611036A (zh) 一种改进的多维尺度异构代价敏感决策树构建方法
CN112148994A (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN113076475B (zh) 信息推荐方法、模型训练方法及相关设备
CN108805162A (zh) 一种基于粒子群优化的酵母菌多标记特征选择方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190326

Termination date: 20190821