CN105069483A - 一种对分类数据集进行测试的方法 - Google Patents

一种对分类数据集进行测试的方法 Download PDF

Info

Publication number
CN105069483A
CN105069483A CN201510521056.6A CN201510521056A CN105069483A CN 105069483 A CN105069483 A CN 105069483A CN 201510521056 A CN201510521056 A CN 201510521056A CN 105069483 A CN105069483 A CN 105069483A
Authority
CN
China
Prior art keywords
mrow
label
msubsup
msub
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510521056.6A
Other languages
English (en)
Other versions
CN105069483B (zh
Inventor
颜雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201510521056.6A priority Critical patent/CN105069483B/zh
Publication of CN105069483A publication Critical patent/CN105069483A/zh
Application granted granted Critical
Publication of CN105069483B publication Critical patent/CN105069483B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对分类数据集进行测试的方法,在获得分类数据集后,若需要对其进行标准化处理,则使用绝对标准差的方式对分类数据集进行标准化;标准化之后,将分类数据集分成训练集和测试集;根据训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利用多标签选择策略对测试集进行种群初始化、评价;利用文化算法优化多标签选择策略,获得最佳标签选择策略;基于最佳标签选择策略,对测试集进行分类测试。本发明提出标签相似度表示标签之间的依赖关系,应用到标签最终选择策略中,即:设计提出基于标签相似度的朴素贝叶斯多标签选择策略,并使用文化算法对其进行优化,并用于多个多标签数据集中进行测试验证,可以提高分类的准确度。

Description

一种对分类数据集进行测试的方法
技术领域
本申请涉及多标签分类技术领域,尤其涉及一种对分类数据集进行测试的方法。
背景技术
多标签学习源自于文本分类问题,如每个文件可能会属于几个预定义的主题:卫生和政府。但是现在,该类问题也非常广泛的存在于现实生活的应用中:在视频搜索领域,每个音频剪辑可以划分到不同的情感标签,例如“欢快”和“愉悦”;在基因功能学中,基因可能对应到多个功能标签,例如“身材高大”和“皮肤白皙”;在图像归属领域,一副图像可能同时属于几个场景标签,例如“大树”和“高楼”。凡此种种,多标签分类问题在越来越多的实际应用程序中得到广泛应用,对其进行更深入研究将会给我们的日常生活带来更大的益处。在机器学习和数据挖掘领域,分类成为了一个研究最多的任务。这个任务主要包括根据所给数据集的特点,构造一个分类器,然后利用所构造的分类器对未知类标签的对象实例赋予类标签的过程。
作为一种具有监督和指导功能的学习方法,朴素贝叶斯分类器(NaiveBayesClassifier,NBC)凭借其简单、高效的优点,成为了众多分类学习方法中的佼佼者。朴素贝叶斯(Bayes,NB)技术,是基于所谓的贝叶斯定理,而且即使针对于高维问题也具有适用性。虽然其原理很简单,但朴素贝叶斯通常表现了很好的分类效果。但是,朴素贝叶斯分类器是基于一个简单但是却不现实的假设,就是“假定属性间的相互独立性”,因此其分类精度不高。
发明内容
本发明了提供了一种对分类数据集进行测试的方法,以解决现有技术中分类精度不高的技术问题。
为解决上述技术问题,本发明提供了一种对分类数据集进行测试的方法,所述方法包括:
S1,获得所述分类数据集;
S2,判断所述分类数据集是否需要标准化,若需要标准化,使用绝对标准差的方式对所述分类数据集进行标准化;
S3,标准化之后,将所述分类数据集分成训练集和测试集;
S4,根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利用所述多标签选择策略对所述测试集进行种群初始化,然后进行评价;
S5,利用文化算法优化所述多标签选择策略,获得最佳标签选择策略;
S6,基于所述最佳标签选择策略,对所述测试集进行分类测试。
优选的,所述根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略,具体包括:
获得先验概率:其中,X表示所述测试集中的实例,表示通过朴素贝叶斯算法计算出的实例X属于标签ci的概率;表示通过朴素贝叶斯算法计算出的实例X不属于标签ci的概率;
获得朴素贝叶斯最大化后验概率:其中,表示通过朴素贝叶斯算法计算出的实例X属于标签cj的概率;表示通过朴素贝叶斯算法计算出的实例X不属于标签cj的概率;
获得标签相似度Sim(ci,cj),Sim(ci,cj)表示类标签ci与类标签cj的相关性;
基于所述标签相似度、所述先验概率、所述后验概率,获得所述多标签选择策略。
优选的,所述获得标签相似度Sim(ci,cj),具体为:
获得其中,Dis(ci,cj)表示所述训练集的类标签集合中,不同类标签ci与cj的平均距离,n表示训练集维度,k表示所述训练集中的第k个实例,表示所述训练集中的第k个实例类标签ci的取值,表示所述训练集中的第k个实例类标签cj的取值,i≠j,1≤i≤m,1≤j≤m,m为类标签集合的维度;
获得 S i m ( c i , c j ) = α D i s ( c i , c j ) + α , α表示相似因子。
优选的,所述多标签选择策略具体包括:
若Sim(ci,cj)<β,其中,β表示两个不同的类标签的相关程度阈值,所述多标签选择策略如下:
时,表示测试实例属于类标签ci,否则,所述测试实例不属于类标签ci;其中,所述测试实例是属于所述测试集中的实例;
时,表示所述测试实例属于类标签cj,否则,所述测试实例不属于类标签cj
优选的,所述多标签选择策略具体包括:
若Sim(ci,cj)≥β,所述多标签选择策略如下:
如果 P ( c i 1 | X ) _ P ( c i 0 | X ) > 0 并且 P ( c j 1 | X ) _ P ( c j 0 | X ) > 0 , 所述测试实例既属于类标签ci又属于类标签cj
如果 P ( c i 1 | X ) _ P ( c i 0 | X ) &le; 0 并且 P ( c j 1 | X ) _ P ( c j 0 | X ) &le; 0 , 所述测试实例既不属于类标签ci又不属于类标签cj
如果并且综合Sim(ci,cj),3个结果值,制定第一标签最终选择策略;
如果并且综合Sim(ci,cj),3个结果值,制定第二标签最终选择策略。
优选的,所述第一标签最终选择策略具体包括:
如果 S i m ( c i , c j ) > P ( c i 1 | X ) _ P ( c i 0 | X ) , 并且 P ( c i 1 | X ) _ P ( c i 0 | X ) > P ( c j 1 | X ) _ P ( c j 0 | X ) , 所述测试实例既属于标签ci,也属于标签cj
如果 S i m ( c i , c j ) < P ( c j 0 | X ) _ P ( c j 1 | X ) , 并且 P ( c i 1 | X ) _ P ( c i 0 | X ) > P ( c j 1 | X ) _ P ( c j 0 | X ) , 所述测试实例属于标签ci,但是不属于标签cj
优选的,所述第二标签最终选择策略具体包括:
如果 S i m ( c i , c j ) > P ( c j 0 | X ) _ P ( c j 1 | X ) , 但是 P ( c i 1 | X ) _ P ( c i 0 | X ) < P ( C j 1 | X ) _ P ( c j 0 | X ) , 所述测试实例既不属于类标签ci,也不属于类标签cj
优选的,所述利用文化算法优化所述多标签选择策略,获得最佳标签选择策略,具体包括:
利用文化算法初始化所述训练集,并对所述训练集中的实例进行评价;
对α、β、γ这3个权值进行学习,并对所述训练集进行训练,得到α、β、γ各自的最优权值;
将所述最优权值运用到所述多标签选择策略中,获得所述最佳标签选择策略。
优选的,所述最佳标签选择策略,具体包括:
&alpha; &CenterDot; S i m ( C i , C j ) + &beta; &CenterDot; ( Q ( C i 1 | X ) - Q ( C i 0 | X ) ) + &gamma; &CenterDot; ( Q ( C j 1 | X ) - Q ( C j 0 | X ) ) > 1 ; 所述测试实例属于类标签ci,也属于类标签cj;其中,r为0-1之间的数值。
优选的,所述最佳标签选择策略,具体包括:
0 < &alpha; &CenterDot; S i m ( C i , C j ) + &beta; &CenterDot; ( Q ( C i 1 | X ) - Q ( C i 0 | X ) ) + &gamma; &CenterDot; ( Q ( C j 1 | X ) - Q ( C j 0 | X ) ) < 1 , 具有如下情况:
Q ( C i 1 | X ) - Q ( C i 0 | X ) > 0 , 并且 Q ( C j 1 | X ) - Q ( C j 0 | X ) &le; 0 ,那么所述测试实例属于类标签ci,不属于类标签cj
Q ( C i 1 | X ) - Q ( C i 0 | X ) &le; 0 , 并且 Q ( C j 1 | X ) - Q ( C j 0 | X ) > 0 , 那么所述测试实例不属于类标签ci,属于类标签cj
Q ( C i 1 | X ) - Q ( C i 0 | X ) > 0 , 并且 Q ( C j 1 | X ) - Q ( C j 0 | X ) > 0 , 那么测试实例属于类标签ci,属于类标签cj
通过本发明的一个或者多个技术方案,本发明具有以下有益效果或者优点:
一种对分类数据集进行测试的方法,在获得分类数据集之后,若需要对其进行标准化处理,则使用绝对标准差的方式对所述分类数据集进行标准化;标准化之后,将所述分类数据集分成训练集和测试集;根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利用所述多标签选择策略对所述测试集进行种群初始化,然后进行评价;利用文化算法优化所述多标签选择策略,获得最佳标签选择策略;基于所述最佳标签选择策略,对所述测试集进行分类测试。本发明针对朴素贝叶斯多标签分类算法对于不同类标签之间相互独立的假设进行修正,提出标签相似度表示标签之间的依赖关系,应用到标签最终选择策略中,即:设计提出基于标签相似度的朴素贝叶斯多标签选择策略,并使用文化算法对其进行优化,然后用于多个多标签数据集中进行测试验证,可以提高分类的准确度。
附图说明
图1为本发明实施例中一种对分类数据集进行测试的方法的实施过程图;
图2A-图2B为本发明实施例中NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果;
图3A-图3B为本发明实施例中NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果。
具体实施方式
本发明的核心点在于,针对朴素贝叶斯多标签分类算法对于不同类标签之间相互独立的假设进行修正,提出标签相似度表示标签之间的依赖关系,应用到标签最终选择策略中,即:设计提出基于标签相似度的朴素贝叶斯多标签选择策略,并使用文化算法对其进行优化,然后用于多个多标签数据集中进行测试验证。
为了使本申请所属技术领域中的技术人员更清楚地理解本申请,下面结合附图,通过具体实施例对本申请技术方案作详细描述。
具体请参看图1,描述了一种对分类数据集进行测试的方法的实施过程图,该方法包括:
S1,获得分类数据集。
S2,判断分类数据集是否需要标准化,若需要标准化,使用绝对标准差的方式对分类数据集进行标准化。
具体来说,由于数据集某些属性之间的数据差异较大,会影响属性对预测结果的准确性,因此研究合适的数据集标准化处理策略,减小数据间差异较大时对数据集分类准确度的预测误差是很有必要的。本发明对数据集的标准化处理采用的是统计学中的“对变量标准化”方法,使用数据的绝对标准差的方式进行标准化。
S3,标准化之后,将分类数据集分成训练集和测试集。
具体来说,可以采用分层随机取样的方法,对分类数据集进行预处理操作。随机取读入的分类数据集的70%进入到训练集,剩余30%进入到测试集。然后计算出训练集中实例的先验概率和后验概率。
先验概率是指根据以往经验和分析得到的概率。后验概率是指通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正,而后得到的概率。
先验概率和后验概率的区别:先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的。后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料。
S4,根据训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利用多标签选择策略对测试集进行种群初始化,然后进行评价。
具体来说,基于标签相似度的朴素贝叶斯多标签选择策略的具体过程包括:
首先,获得先验概率:其中,X表示所述测试集中的实例,表示通过朴素贝叶斯算法计算出的实例X属于标签ci的概率;表示通过朴素贝叶斯算法计算出的实例X不属于标签ci的概率。
获得朴素贝叶斯最大化后验概率:其中,表示通过朴素贝叶斯算法计算出的实例X属于标签cj的概率;表示通过朴素贝叶斯算法计算出的实例X不属于标签cj的概率。
获得标签相似度Sim(ci,cj);Sim(ci,cj)表示类标签ci与类标签cj的相关性。
标签相似度主要用来表示两个类标签(ci和cj)的相似程度。
其计算过程如下:先获得其中,Dis(ci,cj)表示所述训练集的类标签集合中,不同类标签ci与cj的平均距离,n表示训练集维度,k表示所述训练集中的第k个实例,表示所述训练集中的第k个实例类标签ci的取值,表示所述训练集中的第k个实例类标签cj的取值,i≠j,1≤i≤m,1≤j≤m,m为类标签集合的维度;
获得 S i m ( c i , c j ) = &alpha; D i s ( c i , c j ) + &alpha; , α表示相似因子。
基于标签相似度、先验概率、后验概率,获得多标签选择策略。
具体来说,多标签选择策略包含以下内容:
根据两个类标签的标签相似度的取值与β的比较结果的不同,将基于标签相似度的朴素贝叶斯多标签选择策略分成两种情况:标签相似度Sim(ci,cj)<β和标签相似度Sim(ci,cj)≥β。其中,β是一个主观的确定因子,表示两个不同类标签的相关程度阈值,
(1)如果Sim(ci,cj)<β,那么说明类标签C1与C2的关联性很弱,则根据简单朴素贝叶斯多标签分类规则,只有当时,该测试实例属于类标签ci,否则,该测试实例不属于类标签ci;同样只有当时,该测试实例属于类标签cj,否则,该测试实例不属于类标签cj
(2)如果Sim(ci,cj)≥β,那么说明类标签C1与C2的关联性很强,此时又要分为三种情形去判断,具体介绍如下:
a.如果 P ( c i 1 | X ) _ P ( c i 0 | X ) > 0 并且 P ( c j 1 | X ) _ P ( c j 0 | X ) > 0 , 则说明测试实例对于两个类标签的选择计算概率与标签相似度相呼应,此时根据简单朴素贝叶斯多标签分类规则进行测试实例类标签预测,该测试实例既属于类标签ci又属于类标签cj
b.如果 P ( c i 1 | X ) _ P ( c i 0 | X ) &le; 0 并且 P ( c j 1 | X ) _ P ( c j 0 | X ) &le; 0 , 同情形a,测试实例对于两个类标签计算概率结果选择与标签相似度的计算结果相呼应,此时也根据简单朴素贝叶斯多标签分类规则进行测试实例类标签预测,该测试实例既不属于类标签ci又不属于类标签cj
c.如果 P ( c i 1 | X ) _ P ( c i 0 | X ) > 0 并且 P ( c j 1 | X ) _ P ( c j 0 | X ) &le; 0 , 此时,测试实例对于两个类标签所属关系的概率计算结果与两个标签的标签相似度计算结果相冲突,此时需要将标签相似度的值,应用到简单朴素贝叶斯多标签分类的方法中,综合Sim(ci,cj), P ( c i 1 | X ) _ P ( c i 0 | X ) , P ( c j 1 | X ) _ P ( c j 0 | X ) 3个结果值,制定第一标签最终选择策略,具体如下:
如果标签相似度 S i m ( c i c j , > P ( c i 1 | X ) _ P ( c i 0 | X ) , 并且 P ( i 1 c | _ P ( c i 0 | X ) > P ( c j 1 | X ) _ P ( c j 0 | X ) , 则说明计算出的 P ( c j 1 | X ) _ P ( c j 0 | X ) 的差值本就不大,可能这个测试实例就在该类标签cj的边界部分,因此,根据标签相似度Sim(ci,cj)与与标签cj相关性比较强的标签ci的所属关系,判定该测试实例既属于标签ci,也属于标签cj
如果标签相似度 S i m ( c i , c j ) > P ( c j 0 | X ) _ P ( c j 1 | X ) , 但是 P ( c i 1 | X ) _ P ( c i 0 | X ) < P ( c j 1 | X ) _ P ( c j 0 | X ) , 则说明计算出的 P ( c i 1 | X ) _ P ( c i 0 | X ) 的差值本就不大,可能这个测试实例就在该类标签ci的边界部分,因此,根据标签相似度Sim(ci,cj)与与标签ci相关性比较强的标签cj的所属关系,判定该测试实例既不属于类标签ci,也不属于类标签cj
如果标签相似度 S i m ( c i , c j ) < P ( c j 0 | X ) _ P ( c j 1 | X ) , 并且 P ( c i 1 | X ) _ P ( c i 0 | X ) > P ( c j 1 | X ) _ P ( c j 0 | X ) , 则说明计算出的 P ( c i 1 | X ) _ P ( c i 0 | X ) 的差值,的差值都很大,虽然标签相似度在阈值范围内,但是其比最小的差值都小,加之阈值本就带有主观性,不能作为太严格的评判标准,因此,此时可以将标签ci与标签cj视为弱关联,依照简单朴素贝叶斯多标签分类准则进行处理,判定该测试实例属于标签ci,但是不属于标签cj
如果并且综合Sim(ci,cj), P ( c i 1 | X ) _ P ( c i 0 | X ) , P ( c j 1 | X ) _ P ( c j 0 | X ) 3个结果值,制定第二标签最终选择策略。
第二标签最终选择策略具体包括:
如果 S i m ( c i , c j ) > P ( c j 0 | X ) _ P ( c j 1 | X ) , 但是 P ( c i 1 | X ) _ P ( c i 0 | X ) < P ( c j 1 | X ) _ P ( c j 0 | X ) , 测试实例既不属于类标签ci,也不属于类标签cj
基于标签相似度的多标签选择策略伪代码:
在获得多标签分类策略之后,可以利用多标签分类策略对测试集进行种群初始化,种群初始化原本是利用随机函数产生随机的一组值。而在本发明中,利用了多标签分类策略对测试集进行了种群划分。
在种群初始化之后,还会对测试集中的各个实例进行评价:具体来说,是利用适应函数对种群中的每一个个体进行评价计算。
适应函数的设计,具体为:假设Y为数据标记集合,通过0/1的方式对数据集进行标记,最后每个实例的标记集合是0/1的向量集合。其中0表示该标记不属于该实例,1表示该标记属于该实例。例如一实例的标记向量为(1,1,0,1,0),其预测标记向量为(1,0,1,1,0),则该实例的预测准确度为3/5。设测试集实例数为N,Yi为第i个实例的实际标记向量集,Zi为第i个实例的预测标记向量集,则适应度函数值公式为:
S5,利用文化算法优化多标签选择策略,获得最佳标签选择策略。
为了能够找到最优的协调比例,可以利用文化算法对三个差值 进行加权(α,β,γ)计算,提出基于文化算法与标签相似度的最优标签选择策略,并将其应用于测试实例的类标签测试中。
具体来说,利用文化算法初始化所述训练集,并对所述训练集中的实例进行评价。
为了使得三个变量在同一数量级,需要先对两个概率差进行数量级修正,修正方法如下:即为找出所有类标签之间差值绝对值的最大值max(其中i=1,2,...,m,m表示类标签的维度),然后计算实例所有类标签的概率差值与所有类标签的最大差值绝对值max的比值,作为类标签Cj修正后的概率差值,对于所有类标签Cj,修正公式如下:
Q ( c j 1 | X ) - Q ( c j 0 | X ) = P ( c j 1 | X ) - P ( c j 0 | X ) m a x ( | P ( c i 1 | X ) - P ( c i 0 | X ) | )
本发明选择多标签分类中的分类精度作为评判标准。由于多标签数据集包含的类标签很多,学习系统几乎不能与实际标记集合完全吻合,而且差距还会很大,这样会导致评估标准取值大大降低,不利于分析。因此采用0/1的二类分类标记方式对类标记进行向量标记,即若该标记属于该示例就记为1,否则为0,预测时只要预测的标记向量与实际类标记向量在某一位上相等,就记为预测准确,准确度值就加1。将所得的准确度进行整体平均后,作为本次优化的适应度函数值,对优化结果进行判断。适应函数的设计在上述已经描述,此处使用的适应函数和上面使用的适应函数类似,在此不再赘述。
对α,β,γ这3个权值进行学习,并对所述训练集进行训练,得到α,β,γ各自的最优权值。在本发明实施例中,α表示相似因子,若取值0.5,则的取值范围为[1/3,1]。β是一个主观的确定因子,表示两个不同的类标签的相关程度阈值,此处可取值为(1+1/3)÷2=2/3。而γ的取值可为是通过文化算法优化得到的,取值在0-1之间。
将所述最优权值运用到所述多标签选择策略中,获得所述最佳标签选择策略。
最佳标签选择策略包括以下内容:
&alpha; &CenterDot; S i m ( C i , C j ) + &beta; &CenterDot; ( Q ( C i 1 | X ) - Q ( C i 0 | X ) ) + &gamma; &CenterDot; ( Q ( C j 1 | X ) - Q ( C j 0 | X ) ) > 1 ; 测试实例属于类标签ci,也属于类标签cj;其中,α为标签相似度的权重值,β为先验概率的权重值;r为后验概率的权重值。
0 < &alpha; &CenterDot; S i m ( C i , C j ) + &beta; &CenterDot; ( Q ( C i 1 | X ) - Q ( C i 0 | X ) ) + &gamma; &CenterDot; ( Q ( C j 1 | X ) - Q ( C j 0 | X ) ) < 1 , 具有如下情况:
Q ( C i 1 | X ) - Q ( C i 0 | X ) > 0 , 并且 Q ( C j 1 | X ) - Q ( C j 0 | X ) &le; 0 ; 那么测试实例属于类标签ci,不属于类标签cj
Q ( C i 1 | X ) - Q ( C i 0 | X ) &le; 0 , 并且 Q ( C j 1 | X ) - Q ( C j 0 | X ) > 0 ; 那么测试实例不属于类标签ci,属于类标签cj
并且那么测试实例属于类标签ci,属于类标签cj
基于文化算法与标签相似度的最佳标签选择策略实际上也是在训练集中训练获得的。其具体选择方式如下所示:
I f &alpha; &CenterDot; S i m ( c i , c j ) + &beta; &CenterDot; ( Q ( c i 1 | X ) - Q ( c i 0 | X ) ) + &gamma; &CenterDot; ( Q ( c j 1 | X ) - Q ( c j 0 | X ) ) > 1 t h e n
实例X属于标签ci与cj
E l s e i f 0 < &alpha; &CenterDot; S i m ( c i , c j ) + &beta; &CenterDot; ( Q ( c i 1 | X ) - Q ( c i 0 | X ) ) + &gamma; &CenterDot; ( Q ( c j 1 | X ) - Q ( c j 0 | X ) ) < 1 t h e n
I f Q ( c i 1 | X ) - Q ( c i 0 | X ) > 0 a n d Q ( c j 1 | X ) - Q ( c j 0 | X ) < 0 t h e n
实例X属于标签ci,不属于标签cj
E l s e i f Q ( c i 1 | X ) - Q ( c i 0 | X ) < 0 a n d Q ( c j 1 | X ) - Q ( c j 0 | X ) > 0 t h e n
实例X不属于标签ci,属于标签cj
E l s e i f Q ( c i 1 | X ) - Q ( c i 0 | X ) > 0 a n d Q ( c j 1 | X ) - Q ( c j 0 | X ) > 0 t h e n
实例X属于标签ci与cj
Else
实例X不属于标签ci与cj
Else
实例X不属于标签ci与cj
EndIf
进一步的,基于文化算法与标签相似的的标签选择策略伪代码为:
S6,基于最佳标签选择策略,对测试集进行分类测试。
下面使用具体的实施例进行说明,并对比其他的分类方式进行评价。
1,获得相关测试所用的数据集,本发明以数据集emotions进行说明,该数据集是关于音乐曲目的分类问题,训练集样本数为415,测试集样本数为178,属性为数值型,共72个,类标签个数为6。
2,判断数据集是否需要标准化,若需要则采用本发明提到的标准化处理策略对数据集进行处理,否则直接进行试验测试。在测试时,先将分类数据集划分为训练集和测试集。
3,采用本发明提出的基于标签相似度的多标签选择策略,应用于朴素贝叶斯多标签分类器中,对测试集数据进行测试,保存预测结果与程序运行时间,用以试验对比。
4,基于文化算法的各参数值,初始化训练集的种群空间和信仰空间,采用本发明设计的适应度函数对训练集中的个体进行评价。
5,利用文化算法对3个权值进行学习,对训练集进行训练,优化得到最优权值,代入到本发明所提出的基于文化算法与标签相似度的最优标签选择策略中,对测试集数据进行预测,保存预测结果与程序运行时间,用以试验比对。
6,采用朴素贝叶斯多标签分类算法对数据集进行分类预测,保存实验结果与程序运行时间,用以实验对比。
7,对实验结果进行对比统计,以表格、图片及文字的方式对分类结果进行统计说明。
结果:
表1-1~1-2表示基于高斯分布、柯西分布与连续属性离散化为拟合方式的NBMLC算法、SL-NBMLC算法与CASL-NBMLC算法的分类结果。实验结果取3个算法独立运行10次结果的最大值(MAX),最小值(MIN)与平均值(AVE)。表中加粗部分为较优结果。
表1-1NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果
表1-2NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果
(图2A、图2B)和(图3A、图3B)分别表示以高斯分布、柯西分布与连续属性离散化为拟合方式的NBMLC算法、SL-NBMLC算法与CASL-NBMLC算法,各自独立运行10次的运行结果,其中横轴表示运行次数,纵轴表示算法在对应算法计算所得分类精度。具体请参看图2A-图2B,是NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果(高斯分布与柯西分布)。图3A-图3B是NBMLC、SL-NBMLC与CASL-NBMLC算法实验结果(num=10与num=20)。
在实际应用中,还可以使用本发明的方法对分类数据集进行预测。
通过本发明的一个或者多个实施例,本发明具有以下有益效果或者优点:
本发明实施例中提供了一种对分类数据集进行测试的方法,在获得分类数据集之后,若需要对其进行标准化处理,则使用绝对标准差的方式对所述分类数据集进行标准化;标准化之后,将所述分类数据集分成训练集和测试集;根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利用所述多标签选择策略对所述测试集进行种群初始化,然后进行评价;利用文化算法优化所述多标签选择策略,获得最佳标签选择策略;基于所述最佳标签选择策略,对所述测试集进行分类测试。本发明针对朴素贝叶斯多标签分类算法对于不同类标签之间相互独立的假设进行修正,提出标签相似度表示标签之间的依赖关系,应用到标签最终选择策略中,即:设计提出基于标签相似度的朴素贝叶斯多标签选择策略,并使用文化算法对其进行优化,然后用于多个多标签数据集中进行测试验证,可以提高分类的准确度。
尽管已描述了本申请的优选实施例,但本领域内的普通技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种对分类数据集进行测试的方法,其特征在于,所述方法包括:
S1,获得所述分类数据集;
S2,判断所述分类数据集是否需要标准化,若需要标准化,使用绝对标准差的方式对所述分类数据集进行标准化;
S3,标准化之后,将所述分类数据集分成训练集和测试集;
S4,根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略;然后利用所述多标签选择策略对所述测试集进行种群初始化,然后进行评价;
S5,利用文化算法优化所述多标签选择策略,获得最佳标签选择策略;
S6,基于所述最佳标签选择策略,对所述测试集进行分类测试。
2.如权利要求1所述的方法,其特征在于,所述根据所述训练集获得基于标签相似度的朴素贝叶斯多标签选择策略,具体包括:
获得先验概率:其中,X表示所述测试集中的实例,表示通过朴素贝叶斯算法计算出的实例X属于标签ci的概率;表示通过朴素贝叶斯算法计算出的实例X不属于标签ci的概率;
获得朴素贝叶斯最大化后验概率:其中,表示通过朴素贝叶斯算法计算出的实例X属于标签cj的概率;表示通过朴素贝叶斯算法计算出的实例X不属于标签cj的概率;
获得标签相似度Sim(ci,cj),Sim(ci,cj)表示类标签ci与类标签cj的相关性;
基于所述标签相似度、所述先验概率、所述后验概率,获得所述多标签选择策略。
3.如权利要求2所述的方法,其特征在于,所述获得标签相似度Sim(ci,cj),具体为:
获得其中,Dis(ci,cj)表示所述训练集的类标签集合中,不同类标签ci与cj的平均距离,n表示训练集维度,k表示所述训练集中的第k个实例,表示所述训练集中的第k个实例类标签ci的取值,表示所述训练集中的第k个实例类标签cj的取值,i≠j,1≤i≤m,1≤j≤m,m为类标签集合的维度;
获得 S i m ( c i , c j ) = &alpha; D i s ( c i , c j ) + &alpha; , α表示相似因子。
4.如权利要求2所述的方法,其特征在于,所述多标签选择策略具体包括:
若Sim(ci,cj)<β,其中,β表示两个不同的类标签的相关程度阈值,所述多标签选择策略如下:
时,表示测试实例属于类标签ci,否则,所述测试实例不属于类标签ci;其中,所述测试实例是属于所述测试集中的实例;
时,表示所述测试实例属于类标签cj,否则,所述测试实例不属于类标签cj
5.如权利要求2所述的方法,其特征在于,所述多标签选择策略具体包括:
若Sim(ci,cj)≥β,所述多标签选择策略如下:
如果 P ( c i 1 | X ) _ P ( c i 0 | X ) > 0 并且 P ( c j 1 | X ) _ P ( c j 0 | X ) > 0 , 所述测试实例既属于类标签ci又属于类标签cj
如果 P ( c i 1 | X ) _ P ( c i 0 | X ) &le; 0 并且 P ( c j 1 | X ) _ P ( c j 0 | X ) &le; 0 , 所述测试实例既不属于类标签ci又不属于类标签cj
如果并且综合Sim(ci,cj),3个结果值,制定第一标签最终选择策略;
如果并且综合Sim(ci,cj),3个结果值,制定第二标签最终选择策略。
6.如权利要求5所述的方法,其特征在于,所述第一标签最终选择策略具体包括:
如果 S i m ( c i , c j ) > P ( c i 1 | X ) _ P ( c i 0 | X ) , 并且 P ( c i 1 | X ) _ P ( c i 0 | X ) > P ( c j 1 | X ) _ P ( c j 0 | X ) , 所述测试实例既属于标签ci,也属于标签cj
如果 S i m ( c i , c j ) < P ( c j 0 | X ) _ P ( c j 1 | X ) , 并且 P ( c i 1 | X ) _ P ( c i 0 | X ) > P ( c j 1 | X ) _ P ( c j 0 | X ) , 所述测试实例属于标签ci,但是不属于标签cj
7.如权利要求5所述的方法,其特征在于,所述第二标签最终选择策略具体包括:
如果 S i m ( c i , c j ) > P ( c j 0 | X ) _ P ( c j 1 | X ) , 但是 P ( c i 1 | X ) _ P ( c i 0 | X ) < P ( c j 1 | X ) _ P ( c j 0 | X ) , 所述测试实例既不属于类标签ci,也不属于类标签cj
8.如权利要求1所述的方法,其特征在于,所述利用文化算法优化所述多标签选择策略,获得最佳标签选择策略,具体包括:
利用文化算法初始化所述训练集,并对所述训练集中的实例进行评价;
对α、β、γ这3个权值进行学习,并对所述训练集进行训练,得到α、β、γ各自的最优权值;
将所述最优权值运用到所述多标签选择策略中,获得所述最佳标签选择策略。
9.如权利要求1或8任意权项所述的方法,其特征在于,所述最佳标签选择策略,具体包括:
&alpha; &CenterDot; S i m ( C i , C j ) + &beta; &CenterDot; ( Q ( C i 1 | X ) - Q ( C i 0 | X ) ) + &gamma; &CenterDot; ( Q ( C j 1 | X ) - Q ( C j 0 | X ) ) > 1 ; 所述测试实例属于类标签ci,也属于类标签cj;其中,r为0-1之间的数值。
10.如权利要求1或8任意权项所述的方法,其特征在于,所述最佳标签选择策略,具体包括:
0 < &alpha; &CenterDot; S i m ( C i , C j ) + &beta; &CenterDot; ( Q ( C i 1 | X ) - Q ( C i 0 | X ) ) + &gamma; &CenterDot; ( Q ( C j 1 | X ) - Q ( C j 0 | X ) ) < 1 , 具有如下情况:
Q ( C i 1 | X ) - Q ( C i 0 | X ) > 0 , 并且 Q ( C j 1 | X ) - Q ( C j 0 | X ) &le; 0 , 那么所述测试实例属于类标签ci,不属于类标签cj
Q ( C i 1 | X ) - Q ( C i 0 | X ) &le; 0 , 并且 Q ( C j 1 | X ) - Q ( C j 0 | X ) > 0 , 那么所述测试实例不属于类标签ci,属于类标签cj
Q ( C i 1 | X ) - Q ( C i 0 | X ) > 0 , 并且 Q ( C j 1 | X ) - Q ( C j 0 | X ) > 0 , 那么测试实例属于类标签ci,属于类标签cj
CN201510521056.6A 2015-08-21 2015-08-21 一种对分类数据集进行测试的方法 Expired - Fee Related CN105069483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510521056.6A CN105069483B (zh) 2015-08-21 2015-08-21 一种对分类数据集进行测试的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510521056.6A CN105069483B (zh) 2015-08-21 2015-08-21 一种对分类数据集进行测试的方法

Publications (2)

Publication Number Publication Date
CN105069483A true CN105069483A (zh) 2015-11-18
CN105069483B CN105069483B (zh) 2019-01-01

Family

ID=54498844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510521056.6A Expired - Fee Related CN105069483B (zh) 2015-08-21 2015-08-21 一种对分类数据集进行测试的方法

Country Status (1)

Country Link
CN (1) CN105069483B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528874A (zh) * 2016-12-08 2017-03-22 重庆邮电大学 基于Spark内存计算大数据平台的CLR多标签数据分类方法
CN107644101A (zh) * 2017-09-30 2018-01-30 百度在线网络技术(北京)有限公司 信息分类方法和装置、信息分类设备及计算机可读介质
CN109190104A (zh) * 2018-06-15 2019-01-11 口口相传(北京)网络技术有限公司 标签短语处理和相似度计算方法及装置,电子和存储设备
CN109740905A (zh) * 2018-12-26 2019-05-10 国网陕西省电力公司电力科学研究院 一种基于贝叶斯模型的多元电网次生故障概率估计方法
CN109754000A (zh) * 2018-12-21 2019-05-14 昆明理工大学 一种基于依赖度的半监督多标签分类方法
CN112464107A (zh) * 2020-11-26 2021-03-09 重庆邮电大学 一种基于多标签传播的社交网络重叠社区发现方法及装置
CN112948611A (zh) * 2021-03-01 2021-06-11 北京航空航天大学 一种基于柯西抗旋转损失函数的皮肤镜图像检索方法
CN113704519A (zh) * 2021-08-26 2021-11-26 北京市商汤科技开发有限公司 一种数据集的确定方法、装置、计算机设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6823323B2 (en) * 2001-04-26 2004-11-23 Hewlett-Packard Development Company, L.P. Automatic classification method and apparatus
US7983490B1 (en) * 2007-12-20 2011-07-19 Thomas Cecil Minter Adaptive Bayes pattern recognition
CN103246672A (zh) * 2012-02-09 2013-08-14 中国科学技术大学 对用户进行个性化推荐的方法和装置
CN103425666A (zh) * 2012-05-16 2013-12-04 富士通株式会社 信息处理装置和信息处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6823323B2 (en) * 2001-04-26 2004-11-23 Hewlett-Packard Development Company, L.P. Automatic classification method and apparatus
US7983490B1 (en) * 2007-12-20 2011-07-19 Thomas Cecil Minter Adaptive Bayes pattern recognition
CN103246672A (zh) * 2012-02-09 2013-08-14 中国科学技术大学 对用户进行个性化推荐的方法和装置
CN103425666A (zh) * 2012-05-16 2013-12-04 富士通株式会社 信息处理装置和信息处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
范海雄等: "基于概率LS-SVM的多标签非均衡样本分类算法", 《解放军理工大学学报》 *
郭一楠等: "基于协同交互式多agent文化算法的多用户智能配色优化设计", 《中南大学学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528874A (zh) * 2016-12-08 2017-03-22 重庆邮电大学 基于Spark内存计算大数据平台的CLR多标签数据分类方法
CN106528874B (zh) * 2016-12-08 2019-07-19 重庆邮电大学 基于Spark内存计算大数据平台的CLR多标签数据分类方法
CN107644101A (zh) * 2017-09-30 2018-01-30 百度在线网络技术(北京)有限公司 信息分类方法和装置、信息分类设备及计算机可读介质
CN109190104A (zh) * 2018-06-15 2019-01-11 口口相传(北京)网络技术有限公司 标签短语处理和相似度计算方法及装置,电子和存储设备
CN109754000A (zh) * 2018-12-21 2019-05-14 昆明理工大学 一种基于依赖度的半监督多标签分类方法
CN109740905A (zh) * 2018-12-26 2019-05-10 国网陕西省电力公司电力科学研究院 一种基于贝叶斯模型的多元电网次生故障概率估计方法
CN112464107A (zh) * 2020-11-26 2021-03-09 重庆邮电大学 一种基于多标签传播的社交网络重叠社区发现方法及装置
CN112464107B (zh) * 2020-11-26 2023-03-31 重庆邮电大学 一种基于多标签传播的社交网络重叠社区发现方法及装置
CN112948611A (zh) * 2021-03-01 2021-06-11 北京航空航天大学 一种基于柯西抗旋转损失函数的皮肤镜图像检索方法
CN112948611B (zh) * 2021-03-01 2023-06-23 北京航空航天大学 一种基于柯西抗旋转损失函数的皮肤镜图像检索方法
CN113704519A (zh) * 2021-08-26 2021-11-26 北京市商汤科技开发有限公司 一种数据集的确定方法、装置、计算机设备以及存储介质
CN113704519B (zh) * 2021-08-26 2024-04-12 北京市商汤科技开发有限公司 一种数据集的确定方法、装置、计算机设备以及存储介质

Also Published As

Publication number Publication date
CN105069483B (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
CN105069483B (zh) 一种对分类数据集进行测试的方法
Tsuboi et al. Direct density ratio estimation for large-scale covariate shift adaptation
CN105095494B (zh) 一种对分类数据集进行测试的方法
Song et al. Dynamic clustering forest: an ensemble framework to efficiently classify textual data stream with concept drift
CN109145245A (zh) 预测点击率的方法、装置、计算机设备及存储介质
CN111461301B (zh) 序列化数据处理方法和装置、文本处理方法和装置
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN104750875B (zh) 一种机器错误数据分类方法及系统
WO2022048194A1 (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN113222653B (zh) 一种程序化广告用户受众扩展方法、系统、设备及存储介质
CN110175657B (zh) 一种图像多标签标记方法、装置、设备及可读存储介质
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN112036169B (zh) 事件识别模型优化方法、装置、设备及可读存储介质
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114780723B (zh) 基于向导网络文本分类的画像生成方法、系统和介质
CN113158678A (zh) 一种应用于电力文本命名实体的识别方法及装置
CN109977400B (zh) 一种校验处理的方法、装置、计算机存储介质及终端
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
CN116467451A (zh) 一种文本分类方法、装置、存储介质以及电子设备
Saad et al. Practical aspects of zero-shot learning
JP5633424B2 (ja) プログラム及び情報処理システム
Nguyen et al. Confident sinkhorn allocation for pseudo-labeling
Jiang et al. Applying AdaBoost to improve diagnostic accuracy
Wang et al. A novel feature-based text classification improving the accuracy of twitter sentiment analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190101

Termination date: 20190821

CF01 Termination of patent right due to non-payment of annual fee