CN111709475B - 一种基于N-grams的多标签分类方法及装置 - Google Patents

一种基于N-grams的多标签分类方法及装置 Download PDF

Info

Publication number
CN111709475B
CN111709475B CN202010550466.4A CN202010550466A CN111709475B CN 111709475 B CN111709475 B CN 111709475B CN 202010550466 A CN202010550466 A CN 202010550466A CN 111709475 B CN111709475 B CN 111709475B
Authority
CN
China
Prior art keywords
label
tag
classification
determining
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010550466.4A
Other languages
English (en)
Other versions
CN111709475A (zh
Inventor
梁潇
安宁钰
张强
郑晓崑
吴宁
邹云峰
徐超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
Original Assignee
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co ltd Marketing Service Center, State Grid Corp of China SGCC, Global Energy Interconnection Research Institute filed Critical State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority to CN202010550466.4A priority Critical patent/CN111709475B/zh
Publication of CN111709475A publication Critical patent/CN111709475A/zh
Application granted granted Critical
Publication of CN111709475B publication Critical patent/CN111709475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本申请提供的一种基于N‑grams的多标签分类方法及装置,该方法包括:获取待分类对象中的分类要素,并根据分类要素确定待分类对象对应的标签,构成标签集合;采用N‑grams模型对标签集合中所有的标签进行排序,生成标签序列;根据标签序列构建分类器链;根据分类器链对待分类对象进行分类,生成分类结果。上述方案提供的基于N‑grams的多标签分类方法,通过采用N‑grams模型对标签集合中所有的标签进行排序,并按照标签的排序构建分类器链,以获得分类效果较好的分类器链,从而提高了分类结果的准确性。

Description

一种基于N-grams的多标签分类方法及装置
技术领域
本发明涉及机器学习领域,具体涉及一种基于N-grams的多标签分类方法及装置。
背景技术
随着计算机技术的发展,机器学习技术已得到广泛的应用。其中,在存在大量的待分类对象需要进行种类划分的情况下,若采用人工分类的方式进行种类划分,则需要耗费大量的人力资源,且分类效率极低,因此,为了提高分类效率,同时减少人力资源的消耗,通常采用机器学习技术进行种类的划分。
在现有技术中,通常采用二元相关性算法(Inary Relevance,简称:BR),以及分类器链算法(Classifier Chain,简称:CC)进行对象种类的划分,即进行多标签分类。
但是,在基于BR算法进行多标签分类时,各分类器之间是独立的,也就是说,可能会出现一个对象同时对应多个标签的情况,导致其分类效果较差。在基于CC算法进行多标签分类时,各分类器是按照一定的顺序相互联系的,待分类对象按照各分类器的连接顺序进行依次识别,当排序在前的分类器确定与该对象的类别相符合时,输出相应的识别结果,但由于各分类器的先后连接顺序是随机的,不合理的连接顺序将严重影响分类效果,导致其分类结果的准确性较低。因此,急需一种可以改善标签分类效果的多标签分类方法,对提高多标签分类的准确性有重要意义。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的多标签分类方法所获得的分类结果的准确性较低的缺陷,从而提供一种基于N-grams的多标签分类方法及装置。
本申请第一个方面提供一种基于N-grams的多标签分类方法,包括:
获取待分类对象中的分类要素,并根据所述分类要素确定所述待分类对象对应的标签,构成标签集合;
采用N-grams模型对所述标签集合中所有的标签进行排序,生成标签序列;
根据所述标签序列构建分类器链;
根据所述分类器链对所述待分类对象进行分类,生成分类结果。
可选的,所述采用N-grams模型对所述标签集合中所有的标签进行排序,生成标签序列,包括:
根据预设标签选择方法从所述标签集合中确定第一位置标签和第二位置标签;
根据所述第一位置标签、所述第二位置标签及所述N-grams模型,确定当前位置标签;
根据所述当前位置标签对所述第一位置标签和所述第二位置标签进行更新,并返回所述根据所述第一位置标签、所述第二位置标签及所述N-grams模型,确定当前位置标签的步骤,直至确定所述标签集合中所有标签的排序位置,生成所述标签序列。
可选的,所述根据所述第一位置标签、所述第二位置标签及所述N-grams模型,确定当前位置标签,包括:
采用N-grams模型分别计算所述标签集合中未确定排序位置标签的条件概率;
将所述条件概率的最大值所对应的标签确定为所述当前位置标签。
可选的,所述采用N-grams模型分别计算所述标签集合中未确定排序位置标签的条件概率,包括:
根据如下公式分别计算所述标签集合中未确定排序位置标签的条件概率:
其中,P(hi)表示所述标签集合中未确定排序位置标签的条件概率,q为所述标签集合中标签的数量,所述li-2,li-1,li分别为所述第一位置标签,所述第二位置标签,所述当前位置标签,所述Si为符合标签li分类的样本的集合,所述Si-1为符合标签li-1分类的样本的集合,所述Si-2为符合标签li-2分类的样本的集合。
可选的,所述根据预设标签选择方法从所述标签集合中确定第一位置标签和第二位置标签,包括:
根据所述标签集合,构建共现向量或共现矩阵;
根据所述共现向量或共现矩阵,确定标签集合中各标签的共现率;
根据所述共现率从大到小的排序结果,确定所述第一位置标签和第二位置标签。
本申请第二个方面提供一种基于N-grams的多标签分类装置,包括:获取模块、排序模块、构建模块和分类模块;
所述获取模块,用于获取待分类对象中的分类要素,并根据所述分类要素确定所述待分类对象对应的标签,构成标签集合;
所述排序模块,用于采用N-grams模型对所述标签集合中所有的标签进行排序,生成标签序列;
所述构建模块,用于根据所述标签序列构建分类器链;
所述分类模块,用于根据所述分类器链对所述待分类对象进行分类,生成分类结果。
可选的,所述排序模块,具体用于:
根据预设标签选择方法从所述标签集合中确定第一位置标签和第二位置标签;
根据所述第一位置标签、所述第二位置标签及所述N-grams模型,确定当前位置标签;
根据所述当前位置标签对所述第一位置标签和所述第二位置标签进行更新,并返回所述根据所述第一位置标签、所述第二位置标签及所述N-grams模型,确定当前位置标签的步骤,直至确定所述标签集合中所有标签的排序位置,生成所述标签序列。
可选的,所述排序模块,具体用于:
采用N-grams模型分别计算所述标签集合中未确定排序位置标签的条件概率;
将所述条件概率的最大值所对应的标签确定为所述当前位置标签。
可选的,所述排序模块,具体用于:
根据如下公式分别计算所述标签集合中未确定排序位置标签的条件概率:
其中,P(hi)表示所述标签集合中未确定排序位置标签的条件概率,q为所述标签集合中标签的数量,所述li-2,li-1,li分别为所述第一位置标签,所述第二位置标签,所述当前位置标签,所述Si为符合标签li分类的样本的集合,所述Si-1为符合标签li-1分类的样本的集合,所述Si-2为符合标签li-2分类的样本的集合。
可选的,所述排序模块,具体用于:
根据所述标签集合,构建共现向量或共现矩阵;
根据所述共现向量或共现矩阵,确定标签集合中各标签的共现率;
根据所述共现率从大到小的排序结果,确定所述第一位置标签和第二位置标签。
本申请第三个方面提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一个方面以及第一个方面各种可能的设计所述的方法。
本申请第四个方面提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上第一个方面以及第一个方面各种可能的设计所述的方法。
本申请技术方案,具有如下优点:
本申请提供的一种基于N-grams的多标签分类方法及装置,通过获取待分类对象中的分类要素,并根据分类要素确定待分类对象对应的标签,构成标签集合;采用N-grams模型对标签集合中所有的标签进行排序,生成标签序列;根据标签序列构建分类器链;根据分类器链对待分类对象进行分类,生成分类结果。上述方案提供的基于N-grams的多标签分类方法,通过采用N-grams模型对标签集合中所有的标签进行排序,并按照标签的排序构建分类器链,以获得分类效果较好的分类器链,从而提高了分类结果的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例基于的多标签分类系统的结构示意图;
图2为本申请实施例提供的一种基于N-grams的多标签分类方法的流程示意图;
图3为本申请实施例提供的另一种基于N-grams的多标签分类方法的流程示意图;
图4为本申请实施例提供的一种示例性的分类器链的性能检测结果的示意图;
图5为本申请实施例提供的另一种示例性的分类器链的性能检测结果的示意图;
图6为本申请实施例提供的基于N-grams的多标签分类装置的结构示意图;
图7为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先对本申请所涉及的名词进行解释:
分类器链:分类器链是基于二元相关性的优化算法,其通过将分类器串行的连接,使得分类器训练不是互相孤立的,从而优化整个分类任务的分类效果。其中,分类器链通过增加分类器的结果到其输入的待分类对象中,从而实现分类器的串型的连接。分类器链在一定程度上利用到了标签之间存在的隐含关系。但是分类器链算法对于分类器先后排列顺序十分的敏感。所以只有更好地选择分类器的先后顺序,即标签序列,才能生成较好的多标签分类结果。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
在现有技术中,通常是采用二元相关性算法(Inary Relevance,简称:BR),以及分类器链算法(Classifier Chain,简称:CC)进行对象种类的划分,即进行多标签分类。
但是,在基于BR算法进行多标签分类时,各分类器之间是独立的,也就是说,可能会出现一个对象同时对应多个标签的情况,导致其分类效果较差。在基于CC算法进行多标签分类时,各分类器是按照一定的顺序相互联系的,待分类对象按照各分类器的连接顺序进行依次识别,当排序在前的分类器确定与该对象的类别相符合时,输出相应的识别结果,但由于各分类器的先后连接顺序是随机的,不合理的连接顺序将严重影响分类效果,导致其分类结果的准确性较低。
针对上述问题,本申请实施例提供的基于N-grams的多标签分类方法及装置,通过获取待分类对象中的分类要素,并根据分类要素确定待分类对象对应的标签,构成标签集合;采用N-grams模型对标签集合中所有的标签进行排序,生成标签序列;根据标签序列构建分类器链;根据分类器链对待分类对象进行分类,生成分类结果。上述方案提供的基于N-grams的多标签分类方法,通过采用N-grams模型对标签集合中所有的标签进行排序,并按照标签的排序构建分类器链,以获得分类效果较好的分类器链,从而提高了分类结果的准确性。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
首先,对本申请所基于的多标签分类系统进行说明:
本申请实施例提供的基于N-grams的多标签分类方法及装置,适用于对待分类对象进行多标签分类,并提高所获得的分类结果的准确性,如图1所示,为本申请实施例基于的多标签分类系统的结构示意图,该系统可以包括待分类对象,以及用于对待分类对象进行分类的基于N-grams的多标签分类装置。具体地,该分类装置可以根据待分类对象中的分类要素确定其对应的标签,并构建标签集合;采用N-grams模型对标签集合中所有的标签进行排序,以为获得分类效果较好的分类器链,从而提高了分类结果的准确性。
本申请实施例提供了一种基于N-grams的多标签分类方法,用于解决现有技术中的多标签分类方法所获得的分类结果的准确性较低的技术问题。本申请实施例的执行主体为电子设备,比如服务器、台式电脑、笔记本电脑、平板电脑及其他可用于对待分类对象进行分类的电子设备。
如图2所示,为本申请实施例提供的一种基于N-grams的多标签分类方法的流程示意图,该方法包括:
步骤201,获取待分类对象中的分类要素,并根据分类要素确定待分类对象对应的标签,构成标签集合;
其中,待分类对象中的分类要素包括词汇序列,以及词汇序列之间的关联信息。
步骤202,采用N-grams模型对标签集合中所有的标签进行排序,生成标签序列;
需要说明的是,现有技术中的N-grams模型是一种用于对句子序列进行生成的模型,其考虑了字词上下联系,从条件概率的角度给出一个句子的生成概率。但是,在本申请实施例中,该N-grams模型可以对标签集合对应的多种标签序列的条件概率进行计算,从而根据各标签序列对应的条件概率,确定最适用的标签序列。
步骤203,根据标签序列构建分类器链;
具体地,根据所确定的标签序列,确定分类器链中各分类器的排列顺序。
步骤204,根据分类器链对待分类对象进行分类,生成分类结果。
示例性的,若输入的待分类对象为xi=[ai1,ai2,...,aik],其中,ai1,ai2,...,aik为该分类对象中的多个分类要素。其中,基于该分类器链已预测到前r个分类器的预测结果为:[f1(xi),f2(xi),...,fr(xi)],每次用新得到的分类结果更新对应的分类要素的集合,从而得到每次更新后的分类要素的集合:[ai1,...,aik,f1(xi),...,fr(xi)],r=1,2,...,q,其中,q表示上述标签集合中的标签数量。以此类推,以获得该分类对象对应的分类结果。
在上述实施例的基础上,由于标签集合中标签数量较多,若对该标签集合中的所有可能的标签序列进行举例,并采用N-grams模型依次计算各标签序列对应的条件概率,那么将严重增加N-grams模型的复杂度,不利于保证N-grams模型的使用效果。
因此,针对上述问题,如图3为本申请实施例提供的另一种基于N-grams的多标签分类方法的流程示意图,作为一种可实施的方式,在上述实施例的基础上,在一实施例中,采用N-grams模型对标签集合中所有的标签进行排序,生成标签序列,包括:
步骤2021,根据预设标签选择方法从标签集合中确定第一位置标签和第二位置标签;
步骤2022,根据第一位置标签、第二位置标签及N-grams模型,确定当前位置标签;
步骤2023,根据当前位置标签对第一位置标签和第二位置标签进行更新,并返回根据第一位置标签、第二位置标签及N-grams模型,确定当前位置标签的步骤(步骤2022),直至确定标签集合中所有标签的排序位置,生成标签序列。
需要说明的是,当采用N-grams模型分别对该标签集合中的所有可能的标签序列进行条件概率的计算时,若某一标签序列h=l1,l2,...,lq,则其对应的计算公式为:P(h)=p(l1)p(l2|l1)...p(lq|lq-1,lq-2,...,l1),其算法复杂度较高。然而,在本申请实施例中,为了降低其算法的复杂度,将该N-grams模型所采用的计算公式调整为:P(h)=p(l1)p(l2|l1)...p(lq|lq-1,lq-2),降低了其算法的复杂度,同时改善了N-grams模型的使用效果。
具体地,在一实施例中,根据第一位置标签、第二位置标签及N-grams模型,确定当前位置标签,包括:
采用N-grams模型分别计算标签集合中未确定排序位置标签的条件概率;将条件概率的最大值所对应的标签确定为当前位置标签。
其中,在该N-grams模型中,当N取值为2时,可以根据如下公式分别计算标签集合中未确定排序位置标签的条件概率:
其中,P(hi)表示标签集合中未确定排序位置标签的条件概率,q为标签集合中标签的数量,li-2,li-1,li分别为第一位置标签,第一位置标签,当前位置标签,Si为符合标签li分类的样本的集合,Si-1为符合标签li-1分类的样本的集合,Si-2为符合标签li-2分类的样本的集合。
需要说明的是,在该公式中,未确定排序位置的标签即为第i个位置候选标签,也称当前位置标签。其中,li-2,li-1为当前位置标签的前两个标签。
示例性的,当第一位置标签为标签序列中的第一个标签l1,第二位置标签为标签序列中的第二个标签l2时,根据第一位置标签l1和第二位置标签l2,确定其他q-2个标签分别作为当前位置标签l3时所对应的条件概率;根据条件概率从大到小的排序结果,将对应的条件概率最大的标签作为当前位置标签l3。由于该标签集合中还有q-3个标签待确定排序位置,因此,将l2更新为第一位置标签,将l3更新为第二位置标签,类似的,确定其他q-3个标签分别作为当前位置标签l4时所对应的条件概率;根据条件概率从大到小的排序结果,将对应的条件概率最大的标签作为当前位置标签l4。依次类推,将lq-3更新为第一位置标签,将lq-2更新为第二位置标签,类似的,确定其他两个标签分别作为当前位置标签lq-1时所对应的条件概率;根据条件概率从大到小的排序结果,将对应的条件概率最大的标签作为当前位置标签lq-1,将另一个标签作为标签序列中的最后一个标签lq
具体地,在一实施例中,根据预设标签选择方法从标签集合中确定第一位置标签和第二位置标签,包括:
根据标签集合,构建共现向量或共现矩阵;根据共现向量或共现矩阵,确定标签集合中各标签的共现率;根据共现率从大到小的排序结果,确定第一位置标签和第二位置标签。
需要说明的是,第一位置标签和第二位置标签为待确定的当前位置标签的前两个标签。当待确定的当前位置标签为标签序列中的第三个标签时,第一位置标签和第二位置标签为该标签序列中的第一个标签和第二个标签,即分类器链首部的两个标签。
示例性的,由于分类器链首部的两个标签分类器无法使用条件概率的形式去确定,所以采用目前现有的标签分类器链的确定方式来确定第一位置标签和第二位置标签,例如可以从共现向量或共现矩阵中选取共现率最大的共现分支作为对应的分类器链起始分支。
其中,为了对所获得的分类器链的性能进行检测,即确定其获得的分类结果的准确性的高低,本申请实施例提供了一种示例性的分类器链的性能检测方法,以对本申请实施例提供的基于N-grams的多标签分类方法(简称:NCC)同BR算法,CC算法以及基于CC算法改进的LOCC算法和PwRakel算法进行比较分析。
示例性的,从待检测对象池选取了Yeast,Enron,Emotion,Slashdot-F,CAL500五个数据集,即用于对算法性能进行检测的样本,领域涵盖文本,图片,生物等领域。具体所采用的数据集的各参数如下:
其中,Instance表示样例,Features表示特征,Labels表示标签,Cardinality表示基数。所有测试过程都采用python实现,借助sklearn进行相应的检测。在对于基分类器的选择上,本申请实施例采用了SVM作为基分类器,核函数选择高斯核函数,惩罚参数C=100,所有算法的基分类器采用相同参数,以避免在基分类器存在差异从而影响序列提取本身所带来的效果。
示例性的,本申请实施例可以选择Accuracy和F1作为检测指标,Accuracy和F1均为用于确定算法的精确度的相关参数。其中,该公式区别于通常分类任务所使用的Accuracy公式,由于通常分类任务使用的Accuracy公式过于严苛,为了更好反应多标签分类算法的性能,申请实施例采用多标签分类下对应的Accuracy的变式。其中Si代表分类要素xi的真实标签集合,Yi代表分类要素xi的预测标签集合。|Si∩Yi|表示的是预测正确的标签个数,|Si∪Yi|表示的是总出现的标签次数,Accuracy该项指标的数值越大越好。其中,检测指标/> 其中,/>由于Accuracy更侧重于对算法预测出来的正确标签进行评估,为了同时考虑正确和错误样例,本申请实施例采用F1指标。该公式中的pi对应的是精确度Precision,ri对应的是召回率Recall,F1指标则是对精准度和召回率的调和平均。该指标越大对应的算法综合性能也就越好。
其中,为了进一步提高其检测结果的准确性和可信度,并申请实施例还提供了另一种示例性的分类器链的性能检测方法。
示例性的,可以采用平均指标作为检测指标,其中,平均指标对于多个数据集存在的性能不一的情况,为了更直观的比较分类器链的性能,申请实施例计算多个数据集Accuracy和F1平均指标,以便直观的比较对应算法的性能。假设当前有n个数据集,对应的指标分别为Accuracyi,F1。
其中,为了进一步确定所确定本申请实施例提供的基于N-grams的多标签分类方法中的性能,本申请实施例提供了再一种示例性的分类器链的性能检测方法
示例性的,为探究参数n对于NCC算法的影响大小,本申请实施例在不同数据集上选取了不同的n计算了对应指标的值。其中,如图4所示,为本申请实施例提供的一种示例性的分类器链的性能检测结果的示意图,如图4所示,对于Accuracy指标,emotions,yeast,Slashdot-F等数据集下,在n选取非0值的时候(在n选取0的时候则退化成CC算法),算法的指标性能可以得到提升。这进一步验证了采用N-grams发掘标签关系的正确性。而在部分n取值较大的时候,指标不发生变化的原因在于标签长度小于给定的n。因而无法给算法带来更多的提升。
示例性的,如图5所示,为本申请实施例提供的另一种示例性的分类器链的性能检测结果的示意图。其中,在yeast数据集上也可以看到n选取非0正值的时候给算法带来了稳定的提升。因此选取一个合适的n有助于更好地提升算法的性能效果。针对于如何选取合适的n,考虑到对应数据集的标签的集合一般不会过于的大,因此只要穷举选择所有n的情况就可以筛选得到合适的n。在后续的检测中本申请实施例默认采取最优情况下的n取值。
为了进一步对所获得的分类器链的性能进行检测,本申请实施例提供了又一种示例性的分类器链的性能检测方法
示例性的,采用五折交叉验证的方式。分类的指标结果如表1-表3所示,其中黑体标示的为对应指标最优的算法结果。表1所示,在Accuracy指标上,可以看到NCC算法在yeast、scene、Slashdot-F、CAL500等大多数数据集上分类效果优于其他方法。在enron数据集上也是比PwRakel的分类效果稍微低了一点点。从表2可以看出,在F1指标上,NCC算法性能在yeast、enron、Slashdot-F、CAL500等大多数数据集上优于其他方法。NCC方法的F1指标在emontions数据集上稍微小一点儿。其中,因为各个数据集样本的差异导致算法效果显示的不直观,因此本申请实施例还对对应的Accuracy指标和F1指标按照均值分别进行了计算,以便更直观的评比算法的性能。平均F1和平均Accuracy越大则证明在多个数据集上的指标综合越好,最终数据结果如表3所示。在表3的综合考虑下,NCC算法的性能效果表现最佳,PwRakel算法和LOCC算法则性能其次,而CC,BR算法则表现最差。由此可以推断上述的标签序列生成的方式对多标签分类器链算法有正向的提升功能。同时,NCC在大多数的任务中提升要更为明显。
如表1所示,为不同算法关于Accuracy的性能比较:
表1
如表2所示,为不同算法关于F1的性能比较:
表2
数据集 CC BR LOCC PwRakel NCC
yeast 0.5555 0.5358 0.5505 0.5456 0.5557
emotions 0.6563 0.6516 0.6601 0.6674 0.6624
enron 0.5834 0.5843 0.5860 0.5850 0.5866
Slashdot-F 0.6503 0.6422 0.6538 0.6467 0.6545
CAL500 0.5098 0.5088 0.5104 0.5084 0.5106
如表3所示,为不同算法平均Accuracy指标和平均F1指标的性能比较:
表3
数据集 CC BR LOCC PwRakel NCC
MeanAccuracy 0.3725 0.3731 0.3738 0.3726 0.3849
MeanF1 0.5917 0.5849 0.5921 0.5906 0.5940
本申请实施例提供的一种基于N-grams的多标签分类方法,通过获取待分类对象中的分类要素,并根据分类要素确定待分类对象对应的标签,构成标签集合;采用N-grams模型对标签集合中所有的标签进行排序,生成标签序列;根据标签序列构建分类器链;根据分类器链对待分类对象进行分类,生成分类结果。上述方案提供的基于N-grams的多标签分类方法,通过采用N-grams模型对标签集合中所有的标签进行排序,并按照标签的排序构建分类器链,以获得分类效果较好的分类器链,从而提高了分类结果的准确性。
本申请实施例提供了一种基于N-grams的多标签分类装置,用于解决现有技术中的多标签分类方法所获得的分类结果的准确性较低的技术问题。如图6所示,为本申请实施例提供的基于N-grams的多标签分类装置的结构示意图,该装置60包括:获取模块601、排序模块602、构建模块603和分类模块604。
其中,获取模块601,用于获取待分类对象中的分类要素,并根据分类要素确定待分类对象对应的标签,构成标签集合;排序模块602,用于采用N-grams模型对标签集合中所有的标签进行排序,生成标签序列;构建模块603,用于根据标签序列构建分类器链;分类模块604,用于根据分类器链对待分类对象进行分类,生成分类结果。
具体地,在一实施例中,排序模块602具体用于:根据预设标签选择方法从标签集合中确定第一位置标签和第二位置标签;
根据第一位置标签、第二位置标签及N-grams模型,确定当前位置标签;
根据当前位置标签对第一位置标签和第二位置标签进行更新,并返回根据第一位置标签、第二位置标签及N-grams模型,确定当前位置标签步骤,直至确定标签集合中所有标签的排序位置,生成标签序列。
具体地,在一实施例中,排序模块602,具体用于:
采用N-grams模型分别计算标签集合中未确定排序位置标签的条件概率;
将条件概率的最大值所对应的标签确定为当前位置标签。
可选的,排序模块602,具体用于:
根据如下公式分别计算标签集合中未确定排序位置标签的条件概率:
其中,P(hi)表示标签集合中未确定排序位置标签的条件概率,q为标签集合中标签的数量,li-2,li-1,li分别为第一位置标签,第二位置标签,当前位置标签,Si为符合标签li分类的样本的集合,Si-1为符合标签li-1分类的样本的集合,Si-2为符合标签li-2分类的样本的集合。
具体地,在一实施例中,排序模块602,具体用于:
根据标签集合,构建共现向量或共现矩阵;
根据共现向量或共现矩阵,确定标签集合中各标签的共现率;
根据共现率从大到小的排序结果,确定第一位置标签和第二位置标签。
本申请实施例提供的一种N-grams的多标签分类装置,用于执行上述实施例提供的N-grams的多标签分类方法,其实现方式与原理相同,不再赘述。
本申请实施例还了提供一种电子设备,用于执行上述实施例提供的方法。
如图7所示,为本申请实施例提供的电子设备的结构示意图。该电子设备70包括:至少一个处理器71和存储器72;
其中,至少一个处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行如前述实施例中任一项的方法的指令。
本申请实施例提供的一种电子设备,用于执行上述实施例提供的N-grams的多标签分类方法,其实现方式与原理相同,不再赘述。
本申请实施例提供了一种包含计算机可执行指令的存储介质,存储介质中存储有计算机处理器执行指令,当处理器执行计算机执行指令时,实现如上任一实施例提供的方法。
本申请实施例的包含计算机可执行指令的存储介质,可用于存储前述实施例中提供的N-grams的多标签分类方法的计算机执行指令,其实现方式与原理相同,不再赘述。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (5)

1.一种基于N-grams的多标签分类方法,其特征在于,包括:
获取待分类对象中的分类要素,并根据所述分类要素确定所述待分类对象对应的标签,构成标签集合;所述待分类对象中的分类要素包括词汇序列以及词汇序列之间的关联信息;
采用N-grams模型对所述标签集合中所有的标签进行排序,生成标签序列;
根据所述标签序列构建分类器链;
根据所述分类器链对所述待分类对象进行分类,生成分类结果;
所述采用N-grams模型对所述标签集合中所有的标签进行排序,生成标签序列,包括:
根据预设标签选择方法从所述标签集合中确定第一位置标签和第二位置标签;
根据所述第一位置标签、所述第二位置标签及所述N-grams模型,确定当前位置标签;
根据所述当前位置标签对所述第一位置标签和所述第二位置标签进行更新,并返回所述根据所述第一位置标签、所述第二位置标签及所述N-grams模型,确定当前位置标签的步骤,直至确定所述标签集合中所有标签的排序位置,生成所述标签序列;
所述根据所述第一位置标签、所述第二位置标签及所述N-grams模型,确定当前位置标签,包括:
采用N-grams模型分别计算所述标签集合中未确定排序位置标签的条件概率;
将所述条件概率的最大值所对应的标签确定为所述当前位置标签;
所述采用N-grams模型分别计算所述标签集合中未确定排序位置标签的条件概率,包括:
根据如下公式分别计算所述标签集合中未确定排序位置标签的条件概率:
其中,P(hi)表示所述标签集合中未确定排序位置标签的条件概率,q为所述标签集合中标签的数量,所述li-2,li-1,li分别为所述第一位置标签,所述第二位置标签,所述当前位置标签,所述Si为符合标签li分类的样本的集合,所述Si-1为符合标签li-1分类的样本的集合,所述Si-2为符合标签li-2分类的样本的集合。
2.根据权利要求1所述的基于N-grams的多标签分类方法,其特征在于,所述根据预设标签选择方法从所述标签集合中确定第一位置标签和第二位置标签,包括:
根据所述标签集合,构建共现向量或共现矩阵;
根据所述共现向量或共现矩阵,确定标签集合中各标签的共现率;
根据所述共现率从大到小的排序结果,确定所述第一位置标签和第二位置标签。
3.一种基于N-grams的多标签分类装置,其特征在于,包括:获取模块、排序模块、构建模块和分类模块;
所述获取模块,用于获取待分类对象中的分类要素,并根据所述分类要素确定所述待分类对象对应的标签,构成标签集合;所述待分类对象中的分类要素包括词汇序列以及词汇序列之间的关联信息;
所述排序模块,用于采用N-grams模型对所述标签集合中所有的标签进行排序,生成标签序列;
所述构建模块,用于根据所述标签序列构建分类器链;
所述分类模块,用于根据所述分类器链对所述待分类对象进行分类,生成分类结果;
所述排序模块,具体用于:
根据预设标签选择方法从所述标签集合中确定第一位置标签和第二位置标签;
根据所述第一位置标签、所述第二位置标签及所述N-grams模型,确定当前位置标签;
根据所述当前位置标签对所述第一位置标签和所述第二位置标签进行更新,并返回所述根据所述第一位置标签、所述第二位置标签及所述N-grams模型,确定当前位置标签的步骤,直至确定所述标签集合中所有标签的排序位置,生成所述标签序列;
所述排序模块,具体用于:
采用N-grams模型分别计算所述标签集合中未确定排序位置标签的条件概率;
将所述条件概率的最大值所对应的标签确定为所述当前位置标签;
所述排序模块,具体用于:
根据如下公式分别计算所述标签集合中未确定排序位置标签的条件概率:
其中,P(hi)表示所述标签集合中未确定排序位置标签的条件概率,q为所述标签集合中标签的数量,所述li-2,li-1,li分别为所述第一位置标签,所述第二位置标签,所述当前位置标签,所述Si为符合标签li分类的样本的集合,所述Si-1为符合标签li-1分类的样本的集合,所述Si-2为符合标签li-2分类的样本的集合。
4.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1或2所述的方法。
5.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1或2所述的方法。
CN202010550466.4A 2020-06-16 2020-06-16 一种基于N-grams的多标签分类方法及装置 Active CN111709475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010550466.4A CN111709475B (zh) 2020-06-16 2020-06-16 一种基于N-grams的多标签分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010550466.4A CN111709475B (zh) 2020-06-16 2020-06-16 一种基于N-grams的多标签分类方法及装置

Publications (2)

Publication Number Publication Date
CN111709475A CN111709475A (zh) 2020-09-25
CN111709475B true CN111709475B (zh) 2024-03-15

Family

ID=72540615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010550466.4A Active CN111709475B (zh) 2020-06-16 2020-06-16 一种基于N-grams的多标签分类方法及装置

Country Status (1)

Country Link
CN (1) CN111709475B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766330B (zh) * 2021-01-07 2022-06-28 山东浪潮科学研究院有限公司 图像多标签分类方法和装置
CN112800222B (zh) * 2021-01-26 2022-07-19 天津科技大学 利用共现信息的多任务辅助极限多标签短文本分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447110A (zh) * 2018-09-17 2019-03-08 华中科技大学 综合邻居标签相关性特征和样本特征的多标签分类的方法
WO2019100724A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN111078887A (zh) * 2019-12-20 2020-04-28 厦门市美亚柏科信息股份有限公司 文本分类方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10949622B2 (en) * 2018-10-30 2021-03-16 The Florida International University Board Of Trustees Systems and methods for segmenting documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019100724A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN109447110A (zh) * 2018-09-17 2019-03-08 华中科技大学 综合邻居标签相关性特征和样本特征的多标签分类的方法
CN111078887A (zh) * 2019-12-20 2020-04-28 厦门市美亚柏科信息股份有限公司 文本分类方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
利用标签的层次化搜索结果聚类方法;张云;冯博琴;;西安交通大学学报(04);全文 *
基于双层结构的多标签优序选择分类算法;刘各巧;郭涛;;计算机工程与设计(04);全文 *

Also Published As

Publication number Publication date
CN111709475A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
US11636147B2 (en) Training neural networks to perform tag-based font recognition utilizing font classification
US10417524B2 (en) Deep active learning method for civil infrastructure defect detection
US10664719B2 (en) Accurate tag relevance prediction for image search
JP5171962B2 (ja) 異種データセットからの知識移転を伴うテキスト分類
CN103268317B (zh) 对图像进行语义注释的系统和方法
US7720773B2 (en) Partitioning data elements of a visual display of a tree using weights obtained during the training state and a maximum a posteriori solution for optimum labeling and probability
US20170236055A1 (en) Accurate tag relevance prediction for image search
US7472131B2 (en) Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance
CN108733778B (zh) 对象的行业类型识别方法和装置
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
US10803231B1 (en) Performing tag-based font retrieval using combined font tag recognition and tag-based font retrieval neural networks
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
WO2017151759A1 (en) Category discovery and image auto-annotation via looped pseudo-task optimization
US9928284B2 (en) File recognition system and method
US20210117802A1 (en) Training a Neural Network Using Small Training Datasets
US20210056127A1 (en) Method for multi-modal retrieval and clustering using deep cca and active pairwise queries
CN111709475B (zh) 一种基于N-grams的多标签分类方法及装置
US20230045330A1 (en) Multi-term query subsumption for document classification
Norris Machine Learning with the Raspberry Pi
US7496232B2 (en) Distinguishing text from non-text in digital ink
CN115115825B (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
US20100296728A1 (en) Discrimination Apparatus, Method of Discrimination, and Computer Program
CN116245139B (zh) 图神经网络模型训练方法和装置、事件检测方法和装置
RU2715024C1 (ru) Способ отладки обученной рекуррентной нейронной сети
Boillet et al. Confidence estimation for object detection in document images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant