CN111709475B

CN111709475B - 一种基于N-grams的多标签分类方法及装置

Info

Publication number: CN111709475B
Application number: CN202010550466.4A
Authority: CN
Inventors: 梁潇; 安宁钰; 张强; 郑晓崑; 吴宁; 邹云峰; 徐超
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Corp of China SGCC; Global Energy Interconnection Research Institute
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Corp of China SGCC; Global Energy Interconnection Research Institute
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2024-03-15
Anticipated expiration: 2040-06-16
Also published as: CN111709475A

Abstract

本申请提供的一种基于N‑grams的多标签分类方法及装置，该方法包括：获取待分类对象中的分类要素，并根据分类要素确定待分类对象对应的标签，构成标签集合；采用N‑grams模型对标签集合中所有的标签进行排序，生成标签序列；根据标签序列构建分类器链；根据分类器链对待分类对象进行分类，生成分类结果。上述方案提供的基于N‑grams的多标签分类方法，通过采用N‑grams模型对标签集合中所有的标签进行排序，并按照标签的排序构建分类器链，以获得分类效果较好的分类器链，从而提高了分类结果的准确性。

Description

一种基于N-grams的多标签分类方法及装置

技术领域

本发明涉及机器学习领域，具体涉及一种基于N-grams的多标签分类方法及装置。

背景技术

随着计算机技术的发展，机器学习技术已得到广泛的应用。其中，在存在大量的待分类对象需要进行种类划分的情况下，若采用人工分类的方式进行种类划分，则需要耗费大量的人力资源，且分类效率极低，因此，为了提高分类效率，同时减少人力资源的消耗，通常采用机器学习技术进行种类的划分。

在现有技术中，通常采用二元相关性算法(Inary Relevance，简称：BR)，以及分类器链算法(Classifier Chain，简称：CC)进行对象种类的划分，即进行多标签分类。

但是，在基于BR算法进行多标签分类时，各分类器之间是独立的，也就是说，可能会出现一个对象同时对应多个标签的情况，导致其分类效果较差。在基于CC算法进行多标签分类时，各分类器是按照一定的顺序相互联系的，待分类对象按照各分类器的连接顺序进行依次识别，当排序在前的分类器确定与该对象的类别相符合时，输出相应的识别结果，但由于各分类器的先后连接顺序是随机的，不合理的连接顺序将严重影响分类效果，导致其分类结果的准确性较低。因此，急需一种可以改善标签分类效果的多标签分类方法，对提高多标签分类的准确性有重要意义。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的多标签分类方法所获得的分类结果的准确性较低的缺陷，从而提供一种基于N-grams的多标签分类方法及装置。

本申请第一个方面提供一种基于N-grams的多标签分类方法，包括：

获取待分类对象中的分类要素，并根据所述分类要素确定所述待分类对象对应的标签，构成标签集合；

采用N-grams模型对所述标签集合中所有的标签进行排序，生成标签序列；

根据所述标签序列构建分类器链；

根据所述分类器链对所述待分类对象进行分类，生成分类结果。

可选的，所述采用N-grams模型对所述标签集合中所有的标签进行排序，生成标签序列，包括：

根据预设标签选择方法从所述标签集合中确定第一位置标签和第二位置标签；

根据所述第一位置标签、所述第二位置标签及所述N-grams模型，确定当前位置标签；

根据所述当前位置标签对所述第一位置标签和所述第二位置标签进行更新，并返回所述根据所述第一位置标签、所述第二位置标签及所述N-grams模型，确定当前位置标签的步骤，直至确定所述标签集合中所有标签的排序位置，生成所述标签序列。

可选的，所述根据所述第一位置标签、所述第二位置标签及所述N-grams模型，确定当前位置标签，包括：

采用N-grams模型分别计算所述标签集合中未确定排序位置标签的条件概率；

将所述条件概率的最大值所对应的标签确定为所述当前位置标签。

可选的，所述采用N-grams模型分别计算所述标签集合中未确定排序位置标签的条件概率，包括：

根据如下公式分别计算所述标签集合中未确定排序位置标签的条件概率：

其中，P(h_i)表示所述标签集合中未确定排序位置标签的条件概率，q为所述标签集合中标签的数量，所述l_i-2,l_i-1,l_i分别为所述第一位置标签，所述第二位置标签，所述当前位置标签，所述S_i为符合标签l_i分类的样本的集合，所述S_i-1为符合标签l_i-1分类的样本的集合，所述S_i-2为符合标签l_i-2分类的样本的集合。

可选的，所述根据预设标签选择方法从所述标签集合中确定第一位置标签和第二位置标签，包括：

根据所述标签集合，构建共现向量或共现矩阵；

根据所述共现向量或共现矩阵，确定标签集合中各标签的共现率；

根据所述共现率从大到小的排序结果，确定所述第一位置标签和第二位置标签。

本申请第二个方面提供一种基于N-grams的多标签分类装置，包括：获取模块、排序模块、构建模块和分类模块；

所述获取模块，用于获取待分类对象中的分类要素，并根据所述分类要素确定所述待分类对象对应的标签，构成标签集合；

所述排序模块，用于采用N-grams模型对所述标签集合中所有的标签进行排序，生成标签序列；

所述构建模块，用于根据所述标签序列构建分类器链；

所述分类模块，用于根据所述分类器链对所述待分类对象进行分类，生成分类结果。

可选的，所述排序模块，具体用于：

根据所述标签集合，构建共现向量或共现矩阵；

本申请第三个方面提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一个方面以及第一个方面各种可能的设计所述的方法。

本申请第四个方面提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上第一个方面以及第一个方面各种可能的设计所述的方法。

本申请技术方案，具有如下优点：

本申请提供的一种基于N-grams的多标签分类方法及装置，通过获取待分类对象中的分类要素，并根据分类要素确定待分类对象对应的标签，构成标签集合；采用N-grams模型对标签集合中所有的标签进行排序，生成标签序列；根据标签序列构建分类器链；根据分类器链对待分类对象进行分类，生成分类结果。上述方案提供的基于N-grams的多标签分类方法，通过采用N-grams模型对标签集合中所有的标签进行排序，并按照标签的排序构建分类器链，以获得分类效果较好的分类器链，从而提高了分类结果的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例基于的多标签分类系统的结构示意图；

图2为本申请实施例提供的一种基于N-grams的多标签分类方法的流程示意图；

图3为本申请实施例提供的另一种基于N-grams的多标签分类方法的流程示意图；

图4为本申请实施例提供的一种示例性的分类器链的性能检测结果的示意图；

图5为本申请实施例提供的另一种示例性的分类器链的性能检测结果的示意图；

图6为本申请实施例提供的基于N-grams的多标签分类装置的结构示意图；

图7为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先对本申请所涉及的名词进行解释：

分类器链：分类器链是基于二元相关性的优化算法，其通过将分类器串行的连接，使得分类器训练不是互相孤立的，从而优化整个分类任务的分类效果。其中，分类器链通过增加分类器的结果到其输入的待分类对象中，从而实现分类器的串型的连接。分类器链在一定程度上利用到了标签之间存在的隐含关系。但是分类器链算法对于分类器先后排列顺序十分的敏感。所以只有更好地选择分类器的先后顺序，即标签序列，才能生成较好的多标签分类结果。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

在现有技术中，通常是采用二元相关性算法(Inary Relevance，简称：BR)，以及分类器链算法(Classifier Chain，简称：CC)进行对象种类的划分，即进行多标签分类。

但是，在基于BR算法进行多标签分类时，各分类器之间是独立的，也就是说，可能会出现一个对象同时对应多个标签的情况，导致其分类效果较差。在基于CC算法进行多标签分类时，各分类器是按照一定的顺序相互联系的，待分类对象按照各分类器的连接顺序进行依次识别，当排序在前的分类器确定与该对象的类别相符合时，输出相应的识别结果，但由于各分类器的先后连接顺序是随机的，不合理的连接顺序将严重影响分类效果，导致其分类结果的准确性较低。

针对上述问题，本申请实施例提供的基于N-grams的多标签分类方法及装置，通过获取待分类对象中的分类要素，并根据分类要素确定待分类对象对应的标签，构成标签集合；采用N-grams模型对标签集合中所有的标签进行排序，生成标签序列；根据标签序列构建分类器链；根据分类器链对待分类对象进行分类，生成分类结果。上述方案提供的基于N-grams的多标签分类方法，通过采用N-grams模型对标签集合中所有的标签进行排序，并按照标签的排序构建分类器链，以获得分类效果较好的分类器链，从而提高了分类结果的准确性。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

首先，对本申请所基于的多标签分类系统进行说明：

本申请实施例提供的基于N-grams的多标签分类方法及装置，适用于对待分类对象进行多标签分类，并提高所获得的分类结果的准确性，如图1所示，为本申请实施例基于的多标签分类系统的结构示意图，该系统可以包括待分类对象，以及用于对待分类对象进行分类的基于N-grams的多标签分类装置。具体地，该分类装置可以根据待分类对象中的分类要素确定其对应的标签，并构建标签集合；采用N-grams模型对标签集合中所有的标签进行排序，以为获得分类效果较好的分类器链，从而提高了分类结果的准确性。

本申请实施例提供了一种基于N-grams的多标签分类方法，用于解决现有技术中的多标签分类方法所获得的分类结果的准确性较低的技术问题。本申请实施例的执行主体为电子设备，比如服务器、台式电脑、笔记本电脑、平板电脑及其他可用于对待分类对象进行分类的电子设备。

如图2所示，为本申请实施例提供的一种基于N-grams的多标签分类方法的流程示意图，该方法包括：

步骤201，获取待分类对象中的分类要素，并根据分类要素确定待分类对象对应的标签，构成标签集合；

其中，待分类对象中的分类要素包括词汇序列，以及词汇序列之间的关联信息。

步骤202，采用N-grams模型对标签集合中所有的标签进行排序，生成标签序列；

需要说明的是，现有技术中的N-grams模型是一种用于对句子序列进行生成的模型，其考虑了字词上下联系，从条件概率的角度给出一个句子的生成概率。但是，在本申请实施例中，该N-grams模型可以对标签集合对应的多种标签序列的条件概率进行计算，从而根据各标签序列对应的条件概率，确定最适用的标签序列。

步骤203，根据标签序列构建分类器链；

具体地，根据所确定的标签序列，确定分类器链中各分类器的排列顺序。

步骤204，根据分类器链对待分类对象进行分类，生成分类结果。

示例性的，若输入的待分类对象为x_i＝[a_i1，a_i2，...，a_ik]，其中，a_i1，a_i2，...，a_ik为该分类对象中的多个分类要素。其中，基于该分类器链已预测到前r个分类器的预测结果为：[f₁(x_i)，f₂(x_i)，...，f_r(x_i)]，每次用新得到的分类结果更新对应的分类要素的集合，从而得到每次更新后的分类要素的集合：[a_i1，...，a_ik，f₁(x_i)，...，f_r(x_i)]，r＝1，2，...，q，其中，q表示上述标签集合中的标签数量。以此类推，以获得该分类对象对应的分类结果。

在上述实施例的基础上，由于标签集合中标签数量较多，若对该标签集合中的所有可能的标签序列进行举例，并采用N-grams模型依次计算各标签序列对应的条件概率，那么将严重增加N-grams模型的复杂度，不利于保证N-grams模型的使用效果。

因此，针对上述问题，如图3为本申请实施例提供的另一种基于N-grams的多标签分类方法的流程示意图，作为一种可实施的方式，在上述实施例的基础上，在一实施例中，采用N-grams模型对标签集合中所有的标签进行排序，生成标签序列，包括：

步骤2021，根据预设标签选择方法从标签集合中确定第一位置标签和第二位置标签；

步骤2022，根据第一位置标签、第二位置标签及N-grams模型，确定当前位置标签；

步骤2023，根据当前位置标签对第一位置标签和第二位置标签进行更新，并返回根据第一位置标签、第二位置标签及N-grams模型，确定当前位置标签的步骤(步骤2022)，直至确定标签集合中所有标签的排序位置，生成标签序列。

需要说明的是，当采用N-grams模型分别对该标签集合中的所有可能的标签序列进行条件概率的计算时，若某一标签序列h＝l₁，l₂，...，l_q，则其对应的计算公式为：P(h)＝p(l₁)p(l₂|l₁)...p(l_q|l_q-1，l_q-2，...，l₁)，其算法复杂度较高。然而，在本申请实施例中，为了降低其算法的复杂度，将该N-grams模型所采用的计算公式调整为：P(h)＝p(l₁)p(l₂|l₁)...p(l_q|l_q-1，l_q-2)，降低了其算法的复杂度，同时改善了N-grams模型的使用效果。

具体地，在一实施例中，根据第一位置标签、第二位置标签及N-grams模型，确定当前位置标签，包括：

采用N-grams模型分别计算标签集合中未确定排序位置标签的条件概率；将条件概率的最大值所对应的标签确定为当前位置标签。

其中，在该N-grams模型中，当N取值为2时，可以根据如下公式分别计算标签集合中未确定排序位置标签的条件概率：

其中，P(h_i)表示标签集合中未确定排序位置标签的条件概率，q为标签集合中标签的数量，l_i-2，l_i-1，l_i分别为第一位置标签，第一位置标签，当前位置标签，S_i为符合标签l_i分类的样本的集合，S_i-1为符合标签l_i-1分类的样本的集合，S_i-2为符合标签l_i-2分类的样本的集合。

需要说明的是，在该公式中，未确定排序位置的标签即为第i个位置候选标签，也称当前位置标签。其中，l_i-2，l_i-1为当前位置标签的前两个标签。

示例性的，当第一位置标签为标签序列中的第一个标签l₁，第二位置标签为标签序列中的第二个标签l₂时，根据第一位置标签l₁和第二位置标签l₂，确定其他q-2个标签分别作为当前位置标签l₃时所对应的条件概率；根据条件概率从大到小的排序结果，将对应的条件概率最大的标签作为当前位置标签l₃。由于该标签集合中还有q-3个标签待确定排序位置，因此，将l₂更新为第一位置标签，将l₃更新为第二位置标签，类似的，确定其他q-3个标签分别作为当前位置标签l₄时所对应的条件概率；根据条件概率从大到小的排序结果，将对应的条件概率最大的标签作为当前位置标签l₄。依次类推，将l_q-3更新为第一位置标签，将l_q-2更新为第二位置标签，类似的，确定其他两个标签分别作为当前位置标签l_q-1时所对应的条件概率；根据条件概率从大到小的排序结果，将对应的条件概率最大的标签作为当前位置标签l_q-1，将另一个标签作为标签序列中的最后一个标签l_q。

具体地，在一实施例中，根据预设标签选择方法从标签集合中确定第一位置标签和第二位置标签，包括：

根据标签集合，构建共现向量或共现矩阵；根据共现向量或共现矩阵，确定标签集合中各标签的共现率；根据共现率从大到小的排序结果，确定第一位置标签和第二位置标签。

需要说明的是，第一位置标签和第二位置标签为待确定的当前位置标签的前两个标签。当待确定的当前位置标签为标签序列中的第三个标签时，第一位置标签和第二位置标签为该标签序列中的第一个标签和第二个标签，即分类器链首部的两个标签。

示例性的，由于分类器链首部的两个标签分类器无法使用条件概率的形式去确定，所以采用目前现有的标签分类器链的确定方式来确定第一位置标签和第二位置标签，例如可以从共现向量或共现矩阵中选取共现率最大的共现分支作为对应的分类器链起始分支。

其中，为了对所获得的分类器链的性能进行检测，即确定其获得的分类结果的准确性的高低，本申请实施例提供了一种示例性的分类器链的性能检测方法，以对本申请实施例提供的基于N-grams的多标签分类方法(简称：NCC)同BR算法，CC算法以及基于CC算法改进的LOCC算法和PwRakel算法进行比较分析。

示例性的，从待检测对象池选取了Yeast，Enron，Emotion，Slashdot-F，CAL500五个数据集,即用于对算法性能进行检测的样本，领域涵盖文本，图片，生物等领域。具体所采用的数据集的各参数如下：

其中，Instance表示样例，Features表示特征，Labels表示标签，Cardinality表示基数。所有测试过程都采用python实现，借助sklearn进行相应的检测。在对于基分类器的选择上，本申请实施例采用了SVM作为基分类器，核函数选择高斯核函数，惩罚参数C＝100，所有算法的基分类器采用相同参数，以避免在基分类器存在差异从而影响序列提取本身所带来的效果。

示例性的，本申请实施例可以选择Accuracy和F1作为检测指标，Accuracy和F1均为用于确定算法的精确度的相关参数。其中，该公式区别于通常分类任务所使用的Accuracy公式，由于通常分类任务使用的Accuracy公式过于严苛，为了更好反应多标签分类算法的性能，申请实施例采用多标签分类下对应的Accuracy的变式。其中S_i代表分类要素x_i的真实标签集合，Y_i代表分类要素x_i的预测标签集合。|S_i∩Y_i|表示的是预测正确的标签个数，|S_i∪Y_i|表示的是总出现的标签次数，Accuracy该项指标的数值越大越好。其中，检测指标/> 其中，/>由于Accuracy更侧重于对算法预测出来的正确标签进行评估，为了同时考虑正确和错误样例，本申请实施例采用F1指标。该公式中的pi对应的是精确度Precision，r_i对应的是召回率Recall，F1指标则是对精准度和召回率的调和平均。该指标越大对应的算法综合性能也就越好。

其中，为了进一步提高其检测结果的准确性和可信度，并申请实施例还提供了另一种示例性的分类器链的性能检测方法。

示例性的，可以采用平均指标作为检测指标，其中，平均指标对于多个数据集存在的性能不一的情况，为了更直观的比较分类器链的性能，申请实施例计算多个数据集Accuracy和F1平均指标，以便直观的比较对应算法的性能。假设当前有n个数据集，对应的指标分别为Accuracy_i，F1。

其中，为了进一步确定所确定本申请实施例提供的基于N-grams的多标签分类方法中的性能，本申请实施例提供了再一种示例性的分类器链的性能检测方法

示例性的，为探究参数n对于NCC算法的影响大小，本申请实施例在不同数据集上选取了不同的n计算了对应指标的值。其中，如图4所示，为本申请实施例提供的一种示例性的分类器链的性能检测结果的示意图，如图4所示，对于Accuracy指标，emotions，yeast，Slashdot-F等数据集下，在n选取非0值的时候(在n选取0的时候则退化成CC算法)，算法的指标性能可以得到提升。这进一步验证了采用N-grams发掘标签关系的正确性。而在部分n取值较大的时候，指标不发生变化的原因在于标签长度小于给定的n。因而无法给算法带来更多的提升。

示例性的，如图5所示，为本申请实施例提供的另一种示例性的分类器链的性能检测结果的示意图。其中，在yeast数据集上也可以看到n选取非0正值的时候给算法带来了稳定的提升。因此选取一个合适的n有助于更好地提升算法的性能效果。针对于如何选取合适的n，考虑到对应数据集的标签的集合一般不会过于的大，因此只要穷举选择所有n的情况就可以筛选得到合适的n。在后续的检测中本申请实施例默认采取最优情况下的n取值。

为了进一步对所获得的分类器链的性能进行检测，本申请实施例提供了又一种示例性的分类器链的性能检测方法

示例性的，采用五折交叉验证的方式。分类的指标结果如表1-表3所示，其中黑体标示的为对应指标最优的算法结果。表1所示，在Accuracy指标上，可以看到NCC算法在yeast、scene、Slashdot-F、CAL500等大多数数据集上分类效果优于其他方法。在enron数据集上也是比PwRakel的分类效果稍微低了一点点。从表2可以看出，在F1指标上，NCC算法性能在yeast、enron、Slashdot-F、CAL500等大多数数据集上优于其他方法。NCC方法的F1指标在emontions数据集上稍微小一点儿。其中，因为各个数据集样本的差异导致算法效果显示的不直观，因此本申请实施例还对对应的Accuracy指标和F1指标按照均值分别进行了计算，以便更直观的评比算法的性能。平均F1和平均Accuracy越大则证明在多个数据集上的指标综合越好，最终数据结果如表3所示。在表3的综合考虑下，NCC算法的性能效果表现最佳，PwRakel算法和LOCC算法则性能其次，而CC，BR算法则表现最差。由此可以推断上述的标签序列生成的方式对多标签分类器链算法有正向的提升功能。同时，NCC在大多数的任务中提升要更为明显。

如表1所示，为不同算法关于Accuracy的性能比较：

表1

如表2所示，为不同算法关于F1的性能比较：

表2

数据集	CC	BR	LOCC	PwRakel	NCC
						yeast	0.5555	0.5358	0.5505	0.5456	0.5557
emotions	0.6563	0.6516	0.6601	0.6674	0.6624
						enron	0.5834	0.5843	0.5860	0.5850	0.5866
Slashdot-F	0.6503	0.6422	0.6538	0.6467	0.6545
						CAL500	0.5098	0.5088	0.5104	0.5084	0.5106

如表3所示，为不同算法平均Accuracy指标和平均F1指标的性能比较：

表3

数据集	CC	BR	LOCC	PwRakel	NCC
						MeanAccuracy	0.3725	0.3731	0.3738	0.3726	0.3849
MeanF1	0.5917	0.5849	0.5921	0.5906	0.5940

本申请实施例提供的一种基于N-grams的多标签分类方法，通过获取待分类对象中的分类要素，并根据分类要素确定待分类对象对应的标签，构成标签集合；采用N-grams模型对标签集合中所有的标签进行排序，生成标签序列；根据标签序列构建分类器链；根据分类器链对待分类对象进行分类，生成分类结果。上述方案提供的基于N-grams的多标签分类方法，通过采用N-grams模型对标签集合中所有的标签进行排序，并按照标签的排序构建分类器链，以获得分类效果较好的分类器链，从而提高了分类结果的准确性。

本申请实施例提供了一种基于N-grams的多标签分类装置，用于解决现有技术中的多标签分类方法所获得的分类结果的准确性较低的技术问题。如图6所示，为本申请实施例提供的基于N-grams的多标签分类装置的结构示意图，该装置60包括：获取模块601、排序模块602、构建模块603和分类模块604。

其中，获取模块601，用于获取待分类对象中的分类要素，并根据分类要素确定待分类对象对应的标签，构成标签集合；排序模块602，用于采用N-grams模型对标签集合中所有的标签进行排序，生成标签序列；构建模块603，用于根据标签序列构建分类器链；分类模块604，用于根据分类器链对待分类对象进行分类，生成分类结果。

具体地，在一实施例中，排序模块602具体用于：根据预设标签选择方法从标签集合中确定第一位置标签和第二位置标签；

根据第一位置标签、第二位置标签及N-grams模型，确定当前位置标签；

根据当前位置标签对第一位置标签和第二位置标签进行更新，并返回根据第一位置标签、第二位置标签及N-grams模型，确定当前位置标签步骤，直至确定标签集合中所有标签的排序位置，生成标签序列。

具体地，在一实施例中，排序模块602，具体用于：

采用N-grams模型分别计算标签集合中未确定排序位置标签的条件概率；

将条件概率的最大值所对应的标签确定为当前位置标签。

可选的，排序模块602，具体用于：

根据如下公式分别计算标签集合中未确定排序位置标签的条件概率：

其中，P(h_i)表示标签集合中未确定排序位置标签的条件概率，q为标签集合中标签的数量，l_i-2，l_i-1，l_i分别为第一位置标签，第二位置标签，当前位置标签，S_i为符合标签l_i分类的样本的集合，S_i-1为符合标签l_i-1分类的样本的集合，S_i-2为符合标签l_i-2分类的样本的集合。

具体地，在一实施例中，排序模块602，具体用于：

根据标签集合，构建共现向量或共现矩阵；

根据共现向量或共现矩阵，确定标签集合中各标签的共现率；

根据共现率从大到小的排序结果，确定第一位置标签和第二位置标签。

本申请实施例提供的一种N-grams的多标签分类装置，用于执行上述实施例提供的N-grams的多标签分类方法，其实现方式与原理相同，不再赘述。

本申请实施例还了提供一种电子设备，用于执行上述实施例提供的方法。

如图7所示，为本申请实施例提供的电子设备的结构示意图。该电子设备70包括：至少一个处理器71和存储器72；

其中，至少一个处理器执行存储器存储的计算机执行指令，使得至少一个处理器执行如前述实施例中任一项的方法的指令。

本申请实施例提供的一种电子设备，用于执行上述实施例提供的N-grams的多标签分类方法，其实现方式与原理相同，不再赘述。

本申请实施例提供了一种包含计算机可执行指令的存储介质，存储介质中存储有计算机处理器执行指令，当处理器执行计算机执行指令时，实现如上任一实施例提供的方法。

本申请实施例的包含计算机可执行指令的存储介质，可用于存储前述实施例中提供的N-grams的多标签分类方法的计算机执行指令，其实现方式与原理相同，不再赘述。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于N-grams的多标签分类方法，其特征在于，包括：

获取待分类对象中的分类要素，并根据所述分类要素确定所述待分类对象对应的标签，构成标签集合；所述待分类对象中的分类要素包括词汇序列以及词汇序列之间的关联信息；

根据所述标签序列构建分类器链；

根据所述分类器链对所述待分类对象进行分类，生成分类结果；

所述采用N-grams模型对所述标签集合中所有的标签进行排序，生成标签序列，包括：

根据所述当前位置标签对所述第一位置标签和所述第二位置标签进行更新，并返回所述根据所述第一位置标签、所述第二位置标签及所述N-grams模型，确定当前位置标签的步骤，直至确定所述标签集合中所有标签的排序位置，生成所述标签序列；

所述根据所述第一位置标签、所述第二位置标签及所述N-grams模型，确定当前位置标签，包括：

将所述条件概率的最大值所对应的标签确定为所述当前位置标签；

所述采用N-grams模型分别计算所述标签集合中未确定排序位置标签的条件概率，包括：

2.根据权利要求1所述的基于N-grams的多标签分类方法，其特征在于，所述根据预设标签选择方法从所述标签集合中确定第一位置标签和第二位置标签，包括：

根据所述标签集合，构建共现向量或共现矩阵；

3.一种基于N-grams的多标签分类装置，其特征在于，包括：获取模块、排序模块、构建模块和分类模块；

所述获取模块，用于获取待分类对象中的分类要素，并根据所述分类要素确定所述待分类对象对应的标签，构成标签集合；所述待分类对象中的分类要素包括词汇序列以及词汇序列之间的关联信息；

所述构建模块，用于根据所述标签序列构建分类器链；

所述分类模块，用于根据所述分类器链对所述待分类对象进行分类，生成分类结果；

所述排序模块，具体用于：

4.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1或2所述的方法。

5.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1或2所述的方法。