CN108090216B

CN108090216B - 一种标签预测方法、装置及存储介质

Info

Publication number: CN108090216B
Application number: CN201711480729.3A
Authority: CN
Inventors: 罗元帅
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2021-02-05
Anticipated expiration: 2037-12-29
Also published as: CN108090216A

Abstract

本发明公开了一种标签预测方法，包括：确定分类模型中各决策树的投票权重值，其中，包括核属性的决策树的投票权重值，高于不包括所述核属性的决策树的投票权重值；根据所述各决策树的投票权重值，确定与待预测文本信息对应的各类别标签的投票得分；基于所述各类别标签的投票得分，选取投票得分符合预设条件的类别标签，将所述符合预设条件的类别标签作为与所述待预测文本信息相关联的预测标签。本发明还同时公开了一种标签预测装置、以及存储介质。

Description

一种标签预测方法、装置及存储介质

技术领域

本发明涉及人工智能领域中的数据处理技术，尤其涉及一种标签预测方法、装置及存储介质。

背景技术

随着互联网和终端技术的不断发展，人们可以通过网络平台或移动终端阅读各种类型的文本信息，如电子图书、网络新闻等。目前大都采用标签对文本信息进行分类标示。由于标签与文本信息之间的相关性很强，因此，利用标签可以对文本信息进行简单描述和分类，以便用户检索或查找感兴趣的文本信息。

目前，为了给文本信息设置标签，一般采用的技术实现方案是：当文本信息的数据规模较小时，通常采用人工标记的方式，即用户手动操作给文本信息设置标签。然而，当文本信息的数据规模较大时，若仍采用人工标记的方式，则工作量较大，效率低下。因此，相关技术中会通过算法来对文本信息进行标签预测，例如采用随机森林(Random Frost)算法进行标签预测，但是，相关技术中的随机森林算法在进行标签预测时，准确度也不高。

发明内容

有鉴于此，本发明实施例期望提供一种标签预测方法、装置及存储介质，至少用以解决相关技术难以有效提高标签预测的准确度的问题。

为达到上述目的，本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种标签预测方法，所述方法包括：

确定分类模型中各决策树的投票权重值；其中，包括核属性的决策树的投票权重值，高于不包括所述核属性的决策树的投票权重值；

根据所述各决策树的投票权重值，确定与待预测文本信息对应的各类别标签的投票得分；

基于所述各类别标签的投票得分，选取投票得分符合预设条件的类别标签，将所述符合预设条件的类别标签作为与所述待预测文本信息相关联的预测标签。

第二方面，本发明实施例提供一种标签预测装置，所述装置包括：第一确定模块、第二确定模块和选取模块；其中，

所述第一确定模块，用于确定分类模型中各决策树的投票权重值；其中，包括核属性的决策树的投票权重值，高于不包括所述核属性的决策树的投票权重值；

所述第二确定模块，用于根据所述各决策树的投票权重值，确定与待预测文本信息对应的各类别标签的投票得分；

所述选取模块，用于基于所述各类别标签的投票得分，选取投票得分符合预设条件的类别标签，将所述符合预设条件的类别标签作为与所述待预测文本信息相关联的预测标签。

第三方面，本发明实施例提供一种存储介质，其上存储有可执行程序，所述可执行程序被处理器执行时实现本发明实施例提供的标签预测方法的步骤。

第四方面，本发明实施例还提供一种标签预测装置，包括存储器、处理器及存储在存储器上并能够由所述处理器运行的可执行程序，所述处理器运行所述可执行程序时执行本发明实施例提供的标签预测方法的步骤。

本发明实施例所提供的标签预测方法、装置及存储介质，确定分类模型中各决策树的投票权重值；其中，包括核属性的决策树的投票权重值，高于不包括所述核属性的决策树的投票权重值；根据所述各决策树的投票权重值，确定与待预测文本信息对应的各类别标签的投票得分；基于所述各类别标签的投票得分，选取投票得分符合预设条件的类别标签，将所述符合预设条件的类别标签作为与所述待预测文本信息相关联的预测标签。如此，以核属性对分类影响最大作为依据，利用核属性可以区分不同决策树的预测能力，这样，在为各决策树进行投票时，可以给包括核属性的决策树赋予更高的投票权重，能够有效提高对文本信息进行标签预测的准确度，进而提高分类模型的整体预测能力和整体预测效果。

附图说明

图1为本发明实施例提供的随机森林算法简化模型示意图；

图2为本发明实施例提供的一种基于随机森林算法的标签预测流程示意图；

图3为本发明实施例提供的一种标签预测方法的实现流程示意图；

图4为本发明实施例提供的一种标签预测方法的架构示意图；

图5为本发明实施例提供的一种标签预测方法的具体实现流程示意图；

图6为本发明实施例提供的决策树模型的架构示意图；

图7为本发明实施例提供的一种标签预测装置的功能结构示意图；

图8为本发明实施例提供的第一确定模块的组成结构示意图；

图9为本发明实施例提供的一种标签预测装置的硬件结构示意图。

具体实施方式

下面先简单介绍下随机森林算法，以及相关技术中采用随机森林算法对文本信息进行标签预测的过程。

图1为本发明实施例提供的随机森林算法简化模型示意图，如图1所示，随机森林算法简化模型中包括多个决策树，比如决策树-1、决策树-2等，各个决策树之间是相关独立的，可以并行训练随机森林算法模型，在该模型中，随机选取少量属性构建决策树，每个决策树分别对输入的测试样本进行预测，每个决策树对应得到一个类别，如图1中的类别A和类别B等，最后，采用投票器对所有决策树进行投票，相关技术中的随机森林算法一般采用对每个决策树各投一票的方式，然后选取得票最多的类别或得票超过二分之一的类别，作为最终的类别结果。若出现得票最多的类别有两个或多个，且这两个或多个类别对应的投票权重的数值一样时，相关技术中的随机森林算法就会随机选择一个类别作为最终的类别结果，这样，对预测精度有一定的影响。

需要说明的是，随机森林算法中的决策树相当于弱分类器，即通过构建多个弱分类器的方式，利用每个弱分类器分别对测试样本进行预测，以预测出相应的类别，最后采用每个弱分类器各投一票的方式，选取得票最多的类别或得票超过二分之一的类别作为最终的类别结果。

为了提高计算效率和避免过拟合，随机森林算法中采用了两个随机子过程：①样本抽样：在构建决策树之前，对原始样本进行有放回的随机抽样，这样，当样本量足够大时，每次抽样大概有0.368比例的样本未被抽取到，可以保证各抽样样本之间的差异性，也即各决策树之间的差异性，使得随机森林算法具有很好的泛化能力，不需要对决策树进行剪枝；②特征抽样：在构建决策树时，对抽样样本的特征属性进行少量的随机抽样，假设M为总特征属性的个数，一般抽取sqr(M)个子特征构建决策树。也就是说，随机森林算法中的决策树仅随机采用了少量特征属性构建决策树，同时各决策树的构建是完全独立的过程，可以并行训练随机森林算法模型，使得随机森林算法比较适用于海量数据场景下的标签预测。

下面对相关技术中采用随机森林算法对文本信息进行标签预测的过程做进一步说明。

图2为本发明实施例提供的一种基于随机森林算法的标签预测流程示意图，如图2所示，基于随机森林算法的标签预测流程主要包括以下几个步骤：输入文本信息(即待预测文本信息)、对文本信息进行分词、从分词中提取特征词、文本向量化、文本抽样、并行构建决策树、标签预测和投票；一般将文本抽样和并行构建决策树包括在随机森林建模中。在相关技术的随机森林算法中，在构建决策树时，并不是利用所有属性进行分裂，而是随机选取部分属性构建决策树，且在每个决策树对输入的测试样本进行预测时，采用对每个决策树各投一票的方式来预测标签。然而，上述构建决策树，以及标签预测和投票的方法，将出现如下情况：若选择的属性代表性较弱，则对应决策树的预测能力较低；若选择的属性代表性较强，则对应决策树的预测能力较强。而实际上每个决策树的分类能力可能有所不同，显然，利用随机森林算法中的每个弱分类器给每个决策树各投一票是不合理的，这样将极大降低对文本信息进行标签预测的准确度，从而影响预测效果。

本发明实施例是针对相关技术中通过算法对文本信息进行标签预测，例如采用随机森林算法对文本信息进行标签预测的准确度不高的问题，而进一步提出的一种标签预测的方案。下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明。

图3为本发明实施例提供的一种标签预测方法的实现流程示意图，如图3所示，本发明实施例中的标签预测方法的实现流程，可以包括以下步骤：

步骤301：确定分类模型中各决策树的投票权重值；其中，包括核属性的决策树的投票权重值，高于不包括所述核属性的决策树的投票权重值。

在本实施例中，所述各决策树的投票权重值是通过下述方法确定的：

确定构建各决策树的训练样本的核属性；

将包括所述核属性的决策树的投票权重值，设置为高于不包括所述核属性的决策树的投票权重值。

在本实施例中，所述分类模型为具有分类功能的机器学习模型，比如随机森林算法模型；这里所说的分类模型，是通过自然语言学习领域中的语义分析训练数据得到的，具体可以通过对包括文本信息与标签的对应关系的样本进行语义分析训练得到的，也即分类模型中包括由运营人员预先设置的文本信息与标签的对应关系，以文本信息与标签的对应关系作为样本训练分类模型，得到分类模型输出的各决策树的预测标签类别。

这里，所述各决策树是分类模型根据对文本向量进行抽样得到的抽样向量样本构建的。其中，文本向量为对输入的文本信息进行分词、特征词提取、文本向量化等一系列处理后所得到的。需要说明的是，对于如何实现对输入的文本信息进行分词、特征词提取、文本向量化的操作，将在后面给出相应说明。

这里，核属性可以基于粗糙集的求核方法来确定，所述基于粗糙集的求核方法可以包括基于差别矩阵的求核方法、决策表求核方法、基于区分矩阵的求核方法等。在实际应用中，可以根据具体情况选择合适的求核方法；另外，也可以选择一些基于上述求核方法的改进方法，如基于修正的差别矩阵的求核方法。

下面以基于区分矩阵的求核方法为例，对核属性的确定进行进一步说明。

定义决策表信息系统S＝(U，A，V，f)，其中，U为论域，即所有研究对象的集合；A为研究对象属性的集合；V为研究对象属性值的集合；V＝U_a∈AV_a，V_a是属性a∈A的值域；f为信息函数，f：U×A→V为单一映射，即f(x,a)∈V_a，它指定U中每一对象的属性值。对于信息系统S＝(U，A，V，f)，如果研究对象属性集合A由条件属性C即C＝{a₁,a₂,...,a_m}和决策属性D组成，即A＝C∪D,C∩D＝Φ，则此时信息系统S称为称为决策表。可辨识矩阵M₁＝{m_ij}，其中，m_ij定义为：

当且仅当某个m_ij为单属性集合时，该属性属于核Core(C)。对于一个向量化后的文本特征矩阵，可看作一个决策表，属性集合等价于条件属性C，类别等价于决策属性D，一个向量化的文本是决策表中的一条记录。例如，对于决策表S：

通过上述方法建立区分矩阵：

可知，在上述区分矩阵中，只有属性a1和a2是单属性，因此，Core(C)＝{a1，a2}，即可以确定a1和a2为核属性。

在本实施例中，所述包括所述核属性的决策树的投票权重值是通过下述方法确定的：根据权重计算策略计算包括所述核属性的决策树的投票权重值；

所述根据权重计算策略计算包括所述核属性的决策树的投票权重值，包括：

检测各决策树中包括的核属性的数量；

当所述核属性的数量小于预设阈值时，采用第一权重计算子策略计算所述决策树的投票权重值；

当所述核属性的数量大于或等于所述预设阈值时，采用第二权重计算子策略计算所述决策树的投票权重值。

这里，所述采用第一权重计算子策略计算所述决策树的投票权重值，可以包括：

统计所述决策树中包括核属性的路径数量和所述决策树中的总路径数量；

计算所述决策树中包括核属性的路径数量，与所述决策树中的总路径数量的比值，获得第一比值结果；

根据所述第一比值结果，确定所述决策树的投票权重值。

所述采用第二权重计算子策略计算所述决策树的投票权重值，可以包括：

计算所述决策树中各路径的投票权重值，并统计所述决策树中的总路径数量；

对所述各路径的投票权重值进行求和，获得求和后的结果，将所述求和后的结果与所述决策树中的总路径数量的比值，作为所述决策树的投票权重值。

这里，对于计算所述决策树中各路径的投票权重值来说，可以采用如下方式来实现：统计所述决策树的各路径中包括的核属性的数量，以及对应每条路径下的总结点数量；

计算所述各路径中包括的核属性的数量，与对应路径下的总结点数量的比值，获得第二比值结果；

根据所述第二比值结果，确定所述决策树中各路径的投票权重值。

步骤302：根据所述各决策树的投票权重值，确定与待预测文本信息对应的各类别标签的投票得分。

这里，由于分类模型输出的各决策树的预测结果中，有可能存在相同类别的标签，因此，在确定分类模型中各决策树的投票权重值之后，可以基于确定的各决策树的投票权重值，分别统计与待预测文本信息对应的各类别标签的投票得分。

步骤303：基于所述各类别标签的投票得分，选取投票得分符合预设条件的类别标签，将所述符合预设条件的类别标签作为与所述待预测文本信息相关联的预测标签。

在本实施例中，各类别标签的投票得分，用于表示各类别标签分别作为输入的文本信息即待预测文本信息的标签的可能性大小。

这里，所述符合预设条件的类别标签，可为投票得分最高的作为待预测文本信息的标签；也就是说，从分类模型输出的各决策树的预测标签类别对应的各类别标签的投票得分中选取投票得分最高的类别标签，即投票得分最高的类别标签作为待预测文本信息的预测标签。在选取符合预设条件的类别标签之后，建立所选取的标签与待预测文本信息之间的关联关系，这样，通过建立的关联关系就可以快速找到与标签对应的文本信息。

需要说明的是，本发明实施例在随机森林算法的基础上，还可以利用分布式内存计算框架Spark作为计算引擎，对海量数据进行并行处理，大大提高计算效率和处理速度。

采用本发明实施例的技术方案，基于核属性改进相关技术中随机森林算法的投票器，区分不同决策树的预测能力，提高包括核属性的决策树的预测能力，在为各决策树进行投票时，给包括核属性的决策树赋予更高的投票权重，能够有效提高对文本信息进行标签预测的准确度，进而提高分类模型的整体预测能力和整体预测效果。

下面结合图4给出的标签预测方法的架构示意图，对本发明实施例标签预测方法的具体实现过程做进一步地详细说明。

图5为本发明实施例提供的一种标签预测方法的具体实现流程示意图，所述标签预测方法应用于终端设备；如图5所示，所述标签预测方法的具体实现流程，可以包括以下步骤：

步骤501：获取输入的文本信息。

在本实施例中，所述终端设备可以包括但不限于智能手机、平板电脑、掌上电脑等计算机设备。所述输入的文本信息可为文本序列信息，以选取的三篇小说为例，其对应输入的文本信息如下表1所示：

表1

步骤502：对所述文本信息进行分词，获得各分词片段。

本实施例中，计算机设备调用分词服务将所有的文本信息做分词处理，得到与文本信息对应的多个分词。这里所说的分词处理，可以理解为采用分词器将一个文本信息构成的文本序列分割为一个个独立的分词片段的过程，具体地，可以根据中文词语的构成特征，以及英文单词和英文短语的特点，采用已有的或新的分词方式如NLPIR分词方式对文本信息进行词语切分，将连续的文本字符串切分为若干个分词片段。

在本实施例中，所述对所述文本信息进行分词，获得各分词片段，包括：

对所述文本信息进行分词，获得分词片段集合；

根据预设语料库中存储的停用词，从所述分词片段集合中过滤掉所述停用词，将所述分词片段集合中除过滤掉的停用词之外的剩余分词片段，作为与所述文本信息对应的分词片段。

简单来说，这里的停用词为对确定标签的目的来说没有实质性影响的词如语气词和助词等，即停用词不具有明确的意义。经过过滤后所得的分词片段组合也能表述文本信息内容的含义，从分词片段集合中过滤掉停用词，可以限定过滤掉的剩余分词片段的长度，以提升过滤的准确率，便于后续提高标签的预测效率。

例如，以采用NLPIR分词方式为例，对表1中的文本信息进行分词，得到如下表2中所示的各分词片段：

表2

步骤503：从所述各分词片段中提取特征词，根据所提取的特征词构建特征词库。

这里，可以采用已有的或新的特征选择算法如CHI算法，选择出最能代表上述文本的特征词。其中，CHI算法主要是通过计算各个分词片段的卡方值，并进行排序后得到特征词。若卡方值较小，则分词片段间的相关性较小；若卡方值较大，则分词片段间的相关性较大。

例如，从表2所示的各分词片段中提取特征词，特征词的提取结果如下表3所示：

表3

步骤504：对所述特征词库中的所有特征词分别进行向量化，获得各所述特征词对应分配的文本向量，将所述文本向量输入分类模型中。

这里，可以采用已有的或新的算法如词频-逆向文件频率(TFIDF，Term FrequencyInverse Document Frequency)，对文本信息进行向量化，即给各特征词分配对应的文本向量。

例如，对表3中的特征词进行向量化，得到如下表4所示的文本向量：

小说名	f1(故事)	f2(秘书)	f3(昆仑山)	f4(大陆)	f5(魔法)	f6(修仙)	…	类别
									鬼吹灯	0.25	0.78	0.91	0	0	0	…	悬疑
斗罗大陆	0	0	0	0.71	0.18	0	…	玄幻
									凡人修仙传	0	0	0	0	0	0.88	…	武侠

表4

步骤505：确定分类模型中各决策树的投票权重值。

在本实施例中，包括核属性的决策树的投票权重值，高于不包括所述核属性的决策树的投票权重值。

这里，所述分类模型为具有分类功能的机器学习模型，比如随机森林算法模型；这里所说的分类模型，是通过自然语言学习领域中的语义分析训练数据得到的，具体可以通过对包括文本信息与标签的对应关系的样本进行语义分析训练得到的，也即分类模型中包括由运营人员预先设置的文本信息与标签的对应关系，以文本信息与标签的对应关系作为样本训练分类模型，得到分类模型输出的各决策树的预测标签类别。

所述各决策树是分类模型根据对文本向量进行抽样得到的抽样向量样本构建的。具体可以采用决策树算法来构建决策树，决策树算法主要包括ID3算法、C4.5算法和分类回归树(CART，Classification And Regression Tree)算法等，上述这几种算法的区别主要在于信息熵的计算方式不同。其中，ID3算法只能处理离散型数据；C4.5算法能够处理离散型数据和连续型数据；CART算法既可以用于分类，也可以用于回归。由于本发明实施例输入的文本信息为文本序列信息，即连续型数据，因此，综合考虑本发明实施例可以采用C4.5算法和CART算法来构建决策树。下面对常用的ID3算法和C4.5算法进行简单说明。

1)ID3算法

从信息论中可知，期望信息越小，信息增益越大。ID3算法的核心思想就是以信息增益度量属性选择，即选择分裂后的信息增益最大的属性进行分裂。下面定义几个涉及到的概念。

假设D为用类别对训练元组进行的划分，则D的熵(entropy)表示为：

其中，i表示类别的个数，p_i表示第i个类别在整个训练元组中出现的概率，可以用属于此类别元素的数量除以训练元组元素总数量作为估计；D表示训练样本集合；inf o(D)表示D的熵，即为D中元组的类标号所需要的平均信息量。

现在，假设将训练元组D按属性A进行划分，则A对D划分的期望信息为：

其中，inf o_A(D)表示训练元组D按属性A划分后的熵，j表示类别的个数，|D|表示训练样本量，|D_j|表示为属性A的不同水平样本数，inf o(D_j)为属性A的不同水平的熵。

而信息增益即为两者的差值：

gain(A)＝inf o(D)-inf o_A(D) (4)

2)C4.5算法

ID3算法存在一个问题，就是偏向于多值属性，例如，如果存在唯一标识属性ID，则ID3算法将选择唯一标识属性ID作为分裂属性，这样虽然使得划分充分纯净，但这种划分对分类几乎毫无用处。ID3算法的改进算法C4.5使用增益率(gain ratio)的信息增益扩充，试图克服这个偏倚。

C4.5算法首先定义了“分裂信息”，其定义可以表示为：

其中，split_inf o_A(D)表示将训练元组D按属性A进行划分的分裂信息的增益，其它各符号意义与ID3算法相同，这里不再赘述。

增益率定义为：

其中，C4.5算法选择具有最大增益率的属性作为分裂属性。

本实施例中，对文本向量进行抽样，可以采取有放回的随机抽样，假设抽取N次得到抽样样本，当N足够大时，每次抽样大概有0.368比例的样本未被抽取到，可以保证各抽样样本之间的差异性。假设需要构建M个决策树，则需抽样M次，得到M个抽样样本，以在这M个抽样样本的基础上构建决策树。例如，假设M为4，即构建的决策树的数量为4，如图6所示，图6给出了本发明实施例的决策树模型的架构示意图。

确定构建各决策树的训练样本的核属性；

这里，所述核属性可以采用前述所涉及的基于粗糙集的求核方法来确定，这里不再详细赘述。

其中，所述根据权重计算策略计算包括所述核属性的决策树的投票权重值，具体包括：

检测各决策树中包括的核属性的数量；

下面以一个具体实例来进一步说明如何计算决策树的投票权重值。

在实际应用中，利用决策树模型预测标签，实际上是一个根据测试样本特征进行分类的过程，而分类其实是从决策树的根结点开始寻找合适的叶子结点的过程。这里，可将决策树模型转化为一系列的分类规则，即一个分类规则表示一条从根结点到叶子结点的路径。以图6中的决策树Treel为例，可以将Treel转化为如下表5中所示的分类规则，及各分类规则对应的路径，如表5所示：

决策树分类规则	分类规则对应的路径
		if f4＜0.45and f25＜0.41then玄幻	f4→f25→玄幻
if f4＞＝0.45and f13＜0.55then悬疑	f4→f13→悬疑
		if f4＞＝0.45and f13＞＝0.55then武侠	f4→f14→武侠

表5

假设确定出Tree1包括的所有特征属性中的f25为核属性，可见，只有部分路径如路径(f4→f25→玄幻)中包括核属性，那么，Tree1中只有包括核属性f25的路径的投票能力被提高，即包括核属性f25的路径的投票权重值被提高；而不包括核属性的路径如路径(f4→f13→悬疑)的投票能力保持不变，即该路径(f4→f13→悬疑)的投票权重值为默认值，也即为该路径投一票。

在本实施例中，决策树的投票权重值的计算方法，可以包括以下三种方式：

方式1)：计算决策树的整体投票权重值

若确定核属性的数量小于预设阈值，可以先统计所述决策树中包括核属性的路径数量和所述决策树中的总路径数量；然后，计算所述决策树中包括核属性的路径数量，与所述决策树中的总路径数量的比值，获得第一比值结果；最后，根据所述第一比值结果，确定所述决策树的投票权重值。

其中，所述预设阈值可以根据实际情况进行设定。该计算方式1)可以以如下公式(7)表示：

其中，W(T_i)表示决策树T_i的整体投票权重值；core_path(T_i)表示决策树中包括核属性的路径数量；total_path(T_i)表示决策树中的总路径数量；i表示待计算的决策树对应的标号。

以决策树T1为例，从图6中可以得出决策树T1中的总路径数量为3，决策树T1中包括核属性f25的路径数量为1，因此，决策树T1的整体投票权重值W(T1)＝1+1/3≈1.3，即决策树T1的整体投票权重值提高了0.3倍。

方式2)：计算各个路径的投票权重值

若只有部分路径包括核属性，则可以不计算决策树的整体投票权重值，而是精确计算决策树中各个路径的投票权重值，达到更好的预测效果。针对决策树的所有预测路径，分别计算其权重，可以采用如下公式：

其中，W(T_i,P_j)表示决策树T_i中的路径P_j的投票权重值，core_num(T_i,p)表示决策树T_i中路径P_j包括的核属性的数量，total_num(T_i,p)表示决策树T_i中路径P_j下的总结点(非叶子结点)数量，i表示待计算的决策树对应的标号，j表示待计算的决策树中对应的路径标号。

以图6中的决策树T1为例，分别计算决策树T1中各路径的投票权重值：

路径1：f4→f25→玄幻对应的投票权重值W＝1+1/2＝1.5；

路径2：f4→f13→悬疑对应的投票权重值W＝1+0/2＝1；

路径3：f4→f13→武侠对应的投票权重值W＝1+0/2＝1。

通过上述计算可知，位于同一个决策树中不同路径的投票权重值不同，其中，包括核属性f25的路径对应的投票权重值较高，不包括核属性的路径对应的投票权重值保持默认的1票。

方式3)：计算决策树的整体投票权重值

将决策树中各路径投票权重值的均值作为整体投票权重值，可以采用如下公式：

其中，W_p1表示决策树T_i中第一条路径的投票权重值，W_p2表示决策树T_i中第二条路径的投票权重值，W_pn表示决策树T_i中第n条路径的投票权重值,n表示决策树T_i中总路径数量，i表示待计算的决策树对应的标号。

结合方式2)，可得T1的整体投票权重值：W＝(1.5+1+1)/3≈1.12

下面分析上述方式1)-方式3)的特点：方式1)和方式3)计算的是决策树的整体投票权重值，其中，方式1)计算较简单，性能一般；方式3)计算复杂但性能较好；方式2)计算的是决策树中各路径的投票权重值，更加精确，但计算更复杂。由于不同场景中决策树的核属性个数可能不同，因此，可以根据核属性个数的多少，酌情选择这三种计算方式。

步骤506：根据所述各决策树的投票权重值，确定与输入的文本信息对应的各类别标签的投票得分。

这里，由于分类模型输出的各决策树的预测结果中，有可能存在相同类别的标签，因此，在确定分类模型中各决策树的投票权重值之后，可以基于确定的各决策树的投票权重值，分别统计与输入的文本信息对应的各类别的标签的投票得分。

步骤507：基于所述各类别标签的投票得分，选取投票得分符合预设条件的类别标签，将所述符合预设条件的类别标签作为与输入的文本信息相关联的预测标签。

在本实施例中，各类别标签的投票得分，用于表示各类别标签分别作为输入的文本信息的标签的可能性大小。

这里，所述符合预设条件的类别标签，可为投票得分最高的作为文本信息的标签；也就是说，从分类模型输出的各决策树的预测标签类别对应的各类别标签的投票得分中选取投票得分最高的类别标签，即投票得分最高的类别标签作为文本信息的预测标签。在选取符合预设条件的类别标签之后，建立所选取的标签与文本信息之间的关联关系，这样，通过建立的关联关系就可以快速找到与标签对应的文本信息。

仍以图6中的四个决策树Tree1、Tree2、Tree3、Tree4为例，假设只有Tree1中包括核属性f25，结合上述采用方式3)计算得到的决策树Tree1的投票权重值1.12，其余决策树Tree2、Tree3、Tree4保持默认投票权重值(即默认一票)，即：Tree1：悬疑为1.12票；Tree2：玄幻为1票；Tree3：玄幻为1票；Tree4：悬疑为1票。根据上述各决策树的投票权重值，统计与输入的文本信息对应的各类别标签的投票得分，即：悬疑为2.12票，玄幻为2票。从各类别标签的投票得分中选取投票得分符合预设条件的类别标签，即选取投票得分最高的类别标签，也就是将悬疑作为与输入的文本信息相关联的预测标签。

由此可知，相比相关技术中从玄幻和悬疑中随机选择一个作为最终的预测标签，本发明实施例的技术方案可将悬疑作为预测标签，预测结果更加准确，提高了随机森林算法的预测能力。

为实现上述标签预测方法，本发明实施例还提供了一种标签预测装置，图7为本发明实施例提供的一种标签预测装置的功能结构示意图，如图7所示，所述标签预测装置包括第一确定模块71、第二确定模块72和选取模块73；其中，

所述第一确定模块71，用于确定分类模型中各决策树的投票权重值；其中，包括核属性的决策树的投票权重值，高于不包括所述核属性的决策树的投票权重值；

所述第二确定模块72，用于根据所述各决策树的投票权重值，确定与待预测文本信息对应的各类别标签的投票得分；

所述选取模块73，用于基于所述各类别标签的投票得分，选取投票得分符合预设条件的类别标签，将所述符合预设条件的类别标签作为与所述待预测文本信息相关联的预测标签。

本实施例中，对于所述第一确定模块71确定各决策树的投票权重值来说，可以通过以下方式确定：确定构建各决策树的训练样本的核属性；

这里，所述第一确定模块71，具体可以根据权重计算策略计算包括所述核属性的决策树的投票权重值。

在本发明一可选实施例中，图8为本发明实施例提供的第一确定模块71的组成结构示意图，如图8所示，所述第一确定模块71可以进一步包括：检测模块711、第一计算模块712和第二计算模块713；其中，

所述检测模块711，用于检测各决策树中包括的核属性的数量；

所述第一计算模块712，用于当所述核属性的数量小于预设阈值时，采用第一权重计算子策略计算所述决策树的投票权重值；

所述第二计算模块713，用于当所述核属性的数量大于或等于所述预设阈值时，采用第二权重计算子策略计算所述决策树的投票权重值。

这里，所述第一计算模块712，具体用于：

根据所述第一比值结果，确定所述决策树的投票权重值。

所述第二计算模块713，具体用于：

其中，对于第二计算模块713中计算所述决策树中各路径的投票权重值来说，可以采用如下方式来实现：

统计所述决策树的各路径中包括的核属性的数量，以及对应每条路径下的总结点数量；

需要说明的是：上述实施例提供的标签预测装置在对文本信息进行标签预测时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将标签预测装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的标签预测装置与标签预测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在实际应用中，上述各程序模块均可由位于终端设备上的中央处理器(CPU，Central Processing Unit)、微处理器(MPU，Micro Processor Unit)、数字信号处理器(DSP，Digital Signal Processor)或现场可编程门阵列(FPGA，Field Programmable GateArray)等实现。

为实现上述标签预测方法，本发明实施例还提供了一种标签预测装置的硬件结构。现在将参考附图描述实现本发明实施例的标签预测装置，所述标签预测装置可以以各种类型的终端设备如笔记本电脑、智能手机等各种类型的计算机设备来实施。下面对本发明实施例的标签预测装置的硬件结构做进一步说明，可以理解，图9仅仅示出了标签预测装置的示例性结构而非全部结构，根据需要可以实施图9示出的部分结构或全部结构。

参见图9，图9为本发明实施例提供的一种标签预测装置的硬件结构示意图，实际应用中可以应用于前述运行应用程序的各种终端设备，图9所示的标签预测装置900包括：至少一个处理器901、存储器902、用户接口903和至少一个网络接口904。所述标签预测装置900中的各个组件通过总线系统905耦合在一起。可以理解，总线系统905用于实现这些组件之间的连接通信。总线系统905除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为总线系统905。

其中，用户接口903可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器902可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。

本发明实施例中的存储器902用于存储各种类型的数据以支持标签预测装置900的操作。这些数据的示例包括：用于在标签预测装置900上操作的任何计算机程序，如可执行程序9021和操作系统9022，实现本发明实施例的标签预测方法的程序可以包含在可执行程序9021中。

本发明实施例揭示的标签预测方法可以应用于处理器901中，或者由处理器901实现。处理器901可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述标签预测方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器901可以实现或者执行本发明实施例中提供的各标签预测方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的标签预测方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器902，处理器901读取存储器902中的信息，结合其硬件完成本发明实施例提供的标签预测方法的步骤。

本实施例中，所述标签预测装置900包括存储器902、处理器901及存储在存储器902上并能够由所述处理器901运行的可执行程序9021，所述处理器901运行所述可执行程序9021时实现：确定分类模型中各决策树的投票权重值；其中，包括核属性的决策树的投票权重值，高于不包括所述核属性的决策树的投票权重值；根据所述各决策树的投票权重值，确定与待预测文本信息对应的各类别标签的投票得分；基于所述各类别标签的投票得分，选取投票得分符合预设条件的类别标签，将所述符合预设条件的类别标签作为与所述待预测文本信息相关联的预测标签。

作为一种实施方式，所述处理器901运行所述可执行程序9021时实现：确定构建各决策树的训练样本的核属性；将包括所述核属性的决策树的投票权重值，设置为高于不包括所述核属性的决策树的投票权重值。

作为一种实施方式，所述处理器901运行所述可执行程序9021时实现：根据权重计算策略计算包括所述核属性的决策树的投票权重值。

作为一种实施方式，所述处理器901运行所述可执行程序9021时实现：检测各决策树中包括的核属性的数量；当所述核属性的数量小于预设阈值时，采用第一权重计算子策略计算所述决策树的投票权重值；当所述核属性的数量大于或等于所述预设阈值时，采用第二权重计算子策略计算所述决策树的投票权重值。

作为一种实施方式，所述处理器901运行所述可执行程序9021时实现：统计所述决策树中包括核属性的路径数量和所述决策树中的总路径数量；计算所述决策树中包括核属性的路径数量，与所述决策树中的总路径数量的比值，获得第一比值结果；根据所述第一比值结果，确定所述决策树的投票权重值。

作为一种实施方式，所述处理器901运行所述可执行程序9021时实现：计算所述决策树中各路径的投票权重值，并统计所述决策树中的总路径数量；对所述各路径的投票权重值进行求和，获得求和后的结果，将所述求和后的结果与所述决策树中的总路径数量的比值，作为所述决策树的投票权重值。

作为一种实施方式，所述处理器901运行所述可执行程序9021时实现：统计所述决策树的各路径中包括的核属性的数量，以及对应每条路径下的总结点数量；计算所述各路径中包括的核属性的数量，与对应路径下的总结点数量的比值，获得第二比值结果；根据所述第二比值结果，确定所述决策树中各路径的投票权重值。

在示例性实施例中，本发明实施例还提供了一种存储介质，所述存储介质可为光盘、闪存或磁盘等存储介质，可选为非瞬间存储介质。其中，所述存储介质上存储有可执行程序9021，所述可执行程序9021被处理器901执行时实现：确定分类模型中各决策树的投票权重值；其中，包括核属性的决策树的投票权重值，高于不包括所述核属性的决策树的投票权重值；根据所述各决策树的投票权重值，确定与待预测文本信息对应的各类别标签的投票得分；基于所述各类别标签的投票得分，选取投票得分符合预设条件的类别标签，将所述符合预设条件的类别标签作为与所述待预测文本信息相关联的预测标签。

作为一种实施方式，所述可执行程序9021被处理器901执行时实现：确定构建各决策树的训练样本的核属性；将包括所述核属性的决策树的投票权重值，设置为高于不包括所述核属性的决策树的投票权重值。

作为一种实施方式，所述可执行程序9021被处理器901执行时实现根据权重计算策略计算包括所述核属性的决策树的投票权重值。

作为一种实施方式，所述可执行程序9021被处理器901执行时实现：检测各决策树中包括的核属性的数量；当所述核属性的数量小于预设阈值时，采用第一权重计算子策略计算所述决策树的投票权重值；当所述核属性的数量大于或等于所述预设阈值时，采用第二权重计算子策略计算所述决策树的投票权重值。

作为一种实施方式，所述可执行程序9021被处理器901执行时实现：统计所述决策树中包括核属性的路径数量和所述决策树中的总路径数量；计算所述决策树中包括核属性的路径数量，与所述决策树中的总路径数量的比值，获得第一比值结果；根据所述第一比值结果，确定所述决策树的投票权重值。

作为一种实施方式，所述可执行程序9021被处理器901执行时实现：计算所述决策树中各路径的投票权重值，并统计所述决策树中的总路径数量；对所述各路径的投票权重值进行求和，获得求和后的结果，将所述求和后的结果与所述决策树中的总路径数量的比值，作为所述决策树的投票权重值。

作为一种实施方式，所述可执行程序9021被处理器901执行时实现：统计所述决策树的各路径中包括的核属性的数量，以及对应每条路径下的总结点数量；计算所述各路径中包括的核属性的数量，与对应路径下的总结点数量的比值，获得第二比值结果；根据所述第二比值结果，确定所述决策树中各路径的投票权重值。

本发明实施例确定分类模型中各决策树的投票权重值；其中，包括核属性的决策树的投票权重值，高于不包括所述核属性的决策树的投票权重值；根据所述各决策树的投票权重值，确定与待预测文本信息对应的各类别标签的投票得分；基于所述各类别标签的投票得分，选取投票得分符合预设条件的类别标签，将所述符合预设条件的类别标签作为与所述待预测文本信息相关联的预测标签。如此，以核属性对分类影响最大作为依据，利用核属性可以区分不同决策树的预测能力，这样，在为各决策树进行投票时，可以给包括核属性的决策树赋予更高的投票权重，能够有效提高对文本信息进行标签预测的准确度，进而提高分类模型的整体预测能力和整体预测效果。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种标签预测方法，其特征在于，所述方法包括：

基于所述各类别标签的投票得分，选取投票得分符合预设条件的类别标签，将所述符合预设条件的类别标签作为与所述待预测文本信息相关联的预测标签；

所述确定分类模型中各决策树的投票权重值包括：

检测各决策树中包括的核属性的数量；

所述采用第一权重计算子策略计算所述决策树的投票权重值，包括：统计所述决策树中包括核属性的路径数量和所述决策树中的总路径数量；计算所述决策树中包括核属性的路径数量，与所述决策树中的总路径数量的比值，获得第一比值结果；根据所述第一比值结果，确定所述决策树的投票权重值；

或者，当所述核属性的数量大于或等于所述预设阈值时，采用第二权重计算子策略计算所述决策树的投票权重值；

所述采用第二权重计算子策略计算所述决策树的投票权重值，包括：计算所述决策树中各路径的投票权重值，并统计所述决策树中的总路径数量；对所述各路径的投票权重值进行求和，获得求和后的结果，将所述求和后的结果与所述决策树中的总路径数量的比值，作为所述决策树的投票权重值；

所述计算所述决策树中各路径的投票权重值，包括：统计所述决策树的各路径中包括的核属性的数量，以及对应每条路径下的总结点数量；计算所述各路径中包括的核属性的数量，与对应路径下的总结点数量的比值，获得第二比值结果；根据所述第二比值结果，确定所述决策树中各路径的投票权重值。

2.根据权利要求1所述的标签预测方法，其特征在于，所述方法还包括：

确定构建各决策树的训练样本的核属性；

3.一种标签预测装置，其特征在于，所述装置包括：第一确定模块、第二确定模块和选取模块；其中，

所述选取模块，用于基于所述各类别标签的投票得分，选取投票得分符合预设条件的类别标签，将所述符合预设条件的类别标签作为与所述待预测文本信息相关联的预测标签；

所述第一确定模块，用于当所述核属性的数量小于预设阈值时，统计所述决策树中包括核属性的路径数量和所述决策树中的总路径数量；计算所述决策树中包括核属性的路径数量，与所述决策树中的总路径数量的比值，获得第一比值结果；根据所述第一比值结果，确定所述决策树的投票权重值；或者，当所述核属性的数量大于或等于所述预设阈值时，计算所述决策树中各路径的投票权重值，并统计所述决策树中的总路径数量；对所述各路径的投票权重值进行求和，获得求和后的结果，将所述求和后的结果与所述决策树中的总路径数量的比值，作为所述决策树的投票权重值；

所述第一确定模块，具体用于统计所述决策树的各路径中包括的核属性的数量，以及对应每条路径下的总结点数量；计算所述各路径中包括的核属性的数量，与对应路径下的总结点数量的比值，获得第二比值结果；根据所述第二比值结果，确定所述决策树中各路径的投票权重值。

4.根据权利要求3所述的标签预测装置，其特征在于，所述第一确定模块，具体用于：

确定构建各决策树的训练样本的核属性；

5.一种存储介质，其上存储有可执行程序，其特征在于，所述可执行程序被处理器执行时实现如权利要求1至2任一项所述的标签预测方法的步骤。

6.一种标签预测装置，包括存储器、处理器及存储在存储器上并能够由所述处理器运行的可执行程序，其特征在于，所述处理器运行所述可执行程序时执行如权利要求1至2任一项所述的标签预测方法的步骤。