CN109492101B

CN109492101B - 基于标签信息与文本特征的文本分类方法、系统及介质

Info

Publication number: CN109492101B
Application number: CN201811296063.0A
Authority: CN
Inventors: 杜存宵; 冯福利; 陈召峥; 李永祺; 宋雪萌; 聂礼强
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2020-11-17
Anticipated expiration: 2038-11-01
Also published as: CN109492101A

Abstract

本发明公开了基于标签信息与文本特征的文本分类方法、系统及介质，包括：特征提取步骤，从给定的文本中提取第一文本特征，从给定的文本对应的标签中提取第一标签特征；特征融合步骤，将第一文本特征和第一标签特征进行特征融合，得到融合后的第三特征；模型训练步骤，将融合后的第三特征输入到多层感知机中对多层感知机进行训练，得到训练好的多层感知机；文本分类步骤，从待分类的文本中提取第二文本特征，从待分类的文本对应的标签中提取第二标签特征，对第二文本特征和第二标签特征进行特征融合得到融合后的第四特征，将融合后的第四特征输入到已经训练好的多层感知机中进行分类，输出分类结果。

Description

基于标签信息与文本特征的文本分类方法、系统及介质

技术领域

本公开涉及基于标签信息与文本特征的文本分类方法、系统及介质。

背景技术

本部分的陈述仅仅是提高了与本公开相关的背景技术，并不必然构成现有技术。

文本分类应该是自然语言处理中最普遍的一个应用，例如文章自动分类、邮件自动分类、垃圾邮件识别、用户情感分类等等，在生活中有很多应用。从任务种类上，文本可以大致分为多标签文本分类和多类别文本分类。多标签文本分类即为待分类的文本属于多个类别，而多类别文本分类则是指待分类文本只属于某一个类别。多标签文本分类因其广泛的用途一般比多类别文本有更广泛的研究。

据发明人了解，目前存在一个较为突出的问题是在针对社区问答中的问题分类的时候准确率较低，现阶段社区问答社区中每个问题都有不同的标签，无法根据标签的意义去做出判断，如果依靠人力资源去进行标签标注将会花费巨大，而仅仅是根据文本的统计特征来给出判断结果，这样导致传统模型无法利用标签的信息去做出判断，所以准确率较低。

发明内容

为了解决现有技术的不足，本公开提供了基于标签信息与文本特征的文本分类方法、系统及介质，其具有提高了文本分类的准确性的优点；

作为本公开的第一方面，提供了基于标签信息与文本特征的文本分类方法；

基于标签信息与文本特征的文本分类方法，包括：

特征提取步骤，从给定的文本中提取第一文本特征，从给定的文本对应的标签中提取第一标签特征；

特征融合步骤，将第一文本特征和第一标签特征进行特征融合，得到融合后的第三特征；

模型训练步骤，将融合后的第三特征输入到多层感知机中对多层感知机进行训练，得到训练好的多层感知机；

文本分类步骤，从待分类的文本中提取第二文本特征，从待分类的文本对应的标签中提取第二标签特征，对第二文本特征和第二标签特征进行特征融合得到融合后的第四特征，将融合后的第四特征输入到已经训练好的多层感知机中进行分类，输出分类结果。

作为一些可能的实现方式，所述从给定的文本中提取第一文本特征的具体步骤为：

对于给定文本，假设给定文本包括T个词；

首先，将每个词w_t映射为词向量

进而得到词向量序列：

然后，利用循环神经网络对词向量序列进行处理，得到每个词的编码上下文向量h_t；

其中，h₀由随机初始化得到，f是由循环神经网络单元构成的非线性函数，h_t是循环神经网络的在t时刻的隐状态，h_t-1是循环神经网络的在t-1时刻的隐状态；

最后，得到的第一文本特征即为{h₁，h₂，…，h_t，…，h_T}。

作为一些可能的实现方式，从给定的文本对应的标签中提取第一标签特征的具体步骤为：

对于每个标签L映射为对应的词向量S。

作为一些可能的实现方式，将第一文本特征和第一标签特征进行特征融合，得到融合后的第三特征的具体步骤为：

I_it＝Interaction(h_t,S_i)

其中，Interaction()表示用于交互的函数，采用点乘运算来作为具体实现方式。I_it表示融合后的第三特征。

作为一些可能的实现方式，将融合后的第三特征输入到多层感知机中对多层感知机进行训练，得到训练好的多层感知机的具体步骤为：

将融合后的第三特征输入到多层感知机中，多层感知机输出第三特征的降维结果；

根据多层感知机的输出结果，计算多层感知机损失函数值，如果多层感知机的损失函数值小于设定阈值，则表示多层感知机训练合格，将训练结束得到的多层感知机作为训练好的多层感知机；

如果多层感知机的损失函数值大于等于设定阈值，则表示多层感知机训练不合格，返回特征提取步骤，继续对其他给定文本和标签进行特征提取和特征融合，将融合得到的新特征对多层感知机进行继续训练，直至多层感知机训练合格为止。

作为一些可能的实现方式，输出分类结果的为：对于每个标签的得分，选择评分靠前的N个标签作为输出。

作为本公开的第二方面，提供了基于标签信息与文本特征的文本分类系统；

基于标签信息与文本特征的文本分类系统，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

作为本公开的第三方面，提供了一种计算机可读存储介质；

一种计算机可读存储介质，其上运行有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

与现有技术相比，本公开的有益效果是：

1、能够在特征抽取阶段有效的抽取第一文本特征与第一标签特征，传统方法只能提取第一文本特征，引入标签特征有效提高了模型表现。

2、能够在特征融合阶段有效计算文本特征与标签特征之间的关系，这样从而给出更为精确的判断，可以显著提高模型表现。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开的流程图；

图2为模型框架图；

图3(a)和图3(b)为基准模型与TextEXAM的对比图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

专业术语解释：分类任务，文本分类，深度神经网络，循环神经网络，TF-IDF

分类任务：分类问题是机器学习非常重要的一个组成部分，它的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。分类问题也被称为监督式学习，根据已知训练区提供的样本，通过计算选择特征参数，建立判别函数以对样本进行的分类。

文本分类：文本分类就是根据文本内容将其分到合适的类别，它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索，机器翻译，自动文摘，信息过滤，邮件分类等任务。

循环神经网络：循环神经网络是利用神经网络结构在时间上进行迭代，允许对于某个序列进行时间上的迭代处理。

对于文本分类问题，我们把他重新定义为一个文本-标签匹配问题。

如图1所示，整个模型分为3个阶段，分别是特征提取阶段、特征融合阶段、多层感知机训练和特征分类阶段。

S1:特征提取阶段

我们将一段文本看成一组词的序列，利用循环神经网络对对话历史进行编码，编码成一个上下文向量。

C＝{w₁,w₂…w_n}

其中C代表对话上下文构成的词语序列，f是由循环神经网络单元构成的非线性函数，由GRUs(门控神经网络Gated Recurrent Units)实现。h_t是循环神经网络的在t时刻的隐状态，

是词w_t的编码向量。因为在此阶段使用了循环神经网络，我们的模型能够在建模文本的时候考虑更多的时序性信息来帮助并且辅助建模文本，因此在特征提取阶段就可以拥有更加细粒度的特征，经过此步骤之后，为文本中的每个词都构建了对应的表征h。

S2：特征融合阶段

用标签的特征s_i去与特征提取阶段中提取文本的特征h_t尽可能的进行细粒度的交互，以衡量标签与文本的每个词之间的近似程度。特征融合阶段是这样表示的：

I_it＝Interaction(h_t,S_i)

其中Interaction()表示用于交互的函数，一般可以使用数乘或者加减运算，我们为了计算的时效性，选用了点乘运算。

在特征融合阶段，使用点乘建模了每个词和每个标签之间的关系，经过这样的过程，相较于传统的方法只考虑文本本身的信息，在这一步建模标签信息，并且由标签信息与文本特征的交互特征来建模二者的关系，得到了更加丰富的表征。经过此步骤以后，对每个标签S，得到了一个向量表征I。

S3：多层感知机训练阶段

将融合后的特征输入到多层感知机中，多层感知机输出降维结果；

S4：特征分类

对于特征融合阶段得到的交互式特征，也就是I，使用多层感知机来把I降维到1维以便作为输出结果：

q＝MLP()

o＝sigmoid()

其中o是模型的输出结果。

对标准数据集看山杯和爬取的知乎多标签文本分类数据集进行了训练和测试，表1显示了在Recall@5、Precision@5、F-1指标上本公开的模型和当前主流的基准模型的比较，结果显示本公开的模型比基准模型表现得更好，并且在F-1指标上远远超过了基准模型，说明本公开的模型为文本分类了更精确的标签，减少了错误标签的个数，大大提高了文本分类的质量。与此同时，本公开的模型拥有比基准模型更小的参数，这为方便部署与加速训练提供了更多的可能。

表1 TextEXAM与基准模型结果比较

如图2所示，本公开的模型总共分为四个流程，分别是特征提取，特征融合，多层感知机训练和特征分类；第一个流程，特征提取，使用GRU来计算每个文本的第一文本特征，第二个流程，特征融合，使用点乘来计算第一文本特征与第一标签特征之间的关系，第三个阶段，对多层感知机进行训练；第四个阶段，使用多层感知机来将特征融合起来，给出最后的结果。

如图3(a)和图3(b)所示，相比传统模型，我们考虑了每个标签的第一标签特征与文本特征更加细粒度的交互信息，所以表现会更加优越。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于标签信息与文本特征的文本分类方法，其特征是，包括：

文本分类步骤，从待分类的文本中提取第二文本特征，从待分类的文本对应的标签中提取第二标签特征，对第二文本特征和第二标签特征进行特征融合得到融合后的第四特征，将融合后的第四特征输入到已经训练好的多层感知机中进行分类，输出分类结果；

所述从给定的文本中提取第一文本特征的具体步骤为：

首先，将每个词映射为词向量；进而得到词向量序列；

然后，利用循环神经网络对词向量序列进行处理，得到每个词的编码上下文向量；

最后，得到的第一文本特征；

将第一文本特征和第一标签特征进行特征融合，得到融合后的第三特征的具体步骤为：

I_it＝Interaction(h_t,S_i)

其中，Interaction()表示用于交互的函数，采用点乘运算来作为具体实现方式；I_it表示融合后的第三特征；

所述从给定的文本中提取第一文本特征的具体步骤为：

对于给定文本，假设给定文本包括T个词；

首先，将每个词w_t映射为词向量

进而得到词向量序列：

最后，得到的第一文本特征即为{h₁，h₂，…，h_t，…，h_T}；

从给定的文本对应的标签中提取第一标签特征的具体步骤为：

对于每个标签L映射为对应的词向量S。

2.如权利要求1所述的基于标签信息与文本特征的文本分类方法，其特征是，

将融合后的第三特征输入到多层感知机中对多层感知机进行训练，得到训练好的多层感知机的具体步骤为：

3.如权利要求1所述的基于标签信息与文本特征的文本分类方法，其特征是，

输出分类结果的为：对于每个标签的得分，选择评分靠前的N个标签作为输出。

4.基于标签信息与文本特征的文本分类系统，其特征是，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-3任一项方法所述的步骤。

5.一种计算机可读存储介质，其特征是，其上运行有计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-3任一项方法所述的步骤。