CN109918499A

CN109918499A - 一种文本分类方法、装置、计算机设备及存储介质

Info

Publication number: CN109918499A
Application number: CN201910038962.9A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2019-06-21
Also published as: WO2020147409A1

Abstract

本发明提供一种文本分类方法、装置、计算机设备及存储介质，包括以下步骤：S10：构建词向量，将输入文本转化为向量形式；S20：将S10中的词向量分别输入到至少两组情感分类器中，并将所述情感分类器的各自全连接层输出到各自的loss函数中，各所述情感分类器根据业务不同的分类需求选择不同情感特征；S30:交叉学习并更新所述情感分类器，根据所述情感分类器的数量，将各所述loss函数按照等权重加成到LOSSes中作为整体损失函数，通过多个分类器的交叉学习可以实现多标签分类，具有更好的泛化或者是校准作用。

Description

一种文本分类方法、装置、计算机设备及存储介质

技术领域

本发明属于自然语言处理领域，涉及一种基于语境词向量和深度学习的文本分类方法。

背景技术

在互联网快速发展的今天，互联网信息呈现爆炸式增长，情感分析或意见挖掘已经渗入到人们生活的方方面面，京东、淘宝、亚马逊等互联网在线购物平台，在线音乐平台、微博、推特等社交网站、新闻传媒以及政治选举等等。例如，网上购物已经成了人们生活的潮流，针对用户在购物网站的评论进行观点挖掘及情感分析，不仅可以帮助用户更好的了解和选购产品，还能帮助产品制造商理解用户的需求，改进自身产品；在微博中，同样也可以对热搜事件中用户的观点和情感进行挖掘和处理，从而观察出现代人们的生活品质、爱好等

现阶段对于文本分类，如情感分析等大多是某一方面的分类，通过为每一个分类构建一个单独的模型实习，对于多个方面的分类大多需要采用多个模型或是多个全连接层去连接分类器,存在计算量过大，训练时间耗时久，且精度和泛化能力也达不到需求的问题。

发明内容

本发明的目的是提供一种多损失函数文本分类方法、装置、计算机设备及存储介质，用于解决现有技术存在的问题，具备了更好的学习及泛化能力。

为实现上述目的，本发明提供一种多损失函数文本分类方法，包括以下步骤：

S10：构建词向量，将输入文本转化为词向量形式；

S20：将S10中的词向量分别输入到至少两组情感分类器进行训练，所述情感分类器对所述词向量进行训练后，将各自全连接层分别输出到各自的loss函数中，各情感分类器根据业务不同的分类需求选择不同情感特征；

S30:交叉学习并更新情感分类器，根据情感分类器的数量，将各loss函数按照等权重加成到LOSSes中作为整体损失函数，并根据所述整体损失函数对所述各情感分类器进行更新，直到整体损失函数不再降低为止。

作为一优选方案，所述步骤S10中，使用word2vec构建词向量。

作为一优选方案，所述步骤S20中，设置一级情感分类器与二级情感分类器，所述S1中的词向量作为一级情感分类器与二级情感分类器的输入，并将所述一级情感分类器与二级情感分类器全连接层输出到各自的loss函数中。

作为一优选方案，所述步骤S20中，所述基于TextRNN结合attention机制建立一级情感分类器；

和/或，基于TextCNN建立所述二级情感分类器。

进一步的，所述一级情感分类器中，对TextRNN中每一个节点h_t分配了权重αt，使其权重值使其更新为h_newt＝α_t*h_t，以为编码的词向量进行权重加成，所述权重αt为：

其中，u_t＝tanh(W_wh_t+b_w)，W_w、U_w与b_w均为Attention的权重与bias。

进一步的，步骤S3中，LOSSes为：

Losses＝0.5*Loss_RNN+0.5*Loss_CNN。

作为一优选方案，所述loss函数均为交叉熵损失函数。

为实现上述目的，本发明还提供一种文本分类装置，其包括

词向量构建模块，其用于将输入文本转化为词向量形式；

词向量输入模块，初步分类模块，其用于所述词向量分别输入到至少两组情感分类器中，并将所述情感分类器的各自全连接层输出到各自的loss函数中，各所述情感分类器根据业务不同的分类需求选择不同情感特征；

整体损失函数获取及更新模块，用于将各所述loss函数等权重加成形成LOSSes作为整体损失函数，并基于所述整体损失函数对所述各情感分类器进行更新，直到整体损失函数不再降低为止。

作为一优选方案，所述词向量构建模块中，使用word2vec构建词向量。

作为一优选方案，所述词向量输入模块中，设置一级情感分类器与二级情感分类器，所述词向量作为一级情感分类器与二级情感分类器的输入，并将所述一级情感分类器与二级情感分类器全连接层输出到各自的loss函数中。

作为一优选方案，所述词向量输入模块中，所述基于TextRNN结合attention机制建立一级情感分类器；

和/或，基于TextCNN建立所述二级情感分类器。

进一步的，步骤S3中，LOSSes为：

Losses＝0.5*Loss_RNN+0.5*Loss_CNN。

作为一优选方案，所述loss函数均为交叉熵损失函数。

为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明还提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明提供的一种文本分类方法、装置、计算机设备及存储介质，将文本输入后转化为至少两个分支，每个分支的情感分类器根据业务不同的分类需求确定多组不同的情感特征，各情感分类器最终汇合在全连接层且采用不同独立的损失函数进行训练，再通过多个分类器的交叉学习(即根据所述整体损失函数对所述各情感分类器进行更新，直到整体损失函数不再降低为止过)，可以同时对各通道的模型进行更新因此具有更高的精准度，同时，其可以预测训练集中未出现过的情感搭配，与原有的模型分别预测n种相比较，其可以预测n*n种情感搭配，因此具有较好的泛化能力。

附图说明

图1为本发明一种文本分类方法一实施例的流程图；

图2为本发明一种文本分类方法另一实施例的流程图；

图3为本发明一种文本分类装置的一实施例程序模块示意图；

图4为本发明文本分类装置一实施例的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明公开了一种文本分类方法中，其基于多损失函数进行，如图1所示，包括以下步骤：

S10：构建词向量，将输入文本转化为向量形式；步骤S10中，利用word2vec工具得到文本语义词向量。本实施例中，使用的是CBOW模型，通过调整神经网络的隐藏矩阵的值来实现最大化的语言预测模型。

S20：将S10中的词向量分别输入到至少两组情感分类器进行训练，所述情感分类器对所述词向量进行训练后，将各自全连接层分别输出到各自的loss函数中，各情感分类器根据业务不同的分类需求选择不同情感特征；其中，各情感分类器的loss函数可为交叉熵损失函数。

本发明提供的文本分类方法，将文本输入后转化为至少两个分支，每个分支的情感分类器根据业务不同的分类需求确定多组不同的情感特征，各情感分类器最终汇合在全连接层且采用不同独立的损失函数进行训练，再通过多个分类器的交叉学习可以实现多标签分类，具有更好的泛化或者是校准。具体而言上述文本分类方法可以同时对多个通道的模型进行更新，因此具有更高的精准度，同时，其可以预测训练集中未出现过的情感搭配，与原有的模型分别预测n种相比较，其可以预测n*n种情感搭配，因此具有较好的泛化能力。

作为一优选方案，共设置两组情感分类器，即一级情感分类器与二级情感分类器，一级情感分类器用于输入文本的情感正负分类；二级情感分类器用于输入文本具体情绪类型的分类，则请参阅图2，本实施例的所示的文本分类方法，包括如下步骤：

S11：构建词向量，将输入文本转化为向量形式；

S21：将S11中的词向量作为一级情感分类器与二级情感分类器的输入，并将一级情感分类器与二级情感分类器全连接层输出到各自的loss函数中，

本实施例中，一级情感分类器可用于输入文本的情感正负分类；二级情感分类器可用于输入文本具体情绪类型的分类；一级情感分类器与二级情感分类器对词向量进行训练后，将各自全连接层分别输出到各自的loss函数中。

本实施例中，步骤S21，基于TextRNN结合attention机制建立一级情感分类器，此外，也可使用TextCNN或TextRCNN代替上述TextRNN结合attention方案；基于TextCNN建立二级情感分类器，此外，也可使用TextRNN代替上述TextCNN方案。

在基于TextRNN结合attention机制建立一级情感分类器中，对TextRNN中每一个节点h_t分配了权重αt，使其权重值使其更新为h_newt＝α_t*h_t，以为编码的词向量进行权重加成，权重αt为：

其中，u_w与u_t为需要设置的权重，二者确定方法相同，u_t＝tanh(W_wh_t+b_w)，W_w、与b_w为Attention的权重与bias。

在基于TextCNN建立二级情感分类器，TextCNN由Conv与激活函数、BN、MaxPooling组成，其中，Conv为卷积层，用于捕捉文本局部相关性，激活函数为了给网络添加非线性变换使网络泛化能力增强，BN是为了防止梯度弥散使模型可以收敛更好更快，Maxpooling为了最大化局部特征以及减少计算量，具体步骤如下：

(1)使用Conv对输入的词向量进行卷积操作，本实施例中，选取6种size(长度)的1D filter进行卷积。

(2)卷积后进行BN也就是批归一化，具体计算公式为：

X1＝W*X

X3＝γ*X2+β

其中X2中的μ为均值，σ为方差，即为某次计算选取样本的某个隐藏变量下的均值与方差，X3中γ与β为偏移与放缩的超参数。

(3)进入激活函数，激活函数我们选用Relu激活函数。

(4)进入Maxpooling即池化层，该部分选取向量中最大的值最为代表输出。

当S21中的词向量分别经过上述处理后，将一级情感分类器与二级情感分类器的全连接层输出到各自的loss函数中，上述一级情感分类器与二级情感分类器的loss函数均为交叉熵损失函数。

S31：交叉学习并更新一级情感分类模器与二级情感分类器：将一级情感分类器与二级情感分类器的各loss函数按照等权重加成到LOSSes中作为整体损失函数，然后根据整体损失函数，更新一级情感分类模器与二级情感分类器两个通道的超参数，直到整体损失函数不再降低为止，此时，模型收敛，训练完成。其中：

Losses＝0.5*Loss_RNN+0.5*Loss_CNN。

即通过添加了损失函数LOSSes(两个损失函数加权和)，更新两个分类器，其中Loss_RNN与Loss_CNN分别为一级情感分类器与二级情感分类器的交叉熵。

采用此方法可以同时对两个通道的模型进行更新因此具有更高的精准度，且该方法可以预测训练集中未出现过的情感搭配，比方说训练集有‘悲伤+哀怨’等10种，而我们的两个模型分别预测4种，那么我们可以预测4*4种而不是10种，因此具有较好的泛化能力。

上述实施例中，将文本输入后转化为两个分支，其中一个用于文本的情感正负分类，另一部分用于文本的具体情绪类型(悲伤、平缓等)的分类，最终汇合在全连接层，采用两个独立的损失函数进行训练，再通过两个分类器的交叉学习可以实现分类，从而具备了更好的学习能力、泛化能力；且在两条通道分类有相似的情况下还具备了一定的校准作用，对于模型的准确率有一定的提升。

实施例二

请继续参阅图2，本实施例示出了一种文本分类方法，在本实施例中，文本分类方法10可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述坐席任务管理方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述文本分类方法10在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

本发明还公开了一种文本分类装置，包括

词向量构建模块11，其用于将输入文本转化为词向量形式；

词向量输入模块21，初步分类模块，其用于所述词向量分别输入到至少两组情感分类器中，并将所述情感分类器的各自全连接层输出到各自的loss函数中，各所述情感分类器根据业务不同的分类需求选择不同情感特征；

本发明提供的文本分类装置，将文本输入后转化为至少两个分支，每个分支的情感分类器根据业务不同的分类需求确定多组不同的情感特征，各情感分类器最终汇合在全连接层且采用不同独立的损失函数进行训练，再通过多个分类器的交叉学习可以实现分类，可以同时对两个通道的模型进行更新因此具有更高的精准度，同时，其可以预测训练集中未出现过的情感搭配，与原有的模型分别预测n种相比较，其可以预测n*n种情感搭配，因此具有较好的泛化能力。

作用一优选方案，词向量构建模块11中，使用word2vec构建词向量。利用word2vec工具得到文本语义词向量。本实施例中，使用的是CBOW模型，通过调整神经网络的隐藏矩阵的值来实现最大化的语言预测模型。

作用一优选方案，词向量输入模块21中loss函数均为交叉熵损失函数。

作用一优选方案，词向量输入模块21中，设置一级情感分类器与二级情感分类器，所述S1中的词向量作为一级情感分类器与二级情感分类器的输入，并将所述一级情感分类器与二级情感分类器全连接层输出到各自的loss函数中。本实施例中，一级情感分类器可用于输入文本的情感正负分类；二级情感分类器可用于输入文本具体情绪类型的分类；

更进一步的，词向量输入模块21中，此外，也可使用TextCNN或TextRCNN代替上述TextRNN结合attention方案；基于TextCNN建立二级情感分类器，此外，也可使用TextRNN代替上述TextCNN方案。

在基于TextCNN建立二级情感分类器，TextCNN由Conv与激活函数、BN、MaxPooling组成，其中，Conv为卷积层，用于捕捉文本局部相关性，激活函数为了给网络添加非线性变换使网络泛化能力增强，BN是为了防止梯度弥散使模型可以收敛更好更快，Maxpooling为了最大化局部特征以及减少计算量，具体步骤如下

(1)使用Conv对输入的词向量进行卷积操作，本实施例中，选取6种size的1Dfilter进行卷积。

(2)卷积后进行BN也就是批归一化，具体计算公式为：

X1＝W*X

X3＝γ*X2+β

其中X2中的μ为均值，σ为方差，X3中γ与β为偏移与放缩的超参数。

(3)进入激活函数，激活函数我们选用Relu激活函数，

词向量分别经过上述处理后，将一级情感分类器与二级情感分类器的全连接层输出到各自的loss函数中，上述一级情感分类器与二级情感分类器的loss函数均为交叉熵损失函数。

相应的，整体损失函数获取及更新模块31中：交叉学习并更新一级情感分类模器与二级情感分类器：将一级情感分类器与二级情感分类器的各loss函数按照等权重加成到LOSSes中作为整体损失函数，其中：

Losses＝0.5*Loss_RNN+0.5*Loss_CNN。

即通过添加了损失函数LOSSes(两个损失函数加权和)，更新两个分类器。

实施例三

如图3所示，本实施例还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图3所示。需要指出的是，图3仅示出了具有组件21-22的计算机设备20，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备20的内部存储单元，例如该计算机设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备20的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件，例如实施例一的坐席任务管理装置10的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行坐席任务管理装置10，以实现实施例一的坐席任务管理方法。

实施例四

如图4所示，本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储坐席任务管理装置10，被处理器执行时实现实施例一的坐席任务管理方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本分类方法，其特征在于，包括以下步骤：

S10：构建词向量，将输入文本转化为词向量形式；

S30:交叉学习并更新情感分类器，根据情感分类器的数量，将各loss函数按照等权重加成到LOSSes中作为整体损失函数，并基于所述整体损失函数对所述各情感分类器进行更新，直到整体损失函数不再降低为止。

2.根据权利要求1所述的文本分类方法，其特征在于，所述步骤S10中，使用word2vec构建词向量。

3.根据权利要求1所述的文本分类方法，其特征在于，所述步骤S20中，设置一级情感分类器与二级情感分类器，所述S10中的词向量作为一级情感分类器与二级情感分类器的输入，并将所述一级情感分类器与二级情感分类器全连接层输出到各自的loss函数中。

4.根据权利要求3所述的文本分类方法，其特征在于，所述步骤S20中，所述基于TextRNN结合attention机制建立一级情感分类器；

和/或，基于TextCNN建立所述二级情感分类器。

5.根据权利要求3所述的文本分类方法，其特征在于，所述一级情感分类器中，对TextRNN中每一个节点h_t分配了权重αt，使其权重值使其更新为h_newt＝α_t*h_t，以为编码的词向量进行权重加成，所述权重αt为：

6.根据权利要求3所述的文本分类方法，其特征在于，步骤S30中，LOSSes为：

Losses＝0.5*Loss_RNN+0.5*Loss_CNN。

7.根据权利要求1或3所述的文本分类方法，其特征在于：所述loss函数均为交叉熵损失函数。

8.一种文本分类装置，其特征在于：包括

词向量构建模块，其用于将输入文本转化为词向量形式；

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。