CN112883188A

CN112883188A - 一种情感分类方法、装置、电子设备和存储介质

Info

Publication number: CN112883188A
Application number: CN201911199692.6A
Authority: CN
Inventors: 梁天新; 王炳乾
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2021-06-01

Abstract

本发明提供一种情感分类方法、装置、电子设备和存储介质，包括：通过训练集训练串行的自然语言预训练模型和文本分类模型，得到情感分类组合模型；其中，所述训练集包括多个训练样本，每个训练样本包括文本、所述文本中的方面词和所述方面词的分类标签；将待预测文本和所述待预测文本中的方面词输入到所述情感分类组合模型中，以输出所述待预测文本中的方面词的分类标签。本发明将自然语言预训练模型和文本分类模型串行组合，通过训练集训练这两个模型，训练后的组合模型能够实现基于方面词的细粒度情感分类，从而准确地对文本进行细粒度情感分析。

Description

一种情感分类方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种情感分类方法、装置、电子设备和存储介质。

背景技术

随着社交网络的兴起，越来越多的人喜欢在网络上发表自己的观点,这种带有个人主观态度的文本具有很大的挖掘价值。因为用户需求的不断增加，句子级别的情感分析只能给出一整句话的情感值，无法准确表达用户想要知道的对象，所以情感分析粒度需要更加细化。但是，现有的情感分析方法无法准确地对文本进行细粒度情感分析。

发明内容

有鉴于此，本发明的目的在于提出一种情感分类方法、装置、电子设备和存储介质，以解决细粒度情感分类不够准确的技术问题。

基于上述目的，根据本发明的第一个方面，其提供了一种情感分类方法，包括：

通过训练集训练串行的自然语言预训练模型和文本分类模型，得到情感分类组合模型；其中，所述训练集包括多个训练样本，每个训练样本包括文本、所述文本中的方面词和所述方面词的分类标签；

将待预测文本和所述待预测文本中的方面词输入到所述情感分类组合模型中，以输出所述待预测文本中的方面词的分类标签。

在本发明的一些实施例中，通过训练集训练串行的自然语言预训练模型和文本分类模型，得到情感分类组合模型，包括：

将训练集输入到自然语言预训练模型中，得到所述自然语言预训练模型输出的第一语义特征向量；

将所述自然语言预训练模型输出的第一语义特征向量输入到文本分类模型中，得到所述文本分类模型输出的第二语义特征向量；

根据所述文本分类模型输出的第二语义特征向量优化所述自然语言预训练模型的参数和所述文本分类模型的参数，从而得到情感分类组合模型。

在本发明的一些实施例中，根据所述文本分类模型输出的第二语义特征向量优化所述自然语言预训练模型的参数和所述文本分类模型的参数，从而得到情感分类组合模型，包括：

基于所述文本分类模型输出的第二语义特征向量、所述自然语言预训练模型的参数和所述文本分类模型的参数，计算损失函数；

通过使所述损失函数取最小值，获得所述自然语言预训练模型的最优参数和所述文本分类模型的最优参数，从而得到情感分类组合模型。

在本发明的一些实施例中，所述损失函数为交叉熵损失函数。

在本发明的一些实施例中，所述自然语言预训练模型为BERT模型，和/或，所述文本分类模型为TextCNN模型。

根据本发明的第二个方面，其提供了一种情感分类装置，包括：

训练模块，被配置为：通过训练集训练串行的自然语言预训练模型和文本分类模型，得到情感分类组合模型；其中，所述训练集包括多个训练样本，每个训练样本包括文本、所述文本中的方面词和所述方面词的分类标签；

预测模块，被配置为：将待预测文本和所述待预测文本中的方面词输入到所述情感分类组合模型中，以输出所述待预测文本中的方面词的分类标签。

在本发明的一些实施例中，所述训练模块还用于：

根据本发明的第三个方面，其提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一个实施例中所述的方法。

根据本发明的第四个方面，其提供了一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述任意一个实施例中所述的方法。

从上面所述可以看出，本发明实施例提供的情感分类方法、装置、电子设备和存储介质将自然语言预训练模型和文本分类模型串行组合，通过训练集训练这两个模型，训练后的组合模型能够实现基于方面词的细粒度情感分类，从而准确地对文本进行细粒度情感分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例的情感分类方法的流程示意图；

图2为本发明实施例的情感分类组合模型的结构示意图；

图3为本发明又一个实施例的情感分类方法的流程示意图；

图4为本发明实施例的情感分类组合模型的输入输出表示示意图；

图5为本发明实施例的情感分类装置的结构示意图；

图6为本发明实施例的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

在一个本发明的实施例中，如图1所示，本发明实施例提供了一种情感分类方法，该方法包括：

步骤101，通过训练集训练串行的自然语言预训练模型和文本分类模型，得到情感分类组合模型。

在该步骤中，通过训练集训练串行的自然语言预训练模型和文本分类模型，从而得到情感分类组合模型。本发明实施例将自然语言预训练模型和文本分类模型组合，通过训练集训练该组合模型，训练后的组合模型能够在一定程度上实现细粒度的情感分类。

可选地，所述训练集包括多个训练样本，每个训练样本包括文本、所述文本中的方面词和所述方面词的分类标签。需要指出的是，在本发明的实施例中，方面词是指用户关注的词，也就是用户想要知道的对象。为了保证模型训练效果，可以对训练集中的各个训练样本进行人工标注，比如针对每个文本，获取该本文中的各个方面词，并对各个方面词分别标记分类标签。可选地，分类标签可以根据实际需要配置，可以分为两类、三类、五类、十类或者二十类等，这些分类标签用于标记文本中各个方面词的所属分类。比如，可以将标签分为三类，即阳性标签、阴性标签和中性标签。可选地，为了省去人工标准的步骤，也可以从COAE2014数据集或者COAE2015数据集中获取训练样本作为训练集。

可选地，步骤101可以包括：将训练集输入到自然语言预训练模型中，得到所述自然语言预训练模型输出的第一语义特征向量；将所述自然语言预训练模型输出的第一语义特征向量输入到文本分类模型中，得到所述文本分类模型输出的第二语义特征向量；根据所述文本分类模型输出的第二语义特征向量优化所述自然语言预训练模型的参数和所述文本分类模型的参数，从而得到情感分类组合模型。

为了训练得到情感分类组合模型，首先将训练集输入到自然语言预训练模型中，然后将所述自然语言预训练模型输出的第一语义特征向量输入到文本分类模型中，所述文本分类模型输出第二语义特征向量，最后根据所述文本分类模型输出的第二语义特征向量对所述自然语言预训练模型的参数和所述文本分类模型的参数进行优化，从而得到情感分类组合模型。在训练所述情感分类组合模型的过程中，通过多次迭代训练优化自然语言预训练模型的参数和文本分类模型的参数，得到模型最优参数，从而得到情感分类组合模型。

可选地，根据所述文本分类模型输出的第二语义特征向量优化所述自然语言预训练模型的参数和所述文本分类模型的参数，从而得到情感分类组合模型，包括：基于所述文本分类模型输出的第二语义特征向量、所述自然语言预训练模型的参数和所述文本分类模型的参数，计算损失函数；通过使所述损失函数取最小值，获得所述自然语言预训练模型的最优参数和所述文本分类模型的最优参数，从而得到情感分类组合模型。

通过所述文本分类模型输出的第二语义特征向量、所述自然语言预训练模型的参数和所述文本分类模型的参数计算损失函数，并利用梯度下降和反向传播算法并使所述损失函数取最小值，获得所述自然语言预训练模型的最优参数和所述文本分类模型的最优参数，从而得到情感分类组合模型。

可选地，所述损失函数为交叉熵损失函数，采用交叉熵损失函数可以更好地优化模型参数。

可选地，所述自然语言预训练模型为BERT模型。可选地，所述文本分类模型为TextCNN模型。

BERT模型的全称是Bidirectional Encoder Representations fromTransformers，它是一种新型的语言模型，它通过联合调节所有层中的双向Transformer来训练预训练深度双向表示，可以更准确地对情感进行细粒度分析。并且由于TextCNN的收敛效果较好，那么模型的迭代训练的次数显著减少，因此BERT+TextCNN情感分类组合模型的训练速度反而比BERT模型的训练速度还要快。图2为本发明实施例的情感分类组合模型的结构示意图，如图2所示，所述情感分类组合模型包括串行的BERT模型和TextCNN模型，文本以及文本中的方面词通过输入端输入到BERT模型中，方面词的分类标签通过输出端输入到BERT模型中，

步骤102，将待预测文本和所述待预测文本中的方面词输入到所述情感分类组合模型中，以输出所述待预测文本中的方面词的分类标签。

首先从待预测文本中获取各个方面词，然后将所述待预测文本和从所述待预测文本中获取的各个方面词一起输入到训练好的所述情感分类组合模型中，所述情感分类组合模型则会输出所述待预测文本中的各个方面词对应的分类标签，从而实现了对文本的细粒度情感分类。

因此，本发明实施例提供的情感分类方法将自然语言预训练模型和文本分类模型串行组合，通过训练集训练这两个模型，训练后的组合模型能够实现基于方面词的细粒度情感分类，从而准确地对文本进行细粒度情感分析。

作为本发明的另一个实施例，如图3所示，以BERT模型和TextCNN模型为例，所述情感分类方法可以包括：

步骤301，获取训练集，并对所述训练集中的各个训练样本进行预处理。

其中，所述训练集包括多个训练样本，每个训练样本包括文本、所述文本中的方面词和所述方面词的分类标签。可选地，也可以从COAE2014和COAE2015两个公开的中文微薄情感倾向数据集中获取训练样本作为训练集。文本、方面词以及分类标签中间以TAB分开，如下所示：

触控体验非常好！[TAB]触控[TAB]1

可选地，训练样本的标注数据格式为D＝([q1,...,qn],[d1,...,dn],yi)，每一个训练样本均由文本序列[q1,...,qn]、方面词序列[d1,...,dn]以及方面词分类标签yi组成。然后将训练样本表示成一个单一的打包序列x，那么：

x＝([CLS],d1,...,dn,[SEP],q1,...,qm,[SEP])

其中，[CLS]和[SEP]分别为BERT模型分类输出的特殊符号，[SEP]是分离连续标记序列(这里指文本序列和方面词序列)的特殊符号。

步骤302，通过训练集训练串行的自然语言预训练模型和文本分类模型，得到BERT+TextCNN模型。

可选地，将训练集中各个训练样本对应的打包序列x输入BERT模型，得到所述BERT模型输出的第一语义特征向量；将所述第一语义特征向量输入到TextCNN模型中，得到所述TextCNN模型输出的第二语义特征向量；根据所述第二语义特征向量优化所述BERT模型的参数和所述TextCNN模型的参数，从而得到BERT+TextCNN情感分类组合模型。具体地，打包序列x中的方面词序列使用A嵌入，文本序列使用B嵌入，BERT模型的输入、输出表示如图4所示。

为了提高模型的性能和收敛速度，本发明实施例将BERT模型输出的第一语义特征向量送进一个TextCNN模型。可选地，TextCNN采用128个滤波器，每个滤波器有2、3、4三种卷积核尺寸，进一步提取文本的n-gram特征。由于BERT模型已经为组合模型提取了高维的特征向量，那么结合TextCNN模型较强快速的文本分类能力，即可实现细粒度情感分类。需要指出的是，原始BERT模型最后使用的是单层神经网络进行分类，此种方式分类准确率和速度都远不如TextCNN模型。

一般来说，BERT模型大小有两种类型：

BERT_BASE:L＝12,H＝768,A＝12,TotalParameters＝110M；

BERT_LARGE:L＝12,H＝768,A＝12,TotalParameters＝340M。

其中，L为Transformer层数，H为隐藏层尺寸，A为自注意头的个数。为了方便使用，可以采用中文版的BERT_BASE。

在本发明的实施例中，可以对两个模型的超参数进行如下选择：

BERT模型超参数设置：选择训练批次大小(batch size)为32，Adam优化算法的学习率(learning rate)设置为5e-5，迭代次数(epochs)9；

TextCNN模型超参数设置：选择滤波器数量为128，卷积核大小为[2,3,4]，dropout速率为0.1。

在训练模型的过程：加载BERT模型的预训练权重，将各个训练样本输入到中文版预训练模型BERT，获取BERT模型输出的第一语义特征向量，将该第一语义特征向量输入TextCNN模型，通过文本卷积结构对BERT模型的输出进行卷积操作，进一步提取文本局部特征并得到其最大池化后的输出结果，经过softmax层便得到分类输出的各个类别的概率。训练过程中通过使正确标签的对数概率最大化来不断微调BERT模型的预训练权重，以及TextCNN模型的参数，使得预训练BERT模型逐渐迁移成处理细粒度情感分类任务的模型，最终得到BERT+TextCNN情感分类组合模型。

BERT输出的第一语义特征可以表示为：

h₀＝XW_t+W_s+W_p

h_i＝Transformer(h_i-1),i∈[1,L]

其中，W_t为词嵌入矩阵，W_p为位置嵌入矩阵，W_s句子嵌入矩阵。h_i为BERT输出的隐藏层向量，即第i层Transformer网络的输出。

经过TextCNN的输出的第二语义特征可以表示为：

h_c＝Conv(W_ch_l+b_c)

h_d＝MaxPooling(h_c)

其中W_c为卷积层矩阵，h_l为BERT最后一层隐藏层向量。

可选地，各个类别的预测结果概率可以表示为：

其中，h_d为TextCNN模型输出的第二语义特征向量，W为情感分类组合模型的参数矩阵，b为偏置值。

然后，采用交叉熵损失函数作为情感分类组合模型的损失函数:

其中k为分类标签个数，在本实施例中k＝2，

分别为真实情感标签和预测情感标签。通过使损失函数loss取最小值，对情感分类组合模型的所有参数进行联合微调，使正确标签的对数概率最大化，即loss最小化，从而得到最优的参数。

步骤303，将待预测文本和所述待预测文本中的方面词输入到BERT+TextCNN模型中，以输出所述待预测文本中的方面词的分类标签。

训练得到BERT+TextCNN模型之后，从待预测文本中获取各个方面词，然后将所述待预测文本和从所述待预测文本中获取的各个方面词一起输入到训练好的BERT+TextCNN模型中，BERT+TextCNN模型则会输出所述待预测文本中的各个方面词对应的分类标签，从而实现了对文本的细粒度情感分类。

为了验证BERT+TextCNN模型的预测准确性，本发明实施例分别测试了BERT模型、BERT+TextCNN模型，以及现有的TD-LSTM模型、TC-LSTM模型、TD_TextCNN模型和TC_TextCNN模型等在COAE2014数据集和COAE2015数据上的情感极性分类效果。COAE2014数据集和COAE2015数据为在线产品评价数据集，每一条产品评价都有对应的方面词和对应的极性标签(pos/neg)，正负极性的数据分布情况如表1所示：

表1实验数据

	极性	训练集	验证集	测试集
					COAE2014	阳/阴	4163/3136	417/318	775/994
COAE2015	阳/阴	6528/2893	887/316	1000/1000

实验中，对每种模型都采用相同的训练集、验证集进行训练和验证，在测试时输入相同的固定数量的产品评价测试数据，(COAE2014测试数据集1769条，COAE2015测试数据集2000条)。各个模型输出每条测试数据情感极性，分别计算各个模型输出的情感极性结果的准确率Acc和F1值来对比模型之间的性能，结果如表2所示。

表2各种模型在两个数据集上的实验结果

实验结果表明，在准确率、召回率上，BERT+TextCNN模型的情感极性分类结果比目前的TD-LSTM、TC-LSTM、ATAE-LSTM等模型有明显提升。

因此，本发明实施例将BERT模型和TextCNN模型串行组合，通过训练集训练这两个模型，训练后的BERT+TextCNN模型能够实现基于方面词的细粒度情感分类，从而准确地对文本进行细粒度情感分析；并且采用TextCNN加速了BERT模型的微调收敛速度，可以更快地训练得到BERT+TextCNN模型。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

如图5所示，本发明实施例还提供了一种情感分析装置，包括训练模块501和预测模块502。其中，训练模块501被配置为：通过训练集训练串行的自然语言预训练模型和文本分类模型，得到情感分类组合模型；其中，所述训练集包括多个训练样本，每个训练样本包括文本、所述文本中的方面词和所述方面词的分类标签；预测模块502被配置为：将待预测文本和所述待预测文本中的方面词输入到所述情感分类组合模型中，以输出所述待预测文本中的方面词的分类标签。

在本发明的一些实施例中，所述训练模块501还用于：

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器610、存储器620、输入/输出接口630、通信接口640和总线650。其中处理器610、存储器620、输入/输出接口630和通信接口640通过总线650实现彼此之间在设备内部的通信连接。

处理器610可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器620可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器620可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器620中，并由处理器610来调用执行。

输入/输出接口630用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口640用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线650包括一通路，在设备的各个组件(例如处理器610、存储器620、输入/输出接口630和通信接口640)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器610、存储器620、输入/输出接口630、通信接口640以及总线650，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种情感分类方法，其特征在于，包括：

2.根据权利要求1所述的情感分类方法，其特征在于，通过训练集训练串行的自然语言预训练模型和文本分类模型，得到情感分类组合模型，包括：

3.根据权利要求2所述的情感分类方法，其特征在于，根据所述文本分类模型输出的第二语义特征向量优化所述自然语言预训练模型的参数和所述文本分类模型的参数，从而得到情感分类组合模型，包括：

4.根据权利要求3所述的情感分类方法，其特征在于，所述损失函数为交叉熵损失函数。

5.根据权利要求1所述的情感分类方法，其特征在于，所述自然语言预训练模型为BERT模型，和/或，所述文本分类模型为TextCNN模型。

6.一种情感分类装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述训练模块还被配置为：

8.根据权利要求7所述的装置，其特征在于，所述训练模块还被配置为：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任意一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至5中任一项所述方法。