CN111950296B

CN111950296B - 一种基于bert微调模型的评论目标情感分析

Info

Publication number: CN111950296B
Application number: CN202010849958.3A
Authority: CN
Inventors: 张会兵; 董俊超; 胡晓丽; 周娅; 林煜明; 张敬伟; 黄桂敏; 首照宇
Original assignee: Hunan Malan Digital Education Technology Co ltd
Current assignee: Hunan Malan Digital Education Technology Co ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2023-10-20
Anticipated expiration: 2040-08-21
Also published as: CN111950296A

Abstract

本发明公开了一种基于BERT微调模型的评论目标情感分析，包括BCR‑CRF目标抽取模型和BCR‑DA目标情感分类模型，BCR‑DA目标情感分类模型分为在线课程评论情感分析、BCR‑CRF目标抽取模型、BCR‑DA目标情感分析模型和真实中文在线课程评论数据集上的实验结果；BCR‑CRF目标抽取模型步骤为：第一步：基于大规模中文评论语料库进行域内无监督训练BERT预训练模型BCR；第二步：引入CRF层，对BCR模型中语义表征层的输出序列添加语法约束，保证预测标签间依赖关系的合理性，准确抽取课程评论文本中的评论目标；第三步：构建包含双注意力层的BCR‑DA模型分类表达课程评论目标的情感极性。本发明能够准确分析在线课程评论中蕴含的目标情感对理解学习者情绪变化、提升课程质量具有重要意义。

Description

一种基于BERT微调模型的评论目标情感分析

技术领域

本发明涉及在线教育技术领域，具体为一种基于BERT微调模型的评论目标情感分析。

背景技术

近年来，在线课程因其开放、方便和优质的特点，使得在线学习者数量快速增加。数量庞大、背景各异、层次多样的学习者对在线课程的管理提出了新的挑战：在线实时掌握学情或情绪变化、了解学习动因以更好地提供个性化教育服务。为适应这一趋势，在线学习平台会提供评论、论坛等社区功能，方便学习者、教师和平台管理方之间的交流互动，通过对在线交互过程中产生的大量交互文本等非结构化数据进行情感分析可以有效获取学习者的情感态度、学习体验等，从而了解学习者的需求变化和学习痛点，为个性化服务提供参考。

现有在线课程评论情感分析研究主要分为情感词典、机器学习和深度学习三类。基于传统情感词典的方法主要是将课程评论分词，然后与人工构建的情感词典比对来计算课程评论的情感值，该类方法受情感词典质量影响较大。基于机器学习的方法是抽取评论文本的特征并将其传入模型中进行情感分析，此类方法严重依赖特征工程。当前，大规模在线课程平台上涌现的海量评论信息使得人工构建高质量情感字典和特征变得不可行。因此，可以自动抽取特征的神经网络情感分析模型，如Convolutional Neural Networks，CNN、Recurrent Neural Network，RNN。成为当前研究的热点。但现有基于神经网络的在线课程评论情感分析大多是对整句评论情感极性进行分类，不能有效识别细粒度评论目标并计算其对应的情感信息。另外，机器学习和深度学习方法通常需要大量的人工标注数据进行模型训练，很难直接应用于人工标注成本极高的中文在线课程评论目标情感分析。最近，Google提出的大规模预训练模型BERT能够通过无监督学习方式提取海量无标注自然语言文本中的语言知识特征，并将其编码到网络结构中完成语言模型训练任务。通过预训练得到的语言表征能够对标注数据有限的特定任务微调模型进行有效的特征补充，进而提升微调模型性能。

为此，基于BERT预训练模型提出了BCR-CRF的目标抽取模型和BCR-DA的目标情感分析模型，来解决标注数据有限情况下的中文在线课程评论目标情感分析问题。首先，基于中文评论数据语料库域内训练BERT预训练模型(BCR)，然后分别添加CRF层和DA层微调BCR模型，实现中文在线课程评论目标抽取和目标情感分析。

发明内容

本发明的目的在于提供一种基于BERT微调模型的评论目标情感分析，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于BERT微调模型的评论目标情感分析，包括BCR-CRF目标抽取模型和BCR-DA目标情感分类模型，其特征在于：所述BCR-DA目标情感分类模型分为在线课程评论情感分析、BCR-CRF目标抽取模型、BCR-DA目标情感分析模型和真实中文在线课程评论数据集上的实验结果；所述BCR-CRF目标抽取模型分析步骤如下：

第一步：基于大规模中文评论语料库进行域内无监督训练BERT预训练模型BCR；

第二步：引入Conditional Random Field层，简称CRF层，对BCR模型中语义表征层的输出序列添加语法约束，保证预测标签间依赖关系的合理性，准确抽取课程评论文本中的评论目标；

第三步：构建包含双注意力层的BCR-DA模型分类表达课程评论目标的情感极性；上注意力机制根据目标向量学习上下文向量分配注意力值，下注意力机制计算上下文中每个汉字对评论目标中某个汉字的重要程度，缓解上注意力层出现的信息丢失问题。

优选的，所述在线课程情感分析分为评论目标抽取、目标情感分析和预训练语言模型；

评论目标抽取可看作序列标注任务，是目标情感分析的基础，对评论目标进行随机抽取，并进行详细记录；

目标情感分析旨在获取目标实体情感极性，在评论目标在线课程结束后进行采集情感数据，并进行分析；

目前使用较为广泛的预训练模型有ULMFiT、OpenAI GPT、ELMo、BERT等BERT模型被广泛应用于阅读理解、情感分析、序列标注等诸多领域。

优选的，所述BCR-CRF中文在线课程评论目标抽取模型步骤为：输入编码层对预处理完成后的原始中文在线课程评论进行编码；语义表征层接收输入编码层输出的评论编码进行语义提取，并将其输入到CRF层进行联合建模，有效解决了原始BERT在中文在线课程评论目标抽取中存在的依赖性和相关性问题。

优选的，所述输入编码层采用与上下文有关的BCR动态字编码模型，不仅能够动态编码短句课程评论中某字在不同语境中的语义，而且也可以编码长句课程评论中各个分句间的逻辑关系，短句课程评论采用随机MASK评论语句中15％的汉字进行编码，其中，80％的几率用MASK替换；10％的几率用任意另外一个汉字替换；10％的几率保持原本语句不变，长句课程评论编码的具体做法是：在各个分句的起始位置添加特殊的SEP令牌，随机替换部分子句，通过模型中内嵌的二分类子模型判断各个分句间是否存在逻辑关系。

优选的，所述语义表征层由n个transformer编码单元构成，Transformer编码单元中最重要的部分是由多个自注意力机制构成的多头注意力模块，多头注意力模块通过计算课程评论语句中的每个汉字与句中其余汉字词的相互关系，为了解决传深度学习中的梯度消失问题和加速模型训练，Transformer编码单元还使用了shortcut connection和层归一化方法。

优选的，所述CRF在抽取在线课程评论文本目标时会严格限定输出的标签仅与上一级标签以及当前输入相关，BCR模型以整个句子作为上下文来抽取在线课程评论文本中的目标，但是状态转移条件的缺失使其可能输出一个完全错误的目标序列，将BCR模型的输出作为CRF的输入来实现在线课程评论文本目标抽取，既可以有效获取评论文本中目标的上下文信息，又能保证标签间依赖关系的合理性。

优选的，所述输入编码层对BCR-CRF目标抽取完成的课程评论目标及其上下文进行编码；语义表征层对输入编码层输出的目标编码和上下文编码分别进行语义提取，并将其输入到DA层捕获目标和上下文词之间的相互联系；最后，通过情感分类层对课程评论中所含目标对应的情感极性进行分类表达；

DA层采用双层注意力机制连接和融合来自目标和上下文的语义信息，为目标相关的情感特征提供更多的线索，上层注意力机制主要关注目标序列与上下文序列间的关系，下层注意力机制通过捕获目标序列和上下文序列内汉字级别交互的关键信息，解决上层注意力机制在处理多个汉字目标序列和长序列上下文时目标情感分析模型信息缺失的问题。

与现有技术相比，本发明的有益效果是：

本发明使用含有中文在线课程评论在内的评论语料库训练BERT预训练模型，得到更加适用于中文在线课程评论的目标抽取和目标情感分析下游任务的BCR预训练模型。

本发明提出一种BCR-CRF模型。该模型通过增加考虑标签之间的相邻关系的CRF层，对BCR模型语义表征层的输出序列添加语法约束，保证预测标签间依赖关系的合理性，实现中文在线课程评论目标抽取。

本发明提出一种BCR-DA模型。该模型使用包含上下两层的双注意力层微调预训练BCR模型，实现中文在线课程评论目标情感极性分类。上注意力层采用目标和上下文双向注意机制，有效解决了评论目标与上下文之间的交互问题。下注意力层通过描述汉字级交互，计算上下文中每个汉字对目标中的某个汉字的重要程度，缓解上注意力层在目标和上下文较长时出现的信息丢失问题。

附图说明

图1为本发明的BCR-CRF中文在线课程评论目标抽取模型框架图；

图2为本发明的BCR-DA目标情感分析模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

请参阅图1至图2，本发明提供的一种实施例：一种基于BERT微调模型的评论目标情感分析，包括BCR-CRF目标抽取模型和BCR-DA目标情感分类模型，其特征在于：所述BCR-DA目标情感分类模型分为在线课程评论情感分析、BCR-CRF目标抽取模型、BCR-DA目标情感分析模型和真实中文在线课程评论数据集上的实验结果；所述BCR-CRF目标抽取模型分析步骤如下：

在线课程情感分析分为评论目标抽取、目标情感分析和预训练语言模型；

BCR-CRF中文在线课程评论目标抽取模型步骤为：输入编码层对预处理完成后的原始中文在线课程评论进行编码；语义表征层接收输入编码层输出的评论编码进行语义提取，并将其输入到CRF层进行联合建模，有效解决了原始BERT在中文在线课程评论目标抽取中存在的依赖性和相关性问题。

输入编码层采用与上下文有关的BCR动态字编码模型，不仅能够动态编码短句课程评论中某字在不同语境中的语义，而且也可以编码长句课程评论中各个分句间的逻辑关系，短句课程评论采用随机MASK评论语句中15％的汉字进行编码，其中，80％的几率用MASK替换；10％的几率用任意另外一个汉字替换；10％的几率保持原本语句不变，长句课程评论编码的具体做法是：在各个分句的起始位置添加特殊的SEP令牌，随机替换部分子句，通过模型中内嵌的二分类子模型判断各个分句间是否存在逻辑关系。

语义表征层由n个transformer编码单元构成，Transformer编码单元中最重要的部分是由多个自注意力机制构成的多头注意力模块，多头注意力模块通过计算课程评论语句中的每个汉字与句中其余汉字词的相互关系，为了解决传深度学习中的梯度消失问题和加速模型训练，Transformer编码单元还使用了shortcut connection和层归一化方法。

CRF在抽取在线课程评论文本目标时会严格限定输出的标签仅与上一级标签以及当前输入相关，BCR模型以整个句子作为上下文来抽取在线课程评论文本中的目标，但是状态转移条件的缺失使其可能输出一个完全错误的目标序列，将BCR模型的输出作为CRF的输入来实现在线课程评论文本目标抽取，既可以有效获取评论文本中目标的上下文信息，又能保证标签间依赖关系的合理性；

将BCR模型语义表征层的输出x＝{x₁,x₂,…,x_n}作为CRF层的输入，其中x_i是评论文本中第i个汉字经过BCR模型后的对应输出向量。y＝{y₁,y₂,…,y_n},y∈Y(x)，表示x对应标签序列集合Y(x)中一条标签序列。CRF层的概率模型定义了输入x所对应的所有可能标签序列y∈Y(x)的条件概率，形式如下:

其中，是势函数，/>和b_y',y分别为标签对(y',y)的权重向量和偏差。

使用最大似然估计训练CRF，即选择使对数似然L(w,b)最大化的参数。对于一个训练集{(x_i,y_i)}，对数似然由式4所得。

然后，采用Viterbi算法搜索条件概率最大的标签序列y*进行训练和解码，即为最终输出的目标抽取序列。

输入编码层对BCR-CRF目标抽取完成的课程评论目标及其上下文进行编码；语义表征层对输入编码层输出的目标编码和上下文编码分别进行语义提取，并将其输入到DA层捕获目标和上下文词之间的相互联系；最后，通过情感分类层对课程评论中所含目标对应的情感极性进行分类表达；

DA层采用双层注意力机制连接和融合来自目标和上下文的语义信息，为目标相关的情感特征提供更多的线索，上层注意力机制主要关注目标序列与上下文序列间的关系，下层注意力机制通过捕获目标序列和上下文序列内汉字级别交互的关键信息，解决上层注意力机制在处理多个汉字目标序列和长序列上下文时目标情感分析模型信息缺失的问题；

上层注意力机制通过目标向量学习上下文向量分配注意力值，对评论目标与上下文间关系进行双向建模，主要包括：Target2Upcontext、Upcontext2Target、Belowcontext2Target和Target2Belowcontext四种。由于经过BCR模型编码和语义提取后的任一隐藏单元均含有评论文本中的所有成分的信息，故使用BCR模型第一个令牌CLS的最终隐藏状态作为目标表示和上下文表示，与上层注意力机制关注课程评论目标及其上下文间关系不同的是，下层注意力机制主要描述汉字级交互，计算上下文中每个汉字对目标中的某个汉字的重要程度。

由于中文在线课程评论数据规模限制和中性情感的模糊不清，BCR-DA模型在训练中会出现过拟合问题。我们采用L2正则化和标签平滑正则化LSR降低模型过拟合风险，提高模型的泛化能力。LSR可以把一些概率分到其他概率较小类别上，防止模型把预测值过度集中在概率较大类别上，实现模型约束。并通过在输出中添加噪声来降低过拟合程度。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于BERT微调模型的评论目标情感分析解决方法，包括BCR-CRF目标抽取模型和BCR-DA目标情感分类模型，其特征在于：所述BCR-CRF目标抽取模型和所述BCR-DA目标情感分类模型分为在线课程评论情感分析、BCR-CRF目标抽取模型和BCR-DA目标情感分析模型和真实中文在线课程评论数据集上的实验结果；且分析步骤如下：

第二步：引入ConditionalRandomField层，简称CRF层，对BCR模型中语义表征层的输出序列添加语法约束，保证预测标签间依赖关系的合理性，准确抽取课程评论文本中的评论目标，所述BCR-CRF中文在线课程评论目标抽取模型步骤为：输入编码层对预处理完成后的原始中文在线课程评论进行编码；语义表征层接收输入编码层输出的评论编码进行语义提取，并将其输入到CRF层进行联合建模，有效解决了原始BERT在中文在线课程评论目标抽取中存在的依赖性和相关性问题；

第三步：构建包含双注意力层的BCR-DA模型分类表达课程评论目标的情感极性；上注意力机制根据目标向量学习上下文向量分配注意力值，下注意力机制计算上下文中每个汉字对评论目标中某个汉字的重要程度，缓解上注意力层出现的信息丢失问题，输入编码层对BCR-CRF目标抽取完成的课程评论目标及其上下文进行编码；语义表征层对输入编码层输出的目标编码和上下文编码分别进行语义提取，并将其输入到DA层捕获目标和上下文词之间的相互联系；最后，通过情感分类层对课程评论中所含目标对应的情感极性进行分类表达；

DA层采用双层注意力机制连接和融合来自目标和上下文的语义信息，为目标相关的情感特征提供更多的线索，上层注意力机制关注目标序列与上下文序列间的关系，下层注意力机制通过捕获目标序列和上下文序列内汉字级别交互的关键信息，解决上层注意力机制在处理多个汉字目标序列和长序列上下文时目标情感分析模型信息缺失的问题。

2.根据权利要求1所述的一种基于BERT微调模型的评论目标情感分析解决方法，其特征在于：所述在线课程情感分析分为评论目标抽取、目标情感分析和预训练语言模型；

目标情感分析旨在获取目标实体情感极性，在评论目标在线课程结束后进行采集情感数据，并进行分析。

3.根据权利要求1所述的一种基于BERT微调模型的评论目标情感分析解决方法，其特征在于：输入编码层采用与上下文有关的BCR动态字编码模型，不仅能够动态编码短句课程评论中某字在不同语境中的语义，而且也可以编码长句课程评论中各个分句间的逻辑关系，短句课程评论采用随机MASK评论语句中15％的汉字进行编码，其中，80％的几率用MASK替换；10％的几率用任意另外一个汉字替换；10％的几率保持原本语句不变，长句课程评论编码的具体做法是：在各个分句的起始位置添加特殊的SEP令牌，随机替换部分子句，通过模型中内嵌的二分类子模型判断各个分句间是否存在逻辑关系。

4.根据权利要求1所述的一种基于BERT微调模型的评论目标情感分析解决方法，其特征在于：语义表征层由n个transformer编码单元构成，Transformer编码单元中最重要的部分是由多个自注意力机制构成的多头注意力模块，多头注意力模块通过计算课程评论语句中的每个汉字与句中其余汉字词的相互关系，为了解决传深度学习中的梯度消失问题和加速模型训练，Transformer编码单元还使用了shortcutconnection和层归一化方法。

5.根据权利要求1所述的一种基于BERT微调模型的评论目标情感分析解决方法，其特征在于：CRF在抽取在线课程评论文本目标时会严格限定输出的标签仅与上一级标签以及当前输入相关，BCR模型以整个句子作为上下文来抽取在线课程评论文本中的目标，但是状态转移条件的缺失使其可能输出一个完全错误的目标序列，将BCR模型的输出作为CRF的输入来实现在线课程评论文本目标抽取，既可以有效获取评论文本中目标的上下文信息，又能保证标签间依赖关系的合理性。