CN111310474A

CN111310474A - 基于激活-池化增强bert模型的在线课程评论情感分析方法

Info

Publication number: CN111310474A
Application number: CN202010065670.7A
Authority: CN
Inventors: 张会兵; 董俊超; 贾飞; 周娅; 林煜明; 张敬伟
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-19

Abstract

本发明公开了一种基于激活‑池化增强BERT模型的在线课程评论情感分析方法，涉及在线课程评估技术领域，包括构建在线课程评论情感分析模型来编码评论文本中分句内词语上下文语义和分句间逻辑关系；设计激活函数层和最大‑平均池化层解决BERT模型在课程评论情感分析中存在的过拟合问题；通过新增的情感分类层对在线课程评论进行情感正负极性分类。本发明改进了直接应用BERT模型做课程评论情感分析任务时出现过拟合的问题，同时增加了情感分类层对课程评论情感进行分析；相对于传统课程评论情感分析模型，在线课程评论情感分析模型具有精确度高，训练容易的优点，该模型的准确率和AUC值与基准模型相比分别有显著的提升。

Description

基于激活-池化增强BERT模型的在线课程评论情感分析方法

技术领域

本发明涉及在线课程评估技术领域，特别涉及一种基于激活-池化增强BERT模型的在线课程评论情感分析方法。

背景技术

由于在线课程开放、方便和优质的特点，使得在线学习者数量快速增加。数量庞大、背景各异、层次多样的学习者对在线课程的管理提出了新的挑战：实时掌握学习动因、学情/状态变化以更好地提供个性化教育服务。为适应这一趋势，在线学习平台会提供评论、论坛等社区功能，方便学习者、教师和平台管理方之间的交流互动。在线交互过程中会产生大量的交互文本等非结构化数据，对评论文本进行情感分析可以有效获取学习者的情感态度、学习体验等，从而理解学习者的需求变化和“学习痛点”，为个性化服务提供参考。

现有的在线课程评论情感分析主要有情感词典、机器学习和深度学习三类方法。基于情感词典的方法主要是依据人类先验知识构建情感词典，将课程评论分词后与情感词典比对计算实现对课程评论的情感分析。该类方法受情感词典质量的影响较大，不适用于在线课程海量评论信息情感分析的需要。基于机器学习的方法是将从评论文本中抽取的特征值传入相应模型中进行情感分析，此类方法的性能对特征工程依赖较大。随着在线教育平台中课程评论数据规模的快速增长，特征工程需要花费的时间、人力急剧增加使得该类方法缺点日益凸显。

近年来，对评论文本进行特征自动抽取的深度学习情感分析模型(如CNN、RNN)在文本情感分类研究中得到了广泛应用。然而，此类模型中文本嵌入层依赖的one-hot编码或词向量编码并不适用属性众多、语义丰富、句型复杂的课程评论文本。最近，Google提出的BERT模型使用了一种新颖的“MASK”词向量训练方法，不仅可以根据词语在上下文中的含义对其进行编码而且可以有效捕捉评论文本中分句间的关系，能较好地适应海量课程评论数据中情感分析的需要，但是由于课程评论语料规模相比于BERT预训练模型采用的维基百科语料规模差距甚大，进行课程评论情感分类下游任务时会发生严重的过拟合问题。

发明内容

为克服上述背景技术中存在的问题，本发明提供了一种基于激活-池化增强BERT模型的在线课程评论情感分析方法，该方法采用深度学习方法从课程评论文本中自动抽取特征，解决了传统课程评论情感分析模型中词典构建和特征工程需要大量人工参与的问题。

本发明的技术方案是：

一种基于激活-池化增强BERT模型的在线课程评论情感分析方法，该方法包括：

步骤1、构建在线课程评论情感分析模型，所述在线课程评论情感分析模型包括输入表征层、语义提取层、激活函数层、池化层和情感分类层；

步骤2、获取原始课程评论文本；

步骤3、输入表征层对原始课程评论文本进行预处理，得到课程评论文本，并对课程评论文本进行编码，输出评论编码；

步骤4、语义提取层对输出评论编码进行语义提取，输出语义提取结果，并将语义提取结果输入到激活函数层进行非线性映射；

步骤5、池化层进一步缩减激活函数层的网络规模、提取关键特征，输出结果到情感分类层；

步骤6、通过情感分类层对课程评论情感极性进行分类表达。

优选的，所述输入表征层对原始课程评论文本进行预处理以及对课程评论文本进行编码的具体流程如下：

步骤31、对原始课程评论文本进行预处理，包括：

去除重复灌水评论以及与情感表达无关的链接、代码型数据；

对课程评论中含糊不清的情感字符、数字和英文词汇以及使用语义相同的中文词汇进行替换；

步骤32、使用WordPiece嵌入模型，按照双字节编码方式对单个汉字进行编码；

步骤33、按照原始课程评论文本语句结构的不同，将课程评论文本分为短句评论文本和长句评论文本。

优选的，所述语义提取层是以Transformer编码器为基础单元组成的多层双向解码器，其中，Transformer编码器包括；

字向量与位置编码，所述位置编码用于提供课程评论文本中每个字的位置信息给Transformer编码器，Transformer编码器用于识别字在原始课程评论文本中的依赖关系和时序特性，计算公式如下：

式中：E(·)为字对应的嵌入表示，P为由式(2)和(3)求得的位置编码，batch-size为输入课程评论文本数，seq.len为每条课程评论文本的长度，embed.dim为课程评论文本中每个字的嵌入维度，pos为课程评论文本中字的位置，i为字对应的向量维度；

注意力机制，用于保持每条评论文本中的每个字向量都含有该条课程评论文本中所有字向量的信息，计算公式如下：

Q＝Linear(X)＝XW_Q

K＝Linear(X)＝XW_K

V＝Linear(X)＝XW_V (4)

式中：Linear(·)为线性映射，X为课程评论文本向量，W_Q,W_K,W_V为权重；

式中：

将注意力矩阵变成标准正态分布，softmax(·)为归一化；

残差连接与层标准化，所述层标准化通过归一化神经网络中的隐藏层为标准正态分布加快模型训练速度，加速模型收敛；

所述残差连接用于解决梯度消失和网络退化问题；

计算公式如下：

式中：μ_i为矩阵行均值，

为矩阵行方差，⊙为矩阵中元素相乘，α和β为模型训练参数，ε为非零的正数；

X＝X_embedding+attention(Q,K,V)

LayerNorm(X+subLayer(X)) (9)

式中：LayerNorm(·)为子层的输出，subLayer(·)为子层本身实现的函数；

前馈，由两层线性映射组成，并用ReLU激活函数激活，输出原始课程评论文本经过输入编码层和语义提取层处理完成后的隐藏序列，计算公式如下：

x_hidden＝ReLU(Linear(Linear(X))) (10)。

优选的，所述步骤5中所述池化层利用最大-平均池化沿着原始课程评论文本长度和嵌入维度分别求均值和最大值，然后将均值和最大值级联为一条向量，并进行隐藏序列到向量的转换，具体公式如下：

式中：max_pooled、mean_pooled、max_mean_pooled分别表示最大池化、平均池化、最大-平均池化，X_hidden为隐藏序列，seq_{_len}为课程评论文本长度，embedding_dim为嵌入维度，batch_size为课程评论文本数目。

优选的，所述步骤6包括

构建情感分类器；

通过情感分类器获取课程评论文本的语义表示对于情感标签的得分向量，并输出最终情感标签；

其中，利用Sigmoid函数对池化层的输出进行相应计算，并进行课程评论文本情感分类，具体公式如下：

采用交叉熵损失函数衡量情感标签的真实概率分布y和预测的概率分布

之间的差距，

式中：R为评论文本训练数据集，r为训练数据集中的一条课程评论文本，

样本预测值，y样本真实值。

与现有技术相比，本发明的有益效果是：RP-BERT模型通过在原始BERT模型中增加激活函数层和池化层改进了直接应用BERT模型做课程评论情感分析任务时出现过拟合的问题，同时增加了情感分类层对课程评论情感进行分析。相对于传统课程评论情感分析模型，RP-BERT模型具有精确度高，训练容易的优点。融合RP-BERT课程评论情感分析模型和词云图可以对课程评论反馈的关键信息进行分析挖掘和可视化展示，为课程选择、内容优化和平台服务提升等提供有益参考。后续将研究融合课程评论文本和评分的在线课程评论情感分析模型，使得情感分析更加准确实用。

附图说明

图1为本发明的方法流程图；

图2为在线课程评论情绪分析模型框架；

图3为输入表征层；

图4为Transformer编码器结构；

图5为最大-平均池化层；

图6为课程评论积极反馈关键词云图；

图7为课程评论消极反馈关键词云图；

图8为《高等数学(同济版)》课程评论词云图。

具体实施方式

下面结合本发明中的附图，对本发明实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1和图2所示，本发明提供的一种基于激活-池化增强BERT模型的在线课程评论情感分析方法，该方法包括：

步骤2、获取原始课程评论文本；

步骤6、通过情感分类层对课程评论情感极性进行分类表达。

对在线课程评论情感分析模型(以下称为RP-BERT模型)进行说明，具体如下:

1输入表征层

RP-BERT模型采用与上下文有关的句向量级编码的BERT预训练模型，能够准确量化课程评论短文本内同一词在不同语境中的含义，同时能够对课程长句评论文本中的分句间关系进行编码，输入表征层对原始课程评论文本进行预处理以及对课程评论文本进行编码的具体流程如下：

(1)对原始课程评论文本进行预处理，包括：

去除重复灌水评论以及与情感表达无关的链接、代码等型数据；

对课程评论中含糊不清的情感字符、数字和英文词汇以及使用语义相同的中文词汇进行替换。

(2)使用WordPiece嵌入模型，按照双字节编码方式对单个汉字进行编码，使其更加适用词汇数量众多、含义丰富、结构复杂在线课程评论文本。相比于传统词向量编码方式大大缩减了评论文本的编码规模和复杂度。

(3)按照原始课程评论文本语句结构的不同，将原始课程评论文本分为短句评论文本和长句评论文本。针对短句评论文本采用遮蔽LM方法构建语言模型，通过随机遮盖或者替换评论文本中15％的任意汉字，让模型通过理解上下文的内容去预测遮盖或者替换的部分，替换方式包括：80％几率替换为[MASK]，如老师讲的非常好—>老师讲的非常[MASK]；10％的几率被替换为成另外一个令牌。如，老师讲的非常好—>老师讲的非常美；10％的几率保持原本内容不变，如，老师讲的非常好—>老师讲的非常好。针对长句评论文本，在评论文本语义逻辑处添加一些判断上下句起止位置的特殊令牌[SEP]，如图3输入所示。

按照1:1的比例将上下文相关和上下文无关的评论文本作为输入表征层输入，以便模型理解课程评论文本句子间关系。

例如：

输入＝[CLS]老师[MASK]讲的好[SEP]我[MASK]爱听[SEP]

标签＝有下文关系

输入＝[CLS]老师[MASK]讲的好[SEP]吃[MASK]晚饭[SEP]

标签＝无下文关系

如图3所示，输入表征层除了输入和令牌嵌入外，还要随机初始化一个可训练的分段嵌入。通过分段嵌入信息使得模型能够判断上下句的起止位置以分开上下句，如表1所示。输入表征层最终输出为令牌嵌入、分段嵌入、位置嵌入的总和。

表1分段嵌入示例

令牌嵌入	分段嵌入
		[CLS]	0
老	0
		师	0
讲	0
		的	0
好	0
		[SEP]	0
我	1
		爱	1
听	1
		[SEP]	1

2语义提取层

如图4所示，语义提取层是以Transformer编码器为基础单元组成的多层双向解码器。Transformer编码器包括字向量与位置编码、注意力机制、残差连接与层标准化和前馈四部分。

位置编码

位置编码用于提供课程评论文本中每个字的位置信息给Transformer编码器，Transformer编码器用于识别字在原始课程评论文本中的依赖关系和时序特性，计算公式如下：

注意力机制

注意力机制用于保持每条评论文本中的每个字向量都含有该条课程评论文本中所有字向量的信息，计算公式如(4)和(5)所示：

Q＝Linear(X)＝XW_Q

K＝Linear(X)＝XW_K

V＝Linear(X)＝XW_V (4)

式中：

将注意力矩阵变成标准正态分布，softmax(·)为归一化，使得原始课程评论文本中的每个字与其他所有字的注意力权重和为1。

残差连接与层标准化

如式(8)所示，层标准化通过归一化神经网络中的隐藏层为标准正态分布加快模型训练速度，加速模型收敛；

残差连接用于解决梯度消失和网络退化问题，如式(9)所示。

式中：μ_i为矩阵行均值，

为矩阵行方差，⊙为矩阵中元素相乘，α和β为模型训练参数，ε为非零的正数，其为了防止分母为0；

X＝X_embedding+attention(Q,K,V)

LayerNorm(X+subLayer(X)) (9)

前馈

前馈由两层线性映射组成，并用ReLU激活函数激活，输出原始课程评论文本经过输入编码层和语义提取层处理完成后的隐藏序列，计算公式如下：

x_hidden＝ReLU(Linear(Linear(X))) (10)

其输出的隐藏层即为课程评论文本的数学表达，其中隐藏层的任一隐藏单元经过Transformer编码器中的注意力机制之后，均含有评论文本中的所有成分的信息。

3激活函数层与池化层

在原始BERT模型第一个令牌[CLS]的最终隐藏状态后新增激活函数层和池化层，以逐步解决课程评论情感分析任务中存在的过拟合问题。激活函数层选用Leaky Relu函数进行非线性映射，增强原始BERT模型评论文本复杂数据数据类型的学习能力，增加模型收敛速度。然而，由于BERT模型中预处理模型数据规模极大，模型微调采用的含情感标注信息的课程评论数据与之相比相差甚大，增加激活函数层后仍然存在过拟合问题。因此，在激活函数层后继续增加池化层，缩减网络规模、融合输出特征、增强特征鲁棒性，进一步解决模型过拟合问题。

池化层采用如图5所述的最大-平均池方法。最大-平均池化沿着原始课程评论文本长度和嵌入维度分别求均值和最大值，然后将均值和最大值级联为一条向量，并进行隐藏序列到向量的转换，具体公式如下：

式中：max_pooled、mean_pooled、max_mean_pooled分别表示最大池化、平均池化、最大-平均池化，X_hidden为隐藏序列，seq_len为课程评论文本长度，embedding_dim为嵌入维度，batch_size为课程评论文本数目。

4情感分类层与模型训练

首先，构建情感分类器；然后通过情感分类器获取课程评论文本的语义表示X_hidden对于情感标签的得分向量，并输出最终情感标签。

之间的差距，

样本预测值，y样本真实值。

RP-BERT模型利用输入表征层进行课程评论文本特性编码，构建一个含有长句和短句评论的特征向量；然后，对特征向量进行学习，在每个Transformer编码器单元中进行评论语义信息捕获；并将抽取的特征输入到激活函数与池化层中进行语义信息的进一步选择；最终，输入情感分类层将课程评论分为积极课程评论和消极课程评论两类。

实验与结果分析如下：

1数据集与评估指标

(1)数据集：在线评论情感分析任务中，采用从中国大学MOOC爬取的课程评论正负情感数据各5000条，数据字段如表2所示。对RP-BERT情感分析模型进行训练和测试，训练集与测试集按照7:3划分。

表2中国MOOC课程评论数据集字段说明

(2)评估指标：根据数据样本真实情感类别与预测情感类别组合划分为真正例(TP)、假正例(FP)、真负例(TN)、假负例(FN)四类，并依此计算情感分类正确的样本数与总样本数之比的准确率(Accuracy)和表示正例样本排在负例之前概率的AUC值(Area UnderCurve)，公式为：

2实验环境与参数设置

实验所使用的深度学习模型框架为PyTorch 1.0.0，利用中文维基百科语料库训练原始BERT的预训练模型。Google提供Base和Large两种原始BERT预训练模型，两者参数不同但网络结构完全一致。实验采用Base参数设置：transformer模块数12，隐藏层尺寸768维，12个自注意力头部，总共参数大小为110M。最大序列长度300，Batch为32，学习率为5e-5。

3结果分析

RP-BERT模型验证：将RP-BERT与SVM(支持向量机)、条件随机场以及原始BERT进行比较。将四种模型分别在同一训练和测试数据集上各自运行10次，求得准确率和AUC值的平均值作为模型最终结果，如表3所示。

表3四种在线课程评论情感分析模型准确率和AUC值

由表3可看出，BERT模型和RP-BERT模型的准确率和AUC值在训练集和测试集中均高于其余两个模型。一个原因是这两种模型中的预训练模型为无需人工参与的大规模语料的无监督训练，它们的注意力机制能够准确联系上下文语义挖掘课程评论文本中准确句意。另一个原因是RP-BERT模型针对课程评论情感分析任务只需少量人工情感标注完成的课程评论数据对模型微调即可，而SVM和条件随机场然过度依赖课程评论文本情感标注质量和数量：实验采集标注的各5000条正负情感课程评论对这两个模型而言较小。此外，与原始BERT模型相比可知RP-BERT模型未发生欠拟合或过拟合问题，验证了RP-BERT模型对原始BERT模型过拟合问题改进的有效性。

基于情感分析的课程评论词云图：通过课程评论词云图对评论语义的可视化，可以直观地了解学生对课程或者老师的看法，为学习者选课、教师改进教学等提供参考。图6和7分别展示了课程评论情感积极和消极的词云示例。

图8所示为《高等数学(同济版)》课程评论文本生成的词云图。从中可以看出，高等数学(同济版)课程评论反馈整体比较好，课程内容丰富，讲解思路清晰、通俗易懂是影响评论积极的关键因素，用户普遍感觉课程讲解细致清楚，自己学完课程后有所收获。

从图6-8中可以看出，学生更加喜欢条理清晰，通俗易懂，生动形象的课程，非常反感照着书本或者PPT课件照本宣科的课程。此外，实验结果分析还发现学生对课程字幕和PTT课件比较关注，老师的方言或者口音问题成为课程辍学率上升的主要因素之一。因此在线课程在发布时候不仅要考虑课程本身内容外，课程平台还应该为在线课程提供对应字幕和课程配套PPT方便学生学习，开课教师应该提高普通话水平避免出现方言和地方口音的问题，做到课程内容丰富、配套资源齐全、老师讲解清晰明了，降低在线课程辍学率。

以上公开的仅为本发明的较佳的具体实施例，但是，本发明实施例并非局限于此，任何本领域技术人员能思之的变化都应落入本发明的保护范围。