CN112528668A

CN112528668A - 深层情感语义识别方法、系统、介质、计算机设备及终端

Info

Publication number: CN112528668A
Application number: CN202011363004.8A
Authority: CN
Inventors: 游兰; 彭庆喜
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-19

Abstract

本发明属于情感语义识别技术领域，公开了一种深层情感语义识别方法、系统、介质、计算机设备及终端，包括采集样本数据，构建训练语料库；对训练语料库中的样本数据进行分析，采用不同的参数通过Bagging并行训练得到多个不同BERT预训练模型；采用得到的多个不同BERT预训练模型分别获取文本的双向语义词向量表示；通过双向GRU模型提取文本上下文的全局语义特征；对提取的全局语义特征进行融合，将多维度特征转换为一维的特征向量；基于得到的一维特征向量利用softmax函数识别文本的情感类别。本发明能准确的理解评论文本中的情感语义。

Description

深层情感语义识别方法、系统、介质、计算机设备及终端

技术领域

本发明属于情感语义识别技术领域，尤其涉及一种深层情感语义识别方法、系统、介质、计算机设备及终端，具体涉及一种基于BERT-BiGRU多模的深层情感语义识别方法。

背景技术

目前，越来越多的民众通过社交媒体了解社会热点新闻，并以评论的形式表达态度和意见，对评论进行情感倾向性分析，有助于舆情管控。然而现有情感分析模型存在分类效果不理想、泛化能力不足，传统模型也会带来的一词多义和特征抽取能力较弱问题。

由机器学习算法的误差分析可知，通过训练得到的模型要保持偏差和方差均衡，是希望训练后的模型既能够保持其稳定性，也能充分拟合数据。但一般情况下，难以达到平衡，方差和偏差本身也具有冲突性。当模型训练数据的扰动性不足以使得学习器发生明显改变，此时偏差占主要地位，导致训练集和测试集表现均差产生欠拟合现象；而随着训练次数的增多，模型的拟合能力越来越强，方差慢慢占据主导型，轻微的数据扰动都将使模型变化，此时过度学习训练集的特征，导致模型在训练集上表现十分优异，而在测试集上效果不佳，出现过拟合现象。

通过上述分析，现有技术存在的问题及缺陷为：传统模型存在一词多义和特征抽取能力较弱问题。某些特殊词语在不同场景下，表现出不同的情感，却在词向量空间代表同样的特征，容易造成词向量歧义，导致情感分析出现失误。除此之外，大多数模型均为单一模型，由于其具有随机性，只能在某一方面表现较好，存在泛化能力不足的问题。总而言之，现有技术在社交网络信息处理上，情感识别方法识别不准确，可扩展性以及实用性不高。

解决以上问题及缺陷的难度为：

解决以上问题及缺陷的意义为：

针对传统语言模型的一词多义和特征抽取能力较弱的问题，提出BERT-BiGRU模型获得更深层次的文本语义特征信息；考虑到单模型容易出现过拟合问题，采用交叉验证的方式训练数据集，然后使用集成学习结合多个BERT预训练模型组成的基分类器，来提高分类的泛化能力和准确率。在生活工作中，能够使用本发明针对数据信息来挖掘情感语义，随着越来越多的人喜欢使用表情来表达语义信息，还可以加以利用图片或者视频信息来挖掘情感语义信息。

发明内容

针对现有技术存在的问题，本发明提供了一种深层情感语义识别方法、系统、介质、计算机设备及终端。

本发明是这样实现的，一种基于BERT-BiGRU多模的深层情感语义识别方法，所述基于BERT-BiGRU多模的深层情感语义识别方法包括：

步骤一，采集样本数据，构建训练语料库；对训练语料库中的样本数据进行分析，采用不同的参数如：参数：学习率、训练批次、文本切分长度等。通过Bagging并行训练得到多个不同BERT预训练模型；

步骤二，采用得到的多个不同BERT预训练模型分别获取文本的双向语义词向量表示；

步骤三，经过BERT模型得到的语义表示作为双向GRU模型的输入，通过双向GRU模型基于获取的双向语义词向量表示提取文本上下文的全局语义特征；

步骤四，对双向GRU模型输出的全局语义特征进行特征融合，将多维度特征转换为一维的特征向量；

步骤五，基于得到的一维特征向量利用softmax函数识别文本的情感类别。

步骤六，采用不同的中文BERT预训练模型，它们由海量数据和不断改进超参数训练而成，同时增加了训练步数，再分别送入BiLSTM、BiGRU网络得到不同的情感识别结果。来构建多个基分类器，将其组合成性能更优的强分类器。

步骤七，得到多个具有差异性基分类器后，通过结合策略对基分类器的结果进行融合。

进一步，步骤一中，所述参数包括但不限于：学习率、训练批次、文本切分长度。

进一步，步骤二中，所述采用得到的多个不同BERT预训练模型分别获取文本的双向语义词向量表示包括：

确定文本长度，并判断文本长度是否大于n，如果文本长度大于n，则只输出前n长度的文本语义表示；如果文本长度小于n，则利用BERT模型得到的小于n的输出文本语义表示进行填充，填充多个m维零向量直至输出序列长度为n。

进一步，步骤三中，所述通过双向GRU模型基于获取的双向语义词向量表示提取文本上下文的全局语义特征包括：

(1)将获取的双向语义词向量表示通过正向

获取到所有过去时间序列中的完整上下文信息，再通过反向

获取所有未来时间序列的完整上下文，计算公式如下：

其中，w表示连接两层的权重，b表示偏置向量，f表示激活函数，

和

分别表示正向GRU和负向GRU输出；

(2)双向GRU在正负向的隐藏层上对输入表示d_n进行计算，得到d_n隐藏状态h_t，将正负GRU采用拼接策略：

得到这个双向GRU的隐藏状态，计算公式如下：

H＝(h₁,h₂,...,h_d)。

本发明的另一目的在于提供一种实施所述基于BERT-BiGRU多模的深层情感语义识别方法的基于BERT-BiGRU多模的深层情感语义识别系统，所述基于BERT-BiGRU多模的深层情感语义识别系统包括：

语义输出模块，用于对训练语料库进行分析，输出文本语义表示；

向量表示提取模块，用于利用多个不同的中文BERT预训练模型获取文本的双向语义词向量表示；

特征提取模块，用于基于获取的双向语义词向量表示利用双向GRU模型提取上下文的全局语义特征；

池化层，用于整合全局信息，将多维度特征转换为一维的特征向量；

分类识别层，用于基于得到的一维特征向量利用softmax函数识别文本的情感类别。

进一步，所述双向GRU模型包括：

所述双向GRU模型，用于利用整个文本序列的信息对每个词进行处理；所述文本序列的信息包括各个词之间的相互关系信息；

每个GRU单元均包含更新门、重置门和输出门三种门结构；用于保持和更新状态信息并进行传递；

更新门，用于确定丢弃的信息以及新添加的信息；

重置门，用于确定丢弃的先前信息的数量；

输出门，用于决定输出单元状态的部分。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

采集样本数据，构建训练语料库；对训练语料库中的样本数据进行分析，采用不同的参数通过Bagging并行训练得到多个不同BERT预训练模型；

采用得到的多个不同BERT预训练模型分别获取文本的双向语义词向量表示；

通过双向GRU模型基于获取的双向语义词向量表示提取文本上下文的全局语义特征；

对提取的全局语义特征进行融合，将多维度特征转换为一维的特征向量；

基于得到的一维特征向量利用softmax函数识别文本的情感类别

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤

基于得到的一维特征向量利用softmax函数识别文本的情感类别

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明采用BERT预训练模型代替以往模型的词嵌入层，获得到评论文本丰富的双向语义词向量表示，再通过双向GRU提取上下文的全局语义特征，能准确的理解评论文本中的情感语义。本发明应用集成学习的方法将多个优异且具有差异性的情感分类器进行融合，进一步降低误差，提高模型的泛化能力。本发明解决了传统语言模型无法解决不同语境下多义词和深层情感语义抽取能力较弱的问题。然后为了提高模型的泛化能力，在综合分析模型的方差和偏差的基础上，提出了将集成学习的思想应用到情感识别上，观测不同模型在不同参数和数据集上的表现，使得它们具有互相纠错的能力，从而获得最优的集成结果。通过在三分类和二分类语料上分别设计实验，展示出本发明和思想在多个评价指标上优于许多已有的情感识别方法。因此，本发明是可行且高效的。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于BERT-BiGRU多模的深层情感语义识别方法流程图。

图2是本发明实施例提供的基于BERT-BiGRU多模的深层情感语义识别方法原理图。

图3是本发明实施例提供的基于BERT-BiGRU多模的深层情感语义识别系统结构示意图；

图中：1、语义输出模块；2、向量表示提取模块；3、特征提取模块；4、池化层；5、分类识别层。

图4是本发明实施例提供的基于BERT-BiGRU多模的深层情感语义识别系统架构图。

图5是本发明实施例提供的基于Person的模型预测结果相关度分析图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于BERT-BiGRU多模的深层情感语义识别方法，下面结合附图对本发明作详细的描述。

如图1-图2所示，本发明实施例提供的基于BERT-BiGRU多模的深层情感语义识别方法包括以下步骤：

S101，采集样本数据，构建训练语料库；对训练语料库中的样本数据进行分析，采用不同的参数通过Bagging并行训练得到多个不同BERT预训练模型；

S102，采用得到的多个不同BERT预训练模型分别获取文本的双向语义词向量表示；

S103，通过双向GRU模型基于获取的双向语义词向量表示提取文本上下文的全局语义特征；

S104，对提取的全局语义特征进行融合，将多维度特征转换为一维的特征向量；

S105，基于得到的一维特征向量利用softmax函数识别文本的情感类别。

步骤S101中，本发明实施例提供的参数包括但不限于：学习率、训练批次、文本切分长度。

步骤S102中，本发明实施例提供的采用得到的多个不同BERT预训练模型分别获取文本的双向语义词向量表示包括：

步骤S103中，本发明实施例提供的通过双向GRU模型基于获取的双向语义词向量表示提取文本上下文的全局语义特征包括：

(1)将获取的双向语义词向量表示通过正向

获取到所有过去时间序列中的完整上下文信息，再通过反向

获取所有未来时间序列的完整上下文，计算公式如下：

和

分别表示正向GRU和负向GRU输出；

得到这个双向GRU的隐藏状态，计算公式如下：

H＝(h₁,h₂,...,h_d)。

如图3-图4所示，本发明实施例提供的基于BERT-BiGRU多模的深层情感语义识别系统包括：

语义输出模块1，用于对训练语料库进行分析，输出文本语义表示；

向量表示提取模块2，用于利用多个不同的中文BERT预训练模型获取文本的双向语义词向量表示；

特征提取模块3，用于基于获取的双向语义词向量表示利用双向GRU模型提取上下文的全局语义特征；

池化层4，用于整合全局信息，将多维度特征转换为一维的特征向量；

分类识别层5，用于基于得到的一维特征向量利用softmax函数识别文本的情感类别。

本发明实施例提供的双向GRU模型包括：

更新门，用于确定丢弃的信息以及新添加的信息；

重置门，用于确定丢弃的先前信息的数量；

输出门，用于决定输出单元状态的部分。

下面结合具体实施例对本发明的技术效果作进一步描述。

实施例1：

本发明的第一个目的是]通过BERT系列模型获取文本的上下文双向语义特征表示，再将语义特征送入到双向GRU中训练得到最佳情感分类器。使模型较能准确的理解评论文本中的情感语义。

实现本发明第一个目的的技术方案是：采用BERT预训练模型代替以往模型的词嵌入层，获得到评论文本丰富的双向语义词向量表示，再通过双向GRU提取上下文的全局语义特征，使模型较能准确的理解评论文本中的情感语义；

首先：为了更准确得到文本间的内在联系，本发明将经过BERT模型得到的语义表示作为双向GRU模型的输入。在双向GRU中，每个GRU单元包含三种门结构，更新门、重置门和输出门，分别表示为r_t，z_t，

以此来保持和更新状态信息并进行传递。

更新门决定要丢弃的信息和要新添加的信息。

重置门的作用是决定要丢弃多少先前信息。

输出门决定输出单元状态的哪些部分。

双向GRU模型用来处理时序性问题，能够充分利用整个文本序列的信息，包括各个词之间的相互关系信息，并将该种信息用于对每个词的处理。

本发明的第二个目的是]应用集成学习的方法将多个优异且具有差异性的情感分类器进行融合，进一步降低误差，提高模型的泛化能力。

实现本发明第二个目的的技术方案是：为了使模型间具有差异性，本发明首先采用不同的中文BERT预训练模型，它们由海量数据和不断改进超参数训练而成，

同时增加了训练步数，再分别送入BiLSTM、BiGRU网络得到不同的情感识别结果。

除此之外，本发明对样本进行分析后，分别采用不同的参数来训练，如学习率、训练批次、文本切分长度等等。通过Bagging这种并行训练出多个基分类器的方式，能够有效降低方差，达到优而不同准则。

实施例2：

见图1，本实施例包括1、Word in Sentence语义输出层2、BERT语言训练模型3、Bi-GRULayer双向GRU模型4、Globel Average PooLing池化层5、Softmax Layer分类识别层

输入文本的语义表示(word in sebtence){d₁,d₂,...,d_n}，其中n表示模型的输入最大长度，如果文本长度小于n，则将通过BERT模型得到的小于n的输出文本语义表示进行填充，填充多个m维零向量直至输出序列长度为n；如果文本长度大于n，则只输出前n长度的文本语义表示。

将BERT的输出通过正向

来获取到所有过去时间序列中的完整上下文信息，再通过反向

获取所有未来时间序列的完整上下文，计算公式如下：

其中，w为连接两层的权重，b为偏置向量，f为激活函数，

和

分别为正向GRU和负向GRU输出。

双向GRU在正负向的隐藏层上对输入表示d_n进行计算，得到d_n隐藏状态h_t，本发明将正负GRU采用拼接策略：

得到这个双向GRU的隐藏状态，计算公式如下：

H＝(h₁,h₂,...,h_d)

最后，使用全局平均池化来代替全连接层，全局平均池化层没有参数，能够避免过拟合产生，同时还可整合全局信息，则将输出的多维度特征，经过全局平均池化得到一维的特征向量，送入softmax函数进行得到评论文本的情感类别。

实施例3：

本发明采用不同的中文BERT预训练模型，它们由海量数据和不断改进超参数训练而成，如

BERT-base模型是使用中文维基百科的数据，

BERT-wwm-ext使用的是中文维基百科数据和通用(百科、新闻、问答)数据，同时增加了训练步数，再分别送入BiLSTM、BiGRU网络得到不同的情感识别结果。除此之外，本发明对样本train_set进行分析后，分别采用不同的参数来训练，如学习率、训练批次、文本切分长度等等。训练出多个基分类器。

在得到多个具有差异性基分类器后，本发明通过结合投票策略对基分类器的结果进行融合，使通过集成学习后的模型预测效果达到最好。

首先将多个BERT、BERT-BiLSTM和BERT-BiGRU模型作为基分类器，统计所有分类器的输出类别，在生成情感识别的类别概率分布基础上采用多数投票策略进行决策。

给与所有个体分类器的分类结果同样的权重，各个基分类器均作为一票使用多数服从少数原则，最后得票数最高的类别将作为该条评论的最终预测结果。投票公式如下所示：

其中，n、T分别表示情感分类的类别数和基分类器的个数，C_i,j表示基分类器i在测试集x的预测类别j，取类别数量最多作为该预测样本x的最后类别结果表示为test_set。

下面结合具体对比的技术效果或者实验效果对本发明的技术方案作进一步米描述。

为了验证本发明所提集成思想在情感识别领域的通用性，实验二在BERT预训练模型接入不同的网络，利用其训练语料和训练步数的不同，使用不同的训练批次和训练方式来达到差异性的效果，最后使用结合策略达到集成效果，实验会在二分类和三分类的数据集上做对比。模型说明如下：

(1)BERT.使用BERT-base预训练模型提取文本特征，再送入BiGRU筛选重要信息，训练批次设为32，经过3轮训练得到最终结果。

(2)BERT.方法同上，预训练模型使用BERT-wwm-ext。

(3)BERT-LSTM.使用BERT-base预训练模型得到每条文本的特征，经过双向GRU的输出，进行5折交叉验证，训练批次设为32。

(4)BERT-LSTM.方法同(3)，使用5折交叉验证，批次设为64

(5)BERT-BiGRU.使用BERT-wwm-ext预训练模型得到每条文本的特征，经过双向GRU的输出，进行5折交叉验证，训练批次设为32。

(6)BERT-BiGRU.方法同(3)，预训练模型为BERT-wwm-ext。

表基分类器在COV19上的实验结果

本发明设计实验将各个基分类器在COV19数据集上单独预测的分类效果进行比较分析。针对不同的基分类器分别使用不同的超参数集训练，观察该模型在测试集上的分类效果，从而来选择最优分类器。

上表展示了各个基分类器的预测结果。由表可见同样的网络结构，使用不同的超参数集进行训练，所表现的分类结果差别很大，比如BERT模型之间的差距达到了1.0％，而BERT-BiLSTM和BERT-BiGRU使用不同的超参数，差异性在0.2％～0.4％之间，对比于传统的数据集单次划分，本发明加入的五折交叉验证，多次划分和训练数据集，使数据集间互不交叉，大幅度降低了随机划分数据集带来的偶然性，增强了模型的稳定性。同时发现BERT-BiLSTM、BERT-BiGRU在批次48和最大文本截取长度140上分别达到了该同类模型的最优。

集成学习的基分类器除了选择性能优异的模型外，还要尽集成具有差异性的模型。为了更直观的得到各个分类器之间的差异程度，借助协方差来度量模型间的线性相关程度，对模型的预测结果进行归一化处理，得到皮尔森相关系数作为相关度指标，展示以上8种模型的相关度热力图分析，如图5所示。

由上图可知，各个模型的皮尔森相关系数均在0.825以上，是因为他们学习特征的能力较强。图中颜色越浅，代表模型之间的相关性越弱，反之亦然。可以得知，BERT-wwm-ext和不同参数的BERT-base与其他模型的相关性较低，原因是这三种模型网络结构一致，都是以BERT为主要结构，与其余模型差异性较大。后5种模型是在BERT的基础上接入其他网络，不同类型的基分类器内部的分类原理是不同的，它们提取特征的能力也各不相同。以上做法是通过改变模型的超参数，从而生成有差异性同质基分类器。

在未来的研究工作中，可以对本发明进行创新改进，能够使用种类更加丰富的数据信息来挖掘情感语义，比如越来越多的人喜欢使用表情来表达语义信息，还可以加以利用图片或者视频信息来挖掘情感语义信息。此外还将研究更好的模型融合策略进一步提升多模集成的效果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。