CN114742047A

CN114742047A - 基于最大概率填充和多头注意力机制的文本情感识别方法

Info

Publication number: CN114742047A
Application number: CN202210447939.7A
Authority: CN
Inventors: 戴梦瑶; 朱李玥; 刘文强; 柏雪嫣; 邢莉娟
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-07-12

Abstract

本发明公开了一种基于LDA最大概率填充和多头注意力机制的文本情感识别方法，该方法包括以下步骤：(1)获取文本数据集，进行文本预处理；(2)通过Word2Vec模型获取字典和词向量矩阵；(3)使用LDA最大概率方法填充词向量矩阵；(4)由Text‑CNN网络卷积操作挖掘文本的局部特征，经过多头注意力机制进行权重重分配，最后由Softmax得到情感极性的分类概率。本发明能较好地适应长度灵活的网络情感文本的分类任务，既能充分解决了短文本数据稀疏和填充的问题，也能应对长文本信息提取的困难。

Description

基于最大概率填充和多头注意力机制的文本情感识别方法

技术领域

本发明涉及一种基于LDA最大概率填充和多头注意力机制的文本情感分类方法，属于文本数据识别技术领域。

背景技术

随着互联网技术的发展和大数据时代的到来，人们更加倾向于在网络平台上表达自己的真实观点，即时聊天、时事评论、产品评论等情感信息的数量快速增长。对这些文本的情感分类具有很高的应用价值，能够为决策判断、舆论引导、推荐系统等方向提供支持。同时这些网络平台文本会呈现长度灵活、语法结构简单等的特点，大大增加了判别的难度。因此获取短文本特征信息，提高对情感倾向判别的准确度，是NLP领域广泛被关注的问题之一。

相关技术中文本情感分类方法主要有两种，一种是基于机器学习方法来提取特征，完成情感分类任务。其中有朴素贝叶斯、支持向量机(SVM)、隐含狄克雷分布(LDA)等分类器来完成分类。但这些分类器在提取特征时往往会丢失文本的上下文语境的关联信息，导致部分信息缺失。并且分类精确度往往依赖于大规模高质量的标注训练集，这些数据需要较高的人工成本。

第二种是基于深度学习方法来自动抽取特征。神经网络可以更出色的完成分类任务，如长短时记忆网络(LSTM)能够充分考虑输入文本的序列关系，如卷积神经网络(CNN)能够自动地提取更深层的特征。近年来技术人员提出了对文本特征学习性能更好的注意力机制，也逐渐被广泛应用于文本分类中。但由于输入文本长短不一，导致批操作时需对矩阵进行填充使长度一致，填零法、循环法等主流的填充方法会造成数据稀疏和语义混乱的问题。

发明内容

发明目的：针对现有技术存在的问题与不足，本发明提供一种基于LDA最大概率填充和多头注意力机制的文本情感分类方法，是一种能够适应灵活的文本长度的文本情感识别方法。该方法既能充分解决短文本数据稀疏和填充的问题，也能应对长距离信息提取的困难，并保证识别的速度和准确率。

技术方案：一种基于LDA最大概率填充和多头注意力机制的文本情感分类方法，获取数据集，进行文本预处理；通过Word2Vec模型获取字典和词向量矩阵；使用LDA最大概率方法填充词向量矩阵；由Text-CNN网络卷积操作挖掘文本的局部特征，经过多头注意力机制进行权重重分配，最后由Softmax函数得到情感极性的分类概率。包括以下步骤：

步骤1：获取文本数据集，进行文本预处理；

步骤2：按照格式将数据集输入word2vec模型训练词向量，获得词-词向量映射字典和数据集对应的词向量矩阵A；

步骤3：按照格式将数据集输入LDA主题模型，选取最优的主题数参数值K，得到文本-主题-词的概率分布；

步骤4：以数据集中最长的文本长度为基准，使用最大概率主题下的LDA填充方式来填充词向量矩阵A，得到长短一致的词向量矩阵B；

步骤5：输入词向量矩阵B到Text-CNN模型，提取局部上下文特征；经过卷积和池化操作，获取全局特征向量T；

步骤6：使用Multi-Head Attention模型，以全局特征向量T作为输入，引入多头注意力机制，获取多个子空间拼接而成的特征向量G；

步骤7：使用全连接网络和SoftMax分类器，所述SoftMax分类器为用于识别文本的正负向情感的模型，以特征向量G作为输入，进行情感分类，得到情感极性的分类概率并输出。

所述步骤1中进行文本预处理的具体步骤包括：

步骤S11：清洗，去除文本中的中文不常用符号并转换繁简体；

步骤S12：分词，将文本划分为词的组合，使用分隔符分隔；

步骤S13：停用，去除停用词，过滤无意义和对结果影响不大的词汇；

步骤S14：截断，截断长度超过设定长度的文本。

所述步骤2中将数据集输入word2vec模型训练词向量，采用skip-gram算法即一个三层的小型神经网络来生成词向量。设置预测上下文窗口大小和词向量维度等参数，将数据集中的单词组成词汇表转化成one-hot编码，在隐层中通过中心词在给定的窗口中预测上下文出现单词的概率来学习隐层权重，最后得到给定维数的词-词向量映射字典。通过字典将数据集映射为词向量矩阵B。

所述步骤3中数据集输入LDA模型，得到文本-主题-词的概率分布的具体步骤如下：

步骤S31：设置初始的主题数K值及其他初始参数；

步骤S32：将数据集输入LDA模型，得到初步的文档的主题概率分布和主题的词汇分布

步骤S33：通过计算困惑度perplexity来选择最优的模型主题数，最优主题数值K₀在困惑度下降的拐点处取到。

步骤S34：重新设置主题数为K₀，重新将数据集输入LDA模型，得到最终的文档-主题概率分布和各主题下的词概率分布。

所述步骤4中，以数据集中最长的文本长度为基准，使用最大概率主题下的LDA填充方式词向量矩阵的具体步骤如下：

步骤S41：寻找数据集中所有文档中的最长的文本长度L_max，作为词向量的基准长度；

步骤S42：为数据集中每个文本长度L小于L_max的文档进行填充操作：

步骤S43：寻找文档对应文档-主题矩阵中的最大概率主题topic i，

步骤S44：通过topic i主题的词概率分布，依照词概率从大到小，依次选取前L_max-L个单词；

步骤S45：通过步骤3中训练得到的字典将L_max-L个单词词映射成L_max-L个n维词向量；

步骤S46：使用词向量依次对词向量矩阵进行填充，直至当前文档的词向量长度等于L_max。

步骤S47：重复S43-S46直至所有的文档长度都为L_max；

步骤S48：得到了等长的词向量矩阵。

所述步骤5采用Text-CNN模型，主要的特征是对输入文本数据进行卷积操作。在Text-CNN模型中的具体步骤如下：

步骤S51：输入长短一致的词向量矩阵，进入卷积层。利用共享的多个卷积核与感受野做卷积运算，提取局部特征，并经过激活函数做非线性运算，获得特征矩阵；

步骤S52：特征矩阵经过池化层，在最大池化的作用下选出特征矩阵的最大值，跟其他通道的最大值拼接，组合成全局特征向量T。

所述步骤6中使用Multi-Head Attention模型，引入多头注意力机制，是对注意力机制的完善，能够更好捕捉不同方面的关键特征和长距离依赖关系。Multi-HeadAttention模型内的具体步骤如下：

步骤S61：全局特征向量T作为Multi-Head Attention模型的输入，分别得到查询矩阵Q、键矩阵K和值矩阵V：

Q＝T*W_i ^Q

K＝T*W_i ^K

y＝T*W_i ^V

其中W_i ^Q,W_i ^K,W_i ^V分别是查询矩阵Q、键矩阵K和值矩阵V的权重矩阵。

步骤S62：将查询矩阵Q和键矩阵K的转置矩阵K^T相乘，进行点积计算分数，并利用自注意力机制中的SoftMax函数计算查询矩阵中Q的q_i与值矩阵V的每个v_i的相似度得分，加权求和。最终得到单头的自注意序列head_i：

head_i＝A_i(Q，K，y)

其中

为缩放因子，起到调节的作用；

步骤S63：上述步骤得到了一个单头自注意力运算结果。通过改变权重矩阵的权重，重复运算多次，可横向拼接多个单头运算结果矩阵，得到多头自注意运算的结果：

MA(Q,K,V)＝Concat(head₁,,…,head_l)W^o。

其中，W⁰为附加权重矩阵；

步骤7中使用全连接网络和SoftMax函数分类，预测文本的情感倾向分类概率并输出结果。

附图说明

图1为本发明实施例中的方法流程图；

图2为本发明实施例中的最大概率LDA填充方法流程图；

图3为本发明实施例中的多头注意力机制模型图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于LDA最大概率填充和多头注意力机制的文本情感分类方法，包括如下步骤：

步骤S10：获取文本数据集，进行文本预处理。数据集按照8：1：1的比例划分为训练集、验证集和测试集三个部分，每条文档都有对应的情感极性标签：0或者1，分别表示积极情绪和消极情绪；正负样本分布均匀。文本预处理能使文本符合输入的格式，并剔除与结果影响不大的因素。步骤S10的具体步骤包括S11-S14：

步骤S11：清洗，去除文本中的特殊符号，如换行符和多余的空白符，并转换繁简体。

步骤S12：分词，使用分词工具将句子转化为词的组合，并使用分隔符分割。

步骤S13：停用，根据停用词表，来过滤无意义的功能词和对结果影响不大的词汇，如文本中的连词。

步骤S14：截断，截断长度超过设定长度的文本，将过长的文本内容截断，避免后续步骤生成的词向量矩阵过大，影响训练的速度和效果。

步骤S20：按照格式将数据集输入Word2Vec模型训练词向量，进行特征映射，获得词-词向量映射字典和数据集对应的词向量矩阵A。Word2Vec模型是通过学习文本来用词向量的方式表征词的语义信息。本实施例中Word2Vec模型采用skip-gram算法。

步骤S20的具体步骤包括S21-S25：

步骤S21：设定预测上下文的窗口大小和词向量的维数等参数，依照格式输入数据集。

步骤S22：在输入层，模型首先将数据集中的单词组成词汇表，利用one-hot词表达方式，使得文档转化为向量。

步骤S23：在隐层中，模型采用了skip-gram算法，即通过给定中心词在预设的窗口中预测上下文出现单词的概率来学习隐层权重。

步骤S24：保存模型，得到给定维数的词-词向量映射字典。

步骤S25：运用模型对数据集中的文本进行词向量矩阵嵌入生成，得到数据集映射而成的词向量矩阵。

步骤S30：按照格式将数据集输入LDA主题模型，选取最优的主题数参数值K，得到文本-主题-词的概率分布。

其中，LDA主题模型可以用来推测文档的主题分布。它通过无监督学习，将文档集中每篇文档的主题以概率分布的形式给出，可以根据主题分布进行主题聚类或文本分类。

步骤S30的具体步骤包括S31-S33：

步骤S31：设置初始的主题数K值及模型的其他初始参数。

步骤S32：将数据集输入LDA模型，可得到初步的文档的主题概率分布和主题的词汇分布。

步骤S33：通过计算困惑度Perplexity来选择最优的模型主题数。训练困惑度的计算如下：

其中M表示训练集的文本数量，N_d表示第d篇文档的大小，p(w_d)表示文本概率，即该词在所有主题分布值和该词所在文本的主题概率分布乘积。

随着K值调整慢慢增大，训练困惑度呈现先下降后上升的曲线，最优值K₀在训练困惑度的下降拐点处取到。

步骤S34：重新设置主题数为K₀，再次将数据集输入LDA主题模型，训练后得到最终的文档-主题概率分布和各主题下的词概率分布。

步骤S40：以数据集中最长的文本长度为基准，使用最大概率主题下的LDA填充方式填充词向量矩阵A，得到长短一致的词向量矩阵B。

其中，词向量矩阵是运用词向量模型映射而成的，因文档里的文本长短不同而存在矩阵长短不一的问题。在目前的主流处理方法中，通常采用填零法，循环法进行填充，导致词向量矩阵存在稀疏性和语义混乱的问题。使用最大概率主题LDA填充方法，既使批处理数据更方便，也解决了短文本数据稀疏的问题，丰富了文本特征信息。

如图2所示，步骤S40的具体步骤包括S41-S48：

步骤S41：寻找数据集中所有文档中的最长的文本长度L_max，作为词向量的基准长度。

步骤S42：为文档集中每个文本长度L小于L_max的文档进行填充操作：

步骤S43：寻找文档对应文档-主题矩阵中的最大概率主题topic i；

步骤S46：使用词向量依次对词向量矩阵进行填充，直至该文档的词向量长度等于L_max；

步骤S47：重复S43～S46直至所有的文档长度都为L_max；

步骤S48：得到了等长的词向量矩阵；

例如，当前L_max为10，目前待操作的文档对应的词矩阵长度仅为8，则需要填充两个长度的词向量。找到该文档对应最大概率的主题为topic_i，将该主题下的主题词按概率从小到大排列，分别为“批评”、“学校”、“考试”，则选取“批评”和“学校”，通过映射字典得到对应的词向量，依次填充入词向量矩阵，此时文档对应长度达到L_max。

步骤S51：在输入层，输入长短一致的词向量矩阵A，进入卷积层；在卷积层中，利用共享的多个卷积核与感受野做卷积运算，提取局部特征信息T_i，如下公式所示：

T_i＝f(h·A_i：i+n-l+b)

其中，n为卷积核对应的词个数，h为权值矩阵，b为偏置值，A_i：i+n-1是从词向量矩阵A中截取从第i至i+n-1行得到的子矩阵，f()为激活函数，本实施例中使用ReLU函数激活，通过非线性运算，获得特征矩阵。

步骤S52：在池化层中，在最大池化的作用下选出特征矩阵T_i的最大值，与其他通道的最大值拼接，组合成全局特征向量T，并输出：

T_i＝max{T_i}

T＝[T₁，T₂，T₃，…，T_j-n+1]。

步骤S60：使用Multi-Head Attention模型，以全局特征向量T作为输入，引入多头注意力机制，获取多个子空间拼接而成的特征向量G。

其中，注意力机制是对人类注意力的模仿，在NLP领域主要是通过计算词语在文本中的注意力，值越大表示在任务中发挥的作用越大。多头注意力机制是对注意力机制的完善，能够更好捕捉不同方面的关键特征和长距离依赖关系。

如图3所示，步骤S60的具体步骤包括S61-S63：

Q＝T*W_i ^Q

K＝T*W_i ^K

y＝T*W_i ^V

其中，W_i ^Q,W_i ^K,W_i ^V分别是查询矩阵Q、键矩阵K和值矩阵V的线性变换权重矩阵。

步骤S62：将查询矩阵Q和键矩阵K进行点积计算分数，并利用自注意力机制中的SoftMax函数计算查询矩阵中Q的q_i与值矩阵V的每个v_i的相似度得分，加权求和。最终得到单头的自注意序列head_i：

head_i＝A_i(Q,K,V)

其中，

为缩放因子，起到调节的作用；

步骤S63：上述步骤得到了经过1次的单头自注意力运算结果。本发明中设置8个注意力头，。通过改变w_i的权重，重复运算8次单头运算，横向拼接8个单头运算结果矩阵，再进行一次线性运算，得到多头自注意运算的结果：

MA(Q,K,V)＝Concat(head₁,,…,head_i)W^o

其中W^o为附加权重矩阵。

步骤S70中使用全连接网络和Softmax函数分类，预测文本的情感倾向分类概率并输出结果，计算公示如下：

y＝SoftMax(w_MAMA+b_MA)

其中，w_MA为权重系数，b_MA为偏置项。通过Softmax分类，得到每个文本所在类别概率分布，找出最大值的类别就是预测类别，本实施例中为两个极性分类，即二分类任务。

Claims

1.一种基于LDA最大概率填充和多头注意力机制的文本情感分类方法，其特征在于，包括以下步骤：

步骤1：获取文本数据集，进行文本预处理；

步骤7：使用全连接网络和SoftMax分类器，以特征向量G作为输入，进行分类，得到情感极性的分类概率并输出。

2.根据权利要求1所述的基于LDA最大概率填充和多头注意力机制的文本情感分类方法，其特征在于，所述步骤1中进行文本预处理的具体步骤包括：

步骤S11：文本清洗；

步骤S12：分词，将文本划分为词的组合，使用分隔符分隔；

步骤S13：停用，去除停用词；

步骤S14：截断，截断长度超过设定长度的文本。

3.根据权利要求1所述的基于LDA最大概率填充和多头注意力机制的文本情感分类方法，其特征在于，所述步骤2中将数据集输入word2vec模型训练词向量，采用skip-gram算法即一个三层的小型神经网络来生成词向量；设置预测上下文窗口大小和词向量维度，将数据集中的单词组成词汇表转化成one-hot编码，在隐层中通过中心词在给定的窗口中预测上下文出现单词的概率来学习隐层权重，最后得到给定维数的词-词向量映射字典；通过字典将数据集映射为词向量矩阵B。

4.根据权利要求1所述的基于LDA最大概率填充和多头注意力机制的文本情感分类方法，其特征在于，所述步骤3中数据集输入LDA模型，得到文本-主题-词的概率分布的具体步骤如下：

步骤S31：设置初始的主题数K值及其他初始参数；

步骤S32：将数据集输入LDA模型，得到初步的文档的主题概率分布和主题的词汇分布；

步骤S33：通过计算困惑度perplexity来选择最优的模型主题数，最优主题数值K₀在困惑度下降的拐点处取到；

5.根据权利要求1所述的基于LDA最大概率填充和多头注意力机制的文本情感分类方法，其特征在于，所述步骤4中，以数据集中最长的文本长度为基准，使用最大概率主题下的LDA填充方式词向量矩阵的具体步骤如下：

步骤S46：使用词向量依次对词向量矩阵进行填充，直至当前文档的词向量长度等于L_max；

步骤S47：重复S43-S46直至所有的文档长度都为L_max；

步骤S48：得到了等长的词向量矩阵。

6.根据权利要求1所述的基于LDA最大概率填充和多头注意力机制的文本情感分类方法，其特征在于，所述步骤5采用Text-CNN模型，主要的特征是对输入文本数据进行卷积操作；在Text-CNN模型中的具体步骤如下：

步骤S51：输入长短一致的词向量矩阵，进入卷积层；利用共享的多个卷积核与感受野做卷积运算，提取局部特征，并经过激活函数做非线性运算，获得特征矩阵；

7.根据权利要求1所述的基于LDA最大概率填充和多头注意力机制的文本情感分类方法，其特征在于，所述步骤6中使用Multi-HeadAttention模型，引入多头注意力机制，是对注意力机制的完善，能够更好捕捉不同方面的关键特征和长距离依赖关系；Multi-HeadAttention模型内的具体步骤如下：

Q＝T*W_i ^Q

K＝T*W_i ^K

V＝T*W_i ^V

其中W_i ^Q，W_i ^K，W_i ^V分别是查询矩阵Q、键矩阵K和值矩阵V的权重矩阵；

步骤S62：将查询矩阵Q和键矩阵K的转置矩阵K^T相乘，进行点积计算分数，并利用自注意力机制中的SoftMax函数计算查询矩阵中Q的q_i与值矩阵V的每个v_i的相似度得分，加权求和；最终得到单头的自注意序列head_i：

head_i＝A_i(Q，K，V)

其中

为缩放因子，起到调节的作用；

MA(Q，K，V)＝Concat(head₁，，…，head_l)W^°。

其中，W⁰为附加权重矩阵。

8.根据权利要求1所述的基于LDA最大概率填充和多头注意力机制的文本情感分类方法，其特征在于，步骤7中使用全连接网络和SoftMax函数分类，预测文本的情感倾向分类概率并输出结果。