CN115146031A

CN115146031A - 一种基于深度学习和辅助特征的短文本立场检测方法

Info

Publication number: CN115146031A
Application number: CN202210795780.8A
Authority: CN
Inventors: 苏方红; 程飞; 杜亚军; 贾鹏
Original assignee: Sichuan Lewei Technology Co ltd; Xihua University
Current assignee: Sichuan Lewei Technology Co ltd; Xihua University
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-10-04
Anticipated expiration: 2042-07-06
Also published as: CN115146031B

Abstract

本发明提供一种基于深度学习和辅助特征的短文本立场检测方法，包括步骤1：对从互联网当中所获取到的用户所发表的短文本数据进行预处理；步骤2：辅助特征提取层主要使用SVM开发基于统计机器学习的方法；步骤3：词嵌入；步骤4：词编码层；步骤5：多头注意力层；步骤6：辅助特征连接层；步骤7：softmax层在特征连接融合之后得到新的句子表示M′进行立场检测得到短文本的立场类型，通过softmax函数得到最终立场类型。并且使用二元交叉熵损失函数对模型进行训练。本发明适用于互联网当中的所有短文本信息，具有很强的普适性。并且在训练集足够丰富的情况下，可以对任何种类的短文本进行精准的立场分类处理。

Description

一种基于深度学习和辅助特征的短文本立场检测方法

技术领域

本发明属于信息分析技术领域，具体涉及一种基于深度学习和辅助特征的短文本立场检测方法。

背景技术

随着互联网的蓬勃发展，社交媒体已成为时事新闻的重要来源，使得社交媒体在互联网上的分享和发表意见空前增长。因此，产生了大量的社交媒体相关数据，为社交媒体中对姿态检测感兴趣的研究人员提供了巨大的语料库和应用领域。立场检测被视为情感分析的一个子分支，用于确定作者对目标任务的支持、反对两种。立场检测对于现实生活中的许多应用领域都有研究价值。

因此，分析社交网络中的短文本立场对维护社会稳定和建立正确的舆论起着导向作用。并且随着深度学习的兴起，采用深度学习的特点进行短文本立场检测也成为了一种趋势。

发明内容

之前的立场检测研究可以大致分为基于机器学习和机遇深度学习两个方面。均是针对短文本的方法去处理所有信息，而很少有人对短文本之外的辅助信息进行特征提取。本发明针对以上问题，通过对社交网络中的数据集进行处理分析，并采用短文本外的辅助特征值进行精细化处理，通过Bi-GRU网络对短文本特征进行提取，并通过多头注意力机制分配给不同的权重，与外部所提出到的辅助特征向量融合进行分类，提出一种基于深度学习和辅助特征的短文本立场检测方法，并给出了该方法的详细实现流程。

本发明目的在于提供一种基于深度学习和辅助特征的短文本立场检测方法，能够在大规模社交网络中识别短文本的立场类别。该方法总体流程如图1所示，具体包括以下步骤：

步骤1：对从互联网当中所获取到的用户所发表的短文本数据进行预处理，具体操作如下： 1)移除掉用户的ID信息；2)移除掉短文本当中的英语字符和数字信息；3)移除短文本当中的标点符号和特殊字符，比如：“$”，“&”,“@”和“#”等；4)移除掉短文本当中的停用词和虚词；5)使用结巴分词工具对已过滤掉无用信息的短文本进行分词处理。

步骤2：辅助特征提取层主要使用SVM开发基于统计机器学习的方法，方法中使用了以下手工提取的特征：

(1)语义特征：短文本中的语义特征值可以帮助提升立场检测的性能。模型中主要使用 LIWC字典来获取语义信息。将短文本中的每个单词提取取出并在LIWC词典中查找，将每种类型的单词数设置为立场检测的语义特征，LIWC词典中包含有64种不同的词汇类别，主要被分为3类：

语言过程(Linguistic Processes,LP)：分类为代词、冠词、动词、副词、连词、否定词、量词等的单词归入这一类。例如：我、他们、从不、成千上万等单词。

心理过程(Psychological Processes,PP)：被标记为社会、情感、认知心理学过程的单词被归为这一类。

个人关注(Personal Concerns,PC)：与工作、成就、休闲、家庭等相关的单词归入这一类。

(2)情感特征：立场是用户表达对一个目标的态度和观点。因此，人们在对待一件事情的时候可能会带有一定的情感去评判它，本章主要考虑以下几个用于立场检测的情感相关特征：

肯定词/否定词：短文本中是否至少有一个词是肯定的，没有否定词，反之亦然。

肯定标点符号/否定标点符号：这个特征表示是否存在至少一个肯定词而没有否定词的句子，反之亦然。句子中的连续几个感叹号表示对句子的肯定，而问号表示疑问。

(3)其他特征：语义和情感相关的特征不足以检测给定短文本中的立场，同时还提取了短文本中的其他特征：

转发次数和点赞数：转发次数和点赞数可以间接的知道其他用户对该用户发布的推文的认可度。

用户是否是公众人物：需要把公众人物视为一个特征向量。

步骤3：词嵌入。一个句子是由词组成的，但是在立场检测模型中，输入是用向量或者张量来表示的。为了使输入与本章提出的模型兼容，模型采用通过在维基百科上训练好的 Word2Vec模型进行文本向量化表示。模型中，将给定一个包含n个单词x_i的短文本T作为输入，对于T中的每个词，模型首先查找嵌入矩阵

其中v是固定大小的词汇表，d是词嵌入的大小。E是通过预训练的词嵌入向量化。每个单词x_i都将被转换成一个向量表示w_i。因此，短文本T是以下形式的单词序列：

T＝(w₁,w₂,…,w_n)^T (1)

步骤4：词编码层。在该层中，模型采用Bi-GRU进行词编码，GRU是在LSTM的基础上改进而来。LSTM和GRU改进的地方是GRU对细胞状态中的门控单元进行改变，从LSTM中原来的三个门控单元改变为GRU中两个门控单元，分别为重置门(Reset Gate)和更新门(UpdateGate)。同时，研究表明，GRU不仅具有LSTM的优点，而且结构更简单，参数更少，计算和训练速度加快。GRU的性能在很多方面都优于LSTM。因此，GRU是目前改进的LSTM变体中最简单、也是最流行的一种模型。GRU具体的步骤和计算公式如(2)-(5)所示：

r_t＝σ(W^r[h_t-1,x_t]) (2)

u_t＝σ(W^u[h_t-1,x_t]) (3)

其中，r_t、u_t分别代表着重置门和更新门，W^r、W^u、W表示GRU网络权重矩阵，σ、tanh表示激活函数，符号

表示Hadamard的乘积，h′_t和h_t表示隐藏状态，h_t-1表示上一时间段的隐藏状态。

在使用词嵌入表示时，短文本中的每个词都是独立于其它词的，但是在GRU进行建模时存在一个问题：只能从前向后的顺序进行编码，无法编码从后向前的信息，这样不利于对特征进行综合建模。因此，模型MHA-BiGRU词编码层中，采用Bi-GRU进行建模，每个词都是通过对短文本中两个方向(前向和后向)的上下文信息来实现的，这两个方向中的GRU处理信息的所采用的方法过程是一样的，只是处理这些信息时的方向不同。在Bi-GRU中，该模型采用

表示网络从前向后获取文本特征信息的隐藏向量，具体通过公式(6)计算，

表示网络从后向前获取文本特征信息的隐藏向量，具体通过公式(7)计算。由公式(6)和公式(7)得到两个方向不同的隐藏向量后通过公式(8)得到Bi-GRU的最终隐藏向量。

以上的过程帮助模型获得了短文本中每个单词的所有表示，短文本的表示如公式(9)所示：

H＝(h₁,h₂,…,h_n) (9)

步骤5：多头注意力层。在给定的短文本中，短文本中的特定部分内容对立场检测方面起着重要的作用。然而一个词可能会受到多个因素的关注。因此，需要多个注意力头，其中每个词在多个因素中被赋予适当的重要性，以表示短文本中的整体语义：

X＝tanh(W₁H^T) (10)

Y＝softmax(W₂X) (11)

多头注意力层采用整个隐藏状态H作为输入并将其与相乘W₁，然后将输出传递给tanh函数得到X，为了从不同的因素中提取每个组件的注意力，将X乘以W₂,然后传递给softmax以计算不同头部归一化的权重，从而得到权重向量Y。W₁、W₂表示参数。

G＝YH (12)

最后，将隐藏状态H与权重向量Y相乘，并计算注意力的加权和，得到一个新的短文本嵌入矩阵G。

步骤6：辅助特征连接层。为语料库中给定的短文本提取了语义信息、情感信息以及其他手工特征值(参考步骤2)后，使用这些辅助特征值F，将其与多头注意力层嵌入的句子表示G 相结合，生成新的句子表示，如公式(13)所示。

其中，

表示向量之间的拼接。

步骤7：softmax层在特征连接融合之后得到新的句子表示M′进行立场检测得到短文本的立场类型，通过公式(14)的softmax函数得到最终立场类型。并且使用二元交叉熵损失函数对模型进行训练，如公式(15)所示。

其中，

表示预测的立场分类的概率，W_p和b分别表示权重和偏差。m表示类别标签的数量，P_y表示第y个类别的类标签，

表示第y个类别的预测概率。

本发明公开了一种基于深度学习和辅助特征的短文本立场检测方法来识别短文本中所包含的立场列别，即将短文本的立场分类为三类立场当中的一种，该方法适用于互联网当中的所有短文本信息，具有很强的普适性。并且在训练集足够丰富的情况下，可以对任何种类的短文本进行精准的立场分类处理。

附图说明

图1是本发明流程示意图。

具体实施方式

下面将结合具体的实例来对本发明进行进一步说明，本实例为从互联网上采集的两个真实社交网络，本实例中主要使用了数据集中两个主要事件：

A 和B，在这两个事件中，每个阶段中都包含有100000 个用户发帖，在A事件中包含了2016年11月24日至2016年11月26日之间的所有推文，大约为 171476；在B事件中包含了2016年12月4日至2016年12月6日之间的所有推文，大约为324464 条。整个实验过程中，本节将采用数据集中90％的推文作为训练集，10％的推文作为测试集。

如图1所示的流程：

步骤1：数据预处理。对从互联网当中所获取到的用户所发表的短文本数据进行预处理。举例来说，对于短文本“明天要上班了，心情很忐忑。”首先过滤掉虚词“了”和标点符号“，”“。”，然后通过结巴分词工具将短文本切分为“明天”“要”“上班”“心情”“很”“忐忑”。

步骤2：辅助特征值提取。

(1)语义特征：将短文本中的每个单词提取取出并在LIWC词典中查找，将每种类型的单词数设置为立场检测的语义特征：

语言过程：分类为代词、冠词、动词、副词、连词、否定词、量词等的单词归入这一类。例如：我、他们、从不、成千上万等单词。

心理过程：被标记为社会、情感、认知心理学过程的单词被归为这一类。例如：成年人、开心、看、感觉等单词。

个人关注：与工作、成就、休闲、家庭等相关的单词归入这一类。例如：工作、英雄、家庭、挣钱等单词。

肯定词/否定词：短文本中是否至少有一个词是肯定的，没有否定词，反之亦然。例如“他爱喝啤酒”中的“爱”是肯定的，没有否定词。这表达了他对啤酒饮用的支持。

肯定标点符号/否定标点符号：这个特征表示是否存在至少一个肯定词而没有否定词的句子，反之亦然。句子中的连续几个感叹号表示对句子的肯定，而问号表示疑问。例如“是的！他很帅！！！！”表示对他的肯定，是非常支持的；“你真的喜欢吃香蕉吗？？？？”表示对喜欢吃香蕉很怀疑，带有否定的成分。

用户是否是公众人物：需要把公众人物视为一个特征向量。

步骤3：词嵌入部分我们采用Word2Vec模型在维基百科数据集上进行训练，然后使用训练好的模型对短文本进行词嵌入操作，词嵌入操作就是将自然语言处理成计算机能理解的机器语言。Word2Vec模型的输入就是经过预处理分好词的短文本信息，输出则是短文本的向量表示。如果输出的为五维向量那么，“明天”可表示为：[0.34，0.49，0.32，0.75，0.48], “心情”可表示为：[0.32，0.24，0.35，0.15，0.37],“忐忑”可表示为：[0.78，0.32，0.16，0.36，0.27]。

步骤4：双向GRU提取短文本特征。在语义情绪的特征方面我们采用了深度学习方法当中的双向GRU模型。首先，通过Sigmoid函数计算出GRU中的更新门和重置门，并且更新门和重置门每维的数值大小都是在0到1之间，数值越靠近0就表示当前信息进入细胞状态的比例就越小，抛弃遗忘的部分就越多。通过两个门控对信息进行处理后变得到了当前输入短文本的情绪特征。

步骤5：注意力权重系数分配。注意力权重系数表示的是短文本中不同的信息对情绪分析的重要程度，信息越重要那么该信息的权重系数就越大，反之就越小。权重系数的计算方法则是通过Softmax函数计算得到，并通过最后的加权求和得到文字部分的最终情绪特征。

步骤6：辅助特征连接。通过公式(13)将辅助特征值与上面提取到的向量融合得到新的向量。

步骤7：softmax层。通过公式(14)获得立场的最终分类类别

本实例采用最常使用的准确率、召回率和F1值来评估MHA-BiGRU立场检测模型的性能。准确率是正确预测的立场分类的推文与总预测的立场分类推文的比率。召回率是正确预测的立场分类的推文与所有实际立场分类的推文句子的比率。F1值是召回率和准确率的调和平均值。这些指标的具体公式如下：

其中，tp表示正确预测立场类型的推文数量，fp表示预测立场类型的推文数量，fn表示被错误预测立场类型的推文数量。

实验中，为了说明本发明的优越性，选取了经典算法SVM、Bi-LSTM、Bi-GRU、CNN、CNN-LSTM、 MHA-BiGRU-no(该模型是在本发明模型中去掉辅助特征的模型)来进行对比，实验结果如表1、表2所示。

表1在EC网络数据上的实验结果

表2在RO网络数据上的实验结果

实验结果表明本发明相比经典算法具有显著优越性。

Claims

1.一种基于深度学习和辅助特征的短文本立场检测方法，其特征在于，包括以下步骤：

步骤1：对从互联网当中所获取到的用户所发表的短文本数据进行预处理；

步骤2：辅助特征提取层使用SVM开发基于统计机器学习的方法，方法中使用了以下手工提取的特征：(1)语义特征；(2)情感特征：(3)其他特征：

步骤3：词嵌入；模型采用通过在维基百科上训练好的Word2Vec模型进行文本向量化表示；模型中，将给定一个包含n个单词x_i的短文本T作为输入，对于T中的每个词，模型首先查找嵌入矩阵

其中v是固定大小的词汇表，d是词嵌入的大小；E是通过预训练的词嵌入向量化；每个单词x_i都将被转换成一个向量表示w_i；短文本T是以下形式的单词序列：

T＝(w₁,w₂,…,w_n)^T (1)

步骤4：词编码层；在该层中，模型采用Bi-GRU进行词编码，GRU具体的步骤和计算公式如(2)-(5)所示：

r_t＝σ(W^r[h_t-1,x_t]) (2)

u_t＝σ(W^u[h_t-1,x_t]) (3)

表示Hadamard的乘积，h′_t和h_t表示隐藏状态，h_t-1表示上一时间段的隐藏状态；

模型MHA-BiGRU词编码层中，采用Bi-GRU进行建模，每个词都是通过对短文本中两个方向，即前向和后向的上下文信息来实现的，这两个方向中的GRU处理信息的所采用的方法过程是一样的，只是处理这些信息时的方向不同；在Bi-GRU中，该模型采用

表示网络从后向前获取文本特征信息的隐藏向量，具体通过公式(7)计算；由公式(6)和公式(7)得到两个方向不同的隐藏向量后通过公式(8)得到Bi-GRU的最终隐藏向量；

H＝(h₁,h₂,…,h_n) (9)

步骤5：多头注意力层；每个词在多个因素中被赋予适当的重要性，以表示短文本中的整体语义：

X＝tanh(W₁H^T) (10)

Y＝softmax(W₂X) (11)

多头注意力层采用整个隐藏状态H作为输入并将其与相乘W₁，然后将输出传递给tanh函数得到X，为了从不同的因素中提取每个组件的注意力，将X乘以W₂,然后传递给softmax以计算不同头部归一化的权重，从而得到权重向量Y；W₁、W₂表示参数；

G＝YH (12)

最后，将隐藏状态H与权重向量Y相乘，并计算注意力的加权和，得到一个新的短文本嵌入矩阵G；

步骤6：辅助特征连接层；为语料库中给定的短文本提取了语义信息、情感信息以及其他手工特征值(参考步骤2)后，使用这些辅助特征值F，将其与多头注意力层嵌入的句子表示G相结合，生成新的句子表示，如公式(13)所示；

其中，

表示向量之间的拼接；

步骤7：softmax层在特征连接融合之后得到新的句子表示M′进行立场检测得到短文本的立场类型，通过公式(14)的softmax函数得到最终立场类型；并且使用二元交叉熵损失函数对模型进行训练，如公式(15)所示；

其中，

表示预测的立场分类的概率，W_p和b分别表示权重和偏差；m表示类别标签的数量，P_y表示第y个类别的类标签，

表示第y个类别的预测概率。

2.根据权利要求1所述的一种基于深度学习和辅助特征的短文本立场检测方法，其特征在于，步骤1具体操作如下：1)移除掉用户的ID信息；2)移除掉短文本当中的英语字符和数字信息；3)移除短文本当中的标点符号和特殊字符；4)移除掉短文本当中的停用词和虚词；5)使用结巴分词工具对已过滤掉无用信息的短文本进行分词处理。

3.根据权利要求1所述的一种基于深度学习和辅助特征的短文本立场检测方法，其特征在于，步骤2中：

(1)语义特征：模型中使用LIWC字典来获取语义信息；将短文本中的每个单词提取取出并在LIWC词典中查找，将每种类型的单词数设置为立场检测的语义特征，LIWC词典中包含有64种不同的词汇类别，被分为3类：语言过程，心理过程，个人关注；

(2)情感特征：立场是用户表达对一个目标的态度和观点，以下几个用于立场检测的情感相关特征：

肯定词/否定词：短文本中是否至少有一个词是肯定的，没有否定词，反之亦然；

肯定标点符号/否定标点符号：这个特征表示是否存在至少一个肯定词而没有否定词的句子，反之亦然；句子中的连续几个感叹号表示对句子的肯定，而问号表示疑问；

(3)其他特征：还提取了短文本中的其他特征：转发次数和点赞数，用户是否是公众人物。