CN112069313A

CN112069313A - 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法

Info

Publication number: CN112069313A
Application number: CN202010809567.9A
Authority: CN
Inventors: 王鹤松; 杨震
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-12-11

Abstract

本发明提供了一种基于BERT和双向LSTM、注意力机制融合的关于灾难信息博文分类方法，用于解决灾难来临时评估社交媒体文本信息重要性的问题，本方法包括训练和分类两大阶段，训练阶段分为以下五步：训练数据预处理；用BERT模型获取训练数据的词向量；用双向LSTM算法对词向量序列进行特征提取；用注意力机制加权获取文本‑标签重要性特征向量；构建前馈神经网络并训练；分类阶段，利用训练完成的网络对待分类文本进行分类；训练阶段中的注意力机制分为两步，其中第二步注意力机制仅用于训练。本方法不同于以往的文本嵌入方式，克服了短文本特征稀缺的问题，明显的提升了分类效果。

Description

一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法

技术领域

本发明涉及一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法，属于互联网信息分类技术领域。

背景技术

社交媒体已经成为人类生活中不可或缺的一部分，如推特、微博等。当自然灾害发生时，如火灾、地震、山洪、海啸、泥石流等自然灾害或枪击、抢劫等突发事件时，如果仅仅通过媒体转播，事件救援的周期会非常缓慢。2019年2月28日中国互联网络信息中心(CNNIC)在京发布第43次《中国互联网络发展状况统计报告》，截至2018年12月，我国网民规模达8.29亿，普及率达59.6％，较2017年底提升3.8个百分点，全年新增网民5653万；我国手机网民规模达8.17亿，网民通过手机接入互联网比例高达98.6％，人们喜欢在社交媒体上进行灾后评估或活动。如何通过对社交媒体上的文本进行分类来过滤此类自然灾害或紧急情况并将重要信息报告给相关人员，让工作人员了解事件的进展情况以提供帮助，是一个很具有挑战性的工作。

发明内容

为了解决上述当灾难来临时评估社交媒体文本信息重要性的问题，本发明提出一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法，具体设计思路为用BERT模型融合双向LSTM，注意力机制，把社交媒体上的文本数据进行信息类别分类和警报性分类，例如，当地震发生时，受害群众通过社交平台发布的需要救援的信息，在本方法中将此信息类别判定为请求救援类，警报性类别为严重，然后根据信息的重要性得分反馈给社交媒体，通过在社交媒体上扩散，来寻找附近可以提供帮助的人，利用社交平台来帮助灾难的救援。

本发明主要分为训练和分类两大阶段，训练阶段包括以下步骤：

步骤(1)训练数据集预处理，训练数据集包括社交媒体训练文本和对应的分类标签，以及警报性标签；

原始社交媒体的文本数据包含许多非文本信息，这将对后续的模型训练产生负面影响，故需要进行预处理，所使用的方法包括以下步骤：

步骤(1.1)文本预处理

对文本数据进行分词、去除停用，英文大写转小写，中文繁体转简体。

步骤(1.2)消除训练数据中的冗余推文

训练数据中含有很有相似或者完全相同的推文，消除冗余的目的是去除掉这些相似或完全相同的推文；推文之间的相似性定义如下公式所示；

其中T₁,T₂表示两条推文，length(∩(T₁,T₂))表示两条推文相同部分的字符数,若是中文数据则是相同部分的字数。length(∪(T₁,T₂))表示两条推文的字符或字的总数。当两条推文相似度很高时，删除T₁和T₂之间字符或字总数较少的推文。

步骤(2)用BERT模型获取训练数据集的词向量，包括训练文本和对应标签的词向量

利用BERT模型的嵌入层对预处理后的训练数据进行词向量转化，提取序列的词向量作为后续分类模型的输入。

步骤(3)用双向LSTM算法对训练数据词向量序列进行特征提取

其中

是双向LSTM从左到右对训练数据词向量做特征提取，

是双向LSTM从右到左对训练数据词向量做特征提取，h_i是对两个方向的特征向量做加法，获得训练数据双向的LSTM特征向量。

步骤(4)用注意力机制加权获取文本-标签重要性特征向量

神经注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力：选择特定的输入。注意力可以应用于任何类型的输入而不管其形状如何。在计算能力有限情况下，注意力机制(attention mechanism)是解决信息超载问题的主要手段的一种资源分配方案，将计算资源分配给更重要的任务。

步骤(4.1)用注意力机制加权训练文本的双向LSTM特征向量利用注意力机制将训练文本双向LSTM特征向量矩阵H中每个单词的词向量进行加权，获取根据单词重要性加权的特征向量矩阵α，公式如下：

M＝tanh(H)

α＝softmax(w^TM)

其中，双曲正切函数tanh将矩阵中的数值范围规范在[-1，1]之间，ω^T代表待训练的注意力机制的参数向量，逻辑函数SOFTMAX输出的α即为注意力机制加权的训练文本双向LSTM特征向量矩阵。

步骤(4.2)用注意力机制加权训练文本-标签的双向LSTM特征向量再次利用注意力机制将加权好的训练文本双向LSTM特征向量矩阵和对应标签的双向LSTM特征向量矩阵进行加权，获取训练文本和标签重要性加权的特征向量矩阵r，

r＝H′α^T

a_hier＝tanh(r)

其中，

其中，H’代表训练文本对应标签的双向LSTM特征向量矩阵，a_hier代表把r规范在[-1，1]之间的特征向量矩阵；

步骤(5)构建前馈神经网络并进行系统训练，所述前馈神经网络包括两层，用于对获得的文本-标签重要性特征向量，即步骤四转换好的特征向量进行分类，具体表示如下：

v_mid＝W_mid·RELU(a_hier)+b_mid

s_j＝W_matcher·RELU(v_mid)+b_matcher

o＝argmax(s₁，s₂，……，s_|C|)

其中，v_mid是第一层前馈神经网络的输出，W_mid和W_matcher是权重矩阵，b_mid和b_matcher是偏执项，RELU是激活函数，输出的s_j是特征向量与类别之间的得分，j∈C，C代表信息类别，最后通过argmax函数输出得分最高的o，判断推文属于哪个类别，其中，信息分类和警报性分类属于两个分类任务，故需要构建两个前馈神经网络，这两个网络结构相同，参数不共享；

信息分类和警报性分类在训练时，输入数据不同，其中，信息类别分类时，训练数据为经过注意力机制加权的训练文本和信息类别标签特征向量矩阵；训练集的文本数据是已经标记好的有信息类别标签的数据，社交媒体的文本数据在信息类别上可以同时包含多个信息类，规定推文所包含的信息类个数不大于5。

警报性分类时，训练数据为注意力机制加权的训练文本和警报性类别标签特征向量矩阵；根据训练集上有警报性标签的文本数据，社交媒体上的文本数据在警报性类别上只能包含一个类别。

系统训练时包括双向LSTM、注意力机制及前馈神经网络的共同训练；

分类阶段：

将接收的待分类社交媒体文本进行预处理，然后用BERT模型获取文本词向量，接下来利用训练完成的步骤(4.1)的注意力机制，提取用注意力机制加权后的待分类文本的双向LSTM特征向量，最后输入训练完成的前馈神经网络分别进行信息类别的分类和警报性类别的分类。

有益效果

本发明可以对社交媒体的关于灾害的文本数据进行分类，判断其信息的重要性，达到了比较精准的分类性能，通过本发明，当灾害发生时，可以将社交媒体上那些需要救援的信息和能提供帮助的信息反馈给社交平台，对灾害的救援活动提供帮助。

附图说明

图1为信息类别图。

图2为警报性类别图。

图3为训练流程图。

图4为预测流程图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明

步骤(1)接收社交媒体文本数据并预处理本发明中采用的数据集是由TREC官方提供的关于灾难信息的有标签数据集，是推特文本数据，但本发明不限于推文，还可以适用于其他的分类，例如微信，微博等社交平台上的文本数据。数据集包含三万条已经标注好的信息类别和警报性类别的数据，信息类别和警报性类别是TREC官方提供的类别表，其中信息类别有25类，包括请求类(需要帮助/信息，请求搜索和救援)，号召行为类(转移人员/志愿者等)，报道类(新闻/天气等)，其他(讨论/情绪等)，每条数据可以包含多个信息类别，推文既可以是请求类(需要帮助)，也可以是报道类(新闻)，规定每条推文属于的信息类别不多于5个。警报性类别有四类：严重，高，中，低，每条推文只能有一个警报性类别。例如，当地震发生时，官方通过社交平台发布的需要救援的信息，文本的信息类别为请求救援类，同样也是报道新闻类，警报性类别为严重。

步骤(1.1)数据预处理

对社交媒体文本数据进行分词、去除停用，英文大写转小写，中文繁体转简体。步骤(1.2)消除训练数据中的冗余推文

其中T₁,T₂表示两条推文，length(∩(T₁,T₂))表示两条推文相同部分的字符数,若是中文数据则是相同部分的字数。length(∪(T₁,T₂))表示两条推文的字符或字的总数。阈值θ的取值为0.4,当两条推文的相似性大于等于阈值θ时，删除T1和T2之间字符或字总数较少的推文。

例如推文一:One dead,three injured in Poway synagogue shooting.

推文二:One dead,three injured Poway synagogue shoot.这两条推文的相似度为0.4，等于阈值θ，于是删除字数较少的推文二,保留推文一。

步骤(2)用BERT模型获取文本和标签的词向量

传统的词嵌入方式会丢失句子的语义信息，而利用BERT模型的嵌入层对预处理后的训练数据进行词向量转化，可以捕获句子中所蕴含的语义信息，提取序列的词向量作为后续分类模型的输入。

步骤(3)用双向LSTM算法对词向量序列进行特征提取

其中

是双向LSTM从左到右对输入词向量做特征提取，

是双向LSTM从右到左对输入词向量做特征提取，h_i是对两个方向的特征向量做加法，获得输入词向量双向的LSTM特征向量。

步骤(4)用注意力机制加权获取文本-标签重要性特征向量步骤神经注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力：选择特定的输入。注意力可以应用于任何类型的输入而不管其形状如何。在计算能力有限情况下，注意力机制(attention mechanism)是解决信息超载问题的主要手段的一种资源分配方案，将计算资源分配给更重要的任务。

文本中的每个单词含义重要性各不相同，注意力机制通过单词与单词之间的逐个加权获得每个单词在文本中的重要性矩阵，然后再将重要性矩阵与原有的词向量矩阵相乘获得重要性-词向量矩阵，从而使词向量更加具备语义性。

步骤(4.1)用注意力机制加权文本的特征向量

利用注意力机制将经过步骤(3)得到的训练集中文本双向的LSTM特征向量序列中每个单词的词向量进行加权，获取根据单词重要性加权的特征向量。

步骤(4.2)用注意力机制加权文本-标签的特征向量

再次利用注意力机制，将步骤(4.1)加权好的文本向量，和经过步骤(3)得到的对应标签的双向LSTM特征向量进行加权，获取文本和标签重要性加权的特征向量

步骤(5)搭建前馈神经网络并系统训练

前馈神经网络是一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层.各层间没有反馈。最后一层通过SOFTMAX函数进行分类。

v_mid＝W_mid·RELU(a_hier)+b_mid

s_j＝W_matcher·RELU(v_mid)+b_matcher

o＝argmax(s₁，s₂，……，s_|C|)

其中W_mid和W_matcher是权重矩阵，b_mid和b_matcher是偏执项，RELU是激活函数，输出的s_j是特征向量与类别之间的得分，j∈C，C代表信息类别，最后通过argmax函数输出得分最高的o，判断推文属于哪个类别。

对于推文信息类别分类的情况，

训练集的文本数据是已经标记好的有信息类别标签的数据，社交媒体的文本数据在信息类别上可以同时包含多个信息类(如图一所示)，规定推文所包含的信息类个数不大于5，利用前馈神经网络分类器对步骤四转换好的特征向量进行信息分类。

对于推文警报性类别分类的情况，训练集上有警报性标签的文本数据，社交媒体上的文本数据在警报性类别上只能包含一个类别(如图二所示)，利用前馈神经网络分类器对步骤四转换好的特征向量进行警报性分类。

系统训练时包括双向LSTM、注意力机制及前馈神经网络的共同训练；训练过程没有创新之处(如图三所示)。

训练完成后，将待分类的文本数据经过预处理，分别选用训练完成的系统模型，进行推文信息类别分类以及警报性类别分类(如图四所示)。

推文信息类别分类以及警报性类别分类是两个并列且独立的过程，该过程涉及的网络结构相同，但参数不同，训练过程所用数据不同。

Claims

1.一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法，其特征在于：包括训练阶段和分类阶段，

其中，训练阶段具体包括

步骤(2)用BERT模型获取训练数据集的词向量；

步骤(3)用双向LSTM算法对训练数据集的词向量序列进行特征提取；

步骤(4)用注意力机制加权获取训练文本-标签重要性特征向量；

步骤(4.1)利用注意力机制，按照输入序列中单词的重要性，加权步骤(3)得到的训练文本的双向LSTM特征向量；

步骤(4.2)用注意力机制将标签的特征向量与加权好的文本向量再次加权，获取包含单词重要性及文本和标签相对重要性的特征向量；

步骤(5)构建前馈神经网络并进行系统训练，所述前馈神经网络用于对获得的文本-标签重要性特征向量进行分类；

分类阶段具体包括

将接收的待分类社交媒体文本进行预处理，然后用BERT模型获取待分类社交媒体文本词向量，接下来利用训练完成的步骤(4.1)的注意力机制，提取用注意力机制加权后的待分类文本的双向LSTM特征向量，最后输入训练完成的前馈神经网络分别进行信息类别的分类和警报性类别的分类。

2.根据权利要求1所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法，其特征在于：步骤(1)所述的预处理具体包括，

步骤(1.1)文本预处理

对文本数据进行分词、去除停用，英文大写转小写，中文繁体转简体；

步骤(1.2)消除文本数据中的冗余推文

推文之间的相似性定义如下公式所示；

其中T₁,T₂表示两条推文，length(∩(T₁,T₂))表示两条推文相同部分的字符数,

若是中文数据则是相同部分的字数，length(∪(T₁,T₂))表示两条推文的字符或字的总数，当两条推文相似性大于阈值时，删除T₁和T₂之间字符或字总数较少的推文。

3.根据权利要求1所述的所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法，其特征在于：步骤(3)所述的特征提取过程具体包括，

步骤(3.1)用双向LSTM算法对输入的词向量序列进行特征提取

其中

是双向LSTM从左到右对输入的词向量做特征提取，

是双向LSTM从右到

左对输入的词向量做特征提取，h_i是对两个方向的特征向量做加法，获得输入

词向量的双向的LSTM特征向量。

4.根据权利要求1所述的所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法，其特征在于：步骤(4.1)具体如下，

利用注意力机制，将步骤(3)得到的训练文本双向LSTM特征向量矩阵H中每个单词的词向量进行加权，获取根据单词重要性加权的特征向量矩阵α，公式如下：

M＝tanh(H)

α＝softmax(w^TM)

其中，双曲正切函数tanh将矩阵H中的数值范围规范在[-1，1]之间，ω^T代表待训练的注意力机制的参数向量，逻辑函数SOFTMAX输出的α即为注意力机制加权的训练文本双向LSTM特征向量矩阵。

5.根据权利要求4所述的所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法，其特征在于：步骤(4.2)具体如下，

再次利用注意力机制将加权好的训练文本双向LSTM特征向量矩阵α和对应标签的双向LSTM特征向量矩阵进行加权，获取训练文本和标签重要性加权的特征向量矩阵r，

r＝H′α^T

a_{hier＝tanh(r)}

其中，

其中，H’代表步骤(3)得到的训练文本对应标签的双向LSTM特征向量矩阵，a_hier代表把r规范在[-1，1]之间的特征向量矩阵。

6.根据权利要求1所述的所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法，其特征在于：步骤(5)所述的前馈神经网络包括两层，用于对获得的文本-标签重要性特征向量进行分类，具体表示如下：

v_mid＝W_mid·RELU(a_hier)+b_mid

s_j＝W_matcher·RELU(v_mid)+b_matcher

o＝argmax(s₁，s₂，……，s_|C|)

其中，v_mid是第一层前馈神经网络的输出，W_mid和W_matcher是权重矩阵，b_mid和b_matcher是偏执项，RELU是激活函数，输出的s_j是特征向量与类别之间的得分，j∈C，C代表信息类别，最后通过argmax函数输出得分最高的o，判断推文属于哪个类别，其中，信息分类和警报性分类属于两个分类任务，故需要构建两个前馈神经网络，这两个网络结构相同，参数不共享。

7.根据权利要求1所述的所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法，其特征在于：步骤(5)所述的系统训练具体如下：

信息分类和警报性分类在训练时，输入数据不同，其中，信息类别分类时，训练数据为经过注意力机制加权的训练文本和信息类别标签特征向量矩阵；警报性分类时，训练数据为注意力机制加权的训练文本和警报性类别标签特征向量矩阵；

系统训练时包括双向LSTM、注意力机制及前馈神经网络的共同训练。