CN112069313A - 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法 - Google Patents

一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法 Download PDF

Info

Publication number
CN112069313A
CN112069313A CN202010809567.9A CN202010809567A CN112069313A CN 112069313 A CN112069313 A CN 112069313A CN 202010809567 A CN202010809567 A CN 202010809567A CN 112069313 A CN112069313 A CN 112069313A
Authority
CN
China
Prior art keywords
training
attention mechanism
text
classification
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010809567.9A
Other languages
English (en)
Inventor
王鹤松
杨震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010809567.9A priority Critical patent/CN112069313A/zh
Publication of CN112069313A publication Critical patent/CN112069313A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于BERT和双向LSTM、注意力机制融合的关于灾难信息博文分类方法,用于解决灾难来临时评估社交媒体文本信息重要性的问题,本方法包括训练和分类两大阶段,训练阶段分为以下五步:训练数据预处理;用BERT模型获取训练数据的词向量;用双向LSTM算法对词向量序列进行特征提取;用注意力机制加权获取文本‑标签重要性特征向量;构建前馈神经网络并训练;分类阶段,利用训练完成的网络对待分类文本进行分类;训练阶段中的注意力机制分为两步,其中第二步注意力机制仅用于训练。本方法不同于以往的文本嵌入方式,克服了短文本特征稀缺的问题,明显的提升了分类效果。

Description

一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文 分类方法
技术领域
本发明涉及一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法,属于互联网信息分类技术领域。
背景技术
社交媒体已经成为人类生活中不可或缺的一部分,如推特、微博等。当自然灾害发生时,如火灾、地震、山洪、海啸、泥石流等自然灾害或枪击、抢劫等突发事件时,如果仅仅通过媒体转播,事件救援的周期会非常缓慢。2019年2月28日中国互联网络信息中心(CNNIC)在京发布第43次《中国互联网络发展状况统计报告》,截至2018年12月,我国网民规模达8.29亿,普及率达59.6%,较2017年底提升3.8个百分点,全年新增网民5653万;我国手机网民规模达8.17亿,网民通过手机接入互联网比例高达98.6%,人们喜欢在社交媒体上进行灾后评估或活动。如何通过对社交媒体上的文本进行分类来过滤此类自然灾害或紧急情况并将重要信息报告给相关人员,让工作人员了解事件的进展情况以提供帮助,是一个很具有挑战性的工作。
发明内容
为了解决上述当灾难来临时评估社交媒体文本信息重要性的问题,本发明提出一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法,具体设计思路为用BERT模型融合双向LSTM,注意力机制,把社交媒体上的文本数据进行信息类别分类和警报性分类,例如,当地震发生时,受害群众通过社交平台发布的需要救援的信息,在本方法中将此信息类别判定为请求救援类,警报性类别为严重,然后根据信息的重要性得分反馈给社交媒体,通过在社交媒体上扩散,来寻找附近可以提供帮助的人,利用社交平台来帮助灾难的救援。
本发明主要分为训练和分类两大阶段,训练阶段包括以下步骤:
步骤(1)训练数据集预处理,训练数据集包括社交媒体训练文本和对应的分类标签,以及警报性标签;
原始社交媒体的文本数据包含许多非文本信息,这将对后续的模型训练产生负面影响,故需要进行预处理,所使用的方法包括以下步骤:
步骤(1.1)文本预处理
对文本数据进行分词、去除停用,英文大写转小写,中文繁体转简体。
步骤(1.2)消除训练数据中的冗余推文
训练数据中含有很有相似或者完全相同的推文,消除冗余的目的是去除掉这些相似或完全相同的推文;推文之间的相似性定义如下公式所示;
Figure BDA0002629574830000021
其中T1,T2表示两条推文,length(∩(T1,T2))表示两条推文相同部分的字符数,若是中文数据则是相同部分的字数。length(∪(T1,T2))表示两条推文的字符或字的总数。当两条推文相似度很高时,删除T1和T2之间字符或字总数较少的推文。
步骤(2)用BERT模型获取训练数据集的词向量,包括训练文本和对应标签的词向量
利用BERT模型的嵌入层对预处理后的训练数据进行词向量转化,提取序列的词向量作为后续分类模型的输入。
步骤(3)用双向LSTM算法对训练数据词向量序列进行特征提取
Figure BDA0002629574830000022
其中
Figure BDA0002629574830000023
是双向LSTM从左到右对训练数据词向量做特征提取,
Figure BDA0002629574830000024
是双向LSTM从右到左对训练数据词向量做特征提取,hi是对两个方向的特征向量做加法,获得训练数据双向的LSTM特征向量。
步骤(4)用注意力机制加权获取文本-标签重要性特征向量
神经注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力:选择特定的输入。注意力可以应用于任何类型的输入而不管其形状如何。在计算能力有限情况下,注意力机制(attention mechanism)是解决信息超载问题的主要手段的一种资源分配方案,将计算资源分配给更重要的任务。
步骤(4.1)用注意力机制加权训练文本的双向LSTM特征向量利用注意力机制将训练文本双向LSTM特征向量矩阵H中每个单词的词向量进行加权,获取根据单词重要性加权的特征向量矩阵α,公式如下:
M=tanh(H)
α=softmax(wTM)
其中,双曲正切函数tanh将矩阵中的数值范围规范在[-1,1]之间,ωT代表待训练的注意力机制的参数向量,逻辑函数SOFTMAX输出的α即为注意力机制加权的训练文本双向LSTM特征向量矩阵。
步骤(4.2)用注意力机制加权训练文本-标签的双向LSTM特征向量再次利用注意力机制将加权好的训练文本双向LSTM特征向量矩阵和对应标签的双向LSTM特征向量矩阵进行加权,获取训练文本和标签重要性加权的特征向量矩阵r,
r=H′αT
ahier=tanh(r)
其中,
其中,H’代表训练文本对应标签的双向LSTM特征向量矩阵,ahier代表把r规范在[-1,1]之间的特征向量矩阵;
步骤(5)构建前馈神经网络并进行系统训练,所述前馈神经网络包括两层,用于对获得的文本-标签重要性特征向量,即步骤四转换好的特征向量进行分类,具体表示如下:
vmid=Wmid·RELU(ahier)+bmid
sj=Wmatcher·RELU(vmid)+bmatcher
o=argmax(s1,s2,……,s|C|)
其中,vmid是第一层前馈神经网络的输出,Wmid和Wmatcher是权重矩阵,bmid和bmatcher是偏执项,RELU是激活函数,输出的sj是特征向量与类别之间的得分,j∈C,C代表信息类别,最后通过argmax函数输出得分最高的o,判断推文属于哪个类别,其中,信息分类和警报性分类属于两个分类任务,故需要构建两个前馈神经网络,这两个网络结构相同,参数不共享;
信息分类和警报性分类在训练时,输入数据不同,其中,信息类别分类时,训练数据为经过注意力机制加权的训练文本和信息类别标签特征向量矩阵;训练集的文本数据是已经标记好的有信息类别标签的数据,社交媒体的文本数据在信息类别上可以同时包含多个信息类,规定推文所包含的信息类个数不大于5。
警报性分类时,训练数据为注意力机制加权的训练文本和警报性类别标签特征向量矩阵;根据训练集上有警报性标签的文本数据,社交媒体上的文本数据在警报性类别上只能包含一个类别。
系统训练时包括双向LSTM、注意力机制及前馈神经网络的共同训练;
分类阶段:
将接收的待分类社交媒体文本进行预处理,然后用BERT模型获取文本词向量,接下来利用训练完成的步骤(4.1)的注意力机制,提取用注意力机制加权后的待分类文本的双向LSTM特征向量,最后输入训练完成的前馈神经网络分别进行信息类别的分类和警报性类别的分类。
有益效果
本发明可以对社交媒体的关于灾害的文本数据进行分类,判断其信息的重要性,达到了比较精准的分类性能,通过本发明,当灾害发生时,可以将社交媒体上那些需要救援的信息和能提供帮助的信息反馈给社交平台,对灾害的救援活动提供帮助。
附图说明
图1为信息类别图。
图2为警报性类别图。
图3为训练流程图。
图4为预测流程图。
具体实施方式
以下结合附图和实施例对本发明进行详细说明
步骤(1)接收社交媒体文本数据并预处理本发明中采用的数据集是由TREC官方提供的关于灾难信息的有标签数据集,是推特文本数据,但本发明不限于推文,还可以适用于其他的分类,例如微信,微博等社交平台上的文本数据。数据集包含三万条已经标注好的信息类别和警报性类别的数据,信息类别和警报性类别是TREC官方提供的类别表,其中信息类别有25类,包括请求类(需要帮助/信息,请求搜索和救援),号召行为类(转移人员/志愿者等),报道类(新闻/天气等),其他(讨论/情绪等),每条数据可以包含多个信息类别,推文既可以是请求类(需要帮助),也可以是报道类(新闻),规定每条推文属于的信息类别不多于5个。警报性类别有四类:严重,高,中,低,每条推文只能有一个警报性类别。例如,当地震发生时,官方通过社交平台发布的需要救援的信息,文本的信息类别为请求救援类,同样也是报道新闻类,警报性类别为严重。
步骤(1.1)数据预处理
对社交媒体文本数据进行分词、去除停用,英文大写转小写,中文繁体转简体。步骤(1.2)消除训练数据中的冗余推文
训练数据中含有很有相似或者完全相同的推文,消除冗余的目的是去除掉这些相似或完全相同的推文;推文之间的相似性定义如下公式所示;
Figure BDA0002629574830000051
其中T1,T2表示两条推文,length(∩(T1,T2))表示两条推文相同部分的字符数,若是中文数据则是相同部分的字数。length(∪(T1,T2))表示两条推文的字符或字的总数。阈值θ的取值为0.4,当两条推文的相似性大于等于阈值θ时,删除T1和T2之间字符或字总数较少的推文。
例如推文一:One dead,three injured in Poway synagogue shooting.
推文二:One dead,three injured Poway synagogue shoot.这两条推文的相似度为0.4,等于阈值θ,于是删除字数较少的推文二,保留推文一。
步骤(2)用BERT模型获取文本和标签的词向量
传统的词嵌入方式会丢失句子的语义信息,而利用BERT模型的嵌入层对预处理后的训练数据进行词向量转化,可以捕获句子中所蕴含的语义信息,提取序列的词向量作为后续分类模型的输入。
步骤(3)用双向LSTM算法对词向量序列进行特征提取
Figure BDA0002629574830000061
其中
Figure BDA0002629574830000062
是双向LSTM从左到右对输入词向量做特征提取,
Figure BDA0002629574830000063
是双向LSTM从右到左对输入词向量做特征提取,hi是对两个方向的特征向量做加法,获得输入词向量双向的LSTM特征向量。
步骤(4)用注意力机制加权获取文本-标签重要性特征向量步骤神经注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力:选择特定的输入。注意力可以应用于任何类型的输入而不管其形状如何。在计算能力有限情况下,注意力机制(attention mechanism)是解决信息超载问题的主要手段的一种资源分配方案,将计算资源分配给更重要的任务。
文本中的每个单词含义重要性各不相同,注意力机制通过单词与单词之间的逐个加权获得每个单词在文本中的重要性矩阵,然后再将重要性矩阵与原有的词向量矩阵相乘获得重要性-词向量矩阵,从而使词向量更加具备语义性。
步骤(4.1)用注意力机制加权文本的特征向量
利用注意力机制将经过步骤(3)得到的训练集中文本双向的LSTM特征向量序列中每个单词的词向量进行加权,获取根据单词重要性加权的特征向量。
步骤(4.2)用注意力机制加权文本-标签的特征向量
再次利用注意力机制,将步骤(4.1)加权好的文本向量,和经过步骤(3)得到的对应标签的双向LSTM特征向量进行加权,获取文本和标签重要性加权的特征向量
步骤(5)搭建前馈神经网络并系统训练
前馈神经网络是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。最后一层通过SOFTMAX函数进行分类。
vmid=Wmid·RELU(ahier)+bmid
sj=Wmatcher·RELU(vmid)+bmatcher
o=argmax(s1,s2,……,s|C|)
其中Wmid和Wmatcher是权重矩阵,bmid和bmatcher是偏执项,RELU是激活函数,输出的sj是特征向量与类别之间的得分,j∈C,C代表信息类别,最后通过argmax函数输出得分最高的o,判断推文属于哪个类别。
对于推文信息类别分类的情况,
训练集的文本数据是已经标记好的有信息类别标签的数据,社交媒体的文本数据在信息类别上可以同时包含多个信息类(如图一所示),规定推文所包含的信息类个数不大于5,利用前馈神经网络分类器对步骤四转换好的特征向量进行信息分类。
对于推文警报性类别分类的情况,训练集上有警报性标签的文本数据,社交媒体上的文本数据在警报性类别上只能包含一个类别(如图二所示),利用前馈神经网络分类器对步骤四转换好的特征向量进行警报性分类。
系统训练时包括双向LSTM、注意力机制及前馈神经网络的共同训练;训练过程没有创新之处(如图三所示)。
训练完成后,将待分类的文本数据经过预处理,分别选用训练完成的系统模型,进行推文信息类别分类以及警报性类别分类(如图四所示)。
推文信息类别分类以及警报性类别分类是两个并列且独立的过程,该过程涉及的网络结构相同,但参数不同,训练过程所用数据不同。

Claims (7)

1.一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法,其特征在于:包括训练阶段和分类阶段,
其中,训练阶段具体包括
步骤(1)训练数据集预处理,训练数据集包括社交媒体训练文本和对应的分类标签,以及警报性标签;
步骤(2)用BERT模型获取训练数据集的词向量;
步骤(3)用双向LSTM算法对训练数据集的词向量序列进行特征提取;
步骤(4)用注意力机制加权获取训练文本-标签重要性特征向量;
步骤(4.1)利用注意力机制,按照输入序列中单词的重要性,加权步骤(3)得到的训练文本的双向LSTM特征向量;
步骤(4.2)用注意力机制将标签的特征向量与加权好的文本向量再次加权,获取包含单词重要性及文本和标签相对重要性的特征向量;
步骤(5)构建前馈神经网络并进行系统训练,所述前馈神经网络用于对获得的文本-标签重要性特征向量进行分类;
分类阶段具体包括
将接收的待分类社交媒体文本进行预处理,然后用BERT模型获取待分类社交媒体文本词向量,接下来利用训练完成的步骤(4.1)的注意力机制,提取用注意力机制加权后的待分类文本的双向LSTM特征向量,最后输入训练完成的前馈神经网络分别进行信息类别的分类和警报性类别的分类。
2.根据权利要求1所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法,其特征在于:步骤(1)所述的预处理具体包括,
步骤(1.1)文本预处理
对文本数据进行分词、去除停用,英文大写转小写,中文繁体转简体;
步骤(1.2)消除文本数据中的冗余推文
推文之间的相似性定义如下公式所示;
Figure FDA0002629574820000011
其中T1,T2表示两条推文,length(∩(T1,T2))表示两条推文相同部分的字符数,
若是中文数据则是相同部分的字数,length(∪(T1,T2))表示两条推文的字符或字的总数,当两条推文相似性大于阈值时,删除T1和T2之间字符或字总数较少的推文。
3.根据权利要求1所述的所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法,其特征在于:步骤(3)所述的特征提取过程具体包括,
步骤(3.1)用双向LSTM算法对输入的词向量序列进行特征提取
Figure FDA0002629574820000021
其中
Figure FDA0002629574820000022
是双向LSTM从左到右对输入的词向量做特征提取,
Figure FDA0002629574820000023
是双向LSTM从右到
左对输入的词向量做特征提取,hi是对两个方向的特征向量做加法,获得输入
词向量的双向的LSTM特征向量。
4.根据权利要求1所述的所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法,其特征在于:步骤(4.1)具体如下,
利用注意力机制,将步骤(3)得到的训练文本双向LSTM特征向量矩阵H中每个单词的词向量进行加权,获取根据单词重要性加权的特征向量矩阵α,公式如下:
M=tanh(H)
α=softmax(wTM)
其中,双曲正切函数tanh将矩阵H中的数值范围规范在[-1,1]之间,ωT代表待训练的注意力机制的参数向量,逻辑函数SOFTMAX输出的α即为注意力机制加权的训练文本双向LSTM特征向量矩阵。
5.根据权利要求4所述的所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法,其特征在于:步骤(4.2)具体如下,
再次利用注意力机制将加权好的训练文本双向LSTM特征向量矩阵α和对应标签的双向LSTM特征向量矩阵进行加权,获取训练文本和标签重要性加权的特征向量矩阵r,
r=H′αT
ahier=tanh(r)
其中,
其中,H’代表步骤(3)得到的训练文本对应标签的双向LSTM特征向量矩阵,ahier代表把r规范在[-1,1]之间的特征向量矩阵。
6.根据权利要求1所述的所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法,其特征在于:步骤(5)所述的前馈神经网络包括两层,用于对获得的文本-标签重要性特征向量进行分类,具体表示如下:
vmid=Wmid·RELU(ahier)+bmid
sj=Wmatcher·RELU(vmid)+bmatcher
o=argmax(s1,s2,……,s|C|)
其中,vmid是第一层前馈神经网络的输出,Wmid和Wmatcher是权重矩阵,bmid和bmatcher是偏执项,RELU是激活函数,输出的sj是特征向量与类别之间的得分,j∈C,C代表信息类别,最后通过argmax函数输出得分最高的o,判断推文属于哪个类别,其中,信息分类和警报性分类属于两个分类任务,故需要构建两个前馈神经网络,这两个网络结构相同,参数不共享。
7.根据权利要求1所述的所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法,其特征在于:步骤(5)所述的系统训练具体如下:
信息分类和警报性分类在训练时,输入数据不同,其中,信息类别分类时,训练数据为经过注意力机制加权的训练文本和信息类别标签特征向量矩阵;警报性分类时,训练数据为注意力机制加权的训练文本和警报性类别标签特征向量矩阵;
系统训练时包括双向LSTM、注意力机制及前馈神经网络的共同训练。
CN202010809567.9A 2020-08-12 2020-08-12 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法 Pending CN112069313A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010809567.9A CN112069313A (zh) 2020-08-12 2020-08-12 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010809567.9A CN112069313A (zh) 2020-08-12 2020-08-12 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法

Publications (1)

Publication Number Publication Date
CN112069313A true CN112069313A (zh) 2020-12-11

Family

ID=73661489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010809567.9A Pending CN112069313A (zh) 2020-08-12 2020-08-12 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法

Country Status (1)

Country Link
CN (1) CN112069313A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668857A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 分阶段质检的数据分类方法、装置、设备及存储介质
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN112836054A (zh) * 2021-03-08 2021-05-25 重庆大学 一种基于共生注意力表示学习的服务分类方法
CN113204698A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
CN113220876A (zh) * 2021-04-16 2021-08-06 山东师范大学 一种用于英文文本的多标签分类方法及系统
CN113377953A (zh) * 2021-05-31 2021-09-10 电子科技大学 一种基于palc-dca模型的实体融合及分类方法
CN114638222A (zh) * 2022-05-17 2022-06-17 天津卓朗科技发展有限公司 自然灾害数据的分类方法及其模型训练方法、装置
CN116405326A (zh) * 2023-06-07 2023-07-07 厦门瞳景智能科技有限公司 基于区块链的信息安全管理方法及其系统
WO2023179593A1 (zh) * 2022-03-23 2023-09-28 华为技术有限公司 数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778882A (zh) * 2016-12-23 2017-05-31 杭州云象网络技术有限公司 一种基于前馈神经网络的智能合约自动分类方法
CN110569508A (zh) * 2019-09-10 2019-12-13 重庆邮电大学 融合词性和自注意力机制的情感倾向性分类方法及系统
CN111079031A (zh) * 2019-12-27 2020-04-28 北京工业大学 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778882A (zh) * 2016-12-23 2017-05-31 杭州云象网络技术有限公司 一种基于前馈神经网络的智能合约自动分类方法
CN110569508A (zh) * 2019-09-10 2019-12-13 重庆邮电大学 融合词性和自注意力机制的情感倾向性分类方法及系统
CN111079031A (zh) * 2019-12-27 2020-04-28 北京工业大学 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668857A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 分阶段质检的数据分类方法、装置、设备及存储介质
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN112836054A (zh) * 2021-03-08 2021-05-25 重庆大学 一种基于共生注意力表示学习的服务分类方法
CN112836054B (zh) * 2021-03-08 2022-07-26 重庆大学 一种基于共生注意力表示学习的服务分类方法
CN113220876A (zh) * 2021-04-16 2021-08-06 山东师范大学 一种用于英文文本的多标签分类方法及系统
CN113204698A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
CN113377953A (zh) * 2021-05-31 2021-09-10 电子科技大学 一种基于palc-dca模型的实体融合及分类方法
CN113204698B (zh) * 2021-05-31 2023-12-26 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
WO2023179593A1 (zh) * 2022-03-23 2023-09-28 华为技术有限公司 数据处理方法及装置
CN114638222A (zh) * 2022-05-17 2022-06-17 天津卓朗科技发展有限公司 自然灾害数据的分类方法及其模型训练方法、装置
CN116405326A (zh) * 2023-06-07 2023-07-07 厦门瞳景智能科技有限公司 基于区块链的信息安全管理方法及其系统
CN116405326B (zh) * 2023-06-07 2023-10-20 厦门瞳景智能科技有限公司 基于区块链的信息安全管理方法及其系统

Similar Documents

Publication Publication Date Title
CN112069313A (zh) 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法
Yu et al. Deep learning for real-time social media text classification for situation awareness–using Hurricanes Sandy, Harvey, and Irma as case studies
Mouzannar et al. Damage Identification in Social Media Posts using Multimodal Deep Learning.
Ofli et al. Analysis of social media data using multimodal deep learning for disaster response
Su et al. Analyzing public sentiments online: Combining human-and computer-based content analysis
Yuan et al. Understanding the evolutions of public responses using social media: Hurricane Matthew case study
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN110457562A (zh) 一种基于神经网络模型的食品安全事件分类方法及装置
CN111079031B (zh) 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法
CN112528163B (zh) 一种基于图卷积网络的社交平台用户职业预测方法
Zhang et al. Semi-supervised discovery of informative tweets during the emerging disasters
Alam et al. CrisisDPS: Crisis Data Processing Services.
Kejriwal et al. On detecting urgency in short crisis messages using minimal supervision and transfer learning
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
Lin et al. Towards an accurate social media disaster event detection system based on deep learning and semantic representation
Johnson et al. Disasternet: Evaluating the performance of transfer learning to classify hurricane-related images posted on twitter
Dahou et al. A social media event detection framework based on transformers and swarm optimization for public notification of crises and emergency management
Rani et al. Survey of tools and techniques for sentiment analysis of social networking data
Dasari et al. A stacking ensemble approach for identification of informative tweets on twitter data
CN111241288A (zh) 一种大集中电力客户服务中心的突发事件感知系统以及构建方法
Huang Research on sentiment classification of tourist destinations based on convolutional neural network
Wang et al. Disaster Detector on Twitter Using Bidirectional Encoder Representation from Transformers with Keyword Position Information
CN113672695A (zh) 一种基于加权网络的中文短文本相似性度量方法
CN113761123A (zh) 关键词获取的方法、装置、计算设备和存储介质
CN113052497A (zh) 一种基于动静态特征融合学习的服刑人员风险预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201211