CN114818724A - 一种社交媒体灾害有效信息检测模型的构建方法 - Google Patents

一种社交媒体灾害有效信息检测模型的构建方法 Download PDF

Info

Publication number
CN114818724A
CN114818724A CN202210267297.2A CN202210267297A CN114818724A CN 114818724 A CN114818724 A CN 114818724A CN 202210267297 A CN202210267297 A CN 202210267297A CN 114818724 A CN114818724 A CN 114818724A
Authority
CN
China
Prior art keywords
information
data
word
model
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210267297.2A
Other languages
English (en)
Inventor
高望
秦邦政
邓宏涛
朱珣
刘哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jianghan University
Original Assignee
Jianghan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jianghan University filed Critical Jianghan University
Priority to CN202210267297.2A priority Critical patent/CN114818724A/zh
Publication of CN114818724A publication Critical patent/CN114818724A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种社交媒体灾害有效信息检测模型的构建方法,用于通过CRFTM来抽取短文本的主题信息,再融合该主题信息进行BERT模型对于检测灾害有效性的训练,不仅有助于降低了训练成本,也可提高模型的检测精度,模型的检测性能得到显著的提升。方法包括:获取目标社交媒体平台上的用户发布信息;通过CRFTM抽取用户发布信息中的主题信息,在抽取处理过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息;以主题信息作为训练数据,训练BERT模型识别输入数据中的灾害有效信息,灾害有效信息是指对于特定灾害事件的响应有所帮助的信息。

Description

一种社交媒体灾害有效信息检测模型的构建方法
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种社交媒体灾害有效信息检测模型的构建方法。
背景技术
当经历疫情、洪水等突发事件时,用户往往会在推特、微博等社交媒体平台上发布各种信息来寻求帮助或分享事件动态,这些信息中有一部分包含诸如疑似病例、被困人员、紧急求助、设施故障等对于应急救援或者应急响应有帮助的内容,称为灾害有效信息,这些灾害有效信息是一种重要的突发事件信息源,有助于应急响应组织进行救援活动、舆情应对和态势感知。
当前,从社交媒体网站中实时获取大量信息的数据采集技术已非常成熟,然而,识别其中的有效信息面临严重的信息过载问题,即这些信息中含有大量虚假、冗余或者无关的文本内容。因此,从海量的社交媒体内容中检测出能为应急智能决策分析提供支撑的灾害有效信息,对于提高应急响应组织对突发事件的态势感知和应急响应能力,具有重要的意义。
社交媒体灾害有效信息检测任务是将社交媒体上发布的短文本内容划分为灾害有效信息和灾害无效信息两类。近年来,来自变换器的双向编码器表征量(BidirectionalEncoder Representations from Transformers,BERT)模型作为一种常用的预训练语言模型在诸如文本分类和事件检测等自然语言处理任务取得较大进展,也被用于社交媒体灾害有效信息检测任务上。
然而,社交媒体上的短文本具有文本长度短、信息稀疏、用语不规范或者噪声大等特点,导致基于BERT模型的灾害有效信息的检测性能存在较差的问题,不仅训练成本高,且投入使用后的检测精度也存在限制。
发明内容
本申请提供了一种社交媒体灾害有效信息检测模型的构建方法,用于通过条件随机场正则化主题模型(Conditional Random Field regularized Topic Model,CRFTM)来抽取短文本的主题信息,再融合该主题信息进行BERT模型对于检测灾害有效性的训练,不仅有助于降低了训练成本,也可提高模型的检测精度,模型的检测性能得到显著的提升。
第一方面,本申请提供了一种社交媒体灾害有效信息检测模型的构建方法,方法包括:
获取目标社交媒体平台上的用户发布信息,用户发布数据为目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
通过CRFTM抽取用户发布信息中的主题信息,在抽取处理过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息;
以主题信息作为训练数据,训练BERT模型识别输入数据中的灾害有效信息,灾害有效信息是指对于特定灾害事件的响应有所帮助的信息。
结合本申请第一方面,在本申请第一方面第一种可能的实现方式中,在抽取处理过程中,CRFTM具体用于:
利用基于词向量的最小平均距离度量不同短文本之间的距离,并在不同短文本之间找到语义相关的词,在与语义相关的词被分配到同一主题标签的概率更高的情况下,利用聚类算法将不同短文本聚合成文本长度更长的伪文档;
为整个语料采样一个主题分布θ~Dir(α),对于每个主题k采样一个词分布φk~Dir(β),α和β是狄利克雷先验超参数,对于每个伪文档d采样每个词
Figure BDA0003552861440000021
每个词的主题分配zd可由下式计算:
Figure BDA0003552861440000022
其中,xdi表示第i个词的上下文相关词,xd表示上下文相关词的集合,Ψ表示考虑语义相关性影响的势能函数,Nd表示d中词的个数,在CRFTM中,坍缩吉布斯采样法用于推断主题标签的后验分布,伪文档d中单词xdi的主题zdi可由下式计算:
Figure BDA0003552861440000023
其中,
Figure BDA0003552861440000031
表示当词wdi从主题k或伪文档d中排除时,该词被分配给主题k的次数,V表示词汇表的维度,文档的主题分布θ和主题词的分布φ可分别由下式计算:
Figure BDA0003552861440000032
Figure BDA0003552861440000033
其中,K表示主题的个数。
结合本申请第一方面,在本申请第一方面第二种可能的实现方式中,BERT模型的训练过程包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本,其中n表示短文本的长度,tj表示短文本中的第j个字符,每个字符将被表示为字符向量、位置向量和分段向量,字符向量用来表示不同的字符,位置向量来获取位置信息,分段向量用来区分不同语句,通过向量化过程之后,E={e1,e2,...,ej,...,en}代替字符集合T作为模型的输入;
通过自注意力和多头注意力机制,BERT模型将E映射为一系列隐藏表示H={h1,h2,...,hj,...,hn},[CLS]作为第一个字符被添加到字符序列中,它的隐藏状态hc被用作BERT模型的输出向量表示:
Figure BDA0003552861440000034
其中,dBERT表示BERT模型中输出层维度的大小,对于主题信息Rw,利用单词总和表示法推断短文本的主题特征p(z∣d):
Figure BDA0003552861440000035
其中,p(w∣d)表示w在d中出现的次数,利用前期融合的方法将主题信息Rw和BERT模型的输出hc进行融合:
Figure BDA0003552861440000036
其中,
Figure BDA0003552861440000041
表示连接运算符。
结合本申请第一方面,在本申请第一方面第三种可能的实现方式中,BERT模型在训练过程中的微调阶段,利用半监督生成对抗网络SGAN实现半监督学习,以改进模型的检测性能;
在SGAN中,判别器模块将数据划分为(c+1)个类别,真实数据被分类为目标类别之一,记为(1,...,c),而生成器生成的数据被分类为新的生成类,记为(c+1),
G表示生成器模块,D表示判别器模块,pG是生成器概率分布,pD是真实数据概率分布,pm(y=c+1∣x)表示数据x属于新的生成类的概率,pm(y∈(1,...,c)∣x)表示x属于与原始类别关联的真实数据的概率,为训练一个半监督的c类分类器,D的损失函数LD定义为:
LD=Lsupervised+Lunsupervised
损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised
Figure BDA0003552861440000042
其中,Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失;
生成器模块G生成的数据与从真实数据概率分布pD采样的数据尽可能相似,生成器模块G的训练目标是学习出判别器模块中间层特征的期望值,通过训练判别器模块D,SGAN捕获最能区分真实数据和G生成数据的那些特征,则生成器模块G的特征匹配损失函数定义为:
Figure BDA0003552861440000043
其中,f(x)表示激活函数,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失,当生成器模块G生成的样本数据输入判别器模块D到时,它们的特征表示与真实数据非常相似,SGAN还需要考虑判别器模块D将生成的数据分类为真实数据所产生的误差Lgenerated
Lgenerated=Ex~pG(x)log[1-pm(y=c+1∣x)],
生成器模块D的最终损失函数为LG=Lfm+Lgenerated
第二方面,本申请提供了一种社交媒体灾害有效信息检测模型的构建装置,装置包括:
获取单元,用于获取目标社交媒体平台上的用户发布信息,用户发布数据为目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
抽取单元,用于通过CRFTM抽取用户发布信息中的主题信息,在抽取处理过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息;
训练单元,用于以主题信息作为训练数据,训练BERT模型识别输入数据中的灾害有效信息,灾害有效信息是指对于特定灾害事件的响应有所帮助的信息。
结合本申请第二方面,在本申请第二方面第一种可能的实现方式中,在抽取处理过程中,CRFTM具体用于:
利用基于词向量的最小平均距离度量不同短文本之间的距离,并在不同短文本之间找到语义相关的词,在与语义相关的词被分配到同一主题标签的概率更高的情况下,利用聚类算法将不同短文本聚合成文本长度更长的伪文档;
为整个语料采样一个主题分布θ~Dir(α),对于每个主题k采样一个词分布φk~Dir(β),α和β是狄利克雷先验超参数,对于每个伪文档d采样每个词
Figure BDA0003552861440000051
每个词的主题分配zd可由下式计算:
Figure BDA0003552861440000052
其中,xdi表示第i个词的上下文相关词,xd表示上下文相关词的集合,Ψ表示考虑语义相关性影响的势能函数,Nd表示d中词的个数,在CRFTM中,坍缩吉布斯采样法用于推断主题标签的后验分布,伪文档d中单词xdi的主题zdi可由下式计算:
Figure BDA0003552861440000053
其中,
Figure BDA0003552861440000054
表示当词wdi从主题k或伪文档d中排除时,该词被分配给主题k的次数,V表示词汇表的维度,文档的主题分布θ和主题词的分布φ可分别由下式计算:
Figure BDA0003552861440000061
Figure BDA0003552861440000062
其中,K表示主题的个数。
结合本申请第二方面,在本申请第二方面第二种可能的实现方式中,BERT模型的训练过程包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本,其中n表示短文本的长度,tj表示短文本中的第j个字符,每个字符将被表示为字符向量、位置向量和分段向量,字符向量用来表示不同的字符,位置向量来获取位置信息,分段向量用来区分不同语句,通过向量化过程之后,E={e1,e2,...,ej,...,en}代替字符集合T作为模型的输入;
通过自注意力和多头注意力机制,BERT模型将E映射为一系列隐藏表示H={h1,h2,...,hj,...,hn},[CLS]作为第一个字符被添加到字符序列中,它的隐藏状态hc被用作BERT模型的输出向量表示:
Figure BDA0003552861440000063
其中,dBERT表示BERT模型中输出层维度的大小,对于主题信息Rw,利用单词总和表示法推断短文本的主题特征p(z∣d):
Figure BDA0003552861440000064
其中,p(w∣d)表示w在d中出现的次数,利用前期融合的方法将主题信息Rw和BERT模型的输出hc进行融合:
Figure BDA0003552861440000065
其中,
Figure BDA0003552861440000066
表示连接运算符。
结合本申请第二方面,在本申请第二方面第三种可能的实现方式中,BERT模型在训练过程中的微调阶段,利用半监督生成对抗网络SGAN实现半监督学习,以改进模型的检测性能;
在SGAN中,判别器模块将数据划分为(c+1)个类别,真实数据被分类为目标类别之一,记为(1,...,c),而生成器生成的数据被分类为新的生成类,记为(c+1),
G表示生成器模块,D表示判别器模块,pG是生成器概率分布,pD是真实数据概率分布,pm(y=c+1∣x)表示数据x属于新的生成类的概率,pm(y∈(1,...,c)∣x)表示x属于与原始类别关联的真实数据的概率,为训练一个半监督的c类分类器,D的损失函数LD定义为:
LD=Lsupervised+Lunsupervised
损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised
Figure BDA0003552861440000071
其中,Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失;
生成器模块G生成的数据与从真实数据概率分布pD采样的数据尽可能相似,生成器模块G的训练目标是学习出判别器模块中间层特征的期望值,通过训练判别器模块D,SGAN捕获最能区分真实数据和G生成数据的那些特征,则生成器模块G的特征匹配损失函数定义为:
Figure BDA0003552861440000072
其中,f(x)表示激活函数,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失,当生成器模块G生成的样本数据输入判别器模块D到时,它们的特征表示与真实数据非常相似,SGAN还需要考虑判别器模块D将生成的数据分类为真实数据所产生的误差Lgenerated
Lgenerated=Ex~pG(x)log[1-pm(y=c+1∣x)],
生成器模块D的最终损失函数为LG=Lfm+Lgenerated
第三方面,本申请提供了一种处理设备,包括处理器和存储器,存储器中存储有计算机程序,处理器调用存储器中的计算机程序时执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。
第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。
从以上内容可得出,本申请具有以下的有益效果:
针对于社交媒体平台上信息的灾害有效性的检测,本申请在通过BERT训练一灾害有效性的检测模型之前,通过CRFTM来抽取平台上用户发布信息中的主题信息,在具体的抽取过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息,如此提取出的主题信息具有很强的一致性,在通过该主题信息与BERT相结合来训练灾害有效性的检测模型时,则可大大丰富短文本的语义,由此,不仅有助于降低训练成本,也可提高模型的检测精度,模型的检测性能得到显著的提升。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请社交媒体灾害有效信息检测模型的构建方法的一种流程示意图;
图2为本申请训练BERT模型的一种训练框架示意图;
图3为本申请检测模型的训练框架结构的一种框架示意图;
图4为本申请检测模型与基准模型的检测性能的一种比较示意图;
图5为本申请社交媒体灾害有效信息检测模型的构建装置的一种结构示意图;
图6为本申请处理设备的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。
本申请中所出现的模块的划分,是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。
在介绍本申请提供的社交媒体灾害有效信息检测模型的构建方法之前,首先介绍本申请所涉及的背景内容。
本申请提供的社交媒体灾害有效信息检测模型的构建方法、装置以及计算机可读存储介质,可应用于处理设备,用于通过CRFTM来抽取短文本的主题信息,再融合该主题信息进行BERT模型对于检测灾害有效性的训练,不仅有助于降低了训练成本,也可提高模型的检测精度,模型的检测性能得到显著的提升。
本申请提及的社交媒体灾害有效信息检测模型的构建方法,其执行主体可以为社交媒体灾害有效信息检测模型的构建装置,或者集成了该社交媒体灾害有效信息检测模型的构建装置的服务器、物理主机或者用户设备(User Equipment,UE)等不同类型的处理设备。其中,社交媒体灾害有效信息检测模型的构建装置可以采用硬件或者软件的方式实现,UE具体可以为智能手机、平板电脑、笔记本电脑、台式电脑或者个人数字助理(PersonalDigital Assistant,PDA)等终端设备,处理设备可以通过设备集群的方式设置。
下面,开始介绍本申请提供的社交媒体灾害有效信息检测模型的构建方法。
首先,参阅图1,图1示出了本申请社交媒体灾害有效信息检测模型的构建方法的一种流程示意图,本申请提供的社交媒体灾害有效信息检测模型的构建方法,具体可包括如下步骤S101至步骤S103:
步骤S101,获取目标社交媒体平台上的用户发布信息,用户发布数据为目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
可以理解,对于本申请所涉及的社交媒体平台,可以是任意类型的社交每日平台,在平台上,用户可以通过文字、声音、图片或者视频等方式发表自身的想法,当然,若涉及到声音、图片或者视频,考虑到本申请是以文本的角度进行处理的,因此还可涉及到从声音、图片或者视频的内容中提取出相应的文本,所涉及的提取技术通常为现有技术,本申请在此不做具体介绍。当然,在实际应用中,本申请也可引入自创的提取技术,来从声音、图片或者视频的内容中提取出相应的文字内容,形成可以处理的文本。
举例而言,社交媒体平台,可以为微博、抖音等不同类型的平台,用户既可以以自己发布动态的形式发布新的信息(包括信息转发),也可以在其他信息的评论区进行相关信息的发布,完成自身想法的表达。
与此同时,本申请所涉及的灾害有效性的检测,是为了筛选出用户所发布信息中对于特定灾害事件的响应有所帮助的信息的,因此首先在获取初始信息的过程中,是基于特定灾害事件进行获取的。
在平台上,用户针对特定灾害事件发布的行为信息,一般在其文本内容中直接包含有特定灾害事件的关键字,例如“疫情”、“洪水”等灾害事件特有的词汇,又或者,也可能存在特定灾害事件的关键字的相关谐音字、相关错别字的词汇,例如“qz(确诊)”、“隔梨”等,又或者,还可能是以更为隐蔽的指代词进行特定灾害事件的指代,这些和特定灾害事件相关的词汇,可以通过预设的方式进行汇总,以此提供用户针对特定灾害事件的行为信息的信息获取。
步骤S102,通过CRFTM抽取用户发布信息中的主题信息,在抽取处理过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息;
在得到与特定灾害事件相关的用户发布信息后,则可执行本申请特别配置的主题信息的抽取处理,以此为后面灾害有效性信息的检测模型提供良好的数据支持。
其中,该主题信息的抽取处理,是为了在样本数据的准备过程中处理出与特定灾害事件相关的主题,如此可以基于主题来精确地锁定、追踪出与特定灾害事件相关的文本内容,并从中确定其为灾害有效信息或者灾害无效信息。
CRFTM,即条件随机场正则化主题模型,对于其模型本身而言,可以理解为,是给定一组输入随机变量条件下,求另一组输出随机变量的条件概率分布的模型,特点是假设输出随机变量构成马尔科夫随机场,条件随机场可以用于不同的预测问题,对自然语言处理过程主要是线性条件随机场,这时,问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,学习方法为极大似然估计或者正则化的极大似然估计,条件随机场和隐马类似,对应得得三个基本问题:概率计算问题、学习问题和预测问题。
而在利用CRFTM进行主题信息的抽取过程中,本申请具体还可配置相应的主题信息抽取策略,即,将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息。
需要理解的是,主题模型作为一种常用的信息提取方法,在情感分析、事件检测等自然语言处理任务中得到了广泛的应用,传统的主题模型基于文档中的词共现信息推断主题。然而,由于社交媒体平台上用户信息具有短文本特征稀疏的特点,难以为主题建模提供足够的词共现信息。
为了缓解特征稀疏性问题,本申请在CRFTM的利用过程中,首先将语义相关短文本合并为较长的伪文档,然后将词向量与词相关知识相结合,以增强提取主题的一致性,从而可以获得主题信息的抽取具有显著提高的精度以及实用性,从而可以大大丰富短文本的语义。
步骤S103,以主题信息作为训练数据,训练BERT模型识别输入数据中的灾害有效信息,灾害有效信息是指对于特定灾害事件的响应有所帮助的信息。
在通过CFRTM获得与特定灾害事件相关的高精度的主题信息后,则可投入BERT模型的训练,如此在整个的模型训练框架中,融合短文本的主题信息与BERT模型,由于丰富了短文本语义,缓解短文本信息稀疏的问题,从而提取出适合社交媒体灾害有效信息检测任务的文本特征(以更鲁棒的短文本表示,扩展短文本语义特征),所以模型无论是在训练过程中,还是在实际使用过程中,对于输入数据中的灾害有效信息,都具有显著提高的检测精度,因而将模型的检测精度训练到预设的精度要求所需的训练时长明显缩短,而完成训练后的模型则可以更快的检测效率以及更高的检测精度完成输入数据中的灾害有效信息的检测。
从图1所示实施例可看出,针对于社交媒体平台上信息的灾害有效性的检测,本申请在通过BERT训练一灾害有效性的检测模型之前,通过CRFTM来抽取平台上用户发布信息中的主题信息,在具体的抽取过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息,如此提取出的主题信息具有很强的一致性,在通过该主题信息与BERT相结合来训练灾害有效性的检测模型时,则可大大丰富短文本的语义,由此,不仅有助于降低训练成本,也可提高模型的检测精度,模型的检测性能得到显著的提升。
进一步的,对于CRFTM对主题信息的抽取处理,本申请还配置有更为具体的落地实现方案。
具体的,在抽取处理过程中,CRFTM具体可以用于:
利用基于词向量的最小平均距离度量不同短文本之间的距离,并在不同短文本之间找到语义相关的词(距离度量方式),在与语义相关的词被分配到同一主题标签的概率更高的情况下,然后,利用聚类算法将不同短文本聚合成文本长度更长的伪文档;
接下来,为整个语料采样一个主题分布θ~Dir(α),对于每个主题k采样一个词分布φk~Dir(β),α和β是狄利克雷先验超参数,对于每个伪文档d采样每个词
Figure BDA0003552861440000131
每个词的主题分配zd可由下式计算:
Figure BDA0003552861440000132
其中,xdi表示第i个词的上下文相关词,xd表示上下文相关词的集合,Ψ表示考虑语义相关性影响的势能函数,Nd表示d中词的个数,在CRFTM中,坍缩吉布斯采样法用于推断主题标签的后验分布,伪文档d中单词xdi的主题zdi可由下式计算:
Figure BDA0003552861440000133
其中,
Figure BDA0003552861440000134
表示当词wdi从主题k或伪文档d中排除时,该词被分配给主题k的次数,V表示词汇表的维度,文档的主题分布θ和主题词的分布φ可分别由下式计算:
Figure BDA0003552861440000135
Figure BDA0003552861440000136
其中,K表示主题的个数。
此外,作为又一种适于实用的实现方式,在基于CFRTM抽取出的主题信息融入BERT模型的训练时,参阅图2示出的本申请训练BERT模型的一种训练框架示意图,BERT模型的训练过程具体还可包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本,其中n表示短文本的长度,tj表示短文本中的第j个字符,每个字符将被表示为字符向量、位置向量和分段向量。字符向量用来表示不同的字符,位置向量来获取位置信息,而分段向量用来区分不同语句,通过向量化过程之后,E={e1,e2,...,ej,...,en}代替字符集合T作为模型的输入;
然后,通过自注意力和多头注意力机制,BERT模型将E映射为一系列隐藏表示H={h1,h2,...,hj,...,hn},[CLS]作为第一个字符被添加到字符序列中,它的隐藏状态hc被用作BERT模型的输出向量表示:
Figure BDA0003552861440000141
其中,dBERT表示BERT模型中输出层维度的大小,对于主题信息Rw,利用单词总和表示法推断短文本的主题特征p(z∣d):
Figure BDA0003552861440000142
其中,p(w∣d)表示w在d中出现的次数,利用前期融合的方法将主题信息Rw和BERT模型的输出hc进行融合:
Figure BDA0003552861440000143
其中,
Figure BDA0003552861440000144
表示连接运算符。
此外,在模型的训练过程中,作为又一种适于实用的实现方式,BERT模型在训练过程中的微调阶段,还可利用SGAN实现半监督学习,使用大量未标记的数据来改进模型的训练过程,以改进模型的检测性能。
具体的,可以参考图3示出的本申请检测模型的训练框架结构(添加了SGAN的对抗性训练)的一种框架示意图。
在SGAN中,判别器模块将数据划分为(c+1)个类别,真实数据被分类为目标类别之一,记为(1,...,c),而生成器生成的数据被分类为新的生成类,记为(c+1)。
G表示生成器模块,D表示判别器模块,pG是生成器概率分布,pD是真实数据概率分布,pm(y=c+1∣x)表示数据x属于新的生成类(c+1)的概率,pm(y∈(1,...,c)∣x)表示x属于与原始类别关联的真实数据的概率,为训练一个半监督的c类分类器,D的损失函数LD可以定义为:
LD=Lsupervised+Lunsupervised(8)损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised
Figure BDA0003552861440000151
其中,Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失,Lunsupervised表示将未标记的真实数据分类为新的生成类(c+1)和将生成的数据分类为真实数据的累积损失;
生成器模块G生成的数据与从真实数据概率分布pD采样的数据尽可能相似,生成器模块G的训练目标是学习出判别器模块中间层特征的期望值,通过训练判别器模块D,SGAN捕获最能区分真实数据和G生成数据的那些特征,则生成器模块G的特征匹配损失函数可以定义为:
Figure BDA0003552861440000152
其中,f(x)表示激活函数,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失,当生成器模块G生成的样本数据输入判别器模块D到时,它们的特征表示与真实数据非常相似,SGAN还需要考虑判别器模块D将生成的数据分类为真实数据所产生的误差Lgenerated
Lgenerated=Ex~pG(x)log[1-pm(y=c+1∣x)],
生成器模块D的最终损失函数为LG=Lfm+Lgenerated (11)
可以理解的是,虽然SGAN通常应用于计算机视觉领域,但本申请则可以通过使用它来扩展模型的训练框架,以提高社交媒体灾害有效信息检测的性能。在本申请中,SGAN和检测模型在微调阶段相互结合,这种训练方式通过添加包含生成器和判别器的SGAN层来调整检测模型的微调过程,从而提高模型的检测性能。
进一步的,为方便理解以上内容,本申请还可借助下面示出的一组实例进行说明。
考虑到不同检测模型的检测性能的比较,基准模型包括卷积神经网络(Convolutional Neural Networks,CNN)、双向长短记忆网络(Bi-directional LongShort Term Memory,BiLSTM)、BERT和ALBERT模型。
本申请使用社交媒体灾害有效信息检测的评价指标,包括准确率、召回率和F1值来对实验结果进行分析。
以推特平台为例,本申请在推特平台采集并标注了15935条短文本,其中7983条为灾害有效信息以及158341条未标注短文本,按照7:2:1的比例,将该数据集随机划分为训练集、验证集和测试集。
对于本申请的检测模型,运行1000次吉布斯采样并将狄利克雷先验参数设置为:α=50/K,β=0.01,主题数量设置为100。
对于CNN和BiLSTM,本申请使用300维开源的GloVe词向量,这些词向量将构建一个向量矩阵,将输入短文本的词转换为相应的词向量表示。
对于BERT和ALBERT,本申请采用预训练的12层BERT-base和albert-base-v2结构。
本申请使用Gelu作为激活函数,使用Adam优化器,学习率设置为5e-5,Dropout概率设置为0.2。
实验结果如图4示出的本申请检测模型与基准模型的检测性能的一种比较示意图所示,本申请所训练得到的检测模型(图4中记为TABERT)在3个评价指标上均要优于4种基准模型,从而验证了本申请模型训练框架的先进性。
以上是本申请提供社交媒体灾害有效信息检测模型的构建方法的介绍,为便于更好的实施本申请提供的社交媒体灾害有效信息检测模型的构建方法,本申请还从功能模块角度提供了一种社交媒体灾害有效信息检测模型的构建装置。
参阅图5,图5为本申请社交媒体灾害有效信息检测模型的构建装置的一种结构示意图,在本申请中,社交媒体灾害有效信息检测模型的构建装置500具体可包括如下结构:
获取单元501,用于获取目标社交媒体平台上的用户发布信息,用户发布数据为目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
抽取单元502,用于通过CRFTM抽取用户发布信息中的主题信息,在抽取处理过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息;
训练单元503,用于以主题信息作为训练数据,训练BERT模型识别输入数据中的灾害有效信息,灾害有效信息是指对于特定灾害事件的响应有所帮助的信息。
在一种示例性的实现方式中,在抽取处理过程中,CRFTM具体用于:
利用基于词向量的最小平均距离度量不同短文本之间的距离,并在不同短文本之间找到语义相关的词,在与语义相关的词被分配到同一主题标签的概率更高的情况下,利用聚类算法将不同短文本聚合成文本长度更长的伪文档;
为整个语料采样一个主题分布θ~Dir(α),对于每个主题k采样一个词分布φk~Dir(β),α和β是狄利克雷先验超参数,对于每个伪文档d采样每个词
Figure BDA0003552861440000171
每个词的主题分配zd可由下式计算:
Figure BDA0003552861440000172
其中,xdi表示第i个词的上下文相关词,xd表示上下文相关词的集合,Ψ表示考虑语义相关性影响的势能函数,Nd表示d中词的个数,在CRFTM中,坍缩吉布斯采样法用于推断主题标签的后验分布,伪文档d中单词xdi的主题zdi可由下式计算:
Figure BDA0003552861440000173
其中,
Figure BDA0003552861440000174
表示当词wdi从主题k或伪文档d中排除时,该词被分配给主题k的次数,V表示词汇表的维度,文档的主题分布θ和主题词的分布φ可分别由下式计算:
Figure BDA0003552861440000175
Figure BDA0003552861440000176
其中,K表示主题的个数。
在又一种示例性的实现方式中,BERT模型的训练过程包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本,其中n表示短文本的长度,tj表示短文本中的第j个字符,每个字符将被表示为字符向量、位置向量和分段向量。字符向量用来表示不同的字符,位置向量来获取位置信息,分段向量用来区分不同语句,通过向量化过程之后,E={e1,e2,...,ej,...,en}代替字符集合T作为模型的输入;
通过自注意力和多头注意力机制,BERT模型将E映射为一系列隐藏表示H={h1,h2,...,hj,...,hn},[CLS]作为第一个字符被添加到字符序列中,它的隐藏状态hc被用作BERT模型的输出向量表示:
Figure BDA0003552861440000181
其中,dBERT表示BERT模型中输出层维度的大小,对于主题信息Rw,利用单词总和表示法推断短文本的主题特征p(z∣d):
Figure BDA0003552861440000182
其中,p(w∣d)表示w在d中出现的次数,利用前期融合的方法将主题信息Rw和BERT模型的输出hc进行融合:
Figure BDA0003552861440000183
其中,
Figure BDA0003552861440000184
表示连接运算符。
在又一种示例性的实现方式中,BERT模型在训练过程中的微调阶段,利用半监督生成对抗网络SGAN实现半监督学习,以改进模型的检测性能;
在SGAN中,判别器模块将数据划分为(c+1)个类别,真实数据被分类为目标类别之一,记为(1,...,c),而生成器生成的数据被分类为新的生成类,记为(c+1)。
G表示生成器模块,D表示判别器模块,pG是生成器概率分布,pD是真实数据概率分布,pm(y=c+1∣x)表示数据x属于新的生成类的概率,pm(y∈(1,...,c)∣x)表示x属于与原始类别关联的真实数据的概率,为训练一个半监督的c类分类器,D的损失函数LD定义为:
LD=Lsupervised+Lunsupervised
损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised
Figure BDA0003552861440000185
其中,Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失;
生成器模块G生成的数据与从真实数据概率分布pD采样的数据尽可能相似,生成器模块G的训练目标是学习出判别器模块中间层特征的期望值,通过训练判别器模块D,SGAN捕获最能区分真实数据和G生成数据的那些特征,则生成器模块G的特征匹配损失函数定义为:
Figure BDA0003552861440000191
其中,f(x)表示激活函数,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失,当生成器模块G生成的样本数据输入判别器模块D到时,它们的特征表示与真实数据非常相似,SGAN还需要考虑判别器模块D将生成的数据分类为真实数据所产生的误差Lgenerated
Lgenerated=Ex~pG(x)log[1-pm(y=c+1∣x)],
生成器模块D的最终损失函数为LG=Lfm+Lgenerated
本申请还从硬件结构角度提供了一种处理设备,参阅图6,图6示出了本申请处理设备的一种结构示意图,具体的,本申请处理设备可包括处理器601、存储器602以及输入输出设备603,处理器601用于执行存储器602中存储的计算机程序时实现如图1对应实施例中社交媒体灾害有效信息检测模型的构建方法的各步骤;或者,处理器601用于执行存储器602中存储的计算机程序时实现如图5对应实施例中各单元的功能,存储器602用于存储处理器601执行上述图1对应实施例中社交媒体灾害有效信息检测模型的构建方法所需的计算机程序。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器602中,并由处理器601执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
处理设备可包括,但不仅限于处理器601、存储器602、输入输出设备603。本领域技术人员可以理解,示意仅仅是处理设备的示例,并不构成对处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如处理设备还可以包括网络接入设备、总线等,处理器601、存储器602、输入输出设备603等通过总线相连。
处理器601可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是处理设备的控制中心,利用各种接口和线路连接整个设备的各个部分。
存储器602可用于存储计算机程序和/或模块,处理器601通过运行或执行存储在存储器602内的计算机程序和/或模块,以及调用存储在存储器602内的数据,实现计算机装置的各种功能。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据处理设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器601用于执行存储器602中存储的计算机程序时,具体可实现以下功能:
获取目标社交媒体平台上的用户发布信息,用户发布数据为目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
通过CRFTM抽取用户发布信息中的主题信息,在抽取处理过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息;
以主题信息作为训练数据,训练BERT模型识别输入数据中的灾害有效信息,灾害有效信息是指对于特定灾害事件的响应有所帮助的信息。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的社交媒体灾害有效信息检测模型的构建装置、处理设备及其相应单元的具体工作过程,可以参考如图1对应实施例中社交媒体灾害有效信息检测模型的构建方法的说明,具体在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请如图1对应实施例中社交媒体灾害有效信息检测模型的构建方法的步骤,具体操作可参考如图1对应实施例中社交媒体灾害有效信息检测模型的构建方法的说明,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(Read Only Memory,ROM)、随机存取记忆体(Random Access Memory,RAM)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请如图1对应实施例中社交媒体灾害有效信息检测模型的构建方法的步骤,因此,可以实现本申请如图1对应实施例中社交媒体灾害有效信息检测模型的构建方法所能实现的有益效果,详见前面的说明,在此不再赘述。
以上对本申请提供的社交媒体灾害有效信息检测模型的构建方法、装置、处理设备以及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种社交媒体灾害有效信息检测模型的构建方法,其特征在于,所述方法包括:
获取目标社交媒体平台上的用户发布信息,所述用户发布数据为所述目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
通过条件随机场正则化主体模型CRFTM抽取所述用户发布信息中的主题信息,在抽取处理过程中,所述CRFTM将所述用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从所述伪文档中提取出所述主题信息;
以所述主题信息作为训练数据,训练来自变换器的双向编码器表征量BERT模型识别输入数据中的灾害有效信息,所述灾害有效信息是指对于所述特定灾害事件的响应有所帮助的信息。
2.根据权利要求1所述的方法,其特征在于,在所述抽取处理过程中,所述CRFTM具体用于:
利用基于词向量的最小平均距离度量不同短文本之间的距离,并在所述不同短文本之间找到语义相关的词,在所述与语义相关的词被分配到同一主题标签的概率更高的情况下,利用聚类算法将所述不同短文本聚合成文本长度更长的所述伪文档;
为整个语料采样一个主题分布θ~Dir(α),对于每个主题k采样一个词分布φk~Dir(β),α和β是狄利克雷先验超参数,对于每个伪文档d采样每个词
Figure FDA0003552861430000011
每个词的主题分配zd可由下式计算:
Figure FDA0003552861430000012
其中,xdi表示第i个词的上下文相关词,xd表示上下文相关词的集合,Ψ表示考虑语义相关性影响的势能函数,Nd表示d中词的个数,在所述CRFTM中,坍缩吉布斯采样法用于推断主题标签的后验分布,所述伪文档d中单词xdi的主题zdi可由下式计算:
Figure FDA0003552861430000013
其中,
Figure FDA0003552861430000014
表示当词wdi从所述主题k或所述伪文档d中排除时,该词被分配给主题k的次数,V表示词汇表的维度,文档的主题分布θ和主题词的分布φ可分别由下式计算:
Figure FDA0003552861430000021
Figure FDA0003552861430000022
其中,K表示主题的个数。
3.根据权利要求1所述的方法,其特征在于,所述BERT模型的训练过程包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本,其中n表示短文本的长度,tj表示短文本中的第j个字符,每个字符将被表示为字符向量、位置向量和分段向量,所述字符向量用来表示不同的字符,所述位置向量来获取位置信息,所述分段向量用来区分不同语句,通过向量化过程之后,E={e1,e2,...,ej,...,en}代替字符集合T作为模型的输入;
通过自注意力和多头注意力机制,所述BERT模型将E映射为一系列隐藏表示H={h1,h2,...,hj,...,hn},[CLS]作为第一个字符被添加到字符序列中,它的隐藏状态hc被用作所述BERT模型的输出向量表示:
Figure FDA0003552861430000023
其中,dBERT表示所述BERT模型中输出层维度的大小,对于主题信息Rw,利用单词总和表示法推断短文本的主题特征p(z∣d):
Figure FDA0003552861430000024
其中,p(w∣d)表示w在d中出现的次数,利用前期融合的方法将所述主题信息Rw和所述BERT模型的输出hc进行融合:
Figure FDA0003552861430000025
其中,
Figure FDA0003552861430000026
表示连接运算符。
4.根据权利要求1所述的方法,其特征在于,所述BERT模型在训练过程中的微调阶段,利用半监督生成对抗网络SGAN实现半监督学习,以改进模型的检测性能;
在所述SGAN中,判别器模块将数据划分为(c+1)个类别,真实数据被分类为目标类别之一,记为(1,...,c),而生成器生成的数据被分类为新的生成类,记为(c+1),
G表示生成器模块,D表示判别器模块,pG是生成器概率分布,pD是真实数据概率分布,pm(y=c+1∣x)表示数据x属于所述新的生成类的概率,pm(y∈(1,...,c)∣x)表示x属于与原始类别关联的真实数据的概率,为训练一个半监督的c类分类器,D的损失函数LD定义为:
LD=Lsupervised+Lunsupervised
所述损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised
Figure FDA0003552861430000031
其中,Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失,Lunsupervised表示将未标记的真实数据分类为所述新的生成类和将生成的数据分类为真实数据的累积损失;
生成器模块G生成的数据与从真实数据概率分布pD采样的数据尽可能相似,所述生成器模块G的训练目标是学习出判别器模块中间层特征的期望值,通过训练判别器模块D,所述SGAN捕获最能区分真实数据和G生成数据的那些特征,则生成器模块G的特征匹配损失函数定义为:
Figure FDA0003552861430000032
其中,f(x)表示激活函数,Lunsupervised表示将未标记的真实数据分类为所述新的生成类和将生成的数据分类为真实数据的累积损失,当所述生成器模块G生成的样本数据输入所述判别器模块D到时,它们的特征表示与真实数据非常相似,所述SGAN还需要考虑所述判别器模块D将生成的数据分类为真实数据所产生的误差Lgenerated
Lgenerated=Ex~pG(x)log[1-pm(y=c+1∣x)],
所述生成器模块D的最终损失函数为LG=Lfm+Lgenerated
5.一种社交媒体灾害有效信息检测模型的构建装置,其特征在于,所述装置包括:
获取单元,用于获取目标社交媒体平台上的用户发布信息,所述用户发布数据为所述目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
抽取单元,用于通过条件随机场正则化主体模型CRFTM抽取所述用户发布信息中的主题信息,在抽取处理过程中,所述CRFTM将所述用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从所述伪文档中提取出所述主题信息;
训练单元,用于以所述主题信息作为训练数据,训练来自变换器的双向编码器表征量BERT模型识别输入数据中的灾害有效信息,所述灾害有效信息是指对于所述特定灾害事件的响应有所帮助的信息。
6.根据权利要求5所述的装置,其特征在于,在所述抽取处理过程中,所述CRFTM具体用于:
利用基于词向量的最小平均距离度量不同短文本之间的距离,并在所述不同短文本之间找到语义相关的词,在所述与语义相关的词被分配到同一主题标签的概率更高的情况下,利用聚类算法将所述不同短文本聚合成文本长度更长的所述伪文档;
为整个语料采样一个主题分布θ~Dir(α),对于每个主题k采样一个词分布φk~Dir(β),α和β是狄利克雷先验超参数,对于每个伪文档d采样每个词
Figure FDA0003552861430000041
每个词的主题分配zd可由下式计算:
Figure FDA0003552861430000042
其中,xdi表示第i个词的上下文相关词,xd表示上下文相关词的集合,Ψ表示考虑语义相关性影响的势能函数,Nd表示d中词的个数,在所述CRFTM中,坍缩吉布斯采样法用于推断主题标签的后验分布,所述伪文档d中单词xdi的主题zdi可由下式计算:
Figure FDA0003552861430000051
其中,
Figure FDA0003552861430000052
表示当词wdi从所述主题k或所述伪文档d中排除时,该词被分配给主题k的次数,V表示词汇表的维度,文档的主题分布θ和主题词的分布φ可分别由下式计算:
Figure FDA0003552861430000053
Figure FDA0003552861430000054
其中,K表示主题的个数。
7.根据权利要求5所述的装置,其特征在于,所述BERT模型的训练过程包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本,其中n表示短文本的长度,tj表示短文本中的第j个字符,每个字符将被表示为字符向量、位置向量和分段向量,所述字符向量用来表示不同的字符,所述位置向量来获取位置信息,所述分段向量用来区分不同语句,通过向量化过程之后,E={e1,e2,...,ej,...,en}代替字符集合T作为模型的输入;
通过自注意力和多头注意力机制,所述BERT模型将E映射为一系列隐藏表示H={h1,h2,...,hj,...,hn},[CLS]作为第一个字符被添加到字符序列中,它的隐藏状态hc被用作所述BERT模型的输出向量表示:
Figure FDA0003552861430000055
其中,dBERT表示所述BERT模型中输出层维度的大小,对于主题信息Rw,利用单词总和表示法推断短文本的主题特征p(z∣d):
Figure FDA0003552861430000056
其中,p(w∣d)表示w在d中出现的次数,利用前期融合的方法将所述主题信息Rw和所述BERT模型的输出hc进行融合:
Figure FDA0003552861430000061
其中,
Figure FDA0003552861430000062
表示连接运算符。
8.根据权利要求5所述的装置,其特征在于,所述BERT模型在训练过程中的微调阶段,利用半监督生成对抗网络SGAN实现半监督学习,以改进模型的检测性能;
在所述SGAN中,判别器模块将数据划分为(c+1)个类别,真实数据被分类为目标类别之一,记为(1,...,c),而生成器生成的数据被分类为新的生成类,记为(c+1),
G表示生成器模块,D表示判别器模块,pG是生成器概率分布,pD是真实数据概率分布,pm(y=c+1∣x)表示数据x属于所述新的生成类的概率,pm(y∈(1,...,c)∣x)表示x属于与原始类别关联的真实数据的概率,为训练一个半监督的c类分类器,D的损失函数LD定义为:
LD=Lsupervised+Lunsupervised
所述损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised
Figure FDA0003552861430000063
其中,Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失,Lunsupervised表示将未标记的真实数据分类为所述新的生成类和将生成的数据分类为真实数据的累积损失;
生成器模块G生成的数据与从真实数据概率分布pD采样的数据尽可能相似,所述生成器模块G的训练目标是学习出判别器模块中间层特征的期望值,通过训练判别器模块D,所述SGAN捕获最能区分真实数据和G生成数据的那些特征,则生成器模块G的特征匹配损失函数定义为:
Figure FDA0003552861430000064
其中,f(x)表示激活函数,Lunsupervised表示将未标记的真实数据分类为所述新的生成类和将生成的数据分类为真实数据的累积损失,当所述生成器模块G生成的样本数据输入所述判别器模块D到时,它们的特征表示与真实数据非常相似,所述SGAN还需要考虑所述判别器模块D将生成的数据分类为真实数据所产生的误差Lgenerated
Lgenerated=Ex~pG(x)log[1-pm(y=c+1∣x)],
所述生成器模块D的最终损失函数为LG=Lfm+Lgenerated
9.一种处理设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至4任一项所述的方法。
CN202210267297.2A 2022-03-18 2022-03-18 一种社交媒体灾害有效信息检测模型的构建方法 Pending CN114818724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210267297.2A CN114818724A (zh) 2022-03-18 2022-03-18 一种社交媒体灾害有效信息检测模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210267297.2A CN114818724A (zh) 2022-03-18 2022-03-18 一种社交媒体灾害有效信息检测模型的构建方法

Publications (1)

Publication Number Publication Date
CN114818724A true CN114818724A (zh) 2022-07-29

Family

ID=82528683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210267297.2A Pending CN114818724A (zh) 2022-03-18 2022-03-18 一种社交媒体灾害有效信息检测模型的构建方法

Country Status (1)

Country Link
CN (1) CN114818724A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115730237A (zh) * 2022-11-28 2023-03-03 智慧眼科技股份有限公司 垃圾邮件检测方法、装置、计算机设备及存储介质
CN117807603A (zh) * 2024-02-29 2024-04-02 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115730237A (zh) * 2022-11-28 2023-03-03 智慧眼科技股份有限公司 垃圾邮件检测方法、装置、计算机设备及存储介质
CN115730237B (zh) * 2022-11-28 2024-04-23 智慧眼科技股份有限公司 垃圾邮件检测方法、装置、计算机设备及存储介质
CN117807603A (zh) * 2024-02-29 2024-04-02 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质
CN117807603B (zh) * 2024-02-29 2024-04-30 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Zeberga et al. [Retracted] A Novel Text Mining Approach for Mental Health Prediction Using Bi‐LSTM and BERT Model
Shrivastava et al. An effective approach for emotion detection in multimedia text data using sequence based convolutional neural network
Bharti et al. Text‐Based Emotion Recognition Using Deep Learning Approach
Raj et al. An application to detect cyberbullying using machine learning and deep learning techniques
Snyder et al. Interactive learning for identifying relevant tweets to support real-time situational awareness
CN107766585B (zh) 一种面向社交网络的特定事件抽取方法
Sundararajan et al. Multi‐Rule Based Ensemble Feature Selection Model for Sarcasm Type Detection in Twitter
Bonet-Jover et al. Exploiting discourse structure of traditional digital media to enhance automatic fake news detection
Mehta et al. Sentiment analysis of tweets using supervised learning algorithms
Verma et al. Suicide ideation detection: a comparative study of sequential and transformer hybrid algorithms
Kumari et al. AI_ML_NIT_Patna@ TRAC-2: Deep learning approach for multi-lingual aggression identification
Kolajo et al. Real-time event detection in social media streams through semantic analysis of noisy terms
CN114818724A (zh) 一种社交媒体灾害有效信息检测模型的构建方法
Hoq et al. Sentiment analysis of bangla language using deep learning approaches
Paul et al. Classification of crisis-related data on Twitter using a deep learning-based framework
Mallik et al. Word2Vec and LSTM based deep learning technique for context-free fake news detection
Thakur et al. A review on text based emotion recognition system
Çoban et al. Facebook tells me your gender: an exploratory study of gender prediction for Turkish Facebook users
Nair et al. Fake news detection model for regional language
Rezaei et al. Event detection in twitter by deep learning classification and multi label clustering virtual backbone formation
Sharma et al. A transformer-based model for evaluation of information relevance in online social-media: A case study of covid-19 media posts
Upadhyay et al. SatCoBiLSTM: Self-attention based hybrid deep learning framework for crisis event detection in social media
Akdemir et al. A review on deep learning applications with semantics
Kinariwala et al. Onto_TML: Auto-labeling of topic models
Syaputra et al. Improving mental health surveillance over Twitter text classification using word embedding techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination