CN114818724A - 一种社交媒体灾害有效信息检测模型的构建方法 - Google Patents
一种社交媒体灾害有效信息检测模型的构建方法 Download PDFInfo
- Publication number
- CN114818724A CN114818724A CN202210267297.2A CN202210267297A CN114818724A CN 114818724 A CN114818724 A CN 114818724A CN 202210267297 A CN202210267297 A CN 202210267297A CN 114818724 A CN114818724 A CN 114818724A
- Authority
- CN
- China
- Prior art keywords
- information
- data
- word
- model
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 238000010276 construction Methods 0.000 title description 4
- 238000000034 method Methods 0.000 claims abstract description 86
- 238000012549 training Methods 0.000 claims abstract description 74
- 239000013598 vector Substances 0.000 claims abstract description 57
- 230000008569 process Effects 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 230000004044 response Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 54
- 230000015654 memory Effects 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 20
- 230000001186 cumulative effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000005381 potential energy Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000006424 Flood reaction Methods 0.000 description 1
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种社交媒体灾害有效信息检测模型的构建方法,用于通过CRFTM来抽取短文本的主题信息,再融合该主题信息进行BERT模型对于检测灾害有效性的训练,不仅有助于降低了训练成本,也可提高模型的检测精度,模型的检测性能得到显著的提升。方法包括:获取目标社交媒体平台上的用户发布信息;通过CRFTM抽取用户发布信息中的主题信息,在抽取处理过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息;以主题信息作为训练数据,训练BERT模型识别输入数据中的灾害有效信息,灾害有效信息是指对于特定灾害事件的响应有所帮助的信息。
Description
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种社交媒体灾害有效信息检测模型的构建方法。
背景技术
当经历疫情、洪水等突发事件时,用户往往会在推特、微博等社交媒体平台上发布各种信息来寻求帮助或分享事件动态,这些信息中有一部分包含诸如疑似病例、被困人员、紧急求助、设施故障等对于应急救援或者应急响应有帮助的内容,称为灾害有效信息,这些灾害有效信息是一种重要的突发事件信息源,有助于应急响应组织进行救援活动、舆情应对和态势感知。
当前,从社交媒体网站中实时获取大量信息的数据采集技术已非常成熟,然而,识别其中的有效信息面临严重的信息过载问题,即这些信息中含有大量虚假、冗余或者无关的文本内容。因此,从海量的社交媒体内容中检测出能为应急智能决策分析提供支撑的灾害有效信息,对于提高应急响应组织对突发事件的态势感知和应急响应能力,具有重要的意义。
社交媒体灾害有效信息检测任务是将社交媒体上发布的短文本内容划分为灾害有效信息和灾害无效信息两类。近年来,来自变换器的双向编码器表征量(BidirectionalEncoder Representations from Transformers,BERT)模型作为一种常用的预训练语言模型在诸如文本分类和事件检测等自然语言处理任务取得较大进展,也被用于社交媒体灾害有效信息检测任务上。
然而,社交媒体上的短文本具有文本长度短、信息稀疏、用语不规范或者噪声大等特点,导致基于BERT模型的灾害有效信息的检测性能存在较差的问题,不仅训练成本高,且投入使用后的检测精度也存在限制。
发明内容
本申请提供了一种社交媒体灾害有效信息检测模型的构建方法,用于通过条件随机场正则化主题模型(Conditional Random Field regularized Topic Model,CRFTM)来抽取短文本的主题信息,再融合该主题信息进行BERT模型对于检测灾害有效性的训练,不仅有助于降低了训练成本,也可提高模型的检测精度,模型的检测性能得到显著的提升。
第一方面,本申请提供了一种社交媒体灾害有效信息检测模型的构建方法,方法包括:
获取目标社交媒体平台上的用户发布信息,用户发布数据为目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
通过CRFTM抽取用户发布信息中的主题信息,在抽取处理过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息;
以主题信息作为训练数据,训练BERT模型识别输入数据中的灾害有效信息,灾害有效信息是指对于特定灾害事件的响应有所帮助的信息。
结合本申请第一方面,在本申请第一方面第一种可能的实现方式中,在抽取处理过程中,CRFTM具体用于:
利用基于词向量的最小平均距离度量不同短文本之间的距离,并在不同短文本之间找到语义相关的词,在与语义相关的词被分配到同一主题标签的概率更高的情况下,利用聚类算法将不同短文本聚合成文本长度更长的伪文档;
其中,xdi表示第i个词的上下文相关词,xd表示上下文相关词的集合,Ψ表示考虑语义相关性影响的势能函数,Nd表示d中词的个数,在CRFTM中,坍缩吉布斯采样法用于推断主题标签的后验分布,伪文档d中单词xdi的主题zdi可由下式计算:
其中,K表示主题的个数。
结合本申请第一方面,在本申请第一方面第二种可能的实现方式中,BERT模型的训练过程包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本,其中n表示短文本的长度,tj表示短文本中的第j个字符,每个字符将被表示为字符向量、位置向量和分段向量,字符向量用来表示不同的字符,位置向量来获取位置信息,分段向量用来区分不同语句,通过向量化过程之后,E={e1,e2,...,ej,...,en}代替字符集合T作为模型的输入;
通过自注意力和多头注意力机制,BERT模型将E映射为一系列隐藏表示H={h1,h2,...,hj,...,hn},[CLS]作为第一个字符被添加到字符序列中,它的隐藏状态hc被用作BERT模型的输出向量表示:
其中,dBERT表示BERT模型中输出层维度的大小,对于主题信息Rw,利用单词总和表示法推断短文本的主题特征p(z∣d):
其中,p(w∣d)表示w在d中出现的次数,利用前期融合的方法将主题信息Rw和BERT模型的输出hc进行融合:
结合本申请第一方面,在本申请第一方面第三种可能的实现方式中,BERT模型在训练过程中的微调阶段,利用半监督生成对抗网络SGAN实现半监督学习,以改进模型的检测性能;
在SGAN中,判别器模块将数据划分为(c+1)个类别,真实数据被分类为目标类别之一,记为(1,...,c),而生成器生成的数据被分类为新的生成类,记为(c+1),
G表示生成器模块,D表示判别器模块,pG是生成器概率分布,pD是真实数据概率分布,pm(y=c+1∣x)表示数据x属于新的生成类的概率,pm(y∈(1,...,c)∣x)表示x属于与原始类别关联的真实数据的概率,为训练一个半监督的c类分类器,D的损失函数LD定义为:
LD=Lsupervised+Lunsupervised,
损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised:
其中,Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失;
生成器模块G生成的数据与从真实数据概率分布pD采样的数据尽可能相似,生成器模块G的训练目标是学习出判别器模块中间层特征的期望值,通过训练判别器模块D,SGAN捕获最能区分真实数据和G生成数据的那些特征,则生成器模块G的特征匹配损失函数定义为:
其中,f(x)表示激活函数,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失,当生成器模块G生成的样本数据输入判别器模块D到时,它们的特征表示与真实数据非常相似,SGAN还需要考虑判别器模块D将生成的数据分类为真实数据所产生的误差Lgenerated:
Lgenerated=Ex~pG(x)log[1-pm(y=c+1∣x)],
生成器模块D的最终损失函数为LG=Lfm+Lgenerated。
第二方面,本申请提供了一种社交媒体灾害有效信息检测模型的构建装置,装置包括:
获取单元,用于获取目标社交媒体平台上的用户发布信息,用户发布数据为目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
抽取单元,用于通过CRFTM抽取用户发布信息中的主题信息,在抽取处理过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息;
训练单元,用于以主题信息作为训练数据,训练BERT模型识别输入数据中的灾害有效信息,灾害有效信息是指对于特定灾害事件的响应有所帮助的信息。
结合本申请第二方面,在本申请第二方面第一种可能的实现方式中,在抽取处理过程中,CRFTM具体用于:
利用基于词向量的最小平均距离度量不同短文本之间的距离,并在不同短文本之间找到语义相关的词,在与语义相关的词被分配到同一主题标签的概率更高的情况下,利用聚类算法将不同短文本聚合成文本长度更长的伪文档;
其中,xdi表示第i个词的上下文相关词,xd表示上下文相关词的集合,Ψ表示考虑语义相关性影响的势能函数,Nd表示d中词的个数,在CRFTM中,坍缩吉布斯采样法用于推断主题标签的后验分布,伪文档d中单词xdi的主题zdi可由下式计算:
其中,K表示主题的个数。
结合本申请第二方面,在本申请第二方面第二种可能的实现方式中,BERT模型的训练过程包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本,其中n表示短文本的长度,tj表示短文本中的第j个字符,每个字符将被表示为字符向量、位置向量和分段向量,字符向量用来表示不同的字符,位置向量来获取位置信息,分段向量用来区分不同语句,通过向量化过程之后,E={e1,e2,...,ej,...,en}代替字符集合T作为模型的输入;
通过自注意力和多头注意力机制,BERT模型将E映射为一系列隐藏表示H={h1,h2,...,hj,...,hn},[CLS]作为第一个字符被添加到字符序列中,它的隐藏状态hc被用作BERT模型的输出向量表示:
其中,dBERT表示BERT模型中输出层维度的大小,对于主题信息Rw,利用单词总和表示法推断短文本的主题特征p(z∣d):
其中,p(w∣d)表示w在d中出现的次数,利用前期融合的方法将主题信息Rw和BERT模型的输出hc进行融合:
结合本申请第二方面,在本申请第二方面第三种可能的实现方式中,BERT模型在训练过程中的微调阶段,利用半监督生成对抗网络SGAN实现半监督学习,以改进模型的检测性能;
在SGAN中,判别器模块将数据划分为(c+1)个类别,真实数据被分类为目标类别之一,记为(1,...,c),而生成器生成的数据被分类为新的生成类,记为(c+1),
G表示生成器模块,D表示判别器模块,pG是生成器概率分布,pD是真实数据概率分布,pm(y=c+1∣x)表示数据x属于新的生成类的概率,pm(y∈(1,...,c)∣x)表示x属于与原始类别关联的真实数据的概率,为训练一个半监督的c类分类器,D的损失函数LD定义为:
LD=Lsupervised+Lunsupervised,
损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised:
其中,Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失;
生成器模块G生成的数据与从真实数据概率分布pD采样的数据尽可能相似,生成器模块G的训练目标是学习出判别器模块中间层特征的期望值,通过训练判别器模块D,SGAN捕获最能区分真实数据和G生成数据的那些特征,则生成器模块G的特征匹配损失函数定义为:
其中,f(x)表示激活函数,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失,当生成器模块G生成的样本数据输入判别器模块D到时,它们的特征表示与真实数据非常相似,SGAN还需要考虑判别器模块D将生成的数据分类为真实数据所产生的误差Lgenerated:
Lgenerated=Ex~pG(x)log[1-pm(y=c+1∣x)],
生成器模块D的最终损失函数为LG=Lfm+Lgenerated。
第三方面,本申请提供了一种处理设备,包括处理器和存储器,存储器中存储有计算机程序,处理器调用存储器中的计算机程序时执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。
第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。
从以上内容可得出,本申请具有以下的有益效果:
针对于社交媒体平台上信息的灾害有效性的检测,本申请在通过BERT训练一灾害有效性的检测模型之前,通过CRFTM来抽取平台上用户发布信息中的主题信息,在具体的抽取过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息,如此提取出的主题信息具有很强的一致性,在通过该主题信息与BERT相结合来训练灾害有效性的检测模型时,则可大大丰富短文本的语义,由此,不仅有助于降低训练成本,也可提高模型的检测精度,模型的检测性能得到显著的提升。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请社交媒体灾害有效信息检测模型的构建方法的一种流程示意图;
图2为本申请训练BERT模型的一种训练框架示意图;
图3为本申请检测模型的训练框架结构的一种框架示意图;
图4为本申请检测模型与基准模型的检测性能的一种比较示意图;
图5为本申请社交媒体灾害有效信息检测模型的构建装置的一种结构示意图;
图6为本申请处理设备的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。
本申请中所出现的模块的划分,是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。
在介绍本申请提供的社交媒体灾害有效信息检测模型的构建方法之前,首先介绍本申请所涉及的背景内容。
本申请提供的社交媒体灾害有效信息检测模型的构建方法、装置以及计算机可读存储介质,可应用于处理设备,用于通过CRFTM来抽取短文本的主题信息,再融合该主题信息进行BERT模型对于检测灾害有效性的训练,不仅有助于降低了训练成本,也可提高模型的检测精度,模型的检测性能得到显著的提升。
本申请提及的社交媒体灾害有效信息检测模型的构建方法,其执行主体可以为社交媒体灾害有效信息检测模型的构建装置,或者集成了该社交媒体灾害有效信息检测模型的构建装置的服务器、物理主机或者用户设备(User Equipment,UE)等不同类型的处理设备。其中,社交媒体灾害有效信息检测模型的构建装置可以采用硬件或者软件的方式实现,UE具体可以为智能手机、平板电脑、笔记本电脑、台式电脑或者个人数字助理(PersonalDigital Assistant,PDA)等终端设备,处理设备可以通过设备集群的方式设置。
下面,开始介绍本申请提供的社交媒体灾害有效信息检测模型的构建方法。
首先,参阅图1,图1示出了本申请社交媒体灾害有效信息检测模型的构建方法的一种流程示意图,本申请提供的社交媒体灾害有效信息检测模型的构建方法,具体可包括如下步骤S101至步骤S103:
步骤S101,获取目标社交媒体平台上的用户发布信息,用户发布数据为目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
可以理解,对于本申请所涉及的社交媒体平台,可以是任意类型的社交每日平台,在平台上,用户可以通过文字、声音、图片或者视频等方式发表自身的想法,当然,若涉及到声音、图片或者视频,考虑到本申请是以文本的角度进行处理的,因此还可涉及到从声音、图片或者视频的内容中提取出相应的文本,所涉及的提取技术通常为现有技术,本申请在此不做具体介绍。当然,在实际应用中,本申请也可引入自创的提取技术,来从声音、图片或者视频的内容中提取出相应的文字内容,形成可以处理的文本。
举例而言,社交媒体平台,可以为微博、抖音等不同类型的平台,用户既可以以自己发布动态的形式发布新的信息(包括信息转发),也可以在其他信息的评论区进行相关信息的发布,完成自身想法的表达。
与此同时,本申请所涉及的灾害有效性的检测,是为了筛选出用户所发布信息中对于特定灾害事件的响应有所帮助的信息的,因此首先在获取初始信息的过程中,是基于特定灾害事件进行获取的。
在平台上,用户针对特定灾害事件发布的行为信息,一般在其文本内容中直接包含有特定灾害事件的关键字,例如“疫情”、“洪水”等灾害事件特有的词汇,又或者,也可能存在特定灾害事件的关键字的相关谐音字、相关错别字的词汇,例如“qz(确诊)”、“隔梨”等,又或者,还可能是以更为隐蔽的指代词进行特定灾害事件的指代,这些和特定灾害事件相关的词汇,可以通过预设的方式进行汇总,以此提供用户针对特定灾害事件的行为信息的信息获取。
步骤S102,通过CRFTM抽取用户发布信息中的主题信息,在抽取处理过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息;
在得到与特定灾害事件相关的用户发布信息后,则可执行本申请特别配置的主题信息的抽取处理,以此为后面灾害有效性信息的检测模型提供良好的数据支持。
其中,该主题信息的抽取处理,是为了在样本数据的准备过程中处理出与特定灾害事件相关的主题,如此可以基于主题来精确地锁定、追踪出与特定灾害事件相关的文本内容,并从中确定其为灾害有效信息或者灾害无效信息。
CRFTM,即条件随机场正则化主题模型,对于其模型本身而言,可以理解为,是给定一组输入随机变量条件下,求另一组输出随机变量的条件概率分布的模型,特点是假设输出随机变量构成马尔科夫随机场,条件随机场可以用于不同的预测问题,对自然语言处理过程主要是线性条件随机场,这时,问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,学习方法为极大似然估计或者正则化的极大似然估计,条件随机场和隐马类似,对应得得三个基本问题:概率计算问题、学习问题和预测问题。
而在利用CRFTM进行主题信息的抽取过程中,本申请具体还可配置相应的主题信息抽取策略,即,将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息。
需要理解的是,主题模型作为一种常用的信息提取方法,在情感分析、事件检测等自然语言处理任务中得到了广泛的应用,传统的主题模型基于文档中的词共现信息推断主题。然而,由于社交媒体平台上用户信息具有短文本特征稀疏的特点,难以为主题建模提供足够的词共现信息。
为了缓解特征稀疏性问题,本申请在CRFTM的利用过程中,首先将语义相关短文本合并为较长的伪文档,然后将词向量与词相关知识相结合,以增强提取主题的一致性,从而可以获得主题信息的抽取具有显著提高的精度以及实用性,从而可以大大丰富短文本的语义。
步骤S103,以主题信息作为训练数据,训练BERT模型识别输入数据中的灾害有效信息,灾害有效信息是指对于特定灾害事件的响应有所帮助的信息。
在通过CFRTM获得与特定灾害事件相关的高精度的主题信息后,则可投入BERT模型的训练,如此在整个的模型训练框架中,融合短文本的主题信息与BERT模型,由于丰富了短文本语义,缓解短文本信息稀疏的问题,从而提取出适合社交媒体灾害有效信息检测任务的文本特征(以更鲁棒的短文本表示,扩展短文本语义特征),所以模型无论是在训练过程中,还是在实际使用过程中,对于输入数据中的灾害有效信息,都具有显著提高的检测精度,因而将模型的检测精度训练到预设的精度要求所需的训练时长明显缩短,而完成训练后的模型则可以更快的检测效率以及更高的检测精度完成输入数据中的灾害有效信息的检测。
从图1所示实施例可看出,针对于社交媒体平台上信息的灾害有效性的检测,本申请在通过BERT训练一灾害有效性的检测模型之前,通过CRFTM来抽取平台上用户发布信息中的主题信息,在具体的抽取过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息,如此提取出的主题信息具有很强的一致性,在通过该主题信息与BERT相结合来训练灾害有效性的检测模型时,则可大大丰富短文本的语义,由此,不仅有助于降低训练成本,也可提高模型的检测精度,模型的检测性能得到显著的提升。
进一步的,对于CRFTM对主题信息的抽取处理,本申请还配置有更为具体的落地实现方案。
具体的,在抽取处理过程中,CRFTM具体可以用于:
利用基于词向量的最小平均距离度量不同短文本之间的距离,并在不同短文本之间找到语义相关的词(距离度量方式),在与语义相关的词被分配到同一主题标签的概率更高的情况下,然后,利用聚类算法将不同短文本聚合成文本长度更长的伪文档;
其中,xdi表示第i个词的上下文相关词,xd表示上下文相关词的集合,Ψ表示考虑语义相关性影响的势能函数,Nd表示d中词的个数,在CRFTM中,坍缩吉布斯采样法用于推断主题标签的后验分布,伪文档d中单词xdi的主题zdi可由下式计算:
其中,K表示主题的个数。
此外,作为又一种适于实用的实现方式,在基于CFRTM抽取出的主题信息融入BERT模型的训练时,参阅图2示出的本申请训练BERT模型的一种训练框架示意图,BERT模型的训练过程具体还可包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本,其中n表示短文本的长度,tj表示短文本中的第j个字符,每个字符将被表示为字符向量、位置向量和分段向量。字符向量用来表示不同的字符,位置向量来获取位置信息,而分段向量用来区分不同语句,通过向量化过程之后,E={e1,e2,...,ej,...,en}代替字符集合T作为模型的输入;
然后,通过自注意力和多头注意力机制,BERT模型将E映射为一系列隐藏表示H={h1,h2,...,hj,...,hn},[CLS]作为第一个字符被添加到字符序列中,它的隐藏状态hc被用作BERT模型的输出向量表示:
其中,dBERT表示BERT模型中输出层维度的大小,对于主题信息Rw,利用单词总和表示法推断短文本的主题特征p(z∣d):
其中,p(w∣d)表示w在d中出现的次数,利用前期融合的方法将主题信息Rw和BERT模型的输出hc进行融合:
此外,在模型的训练过程中,作为又一种适于实用的实现方式,BERT模型在训练过程中的微调阶段,还可利用SGAN实现半监督学习,使用大量未标记的数据来改进模型的训练过程,以改进模型的检测性能。
具体的,可以参考图3示出的本申请检测模型的训练框架结构(添加了SGAN的对抗性训练)的一种框架示意图。
在SGAN中,判别器模块将数据划分为(c+1)个类别,真实数据被分类为目标类别之一,记为(1,...,c),而生成器生成的数据被分类为新的生成类,记为(c+1)。
G表示生成器模块,D表示判别器模块,pG是生成器概率分布,pD是真实数据概率分布,pm(y=c+1∣x)表示数据x属于新的生成类(c+1)的概率,pm(y∈(1,...,c)∣x)表示x属于与原始类别关联的真实数据的概率,为训练一个半监督的c类分类器,D的损失函数LD可以定义为:
LD=Lsupervised+Lunsupervised(8)损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised:
其中,Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失,Lunsupervised表示将未标记的真实数据分类为新的生成类(c+1)和将生成的数据分类为真实数据的累积损失;
生成器模块G生成的数据与从真实数据概率分布pD采样的数据尽可能相似,生成器模块G的训练目标是学习出判别器模块中间层特征的期望值,通过训练判别器模块D,SGAN捕获最能区分真实数据和G生成数据的那些特征,则生成器模块G的特征匹配损失函数可以定义为:
其中,f(x)表示激活函数,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失,当生成器模块G生成的样本数据输入判别器模块D到时,它们的特征表示与真实数据非常相似,SGAN还需要考虑判别器模块D将生成的数据分类为真实数据所产生的误差Lgenerated:
Lgenerated=Ex~pG(x)log[1-pm(y=c+1∣x)],
生成器模块D的最终损失函数为LG=Lfm+Lgenerated (11)
可以理解的是,虽然SGAN通常应用于计算机视觉领域,但本申请则可以通过使用它来扩展模型的训练框架,以提高社交媒体灾害有效信息检测的性能。在本申请中,SGAN和检测模型在微调阶段相互结合,这种训练方式通过添加包含生成器和判别器的SGAN层来调整检测模型的微调过程,从而提高模型的检测性能。
进一步的,为方便理解以上内容,本申请还可借助下面示出的一组实例进行说明。
考虑到不同检测模型的检测性能的比较,基准模型包括卷积神经网络(Convolutional Neural Networks,CNN)、双向长短记忆网络(Bi-directional LongShort Term Memory,BiLSTM)、BERT和ALBERT模型。
本申请使用社交媒体灾害有效信息检测的评价指标,包括准确率、召回率和F1值来对实验结果进行分析。
以推特平台为例,本申请在推特平台采集并标注了15935条短文本,其中7983条为灾害有效信息以及158341条未标注短文本,按照7:2:1的比例,将该数据集随机划分为训练集、验证集和测试集。
对于本申请的检测模型,运行1000次吉布斯采样并将狄利克雷先验参数设置为:α=50/K,β=0.01,主题数量设置为100。
对于CNN和BiLSTM,本申请使用300维开源的GloVe词向量,这些词向量将构建一个向量矩阵,将输入短文本的词转换为相应的词向量表示。
对于BERT和ALBERT,本申请采用预训练的12层BERT-base和albert-base-v2结构。
本申请使用Gelu作为激活函数,使用Adam优化器,学习率设置为5e-5,Dropout概率设置为0.2。
实验结果如图4示出的本申请检测模型与基准模型的检测性能的一种比较示意图所示,本申请所训练得到的检测模型(图4中记为TABERT)在3个评价指标上均要优于4种基准模型,从而验证了本申请模型训练框架的先进性。
以上是本申请提供社交媒体灾害有效信息检测模型的构建方法的介绍,为便于更好的实施本申请提供的社交媒体灾害有效信息检测模型的构建方法,本申请还从功能模块角度提供了一种社交媒体灾害有效信息检测模型的构建装置。
参阅图5,图5为本申请社交媒体灾害有效信息检测模型的构建装置的一种结构示意图,在本申请中,社交媒体灾害有效信息检测模型的构建装置500具体可包括如下结构:
获取单元501,用于获取目标社交媒体平台上的用户发布信息,用户发布数据为目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
抽取单元502,用于通过CRFTM抽取用户发布信息中的主题信息,在抽取处理过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息;
训练单元503,用于以主题信息作为训练数据,训练BERT模型识别输入数据中的灾害有效信息,灾害有效信息是指对于特定灾害事件的响应有所帮助的信息。
在一种示例性的实现方式中,在抽取处理过程中,CRFTM具体用于:
利用基于词向量的最小平均距离度量不同短文本之间的距离,并在不同短文本之间找到语义相关的词,在与语义相关的词被分配到同一主题标签的概率更高的情况下,利用聚类算法将不同短文本聚合成文本长度更长的伪文档;
其中,xdi表示第i个词的上下文相关词,xd表示上下文相关词的集合,Ψ表示考虑语义相关性影响的势能函数,Nd表示d中词的个数,在CRFTM中,坍缩吉布斯采样法用于推断主题标签的后验分布,伪文档d中单词xdi的主题zdi可由下式计算:
其中,K表示主题的个数。
在又一种示例性的实现方式中,BERT模型的训练过程包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本,其中n表示短文本的长度,tj表示短文本中的第j个字符,每个字符将被表示为字符向量、位置向量和分段向量。字符向量用来表示不同的字符,位置向量来获取位置信息,分段向量用来区分不同语句,通过向量化过程之后,E={e1,e2,...,ej,...,en}代替字符集合T作为模型的输入;
通过自注意力和多头注意力机制,BERT模型将E映射为一系列隐藏表示H={h1,h2,...,hj,...,hn},[CLS]作为第一个字符被添加到字符序列中,它的隐藏状态hc被用作BERT模型的输出向量表示:
其中,dBERT表示BERT模型中输出层维度的大小,对于主题信息Rw,利用单词总和表示法推断短文本的主题特征p(z∣d):
其中,p(w∣d)表示w在d中出现的次数,利用前期融合的方法将主题信息Rw和BERT模型的输出hc进行融合:
在又一种示例性的实现方式中,BERT模型在训练过程中的微调阶段,利用半监督生成对抗网络SGAN实现半监督学习,以改进模型的检测性能;
在SGAN中,判别器模块将数据划分为(c+1)个类别,真实数据被分类为目标类别之一,记为(1,...,c),而生成器生成的数据被分类为新的生成类,记为(c+1)。
G表示生成器模块,D表示判别器模块,pG是生成器概率分布,pD是真实数据概率分布,pm(y=c+1∣x)表示数据x属于新的生成类的概率,pm(y∈(1,...,c)∣x)表示x属于与原始类别关联的真实数据的概率,为训练一个半监督的c类分类器,D的损失函数LD定义为:
LD=Lsupervised+Lunsupervised,
损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised:
其中,Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失;
生成器模块G生成的数据与从真实数据概率分布pD采样的数据尽可能相似,生成器模块G的训练目标是学习出判别器模块中间层特征的期望值,通过训练判别器模块D,SGAN捕获最能区分真实数据和G生成数据的那些特征,则生成器模块G的特征匹配损失函数定义为:
其中,f(x)表示激活函数,Lunsupervised表示将未标记的真实数据分类为新的生成类和将生成的数据分类为真实数据的累积损失,当生成器模块G生成的样本数据输入判别器模块D到时,它们的特征表示与真实数据非常相似,SGAN还需要考虑判别器模块D将生成的数据分类为真实数据所产生的误差Lgenerated:
Lgenerated=Ex~pG(x)log[1-pm(y=c+1∣x)],
生成器模块D的最终损失函数为LG=Lfm+Lgenerated。
本申请还从硬件结构角度提供了一种处理设备,参阅图6,图6示出了本申请处理设备的一种结构示意图,具体的,本申请处理设备可包括处理器601、存储器602以及输入输出设备603,处理器601用于执行存储器602中存储的计算机程序时实现如图1对应实施例中社交媒体灾害有效信息检测模型的构建方法的各步骤;或者,处理器601用于执行存储器602中存储的计算机程序时实现如图5对应实施例中各单元的功能,存储器602用于存储处理器601执行上述图1对应实施例中社交媒体灾害有效信息检测模型的构建方法所需的计算机程序。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器602中,并由处理器601执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
处理设备可包括,但不仅限于处理器601、存储器602、输入输出设备603。本领域技术人员可以理解,示意仅仅是处理设备的示例,并不构成对处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如处理设备还可以包括网络接入设备、总线等,处理器601、存储器602、输入输出设备603等通过总线相连。
处理器601可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是处理设备的控制中心,利用各种接口和线路连接整个设备的各个部分。
存储器602可用于存储计算机程序和/或模块,处理器601通过运行或执行存储在存储器602内的计算机程序和/或模块,以及调用存储在存储器602内的数据,实现计算机装置的各种功能。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据处理设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器601用于执行存储器602中存储的计算机程序时,具体可实现以下功能:
获取目标社交媒体平台上的用户发布信息,用户发布数据为目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
通过CRFTM抽取用户发布信息中的主题信息,在抽取处理过程中,CRFTM将用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从伪文档中提取出主题信息;
以主题信息作为训练数据,训练BERT模型识别输入数据中的灾害有效信息,灾害有效信息是指对于特定灾害事件的响应有所帮助的信息。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的社交媒体灾害有效信息检测模型的构建装置、处理设备及其相应单元的具体工作过程,可以参考如图1对应实施例中社交媒体灾害有效信息检测模型的构建方法的说明,具体在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请如图1对应实施例中社交媒体灾害有效信息检测模型的构建方法的步骤,具体操作可参考如图1对应实施例中社交媒体灾害有效信息检测模型的构建方法的说明,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(Read Only Memory,ROM)、随机存取记忆体(Random Access Memory,RAM)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请如图1对应实施例中社交媒体灾害有效信息检测模型的构建方法的步骤,因此,可以实现本申请如图1对应实施例中社交媒体灾害有效信息检测模型的构建方法所能实现的有益效果,详见前面的说明,在此不再赘述。
以上对本申请提供的社交媒体灾害有效信息检测模型的构建方法、装置、处理设备以及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种社交媒体灾害有效信息检测模型的构建方法,其特征在于,所述方法包括:
获取目标社交媒体平台上的用户发布信息,所述用户发布数据为所述目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
通过条件随机场正则化主体模型CRFTM抽取所述用户发布信息中的主题信息,在抽取处理过程中,所述CRFTM将所述用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从所述伪文档中提取出所述主题信息;
以所述主题信息作为训练数据,训练来自变换器的双向编码器表征量BERT模型识别输入数据中的灾害有效信息,所述灾害有效信息是指对于所述特定灾害事件的响应有所帮助的信息。
2.根据权利要求1所述的方法,其特征在于,在所述抽取处理过程中,所述CRFTM具体用于:
利用基于词向量的最小平均距离度量不同短文本之间的距离,并在所述不同短文本之间找到语义相关的词,在所述与语义相关的词被分配到同一主题标签的概率更高的情况下,利用聚类算法将所述不同短文本聚合成文本长度更长的所述伪文档;
其中,xdi表示第i个词的上下文相关词,xd表示上下文相关词的集合,Ψ表示考虑语义相关性影响的势能函数,Nd表示d中词的个数,在所述CRFTM中,坍缩吉布斯采样法用于推断主题标签的后验分布,所述伪文档d中单词xdi的主题zdi可由下式计算:
其中,K表示主题的个数。
3.根据权利要求1所述的方法,其特征在于,所述BERT模型的训练过程包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本,其中n表示短文本的长度,tj表示短文本中的第j个字符,每个字符将被表示为字符向量、位置向量和分段向量,所述字符向量用来表示不同的字符,所述位置向量来获取位置信息,所述分段向量用来区分不同语句,通过向量化过程之后,E={e1,e2,...,ej,...,en}代替字符集合T作为模型的输入;
通过自注意力和多头注意力机制,所述BERT模型将E映射为一系列隐藏表示H={h1,h2,...,hj,...,hn},[CLS]作为第一个字符被添加到字符序列中,它的隐藏状态hc被用作所述BERT模型的输出向量表示:
其中,dBERT表示所述BERT模型中输出层维度的大小,对于主题信息Rw,利用单词总和表示法推断短文本的主题特征p(z∣d):
其中,p(w∣d)表示w在d中出现的次数,利用前期融合的方法将所述主题信息Rw和所述BERT模型的输出hc进行融合:
4.根据权利要求1所述的方法,其特征在于,所述BERT模型在训练过程中的微调阶段,利用半监督生成对抗网络SGAN实现半监督学习,以改进模型的检测性能;
在所述SGAN中,判别器模块将数据划分为(c+1)个类别,真实数据被分类为目标类别之一,记为(1,...,c),而生成器生成的数据被分类为新的生成类,记为(c+1),
G表示生成器模块,D表示判别器模块,pG是生成器概率分布,pD是真实数据概率分布,pm(y=c+1∣x)表示数据x属于所述新的生成类的概率,pm(y∈(1,...,c)∣x)表示x属于与原始类别关联的真实数据的概率,为训练一个半监督的c类分类器,D的损失函数LD定义为:
LD=Lsupervised+Lunsupervised,
所述损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised:
其中,Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失,Lunsupervised表示将未标记的真实数据分类为所述新的生成类和将生成的数据分类为真实数据的累积损失;
生成器模块G生成的数据与从真实数据概率分布pD采样的数据尽可能相似,所述生成器模块G的训练目标是学习出判别器模块中间层特征的期望值,通过训练判别器模块D,所述SGAN捕获最能区分真实数据和G生成数据的那些特征,则生成器模块G的特征匹配损失函数定义为:
其中,f(x)表示激活函数,Lunsupervised表示将未标记的真实数据分类为所述新的生成类和将生成的数据分类为真实数据的累积损失,当所述生成器模块G生成的样本数据输入所述判别器模块D到时,它们的特征表示与真实数据非常相似,所述SGAN还需要考虑所述判别器模块D将生成的数据分类为真实数据所产生的误差Lgenerated:
Lgenerated=Ex~pG(x)log[1-pm(y=c+1∣x)],
所述生成器模块D的最终损失函数为LG=Lfm+Lgenerated。
5.一种社交媒体灾害有效信息检测模型的构建装置,其特征在于,所述装置包括:
获取单元,用于获取目标社交媒体平台上的用户发布信息,所述用户发布数据为所述目标社交媒体平台上的用户针对特定灾害事件发布的行为信息;
抽取单元,用于通过条件随机场正则化主体模型CRFTM抽取所述用户发布信息中的主题信息,在抽取处理过程中,所述CRFTM将所述用户发布信息中的短文本合并为文本长度更长的伪文档,再通过词向量和词相关知识的结合,从所述伪文档中提取出所述主题信息;
训练单元,用于以所述主题信息作为训练数据,训练来自变换器的双向编码器表征量BERT模型识别输入数据中的灾害有效信息,所述灾害有效信息是指对于所述特定灾害事件的响应有所帮助的信息。
6.根据权利要求5所述的装置,其特征在于,在所述抽取处理过程中,所述CRFTM具体用于:
利用基于词向量的最小平均距离度量不同短文本之间的距离,并在所述不同短文本之间找到语义相关的词,在所述与语义相关的词被分配到同一主题标签的概率更高的情况下,利用聚类算法将所述不同短文本聚合成文本长度更长的所述伪文档;
其中,xdi表示第i个词的上下文相关词,xd表示上下文相关词的集合,Ψ表示考虑语义相关性影响的势能函数,Nd表示d中词的个数,在所述CRFTM中,坍缩吉布斯采样法用于推断主题标签的后验分布,所述伪文档d中单词xdi的主题zdi可由下式计算:
其中,K表示主题的个数。
7.根据权利要求5所述的装置,其特征在于,所述BERT模型的训练过程包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本,其中n表示短文本的长度,tj表示短文本中的第j个字符,每个字符将被表示为字符向量、位置向量和分段向量,所述字符向量用来表示不同的字符,所述位置向量来获取位置信息,所述分段向量用来区分不同语句,通过向量化过程之后,E={e1,e2,...,ej,...,en}代替字符集合T作为模型的输入;
通过自注意力和多头注意力机制,所述BERT模型将E映射为一系列隐藏表示H={h1,h2,...,hj,...,hn},[CLS]作为第一个字符被添加到字符序列中,它的隐藏状态hc被用作所述BERT模型的输出向量表示:
其中,dBERT表示所述BERT模型中输出层维度的大小,对于主题信息Rw,利用单词总和表示法推断短文本的主题特征p(z∣d):
其中,p(w∣d)表示w在d中出现的次数,利用前期融合的方法将所述主题信息Rw和所述BERT模型的输出hc进行融合:
8.根据权利要求5所述的装置,其特征在于,所述BERT模型在训练过程中的微调阶段,利用半监督生成对抗网络SGAN实现半监督学习,以改进模型的检测性能;
在所述SGAN中,判别器模块将数据划分为(c+1)个类别,真实数据被分类为目标类别之一,记为(1,...,c),而生成器生成的数据被分类为新的生成类,记为(c+1),
G表示生成器模块,D表示判别器模块,pG是生成器概率分布,pD是真实数据概率分布,pm(y=c+1∣x)表示数据x属于所述新的生成类的概率,pm(y∈(1,...,c)∣x)表示x属于与原始类别关联的真实数据的概率,为训练一个半监督的c类分类器,D的损失函数LD定义为:
LD=Lsupervised+Lunsupervised,
所述损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised:
其中,Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失,Lunsupervised表示将未标记的真实数据分类为所述新的生成类和将生成的数据分类为真实数据的累积损失;
生成器模块G生成的数据与从真实数据概率分布pD采样的数据尽可能相似,所述生成器模块G的训练目标是学习出判别器模块中间层特征的期望值,通过训练判别器模块D,所述SGAN捕获最能区分真实数据和G生成数据的那些特征,则生成器模块G的特征匹配损失函数定义为:
其中,f(x)表示激活函数,Lunsupervised表示将未标记的真实数据分类为所述新的生成类和将生成的数据分类为真实数据的累积损失,当所述生成器模块G生成的样本数据输入所述判别器模块D到时,它们的特征表示与真实数据非常相似,所述SGAN还需要考虑所述判别器模块D将生成的数据分类为真实数据所产生的误差Lgenerated:
Lgenerated=Ex~pG(x)log[1-pm(y=c+1∣x)],
所述生成器模块D的最终损失函数为LG=Lfm+Lgenerated。
9.一种处理设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210267297.2A CN114818724A (zh) | 2022-03-18 | 2022-03-18 | 一种社交媒体灾害有效信息检测模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210267297.2A CN114818724A (zh) | 2022-03-18 | 2022-03-18 | 一种社交媒体灾害有效信息检测模型的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114818724A true CN114818724A (zh) | 2022-07-29 |
Family
ID=82528683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210267297.2A Pending CN114818724A (zh) | 2022-03-18 | 2022-03-18 | 一种社交媒体灾害有效信息检测模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114818724A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730237A (zh) * | 2022-11-28 | 2023-03-03 | 智慧眼科技股份有限公司 | 垃圾邮件检测方法、装置、计算机设备及存储介质 |
CN117807603A (zh) * | 2024-02-29 | 2024-04-02 | 浙江鹏信信息科技股份有限公司 | 软件供应链审计方法、系统及计算机可读存储介质 |
-
2022
- 2022-03-18 CN CN202210267297.2A patent/CN114818724A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730237A (zh) * | 2022-11-28 | 2023-03-03 | 智慧眼科技股份有限公司 | 垃圾邮件检测方法、装置、计算机设备及存储介质 |
CN115730237B (zh) * | 2022-11-28 | 2024-04-23 | 智慧眼科技股份有限公司 | 垃圾邮件检测方法、装置、计算机设备及存储介质 |
CN117807603A (zh) * | 2024-02-29 | 2024-04-02 | 浙江鹏信信息科技股份有限公司 | 软件供应链审计方法、系统及计算机可读存储介质 |
CN117807603B (zh) * | 2024-02-29 | 2024-04-30 | 浙江鹏信信息科技股份有限公司 | 软件供应链审计方法、系统及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zeberga et al. | [Retracted] A Novel Text Mining Approach for Mental Health Prediction Using Bi‐LSTM and BERT Model | |
Shrivastava et al. | An effective approach for emotion detection in multimedia text data using sequence based convolutional neural network | |
Bharti et al. | Text‐Based Emotion Recognition Using Deep Learning Approach | |
Raj et al. | An application to detect cyberbullying using machine learning and deep learning techniques | |
Snyder et al. | Interactive learning for identifying relevant tweets to support real-time situational awareness | |
CN107766585B (zh) | 一种面向社交网络的特定事件抽取方法 | |
Sundararajan et al. | Multi‐Rule Based Ensemble Feature Selection Model for Sarcasm Type Detection in Twitter | |
Bonet-Jover et al. | Exploiting discourse structure of traditional digital media to enhance automatic fake news detection | |
Mehta et al. | Sentiment analysis of tweets using supervised learning algorithms | |
Verma et al. | Suicide ideation detection: a comparative study of sequential and transformer hybrid algorithms | |
Kumari et al. | AI_ML_NIT_Patna@ TRAC-2: Deep learning approach for multi-lingual aggression identification | |
Kolajo et al. | Real-time event detection in social media streams through semantic analysis of noisy terms | |
CN114818724A (zh) | 一种社交媒体灾害有效信息检测模型的构建方法 | |
Hoq et al. | Sentiment analysis of bangla language using deep learning approaches | |
Paul et al. | Classification of crisis-related data on Twitter using a deep learning-based framework | |
Mallik et al. | Word2Vec and LSTM based deep learning technique for context-free fake news detection | |
Thakur et al. | A review on text based emotion recognition system | |
Çoban et al. | Facebook tells me your gender: an exploratory study of gender prediction for Turkish Facebook users | |
Nair et al. | Fake news detection model for regional language | |
Rezaei et al. | Event detection in twitter by deep learning classification and multi label clustering virtual backbone formation | |
Sharma et al. | A transformer-based model for evaluation of information relevance in online social-media: A case study of covid-19 media posts | |
Upadhyay et al. | SatCoBiLSTM: Self-attention based hybrid deep learning framework for crisis event detection in social media | |
Akdemir et al. | A review on deep learning applications with semantics | |
Kinariwala et al. | Onto_TML: Auto-labeling of topic models | |
Syaputra et al. | Improving mental health surveillance over Twitter text classification using word embedding techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |