CN107832353B - 一种社交媒体平台虚假信息识别方法 - Google Patents

一种社交媒体平台虚假信息识别方法 Download PDF

Info

Publication number
CN107832353B
CN107832353B CN201710993388.3A CN201710993388A CN107832353B CN 107832353 B CN107832353 B CN 107832353B CN 201710993388 A CN201710993388 A CN 201710993388A CN 107832353 B CN107832353 B CN 107832353B
Authority
CN
China
Prior art keywords
false
false information
information
sample set
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710993388.3A
Other languages
English (en)
Other versions
CN107832353A (zh
Inventor
黄震华
黄安忆
张银
庞一统
程久军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201710993388.3A priority Critical patent/CN107832353B/zh
Publication of CN107832353A publication Critical patent/CN107832353A/zh
Application granted granted Critical
Publication of CN107832353B publication Critical patent/CN107832353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种社交媒体平台虚假信息识别方法,其中:虚假信息样本集生成模块使用孪生生成式对抗网络(SGAN:Siamese Generative Adversarial Network)模型来构造并生成大规模的基础虚假信息样本集,然后通过无监督学习和有监督学习相结合的方式对所生成的基础虚假信息样本的虚假等级进行标记。虚假信息离线识别学习模块基于深度学习技术来训练虚假信息的识别并迭代优化深度识别模型的参数。虚假信息在线识别模块首先使用探索‑利用策略获取新发布信息中的候选虚假信息集,然后对候选虚假信息集中的信息进行实时虚假识别和评级。与现有技术相比,本发明具有准确度高、泛化能力强以及速度快等优点,能够有效应用于电子商务、医疗健康、网络信息安全以及舆情监控等领域。

Description

一种社交媒体平台虚假信息识别方法
技术领域
本发明涉及计算机应用技术领域,尤其是涉及一种网络虚假信息的识别方法。
背景技术
进入Web2.0时代,社交网络(SNS)的崛起为人们提供了高度自由分析信息和交流观点的重要平台-社交媒体平台,如Twitter、Facebook、YouTube、新浪微博和腾讯微博等。借助基于社交媒体平台上用户社交网络关系的信息分享、传播以及获取技术,可以使用户通过WEB、WAP以及各种客户端组建、加入不同的社区群组,从而较之传统的平面媒体、网络媒体等,获得更大程度和规模的信息,同时产生更为丰富的互动交流体验,增进用户的实际使用感受。正是凭借这种社交关系产生的特有的裂变式信息传播分享模式,社交媒体平台迅速席卷整个互联网,从政府、名人、明星,到普通民众,已经成为特有的用户群体网络汇集重要平台。
社交媒体平台给我们工作和日常生活带来方便的同时,也产生了很多负面问题,特别是谣言和虚假信息众多,而且通过社交媒体平台,新鲜的消息不再以口耳相传的方式进行传播,通过网络传播的成本大大降低,很多媒体为了造成高影响力而雇佣水军进行转发,这样的转发不仅没有质量,而且容易造成误导,给人们生活带来严重的困扰。因此,对社交媒体平台的虚假信息进行准确快速的识别是非常必要的。
目前识别社交媒体平台虚假信息的方法大都采用统计学习或浅层的机器学习方法来实现,例如使用回归模型(RM:Regression Model)、支持向量机(SVM:Support VectorMachine)、随机森林(RF:Random Forest)和反向传输神经网络(BPNN:Back PropagationNeural Network)等。现有的这些方法在一定程度上能够帮助人们自动识别出一些较为明显的虚假信息,然而随着虚假信息发布源的智能化程度逐渐提高,现有方法的识别准确率就变得极为低下,从而导致无法满足人们的需求。另一方面,现有方法大都对社交媒体平台的全局信息进行虚假识别,这样当数据规模比较大的时候,其识别速度非常慢,也很难满足实时性的要求。
发明内容
本发明的目的就是为了解决上述现有方法存在的缺陷而提供一种准确度高、泛化能力强以及速度快的社交媒体平台虚假信息识别系统,技术框架如图1所示。
本发明需要保护的技术方案:
一种社交媒体平台虚假信息识别方法,其特征在于,主要由虚假信息样本集生成、虚假信息离线识别学习以及虚假信息在线识别3个模块组成(即三大步骤)。
虚假信息样本集生成步骤(模块1)主要包含两个阶段:
第一阶段:基础虚假信息样本集构造。本发明以现有带标签数据集中的真实信息样本集为输入,训练孪生生成式对抗网络(SGAN:Siamese Generative AdversarialNetwork)模型结构来构造并生成大规模的基础虚假信息样本集,基础虚假信息样本集中的数据样本是不带虚假等级标签的。SGAN模型结构由两个绝大部分参数共享的GAN模型部件构成,其中第一个GAN模型部件用来训练生成基础虚假信息样本,而第二个GAN模型部件用来训练识别基础虚假信息样本的主题类别。当SGAN模型结构训练完毕之后,本发明最终只需要第一个GAN模型部件来生成大规模基础虚假信息样本集,而删除掉第二个GAN模型部件。
第二阶段:基础虚假信息样本集评级。本发明首先以社交媒体平台无标签数据为输入,通过无监督学习的方式来训练学习无标签数据的特征表示,在此基础上,以现有带标签数据集中带虚假级别的虚假信息样本集为输入,通过有监督学习的方式训练学习虚假信息样本的等级标记,然后利用该模型对模块1生成的每一条基础虚假信息样本进行等级识别并标记,从而得到带虚假等级的大规模虚假信息样本集。
虚假信息离线识别学习步骤(模块2)以现有带标签数据集(包括真实信息样本集和带虚假级别的虚假信息样本集)以及模块1生成的带虚假等级的虚假信息样本集为输入,利用多层卷积神经网络(CNN:Convolutional Neural Network)和长短期记忆网络(LSTM:Long Short Term Memory)组成的深度神经网络结构来训练虚假信息的识别并迭代优化识别模型的参数。
虚假信息在线识别步骤(模块3)主要包含两个阶段:
第一阶段:候选虚假信息集获取。本发明使用探索-利用(E&E:Exploitation&Exploration)策略,以社交媒体平台中自最近一次虚假信息识别操作以来新发布的信息为输入,首先获取其中最有可能的虚假信息数据集,即候选虚假信息集,然后从新发布的其余信息中随机选取一小部分数据并随机替换候选虚假信息集中的数据。
第二阶段:虚假信息识别与评级。本发明使用模块2构造的深度识别模型对候选虚假信息数据集中的每一条信息进行识别和虚假等级标定。
本发明具有以下优点:
1.本发明利用大规模的虚假信息数据样本集,并通过多层卷积神经网络和长短期记忆网络组成的深度神经网络模型来训练虚假信息的识别并迭代优化识别模型的参数,从而能够显著提高虚假信息识别的准确度。
2.本发明通过孪生生成式对抗网络模型来生成的大规模基础虚假信息样本集具有来自不同数据分布的特性,这样能够大幅度提高虚假信息识别的泛化能力。
3.本发明在虚假信息在线识别的过程中首先获取候选虚假信息集,这样能够显著减少输入到深度识别模型中信息的规模,从而能够极大加快虚假信息识别的速度。
附图说明
图1本发明的技术框架图
图2模块1第一阶段所训练SGAN模型的逻辑结构图
图3模块1第二阶段所训练虚假信息样本等级标记模型的逻辑结构图
图4模块2所训练虚假信息离线识别模型的逻辑结构图
具体实施方式
本发明提供的准确度高、泛化能力强以及速度快的社交媒体平台虚假信息识别系统,技术框架如图1所示。
以下结合附图进一步详述。
虚假信息样本集生成模块(模块1)具体实施方式如下:
第一阶段(基础虚假信息样本集构造)所训练的孪生生成式对抗网络模型SGAN的逻辑结构如图2所示。
SGAN模型包含两个生成式对抗网络部件GAN1和GAN2,这两个部件均由生成子部件和判别子部件子部件构成。GAN1部件的生成子部件由编码器和解码器两个部分组成。生成子部件首先随机产生服从标准高斯分布N(0,1)且长度为m1的一维噪声向量z1,并在编码器中,基于卷积神经网络模型(CNN:Convolutional Neural Network)结构,依次经过卷积层1、池化层1、卷积层2、池化层2以及全连接层生成长度为m2的一维语义向量。在解码器中,本发明首先接收编码器生成的一维语义向量,并基于长短期记忆网络模型(LSTM:Long ShortTerm Memory)结构,依次经过d个LSTM单元,并最终输出虚假信息文本f_t1。LSTM单元的数量d不是固定的,它的取值由最后一个LSTM单元的生成概率p所决定,当p小于用户给定的某个具体阈值σ时,那么解码器处理过程结束,此时d即为解码器所使用的LSTM单元个数。GAN1的判别子部件分别接收生成子部件产生的虚假信息文本f_t1和真实信息样本tr_t,首先将输入的文本数据f_t1或tr_t利用Word2vec词嵌套技术映射成行、列长度分别为n1
Figure BDA0001442007820000034
的两维矩阵,并基于卷积神经网络模型结构,依次经过卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1以及全连接层2生成长度为n2的一维输出向量,并最后连接一个0/1信息真假二分类器,其中f_t1对应0,即虚假类别,而tr_t对应1,即真实类别。GAN2部件中的生成子部件结构与GAN1相同,编码器将服从高斯分布N(0,1)且长度为m1的随机一维噪声向量z2编码转换成长度为m2的一维语义向量,并在解码器中将该一维语义向量解码生成虚假信息文本f_t2。而判别子部件与GAN1的不同之处在于将0/1信息真假二分类器替换成softmax主题类别多分类器,对应s+1个主题类别c1,c2,…,cs,cs+1,其中前s个主题类别是真实信息样本中存在的,而主题类别cs+1是虚假信息文本f_t2所对应的。
在SGAN模型的训练过程中,GAN1和GAN2的生成子部件的参数是共享的,判别子部件的Word2vec词嵌套、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1以及全连接层2的参数是共享的,而GAN1中全连接层2到0/1信息真假二分类器间的参数与GAN2中全连接层2到softmax主题类别多分类器间的参数是不共享的。优选实施方式,建议:GAN1和GAN2的绝大部分参数共享,尽可能极少一部分参数不共享,这样做的优点是减少参数数量的同时能够大幅度提高SGAN模型的准确度。在SGAN模型学习优化方面,本发明使用受限最小最大零和博弈策略,见公式(1)和(2):
Figure BDA0001442007820000031
满足约束:
Figure BDA0001442007820000032
Figure BDA0001442007820000033
在上述两个公式中,x1和x2分别表示GAN1和GAN2中来源与真实信息样本的数据,px表示真实信息样本的数据分布;z1和z2分别表示GAN1和GAN2中所产生的随机一维噪声向量,pz表示随机一维噪声向量所服从的数据分布,即高斯分布N(0,1);f1和f2分别表示GAN1和GAN2中0/1信息真假二分类器和softmax主题类别多分类器的输出激活函数,g1和g2分别表示GAN1和GAN2中生成子部件的输出激活函数;θ(g1)和θ(g2)分别表示GAN1和GAN2中生成子部件的模型参数,θ(f1 (1))和θ(f2 (1))分别表示GAN1和GAN2判别子部件中共享的模型参数,而θ(f1 (2))和θ(f2 (2))分别表示GAN1和GAN2判别子部件中不共享的模型参数;Ω表示SGAN模型学习用到的损失函数,E表示计算期望值,c1,c2,…,cs,cs+1为GAN2中的s+1个主题类别,
Figure BDA0001442007820000041
表示或操作,“|”表示条件概率。
当SGAN模型训练完毕之后,本发明首先抽取并保留GAN1部件中的生成子部件,同时删除掉其余的模型结构,然后使用生成子部件循环随机产生w个长度为m1的一维噪声向量,从而生成w个虚假信息文本f_t1,f_t2,…,f_tw,每个虚假信息文本做为一个基础虚假信息样本。这w个虚假信息文本构成了基础虚假信息样本集。
第二阶段(基础虚假信息样本集评级)所训练的虚假信息样本等级标记模型的逻辑结构如图3所示。
虚假信息样本等级标记模型的训练过程主要包括两个步骤:
步骤1:社交媒体平台无标签数据特征表示学习。本发明采用无监督的学习方式,首先以社交媒体平台中的无标签数据为输入,利用Word2vec词嵌套技术映射成长度为u的一维输入向量,然后输入到去噪自编码器(DAE:Denoising AutoEncoder)中实现无标签数据的特征提取。在去噪自编码器中,我们随机产生长度为u的一维随机噪声向量,该噪声向量的各分量取值只能为0或1,并将它与一维输入向量做位与操作得到一个新的带噪声的一维向量,接着,将该向量输入到特征提取部件中的神经网络结构,依次经过由多个神经元组成的输入层1、输入层2和特征提取层来产生无标签数据对应的长度为v一维特征向量,然后将该一维特征向量经过由输出层1和输出层2构成的神经网络结构并生成长度为u的一维输出向量。本发明通过不断拟合一维输出向量和一维输入向量的值来迭代优化模型的参数。
步骤2:虚假信息样本等级标记学习。本发明采用有监督的学习方式,首先以带虚假级别的虚假信息样本集为输入,虚假级别的类别分为强、中和弱三类(分别用3、2、1来表示),利用Word2vec词嵌套技术映射成长度为u的一维输入向量,然后输入到步骤1所获得的特征提取部件中来生成长度为v一维特征向量,接着,基于卷积神经网络结构,依次经过卷积层1、池化层1、卷积层2、池化层2以及全连接层生成长度为h的一维输出向量,并将该一维输出向量连接到softmax虚假等级三分类器。本发明通过不断递减softmax虚假等级三分类器的分类误差来迭代优化模型的参数。
当虚假信息样本等级标记模型训练完毕之后,本发明首先抽取并保留步骤2中的虚假信息样本等级标记学习模型,同时删除步骤1中的社交媒体平台无标签数据特征表示学习模型,然后对于模块1中生成的每一条基础虚假信息样本f_t输入到虚假信息样本等级标记学习模型中来产生它虚假等级f_t(r),从而得到带虚假等级的虚假信息样本集。
虚假信息离线识别学习模块(模块2)所训练的虚假信息离线识别模型的逻辑结构如图4所示。
在虚假信息离线识别模型的训练过程中,本发明以现有带标签数据集(包括真实信息样本集和带虚假级别的虚假信息样本集)以及模块1生成的带虚假等级的虚假信息样本集为输入,首先利用Word2vec词嵌套技术映射成行、列长度分别为n1
Figure BDA0001442007820000042
的两维输入矩阵,其中每一个词通过Word2vec映射成一个行向量,接着,并行将n1个行向量中的每一个行向量输入到依次由卷积层1、池化层1、卷积层2、池化层2和卷积层3所构成的卷积神经网络结构中,即共有n1个卷积神经网络结构,同时,本发明分别将其中的n1个卷积层1、n1个卷积层2和n1个卷积层3组成三个具有n1个LSTM单元的长短期记忆网络结构,并分别输出三个一维输出向量,即一维输出向量1~3,然后将这三个一维输出向量依次连接到全连接层1、全连接层2以及softmax虚假等级四分类器,softmax虚假等级四分类器分别对应训练样本的4个虚假等级类别,即真实信息样本对应虚假等级0,而虚假信息样本对应强、中和弱3类虚假等级,即等级3、2、1。本发明通过不断递减softmax虚假等级四分类器的分类误差来迭代优化模型的参数。
虚假信息在线识别模块(模块3)具体实施方式如下:
在第一阶段(候选虚假信息集获取)中,本发明首先抽取系统最近k(k<5)次虚假信息识别操作所得到的虚假信息集F,然后从F中获取所有虚假信息的发布源,并删除虚假信息数量少于用户给定阈值
Figure BDA0001442007820000055
的全部发布源,从而得到虚假信息发布源集合U。在此基础上,我们使用探索-利用(E&E:Exploitation&Exploration)策略来获取候选虚假信息集C,实施过程如下:本发明首先令C为空集,并以社交媒体平台中自最近一次虚假信息识别操作以来新发布的信息Ψ为输入,获取Ψ的发布源集合NU,然后使用皮尔森相关系数(PCC:PearsonCorrelation Coefficient)方法计算并获取NU中与U的任意一个虚假信息发布源的相似度超过用户给定阈值τ的所有发布源,它们构成候选发布源集合
Figure BDA0001442007820000051
进而得到Ψ中由FU发布的信息子集,我们将该信息子集加入到C中。接着,本发明使用余弦相似度方法计算并获取Ψ中与F的任意一个虚假信息发布源的相似度超过用户给定阈值ρ的所有信息,我们将这些信息加入到C中,并去冗余。最后,本发明从候选虚假信息集C中通过无放回随机抽样的方式选取
Figure BDA0001442007820000052
数量的信息,并将这些从C中移除,然后从信息集Ψ-C中通过无放回随机抽样的方式选取
Figure BDA0001442007820000053
数量的信息,并将这些信息加入到C中,这里符号
Figure BDA0001442007820000054
表示取实数的上限整数,|C|为候选虚假信息集C中的信息个数,a为抽样比例,通常为小于1的正数。此时,C中的信息很大程度上是虚假信息,但一小部分也有可能是真实信息。
在第二阶段(虚假信息识别与评级)中,本发明将候选虚假信息集C中的每一条信息c输入到模块2的虚假信息离线识别模型中,来获取c的虚假等级,如果虚假等级为0,表明c是真实信息,将它从C中移除,如果虚假等级不为0,表明c为虚假信息,并对c的虚假等级进行标记,即1为弱虚假信息、2为中虚假信息、3为强虚假信息,同时识别其发布源
Figure BDA0001442007820000056

Claims (1)

1.一种社交媒体平台虚假信息识别方法,其特征在于,包括虚假信息样本集生成、虚假信息离线识别学习以及虚假信息在线识别三大步骤;
一、虚假信息样本集生成步骤(1)包含两个阶段:
第一阶段:基础虚假信息样本集构造;
以现有带标签数据集中的真实信息样本集为输入,训练孪生生成式对抗网络(SGAN:Siamese Generative Adversarial Network)模型结构来构造并生成大规模的基础虚假信息样本集,基础虚假信息样本集中的数据样本是不带虚假等级标签的;SGAN模型结构由两个绝大部分参数共享的GAN模型部件构成,其中第一个GAN模型部件用来训练生成基础虚假信息样本,而第二个GAN模型部件用来训练识别基础虚假信息样本的主题类别;当SGAN模型结构训练完毕之后,最终只需要第一个GAN模型部件来生成大规模基础虚假信息样本集,而删除掉第二个GAN模型部件;
第二阶段:基础虚假信息样本集评级;
首先以社交媒体平台无标签数据为输入,通过无监督学习的方式来训练学习无标签数据的特征表示,在此基础上,以现有带标签数据集中带虚假级别的虚假信息样本集为输入,通过有监督学习的方式训练学习虚假信息样本的等级标记,得到虚假信息等级标记模型,然后利用该模型对所述虚假信息样本集生成步骤(1)生成的每一条基础虚假信息样本进行等级识别并标记,从而得到带虚假等级的大规模虚假信息样本集;
二、虚假信息离线识别学习步骤(2)以现有带标签数据集以及所述虚假信息样本集生成步骤(1)生成的带虚假等级的虚假信息样本集为输入,带标签数据集包括真实信息样本集和带虚假级别的虚假信息样本集,利用多层卷积神经网络(CNN:ConvolutionalNeuralNetwork)和长短期记忆网络(LSTM:Long Short Term Memory)组成的深度神经网络结构来训练虚假信息的识别并迭代优化识别模型的参数;
三、虚假信息在线识别步骤(3)包含两个阶段:
第一阶段:候选虚假信息集获取;
使用探索-利用(E&E:Exploitation&Exploration)策略,以社交媒体平台中自最近一次虚假信息识别操作以来新发布的信息为输入,首先获取其中最有可能的虚假信息数据集,即候选虚假信息集,然后从新发布的其余信息中随机选取一小部分数据并随机替换候选虚假信息集中的数据;
第二阶段:虚假信息识别与评级;
使用虚假信息离线识别学习步骤(2)构造的深度识别模型对候选虚假信息数据集中的每一条信息进行识别和虚假等级标定。
CN201710993388.3A 2017-10-23 2017-10-23 一种社交媒体平台虚假信息识别方法 Active CN107832353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710993388.3A CN107832353B (zh) 2017-10-23 2017-10-23 一种社交媒体平台虚假信息识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710993388.3A CN107832353B (zh) 2017-10-23 2017-10-23 一种社交媒体平台虚假信息识别方法

Publications (2)

Publication Number Publication Date
CN107832353A CN107832353A (zh) 2018-03-23
CN107832353B true CN107832353B (zh) 2020-04-14

Family

ID=61648865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710993388.3A Active CN107832353B (zh) 2017-10-23 2017-10-23 一种社交媒体平台虚假信息识别方法

Country Status (1)

Country Link
CN (1) CN107832353B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110166344B (zh) * 2018-04-25 2021-08-24 腾讯科技(深圳)有限公司 一种身份标识识别方法、装置以及相关设备
CN108615036B (zh) * 2018-05-09 2021-10-01 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN108804608B (zh) * 2018-05-30 2021-08-27 武汉烽火普天信息技术有限公司 一种基于层次attention的微博谣言立场检测方法
CN109102496B (zh) * 2018-07-10 2022-07-26 武汉科技大学 基于变分生成对抗模型识别乳腺肿瘤区域的方法及装置
CN109214408A (zh) * 2018-07-10 2019-01-15 武汉科技大学 基于生成对抗模型识别肝肿瘤的方法及装置
CN109063845B (zh) * 2018-07-15 2021-12-07 大国创新智能科技(东莞)有限公司 基于生成样本的深度学习方法和机器人系统
CN110941188A (zh) * 2018-09-25 2020-03-31 珠海格力电器股份有限公司 智能家居控制方法及装置
CN109388696B (zh) * 2018-09-30 2021-07-23 北京字节跳动网络技术有限公司 删除谣言文章的方法、装置、存储介质及电子设备
US11423282B2 (en) 2018-10-30 2022-08-23 Huawei Technologies Co., Ltd. Autoencoder-based generative adversarial networks for text generation
US11663483B2 (en) 2018-10-30 2023-05-30 Huawei Technologies Co., Ltd. Latent space and text-based generative adversarial networks (LATEXT-GANs) for text generation
CN110245302B (zh) * 2019-05-24 2023-08-08 创新先进技术有限公司 用于识别欺诈案件的策略生成方法及装置和电子设备
CN110223324B (zh) * 2019-06-05 2023-06-16 东华大学 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法
US20210097372A1 (en) * 2019-10-01 2021-04-01 Samsung Electronics Company, Ltd. Co-Informatic Generative Adversarial Networks for Efficient Data Co-Clustering
CN111428151B (zh) * 2020-04-20 2022-05-17 浙江工业大学 一种基于网络增速的虚假消息识别方法及其装置
CN111985924A (zh) * 2020-05-22 2020-11-24 徽商银行股份有限公司 一种基于深度学习的信用卡异常交易行为判定方法及系统
CN111914928B (zh) * 2020-07-30 2024-04-09 南京大学 一种为图像分类器进行对抗样本防御的方法
CN112819645B (zh) * 2021-03-23 2024-03-29 大连民族大学 基于模体度的社交网络虚假信息传播检测方法
CN113704409B (zh) * 2021-08-31 2023-08-04 上海师范大学 一种基于级联森林的虚假招聘信息检测方法
CN115309860B (zh) * 2022-07-18 2023-04-18 黑龙江大学 基于伪孪生网络的虚假新闻检测方法
CN116503042B (zh) * 2023-03-15 2023-12-19 上海天方夜谭网络科技有限公司 适用于检维修人员培训数据处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8364617B2 (en) * 2007-01-19 2013-01-29 Microsoft Corporation Resilient classification of data
CN106484679A (zh) * 2016-10-20 2017-03-08 北京邮电大学 一种应用于消费平台上的虚假评论信息识别方法及装置
CN106708966A (zh) * 2016-11-29 2017-05-24 中国计量大学 基于相似度计算的垃圾评论检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8364617B2 (en) * 2007-01-19 2013-01-29 Microsoft Corporation Resilient classification of data
CN106484679A (zh) * 2016-10-20 2017-03-08 北京邮电大学 一种应用于消费平台上的虚假评论信息识别方法及装置
CN106708966A (zh) * 2016-11-29 2017-05-24 中国计量大学 基于相似度计算的垃圾评论检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于支持向量机的垃圾微博识别方法;陈欣等;《安徽工业大学学报(自然科学版)》;20131015(第04期);第440-445页 *
网络民航事件虚假评论的识别研究;董松月等;《智能计算机与应用》;20160828(第04期);第28-31页 *

Also Published As

Publication number Publication date
CN107832353A (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
CN107832353B (zh) 一种社交媒体平台虚假信息识别方法
CN112100383B (zh) 一种面向多任务语言模型的元-知识微调方法及平台
Demirel et al. Zero-shot object detection by hybrid region embedding
CN109271539B (zh) 一种基于深度学习的图像自动标注方法及装置
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN113407660B (zh) 非结构化文本事件抽取方法
CN108959522B (zh) 基于半监督对抗生成网络的迁移检索方法
CN113032525A (zh) 虚假新闻检测方法、装置、电子设备以及存储介质
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN111078876A (zh) 一种基于多模型集成的短文本分类方法和系统
CN110263164A (zh) 一种基于模型融合的情感倾向分析方法
CN112148997B (zh) 一种用于灾害事件检测的多模态对抗模型的训练方法和装置
Seo et al. FaNDeR: fake news detection model using media reliability
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN115017887A (zh) 基于图卷积的中文谣言检测方法
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN115328782A (zh) 基于图表示学习和知识蒸馏的半监督软件缺陷预测方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN110825852B (zh) 面向长文本的语义匹配方法及系统
Tran et al. Triple-sigmoid activation function for deep open-set recognition
CN116578708A (zh) 一种基于图神经网络的论文数据姓名消歧算法
CN116976341A (zh) 实体识别方法、装置、电子设备、存储介质及程序产品
CN105183807A (zh) 一种基于结构句法的情绪原因事件识别方法及系统
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法
Lan et al. Mining semantic variation in time series for rumor detection via recurrent neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant