CN107832353B - 一种社交媒体平台虚假信息识别方法 - Google Patents
一种社交媒体平台虚假信息识别方法 Download PDFInfo
- Publication number
- CN107832353B CN107832353B CN201710993388.3A CN201710993388A CN107832353B CN 107832353 B CN107832353 B CN 107832353B CN 201710993388 A CN201710993388 A CN 201710993388A CN 107832353 B CN107832353 B CN 107832353B
- Authority
- CN
- China
- Prior art keywords
- false
- false information
- information
- sample set
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract 1
- 238000012544 monitoring process Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 31
- 102100037410 Gigaxonin Human genes 0.000 description 16
- 101001025761 Homo sapiens Gigaxonin Proteins 0.000 description 16
- 238000011176 pooling Methods 0.000 description 12
- 238000009826 distribution Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004992 fission Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种社交媒体平台虚假信息识别方法,其中:虚假信息样本集生成模块使用孪生生成式对抗网络(SGAN:Siamese Generative Adversarial Network)模型来构造并生成大规模的基础虚假信息样本集,然后通过无监督学习和有监督学习相结合的方式对所生成的基础虚假信息样本的虚假等级进行标记。虚假信息离线识别学习模块基于深度学习技术来训练虚假信息的识别并迭代优化深度识别模型的参数。虚假信息在线识别模块首先使用探索‑利用策略获取新发布信息中的候选虚假信息集,然后对候选虚假信息集中的信息进行实时虚假识别和评级。与现有技术相比,本发明具有准确度高、泛化能力强以及速度快等优点,能够有效应用于电子商务、医疗健康、网络信息安全以及舆情监控等领域。
Description
技术领域
本发明涉及计算机应用技术领域,尤其是涉及一种网络虚假信息的识别方法。
背景技术
进入Web2.0时代,社交网络(SNS)的崛起为人们提供了高度自由分析信息和交流观点的重要平台-社交媒体平台,如Twitter、Facebook、YouTube、新浪微博和腾讯微博等。借助基于社交媒体平台上用户社交网络关系的信息分享、传播以及获取技术,可以使用户通过WEB、WAP以及各种客户端组建、加入不同的社区群组,从而较之传统的平面媒体、网络媒体等,获得更大程度和规模的信息,同时产生更为丰富的互动交流体验,增进用户的实际使用感受。正是凭借这种社交关系产生的特有的裂变式信息传播分享模式,社交媒体平台迅速席卷整个互联网,从政府、名人、明星,到普通民众,已经成为特有的用户群体网络汇集重要平台。
社交媒体平台给我们工作和日常生活带来方便的同时,也产生了很多负面问题,特别是谣言和虚假信息众多,而且通过社交媒体平台,新鲜的消息不再以口耳相传的方式进行传播,通过网络传播的成本大大降低,很多媒体为了造成高影响力而雇佣水军进行转发,这样的转发不仅没有质量,而且容易造成误导,给人们生活带来严重的困扰。因此,对社交媒体平台的虚假信息进行准确快速的识别是非常必要的。
目前识别社交媒体平台虚假信息的方法大都采用统计学习或浅层的机器学习方法来实现,例如使用回归模型(RM:Regression Model)、支持向量机(SVM:Support VectorMachine)、随机森林(RF:Random Forest)和反向传输神经网络(BPNN:Back PropagationNeural Network)等。现有的这些方法在一定程度上能够帮助人们自动识别出一些较为明显的虚假信息,然而随着虚假信息发布源的智能化程度逐渐提高,现有方法的识别准确率就变得极为低下,从而导致无法满足人们的需求。另一方面,现有方法大都对社交媒体平台的全局信息进行虚假识别,这样当数据规模比较大的时候,其识别速度非常慢,也很难满足实时性的要求。
发明内容
本发明的目的就是为了解决上述现有方法存在的缺陷而提供一种准确度高、泛化能力强以及速度快的社交媒体平台虚假信息识别系统,技术框架如图1所示。
本发明需要保护的技术方案:
一种社交媒体平台虚假信息识别方法,其特征在于,主要由虚假信息样本集生成、虚假信息离线识别学习以及虚假信息在线识别3个模块组成(即三大步骤)。
虚假信息样本集生成步骤(模块1)主要包含两个阶段:
第一阶段:基础虚假信息样本集构造。本发明以现有带标签数据集中的真实信息样本集为输入,训练孪生生成式对抗网络(SGAN:Siamese Generative AdversarialNetwork)模型结构来构造并生成大规模的基础虚假信息样本集,基础虚假信息样本集中的数据样本是不带虚假等级标签的。SGAN模型结构由两个绝大部分参数共享的GAN模型部件构成,其中第一个GAN模型部件用来训练生成基础虚假信息样本,而第二个GAN模型部件用来训练识别基础虚假信息样本的主题类别。当SGAN模型结构训练完毕之后,本发明最终只需要第一个GAN模型部件来生成大规模基础虚假信息样本集,而删除掉第二个GAN模型部件。
第二阶段:基础虚假信息样本集评级。本发明首先以社交媒体平台无标签数据为输入,通过无监督学习的方式来训练学习无标签数据的特征表示,在此基础上,以现有带标签数据集中带虚假级别的虚假信息样本集为输入,通过有监督学习的方式训练学习虚假信息样本的等级标记,然后利用该模型对模块1生成的每一条基础虚假信息样本进行等级识别并标记,从而得到带虚假等级的大规模虚假信息样本集。
虚假信息离线识别学习步骤(模块2)以现有带标签数据集(包括真实信息样本集和带虚假级别的虚假信息样本集)以及模块1生成的带虚假等级的虚假信息样本集为输入,利用多层卷积神经网络(CNN:Convolutional Neural Network)和长短期记忆网络(LSTM:Long Short Term Memory)组成的深度神经网络结构来训练虚假信息的识别并迭代优化识别模型的参数。
虚假信息在线识别步骤(模块3)主要包含两个阶段:
第一阶段:候选虚假信息集获取。本发明使用探索-利用(E&E:Exploitation&Exploration)策略,以社交媒体平台中自最近一次虚假信息识别操作以来新发布的信息为输入,首先获取其中最有可能的虚假信息数据集,即候选虚假信息集,然后从新发布的其余信息中随机选取一小部分数据并随机替换候选虚假信息集中的数据。
第二阶段:虚假信息识别与评级。本发明使用模块2构造的深度识别模型对候选虚假信息数据集中的每一条信息进行识别和虚假等级标定。
本发明具有以下优点:
1.本发明利用大规模的虚假信息数据样本集,并通过多层卷积神经网络和长短期记忆网络组成的深度神经网络模型来训练虚假信息的识别并迭代优化识别模型的参数,从而能够显著提高虚假信息识别的准确度。
2.本发明通过孪生生成式对抗网络模型来生成的大规模基础虚假信息样本集具有来自不同数据分布的特性,这样能够大幅度提高虚假信息识别的泛化能力。
3.本发明在虚假信息在线识别的过程中首先获取候选虚假信息集,这样能够显著减少输入到深度识别模型中信息的规模,从而能够极大加快虚假信息识别的速度。
附图说明
图1本发明的技术框架图
图2模块1第一阶段所训练SGAN模型的逻辑结构图
图3模块1第二阶段所训练虚假信息样本等级标记模型的逻辑结构图
图4模块2所训练虚假信息离线识别模型的逻辑结构图
具体实施方式
本发明提供的准确度高、泛化能力强以及速度快的社交媒体平台虚假信息识别系统,技术框架如图1所示。
以下结合附图进一步详述。
虚假信息样本集生成模块(模块1)具体实施方式如下:
第一阶段(基础虚假信息样本集构造)所训练的孪生生成式对抗网络模型SGAN的逻辑结构如图2所示。
SGAN模型包含两个生成式对抗网络部件GAN1和GAN2,这两个部件均由生成子部件和判别子部件子部件构成。GAN1部件的生成子部件由编码器和解码器两个部分组成。生成子部件首先随机产生服从标准高斯分布N(0,1)且长度为m1的一维噪声向量z1,并在编码器中,基于卷积神经网络模型(CNN:Convolutional Neural Network)结构,依次经过卷积层1、池化层1、卷积层2、池化层2以及全连接层生成长度为m2的一维语义向量。在解码器中,本发明首先接收编码器生成的一维语义向量,并基于长短期记忆网络模型(LSTM:Long ShortTerm Memory)结构,依次经过d个LSTM单元,并最终输出虚假信息文本f_t1。LSTM单元的数量d不是固定的,它的取值由最后一个LSTM单元的生成概率p所决定,当p小于用户给定的某个具体阈值σ时,那么解码器处理过程结束,此时d即为解码器所使用的LSTM单元个数。GAN1的判别子部件分别接收生成子部件产生的虚假信息文本f_t1和真实信息样本tr_t,首先将输入的文本数据f_t1或tr_t利用Word2vec词嵌套技术映射成行、列长度分别为n1和的两维矩阵,并基于卷积神经网络模型结构,依次经过卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1以及全连接层2生成长度为n2的一维输出向量,并最后连接一个0/1信息真假二分类器,其中f_t1对应0,即虚假类别,而tr_t对应1,即真实类别。GAN2部件中的生成子部件结构与GAN1相同,编码器将服从高斯分布N(0,1)且长度为m1的随机一维噪声向量z2编码转换成长度为m2的一维语义向量,并在解码器中将该一维语义向量解码生成虚假信息文本f_t2。而判别子部件与GAN1的不同之处在于将0/1信息真假二分类器替换成softmax主题类别多分类器,对应s+1个主题类别c1,c2,…,cs,cs+1,其中前s个主题类别是真实信息样本中存在的,而主题类别cs+1是虚假信息文本f_t2所对应的。
在SGAN模型的训练过程中,GAN1和GAN2的生成子部件的参数是共享的,判别子部件的Word2vec词嵌套、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1以及全连接层2的参数是共享的,而GAN1中全连接层2到0/1信息真假二分类器间的参数与GAN2中全连接层2到softmax主题类别多分类器间的参数是不共享的。优选实施方式,建议:GAN1和GAN2的绝大部分参数共享,尽可能极少一部分参数不共享,这样做的优点是减少参数数量的同时能够大幅度提高SGAN模型的准确度。在SGAN模型学习优化方面,本发明使用受限最小最大零和博弈策略,见公式(1)和(2):
在上述两个公式中,x1和x2分别表示GAN1和GAN2中来源与真实信息样本的数据,px表示真实信息样本的数据分布;z1和z2分别表示GAN1和GAN2中所产生的随机一维噪声向量,pz表示随机一维噪声向量所服从的数据分布,即高斯分布N(0,1);f1和f2分别表示GAN1和GAN2中0/1信息真假二分类器和softmax主题类别多分类器的输出激活函数,g1和g2分别表示GAN1和GAN2中生成子部件的输出激活函数;θ(g1)和θ(g2)分别表示GAN1和GAN2中生成子部件的模型参数,θ(f1 (1))和θ(f2 (1))分别表示GAN1和GAN2判别子部件中共享的模型参数,而θ(f1 (2))和θ(f2 (2))分别表示GAN1和GAN2判别子部件中不共享的模型参数;Ω表示SGAN模型学习用到的损失函数,E表示计算期望值,c1,c2,…,cs,cs+1为GAN2中的s+1个主题类别,表示或操作,“|”表示条件概率。
当SGAN模型训练完毕之后,本发明首先抽取并保留GAN1部件中的生成子部件,同时删除掉其余的模型结构,然后使用生成子部件循环随机产生w个长度为m1的一维噪声向量,从而生成w个虚假信息文本f_t1,f_t2,…,f_tw,每个虚假信息文本做为一个基础虚假信息样本。这w个虚假信息文本构成了基础虚假信息样本集。
第二阶段(基础虚假信息样本集评级)所训练的虚假信息样本等级标记模型的逻辑结构如图3所示。
虚假信息样本等级标记模型的训练过程主要包括两个步骤:
步骤1:社交媒体平台无标签数据特征表示学习。本发明采用无监督的学习方式,首先以社交媒体平台中的无标签数据为输入,利用Word2vec词嵌套技术映射成长度为u的一维输入向量,然后输入到去噪自编码器(DAE:Denoising AutoEncoder)中实现无标签数据的特征提取。在去噪自编码器中,我们随机产生长度为u的一维随机噪声向量,该噪声向量的各分量取值只能为0或1,并将它与一维输入向量做位与操作得到一个新的带噪声的一维向量,接着,将该向量输入到特征提取部件中的神经网络结构,依次经过由多个神经元组成的输入层1、输入层2和特征提取层来产生无标签数据对应的长度为v一维特征向量,然后将该一维特征向量经过由输出层1和输出层2构成的神经网络结构并生成长度为u的一维输出向量。本发明通过不断拟合一维输出向量和一维输入向量的值来迭代优化模型的参数。
步骤2:虚假信息样本等级标记学习。本发明采用有监督的学习方式,首先以带虚假级别的虚假信息样本集为输入,虚假级别的类别分为强、中和弱三类(分别用3、2、1来表示),利用Word2vec词嵌套技术映射成长度为u的一维输入向量,然后输入到步骤1所获得的特征提取部件中来生成长度为v一维特征向量,接着,基于卷积神经网络结构,依次经过卷积层1、池化层1、卷积层2、池化层2以及全连接层生成长度为h的一维输出向量,并将该一维输出向量连接到softmax虚假等级三分类器。本发明通过不断递减softmax虚假等级三分类器的分类误差来迭代优化模型的参数。
当虚假信息样本等级标记模型训练完毕之后,本发明首先抽取并保留步骤2中的虚假信息样本等级标记学习模型,同时删除步骤1中的社交媒体平台无标签数据特征表示学习模型,然后对于模块1中生成的每一条基础虚假信息样本f_t输入到虚假信息样本等级标记学习模型中来产生它虚假等级f_t(r),从而得到带虚假等级的虚假信息样本集。
虚假信息离线识别学习模块(模块2)所训练的虚假信息离线识别模型的逻辑结构如图4所示。
在虚假信息离线识别模型的训练过程中,本发明以现有带标签数据集(包括真实信息样本集和带虚假级别的虚假信息样本集)以及模块1生成的带虚假等级的虚假信息样本集为输入,首先利用Word2vec词嵌套技术映射成行、列长度分别为n1和的两维输入矩阵,其中每一个词通过Word2vec映射成一个行向量,接着,并行将n1个行向量中的每一个行向量输入到依次由卷积层1、池化层1、卷积层2、池化层2和卷积层3所构成的卷积神经网络结构中,即共有n1个卷积神经网络结构,同时,本发明分别将其中的n1个卷积层1、n1个卷积层2和n1个卷积层3组成三个具有n1个LSTM单元的长短期记忆网络结构,并分别输出三个一维输出向量,即一维输出向量1~3,然后将这三个一维输出向量依次连接到全连接层1、全连接层2以及softmax虚假等级四分类器,softmax虚假等级四分类器分别对应训练样本的4个虚假等级类别,即真实信息样本对应虚假等级0,而虚假信息样本对应强、中和弱3类虚假等级,即等级3、2、1。本发明通过不断递减softmax虚假等级四分类器的分类误差来迭代优化模型的参数。
虚假信息在线识别模块(模块3)具体实施方式如下:
在第一阶段(候选虚假信息集获取)中,本发明首先抽取系统最近k(k<5)次虚假信息识别操作所得到的虚假信息集F,然后从F中获取所有虚假信息的发布源,并删除虚假信息数量少于用户给定阈值的全部发布源,从而得到虚假信息发布源集合U。在此基础上,我们使用探索-利用(E&E:Exploitation&Exploration)策略来获取候选虚假信息集C,实施过程如下:本发明首先令C为空集,并以社交媒体平台中自最近一次虚假信息识别操作以来新发布的信息Ψ为输入,获取Ψ的发布源集合NU,然后使用皮尔森相关系数(PCC:PearsonCorrelation Coefficient)方法计算并获取NU中与U的任意一个虚假信息发布源的相似度超过用户给定阈值τ的所有发布源,它们构成候选发布源集合进而得到Ψ中由FU发布的信息子集,我们将该信息子集加入到C中。接着,本发明使用余弦相似度方法计算并获取Ψ中与F的任意一个虚假信息发布源的相似度超过用户给定阈值ρ的所有信息,我们将这些信息加入到C中,并去冗余。最后,本发明从候选虚假信息集C中通过无放回随机抽样的方式选取数量的信息,并将这些从C中移除,然后从信息集Ψ-C中通过无放回随机抽样的方式选取数量的信息,并将这些信息加入到C中,这里符号表示取实数的上限整数,|C|为候选虚假信息集C中的信息个数,a为抽样比例,通常为小于1的正数。此时,C中的信息很大程度上是虚假信息,但一小部分也有可能是真实信息。
Claims (1)
1.一种社交媒体平台虚假信息识别方法,其特征在于,包括虚假信息样本集生成、虚假信息离线识别学习以及虚假信息在线识别三大步骤;
一、虚假信息样本集生成步骤(1)包含两个阶段:
第一阶段:基础虚假信息样本集构造;
以现有带标签数据集中的真实信息样本集为输入,训练孪生生成式对抗网络(SGAN:Siamese Generative Adversarial Network)模型结构来构造并生成大规模的基础虚假信息样本集,基础虚假信息样本集中的数据样本是不带虚假等级标签的;SGAN模型结构由两个绝大部分参数共享的GAN模型部件构成,其中第一个GAN模型部件用来训练生成基础虚假信息样本,而第二个GAN模型部件用来训练识别基础虚假信息样本的主题类别;当SGAN模型结构训练完毕之后,最终只需要第一个GAN模型部件来生成大规模基础虚假信息样本集,而删除掉第二个GAN模型部件;
第二阶段:基础虚假信息样本集评级;
首先以社交媒体平台无标签数据为输入,通过无监督学习的方式来训练学习无标签数据的特征表示,在此基础上,以现有带标签数据集中带虚假级别的虚假信息样本集为输入,通过有监督学习的方式训练学习虚假信息样本的等级标记,得到虚假信息等级标记模型,然后利用该模型对所述虚假信息样本集生成步骤(1)生成的每一条基础虚假信息样本进行等级识别并标记,从而得到带虚假等级的大规模虚假信息样本集;
二、虚假信息离线识别学习步骤(2)以现有带标签数据集以及所述虚假信息样本集生成步骤(1)生成的带虚假等级的虚假信息样本集为输入,带标签数据集包括真实信息样本集和带虚假级别的虚假信息样本集,利用多层卷积神经网络(CNN:ConvolutionalNeuralNetwork)和长短期记忆网络(LSTM:Long Short Term Memory)组成的深度神经网络结构来训练虚假信息的识别并迭代优化识别模型的参数;
三、虚假信息在线识别步骤(3)包含两个阶段:
第一阶段:候选虚假信息集获取;
使用探索-利用(E&E:Exploitation&Exploration)策略,以社交媒体平台中自最近一次虚假信息识别操作以来新发布的信息为输入,首先获取其中最有可能的虚假信息数据集,即候选虚假信息集,然后从新发布的其余信息中随机选取一小部分数据并随机替换候选虚假信息集中的数据;
第二阶段:虚假信息识别与评级;
使用虚假信息离线识别学习步骤(2)构造的深度识别模型对候选虚假信息数据集中的每一条信息进行识别和虚假等级标定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710993388.3A CN107832353B (zh) | 2017-10-23 | 2017-10-23 | 一种社交媒体平台虚假信息识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710993388.3A CN107832353B (zh) | 2017-10-23 | 2017-10-23 | 一种社交媒体平台虚假信息识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107832353A CN107832353A (zh) | 2018-03-23 |
CN107832353B true CN107832353B (zh) | 2020-04-14 |
Family
ID=61648865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710993388.3A Active CN107832353B (zh) | 2017-10-23 | 2017-10-23 | 一种社交媒体平台虚假信息识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832353B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110166344B (zh) * | 2018-04-25 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种身份标识识别方法、装置以及相关设备 |
CN108615036B (zh) * | 2018-05-09 | 2021-10-01 | 中国科学技术大学 | 一种基于卷积注意力网络的自然场景文本识别方法 |
CN108804608B (zh) * | 2018-05-30 | 2021-08-27 | 武汉烽火普天信息技术有限公司 | 一种基于层次attention的微博谣言立场检测方法 |
CN109102496B (zh) * | 2018-07-10 | 2022-07-26 | 武汉科技大学 | 基于变分生成对抗模型识别乳腺肿瘤区域的方法及装置 |
CN109214408A (zh) * | 2018-07-10 | 2019-01-15 | 武汉科技大学 | 基于生成对抗模型识别肝肿瘤的方法及装置 |
CN109063845B (zh) * | 2018-07-15 | 2021-12-07 | 大国创新智能科技(东莞)有限公司 | 基于生成样本的深度学习方法和机器人系统 |
CN110941188A (zh) * | 2018-09-25 | 2020-03-31 | 珠海格力电器股份有限公司 | 智能家居控制方法及装置 |
CN109388696B (zh) * | 2018-09-30 | 2021-07-23 | 北京字节跳动网络技术有限公司 | 删除谣言文章的方法、装置、存储介质及电子设备 |
US11423282B2 (en) | 2018-10-30 | 2022-08-23 | Huawei Technologies Co., Ltd. | Autoencoder-based generative adversarial networks for text generation |
US11663483B2 (en) | 2018-10-30 | 2023-05-30 | Huawei Technologies Co., Ltd. | Latent space and text-based generative adversarial networks (LATEXT-GANs) for text generation |
CN110245302B (zh) * | 2019-05-24 | 2023-08-08 | 创新先进技术有限公司 | 用于识别欺诈案件的策略生成方法及装置和电子设备 |
CN110223324B (zh) * | 2019-06-05 | 2023-06-16 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
US20210097372A1 (en) * | 2019-10-01 | 2021-04-01 | Samsung Electronics Company, Ltd. | Co-Informatic Generative Adversarial Networks for Efficient Data Co-Clustering |
CN111428151B (zh) * | 2020-04-20 | 2022-05-17 | 浙江工业大学 | 一种基于网络增速的虚假消息识别方法及其装置 |
CN111985924A (zh) * | 2020-05-22 | 2020-11-24 | 徽商银行股份有限公司 | 一种基于深度学习的信用卡异常交易行为判定方法及系统 |
CN111914928B (zh) * | 2020-07-30 | 2024-04-09 | 南京大学 | 一种为图像分类器进行对抗样本防御的方法 |
CN112819645B (zh) * | 2021-03-23 | 2024-03-29 | 大连民族大学 | 基于模体度的社交网络虚假信息传播检测方法 |
CN113704409B (zh) * | 2021-08-31 | 2023-08-04 | 上海师范大学 | 一种基于级联森林的虚假招聘信息检测方法 |
CN115309860B (zh) * | 2022-07-18 | 2023-04-18 | 黑龙江大学 | 基于伪孪生网络的虚假新闻检测方法 |
CN116503042B (zh) * | 2023-03-15 | 2023-12-19 | 上海天方夜谭网络科技有限公司 | 适用于检维修人员培训数据处理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8364617B2 (en) * | 2007-01-19 | 2013-01-29 | Microsoft Corporation | Resilient classification of data |
CN106484679A (zh) * | 2016-10-20 | 2017-03-08 | 北京邮电大学 | 一种应用于消费平台上的虚假评论信息识别方法及装置 |
CN106708966A (zh) * | 2016-11-29 | 2017-05-24 | 中国计量大学 | 基于相似度计算的垃圾评论检测方法 |
-
2017
- 2017-10-23 CN CN201710993388.3A patent/CN107832353B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8364617B2 (en) * | 2007-01-19 | 2013-01-29 | Microsoft Corporation | Resilient classification of data |
CN106484679A (zh) * | 2016-10-20 | 2017-03-08 | 北京邮电大学 | 一种应用于消费平台上的虚假评论信息识别方法及装置 |
CN106708966A (zh) * | 2016-11-29 | 2017-05-24 | 中国计量大学 | 基于相似度计算的垃圾评论检测方法 |
Non-Patent Citations (2)
Title |
---|
一种基于支持向量机的垃圾微博识别方法;陈欣等;《安徽工业大学学报(自然科学版)》;20131015(第04期);第440-445页 * |
网络民航事件虚假评论的识别研究;董松月等;《智能计算机与应用》;20160828(第04期);第28-31页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107832353A (zh) | 2018-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832353B (zh) | 一种社交媒体平台虚假信息识别方法 | |
CN112100383B (zh) | 一种面向多任务语言模型的元-知识微调方法及平台 | |
Demirel et al. | Zero-shot object detection by hybrid region embedding | |
CN109271539B (zh) | 一种基于深度学习的图像自动标注方法及装置 | |
CN110390018A (zh) | 一种基于lstm的社交网络评论生成方法 | |
CN113407660B (zh) | 非结构化文本事件抽取方法 | |
CN108959522B (zh) | 基于半监督对抗生成网络的迁移检索方法 | |
CN113032525A (zh) | 虚假新闻检测方法、装置、电子设备以及存储介质 | |
CN111709244A (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
CN111078876A (zh) | 一种基于多模型集成的短文本分类方法和系统 | |
CN110263164A (zh) | 一种基于模型融合的情感倾向分析方法 | |
CN112148997B (zh) | 一种用于灾害事件检测的多模态对抗模型的训练方法和装置 | |
Seo et al. | FaNDeR: fake news detection model using media reliability | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及系统 | |
CN115017887A (zh) | 基于图卷积的中文谣言检测方法 | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
CN115328782A (zh) | 基于图表示学习和知识蒸馏的半监督软件缺陷预测方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN110825852B (zh) | 面向长文本的语义匹配方法及系统 | |
Tran et al. | Triple-sigmoid activation function for deep open-set recognition | |
CN116578708A (zh) | 一种基于图神经网络的论文数据姓名消歧算法 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN105183807A (zh) | 一种基于结构句法的情绪原因事件识别方法及系统 | |
CN113342982B (zh) | 融合RoBERTa和外部知识库的企业行业分类方法 | |
Lan et al. | Mining semantic variation in time series for rumor detection via recurrent neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |