CN112765313A - 一种基于原文和评论信息分析算法的虚假信息检测方法 - Google Patents

一种基于原文和评论信息分析算法的虚假信息检测方法 Download PDF

Info

Publication number
CN112765313A
CN112765313A CN202011626342.6A CN202011626342A CN112765313A CN 112765313 A CN112765313 A CN 112765313A CN 202011626342 A CN202011626342 A CN 202011626342A CN 112765313 A CN112765313 A CN 112765313A
Authority
CN
China
Prior art keywords
information
comments
original text
comment
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011626342.6A
Other languages
English (en)
Other versions
CN112765313B (zh
Inventor
王莉
杨延杰
王宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN202011626342.6A priority Critical patent/CN112765313B/zh
Publication of CN112765313A publication Critical patent/CN112765313A/zh
Application granted granted Critical
Publication of CN112765313B publication Critical patent/CN112765313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种基于原文和评论信息分析算法的虚假信息检测方法,属于基于原文和评论信息分析算法的虚假信息检测技术领域;所要解决的技术问题为:提供一种基于原文和评论信息分析算法的虚假信息检测方法的改进;解决该技术问题采用的技术方案为:对评论与原文的全局结构信息捕获,该过程分为评论关系结构信息捕获和评论与原文的相互选择,其中结构信息捕获作用于依据评论的回复结构构建的回复图,通过聚合具有回复结构关系的信息得到包含结构信息的评论的特征表示;捕获评论内部的局部时序信息以得到评论的局部特征表。最后将生成的全局表示与局部表示拼接用于虚假信息检测,得到该输入文档是否属于虚假信息的概率值;本发明应用于虚假信息检测。

Description

一种基于原文和评论信息分析算法的虚假信息检测方法
技术领域
本发明一种基于原文和评论信息分析算法的虚假信息检测方法,属于基于原文和评论信 息分析算法的虚假信息检测技术领域。
背景技术
现有的虚假信息检测算法按照研究对象的不同大致可以分为基于文本内容的方法、基于 用户的方法以及基于传播的方法;基于文本内容的方法主要依赖原文信息进行检测,这类方 法的优势在于数据获取便利同时这类方法可以在信息发布的第一时间给出判断而不依赖于外 部信息,但是现在文本内容越来越具有强的误导性和迷惑性,这将增加此类方法检测的难度。 另外社交媒体上的信息大多都是短文本,还会造成可用数据稀疏的问题;另一类检测方法是 基于用户的方法,主要利用的用户属性等信息进行虚假信息检测,但是由于隐私保护问题, 往往难以获取用户的真实信息,限制了此类检测方法的发展。
基于传播的检测方法主要利用社交媒体上信息传播时产生的其他信息进行检测,评论就 是其中的一种信息,一方面评论一般与原文处于同一个页面,这就为获取数据带来了便利; 另一方面,评论内容可以看作是对于原文内容的补充,其中包含很多有价值的信息能够帮助 进行虚假信息检测;现有的一些研究已经开始重视使用评论数据来辅助进行虚假新闻的检测, 其中一类方法为机器学习方法,此类方法主要通过设计与提取文章与评论中的统计特征用于 分类,此类方法最大的问题是特征的设计与提取需要庞大的人力物力,同时特征设计较为单 一,无法很好的适应复杂多变的真实环境;另外一类方法侧重于使用深度学习的方法来解决 此类问题,Ma等人将评论的时间序列建模为树结构,利用递归神经网络(RvNN)从评论 中捕捉有用信息用于分类,ShuKai等人利用评论与原文之间的关系,提出了dEFEND模型 来共同捕获有用的评论和原文中重要的句子,并且提供了一定的可解释性,但他们的研究是 忽略了真实情景下原文与评论以及评论与评论之间的实际回复结构关系,而仅仅在语义层面 考虑;另外Bian等人提出了一种用于谣言检测的双向BiGCN模型,通过双向图卷积网络学 习消息评论内部的结构特征,取得了良好的效果,但是他们的工作忽略了评论的时序信息, 即忽略了不同时间段内评论的局部特征,导致对虚假信息检测的准确度较差。
发明内容
本发明为了克服现有技术中存在的不足,所要解决的技术问题为:提供一种基于原文和 评论信息分析算法的虚假信息检测方法的改进。
为了解决上述技术问题,本发明采用的技术方案为:一种基于原文和评论信息分析算法 的虚假信息检测方法,包括如下检测步骤:
步骤一:对评论与原文的全局结构进行信息捕获,基于信息原文与评论以及评论与评论 之间的回复关系构建回复结构图,在原文和评论的全局角度,深入挖掘评论的回复结构信息 和评论与原文的相互选择;
步骤1.1:捕获回复结构信息;对依据回复关系构建的回复结构图,通过图卷积神经网 络来依据结构聚合信息,得到每个节点包含结构信息的全局表示;
定义待检测信息Pi的回复结构图表示为Gi={Vi,Ei},其中Vi为节点集合,Ei为边集合; 定义节点集合
Figure BDA0002877564220000021
表示原文节点和对应的m个评论,原文节点与评论两两之间 依据是否具有回复关系相连,然后将该回复结构图的邻接矩阵和特征矩阵用于计算和学习结 构表示,其中邻接矩阵描述节点之间的拓扑结构,特征矩阵描述节点的特征表示;
步骤1.2:评论与原文的相互选择,定义原文单词与评论之间的互注意力机制来考虑相 互选择;
步骤二:捕获评论内部的局部时序信息;将信息的评论按照时间顺序排列,利用TextCNN得到基于评论内部局部特征的评论表示;
利用固定大小的滑动窗口建模局部时序内的评论以捕获动态变化;
步骤三:检测虚假信息;将上述通过捕获的回复结构信息和相互选择信息后的全局特征 表示与局部特征表示拼接后输入全连接层,得到该信息属于虚假信息的概率值。
所述步骤1.1中捕获回复结构信息的具体过程为:
定义邻接矩阵A∈R(m+1)×(m+1),其中元素为:
Figure BDA0002877564220000031
定义特征矩阵X∈R(m+1)×n,式中n为特征表示的维度,m+1为节点个数;
采用图卷积神经网络(GCN)依据结构信息进行信息聚合,使得每个节点能够依据结构 聚合周围节点的信息以得到更好的表示,通过两次的GCN,得到包含结构信息的节点表示 为:
H1=tanh(AXW0);
H2=tanh(AH1W1);
式中H1,H2∈R(m+1)×1表示通过两次GCN聚合之后的特征表示;W0∈Rn×1,W1∈Rl×l为GCN中可学习的参数;
得到聚合结构信息的特征表示之后,显式的加入自注意力机制来考虑任意评论之间的影 响而不仅仅局限于具有回复结构的信息之间,自注意力机制通过以下公式得到结果:
Figure BDA0002877564220000032
式中输入的Q=K=V=H2[1:],即将除原文节点之外的评论节点的表征矩阵输入以考 虑所有评论之间的影响。
所述步骤1.2中评论与原文的相互选择的具体过程为:
定义原文单词与所有评论的亲和力矩阵F,矩阵F为原文单词与评论的公共子空间,矩 阵F的计算公式为:
F=tanh(CTWcsS);
式中C为通过步骤1.1得到的评论特征矩阵,S为原文每个单词表征构成的特征矩阵, Wcs为可学习的参数;
基于亲和力矩阵F,可以得到原文每个单词以及每个评论各自的注意力值,计算公式为:
Hc=tanh(WsS+(WcCF));
Hs=tanh(WcC+(WsSFT));
Figure BDA0002877564220000033
Figure BDA0002877564220000034
其中Hc,Hs为中间结果矩阵,as,ac为各自的权重矩阵,Wc,Ws,Whs,Whc为可学习 的参数,然后采用加权的方式得到原文的全局特征表示:
Figure BDA0002877564220000035
Figure BDA0002877564220000036
式中k为原文中的单词个数,m为对应的评论个数,
Figure BDA0002877564220000037
Figure BDA0002877564220000038
为经过相互选择之后聚合得到 的向量,由此可以得到原文和评论的全局特征表示为
Figure BDA0002877564220000041
所述步骤二中捕获评论内部局部时序信息的具体过程为:
对所有评论依据发布时间表示为〈…<ct,t>…>,即用户在t时刻发布了评论ct,依据t进 行排序得到按时间排序的评论序列,记为C′=<c1,…,cm>,并通过滑动窗口W在连续评论 之间卷积的方式捕捉其局部特征;
捕捉局部特征的过程为:
设TextCNN有滤波器W∈RT×n,窗口大小为T,表示一次同时有T个评论在同一个窗口中,同时叠加k个滤波器W,并且设置填充操作padding防止卷积过程中丢失数据,默认 为padding=1;然后将滤波器应用到窗口上,依次从第一个评论滑动到最后一个评论,得到最终的特征矩阵Xt∈Rm×k
为提取高频信息,将最大池化操作作用于Xt,得到最终捕获信息的输出为:
hlocal=max(xt)。
所述步骤三中检测虚假信息的具体过程为:
使用带有softmax激活函数的全连接层将待测信息表示映射为属于虚假信息的概率值, 概率值的计算公式为:
Figure BDA0002877564220000042
式中
Figure BDA0002877564220000043
表示新闻为真或假的预测标签概率值,Wh是权重,bh是偏置项;
定义交叉熵损失函数为:
Figure BDA0002877564220000044
其中θ是整个算法网络的参数,y=[y0,y1]是真实标签取值。
本发明相对于现有技术具备以下的有益效果:
一、本发明提出的检测方法为深度学习方法,不需要繁琐的设计和提取手工特征,同时 还能得到更加高级的特征表示用于分类;
二、本发明的检测结果不仅仅依赖于原文和评论的文本内容,而是深入挖掘了更多有价 值的信息,这样的检测结果更加可靠;
三、本发明先进性、稳定性和实用性,识别虚假信息的准确率高,在公开数据集上达到 了7.59%的ACC值提升。
附图说明
下面结合附图对本发明做进一步说明:
图1为本发明虚假信息检测算法整体流程图;
图2为本发明虚假信息检测算法整体模型图。
具体实施方式
如图1和图2所示,本发明提出一种基于原文和评论信息分析算法的虚假信息检测方法, 主要包括以下步骤:
评论与原文的全局结构信息捕获。该过程分为评论关系结构信息捕获和评论与原文的相 互选择,其中结构信息捕获作用于依据评论的回复结构构建的回复图,通过聚合具有回复结 构关系的信息得到包含结构信息的评论的特征表示;评论与原文的相互选择,设计了原文单 词与评论的共同注意力机制,即通过评论选择原文中的重要信息,同时通过原文有侧重的筛 选关键评论,以达到信息聚合的时候有侧重的利用重要信息。
捕获评论内部的局部时序信息。首先依据评论的时间先后构建评论链,利用TextCNN 来捕获评论的局部特性,最后使用最大池化操作获取高频信息。
虚假信息检测。将生成的全局表示与局部表示拼接用于虚假信息检测,得到该输入文档 是否属于虚假信息的概率值。
本发明所依赖的信息载体是原文文本与评论,通过从全局和局部的角度全方面的挖掘与 使用原文与评论中有价值的信息,具有鲁棒性强、信息利用率高的特点,同时具有好的虚假 信息检测性能。
具体的,由于本发明的主要目的是实现虚假信息检测,具体任务目标可以概述为虚假信 息的二分类问题,本发明实现虚假信息检测的过程步骤为:
建设模块一:评论与原文的全局结构信息捕获;
本发明首先依据信息原文与评论以及评论与评论之间的回复关系构建回复结构图,在原 文和评论的全局角度,从以下两部分深入挖掘,(1)评论的回复结构信息;(2)评论与原文 的相互选择。
步骤一、捕获回复结构信息。对依据回复关系构建的回复结构图,通过图卷积神经网络 来依据结构聚合信息,从而得到每个节点包含结构信息的全局表示。具体方法和过程如下。 待检测信息Pi的回复结构图表示为Gi={Vi,Ei},其中Vi为节点集合,Ei为边集合。定义节点 集合
Figure BDA0002877564220000051
表示原文节点和对应的m个评论,它们两两之间依据是否具有回复关 系相连,如果
Figure BDA0002877564220000052
回复了
Figure BDA0002877564220000053
则他们之间存在一条边。然后定义该回复结构图的邻接矩阵和特 征矩阵用于计算和学习结构表示。邻接矩阵描述节点之间的拓扑结构,特征矩阵描述节点的 特征表示。定义邻接矩阵A∈R(m+1)×(m+1),其中元素为:
Figure BDA0002877564220000054
定义特征矩阵X∈R(m+1)×n,n为特征表示的维度,m+1为节点个数。图卷积神经网络(GCN)被证明可以依据结构信息进行信息聚合,使得每个节点能够依据结构聚合周围节点的信息以得到更好的表示,通过两次的GCN,最终可以可到包含结构信息的节点表示: H1=tanh(AXW0);
H2=tanh(AH1W1);
其中H1,H2∈R(m+1)×l表示通过两次GCN聚合之后的特征表示。W0∈Rn×1,W1∈Rl×l为GCN中可学习的参数。鉴于社交媒体信息具有开放性,使得社交媒体上的任意两个信息之间都可能存在影响,而单独使用GCN很难将任意节点之间的影响计算在内。所以在得到聚合结构信息的特征表示之后,本发明显式的加入自注意力机制来考虑任意评论之间的影响而 不仅仅局限于具有回复结构的信息之间,自注意力机制通过下面的公式得到结果:
Figure BDA0002877564220000061
其中,输入的Q=K=V=H2[1:],即将除原文节点之外的评论节点的表征矩阵输入以 考虑所有评论之间的影响。
步骤二、评论与原文的相互选择。评论关注最多的原文内容,往往是原文中最重要的信 息,所以依据评论可以找到原文中最重要的信息;同样的,依据原文信息也可以剔除掉一些 无关的评论,去除这些噪声对于该场景下的检测有一定帮助。本专利设计了原文单词与评论 之间的互注意力机制来考虑这种相互选择,首先构建原文单词与所有评论的亲和力矩阵F, 该矩阵可以看作原文单词与评论的公共子空间,由以下公式得到:
F=tanh(CTWcsS);
其中C为通过上述步骤一之后得到的评论特征矩阵,S为原文每个单词表征构成的特征 矩阵。利用亲和力矩阵F,可以得到原文每个单词以及每个评论各自的注意力值,计算如下:
Hc=tanh(WsS+(WcCF));
Hs=tanh(WcC+(WsSFT));
Figure BDA0002877564220000062
Figure BDA0002877564220000063
然后,本专利利用加权的方式得到原文的全局特征表示:
Figure BDA0002877564220000064
Figure BDA0002877564220000065
其中k为原文中的单词个数,m为对应的评论个数,
Figure BDA0002877564220000066
Figure BDA0002877564220000067
为经过相互选择之后聚合得到 的向量。由此可以得到原文和评论的全局特征表示为
Figure BDA0002877564220000068
建设模块二:捕获评论内部的局部时序信息。将信息的评论按照时间顺序排列,利用 TextCNN得到基于评论内部局部特征的评论表示。
发明人发现,随着时间的推移,评论内部存在主题漂移,即人们讨论的话题会随着时间 发生变化,捕获这种局部的变化,有助于我们更好的把握信息动向,从而提高检测性能。本 发明利用固定大小的滑动窗口建模局部时序内的评论以捕获这种动态变化。
对所有评论依据发布时间表示为<…<ct,t>…>,即用户在t时刻发布了评论ct,依据t进行排 序得到按时间排序的评论序列,记为C′=<c1,…,cm>,并通过滑动窗口W在连续评论之间 卷积的方式捕捉其局部特征;捕捉局部特征的过程为:设TextCNN有滤波器W∈RT ×n,窗 口大小为T,表示一次同时有T个评论在同一个窗口中,同时叠加k个滤波器W,并且设置 填充操作padding防止卷积过程中丢失数据,默认为padding=1;然后将滤波器应用到窗口 上,依次从第一个评论滑动到最后一个评论,得到最终的特征矩阵Xt∈Rm×k;为提取高频 信息,将最大池化操作作用于Xt,得到最终捕获信息的输出为:hlocal=max(Xt)。
建设模块三:虚假信息检测,将上述两个模块生成的全局特征表示与局部特征表示拼接 后输入全连接层,得到该信息是否属于虚假信息的概率值。具体的本发明使用带有softmax 激活函数的全连接层将该待测信息表示映射为是否属于虚假信息的概率值。
Figure BDA0002877564220000071
式中
Figure BDA0002877564220000072
表示新闻为真或假的预测标签概率值,Wh是权重,bh是偏置项;
定义交叉熵损失函数为:
Figure BDA0002877564220000073
其中θ是整个算法网络的参数,y=[y0,y1]是真实标签取值。
本发明深度挖掘和利用原文和评论中有价值的信息,从全局和局部两个角度进行建模, 基于消息的评论回复关系构建回复结构图,建立叠加GCN网络和自注意力机制结合的方法, 得到基于结构的节点特征表示;为突出繁杂数据中重要信息的作用,设计了原文单词与评论 互注意力机制,以增强信息表示能力从而得到全局特征表示;以评论发布的时间顺序为依据, 利用TextCNN得到评论内部的局部特征表示,并综合以上学习策略得到的信息全局表示与 局部表示,建立分类模型,进行虚假新闻检测。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参 照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以 对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替 换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (5)

1.一种基于原文和评论信息分析算法的虚假信息检测方法,其特征在于:包括如下检测步骤:
步骤一:对评论与原文的全局结构进行信息捕获,基于信息原文与评论以及评论与评论之间的回复关系构建回复结构图,在原文和评论的全局角度,深入挖掘评论的回复结构信息和评论与原文的相互选择;
步骤1.1:捕获回复结构信息;对依据回复关系构建的回复结构图,通过图卷积神经网络来依据结构聚合信息,得到每个节点包含结构信息的全局表示;
定义待检测信息Pi的回复结构图表示为Gi={Vi,Ei},其中Vi为节点集合,Ei为边集合;定义节点集合
Figure FDA0002877564210000011
表示原文节点和对应的m个评论,原文节点与评论两两之间依据是否具有回复关系相连,然后将该回复结构图的邻接矩阵和特征矩阵用于计算和学习结构表示,其中邻接矩阵描述节点之间的拓扑结构,特征矩阵描述节点的特征表示;
步骤1.2:评论与原文的相互选择,定义原文单词与评论之间的互注意力机制来考虑相互选择;
步骤二:捕获评论内部的局部时序信息;将信息的评论按照时间顺序排列,利用TextCNN得到基于评论内部局部特征的评论表示;
利用固定大小的滑动窗口建模局部时序内的评论以捕获动态变化;
步骤三:检测虚假信息;将上述通过捕获的回复结构信息和相互选择信息后的全局特征表示与局部特征表示拼接后输入全连接层,得到该信息属于虚假信息的概率值。
2.根据权利要求1所述的一种基于原文和评论信息分析算法的虚假信息检测方法,其特征在于:所述步骤1.1中捕获回复结构信息的具体过程为:
定义邻接矩阵A∈R(m+1)×(m+1),其中元素为:
Figure FDA0002877564210000012
定义特征矩阵X∈R(m+1)×n,式中n为特征表示的维度,m+1为节点个数;
采用图卷积神经网络(GCN)依据结构信息进行信息聚合,使得每个节点能够依据结构聚合周围节点的信息以得到更好的表示,通过两次的GCN,得到包含结构信息的节点表示为:
H1=tanh(AXW0);
H2=tanh(AH1W1);
式中H1,H2∈R(m+1)×l表示通过两次GCN聚合之后的特征表示;W0∈Rn×l,W1∈Rl×l为GCN中可学习的参数;
得到聚合结构信息的特征表示之后,显式的加入自注意力机制来考虑任意评论之间的影响而不仅仅局限于具有回复结构的信息之间,自注意力机制通过以下公式得到结果:
Figure FDA0002877564210000021
式中输入的Q=K=V=H2[1:],即将除原文节点之外的评论节点的表征矩阵输入以考虑所有评论之间的影响,d为输入维度数,为了防止数字过大。
3.根据权利要求2所述的一种基于原文和评论信息分析算法的虚假信息检测方法,其特征在于:所述步骤1.2中评论与原文的相互选择的具体过程为:
定义原文单词与所有评论的亲和力矩阵F,矩阵F为原文单词与评论的公共子空间,矩阵F的计算公式为:
F=tanh(CTWcsS);
式中C为通过步骤1.1得到的评论特征矩阵,S为原文每个单词表征构成的特征矩阵,Wcs为可学习的参数;
基于亲和力矩阵F,可以得到原文每个单词以及每个评论各自的注意力值,计算公式为:
Hc=tanh(WsS+(WcCF));
Hs=tanh(WcC+(WsSFT));
Figure FDA0002877564210000022
Figure FDA0002877564210000023
其中Hc,Hs为中间结果矩阵,as,ac为各自的权重矩阵,Wc,Ws,Whs,Whc为可学习的参数,然后采用加权的方式得到原文的全局特征表示:
Figure FDA0002877564210000024
Figure FDA0002877564210000025
式中k为原文中的单词个数,m为对应的评论个数,
Figure FDA0002877564210000026
Figure FDA0002877564210000027
为经过相互选择之后聚合得到的向量,由此可以得到原文和评论的全局特征表示为
Figure FDA0002877564210000028
4.根据权利要求3所述的一种基于原文和评论信息分析算法的虚假信息检测方法,其特征在于:所述步骤二中捕获评论内部局部时序信息的具体过程为:
对所有评论依据发布时间表示为<…<ct,t>…>,即用户在t时刻发布了评论ct,依据t进行排序得到按时间排序的评论序列,记为C′=<c1,…,cm>,并通过滑动窗口W在连续评论之间卷积的方式捕捉其局部特征;
捕捉局部特征的过程为:
设TextCNN有滤波器W∈RT×n,窗口大小为T,表示一次同时有T个评论在同一个窗口中,同时叠加k个滤波器W,并且设置填充操作padding防止卷积过程中丢失数据,默认为padding=1;然后将滤波器应用到窗口上,依次从第一个评论滑动到最后一个评论,得到最终的特征矩阵Xt∈Rm×k
为提取高频信息,将最大池化操作作用于Xt,得到最终捕获信息的输出为:
hlocal=max(Xt)。
5.根据权利要求4所述的一种基于原文和评论信息分析算法的虚假信息检测方法,其特征在于:所述步骤三中检测虚假信息的具体过程为:
使用带有softmax激活函数的全连接层将待测信息表示映射为属于虚假信息的概率值,概率值的计算公式为:
Figure FDA0002877564210000031
式中
Figure FDA0002877564210000032
表示新闻为真或假的预测标签概率值,Wh是权重,bh是偏置项;
定义交叉熵损失函数为:
Figure FDA0002877564210000033
其中θ是整个算法网络的参数,y=[y0,y1]是真实标签取值。
CN202011626342.6A 2020-12-31 2020-12-31 一种基于原文和评论信息分析算法的虚假信息检测方法 Active CN112765313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011626342.6A CN112765313B (zh) 2020-12-31 2020-12-31 一种基于原文和评论信息分析算法的虚假信息检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011626342.6A CN112765313B (zh) 2020-12-31 2020-12-31 一种基于原文和评论信息分析算法的虚假信息检测方法

Publications (2)

Publication Number Publication Date
CN112765313A true CN112765313A (zh) 2021-05-07
CN112765313B CN112765313B (zh) 2022-06-28

Family

ID=75699158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011626342.6A Active CN112765313B (zh) 2020-12-31 2020-12-31 一种基于原文和评论信息分析算法的虚假信息检测方法

Country Status (1)

Country Link
CN (1) CN112765313B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392334A (zh) * 2021-06-29 2021-09-14 长沙理工大学 冷启动环境下的虚假评论检测方法
CN113486227A (zh) * 2021-07-01 2021-10-08 哈尔滨理工大学 一种基于深度学习的购物平台商品垃圾评论的识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427722A (zh) * 2018-02-09 2018-08-21 卫盈联信息技术(深圳)有限公司 智能交互方法、电子装置及存储介质
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN111259140A (zh) * 2020-01-13 2020-06-09 长沙理工大学 一种基于lstm多实体特征融合的虚假评论检测方法
CN111276148A (zh) * 2020-01-14 2020-06-12 中国平安人寿保险股份有限公司 基于卷积神经网络的回访方法、系统及存储介质
CN111460132A (zh) * 2020-03-10 2020-07-28 哈尔滨工业大学 一种基于图卷积神经网络的生成式会议摘要方法
CN111639252A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于新闻-评论关联性分析的虚假新闻识别方法
CN111708864A (zh) * 2020-06-11 2020-09-25 兰州理工大学 一种用户评论文本情感分析方法及装置
CN111858928A (zh) * 2020-06-17 2020-10-30 北京邮电大学 一种基于图结构对抗学习的社交媒体谣言检测方法及装置
CN111881334A (zh) * 2020-07-15 2020-11-03 浙江大胜达包装股份有限公司 一种基于半监督学习的关键词到企业的检索方法
CN112015862A (zh) * 2020-08-24 2020-12-01 重庆邮电大学 基于层级多通道注意力的用户异常评论检测方法及系统
CN112148875A (zh) * 2020-08-03 2020-12-29 杭州中科睿鉴科技有限公司 基于图卷积神经网络整合内容和结构信息的争议性检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427722A (zh) * 2018-02-09 2018-08-21 卫盈联信息技术(深圳)有限公司 智能交互方法、电子装置及存储介质
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN111259140A (zh) * 2020-01-13 2020-06-09 长沙理工大学 一种基于lstm多实体特征融合的虚假评论检测方法
CN111276148A (zh) * 2020-01-14 2020-06-12 中国平安人寿保险股份有限公司 基于卷积神经网络的回访方法、系统及存储介质
CN111460132A (zh) * 2020-03-10 2020-07-28 哈尔滨工业大学 一种基于图卷积神经网络的生成式会议摘要方法
CN111639252A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于新闻-评论关联性分析的虚假新闻识别方法
CN111708864A (zh) * 2020-06-11 2020-09-25 兰州理工大学 一种用户评论文本情感分析方法及装置
CN111858928A (zh) * 2020-06-17 2020-10-30 北京邮电大学 一种基于图结构对抗学习的社交媒体谣言检测方法及装置
CN111881334A (zh) * 2020-07-15 2020-11-03 浙江大胜达包装股份有限公司 一种基于半监督学习的关键词到企业的检索方法
CN112148875A (zh) * 2020-08-03 2020-12-29 杭州中科睿鉴科技有限公司 基于图卷积神经网络整合内容和结构信息的争议性检测方法
CN112015862A (zh) * 2020-08-24 2020-12-01 重庆邮电大学 基于层级多通道注意力的用户异常评论检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANGLING FU ET AL.: "A Sentiment-Aware Trading Volume Prediction Model for P2P Market Using LSTM", 《IEEE ACCESS》 *
赵雅菲: "电子商务中虚假评论检测研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392334A (zh) * 2021-06-29 2021-09-14 长沙理工大学 冷启动环境下的虚假评论检测方法
CN113392334B (zh) * 2021-06-29 2024-03-08 长沙理工大学 冷启动环境下的虚假评论检测方法
CN113486227A (zh) * 2021-07-01 2021-10-08 哈尔滨理工大学 一种基于深度学习的购物平台商品垃圾评论的识别方法

Also Published As

Publication number Publication date
CN112765313B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN102214241B (zh) 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN104102745B (zh) 基于局部最小边的复杂网络社团挖掘方法
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
Cordeiro et al. Evolving networks and social network analysis methods and techniques
CN104408667B (zh) 一种电能质量综合评估的方法和系统
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN112765313B (zh) 一种基于原文和评论信息分析算法的虚假信息检测方法
CN106649663B (zh) 一种基于紧凑视频表征的视频拷贝检测方法
US11934536B2 (en) Dynamic network risk predicting method based on a graph neural network
CN103927398A (zh) 基于最大频繁项集挖掘的微博炒作群体发现方法
CN108549647A (zh) 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
CN106778686A (zh) 一种基于深度学习和图论的拷贝视频检测方法和系统
CN103488683B (zh) 一种微博数据管理系统及其实现方法
CN103400299B (zh) 基于重叠点识别的网络重叠社团检测方法
CN113705099A (zh) 基于对比学习的社交平台谣言检测模型构建方法及检测方法
CN110929683B (zh) 一种基于人工智能的视频舆情监测方法及系统
CN104008177A (zh) 面向图像语义标注的规则库结构优化与生成方法及系统
CN115238773A (zh) 异质图元路径自动评估的恶意账号检测方法及装置
CN111159411B (zh) 一种融合知识图谱的文本立场分析方法、系统及存储介质
CN112380455A (zh) 基于反溯源安全受控入网通道的境内外互联网数据定向隐蔽采集方法
CN107577681B (zh) 一种基于社交媒体图片的地域分析、推荐方法及系统
CN113762372B (zh) 即时通讯信息中组织成员识别方法及装置
CN110633394A (zh) 基于特征加强的图压缩方法
CN114969143A (zh) 基于数据挖掘的城市间大气污染物时空关联特征分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant