CN114840771A - 基于新闻环境信息建模的虚假新闻检测方法 - Google Patents

基于新闻环境信息建模的虚假新闻检测方法 Download PDF

Info

Publication number
CN114840771A
CN114840771A CN202210214207.3A CN202210214207A CN114840771A CN 114840771 A CN114840771 A CN 114840771A CN 202210214207 A CN202210214207 A CN 202210214207A CN 114840771 A CN114840771 A CN 114840771A
Authority
CN
China
Prior art keywords
news
vector
environment
detected
false
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210214207.3A
Other languages
English (en)
Other versions
CN114840771B (zh
Inventor
曹娟
盛强
张雪遥
李润东
汪旦丁
朱勇椿
谢添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Ruijian Technology Co ltd
Original Assignee
Beijing Zhongke Ruijian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Ruijian Technology Co ltd filed Critical Beijing Zhongke Ruijian Technology Co ltd
Priority to CN202210214207.3A priority Critical patent/CN114840771B/zh
Publication of CN114840771A publication Critical patent/CN114840771A/zh
Application granted granted Critical
Publication of CN114840771B publication Critical patent/CN114840771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于新闻环境信息建模的虚假新闻检测方法,其特征在于:基于待检测新闻获取其发布前若干天内的新闻消息集合,将其作为宏观新闻环境;从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻,将其作为微观新闻环境;基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观环境感知向量;基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微观环境感知向量,其中微观环境中心向量为微观新闻环境所有新闻元素向量的均值;获取虚假新闻检测器的对待检测新闻的新闻表示向量,将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合,并基于融合结合判断该待检测新闻的真假。

Description

基于新闻环境信息建模的虚假新闻检测方法
技术领域
本发明涉及一种基于新闻环境信息建模的虚假新闻检测方法。适用于社交 媒体数据挖掘和互联网内容安全领域。
背景技术
社交媒体上的虚假新闻问题已经在政治、经济、民生等方面对现实世界构 成了威胁。为了实现对虚假新闻的高效检测,已有许多研究着眼于开发自动虚 假新闻检测系统。按照关注点不同,国内外自动检测虚假新闻内容的方法大致 可分为两种:
第一类是仅仅基于消息内容的检测方法,这类方法关注于虚假新闻本身是 “如何写”的,即不同虚假新闻之间共享的模式信息(如风格、情感、语言运 用偏好等)。例如利用了虚假新闻中的情感、态度、情绪等信息。
第二类是基于事实证据的方法,这类方法主要通过检索外部证据库以判断 给定新闻中描述的事件是否为真,并根据这些证据本身的可信度和其对给定新 闻的支持、反对或中立立场,判断给定新闻所描述事件的真实性。例如引入了 维基百科作为外部证据库,直接使用搜索引擎得到相关证据,针对“旧谣新传” 现象,以辟谣文章库中的辟谣文作为证据。
发明内容
本发明要解决的技术问题是:提供一种基于新闻环境信息建模的虚假新闻 检测方法。
本发明所采用的技术方案是:一种基于新闻环境信息建模的虚假新闻检测 方法,其特征在于:
基于待检测新闻获取其发布前若干天内的新闻消息集合,将该新闻消息集 合作为宏观新闻环境;
从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻,将该若干 条新闻作为微观新闻环境;
基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观 环境感知向量;
基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向 量的相似度计算微观环境感知向量,其中微观环境中心向量为微观新闻环境所 有新闻元素向量的均值;
获取虚假新闻检测器的对待检测新闻的新闻表示向量,将新闻表示向量与 所述宏观环境感知向量和所述微观环境感知向量融合,并基于融合结合判断该 待检测新闻的真假。
所述基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算 宏观环境感知向量,包括:
使用C个高斯核对各个相似度数值按不同区间进行池化;
将所有C个高斯核的输出拼接,得到宏观环境核池化向量;
将宏观环境核池化向量、待检测新闻向量及宏观环境中心向量拼接后送入 多层感知机网络,得到宏观环境感知向量;
所述宏观环境中心向量为宏观新闻环境所有新闻元素向量的均值。
所述使用C个高斯核对各个相似度数值按不同区间进行池化,包括:
第j个高斯核的输出为
Figure BDA0003531739960000021
其中,μj和σj分别是第j个高斯核的中心和宽度。
所述基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元 素向量的相似度计算微观环境感知向量,包括:
使用C个高斯核对各个相似度数值按不同区间进行池化;
将所有C个高斯核的输出拼接,分别得到新闻-微观环境核池化向量和中心 -微观环境核池化向量;
使用多层感知机网络计算待检测新闻向量和微观环境中心向量的语义交互 向量;
使用多层感知机网络计算新闻-微观环境核池化向量和中心-微观环境核池 化向量的相似度交互向量;
将语义交互向量和相似度交互向量拼接后送入多层感知机网络,得到微观 环境感知向量。
所述使用多层感知机网络计算新闻-微观环境核池化向量和中心-微观环境 核池化向量的相似度交互向量,包括:
usim=MLP3(g(K(p,εmic),K(m(εmic),εmic)))
其中,usim为相似度交互向量;K(p,εmic)为新闻-微观环境核池化向量; K(m(εmic),εmic)为中心-微观环境核池化向量;g(x,y)=(x⊙y)⊕(x-y),⊙ 表示哈达玛积。
所述将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融 合,并基于融合结合判断该待检测新闻的真假,包括:
将新闻表示向量与宏观环境感知向量拼接融合得到融合门向量;
使用融合门向量作为权重融合宏观环境感知向量和微观环境感知向量,得 到环境感知向量;
将新闻表示向量和环境感知向量拼接,经过多层感知机网络和sigmoid函数 得到预测概率值;
将预测概率值与预先设定的阈值进行比对,得到新闻真假的预测结果。
所述将新闻表示向量与宏观环境感知向量拼接融合得到融合门向量,包括:
将新闻表示向量与宏观环境感知向量拼接,并通过线性层和sigmoid函数得 到融合门向量。
一种基于新闻环境信息建模的虚假新闻检测装置,其特征在于:
新闻获取模块,用于基于待检测新闻获取其发布前若干天内的新闻消息集 合,将该新闻消息集合作为宏观新闻环境;
新闻提取模块,用于从新闻消息集合中提取与待检测新闻相似度最高的若 干条新闻,将该若干条新闻作为微观新闻环境;
宏观感知计算模块,用于基于待检测新闻向量与宏观新闻环境所有新闻元 素向量的相似度计算宏观环境感知向量;
微观感知计算模块,基于待检测新闻向量和微观环境中心向量与微观新闻 环境所有新闻元素向量的相似度计算微观环境感知向量,其中微观环境中心向 量为微观新闻环境所有新闻元素向量的均值;
融合判断模块,用于获取虚假新闻检测器的对待检测新闻的新闻表示向量, 将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合,并基 于融合结合判断该待检测新闻的真假。
一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于: 所述计算机程序被执行时实现所述基于新闻环境信息建模的虚假新闻检测方法 的步骤。
一种虚假新闻检测电子设备,具有存储器和处理器,存储器上存储有能被 处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基 于新闻环境信息建模的虚假新闻检测方法的步骤。
本发明的有益效果是:本发明根据待检测新闻调取其发布前若干天的主流 新闻集合,构成宏观新闻环境,之后检索主题相关消息构建微观新闻环境,在 宏观新闻环境和微观新闻环境中,分别计算待检测新闻与环境新闻之间的语义 相似度,并使用高斯核池化技术实现“软计数”,聚合得到宏观/微观环境感知向 量。
本发明使用融合门机制实现新闻环境引导的虚假新闻检测,即将已有虚假 新闻检测器的新闻表示向量与环境感知向量拼接融合得到融合门向量,再使用 融合门向量作为权重融合宏观/微观环境感知向量,用于最终预测待检测新闻是 真或假。
本发明通过对新闻环境的“宏观-微观”两层建模,有效捕捉了给定消息的 流行度和新颖度,实现了对已有虚假新闻检测方法的有效信息补充,提高了虚 假新闻检测的性能。
本发明主要依赖已经成熟固定的相似度计算模块和无参的高斯核池化技术, 在已有的虚假新闻检测器基础上,引入参数量较少,即便面对大量的新闻环境 数据,也可以实现快速计算,拥有良好的运算效率。
已有方案均试图学习并记忆静态、恒定的知识用于虚假新闻检测,而本发 明引入了消息发布当时的新闻环境,可以实现对外部信息变化的快速适应,实 现动态决策,从而拥有更强的泛化能力。
附图说明
图1为实施例的流程图。
图2为实施例中的新闻采集流程图。
具体实施方式
为了达到在互联网上(尤其是社交媒体上)广泛传播的目的,一条假新闻 必须要在大量主流新闻声音中吸引到足够多的注意力,从而引发病毒式传播。 这意味着,炮制假新闻的造谣者在创作过程中,会仔细考虑该假新闻面对的新 闻环境因素,并据此挑选自己的造谣重点。
数据分析显示,一条“优秀的”假新闻应当具有两方面优势:(1)流行度 高,即假新闻相关话题最好已经有一定热度。(2)新颖度高,假新闻需要在热 点新闻的众多已知信息之外,找到新颖点,从而迅速抓住读者眼球,引发关注。
承接上例,大部分相关新闻都关注赛程、赛果,而假消息为了吸引眼球, 可能造谣。而上述的流行度和新颖度,是消息本身和事实证据库难以提供的, 需要利用新闻发布之时的新闻环境信息。
如图1所示,本实施例提供一种基于新闻环境信息建模的虚假新闻检测方 法,具体包括以下步骤:
S1、基于待检测新闻P获取其发布前若干天内的新闻消息集合,将该新闻 消息集合作为宏观新闻环境。
本实施例维护了一个主流新闻消息库,其通过数据采集器针对性获取给定 主流媒体列表中的媒体发布的所有新闻消息ε,作为新闻环境构建的基本元素, 如图2所示。为了使构建的宏观新闻环境(εmac)可以反映待检测新闻相关话 题发布之时的流行度,本实施例定义宏观新闻环境为新闻消息库中发布时间在 待检测新闻发布前T天内的所有新闻组成的新闻消息集合:
εmac={e:e∈ε,0≤tp-te≤T}
其中,tp为待检测新闻P的发布时间;te为媒体发布新闻e的时间。
S2、从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻,将该 若干条新闻作为微观新闻环境。
为了使构建的微观新闻环境(εmic)可以反映待检测新闻P在其所在话题中 的新颖度高低,本实施例定义微观新闻环境为宏观新闻环境与P相似度最高前 r%条新闻(向上取整):
εmic={e:e∈Topk(P,εmac)}
其中,
Figure BDA0003531739960000071
r∈(0,100);相似度函数Topk可以返回前k条相 似新闻,具体方法可以是基于文本的(如词频-逆文档频率,TF-IDF),也可以 是基于语义的(如SentenceBERT)。
本实施例使用预训练语言模型
Figure BDA0003531739960000072
(如BERT)将待检测新闻P和宏观/微观 新闻环境中的所有新闻元素(例如e)转化实值语义向量,维度为d:
Figure BDA0003531739960000073
Figure BDA0003531739960000074
S3、基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算 宏观环境感知向量。
S30、首先基于待检测新闻P和宏观新闻环境新闻元素的语义向量计算待检 测新闻P与所有宏观新闻环境元素ei∈εmac(i=1,…,|εmac|)的余弦相似度:
Figure BDA0003531739960000075
S31、由于相似度列表
Figure BDA0003531739960000076
的长度受宏观新闻环境新闻元素数量影响,本实施例使用高斯核池化对各个相似度数值按不同区间进行了“软计数”。 假设使用C个高斯核,第j个高斯核的输出为
Figure BDA0003531739960000077
其中,μj和σj分别是第j个高斯核的中心(分布均值)和宽度(分布标准差), 所有中心都位于区间[-1,1]内(与余弦相似度函数的值域一致),其分布可根据 实际需求,选择均匀分布或其它自定义分布。
S32、将所有C个高斯核输出拼接(⊕),即得到新闻-宏观环境核池化向量:
Figure BDA0003531739960000082
S33、将新闻-宏观环境核池化向量、待检测新闻向量以及宏观环境中心向量 m(εmac)(即宏观环境所有新闻元素向量的均值)进行拼接送入多层感知机网络 (MLP,为便于区分,此处为MLP1),得到宏观环境感知向量:
vp,mac=MLP1(p⊕m(εmac)⊕K(p,εmac))
S4、基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元 素向量的相似度计算微观环境感知向量,其中微观环境中心向量为微观新闻环 境所有新闻元素向量的均值。
S40、由于新颖度的体现不仅需要对待检测新闻与微观新闻环境关系的刻画, 还需要对微观新闻环境本身的分布进行表示,本实施例利用步骤S3中核池化向 量中的计算公式,分别对待检测新闻向量和微观环境中心向量m(εmic)(即微观 环境所有新闻元素向量的均值)分别与所有微观环境元素进行了相似度计算和 核池化,得到新闻-微观环境核池化向量K(p,εmic)和中心-微观环境核池化向量 K(m(εmic),εmic)。
S41、使用多层感知机网络(MLP2)计算待检测新闻向量和微观环境中心 向量的语义交互向量。
usem=MLP2(p⊕m(εmic))
S42、使用多层感知机网络(MLP3)计算新闻-微观环境核池化向量K(p,εmic) 和中心-微观环境核池化向量K(m(εmic),εmic)的相似度交互向量。
usim=MLP3(g(K(p,εmic),K(m(εmic),εmic)))
其中,g(x,y)=(x⊙y)⊕(x-y),⊙表示哈达玛积。
S43、最后将语义交互向量和相似度交互向量拼接送入多层感知机网络 (MLP4),得到微观环境感知向量:
vp,mic=MLP4(usem⊕usim)
S5、获取虚假新闻检测器的对待检测新闻的新闻表示向量,将新闻表示向 量与所述宏观环境感知向量和所述微观环境感知向量融合,并基于融合结合判 断该待检测新闻的真假。
本实施例旨在利用新闻环境信息提高虚假新闻的检测性能,而不是单独利 用新闻环境信息进行判别,因此需要给出与已有虚假新闻检测器的整合方案。
S50、给定虚假新闻检测器,假设o是其对待检测新闻的新闻表示向量,本 实施例基于融合门机制实现新闻环境感知信息和新闻语义表示信息的融合。具 体地,将o和宏观环境感知向量vp,max拼接,并通过线性层(Linear)和sigmoid 函数得到融合门向量:
g=sigmoid(Linear(o⊕vp,mac))
S51、使用融合门向量作为重要性指标,加权融合宏观和微观环境感知向量, 得到环境感知向量:
vp=g⊙vp,max+(1-g)⊙vp,mic
S52、将新闻表示向量o和融合后的环境感知向量vp拼接,经过多层感知机 网络(MLP5)和sigmoid层,即可得到预测概率值
Figure BDA0003531739960000094
Figure BDA0003531739960000095
S53、根据预先设定的阈值thr(一般设为0.5),可以得到最终的预测结果:
Figure BDA0003531739960000096
本实施例还提供一种基于新闻环境信息建模的虚假新闻检测装置,包括新 闻获取模块、新闻提取模块、宏观感知计算模块、微观感知计算模块和融合判 断模块。
本例中新闻获取模块用于基于待检测新闻获取其发布前若干天内的新闻消 息集合,将该新闻消息集合作为宏观新闻环境;新闻提取模块用于从新闻消息 集合中提取与待检测新闻相似度最高的若干条新闻,将该若干条新闻作为微观 新闻环境;宏观感知计算模块用于基于待检测新闻向量与宏观新闻环境所有新 闻元素向量的相似度计算宏观环境感知向量;微观感知计算模块基于待检测新 闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微 观环境感知向量,其中微观环境中心向量为微观新闻环境所有新闻元素向量的 均值;融合判断模块用于获取虚假新闻检测器的对待检测新闻的新闻表示向量, 将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合,并基 于融合结合判断该待检测新闻的真假。
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序, 该计算机程序被执行时实现本例中基于新闻环境信息建模的虚假新闻检测方法 的步骤。
本实施例还提供一种虚假新闻检测电子设备,具有存储器和处理器,存储 器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本例中 基于新闻环境信息建模的虚假新闻检测方法的步骤。

Claims (10)

1.一种基于新闻环境信息建模的虚假新闻检测方法,其特征在于:
基于待检测新闻获取其发布前若干天内的新闻消息集合,将该新闻消息集合作为宏观新闻环境;
从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻,将该若干条新闻作为微观新闻环境;
基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观环境感知向量;
基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微观环境感知向量,其中微观环境中心向量为微观新闻环境所有新闻元素向量的均值;
获取虚假新闻检测器的对待检测新闻的新闻表示向量,将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合,并基于融合结合判断该待检测新闻的真假。
2.根据权利要求1所述的基于新闻环境信息建模的虚假新闻检测方法,其特征在于,所述基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观环境感知向量,包括:
使用C个高斯核对各个相似度数值按不同区间进行池化;
将所有C个高斯核的输出拼接,得到宏观环境核池化向量;
将宏观环境核池化向量、待检测新闻向量及宏观环境中心向量拼接后送入多层感知机网络,得到宏观环境感知向量;
所述宏观环境中心向量为宏观新闻环境所有新闻元素向量的均值。
3.根据权利要求2所述的基于新闻环境信息建模的虚假新闻检测方法,其特征在于,所述使用C个高斯核对各个相似度数值按不同区间进行池化,包括:
第j个高斯核的输出为
Figure FDA0003531739950000021
其中,μj和σj分别是第j个高斯核的中心和宽度。
4.根据权利要求1所述的基于新闻环境信息建模的虚假新闻检测方法,其特征在于,所述基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微观环境感知向量,包括:
使用C个高斯核对各个相似度数值按不同区间进行池化;
将所有C个高斯核的输出拼接,分别得到新闻-微观环境核池化向量和中心-微观环境核池化向量;
使用多层感知机网络计算待检测新闻向量和微观环境中心向量的语义交互向量;
使用多层感知机网络计算新闻-微观环境核池化向量和中心-微观环境核池化向量的相似度交互向量;
将语义交互向量和相似度交互向量拼接后送入多层感知机网络,得到微观环境感知向量。
5.根据权利要求4所述的基于新闻环境信息建模的虚假新闻检测方法,其特征在于,所述使用多层感知机网络计算新闻-微观环境核池化向量和中心-微观环境核池化向量的相似度交互向量,包括:
usim=MLP3(g(K(p,εmic),K(m(εmic),εmic)))
其中,usim为相似度交互向量;K(p,εmic)为新闻-微观环境核池化向量;K(m(εmic),εmic)为中心-微观环境核池化向量;g(x,y)=(x⊙y)⊕(x-y),⊙表示哈达玛积。
6.根据权利要求1所述的基于新闻环境信息建模的虚假新闻检测方法,其特征在于,所述将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合,并基于融合结合判断该待检测新闻的真假,包括:
将新闻表示向量与宏观环境感知向量拼接融合得到融合门向量;
使用融合门向量作为权重融合宏观环境感知向量和微观环境感知向量,得到环境感知向量;
将新闻表示向量和环境感知向量拼接,经过多层感知机网络和sigmod函数得到预测概率值;
将预测概率值与预先设定的阈值进行比对,得到新闻真假的预测结果。
7.根据权利要求6所述的基于新闻环境信息建模的虚假新闻检测方法,其特征在于,所述将新闻表示向量与宏观环境感知向量拼接融合得到融合门向量,包括:
将新闻表示向量与宏观环境感知向量拼接,并通过线性层和sigmod函数得到融合门向量。
8.一种基于新闻环境信息建模的虚假新闻检测装置,其特征在于:
新闻获取模块,用于基于待检测新闻获取其发布前若干天内的新闻消息集合,将该新闻消息集合作为宏观新闻环境;
新闻提取模块,用于从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻,将该若干条新闻作为微观新闻环境;
宏观感知计算模块,用于基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观环境感知向量;
微观感知计算模块,基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微观环境感知向量,其中微观环境中心向量为微观新闻环境所有新闻元素向量的均值;
融合判断模块,用于获取虚假新闻检测器的对待检测新闻的新闻表示向量,将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合,并基于融合结合判断该待检测新闻的真假。
9.一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~7任意一项所述基于新闻环境信息建模的虚假新闻检测方法的步骤。
10.一种虚假新闻检测电子设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~7任意一项所述基于新闻环境信息建模的虚假新闻检测方法的步骤。
CN202210214207.3A 2022-03-04 2022-03-04 基于新闻环境信息建模的虚假新闻检测方法 Active CN114840771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210214207.3A CN114840771B (zh) 2022-03-04 2022-03-04 基于新闻环境信息建模的虚假新闻检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210214207.3A CN114840771B (zh) 2022-03-04 2022-03-04 基于新闻环境信息建模的虚假新闻检测方法

Publications (2)

Publication Number Publication Date
CN114840771A true CN114840771A (zh) 2022-08-02
CN114840771B CN114840771B (zh) 2023-04-28

Family

ID=82561780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210214207.3A Active CN114840771B (zh) 2022-03-04 2022-03-04 基于新闻环境信息建模的虚假新闻检测方法

Country Status (1)

Country Link
CN (1) CN114840771B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496140A (zh) * 2022-09-19 2022-12-20 北京邮电大学 一种多模态虚假新闻检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
US20160012040A1 (en) * 2013-02-28 2016-01-14 Kabushiki Kaisha Toshiba Data processing device and script model construction method
CN111061843A (zh) * 2019-12-26 2020-04-24 武汉大学 一种知识图谱引导的假新闻检测方法
CN111639252A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于新闻-评论关联性分析的虚假新闻识别方法
CN113469214A (zh) * 2021-05-20 2021-10-01 中国科学院自动化研究所 虚假新闻检测方法、装置、电子设备和存储介质
CN113849599A (zh) * 2021-09-03 2021-12-28 北京中科睿鉴科技有限公司 基于模式信息和事实信息的联合虚假新闻检测方法
CN113901810A (zh) * 2021-09-24 2022-01-07 杭州中科睿鉴科技有限公司 一种基于多表示学习的跨领域虚假新闻检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
US20160012040A1 (en) * 2013-02-28 2016-01-14 Kabushiki Kaisha Toshiba Data processing device and script model construction method
CN111061843A (zh) * 2019-12-26 2020-04-24 武汉大学 一种知识图谱引导的假新闻检测方法
CN111639252A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于新闻-评论关联性分析的虚假新闻识别方法
CN113469214A (zh) * 2021-05-20 2021-10-01 中国科学院自动化研究所 虚假新闻检测方法、装置、电子设备和存储介质
CN113849599A (zh) * 2021-09-03 2021-12-28 北京中科睿鉴科技有限公司 基于模式信息和事实信息的联合虚假新闻检测方法
CN113901810A (zh) * 2021-09-24 2022-01-07 杭州中科睿鉴科技有限公司 一种基于多表示学习的跨领域虚假新闻检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈燕方 等: ""在线社会网络谣言检测综述"", 《计算机学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496140A (zh) * 2022-09-19 2022-12-20 北京邮电大学 一种多模态虚假新闻检测方法及系统

Also Published As

Publication number Publication date
CN114840771B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
Collins et al. Trends in combating fake news on social media–a survey
Kumar et al. Sentiment analysis of multimodal twitter data
Castillo Big crisis data: social media in disasters and time-critical situations
Mishra et al. Analyzing machine learning enabled fake news detection techniques for diversified datasets
Boididou et al. Verifying information with multimedia content on twitter: a comparative study of automated approaches
CN107766585B (zh) 一种面向社交网络的特定事件抽取方法
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
US9317594B2 (en) Social community identification for automatic document classification
Hettiarachchi et al. Embed2Detect: temporally clustered embedded words for event detection in social media
Nguyen et al. A deep architecture for sentiment analysis of news articles
CN112165639B (zh) 内容分发方法、装置、电子设备以及存储介质
Shang et al. Fauxward: a graph neural network approach to fauxtography detection using social media comments
Zhang et al. Multidimensional mining of massive text data
Liu et al. Clickbait detection on WeChat: A deep model integrating semantic and syntactic information
Singh et al. Real-time event detection and classification in social text steam using embedding
CN114840771A (zh) 基于新闻环境信息建模的虚假新闻检测方法
Bitarafan et al. Spgd_hin: Spammer group detection based on heterogeneous information network
Duman Social media analytical CRM: a case study in a bank
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
Bhattacharjee et al. Multimodal co-training for fake news identification using attention-aware fusion
Lazzez et al. DeepVisInterests: CNN-ontology prediction of users interests from social images
Zhou Application of-Means Clustering Algorithm in Energy Data Analysis
Costa et al. Customized crowds and active learning to improve classification
Cuzzocrea et al. An innovative user-attentive framework for supporting real-time detection and mining of streaming microblog posts
CN114817697A (zh) 标签信息的确定方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant