CN113158082A - 一种基于人工智能的媒体内容真实度分析方法 - Google Patents

一种基于人工智能的媒体内容真实度分析方法 Download PDF

Info

Publication number
CN113158082A
CN113158082A CN202110523827.0A CN202110523827A CN113158082A CN 113158082 A CN113158082 A CN 113158082A CN 202110523827 A CN202110523827 A CN 202110523827A CN 113158082 A CN113158082 A CN 113158082A
Authority
CN
China
Prior art keywords
content
social
comment
feature
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110523827.0A
Other languages
English (en)
Other versions
CN113158082B (zh
Inventor
聂佼颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hehongguang Technology Shanghai Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110523827.0A priority Critical patent/CN113158082B/zh
Publication of CN113158082A publication Critical patent/CN113158082A/zh
Application granted granted Critical
Publication of CN113158082B publication Critical patent/CN113158082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于人工智能的媒体内容真实度分析方法,包括:根据每个社交用户发表的评论内容获取每个社交用户的第一评论信息和第二评论信息;基于所述第一评论信息确定每个社交用户之间的元素集合的元素交集,基于所述第二评论信息确定每个社交用户之间的情感相似度,基于上述数据得到每个社交用户之间的评论相关度,并为不同社交用户构建相应的关联拓扑图,基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容,并验证所述焦点内容是否为虚假新闻内容。

Description

一种基于人工智能的媒体内容真实度分析方法
技术邻域
本发明涉及人工智能和媒体内容分析领域,尤其涉及一种基于人工智能的媒体内容真实度分析方法。
背景技术
AI(Artificial Intelligence,人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
随着互联网社交平台的迅速崛起,极大提升了网络信息传播的效率,传播途径的便捷助长了虚假新闻的生成和传播。假新闻不仅会使媒体的可信度减弱,还会造成不良的社会影响与经济损失,引起社会秩序的混乱,影响人们的正常生活。传统虚假新闻的识别主要依赖用户的自发举报及工作人员的人工审核,需耗费大量人力,且此类监控手段具有较强的滞后性,通常举报上来的虚假信息已传播一段时间,并已造成一定的影响,识别效率不高。
发明内容
此外,由于新闻中包含大量的内容,常用的人工智能识别方法则通过抽取整条文章序列对新闻进行虚假识别,难以聚焦假新闻有问题的部分,增加了虚假新闻识别的复杂度以及识别时提取的数据量。
针对前述问题,本发明提供了一种基于人工智能的媒体内容真实度分析方法,包括:
对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息,并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集,其中,所述第一评论信息包括多个元素集合,所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构;
利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息,并从每个社交用户的第二评论信息中提取对应社交用户的情感特征,其中,所述第二评论信息包括多个情感元素词,所述情感元素词用于表征每个社交用户的情感倾向;
基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度,并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图,其中,所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定;
基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容,并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容。
根据一个优选实施方式,所述对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括:
对每个社交用户发表的评论内容进行数据处理以过滤评论内容中的无用信息,对处理后的评论内容进行分词以得到若干分词词汇,其中,所述无用信息包括超链接、图片和符号元素;
基于公共语料库中的常用关键词和关键词识别规则构件关键词识别的初始特征模板,根据所述初始特征模板对分词词汇进行关键词匹配以对分词词汇中的关键词进行初步筛选;所述关键词识别规则包括根据先验特征字词指定的边界判定当前词汇的边界,并判断当前词汇的附加特征词是否与先验附加特征词相同;若相同,根据常用关键词判断当前词汇是否为关键词;
对初始特征模板的观察窗口进行扩展以获取每个初步筛选的关键词的上下文信息,构造关键词识别规则的多元识别特征以对初始特征模板的匹配规则进行更新得到复合特征模板,利用所述复合特征模板对所述关键词的上下文信息进行识别以对所述关键词进行词汇修正;
获取修正后的每个关键词的元素类型,以为相同元素类型的关键词生成相应的元素集合,并对所有元素集合进行排序以得到社交用户的第一评论信息。
根据一个优选实施方式,所述元素类型包括人名、地名、机构名、组织名和时间。
所述先验附加特征词分为前缀特征词和后缀特征词,所述先验附加特征词包括用于对地名进行识别的先验地名附加特征词。
根据一个优选实施方式,更新后的匹配规则包括:将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界,将复合特征模板中的首部先验特征字词作为关键词识别的首部边界;根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合,根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。
根据一个优选实施方式,所述基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括:
基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度,并将所述焦点相似度和所述情感相似度进行加权融合以得到每个社交用户之间的评论相关度。
根据一个优选实施方式,所述基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括:
获取关联拓扑图中每个社交用户之间边的权重值,并将所述权重值与预设阈值进行比较;在所述权重值小于预设阈值时,将所述权重值对应的边从关联拓扑图中删除;
获取与对应社交用户存在关联关系的所有相邻社交用户,对每个社交用户之间边的权重值进行迭代传播直至收敛得到每个社交用户之间的关联评论特征,其中,所述关联关系用于表征对应社交用户之间存在边;
获取对应评论内容包含的每个词汇的词向量,并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列,将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征;
基于所述关联评价特征和深层语义特征识别不同社交用户在同一新闻内容中关注的同一焦点内容。
根据一个优选实施方式,所述多元识别特征包括当前关键词与前缀特征词的组合特征和当前关键词与后缀特征词的组合特征。
根据一个优选实施方式,所述关联评论特征的计算公式包括:
Figure BDA0003065059690000041
其中,T(ui)为社交用户ui与社交用户uj之间的关联评论特征,Q(ui,uj)为社交用户ui与社交用户uj之间边的权重值,T(uj)为一个预设的随机初始值,nb(ui)为与ui存在关联关系的相邻社交用户,nb(uj)为与uj存在关联关系的相邻社交用户,Q(uj,uk)为社交用户uj与社交用户uk之间边的权重值,d为设置的阻尼系数。
根据一个优选实施方式,所述将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容的步骤包括:
对所述焦点内容的文本内容进行特征统计以得到所述焦点内容的文本语言特征,并将所述焦点内容的文本内容和文本语言特征输入至验证模型中,其中,所述文本语言特征包括文本长度、特殊符号、语气词和文本链接;
利用验证模型的第一卷积层对所述文本内容进行卷积操作以对文本内容中各个焦点词汇与其上下文的高维向量表示进行捕捉得到所述文本内容的多维语义特征;
利用验证模型的第二卷积层对所述文本语言特征进行归一化操作,其中,具有参数线性整流函数PReLU作为激活函数;
利用验证模型的池化层对所述多维语义特征进行数据压缩和参数压缩以降低多维语义特征的维度从而减小过拟合;
利用验证模型的全连接层对所述多维语义特征和归一化后的文本语言特征进行向量连接操作,并对输出后的连接向量进行压平操作以将所述连接向量一维化,并将一维化后的连接向量输入到分类器中得到最终的分类结果。
本发明具有以下有益效果:
本发明提供的基于人工智能的媒体内容真实度分析方法通过对新闻内容下的不同用户发表的评论进行分析,识别不同用户共同关注的新闻焦点,并通过人工智能自动验证新闻焦点内容的真伪性,降低虚假新闻识别的复杂度,能够从海量新闻数据中快速的识别出虚假新闻,相较于传统识别方式中抽取新闻内容的整条文章序列进行识别,大幅减少识别虚假新闻时提取的数据量。
附图说明
图1为本发明的基于人工智能的媒体内容真实度分析方法的流程图。
具体实施方式
本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
如图1所示,本发明的基于人工智能的媒体内容真实度分析方法可以包括:
S1、对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息,并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集,其中,所述第一评论信息包括多个元素集合,所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构。
具体地,所述对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括:
对每个社交用户发表的评论内容进行数据处理以过滤评论内容中的无用信息,对处理后的评论内容进行分词以得到若干分词词汇,其中,所述无用信息包括超链接、图片和符号元素;
基于公共语料库中的常用关键词和关键词识别规则构件关键词识别的初始特征模板,根据所述初始特征模板对分词词汇进行关键词匹配以对分词词汇中的关键词进行初步筛选;所述关键词识别规则包括根据先验特征字词指定的边界判定当前词汇的边界,并判断当前词汇的附加特征词是否与先验附加特征词相同;若相同,根据常用关键词判断当前词汇是否为关键词;
对初始特征模板的观察窗口进行扩展以获取每个初步筛选的关键词的上下文信息,构造关键词识别规则的多元识别特征以对初始特征模板的匹配规则进行更新得到复合特征模板,利用所述复合特征模板对所述关键词的上下文信息进行识别以对所述关键词进行词汇修正;
获取修正后的每个关键词的元素类型,以为相同元素类型的关键词生成相应的元素集合,并对所有元素集合进行排序以得到社交用户的第一评论信息,其中,所述元素集合中包括多个同一元素类型的关键词。
可选地,多元识别特征包括当前关键词与前缀特征词的组合特征和当前关键词与后缀特征词的组合特征。
可选地,先验附加特征词分为前缀特征词和后缀特征词,所述先验附加特征词包括用于对地名进行识别的先验地名附加特征词,其包括省、市和街等;用于对机构进行识别的先验机构附加特征词,其包括厂、公司、医院和大学等。所述常用关键词包括公共数据库中记录的人名、地名、机构名和组织名。
元素类型包括人名、地名、机构名、组织名和时间;所述观察窗口用于指示初始特征模板选取的字符长度。
可选地,更新后的匹配规则包括:将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界,将复合特征模板中的首部先验特征字词作为关键词识别的首部边界;根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合,根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。
可选地,在进行地名关键词识别时,所述尾部先验特征字词可以是省、市、街等,所述首部先验特征字词可以是“在、位于”等;在进行机构关键词识别时,所述尾部先验特征字词可以是厂、公司、医院和大学,所述首部先验特征字词可以是“关心、领导、承担”等。
S2、利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息,并从每个社交用户的第二评论信息中提取对应社交用户的情感特征,其中,所述第二评论信息包括多个情感元素词,所述情感元素词用于表征每个社交用户的情感倾向。
可选地,情感词典为网络中公开的情感词典,例如知网(HowNet)情感词典以及台湾大学NTUSD简体中文情感词典。
S3、基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度,并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图,其中,所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定。
具体地,所述基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括:
基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度,并将所述焦点相似度和所述情感相似度进行加权融合以得到每个社交用户之间的评论相关度。
可选地,所述基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度包括:
Figure BDA0003065059690000071
其中,P(vi,vj)表示社交用户之间的焦点相似度,i与j均为评论内容的数据索引,e(vi∩vj)表示评论内容vi和评论内容vj的交集元素,e(vi)表示评论内容vi中的关键词个数,e(vj)表示评论内容vj中的关键词个数。
S4、基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容,并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容。
可选地,所述焦点内容即为新闻内容中存在问题和争议的部分。
具体地,所述基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括:
获取关联拓扑图中每个社交用户之间边的权重值,并将所述权重值与预设阈值进行比较;在所述权重值小于预设阈值时,将所述权重值对应的边从关联拓扑图中删除;
获取与对应社交用户存在关联关系的所有相邻社交用户,对每个社交用户之间边的权重值进行迭代传播直至收敛得到每个社交用户之间的关联评论特征,其中,所述关联关系用于表征对应社交用户之间存在边;
获取对应评论内容包含的每个词汇的词向量,并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列,将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征,其中,所述预设时刻一般设置为最后时刻;
基于所述关联评价特征和深层语义特征识别不同社交用户在同一新闻内容中关注的同一焦点内容。
可选地,所述预设阈值为系统预先设置的用于判断每个社交用户之间评论相关度大小的数值。
可选地,所述关联评论特征的计算公式包括:
Figure BDA0003065059690000081
其中,T(ui)为社交用户ui与社交用户uj之间的关联评论特征,i、j与k均为社交用户的数据索引,Q(ui,uj)为社交用户ui与社交用户uj之间边的权重值,T(uj)为一个预设的随机初始值,nb(ui)为与ui存在关联关系的相邻社交用户,nb(uj)为与uj存在关联关系的相邻社交用户,Q(uj,uk)为社交用户uj与社交用户uk之间边的权重值,d为设置的阻尼系数。
具体地,所述将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容的步骤包括:
对所述焦点内容的文本内容进行特征统计以得到所述焦点内容的文本语言特征,并将所述焦点内容的文本内容和文本语言特征输入至验证模型中,其中,所述文本语言特征包括文本长度、特殊符号、语气词和文本链接;
利用验证模型的第一卷积层对所述文本内容进行卷积操作以对文本内容中各个焦点词汇与其上下文的高维向量表示进行捕捉得到所述文本内容的多维语义特征;
利用验证模型的第二卷积层对所述文本语言特征进行归一化操作,其中,具有参数线性整流函数PReLU作为激活函数;
利用验证模型的池化层对所述多维语义特征进行数据压缩和参数压缩以降低多维语义特征的维度从而减小过拟合;
利用验证模型的全连接层对所述多维语义特征和归一化后的文本语言特征进行向量连接操作,并对输出后的连接向量进行压平操作以将所述连接向量一维化,并将一维化后的连接向量输入到分类器中得到最终的分类结果,其中,所述分类结果用于表征对应焦点内容的真伪性。
在另一个实施例中,还包括:在识别所述焦点内容为虚假新闻内容时,对发表所述虚假新闻内容的媒体用户进行信息溯源以获取所述媒体用户的用户影响力,其中,所述用户影响力用于表征所述媒体用户的权威度和知名度;
根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级,基于所述评级对应的管理方式对发布所述虚假新闻内容的媒体账户进行管理。
具体地,所述根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级包括:
基于所述虚假新闻内容在不同媒体平台中的转发数据和浏览数据对所述虚假新闻内容的实际影响范围进行分析以得到所述虚假新闻内容在当前时刻下的实时传播范围和实时传播速度;
从转发数据中获取同一媒体平台中转发所述虚假新闻内容的所有社交用户,并获取每个社交用户的关系列表以为所述虚假新闻内容构建相应的新闻传播网络,然后根据媒体用户的用户影响力和每个社交用户与关系列表中各个相关社交用户之间的历史交互数据分析得到对应相关社交用户对所述虚假新闻内容的转发概率,其中,所述历史交互数据包括相关社交用户对目标社交用户转发和发表的所有新闻内容的转发量;
基于相关社交用户的转发概率对所述新闻传播网络在未来时间段的传播状态进行预测以得到所述虚假新闻内容的预测传播范围和预测传播速度,基于所述虚假新闻内容的实时传播范围、实时传播速度、预测传播范围和预测传播速度对所述虚假新闻内容的影响力进行评级。
可选地,相关社交用户对虚假新闻内容转发概率的计算公式为:
Figure BDA0003065059690000101
其中,R(ui,n)为社交用户ui对所述虚假新闻内容n的转发概率,i与j均为社交用户的数据索引,Ui为社交用户ui的关系列表中已转发所述虚假新闻内容的用户集合,R(ui,uj)为社交用户ui对社交用户uj发表或转发的新闻内容的转发概率,由社交用户ui与对社交用户uj之间的历史交互数据分析所得。
可选地,所述管理方式包括口头警告、依法撤销和账号封禁。所述评级包括将所述虚假新闻内容的影响力评价为初级、中级或高级。
可选地,当所述虚假新闻内容的影响力评价为初级时,对发布所述虚假新闻内容的媒体用户进行口头警告;当所述虚假新闻内容的影响力评价为中级时,勒令发布所述虚假新闻内容的媒体用户对虚假新闻进行撤销;当所述虚假新闻内容的影响力评价为高级时,对发布所述虚假新闻内容的媒体用户进行封禁。
本发明提供的基于人工智能的媒体内容真实度分析方法通过对新闻内容下的不同用户发表的评论进行分析,识别不同用户共同关注的新闻焦点,并通过人工智能自动验证新闻焦点内容的真伪性,降低虚假新闻识别的复杂度,能够从海量新闻数据中快速的识别出虚假新闻,相较于传统识别方式中抽取新闻内容的整条文章序列进行识别,大幅减少识别虚假新闻时提取的数据量。
本发明对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得台终端设备执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAMD、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种基于人工智能的媒体内容真实度分析方法,其特征在于,所述方法包括:
对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息,并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集,其中,所述第一评论信息包括多个元素集合,所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构;
利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息,并从每个社交用户的第二评论信息中提取对应社交用户的情感特征,其中,所述第二评论信息包括多个情感元素词,所述情感元素词用于表征每个社交用户的情感倾向;
基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度,并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图,其中,所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定;
基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容,并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容。
2.根据权利要求1所述的方法,其特征在于,所述对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括:
对每个社交用户发表的评论内容进行数据处理以过滤评论内容中的无用信息,对处理后的评论内容进行分词以得到若干分词词汇,其中,所述无用信息包括超链接、图片和符号元素;
基于公共语料库中的常用关键词和关键词识别规则构件关键词识别的初始特征模板,根据所述初始特征模板对分词词汇进行关键词匹配以对分词词汇中的关键词进行初步筛选;所述关键词识别规则包括根据先验特征字词指定的边界判定当前词汇的边界,并判断当前词汇的附加特征词是否与先验附加特征词相同;若相同,根据常用关键词判断当前词汇是否为关键词;
对初始特征模板的观察窗口进行扩展以获取每个初步筛选的关键词的上下文信息,构造关键词识别规则的多元识别特征以对初始特征模板的匹配规则进行更新得到复合特征模板,利用所述复合特征模板对所述关键词的上下文信息进行识别以对所述关键词进行词汇修正;
获取修正后的每个关键词的元素类型,以为相同元素类型的关键词生成相应的元素集合,并对所有元素集合进行排序以得到社交用户的第一评论信息。
3.根据权利要求1或2所述的方法,其特征在于,所述元素类型包括人名、地名、机构名、组织名和时间。
4.根据权利要求1至3之一所述的方法,其特征在于,所述先验附加特征词分为前缀特征词和后缀特征词,所述先验附加特征词包括用于对地名进行识别的先验地名附加特征词。
5.根据权利要求4所述的方法,其特征在于,更新后的匹配规则包括:将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界,将复合特征模板中的首部先验特征字词作为关键词识别的首部边界;
根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合,根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。
6.根据权利要求5所述的方法,其特征在于,所述基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括:
基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度,并将所述焦点相似度和所述情感相似度进行加权融合以得到每个社交用户之间的评论相关度。
7.根据权利要求6所述的方法,其特征在于,所述基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括:
获取关联拓扑图中每个社交用户之间边的权重值,并将所述权重值与预设阈值进行比较;在所述权重值小于预设阈值时,将所述权重值对应的边从关联拓扑图中删除;
获取与对应社交用户存在关联关系的所有相邻社交用户,对每个社交用户之间边的权重值进行迭代传播直至收敛得到每个社交用户之间的关联评论特征,其中,所述关联关系用于表征对应社交用户之间存在边;
获取对应评论内容包含的每个词汇的词向量,并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列,将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征;
基于所述关联评价特征和深层语义特征识别不同社交用户在同一新闻内容中关注的同一焦点内容。
8.根据权利要求7所述的方法,其特征在于,所述多元识别特征包括当前关键词与前缀特征词的组合特征和当前关键词与后缀特征词的组合特征。
9.根据权利要求8所述的方法,其特征在于,所述关联评论特征的计算公式为:
Figure FDA0003065059680000031
其中,T(ui)为社交用户ui与社交用户uj之间的关联评论特征,Q(ui,uj)为社交用户ui与社交用户uj之间边的权重值,T(uj)为一个预设的随机初始值,nb(ui)为与ui存在关联关系的相邻社交用户,nb(uj)为与uj存在关联关系的相邻社交用户,Q(uj,uk)为社交用户uj与社交用户uk之间边的权重值,d为设置的阻尼系数。
10.根据权利要求9所述的方法,其特征在于,所述将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容的步骤包括:
对所述焦点内容的文本内容进行特征统计以得到所述焦点内容的文本语言特征,并将所述焦点内容的文本内容和文本语言特征输入至验证模型中,其中,所述文本语言特征包括文本长度、特殊符号、语气词和文本链接;
利用验证模型的第一卷积层对所述文本内容进行卷积操作以对文本内容中各个焦点词汇与其上下文的高维向量表示进行捕捉得到所述文本内容的多维语义特征;
利用验证模型的第二卷积层对所述文本语言特征进行归一化操作,其中,具有参数线性整流函数PReLU作为激活函数;
利用验证模型的池化层对所述多维语义特征进行数据压缩和参数压缩以降低多维语义特征的维度从而减小过拟合;
利用验证模型的全连接层对所述多维语义特征和归一化后的文本语言特征进行向量连接操作,并对输出后的连接向量进行压平操作以将所述连接向量一维化,并将一维化后的连接向量输入到分类器中得到最终的分类结果。
CN202110523827.0A 2021-05-13 2021-05-13 一种基于人工智能的媒体内容真实度分析方法 Active CN113158082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110523827.0A CN113158082B (zh) 2021-05-13 2021-05-13 一种基于人工智能的媒体内容真实度分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110523827.0A CN113158082B (zh) 2021-05-13 2021-05-13 一种基于人工智能的媒体内容真实度分析方法

Publications (2)

Publication Number Publication Date
CN113158082A true CN113158082A (zh) 2021-07-23
CN113158082B CN113158082B (zh) 2023-01-17

Family

ID=76874954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110523827.0A Active CN113158082B (zh) 2021-05-13 2021-05-13 一种基于人工智能的媒体内容真实度分析方法

Country Status (1)

Country Link
CN (1) CN113158082B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110081A (zh) * 2007-08-21 2008-01-23 北京大学 一种文本上下文中实体地址信息的提取方法
WO2011019749A2 (en) * 2009-08-12 2011-02-17 Google Inc. Presenting comments from various sources
CN102044009A (zh) * 2009-10-23 2011-05-04 华为技术有限公司 群组推荐方法和系统
CN102236650A (zh) * 2010-04-20 2011-11-09 日电(中国)有限公司 用于修正和/或扩展情感词典的方法和装置
CN102880600A (zh) * 2012-08-30 2013-01-16 北京航空航天大学 基于通用知识网络的词语语义倾向性预测方法
US20140282904A1 (en) * 2013-03-14 2014-09-18 International Business Machines Corporation Delivering author specific content
CN104572807A (zh) * 2014-10-29 2015-04-29 中国科学院计算技术研究所 一种基于微博信息源的新闻认证方法及系统
CN106295702A (zh) * 2016-08-15 2017-01-04 西北工业大学 一种基于个体情感行为分析的社交平台用户分类方法
CN107341270A (zh) * 2017-07-28 2017-11-10 东北大学 面向社交平台的用户情感影响力分析方法
CN107357889A (zh) * 2017-07-11 2017-11-17 北京工业大学 一种基于内容或情感相似性的跨社交平台图片推荐算法
CN107544961A (zh) * 2017-08-29 2018-01-05 中国地质大学(武汉) 一种社交媒体评论的情感分析方法、设备及其存储设备
CN107633260A (zh) * 2017-08-23 2018-01-26 上海师范大学 一种基于聚类的社交网络意见领袖挖掘方法
CN108197332A (zh) * 2018-02-13 2018-06-22 黑龙江大学 社会网中基于主题兴趣的影响最大化方法
CN109345272A (zh) * 2018-11-28 2019-02-15 中国计量大学 一种基于改进马尔科夫链的店铺信用风险预测方法
CN110807091A (zh) * 2019-03-01 2020-02-18 王涵 一种酒店智能问答推荐与决策支持分析方法及系统
CN111639252A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于新闻-评论关联性分析的虚假新闻识别方法
CN111898038A (zh) * 2020-07-04 2020-11-06 西北工业大学 一种基于人机协作的社交媒体假新闻检测方法
CN111950273A (zh) * 2020-07-31 2020-11-17 南京莱斯网信技术研究院有限公司 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN112699662A (zh) * 2020-12-31 2021-04-23 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110081A (zh) * 2007-08-21 2008-01-23 北京大学 一种文本上下文中实体地址信息的提取方法
WO2011019749A2 (en) * 2009-08-12 2011-02-17 Google Inc. Presenting comments from various sources
US20110040787A1 (en) * 2009-08-12 2011-02-17 Google Inc. Presenting comments from various sources
CN102044009A (zh) * 2009-10-23 2011-05-04 华为技术有限公司 群组推荐方法和系统
CN102236650A (zh) * 2010-04-20 2011-11-09 日电(中国)有限公司 用于修正和/或扩展情感词典的方法和装置
CN102880600A (zh) * 2012-08-30 2013-01-16 北京航空航天大学 基于通用知识网络的词语语义倾向性预测方法
US20140282904A1 (en) * 2013-03-14 2014-09-18 International Business Machines Corporation Delivering author specific content
CN104572807A (zh) * 2014-10-29 2015-04-29 中国科学院计算技术研究所 一种基于微博信息源的新闻认证方法及系统
CN106295702A (zh) * 2016-08-15 2017-01-04 西北工业大学 一种基于个体情感行为分析的社交平台用户分类方法
CN107357889A (zh) * 2017-07-11 2017-11-17 北京工业大学 一种基于内容或情感相似性的跨社交平台图片推荐算法
CN107341270A (zh) * 2017-07-28 2017-11-10 东北大学 面向社交平台的用户情感影响力分析方法
CN107633260A (zh) * 2017-08-23 2018-01-26 上海师范大学 一种基于聚类的社交网络意见领袖挖掘方法
CN107544961A (zh) * 2017-08-29 2018-01-05 中国地质大学(武汉) 一种社交媒体评论的情感分析方法、设备及其存储设备
CN108197332A (zh) * 2018-02-13 2018-06-22 黑龙江大学 社会网中基于主题兴趣的影响最大化方法
CN109345272A (zh) * 2018-11-28 2019-02-15 中国计量大学 一种基于改进马尔科夫链的店铺信用风险预测方法
CN110807091A (zh) * 2019-03-01 2020-02-18 王涵 一种酒店智能问答推荐与决策支持分析方法及系统
CN111639252A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于新闻-评论关联性分析的虚假新闻识别方法
CN111898038A (zh) * 2020-07-04 2020-11-06 西北工业大学 一种基于人机协作的社交媒体假新闻检测方法
CN111950273A (zh) * 2020-07-31 2020-11-17 南京莱斯网信技术研究院有限公司 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN112699662A (zh) * 2020-12-31 2021-04-23 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张继东等: "基于用户偏好和信任度的移动社交网络社区聚类模型", 《情报杂志》 *
汪洋等: "基于用户情感倾向的意见领袖发现算法研究", 《软件导刊》 *
蔡梦虹: "网络舆论环境下公民媒介素养研究", 《新媒体与社会》 *

Also Published As

Publication number Publication date
CN113158082B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN107515877B (zh) 敏感主题词集的生成方法和装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN113435203B (zh) 多模态命名实体识别方法、装置以及电子设备
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
WO2021051518A1 (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN111950285A (zh) 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN108595525B (zh) 一种律师信息处理方法和系统
CN108681548B (zh) 一种律师信息处理方法和系统
CN112464656A (zh) 关键词抽取方法、装置、电子设备和存储介质
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN108681977A (zh) 一种律师信息处理方法和系统
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
CN111274494B (zh) 结合深度学习和协同过滤技术的复合标签推荐方法
CN115630357B (zh) 一种应用程序越界收集个人信息行为的判定方法
CN113158082B (zh) 一种基于人工智能的媒体内容真实度分析方法
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN112668284B (zh) 一种法律文书分段方法及系统
CN114417860A (zh) 一种信息检测方法、装置及设备
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN111046665B (zh) 一种领域术语语义漂移抽取方法
CN118093881B (zh) 一种基于知识图谱的审计对象画像建模方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230104

Address after: Room 350, New Building, No. 291, Wenshui East Road, Hongkou District, Shanghai 200080

Applicant after: Hehongguang Technology (Shanghai) Co.,Ltd.

Address before: 610200 Meide science and Technology Park, IOT 3rd road, Shuangliu District, Chengdu City, Sichuan Province

Applicant before: Nie Jiaoying

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant