CN113177164A - 基于大数据的多平台协同新媒体内容监控管理系统 - Google Patents

基于大数据的多平台协同新媒体内容监控管理系统 Download PDF

Info

Publication number
CN113177164A
CN113177164A CN202110522939.4A CN202110522939A CN113177164A CN 113177164 A CN113177164 A CN 113177164A CN 202110522939 A CN202110522939 A CN 202110522939A CN 113177164 A CN113177164 A CN 113177164A
Authority
CN
China
Prior art keywords
comment
content
user
social
social user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110522939.4A
Other languages
English (en)
Other versions
CN113177164B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xinyichen Information Technology Co ltd
Original Assignee
Nie Jiaoying
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nie Jiaoying filed Critical Nie Jiaoying
Priority to CN202110522939.4A priority Critical patent/CN113177164B/zh
Publication of CN113177164A publication Critical patent/CN113177164A/zh
Application granted granted Critical
Publication of CN113177164B publication Critical patent/CN113177164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据的多平台协同新媒体内容监控管理系统,包括用户终端和检测云平台。检测云平台包括评论分析模块、情感分析模块、关系构建模块、内容验证模块和新闻评级模块。检测云平台根据每个社交用户发表的评论内容获取每个社交用户的第一评论信息和第二评论信息;基于所述第一评论信息和所述第二评论信息得到每个社交用户之间的评论相关度,并为不同社交用户构建相应的关联拓扑图,内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容的焦点内容,并验证所述焦点内容是否为虚假新闻内容;基于媒体用户的用户影响力和所述虚假新闻内容的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级。

Description

基于大数据的多平台协同新媒体内容监控管理系统
技术邻域
本发明涉及新媒体数据分析领域,尤其涉及一种基于大数据的多平台协同新媒体内容监控管理系统。
背景技术
新媒体内容作为一种传播速度快、影响广泛的信息源,对于人们的认知和态度会产生巨大的影响。近年来由于传播技术的迅速发展,助长了虚假媒体内容的生成和传播。虚假媒体内容不仅会使媒体的可信度减弱,还可能危害政治和经济等领域,造成不良的社会影响与经济损失,社会秩序的混乱,影响人们的正常生活。
传统媒体内容的管控方式主要依赖用户的自发举报及工作人员的人工审核,需耗费大量人力,且此类监控手段具有较强的滞后性,通常举报上来的虚假信息已传播一段时间,并已造成一定的影响,识别效率不高。况且,由于媒体内容中包含大量的内容,常用的人工智能识别方法则通过抽取整条文章序列对媒体内容进行虚假识别,难以聚焦媒体内容有问题的部分,增加了虚假媒体内容识别的复杂度以及识别时提取的数据量。同时,针对检测出的虚假媒体内容,相关部门缺乏科学化的管理方式,难以在舆论形成的初期及时采取有效的措施。
发明内容
为了解决上述问题,本发明提供了一种基于大数据的多平台协同新媒体内容监控管理系统,包括用户终端和检测云平台,检测云平台与用户终端之间具有通信连接;
检测云平台包括评论分析模块、情感分析模块、关系构建模块、内容验证模块和新闻评级模块;
评论分析模块对同一新闻内容下不同社交用户通过相应用户终端发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息,并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集,其中,所述第一评论信息包括多个元素集合,所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构;
情感分析模块利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息,并从每个社交用户的第二评论信息中提取对应社交用户的情感特征,其中,所述第二评论信息包括多个情感元素词,所述情感元素词用于表征每个社交用户的情感倾向;
关系构建模块基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度,并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图,其中,所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定;
内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容,并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容,并对发表所述虚假新闻内容的媒体用户进行信息溯源以获取所述媒体用户的用户影响力;
新闻评级模块根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级,基于所述评级对应的管理方式对发布所述虚假新闻内容的媒体账户进行管理。
根据一个优选实施方式,所述内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括:
获取关联拓扑图中每个社交用户之间边的权重值,并将所述权重值与预设阈值进行比较;在所述权重值小于预设阈值时,将所述权重值对应的边从关联拓扑图中删除;
获取与对应社交用户存在关联关系的所有相邻社交用户,对每个社交用户之间边的权重值进行迭代传播直至收敛得到每个社交用户之间的关联评论特征,其中,所述关联关系用于表征对应社交用户之间存在边;
获取对应评论内容包含的每个词汇的词向量,并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列,将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征;
基于所述关联评价特征和深层语义特征识别不同社交用户在同一新闻内容中关注的同一焦点内容。
根据一个优选实施方式,所述管理方式包括口头警告、依法撤销和账号封禁。
所述评级包括将所述虚假新闻内容的影响力评价为初级、中级或高级。
根据一个优选实施方式,评论分析模块对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括:
评论分析模块评论分析模块对每个社交用户发表的评论内容进行数据处理以过滤评论内容中的无用信息,对处理后的评论内容进行分词以得到若干分词词汇,其中,所述无用信息包括URL链接、图片和符号元素;
评论分析模块基于公共语料库中的常用关键词和关键词识别规则构件关键词识别的初始特征模板,根据所述初始特征模板对分词词汇进行关键词匹配以对分词词汇中的关键词进行初步筛选;所述关键词识别规则包括根据先验特征字词指定的边界判定当前词汇的边界,并判断当前词汇的附加特征词是否与先验附加特征词相同;若相同,根据常用关键词判断当前词汇是否为关键词;
评论分析模块对初始特征模板的观察窗口进行扩展以获取每个初步筛选的关键词的上下文信息,构造关键词识别规则的多元识别特征以对初始特征模板的匹配规则进行更新得到复合特征模板,利用所述复合特征模板对所述关键词的上下文信息进行识别以对所述关键词进行词汇修正;
评论分析模块获取修正后的每个关键词的元素类型,以为相同元素类型的关键词生成相应的元素集合,并对所有元素集合进行排序以得到社交用户的第一评论信息。
所述元素类型包括人名、地名、机构名、组织名和时间。
根据一个优选实施方式,更新后的匹配规则包括:将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界,将复合特征模板中的首部先验特征字词作为关键词识别的首部边界;根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合,根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。
根据一个优选实施方式,关系构建模块基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括:
关系构建模块基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度,并将所述焦点相似度和所述情感相似度进行加权融合以得到每个社交用户之间的评论相关度。
根据一个优选实施方式,所述新闻评级模块根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级包括:
基于所述虚假新闻内容在不同媒体平台中的转发数据和浏览数据对所述虚假新闻内容的实际影响范围进行分析以得到所述虚假新闻内容在当前时刻下的实时传播范围和实时传播速度;
从转发数据中获取同一媒体平台中转发所述虚假新闻内容的所有社交用户,并获取每个社交用户的关系列表以为所述虚假新闻内容构建相应的新闻传播网络,然后根据媒体用户的用户影响力和每个社交用户与关系列表中各个相关社交用户之间的历史交互数据分析得到对应相关社交用户对所述虚假新闻内容的转发概率;
基于相关社交用户的转发概率对所述新闻传播网络在未来时间段的传播状态进行预测以得到所述虚假新闻内容的预测传播范围和预测传播速度,基于所述虚假新闻内容的实时传播范围、实时传播速度、预测传播范围和预测传播速度对所述虚假新闻内容的影响力进行评级。
根据一个优选实施方式,相关社交用户对虚假新闻内容转发概率的计算公式为:
Figure BDA0003064777550000041
其中,R(ui,n)为社交用户ui对所述虚假新闻内容n的转发概率,Ui为社交用户ui的关系列表中已转发所述虚假新闻内容的用户集合,R(ui,uj)为社交用户ui对社交用户uj发表或转发的新闻内容的转发概率。
本发明提供的实施例具有以下有益效果:
本发明通过对新闻内容下的用户评论进行分析识别,以根据不同用户的评论内容识别新闻内容中的焦点内容,再对新闻内容的焦点内容进行真伪性验证,降低虚假新闻识别的复杂度,相较于传统识别方式中抽取新闻内容的整条文章序列进行识别,大幅减少识别虚假新闻时提取的数据量,加快虚假新闻的检测速度。此外,本发明还根据虚假新闻的影响力对其进行评级,并对不同级别的虚假新闻采用不同的管理方式,提高管理方式的合理性。
附图说明
图1为基于大数据的多平台协同新媒体内容监控管理系统的结构框图。
具体实施方式
下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
参见图1,在一个实施例中,本发明的基于大数据的多平台协同新媒体内容监控管理系统包括用户终端和检测云平台,检测云平台与用户终端之间具有通信连接。用户终端为评论用户所使用的具有计算功能、存储功能和通信功能的设备,其包括:智能手机、台式电脑和笔记本电脑。
检测云平台包括评论分析模块、情感分析模块、关系构建模块、内容验证模块和新闻评级模块,前述各模块之间相互具有通信连接。
评论分析模块用于对同一新闻内容下不同社交用户通过相应用户终端发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息,并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集。第一评论信息包括多个元素集合,元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构;
情感分析模块用于利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息,并从每个社交用户的第二评论信息中提取对应社交用户的情感特征,其中,所述第二评论信息包括多个情感元素词,所述情感元素词用于表征每个社交用户的情感倾向;
关系构建模块用于根据每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度,并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图,其中,所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定;
内容验证模块用于根据关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容,并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容,并对发表所述虚假新闻内容的媒体用户进行信息溯源以获取所述媒体用户的用户影响力;
新闻评级模块用于根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级,基于所述评级对应的管理方式对发布所述虚假新闻内容的媒体账户进行管理。
下面对本发明的工作方法进行具体说明。在一个实施例中,基于大数据的多平台协同新媒体内容监控管理系统的处理方法包括:
首先,评论分析模块对同一新闻内容下不同社交用户通过相应用户终端发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息,并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集,其中,所述第一评论信息包括多个元素集合,所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构。
具体地,所述评论分析模块对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括:
评论分析模块对每个社交用户发表的评论内容进行数据处理以过滤评论内容中的无用信息,对处理后的评论内容进行分词以得到若干分词词汇,其中,所述无用信息包括URL链接、图片和符号元素;
评论分析模块基于公共语料库中的常用关键词和关键词识别规则构件关键词识别的初始特征模板,根据所述初始特征模板对分词词汇进行关键词匹配以对分词词汇中的关键词进行初步筛选;所述关键词识别规则包括根据先验特征字词指定的边界判定当前词汇的边界,并判断当前词汇的附加特征词是否与先验附加特征词相同;若相同,根据常用关键词判断当前词汇是否为关键词;
评论分析模块对初始特征模板的观察窗口进行扩展以获取每个初步筛选的关键词的上下文信息,构造关键词识别规则的多元识别特征以对初始特征模板的匹配规则进行更新得到复合特征模板,利用所述复合特征模板对所述关键词的上下文信息进行识别以对所述关键词进行词汇修正;
评论分析模块获取修正后的每个关键词的元素类型,以为相同元素类型的关键词生成相应的元素集合,并对所有元素集合进行排序以得到社交用户的第一评论信息,其中,所述元素集合中包括多个同一元素类型的关键词。
可选地,多元识别特征包括当前关键词与前缀特征词的组合特征和当前关键词与后缀特征词的组合特征。
可选地,先验附加特征词分为前缀特征词和后缀特征词,所述先验附加特征词包括用于对地名进行识别的先验地名附加特征词,其包括省、市和街等;用于对机构进行识别的先验机构附加特征词,其包括厂、公司、医院和大学等。所述常用关键词包括公共数据库中记录的人名、地名、机构名和组织名。
前述元素类型包括人名、地名、机构名、组织名和时间;所述观察窗口用于指示初始特征模板选取的字符长度。
可选地,更新后的匹配规则包括:将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界,将复合特征模板中的首部先验特征字词作为关键词识别的首部边界;根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合,根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。
在进行地名关键词识别时,所述尾部先验特征字词可以是省、市、街等,所述首部先验特征字词可以是“在、位于”等;在进行机构关键词识别时,所述尾部先验特征字词可以是厂、公司、医院和大学,所述首部先验特征字词可以是“关心、领导、承担”等。
接下来,情感分析模块利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息,并从每个社交用户的第二评论信息中提取对应社交用户的情感特征,其中,所述第二评论信息包括多个情感元素词,所述情感元素词用于表征每个社交用户的情感倾向。
可选地,所述情感词典为网络中公开的情感词典,例如知网(HowNet)情感词典以及台湾大学NTUSD简体中文情感词典。
接下来,关系构建模块基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度,并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图,其中,所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定。
具体地,所述关系构建模块基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括:
关系构建模块基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度,并将所述焦点相似度和所述情感相似度进行加权融合以得到每个社交用户之间的评论相关度。
可选地,所述关系构建模块基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度包括:
Figure BDA0003064777550000081
其中,P(vi,vj)表示社交用户之间的焦点相似度,i与j均为评论内容的数据索引,e(vi∩vj)表示评论内容vi和评论内容vj的交集元素,e(vi)表示评论内容vi中的关键词个数,e(vj)表示评论内容vj中的关键词个数。
接下来,内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容,并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容,并对发表所述虚假新闻内容的媒体用户进行信息溯源以获取所述媒体用户的用户影响力,其中,所述用户影响力用于表征所述媒体用户的权威度和知名度。可选地,焦点内容即为新闻内容中存在问题和争议的部分。
具体地,所述内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括:
获取关联拓扑图中每个社交用户之间边的权重值,并将所述权重值与预设阈值进行比较;在所述权重值小于预设阈值时,将所述权重值对应的边从关联拓扑图中删除;
获取与对应社交用户存在关联关系的所有相邻社交用户,对每个社交用户之间边的权重值进行迭代传播直至收敛得到每个社交用户之间的关联评论特征,其中,所述关联关系用于表征对应社交用户之间存在边;
获取对应评论内容包含的每个词汇的词向量,并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列,将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征,其中,所述预设时刻一般设置为最后时刻;
基于所述关联评价特征和深层语义特征识别不同社交用户在同一新闻内容中关注的同一焦点内容。
可选地,所述预设阈值为系统预先设置的用于判断每个社交用户之间评论相关度大小的数值。
前述关联评论特征的计算公式包括:
Figure BDA0003064777550000091
其中,T(ui)为社交用户ui与社交用户uj之间的关联评论特征,i、j与k均为社交用户的数据索引,Q(ui,uj)为社交用户ui与社交用户uj之间边的权重值,T(uj)为一个预设的随机初始值,nb(ui)为与ui存在关联关系的相邻社交用户,nb(uj)为与uj存在关联关系的相邻社交用户,Q(uj,uk)为社交用户uj与社交用户uk之间边的权重值,d为设置的阻尼系数。
具体地,所述将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容的步骤包括:
对所述焦点内容的文本内容进行特征统计以得到所述焦点内容的文本语言特征,并将所述焦点内容的文本内容和文本语言特征输入至验证模型中,其中,所述文本语言特征包括文本长度、特殊符号、语气词和文本链接;
利用验证模型的第一卷积层对所述文本内容进行卷积操作以对文本内容中各个焦点词汇与其上下文的高维向量表示进行捕捉得到所述文本内容的多维语义特征;
利用验证模型的第二卷积层对所述文本语言特征进行归一化操作,其中,具有参数线性整流函数PReLU作为激活函数;
利用验证模型的池化层对所述多维语义特征进行数据压缩和参数压缩以降低多维语义特征的维度从而减小过拟合;
利用验证模型的全连接层对所述多维语义特征和归一化后的文本语言特征进行向量连接操作,并对输出后的连接向量进行压平操作以将所述连接向量一维化,并将一维化后的连接向量输入到分类器中得到最终的分类结果,其中,所述分类结果用于表征对应焦点内容的真伪性。
接下来,新闻评级模块根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级,基于所述评级对应的管理方式对发布所述虚假新闻内容的媒体账户进行管理。
具体地,所述新闻评级模块根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级包括:
基于所述虚假新闻内容在不同媒体平台中的转发数据和浏览数据对所述虚假新闻内容的实际影响范围进行分析以得到所述虚假新闻内容在当前时刻下的实时传播范围和实时传播速度;
从转发数据中获取同一媒体平台中转发所述虚假新闻内容的所有社交用户,并获取每个社交用户的关系列表以为所述虚假新闻内容构建相应的新闻传播网络,然后根据媒体用户的用户影响力和每个社交用户与关系列表中各个相关社交用户之间的历史交互数据分析得到对应相关社交用户对所述虚假新闻内容的转发概率,其中,所述历史交互数据包括相关社交用户对目标社交用户转发和发表的所有新闻内容的转发量;
基于相关社交用户的转发概率对所述新闻传播网络在未来时间段的传播状态进行预测以得到所述虚假新闻内容的预测传播范围和预测传播速度,基于所述虚假新闻内容的实时传播范围、实时传播速度、预测传播范围和预测传播速度对所述虚假新闻内容的影响力进行评级。
可选地,相关社交用户对虚假新闻内容转发概率的计算公式为:
Figure BDA0003064777550000111
其中,R(ui,n)为社交用户ui对所述虚假新闻内容n的转发概率,i与j均为社交用户的数据索引,Ui为社交用户ui的关系列表中已转发所述虚假新闻内容的用户集合,R(ui,uj)为社交用户ui对社交用户uj发表或转发的新闻内容的转发概率,由社交用户ui与对社交用户uj之间的历史交互数据分析所得。
可选地,管理方式包括口头警告、依法撤销和账号封禁。所述评级包括将所述虚假新闻内容的影响力评价为初级、中级或高级。
当所述虚假新闻内容的影响力评价为初级时,对发布所述虚假新闻内容的媒体用户进行口头警告;当所述虚假新闻内容的影响力评价为中级时,勒令发布所述虚假新闻内容的媒体用户对虚假新闻进行撤销;当所述虚假新闻内容的影响力评价为高级时,对发布所述虚假新闻内容的媒体用户进行封禁。
本发明提供的基于大数据的多平台协同新媒体内容监控管理系统通过对新闻内容下的用户评论进行分析识别,以根据不同用户的评论内容识别新闻内容中的焦点内容,再对新闻内容的焦点内容进行真伪性验证,降低虚假新闻识别的复杂度,相较于传统识别方式中抽取新闻内容的整条文章序列进行识别,大幅减少识别虚假新闻时提取的数据量,加快虚假新闻的检测速度。此外,本发明利用评级管理制度对检测出的虚假新闻进行管理,提高管理方式的合理性,使得对虚假新闻的管理更加智能化和人性化。
本领域技术人员应明白,虽然上面参考特定模块讨论了特定功能,但是应当注意,本文讨论的各个模块的功能可以分为多个模块,和/或多个模块的至少一些功能可以组合成单个模块。另外,本文讨论的特定模块执行动作包括该特定模块本身执行动作,或者替换地该特定模块调用或以其他方式访问执行该动作的另一个组件或模块(或结合该特定模块一起执行动作)。因此,执行动作的特定模块可以包括执行动作的特定模块本身和/或执行动作的该特定模块调用或以其他方式访问的另一模块。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变形,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (9)

1.一种基于大数据的多平台协同新媒体内容监控管理系统,其特征在于,包括用户终端和检测云平台,检测云平台与用户终端之间具有通信连接;
检测云平台包括评论分析模块、情感分析模块、关系构建模块、内容验证模块和新闻评级模块;
评论分析模块对同一新闻内容下不同社交用户通过相应用户终端发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息,并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集,其中,所述第一评论信息包括多个元素集合,所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构;
情感分析模块利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息,并从每个社交用户的第二评论信息中提取对应社交用户的情感特征,其中,所述第二评论信息包括多个情感元素词,所述情感元素词用于表征每个社交用户的情感倾向;
关系构建模块基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度,并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图,其中,所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定;
内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容,并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容,并对发表所述虚假新闻内容的媒体用户进行信息溯源以获取所述媒体用户的用户影响力;
新闻评级模块根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级,基于所述评级对应的管理方式对发布所述虚假新闻内容的媒体账户进行管理。
2.根据权利要求1所述的系统,其特征在于,所述内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括:
获取关联拓扑图中每个社交用户之间边的权重值,并将所述权重值与预设阈值进行比较;在所述权重值小于预设阈值时,将所述权重值对应的边从关联拓扑图中删除;
获取与对应社交用户存在关联关系的所有相邻社交用户,对每个社交用户之间边的权重值进行迭代传播直至收敛得到每个社交用户之间的关联评论特征,其中,所述关联关系用于表征对应社交用户之间存在边;
获取对应评论内容包含的每个词汇的词向量,并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列,将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征;
基于所述关联评价特征和深层语义特征识别不同社交用户在同一新闻内容中关注的同一焦点内容。
3.根据权利要求1或2所述的系统,其特征在于,所述管理方式包括口头警告、依法撤销和账号封禁。
4.根据权利要求3所述的系统,其特征在于,评论分析模块对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括:
评论分析模块评论分析模块对每个社交用户发表的评论内容进行数据处理以过滤评论内容中的无用信息,对处理后的评论内容进行分词以得到若干分词词汇,其中,所述无用信息包括URL链接、图片和符号元素;
评论分析模块基于公共语料库中的常用关键词和关键词识别规则构件关键词识别的初始特征模板,根据所述初始特征模板对分词词汇进行关键词匹配以对分词词汇中的关键词进行初步筛选;所述关键词识别规则包括根据先验特征字词指定的边界判定当前词汇的边界,并判断当前词汇的附加特征词是否与先验附加特征词相同;若相同,根据常用关键词判断当前词汇是否为关键词;
评论分析模块对初始特征模板的观察窗口进行扩展以获取每个初步筛选的关键词的上下文信息,构造关键词识别规则的多元识别特征以对初始特征模板的匹配规则进行更新得到复合特征模板,利用所述复合特征模板对所述关键词的上下文信息进行识别以对所述关键词进行词汇修正;
评论分析模块获取修正后的每个关键词的元素类型,以为相同元素类型的关键词生成相应的元素集合,并对所有元素集合进行排序以得到社交用户的第一评论信息。
5.根据权利要求4所述的系统,其特征在于,所述元素类型包括人名、地名、机构名、组织名和时间。
6.根据权利要求5所述的系统,其特征在于,更新后的匹配规则包括:将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界,将复合特征模板中的首部先验特征字词作为关键词识别的首部边界;根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合,根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。
7.根据权利要求6所述的系统,其特征在于,关系构建模块基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括:
关系构建模块基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度,并将所述焦点相似度和所述情感相似度进行加权融合以得到每个社交用户之间的评论相关度。
8.根据权利要求7所述的系统,其特征在于,所述新闻评级模块根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级包括:
基于所述虚假新闻内容在不同媒体平台中的转发数据和浏览数据对所述虚假新闻内容的实际影响范围进行分析以得到所述虚假新闻内容在当前时刻下的实时传播范围和实时传播速度;
从转发数据中获取同一媒体平台中转发所述虚假新闻内容的所有社交用户,并获取每个社交用户的关系列表以为所述虚假新闻内容构建相应的新闻传播网络,然后根据媒体用户的用户影响力和每个社交用户与关系列表中各个相关社交用户之间的历史交互数据分析得到对应相关社交用户对所述虚假新闻内容的转发概率;
基于相关社交用户的转发概率对所述新闻传播网络在未来时间段的传播状态进行预测以得到所述虚假新闻内容的预测传播范围和预测传播速度,基于所述虚假新闻内容的实时传播范围、实时传播速度、预测传播范围和预测传播速度对所述虚假新闻内容的影响力进行评级。
9.根据权利要求1至8之一所述的系统,其特征在于,所述评级包括将所述虚假新闻内容的影响力评价为初级、中级或高级。
CN202110522939.4A 2021-05-13 2021-05-13 基于大数据的多平台协同新媒体内容监控管理系统 Active CN113177164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110522939.4A CN113177164B (zh) 2021-05-13 2021-05-13 基于大数据的多平台协同新媒体内容监控管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110522939.4A CN113177164B (zh) 2021-05-13 2021-05-13 基于大数据的多平台协同新媒体内容监控管理系统

Publications (2)

Publication Number Publication Date
CN113177164A true CN113177164A (zh) 2021-07-27
CN113177164B CN113177164B (zh) 2022-12-09

Family

ID=76929830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110522939.4A Active CN113177164B (zh) 2021-05-13 2021-05-13 基于大数据的多平台协同新媒体内容监控管理系统

Country Status (1)

Country Link
CN (1) CN113177164B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127521A (zh) * 2023-04-12 2023-05-16 上海蜜度信息技术有限公司 基于区块链的新闻处理方法、系统、存储介质及电子设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593204A (zh) * 2009-06-05 2009-12-02 北京大学 一种基于新闻评论网页的情感倾向性分析系统
CN105045857A (zh) * 2015-07-09 2015-11-11 中国科学院计算技术研究所 一种社交网络谣言识别方法及系统
US20160140634A1 (en) * 2014-11-17 2016-05-19 Institute For Information Industry System, method and non-transitory computer readable medium for e-commerce reputation analysis
CN106951409A (zh) * 2017-03-17 2017-07-14 黄淮学院 一种网络社交媒体观点倾向性分析系统及方法
CN108228853A (zh) * 2018-01-11 2018-06-29 北京信息科技大学 一种微博谣言识别方法及系统
JP2019008529A (ja) * 2017-06-23 2019-01-17 株式会社野村総合研究所 記録サーバ、記録方法及びプログラム
CN111310476A (zh) * 2020-02-21 2020-06-19 山东大学 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN111639252A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于新闻-评论关联性分析的虚假新闻识别方法
CN111651565A (zh) * 2020-06-29 2020-09-11 国际关系学院 一种社交媒体平台虚假信息识别系统
CN111666480A (zh) * 2020-06-10 2020-09-15 东北电力大学 一种基于滚动式协同训练的虚假评论识别方法
CN112100515A (zh) * 2020-09-04 2020-12-18 西北工业大学 一种用于社交媒体中假消息的检测方法
CN112417099A (zh) * 2020-11-20 2021-02-26 南京邮电大学 一种基于图注意力网络的欺诈用户检测模型构建方法
CN112711951A (zh) * 2021-01-05 2021-04-27 西安交通大学 一种基于归纳意识的虚假新闻可解释性检测系统及方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593204A (zh) * 2009-06-05 2009-12-02 北京大学 一种基于新闻评论网页的情感倾向性分析系统
US20160140634A1 (en) * 2014-11-17 2016-05-19 Institute For Information Industry System, method and non-transitory computer readable medium for e-commerce reputation analysis
CN105045857A (zh) * 2015-07-09 2015-11-11 中国科学院计算技术研究所 一种社交网络谣言识别方法及系统
CN106951409A (zh) * 2017-03-17 2017-07-14 黄淮学院 一种网络社交媒体观点倾向性分析系统及方法
JP2019008529A (ja) * 2017-06-23 2019-01-17 株式会社野村総合研究所 記録サーバ、記録方法及びプログラム
CN108228853A (zh) * 2018-01-11 2018-06-29 北京信息科技大学 一种微博谣言识别方法及系统
CN111310476A (zh) * 2020-02-21 2020-06-19 山东大学 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN111639252A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于新闻-评论关联性分析的虚假新闻识别方法
CN111666480A (zh) * 2020-06-10 2020-09-15 东北电力大学 一种基于滚动式协同训练的虚假评论识别方法
CN111651565A (zh) * 2020-06-29 2020-09-11 国际关系学院 一种社交媒体平台虚假信息识别系统
CN112100515A (zh) * 2020-09-04 2020-12-18 西北工业大学 一种用于社交媒体中假消息的检测方法
CN112417099A (zh) * 2020-11-20 2021-02-26 南京邮电大学 一种基于图注意力网络的欺诈用户检测模型构建方法
CN112711951A (zh) * 2021-01-05 2021-04-27 西安交通大学 一种基于归纳意识的虚假新闻可解释性检测系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHUNXIAO FAN 等: "Research of public opinion hotspot detection model based on web big data", 《PROCEEDINGS OF 2016 5TH IEEE INTERNATIONAL CONFERENCE ON NETWORK INFRASTRUCTURE AND DIGITAL CONTENT (IC-NIDC 2016)》 *
张莹: "在线新闻评论的情感分析研究", 《中国博士学位论文全文数据库 (信息科技辑)》 *
罗寿博: "自媒体时代虚假新闻的检测与治理", 《中国报业》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127521A (zh) * 2023-04-12 2023-05-16 上海蜜度信息技术有限公司 基于区块链的新闻处理方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN113177164B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN111159395B (zh) 基于图神经网络的谣言立场检测方法、装置和电子设备
CN110674840B (zh) 一种多方证据关联模型构建方法和证据链提取方法及装置
CN110334178B (zh) 数据检索方法、装置、设备及可读存储介质
CN108595525A (zh) 一种律师信息处理方法和系统
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN108681548A (zh) 一种律师信息处理方法和系统
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统
CN111782793A (zh) 智能客服处理方法和系统及设备
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN115187066A (zh) 风险识别方法、装置、电子设备及存储介质
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
WO2024087754A1 (zh) 一种多维度文本综合辨识方法
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN115952770A (zh) 一种数据标准化的处理方法、装置、电子设备及存储介质
CN115630357A (zh) 一种应用程序越界收集个人信息行为的判定方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质
CN111797194B (zh) 文本风险检测方法、装置、电子设备及存储介质
CN113158082B (zh) 一种基于人工智能的媒体内容真实度分析方法
KR102180329B1 (ko) 가짜 뉴스 판단 시스템
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质
CN112464653A (zh) 一种基于通信短信的实时事件识别和匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221115

Address after: 518000 2701-2702, Block A, Building 1, Shenzhen International Innovation Valley, Dashi 1st Road, Xili Community, Xili Street, Nanshan District, Shenzhen, Guangdong

Applicant after: Shenzhen Xinyichen Information Technology Co.,Ltd.

Address before: 610200 Meide science and Technology Park, IOT 3rd road, Shuangliu District, Chengdu City, Sichuan Province

Applicant before: Nie Jiaoying

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant