CN113177164A

CN113177164A - 基于大数据的多平台协同新媒体内容监控管理系统

Info

Publication number: CN113177164A
Application number: CN202110522939.4A
Authority: CN
Inventors: 不公告发明人
Original assignee: Nie Jiaoying
Current assignee: Shenzhen Xinyichen Information Technology Co ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-07-27
Anticipated expiration: 2041-05-13
Also published as: CN113177164B

Abstract

本发明涉及一种基于大数据的多平台协同新媒体内容监控管理系统，包括用户终端和检测云平台。检测云平台包括评论分析模块、情感分析模块、关系构建模块、内容验证模块和新闻评级模块。检测云平台根据每个社交用户发表的评论内容获取每个社交用户的第一评论信息和第二评论信息；基于所述第一评论信息和所述第二评论信息得到每个社交用户之间的评论相关度，并为不同社交用户构建相应的关联拓扑图，内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容的焦点内容，并验证所述焦点内容是否为虚假新闻内容；基于媒体用户的用户影响力和所述虚假新闻内容的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级。

Description

基于大数据的多平台协同新媒体内容监控管理系统

技术邻域

本发明涉及新媒体数据分析领域，尤其涉及一种基于大数据的多平台协同新媒体内容监控管理系统。

背景技术

新媒体内容作为一种传播速度快、影响广泛的信息源，对于人们的认知和态度会产生巨大的影响。近年来由于传播技术的迅速发展，助长了虚假媒体内容的生成和传播。虚假媒体内容不仅会使媒体的可信度减弱，还可能危害政治和经济等领域，造成不良的社会影响与经济损失，社会秩序的混乱，影响人们的正常生活。

传统媒体内容的管控方式主要依赖用户的自发举报及工作人员的人工审核，需耗费大量人力，且此类监控手段具有较强的滞后性，通常举报上来的虚假信息已传播一段时间，并已造成一定的影响，识别效率不高。况且，由于媒体内容中包含大量的内容，常用的人工智能识别方法则通过抽取整条文章序列对媒体内容进行虚假识别，难以聚焦媒体内容有问题的部分，增加了虚假媒体内容识别的复杂度以及识别时提取的数据量。同时，针对检测出的虚假媒体内容，相关部门缺乏科学化的管理方式，难以在舆论形成的初期及时采取有效的措施。

发明内容

为了解决上述问题，本发明提供了一种基于大数据的多平台协同新媒体内容监控管理系统，包括用户终端和检测云平台，检测云平台与用户终端之间具有通信连接；

检测云平台包括评论分析模块、情感分析模块、关系构建模块、内容验证模块和新闻评级模块；

评论分析模块对同一新闻内容下不同社交用户通过相应用户终端发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息，并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集，其中，所述第一评论信息包括多个元素集合，所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构；

情感分析模块利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息，并从每个社交用户的第二评论信息中提取对应社交用户的情感特征，其中，所述第二评论信息包括多个情感元素词，所述情感元素词用于表征每个社交用户的情感倾向；

关系构建模块基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度，并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图，其中，所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定；

内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容，并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容，并对发表所述虚假新闻内容的媒体用户进行信息溯源以获取所述媒体用户的用户影响力；

新闻评级模块根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级，基于所述评级对应的管理方式对发布所述虚假新闻内容的媒体账户进行管理。

根据一个优选实施方式，所述内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括：

获取关联拓扑图中每个社交用户之间边的权重值，并将所述权重值与预设阈值进行比较；在所述权重值小于预设阈值时，将所述权重值对应的边从关联拓扑图中删除；

获取与对应社交用户存在关联关系的所有相邻社交用户，对每个社交用户之间边的权重值进行迭代传播直至收敛得到每个社交用户之间的关联评论特征，其中，所述关联关系用于表征对应社交用户之间存在边；

获取对应评论内容包含的每个词汇的词向量，并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列，将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征；

基于所述关联评价特征和深层语义特征识别不同社交用户在同一新闻内容中关注的同一焦点内容。

根据一个优选实施方式，所述管理方式包括口头警告、依法撤销和账号封禁。

所述评级包括将所述虚假新闻内容的影响力评价为初级、中级或高级。

根据一个优选实施方式，评论分析模块对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括：

评论分析模块评论分析模块对每个社交用户发表的评论内容进行数据处理以过滤评论内容中的无用信息，对处理后的评论内容进行分词以得到若干分词词汇，其中，所述无用信息包括URL链接、图片和符号元素；

评论分析模块基于公共语料库中的常用关键词和关键词识别规则构件关键词识别的初始特征模板，根据所述初始特征模板对分词词汇进行关键词匹配以对分词词汇中的关键词进行初步筛选；所述关键词识别规则包括根据先验特征字词指定的边界判定当前词汇的边界，并判断当前词汇的附加特征词是否与先验附加特征词相同；若相同，根据常用关键词判断当前词汇是否为关键词；

评论分析模块对初始特征模板的观察窗口进行扩展以获取每个初步筛选的关键词的上下文信息，构造关键词识别规则的多元识别特征以对初始特征模板的匹配规则进行更新得到复合特征模板，利用所述复合特征模板对所述关键词的上下文信息进行识别以对所述关键词进行词汇修正；

评论分析模块获取修正后的每个关键词的元素类型，以为相同元素类型的关键词生成相应的元素集合，并对所有元素集合进行排序以得到社交用户的第一评论信息。

所述元素类型包括人名、地名、机构名、组织名和时间。

根据一个优选实施方式，更新后的匹配规则包括：将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界，将复合特征模板中的首部先验特征字词作为关键词识别的首部边界；根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合，根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。

根据一个优选实施方式，关系构建模块基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括：

关系构建模块基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度，并将所述焦点相似度和所述情感相似度进行加权融合以得到每个社交用户之间的评论相关度。

根据一个优选实施方式，所述新闻评级模块根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级包括：

基于所述虚假新闻内容在不同媒体平台中的转发数据和浏览数据对所述虚假新闻内容的实际影响范围进行分析以得到所述虚假新闻内容在当前时刻下的实时传播范围和实时传播速度；

从转发数据中获取同一媒体平台中转发所述虚假新闻内容的所有社交用户，并获取每个社交用户的关系列表以为所述虚假新闻内容构建相应的新闻传播网络，然后根据媒体用户的用户影响力和每个社交用户与关系列表中各个相关社交用户之间的历史交互数据分析得到对应相关社交用户对所述虚假新闻内容的转发概率；

基于相关社交用户的转发概率对所述新闻传播网络在未来时间段的传播状态进行预测以得到所述虚假新闻内容的预测传播范围和预测传播速度，基于所述虚假新闻内容的实时传播范围、实时传播速度、预测传播范围和预测传播速度对所述虚假新闻内容的影响力进行评级。

根据一个优选实施方式，相关社交用户对虚假新闻内容转发概率的计算公式为：

其中，R(u_i,n)为社交用户u_i对所述虚假新闻内容n的转发概率，U_i为社交用户u_i的关系列表中已转发所述虚假新闻内容的用户集合，R(u_i,u_j)为社交用户u_i对社交用户u_j发表或转发的新闻内容的转发概率。

本发明提供的实施例具有以下有益效果：

本发明通过对新闻内容下的用户评论进行分析识别，以根据不同用户的评论内容识别新闻内容中的焦点内容，再对新闻内容的焦点内容进行真伪性验证，降低虚假新闻识别的复杂度，相较于传统识别方式中抽取新闻内容的整条文章序列进行识别，大幅减少识别虚假新闻时提取的数据量，加快虚假新闻的检测速度。此外，本发明还根据虚假新闻的影响力对其进行评级，并对不同级别的虚假新闻采用不同的管理方式，提高管理方式的合理性。

附图说明

图1为基于大数据的多平台协同新媒体内容监控管理系统的结构框图。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

参见图1，在一个实施例中，本发明的基于大数据的多平台协同新媒体内容监控管理系统包括用户终端和检测云平台，检测云平台与用户终端之间具有通信连接。用户终端为评论用户所使用的具有计算功能、存储功能和通信功能的设备，其包括：智能手机、台式电脑和笔记本电脑。

检测云平台包括评论分析模块、情感分析模块、关系构建模块、内容验证模块和新闻评级模块，前述各模块之间相互具有通信连接。

评论分析模块用于对同一新闻内容下不同社交用户通过相应用户终端发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息，并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集。第一评论信息包括多个元素集合，元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构；

情感分析模块用于利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息，并从每个社交用户的第二评论信息中提取对应社交用户的情感特征，其中，所述第二评论信息包括多个情感元素词，所述情感元素词用于表征每个社交用户的情感倾向；

关系构建模块用于根据每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度，并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图，其中，所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定；

内容验证模块用于根据关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容，并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容，并对发表所述虚假新闻内容的媒体用户进行信息溯源以获取所述媒体用户的用户影响力；

新闻评级模块用于根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级，基于所述评级对应的管理方式对发布所述虚假新闻内容的媒体账户进行管理。

下面对本发明的工作方法进行具体说明。在一个实施例中，基于大数据的多平台协同新媒体内容监控管理系统的处理方法包括：

首先，评论分析模块对同一新闻内容下不同社交用户通过相应用户终端发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息，并对每个第一评论信息中的元素集合进行对齐以求得每个社交用户之间的元素交集，其中，所述第一评论信息包括多个元素集合，所述元素集合用于表征新闻事件的发生地点、发生时间、涉及的人物和/或组织机构。

具体地，所述评论分析模块对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括：

评论分析模块对每个社交用户发表的评论内容进行数据处理以过滤评论内容中的无用信息，对处理后的评论内容进行分词以得到若干分词词汇，其中，所述无用信息包括URL链接、图片和符号元素；

评论分析模块获取修正后的每个关键词的元素类型，以为相同元素类型的关键词生成相应的元素集合，并对所有元素集合进行排序以得到社交用户的第一评论信息，其中，所述元素集合中包括多个同一元素类型的关键词。

可选地，多元识别特征包括当前关键词与前缀特征词的组合特征和当前关键词与后缀特征词的组合特征。

可选地，先验附加特征词分为前缀特征词和后缀特征词，所述先验附加特征词包括用于对地名进行识别的先验地名附加特征词，其包括省、市和街等；用于对机构进行识别的先验机构附加特征词，其包括厂、公司、医院和大学等。所述常用关键词包括公共数据库中记录的人名、地名、机构名和组织名。

前述元素类型包括人名、地名、机构名、组织名和时间；所述观察窗口用于指示初始特征模板选取的字符长度。

可选地，更新后的匹配规则包括：将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界，将复合特征模板中的首部先验特征字词作为关键词识别的首部边界；根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合，根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。

在进行地名关键词识别时，所述尾部先验特征字词可以是省、市、街等，所述首部先验特征字词可以是“在、位于”等；在进行机构关键词识别时，所述尾部先验特征字词可以是厂、公司、医院和大学，所述首部先验特征字词可以是“关心、领导、承担”等。

接下来，情感分析模块利用情感词典对每个社交用户发表的评论内容进行情感词提取以得到每个社交用户的第二评论信息，并从每个社交用户的第二评论信息中提取对应社交用户的情感特征，其中，所述第二评论信息包括多个情感元素词，所述情感元素词用于表征每个社交用户的情感倾向。

可选地，所述情感词典为网络中公开的情感词典，例如知网(HowNet)情感词典以及台湾大学NTUSD简体中文情感词典。

接下来，关系构建模块基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度，并将所述评论相关度作为边的权重值为不同社交用户构建相应的关联拓扑图，其中，所述情感相似度由每个社交用户的情感特征对应的特征向量之间的余弦相似度确定。

具体地，所述关系构建模块基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括：

可选地，所述关系构建模块基于每个社交用户之间的元素交集与对应社交用户之间的元素集合之和的比值确定每个社交用户之间的焦点相似度包括：

其中，P(v_i,v_j)表示社交用户之间的焦点相似度，i与j均为评论内容的数据索引，e(v_i∩v_j)表示评论内容v_i和评论内容v_j的交集元素，e(v_i)表示评论内容v_i中的关键词个数，e(v_j)表示评论内容v_j中的关键词个数。

接下来，内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容，并将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容，并对发表所述虚假新闻内容的媒体用户进行信息溯源以获取所述媒体用户的用户影响力，其中，所述用户影响力用于表征所述媒体用户的权威度和知名度。可选地，焦点内容即为新闻内容中存在问题和争议的部分。

具体地，所述内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括：

获取对应评论内容包含的每个词汇的词向量，并将每个词汇的词向量顺序输入至双向长短期记忆网络中以获取每个词汇产生的前向隐式状态序列和后向隐式状态序列，将预设时刻的前向隐层状态和后向隐层状态进行拼接并编码以得到每个社交用户的深层语义特征，其中，所述预设时刻一般设置为最后时刻；

可选地，所述预设阈值为系统预先设置的用于判断每个社交用户之间评论相关度大小的数值。

前述关联评论特征的计算公式包括：

其中，T(u_i)为社交用户u_i与社交用户u_j之间的关联评论特征，i、j与k均为社交用户的数据索引，Q(u_i,u_j)为社交用户u_i与社交用户u_j之间边的权重值，T(u_j)为一个预设的随机初始值，nb(u_i)为与u_i存在关联关系的相邻社交用户，nb(u_j)为与u_j存在关联关系的相邻社交用户，Q(u_j,u_k)为社交用户u_j与社交用户u_k之间边的权重值，d为设置的阻尼系数。

具体地，所述将所述焦点内容输入至验证模型中以判断所述焦点内容是否为虚假新闻内容的步骤包括：

对所述焦点内容的文本内容进行特征统计以得到所述焦点内容的文本语言特征，并将所述焦点内容的文本内容和文本语言特征输入至验证模型中，其中，所述文本语言特征包括文本长度、特殊符号、语气词和文本链接；

利用验证模型的第一卷积层对所述文本内容进行卷积操作以对文本内容中各个焦点词汇与其上下文的高维向量表示进行捕捉得到所述文本内容的多维语义特征；

利用验证模型的第二卷积层对所述文本语言特征进行归一化操作，其中，具有参数线性整流函数PReLU作为激活函数；

利用验证模型的池化层对所述多维语义特征进行数据压缩和参数压缩以降低多维语义特征的维度从而减小过拟合；

利用验证模型的全连接层对所述多维语义特征和归一化后的文本语言特征进行向量连接操作，并对输出后的连接向量进行压平操作以将所述连接向量一维化，并将一维化后的连接向量输入到分类器中得到最终的分类结果，其中，所述分类结果用于表征对应焦点内容的真伪性。

接下来，新闻评级模块根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级，基于所述评级对应的管理方式对发布所述虚假新闻内容的媒体账户进行管理。

具体地，所述新闻评级模块根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级包括：

从转发数据中获取同一媒体平台中转发所述虚假新闻内容的所有社交用户，并获取每个社交用户的关系列表以为所述虚假新闻内容构建相应的新闻传播网络，然后根据媒体用户的用户影响力和每个社交用户与关系列表中各个相关社交用户之间的历史交互数据分析得到对应相关社交用户对所述虚假新闻内容的转发概率，其中，所述历史交互数据包括相关社交用户对目标社交用户转发和发表的所有新闻内容的转发量；

可选地，相关社交用户对虚假新闻内容转发概率的计算公式为：

其中，R(u_i,n)为社交用户u_i对所述虚假新闻内容n的转发概率，i与j均为社交用户的数据索引，U_i为社交用户u_i的关系列表中已转发所述虚假新闻内容的用户集合，R(u_i,u_j)为社交用户u_i对社交用户u_j发表或转发的新闻内容的转发概率，由社交用户u_i与对社交用户u_j之间的历史交互数据分析所得。

可选地，管理方式包括口头警告、依法撤销和账号封禁。所述评级包括将所述虚假新闻内容的影响力评价为初级、中级或高级。

当所述虚假新闻内容的影响力评价为初级时，对发布所述虚假新闻内容的媒体用户进行口头警告；当所述虚假新闻内容的影响力评价为中级时，勒令发布所述虚假新闻内容的媒体用户对虚假新闻进行撤销；当所述虚假新闻内容的影响力评价为高级时，对发布所述虚假新闻内容的媒体用户进行封禁。

本发明提供的基于大数据的多平台协同新媒体内容监控管理系统通过对新闻内容下的用户评论进行分析识别，以根据不同用户的评论内容识别新闻内容中的焦点内容，再对新闻内容的焦点内容进行真伪性验证，降低虚假新闻识别的复杂度，相较于传统识别方式中抽取新闻内容的整条文章序列进行识别，大幅减少识别虚假新闻时提取的数据量，加快虚假新闻的检测速度。此外，本发明利用评级管理制度对检测出的虚假新闻进行管理，提高管理方式的合理性，使得对虚假新闻的管理更加智能化和人性化。

本领域技术人员应明白，虽然上面参考特定模块讨论了特定功能，但是应当注意，本文讨论的各个模块的功能可以分为多个模块，和/或多个模块的至少一些功能可以组合成单个模块。另外，本文讨论的特定模块执行动作包括该特定模块本身执行动作，或者替换地该特定模块调用或以其他方式访问执行该动作的另一个组件或模块(或结合该特定模块一起执行动作)。因此，执行动作的特定模块可以包括执行动作的特定模块本身和/或执行动作的该特定模块调用或以其他方式访问的另一模块。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变形，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种基于大数据的多平台协同新媒体内容监控管理系统，其特征在于，包括用户终端和检测云平台，检测云平台与用户终端之间具有通信连接；

2.根据权利要求1所述的系统，其特征在于，所述内容验证模块基于所述关联拓扑图和每个社交用户的深层语义特征识别新闻内容中的焦点内容包括：

3.根据权利要求1或2所述的系统，其特征在于，所述管理方式包括口头警告、依法撤销和账号封禁。

4.根据权利要求3所述的系统，其特征在于，评论分析模块对同一新闻内容下不同社交用户发表的评论内容进行关键词提取以得到每个社交用户的第一评论信息包括：

5.根据权利要求4所述的系统，其特征在于，所述元素类型包括人名、地名、机构名、组织名和时间。

6.根据权利要求5所述的系统，其特征在于，更新后的匹配规则包括：将复合特征模板中的尾部先验特征字词作为关键词识别的尾部边界，将复合特征模板中的首部先验特征字词作为关键词识别的首部边界；根据上下文信息判断当前关键词的后缀特征词是否可以与所述关键词进行组合，根据上下文信息判断当前关键词的前缀特征词是否可以与所述关键词进行组合。

7.根据权利要求6所述的系统，其特征在于，关系构建模块基于每个社交用户之间的元素交集和情感相似度确定每个社交用户之间的评论相关度包括：

8.根据权利要求7所述的系统，其特征在于，所述新闻评级模块根据媒体用户的用户影响力和所述虚假新闻内容在不同媒体平台中的转发数据与浏览数据对所述虚假新闻内容的影响力进行评级包括：

9.根据权利要求1至8之一所述的系统，其特征在于，所述评级包括将所述虚假新闻内容的影响力评价为初级、中级或高级。