CN112395511A

CN112395511A - 一种基于移动应用内消息传播路径的谣言检测与存证系统

Info

Publication number: CN112395511A
Application number: CN202011219446.5A
Authority: CN
Inventors: 姜海鸥; 谢欣彤; 黄罡; 娄帅
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-02-23

Abstract

本发明提供了一种基于移动应用内消息传播路径的谣言检测与存证系统，包括：首先，数据采集模块基于反射的应用内数据获取互操作接口获取应用内数据，随后，传播路径构造与转换模块得到传播序列，然后，循环神经网络的特征提取模块得到第一向量、基于卷积神经网络的特征提取模块得到第二向量，最后，传播路径向量分类模块基于所述第一向量和第二向量得到表征所述消息是否是谣言的预测结果，可信智能合约模块记录所述应用内数据的使用申请和调用结果。利用本发明的消息检测系统，能够解决现有网络内容审查中对消息的检测需要大量人工及审查滞后的问题。

Description

一种基于移动应用内消息传播路径的谣言检测与存证系统

技术领域

本发明涉及互联网内容审查领域，特别是涉及一种基于移动应用内消息传播路径的谣言检测与存证系统。

背景技术

社交媒体应用如今已经成为大部分网民获取即时新闻并传播的重要平台。但在社交媒体带来便利的同时，也为谣言的传播提供了环境。据有关部门统计，在2015年，有超过六成的谣言首发于新浪微博，尤其在公共安全突发事件时，微博往往在第一时间凝聚舆论焦点，各类谣言便随之发酵，通过微博迅速传播。

为了应对这些情况，各平台也推出了相应的解决方案，如新浪公司成立了“微博辟谣”账号及社区管理中心，对微博爆发的新闻进行每天24小时不断监控。而为了提高平台内容可靠性，过滤编造、假新闻等低质内容，某综合资讯类应用公司在2018年已有4000名内容审核编辑，人员规模仍在进一步扩大，未来预期达到10000名。然而，现有的网络平台辟谣工作大多建立依赖于人工举报筛查机制，仅仅依靠人工，不仅耗费大量时间和精力，辟谣的即时性也有很高的局限性，往往在谣言的传播具有一定规模时才能引起鉴别人员的注意。

发明内容

本发明实施例提供一种基于移动应用内消息传播路径的谣言检测与存证系统，以解决现有网络内容审查中对消息的检测需要大量人工及审查滞后的问题。

为了解决上述技术问题，本发明实施例提供了一种基于移动应用内消息传播路径的谣言检测与存证系统，所述系统包括：

数据采集模块、传播路径构造与转换模块、基于循环神经网络的特征提取模块、基于卷积神经网络的特征提取模块、传播路径向量分类模块以及可信智能合约模块；

所述数据采集模块用于基于反射的应用内数据获取互操作接口获取应用内数据，从中提取用户发布的消息、所述消息的原始传播路径及传播所述消息的用户具有的用户特征；

所述传播路径构造与转换模块用于对所述消息的原始传播路径进行处理，输出由定长的所述用户特征的向量组成的传播序列；

所述基于循环神经网络的特征提取模块用于基于循环神经网络对所述传播序列进行特征提取，得到第一向量；

所述基于卷积神经网络的特征提取模块用于基于卷积神经网络对所述传播序列进行特征提取，得到第二向量；

所述传播路径向量分类模块包括拼接模块和多层前馈神经网络，所述拼接模块用于对所述第一向量和所述第二向量进行拼接，得到拼接向量，所述多层前馈神经网络用于对所述拼接向量进行处理，得到表征所述消息是否是谣言的预测结果；

所述可信智能合约模块用于记录所述应用内数据的使用申请和调用结果。

可选的，所述数据采集模块包括：燕云中心Yancloud Hub，用于收集应用内数据从中提取用户发布的消息、所述消息的原始传播路径及传播所述消息的用户具有的用户特征。

可选的，所述方法还包括：根据各用户参与所述消息的传播的时间顺序，得到所述消息的原始传播路径，所述原始传播路径中包括多个用户；

所述传播路径构造与转换模块按照以下步骤，对所述消息的原始传播路径进行处理，输出由定长的所述用户特征的向量组成的传播序列：

将所述消息的传播路径中用户替换成对应的所述用户特征的定长向量，输出定长的所述用户特征的向量组成的传播序列。

可选的，所述定长的长度为n；所述传播路径构造与转换模块按照以下步骤，将所述消息的原始传播路径转换成定长的所述用户特征的向量组成的传播序列：

若所述消息的原始传播路径长度大于n，则截取所述消息的原始传播路径的前n个元组，得到长度为n的用户特征的向量组成的传播序列；

若所述消息的原始传播路径小于n，则随机从所述消息的原始传播路径中采样，得到长度为n的用户特征的向量组成的传播序列。

可选的，所述基于循环神经网络的特征提取模块包括门控循环GRU单元和第一池化单元；所述基于循环神经网络的特征提取模块按照以下步骤，基于循环神经网络对所述传播序列进行特征提取，得到第一向量：

所述GRU单元依次将所述传播序列中的第t个用户向量xt作为输入，并输出第一向量序列；

所述第一池化单元用于对所述第一向量序列做平均池化，得到所述第一向量。

可选的，所述基于卷积神经网络的特征提取模块包括卷积神经网络CNN单元和第二池化单元；所述基于卷积神经网络的特征提取模块按照以下步骤，基于卷积神经网络对所述传播序列进行特征提取，得到第二向量：

所述CNN单元将所述传播序列中每个长度为h的序列作为输入，并输出第二向量序列；

所述第二池化单元用于对所述第二向量序列做平均池化，得到所述第二向量。

可选的，所述传播序列的长度为10，所述消息的原始传播路径为截止时间前预设时长内所述消息的传播路径的片段，所述预设时长为5分钟。

可选的，所述系统还包括：前端展示模块，用于对所述检测结果进行可视化呈现。

在本发明的实施例中，首先，数据采集模块获取应用内数据，从中提取用户发布的消息、所述消息的原始传播路径及传播所述消息的用户具有的用户特征，传播路径构造与转换模块得到传播序列，然后，循环神经网络的特征提取模块得到第一向量、基于卷积神经网络的特征提取模块得到第二向量，最后，传播路径向量分类模块基于所述第一向量和第二向量得到表征所述消息是否是谣言的预测结果，可信智能合约模块记录所述应用内数据的使用申请和调用结果。在本实施例中，基于移动应用内消息传播路径的谣言检测与存证系统能够在机器设备上运行，能够减少人工参与，降低人工成本，同时相对于现行的举报加主动筛查的检测机制，采用基于移动应用内消息传播路径的谣言检测与存证系统能够在消息传播过程中及时对消息进行检测，能够降低消息检测的滞后性，避免消息广泛扩散后才开始对其进行检测。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构未实现和获得。为使本发明的上述目的、特征和优点能更明显易懂，下文特举可选的实施例，并配合所附附图，作详细说明如下。

附图说明

更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例示出的一种基于移动应用内消息传播路径的谣言检测与存证系统的结构示意图；

图2是本发明一实施例示出的循环神经网络的其网络结构图；

图3是本发明一实施例示出的门控循环单元的结构图。

图4A是本发明一实施例示出的用户昵称箱线图。

图4B是本发明一实施例示出的个人简介长度箱线图。

图4C是本发明一实施例示出的发布谣言用户注册时间分布。

图4D是本发明一实施例示出的普通发布用户注册时间分布。

图4E是本发明一实施例示出的普通发布用户性别分布饼图。

图4F是本发明一实施例示出的谣言发布用户性别分布饼图。

图4G是本发明一实施例示出的普通发布用户认证情况分布饼图。

图4H是本发明一实施例示出的谣言发布用户认证情况分布饼图。

图4I是本发明一实施例示出的普通发布用户认证信息饼图。

图4J是本发明一实施例示出的谣言发布用户认证信息饼图。

图5是本发明一实施例示出的数据集评论数分布情况图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的互联网内容审查主要依靠人工，通过人工对平台内的内容进行审核过滤，已去除平台中的谣言、假新闻、低俗内容、劣质内容等。随着网络普及率的提高，互联网用户也不断增加，各个平台上的内容也随之爆炸性的增长。要想对海量的信息的审查势必需要大量的工作人员，由此会带来巨大的人力成本。

在内容审查中，人力终究是有限的，依靠举报筛查与主动审查的结合，难免有所疏忽。例如由于每个人的标准不一样，可能导致一些内容中的问题难以被发现，例如在审查过程中错漏了一些应当审核的内容。同时，谣言等消息发现的发现时间完全依赖于何时对其审查，这往往导致谣言等消息在传播一段时间后才被人所发现，错过了辟谣的最佳时间。

为克服相关技术中存在的问题，更好地对互联网平台上的谣言、低俗内容等信息进行审查，本发明提出了一种消息检测方法，其发明构思为：通过对消息的传播路径的计算，判断消息是否真实可信，基于传播路径的检测能够对所有正在传播中消息的检测且能够在传播途中就能实现检测，通过计算机等执行本发明的方法也能够节约人力，避免人工操作中的失误。

下面结合图1对本发明的基于移动应用内消息传播路径的谣言检测与存证系统进行详细说明。

如图1所示，基于移动应用内消息传播路径的谣言检测与存证系统包括：数据采集模块110、传播路径构造与转换模块120、基于循环神经网络的特征提取模块130、基于卷积神经网络的特征提取模块140、传播路径向量分类模块150以及可信智能合约模块160。

在当前背景下，信息安全不局限于系统安全，更涉及到包括数据采集、预处理、分析、可视化的全生命周期中各个环节中的安全问题，为避免重要数据被网络爬虫抓取、安全风险等因素，与此同时，海量数据开始从移动端产生，一些移动应用出于鼓励用户下载移动客户端、对网页端数据浏览做限制。

所述数据采集模块110用于基于反射的应用内数据获取互操作接口获取应用内数据，从中提取用户发布的消息、所述消息的原始传播路径及传播所述消息的用户具有的用户特征。

本申请采用基于反射的应用内数据获取互操作接口能够避开网页端的数据保护手段和数据获取限制等缺陷，从客户端应用直接获取数据，简单可行。

上述消息可以是在互联网平台上传播的任意文本信息，例如微博、公众号文章、群聊中频繁转发的文本等。

消息传播路径是指用户对某一消息在某一时刻进行了发布和转发的集合，例如有消息a_i、用户u₁，u₂，...,u_|U|，其中u₁内包含了用户名、该用户的特征、发布/转发消息的时间等信息，按照用户发布/转发消息的时间排序得到消息的传播路径<…,(u_|U|,t),…>，其中每个元组(u_|U|,t)表示用户u_j在t时刻发布/传播了新闻a_i。具体的，当数据采集模块检测到某一消息，将获取到的消息的传播过程，并依据此构造出消息的传播路径。

具体的，本实施例通过Android的Binder通信机制，可以在接口管理过程中注册面向应用程序提供的互操作接口，用户可以通过调用互操作接口来控制应用程序，从而获取应用内数据。具体的，首先在手机安装行为反射框架类工具，所述工具将手机中的App Dex注册到API网关，当数据采集模块请求获取应用内数据时，API网关将请求分配到合适的安卓端手机设备，该设备向Dex文件服务器检测Dex文件是否为最新版本并加载Dex文件启动服务，调用相应的服务接口可以得到应用内数据。

对于每个参与传播的用户都有自己的特征，本发明提取的所述用户特征至少包括参与所述消息的传播的用户的粉丝数、动态数、是否为认证用户、注册时间，本发明依据各用户特征的字段的自然属性将其分为账号信息、个人信息、交互特征三个大类，三大类中的具体用户特征如下表1所示。

表1

以下参照图4A到图4J举例说明用户特征为何能够判断消息是否为谣言。

从图4A的用户昵称箱线图和图4B的个人简介长度箱线图可分析出普通用户及谣言用户的昵称长度及个人简介长度分布有一定的差异，谣言用户更倾向于使用较长的昵称，这可能由于较长的昵称更容易引人注意、系统自动分配昵称较长等原因有关；而个人简介是用户进行自我描述、表达个性的窗口，或许不容易被倾向于发布谣言的用户所关注。

从图4C的发布谣言用户注册时间分布和图4D的普通发布用户注册时间分布可看出两个群体在注册时间分布上有较大的不同，区别于普通用户的注册高峰的早早出现，谣言用户群体的注册时间更为分散

从图4E的普通发布用户性别分布饼图和图4F的谣言发布用户性别分布饼图可以看出，普通用户与谣言用户的性别分布存在细微差异，可以作为检测过程中其他用户特征的补充。

从图4G的普通发布用户认证情况分布饼图和图4H的谣言发布用户认证情况分布饼图可以明显看出在认证情况分布上两个群体则有明显的差异，其中必然包含认证用户所发布的内容更容易出现在热门板块的原因，但是发布用户的认证与否仍然极可能有助于谣言的检测。

从图4I的普通发布用户认证信息饼图和图4J的谣言发布用户认证信息饼图可以看出名人认证用户在两群体内的分布比例都有显著的区别，媒体、政府类认证用户几乎在谣言用户群体内不存在，而在谣言用户群体内不乏有非认证用户中的中高级达人出没，这些数据表明将具体的认证分类加入考量可能会进一步帮助我们进行谣言的检测。

应当注意本实施例所示出的用户特征分类只是对用户的特征进行分类的其中一种，本发明并不局限与这一种对用户特征分类的方式，本发明还可以采用其他用户特征进行分类。例如，可直接将用户特征分为头像、注册时间、地理位置情况等。例如，还可将用户特征分为活跃状态、社区贡献状态、用户关联状态等大类，再在大类下分别划分对应小类。

所述传播路径构造与转换模块120用于对所述消息的原始传播路径进行处理，输出由定长的所述用户特征的向量组成的传播序列。

传播路径构造与转换模块120首先将参与传播的每个用户具有的用户特征转换为用户特征向量，再将消息传播路径中的用户替换为用户特征向量组成的信息向量x_j∈R^d(R^d中d指提取的特征数量，R^d表示特征向量的维度)来表示，即得到用户特征向量传播路径P(a_i)＝<…,(x_j,t),…>，其中每个元组(x_j,t)表示用户具有特征向量x_j的用户u_j在t时刻发布/传播了新闻a_i。

例如,消息传播路径为<(u₁,t),(u₂,t),(u₃,t)>,u₁的用户特征向量x₁,u₂为的用户特征向量为x₂,u₃的用户特征向量为x₃，即可得到用户向量特征传播路径<(x₁,t),(x₂,t),(x₃,t)>。

所述基于循环神经网络的特征提取模块130用于基于循环神经网络对所述传播序列进行特征提取，得到第一向量。

基于循环神经网络的特征提取模块130接收用户特征向量传播路径，输入训练好的基于循环神经网络的GRU单元得到GRU单元输出的隐藏层向量序列，将所述GRU单元输出的隐藏层向量序列池化得到第一向量。

具体为，将P(a_i)中的用户向量x_j依次输入GRU单元(隐藏层向量h₀初始化为0)，获得GRU单元输出的隐藏层向量序列<h₁,h₂,…,h_n>,h_n∈R^m(R^m为对隐藏层序列维度的约束)。

循环神经网络(英文全称，RNN)是一类人工神经网络，其中单元之间的连接形成有向循环。图2是循环神经网络的网络结构图。这创建了网络的内部状态，其允许其展现动态的时间行为。RNN可以通过具有循环隐藏状态来处理可变长度序列，其中每个时刻的激活依赖于先前时刻的激活。RNN的前向传播算法如下：

h^(t)＝φ(Ux^(t)+Wh^(t-1)+b) (1)；

o^(t)＝Vh^(t)+c (2)；

其中，h^(t)表示t时刻的隐含状态，φ,σ是激活函数，U，W，V是权重矩阵，b，c是偏置，o^(t)是t时刻的输出。RNN的反向传播采用基于时间的反向传播算法，由于存在激活函数导数的累乘，容易发生“梯度消失”和“梯度爆炸”现象。

为了解决梯度消失的问题，2014年，Chung等人提出了门控循环单元(英文全称，GRU)。门控循环单元(Gated recurrent unit,GRU)是RNN的一种。GRU可以根据输入信号来记忆或者忘记状态，图3是门控循环单元的结构图。

本实施例中的基于循环神经网络的GRU单元具体算法为：

z_t＝σ(W_z·[h_t-1,x_t]) (4)；

r_t＝σ(W_r·[h_t-1,x_t]) (5)；

首先根据公式1对更新门z_t进行计算，x_t代表时间t时的输入量，即t时输入的x_j，再根据式2计算重置门；式3表示计算完成重置门后，使用中重置门储存过去相关的信息得到当前记忆内容，式4表示利用更新门和

计算h_t(门控循环单元输出的内容)。

对<h₁,h₂,…,h_n>进行池化得到s_R，s_R为传播序列P(a_i)通过循环神经网络学习提取到的向量表示。

所述基于卷积神经网络的特征提取模块用于基于卷积神经网络对所述传播序列进行特征提取，得到第二向量。

基于卷积神经网络的特征提取模块140接收用户特征向量传播路径，输入基于训练好的卷积神经网络得到卷积结果序列，将所述卷积结果序列池化得到第二向量。

具体的，当某一用户特征向量传播路径长度为h时，首先用滤波器矩阵W_f∈R^h*d(R^h ^*d为滤波器矩阵大小的约束)对h个连续的用户向量<x_j,…,x_j+h-1>进行一维卷积特征提取，得到多元向量c_j(c_j∈R^k，R^k为对向量维度的约束)，具体公式为：

c_j＝ReLU(W_f*X_j:j+h-1+b_f) (8)；

ReLU为卷积神经网络的线性整流激活函数：

f(x)＝max(0,x) (9)；

b_f为训练得到的偏置量，依次将用户特征向量进行输入，那么长度为h的用户特征向量传播路径会有n-j+1个窗口。

提取得到多元向量序列<c₁,c₂,…,c_n-h+1>，进行池化得到s_C，s_C为传播序列P(a_i)通过卷积神经网络学习提取到的向量表示。

上述中卷积神经网络将滤波器矩阵的层数设置为k，可根据实际情况为k设置具体数值。K层同的滤波器个滤波器对<x_j,…,x_j+h-1>内的h个连续用户向量进行相同的卷积运算，将卷积的结果进行池化。

所述传播路径向量分类模块包括拼接模块和多层前馈神经网络，所述拼接模块用于对所述第一向量和所述第二向量进行拼接，得到拼接向量，所述多层前馈神经网络用于对所述拼接向量进行处理，得到表征所述消息是否是谣言的预测结果。

传播路径向量分类模块150包括拼接模块151和多层前馈神经网络152，

拼接模块151将所述第一向量和第二向量进行拼接，将所述拼接结果输入多层前馈神经网络152得到预测结果。

具体的，当通过循环神经网络得到s_R和卷积神经网络获得s_C后，将二者拼接起来成为一个向量s∈R^m+k，上述s_R和s_C拼接过程可表示为

s＝Concatenate(s_R,s_C) (10)；

将拼接结果s输入多层前馈神经网络获得对于新闻消息的预测，多层前馈神经网络的表达式为:

q为神经网络层数，l_j为第j个隐藏层的输出(l_j∈R^m+k,l₀＝s),v_j是第j个隐藏层的输出维度，W_j,b_j分别是是第j个隐藏层的权重矩阵和偏差

对于得到的l_j通过预设的值r来判断消息的真实性,r是用户对得到的最终结果l_j的维度的指定，r可根据预测目标结果进行分类，例如当预测目标为二分类时，取r＝1，l_j＝0表示消息属实，而l_j＝1表示其为不实消息；当预测目标为多级别时，取r为大于1的任意值，l_j＝0表示消息属实，而l_j＝1表示其为不实消息，l_j＞1表示消息的真实性不明。

对于得到的预测结果，使用Softmax函数给出最终输出z，代表对于该消息的传播路径可信度预测值。

z＝Softmax(l_q) (12)；

Softmax函数在机器学习和深度学习领域中，是非常常见、重要的函数，又称归一化指数函数。常用在多分类场景中，将输入映射到0到1之间的实数，并保证归一化和为1。其函数形式如下所示。

Softmax函数对得到的不同维度预测结果归一化，能够得到不同判断结果的概率，取概率值最大的判断为对消息的预测结果。

可信智能合约模块160，用于记录所述应用内数据的使用申请和调用结果。

可信智能合约模块160记录下用于提取发布的消息、所述消息的原始传播路径及传播所述消息的用户具有的用户特征的应用内数据的使用申请，将数据的使用申请记录下来，使得数据的源头清晰化，避免数据的泄露，同时可信智能合约模块160还将记录应用数据的调用结果，调用结果包含了上述模块对应用内数据的处理过程和处理结果，记录下数据使用过程和使用结果，保证对数据的全程监督。通过可信智能合约模块160基于程序运行时分析与可信的执行环境，可以保证在数据对外开放的过程中，实现全生命周期的可信管控，在多方监督下保障数据安全和隐私，因此可以避免检测分析过程中涉及到的用户数据的泄漏问题。同样因为代码的执行过程多方监督、不可篡改，合约的执行监控结果使用区块链技术可信存证，谣言检测系统的分析结果呈现全程做到了发明透明，避免了潜在的利益相关方对结果进行影响的可能性。

在本申请的一个实施例中可信智能合约模块使用可信图式账本系统，北京大学软件研究所开发可信图式账本是采用有向无环图结构的面向大数据的区块链操作系统，可以实现数据全周期状态存证监管。其具有以下技术特性：(1)高性能写入：支持全网全栈资源使用场景的超高吞吐率，单节点吞吐率超过100TPS；(2)可横向扩展：吞吐率随节点数增加线性扩容，根据交易量需求弹性配置；(3)防篡改：图式结构，与链式结构在数学上有相同的防篡改能力；(4)高性能读取：分布式基数估计算法，万级节点仅需5跳，支持秒级统计。

具体的本实施例的可信智能合约模块的执行包括：

S901、预先在python环境中训练好的pytorch消息检测系统打包成torch script模型，此类格式的模型支持JAVA接口调用，因此在支持JAVA jar包调用的区块链系统中，便可以调用该模型进行推理，对接入的应用内数据进行过滤，得到其中包含的疑似谣言。

S902、规定对输入数据的使用权限，以及S802的用于请求API网关的智能合约，

S903、对疑似谣言类型的文本进行分词及主题、互动数据的统计。

S904、将对可信数据接入的使用申请、调用结果和系统检测等过程存证到可信的图式账本上，保证数据流转过程的可信、可管、可控、无泄漏，也可以保证结果的公正、无篡改。

本实施例还对上述基于移动应用内消息传播路径的谣言检测与存证系统进行了测试。

用于测试数据集由两部分组成：谣言信息及真实信息。其中谣言信息的来自微博社区管理中心2016年8月2日至2020年3月23日所判定的不实信息，以及中国互联网联合辟谣平台、腾讯新闻较真平台中公布的谣言反向搜索得到的谣言微博。真实信息采集自3月20日微博热门内容中的社会、国际、科技、科普、财经、综艺、健康、体育、旅游板块爬取实时发布的微博。筛去已删除的微博及互动数为零的条目，共收集谣言消息3688条、消息发布用户3317位、评论用户74192位，真实信息3460条、消息发布用户2871位、评论用户206518位。数据集的每条消息的数据内容主要包括信息发布者以及对其进行评论的用户的特征字段组成。

测试选择的批量(batch size)大小为32，优化算法为Adam，学习率为1e-4，momentum为0，多层前馈神经网络激活函数为ReLU。

本文将数据集的10％划分为验证集，并将余下的部分以3:1的比例划分为训练集和测试集。

在本实施例设计的实验中，传播路径定义为在同条微博下的评论用户特征向量序列。经过对本文所用的数据集进行统计，单条微博下的评论数量分布如图5所示。

数据集中仅有不到25％的微博评论不足10条，即超过75％的微博的评论数超过10。因此，为了保证实验结果对绝大多数微博有效，我们将对传播路径长度为10的情况进行实验。

实验中我们将一个同样为了进行早起谣言检测所提出的模型PPC_RNN+CNN作为基线，将本文提出的将注册时间、认证情况、粉丝数、动态数四个特征作为输入的模型记为“BPPC”(Brief Propagation Path Classification)或者“BPPC_RNN+CNN”。本文同时也实现了模型的两个轻量级版本，只使用单一的循环神经网络或者卷积神经网络，分别记为“BPPC_RNN”及“BPPC_CNN”。为了验证模型特征选取是否合理，也对原有四个特征基础上依次添加了个人简介长度、用户名长度、关注用户数的模型进行实现，记为“BPPC_RNN+CNN_5”、“BPPC_RNN+CNN_6”及“BPPC_RNN+CNN_7”。

表2模型表现测试结果

从表2的模型表现测试结果可以看出本申请提出的模型“BPPC_RNN+CNN”在准确率等指标上超过了基线模型。同时，模型的表现也明显优于基于单一神经网络的“BPPC_CNN”及“BPPC_RNN”，说明将两类神经网络集成于模型中在当前问题中是具有意义的。此外，与“BPPC_RNN+RNN_X”系列模型的对比结果显示，增加模型使用的特征对模型表现几乎没有影响。因此，本申请认为提出的的模型“BPPC_RNN+CNN”特征选取得当，在检测效果上具有很好的表现。

通过本实施例的基于移动应用内消息传播路径的谣言检测与存证系统，包括：传播路径构造与转换模块、基于循环神经网络的特征提取模块、基于卷积神经网络的特征提取模块和传播路径向量分类模块；所述传播路径构造与转换模块用于对消息的原始传播路径进行处理，输出定长的用户特征向量组成的传播序，所述基于循环神经网络的特征提取模块用于基于循环神经网络对所述传播序列进行特征提取，得到第一向量，所述基于卷积神经网络的特征提取模块用于基于卷积神经网络对所述传播序列进行特征提取，得到第二向量，所述传播路径向量分类模块包括拼接模块和多层前馈神经网络，所述拼接模块用于对所述第一向量和所述第二向量进行拼接，得到拼接向量，所述多层前馈神经网络用于对所述拼接向量进行处理，得到表征所述消息是否是谣言的预测结果。消息检测系统具有如下多个技术效果：

第一、消息检测系统运行于机器设备，解决了现有人工筛查需要大量人员，造成审查成本过高，且对于虚假、低俗等消息的认定主观性强，容易造成遗漏等问题；

第二、通过基于传播路径的消息检测，能够谣言传播过程中就对谣言等进行识别，及时阻止谣言的传播，避免谣言的扩散，减轻谣言对社会造成的恐慌；

第三、通过基于传播路径的消息检测，避免对消息的遗漏，能够实现对所有正在传播中消息的检测，避免谣言的传播。

在本发明的一种实施方式中，所述数据采集模块包括：

燕云中心Yancloud Hub，用于收集应用内数据从中提取用户发布的消息、所述消息的原始传播路径及传播所述消息的用户具有的用户特征。

Yancloud Hub是北京大学软件研究所开发的终端应用，Yancloud Hub应用利用北京大学的黄罡等人发明的《基于重构技术实现开放终端应用数据与功能的方法》(CN107479866A)，开放出获取APP中实时数据的接口，能过够实现对应用数据的获取。

本实施例中数据收集模块的实现步骤为：

S801、搭建终端云后台环境，将手机等终端中的APP注册到API网关，具体的选择若干台手机安装配置有Yancloud Hub应用的数据收集模块，安装待检测的社交/综合资讯类APP例如新浪微博、头条新闻等。借助安卓应用接口重建开发环境一站式完成服务开发，推送DEX文件到安卓端，开发人员使用不同的应用获取实时消息，抓取刷新过程Trace控制文件，分析运行时模型并进行服务代码开发工作。

S802、请求首先经过API网关，API网关将请求分配到合适的手机设备，并转发手机端的远程管理请求；该API网关控制请求的响应时间，吞吐量以及反映超时、应用崩溃、返回结果出错异常情况。预计一次请求响应时间如下所示

T_delay＝T_{API Request}+T_network (15)；

其中T_delay为请求响应时间，T_{API Request}为API请求时间，T_network为网络通信时间，T_delay为API请求时间和网络通信时间之和。

S803、对获取到的数据进行预处理，提取出消息并整理出文本内容及主题类别，提取出消息传播路径，并整理出中用户的代表性特征：消息及参与传播用户的粉丝数、动态数、注册时间、是否为认证用户。

对于不同的消息，其传播路径的长度是不同的，过长的消息传播路径对于检测消息的真实性不会过多的帮助，反而会增加计算量造成负担，过短的消息传播路径由于包含的信息过少，将导致对消息的判断不准确。

本发明的另一种实施例中，还包括：根据各用户参与所述消息的传播的时间顺序，得到所述消息的原始传播路径，所述原始传播路径中包括多个用户；

对于收集到的数据，所述传播路径构造与转换模块将用户按照参与传播的时间先后顺序进行排序，得到所述消息的原始传播路径，将消息传播路径中的用户替换为用户特征组成的信息向量得到用户特征向量组成的传播序列。

进一步的，所述定长的长度为n；所述传播路径构造与转换模块按照以下步骤，将所述消息的原始传播路径转换成定长的所述用户特征的向量组成的传播序列：

本实施例对用户特征向量传播路径将的长度进行了指定，对于原传播路径长度大指定长度于n的，则将其截断取前n个元组，对于传播序列长度小于n的，则随机从P(a_i)中抽取|P(a_i)-n|个元组进行复制扩充，以保证最终得到的序列长度为n。

例如，当n＝4对于传播路径M(a_i)＝<a,b,c,d,e,f>进行截取得到M(a_i)＝<a,b,c,d,>，对于传播路径N(a_i)＝<a,b,c>随机选取任意|4-3|个元组，即任选a,b,c中的一个如a进行复制，得到N(a_i)＝<a,a,b,c,>。

在具体的应用中，当对实时性要求较高、且需要考虑数据传输储存成本时候，并保证检测的准确率，可以考虑使用输入传播路径适合的模型加以应用。

在本发明的一种实施方式中，所述传播路径构造与转换模块用于对消息的原始传播路径进行处理，输出定长的用户特征向量组成的传播序列，还包括：

所述传播序列的长度为10，所述消息的原始传播路径为截止时间前预设时长内所述消息的传播路径的片段，所述预设时长为5分钟。

发明人选取不同长度的传播路径对系统表现的提升程度进行了研究，反复实验表明，在实践中，消息检测系统的表现不会随着选取传播路径的长度增加而产生很大的变化。

因此，可以推测在实际应用中，可以选用输入特征数量为4，传播路径长度为10的模型进行检测，对5分钟内发布的消息真实性进行较好的检测。

在本发明的一种实施方式中，所述基于循环神经网络的特征提取模块包括门控循环GRU单元和第一池化单元；所述基于循环神经网络的特征提取模块按照以下步骤，基于循环神经网络对所述传播序列进行特征提取，得到第一向量：

所述GRU单元依次将所述传播序列中的第t个用户向量x_t作为输入，并输出第一向量序列；

对于平均池化公式为：

进一步的，所述基于卷积神经网络的特征提取模块包括卷积神经网络CNN单元和第二池化单元；所述基于卷积神经网络的特征提取模块按照以下步骤，基于卷积神经网络对所述传播序列进行特征提取，得到第二向量：

平均池化具体公式为：

进一步的，在卷积神经网络的特征提取模块后，还包括：

前端展示模块，用于对所述检测结果进行可视化呈现。

本实例中借助了Vue.js及Echarts开源可视化库进行呈现，以使结果更加直观便于理解。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。以上对本发明所提供的一种通信验证方法、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于移动应用内消息传播路径的谣言检测与存证系统，其特征在于，包括：数据采集模块、传播路径构造与转换模块、基于循环神经网络的特征提取模块、基于卷积神经网络的特征提取模块、传播路径向量分类模块以及可信智能合约模块；

2.根据权利要求1所述的系统，其特征在于，所述数据采集模块包括：

3.根据权利要求1所述的系统，其特征在于，所述方法还包括：

根据各用户参与所述消息的传播的时间顺序，得到所述消息的原始传播路径，所述原始传播路径中包括多个用户；

4.根据权利要求3所述的系统，其特征在于，所述定长的长度为n；所述传播路径构造与转换模块按照以下步骤，将所述消息的原始传播路径转换成定长的所述用户特征的向量组成的传播序列：

5.根据权利要求1所述的系统，其特征在于，所述基于循环神经网络的特征提取模块包括门控循环GRU单元和第一池化单元；所述基于循环神经网络的特征提取模块按照以下步骤，基于循环神经网络对所述传播序列进行特征提取，得到第一向量：

6.根据权利要求1所述的系统，其特征在于，所述基于卷积神经网络的特征提取模块包括卷积神经网络CNN单元和第二池化单元；所述基于卷积神经网络的特征提取模块按照以下步骤，基于卷积神经网络对所述传播序列进行特征提取，得到第二向量：

7.根据权利要求1所述的系统，其特征在于，所述传播序列的长度为10，所述消息的原始传播路径为截止时间前预设时长内所述消息的传播路径的片段，所述预设时长为5分钟。

8.根据权利要求1所述的系统，其特征在于，还包括：

前端展示模块，用于对所述检测结果进行可视化呈现。