CN111428116A

CN111428116A - 一种基于深度神经网络的微博社交机器人检测方法

Info

Publication number: CN111428116A
Application number: CN202010509757.9A
Authority: CN
Inventors: 王海舟; 商帅康; 武玉豪; 晋京; 方钰舟; 魏来
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2020-07-17
Anticipated expiration: 2040-06-08
Also published as: CN111428116B

Abstract

本发明公开了一种基于深度神经网络的微博社交机器人检测方法，该方法包括构建人工标记数据集，提取用户数据的分类特征，构建基于残差神经网络、双向门控循环单元及注意力机制的深度神经网络模型进行新浪微博社交机器人检测。本发明通过网络爬虫获取新浪微博的用户数据，对用户及机器人的行为进行分析，从四个不同的角度提取用户数据的分类特征，利用这些特征能够实现更加全面和准确地对社交机器人进行检测；并且本发明结合了残差神经网络、双向门控循环单元及注意力机制构建深度神经网络模型，能够显著提高检测模型的准确率和稳定性。

Description

一种基于深度神经网络的微博社交机器人检测方法

技术领域

本发明属于社交机器人检测技术领域，具体涉及一种基于深度神经网络的微博社交机器人检测方法。

背景技术

近年来，随着信息技术的高速发展，在线社交网络(Online social networks,OSNs)出现在人们的日常生活中。随着OSNs被人们广泛地使用，其中出现了一种非正常用户的社交机器人账户。起初，这些社交机器人是被用于服务人类以提高人们的生活质量，然而这些社交机器人已经开始用于一些不良甚至非法目的，以致其对整个OSNs和人们的日常生活带来了极大的负面影响。

在现有的OSNs中，社交机器人是由程序控制的一类有着特殊目的账户，它们常常被用于非法的破坏或者牟利，包括发布大量的广告信息，传播恶意的URL链接，发布谣言信息等。此外，社交机器人还会被用来通过关注其他用户或对其他用户发表的博文进行转发、点赞和评论来提高该用户的受欢迎程度。甚至还有的社交机器人被用来干扰政治事件、操纵社会舆论，因此社交机器人已经对社会乃至国家安全构成了巨大潜在威胁。

目前针对社交机器人检测的技术大多是利用图论的方法或者传统的机器学习方法。其中基于图论的方法通常是通过关注用户之间的社交关系以及行为相似性构建社交网络图，然后针对图中的具有异常边的节点进行社交机器人的检测。同时，基于图论的技术还可以通过找出那些由于社交机器人的不寻常的行为以及行为的相似性而形成的不符合常理的特殊子图，实现对社交机器人进行联合检测。利用传统的机器学习算法实现社交机器人检测主要是通过对社交机器人进行特征提取，然后利用相关的机器学习算法进行检测。然而现在的社交机器人行为越来越复杂，通常通过一些规避策略，躲避对其的检测。尤其对于基于图论的方法，社交机器人通常通过恶意社交来躲避对于其的检测，例如通过简单的增加关注数和粉丝数，以改变社交网络图的结构。此外，在利用传统机器学习进行检测的方法中，对于提取的特征数量往往较少且不够完整，导致现有的方法无法实现较高的准确率。目前使用的机器学习算法都是一些简单的模型，虽然取得一些成果，但是仍有待提高。

针对新浪微博平台的社交机器人检测技术主要存在以下两个问题：

第一个问题是新浪微博中社交机器人的特征复杂。为了躲避检测，社交机器人往往会伪装成正常用户(Normal users)，想要较为精准地描述社交机器人(Social bots)，需要从多角度入手，例如元数据、互动行为、博文内容等。很多研究工作只注重于提取社交机器人某一方面的特征，而不能做到对社交机器人的全面描述。同时，即使有工作从多角度对社交机器人的特征进行了提取，其仍然存在特征数量较少的问题，难以全面描述社交机器人的问题。

第二个问题是传统的检测模型难以有效地解决当前社交网络环境下的社交机器人检测问题。之前的大部分研究都是使用较为简单的机器学习模型来对新浪微博中的社交机器人进行检测，虽然已取得一定的效果，但还有很大的提升空间。建立合适的模型对社交机器人进行检测的工作亟待开展。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于深度神经网络的微博社交机器人检测方法，通过提取精准描述社交机器人的多角度特征，采用深度神经网络模型对社交机器人进行全面和准确的检测。

为了达到上述发明目的，本发明采用的技术方案为：

一种基于深度神经网络的微博社交机器人检测方法，包括以下步骤：

S1、采集微博中的用户数据并进行人工标注，构建人工标记数据集；

S2、提取步骤S1采集的用户数据的分类特征，所述分类特征包括元数据特征、互动特征、内容特征和时序特征；

S3、构建基于残差神经网络、双向门控循环单元及注意力机制的深度神经网络模型，利用步骤S1构建的人工标记数据集训练模型，进行微博社交机器人检测。

进一步地，所述元数据特征具体包括：

表征用户昵称长度的用户名长度特征，

表征用户关注数与粉丝数比值的粉丝关注比特征，

表征用户昵称是否为默认状态的默认用户名特征，

表征用户头像是否为默认状态的默认头像特征，

表征用户资料加权完整度的信息完整度特征，

表征用户微博等级和认证加权值的综合等级特征。

进一步地，所述互动特征具体包括：

表征用户所有博文被评论数平均值的博文评论数目均值特征，

表征用户所有博文被转发数平均值的博文转发数目均值特征，

表征用户所有博文被点赞数平均值的博文点赞数目均值特征，

表征博文来源和博文数目的玛格列夫指数的博文来源多样性特征，

表征转发博文数目与博文数目比值的博文转发比特征。

进一步地，所述内容特征具体包括：

表征所有博文@数目与博文数目比值的博文@数目均值特征，

表征所有博文@数目方差的博文@数目方差特征，

表征所有博文#数目与博文数目比值的博文#数目均值特征，

表征所有博文#数目方差的博文#数目方差特征，

表征所有博文URL数目与博文数目比值的博文URL数目均值特征，

表征所有博文URL数目方差的博文URL数目方差特征，

表征所有博文字数方差的博文字数方差特征，

表征所有博文标点数目与博文数目比值的博文标点数目均值特征，

表征所有博文标点数目方差的博文标点数目方差特征，

表征所有博文感叹词数目与博文数目比值的博文感叹词数目均值特征，

表征所有博文感叹词数目方差的博文感叹词数目方差特征，

表征所有博文情感值与博文数目比值的博文情感值均值特征，

表征所有博文图片数目方差的博文图片数目方差特征。

进一步地，所述时序特征具体包括：

表征博文间时间间隔平均值的发布博文时间间隔均值特征，

表征博文间时间间隔方差的发布博文时间间隔方差特征，

表征最小博文之间间隔的发布博文时间间隔最小值特征，

表征最大博文之间间隔的发布博文时间间隔最大值特征，

表征博文间时间间隔突发性参数值的发布博文时间间隔突发性参数特征，

表征博文间时间间隔的信息熵值的发布博文时间间隔信息熵特征。

进一步地，所述深度神经网络模型包括由三个残差块构成的残差神经网络单元、由一层BiGRU和一层随机失活层构成的双向门控循环单元及由注意力机制层构成的注意力机制单元；所述残差神经网络单元中每个残差块由一维卷积层和正则化层的组合叠加三次组成，并通过由一层一维卷积层和一层正则化层叠加组成的跳跃连接部分直接连接每个残差块的输入和输出；所述注意力机制层后通过一层全连接层结合Sigmoid激活函数进行二分类并输出分类结果。

进一步地，所述深度神经网络模型进行分类的方法为：

从数据集中的用户数据中提取特征向量构建时间序列；

对时间序列进行正则化处理，得到正则化处理后的特征序列X；

将特征序列X输入到残差神经网络中，提取新的特征序列C；

将新的特征序列C输入到BiGRU中，在时间维度上的特征提取后，经过随机失活层再次输出新的特征序列H；

将新的特征序列H输入到注意力机制层中，计算特征序列H中每个特征的权值，并为所有特征赋予权值；

将赋予权值的所有特征输入到全连接层通过Sigmoid激活函数进行二分类并输出分类结果。

本发明具有以下有益效果：

本发明通过网络爬虫获取微博的用户数据，对用户及机器人的行为进行分析，从四个不同的角度提取用户数据的分类特征，利用这些特征能够实现更加全面和准确地对社交机器人进行检测；并且本发明结合了残差神经网络、双向门控循环单元及注意力机制构建了深度神经网络模型，能够显著提高检测模型的准确率和稳定性。

附图说明

图1为本发明基于深度神经网络的微博社交机器人检测方法流程图；

图2为本发明实施例中深度神经网络模型结构图；

图3(a)为本发明实施例中综合等级特征的累计分布图；

图3(b)为本发明实施例中博文来源多样性特征的累计分布图；

图3(c)为本发明实施例中博文标点数目的均值特征的累计分布图；

图3(d)为本发明实施例中博文标点数目的方差特征的累计分布图；

图3(e)为本发明实施例中博文感叹词数目的均值特征的累计分布图；

图3(f)为本发明实施例中博文感叹词数目的方差特征的累计分布图；

图3(g)为本发明实施例中博文图片数的方差特征的累计分布图；

图3(h)为本发明实施例中发布博文时间间隔最小值特征的累计分布图；

图3(i)为本发明实施例中发布博文时间间隔最大值特征的累计分布图；

图4(a)为本发明实施例中SVM模型的实验结果图；

图4(b)为本发明实施例中RGA模型的实验结果图；

图4(c)为本发明实施例中LR模型的实验结果图；

图4(d)为本发明实施例中BP模型的实验结果图；

图4(e)为本发明实施例中RF模型的实验结果图；

图4(f)为本发明实施例中ELM模型的实验结果图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

在现有的技术中，针对社交机器人的检测往往采用的是图论或者机器学习的算法。通常一些机器人使用简单的规避策略逃避这些方法的检测。在识别微博中的社交机器人的研究中并且过往研究者对于微博中的特征提取也较少，不够全面，且大部分研究者使用模型均为机器学习模型，并且很少有研究者使用深度学习方法进行试验。本发明通过提取总共30个社交机器人和正常用户的特征用以区分社交机器人和正常用户，共分为4类：元数据特征、互动特征、内容特征、时序特征，利用这些特征能够更加全面和准确地对社交机器人进行检测；并且本发明提出了全新的深度神经网络模型RGA，该模型结合了残差神经网络（residual network，ResNet）、双向门控循环单元（bidirectional gated recurrentunit，BiGRU）及注意力机制（attention mechanism），对比主流深度神经网络模型以及相关工作采用的模型，其具有更加优异的性能，能够更全面和准确的对社交机器人进行检测。

下面对本发明的一种基于深度神经网络的微博社交机器人检测方法进行具体说明，其包括以下步骤S1至S3，如图1所示：

在本实施例中，本发明基于Scrapy框架，构建一个多线程的新浪微博爬虫，同时使用了MySQL数据库，将采集到的用户数据进行存储。Scrapy框架是一个由纯Python语言实现的为爬取目标网站中的结构性数据而编写的开源异步非阻塞爬虫框架。通过使用Scrapy框架，本发明针对新浪微博的数据结构，通过构建一个高性能、多并发的网络爬虫，实现对新浪微博的用户数据的高效爬取。

本发明根据数据采集的难易程度与采集数据完整性，选择新浪微博移动端进行数据采集，并且利用新浪微博使用Ajax技术来加载用户数据的特点，通过分析新浪微博移动端的数据请求方式，获取新浪微博的数据请求API，并通过该API进行数据采集。

本发明提取部分保存在用户池中的潜在正常用户与潜在社交机器人进行人工标注，构建包含有10000个正常用户与10000社交机器人的人工标记数据集。

在本实施例中，本发明通过分析社交机器人与正常用户的特征，提取用户数据中元数据特征、互动特征、内容特征和时序特征四类分类特征以进行社交机器人检测。

下面本发明对元数据特征、互动特征、内容特征和时序特征四类分类特征的具体内容进行详细描述说明。

元数据特征是指从用户的基本资料中提取的特征。用户的基本资料包括用户名、粉丝数、关注数、简介、信用等级、地址说明等。利用这些数据能够反映出正常用户和社交机器人差异的特点，本发明基于这些信息提取如下6个元数据特征。

（1）表征用户昵称长度的用户名长度特征

本发明将每个用户的用户名长度作为检测社交机器人的一个特征，记作β _LUN。根据新浪微博对用户名长度的限制条件，将β _LUN的取值范围表示为｛β _LUN|2≤β _LUN≤30｝。

（2）表征用户关注数与粉丝数比值的粉丝关注比特征

本发明定义每个用户的粉丝数为n _fo，关注数为n _fr，则粉丝关注比的计算公式为

β _RFF越小，即表示该用户关注数与粉丝数的比值越大，该用户是社交机器人的概率越大。β _RFF取值范围为｛β _RFF|0≤β _RFF≤1｝。

（3）表征用户昵称是否为默认状态的默认用户名特征

新浪微博中存在大量社交机器人使用默认用户名。本发明将用户是否使用默认用户名作为特征，记作β _DUN。对于β _DUN，如果用户使用默认用户名，其值为1，否则为0。

（4）表征用户头像是否为默认状态的默认头像特征

新浪微博中存在大量社交机器人使用默认头像。本发明将用户是否使用默认头像作为特征，记作β _DA。对于β _DA，如果用户使用默认头像，其值为1，否则为0。

（5）表征用户资料加权完整度的信息完整度特征，

用户在创建账号时可以填写简介，正常用户在新浪微博中有真实的交友诉求，因此通常会认真填写个人描述信息，而社交机器人的个人描述信息通常不完整。因此，本发明将个人描述信息的完整程度作为特征。

个人描述信息完整度的计算方法为

其中，β _CI为个人描述信息完整度，取值范围为｛β _CI|0≤β _CI≤1｝。β _CI越小，个人描述信息越不完整，该用户是社交机器人的概率越大，N表示可供填写的个人描述信息栏目总数，p _i表示第i个栏目的填写情况，已填写为1，未填写为0，考虑到不同的栏目对区分社交机器人和正常用户的贡献度不同，用w _i表示第i个栏目的权值。用户填写的资料越详细，该特征值越大。

（6）表征用户微博等级和认证加权值的综合等级特征

微博等级是微博用户在微博的活跃度的各项活动参与度的综合表现。社交机器人通常在线时长较短，参与微博的活动较少，所以社交机器人的微博等级通常较低。且新浪微博有官方认证功能，绝大多数经过官方认证的用户为正常用户。

本发明定义用户的综合等级β _CL为

其中，β _CL为用户的综合等级，c _i为第i项等级指标的值，u _i为第i项等级指标的权值，M为参与运算的等级指标的个数。本发明将是否经过微博认证，是为1，否为0，作为一项活跃度指标，以及将用户等级归一化后作为第二项活跃度指标。β _CL取值范围为｛β _CL|0≤β _CL≤1｝，用户综合等级越高，该特征值越大，该用户是社交机器人的概率越小。

用户在发布博文后，可以显示博文的来源，以及博文是否来自其他用户，同时其他用户可以通过评论、转发、点赞该博文与其进行互动。利用这些特点往往显示出正常用户和社交机器人差异的特点，本发明从这些信息中提取出共5个互动特征。

（1）表征用户所有博文被评论数平均值的博文评论数目均值特征

（2）表征用户所有博文被转发数平均值的博文转发数目均值特征

（3）表征用户所有博文被点赞数平均值的博文点赞数目均值特征

新浪微博中的用户可以点赞、评论或者转发博文，而社交机器人会发布大量的无逻辑的博文，这些博文基本没有用户点赞、评论或者转发。所以本发明将博文的评论数的均值、博文的转发数的均值、博文的点赞数的均值作为特征来区分正常用户和社交机器人。本发明将博文的评论数的均值、博文的转发数的均值、博文的点赞数的均值分别定义为γ _MNCP、γ _MNRP、γ _MNLP，计算公式为

其中，a _i、b _i、x _i分别为该用户的第i条博文的被评论数、被转发数、被点赞数，K为博文数，γ _MNCP、γ _MNRP、γ _MNLP的值越小，用户是社交机器人的概率越大。

（4）表征博文来源和博文数目的玛格列夫指数的博文来源多样性特征

新浪微博的用户可以从不同来源发布博文，例如电脑端、移动端、超级话题专区等，并且用户在发布博文时会附带博文的来源。正常用户通常会通过不同的来源发布博文，而社交机器人发布博文的来源通常比较单一。所以本发明创新性地将用户发布博文来源多样性作为一个特征，并使用玛格列夫指数来计算博文来源多样性γ _DSP，计算公式为

其中，K表示该用户发布的博文的数量，m _s表示所有博文的来源的种类数，γ _DSP越大，该用户是社交机器人的概率越小。

（5）表征转发博文数目与博文数目比值的博文转发比特征

转发博文的比例，表示用户的转发博文数量占发布的所有博文数量的比例。社交机器人通常为了引导舆论会大量地转发其他用户的博文，导致其原创的博文的比例较小。本发明将转发博文的比例作为一个特征来区分社交机器人和正常用户。转发博文的比例定义为γ _RR，计算公式为

其中，m _R表示该用户转发的博文的数量，K表示其发布的所有博文的数量。γ _RR的取值范围为｛γ _RR|0≤γ _RR≤1｝，γ _RR越大，该用户是社交机器人的概率越大。

社交机器人发布的博文之间的内容往往相似性比较高，而且写作习惯往往不符合常理。而正常用户发布博文时写作习惯往往比较合理，博文间的内容相似性较低。本发明基于用户博文内容的信息提取如下13个内容特征。

（1）表征所有博文@数目与博文数目比值的博文@数目均值特征

（2）表征所有博文@数目方差的博文@数目方差特征

在新浪微博中，用户在发布博文时可以使用‘@’来提及其他用户，以引起其对该博文的关注。本发明将博文的@数的均值和方差作为两个特征。博文的@数的均值和方差分别定义为δ _MNMP和δ _VNMP，计算公式为

其中，K表示该用户发布的所有博文的数量，χ _M(i)表示该用户的第i个博文的@数量。δ _MNMP越小，δ _VNMP越小，该用户是社交机器人的概率越大。

（3）表征所有博文#数目与博文数目比值的博文#数目均值特征

（4）表征所有博文#数目方差的博文#数目方差特征

在新浪微博中，用户在发布博文是可以使用‘#’来参与某个话题的讨论。本发明将博文的#数的均值和方差作为两个特征，来区分社交机器人和正常用户。博文的#数的均值和方差分别定义为δ _MNHP和δ _VNHP，计算公式分别为

其中，K表示该用户发布的所有博文的数量，χ _H(i)表示该用户的第i个博文的#数。δ _MNHP越小，δ _VNHP越小，该用户是社交机器人的概率越大。

（5）表征所有博文URL数目与博文数目比值的博文URL数目均值特征

（6）表征所有博文URL数目方差的博文URL数目方差特征

大多数社交机器人会在博文中包含URL，以将访问者重定向到外部网页，以达到传播广告、盈利等目的。本发明将博文URL数量的均值和方差分别定义为δ _MNUP和δ _VNUP，计算公式分别

其中，K表示该用户发布的所有博文的数量，χ _U(i)表示该用户的第i个博文包含的URL数量。δ _MNUP越大，δ _VNUP越小，则该账户是社交机器人的概率越大。

（7）表征所有博文字数方差的博文字数方差特征

社交机器人发布的博文的长度通常比较相似，而正常用户发布的博文长度比较随意。本发明将博文字数方差定义为δ _VNWP，计算公式为

其中，K表示该用户发布的所有博文的数量，χ _L(i)表示该用户的第i个博文的字数，δ _VNWP表示博文字数的均值。通常δ _VNWP越小，账户是社交机器人的概率越大。

（8）表征所有博文标点数目与博文数目比值的博文标点数目均值特征

（9）表征所有博文标点数目方差的博文标点数目方差特征

在用户发布的博文中，标点符号的使用通常反映着用户的写作习惯，社交机器人发布的博文中，标点符号的使用频率往往不符合常理，且相似性通常会比较高。本发明将博文标点数目的均值和方差分别定义为δ _MNPP和δ _VNPP，计算公式为

其中，K表示该用户发布的所有博文的数量，χ _P(i)表示该用户的第i条博文的标点数量。通常δ _MNPP越大，δ _VNPP越小，账户是社交机器人的概率越大。

（10）表征所有博文感叹词数目与博文数目比值的博文感叹词数目均值特征

（11）表征所有博文感叹词数目方差的博文感叹词数目方差特征

感叹词指类似于“啊”、“哦”、“呀”、“咯”等这些语气性质的词汇，这样的词汇往往体现着用户的写作风格。本发明将博文感叹词数目均值和方差分别定义为δ _MNIP和δ _VNIP，计算公式为

其中，K为该用户发布的所有博文的数量，χ _I(i)为该用户的第i条博文的感叹词的数目。通常δ _MNIP越大，δ _VNIP越小，账户是社交机器人的概率越大。

（12）表征所有博文情感值与博文数目比值的博文情感值均值特征

情感特征是通过对博文的文本进行情感分析而提取的一条信息。对于用户的每一条博文，本发明使用SnowNLP包进行情感分析。本发明将博文情感值均值定义为δ _MSSP，计算公式为

其中，K为该用户发布的所有博文的数量，χ _SS(i)表示该用户第i条博文的情感分数。由于SnowNLP包对每条博文做情感分析时，χ _SS(i)的取值范围都为｛χ _SS(i)|0≤χ _SS(i)≤1｝，则δ _MSSP的取值范围为｛δ _MSSP|0≤δ _MSSP≤1｝。δ _MSSP越靠近于0或者1，则该用户的负向或者正向情感越强，δ _MSSP越靠近0.5，该用户的情感越弱，是社交机器人的概率越大。

（13）表征所有博文图片数目方差的博文图片数目方差特征。

用户在发表博文时，可以加入图片使自己的博文在内容更加丰富。很多社交机器人发布的博文之间的图片数目几乎一致，而正常用户发布的博文之间的图片数目往往不相似。该特征对于社交机器人的检测具有很高的重要性。本发明将博文图片数方差定义为σ _VNPP，计算公式为

其中，K为该用户发布的所有博文的数目，a _p(i)为该用户的第i条博文的图片的数目，σ _MNPP是所有博文的图片数目的均值。通常σ _VNPP越小，该用户是社交机器人的概率越大。

时序特征是指从用户发布博文的时间序列数据中提取的特征。利用机器人发布博文的时间序列和正常用户存在差异的特点，本发明基于用户发布博文的时间信息提取如下6个时序特征。本发明定义用户的相邻博文之间的时间间隔序列为θ=[χ ₁,χ ₂,...χ _K-1]，其中K为用户发布的博文的数量。

（1）表征博文间时间间隔平均值的发布博文时间间隔均值特征

（2）表征博文间时间间隔方差的发布博文时间间隔方差特征

本发明定义用户发布博文时间间隔均值和方差分别为φ _MTIP和φ _VTIP，计算公式为

其中，K为该用户发布所有博文的数量，χ _i为该用户的第i条博文和第i+1条博文之间的时间间隔。φ _MTIP越大，φ _VTIP越小，该用户是社交机器人的概率越大。

（3）表征最小博文之间间隔的发布博文时间间隔最小值特征

（4）表征最大博文之间间隔的发布博文时间间隔最大值特征

很多社交机器人会在短时间内发布大量博文后很长时间不再发布博文。因此本发明将发布博文时间间隔的最大值和最小值作为区分社交机器人和正常用户的两个特征。将时间间隔序列进行排序，得到新的序列，表示为

其中

本发明将用户最小的μ个时间间隔的均值作为最小时间间隔，最大的μ个时间间隔的平均值作为最大时间间隔。本发明将时间间隔最小值和最大值分别定义为ψ _MTIP和λ _MTIP，计算公式为

经过对本发明中提出的数据集进行分析，在μ=5时，所求的最大最小时间间隔能较好的代表某用户最慢和最快的发文水平。通常ψ _MTIP很小，λ _MTIP很大时，该账户是社交机器人账户的概率越大。

（5）表征博文间时间间隔突发性参数值的发布博文时间间隔突发性参数特征

本发明将发布博文的时间间隔的突发性参数定义为φ _BPTIP，计算公式为

其中，φ _VTIP和φ _MTIP分别为发布博文时间间隔的方差和均值，ε为位移因子。为了使φ _BPTIP的值可以满足特征为非负数的需求而引入的变量，φ _BPTIP的三个特殊值ε-1、ε和ε+1，ε-1被认为最规律的行为；ε被认为符合完全泊松分布的行为；ε+1被认为最突发的行为，即时间间隔序列中数值都为0。机器人账户的突发性参数值一般靠近ε-1和ε+1。

（6）表征博文间时间间隔的信息熵值的发布博文时间间隔信息熵特征

本发明将时间间隔序列θ中的数据做去重后得到互不相同的长度为m的序列[e ₁,e ₂,e ₃,...,e _m],其中m≤K-1。

本发明定义时间间隔序列的香农熵为φ _IETIP，计算公式为

其中p(e _i)为序列中[e ₁,e ₂,e ₃,...,e _m]的e _i的值在序列θ中的概率，p(e _i)的计算公式为

其中，n(e _i)为值e _i在序列θ中的数量。时间间隔序列的香农熵φ _IETIP越小，该用户是社交机器人的概率越大。

S3、构建基于残差神经网络、双向门控循环单元及注意力机制的深度神经网络模型，利用步骤S1构建的人工标记数据集训练模型，进行新浪微博社交机器人检测。

在本实施例中，本发明把从用户数据中提取的特征向量建模为时间序列，同时考虑时间层面上的特征变化规律以及空间层面的特征联系，构建结合了残差神经网络（Residual network，ResNet）、双向门控循环单元（Bidirectional Gated RecurrentUnit，BiGRU）以及注意力机制（Attention Mechanism）的深度神经网络模型RGA。

如图2所示，本发明的深度神经网络模型包括由三个残差块构成的残差神经网络单元、由一层BiGRU和一层随机失活层构成的双向门控循环单元及由注意力机制层构成的注意力机制单元。

残差神经网络单元用于接收输入的特征序列，其中每个残差块由一维卷积层和正则化层的组合叠加三次组成，并通过由一层一维卷积层和一层正则化层叠加组成的跳跃连接部分直接连接每个残差块的输入和输出；利用ResNet从输入的特征序列中提取出了新的特征序列。

双向门控循环单元用于从在ResNet中提取的新的特征序列中捕获跨时间步的时间序列模式。

注意力机制层后通过一层全连接层结合Sigmoid激活函数进行二分类并输出分类结果。

上述深度神经网络模型进行分类的方法为：

从数据集中的用户数据中提取特征向量构建时间序列；

对时间序列进行正则化处理，得到正则化处理后的特征序列X，X=[x ₁,x ₂,...,x _n]，其中n表示特征序列的长度；

将特征序列X输入到残差神经网络中，提取新的特征序列C；同时，新的特征序列C的维度相比较于特征序列X的维度会得到增加；

将新的特征序列H输入到注意力机制层中，计算特征序列H中每个特征的权值，并为所有特征赋予权值，实现降维；

为了验证本发明基于深度神经网络的新浪微博社交机器人检测方法的实际效果，本发明采用实验环境为一台CPU型号为Intel(R) Xeon(R) CPU E5-2618L v3 @ 2.30GHz，内存大小为32GB，并搭载一块NVIDIA GeForce RTX 2080TI GPU的服务器进行实验和分析。

本发明先对每一类特征中的新特征做了统计性分析，结果表示出机器人和正常用户在创新特征方面存在较大差异。另外本发明对特征进行了特征集合消融测试，即每次从特征集合中删除一类特征，然后使用各类模型进行测试。然后对比结果，发现每一类特征对社交机器人和正常用户具有可区分性，且本发明提出RGA模型比其他模型表现更好。

为了证明本发明的新特征具有区分能力，本发明对新特征做了累积分布图，以显示社交机器人和正常用户在这些特征下分布的差异。因为同一个特征下，不同用户的值差别较大，为了方便展示结果，本发明先对特征进行归一化处理。新特征的累计分布图如图3(a)~ 图3(i)所示。

实验结果表明，本发明提出的新特征可以显著地区分社交机器人和正常用户。每个特征的具体差异分析如下9个结论所示。

如图3(a)所示，在综合等级这一特征上，近乎90%的社交机器人的综合等级小于0.2，80%的正常用户的综合等级都高于0.2；如图3(b)所示，在博文来源多样性这一特征上，几乎90%的社机器人的值都小于0.1，而50%的用户的值都大于0.1；如图3(c)所示，在博文标点数均值这一特征上，近乎90%的正常用户的值小于0.2，而60%的社交机器人的值都大于0.2；如图3(d)所示，在博文标点数方差这一特征上，近乎80%的社交机器人的值小于0.2，而60%的正常用户的值都大于0.2；如图3(e)所示，在博文感叹词数均值这一特征上，近乎80%的社交机器人的值小于0.4，而60%的正常用户的值都大于0.4；如图3(f)所示，在博文感叹词数方差这一特征上，近乎90%的社交机器人的值小于0.2，而存在40%的正常用户的值大于0.4；如图3(g)所示，在博文图片数方差这一特征上，近乎所有的社交机器人的值都小于0.8，而几乎所有的正常用户的值都大于0.8；如图3(h)所示，在发布博文时间间隔最小值这一特征上，70%的正常用户的值都是大于0.4，而60%的社交机器人的值都是小于0.4；如图3(i)所示，在发布博文时间间隔最大值这一特征上，80%的正常用户的值都是小于0.2，而60%的社交机器人的值都是大于0.2。

综上，本发明首次提出的新特征对于社交机器人和正常用户有较好的区分能力。

为了评估各类特征对社交机器人和正常用户的辨别能力，本发明按照形成五个特征集合表示为

其中，F为所有特征的集合，F ₁为特征类别中的一类特征的集合，x为某个特征。

如表1所示，为形成的五个特征集合表。其中，Metadata表示元数据特征，Interaction代表互动特征，Content代表内容特征，Timing代表时序特征。

表1特征集合表

本发明选取了在新浪微博社交机器人检测的相关研究中表现较好的模型，将这些模型作为baseline，与本发明提出的RGA模型，在这五种特征集合上进行实验。这部分采用的模型如下：

LR（logisticsregression）：逻辑回归是一种简单且强大的解决线性二元分类问题的算法，被广泛应用于新浪微博的社交机器人检测的研究。

SVM（supportvectormachine）：支持向量机是另一种强大而广泛使用的机器学习算法，在新浪微博的社交机器人检测研究中被证明有效。

RF（randomforest）：随机森林由于其良好的分类性能、可拓展性和易用性，对社交机器人的检测有较为出色的性能。

ELM（extreme learning machine）：极限学习机作为一种社交机器人检测的方法在研究中被提出，其被认为在学习速率和泛化能力方面具有一定的优势。

BP（back propagation）：BP神经网络作为一种按照误差逆向传播算法训练的前馈神经网络在研究中被使用过。

RGA（residualnetwork-bidirectional gated recurrent unit-attentionmechanism）：RGA是本发明提出的一种深度学习模型，融合了卷积神经网络和循环神经网络以及注意力机制。

本发明采用多种衡量指标来评估模型的性能，通过混淆矩阵引入准确率（Accuracy）、召回率（Recall）、精确率（Precision）和分数（F1-score）四个质量评价标准对模型性能进行评估，混淆矩阵如表2所示。

表2混淆矩阵

其中TP表示真正是社交机器人的数据集中被识别为社交机器人的数量，FN表示真正是社交机器人的数据集中被识别为正常用户的数量，FP表示真正是正常用户的数据集中被识别为社交机器人的数量，TN表示真正是正常用户的数据集中被识别为正常用户的数量。

根据混淆矩阵可以计算出五种质量评估指标的值。Accuracy表示分类器在所有数据中对社交机器人和正常用户都分类正确的比例，计算方法为

精确率表示分类器分类是社交机器人中实际是社交机器人的比例，计算方法为

召回率表示实际是社交机器人数据集中分类器分类为社交机器人的比例，计算方法为

F1分数通过精确率和召回率综合表示出分类器的区分能力，计算方法为

本发明将数据集SWLD-20K按照6：2：2的比例划分为训练集、验证集和测试集。对于每个模型使用同一个固定的训练集、验证集和测试集。每种模型实验重复十次，取平均值作为最终的结果。

实验结果如图4(a)~ 图4(f)所示，其中图4(a)为SVM结果图，图4(b)为RGA结果图，图4(c)为LR结果图，图4(d)为BP结果图，图4(e)为RF结果图，图4(f)为ELM结果图。在每一种分类方法种对比F\Metadata、F\Interaction、F\Content、F\Timing与F的各项指标差别，可以发现在每一种分类方法中，在特征为集合F时，即包含所有的特征时，精确率、F1分数最高，这证明了本发明的每一类特征都对模型是有效的且具有普适性。另外与其他4种特征集合对比，对于每一种分类方法，去除了博文内容特征的F\Content的表现最差，说明在六种分类方法中博文内容特征分辨能力最高。去除了时序特征的F\Timing的表现与包含全部特征的F的相近，说明在六种分类方法中时序特征的分辨能力较低。但是去除某一类特征的模型检测性能均低于含有全部特征的模型，说明每一类特征均对模型的检测性能都起积极作用，具有分辨能力。

同时，与其他5种模型相比，在对模型进行训练的特征相同的情况下，RGA的模型综合表现都是最好的。可以发现，在实验部分形成的5种特征集合中，尽管在特征集为F\Metadata时，RGA的召回率才是最高的，但是在每一种特征集合下，RGA模型的准确率、精确率、F1分数的值均比其他模型的值要高，这体现出了本发明提出的模型比其他模型的性能更佳。还可以发现，相比于特征集合为F，当特征集合为F\Content时，RGA模型的性能下降是最少的，其他模型的性能均有较大幅度的下滑，如RGA的准确率下降了0.0088，而BP的准确率下降了0.0425。因此可以证明，相比于其他5种模型，本发明提出的RGA模型在特征变化时，性能更加稳定。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于深度神经网络的微博社交机器人检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度神经网络的微博社交机器人检测方法，其特征在于，所述元数据特征具体包括：

表征用户昵称长度的用户名长度特征，

表征用户关注数与粉丝数比值的粉丝关注比特征，

表征用户昵称是否为默认状态的默认用户名特征，

表征用户头像是否为默认状态的默认头像特征，

表征用户资料加权完整度的信息完整度特征，

表征用户微博等级和认证加权值的综合等级特征。

3.根据权利要求1所述的基于深度神经网络的微博社交机器人检测方法，其特征在于，所述互动特征具体包括：

表征转发博文数目与博文数目比值的博文转发比特征。

4.根据权利要求1所述的基于深度神经网络的微博社交机器人检测方法，其特征在于，所述内容特征具体包括：

表征所有博文@数目与博文数目比值的博文@数目均值特征，

表征所有博文@数目方差的博文@数目方差特征，

表征所有博文#数目与博文数目比值的博文#数目均值特征，

表征所有博文#数目方差的博文#数目方差特征，

表征所有博文URL数目方差的博文URL数目方差特征，

表征所有博文字数方差的博文字数方差特征，

表征所有博文标点数目方差的博文标点数目方差特征，

表征所有博文感叹词数目方差的博文感叹词数目方差特征，

表征所有博文图片数目方差的博文图片数目方差特征。

5.根据权利要求1所述的基于深度神经网络的微博社交机器人检测方法，其特征在于，所述时序特征具体包括：

表征博文间时间间隔平均值的发布博文时间间隔均值特征，

表征博文间时间间隔方差的发布博文时间间隔方差特征，

表征最小博文之间间隔的发布博文时间间隔最小值特征，

表征最大博文之间间隔的发布博文时间间隔最大值特征，

6.根据权利要求1所述的基于深度神经网络的微博社交机器人检测方法，其特征在于，所述深度神经网络模型包括由三个残差块构成的残差神经网络单元、由一层BiGRU和一层随机失活层构成的双向门控循环单元及由注意力机制层构成的注意力机制单元；所述残差神经网络单元中每个残差块由一维卷积层和正则化层的组合叠加三次组成，并通过由一层一维卷积层和一层正则化层叠加组成的跳跃连接部分直接连接每个残差块的输入和输出；所述注意力机制层后通过一层全连接层结合Sigmoid激活函数进行二分类并输出分类结果。

7.根据权利要求6所述的基于深度神经网络的微博社交机器人检测方法，其特征在于，所述深度神经网络模型进行分类的方法为：

从数据集中的用户数据中提取特征向量构建时间序列；

将特征序列X输入到残差神经网络中，提取新的特征序列C；