CN115688024A

CN115688024A - 基于用户内容特征和行为特征的网络异常用户预测方法

Info

Publication number: CN115688024A
Application number: CN202211183978.7A
Authority: CN
Inventors: 郭嘉梁; 谭松淇; 俞嘉杰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-02-03
Anticipated expiration: 2042-09-27
Also published as: CN115688024B

Abstract

基于用户内容特征和行为特征的网络异常用户预测方法，涉及网络安全技术领域，针对现有技术中网络异常用户识别准确率低的问题，本申请首先使用scrapy爬虫框架对网络交流平台数据进行爬取，获取有关话题的为博文信息，评论信息和有关用户信息。对获取的数据信息进行统计和分析，计算出用户的数据维度，对数据维度进行K‑Means聚类，将全部用户划分为低风险，中低风险，中风险，中高风险，高风险五类。引入朴素贝叶斯分类的思想，将划分好的数据作为训练集建立朴素贝叶斯分类模型，通过朴素贝叶斯分类模型对新用户的数据进行判断识别，输出新用户的各类风险等级的概率，可以在有限的时间内，完成对网络异常用户的识别。

Description

基于用户内容特征和行为特征的网络异常用户预测方法

技术领域

本发明涉及网络安全技术领域，具体为基于用户内容特征和行为特征的网络异常用户预测方法。

背景技术

在互联网技术的影响下，社会媒体蓬勃发展，越来越多的人开始使用微博等网络交流平台进行沟通交流。由于网络交流平台的隐蔽性，网络社交平台中存在着大量扰乱公众舆论的网络异常用户。在早期研究中，对网络异常的检测主要以基于内容特征为主，其涉及机器学习中的自然语言处理分支，包括文本分析、倾向性分析和情感分析等方面，使用的算法如文本分析、关键词分类法、B-Tree索引等，主要依据评论内容相似度和评论文本的倾向性进行识别。由于此类用户的自我隐蔽意识越来越强，单纯进行文本内容的分析常常会漏掉大部分使用正常文本特征进行假象传播的水军，传统的单一基于内容特征的识别方法实用性较低。

目前，基于行为特征的识别分析方法包括贝叶斯算法、决策树分类、k-means聚类算法和逻辑回归算法等，采用部分异常用户特征作为属性，但由于现在的网络水军有善于伪装隐藏和变化多端的特性，已有的属性不再能够精准地识别出异常用户。此外，基于用户关系特征的识别探测方法，如神经网络分类法、贝叶斯网络等。这类方法虽然能结合用户属性行为节点和关系边综合考察，但建立网络本身需要大量具有复杂关系的数据进行训练，操作起来并不简便。另外，基于用户行为特征的异常用户检测，网络异常用户不具有正常的社会关系，其形成的关系网络结构特殊，具有极其不平衡的关注粉丝比。Krestel等利用网络图模型的传播发现含有链接的转发或评论的网络异常用户，通过给定一些种子节点的可疑度，依据种子节点向外传播可疑度的特点，从而计算发现所有可疑的节点，但是此类方法的准确度不高，经常性的把正常用户纳入异常用户中。

发明内容

本发明的目的是：针对现有技术中网络异常用户识别准确率低的问题，提出基于用户内容特征和行为特征的网络异常用户预测方法。

本发明为了解决上述技术问题采取的技术方案是：

基于用户内容特征和行为特征的网络异常用户预测方法，包括以下步骤：

步骤一：使用scrapy框架对网络交流平台数据进行爬取，获取微博文数据、评论数据和用户数据；

步骤二：对步骤一得到的数据进行统计和分析，得到每位用户参与的发帖量、评论数量、评论情感倾向、情感倾向的均值、关注粉丝比、用户活跃度、用户粉丝数以及阳光信用；

步骤三：基于步骤二得到的数据进行K-Means聚类，将全部用户划分为低风险、中低风险、中风险、中高风险以及高风险五类；

步骤四：用步骤三划分的数据作为训练集建立朴素贝叶斯分类模型，通过朴素贝叶斯分类模型识别新用户数据，输出各类风险等级的概率，进而识别网络异常用户。

进一步的，所述步骤一的具体步骤为：

步骤一一：根据微博热搜榜获取热搜关键词以及热度，组成关键词列表；

步骤一二：根据关键词列表爬取微博文数据，所述微博文数据包括发布者的uid以及微博文的pid；

步骤一三：利用发布者的uid和微博文的pid进行定位，爬取微博文的评论数据，所述评论数据包括评论者的uid、评论内容；

步骤一四：利用评论者的uid对用户数据进行爬取，所述用户数据包括该用户的粉丝数、创建微博天数、关注数、阳光信用、总发帖量。

进一步的，所述步骤二的具体步骤为：

步骤二一：根据用户所发评论相关联的pid的数量统计用户参与的话题的发帖量；

步骤二二：统计用户参与话题的评论数量；

步骤二三：利用用户的关注数除以粉丝数得到该用户的关注粉丝比；

步骤二四：利用用户的总发帖量除以创建微博天数得到用户活跃度；

步骤二五：基于神经网络建立情感分析模型，并根据训练好的情感分析模型得到评论情感倾向；

步骤二六：基于一个用户的全部的评论数据，得到该用户评论情感倾向的均值。

进一步的，所述步骤二五的具体步骤为：

步骤二五一：加载预训练中文分词模型embedding，并获取训练集；

步骤二五二：利用正则表达式去除训练集语料中的标点符号；

步骤二五三：利用jieba库将去除标点符号的语料进行分词；

步骤二五四：利用embedding将分词结果转化为词向量，进而构建词向量矩阵；

步骤二五五：利用词向量矩阵训练LSTM模型，训练好的模型即为情感分析模型；

步骤二五六：将评论内容经过步骤步骤二五二至步骤二五四得到词向量矩阵后输入情感分析模型，得到输出的评论情感倾向。

进一步的，所述LSTM模型包括两层，具体为：

第一层为embedding，第一层利用BiLSTM返回sequences；

第二层为16个单元的LSTM，第二层16个单元的LSTM不返回sequences，只返回最终结果；

最后一层为全链接层，利用sigmoid激活函数输出结果。

进一步的，所述步骤三的具体步骤为：

步骤三一：将用户参与的话题的发帖量、评论数量、关注粉丝比、活跃度、评论情感倾向均值以及阳光信用六个指标进行标准化，其中，活跃度，评论情感倾向均值，阳光信用三个指标进行标准化后取相反数作为最终标准化结果；

步骤三二：将六个指标进行两两对比并建立判断矩阵，然后求出判断矩阵的最大特征值和相应的特征向量，并对判断矩阵进行一致性检验，若判断矩阵的一致性符合要求，则将特征向量中的分量分别作为六个指标的权重；

其中，一致性比率小于0.1，则认定为一致性符合要求；所述六个指标的权重分别为0.1，0.15，0.1，0.15，0.3，0.2；

步骤三三：将标准化后的值与对应的权重相乘后利用K-Means进行聚类后将全部用户划分为低风险、中低风险、中风险、中高风险以及高风险五类，具体步骤为：

步骤三三一：定义用户i和用户j之间的距离为

d(i,j)＝|(N_i,L_i,K_i,T_i,W_i,Y_i)-(N_j,L_j,K_j,T_j,W_j,Y_j)|；

步骤三三二：随机选择k个用户作为初始的簇中心点；

步骤三三三：根据步骤三三一中公式将每个用户分到离它最近的簇中心点；

步骤三三四：根据下式重新计算各用户群的簇中心点；

其中，

为第i个用户簇的代表点，n_i是第i个簇的用户数目，集合C_i是属于第i个簇的用户集合，k是集合中的任一点，N_i,L_i,K_i,T_i,W_i,Y_i分别表示第i个用户参与的话题的发帖量、评论数量、关注粉丝比、活跃度、评论情感倾向均值以及阳光信用；

步骤三三五：重复步骤三三三和步骤三三四直至各簇中心点不再发生变化，得到每个用户对应的风险等级。

进一步的，所述标准化表示为：

其中，N_i表示第i个客户标准化前的指标，N和σ_N分别为指标的平均值和标准差。

进一步的，所述步骤四中，若属于高风险等级的概率大于百分之八十，则认为该用户为网络异常用户。

进一步的，所述步骤四的具体步骤为：

步骤四一：将标准化后的发帖量，评论数量，关注粉丝比，活跃度，评论情感倾向均值，阳光信用与对应的权值相乘后，作为一个六维特征向量X＝(x1，x2，…，x6)；

步骤四二：利用每个用户对应的风险等级以及该用户的六维特征向量X＝(x1，x2，…，x6)作为训练集训练朴素贝叶斯分类模型，

对于每个新用户，利用训练好的朴素贝叶斯分类模型预测该用户属于各风险等级的概率；

步骤四三：将得到的各风险等级的概率进行归一化处理；

步骤四四：根据归一化处理后的各风险等级的概率，若用户属于高风险的概率大于百分之八十，则认为该用户为网络异常用户。

进一步的，所述风险等级的概率表示为：

P(C_i)＝s_i/s

其中，P(C_i|X)为在X出现的情况下用户出现Ci风险等级的概率，P(C_i)为用户出现Ci风险等级的概率，

代表任意一个数字i，p(x_j|C_i)为在Ci风险等级出现的情况下x_j出现的概率，P(X)为常数，Ci为第i个风险等级，si是训练数据集中属于Ci的训练样本数，s是训练样本总数，x_j为第j个属性，n为属性总数，即为6，

是属性x_j的高斯密度函数，

分别为在Ci中该属性的平均值和标准差。

本发明的有益效果是：

本申请首先使用scrapy爬虫框架对网络交流平台数据进行爬取，获取有关话题的为博文信息，评论信息和有关用户信息。对获取的数据信息进行统计和分析，计算出用户的数据维度，对数据维度进行K-Means聚类，将全部用户划分为低风险，中低风险，中风险，中高风险，高风险五类。引入朴素贝叶斯分类的思想，将划分好的数据作为训练集建立朴素贝叶斯分类模型，通过朴素贝叶斯分类模型对新用户的数据进行判断识别，输出新用户的各类风险等级的概率，可以在有限的时间内，完成对网络异常用户的识别。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：本实施方式所述的基于用户内容特征和行为特征的网络异常用户预测方法，包括以下步骤：

网络爬虫：又称为网页蜘蛛，网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

神经网络：人工神经网络也简称为神经网络或称作连接模型，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

LSTM:长短期记忆网络，是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的。

sigmoid激活函数：sigmoid函数也叫Logistic函数，用于隐层神经元输出，取值范围为(0，1)，它可以将一个实数映射到(0，1)的区间，可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。Sigmoid函数由下列公式定义：

聚类：聚类是通过对数据对象集合进行分析，根据对象之间的相似度(或相异度)将数据对象划分成多个类或簇，使同一簇中的对象之间具有较高的相似度，不同簇中的对象相异度最大。

K-Means聚类：k-均值方法是一种常用的基于距离的聚类分析方法，该方法通过计算数据对象之间的距离来衡量其相异度。

朴素贝叶斯分类：贝叶斯分类是一种统计学分类方法，它以贝叶斯定理为基础·。如果假定对于类标号属性，各属性的影响是独立的，则可以简化贝叶斯分类的计算过程，设定了类条件独立假设的贝叶斯分类问题称为朴素贝叶斯分类。

作为实施例的一种，可以包括以下步骤：

S1、使用scrapy框架对微博数据进行爬取，获取有关话题的为博文信息，评论信息和有关用户信息。其具体过程为：

S11、根据微博热搜榜获取热搜关键词以及热度，组成关键词列表；

S12、根据关键词列表爬取有关话题的博文数据，包括其发布者的uid，博文的pid，评论数量，发布时间等；

S13、利用发布者的uid和博文的pid进行定位，爬取博文的评论数据，包括评论者的uid、评论时间、用户名、所在城市、评论内容；

S14、利用上述所获取到的评论者的uid对其用户数据进行爬取，获取其粉丝数，创建微博天数，关注数，阳光信用，发帖量；

S2、对上述数据进行统计和分析，计算出每位用户参与的帖子数，发言量，评论的情感倾向，负面言论占比，关注粉丝比，用户活跃度，与上述步骤所爬取的用户粉丝数和阳光信用组成此用户的数据维度。其具体过程为：

S21、根据用户所发评论所关联的pid的数量统计用户参与帖子数；

S22、统计用户发送评论的数量；

S23、计算用户关注粉丝比，利用上述所获取的用户关注数除以粉丝数得到关注粉丝比；

S24、计算用户活跃度，利用上述所获取的发帖量除以创建微博的天数得到用户活跃度；

S25、基于神经网络的评论情感倾向分析；

S251、情感分析模型的建立；

S2511、加载预训练中文分词模型embedding；

S2512、用正则表达式去除训练集语料中的标点符号；

S2513、用jieba库进行分词，将上述预料分为多个词语的列表；

S2514、用预加载模型将分词结果转化为词向量，并转化为词向量矩阵；

S2515、使用LSTM模型进行训练，模型第一层为embedding，之后第一层我们用BiLSTM返回sequences，然后第二层16个单元的LSTM不返回sequences，只返回最终结果，最后一个是全链接层，用sigmoid激活函数输出结果；

S252、将评论内容放入训练好的情感分析模型内，输出情感倾向，统计负面情感的言论的数量；

S253、对于一个用户的全部的评论数据，计算其情感倾向的均值；

S3、基于上述数据维度进行K-Means聚类，使全部用户分为低风险，中低风险，中风险，中高风险，高风险五类。其具体过程为：

S31、因为个指标量纲不同，为了避免个指标中孤立点对规范化结果的影响，故需要对各数据的规范化，设参与帖子数为N，发言频率为L，关注粉丝比为K，活跃度为T，评论情感倾向均值为W，阳光信用为Y，设第i个客户的N值为N_i，则利用式(1)将其规范化为N′_i；

其中N和σ_N分别为指标N的平均值和标准差，可以采用类似的方法对其余的几个指标进行标准化。特殊的，由于活跃度越低，评论情感倾向越小，阳光信用越低，其用户为异常用户的可能性越大，故这三个指标规范化后需要取相反数以保证聚类的可靠性。

S32、权重的确定，将七个指标进行两两对比并建立判断矩阵，然后求出判断矩阵的最大特征值和相应的特征向量，进一步对判断矩阵进行一致性检验，如果判断矩阵的一致性符合要求，则将特征向量中的各分量分别作为三个指标的权系数，利用上述方法，七个指标的权值分别确定为0.1，0.15，0.1，0.15，0.3，0.2

S33、基于K-Means的用户聚类，在得到上述指标后，可以依据这些指标对用户进行聚类。采用聚类方法可以自动根据各指标的分布情况进行用户划分，避免了人为划分可能带来的主观因素的影响。

S331、定义用户i和用户j之间的距离为

d(i,j)＝|(N_i,L_i,K_i,T_i,W_i,Y_i)-(N_j,L_j,K_j,T_j,W_j,Y_j)| (2)

S332、任意选择k个用户作为初始的簇中心点

S333、根据式(2)将每个用户分到离它最近的簇中心点

S334、根据下式重新计算各用户群的簇中心点

其中

为第i个用户簇的代表点，n_i是第i个簇的用户数目，集合C_i是属于第i个簇的用户集合，k是集合中的任一点。

S335、重复步骤2，3，直到各簇中心点不再发生变化

S4、利用上述分好类的数据作为训练集建立朴素贝叶斯分类模型，对于新用户数据利用此模型输出属于的各个风险等级的概率，如果属于高风险等级的概率大于百分之八十，则认为该用户为网络异常用户。其具体过程为：

S411、对于每个网络用户的特征用一个n维特征向量X＝(x1，x2，…，xn)表示，分别描述对客户的n个属性(满足属性相关分析阈值)的度量。

S412、对于k个给定的客户价值等级(与前面用户聚类时指定的簇数一致)，对于每个新用户，分类法将预测该用户属于各风险等级的概率，并将其中概率值最大的作为该用户的风险等级，根据贝叶斯定理，用户属于某个风险等级的概率。

因为对于所有的客户价值等级P(X)为常数，所以，只需要计算P(X|C_i)P(C_i)最大即可。其中，各客户价值等级的先验概率用P(C_i)＝s_i/s计算，这里，s_i是训练数据集中属于第Ci个用户风险等级的训练样本数，而s是训练样本总数

S413、对于具有许多属性的训练数据集，计算P(X|C_i)的开销可能非常大，为了简化计算，可以做类条件独立的假设，即对于给定的客户价值等级(类标号)，假定各属性相互条件独立，即在属性间不存在依赖关系，于是有

概率P(X|C_i)可以由训练样本估值·如果A_i是离散属性，则P(X|C_i)＝s_ij/s_i，其中s_ij是Ci中在属性A_j上具有值x_j的训练样本数，而s_i是Ci的训练样本数；如果A_j是连续值属性，则通常假定该属性服从高斯分布，可得

其中，

是属性A_j的高斯密度函数，

分别为在Ci中该属性的平均值和标准差。

S414、根据式(4)计算某个用户属于各个风险等级的概率，对求得的k个概率进行归一化处理，并根据计算结果将该用户分到概率最大的风险等级客户群中.

S42、若某一用户属于高风险用户的概率大于百分之80，则认为他是网络异常用户。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.基于用户内容特征和行为特征的网络异常用户预测方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于用户内容特征和行为特征的网络异常用户预测方法，其特征在于所述步骤一的具体步骤为：

3.根据权利要求2所述的基于用户内容特征和行为特征的网络异常用户预测方法，其特征在于所述步骤二的具体步骤为：

步骤二二：统计用户参与话题的评论数量；

4.根据权利要求3所述的基于用户内容特征和行为特征的网络异常用户预测方法，其特征在于所述步骤二五的具体步骤为：

步骤二五三：利用jieba库将去除标点符号的语料进行分词；

5.根据权利要求4所述的基于用户内容特征和行为特征的网络异常用户预测方法，其特征在于所述LSTM模型包括两层，具体为：

第一层为embedding，第一层利用BiLSTM返回sequences；

最后一层为全链接层，利用sigmoid激活函数输出结果。

6.根据权利要求5所述的基于用户内容特征和行为特征的网络异常用户预测方法，其特征在于所述步骤三的具体步骤为：

步骤三三一：定义用户i和用户j之间的距离为

d(i,j)＝|(N_i,L_i,K_i,T_i,W_i,Y_i)-(N_j,L_j,K_j,T_j,W_j,Y_j)|；

步骤三三二：随机选择k个用户作为初始的簇中心点；

步骤三三四：根据下式重新计算各用户群的簇中心点；

其中，

7.根据权利要求6所述的基于用户内容特征和行为特征的网络异常用户预测方法，其特征在于所述标准化表示为：

8.根据权利要求7所述的基于用户内容特征和行为特征的网络异常用户预测方法，其特征在于所述步骤四中，若属于高风险等级的概率大于百分之八十，则认为该用户为网络异常用户。

9.根据权利要求8所述的基于用户内容特征和行为特征的网络异常用户预测方法，其特征在于所述步骤四的具体步骤为：

步骤四一：将标准化后的发帖量，评论数量，关注粉丝比，活跃度，评论情感倾向均值，阳光信用与对应的权值相乘后，作为一个六维特征向量X＝(x1,x2,…,x6)；

步骤四二：利用每个用户对应的风险等级以及该用户的六维特征向量X＝(x1,x2,…,x6)作为训练集训练朴素贝叶斯分类模型，

步骤四三：将得到的各风险等级的概率进行归一化处理；

10.根据权利要求9所述的基于用户内容特征和行为特征的网络异常用户预测方法，其特征在于所述风险等级的概率表示为：

P(C_i)＝s_i/s

代表任意一个数字i，p(x_j|C_i)为在Ci风险等级出现的情况下x_j出现的概率，P(X)为常数，Ci为第i个风险等级，s_i是训练数据集中属于Ci的训练样本数，s是训练样本总数，x_j为第j个属性，n为属性总数，即为6，

是属性x_j的高斯密度函数，

分别为在Ci中该属性的平均值和标准差。