CN115688024A - 基于用户内容特征和行为特征的网络异常用户预测方法 - Google Patents

基于用户内容特征和行为特征的网络异常用户预测方法 Download PDF

Info

Publication number
CN115688024A
CN115688024A CN202211183978.7A CN202211183978A CN115688024A CN 115688024 A CN115688024 A CN 115688024A CN 202211183978 A CN202211183978 A CN 202211183978A CN 115688024 A CN115688024 A CN 115688024A
Authority
CN
China
Prior art keywords
user
users
comment
data
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211183978.7A
Other languages
English (en)
Other versions
CN115688024B (zh
Inventor
郭嘉梁
谭松淇
俞嘉杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202211183978.7A priority Critical patent/CN115688024B/zh
Publication of CN115688024A publication Critical patent/CN115688024A/zh
Application granted granted Critical
Publication of CN115688024B publication Critical patent/CN115688024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

基于用户内容特征和行为特征的网络异常用户预测方法,涉及网络安全技术领域,针对现有技术中网络异常用户识别准确率低的问题,本申请首先使用scrapy爬虫框架对网络交流平台数据进行爬取,获取有关话题的为博文信息,评论信息和有关用户信息。对获取的数据信息进行统计和分析,计算出用户的数据维度,对数据维度进行K‑Means聚类,将全部用户划分为低风险,中低风险,中风险,中高风险,高风险五类。引入朴素贝叶斯分类的思想,将划分好的数据作为训练集建立朴素贝叶斯分类模型,通过朴素贝叶斯分类模型对新用户的数据进行判断识别,输出新用户的各类风险等级的概率,可以在有限的时间内,完成对网络异常用户的识别。

Description

基于用户内容特征和行为特征的网络异常用户预测方法
技术领域
本发明涉及网络安全技术领域,具体为基于用户内容特征和行为特征的网络异常用户预测方法。
背景技术
在互联网技术的影响下,社会媒体蓬勃发展,越来越多的人开始使用微博等网络交流平台进行沟通交流。由于网络交流平台的隐蔽性,网络社交平台中存在着大量扰乱公众舆论的网络异常用户。在早期研究中,对网络异常的检测主要以基于内容特征为主,其涉及机器学习中的自然语言处理分支,包括文本分析、倾向性分析和情感分析等方面,使用的算法如文本分析、关键词分类法、B-Tree索引等,主要依据评论内容相似度和评论文本的倾向性进行识别。由于此类用户的自我隐蔽意识越来越强,单纯进行文本内容的分析常常会漏掉大部分使用正常文本特征进行假象传播的水军,传统的单一基于内容特征的识别方法实用性较低。
目前,基于行为特征的识别分析方法包括贝叶斯算法、决策树分类、k-means聚类算法和逻辑回归算法等,采用部分异常用户特征作为属性,但由于现在的网络水军有善于伪装隐藏和变化多端的特性,已有的属性不再能够精准地识别出异常用户。此外,基于用户关系特征的识别探测方法,如神经网络分类法、贝叶斯网络等。这类方法虽然能结合用户属性行为节点和关系边综合考察,但建立网络本身需要大量具有复杂关系的数据进行训练,操作起来并不简便。另外,基于用户行为特征的异常用户检测,网络异常用户不具有正常的社会关系,其形成的关系网络结构特殊,具有极其不平衡的关注粉丝比。Krestel等利用网络图模型的传播发现含有链接的转发或评论的网络异常用户,通过给定一些种子节点的可疑度,依据种子节点向外传播可疑度的特点,从而计算发现所有可疑的节点,但是此类方法的准确度不高,经常性的把正常用户纳入异常用户中。
发明内容
本发明的目的是:针对现有技术中网络异常用户识别准确率低的问题,提出基于用户内容特征和行为特征的网络异常用户预测方法。
本发明为了解决上述技术问题采取的技术方案是:
基于用户内容特征和行为特征的网络异常用户预测方法,包括以下步骤:
步骤一:使用scrapy框架对网络交流平台数据进行爬取,获取微博文数据、评论数据和用户数据;
步骤二:对步骤一得到的数据进行统计和分析,得到每位用户参与的发帖量、评论数量、评论情感倾向、情感倾向的均值、关注粉丝比、用户活跃度、用户粉丝数以及阳光信用;
步骤三:基于步骤二得到的数据进行K-Means聚类,将全部用户划分为低风险、中低风险、中风险、中高风险以及高风险五类;
步骤四:用步骤三划分的数据作为训练集建立朴素贝叶斯分类模型,通过朴素贝叶斯分类模型识别新用户数据,输出各类风险等级的概率,进而识别网络异常用户。
进一步的,所述步骤一的具体步骤为:
步骤一一:根据微博热搜榜获取热搜关键词以及热度,组成关键词列表;
步骤一二:根据关键词列表爬取微博文数据,所述微博文数据包括发布者的uid以及微博文的pid;
步骤一三:利用发布者的uid和微博文的pid进行定位,爬取微博文的评论数据,所述评论数据包括评论者的uid、评论内容;
步骤一四:利用评论者的uid对用户数据进行爬取,所述用户数据包括该用户的粉丝数、创建微博天数、关注数、阳光信用、总发帖量。
进一步的,所述步骤二的具体步骤为:
步骤二一:根据用户所发评论相关联的pid的数量统计用户参与的话题的发帖量;
步骤二二:统计用户参与话题的评论数量;
步骤二三:利用用户的关注数除以粉丝数得到该用户的关注粉丝比;
步骤二四:利用用户的总发帖量除以创建微博天数得到用户活跃度;
步骤二五:基于神经网络建立情感分析模型,并根据训练好的情感分析模型得到评论情感倾向;
步骤二六:基于一个用户的全部的评论数据,得到该用户评论情感倾向的均值。
进一步的,所述步骤二五的具体步骤为:
步骤二五一:加载预训练中文分词模型embedding,并获取训练集;
步骤二五二:利用正则表达式去除训练集语料中的标点符号;
步骤二五三:利用jieba库将去除标点符号的语料进行分词;
步骤二五四:利用embedding将分词结果转化为词向量,进而构建词向量矩阵;
步骤二五五:利用词向量矩阵训练LSTM模型,训练好的模型即为情感分析模型;
步骤二五六:将评论内容经过步骤步骤二五二至步骤二五四得到词向量矩阵后输入情感分析模型,得到输出的评论情感倾向。
进一步的,所述LSTM模型包括两层,具体为:
第一层为embedding,第一层利用BiLSTM返回sequences;
第二层为16个单元的LSTM,第二层16个单元的LSTM不返回sequences,只返回最终结果;
最后一层为全链接层,利用sigmoid激活函数输出结果。
进一步的,所述步骤三的具体步骤为:
步骤三一:将用户参与的话题的发帖量、评论数量、关注粉丝比、活跃度、评论情感倾向均值以及阳光信用六个指标进行标准化,其中,活跃度,评论情感倾向均值,阳光信用三个指标进行标准化后取相反数作为最终标准化结果;
步骤三二:将六个指标进行两两对比并建立判断矩阵,然后求出判断矩阵的最大特征值和相应的特征向量,并对判断矩阵进行一致性检验,若判断矩阵的一致性符合要求,则将特征向量中的分量分别作为六个指标的权重;
其中,一致性比率小于0.1,则认定为一致性符合要求;所述六个指标的权重分别为0.1,0.15,0.1,0.15,0.3,0.2;
步骤三三:将标准化后的值与对应的权重相乘后利用K-Means进行聚类后将全部用户划分为低风险、中低风险、中风险、中高风险以及高风险五类,具体步骤为:
步骤三三一:定义用户i和用户j之间的距离为
d(i,j)=|(Ni,Li,Ki,Ti,Wi,Yi)-(Nj,Lj,Kj,Tj,Wj,Yj)|;
步骤三三二:随机选择k个用户作为初始的簇中心点;
步骤三三三:根据步骤三三一中公式将每个用户分到离它最近的簇中心点;
步骤三三四:根据下式重新计算各用户群的簇中心点;
Figure BDA0003866500170000031
其中,
Figure BDA0003866500170000032
为第i个用户簇的代表点,ni是第i个簇的用户数目,集合Ci是属于第i个簇的用户集合,k是集合中的任一点,Ni,Li,Ki,Ti,Wi,Yi分别表示第i个用户参与的话题的发帖量、评论数量、关注粉丝比、活跃度、评论情感倾向均值以及阳光信用;
步骤三三五:重复步骤三三三和步骤三三四直至各簇中心点不再发生变化,得到每个用户对应的风险等级。
进一步的,所述标准化表示为:
Figure BDA0003866500170000041
其中,Ni表示第i个客户标准化前的指标,N和σN分别为指标的平均值和标准差。
进一步的,所述步骤四中,若属于高风险等级的概率大于百分之八十,则认为该用户为网络异常用户。
进一步的,所述步骤四的具体步骤为:
步骤四一:将标准化后的发帖量,评论数量,关注粉丝比,活跃度,评论情感倾向均值,阳光信用与对应的权值相乘后,作为一个六维特征向量X=(x1,x2,…,x6);
步骤四二:利用每个用户对应的风险等级以及该用户的六维特征向量X=(x1,x2,…,x6)作为训练集训练朴素贝叶斯分类模型,
对于每个新用户,利用训练好的朴素贝叶斯分类模型预测该用户属于各风险等级的概率;
步骤四三:将得到的各风险等级的概率进行归一化处理;
步骤四四:根据归一化处理后的各风险等级的概率,若用户属于高风险的概率大于百分之八十,则认为该用户为网络异常用户。
进一步的,所述风险等级的概率表示为:
Figure BDA0003866500170000042
P(Ci)=si/s
Figure BDA0003866500170000043
Figure BDA0003866500170000044
其中,P(Ci|X)为在X出现的情况下用户出现Ci风险等级的概率,P(Ci)为用户出现Ci风险等级的概率,
Figure BDA0003866500170000051
代表任意一个数字i,p(xj|Ci)为在Ci风险等级出现的情况下xj出现的概率,P(X)为常数,Ci为第i个风险等级,si是训练数据集中属于Ci的训练样本数,s是训练样本总数,xj为第j个属性,n为属性总数,即为6,
Figure BDA0003866500170000054
是属性xj的高斯密度函数,
Figure BDA0003866500170000053
分别为在Ci中该属性的平均值和标准差。
本发明的有益效果是:
本申请首先使用scrapy爬虫框架对网络交流平台数据进行爬取,获取有关话题的为博文信息,评论信息和有关用户信息。对获取的数据信息进行统计和分析,计算出用户的数据维度,对数据维度进行K-Means聚类,将全部用户划分为低风险,中低风险,中风险,中高风险,高风险五类。引入朴素贝叶斯分类的思想,将划分好的数据作为训练集建立朴素贝叶斯分类模型,通过朴素贝叶斯分类模型对新用户的数据进行判断识别,输出新用户的各类风险等级的概率,可以在有限的时间内,完成对网络异常用户的识别。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:本实施方式所述的基于用户内容特征和行为特征的网络异常用户预测方法,包括以下步骤:
步骤一:使用scrapy框架对网络交流平台数据进行爬取,获取微博文数据、评论数据和用户数据;
步骤二:对步骤一得到的数据进行统计和分析,得到每位用户参与的发帖量、评论数量、评论情感倾向、情感倾向的均值、关注粉丝比、用户活跃度、用户粉丝数以及阳光信用;
步骤三:基于步骤二得到的数据进行K-Means聚类,将全部用户划分为低风险、中低风险、中风险、中高风险以及高风险五类;
步骤四:用步骤三划分的数据作为训练集建立朴素贝叶斯分类模型,通过朴素贝叶斯分类模型识别新用户数据,输出各类风险等级的概率,进而识别网络异常用户。
网络爬虫:又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
神经网络:人工神经网络也简称为神经网络或称作连接模型,它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
LSTM:长短期记忆网络,是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的。
sigmoid激活函数:sigmoid函数也叫Logistic函数,用于隐层神经元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。Sigmoid函数由下列公式定义:
Figure BDA0003866500170000061
聚类:聚类是通过对数据对象集合进行分析,根据对象之间的相似度(或相异度)将数据对象划分成多个类或簇,使同一簇中的对象之间具有较高的相似度,不同簇中的对象相异度最大。
K-Means聚类:k-均值方法是一种常用的基于距离的聚类分析方法,该方法通过计算数据对象之间的距离来衡量其相异度。
朴素贝叶斯分类:贝叶斯分类是一种统计学分类方法,它以贝叶斯定理为基础·。如果假定对于类标号属性,各属性的影响是独立的,则可以简化贝叶斯分类的计算过程,设定了类条件独立假设的贝叶斯分类问题称为朴素贝叶斯分类。
作为实施例的一种,可以包括以下步骤:
S1、使用scrapy框架对微博数据进行爬取,获取有关话题的为博文信息,评论信息和有关用户信息。其具体过程为:
S11、根据微博热搜榜获取热搜关键词以及热度,组成关键词列表;
S12、根据关键词列表爬取有关话题的博文数据,包括其发布者的uid,博文的pid,评论数量,发布时间等;
S13、利用发布者的uid和博文的pid进行定位,爬取博文的评论数据,包括评论者的uid、评论时间、用户名、所在城市、评论内容;
S14、利用上述所获取到的评论者的uid对其用户数据进行爬取,获取其粉丝数,创建微博天数,关注数,阳光信用,发帖量;
S2、对上述数据进行统计和分析,计算出每位用户参与的帖子数,发言量,评论的情感倾向,负面言论占比,关注粉丝比,用户活跃度,与上述步骤所爬取的用户粉丝数和阳光信用组成此用户的数据维度。其具体过程为:
S21、根据用户所发评论所关联的pid的数量统计用户参与帖子数;
S22、统计用户发送评论的数量;
S23、计算用户关注粉丝比,利用上述所获取的用户关注数除以粉丝数得到关注粉丝比;
S24、计算用户活跃度,利用上述所获取的发帖量除以创建微博的天数得到用户活跃度;
S25、基于神经网络的评论情感倾向分析;
S251、情感分析模型的建立;
S2511、加载预训练中文分词模型embedding;
S2512、用正则表达式去除训练集语料中的标点符号;
S2513、用jieba库进行分词,将上述预料分为多个词语的列表;
S2514、用预加载模型将分词结果转化为词向量,并转化为词向量矩阵;
S2515、使用LSTM模型进行训练,模型第一层为embedding,之后第一层我们用BiLSTM返回sequences,然后第二层16个单元的LSTM不返回sequences,只返回最终结果,最后一个是全链接层,用sigmoid激活函数输出结果;
S252、将评论内容放入训练好的情感分析模型内,输出情感倾向,统计负面情感的言论的数量;
S253、对于一个用户的全部的评论数据,计算其情感倾向的均值;
S3、基于上述数据维度进行K-Means聚类,使全部用户分为低风险,中低风险,中风险,中高风险,高风险五类。其具体过程为:
S31、因为个指标量纲不同,为了避免个指标中孤立点对规范化结果的影响,故需要对各数据的规范化,设参与帖子数为N,发言频率为L,关注粉丝比为K,活跃度为T,评论情感倾向均值为W,阳光信用为Y,设第i个客户的N值为Ni,则利用式(1)将其规范化为N′i
Figure BDA0003866500170000071
其中N和σN分别为指标N的平均值和标准差,可以采用类似的方法对其余的几个指标进行标准化。特殊的,由于活跃度越低,评论情感倾向越小,阳光信用越低,其用户为异常用户的可能性越大,故这三个指标规范化后需要取相反数以保证聚类的可靠性。
S32、权重的确定,将七个指标进行两两对比并建立判断矩阵,然后求出判断矩阵的最大特征值和相应的特征向量,进一步对判断矩阵进行一致性检验,如果判断矩阵的一致性符合要求,则将特征向量中的各分量分别作为三个指标的权系数,利用上述方法,七个指标的权值分别确定为0.1,0.15,0.1,0.15,0.3,0.2
S33、基于K-Means的用户聚类,在得到上述指标后,可以依据这些指标对用户进行聚类。采用聚类方法可以自动根据各指标的分布情况进行用户划分,避免了人为划分可能带来的主观因素的影响。
S331、定义用户i和用户j之间的距离为
d(i,j)=|(Ni,Li,Ki,Ti,Wi,Yi)-(Nj,Lj,Kj,Tj,Wj,Yj)| (2)
S332、任意选择k个用户作为初始的簇中心点
S333、根据式(2)将每个用户分到离它最近的簇中心点
S334、根据下式重新计算各用户群的簇中心点
Figure BDA0003866500170000081
其中
Figure BDA0003866500170000082
为第i个用户簇的代表点,ni是第i个簇的用户数目,集合Ci是属于第i个簇的用户集合,k是集合中的任一点。
S335、重复步骤2,3,直到各簇中心点不再发生变化
S4、利用上述分好类的数据作为训练集建立朴素贝叶斯分类模型,对于新用户数据利用此模型输出属于的各个风险等级的概率,如果属于高风险等级的概率大于百分之八十,则认为该用户为网络异常用户。其具体过程为:
S411、对于每个网络用户的特征用一个n维特征向量X=(x1,x2,…,xn)表示,分别描述对客户的n个属性(满足属性相关分析阈值)的度量。
S412、对于k个给定的客户价值等级(与前面用户聚类时指定的簇数一致),对于每个新用户,分类法将预测该用户属于各风险等级的概率,并将其中概率值最大的作为该用户的风险等级,根据贝叶斯定理,用户属于某个风险等级的概率。
Figure BDA0003866500170000083
因为对于所有的客户价值等级P(X)为常数,所以,只需要计算P(X|Ci)P(Ci)最大即可。其中,各客户价值等级的先验概率用P(Ci)=si/s计算,这里,si是训练数据集中属于第Ci个用户风险等级的训练样本数,而s是训练样本总数
S413、对于具有许多属性的训练数据集,计算P(X|Ci)的开销可能非常大,为了简化计算,可以做类条件独立的假设,即对于给定的客户价值等级(类标号),假定各属性相互条件独立,即在属性间不存在依赖关系,于是有
Figure BDA0003866500170000091
概率P(X|Ci)可以由训练样本估值·如果Ai是离散属性,则P(X|Ci)=sij/si,其中sij是Ci中在属性Aj上具有值xj的训练样本数,而si是Ci的训练样本数;如果Aj是连续值属性,则通常假定该属性服从高斯分布,可得
Figure BDA0003866500170000092
其中,
Figure BDA0003866500170000093
是属性Aj的高斯密度函数,
Figure BDA0003866500170000094
分别为在Ci中该属性的平均值和标准差。
S414、根据式(4)计算某个用户属于各个风险等级的概率,对求得的k个概率进行归一化处理,并根据计算结果将该用户分到概率最大的风险等级客户群中.
S42、若某一用户属于高风险用户的概率大于百分之80,则认为他是网络异常用户。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (10)

1.基于用户内容特征和行为特征的网络异常用户预测方法,其特征在于包括以下步骤:
步骤一:使用scrapy框架对网络交流平台数据进行爬取,获取微博文数据、评论数据和用户数据;
步骤二:对步骤一得到的数据进行统计和分析,得到每位用户参与的发帖量、评论数量、评论情感倾向、情感倾向的均值、关注粉丝比、用户活跃度、用户粉丝数以及阳光信用;
步骤三:基于步骤二得到的数据进行K-Means聚类,将全部用户划分为低风险、中低风险、中风险、中高风险以及高风险五类;
步骤四:用步骤三划分的数据作为训练集建立朴素贝叶斯分类模型,通过朴素贝叶斯分类模型识别新用户数据,输出各类风险等级的概率,进而识别网络异常用户。
2.根据权利要求1所述的基于用户内容特征和行为特征的网络异常用户预测方法,其特征在于所述步骤一的具体步骤为:
步骤一一:根据微博热搜榜获取热搜关键词以及热度,组成关键词列表;
步骤一二:根据关键词列表爬取微博文数据,所述微博文数据包括发布者的uid以及微博文的pid;
步骤一三:利用发布者的uid和微博文的pid进行定位,爬取微博文的评论数据,所述评论数据包括评论者的uid、评论内容;
步骤一四:利用评论者的uid对用户数据进行爬取,所述用户数据包括该用户的粉丝数、创建微博天数、关注数、阳光信用、总发帖量。
3.根据权利要求2所述的基于用户内容特征和行为特征的网络异常用户预测方法,其特征在于所述步骤二的具体步骤为:
步骤二一:根据用户所发评论相关联的pid的数量统计用户参与的话题的发帖量;
步骤二二:统计用户参与话题的评论数量;
步骤二三:利用用户的关注数除以粉丝数得到该用户的关注粉丝比;
步骤二四:利用用户的总发帖量除以创建微博天数得到用户活跃度;
步骤二五:基于神经网络建立情感分析模型,并根据训练好的情感分析模型得到评论情感倾向;
步骤二六:基于一个用户的全部的评论数据,得到该用户评论情感倾向的均值。
4.根据权利要求3所述的基于用户内容特征和行为特征的网络异常用户预测方法,其特征在于所述步骤二五的具体步骤为:
步骤二五一:加载预训练中文分词模型embedding,并获取训练集;
步骤二五二:利用正则表达式去除训练集语料中的标点符号;
步骤二五三:利用jieba库将去除标点符号的语料进行分词;
步骤二五四:利用embedding将分词结果转化为词向量,进而构建词向量矩阵;
步骤二五五:利用词向量矩阵训练LSTM模型,训练好的模型即为情感分析模型;
步骤二五六:将评论内容经过步骤步骤二五二至步骤二五四得到词向量矩阵后输入情感分析模型,得到输出的评论情感倾向。
5.根据权利要求4所述的基于用户内容特征和行为特征的网络异常用户预测方法,其特征在于所述LSTM模型包括两层,具体为:
第一层为embedding,第一层利用BiLSTM返回sequences;
第二层为16个单元的LSTM,第二层16个单元的LSTM不返回sequences,只返回最终结果;
最后一层为全链接层,利用sigmoid激活函数输出结果。
6.根据权利要求5所述的基于用户内容特征和行为特征的网络异常用户预测方法,其特征在于所述步骤三的具体步骤为:
步骤三一:将用户参与的话题的发帖量、评论数量、关注粉丝比、活跃度、评论情感倾向均值以及阳光信用六个指标进行标准化,其中,活跃度,评论情感倾向均值,阳光信用三个指标进行标准化后取相反数作为最终标准化结果;
步骤三二:将六个指标进行两两对比并建立判断矩阵,然后求出判断矩阵的最大特征值和相应的特征向量,并对判断矩阵进行一致性检验,若判断矩阵的一致性符合要求,则将特征向量中的分量分别作为六个指标的权重;
其中,一致性比率小于0.1,则认定为一致性符合要求;所述六个指标的权重分别为0.1,0.15,0.1,0.15,0.3,0.2;
步骤三三:将标准化后的值与对应的权重相乘后利用K-Means进行聚类后将全部用户划分为低风险、中低风险、中风险、中高风险以及高风险五类,具体步骤为:
步骤三三一:定义用户i和用户j之间的距离为
d(i,j)=|(Ni,Li,Ki,Ti,Wi,Yi)-(Nj,Lj,Kj,Tj,Wj,Yj)|;
步骤三三二:随机选择k个用户作为初始的簇中心点;
步骤三三三:根据步骤三三一中公式将每个用户分到离它最近的簇中心点;
步骤三三四:根据下式重新计算各用户群的簇中心点;
Figure FDA0003866500160000031
其中,
Figure FDA0003866500160000032
为第i个用户簇的代表点,ni是第i个簇的用户数目,集合Ci是属于第i个簇的用户集合,k是集合中的任一点,Ni,Li,Ki,Ti,Wi,Yi分别表示第i个用户参与的话题的发帖量、评论数量、关注粉丝比、活跃度、评论情感倾向均值以及阳光信用;
步骤三三五:重复步骤三三三和步骤三三四直至各簇中心点不再发生变化,得到每个用户对应的风险等级。
7.根据权利要求6所述的基于用户内容特征和行为特征的网络异常用户预测方法,其特征在于所述标准化表示为:
Figure FDA0003866500160000033
其中,Ni表示第i个客户标准化前的指标,N和σN分别为指标的平均值和标准差。
8.根据权利要求7所述的基于用户内容特征和行为特征的网络异常用户预测方法,其特征在于所述步骤四中,若属于高风险等级的概率大于百分之八十,则认为该用户为网络异常用户。
9.根据权利要求8所述的基于用户内容特征和行为特征的网络异常用户预测方法,其特征在于所述步骤四的具体步骤为:
步骤四一:将标准化后的发帖量,评论数量,关注粉丝比,活跃度,评论情感倾向均值,阳光信用与对应的权值相乘后,作为一个六维特征向量X=(x1,x2,…,x6);
步骤四二:利用每个用户对应的风险等级以及该用户的六维特征向量X=(x1,x2,…,x6)作为训练集训练朴素贝叶斯分类模型,
对于每个新用户,利用训练好的朴素贝叶斯分类模型预测该用户属于各风险等级的概率;
步骤四三:将得到的各风险等级的概率进行归一化处理;
步骤四四:根据归一化处理后的各风险等级的概率,若用户属于高风险的概率大于百分之八十,则认为该用户为网络异常用户。
10.根据权利要求9所述的基于用户内容特征和行为特征的网络异常用户预测方法,其特征在于所述风险等级的概率表示为:
Figure FDA0003866500160000041
P(Ci)=si/s
Figure FDA0003866500160000042
Figure FDA0003866500160000043
其中,P(Ci|X)为在X出现的情况下用户出现Ci风险等级的概率,P(Ci)为用户出现Ci风险等级的概率,
Figure FDA0003866500160000044
代表任意一个数字i,p(xj|Ci)为在Ci风险等级出现的情况下xj出现的概率,P(X)为常数,Ci为第i个风险等级,si是训练数据集中属于Ci的训练样本数,s是训练样本总数,xj为第j个属性,n为属性总数,即为6,
Figure FDA0003866500160000045
是属性xj的高斯密度函数,
Figure FDA0003866500160000046
分别为在Ci中该属性的平均值和标准差。
CN202211183978.7A 2022-09-27 2022-09-27 基于用户内容特征和行为特征的网络异常用户预测方法 Active CN115688024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211183978.7A CN115688024B (zh) 2022-09-27 2022-09-27 基于用户内容特征和行为特征的网络异常用户预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211183978.7A CN115688024B (zh) 2022-09-27 2022-09-27 基于用户内容特征和行为特征的网络异常用户预测方法

Publications (2)

Publication Number Publication Date
CN115688024A true CN115688024A (zh) 2023-02-03
CN115688024B CN115688024B (zh) 2023-05-30

Family

ID=85062328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211183978.7A Active CN115688024B (zh) 2022-09-27 2022-09-27 基于用户内容特征和行为特征的网络异常用户预测方法

Country Status (1)

Country Link
CN (1) CN115688024B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523566A (zh) * 2023-06-30 2023-08-01 和元达信息科技有限公司 一种基于互联网广告投放的伪热度识别方法及系统
CN116628345A (zh) * 2023-07-13 2023-08-22 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质
CN116881504A (zh) * 2023-09-06 2023-10-13 北京橙色风暴数字技术有限公司 一种基于人工智能的图像信息数字化管理系统及方法
CN117743698A (zh) * 2024-02-05 2024-03-22 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070240207A1 (en) * 2004-04-20 2007-10-11 Ecole Polytechnique Federale De Lausanne (Epfl) Method of Detecting Anomalous Behaviour in a Computer Network
US20100312769A1 (en) * 2009-06-09 2010-12-09 Bailey Edward J Methods, apparatus and software for analyzing the content of micro-blog messages
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
US20150127653A1 (en) * 2013-11-05 2015-05-07 Marketwire L.P. Systems and Methods for Behavioral Segmentation of Users in a Social Data Network
US20160149941A1 (en) * 2014-11-21 2016-05-26 Honeywell International Inc. Security log mining devices, methods, and systems
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN109787960A (zh) * 2018-12-19 2019-05-21 中国平安人寿保险股份有限公司 异常流量数据识别方法、装置、介质及电子设备
CN109829089A (zh) * 2018-12-12 2019-05-31 中国科学院计算技术研究所 基于关联图谱的社交网络用户异常检测方法和系统
CN109918279A (zh) * 2019-01-24 2019-06-21 平安科技(深圳)有限公司 电子装置、基于日志数据识别用户异常操作的方法及存储介质
CN110162626A (zh) * 2019-04-26 2019-08-23 湘潭大学 一种基于双向lstm的舆情情感热度熵的计算方法
CN111339247A (zh) * 2020-02-11 2020-06-26 安徽理工大学 一种微博子话题用户评论情感倾向性分析方法
CN112395556A (zh) * 2020-09-30 2021-02-23 广州市百果园网络科技有限公司 异常用户检测模型训练方法、异常用户审核方法及装置
CN113837512A (zh) * 2020-06-23 2021-12-24 中国移动通信集团辽宁有限公司 异常用户的识别方法及装置
CN114722954A (zh) * 2022-04-21 2022-07-08 北京沃东天骏信息技术有限公司 一种针对评价信息的内容异常处理方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070240207A1 (en) * 2004-04-20 2007-10-11 Ecole Polytechnique Federale De Lausanne (Epfl) Method of Detecting Anomalous Behaviour in a Computer Network
US20100312769A1 (en) * 2009-06-09 2010-12-09 Bailey Edward J Methods, apparatus and software for analyzing the content of micro-blog messages
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
US20150127653A1 (en) * 2013-11-05 2015-05-07 Marketwire L.P. Systems and Methods for Behavioral Segmentation of Users in a Social Data Network
US20160149941A1 (en) * 2014-11-21 2016-05-26 Honeywell International Inc. Security log mining devices, methods, and systems
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN109829089A (zh) * 2018-12-12 2019-05-31 中国科学院计算技术研究所 基于关联图谱的社交网络用户异常检测方法和系统
CN109787960A (zh) * 2018-12-19 2019-05-21 中国平安人寿保险股份有限公司 异常流量数据识别方法、装置、介质及电子设备
CN109918279A (zh) * 2019-01-24 2019-06-21 平安科技(深圳)有限公司 电子装置、基于日志数据识别用户异常操作的方法及存储介质
CN110162626A (zh) * 2019-04-26 2019-08-23 湘潭大学 一种基于双向lstm的舆情情感热度熵的计算方法
CN111339247A (zh) * 2020-02-11 2020-06-26 安徽理工大学 一种微博子话题用户评论情感倾向性分析方法
CN113837512A (zh) * 2020-06-23 2021-12-24 中国移动通信集团辽宁有限公司 异常用户的识别方法及装置
CN112395556A (zh) * 2020-09-30 2021-02-23 广州市百果园网络科技有限公司 异常用户检测模型训练方法、异常用户审核方法及装置
CN114722954A (zh) * 2022-04-21 2022-07-08 北京沃东天骏信息技术有限公司 一种针对评价信息的内容异常处理方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523566A (zh) * 2023-06-30 2023-08-01 和元达信息科技有限公司 一种基于互联网广告投放的伪热度识别方法及系统
CN116523566B (zh) * 2023-06-30 2024-01-02 和元达信息科技有限公司 一种基于互联网广告投放的伪热度识别方法及系统
CN116628345A (zh) * 2023-07-13 2023-08-22 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质
CN116628345B (zh) * 2023-07-13 2024-02-06 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质
CN116881504A (zh) * 2023-09-06 2023-10-13 北京橙色风暴数字技术有限公司 一种基于人工智能的图像信息数字化管理系统及方法
CN116881504B (zh) * 2023-09-06 2023-11-24 北京橙色风暴数字技术有限公司 一种基于人工智能的图像信息数字化管理系统及方法
CN117743698A (zh) * 2024-02-05 2024-03-22 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统
CN117743698B (zh) * 2024-02-05 2024-05-24 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统

Also Published As

Publication number Publication date
CN115688024B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN115688024B (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
Umarani et al. Sentiment analysis using various machine learning and deep learning Techniques
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN107844533A (zh) 一种智能问答系统及分析方法
CN110046943B (zh) 一种网络消费者细分的优化方法及优化系统
Anhar et al. Question classification on question-answer system using bidirectional-LSTM
Islam et al. Review analysis of ride-sharing applications using machine learning approaches: Bangladesh perspective
Kim et al. A convolutional neural network in legal question answering
Luo et al. Multi-aspect feature based neural network model in detecting fake reviews
Jayakody et al. Sentiment analysis on product reviews on twitter using Machine Learning Approaches
Chemchem et al. Deep learning and data mining classification through the intelligent agent reasoning
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN113516094B (zh) 一种用于为文档匹配评议专家的系统以及方法
Kotteti et al. Rumor detection on time-series of tweets via deep learning
CN116756347B (zh) 一种基于大数据的语义信息检索方法
Ahan et al. Social network analysis using data segmentation and neural networks
CN113779520B (zh) 基于多层属性分析的跨空间目标虚拟身份关联方法
Yafooz et al. Enhancing multi-class web video categorization model using machine and deep learning approaches
Agrawal Fundamentals of machine learning
CN114741515A (zh) 基于图生成的社交网络用户属性预测方法及系统
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
CN114970684A (zh) 一种结合vae的提取网络核心结构的社区检测方法
Thangarasu et al. Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification
Lalbakhsh et al. TACD: a transportable ant colony discrimination model for corporate bankruptcy prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant