CN113780360B - 一种面向社会工程学攻击的用户脆弱性分析方法 - Google Patents
一种面向社会工程学攻击的用户脆弱性分析方法 Download PDFInfo
- Publication number
- CN113780360B CN113780360B CN202110936589.6A CN202110936589A CN113780360B CN 113780360 B CN113780360 B CN 113780360B CN 202110936589 A CN202110936589 A CN 202110936589A CN 113780360 B CN113780360 B CN 113780360B
- Authority
- CN
- China
- Prior art keywords
- emotion
- user
- image
- microblog
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012038 vulnerability analysis Methods 0.000 title claims abstract description 8
- 230000008451 emotion Effects 0.000 claims abstract description 139
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 230000008909 emotion recognition Effects 0.000 claims abstract description 14
- 241001465754 Metazoa Species 0.000 claims abstract description 10
- 238000007619 statistical method Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 23
- 238000001914 filtration Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 230000009193 crawling Effects 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 206010063659 Aversion Diseases 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000002996 emotional effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 5
- 239000000463 material Substances 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种面向社会工程学攻击的用户脆弱性分析方法。目前还尚未出现面向社会工程学攻击的用户脆弱性分析方法。本发明方法首先将微博相册内图像分为人物、风景、动物和动漫四大类,结合统计方法构建微博相册特征向量;对人物图像进行人脸定位提取人脸图像并进行人脸情绪识别,构建图像情绪特征向量;然后获取用户的微博内容进行情感分类,构建情感序列特征;最后结合用户特征矩阵和用户之间的关注状态构造带特征的网络图,通过图网络模型为所有用户标注脆弱性标签。脆弱性分类器根据用户特征和对应标签训练得到。本发明方法能够准确判断用户的脆弱性以及是否属于易于进行社会工程学攻击的对象,为后续的社会工程研究打下基础。
Description
技术领域
本发明属于计算机应用与互联网技术领域,具体涉及一种面向社会工程学攻击的用户脆弱性分析方法。
背景技术
二十一世纪互联网技术得到飞速的发展,用户通过社交平台发布信息的方式变得多种多样,可以使用短信、邮件、实时软件以及网页来发布自己编辑的信息,使得社交平台上聚集了大量与个人隐私相关联的数据。社会工程学(Social Engineering)就是把对物的研究方法全盘运用到对人的研究上,并将其变成技术控制的工具。社会工程学是一种针对受害者的心理弱点、本能反应、好奇心、信任、贪婪等心理陷阱,实施诸如欺骗、伤害等危害的方法。“社会工程学攻击”就是利用人们的心理特征,骗取用户的信任,获取机密信息、系统设置等不公开资料,为攻击和病毒感染创造有利条件。
目前还尚未出现面向社会工程学攻击的用户脆弱性分析方法,攻击方式效率低下,很难满足网络对抗的需求。因此亟需一套有效的面向社会工程学攻击的用户脆弱性分析的理论与方法,剖析社会工程学攻击对象脆弱性发现机制,推演社会工程学攻击行为作用机制,建立社会工程学攻击致效机理及效能评估方法,并面向个人、群体、军事等特定场景的网络攻击开展理论试验验证,为国家网络空间安全重大战略需求提供基础理论和应用方法支持。
发明内容
本发明的目的就是提供一种面向社会工程学攻击的用户脆弱性分析方法,利用大数据时代获取数据的便利性,通过提取用户基本资料、用户关系数据和用户微博,基于用户脆弱性分析不同用户群体的行为模式和基本特征,通过人工标注的少量标签半监督式给所有用户标注脆弱性标签并训练判别器。
本发明采用如下方案:
步骤(1)以微博相册内容为基础,采用图像分类算法将相册内图像分为人物、风景、动物和动漫四大类,结合统计方法构建微博相册特征向量F1;
步骤(2)对人物图像进行人脸定位,提取出人脸图像,对人脸图像进行人脸情绪识别,根据图像时间排列得到每个用户的情绪序列,结合情绪二维坐标和统计方法构建图像情绪特征向量F2;
步骤(3)获取用户微博并进行预处理,进行情感分析,为每一条微博信息打上情感分数,根据微博时间排列得到情感状态序列,结合统计方法构建情感序列特征F3;
步骤(4)结合用户特征矩阵F=[F1,F2,F3]和用户之间的关注状态构造带特征的网络图;
步骤(5)通过图网络模型以半监督的方式为所有用户标注脆弱性标签,根据用户的特征和对应标签,训练得到脆弱性分类器,得到脆弱性评分。
进一步,步骤(1)具体是:
(1.1)爬取用户微博相册图像P到数据库中;
(1.2)对微博相册图像P根据图片像素进行过滤,过滤像素低于Wmin×Hmin的图片,将其余符合要求的图片调整为统一大小,得到M张图像集合w为图像的宽,h为图像的高,通道数为3;
(1.3)取MSCOCO数据集中的人物类别图像和动物类别图像、ImageNet数据集中的人物类别图像、iCartoonFace数据集中的动漫类别图像,组成图像集合,过滤图像集合中像素低于Wmin×Hmin的图片,将其余符合要求的图片调整为统一大小,得到包含N张图像的训练集
MSCOCO数据集是微软构建的一个数据集,其包含detection,segmentation,keypoints等任务;ImageNet数据集是一个用于视觉对象识别软件研究的大型可视化数据库;iCartoonFace数据集即爱奇艺的动漫人脸数据集;
(1.4)基于Ptrain训练一个图像分类器Mimg;
(1.5)使用图像分类器Mimg将Ptest中的图像进行分类,分别打上标签,统计每个用户Ui相册中四类图像的数量特征矩阵Cimg=[ck|k=1,2,3,4],和对应的占比特征矩阵Proimg=[prok|k=1,2,3,4],不同值k分别表示人物、风景、动物、动漫图像;将Cimg和Proimg横向拼接得到用户图像统计特征矩阵,即微博相册特征向量F1=[Cimg,Proimg]。
再进一步,步骤(2)具体是:
(2.1)根据标签分类,获得Ptest中属于人物分类的图像集合Ppeople;
(2.2)基于开源人脸情绪识别数据集Pemotion训练情绪识别分类器Memotion;
(2.3)归集每个用户Ui发布的属于人物分类的图像集合,按照图像的发布时间td排列,得到微博人物图像序列:
将用人脸定位工具进行人脸定位,并分割出人脸图片得到人脸图片集合/>利用情绪识别分类器Memotion对/>进行标注;每张图片根据人脸定位框的大小加权投票得到其对应的情绪标签/>排列得到图像情绪序列/>
(2.4)根据Ppeople(i)统计得到每个用户Ui相册中七种情绪的数量特征矩阵Cemotion=[ce|e=1,2,...,7],以及对应的占比特征矩阵Proemotion=[proe|e=1,2,...,7],不同值e分别表示愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶;
将Cemotion和Proemotion横向拼接,得到用户图像情绪统计特征矩阵
(2.5)根据情绪二维坐标将图像情绪序列E(i)转换为情绪坐标序列
(2.6)对情绪坐标序列做一阶坐标差分,得到情绪一阶差分序列其中,根据j′时刻和j′+1时刻的坐标,计算j′时刻的一阶坐标差分值/>
(2.7)对情绪坐标序列的x维度和y维度分别做一阶差分,得到情绪坐标x轴一阶差分序列/>和情绪坐标y轴一阶差分序列根据j′时刻和j′+1时刻的x和y维度值,计算j′时刻的情绪坐标x轴一阶差分值/>和情绪坐标y轴一阶差分值/>
(2.8)对情绪一阶差分序列情绪坐标x轴一阶差分序列/>和情绪坐标y轴一阶差分序列/>分别再做一阶差分,得到对应的二阶差分序列和/>
对和/>分别求窗口大小为7、30、100、L内的统计值,L为序列长度;统计值包括:四分位数、中位数、平均数、平滑指数、偏差、偏度、峰度、离散系数、最大值、最小值;得到用户图像情绪统计特征矩阵/>
(2.9)横向拼接和/>得到特征矩阵F2:/>
更进一步,步骤(3)具体是:
(3.1)获取用户微博推文数据,使用正则化匹配去除标点符号;
(3.2)将每个用户Ui的微博推文内容sq,q=1,2,...,Q,Q为用户Ui微博推文的数量,利用情感分析工具进行情感分析,得到情感分数δq;
(3.3)归集用户Ui发布的微博推文,并根据微博推文的发布时间td排列,得到微博推文序列根据推文内容所对应的情感分数δq得到用户所对应的情感分数序列/>
(3.4)对情感分数序列Θi做一阶差分,得到情感分数一阶差分序列根据j′时刻和j′+1时刻的情感分数值,计算j′时刻的一阶差分值/>然后对情感分数一阶差分序列Δ(Θi)做一阶差分,得到情感分数二阶差分序列/>
(3.5)对情感分数序列Θi、情感分数一阶差分序列Δ(Θi)和情感分数二阶差分序列Δ(Δ(Θi))分别求窗口大小为7、30、100、L内的统计值。其中统计值包括:四分位数、中位数、平均数、平滑指数、偏差、偏度、峰度、离散系数、最大值、最小值;将所有统计值横向拼接得到用户情感分数序列统计特征矩阵F3。
又进一步,步骤(4)具体是:
(4.1)爬取用户微博关注关系到数据库中,过滤活跃度Active小于等于设定阈值σActive活跃度低的用户;活跃度NT表示用户最近一年内发布、转发和评论微博总数,NMonth表示一年中活跃的月份数,指用户在一年中最早、最晚发布、转发和评论微博的时间间隔,设定阈值σActive=5~50;
(4.2)根据用户间的关注关系构建关注网络图G=(V,E),节点集合V={vi},节点vi表示用户Ui,E表示关注关系,E={edge(vi,vg)}表示Ui关注了Ug;
(4.3)根据关注网络图G=(V,E)和用户特征矩阵F=[F1,F2,F3],每个节点vi的特征向量为Ui对应的特征向量fi。
还进一步,步骤(5)具体是:
(5.1)对目标对象所发布的微博内容、图像,以及目标对象在微博平台上的行为的进行理解,标注脆弱性标签:b=1,表示脆弱性高,或b=0,表示脆弱性低;目标对象在微博平台上的行为包括点赞、评论和转发;
(5.2)将脆弱性标签加入到构建的关注网络图G=(V,E)中,输入GAT网络训练,训练完成后得到图网络中所有节点的脆弱性得分a;对于每个用户,a<0.5时b标注为0,否则b标注为1;
(5.3)根据用户特征矩阵F=[F1,F2,F3]和脆弱性标签b,使用GBDT算法训练得到判别器F(X);对于新的目标对象需要判别脆弱性强弱时,根据其微博数据生成对应的特征矩阵,然后使用判别器F(X)进行判别。
至此,得到带有脆弱性标志位的用户,完成整个系统的用户判别。
本发明方法是从大量的社交用户中分析用户的脆弱性特性,据此判别目标对象的是否是易于进行社会工程学攻击的对象。本发明的数据集采用大量微博数据,分析结果更可信。在选择特征方面,使用了微博推文情绪特征、微博图像喜好特征、微博图像情绪特征为基础建立特征矩阵。在标签构建方面,传统方法完全依靠人工进行标签的标注,此类方法只能获得少量的标签,会对最终数据集的规模大小产生影响,干扰了由数据训练得到的判别器的鲁棒性,对后面社会工程学攻击目标选择形成很大的误导。本发明方法添加了基于图神经网络的半监督标注标签的过程,弥补了传统标签分类的不足,结合人工少量标注,使训练得到的判别器更具鲁棒性。
本发明方法解决了目前社交网络用户不能判别用户脆弱性以及不能自动为用户标注脆弱性标签的问题,能够根据目标对象的微博信息判断用户的脆弱性以及是否是易于进行社会工程学攻击的对象,为后续的社会工程研究打下基础。
附图说明
图1为本发明的流程图;
图2为以微博相册内容为基础构建用户相册统计特征流程图;
图3为以人物图像为基础构建用户图像情绪特征流程图;
图4为情绪二维坐标示意图;
图5为以推文内容为基础建用户推文情绪统计特征流程图;
图6为以用户特征矩阵和用户间关注关系为基础构建特征网络图流程图;
图7为基于少量人工标签训练二分类判别器的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种面向社会工程学攻击的用户脆弱性分析方法,步骤是:
步骤(1)以微博相册内容为基础,采用图像分类算法将相册内图像分为人物、风景、动物和动漫四大类,结合统计方法构建微博相册特征向量F1;
步骤(2)对人物图像进行人脸定位,提取出人脸图像,对人脸图像进行人脸情绪识别,根据图像时间排列得到每个用户的情绪序列,结合情绪二维坐标和统计方法构建图像情绪特征向量F2;
步骤(3)获取用户微博并进行预处理,进行情感分析,为每一条微博信息打上情感分数,根据微博时间排列得到情感状态序列,结合统计方法构建情感序列特征F3;
步骤(4)结合用户特征矩阵F=[F1,F2,F3]和用户之间的关注状态构造带特征的网络图;
步骤(5)通过图网络模型以半监督的方式为所有用户标注脆弱性标签,根据用户的特征和对应标签,训练得到脆弱性分类器,得到脆弱性评分。
如图2所示,步骤(1)具体是:
(1.1)爬取用户微博相册图像P到数据库中;
(1.2)对微博相册图像P根据图片像素进行过滤,过滤像素低于Wmin×Hmin的图片,将其余符合要求的图片调整为统一大小,得到M张图像集合w为图像的宽,h为图像的高,通道数为3;
(1.3)取MSCOCO数据集中的人物类别图像和动物类别图像、ImageNet数据集中的人物类别图像、iCartoonFace数据集中的动漫类别图像,组成图像集合,过滤图像集合中像素低于Wmin×Hmin的图片,将其余符合要求的图片调整为统一大小,得到包含N张图像的训练集
MSCOCO数据集是微软构建的一个数据集,其包含detection,segmentation,keypoints等任务;ImageNet数据集是一个用于视觉对象识别软件研究的大型可视化数据库;iCartoonFace数据集即爱奇艺的动漫人脸数据集;
(1.4)基于Ptrain训练一个图像分类器Mimg,该模型用ImageNet上预训练的标准ResNet-50作为骨干网络,将ResNet-50的最后一层替换为一个有256个输出单元的线性层,接着再连接ReLu层和Dropout层,然后连接256*4的线性层,输出为4通道的softmax层;
(1.5)使用图像分类器Mimg将Ptest中的图像进行分类,分别打上标签,统计每个用户Ui相册中四类图像的数量特征矩阵Cimg=[ck|k=1,2,3,4],和对应的占比特征矩阵Proimg=[prok|k=1,2,3,4],不同值k分别表示人物、风景、动物、动漫图像;将Cimg和Proimg横向拼接得到用户图像统计特征矩阵,即微博相册特征向量F1=[Cimg,Proimg]。
如图3所示,步骤(2)具体是:
(2.1)根据标签分类,获得Ptest中属于人物分类的图像集合1表示人物分类;
(2.2)基于开源人脸情绪识别数据集Pemotion,基于CNN训练情绪识别分类器Memotion,该分类器将人脸情绪归为七大类:愤怒、厌恶,恐惧、快乐、中性、悲伤、惊讶;
(2.3)归集每个用户Ui发布的属于人物分类的图像集合,按照图像的发布时间td排列,得到微博人物图像序列:
将用人脸定位工具进行人脸定位,并分割出人脸图片得到人脸图片集合/>利用情绪识别分类器Memotion对/>进行标注;每张图片根据人脸定位框的大小加权投票得到其对应的情绪标签/>排列得到图像情绪序列/>每张图片根据人脸定位框的大小加权投票得到其对应的情绪标签I为指示函数,w、h分别表示人脸图像的宽和长;
(2.4)根据Ppeople(i)统计得到每个用户Ui相册中七种情绪的数量特征矩阵Cemotion=[ce|e=1,2,…,7],以及对应的占比特征矩阵Proemotion=[proe|e=1,2,…,7],不同值e分别表示愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶;
将Cemotion和Proemotion横向拼接,得到用户图像情绪统计特征矩阵
(2.5)如图4所示,根据情绪二维坐标将图像情绪序列E(i)转换为情绪坐标序列
(2.6)对情绪坐标序列做一阶坐标差分,得到情绪一阶差分序列其中,根据j′时刻和j′+1时刻的坐标,计算j′时刻的一阶坐标差分值/>
(2.7)对情绪坐标序列的x维度和y维度分别做一阶差分,得到情绪坐标x轴一阶差分序列/>和情绪坐标y轴一阶差分序列根据j′时刻和j′+1时刻的x和y维度值,计算j′时刻的情绪坐标x轴一阶差分值/>和情绪坐标y轴一阶差分值/>
(2.8)对情绪一阶差分序列情绪坐标x轴一阶差分序列/>和情绪坐标y轴一阶差分序列/>分别再做一阶差分,得到对应的二阶差分序列和/>
对和/>分别求窗口大小为7、30、100、L内的统计值,L为序列长度;统计值包括:四分位数、中位数、平均数、平滑指数、偏差、偏度、峰度、离散系数、最大值、最小值;得到用户图像情绪统计特征矩阵/>
(2.9)横向拼接和/>得到特征矩阵F2:/>
如图5所示,步骤(3)具体是:
(3.1)获取用户微博推文数据,使用正则化匹配去除标点符号;特殊的字符和字段,包括:“@XXX”、“[表情符号]”、超链接;其中“@XXX”表示微博正文或评论中提到某一用户或对用户说的话,以引起该用户注意;“[表情符号]”是指微博中特有的表情,代表发帖人内心的想法,可以是开心,难受,惊恐等;超链接一般指http和https协议下的链接,通过点击链接可以转到第三方页面,如:https://weibo.com/;
(3.2)将每个用户Ui的微博推文内容sq,q=1,2,...,Q,Q为用户Ui微博推文的数量,利用情感分析工具进行情感分析,得到情感分数δq;
(3.3)归集用户Ui发布的微博推文,并根据微博推文的发布时间td排列,得到微博推文序列根据推文内容所对应的情感分数δq得到用户所对应的情感分数序列/>
(3.4)对情感分数序列Θi做一阶差分,得到情感分数一阶差分序列根据j′时刻和j′+1时刻的情感分数值,计算j′时刻的一阶差分值/>然后对情感分数一阶差分序列Δ(Θi)做一阶差分,得到情感分数二阶差分序列/>
(3.5)对情感分数序列Θi、情感分数一阶差分序列Δ(Θi)和情感分数二阶差分序列Δ(Δ(Θi))分别求窗口大小为7、30、100、L内的统计值。其中统计值包括:四分位数、中位数、平均数、平滑指数、偏差、偏度、峰度、离散系数、最大值、最小值;将所有统计值横向拼接得到用户情感分数序列统计特征矩阵F3。
如图6所示,步骤(4)具体是:
(4.1)爬取用户微博关注关系到数据库中,过滤活跃度Active小于等于设定阈值σActive活跃度低的用户;活跃度NT表示用户最近一年内发布、转发和评论微博总数,NMonth表示一年中活跃的月份数,指用户在一年中最早、最晚发布、转发和评论微博的时间间隔,设定阈值σActive=5~50;
(4.2)根据用户间的关注关系构建关注网络图G=(V,E),节点集合V={vi},节点vi表示用户Ui,E表示关注关系,E={edge(vi,vg)}表示Ui关注了Ug;
(4.3)根据关注网络图G=(V,E)和用户特征矩阵F=[F1,F2,F3],每个节点vi的特征向量为Ui对应的特征向量fi。
如图7所示,步骤(5)具体是:
(5.1)对目标对象所发布的微博内容、图像,以及目标对象在微博平台上的行为的进行理解,标注脆弱性标签:b=1,表示脆弱性高,或b=0,表示脆弱性低;目标对象在微博平台上的行为包括点赞、评论和转发;
(5.2)将脆弱性标签加入到构建的关注网络图G=(V,E)中,输入GAT网络训练,训练完成后得到图网络中所有节点的脆弱性得分a;对于每个用户,a<0.5时b标注为0,否则b标注为1;
(5.3)根据用户特征矩阵F=[F1,F2,F3]和脆弱性标签b,使用GBDT算法训练得到判别器F(X);对于新的目标对象需要判别脆弱性强弱时,根据其微博数据生成对应的特征矩阵,然后使用判别器F(X)进行判别。
至此,得到带有脆弱性标志位的用户,完成整个系统的用户判别。
Claims (3)
1.一种面向社会工程学攻击的用户脆弱性分析方法,其特征在于,该方法步骤是:
步骤(1)以微博相册内容为基础,采用图像分类算法将相册内图像分为人物、风景、动物和动漫四大类,结合统计方法构建微博相册特征向量F1;具体是:
(1.1)爬取用户微博相册图像P到数据库中;
(1.2)对微博相册图像P根据图片像素进行过滤,过滤像素低于Wmin×Hmin的图片,将其余符合要求的图片调整为统一大小,得到M张图像集合w为图像的宽,h为图像的高,通道数为3;
(1.3)取MSCOCO数据集中的人物类别图像和动物类别图像、ImageNet数据集中的人物类别图像、iCartoonFace数据集中的动漫类别图像,组成图像集合,过滤图像集合中像素低于Wmin×Hmin的图片,将其余符合要求的图片调整为统一大小,得到包含N张图像的训练集
MSCOCO数据集是微软构建的一个数据集,其包含detection,segmentation,keypoints任务;ImageNet数据集是一个用于视觉对象识别软件研究的大型可视化数据库;iCartoonFace数据集即爱奇艺的动漫人脸数据集;
(1.4)基于Ptrain训练一个图像分类器Mimg;
(1.5)使用图像分类器Mimg将Ptest中的图像进行分类,分别打上标签,统计每个用户Ui相册中四类图像的数量特征矩阵Cimg=[ck|k=1,2,3,4],和对应的占比特征矩阵Proimg=[prok|k=1,2,3,4],不同值k分别表示人物、风景、动物、动漫图像;将Cimg和Proimg横向拼接得到用户图像统计特征矩阵,即微博相册特征向量F1=[Cimg,Proimg];
步骤(2)对人物图像进行人脸定位,提取出人脸图像,对人脸图像进行人脸情绪识别,根据图像时间排列得到每个用户的情绪序列,结合情绪二维坐标和统计方法构建图像情绪特征向量F2;具体是:
(2.1)根据标签分类,获得Ptest中属于人物分类的图像集合Ppeople;
(2.2)基于开源人脸情绪识别数据集Pemotion训练情绪识别分类器Memotion;
(2.3)归集每个用户Ui发布的属于人物分类的图像集合,按照图像的发布时间td排列,得到微博人物图像序列:d=1,2,…,D;
将用人脸定位工具进行人脸定位,并分割出人脸图片得到人脸图片集合j=t1,t2,...,tD;利用情绪识别分类器Memotion对/>进行标注;每张图片根据人脸定位框的大小加权投票得到其对应的情绪标签/>排列得到图像情绪序列/>
(2.4)根据Ppeople(i)统计得到每个用户Ui相册中七种情绪的数量特征矩阵Cemotion=[ce|e=1,2,…,7],以及对应的占比特征矩阵Proemotion=[proe|e=1,2,…,7],不同值e分别表示愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶;
将Cemotion和Proemotion横向拼接,得到用户图像情绪统计特征矩阵
(2.5)根据情绪二维坐标将图像情绪序列Ei转换为情绪坐标序列
(2.6)对情绪坐标序列做一阶坐标差分,得到情绪一阶差分序列其中,根据j′时刻和j′+1时刻的坐标,计算j′时刻的一阶坐标差分值/>j′=t1,t2,...,tD-1;
(2.7)对情绪坐标序列的x维度和y维度分别做一阶差分,得到情绪坐标x轴一阶差分序列/>和情绪坐标y轴一阶差分序列根据j′时刻和j′+1时刻的x和y维度值,计算j′时刻的情绪坐标x轴一阶差分值/>和情绪坐标y轴一阶差分值/>
(2.8)对情绪一阶差分序列情绪坐标x轴一阶差分序列/>和情绪坐标y轴一阶差分序列/>分别再做一阶差分,得到对应的二阶差分序列/> 和/>
对和/>分别求窗口大小为7、30、100、L内的统计值,L为序列长度;统计值包括:四分位数、中位数、平均数、平滑指数、偏差、偏度、峰度、离散系数、最大值、最小值;得到用户图像情绪统计特征矩阵/>
(2.9)横向拼接和/>得到特征矩阵F2:/>
步骤(3)获取用户微博并进行预处理,进行情感分析,为每一条微博信息打上情感分数,根据微博时间排列得到情感状态序列,结合统计方法构建情感序列特征F3;具体是:
(3.1)获取用户微博推文数据,使用正则化匹配去除标点符号;
(3.2)将每个用户Ui的微博推文内容sq,q=1,2,...,Q,Q为用户Ui微博推文的数量,利用情感分析工具进行情感分析,得到情感分数δq;
(3.3)归集用户Ui发布的微博推文,并根据微博推文的发布时间td排列,得到微博推文序列根据推文内容所对应的情感分数δq得到用户所对应的情感分数序列/>
(3.4)对情感分数序列Θi做一阶差分,得到情感分数一阶差分序列根据j′时刻和j′+1时刻的情感分数值,计算j′时刻的一阶差分值/>然后对情感分数一阶差分序列Δ(Θi)做一阶差分,得到情感分数二阶差分序列/>
(3.5)对情感分数序列Θi、情感分数一阶差分序列Δ(Θi)和情感分数二阶差分序列Δ(Δ(Θi))分别求窗口大小为7、30、100、L内的统计值;其中统计值包括:四分位数、中位数、平均数、平滑指数、偏差、偏度、峰度、离散系数、最大值、最小值;将所有统计值横向拼接得到用户情感分数序列统计特征矩阵F3;
步骤(4)结合用户特征矩阵F=[F1,F2,F3]和用户之间的关注状态构造带特征的网络图;
步骤(5)通过图网络模型以半监督的方式为所有用户标注脆弱性标签,根据用户的特征和对应标签,训练得到脆弱性分类器,得到脆弱性评分。
2.如权利要求1所述的一种面向社会工程学攻击的用户脆弱性分析方法,其特征在于,步骤(4)具体是:
(4.1)爬取用户微博关注关系到数据库中,过滤活跃度Active小于等于设定阈值σActive活跃度低的用户;活跃度NT表示用户最近一年内发布、转发和评论微博总数,NMonth表示一年中活跃的月份数,指用户在一年中最早、最晚发布、转发和评论微博的时间间隔,设定阈值σActive=5~50;
(4.2)根据用户间的关注关系构建关注网络图G=(V,E),节点集合V={vi},节点vi表示用户Ui,E表示关注关系,E={edge(vi,vg)}表示Ui关注了Ug;
(4.3)根据关注网络图G=(V,E)和用户特征矩阵F=[F1,F2,F3],每个节点vi的特征向量为Ui对应的特征向量fi。
3.如权利要求2所述的一种面向社会工程学攻击的用户脆弱性分析方法,其特征在于,步骤(5)具体是:
(5.1)对目标对象所发布的微博内容、图像,以及目标对象在微博平台上的行为的进行理解,标注脆弱性标签:b=1,表示脆弱性高,或b=0,表示脆弱性低;目标对象在微博平台上的行为包括点赞、评论和转发;
(5.2)将脆弱性标签加入到构建的关注网络图G=(V,E)中,输入GAT网络训练,训练完成后得到图网络中所有节点的脆弱性得分a;对于每个用户,a<0.5时b标注为0,否则b标注为1;
(5.3)根据用户特征矩阵F=[F1,F2,F3]和脆弱性标签b,使用GBDT算法训练得到判别器F(X);对于新的目标对象需要判别脆弱性强弱时,根据其微博数据生成对应的特征矩阵,然后使用判别器F(X)进行判别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110936589.6A CN113780360B (zh) | 2021-08-16 | 2021-08-16 | 一种面向社会工程学攻击的用户脆弱性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110936589.6A CN113780360B (zh) | 2021-08-16 | 2021-08-16 | 一种面向社会工程学攻击的用户脆弱性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780360A CN113780360A (zh) | 2021-12-10 |
CN113780360B true CN113780360B (zh) | 2024-03-29 |
Family
ID=78837829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110936589.6A Active CN113780360B (zh) | 2021-08-16 | 2021-08-16 | 一种面向社会工程学攻击的用户脆弱性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780360B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084333A (zh) * | 2020-08-31 | 2020-12-15 | 杭州电子科技大学 | 一种基于情感倾向分析的社交用户生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11227120B2 (en) * | 2019-05-02 | 2022-01-18 | King Fahd University Of Petroleum And Minerals | Open domain targeted sentiment classification using semisupervised dynamic generation of feature attributes |
-
2021
- 2021-08-16 CN CN202110936589.6A patent/CN113780360B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084333A (zh) * | 2020-08-31 | 2020-12-15 | 杭州电子科技大学 | 一种基于情感倾向分析的社交用户生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113780360A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112035669B (zh) | 基于传播异质图建模的社交媒体多模态谣言检测方法 | |
CN110222140A (zh) | 一种基于对抗学习和非对称哈希的跨模态检索方法 | |
CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
CN108492200A (zh) | 一种基于卷积神经网络的用户属性推断方法和装置 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN110096681B (zh) | 合同条款分析方法、装置、设备及可读存储介质 | |
CN108230169B (zh) | 基于社交影响力的信息传播模型及态势感知系统及方法 | |
Zamani et al. | Sentiment analysis: determining people’s emotions in Facebook | |
CN113069080A (zh) | 一种基于人工智能的困难气道评估方法及装置 | |
CN108090046A (zh) | 一种基于lda和随机森林的微博谣言识别方法 | |
CN113254652B (zh) | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 | |
CN104598648A (zh) | 一种微博用户交互式性别识别方法及装置 | |
CN109889436A (zh) | 一种社交网络中垃圾邮件发送者的发现方法 | |
CN110704715A (zh) | 一种网络霸凌的检测方法及系统 | |
CN111881901A (zh) | 截图内容检测方法、设备及计算机可读存储介质 | |
CN111428151A (zh) | 一种基于网络增速的虚假消息识别方法及其装置 | |
Afrifa et al. | Cyberbullying detection on twitter using natural language processing and machine learning techniques | |
CN113780360B (zh) | 一种面向社会工程学攻击的用户脆弱性分析方法 | |
CN105337842B (zh) | 一种与内容无关的垃圾邮件过滤方法 | |
CN110110079B (zh) | 一种社交网络垃圾用户检测方法 | |
CN116633589A (zh) | 社交网络中恶意账户检测方法、设备及存储介质 | |
CN112735555B (zh) | 罕见病数据采集上报方法及系统 | |
CN116094971A (zh) | 一种工控协议识别方法、装置、电子设备及存储介质 | |
Kurniawan et al. | Exploring Tourist Feedback on Riau Attractions Through Indonesian Language YouTube Opinion Using Naïve Bayes Algorithm | |
Pei et al. | Spammer detection via combined neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |