CN113780360B

CN113780360B - 一种面向社会工程学攻击的用户脆弱性分析方法

Info

Publication number: CN113780360B
Application number: CN202110936589.6A
Authority: CN
Inventors: 徐向华; 袁炜祺; 王然
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2024-03-29
Anticipated expiration: 2041-08-16
Also published as: CN113780360A

Abstract

本发明公开了一种面向社会工程学攻击的用户脆弱性分析方法。目前还尚未出现面向社会工程学攻击的用户脆弱性分析方法。本发明方法首先将微博相册内图像分为人物、风景、动物和动漫四大类，结合统计方法构建微博相册特征向量；对人物图像进行人脸定位提取人脸图像并进行人脸情绪识别，构建图像情绪特征向量；然后获取用户的微博内容进行情感分类，构建情感序列特征；最后结合用户特征矩阵和用户之间的关注状态构造带特征的网络图，通过图网络模型为所有用户标注脆弱性标签。脆弱性分类器根据用户特征和对应标签训练得到。本发明方法能够准确判断用户的脆弱性以及是否属于易于进行社会工程学攻击的对象，为后续的社会工程研究打下基础。

Description

一种面向社会工程学攻击的用户脆弱性分析方法

技术领域

本发明属于计算机应用与互联网技术领域，具体涉及一种面向社会工程学攻击的用户脆弱性分析方法。

背景技术

二十一世纪互联网技术得到飞速的发展，用户通过社交平台发布信息的方式变得多种多样，可以使用短信、邮件、实时软件以及网页来发布自己编辑的信息，使得社交平台上聚集了大量与个人隐私相关联的数据。社会工程学(Social Engineering)就是把对物的研究方法全盘运用到对人的研究上，并将其变成技术控制的工具。社会工程学是一种针对受害者的心理弱点、本能反应、好奇心、信任、贪婪等心理陷阱，实施诸如欺骗、伤害等危害的方法。“社会工程学攻击”就是利用人们的心理特征，骗取用户的信任，获取机密信息、系统设置等不公开资料，为攻击和病毒感染创造有利条件。

目前还尚未出现面向社会工程学攻击的用户脆弱性分析方法，攻击方式效率低下，很难满足网络对抗的需求。因此亟需一套有效的面向社会工程学攻击的用户脆弱性分析的理论与方法，剖析社会工程学攻击对象脆弱性发现机制，推演社会工程学攻击行为作用机制，建立社会工程学攻击致效机理及效能评估方法，并面向个人、群体、军事等特定场景的网络攻击开展理论试验验证，为国家网络空间安全重大战略需求提供基础理论和应用方法支持。

发明内容

本发明的目的就是提供一种面向社会工程学攻击的用户脆弱性分析方法，利用大数据时代获取数据的便利性，通过提取用户基本资料、用户关系数据和用户微博，基于用户脆弱性分析不同用户群体的行为模式和基本特征，通过人工标注的少量标签半监督式给所有用户标注脆弱性标签并训练判别器。

本发明采用如下方案：

步骤(1)以微博相册内容为基础，采用图像分类算法将相册内图像分为人物、风景、动物和动漫四大类，结合统计方法构建微博相册特征向量F₁；

步骤(2)对人物图像进行人脸定位，提取出人脸图像，对人脸图像进行人脸情绪识别，根据图像时间排列得到每个用户的情绪序列，结合情绪二维坐标和统计方法构建图像情绪特征向量F₂；

步骤(3)获取用户微博并进行预处理，进行情感分析，为每一条微博信息打上情感分数，根据微博时间排列得到情感状态序列，结合统计方法构建情感序列特征F₃；

步骤(4)结合用户特征矩阵F＝[F₁,F₂,F₃]和用户之间的关注状态构造带特征的网络图；

步骤(5)通过图网络模型以半监督的方式为所有用户标注脆弱性标签，根据用户的特征和对应标签，训练得到脆弱性分类器，得到脆弱性评分。

进一步，步骤(1)具体是：

(1.1)爬取用户微博相册图像P到数据库中；

(1.2)对微博相册图像P根据图片像素进行过滤，过滤像素低于W_min×H_min的图片，将其余符合要求的图片调整为统一大小，得到M张图像集合w为图像的宽，h为图像的高，通道数为3；

(1.3)取MSCOCO数据集中的人物类别图像和动物类别图像、ImageNet数据集中的人物类别图像、iCartoonFace数据集中的动漫类别图像，组成图像集合，过滤图像集合中像素低于W_min×H_min的图片，将其余符合要求的图片调整为统一大小，得到包含N张图像的训练集

MSCOCO数据集是微软构建的一个数据集，其包含detection,segmentation,keypoints等任务；ImageNet数据集是一个用于视觉对象识别软件研究的大型可视化数据库；iCartoonFace数据集即爱奇艺的动漫人脸数据集；

(1.4)基于P_train训练一个图像分类器M_img；

(1.5)使用图像分类器M_img将P_test中的图像进行分类，分别打上标签，统计每个用户U_i相册中四类图像的数量特征矩阵C_img＝[c_k|k＝1,2,3,4]，和对应的占比特征矩阵Pro_img＝[pro_k|k＝1,2,3,4]，不同值k分别表示人物、风景、动物、动漫图像；将C_img和Pro_img横向拼接得到用户图像统计特征矩阵，即微博相册特征向量F₁＝[C_img,Pro_img]。

再进一步，步骤(2)具体是：

(2.1)根据标签分类，获得P_test中属于人物分类的图像集合P_people；

(2.2)基于开源人脸情绪识别数据集P_emotion训练情绪识别分类器M_emotion；

(2.3)归集每个用户U_i发布的属于人物分类的图像集合，按照图像的发布时间t_d排列，得到微博人物图像序列：

将用人脸定位工具进行人脸定位，并分割出人脸图片得到人脸图片集合/>利用情绪识别分类器M_emotion对/>进行标注；每张图片根据人脸定位框的大小加权投票得到其对应的情绪标签/>排列得到图像情绪序列/>

(2.4)根据P_people(i)统计得到每个用户U_i相册中七种情绪的数量特征矩阵C_emotion＝[c_e|e＝1,2,...,7]，以及对应的占比特征矩阵Pro_emotion＝[pro_e|e＝1,2,...,7]，不同值e分别表示愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶；

将C_emotion和Pro_emotion横向拼接，得到用户图像情绪统计特征矩阵

(2.5)根据情绪二维坐标将图像情绪序列E(i)转换为情绪坐标序列

(2.6)对情绪坐标序列做一阶坐标差分，得到情绪一阶差分序列其中，根据j′时刻和j′+1时刻的坐标，计算j′时刻的一阶坐标差分值/>

(2.7)对情绪坐标序列的x维度和y维度分别做一阶差分，得到情绪坐标x轴一阶差分序列/>和情绪坐标y轴一阶差分序列根据j′时刻和j′+1时刻的x和y维度值，计算j′时刻的情绪坐标x轴一阶差分值/>和情绪坐标y轴一阶差分值/>

(2.8)对情绪一阶差分序列情绪坐标x轴一阶差分序列/>和情绪坐标y轴一阶差分序列/>分别再做一阶差分，得到对应的二阶差分序列和/>

对和/>分别求窗口大小为7、30、100、L内的统计值，L为序列长度；统计值包括：四分位数、中位数、平均数、平滑指数、偏差、偏度、峰度、离散系数、最大值、最小值；得到用户图像情绪统计特征矩阵/>

(2.9)横向拼接和/>得到特征矩阵F₂：/>

更进一步，步骤(3)具体是：

(3.1)获取用户微博推文数据，使用正则化匹配去除标点符号；

(3.2)将每个用户U_i的微博推文内容s_q，q＝1,2,...,Q，Q为用户U_i微博推文的数量，利用情感分析工具进行情感分析，得到情感分数δ_q；

(3.3)归集用户U_i发布的微博推文，并根据微博推文的发布时间t_d排列，得到微博推文序列根据推文内容所对应的情感分数δ_q得到用户所对应的情感分数序列/>

(3.4)对情感分数序列Θⁱ做一阶差分，得到情感分数一阶差分序列根据j′时刻和j′+1时刻的情感分数值，计算j′时刻的一阶差分值/>然后对情感分数一阶差分序列Δ(Θⁱ)做一阶差分，得到情感分数二阶差分序列/>

(3.5)对情感分数序列Θⁱ、情感分数一阶差分序列Δ(Θⁱ)和情感分数二阶差分序列Δ(Δ(Θⁱ))分别求窗口大小为7、30、100、L内的统计值。其中统计值包括：四分位数、中位数、平均数、平滑指数、偏差、偏度、峰度、离散系数、最大值、最小值；将所有统计值横向拼接得到用户情感分数序列统计特征矩阵F₃。

又进一步，步骤(4)具体是：

(4.1)爬取用户微博关注关系到数据库中，过滤活跃度Active小于等于设定阈值σ_Active活跃度低的用户；活跃度N_T表示用户最近一年内发布、转发和评论微博总数，N_Month表示一年中活跃的月份数，指用户在一年中最早、最晚发布、转发和评论微博的时间间隔，设定阈值σ_Active＝5～50；

(4.2)根据用户间的关注关系构建关注网络图G＝(V,E)，节点集合V＝{v_i}，节点v_i表示用户U_i，E表示关注关系，E＝{edge(v_i,v_g)}表示U_i关注了U_g；

(4.3)根据关注网络图G＝(V,E)和用户特征矩阵F＝[F₁,F₂,F₃]，每个节点v_i的特征向量为U_i对应的特征向量f_i。

还进一步，步骤(5)具体是：

(5.1)对目标对象所发布的微博内容、图像，以及目标对象在微博平台上的行为的进行理解，标注脆弱性标签：b＝1，表示脆弱性高，或b＝0，表示脆弱性低；目标对象在微博平台上的行为包括点赞、评论和转发；

(5.2)将脆弱性标签加入到构建的关注网络图G＝(V,E)中，输入GAT网络训练，训练完成后得到图网络中所有节点的脆弱性得分a；对于每个用户，a＜0.5时b标注为0，否则b标注为1；

(5.3)根据用户特征矩阵F＝[F₁,F₂,F₃]和脆弱性标签b，使用GBDT算法训练得到判别器F(X)；对于新的目标对象需要判别脆弱性强弱时，根据其微博数据生成对应的特征矩阵，然后使用判别器F(X)进行判别。

至此，得到带有脆弱性标志位的用户，完成整个系统的用户判别。

本发明方法是从大量的社交用户中分析用户的脆弱性特性，据此判别目标对象的是否是易于进行社会工程学攻击的对象。本发明的数据集采用大量微博数据，分析结果更可信。在选择特征方面，使用了微博推文情绪特征、微博图像喜好特征、微博图像情绪特征为基础建立特征矩阵。在标签构建方面，传统方法完全依靠人工进行标签的标注，此类方法只能获得少量的标签，会对最终数据集的规模大小产生影响，干扰了由数据训练得到的判别器的鲁棒性，对后面社会工程学攻击目标选择形成很大的误导。本发明方法添加了基于图神经网络的半监督标注标签的过程，弥补了传统标签分类的不足，结合人工少量标注，使训练得到的判别器更具鲁棒性。

本发明方法解决了目前社交网络用户不能判别用户脆弱性以及不能自动为用户标注脆弱性标签的问题，能够根据目标对象的微博信息判断用户的脆弱性以及是否是易于进行社会工程学攻击的对象，为后续的社会工程研究打下基础。

附图说明

图1为本发明的流程图；

图2为以微博相册内容为基础构建用户相册统计特征流程图；

图3为以人物图像为基础构建用户图像情绪特征流程图；

图4为情绪二维坐标示意图；

图5为以推文内容为基础建用户推文情绪统计特征流程图；

图6为以用户特征矩阵和用户间关注关系为基础构建特征网络图流程图；

图7为基于少量人工标签训练二分类判别器的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种面向社会工程学攻击的用户脆弱性分析方法，步骤是：

如图2所示，步骤(1)具体是：

(1.1)爬取用户微博相册图像P到数据库中；

(1.4)基于P_train训练一个图像分类器M_img，该模型用ImageNet上预训练的标准ResNet-50作为骨干网络，将ResNet-50的最后一层替换为一个有256个输出单元的线性层，接着再连接ReLu层和Dropout层，然后连接256*4的线性层，输出为4通道的softmax层；

如图3所示，步骤(2)具体是：

(2.1)根据标签分类，获得P_test中属于人物分类的图像集合1表示人物分类；

(2.2)基于开源人脸情绪识别数据集P_emotion，基于CNN训练情绪识别分类器M_emotion，该分类器将人脸情绪归为七大类：愤怒、厌恶，恐惧、快乐、中性、悲伤、惊讶；

将用人脸定位工具进行人脸定位，并分割出人脸图片得到人脸图片集合/>利用情绪识别分类器M_emotion对/>进行标注；每张图片根据人脸定位框的大小加权投票得到其对应的情绪标签/>排列得到图像情绪序列/>每张图片根据人脸定位框的大小加权投票得到其对应的情绪标签I为指示函数，w、h分别表示人脸图像的宽和长；

(2.4)根据P_people(i)统计得到每个用户U_i相册中七种情绪的数量特征矩阵C_emotion＝[c_e|e＝1,2,…,7]，以及对应的占比特征矩阵Pro_emotion＝[pro_e|e＝1,2,…,7]，不同值e分别表示愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶；

(2.5)如图4所示，根据情绪二维坐标将图像情绪序列E(i)转换为情绪坐标序列

(2.9)横向拼接和/>得到特征矩阵F₂：/>

如图5所示，步骤(3)具体是：

(3.1)获取用户微博推文数据，使用正则化匹配去除标点符号；特殊的字符和字段，包括：“@XXX”、“[表情符号]”、超链接；其中“@XXX”表示微博正文或评论中提到某一用户或对用户说的话，以引起该用户注意；“[表情符号]”是指微博中特有的表情，代表发帖人内心的想法，可以是开心，难受，惊恐等；超链接一般指http和https协议下的链接，通过点击链接可以转到第三方页面，如：https://weibo.com/；

如图6所示，步骤(4)具体是：

如图7所示，步骤(5)具体是：

Claims

1.一种面向社会工程学攻击的用户脆弱性分析方法，其特征在于，该方法步骤是：

步骤(1)以微博相册内容为基础，采用图像分类算法将相册内图像分为人物、风景、动物和动漫四大类，结合统计方法构建微博相册特征向量F₁；具体是：

(1.1)爬取用户微博相册图像P到数据库中；

MSCOCO数据集是微软构建的一个数据集，其包含detection,segmentation,keypoints任务；ImageNet数据集是一个用于视觉对象识别软件研究的大型可视化数据库；iCartoonFace数据集即爱奇艺的动漫人脸数据集；

(1.4)基于P_train训练一个图像分类器M_img；

(1.5)使用图像分类器M_img将P_test中的图像进行分类，分别打上标签，统计每个用户U_i相册中四类图像的数量特征矩阵C_img＝[c_k|k＝1,2,3,4]，和对应的占比特征矩阵Pro_img＝[pro_k|k＝1,2,3,4]，不同值k分别表示人物、风景、动物、动漫图像；将C_img和Pro_img横向拼接得到用户图像统计特征矩阵，即微博相册特征向量F₁＝[C_img,Pro_img]；

步骤(2)对人物图像进行人脸定位，提取出人脸图像，对人脸图像进行人脸情绪识别，根据图像时间排列得到每个用户的情绪序列，结合情绪二维坐标和统计方法构建图像情绪特征向量F₂；具体是：

(2.3)归集每个用户U_i发布的属于人物分类的图像集合，按照图像的发布时间t_d排列，得到微博人物图像序列：d＝1,2,…,D；

将用人脸定位工具进行人脸定位，并分割出人脸图片得到人脸图片集合j＝t₁,t₂,...,t_D；利用情绪识别分类器M_emotion对/>进行标注；每张图片根据人脸定位框的大小加权投票得到其对应的情绪标签/>排列得到图像情绪序列/>

(2.5)根据情绪二维坐标将图像情绪序列Eⁱ转换为情绪坐标序列

(2.6)对情绪坐标序列做一阶坐标差分，得到情绪一阶差分序列其中，根据j′时刻和j′+1时刻的坐标，计算j′时刻的一阶坐标差分值/>j′＝t₁,t₂,...,t_D-1；

(2.8)对情绪一阶差分序列情绪坐标x轴一阶差分序列/>和情绪坐标y轴一阶差分序列/>分别再做一阶差分，得到对应的二阶差分序列/> 和/>

(2.9)横向拼接和/>得到特征矩阵F₂：/>

步骤(3)获取用户微博并进行预处理，进行情感分析，为每一条微博信息打上情感分数，根据微博时间排列得到情感状态序列，结合统计方法构建情感序列特征F₃；具体是：

(3.5)对情感分数序列Θⁱ、情感分数一阶差分序列Δ(Θⁱ)和情感分数二阶差分序列Δ(Δ(Θⁱ))分别求窗口大小为7、30、100、L内的统计值；其中统计值包括：四分位数、中位数、平均数、平滑指数、偏差、偏度、峰度、离散系数、最大值、最小值；将所有统计值横向拼接得到用户情感分数序列统计特征矩阵F₃；

2.如权利要求1所述的一种面向社会工程学攻击的用户脆弱性分析方法，其特征在于，步骤(4)具体是：

3.如权利要求2所述的一种面向社会工程学攻击的用户脆弱性分析方法，其特征在于，步骤(5)具体是：