CN115423639A - 一种面向社交网络的安全社区发现方法 - Google Patents

一种面向社交网络的安全社区发现方法 Download PDF

Info

Publication number
CN115423639A
CN115423639A CN202211088408.XA CN202211088408A CN115423639A CN 115423639 A CN115423639 A CN 115423639A CN 202211088408 A CN202211088408 A CN 202211088408A CN 115423639 A CN115423639 A CN 115423639A
Authority
CN
China
Prior art keywords
network
account
accounts
data set
layer data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211088408.XA
Other languages
English (en)
Inventor
黄诚
曾雨潼
杜予同
余泓豪
陈勇
徐奕鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202211088408.XA priority Critical patent/CN115423639A/zh
Publication of CN115423639A publication Critical patent/CN115423639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种面向社交网络的安全社区发现方法,包括:手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号;采集种子账号的关联账号构成自我网络中的账号数据作为第一层数据集;对数据集中的文本数据进行预处理以及账号特征的提取,得到第二层数据集;判别账号是否属于安全账号,剔除非安全人员账号更新得到第三层数据集;以账号间的双向关系构建拓扑图并剪枝,得到包含网络结构的第四层数据集;进行局部网络的扩展,得到包含完整局部网络的第五层数据集;第五层数据集作为输入,利用社区发现模型进行安全社区的划分。本发明属于网络安全领域,能够从海量社交网络数据中准确且快速挖掘安全人员组成的社区。

Description

一种面向社交网络的安全社区发现方法
技术领域
本发明属于网络安全领域,具体设计一种面向社交网络中安全社区的发现方法。
背景技术
在当今的网络格局中,对高级攻击或漏洞利用的防范手段日益困难。攻击者拥有大量的资金、精湛的技术和丰富的经验,他们不仅仅提高自身的攻击技术,还善于找到包括管理、人员等企业防护的薄弱环节。面对如此复杂的网络攻防现状,一种应对网络攻击的方式是关注社交网络中活跃的安全社区,并对其进行监视和了解,挖掘其内部生态的同时并对网络安全事件进行启发式地识别。社交网络逐渐成为人们进行日常社交活动不可或缺的一部分,其也吸引了大量活跃的黑客。
社交网络的数据规模庞大,涉及各行各业的用户,网络安全领域相关的账号仅占社交网络的少部分,而对安全社区这一结构化的数据进行发现则更为困难。通过人工手动分析社交网络上的黑客社区需要大量的时间以及专业背景,因此需要提出一种方法或工具对社交网络账号数据进行自动化的分析,发现其中隐藏的黑客社区。
目前研究社区发现的方法大致分为三类:传统方法、深度学习方法和基于图神经网络的社区发现方法。传统方法大多数基于统计推断和机器学习发展而来。与机器学习的方法相比,深度学习能够处理高维数据情形下的社区发现问题。然而,社区检测任务需要处理包含节点元素之间丰富的非欧几里得图数据,传统的深度学习模型则不能很好地处理。图神经网络作为用于处理图数据的神经网络,可用于弥补这一缺陷。
本发明通过社交网络上的同质性分析以批量获取潜在的安全账号,运用机器学习算法加以判别,使用图神经网络挖掘其中的隐式组织关系,实现社交网络上安全社区的发现。
发明内容
有鉴于此,本发明提供了一种针对社交网络中安全社区的发现方法,旨在挖掘社交网络上的安全社区,解决社交网络中安全社区发现难的问题。
一种针对社交网络中安全社区的发现方法,所述方法包括:
步骤 1:手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号;
步骤2:利用单个种子账号的关联信息缩小采样范围,依据种子账号的关联账号构成自我网络,同时对自我网络中的账号数据进行采集作为第一层数据集;
步骤3:对第一层数据集中所有账号的文本数据进行预处理后,提取所有账号特征,得到包含所有账号的特征矩阵作为第二层数据集;
步骤4:使用基于改进后的GBDT模型对第二层数据集中的账号进行判别,剔除非安全人员账号,更新得到仅包含安全人员账号数据的第三层数据集;
步骤5:依据步骤4得到的第三层数据集中的安全人员账号作为节点,节点间的双向关注关系构建初始社交拓扑图,从不同的角度对网络结构间的关联进行建模,以此作为策略依据对边关系进行剪枝,得到包含初始社交拓扑图的第四层数据集;
步骤6:选取步骤5生成的第四层数据集进行局部网络的扩展,以度中心性作为基准选取候选迭代节点,得到包含完整局部网络结构的第五层数据集;
步骤7:根据第五层数据集中的节点特征矩阵和邻接矩阵,基于图神经网络构建下游的重叠社区发现任务,完成对安全社区的划分。
优选的,所述种子账号的筛选流程包括:
步骤1a:手动筛选社交网络上所关注网络安全领域的特定安全人员账号,方法包括:
(1) 基于粉丝量并观察账号内容是否包含网络安全热点事件或主题,收集满足要求的社交网络账号;
(2) 基于网络安全领域机构查找相应的社交网络账号,并收集账号;
(3) 基于关键词查找该领域的影响力较高的文本内容,并收集所属账号。
优选的,所述第一层数据集的采集流程包括:
步骤2a:利用单个种子账号的关联信息缩小采样范围,通过网络爬虫和开发者接口采集该种子账号的个人资料和文本数据;
步骤2b:统计个人资料中与种子账号具备关注关系以及在文本数据中产生交互行为的关联账号集合,构成自我网络,并对其中的账号进行去重;
步骤2c:再次利用网络爬虫与开发者接口进行关联账号的个人资料与文本数据采集,完成第一层数据集的获取。
优选的,所述第二层数据集中账号文本数据预处理及账号特征提取流程包括:
步骤3a:将所有的文本数据翻译为英文,便于后续的统一预处理;
步骤3b:从收集到的账号文本数据中去除非ASCII字符、标点符号和停用词;
步骤3c:将文本中所有单词中的大写字母全部由小写字母替换,并使用NLTK进行词形还原;
步骤3d:使用特征工程方法对第一层数据集中的账号从如下四个角度生成特征:
资料特征:账号名特征、账号社交特征、账号设置特征;
行为特征:账号发文特征、发文来源特征;
文本特征:文本可读性、关键词特征;
时序特征:发文时序特征;
步骤3e:得到包含账号预处理数据及节点特征矩阵的第二层数据集。
优选的,所述第三层数据集中采集账号判别流程包括:
步骤4a:根据步骤3中预处理后的第二层数据集,得到节点特征矩阵作为训练集,依据账号内容是否包含网络安全领域知识,人工将训练用账号分为安全账号与无关两类;
步骤4b:使用改进后的GBDT模型对训练集进行训练,其中训练数据集为
Figure 610760DEST_PATH_IMAGE001
Figure 527900DEST_PATH_IMAGE002
Figure 307638DEST_PATH_IMAGE003
为输入空间,
Figure 702847DEST_PATH_IMAGE004
Figure 517219DEST_PATH_IMAGE005
为输出空间,训练的步骤如下:
(1) 初始化弱学习器,
Figure 339682DEST_PATH_IMAGE006
,损失函数为平方损失;
(2) 建立
Figure 544398DEST_PATH_IMAGE007
棵分类回归树
Figure 743298DEST_PATH_IMAGE008
,通过公式
Figure 412177DEST_PATH_IMAGE009
,计算第
Figure 405541DEST_PATH_IMAGE010
棵树对应的响应值;
(3) 利用CART回归树拟合数据
Figure 159870DEST_PATH_IMAGE011
,得到第
Figure 834565DEST_PATH_IMAGE012
棵回归树,其对应的叶子节点区域为
Figure 357950DEST_PATH_IMAGE013
,其中
Figure 787794DEST_PATH_IMAGE014
Figure 29420DEST_PATH_IMAGE015
为第
Figure 304543DEST_PATH_IMAGE012
棵回归树叶子节点的个数;
(4) 通过公式
Figure 948014DEST_PATH_IMAGE016
计算出
Figure 220864DEST_PATH_IMAGE015
个叶子节点区域的最佳拟合值;
(5) 为避免GBDT陷入过拟合,依据公式
Figure 949786DEST_PATH_IMAGE017
更新强学习器,并增加了GBDT的迭代次数,
Figure 28600DEST_PATH_IMAGE018
为改进后的减小残差收敛次数的参数;
步骤4c:使用训练好的分类模型预测其余未经人工标注账号是否为安全人员账号,移除第二层数据集中分类模型预测为非安全人员帐号,更新后得到第三层数据集。
优选的,所述第四层数据集中社交拓扑图构建及边剪枝过程包括:
步骤5a:使用步骤4中得到的第三层数据集初始化网络结构,安全人员账号作为网络节点,并采用账号间的双向关注关系作为网络结构中的边关系;
步骤5b:利用账号间的交互关系、内容相似程度、好友粉丝相关性对网络中的关联进行建模:
(1) 统计账号间产生过的互动次数用于表征账号间的交互关系;
(2) 计算账号间的内容相似程度,通过互信息对文本数据中的关键词进行筛选,并选取前
Figure 526577DEST_PATH_IMAGE019
个关键词用于表征账号内容,最后采用余弦相似度算法计算两个账号间的相似程度;
(3) 计算账号间的社交结构的相似性,即两账号好友与粉丝列表的交集与并集之比;
步骤5c:构建剪枝策略对边关系进行裁剪,剪枝策略如下:
(1) 账号间存在交互关系,表明账号间存在的社交关联;
(2) 账号间社交结构与内容存在相似性,表明账号间存在同质性;
步骤5d:移除不满足上述策略的边关系,同时更新构建的网络结构,得到第四层数据集。
优选的,所述第五层数据集中局部网络扩展流程包括:
步骤6a:依据步骤5中得到的第四层数据集中的初始社交拓扑图构建
Figure 298224DEST_PATH_IMAGE020
度局部网络,
Figure 685081DEST_PATH_IMAGE020
为自然数,当
Figure 567586DEST_PATH_IMAGE021
时,所述局部网络即为以种子账号为中心的自我网络;当
Figure 920070DEST_PATH_IMAGE022
时,局部网络还包括与迭代节点的
Figure 862619DEST_PATH_IMAGE023
度候选邻居节点直接连接的邻居节点;
步骤6b:手动设置度中心性阈值
Figure 300553DEST_PATH_IMAGE024
,选取初始社交拓扑图中度中心性达到阈值
Figure 721170DEST_PATH_IMAGE025
的节点作为种子账号重复步骤2-4,并在初始社交拓扑图基础上采用步骤5的策略进行节点的扩充,候选迭代节点为度中心性同样达到阈值
Figure 131423DEST_PATH_IMAGE026
的新扩充节点,完成局部网络的扩展后得到最终的第五层数据集。
优选的,所述安全社区划分流程包括:
步骤7a:依据步骤6中得到的第五层数据集,将节点特征矩阵
Figure 244872DEST_PATH_IMAGE027
与节点邻接矩阵
Figure 170103DEST_PATH_IMAGE028
作为共同输入,使用图神经网络结合伯努利-泊松图生成模型进行重叠社区发现,并手动尝试设定不同的社区数目使结果最优,其中社区发现模型的具体步骤如下:
(1) 采用伯努利-泊松模型进行图生成,给定从属关系
Figure 394411DEST_PATH_IMAGE029
,依据公式
Figure 455908DEST_PATH_IMAGE030
对邻接矩阵
Figure 677942DEST_PATH_IMAGE031
进行采样,其中
Figure 90469DEST_PATH_IMAGE032
是节点
Figure 118468DEST_PATH_IMAGE033
的社区从属行向量;
(2) 采用如下算式定义伯努利-泊松模型的负对数似然损失函数:
Figure 300050DEST_PATH_IMAGE034
其中
Figure 489723DEST_PATH_IMAGE035
Figure 389546DEST_PATH_IMAGE036
分别表示边和非边上的均匀分布;
(3) 利用神经网络参数
Figure 893340DEST_PATH_IMAGE037
来最小化负对数似然函数,如
Figure 195008DEST_PATH_IMAGE038
(4) 图神经网络定义为
Figure 555582DEST_PATH_IMAGE039
(5) 基于步骤(4)定义的模型,将节点特征矩阵
Figure 942701DEST_PATH_IMAGE027
与节点邻接矩阵
Figure 312503DEST_PATH_IMAGE028
作为共同输入,得到最终的社区划分结果。
本申请提供了一种针对社交网络中安全社区的发现方法,填补了现有技术的空缺,本发明的有益效果是:以社交网络为落脚点,从单个种子用户出发,根据关联分析扩展生成局部网络,通过特征工程实现了一种简单可行的安全人员识别方案,结合剪枝策略优化拓扑图中的边关系,结合图结构与节点特征完成了对潜在社区的识别,为相关从业人员提供从海量社交网络数据中挖掘安全社区的策略,可应用于企业防御与安全研究。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的针对社交网络中安全社区的发现方法。
图2为本申请实施例提供的社交拓扑图构建的流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的具体实施方式做进一步详细描述。以下实施例或者附图用于说明本发明,但不用来限制本发明的范围。
参见图1,图1为本申请实施例提供的针对社交网络中安全社区的发现方法流程图,包括:
步骤1:手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号;
步骤2:利用单个种子账号的关联信息缩小采样范围,依据种子账号的关联账号构成自我网络,同时对自我网络中的账号数据进行采集作为第一层数据集;
步骤3:对第一层数据集中所有账号的文本数据进行预处理后,提取所有账号特征,得到包含所有账号的特征矩阵作为第二层数据集;
步骤4:使用基于改进后的GBDT模型对第二层数据集中的账号进行判别,剔除非安全人员账号,更新得到仅包含安全人员账号数据的第三层数据集;
步骤5:依据步骤4得到的第三层数据集中的安全人员账号作为节点,节点间的双向关注关系构建初始社交拓扑图,从不同的角度对网络结构间的关联进行建模,以此作为策略依据对边关系进行剪枝,得到包含初始社交拓扑图的第四层数据集;
步骤6:选取步骤5生成的第四层数据集进行局部网络的扩展,以度中心性作为基准选取候选迭代节点,得到包含完整局部网络结构的第五层数据集;
步骤7:根据第五层数据集中的节点特征矩阵和邻接矩阵,基于图神经网络构建下游的重叠社区发现任务,完成对安全社区的划分。
对于筛选社交网络上所关注网络安全领域的特定安全人员账号,其具体步骤包括:
步骤1a:手动筛选社交网络上所关注网络安全领域的特定安全人员账号,方法包括:
(1) 基于粉丝量并观察账号内容是否包含网络安全热点事件或主题,收集满足要求的社交网络账号;
(2) 基于网络安全领域机构查找相应的社交网络账号,并收集账号;
(3) 基于关键词查找该领域的影响力较高的文本内容,并收集所属账号;
步骤1b:利用网络爬虫和开发者接口采集选定种子账号的个人资料和文本数据;
可选地,如果本实施例在运行一段时间后,社区内人员已发生较大变动,则可以重新进行步骤1b,并重新进行模型训练以获取社区划分结果。
对于第一层数据集的采集,其具体步骤包括:
步骤2a:选择一个已采集的种子账号,统计与之具备关注及粉丝关系的所有账号ID;
步骤2b:统计文本数据中与种子账号存在交互关系的所有账号ID,交互行为包括评论、转发、点赞、引用、提及、回复;
步骤2c:将上述的所有账号ID去重后,以种子账号为中心构成自我网络,利用网络爬虫和开发者接口采集所有账号的个人资料和文本资料,完成第一层数据集的采集。
对于第二层数据集中账号文本数据预处理及账号特征提取流程,其具体步骤包括:
步骤3a:将所有的文本数据翻译为英文,便于后续的统一预处理;
步骤3b:从收集到的账号文本数据中去除非ASCII字符、标点符号和停用词;
步骤3c:将文本中所有单词中的大写字母全部由小写字母替换,并使用NLTK进行词形还原;
步骤3d:考虑到个人资料可用于区别不同的账号,提取的资料特征包括:
提取账号名中的字母数、数字数和大写字母数;
提取账号的好友数、粉丝数和二者的比率;
提取账号是否设置位置信息和个人介绍链接;
步骤3e:考虑到发布文本的各种行为可对账号的习惯进行表征,提取的行为特征包括:
提取账号已发布的文本总条数;
提取账号发布文本中出现的链接、标签和各种行为的平均数目;
提取账号发布文本使用的设备的多样性,通过玛格列夫丰富度指数进行计算;
步骤3f:考虑到账号发布文本的时间序列可以对账号的活跃程度进行表征,提取的时序特征包括:
提取时间序列间隔的平均值、标准分布、最大值与最小值;
提取最近一周的文本条数占所有文本总条数的比例;
步骤3g:考虑到账号的文本内容可以反应账号在领域内的关注话题,通过提取安全领域的关键词作为特征,提取步骤包括:
收集安全领域的文本语料以及安全无关的一般文本语料,并进行步骤3b、3c的数据预处理;
prototypical keywords用于提取特定类别人员的常用词法表达,其可用公式1来计算:
Figure 203098DEST_PATH_IMAGE040
(1)
Figure 442231DEST_PATH_IMAGE041
为单词
Figure 51066DEST_PATH_IMAGE042
在类别
Figure 224559DEST_PATH_IMAGE043
的语料中被提及的次数;
weirdness score假定特定类别的语料中的词汇分布相较于一般语料中的单词分布明显不同,其可用公式2来计算:
Figure 235240DEST_PATH_IMAGE044
(2)
其中
Figure 203196DEST_PATH_IMAGE045
Figure 299328DEST_PATH_IMAGE046
分别为特定语料与一般语料中单词
Figure 948615DEST_PATH_IMAGE042
的出现频次,而
Figure 813803DEST_PATH_IMAGE047
Figure 952660DEST_PATH_IMAGE048
则为语料中的总词汇量;
TF-IDF用于评估单词对于一个语料库中其中一份语料的重要程度,TF为某个词在文章中出现的词频,IDF即逆文档频率,其可用公式3来计算:
Figure 536089DEST_PATH_IMAGE049
(3)
其中
Figure 785804DEST_PATH_IMAGE020
为语料库的文档总数,
Figure 771078DEST_PATH_IMAGE050
为包含该词的文档总数,由于只包含两类语料,此处
Figure 18520DEST_PATH_IMAGE020
值为2;
选取上述三种提取方法提取的前
Figure 89244DEST_PATH_IMAGE019
个关键词,去重后作为特征关键词,每个账号的特征采用公式4的方式进行计算:
Figure 142650DEST_PATH_IMAGE051
(4)
其中
Figure 982430DEST_PATH_IMAGE052
是关键词
Figure 463090DEST_PATH_IMAGE053
在账号文本数据中出现的次数,
Figure 755531DEST_PATH_IMAGE054
是账号文本数据的字词集合;
依次对第一层数据集中的每个账号节点进行特征提取,得到包含节点特征矩阵的第二层数据集;
可选地,如果本实施例在运行一段时间后,当前安全人员识别模型已无法高精度地完成任务,则可以重新进行步骤3g,或者增加提取的关键词特征数量,并重新进行模型训练以适应网络安全领域词法的变化。
对于判别采集的账号是否属于安全账号,剔除以得到第三层数据集的具体步骤包括:
步骤4a:根据步骤3中预处理后的第二层数据集,得到节点特征矩阵作为训练集,依据账号是否从事网络安全领域,人工将训练用账号分为安全账号与无关两类;
步骤4b:将标记完成的节点特征矩阵作为训练集,其中训练数据集为
Figure 550312DEST_PATH_IMAGE001
Figure 244599DEST_PATH_IMAGE002
Figure 896160DEST_PATH_IMAGE003
为输入空间,
Figure 941476DEST_PATH_IMAGE004
Figure 336685DEST_PATH_IMAGE005
为输出空间;
步骤4c:初始化弱学习器,如公式5所示:
Figure 885478DEST_PATH_IMAGE006
(5)
其中损失函数
Figure 409738DEST_PATH_IMAGE055
为平方损失;
步骤4d:建立
Figure 676772DEST_PATH_IMAGE007
棵分类回归树
Figure 875672DEST_PATH_IMAGE008
,通过公式6,计算第
Figure 278971DEST_PATH_IMAGE010
棵树对应的响应值:
Figure 537914DEST_PATH_IMAGE056
(6)
步骤4e:利用CART回归树拟合数据
Figure 229927DEST_PATH_IMAGE011
,得到第
Figure 966939DEST_PATH_IMAGE010
棵回归树,其对应的叶子节点区域为
Figure 490324DEST_PATH_IMAGE057
,其中
Figure 920168DEST_PATH_IMAGE058
Figure 896215DEST_PATH_IMAGE015
为第
Figure 436917DEST_PATH_IMAGE010
棵回归树叶子节点的个数;
步骤4f:对于
Figure 18071DEST_PATH_IMAGE015
个叶子节点区域,通过公式7计算出最佳拟合值:
Figure 353238DEST_PATH_IMAGE059
(7)
步骤4g:为避免GBDT陷入过拟合,依据公式
Figure 82159DEST_PATH_IMAGE017
,更新强学习器,并增加了GBDT的迭代次数,
Figure 160974DEST_PATH_IMAGE018
为改进后的减小残差收敛次数的参数;
步骤4h:将其余未经人工标注的账号数据输入到训练好的分类模型,模型会输出一个0到1之间的数字。当输出数字大于等于0.5时,则表示分类模型认为该账号为安全账号。优选地,只保留被分类模型预测为安全账号的账号数据进行后续的社区划分,即剔除第二层数据集中的非安全人员账号,更新得到第三层数据集。
参见图2,图2为本申请实施例社交拓扑图的建立构建及边关系剪枝,其具体步骤包括:
步骤5a:使用步骤4中得到的第三层初始化网络结构,账号作为社交拓扑图中的节点,并采用双向关注构建边关系;
步骤5b:利用账号间的交互关系、内容相似程度、好友粉丝相关性对网络中的关联进行建模:
(1) 统计账号间产生过的互动次数用于表征账号间的交互关系;
(2) 计算账号间的内容相似程度,通过互信息对文本数据中的关键词进行筛选,并选取前
Figure 658951DEST_PATH_IMAGE019
个关键词用于表征账号内容,最后采用余弦相似度算法计算两个账号间的相似程度;
(3) 计算账号间的社交结构的相似性,即两账号好友与粉丝列表的交集与并集之比;
步骤5c:使用如下的剪枝策略对账号间的边关系进行缩减:
考虑到交互关系的关联程度较强,若账号间存在交互关系,则保留边关系;
考虑到社交网络上的同质性,若账号间内容存在相似,且好友粉丝任一存在相关,则保留边关系;
若满足以上策略之一则保留边关系,反之则删除,更新社交拓扑图中的网络结构,得到第四层数据集。
对于局部网络的扩展,得到包含完整局部网络结构的第五层数据集,其具体步骤包括:
步骤6a:依据步骤5中得到的第四层数据集中的初始社交拓扑图构建
Figure 165019DEST_PATH_IMAGE020
度局部网络,
Figure 318920DEST_PATH_IMAGE020
为自然数,当
Figure 201425DEST_PATH_IMAGE021
时,所述局部网络即为以种子账号为中心的自我网络;当
Figure 553909DEST_PATH_IMAGE022
时,局部网络还包括与迭代节点的
Figure 496457DEST_PATH_IMAGE060
度候选邻居节点直接连接的邻居节点;
步骤6b:手动设置度中心性阈值
Figure 934392DEST_PATH_IMAGE025
,选取初始社交拓扑图中度中心性达到阈值
Figure 791227DEST_PATH_IMAGE025
的节点作为种子账号重复步骤2-4,并在初始社交拓扑图基础上采用步骤5的策略进行节点的扩充,候选迭代节点为度中心性同样达到阈值
Figure 263797DEST_PATH_IMAGE061
的新扩充节点,完成局部网络的扩展后得到最终的第五层数据集。
对于重叠社区发现模型的构建,其具体步骤如下:
步骤7a:依据步骤6中得到的第五层数据集,将节点特征矩阵
Figure 111667DEST_PATH_IMAGE027
与节点邻接矩阵
Figure 36898DEST_PATH_IMAGE028
作为共同输入,并手动设置划分的社区数目
Figure 261206DEST_PATH_IMAGE062
步骤7b:考虑到真实世界的社区分布通常是重叠的,采用伯努利-泊松模型进行图生成,给定从属关系
Figure 588282DEST_PATH_IMAGE029
,邻接矩阵
Figure 810316DEST_PATH_IMAGE031
采样如公式8:
Figure 222843DEST_PATH_IMAGE063
(8)
其中
Figure 985262DEST_PATH_IMAGE032
是节点
Figure 166845DEST_PATH_IMAGE033
的社区从属行向量。伯努利-泊松模型的负对数似然损失函数定义如公式9:
Figure 622097DEST_PATH_IMAGE064
(9)
其中
Figure 521920DEST_PATH_IMAGE035
Figure 25713DEST_PATH_IMAGE036
分别表示边和非边上的均匀分布。并利用神经网络参数
Figure 61803DEST_PATH_IMAGE037
来最小化负对数似然函数,如公式10所示:
Figure 687956DEST_PATH_IMAGE065
(10)
步骤7c:通过图卷积网络生成
Figure 75075DEST_PATH_IMAGE066
,使用的网络定义如公式11所示:
Figure 179297DEST_PATH_IMAGE067
(11)
使用两层图卷积层,
Figure 335472DEST_PATH_IMAGE068
保证了
Figure 70210DEST_PATH_IMAGE066
的非负性,其中
Figure 679046DEST_PATH_IMAGE069
为归一化邻接矩阵,
Figure 852538DEST_PATH_IMAGE070
是具有自环的邻接矩阵,
Figure 863219DEST_PATH_IMAGE071
Figure 831175DEST_PATH_IMAGE072
的度矩阵。在第一个图卷积层后进行批量归一化,在第二个图卷积层后对权矩阵应用
Figure 363526DEST_PATH_IMAGE073
正则化。图卷积层拥有统一的隐藏表示维度,最终的输出维度为设定的社区划分数目
Figure 809551DEST_PATH_IMAGE062
可选地,当社区划分效果不佳时,可多次尝试不同的社区划分数目。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和流程并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。
凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进,均应包含在本发明的保护范围之内。

Claims (8)

1.一种针对社交网络中安全社区的发现方法,该方法以发现社交网络中安全人员组成的社区为核心,识别社交网络上网络安全领域账号并挖掘其间的社交关系,其特征在于,所述方法包括:
步骤1:手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号;
步骤2:利用单个种子账号的关联信息缩小采样范围,依据种子账号的关联账号构成自我网络,同时对自我网络中的账号数据进行采集作为第一层数据集;
步骤3:对第一层数据集中所有账号的文本数据进行预处理后,提取所有账号特征,得到包含所有账号的特征矩阵作为第二层数据集;
步骤4:使用基于改进后的GBDT模型对第二层数据集中的账号进行判别,剔除非安全人员账号,更新得到仅包含安全人员账号数据的第三层数据集;
步骤5:依据步骤4得到的第三层数据集中的安全人员账号作为节点,节点间的双向关注关系构建初始社交拓扑图,从不同的角度对网络结构间的关联进行建模,以此作为策略依据对边关系进行剪枝,得到包含初始社交拓扑图的第四层数据集;
步骤6:选取步骤5生成的第四层数据集进行局部网络的扩展,以度中心性作为基准选取候选迭代节点,得到包含完整局部网络结构的第五层数据集;
步骤7:根据第五层数据集中的节点特征矩阵和邻接矩阵,基于图神经网络构建下游的重叠社区发现任务,完成对安全社区的划分。
2.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤1中:
步骤1a:手动筛选社交网络上所关注网络安全领域的特定安全人员账号,方法包括:
(1) 基于粉丝量并观察账号内容是否包含网络安全热点事件或主题,收集满足要求的社交网络账号;
(2) 基于网络安全领域机构查找相应的社交网络账号,并收集账号;
(3) 基于关键词查找该领域的影响力较高的文本内容,并收集所属账号。
3.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤2中:
步骤2a:利用单个种子账号的关联信息缩小采样范围,通过网络爬虫和开发者接口采集该种子账号的个人资料和文本数据;
步骤2b:统计个人资料中与种子账号具备关注关系以及在文本数据中产生交互行为的关联账号集合,构成自我网络,并对其中的账号进行去重;
步骤2c:再次利用网络爬虫与开发者接口进行关联账号的个人资料与文本数据采集,完成第一层数据集的获取。
4.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤3中:
步骤3a:将所有的文本数据翻译为英文,便于后续的统一预处理;
步骤3b:从收集到的账号文本数据中去除非ASCII字符、标点符号和停用词;
步骤3c:将文本中所有单词中的大写字母全部由小写字母替换,并使用NLTK进行词形还原;
步骤3d:使用特征工程方法对第一层数据集中的账号从如下四个角度生成特征:
资料特征:账号名特征、账号社交特征、账号设置特征;
行为特征:账号发文特征、发文来源特征;
文本特征:文本可读性、关键词特征;
时序特征:发文时序特征;
步骤3e:得到包含账号预处理数据及节点特征矩阵的第二层数据集。
5.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤4中:
步骤4a:根据步骤3中第二层数据集的账号特征矩阵作为训练集,依据账号是否从事网络安全领域,人工将训练用账号分为安全账号与无关两类;
步骤4b:使用改进后的GBDT模型对训练集进行训练,其中训练数据集为
Figure 530283DEST_PATH_IMAGE001
Figure 669141DEST_PATH_IMAGE002
Figure 252569DEST_PATH_IMAGE003
为输入空间,
Figure 502285DEST_PATH_IMAGE004
Figure 487558DEST_PATH_IMAGE005
为输出空间,训练的步骤如下:
步骤4c:初始化弱学习器,
Figure 735000DEST_PATH_IMAGE006
,损失函数为平方损失;
步骤4d:建立
Figure 805724DEST_PATH_IMAGE007
棵分类回归树
Figure 859131DEST_PATH_IMAGE008
,通过公式
Figure 698911DEST_PATH_IMAGE009
,计算第
Figure 179571DEST_PATH_IMAGE010
棵树对应的响应值;
步骤4e:利用CART回归树拟合数据
Figure 472012DEST_PATH_IMAGE011
,得到第
Figure 765327DEST_PATH_IMAGE010
棵回归树,其对应的叶子节点区域为
Figure 459614DEST_PATH_IMAGE012
,其中
Figure 111175DEST_PATH_IMAGE013
Figure 156492DEST_PATH_IMAGE014
为第
Figure 551701DEST_PATH_IMAGE010
棵回归树叶子节点的个数;
步骤4f:通过公式
Figure 100494DEST_PATH_IMAGE015
计算出
Figure 126219DEST_PATH_IMAGE014
个叶子节点区域的最佳拟合值;
步骤4g:为避免GBDT陷入过拟合,依据公式
Figure 393252DEST_PATH_IMAGE016
更新强学习器,并增加了GBDT的迭代次数,
Figure 326573DEST_PATH_IMAGE017
为改进后的减小残差收敛次数的参数;
步骤4h:使用训练好的分类模型预测其余未经人工标注账号是否为安全人员账号,移除第二层数据集中分类模型预测为非安全人员帐号,更新后得到第三层数据集。
6.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤5中:
步骤5a:使用步骤4中得到的第三层数据集初始化网络结构,安全人员账号作为网络节点,并采用账号间的双向关注关系作为网络结构中的边关系;
(1) 利用账号间的交互关系、内容相似程度、好友粉丝相关性对网络中的关联进行建模:
(2) 统计账号间产生过的互动次数用于表征账号间的交互关系;
(3) 计算账号间的内容相似程度,通过互信息对文本数据中的关键词进行筛选,并选取前
Figure 995452DEST_PATH_IMAGE018
个关键词用于表征账号内容,最后采用余弦相似度算法计算两个账号间的相似程度;
(4) 计算账号间的社交结构的相似性,即两账号好友与粉丝列表的交集与并集之比;
步骤5b:构建剪枝策略对边关系进行裁剪,剪枝策略如下:
账号间存在交互关系,表明账号间存在的社交关联;
账号间社交结构与内容存在相似性,表明账号间存在同质性;
步骤5c:移除不满足上述策略的边关系,同时更新构建的网络结构,得到第四层数据集。
7.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤6中:
步骤6a:依据步骤5中得到的第四层数据集中的初始社交拓扑图构建
Figure 254395DEST_PATH_IMAGE019
度局部网络,
Figure 743145DEST_PATH_IMAGE019
为自然数,当
Figure 683419DEST_PATH_IMAGE020
时,所述局部网络即为以种子账号为中心的自我网络;当
Figure 206804DEST_PATH_IMAGE021
时,局部网络还包括与迭代节点的
Figure 371069DEST_PATH_IMAGE022
度候选邻居节点直接连接的邻居节点;
步骤6b:手动设置度中心性阈值
Figure 612695DEST_PATH_IMAGE023
,选取初始社交拓扑图中度中心性达到阈值
Figure 153398DEST_PATH_IMAGE024
的节点作为种子账号重复步骤2-4,并在初始社交拓扑图基础上采用步骤5的策略进行节点的扩充,候选迭代节点为度中心性同样达到阈值
Figure 468972DEST_PATH_IMAGE025
的新扩充节点,完成局部网络的扩展后得到最终的第五层数据集。
8.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤7中:
步骤7a:依据步骤6中得到的第五层数据集,将节点特征矩阵
Figure 69718DEST_PATH_IMAGE026
与节点邻接矩阵
Figure 533060DEST_PATH_IMAGE027
作为共同输入,使用图神经网络结合伯努利-泊松图生成模型进行重叠社区发现,并手动尝试设定不同的社区数目使结果最优,其中社区发现模型的具体步骤如下:
(1) 采用伯努利-泊松模型进行图生成,给定从属关系
Figure 877454DEST_PATH_IMAGE028
Figure 375431DEST_PATH_IMAGE029
为节点数目,
Figure 881499DEST_PATH_IMAGE030
为社区数,依据公式
Figure 539795DEST_PATH_IMAGE031
对邻接矩阵
Figure 422300DEST_PATH_IMAGE032
进行采样,其中
Figure 774784DEST_PATH_IMAGE033
是节点
Figure 451753DEST_PATH_IMAGE034
的社区从属行向量;
(2) 采用如下算式定义伯努利-泊松模型的负对数似然损失函数:
Figure 889687DEST_PATH_IMAGE035
其中
Figure 575884DEST_PATH_IMAGE036
Figure 720557DEST_PATH_IMAGE037
分别表示边和非边上的均匀分布;
(3) 利用神经网络参数
Figure 834007DEST_PATH_IMAGE038
来最小化负对数似然函数,如
Figure 759237DEST_PATH_IMAGE039
(4) 图神经网络定义为
Figure 983545DEST_PATH_IMAGE040
(5) 基于步骤(4)定义的模型,将节点特征矩阵
Figure 310621DEST_PATH_IMAGE026
与节点邻接矩阵
Figure 594972DEST_PATH_IMAGE027
作为共同输入,得到最终的社区划分结果。
CN202211088408.XA 2022-09-07 2022-09-07 一种面向社交网络的安全社区发现方法 Pending CN115423639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211088408.XA CN115423639A (zh) 2022-09-07 2022-09-07 一种面向社交网络的安全社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211088408.XA CN115423639A (zh) 2022-09-07 2022-09-07 一种面向社交网络的安全社区发现方法

Publications (1)

Publication Number Publication Date
CN115423639A true CN115423639A (zh) 2022-12-02

Family

ID=84203120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211088408.XA Pending CN115423639A (zh) 2022-09-07 2022-09-07 一种面向社交网络的安全社区发现方法

Country Status (1)

Country Link
CN (1) CN115423639A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131427A (zh) * 2023-10-26 2023-11-28 戎行技术有限公司 一种基于多元nlp的社交平台账号数据关联性分析方法
CN117237141A (zh) * 2023-11-16 2023-12-15 长春大学 一种基于自适应曲率的双曲图卷积网络的社区检测方法
CN117574362A (zh) * 2024-01-15 2024-02-20 广东茉莉数字科技集团股份有限公司 一种达人帐号数据异常分辩方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153713A (zh) * 2017-05-27 2017-09-12 合肥工业大学 社交网络中基于节点间相似性的重叠社区检测方法及系统
CN107409126A (zh) * 2015-02-24 2017-11-28 思科技术公司 用于保护企业计算环境安全的系统和方法
CN110674290A (zh) * 2019-08-09 2020-01-10 国家计算机网络与信息安全管理中心 一种用于重叠社区发现的关系预测方法、装置和存储介质
CN112818126A (zh) * 2021-04-16 2021-05-18 北京智源人工智能研究院 网络安全语料库构建模型的训练方法、应用方法及装置
CN114329099A (zh) * 2021-11-22 2022-04-12 腾讯科技(深圳)有限公司 重叠社区识别方法、装置、设备、存储介质及程序产品
CN114611081A (zh) * 2022-03-04 2022-06-10 腾讯科技(深圳)有限公司 账号类型识别方法、装置、设备、存储介质及产品

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107409126A (zh) * 2015-02-24 2017-11-28 思科技术公司 用于保护企业计算环境安全的系统和方法
CN107153713A (zh) * 2017-05-27 2017-09-12 合肥工业大学 社交网络中基于节点间相似性的重叠社区检测方法及系统
CN110674290A (zh) * 2019-08-09 2020-01-10 国家计算机网络与信息安全管理中心 一种用于重叠社区发现的关系预测方法、装置和存储介质
CN112818126A (zh) * 2021-04-16 2021-05-18 北京智源人工智能研究院 网络安全语料库构建模型的训练方法、应用方法及装置
CN114329099A (zh) * 2021-11-22 2022-04-12 腾讯科技(深圳)有限公司 重叠社区识别方法、装置、设备、存储介质及程序产品
CN114611081A (zh) * 2022-03-04 2022-06-10 腾讯科技(深圳)有限公司 账号类型识别方法、装置、设备、存储介质及产品

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131427A (zh) * 2023-10-26 2023-11-28 戎行技术有限公司 一种基于多元nlp的社交平台账号数据关联性分析方法
CN117131427B (zh) * 2023-10-26 2024-01-12 戎行技术有限公司 一种基于多元nlp的社交平台账号数据关联性分析方法
CN117237141A (zh) * 2023-11-16 2023-12-15 长春大学 一种基于自适应曲率的双曲图卷积网络的社区检测方法
CN117574362A (zh) * 2024-01-15 2024-02-20 广东茉莉数字科技集团股份有限公司 一种达人帐号数据异常分辩方法及系统
CN117574362B (zh) * 2024-01-15 2024-04-30 广东茉莉数字科技集团股份有限公司 一种达人账号数据异常分辨方法及系统

Similar Documents

Publication Publication Date Title
Jia et al. A practical approach to constructing a knowledge graph for cybersecurity
JP5904559B2 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
CN111159395B (zh) 基于图神经网络的谣言立场检测方法、装置和电子设备
CN105740228B (zh) 一种互联网舆情分析方法及系统
Iqbal et al. Mining writeprints from anonymous e-mails for forensic investigation
CN110457404B (zh) 基于复杂异质网络的社交媒体账户分类方法
CN115423639A (zh) 一种面向社交网络的安全社区发现方法
Rashid et al. Who am I? Analyzing digital personas in cybercrime investigations
Kaur et al. AuthCom: Authorship verification and compromised account detection in online social networks using AHP-TOPSIS embedded profiling based technique
JP5907393B2 (ja) 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
JP2015121896A (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
Peng et al. Astroturfing detection in social media: Using binary n-gram analysis for authorship attribution
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN114579833B (zh) 一种基于主题挖掘和情感分析的微博舆情可视分析方法
Misuraca et al. A network-based concept extraction for managing customer requests in a social media care context
CN110334180A (zh) 一种基于评论数据的移动应用安全性评估方法
CN113055372B (zh) 一种恶意软件的传播预测方法
CN110110079B (zh) 一种社交网络垃圾用户检测方法
CN116633589A (zh) 社交网络中恶意账户检测方法、设备及存储介质
Wang et al. A novel framework of identifying Chinese jargons for telegram underground markets
Qureshi et al. Detecting social polarization and radicalization
Kumar et al. Sentiment analysis using social and topic context for suicide prediction
Kryszkiewicz* Generalized disjunction-free representation of frequent patterns with negation
Thangarasu et al. Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification
Coray Óðinn: A Framework for Large-Scale Wordlist Analysis and Struc-ture-Based Password Guessing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20221202