CN115423639A - 一种面向社交网络的安全社区发现方法 - Google Patents
一种面向社交网络的安全社区发现方法 Download PDFInfo
- Publication number
- CN115423639A CN115423639A CN202211088408.XA CN202211088408A CN115423639A CN 115423639 A CN115423639 A CN 115423639A CN 202211088408 A CN202211088408 A CN 202211088408A CN 115423639 A CN115423639 A CN 115423639A
- Authority
- CN
- China
- Prior art keywords
- network
- account
- accounts
- data set
- layer data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000013138 pruning Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 11
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000003993 interaction Effects 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 2
- 238000012407 engineering method Methods 0.000 claims description 2
- 230000000877 morphologic effect Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种面向社交网络的安全社区发现方法,包括:手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号;采集种子账号的关联账号构成自我网络中的账号数据作为第一层数据集;对数据集中的文本数据进行预处理以及账号特征的提取,得到第二层数据集;判别账号是否属于安全账号,剔除非安全人员账号更新得到第三层数据集;以账号间的双向关系构建拓扑图并剪枝,得到包含网络结构的第四层数据集;进行局部网络的扩展,得到包含完整局部网络的第五层数据集;第五层数据集作为输入,利用社区发现模型进行安全社区的划分。本发明属于网络安全领域,能够从海量社交网络数据中准确且快速挖掘安全人员组成的社区。
Description
技术领域
本发明属于网络安全领域,具体设计一种面向社交网络中安全社区的发现方法。
背景技术
在当今的网络格局中,对高级攻击或漏洞利用的防范手段日益困难。攻击者拥有大量的资金、精湛的技术和丰富的经验,他们不仅仅提高自身的攻击技术,还善于找到包括管理、人员等企业防护的薄弱环节。面对如此复杂的网络攻防现状,一种应对网络攻击的方式是关注社交网络中活跃的安全社区,并对其进行监视和了解,挖掘其内部生态的同时并对网络安全事件进行启发式地识别。社交网络逐渐成为人们进行日常社交活动不可或缺的一部分,其也吸引了大量活跃的黑客。
社交网络的数据规模庞大,涉及各行各业的用户,网络安全领域相关的账号仅占社交网络的少部分,而对安全社区这一结构化的数据进行发现则更为困难。通过人工手动分析社交网络上的黑客社区需要大量的时间以及专业背景,因此需要提出一种方法或工具对社交网络账号数据进行自动化的分析,发现其中隐藏的黑客社区。
目前研究社区发现的方法大致分为三类:传统方法、深度学习方法和基于图神经网络的社区发现方法。传统方法大多数基于统计推断和机器学习发展而来。与机器学习的方法相比,深度学习能够处理高维数据情形下的社区发现问题。然而,社区检测任务需要处理包含节点元素之间丰富的非欧几里得图数据,传统的深度学习模型则不能很好地处理。图神经网络作为用于处理图数据的神经网络,可用于弥补这一缺陷。
本发明通过社交网络上的同质性分析以批量获取潜在的安全账号,运用机器学习算法加以判别,使用图神经网络挖掘其中的隐式组织关系,实现社交网络上安全社区的发现。
发明内容
有鉴于此,本发明提供了一种针对社交网络中安全社区的发现方法,旨在挖掘社交网络上的安全社区,解决社交网络中安全社区发现难的问题。
一种针对社交网络中安全社区的发现方法,所述方法包括:
步骤 1:手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号;
步骤2:利用单个种子账号的关联信息缩小采样范围,依据种子账号的关联账号构成自我网络,同时对自我网络中的账号数据进行采集作为第一层数据集;
步骤3:对第一层数据集中所有账号的文本数据进行预处理后,提取所有账号特征,得到包含所有账号的特征矩阵作为第二层数据集;
步骤4:使用基于改进后的GBDT模型对第二层数据集中的账号进行判别,剔除非安全人员账号,更新得到仅包含安全人员账号数据的第三层数据集;
步骤5:依据步骤4得到的第三层数据集中的安全人员账号作为节点,节点间的双向关注关系构建初始社交拓扑图,从不同的角度对网络结构间的关联进行建模,以此作为策略依据对边关系进行剪枝,得到包含初始社交拓扑图的第四层数据集;
步骤6:选取步骤5生成的第四层数据集进行局部网络的扩展,以度中心性作为基准选取候选迭代节点,得到包含完整局部网络结构的第五层数据集;
步骤7:根据第五层数据集中的节点特征矩阵和邻接矩阵,基于图神经网络构建下游的重叠社区发现任务,完成对安全社区的划分。
优选的,所述种子账号的筛选流程包括:
步骤1a:手动筛选社交网络上所关注网络安全领域的特定安全人员账号,方法包括:
(1) 基于粉丝量并观察账号内容是否包含网络安全热点事件或主题,收集满足要求的社交网络账号;
(2) 基于网络安全领域机构查找相应的社交网络账号,并收集账号;
(3) 基于关键词查找该领域的影响力较高的文本内容,并收集所属账号。
优选的,所述第一层数据集的采集流程包括:
步骤2a:利用单个种子账号的关联信息缩小采样范围,通过网络爬虫和开发者接口采集该种子账号的个人资料和文本数据;
步骤2b:统计个人资料中与种子账号具备关注关系以及在文本数据中产生交互行为的关联账号集合,构成自我网络,并对其中的账号进行去重;
步骤2c:再次利用网络爬虫与开发者接口进行关联账号的个人资料与文本数据采集,完成第一层数据集的获取。
优选的,所述第二层数据集中账号文本数据预处理及账号特征提取流程包括:
步骤3a:将所有的文本数据翻译为英文,便于后续的统一预处理;
步骤3b:从收集到的账号文本数据中去除非ASCII字符、标点符号和停用词;
步骤3c:将文本中所有单词中的大写字母全部由小写字母替换,并使用NLTK进行词形还原;
步骤3d:使用特征工程方法对第一层数据集中的账号从如下四个角度生成特征:
资料特征:账号名特征、账号社交特征、账号设置特征;
行为特征:账号发文特征、发文来源特征;
文本特征:文本可读性、关键词特征;
时序特征:发文时序特征;
步骤3e:得到包含账号预处理数据及节点特征矩阵的第二层数据集。
优选的,所述第三层数据集中采集账号判别流程包括:
步骤4a:根据步骤3中预处理后的第二层数据集,得到节点特征矩阵作为训练集,依据账号内容是否包含网络安全领域知识,人工将训练用账号分为安全账号与无关两类;
步骤4c:使用训练好的分类模型预测其余未经人工标注账号是否为安全人员账号,移除第二层数据集中分类模型预测为非安全人员帐号,更新后得到第三层数据集。
优选的,所述第四层数据集中社交拓扑图构建及边剪枝过程包括:
步骤5a:使用步骤4中得到的第三层数据集初始化网络结构,安全人员账号作为网络节点,并采用账号间的双向关注关系作为网络结构中的边关系;
步骤5b:利用账号间的交互关系、内容相似程度、好友粉丝相关性对网络中的关联进行建模:
(1) 统计账号间产生过的互动次数用于表征账号间的交互关系;
(3) 计算账号间的社交结构的相似性,即两账号好友与粉丝列表的交集与并集之比;
步骤5c:构建剪枝策略对边关系进行裁剪,剪枝策略如下:
(1) 账号间存在交互关系,表明账号间存在的社交关联;
(2) 账号间社交结构与内容存在相似性,表明账号间存在同质性;
步骤5d:移除不满足上述策略的边关系,同时更新构建的网络结构,得到第四层数据集。
优选的,所述第五层数据集中局部网络扩展流程包括:
步骤6a:依据步骤5中得到的第四层数据集中的初始社交拓扑图构建度局部网络,为自然数,当时,所述局部网络即为以种子账号为中心的自我网络;当时,局部网络还包括与迭代节点的度候选邻居节点直接连接的邻居节点;
步骤6b:手动设置度中心性阈值,选取初始社交拓扑图中度中心性达到阈值的节点作为种子账号重复步骤2-4,并在初始社交拓扑图基础上采用步骤5的策略进行节点的扩充,候选迭代节点为度中心性同样达到阈值的新扩充节点,完成局部网络的扩展后得到最终的第五层数据集。
优选的,所述安全社区划分流程包括:
步骤7a:依据步骤6中得到的第五层数据集,将节点特征矩阵与节点邻接矩阵作为共同输入,使用图神经网络结合伯努利-泊松图生成模型进行重叠社区发现,并手动尝试设定不同的社区数目使结果最优,其中社区发现模型的具体步骤如下:
(2) 采用如下算式定义伯努利-泊松模型的负对数似然损失函数:
本申请提供了一种针对社交网络中安全社区的发现方法,填补了现有技术的空缺,本发明的有益效果是:以社交网络为落脚点,从单个种子用户出发,根据关联分析扩展生成局部网络,通过特征工程实现了一种简单可行的安全人员识别方案,结合剪枝策略优化拓扑图中的边关系,结合图结构与节点特征完成了对潜在社区的识别,为相关从业人员提供从海量社交网络数据中挖掘安全社区的策略,可应用于企业防御与安全研究。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的针对社交网络中安全社区的发现方法。
图2为本申请实施例提供的社交拓扑图构建的流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的具体实施方式做进一步详细描述。以下实施例或者附图用于说明本发明,但不用来限制本发明的范围。
参见图1,图1为本申请实施例提供的针对社交网络中安全社区的发现方法流程图,包括:
步骤1:手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号;
步骤2:利用单个种子账号的关联信息缩小采样范围,依据种子账号的关联账号构成自我网络,同时对自我网络中的账号数据进行采集作为第一层数据集;
步骤3:对第一层数据集中所有账号的文本数据进行预处理后,提取所有账号特征,得到包含所有账号的特征矩阵作为第二层数据集;
步骤4:使用基于改进后的GBDT模型对第二层数据集中的账号进行判别,剔除非安全人员账号,更新得到仅包含安全人员账号数据的第三层数据集;
步骤5:依据步骤4得到的第三层数据集中的安全人员账号作为节点,节点间的双向关注关系构建初始社交拓扑图,从不同的角度对网络结构间的关联进行建模,以此作为策略依据对边关系进行剪枝,得到包含初始社交拓扑图的第四层数据集;
步骤6:选取步骤5生成的第四层数据集进行局部网络的扩展,以度中心性作为基准选取候选迭代节点,得到包含完整局部网络结构的第五层数据集;
步骤7:根据第五层数据集中的节点特征矩阵和邻接矩阵,基于图神经网络构建下游的重叠社区发现任务,完成对安全社区的划分。
对于筛选社交网络上所关注网络安全领域的特定安全人员账号,其具体步骤包括:
步骤1a:手动筛选社交网络上所关注网络安全领域的特定安全人员账号,方法包括:
(1) 基于粉丝量并观察账号内容是否包含网络安全热点事件或主题,收集满足要求的社交网络账号;
(2) 基于网络安全领域机构查找相应的社交网络账号,并收集账号;
(3) 基于关键词查找该领域的影响力较高的文本内容,并收集所属账号;
步骤1b:利用网络爬虫和开发者接口采集选定种子账号的个人资料和文本数据;
可选地,如果本实施例在运行一段时间后,社区内人员已发生较大变动,则可以重新进行步骤1b,并重新进行模型训练以获取社区划分结果。
对于第一层数据集的采集,其具体步骤包括:
步骤2a:选择一个已采集的种子账号,统计与之具备关注及粉丝关系的所有账号ID;
步骤2b:统计文本数据中与种子账号存在交互关系的所有账号ID,交互行为包括评论、转发、点赞、引用、提及、回复;
步骤2c:将上述的所有账号ID去重后,以种子账号为中心构成自我网络,利用网络爬虫和开发者接口采集所有账号的个人资料和文本资料,完成第一层数据集的采集。
对于第二层数据集中账号文本数据预处理及账号特征提取流程,其具体步骤包括:
步骤3a:将所有的文本数据翻译为英文,便于后续的统一预处理;
步骤3b:从收集到的账号文本数据中去除非ASCII字符、标点符号和停用词;
步骤3c:将文本中所有单词中的大写字母全部由小写字母替换,并使用NLTK进行词形还原;
步骤3d:考虑到个人资料可用于区别不同的账号,提取的资料特征包括:
提取账号名中的字母数、数字数和大写字母数;
提取账号的好友数、粉丝数和二者的比率;
提取账号是否设置位置信息和个人介绍链接;
步骤3e:考虑到发布文本的各种行为可对账号的习惯进行表征,提取的行为特征包括:
提取账号已发布的文本总条数;
提取账号发布文本中出现的链接、标签和各种行为的平均数目;
提取账号发布文本使用的设备的多样性,通过玛格列夫丰富度指数进行计算;
步骤3f:考虑到账号发布文本的时间序列可以对账号的活跃程度进行表征,提取的时序特征包括:
提取时间序列间隔的平均值、标准分布、最大值与最小值;
提取最近一周的文本条数占所有文本总条数的比例;
步骤3g:考虑到账号的文本内容可以反应账号在领域内的关注话题,通过提取安全领域的关键词作为特征,提取步骤包括:
收集安全领域的文本语料以及安全无关的一般文本语料,并进行步骤3b、3c的数据预处理;
prototypical keywords用于提取特定类别人员的常用词法表达,其可用公式1来计算:
weirdness score假定特定类别的语料中的词汇分布相较于一般语料中的单词分布明显不同,其可用公式2来计算:
TF-IDF用于评估单词对于一个语料库中其中一份语料的重要程度,TF为某个词在文章中出现的词频,IDF即逆文档频率,其可用公式3来计算:
依次对第一层数据集中的每个账号节点进行特征提取,得到包含节点特征矩阵的第二层数据集;
可选地,如果本实施例在运行一段时间后,当前安全人员识别模型已无法高精度地完成任务,则可以重新进行步骤3g,或者增加提取的关键词特征数量,并重新进行模型训练以适应网络安全领域词法的变化。
对于判别采集的账号是否属于安全账号,剔除以得到第三层数据集的具体步骤包括:
步骤4a:根据步骤3中预处理后的第二层数据集,得到节点特征矩阵作为训练集,依据账号是否从事网络安全领域,人工将训练用账号分为安全账号与无关两类;
步骤4c:初始化弱学习器,如公式5所示:
步骤4h:将其余未经人工标注的账号数据输入到训练好的分类模型,模型会输出一个0到1之间的数字。当输出数字大于等于0.5时,则表示分类模型认为该账号为安全账号。优选地,只保留被分类模型预测为安全账号的账号数据进行后续的社区划分,即剔除第二层数据集中的非安全人员账号,更新得到第三层数据集。
参见图2,图2为本申请实施例社交拓扑图的建立构建及边关系剪枝,其具体步骤包括:
步骤5a:使用步骤4中得到的第三层初始化网络结构,账号作为社交拓扑图中的节点,并采用双向关注构建边关系;
步骤5b:利用账号间的交互关系、内容相似程度、好友粉丝相关性对网络中的关联进行建模:
(1) 统计账号间产生过的互动次数用于表征账号间的交互关系;
(3) 计算账号间的社交结构的相似性,即两账号好友与粉丝列表的交集与并集之比;
步骤5c:使用如下的剪枝策略对账号间的边关系进行缩减:
考虑到交互关系的关联程度较强,若账号间存在交互关系,则保留边关系;
考虑到社交网络上的同质性,若账号间内容存在相似,且好友粉丝任一存在相关,则保留边关系;
若满足以上策略之一则保留边关系,反之则删除,更新社交拓扑图中的网络结构,得到第四层数据集。
对于局部网络的扩展,得到包含完整局部网络结构的第五层数据集,其具体步骤包括:
步骤6a:依据步骤5中得到的第四层数据集中的初始社交拓扑图构建度局部网络,为自然数,当时,所述局部网络即为以种子账号为中心的自我网络;当时,局部网络还包括与迭代节点的度候选邻居节点直接连接的邻居节点;
步骤6b:手动设置度中心性阈值,选取初始社交拓扑图中度中心性达到阈值的节点作为种子账号重复步骤2-4,并在初始社交拓扑图基础上采用步骤5的策略进行节点的扩充,候选迭代节点为度中心性同样达到阈值的新扩充节点,完成局部网络的扩展后得到最终的第五层数据集。
对于重叠社区发现模型的构建,其具体步骤如下:
使用两层图卷积层,保证了的非负性,其中 为归一化邻接矩阵,是具有自环的邻接矩阵,是的度矩阵。在第一个图卷积层后进行批量归一化,在第二个图卷积层后对权矩阵应用正则化。图卷积层拥有统一的隐藏表示维度,最终的输出维度为设定的社区划分数目;
可选地,当社区划分效果不佳时,可多次尝试不同的社区划分数目。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和流程并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。
凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进,均应包含在本发明的保护范围之内。
Claims (8)
1.一种针对社交网络中安全社区的发现方法,该方法以发现社交网络中安全人员组成的社区为核心,识别社交网络上网络安全领域账号并挖掘其间的社交关系,其特征在于,所述方法包括:
步骤1:手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号;
步骤2:利用单个种子账号的关联信息缩小采样范围,依据种子账号的关联账号构成自我网络,同时对自我网络中的账号数据进行采集作为第一层数据集;
步骤3:对第一层数据集中所有账号的文本数据进行预处理后,提取所有账号特征,得到包含所有账号的特征矩阵作为第二层数据集;
步骤4:使用基于改进后的GBDT模型对第二层数据集中的账号进行判别,剔除非安全人员账号,更新得到仅包含安全人员账号数据的第三层数据集;
步骤5:依据步骤4得到的第三层数据集中的安全人员账号作为节点,节点间的双向关注关系构建初始社交拓扑图,从不同的角度对网络结构间的关联进行建模,以此作为策略依据对边关系进行剪枝,得到包含初始社交拓扑图的第四层数据集;
步骤6:选取步骤5生成的第四层数据集进行局部网络的扩展,以度中心性作为基准选取候选迭代节点,得到包含完整局部网络结构的第五层数据集;
步骤7:根据第五层数据集中的节点特征矩阵和邻接矩阵,基于图神经网络构建下游的重叠社区发现任务,完成对安全社区的划分。
2.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤1中:
步骤1a:手动筛选社交网络上所关注网络安全领域的特定安全人员账号,方法包括:
(1) 基于粉丝量并观察账号内容是否包含网络安全热点事件或主题,收集满足要求的社交网络账号;
(2) 基于网络安全领域机构查找相应的社交网络账号,并收集账号;
(3) 基于关键词查找该领域的影响力较高的文本内容,并收集所属账号。
3.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤2中:
步骤2a:利用单个种子账号的关联信息缩小采样范围,通过网络爬虫和开发者接口采集该种子账号的个人资料和文本数据;
步骤2b:统计个人资料中与种子账号具备关注关系以及在文本数据中产生交互行为的关联账号集合,构成自我网络,并对其中的账号进行去重;
步骤2c:再次利用网络爬虫与开发者接口进行关联账号的个人资料与文本数据采集,完成第一层数据集的获取。
4.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤3中:
步骤3a:将所有的文本数据翻译为英文,便于后续的统一预处理;
步骤3b:从收集到的账号文本数据中去除非ASCII字符、标点符号和停用词;
步骤3c:将文本中所有单词中的大写字母全部由小写字母替换,并使用NLTK进行词形还原;
步骤3d:使用特征工程方法对第一层数据集中的账号从如下四个角度生成特征:
资料特征:账号名特征、账号社交特征、账号设置特征;
行为特征:账号发文特征、发文来源特征;
文本特征:文本可读性、关键词特征;
时序特征:发文时序特征;
步骤3e:得到包含账号预处理数据及节点特征矩阵的第二层数据集。
5.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤4中:
步骤4a:根据步骤3中第二层数据集的账号特征矩阵作为训练集,依据账号是否从事网络安全领域,人工将训练用账号分为安全账号与无关两类;
步骤4h:使用训练好的分类模型预测其余未经人工标注账号是否为安全人员账号,移除第二层数据集中分类模型预测为非安全人员帐号,更新后得到第三层数据集。
6.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤5中:
步骤5a:使用步骤4中得到的第三层数据集初始化网络结构,安全人员账号作为网络节点,并采用账号间的双向关注关系作为网络结构中的边关系;
(1) 利用账号间的交互关系、内容相似程度、好友粉丝相关性对网络中的关联进行建模:
(2) 统计账号间产生过的互动次数用于表征账号间的交互关系;
(4) 计算账号间的社交结构的相似性,即两账号好友与粉丝列表的交集与并集之比;
步骤5b:构建剪枝策略对边关系进行裁剪,剪枝策略如下:
账号间存在交互关系,表明账号间存在的社交关联;
账号间社交结构与内容存在相似性,表明账号间存在同质性;
步骤5c:移除不满足上述策略的边关系,同时更新构建的网络结构,得到第四层数据集。
8.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤7中:
步骤7a:依据步骤6中得到的第五层数据集,将节点特征矩阵与节点邻接矩阵作为共同输入,使用图神经网络结合伯努利-泊松图生成模型进行重叠社区发现,并手动尝试设定不同的社区数目使结果最优,其中社区发现模型的具体步骤如下:
(2) 采用如下算式定义伯努利-泊松模型的负对数似然损失函数:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211088408.XA CN115423639A (zh) | 2022-09-07 | 2022-09-07 | 一种面向社交网络的安全社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211088408.XA CN115423639A (zh) | 2022-09-07 | 2022-09-07 | 一种面向社交网络的安全社区发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115423639A true CN115423639A (zh) | 2022-12-02 |
Family
ID=84203120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211088408.XA Pending CN115423639A (zh) | 2022-09-07 | 2022-09-07 | 一种面向社交网络的安全社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115423639A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131427A (zh) * | 2023-10-26 | 2023-11-28 | 戎行技术有限公司 | 一种基于多元nlp的社交平台账号数据关联性分析方法 |
CN117237141A (zh) * | 2023-11-16 | 2023-12-15 | 长春大学 | 一种基于自适应曲率的双曲图卷积网络的社区检测方法 |
CN117574362A (zh) * | 2024-01-15 | 2024-02-20 | 广东茉莉数字科技集团股份有限公司 | 一种达人帐号数据异常分辩方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153713A (zh) * | 2017-05-27 | 2017-09-12 | 合肥工业大学 | 社交网络中基于节点间相似性的重叠社区检测方法及系统 |
CN107409126A (zh) * | 2015-02-24 | 2017-11-28 | 思科技术公司 | 用于保护企业计算环境安全的系统和方法 |
CN110674290A (zh) * | 2019-08-09 | 2020-01-10 | 国家计算机网络与信息安全管理中心 | 一种用于重叠社区发现的关系预测方法、装置和存储介质 |
CN112818126A (zh) * | 2021-04-16 | 2021-05-18 | 北京智源人工智能研究院 | 网络安全语料库构建模型的训练方法、应用方法及装置 |
CN114329099A (zh) * | 2021-11-22 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 重叠社区识别方法、装置、设备、存储介质及程序产品 |
CN114611081A (zh) * | 2022-03-04 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 账号类型识别方法、装置、设备、存储介质及产品 |
-
2022
- 2022-09-07 CN CN202211088408.XA patent/CN115423639A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107409126A (zh) * | 2015-02-24 | 2017-11-28 | 思科技术公司 | 用于保护企业计算环境安全的系统和方法 |
CN107153713A (zh) * | 2017-05-27 | 2017-09-12 | 合肥工业大学 | 社交网络中基于节点间相似性的重叠社区检测方法及系统 |
CN110674290A (zh) * | 2019-08-09 | 2020-01-10 | 国家计算机网络与信息安全管理中心 | 一种用于重叠社区发现的关系预测方法、装置和存储介质 |
CN112818126A (zh) * | 2021-04-16 | 2021-05-18 | 北京智源人工智能研究院 | 网络安全语料库构建模型的训练方法、应用方法及装置 |
CN114329099A (zh) * | 2021-11-22 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 重叠社区识别方法、装置、设备、存储介质及程序产品 |
CN114611081A (zh) * | 2022-03-04 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 账号类型识别方法、装置、设备、存储介质及产品 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131427A (zh) * | 2023-10-26 | 2023-11-28 | 戎行技术有限公司 | 一种基于多元nlp的社交平台账号数据关联性分析方法 |
CN117131427B (zh) * | 2023-10-26 | 2024-01-12 | 戎行技术有限公司 | 一种基于多元nlp的社交平台账号数据关联性分析方法 |
CN117237141A (zh) * | 2023-11-16 | 2023-12-15 | 长春大学 | 一种基于自适应曲率的双曲图卷积网络的社区检测方法 |
CN117574362A (zh) * | 2024-01-15 | 2024-02-20 | 广东茉莉数字科技集团股份有限公司 | 一种达人帐号数据异常分辩方法及系统 |
CN117574362B (zh) * | 2024-01-15 | 2024-04-30 | 广东茉莉数字科技集团股份有限公司 | 一种达人账号数据异常分辨方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jia et al. | A practical approach to constructing a knowledge graph for cybersecurity | |
JP5904559B2 (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
CN111159395B (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
CN105740228B (zh) | 一种互联网舆情分析方法及系统 | |
Iqbal et al. | Mining writeprints from anonymous e-mails for forensic investigation | |
CN110457404B (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
CN115423639A (zh) | 一种面向社交网络的安全社区发现方法 | |
Rashid et al. | Who am I? Analyzing digital personas in cybercrime investigations | |
Kaur et al. | AuthCom: Authorship verification and compromised account detection in online social networks using AHP-TOPSIS embedded profiling based technique | |
JP5907393B2 (ja) | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム | |
JP2015121896A (ja) | フレーズペア収集装置、及びそのためのコンピュータプログラム | |
Peng et al. | Astroturfing detection in social media: Using binary n-gram analysis for authorship attribution | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
CN114579833B (zh) | 一种基于主题挖掘和情感分析的微博舆情可视分析方法 | |
Misuraca et al. | A network-based concept extraction for managing customer requests in a social media care context | |
CN110334180A (zh) | 一种基于评论数据的移动应用安全性评估方法 | |
CN113055372B (zh) | 一种恶意软件的传播预测方法 | |
CN110110079B (zh) | 一种社交网络垃圾用户检测方法 | |
CN116633589A (zh) | 社交网络中恶意账户检测方法、设备及存储介质 | |
Wang et al. | A novel framework of identifying Chinese jargons for telegram underground markets | |
Qureshi et al. | Detecting social polarization and radicalization | |
Kumar et al. | Sentiment analysis using social and topic context for suicide prediction | |
Kryszkiewicz* | Generalized disjunction-free representation of frequent patterns with negation | |
Thangarasu et al. | Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification | |
Coray | Óðinn: A Framework for Large-Scale Wordlist Analysis and Struc-ture-Based Password Guessing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221202 |