CN110717837A - 一种面向黑客论坛的用户画像构建方法 - Google Patents
一种面向黑客论坛的用户画像构建方法 Download PDFInfo
- Publication number
- CN110717837A CN110717837A CN201910274398.0A CN201910274398A CN110717837A CN 110717837 A CN110717837 A CN 110717837A CN 201910274398 A CN201910274398 A CN 201910274398A CN 110717837 A CN110717837 A CN 110717837A
- Authority
- CN
- China
- Prior art keywords
- user
- hacker
- users
- speeches
- basic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 26
- 238000011160 research Methods 0.000 claims abstract description 36
- 238000005516 engineering process Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 206010021703 Indifference Diseases 0.000 claims 1
- 238000007621 cluster analysis Methods 0.000 claims 1
- 238000010801 machine learning Methods 0.000 abstract description 7
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000011161 development Methods 0.000 abstract description 2
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000006399 behavior Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
目前网络攻击方式越来越复杂,而黑客人群的潜伏性也在不断提升,安全形势异常严峻。然而每位黑客都有不同的特征,比如研究方向,技术水平、习惯用语等,这些内容可以在一定程度上对该类用户群体进行画像。本发明基于机器学习、自然语言处理技术,通过分析用户在社交网络上留下的发言记录,提出了一种面向黑客技术社区的用户画像构建方法。在使用少量、易获取信息的情况下,对黑客技术社区中的特定用户构建一个多维度、精准的用户画像方法。该用户画像方法将推动追踪溯源、态势分析、舆情监控等安全领域的发展。
Description
技术领域
本发明提出了一种面向黑客论坛的用户画像构建方法,用于对国外著名黑客论坛的成员构建用户画像。该面向黑客论坛的用户画像构建方法分为用户基本信息构建、用户研究领域提取、用户技术能力评估三个模块。用户基本信息构建模块基于统计学方法和数据挖掘技术,实现用户身份信息的采集和黑客活跃度的统计。用户研究领域提取模块基于机器学习算法,通过对黑客论坛中的用户数据进行聚类、分类,提取出用户的研究领域。用户技术能力评估模块基于机器学习算法,对用户的社交网络影响力和其发言质量进行分析进而评估其技术能力。该面向黑客论坛的用户画像构建方法通过对公开的论坛讨论数据进行处理,合理多方位的对黑客论坛中的用户的技术水平、研究方向、活跃程度、社交网络影响等多个属性进行刻画,提供一个较为精准的用户画像方法。
背景技术
随着网络安全形势日益严峻,在社交网络中也出现了一些专门用来交流黑客技术的论坛。这些黑客论坛中聚集大量的资深黑客以及安全研究者。其行为包括交流黑客技术;传播黑客工具、源代码;组织黑客攻击行动等。对这些黑客论坛中的用户发言和用户行为进行分析并构建用户画像,可以推动追踪溯源、态势分析、舆情监控等安全领域的发展。
用户画像是真实用户的虚拟代表,根据用户的属性、行为习惯等信息抽象出一个标签化的用户模型,最终实现对用户的精准刻画。在黑客论坛中的用户主要是黑客以及安全研究者,分析用户的研究方向、影响力以及技术能力等维度可以较好地构建用户画像。
目前,机器学习、自然语言处理等技术已经广泛应用于网络安全领域。黑客论坛的用户画像构建涉及到用户研究领域的提取、用户技术能力的评估,可以运用机器学习和自然语言处理技术对用户画像的相关维度进行分析。
本文基于上述思路,提出一种基于面向黑客技术社区的用户画像构建方法,从用户的基本信息、研究领域、技术能力多维度构建用户画像。
发明内容
为了对黑客论坛中的用户进行画像构建,本发明提出一种多维度画像构建的方法,包括用户的基本信息构建、用户研究领域提取、用户技术能力评估。用户基本信息构建收集论坛中用户的基本信息以及活跃度;用户研究领域提取根据训练好的机器学习模型对用户的发言进行处理分析,预测出其研究领域;用户技术能力评估通过社交网络分析判断其在社交网络中的重要程度,同时根据训练好的机器学习模型对其发言质量进行分析,预测其发言质量的高低,结合其在社交网络的重要程度和发言质量高低,判断其技术能力。该方法是一种多维度、精准的黑客技术社区用户画像构建的方法。具体包括:用户基本信息构建模块、用户研究领域提取模块、用户技术能力评估模块。
用户基本信息构建模块:该模块主要实现对黑客社区中的用户进行基本信息的收集。收集的信息主要包括用户名、注册时间、用户等级、所属论坛、发言数量、发起讨论数量。同时,根据所有用户发言数量和发起讨论数量(1次发起讨论计5次发言)计算其活跃并且进行活跃的排序,前20%活跃度为高,中间40%为中,最后40%为低。
用户研究领域提取模块:该模块主要对用户的研究领域进行提取。首先为了确定黑客论坛包含哪些研究领域类型,模块对论坛所有数据使用LDA主题提取算法进行聚类,通过得到的主题词,判断出黑客论坛包括五大研究领域类型,即web、system、mobile、database、network。其次为了确定具体用户的研究领域,系统使用Logistics回归算法训练分类模型,通过对用户的发言进行分析,预测出其研究领域。
用户技术能力评估模块: 该模块主要通过用户在社交网络中的影响力和其发言质量确定其技术能力。用户的影响力是由社交网络分析得到的,社交网络图G=(V,E)是一个有权、有向图。节点是社交网络中的所有用户、边是用户之间的互动关系,权重是互动数量。构建规则是如果用户a在b之后发言,则产生一条a到b权重为1的边,若边已经存在则权重加1。根据得到的社交网络图邻接矩阵采用PageRank算法计算其影响力高低。发言质量的判断则使用SVM算法对用户发言数据进行训练得到分类模型,对用户发言数据进行预测,得到用户发言与黑客领域相关的比例。用户技术能力的评估首先对所有用户的PageRank值进行排序,若PageRank值相同则按照用户发言质量进行排序,最终得到用户技术能力排名。
附图说明
图 1 是本发明的系统示意图。
图 2 是本发明的用户基本信息构建模块示意图。
图 3 是本发明的用户研究领域提取模块示意图。
图 4 是本发明的用户技术能力评估模块示意图。
具体实施方式
现结合附图和具体实施方式对本发明进一步说明。本发明一种面向黑客技术社区的用户画像构建方法由用户基本信息构建模块,用户研究领域提取模块,用户技术能力评估模块构成。图1是本发明的系统示意图,图2是本发明的用户基本信息构建模块示意图,图3是本发明的用户研究领域提取模块示意图,图4是本发明的用户技术能力评估模块示意图。
用户基本信息构建模块:首先从采集的数据中收集论坛中的所有用户,根据用户名进一步收集其注册时间、所属论坛、用户等级、发言数量、发起讨论数量。将上述用户基本信息存放至数据库中。然后,统计每个用户的活跃度信息,1次发起讨论计5次发言,计算总的发言数为活跃度信息。对活跃度信息进行排序,按照2:4:4的比例确定活跃度为高中低,并将活跃度存储至数据库。最后将用户基本信息作为用户画像的一部分。
用户研究领域提取模块:由于黑客论坛数据杂乱,为了确定黑客论坛所包含的研究领域数目和类别,从而更好地确定用户个体的研究领域,模块首先以黑客论坛中的每一个讨论群组为单位,存储每个群组的所有参与人员发言的集合。然后使用LDA聚类算法对所有讨论群组进行聚类,并提取出每个类别的主题词,聚类的数量以LDA算法的困惑度最低为优。接下来根据每个类别提供的主题词由专业人员确定其所属的安全研究领域,接着对确定好的所有类别的研究领域进行去重,最后得到黑客论坛所包含的五个研究领域,即web、system、mobile、database、network。为了得到黑客的研究领,模块使用Logistic回归算法进行训练得到分类模型,并使用分类模型对每一个讨论群组的主题进行预测。最后,对于每一个用户,统计其参与群组的主题分布得到其最有可能的研究领域。
用户技术能力评估模块: 首先评估用户在社交网络的影响力,根据用户在论坛中的行为比如发起讨论、回复等行为,构建社交网络图。社交网络图的构建方法为社交网络图G=(V,E)是一个有权、有向图。节点是社交网络中的所有用户、边是用户之间的互动关系,权重是互动数量。构建规则是如果用户a在b之后发言,则产生一条a到b权重为1的边,若边已经存在则权重加1。根据得到的社交网络图邻接矩阵采用PageRank算法计算其PageRank值作为影响力评估的结果。其次评估用户发言质量,对所有用户的发言根据其内容和黑客领域相关或无关进行标注,使用SVM分类算法进行训练得到分类器,然后使用分类器对每一个用户的所有发言进行预测,计算其与黑客领域相关的发言占总发言的比例作为发言质量的评估结果。最后,按照影响力PageRank值进行排序,若PageRank值相同则按照发言质量高低进行排序,最终得到社交网络中用户的技术能力排名作为评估的结果。
Claims (4)
1.一种面向黑客技术社区的用户画像构建方法,其特征在于:包括:用户基本信息构建模块,用户研究领域提取模块,用户技术能力评估模块。
2.根据权利要求1所述的一种面向黑客技术社区的用户画像构建方法,其特征在于:用户基本信息构建模块分析步骤具体包括:
A、采集国内外著名黑客论坛的用户发言数据、以及用户的基本信息;
B、从用户基本信息中提取用户名、注册时间、用户等级等基本信息;
C、根据用户发言的来源收集其所属论坛名,同一用户可以来源于多个论坛,不同论坛相同用户名(不区分大小写)属于同一用户;
D、从发言数据中统计用户的活跃度,包括其参与讨论的发言数量和发起讨论的发言数量,按照一定比例确定黑客的活跃度高低;
E、用户基本信息构建结果展示于用户画像中。
3.根据权利要求1所述的一种面向黑客技术社区的用户画像构建方法,其特征在于:用户研究领域提取模块分析步骤具体包括:
A、将所有采集的用户发言以讨论群组为单位进行合并,得到每个讨论群组的用户发言集合;
B、以所有的讨论群组为数据集使用LDA算法进行聚类分析,提取主要的研究领域类型;
C、以所有的讨论群组为训练集,以提取的研究领域类型为分类结果,使用Logistics回归分类算法对训练集进行训练,得到分类模型,对讨论群组的研究领域类型进行预测;
D、统计用户参与过的所有讨论群组,根据其参与最多的研究领域类型确定其研究方向;
E、用户研究领域提取结果展示于用户画像中。
4.跟据权利要求1所述的一种面向黑客技术社区的用户画像构建方法,其特征在于:用户技术能力评估模块分析步骤具体包括:
A、将所有采集的用户发言进行标注,标注的结果为发言与黑客领域相关和无关两类;
B、以所有的发言数据为训练集,使用SVM分类算法对训练集进行训练,得到分类模型对用户发言数据的黑客领域相关性进行预测;
C、统计黑客发言中与黑客领域相关的发言数占总发言数的比例确定黑客发言的质量高低;
D、根据用户发言之间的关系构建社交网络图,得到社交网络图的邻接矩阵,使用PageRank算法计算用户在社交网络中的重要程度;
E、对所有用户的PageRank值进行排序得到用户影响力的排行,若PageRank值相同则使用用户发言质量进行排序;
F、用户技术能力评估结果展示于用户画像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910274398.0A CN110717837A (zh) | 2019-04-08 | 2019-04-08 | 一种面向黑客论坛的用户画像构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910274398.0A CN110717837A (zh) | 2019-04-08 | 2019-04-08 | 一种面向黑客论坛的用户画像构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110717837A true CN110717837A (zh) | 2020-01-21 |
Family
ID=69208755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910274398.0A Pending CN110717837A (zh) | 2019-04-08 | 2019-04-08 | 一种面向黑客论坛的用户画像构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717837A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076476A (zh) * | 2021-04-01 | 2021-07-06 | 重庆邮电大学 | 一种微博异构信息的用户画像构建方法 |
-
2019
- 2019-04-08 CN CN201910274398.0A patent/CN110717837A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076476A (zh) * | 2021-04-01 | 2021-07-06 | 重庆邮电大学 | 一种微博异构信息的用户画像构建方法 |
CN113076476B (zh) * | 2021-04-01 | 2021-11-30 | 重庆邮电大学 | 一种微博异构信息的用户画像构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107577688B (zh) | 基于媒体信息采集的原创文章影响力分析系统 | |
CN103793484B (zh) | 分类信息网站中的基于机器学习的欺诈行为识别系统 | |
CN109299271B (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN109033408B (zh) | 信息推送方法及装置、计算机可读存储介质、电子设备 | |
CN105302911B (zh) | 一种数据筛选引擎建立方法及数据筛选引擎 | |
CN117151870B (zh) | 一种基于客群画像行为分析方法及系统 | |
CN112488716B (zh) | 一种异常事件检测系统 | |
CN107784387B (zh) | 一种微博事件信息传播的连续动态预测方法 | |
CN105488211A (zh) | 基于特征分析的用户群确定方法 | |
CN115577152B (zh) | 基于数据分析的在线图书借阅管理系统 | |
CN110377605A (zh) | 一种结构化数据的敏感属性识别与分类分级方法 | |
Ansah et al. | Leveraging burst in twitter network communities for event detection | |
CN111831706A (zh) | 一种应用之间关联规则的挖掘方法、装置及存储介质 | |
CN109783805A (zh) | 一种网络社区用户识别方法及装置 | |
Ahsan et al. | Influential node detection in social network during community detection | |
Alguliyev et al. | Extraction of hidden social networks from wiki-environment involved in information conflict | |
Botelho et al. | Combining Social Network Analysis with Semi-supervised Clustering: a case study on fraud detection | |
CN110717837A (zh) | 一种面向黑客论坛的用户画像构建方法 | |
CN117194779A (zh) | 基于人工智能的营销系统优化方法、装置及设备 | |
CN111221915B (zh) | 基于CWK-means的在线学习资源质量分析方法 | |
CN108133296B (zh) | 基于活动的社交网络下的一种结合环境数据的活动出席预测方法 | |
CN108460630B (zh) | 基于用户数据进行分类分析的方法和装置 | |
CN114708114A (zh) | 一种基于特征评价及改进算法的社交机器人账号检测方法 | |
CN114218569A (zh) | 数据分析方法、装置、设备、介质和产品 | |
Arafat et al. | Popularity prediction of online news item based on social media response |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200121 |