CN106230829B - 面向网络威胁发现的虚拟身份知识图谱的构建方法 - Google Patents

面向网络威胁发现的虚拟身份知识图谱的构建方法 Download PDF

Info

Publication number
CN106230829B
CN106230829B CN201610627073.2A CN201610627073A CN106230829B CN 106230829 B CN106230829 B CN 106230829B CN 201610627073 A CN201610627073 A CN 201610627073A CN 106230829 B CN106230829 B CN 106230829B
Authority
CN
China
Prior art keywords
virtual identity
user
data
information
identity information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610627073.2A
Other languages
English (en)
Other versions
CN106230829A (zh
Inventor
郑洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur General Software Co Ltd
Original Assignee
Inspur General Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur General Software Co Ltd filed Critical Inspur General Software Co Ltd
Priority to CN201610627073.2A priority Critical patent/CN106230829B/zh
Publication of CN106230829A publication Critical patent/CN106230829A/zh
Application granted granted Critical
Publication of CN106230829B publication Critical patent/CN106230829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/146Tracing the source of attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向网络威胁发现的虚拟身份知识图谱的构建方法,属于网络虚拟身份的追踪领域,要解决的技术问题为如何减少搜集虚拟身份信息的时间,以提高网络追踪溯源的效率;其步骤为:(1)、通过多种途径搜集用户的虚拟身份信息,包括:搜集不同互联网网站的用户注册信息;定向爬取指定网站中公开的用户个人资料;基于搜索引擎爬取用户的虚拟身份信息;(2)、将用户注册信息表中的多组用户注册信息合并生成数据表Ⅰ,(3)、将数据表Ⅰ和用户个人资料表合并生成数据表Ⅱ;(4)、将虚拟身份信息表和数据表Ⅱ合并生成虚拟身份知识图谱。通过虚拟身份知识图谱查找身份信息,减少搜集虚拟身份信息的时间,提高了网络追踪溯源的效率。

Description

面向网络威胁发现的虚拟身份知识图谱的构建方法
技术领域
本发明涉及网络虚拟身份的追踪领域,具体地说是面向网络威胁发现的虚拟身份知识图谱的构建方法。
背景技术
面对日益增多的网络安全事件,仅仅依靠被动式的技术手段对蓄意的网络入侵和攻击进行防护检测,难以对攻击者构成威慑和打击,因而必须以其他更为主动的方式,即网络追踪溯源,来对攻击者进行定位,并实施相应的惩罚或制裁,方可有效地遏制网络攻击者。目前,网络追踪溯源的方法,主要是在网络攻击事件中寻找到攻击者指纹之后,从互联网中搜集与该指纹相关的虚拟身份信息,这通常需要花费大量的时间。如何减少搜集虚拟身份信息的时间,以提高网络追踪溯源的效率成为亟待解决的问题。
发明内容
本发明的技术任务是针对以上不足之处,提供一种面向网络威胁发现的虚拟身份知识图谱的构建方法,来解决的问题为如何减少搜集虚拟身份信息的时间,以提高网络追踪溯源的效率。
本发明解决其技术问题所采用的技术方案是:
面向网络威胁发现的虚拟身份知识图谱的构建方法,步骤为:
(1)、通过多种途径搜集用户的虚拟身份信息,包括:
搜集不同互联网网站的用户注册信息,将每组用户注册信息均存储到用户注册信息表中,每组用户注册信息包括多个身份数据;
定向爬取指定网站中公开的用户个人资料,将每组用户个人资料均存储到用户个人资料表中,每组用户个人资料包括多个身份数据;
基于搜索引擎爬取用户的虚拟身份信息,将每组虚拟身份信息均存储到虚拟身份信息表中,每组虚拟身份信息包括多个身份数据;
(2)、将用户注册信息表中的多组用户注册信息合并生成数据表Ⅰ,数据表Ⅰ中包括多组用户信息,每组用户信息包括多个身份数据,每组用户信息中的多个身份数据之间的数据结构呈树形;
(3)、将数据表Ⅰ和用户个人资料表合并生成数据表Ⅱ,数据表Ⅱ中包括多组用户信息,每组用户信息中的多个身份数据之间的数据结构呈树形;
(4)、将虚拟身份信息表和数据表Ⅱ合并生成虚拟身份知识图谱,虚拟身份知识图谱中包括多组用户信息,每组用户信息包括多个身份数据。
虚拟身份信息表共两份,分别为虚拟身份信息Ⅰ和虚拟身份信息表Ⅱ,虚拟身份信息表Ⅰ的生成步骤为:基于搜索引擎爬取包含用户虚拟身份信息的excel表格、获取虚拟身份信息,将excel表格中的每组虚拟身份信息均存储到虚拟身份信息表Ⅰ中,每组虚拟身份信息中的身份数据包括用户名、网站名称、网页链接、虚拟身份信息类型和虚拟身份数据,虚拟身份信息类型包括邮箱、电话和QQ,虚拟身份数据包括邮箱地址、电话号码以及QQ号码;
虚拟身份信息表Ⅱ的生成步骤为:基于搜索引擎爬取黑客网站和技术论坛、获取虚拟身份信息,将每组虚拟身份信息存储到虚拟身份信息表Ⅱ中,每组虚拟身份信息中的身份数据包括姓名、虚拟身份信息类型、虚拟身份数据和其他信息,虚拟身份信息类型包括邮箱、电话和QQ,虚拟身份数据包括邮箱地址、电话号码以及QQ号码。
步骤(1)中搜集用户的虚拟身份信息的方法步骤为:
(1.1)、请求URL,下载网页;
(1.2)、解析网页,提取用户的虚拟身份信息;
(1.3)、将用户的虚拟身份信息进行存储。
用户注册信息中的身份数据包括邮箱地址、用户名、密码和网站名称;步骤(2)中将用户注册信息表中的多组用户注册信息合并生成数据表Ⅰ的方法步骤为:
(2.1)、选取一个邮箱地址作为指定邮箱地址,从用户注册信息表中读取与指定邮箱地址相关联的所有用户注册信息;
(2.2)、将与指定邮箱地址相关联的所有用户注册信息合并为一条记录,将所述记录拼接为bjson格式、并存入数据表Ⅰ中;
(2.3)、在用户注册信息表中删除与指定邮箱地址相关联的所有用户注册信息;
(2.4)、判断用户注册信息表是否为空,如果用户注册信息表已空,则结束,如果用户注册信息表没空,则依次重复步骤(2.1)、(2.2)、(2.3)以及(2.4)。
用户个人资料中的身份数据包括用户名、昵称、头像链接、用户所在城市和个人简介,个人简介包括QQ号码、邮箱地址以及电话号码;步骤(3)中将数据表Ⅰ和用户个人资料表合并生成数据表Ⅱ的方法步骤为:
(3.1)、从用户个人资料表中读取一组用户个人资料作为指定用户个人资料;
(3.2)、以指定用户个人资料中的用户名和网站名称作为关联因子,将指定用户个人资料和数据表Ⅰ中与其相关的用户注册信息合并为一条记录,将所述记录bjson格式、并存入数据表Ⅱ中;
(3.3)、在用户个人资料表中删除指定用户个人资料;
(3.4)、判断用户个人资料表是否为空,如果用户个人资料表已空,则结束,如果用户个人资料表没空,则依次重复步骤(3.1)、(3.2)、(3.3)以及(3.4)。
步骤(4)中将虚拟身份信息表和数据表Ⅱ合并生成虚拟身份知识图谱的方法步骤为:
(4.1)、从虚拟身份信息表中读取一组虚拟身份信息作为指定虚拟身份信息;
(4.2)、以指定虚拟身份信息中的邮箱地址、用户名和网站名称的组合作为关联因子,将指定虚拟身份信息和数据表Ⅱ中与其相关的用户信息合并为一条记录,将所述记录拼接为bjson格式、并存入虚拟身份知识图谱中;
(4.3)、在虚拟身份信息表中删除指定虚拟身份信息;
(4.4)、判断虚拟身份信息表是否为空,如果虚拟身份信息表已空,则结束,如果虚拟身份信息表没空,则依次重复步骤(4.1)、(4.2)、(4.3)以及(4.4)。
虚拟身份知识图谱共两个,分别为虚拟身份信息表Ⅰ和数据表Ⅱ合并生成虚拟身份知识图谱Ⅰ以及虚拟身份信息表Ⅱ和数据表Ⅱ合并生成虚拟身份知识图谱Ⅱ,虚拟身份知识图谱Ⅰ中包括多组用户信息,每组用户信息中的身份数据包括虚拟身份信息类型、虚拟身份数据、姓名和其他信息,虚拟身份信息类型包括QQ、邮箱和电话,虚拟身份数据包括邮箱地址、电话号码以及QQ号码;虚拟身份知识图谱Ⅱ中包括多组用户信息,每组用户信息中的身份数据包括虚拟身份信息类型、虚拟身份数据、用户名、网站名称和网页链接,虚拟身份信息类型包括QQ、邮箱和电话,虚拟身份数据包括邮箱地址、电话号码以及QQ号码。
用户注册信息表、用户个人资料表、虚拟身份信息表Ⅰ和虚拟身份信息表Ⅱ均存储在关系型数据库内,数据表Ⅰ和数据表Ⅱ和虚拟身份知识图谱均存储在非关系型数据库内。
本发明的面向网络威胁发现的虚拟身份知识图谱的构建方法和现有技术相比,具有以下有益效果:
1、本发明通过多种途径采集用户的虚拟身份信息,包括不同网站的用户注册信息、指定网站中公开的用户个人资料、网站中包含用户虚拟身份信息的excel表格以及技术网站、黑客论坛和军事网站,增加了用户虚拟身份信息收集的广度,并将上述多种途径的虚拟身份信息依次合并得到关于用户虚拟身份的知识图谱,当在网络安全事件中发现攻击者的身份指纹时,可以首先通过虚拟身份知识图谱查找与这一指纹相关的身份信息,而不必盲目地从各个网站去搜集关于该指纹的信息,便于更快地识别黑客的身份,提高网络追踪溯源的效率,及时地对攻击者实施惩罚和制裁;
2、本发明中以邮箱地址作为关联因子,合并用户注册信息表中的多组用户注册信息、得到数据表Ⅰ,数据表Ⅰ中包括多组用户信息、每组用户信息中的多个身份数据呈以邮箱地址为核心的树形数据结构,再以用户名和网站为关联因子,将数据表Ⅰ和用户个人资料表合并、得到数据表Ⅱ,数据表Ⅱ中包括多组用户信息、每组用户信息中的多个身份数据呈以邮箱地址为核心的树形数据结构;分别以邮箱地址、用户名和网站名称的组合作为关联因子将虚拟身份信息表Ⅰ和数据表Ⅱ合并得到知识图谱Ⅰ、将虚拟身份信息表Ⅱ和数据表Ⅱ合并得到知识图谱Ⅱ,知识图谱Ⅰ和知识图谱Ⅱ中均包括多组用户信息,每组用户信息内的多个身份数据以邮箱地址作为核心呈树形结构,便于查找;
3、本发明中用户注册信息表、个人用户资料表、虚拟身份信息表Ⅰ和虚拟身份信息表Ⅱ中的数据存储结构简单、呈线性结构,将上述户注册信息表、个人用户资料表、虚拟身份信息表Ⅰ和虚拟身份信息表Ⅱ均存储在关系型数据库内,可保证数据批量插入时的稳定性,合并生成的数据表Ⅰ、数据表Ⅱ、知识图谱Ⅰ和知识图谱Ⅱ中的数据接结构复杂、呈树形结构,上述据表Ⅰ、数据表Ⅱ、知识图谱Ⅰ和知识图谱Ⅱ均存储在非关系型数据库内。
附图说明
下面结合附图对本发明进一步说明。
附图1为实施例中面向网络威胁发现的虚拟身份知识图谱的构建方法的流程框图;
附图2为实施例中搜集用户的虚拟身份信息的流程框图;
附图3为实施例中用户注册信息的数据结构;
附图4为实施例中用户个人资料的数据结构;
附图5为实施例中虚拟身份信息表内内虚拟身份信息的数据结构;
附图6为实施例中虚拟身份信息表Ⅱ内虚拟身份信息的数据结构;
附图7为实施例中将用户注册信息表中的多组用户注册信息合并生成数据表Ⅰ的流程框图;
附图8为实施例中数据表Ⅰ内用户信息的数据结构;
附图9为实施例中将数据表Ⅰ和用户个人资料表合并生成数据表Ⅱ的流程框图;
附图10为实施例中数据表Ⅱ内用户信息的数据结构;
附图11为实施例中将虚拟身份信息表和数据表Ⅱ合并生成虚拟身份知识图谱的流程框图;
附图12为实施例中虚拟身份知识图谱Ⅰ内用户身份信息的数据结构;
附图13为实施例中虚拟身份知识图谱Ⅱ内用户身份信息的数据结构。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
如附图1所示,本发明的面向网络威胁发现的虚拟身份知识图谱的构建方法,步骤为:
(1)、通过多种途径搜集用户的虚拟身份信息,包括:
搜集不同互联网网站的用户注册信息,将每组用户注册信息均存储到用户注册信息表中,每组用户注册信息包括多个身份数据;
定向爬取指定网站中公开的用户个人资料,将每组用户个人资料均存储到用户个人资料表中,每组用户个人资料包括多个身份数据;
基于搜索引擎爬取用户的虚拟身份信息,将每组虚拟身份信息均存储到虚拟身份信息表中,每组虚拟身份信息包括多个身份数据;
(2)、将用户注册信息表中的多组用户注册信息合并生成数据表Ⅰ,数据表Ⅰ中包括多组用户信息,每组用户信息包括多个身份数据,每组用户信息中的多个身份数据之间的数据结构呈树形;
(3)、将数据表Ⅰ和用户个人资料表合并生成数据表Ⅱ,数据表Ⅱ中包括多组用户信息,每组用户信息中的多个身份数据之间的数据结构呈树形;
(4)、将虚拟身份信息表和数据表Ⅱ合并生成虚拟身份知识图谱,虚拟身份知识图谱中包括多组用户信息,每组用户信息包括多个身份数据。
其中,基于搜索引擎爬取用户的虚拟身份信息的途径有两种,一种是基于搜索引擎爬取包含用户虚拟身份信息的excel表格、获取虚拟身份信息,将excel表格中的每组虚拟身份信息均存储到虚拟身份信息表Ⅰ中;另一种是基于搜索引擎爬取黑客网站和技术论坛、获取虚拟身份信息,将每组虚拟身份信息存储到虚拟身份信息表Ⅱ中。
如附图3所示,用户注册信息中的身份数据包括邮箱地址、用户名、密码和网站名称,用户注册信息中的上述身份数据呈线性数据结构。
如附图4所示,用户个人资料中的身份数据包括用户名、昵称、头像链接、用户所在城市和个人简介,个人简介包括QQ号码、邮箱地址以及电话号码,用户个人资料中的身份数据呈线性数据结构。
如附图5所示,虚拟身份信息表Ⅰ中每组虚拟身份信息中的身份数据包括用户名、网站名称、网页链接、虚拟身份信息类型和虚拟身份数据,虚拟身份信息类型包括邮箱、电话和QQ,虚拟身份数据包括邮箱地址、电话号码以及QQ号码。
如附图6所示,虚拟身份信息表Ⅱ中,每组虚拟身份信息中的身份数据包括姓名、虚拟身份信息类型、虚拟身份数据和其他信息,虚拟身份信息类型包括邮箱、电话和QQ,虚拟身份数据包括邮箱地址、电话号码以及QQ号码。
如附图2所示,上述步骤(1)中搜集用户的虚拟身份信息的方法步骤为:
(1.1)、请求URL,下载网页;
(1.2)、解析网页,提取用户的虚拟身份信息;
(1.3)、将用户的虚拟身份信息进行存储。
其中,请求URL,下载网页使用了urllib2。它是Python的一个获取URLs的组件,通过urlopen函数提供下载网页的接口。解析网页,提取虚拟身份信息,使用了BeautifulSoup和正则表达式。Beautiful Soup是一个可以从HTML文件中提取数据的Python库,它通过转换器实现文档导航,并提供可接收正则表达式的find和find_all两个接口,可快速查找和提取网页数据。
在具体实现过程中,虚拟身份信息的采集使用了多线程技术,采集程序包含三类线程,它们各司其职,分别完成网页下载、虚拟身份信息提取和虚拟身份信息存储的任务。其中,线程ThreadUrl每次从url_queue中取出一个url,发送url请求,下载网页,将下载的HTML或json格式文档放入html_queue。线程DatamineThread每次从html_queue取一个html或json格式文档,提取其中所需的用户的虚拟身份信息,合并同一个用户的虚拟身份信息,放入data_queue。线程SavedataThread每一次从data_queue取定量的数据存入数据库。
如附图7所示,上述步骤(2)中将用户注册信息表中的多组用户注册信息合并生成数据表Ⅰ的方法步骤为:
(2.1)、选取一个邮箱地址作为指定邮箱地址,从用户注册信息表中读取与指定邮箱地址相关联的所有用户注册信息;
(2.2)、将与指定邮箱地址相关联的所有用户注册信息合并为一条记录,将所述记录拼接为bjson格式、并存入数据表Ⅰ中;
(2.3)、在用户注册信息表中删除与指定邮箱地址相关联的所有用户注册信息;
(2.4)、判断用户注册信息表是否为空,如果用户注册信息表已空,则结束,如果用户注册信息表没空,则依次重复步骤(2.1)、(2.2)、(2.3)以及(2.4)。
如附图8所示,数据表Ⅰ内每组用户信息中的身份数据包括一个邮箱地址、多个用户名、多个网站名称以及多个密码,用户信息中的身份数据以邮箱地址为核心,建立了呈树形结构的数据结构。
如附图9所示,步骤(3)中将数据表Ⅰ和用户个人资料表合并生成数据表Ⅱ的方法步骤为:
(3.1)、从用户个人资料表中读取一组用户个人资料作为指定用户个人资料;
(3.2)、以指定用户个人资料中的用户名和网站名称作为关联因子,将指定用户个人资料和数据表Ⅰ中与其相关的用户注册信息合并为一条记录,将所述记录bjson格式、并存入数据表Ⅱ中;
(3.3)、在用户个人资料表中删除指定用户个人资料;
(3.4)、判断用户个人资料表是否为空,如果用户个人资料表已空,则结束,如果用户个人资料表没空,则依次重复步骤(3.1)、(3.2)、(3.3)以及(3.4)。
如附图10所示,数据表Ⅱ内每组用户信息中的身份数据包括一个邮箱地址、多个用户名、多个网站名称、多个密码以及多个个人资料,其中,个人资料中的身份数据来源于用户个人资料中的身份数据,用户信息中的身份数据以邮箱地址为核心,建立了呈树形结构的数据结构。
如附图11所示,步骤(4)中将虚拟身份信息表和数据表Ⅱ合并生成虚拟身份知识图谱的方法步骤为:
(4.1)、从虚拟身份信息表中读取一组虚拟身份信息作为指定虚拟身份信息;
(4.2)、以指定虚拟身份信息中的邮箱地址、用户名和网站名称的组合作为关联因子,将指定虚拟身份信息和数据表Ⅱ中与其相关的用户信息合并为一条记录,将所述记录拼接为bjson格式、并存入虚拟身份知识图谱中;
(4.3)、在虚拟身份信息表中删除指定虚拟身份信息;
(4.4)、判断虚拟身份信息表是否为空,如果虚拟身份信息表已空,则结束,如果虚拟身份信息表没空,则依次重复步骤(4.1)、(4.2)、(4.3)以及(4.4)。
虚拟身份知识图谱共两个,分别为虚拟身份信息表Ⅰ和数据表Ⅱ合并生成虚拟身份知识图谱Ⅰ以及虚拟身份信息表Ⅱ和数据表Ⅱ合并生成虚拟身份知识图谱Ⅱ。如附图12所示,虚拟身份知识图谱Ⅰ中包括多组用户信息,每组用户信息中的身份数据包括虚拟身份信息类型、虚拟身份数据、姓名和其他信息,虚拟身份信息类型包括QQ、邮箱和电话,虚拟身份数据包括邮箱地址、电话号码以及QQ号码;如附图13所示,虚拟身份知识图谱Ⅱ中包括多组用户信息,每组用户信息中的身份数据包括虚拟身份信息类型、虚拟身份数据、用户名、网站名称和网页链接,虚拟身份信息类型包括QQ、邮箱和电话,虚拟身份数据包括邮箱地址、电话号码以及QQ号码。在实际应用中,虚拟知识图谱中每组用户信息包括但不仅限附图12和附图13所示的身份数据。
用户注册信息表、用户个人资料表、虚拟身份信息表Ⅰ和虚拟身份信息表Ⅱ均存储在关系型数据库MySQL内,数据表Ⅰ和数据表Ⅱ、虚拟身份知识图谱Ⅰ和虚拟身份知识图谱Ⅱ均存储在非关系型数据库MongoDB内。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (8)

1.面向网络威胁发现的虚拟身份知识图谱的构建方法,其特征在于步骤为:
(1)、通过多种途径搜集用户的虚拟身份信息,包括:
搜集不同互联网网站的用户注册信息,将每组用户注册信息均存储到用户注册信息表中,每组用户注册信息包括多个身份数据;
定向爬取指定网站中公开的用户个人资料,将每组用户个人资料均存储到用户个人资料表中,每组用户个人资料包括多个身份数据;
基于搜索引擎爬取用户的虚拟身份信息,将每组虚拟身份信息均存储到虚拟身份信息表中,每组虚拟身份信息包括多个身份数据;
(2)、将用户注册信息表中的多组用户注册信息合并生成数据表Ⅰ,数据表Ⅰ中包括多组用户信息,每组用户信息包括多个身份数据,每组用户信息中的多个身份数据之间的数据结构呈树形;
(3)、将数据表Ⅰ和用户个人资料表合并生成数据表Ⅱ,数据表Ⅱ中包括多组用户信息,每组用户信息中的多个身份数据之间的数据结构呈树形;
(4)、将虚拟身份信息表和数据表Ⅱ合并生成虚拟身份知识图谱,虚拟身份知识图谱中包括多组用户信息,每组用户信息包括多个身份数据;
虚拟身份信息表共两份,分别为虚拟身份信息Ⅰ和虚拟身份信息表Ⅱ,虚拟身份信息表Ⅰ的生成步骤为:基于搜索引擎爬取包含用户虚拟身份信息的excel表格、获取虚拟身份信息,将excel表格中的每组虚拟身份信息均存储到虚拟身份信息表Ⅰ中;虚拟身份信息表Ⅱ的生成步骤为:基于搜索引擎爬取黑客网站和技术论坛、获取虚拟身份信息,将每组虚拟身份信息存储到虚拟身份信息表Ⅱ中。
2.根据权利要求1所述的面向网络威胁发现的虚拟身份知识图谱的构建方法,其特征在于虚拟身份信息表Ⅰ中,每组虚拟身份信息中的身份数据包括用户名、网站名称、网页链接、虚拟身份信息类型和虚拟身份数据,虚拟身份信息类型包括邮箱、电话和QQ,虚拟身份数据包括邮箱地址、电话号码以及QQ号码;
虚拟身份信息表Ⅱ中,每组虚拟身份信息中的身份数据包括姓名、虚拟身份信息类型、虚拟身份数据和其他信息,虚拟身份信息类型包括邮箱、电话和QQ,虚拟身份数据包括邮箱地址、电话号码以及QQ号码。
3.根据权利要求1或2所述的面向网络威胁发现的虚拟身份知识图谱的构建方法,其特征在于步骤(1)中搜集用户的虚拟身份信息的方法步骤为:
(1.1)、请求URL,下载网页;
(1.2)、解析网页,提取用户的虚拟身份信息;
(1.3)、将用户的虚拟身份信息进行存储。
4.根据权利要求1或2所述的面向网络威胁发现的虚拟身份知识图谱的构建方法,其特征在于用户注册信息中的身份数据包括邮箱地址、用户名、密码和网站名称;步骤(2)中将用户注册信息表中的多组用户注册信息合并生成数据表Ⅰ的方法步骤为:
(2.1)、选取一个邮箱地址作为指定邮箱地址,从用户注册信息表中读取与指定邮箱地址相关联的所有用户注册信息;
(2.2)、将与指定邮箱地址相关联的所有用户注册信息合并为一条记录,将所述记录拼接为bjson格式、并存入数据表Ⅰ中;
(2.3)、在用户注册信息表中删除与指定邮箱地址相关联的所有用户注册信息;
(2.4)、判断用户注册信息表是否为空,如果用户注册信息表已空,则结束,如果用户注册信息表没空,则依次重复步骤(2.1)、(2.2)、(2.3)以及(2.4)。
5.根据权利要求4所述的面向网络威胁发现的虚拟身份知识图谱的构建方法,其特征在于用户个人资料中的身份数据包括用户名、昵称、头像链接、用户所在城市和个人简介,个人简介包括QQ号码、邮箱地址以及电话号码;步骤(3)中将数据表Ⅰ和用户个人资料表合并生成数据表Ⅱ的方法步骤为:
(3.1)、从用户个人资料表中读取一组用户个人资料作为指定用户个人资料;
(3.2)、以指定用户个人资料中的用户名和网站名称作为关联因子,将指定用户个人资料和数据表Ⅰ中与其相关的用户注册信息合并为一条记录,将所述记录拼接为bjson格式、并存入数据表Ⅱ中;
(3.3)、在用户个人资料表中删除指定用户个人资料;
(3.4)、判断用户个人资料表是否为空,如果用户个人资料表已空,则结束,如果用户个人资料表没空,则依次重复步骤(3.1)、(3.2)、(3.3)以及(3.4)。
6.根据权利要求5所述的面向网络威胁发现的虚拟身份知识图谱的构建方法,其特征在于步骤(4)中将虚拟身份信息表和数据表Ⅱ合并生成虚拟身份知识图谱的方法步骤为:
(4.1)、从虚拟身份信息表中读取一组虚拟身份信息作为指定虚拟身份信息;
(4.2)、以指定虚拟身份信息中的邮箱地址、用户名和网站名称的组合作为关联因子,将指定虚拟身份信息和数据表Ⅱ中与其相关的用户信息合并为一条记录,将所述记录拼接为bjson格式、并存入虚拟身份知识图谱中;
(4.3)、在虚拟身份信息表中删除指定虚拟身份信息;
(4.4)、判断虚拟身份信息表是否为空,如果虚拟身份信息表已空,则结束,如果虚拟身份信息表没空,则依次重复步骤(4.1)、(4.2)、(4.3)以及(4.4)。
7.根据权利要求6所述的面向网络威胁发现的虚拟身份知识图谱的构建方法,其特征在于虚拟身份知识图谱共两个,分别为虚拟身份信息表Ⅰ和数据表Ⅱ合并生成虚拟身份知识图谱Ⅰ以及虚拟身份信息表Ⅱ和数据表Ⅱ合并生成虚拟身份知识图谱Ⅱ,虚拟身份知识图谱Ⅰ中包括多组用户信息,每组用户信息中的身份数据包括虚拟身份信息类型、虚拟身份数据、姓名和其他信息,虚拟身份信息类型包括QQ、邮箱和电话,虚拟身份数据包括邮箱地址、电话号码以及QQ号码;虚拟身份知识图谱Ⅱ中包括多组用户信息,每组用户信息中的身份数据包括虚拟身份信息类型、虚拟身份数据、用户名、网站名称和网页链接,虚拟身份信息类型包括QQ、邮箱和电话,虚拟身份数据包括邮箱地址、电话号码以及QQ号码。
8.根据权利要求2所述的面向网络威胁发现的虚拟身份知识图谱的构建方法,其特征在于用户注册信息表、用户个人资料表、虚拟身份信息表Ⅰ和虚拟身份信息表Ⅱ均存储在关系型数据库内,数据表Ⅰ和数据表Ⅱ和虚拟身份知识图谱均存储在非关系型数据库内。
CN201610627073.2A 2016-08-03 2016-08-03 面向网络威胁发现的虚拟身份知识图谱的构建方法 Active CN106230829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610627073.2A CN106230829B (zh) 2016-08-03 2016-08-03 面向网络威胁发现的虚拟身份知识图谱的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610627073.2A CN106230829B (zh) 2016-08-03 2016-08-03 面向网络威胁发现的虚拟身份知识图谱的构建方法

Publications (2)

Publication Number Publication Date
CN106230829A CN106230829A (zh) 2016-12-14
CN106230829B true CN106230829B (zh) 2019-06-11

Family

ID=57535680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610627073.2A Active CN106230829B (zh) 2016-08-03 2016-08-03 面向网络威胁发现的虚拟身份知识图谱的构建方法

Country Status (1)

Country Link
CN (1) CN106230829B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664480B (zh) 2017-03-27 2020-02-11 北京国双科技有限公司 一种多数据源用户信息整合方法和装置
CN109598529A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 一种用户标识的识别方法及装置
CN108234297B (zh) * 2018-01-19 2021-02-12 论客科技(广州)有限公司 限制邮件系统使用真实姓名发信的方法、系统与装置
CN108984767A (zh) * 2018-07-20 2018-12-11 珠海宏桥高科技有限公司 一种虚拟身份核实的方法
CN109559192A (zh) * 2018-10-25 2019-04-02 深圳壹账通智能科技有限公司 基于关联图谱的风险检测方法、装置、设备及存储介质
CN110298328B (zh) * 2019-07-03 2021-08-20 中国工商银行股份有限公司 测试数据形成方法、测试数据形成装置、电子设备和介质
CN110717051A (zh) * 2019-10-11 2020-01-21 集奥聚合(北京)人工智能科技有限公司 基于社交网络的知识图谱构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6873609B1 (en) * 1999-11-02 2005-03-29 Ipwireless, Inc. Use of internet WEB technology for wireless internet access
CN101222348A (zh) * 2007-01-10 2008-07-16 阿里巴巴公司 统计网站真实用户的方法及系统
CN104394118A (zh) * 2014-07-29 2015-03-04 焦点科技股份有限公司 一种用户身份识别方法及系统
CN104573094A (zh) * 2015-01-30 2015-04-29 深圳市华傲数据技术有限公司 网络账号识别匹配方法
CN105630978A (zh) * 2015-12-25 2016-06-01 曙光信息产业(北京)有限公司 信息收集方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6873609B1 (en) * 1999-11-02 2005-03-29 Ipwireless, Inc. Use of internet WEB technology for wireless internet access
CN101222348A (zh) * 2007-01-10 2008-07-16 阿里巴巴公司 统计网站真实用户的方法及系统
CN104394118A (zh) * 2014-07-29 2015-03-04 焦点科技股份有限公司 一种用户身份识别方法及系统
CN104573094A (zh) * 2015-01-30 2015-04-29 深圳市华傲数据技术有限公司 网络账号识别匹配方法
CN105630978A (zh) * 2015-12-25 2016-06-01 曙光信息产业(北京)有限公司 信息收集方法和装置

Also Published As

Publication number Publication date
CN106230829A (zh) 2016-12-14

Similar Documents

Publication Publication Date Title
CN106230829B (zh) 面向网络威胁发现的虚拟身份知识图谱的构建方法
Messmer et al. A decision tree approach to graph and subgraph isomorphism detection
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN102663105B (zh) 号码信息数据库的建立方法及系统
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
US20080104021A1 (en) Systems and methods for controlling access to online personal information
CN106933991A (zh) 一种面向智能终端的深度分析与用户画像系统及方法
CN108399150A (zh) 文本处理方法、装置、计算机设备和存储介质
CN103501306B (zh) 一种网址识别的方法、服务器及系统
CN107092639A (zh) 一种搜索引擎系统
CN106650799A (zh) 一种电子证据分类提取方法及系统
CN106326888A (zh) 图像识别方法和装置
CN108092963A (zh) 网页识别方法、装置、计算机设备及存储介质
CN105893615B (zh) 基于手机取证数据的机主特征属性挖掘方法及其系统
CN108804516A (zh) 相似用户查找装置、方法及计算机可读存储介质
CN103116635B (zh) 面向领域的暗网资源采集方法和系统
CN106033428B (zh) 统一资源定位符的选择方法和统一资源定位符的选择装置
CN105701239B (zh) 账户信息共享方法及装置
CN108959572A (zh) 一种网络溯源方法、装置、电子设备及存储介质
CN106156954A (zh) 一种图书馆管理系统
CN114817968A (zh) 无特征数据的路径追溯方法、装置、设备及存储介质
CN109040346A (zh) 一种泛域名解析中有效域名的筛选方法、装置及设备
CN107590265A (zh) 一种基于网络爬虫的网站行政归属识别方法
CN107247730A (zh) 图片搜索方法及装置
CN106959995A (zh) 兼容双向自动化网页内容采集方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant