CN112948638B - 一种图谱构建方法、装置、存储介质和计算机设备 - Google Patents

一种图谱构建方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN112948638B
CN112948638B CN201911264939.8A CN201911264939A CN112948638B CN 112948638 B CN112948638 B CN 112948638B CN 201911264939 A CN201911264939 A CN 201911264939A CN 112948638 B CN112948638 B CN 112948638B
Authority
CN
China
Prior art keywords
name
domain name
directed
graph
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911264939.8A
Other languages
English (en)
Other versions
CN112948638A (zh
Inventor
肖书俊
吴晨花
李铭学
陈达
陈海霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Hainan Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Hainan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Hainan Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911264939.8A priority Critical patent/CN112948638B/zh
Publication of CN112948638A publication Critical patent/CN112948638A/zh
Application granted granted Critical
Publication of CN112948638B publication Critical patent/CN112948638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种图谱构建方法、装置、存储介质和计算机设备。本发明实施例的方案中,将有效域名系统日志数据中的每条有效数据记录中的第一个域名确定为查询域名;将每条有效数据记录中的除查询域名之外的域名确定为规范名字;根据查询域名、第1个规范名字和从查询域名至第1个规范名字的有向路径,生成第一调度图;根据查询域名、规范名字和相邻域名之间的有向路径,生成第二调度图;根据第一调度图和第二调度图,构建规范名字图谱,采用构建规范名字图谱的方法对有效域名系统日志数据进行分析,保证了数据的全面性、准确性和及时性,并且可以洞察到有效域名系统日志数据的迭代过程。

Description

一种图谱构建方法、装置、存储介质和计算机设备
【技术领域】
本发明涉及数据处理技术领域,尤其涉及一种图谱构建方法、装置、存储介质和计算机设备。
【背景技术】
目前常见的对内容分发网络(Content Delivery Network,简称:CDN)调度分析方法,主要是通过构建网际互连协议(Internet Protocol,简称:IP)地址和CDN节点之间的映射关系,对业务IP翻译对应的CDN归属,此分析方法难以保证IP地址和CDN节点之间的映射关系的数据全面性、准确性和及时性,而且仅能做到分析最终结果,无法洞察调度过程中的域名的迭代过程。
【发明内容】
有鉴于此,本发明实施例提供了一种图谱构建方法、装置、存储介质和计算机设备,可以。
一方面,本发明实施例提供了一种图谱构建方法,所述方法包括:
获取有效域名系统日志数据,有效域名系统日志数据包括多条有效数据记录,每条有效数据记录包括多个域名以及相邻域名之间的有向路径;
将每条有效数据记录中的第一个域名确定为查询域名;
将每条有效数据记录中的除查询域名之外的域名确定为规范名字;
根据查询域名、第1个规范名字和从查询域名至第1个规范名字的有向路径,生成第一调度图;
根据查询域名、规范名字和相邻域名之间的有向路径,生成第二调度图;
根据第一调度图和第二调度图,构建规范名字图谱。
可选地,获取域名系统有效日志数据,具体包括:
获取域名系统日志数据;
对域名系统日志数据进行清洗,生成有效域名系统日志数据。
可选地,第一调度图包括两个顶点和所述两个顶点之间的有向边;根据查询域名、第1个规范名字和从查询域名至第1个规范名字的有向路径,生成第一调度图,包括:
将查询域名确定为所述第一调度图的一个顶点;
将第1个规范名字的有向路径确定为第一调度图的另一个顶点;
将从查询域名至第1个规范名字的有向路径确定为第一调度图中的两个顶点之间的有向边。
可选地,第二调度图包括多个顶点和多条有向边;根据查询域名、规范名字和相邻域名之间的有向路径,生成第二调度图,包括:
按照从查询域名至第1个规范名字的有向路径、从第1个规范名字至第N个规范名字的有向路径,将查询域名、第1个规范名字至第N个规范名字拆分成多个域名对,每个域名对包括两个域名和两个域名之间的有向路径,N包括正整数;将查询域名、第1个规范名字至第N个规范名字确定为第二调度图中的顶点;将两个域名之间的有向路径确定为第二调度图中相应的顶点之间的有向边。
可选地,根据第一调度图和第二调度图,构建规范名字图谱,包括:
对第一调度图进行标准化预处理,生成第一有向图,第一有向图包括多个顶点和多条有向边;
对第二调度图进行标准化预处理,生成第二有向图,第二有向图包括多个顶点和多条有向边;
将第一有向图和第二有向图进行整合,构建规范名字图谱。
可选地,有向边包括出向边或入向边;在根据第一调度图和第二调度图,构建规范名字图谱之后,还包括:
从规范名字图谱中任意选取一个顶点类型不为查询域名类型的顶点;
将顶点类型不为查询域名类型的顶点确定为根节点;
从根节点的域名中,提取根节点的域;
根据根节点的域,从规范名字图谱中提取出所有出向边指向域的顶点;
将所有出向边指向域的顶点确定为子节点;
根据根节点和子节点,生成入向连通子图。
可选地,在根据规范名字图谱,生成连通子图之后,还包括:
按照数据可视化框架,根据规范名字图谱,生成力导向图。
另一方面,本发明实施例提供了一种图谱构建装置,包括:
获取单元,用于获取有效域名系统日志数据,有效域名系统日志数据包括多条有效数据记录,每条有效数据记录包括多个域名以及相邻域名之间的有向路径;
第一确定单元,用于将每条有效数据记录中的第一个域名确定为查询域名;
第二确定单元,用于将每条有效数据记录中的除查询域名之外的域名确定为规范名字;
第一生成单元,用于根据查询域名、第1个规范名字和从查询域名至第1个规范名字的有向路径,生成第一调度图;
第二生成单元,用于根据查询域名、规范名字和相邻域名之间的有向路径,生成第二调度图;
构建单元,用于根据第一调度图和第二调度图,构建规范名字图谱。
另一方面,本发明实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述图谱构建方法。
另一方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现上述图谱构建方法的步骤。
本发明实施例的方案中,获取有效域名系统日志数据,有效域名系统日志数据包括多条有效数据记录,每条有效数据记录包括多个域名以及相邻域名之间的有向路径;将每条有效数据记录中的第一个域名确定为查询域名;将每条有效数据记录中的除查询域名之外的域名确定为规范名字;根据查询域名、第1个规范名字和从查询域名至第1个规范名字的有向路径,生成第一调度图;根据查询域名、规范名字和相邻域名之间的有向路径,生成第二调度图;根据第一调度图和第二调度图,构建规范名字图谱,采用构建规范名字图谱的方法对有效域名系统日志数据进行分析,保证了数据的全面性、准确性和及时性,并且可以洞察到有效域名系统日志数据的迭代过程。
【附图说明】
图1为本发明实施例提供的一种图谱构建方法的结构示意图;
图2为本发明实施例提供的又一种图谱构建方法的流程图;
图3为本发明实施例提供的一种CNAME图谱的示例图;
图4为本发明实施例提供的一种根据图3提供的CNAME图谱生成的入向连通子图的示例图;
图5为本发明实施例提供的一种根据图3提供的CNAME图谱生成的出向连通子图的示例图;
图6为本发明实施例提供的一种根据图3提供的CNAME图谱生成的弱连通子图的示例图;
图7为本发明实施例提供的一种根据图3提供的CNAME图谱生成的力导向图的示例图;
图8为本发明实施例提供的一种图谱构建装置的结构示意图;
图9为本发明实施例提供的一种计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述设定阈值,但这些设定阈值不应限于这些术语。这些术语仅用来将设定阈值彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一设定阈值也可以被称为第二设定阈值,类似地,第二设定阈值也可以被称为第一设定阈值。
图1为本发明实施例提供的一种图谱构建方法的流程图,如图1所示,该方法包括:
步骤102、获取有效域名系统日志数据,有效域名系统日志数据包括多条有效数据记录,每条有效数据记录包括多个域名以及相邻域名之间的有向路径。
步骤104、将每条有效数据记录中的第一个域名确定为查询域名。
步骤106、将每条有效数据记录中的除查询域名之外的域名确定为规范名字。
步骤108、根据查询域名、第1个规范名字和从查询域名至第1个规范名字的有向路径,生成第一调度图。
步骤110、根据查询域名、规范名字和相邻域名之间的有向路径,生成第二调度图。
步骤112、根据第一调度图和第二调度图,构建规范名字图谱。
本发明实施例的方案中,获取有效域名系统日志数据,有效域名系统日志数据包括多条有效数据记录,每条有效数据记录包括多个域名以及相邻域名之间的有向路径;将每条有效数据记录中的第一个域名确定为查询域名;将每条有效数据记录中的除查询域名之外的域名确定为规范名字;根据查询域名、第1个规范名字和从查询域名至第1个规范名字的有向路径,生成第一调度图;根据查询域名、规范名字和相邻域名之间的有向路径,生成第二调度图;根据第一调度图和第二调度图,构建规范名字图谱,采用构建规范名字图谱的方法对有效域名系统日志数据进行分析,保证了数据的全面性、准确性和及时性,并且可以洞察到有效域名系统日志数据的迭代过程。
图2为本发明实施例提供的又一种图谱构建方法的流程图,如图2所示,该方法包括:
步骤202、获取域名系统(Domain Name System,简称:DNS)日志数据。
本实施例中,各步骤由计算机设备执行。
本实施例中,DNS日志数据包括多条数据记录。
步骤204、对DNS日志数据进行清洗,生成有效DNS日志数据,有效日志数据包括多条有效数据记录,每条有效数据记录包括查询域名、第1个CNAME、第2个CNAME、……、第N-1个CNAME、第N个CNAME、从查询域名至第1个CNAME的有向路径、从第1个CNAME至第2个CNAME的有向路径、……、从第N-1个CNAME至第N个CNAME的有向路径。
本实施例中,第1个CNAME记作CNAME1、第2个CNAME记作CNAME2、……第n个CNAME记作CNAME N。
例如,有效数据记录为:查询域名→CNAME1→CNAME2→CNAME3。
本实施例中,对DNS日志数据进行清洗包括:将无CNAME调度过程的数据记录、失败的数据记录、异常的数据记录和类型不符的数据记录从DNS日志数据中删除。
例如,若数据记录中包括非法字符,则该数据记录为失败的数据记录,将该数据记录从DNS日志数据中删除;若数据记录中缺少字段,则该数据记录为异常的数据记录,将该数据记录删除;若数据记录中包括不属于网际协议版本4(Internet Protocol version 4,简称:IPv4)地址的数据记录,则该数据记录为类型不符的数据记录,将该数据记录删除。
步骤206、根据查询域名、第1个CNAME和从查询域名至第1个CNAME的有向路径,生成第一调度图。
本实施例中,第一调度图中包括两个顶点和两个顶点之间的有向边。
本步骤中,步骤206具体包括:
步骤206a、将查询域名确定为第一调度图的一个顶点。
步骤206b、将第1个CNAME确定为第一调度图的另一个顶点。
步骤206c、将从查询域名至第1个CNAME的有向路径确定为第一调度图中的两个顶点之间的有向边。
本步骤中,第一调度图中两个顶点之间的有向边既属于一个顶点,又属于另一个顶点。并且,第一调度图中的两个顶点之间的有向边既属于一个顶点的出向边,又属于一个顶点的入向边。
步骤206d、根据有效DNS日志数据,统计从查询域名至第1个CNAME的有效路径的出现次数。
例如,有效DNS日志数据中共有2条有效数据记录存在从查询域名至第1个CNAME的有效路径,一条数据记录为:查询域名→CNAME1;另一条为:查询域名→CNAME2→CNAME1,从查询域名至第1个CNAME的有效路径的出现次数为2次。
步骤206e、将从查询域名至第1个CNAME的有向路径的出现次数确定为第一调度图中两个顶点之间的有向边的权重。
步骤208、按照从查询域名至第1个CNAME的有向路径、从第1个CNAME至第N个CNAME的有向路径,将所述查询域名、第1个CNAME至第N个CNAME拆分成多个域名对,每个域名对包括两个域名和两个域名之间的有向路径。
具体地,按照从查询域名至第1个CNAME的有向路径、从第1个CNAME至第2个CNAME的有向路径、……、从第N-1个CNAME至第N个CNAME的有向路径,将查询域名、第1个CNAME、第2个CNAME、……、第N-1个CNAME、第N个CNAME拆分成多个域名对;每个域名对包括查询域名、第1个CNAME以及从查询域名至第1个CNAME的有向路径以及2个相邻CNAME和2个CNAME之间的有向路径。
例如:有效数据记录为:查询域名→CNAME1→CNAME2→CNAME3,拆分成:查询域名→CNAME1、CNAME1→CNAME2、CNAME2→CNAME3,即3个域名对。
本实施例中,N包括正整数。
步骤210、根据多个域名对,生成第二调度图。
本实施例中,第二调度图包括多个顶点和多条有向边。
本实施例中,步骤210具体包括:
步骤210a、将所述查询域名、第1个CNAME至第N个CNAME确定为第二调度图中的顶点。
具体地,将查询域名、第1个CNAME、第2个CNAME、……、第N-1个CNAME、第N个CNAME确定为第二调度图中的顶点。
步骤210b、将两个域名之间的有向路径确定为第二调度图中相应的顶点之间的有向边。
具体地,将查询域名和第1个CNAME之间的有向路径以及2个相邻CNAME之间的有向路径确定为第二调度图中相应的顶点之间的有向边。
步骤210c、根据有效DNS日志数据,统计2个相邻CNAME的有向路径的出现次数。此时,i的取值为1至N-1。
步骤210d、将2个相邻CNAME的有向路径的出现次数确定为第二调度图中各有向边的权重。
步骤212、对第一调度图进行预处理,生成第一有向图。
本实施例中,步骤212具体包括:
步骤212a、将第一调度图中的顶点的所有有向边的权重相加,生成顶点权重。
本实施例中,有向边包括出向边或入向边,将顶点的所有有向边的权重相加,生成顶点权重,具体包括:将该顶点的所有出向边的权重与所有入向边的权重相加,得出的相加结果为顶点权重。
步骤212b、采用极值标准化法,将顶点权重映射到指定区域中,生成标准顶点权重。
可选的,指定区域为[0,1]。
步骤212c、采用极值标准化法,将有向边的权重映射到指定区域中,生成标准有向边权重。
可选的,指定区域为[0,1]。
步骤214、对第二调度图进行预处理,生成第二有向图。
本实施例中,步骤212具体包括:
步骤214a、将第二调度图中的顶点的所有有向边的权重相加,生成顶点权重。
本实施例中,有向边包括出向边或入向边,将顶点的所有有向边的权重相加,生成顶点权重,具体包括:将该顶点的所有出向边的权重与所有入向边的权重相加,得出的相加结果为顶点权重。
步骤214b、采用极值标准化法,将顶点权重映射到指定区域中,生成标准顶点权重。
可选的,指定区域为[0,1]。
步骤214c、采用极值标准化法,将有向边的权重映射到指定区域中,生成标准有向边权重。
可选的,指定区域为[0,1]。
步骤214d、按照由大到小的顺序,对有向边的权重进行排序,生成有向边的有序权重。
步骤214e、从有向边的有序权重中筛选出指定数量的有向边。
可选地,指定数量为50。
步骤214f、根据指定数量的有向边和指定数量的有向边对应的顶点,生成第二有向图。
步骤216、将第一有向图和第二有向图进行整合,构建CNAME图谱。
本实施例中,第一有向图的一个顶点为查询域名,另一个顶点为第1个CNAME;第二有向图的顶点中包括查询域名和第1个CNAME,且第一有向图中从查询域名到第1个CNAME的有向边的权重与第二有向图中从查询域名到第1个CNAME的有向边的权重不同。
具体地,将第一有向图和第二有向图进行整合具体包括将第一有向图中从查询域名到第1个CNAME的有向边的权重和第二有向图中从查询域名到第1个CNAME的有向边的权重进行整合。
本实施例中,步骤216具体包括:
步骤216a、将从查询域名到第1个CNAME的有向边的权重和第二有向图中从查询域名到第1个CNAME的有向边的权重相加,生成整合后的有向边总权重。
步骤216b、判断整合后的有向边总权重是否小于或等于指定区域的最大值,若是,则将整合后的有向边总权重确定为CNAME图谱中从查询域名到第1个CNAME的有向边的权重,继续执行步骤218;若否,则执行步骤216c。
可选的,指定区域为[0,1]。
步骤216c、采用极值标准化法,将整合后的有向边总权重映射到指定区域中,生成标准总权重。
可选的,指定区域为[0,1]。
步骤216d、将标准总权重确定为CNAME图谱中从查询域名到第1个CNAME的有向边的权重。
本实施例中,CNAME图谱中的顶点包括:查询域名、第1个CNAME、第2个CNAME、……、第N-1个CNAME、第N个CNAME。CNAME图谱中的有向边包括:从查询域名至第1个CNAME的有向边、从第1个CNAME至第2个CNAME的有向边、……、从第N-1个CNAME至第N个CNAME的有向边。其中,从查询域名至第1个CNAME的有向边的权重为整合后的有向边总权重或标准总权重,从第1个CNAME至第2个CNAME的有向边的权重、……、从第N-1个CNAME至第N个CNAME的有向边的权重均与第二有向图中对应相同。
步骤218、根据CNAME图谱中顶点的有向边,设置CNAME图谱中顶点的顶点类型。
图3为本发明实施例提供的一种CNAME图谱的示例图,如图3所示:
顶点的有向边包括出向边或入向边。例如,从域名为baidu.com的顶点至域名为alikunlun.com的顶点的有向边,则对域名为baidu.com的顶点来说,该有向边为域名为baidu.com的顶点的出向边;对域名为alikunlun.com的顶点来说,该有向边为域名为alikunlun.com的顶点的入向边。
将CNAME图谱中只有出向边且没有入向边的顶点的顶点类型设置为查询域名类型;将CNAME图谱中只有1条入向边的顶点的顶点类型设置为首CNAME类型。例如,将域名为baidu.com的顶点的顶点类型设置为查询域名类型;将域名为alikunlun.com的顶点的顶点类型设置为首CNAME类型。
本实施例中,CNAME图谱中存在具备顶点类型的顶点,CNAME图谱中的边均为有向边,CNAME图谱中的顶点均有域名,CNAME图谱中的顶点和有向边均有对应的权重。
步骤220、根据CNAME图谱,生成入向连通子图。
图4为本发明实施例提供的一种根据图3提供的CNAME图谱生成的入向连通子图的示例图。
本实施例中,步骤220具体包括:
步骤220a、从CNAME图谱中任意选取一个顶点类型不为查询域名类型的顶点。例如,选取域名为taobao.com的顶点。
步骤220b、将顶点类型不为查询域名类型的顶点确定为根节点。
步骤220c、从根节点的域名中,提取该根节点的域。
本步骤中,若根节点的域名以“.cn”结尾,则判断该域名的二级域名是否为国际顶级域名,若是,则将该域名的后三段确定为该根节点的域;若否,则将该域名的后两段确定为该根节点的域;若根节点的域名以国际顶级域名结尾,则将该域名的后两段确定为该根节点的域。
例如,域名为news.sina.com.cn,该域名的二级域名com为国际顶级域名,则将该域名的后三段确定为该根节点的域,该根节点的域为sina.com.cn;域名为shop.10086.cn,该域名的二级域名10086不属于国际顶级域名,则将该域名的后两段确定为该根节点的域,该根节点的域为10086.cn;域名为login.taobao.com,该域名以国际顶级域名结尾,则将该域名的后两段确定为该根节点的域,该根节点的域为taobao.com。
步骤220d、根据根节点的域,从CNAME图谱中提取出所有出向边指向该域的顶点。
例如,如图4所示,域名为youku.com的顶点和域名为bdurl.com的顶点指向域为taobao.com的根节点,则从CNAME图谱中提取域名为youku.com的顶点和域名为bdurl.com的顶点。
步骤220e、将所有出向边指向该域的顶点确定为子节点。
步骤220f、根据根节点和所有子节点,生成入向连通子图。
本实施例中,入向连通子图的顶点包括根节点和所有子节点,入向连通子图的边包括从所有子节点至根节点的有向边。
作为一种可选方案,根据CNAME图谱,生成出向连通子图。图5为本发明实施例提供的一种根据图3提供的CNAME图谱生成的出向连通子图的示例图,如图5所示:从CNAME图谱中任意选取一个顶点类型不为查询域名类型的顶点;将选取出来的顶点确定为出向连通子图的根节点;从根节点的域名中,提取该根节点的域;从CNAME图谱中提取出所有从根节点的域的出向边指向的顶点;将提取出来的顶点确定为出向连通子图的子节点;根据根节点和所有子节点,生成出向连通子图。
作为一种可选方案,根据CNAME图谱,生成弱连通子图。图6为本发明实施例提供的一种根据图3提供的CNAME图谱生成的弱连通子图的示例图,如图6所示:生成域名为ks-cdn.com的顶点的弱连通子图,提取出指向该顶点的入向边对应的顶点(域名为baidu.com的顶点);根据域名为baidu.com的顶点的出向边,提取出对应的顶点(域名为alikunlun.com的顶点和域名为dnsv1.com的顶点);根据域名为alikunlun.com的顶点和域名为dnsv1.com的顶点的入向边,分别提取出对应的顶点(域名为aliyun-inc.com的顶点和域名为taobao.com的顶点);以此类推,得到与域名为ks-cdn.com的顶点存在直接或间接关联的所有顶点。
步骤222、按照数据可视化框架,根据CNAME图谱,生成力导向图。
图7为本发明实施例提供的一种根据图3提供的CNAME图谱生成的力导向图的示例图。
本实施例中,数据可视化框架包括:数据驱动文档(Data-Driven Documents,简称:D3)框架或图表(ECharts)框架。
本实施例中,力导向图显示于用户界面上,用户可利用鼠标拖拽力导向图中的顶点,从而改变各顶点布局,便于用户观看当前顶点的域名、当前顶点的相邻顶点的域名或者当前顶点与相邻顶点之间的有向边。例如,用户可根据自身观看习惯利用鼠标拖拽力导向图中的域名为taobao.com的顶点,从而改变该顶点的位置。
本发明实施例的方案中,获取有效域名系统日志数据,有效域名系统日志数据包括多条有效数据记录,每条有效数据记录包括多个域名以及相邻域名之间的有向路径;将每条有效数据记录中的第一个域名确定为查询域名;将每条有效数据记录中的除查询域名之外的域名确定为规范名字;根据查询域名、第1个规范名字和从查询域名至第1个规范名字的有向路径,生成第一调度图;根据查询域名、规范名字和相邻域名之间的有向路径,生成第二调度图;根据第一调度图和第二调度图,构建规范名字图谱,采用构建规范名字图谱的方法对有效域名系统日志数据进行分析,保证了数据的全面性、准确性和及时性,并且可以洞察到有效域名系统日志数据的迭代过程。
图8为本发明实施例提供的一种图谱构建装置的结构示意图,该装置用于执行上述图谱构建方法,如图8所示,该装置包括:获取单元11、第一确定单元12、第二确定单元13、第一生成单元14、第二生成单元15和构建单元16。
获取单元11用于获取有效域名系统日志数据,有效域名系统日志数据包括多条有效数据记录,每条有效数据记录包括多个域名以及相邻域名之间的有向路径。
第一确定单元12用于将每条有效数据记录中的第一个域名确定为查询域名。
第二确定单元13用于将每条有效数据记录中的除查询域名之外的域名确定为规范名字。
第一生成单元14用于根据查询域名、第1个规范名字和从查询域名至第1个规范名字的有向路径,生成第一调度图。
第二生成单元15用于根据查询域名、规范名字和相邻域名之间的有向路径,生成第二调度图。
构建单元16用于根据第一调度图和第二调度图,构建规范名字图谱。
本发明实施例中,获取单元11具体用于获取域名系统日志数据;对域名系统日志数据进行清洗,生成有效域名系统日志数据。
本发明实施例中,第一生成单元14具体用于将查询域名确定为所述第一调度图的一个顶点;将第1个规范名字的有向路径确定为第一调度图的另一个顶点;将从查询域名至第1个规范名字的有向路径确定为第一调度图中的两个顶点之间的有向边。
本发明实施例中,第二生成单元15具体用于按照从查询域名至第1个规范名字的有向路径、从第1个规范名字至第N个规范名字的有向路径,将查询域名、第1个规范名字至第N个规范名字拆分成多个域名对,每个域名对包括两个域名和两个域名之间的有向路径,N包括正整数;将查询域名、第1个CNAME至第N个CNAME确定为第二调度图中的顶点;将两个域名之间的有向路径确定为第二调度图中相应的顶点之间的有向边。
本发明实施例中,构建单元16具体用于对第一调度图进行标准化预处理,生成第一有向图,第一有向图包括多个顶点和多条有向边;对第二调度图进行标准化预处理,生成第二有向图,第二有向图包括多个顶点和多条有向边;将第一有向图和第二有向图进行整合,构建规范名字图谱。
本发明实施例中,所述装置还包括:选取单元17、第三确定单元18、第一提取单元19、第二提取单元20、第四确定单元21和第三生成单元22。
选取单元17用于从规范名字图谱中任意选取一个顶点类型不为查询域名类型的顶点。
第三确定单元18用于将顶点类型不为查询域名类型的顶点确定为根节点。
第一提取单元19用于从根节点的域名中,提取根节点的域。
第二提取单元20用于根据根节点的域,从规范名字图谱中提取出所有出向边指向域的顶点。
第四确定单元21用于将所有出向边指向域的顶点确定为子节点。
第三生成单元22用于根据根节点和子节点,生成入向连通子图。
本发明实施例中,所述装置还包括:第四生成单元23。
第四生成单元23用于按照数据可视化框架,根据规范名字图谱,生成力导向图。
本发明实施例的方案中,获取有效域名系统日志数据,有效域名系统日志数据包括多条有效数据记录,每条有效数据记录包括多个域名以及相邻域名之间的有向路径;将每条有效数据记录中的第一个域名确定为查询域名;将每条有效数据记录中的除查询域名之外的域名确定为规范名字;根据查询域名、第1个规范名字和从查询域名至第1个规范名字的有向路径,生成第一调度图;根据查询域名、规范名字和相邻域名之间的有向路径,生成第二调度图;根据第一调度图和第二调度图,构建规范名字图谱,采用构建规范名字图谱的方法对有效域名系统日志数据进行分析,保证了数据的全面性、准确性和及时性,并且可以洞察到有效域名系统日志数据的迭代过程。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述图谱构建方法的实施例的各步骤,具体描述可参见上述图谱构建方法的实施例。
本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现上述图谱构建方法的实施例的各步骤,具体描述可参见上述图谱构建方法的实施例。
图9为本发明实施例提供的一种计算机设备的示意图。如图9所示,该实施例的计算机设备30包括:处理器31、存储器32以及存储在存储32中并可在处理器31上运行的计算机程序33,该计算机程序33被处理器31执行时实现实施例中的应用于图谱构建方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器31执行时实现实施例中应用于图谱构建装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备30包括,但不仅限于,处理器31、存储器32。本领域技术人员可以理解,图9仅仅是计算机设备30的示例,并不构成对计算机设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器31可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器32可以是计算机设备30的内部存储单元,例如计算机设备30的硬盘或内存。存储器32也可以是计算机设备30的外部存储设备,例如计算机设备30上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器32还可以既包括计算机设备30的内部存储单元也包括外部存储设备。存储器32用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器32还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (9)

1.一种图谱构建方法,其特征在于,所述方法包括:
获取有效域名系统日志数据,所述有效域名系统日志数据包括多条有效数据记录,每条有效数据记录包括多个域名以及相邻域名之间的有向路径;
将所述每条有效数据记录中的第一个域名确定为查询域名;
将所述每条有效数据记录中的除所述查询域名之外的域名确定为规范名字;
根据所述查询域名、第1个规范名字和从所述查询域名至所述第1个规范名字的有向路径,生成第一调度图;
根据所述查询域名、所述规范名字和所述相邻域名之间的有向路径,生成第二调度图;
根据所述第一调度图和第二调度图,构建规范名字图谱;
所述根据所述第一调度图和第二调度图,构建规范名字图谱,包括:
对所述第一调度图进行标准化预处理,生成第一有向图,所述第一有向图包括多个顶点和多条有向边;
对所述第二调度图进行标准化预处理,生成第二有向图,所述第二有向图包括多个顶点和多条有向边;
将第一有向图和第二有向图进行整合,构建规范名字图谱。
2.根据权利要求1所述的图谱构建方法,其特征在于,所述获取有效域名系统日志数据,具体包括:
获取域名系统日志数据;
对所述域名系统日志数据进行清洗,生成有效域名系统日志数据。
3.根据权利要求1所述的图谱构建方法,其特征在于,所述第一调度图包括两个顶点和所述两个顶点之间的有向边;所述根据所述查询域名、第1个规范名字和从所述查询域名至所述第1个规范名字的有向路径,生成第一调度图,包括:
将所述查询域名确定为所述第一调度图的一个顶点;
将所述第1个规范名字的有向路径确定为所述第一调度图的另一个顶点;
将从所述查询域名至所述第1个规范名字的有向路径确定为所述第一调度图中的两个顶点之间的有向边。
4.根据权利要求1所述的图谱构建方法,其特征在于,所述第二调度图包括多个顶点和多条有向边;
所述根据所述查询域名、所述规范名字和所述相邻域名之间的有向路径,生成第二调度图,包括:
按照所述从查询域名至第1个规范名字的有向路径、从第1个规范名字至第N个规范名字的有向路径,将所述查询域名、第1个规范名字至第N个规范名字拆分成多个域名对,每个域名对包括两个域名和两个域名之间的有向路径,N包括正整数;
将所述查询域名、第1个规范名字至第N个规范名字确定为所述第二调度图中的顶点;
将所述两个域名之间的有向路径确定为所述第二调度图中相应的顶点之间的有向边。
5.根据权利要求1所述的图谱构建方法,其特征在于,所述有向边包括出向边或入向边;
在所述根据所述第一调度图和第二调度图,构建规范名字图谱之后,还包括:
从所述规范名字图谱中任意选取一个顶点类型不为查询域名类型的顶点;
将所述顶点类型不为查询域名类型的顶点确定为根节点;
从所述根节点的域名中,提取所述根节点的域;
根据所述根节点的域,从所述规范名字图谱中提取出所有出向边指向所述域的顶点;
将所述所有出向边指向所述域的顶点确定为子节点;
根据所述根节点和子节点,生成入向连通子图。
6.根据权利要求5所述的图谱构建方法,其特征在于,在根据所述规范名字图谱,生成连通子图之后,还包括:
按照数据可视化框架,根据所述规范名字图谱,生成力导向图。
7.一种图谱构建装置,其特征在于,包括:
获取单元,用于获取有效域名系统日志数据,所述有效域名系统日志数据包括多条有效数据记录,每条有效数据记录包括多个域名以及相邻域名之间的有向路径;
第一确定单元,用于将所述每条有效数据记录中的第一个域名确定为查询域名;
第二确定单元,用于将所述每条有效数据记录中的除所述查询域名之外的域名确定为规范名字;
第一生成单元,用于根据所述查询域名、第1个规范名字和从所述查询域名至所述第1个规范名字的有向路径,生成第一调度图;
第二生成单元,用于根据所述查询域名、所述规范名字和所述相邻域名之间的有向路径,生成第二调度图;
构建单元,用于根据所述第一调度图和第二调度图,构建规范名字图谱;
构建单元,具体用于对所述第一调度图进行标准化预处理,生成第一有向图,所述第一有向图包括多个顶点和多条有向边;对所述第二调度图进行标准化预处理,生成第二有向图,所述第二有向图包括多个顶点和多条有向边;将第一有向图和第二有向图进行整合,构建规范名字图谱。
8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的图谱构建方法。
9.一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现权利要求1至6任意一项所述的图谱构建方法的步骤。
CN201911264939.8A 2019-12-11 2019-12-11 一种图谱构建方法、装置、存储介质和计算机设备 Active CN112948638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911264939.8A CN112948638B (zh) 2019-12-11 2019-12-11 一种图谱构建方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911264939.8A CN112948638B (zh) 2019-12-11 2019-12-11 一种图谱构建方法、装置、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN112948638A CN112948638A (zh) 2021-06-11
CN112948638B true CN112948638B (zh) 2023-09-05

Family

ID=76226316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911264939.8A Active CN112948638B (zh) 2019-12-11 2019-12-11 一种图谱构建方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN112948638B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103348341A (zh) * 2010-11-24 2013-10-09 万梅戈切伦和蒂拉努斯有限公司 用于在用户界面的帮助下为数字样本编译唯一的样本代码的用户友好的方法和系统
CN107958322A (zh) * 2017-10-09 2018-04-24 中国电子科技集团公司第二十八研究所 一种城市网络空间综合治理系统
CN108270880A (zh) * 2017-12-29 2018-07-10 中国互联网络信息中心 一种实现域名树之间映射的方法和系统
CN108595449A (zh) * 2017-11-23 2018-09-28 北京科东电力控制系统有限责任公司 调度自动化系统知识图谱的构建与应用方法
CN109241292A (zh) * 2018-08-13 2019-01-18 恒安嘉新(北京)科技股份公司 一种基于主被动数据建立域名服务器体系知识图谱的方法
CN109471947A (zh) * 2018-11-06 2019-03-15 北京锐安科技有限公司 一种数据的知识谱图构建方法、装置、设备及存储介质
CN109857917A (zh) * 2018-12-21 2019-06-07 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及系统
CN110020433A (zh) * 2019-04-01 2019-07-16 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110290116A (zh) * 2019-06-04 2019-09-27 中山大学 一种基于知识图谱的恶意域名检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6983227B1 (en) * 1995-01-17 2006-01-03 Intertech Ventures, Ltd. Virtual models of complex systems
US10474962B2 (en) * 2015-09-04 2019-11-12 Microsoft Technology Licensing, Llc Semantic entity relation detection classifier training

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103348341A (zh) * 2010-11-24 2013-10-09 万梅戈切伦和蒂拉努斯有限公司 用于在用户界面的帮助下为数字样本编译唯一的样本代码的用户友好的方法和系统
CN107958322A (zh) * 2017-10-09 2018-04-24 中国电子科技集团公司第二十八研究所 一种城市网络空间综合治理系统
CN108595449A (zh) * 2017-11-23 2018-09-28 北京科东电力控制系统有限责任公司 调度自动化系统知识图谱的构建与应用方法
CN108270880A (zh) * 2017-12-29 2018-07-10 中国互联网络信息中心 一种实现域名树之间映射的方法和系统
CN109241292A (zh) * 2018-08-13 2019-01-18 恒安嘉新(北京)科技股份公司 一种基于主被动数据建立域名服务器体系知识图谱的方法
CN109471947A (zh) * 2018-11-06 2019-03-15 北京锐安科技有限公司 一种数据的知识谱图构建方法、装置、设备及存储介质
CN109857917A (zh) * 2018-12-21 2019-06-07 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及系统
CN110020433A (zh) * 2019-04-01 2019-07-16 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110290116A (zh) * 2019-06-04 2019-09-27 中山大学 一种基于知识图谱的恶意域名检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"机器学习在网络空间安全研究中的应用";张蕾 等;《计算机学报》;第1946-1975页 *

Also Published As

Publication number Publication date
CN112948638A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN107343047B (zh) 应用推广系统及方法
CN104219330B (zh) 一种基于web代理进行录屏审计的方法及系统
CN105930363B (zh) 一种基于html5网页的用户行为分析方法及装置
CN108304410B (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN108696399B (zh) 业务服务的测试方法和装置
CN108011752A (zh) 故障定位分析方法及装置、计算机可读存储介质
CN108512720B (zh) 一种网站流量的统计方法及装置
CN104869009A (zh) 网站数据统计的系统和方法
CN106603296A (zh) 日志的处理方法及装置
US11956261B2 (en) Detection method for malicious domain name in domain name system and detection device
CN103248677A (zh) 互联网行为分析系统及其工作方法
CN105959290A (zh) 攻击报文的检测方法及装置
CN103699544B (zh) 跨页选择数据的方法和系统
CN112492056B (zh) 一种ip地址使用分析方法及装置
CN108243265A (zh) 一种dns解析处理方法及装置
CN112887333A (zh) 一种异常设备检测方法、装置、电子设备及可读存储介质
CN109639494B (zh) 接口信息的统计方法、装置、服务器及存储介质
US11336663B2 (en) Recording medium on which evaluating program is recorded, evaluating method, and information processing apparatus
CN113641970B (zh) 风险检测方法、装置及计算设备
CN112948638B (zh) 一种图谱构建方法、装置、存储介质和计算机设备
CN105550250B (zh) 一种访问日志的处理方法及装置
KR20190021848A (ko) 서버 모니터링 방법과 이를 수행하기 위한 장치 및 시스템
CN104468857B (zh) 一种对应关系的获取方法及系统
CN105530327A (zh) 一种dns关键信息处理方法和系统
CN109977423A (zh) 一种生词处理方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant