CN116418705A

CN116418705A - 基于机器学习的网络资产识别方法、系统、终端及介质

Info

Publication number: CN116418705A
Application number: CN202310088245.3A
Authority: CN
Inventors: 顾天乐; 陈学鹏
Original assignee: Hunan Huashun Xin'an Technology Co ltd
Current assignee: Hunan Huashun Xin'an Technology Co ltd
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-07-11

Abstract

本申请涉及一种基于机器学习的网络资产识别方法、系统、终端及介质，其属于网络资产识别领域，该方法包括：获取锚定IP地址；根据所述锚定IP地址在预设的数据库中匹配对应的子表，所述子表中包括黄金规则和有效关键词；基于所述黄金规则和所述有效关键词建立多个候选规则；从多个所述候选规则中确定目标规则。本申请具有提升网络资产探测识别效率的效果。

Description

基于机器学习的网络资产识别方法、系统、终端及介质

技术领域

本申请涉及网络资产识别领域，尤其是涉及一种基于机器学习的网络资产识别方法、系统、终端及介质。

背景技术

当前的网络资产探测识别中，是由人工提前构建匹配规则，再基于构建的匹配规则对应用层协议的报文信息进行匹配，以获取资产信息，识别的过程如图1所示。图1中的方法流程简述为以下步骤：

a、根据查询的关键词构建第一次查询表达式；b、进入FOFA网络空间搜索引擎搜索查询表达式；c、获取查询结果，并打开各个结果中的IP地址对应的网页信息；d、打开步骤c中得到的网页信息的网页源代码，并提取相关信息；e、依据步骤d中的相关信息，构建第二次查询表达式；f、在FOFA中搜索步骤e中的二次查询表达式，并对该表达式进行“规则正确性检验”，对于验证通过的第二次查询表达式则录入，否则返回步骤a中。

由此可知，上述的网络资产探测识别流程存在以下问题：

一、规则录入耗时长。规则的录入需要技术人员对海量HTML文本进行比对，并提取人为判定为同一资产的网页源代码的相似之处。同时，正确规则的提取需要技术人员与审核人员反复迭代规则，人力之间的通信成本较高，达到最终规则录入耗时长。

二、规则录入难度大。部分未解析的网页源代码难以一眼看出是否为所需的规则，对规则的录入造成巨大困难。

三、对技术人员的要求高。规则的录入需要技术人员对网页设计、网络编程等领域有一定的先验知识，所以难以采用众包的方式降低录入成本。

四、规则录入质量不稳定。人工录入的规则容易受到技术人员的知识水平、网页质量等因素的影响，导致录入的规则的质量不稳定。

为此，如何降低人为因素的影响，提升网络资产探测识别效率成为研究热点。

发明内容

本申请提供一种基于机器学习的网络资产识别方法、系统、终端及介质，具有提升网络资产探测识别效率的特点。

本申请目的一是提供一种基于机器学习的网络资产识别方法。

本申请的上述申请目的一是通过以下技术方案得以实现的：

一种基于机器学习的网络资产识别方法，包括：

获取锚定IP地址；

根据所述锚定IP地址在预设的数据库中匹配对应的子表，所述子表中包括黄金规则和有效关键词；

基于所述黄金规则和所述有效关键词建立多个候选规则；

从多个所述候选规则中确定目标规则。

通过采用上述技术方案，本申请提前设定有数据库，当用户有网络资产识别的需求时，根据用户输入的查询关键词得到锚定IP地址。然后，在数据库中为锚定IP地址匹配对应的子表，提取子表中的有效关键词，将有效关键词和子表中的黄金规则进行组合得到多个候选规则。最后，从多个候选规则中选择表征网络资产全部信息的候选规则作为目标规则。在此识别的过程中，实现了全自动识别网络资产的目的，不仅能够提高网络资产识别的速度，还能够在一步步的识别过程中，缩小网络资产的范围，从而提高网络资产识别的准确度。

本申请在一较佳示例中可以进一步配置为：所述获取锚定IP地址之前，所述方法还包括：

构建第一次查询表达式；

接收用户按照第一次查询表达式正确输入的查询关键词；

根据所述查询关键词获取IP地址群；

在所述IP地址群中确定锚定IP地址。

通过采用上述技术方案，提前设定用户输入的数据的格式，一方面，不仅能够防止用户误操作进行网络资产识别，还能够实现初步缩小网络资产识别范围的目的。

本申请在一较佳示例中可以进一步配置为：所述根据所述锚定IP地址在预设的数据库中匹配对应的子表包括：

根据所述锚定IP地址得到网页源代码；

根据所述网页源代码确定与所述锚定IP地址对应的子表。

通过采用上述技术方案，本申请提前设定有子表，所以在得到锚定IP地址后，就能够快速的确定出与锚定IP地址对应的子表。

本申请在一较佳示例中可以进一步配置为：所述根据所述网页源代码确定与所述锚定IP地址对应的子表后，所述方法还包括：

根据所述子表确定黄金规则；

提取子表中除黄金规则外的数据项的每个标签的属性和文本作为关键词。

通过采用上述技术方案，本申请不仅提前设定有用于表征网页源代码的黄金规则，还为了进一步提升获取到的网络资产的准确度，而提取除黄金规则外的数据项的标签的属性和文本作为关键词，以为生成有效关键词提供丰富的语料，进而为后续生成表征网络资产全部信息的目标规则提供技术支持。

本申请在一较佳示例中可以进一步配置为：所述得到所述关键词后，删除全数字关键词、全符号关键词以及停用词表中的关键词得到有效关键词。

通过采用上述技术方案，对关键词进行数据清洗是为了删除全数字关键词、全符号关键词以及停用词表中的关键词，从而保障了所得到的有效关键词的准确度。

本申请在一较佳示例中可以进一步配置为：所述基于所述黄金规则和所述有效关键词建立多个候选规则包括：将所述黄金规则与所述有效关键词进行组合得到多个候选规则。

本申请在一较佳示例中可以进一步配置为：所述从多个所述候选规则中确定目标规则包括：当所述候选规则与预设规则对应时，将候选规则标记为目标规则。

通过采用上述技术方案，预设规则为正确的规则，只有在候选规则与正确的规则对应或者说一致时，才能够保障该候选规则表征网络资产全部信息，进而才能够保障所确定的目标规则具有表征网络资产全部信息的能力。

本申请目的二是提供一种基于机器学习的网络资产识别系统。

本申请的上述申请目的二是通过以下技术方案得以实现的：

一种基于机器学习的网络资产识别系统，用于执行上述任一种基于机器学习的网络资产识别方法，包括：

数据获取模块，用于获取锚定IP地址；

数据处理模块，用于根据所述锚定IP地址在预设的数据库中匹配对应的子表，所述子表中包括黄金规则和有效关键词；

数据构建模块，用于基于所述黄金规则和所述有效关键词建立多个候选规则；

数据确定模块，用于从多个所述候选规则中确定目标规则。

通过采用上述技术方案，数据获取模块、数据处理模块、数据构建模块以及数据确定模块共同配合，以用于生成能够表征网络资产全部信息的目标规则，从而便于后续快速、精准的识别出网络资产。

本申请目的三是提供一种终端。

本申请的上述申请目的三是通过以下技术方案得以实现的：

一种终端，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现上述任一种基于机器学习的网络资产识别方法。

本申请目的四是提供一种计算机可读存储介质，能够存储相应的程序。

本申请的上述申请目的四是通过以下技术方案得以实现的：

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一种基于机器学习的网络资产识别方法。

综上所述，本申请包括以下至少一种有益技术效果：

1.本申请提前设定有数据库，当用户有网络资产识别的需求时，根据用户输入的查询关键词得到锚定IP地址。然后，在数据库中为锚定IP地址匹配对应的子表，提取子表中的有效关键词，将有效关键词和子表中的黄金规则进行组合得到多个候选规则。最后，从多个候选规则中选择表征网络资产全部信息的候选规则作为目标规则。上述生成目标规则的过程中，由于减少了人工的参与，不仅能够提高网络资产识别的速度，而且由于生成的目标规则能够表征网络资产全部信息，还能够便于后续快速、精准的识别出网络资产；

2.同时，本申请在生成多个候选规则之前，还会对关键词进行数据清洗，以删除全数字关键词、全符号关键词以及停用词表中的关键词，从而保障了有效关键词的准确度；

3.另外，本申请提前设定有限定用户输入的查询关键词的第一次查询表达式，一方面，不仅能够防止用户误操作进行网络资产识别，还能够实现初步缩小网络资产识别范围的目的。

附图说明

图1是本申请的背景技术的现有技术流程图。

图2是本申请实施例的一种基于机器学习的网络资产识别方法流程图。

图3是本申请实施例的一种基于机器学习的网络资产识别系统框图。

附图标记说明：1、数据获取模块；2、数据处理模块；3、数据构建模块；4、数据确定模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

为了提升网络资产探测识别的效率和准确度，本申请提供了一种基于机器学习的网络资产识别方法。本申请的网络资产识别方法与现有的网络资产探测识别方法不同的是，减少了图1中的构建第二次查询表达式的过程。具体地，本申请基于机器学习的网络资产识别方法的主要流程如图2所示。

第一步，获取锚定IP地址。

在获取锚定IP地址之前，首先需要根据查询关键词构建第一次查询表达式以及建立ES数据库，然后在用户按照第一次查询表达式正确输入查询关键词时，ES数据库将会返回IP地址群，再从IP地址群中确定出一个IP地址作为锚定IP地址。

具体地，查询关键词是指存在于网页源代码中的关键词，例如资产名称、版本类型、厂商等关键词。第一次查询表达式由查询关键词构成，第一次查询表达式可以由独立的一个查询关键词构成，例如厂商，还可以由多个查询关键词构成，例如需要同时输入资产名称、版本类型以及厂商。第一次查询表达式的设置可以根据需要设定，在此不作限制。

本申请除了提前设定有第一次查询表达式外，还提前设定有ES数据库。ES数据库中包含有IP地址列表和HTML文本列表。具体地，通过采用FOFA空间搜索引擎在互联网中爬取到的海量IP地址建立IP地址列表，然后根据IP地址列表中的每一个IP地址打开其所对应的网页源代码，如果多个IP地址对应同一个网页源代码，则将该网页源代码与与其对应的多个IP地址建立绑定关系。然后，提取每一个网页源代码中包含的title数据项和body数据项作为一个子表，因此，位于IP地址列表中的每一个IP地址都将对应有一个子表，再将多个子表组合而成HTML文本列表。在本示例中，多个子表按照生成的时间先后顺序进行排列，从而组成HTML文本列表。

还需要说明的是，在得到网页源代码后，由技术管理员挑选网页源代码中能够表征网页源代码的数据项作为黄金规则，例如title项数据和body项数据中的厂商能够表征网页源代码A，则将title项数据和body项数据中的厂商作为网页源代码A的黄金规则，所以在后续查询网页源代码A中的网络资产时，系统将优先调取出title项数据和body项数据中厂商的名字。

总的来说，第一步的目的是：当用户按照第一次查询表达式正确输入查询关键词时，将由FOFA网络搜索引擎在ES数据库中的IP地址列表中为输入的查询关键词匹配对应的IP地址。当IP地址列表中存在与查询关键词对应的IP地址时，即IP地址的网页源代码上包含有相同的查询关键词时，IP地址列表返回与查询关键词对应的IP地址。由于IP地址列表中存在海量的IP地址，海量的IP地址中可能有多个IP地址与查询关键词对应，所以常将IP地址列表返回的多个IP地址作为IP地址群。IP地址列表返回IP地址群后，可以由技术管理员提前设定选择IP地址群中排序第一的IP地址作为锚定IP地址，也可以由用户自定义选择其中一个IP地址作为锚定IP地址。

由此可知，本申请通过提前设定有第一次查询表达式，不仅能够避免用户误操作查询网络资产，还能够缩小查找网络资产的范围。

第二步，根据锚定IP地址在预设的数据库中匹配对应的子表，子表中包括黄金规则和有效关键词，基于黄金规则和有效关键词建立多个候选规则。

预设的数据库为上述中的ES数据库。第一步中，由于IP地址列表中的IP地址与HTML文本列表中的子表具有对应关系，所以在得到锚定IP地址后，能够在ES数据库中匹配对应的子表。而由于已经提前设定了子表中的黄金规则，所以在HTML文本列表中为锚定IP地址匹配得到子表后，就已经确定了黄金规则。

由第二步知道能够表征网页源代码的数据项作为黄金规则，但是为了进一步定位到网络资产，提升网络资产探测识别效率，还将提取子表中除了黄金规则中的数据项外的所有数据项中每个标签的属性和文本，作为下一步的语料。例如子表b对应网页源代码B，子表b的数据项包括title和body，而title项和body项中的厂商为黄金规则，则在调取到子表b时，除了自动提取出title项和body项中的厂商名字外，body项中剩余的每个标签的属性和文本也均会被提取出来作为关键词，并对该关键词进行数据清洗。

具体地，数据清洗包括删除全数字的关键词、全符号的关键词、以及停用词表中的关键词，停用词表是提前建立的词列表，位于该词列表中的关键词均是无效词，是由技术管理人员根据网页编程相关经验提前建立的。

最后，将经过数据清洗的关键词作为有效关键词，再采用Python中的Hanlp包实现的TextRank方法对上述有效关键词进行摘要提取，筛选得到最终的有效关键词。并在确定黄金规则以及得到有效关键词后，依次将筛选的有效关键词与黄金规则进行重组，从而得到多个候选规则。

第三步，提取候选规则。

在得到多个候选规则后，按照生成候选规则的时间先后顺序输出候选规则，还可以按照候选规则的字数多少作为输出的排列顺序，在本实施例中，对多个候选规则的输出顺序不做限制，以能够将生成的候选规则按照指定时间的间距全部输出为准。

上述的指定时间是指能够由管理员审核候选规则是否为正确的规则所花费的时间，而如果由计算机审核候选规则是否为正确的规则时，该指定时间则设置为计算机审核候选规则所花费的时间。因此，可根据实际的应用场景合理设定指定时间，然后再使多个候选规则按照该指定时间的间距依次输出。

第四步，判断候选规则是否为正确的规则。

正确的规则是指依据该正确的规则中的数据就能够知道全部的网络资产，而不用再调取其他的数据。该判断的工作可以由人工执行，也可以由计算机执行。当采用计算机执行时，需要在计算机中配置训练模型，然后获取大量的训练样本提前训练该训练模型，训练样本是在原始网页源代码的基础上，标识出重要的子表项和关键词，然后由训练模型不断训练和记忆。所以在得到候选规则后，将候选规则与正确的规则进行对比，如果候选规则中标识出的子表项与正确的规则中标识出子表项相同，且候选规则中标识出的关键词与正确的规则中标识出关键词相同，则判断结果为候选规则为正确的规则。

第五步，若是，则将候选规则标记为目标规则并录入；否则，返回第四步。

对于判断结果是候选规则为正确的规则时，将候选规则标记为目标规则并录入资产识别系统中，并将剩余的候选规则进行剔除操作，从而避免多个候选规则占用资产识别系统的空间，增大资产识别系统的数据冗余量。对于录入的目标规则，则便于后续快速、精准的获取网络资产。

需要说明的是，在遍历候选规则的过程中，如果候选规则不是正确的规则，则返回第四步中继续进行判断，直至从多个候选规则中确定出目标规则为止。

本申请实施例一种基于机器学习的网络资产识别方法的实施原理为：首先，提前设定有ES数据库，在用户有网络资产识别的需求时，输入待测IP地址，再在ES数据库中为待测IP地址匹配对应的IP地址作为锚定IP地址。然后，基于锚定IP地址继续在ES数据库中匹配对应的子表，提取子表中的有效关键词，将有效关键词和子表中的黄金规则进行组合得到多个候选规则。最后，从多个候选规则中选择表征网络资产全部信息的候选规则作为目标规则。在此过程中，由于减少了人工参与，不仅能够提高网络资产识别的速度，还能够在一步步的识别过程中，缩小网络资产的范围，从而提高网络资产识别的准确度。

本申请提供一种基于机器学习的网络资产识别系统，如图3所示，一种基于机器学习的网络资产识别系统包括依次连接的数据获取模块1、数据处理模块2、数据构建模块3以及数据确定模块4。

其中，数据处理模块2用于获取锚定IP地址。数据处理模块2用于根据锚定IP地址在预设的数据库中匹配对应的子表，子表中包括黄金规则和有效关键词。数据构建模块3用于基于黄金规则和有效关键词建立多个候选规则。数据确定模块4用于从多个候选规则中确定目标规则。

为了更好地执行上述方法的程序，本申请还提供一种终端，终端包括存储器和处理器。

其中，存储器可用于存储指令、程序、代码、代码集或指令集。存储器可以包括存储程序区和存储数据区，其中存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令以及用于实现上述基于机器学习的网络资产识别方法的指令等；存储数据区可存储上述基于机器学习的网络资产识别方法中涉及到的数据等。

处理器可以包括一个或者多个处理核心。处理器通过运行或执行存储在存储器内的指令、程序、代码集或指令集，调用存储在存储器内的数据，执行本申请的各种功能和处理数据。处理器可以为特定用途集成电路、数字信号处理器、数字信号处理装置、可编程逻辑装置、现场可编程门阵列、中央处理器、控制器、微控制器和微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

本申请还提供一种计算机可读存储介质，例如包括：U盘、移动硬盘、只读存储器（Read Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。该计算机可读存储介质存储有能够被处理器加载并执行上述基于机器学习的网络资产识别方法的计算机程序。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本申请中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于机器学习的网络资产识别方法，其特征在于，包括：

获取锚定IP地址；

基于所述黄金规则和所述有效关键词建立多个候选规则；

从多个所述候选规则中确定目标规则。

2.根据权利要求1所述的基于机器学习的网络资产识别方法，其特征在于，所述获取锚定IP地址之前，所述方法还包括：构建第一次查询表达式；

接收用户按照第一次查询表达式正确输入的查询关键词；

根据所述查询关键词获取IP地址群；

在所述IP地址群中确定锚定IP地址。

3.根据权利要求1所述的基于机器学习的网络资产识别方法，其特征在于，所述根据所述锚定IP地址在预设的数据库中匹配对应的子表包括：

根据所述锚定IP地址得到网页源代码；

根据所述网页源代码确定与所述锚定IP地址对应的子表。

4.根据权利要求3所述的基于机器学习的网络资产识别方法，其特征在于，所述根据所述网页源代码确定与所述锚定IP地址对应的子表后，所述方法还包括：

根据所述子表确定黄金规则；

5.根据权利要求4所述的基于机器学习的网络资产识别方法，其特征在于，所述得到所述关键词后，删除全数字关键词、全符号关键词以及停用词表中的关键词得到有效关键词。

6.根据权利要求1所述的基于机器学习的网络资产识别方法，其特征在于，所述基于所述黄金规则和所述有效关键词建立多个候选规则包括：将所述黄金规则与所述有效关键词进行组合得到多个候选规则。

7.根据权利要求1所述的基于机器学习的网络资产识别方法，其特征在于，所述从多个所述候选规则中确定目标规则包括：当所述候选规则与预设规则对应时，将候选规则标记为目标规则。

8.一种基于机器学习的网络资产识别系统，用于执行如权利要求1-7中任一项所述的方法，其特征在于，包括：

数据获取模块(1)，用于获取锚定IP地址；

数据处理模块(2)，用于根据所述锚定IP地址在预设的数据库中匹配对应的子表，所述子表中包括黄金规则和有效关键词；

数据构建模块(3)，用于基于所述黄金规则和所述有效关键词建立多个候选规则；

数据确定模块(4)，用于从多个所述候选规则中确定目标规则。

9.一种终端，其特征在于，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。