CN110245281B

CN110245281B - 互联网资产信息收集方法及终端设备

Info

Publication number: CN110245281B
Application number: CN201910430372.0A
Authority: CN
Inventors: 张志敏
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2023-07-21
Anticipated expiration: 2039-05-22
Also published as: CN110245281A

Abstract

本发明适用于互联网技术领域，提供了一种互联网资产信息收集方法及终端设备，所述资产信息包括各个站点的域名信息、应用框架信息、版本信息和端口信息，所述方法包括：爬取各个站点的域名信息，并根据域名信息建立域名字典库；爬取各个站点的应用框架信息和版本信息，并扫描获取各个站点的端口信息；根据所述域名字典库、所述应用框架信息、所述版本信息和所述端口信息生成各个站点分别对应的应用结构树，所述应用结构树的每个节点存储有站点的资产信息；根据所述各个站点分别对应的应用结构树和所述各个站点的端口信息，对各个站点的资产信息进行排序，显示排序后的各个站点的资产信息，能够自动爬取互联网资产信息，提高工作效率。

Description

互联网资产信息收集方法及终端设备

技术领域

本发明属于互联网技术领域，尤其涉及一种互联网资产信息收集方法及终端设备。

背景技术

随着互联网的发展，企业将更多的业务部署在互联网上，各种应用系统层出不穷。然而随着互联网资产的增多，企业所面临的安全风险也更多，如何加强互联网资产的风险管理将成为安全管理的重大挑战。

目前，对互联网的资产信息进行收集主要依靠的是扫描工具，例如各种扫描器，通过扫描工具对收集到的资产进行扫描，得到资产的详细信息。但是，这种方式需要人工去收集资产，并手动添加到扫描工具中，进行扫描，导致工作效率低下。

发明内容

本发明实施例提供一种互联网资产信息收集方法及终端设备，以解决现有技术中由于需要人工去收集资产，并手动添加到扫描工具中，进行扫描，导致工作效率低下的问题。

本发明实施例的第一方面提供了一种互联网资产信息收集方法，资产信息包括各个站点的域名信息、应用框架信息、版本信息和端口信息，所述方法包括：

爬取各个站点的域名信息，并根据域名信息建立域名字典库；

爬取各个站点的应用框架信息和版本信息，并扫描获取各个站点的端口信息；

根据域名字典库、应用框架信息、版本信息和端口信息生成各个站点分别对应的应用结构树，应用结构树的每个节点存储有该节点对应的站点的资产信息；

根据各个站点分别对应的应用结构树，对各个站点的资产信息进行排序，显示排序后的各个站点的资产信息。

本发明实施例的第二方面提供了一种互联网资产信息收集系统，资产信息包括各个站点的域名信息、应用框架信息、版本信息和端口信息，所述系统包括：

域名字典库建立模块，用于爬取各个站点的域名信息，并根据域名信息建立域名字典库；

框架信息爬取模块，用于爬取各个站点的应用框架信息和版本信息，并扫描获取各个站点的端口信息；

应用结构树生成模块，用于根据域名字典库、应用框架信息、版本信息和端口信息生成各个站点分别对应的应用结构树，应用结构树的每个节点存储有该节点对应的站点的资产信息；

资产信息排序模块，用于根据各个站点分别对应的应用结构树，对各个站点的资产信息进行排序，显示排序后的各个站点的资产信息。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如下步骤：

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的互联网资产信息收集方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例提供的互联网资产信息收集方法及终端设备，通过爬取各个站点的域名信息，并根据域名信息建立域名字典库，然后爬取各个站点的应用框架信息和版本信息，，并扫描获取各个站点的端口信息，根据域名字典库、应用框架信息、版本信息和端口信息生成各个站点分别对应的应用结构树，最后根据各个站点分别对应的应用结构树，对各个站点的资产信息进行排序，显示排序后的各个站点的资产信息，能够自动爬取互联网资产信息，提高工作效率，且通过对资产信息进行排序，便于查看。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种互联网资产信息收集方法的示意流程图；

图2是本发明一实施例提供的站点的应用结构树的示意图；

图3是本发明另一实施例提供的一种互联网资产信息收集方法的示意流程图；

图4是本发明再一实施例提供的一种互联网资产信息收集方法的示意流程图；

图5是本发明又一实施例提供的一种互联网资产信息收集方法的示意流程图；

图6是本发明一实施例提供的一种互联网资产信息收集系统的结构示意图；

图7是本发明一实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

请参阅图1，图1是本发明一实施例提供的一种互联网资产信息收集方法的示意流程图。其中，资产信息可以包括各个站点的域名信息、应用框架信息、版本信息和端口信息。

如图1所示，在该实施例中，互联网资产信息收集方法可以包括以下步骤：

S101：爬取各个站点的域名信息，并根据域名信息建立域名字典库。

在本发明实施例中，可以将网络爬虫接入各个搜索引擎，爬取各个web站点的地址和站点名称等信息，然后根据地址确定各个web站点的域名。

其中，域名信息可以包括域名和站点名称等。示例性地，域名为life.pingan.com.cn，对应的站点名称为平安生活。

域名字典库中存储有本层域名、本层站点名称与上一层域名的对应关系，域名字典库可以用于暴力匹配。表1给出了域名字典库的一种简单示例。

表1域名字典库的示例

本层域名	本层站点名称	上一层域名
			life.pingan.com.cn	平安生活	无
life.pingan.com.cn/news.pingan.com.cn	平安生活/新闻	life.pingan.com.cn

站点的域名是由多层组成的，例如，表1中的域名life.pingan.com.cn是由一层组成的，域名life.pingan.com.cn/news.pingan.com.cn是由两层组成的。任一站点的域名均可以作为本层域名，本层域名对应的站点的名称称为本层站点名称，本层域名的上一层的域名称为上一层域名，其中，本层域名的上一层的域名是将本层域名的最后一层域名去除得到的域名。由一层组成的域名不存在上一层域名。例如，表1中的域名life.pingan.com.cn不存在上一层域名，域名life.pingan.com.cn/news.pingan.com.cn的上一层域名为life.pingan.com.cn。

S102：爬取各个站点的应用框架信息和版本信息，并扫描获取各个站点的端口信息。

其中，站点的应用框架信息可以为该站点所使用的应用框架，例如，可以是struts2框架。站点的版本信息可以为该站点的更新状态，可以包括版本类型和版本号等信息，版本类型可以是测试版本或升级版本等。站点的端口信息可以包括端口号，可以包括站点名称与端口号的对应关系。

在本发明实施例中，可以通过网络爬虫爬取各个站点的应用框架信息和版本信息。有些站点使用的不是常用的80端口，通过扫描获取各个站点的端口信息，可以发现一些站点的资产。

S103：根据域名字典库、应用框架信息、版本信息和端口信息生成各个站点分别对应的应用结构树，应用结构树的每个节点存储有该节点对应的站点的资产信息。

在本发明实施例中，每个站点均对应一个应用结构树，每个站点为该站点对应的应用结构树的根节点。每个应用结构树可以反映出根节点对应的站点与除根节点之外的其它各个节点分别对应的站点之间的关联关系。可以根据域名字典库确定各个站点的包含与被包含关系。如表1所示，表1中每一个本层域名、本层站点名称和上一层域名的对应关系中，上一层域名对应的站点包含本层域名对应的站点，即平安生活站点包含平安生活/新闻站点，所以在平安生活的应用结构树中，新闻是平安生活下的一个分支，如图2所示。

图2给出了平安生活站点的应用结构树的一个示例，平安生活包含新闻和保险，新闻包含体育新闻和生活新闻，保险包含财产保险和人寿保险。图2只是平安生活站点的应用结构树的一个简单示例，在实际应用中，平安生活站点的应用结构树可以更加复杂。在应用结构树的每个节点中，存储有该节点对应的站点的资产信息，即域名信息、应用框架信息、版本信息和端口信息。

通过生成各个站点分别对应的应用结构树，可以在某个站点出现漏洞时，比如版本信息漏洞出现时，可以快速准确地确认受影响的站点，从而可以快速定位问题，进行安全修复，可以提高修复效率。

S104：根据各个站点分别对应的应用结构树，对各个站点的资产信息进行排序，显示排序后的各个站点的资产信息。

在本发明实施例中，可以根据各个站点分别对应的应用结构树，比如应用结构树的层数、各个站点的版本信息和各个站点的端口信息，比如端口号，对各个站点的资产信息进行排序，并显示排序后的各个站点的资产信息，通过对各个站点的资产信息进行排序，可以方便后续的查询、统计和查看等操作。

从以上描述可知，本发明实施例的互联网资产信息收集方法，通过爬取各个站点的域名信息，并根据域名信息建立域名字典库，然后爬取各个站点的应用框架信息和版本信息，并扫描获取各个站点的端口信息，根据域名字典库、应用框架信息、版本信息和端口信息生成各个站点分别对应的应用结构树，最后根据各个站点分别对应的应用结构树，对各个站点的资产信息进行排序，显示排序后的各个站点的资产信息，能够自动爬取互联网资产信息，提高工作效率，且通过对资产信息进行排序，便于查看。

请参阅图3，图3为本发明另一实施例提供的一种互联网资产信息收集方法的示意流程图。在上述实施例的基础上，端口信息包括端口号，步骤S104中的“根据各个站点分别对应的应用结构树，对各个站点的资产信息进行排序”，详述如下：

S301：获取各个站点分别对应的应用结构树的层数，并将各个站点的资产信息按照层数由小到大的顺序进行排序。

在本发明实施例中，首先获取各个站点分别对应的应用结构树的层数，例如，图2所示的应用结构树的层数为3，其中，根节点为第一层，自上向下，依次为第二层、第三层；然后按照应用结构树的层数由小到大的顺序对各个站点的资产信息进行排序。

在本发明的一个实施例中，也可以将各个站点的资产信息按照对应的应用结构树的层数由大到小的顺序进行排序。

若各个站点的应用结构树的层数均不相同，则按照应用结构树的层数排序后的各个站点的资产信息即为最终排序后的各个站点的资产信息；否则，继续执行S302。

S302：若存在层数相同的第一目标站点集合，则获取第一目标站点集合中的各个第一目标站点的版本信息对应的版本属性参数值，并将各个第一目标站点的资产信息按照版本属性参数值由小到大的顺序进行排序。

在本发明实施例中，将应用结构树的层数相同的站点的集合称为第一目标站点集合，将第一目标站点集合中包含的站点称为第一目标站点。可能存在多个第一目标站点集合，例如，应用结构树的层数均为3的站点组成一个第一目标站点集合，应用结构树的层数均为4的站点组成另一个第一目标站点集合，等等。

依次对每一个第一目标站点集合中的第一目标站点的资产信息进行排序，其中，对第一目标站点集合中的第一目标站点的资产信息进行排序，具体可以为：获取第一目标站点集合中的每个第一目标站点的版本信息对应的版本属性参数值，然后将第一目标站点集合中的每个第一目标站点的资产信息按照版本属性参数值由小到大(或者由大到小)的顺序进行排序。若第一目标站点集合中的每个第一目标站点的版本属性参数值均不相同，则排序完成，否则继续执行S303。

终端设备中预存有各个站点的版本信息与版本属性参数值的对应关系，根据该对应关系，可以确定各个站点的版本信息对应的版本属性参数值。其中，版本信息对应的版本属性参数值可以由两位数组成，例如，十位数由版本类型确定，个位数由版本号确定等等，当然也可以采用任何其他可实现的方法确定。

S303：若在第一目标站点集合中存在版本属性参数值相同的第二目标站点集合，则将第二目标站点集合中的各个第二目标站点的资产信息按照端口号由小到大的顺序进行排序。

在本发明实施例中，将在同一个第一目标站点集合中的版本属性参数值相同的第一目标站点的集合称为第二目标站点集合，将第二目标站点集合中包含的站点称为第二目标站点。在同一个第一目标站点集合中可能存在多个第二目标站点集合。例如，在应用结构树的层数均为3的站点组成的第一目标站点集合中，版本属性参数值均为11的站点组成一个第二目标站点集合，版本属相参数值均为12的站点组成另一个第二目标站点集合，等等。

依次对每一个第二目标站点集合中的第二目标站点的资产信息进行排序，其中，对第二目标站点集合中的第二目标站点的资产信息进行排序，具体可以为：将第二目标站点集合中的每个第二目标站点的资产信息按照端口号由小到大(或者由大到小)的顺序进行排序。若第二目标站点集合中的每个第二目标站点的端口号均不相同，则排序完成；若第二目标站点集合中存在端口号相同的多个第二目标站点，则该多个第二目标站点的资产信息的先后顺序可以随机排列。例如，若第二目标站点A、B和C的端口号均为80，则A、B和C的资产信息的顺序可以是A、B、C，也可以是A、C、B，还可以是B、A、C等等。

从上述描述可知，本发明实施例的互联网资产信息收集方法，首先按照应用结构树的层数大小，对各个站点的资产信息进行排序；然后对于层数相同的站点，按照版本信息对应的版本属性参数值的大小，对站点的资产信息进行排序；最后对于版本属性参数值相同的站点，按照端口号的大小对站点的资产信息进行排序，能够得到有序的互联网资产信息，便于查看和后续的查询、统计等工作。

在本发明的一个实施例中，在上述实施例的基础上，在爬取各个站点的域名信息之后，还可以包括：

根据预先构建的敏感信息字典库，获取各个站点对应的敏感特征词；

根据各个站点对应的敏感特征词，爬取各个站点的敏感信息。

其中，敏感信息字典库中存储有各个站点的域名和敏感特征词的对应关系。不同站点的敏感特征词可以不同，也可以相同，可以根据实际需求进行设置。

在本发明实施例中，资产信息还可以包括敏感信息。首先在预先构建的敏感信息字典库中，读取各个站点的域名对应的敏感特征词；然后根据各个站点的域名对应的敏感特征词，遍历各个域名对应网页的文本，提取网页的文本中包含与该域名对应的敏感特征词的敏感信息。其中，敏感信息可以包括站点的备份文件(bak.zip)和配置信息(phpinfo)等。

从上述描述可知，本发明实施例的互联网资产信息收集方法，通过根据预先构建的敏感信息字典库，获取各个站点对应的敏感特征词，根据各个站点对应的敏感特征词，爬取各个站点的敏感信息，可以自动获取各个站点的敏感信息，进一步收集互联网资产信息。

在本发明的一个实施例中，在上述实施例的基础上，域名信息包括域名；

在根据预先构建的敏感信息字典库，获取各个站点对应的敏感特征词之前，还可以包括：

根据域名构建敏感信息字典库，敏感信息字典库中存储有域名和敏感特征词的对应关系。

在本发明实施例中，在爬取各个站点的敏感信息之前，首先根据各个站点的域名和各个站点的敏感特征词构建敏感信息字典库，敏感信息字典库中存储有各个站点的域名与该站点的敏感特征词的对应关系。其中，各个站点的敏感特征词可以根据实际需求进行设置。

请参阅图4，图4为本发明再一实施例提供的一种互联网资产信息收集方法的示意流程图。在上述实施例的基础上，步骤S101中的“爬取各个站点的域名信息”，详述如下：

S401：获取预存的入口站点的地址，读取预存的爬取规则列表中的第一层爬取规则，并根据第一层爬取规则爬取各个入口站点的域名信息和各个入口站点的地址对应的网页中包含的第二层站点的地址。

在本发明实施例中，终端设备中预存有各个入口站点的网络地址和爬取规则列表，爬取规则列表中存储有各层的爬取规则，每层的爬取规则用于爬取该层的各个站点的域名信息和该层的各个站点的地址对应的网页中包含的下一层站点的地址。爬取规则列表中包含的爬取规则的层数为预设爬取层数，预设爬取层数可以根据实际情况进行设置。入口站点的地址对应的网页中可以包含多个其它站点的地址，将该其它站点称为第二层站点。

首先设置当前爬取层数为0，然后终端设备读取入口站点的地址和第一层爬取规则，根据第一层爬取规则爬取各个入口站点的域名信息和第二层站点的网络地址，爬取完成之后，当前爬取层数自动加1。每爬取完成一层之后，当前爬取层数均自动加1。

S402：若第二层站点的地址不为空，且当前爬取层数小于预设爬取层数，则读取爬取规则列表中的第二层爬取规则，并根据第二层爬取规则爬取各个第二层站点的第二层域名信息和各个第二层站点的地址对应的网页中包含的第三层站点的地址。

在步骤S401之后，当前爬取层数为1。

若第二层站点的地址为空，即入口站点的地址对应的网页中不存在其它站点的地址，或当前爬取层数大于或等于预设爬取层数，则停止爬取。

若第二层站点的地址不为空，且当前爬取层数小于预设爬取层数，则从爬取规则列表中读取第二层爬取规则，并根据第二层爬取规则爬取各个第二层站点的第二层域名信息和各个第二层站点的网络地址对应的网页中包含的第三层站点的地址。当前爬取层数自动加1。

第二层网站的地址对应的网页中可以包含多个其它站点的地址，该其它站点称为第三层站点。第二层爬取规则用于爬取各个第二层站点的第二层域名信息和各个第二层站点的网络地址对应的网页中包含的第三层站点的地址。示例性地，如表1所示，假设平安生活是入口站点，则平安生活/新闻为第二层站点，其中，news.pingan.com.cn和新闻是第二层域名信息。

S403：将各个第二层站点的第二层域名信息与该第二层站点对应的入口站点的域名信息合并，得到该第二层站点的域名信息。

示例性地，如表1所示，假设life.pingan.com.cn和平安生活是入口站点的域名信息，news.pingan.com.cn和新闻是第二层站点的第二层域名信息，则第二层站点的域名信息与其对应的入口站点的域名信息合并后为life.pingan.com.cn/news.pingan.com.cn和平安生活/新闻，即第二层站点的域名信息。合并时，入口站点的域名信息在前，第二层站点的第二层域名信息在后。

S404：若第三层站点的地址不为空，且当前爬取层数小于预设爬取层数，则读取爬取规则列表中的第三层爬取规则。

若第三层站点的地址为空，或当前爬取层数大于预设爬取层数，则爬取完成。

若第三层站点的地址不为空，且当前爬取层数小于预设爬取层数，则接着爬取第三层站点的域名信息，与爬取第二层站点的域名信息类似，首先读取爬取规则列表中的第三层爬取规则。

S405：将第三层爬取规则作为新的第二层爬取规则，将第二层站点作为新的入口站点，将第三层站点作为新的第二层站点，继续执行根据第二层爬取规则爬取各个第二层站点的第二层域名信息和各个第二层站点的地址对应的网页中包含的第三层站点的地址的步骤，直至第三层站点的地址为空，或当前爬取层数大于或等于预设爬取层数。

在本发明实施例中，按照爬取第二层站点的域名信息类似的过程，继续爬取第三层站点的域名信息。即将第三层爬取规则作为新的第二层爬取规则，将第二层站点作为新的入口站点，将第三层站点作为新的第二层站点，继续执行步骤S402中的根据第二层爬取规则爬取各个第二层站点的第二层域名信息和各个第二层站点的地址对应的网页中包含的第三层站点的地址的步骤，直至第三层站点的地址为空，或当前爬取层数大于或等于预设爬取层数。

请参阅图5，图5为本发明又一实施例提供的一种互联网资产信息收集方法的示意流程图。在上述实施例的基础上，步骤S103详述如下：

S501：将第一站点作为第一站点对应的应用结构树的根节点，其中，第一站点为各个站点中的任一站点，根节点存储有第一站点的域名信息、应用框架信息、版本信息和端口信息。

在本发明实施例中，可以将各个站点中的任一站点称为第一站点。

将第一站点作为该第一站点对应的应用结构树的根节点，该根节点中存储有该第一节点的资产信息，即存储有该第一节点的域名信息、应用框架信息、版本信息和端口信息。

S502：根据域名字典库判断第一站点是否包含下一层站点。

在本发明实施例中，可以根据域名字典库中存储的本层域名、本层站点名称和上一层域名的对应关系，确定第一站点是否包含下一层站点。将各个站点直接包含的站点称为各个站点包含的下一层站点。

示例性地，如表1所示，平安生活直接包含新闻，所以新闻是平安生活下一层站点。若新闻直接包含体育新闻，则体育新闻是新闻的下一层站点，但是体育新闻不是平安生活直接包含，平安生活间接包含体育新闻，所以体育新闻不是平安生活的下一层站点。

S503：若第一站点包含下一层站点，则将第一站点包含的各个下一层站点作为第一站点所在节点的下一层节点。

在应用结构树中，将某一节点向下直接相连的节点称为该某一节点的下一层节点。例如，图2中，新闻和保险是平安生活的下一层节点，体育新闻和生活新闻是新闻的下一层节点，财产保险和人寿保险是保险的下一层节点。

若第一站点包含下一层站点，则将第一站点包含的各个下一层站点作为第一站点所在节点的下一层节点，并将第一站点包含的各个下一层站点的域名信息、应用框架信息、版本信息和端口信息分别保存在对应的下一层节点中。

若第一站点不包含下一层站点，则判断该第一站点是否是正在生成的应用结构树的根节点。若该第一站点是正在生成的应用结构树的根节点，则该正在生成的应用结构树成功生成，流程结束；若该第一站点不是正在生成的应用结构树的根节点，则该第一站点作为其所在分支的叶子节点，并继续判断正在生成的应用结构树中，与该第一站点处于同一层的其它站点是否包含下一层站点。

S504：将第一站点包含的各个下一层站点分别作为新的第一站点，并继续执行根据域名字典库判断第一站点是否包含下一层站点的步骤，直至每个新的第一站点均不包含下一层站点，成功生成根节点对应的应用结构树。

在本发明实施例中，将第一站点包含的各个下一层站点分别作为新的第一站点，并返回步骤S502继续执行，直至每个新的第一站点均不包含下一层站点，此时生成的应用结构树为该根节点对应的应用结构树，即最开始的第一站点对应的应用结构树。

在本发明的一个实施例中，在上述实施例的基础上，域名信息包括域名和站点名称，域名字典库中存储有本层域名、本层站点名称与上一层域名的对应关系；

步骤S502详述如下：

判断域名字典库中的上一层域名中是否存在第一站点的域名；

若域名字典库中的上一层域名中不存在第一站点的域名，则第一站点不包含下一层站点；

若域名字典库中的上一层域名中存在第一站点的域名，则第一站点包含下一层站点，且上一层域名中存在的各个第一站点的域名对应的本层域名分别为第一站点包含的各个下一层站点的域名，上一层域名中存在的各个第一站点的域名对应的本层站点名称分别为第一站点包含的各个下一层站点的站点名称。

在本发明实施例中，域名字典库中存储有本层域名、本层站点名称与上一层域名的对应关系，如表1所示。

示例性地，在表1中，判断上一层域名所在列中的域名是否存在第一站点的域名。若上一层域名所在列中的域名不存在第一站点的域名，说明第一站点不包含下一层站点；若上一层域名所在列中的域名存在第一站点的域名(有可能存在多个)，说明第一站点包含下一层站点，则上一层域名所在列中的域名存在的各个第一站点的域名对应的本层域名即为第一站点包含的各个下一层站点的域名，上一层域名所在列中的域名存在的各个第一站点的域名对应的本层站点名称即为第一站点包含的各个下一层站点的站点名称。

例如，表1中，寻找平安生活的下一层站点。平安生活的域名为life.pingan.com.cn。首先在上一层域名所在列中，查找是否存在域名life.pingan.com.cn，通过查找，确定表1的数据中，第二行数据的上一层域名为life.pingan.com.cn，则第二行数据对应的本层域名为平安生活包含的下一层站点的域名，第二行数据对应的本层站点名称为平安生活包含的下一层站点的站点名称。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的互联网资产信息收集方法，图4示出了本发明实施例提供的一种互联网资产信息收集系统的结构示意图。为了便于说明，仅示出了与本实施例相关的部分。

在本发明的一个实施例中，资产信息包括各个站点的域名信息、应用框架信息、版本信息和端口信息，互联网资产信息收集系统可以包括：

域名字典库建立模块601，用于爬取各个站点的域名信息，并根据域名信息建立域名字典库；

框架信息爬取模块602，用于爬取各个站点的应用框架信息和版本信息，并扫描获取各个站点的端口信息；

应用结构树生成模块603，用于根据域名字典库、应用框架信息、版本信息和端口信息生成各个站点分别对应的应用结构树，应用结构树的每个节点存储有该节点对应的站点的资产信息；

资产信息排序模块604，用于根据各个站点分别对应的应用结构树，对各个站点的资产信息进行排序，显示排序后的各个站点的资产信息。

在本发明的一个实施例中，端口信息包括端口号，资产信息排序模块604可以包括：

基于层数排序单元，用于获取各个站点分别对应的应用结构树的层数，并将各个站点的资产信息按照层数由小到大的顺序进行排序；

基于版本排序单元，用于若存在层数相同的第一目标站点集合，则获取第一目标站点集合中的各个第一目标站点的版本信息对应的版本属性参数值，并将各个第一目标站点的资产信息按照版本属性参数值由小到大的顺序进行排序；

基于端口号排序单元，用于若在第一目标站点集合中存在版本属性参数值相同的第二目标站点集合，则将第二目标站点集合中的各个第二目标站点的资产信息按照端口号由小到大的顺序进行排序。

在本发明的一个实施例中，互联网资产信息收集系统还可以包括：

敏感特征词获取模块，用于根据预先构建的敏感信息字典库，获取各个站点对应的敏感特征词；

敏感信息爬取模块，用于根据各个站点对应的敏感特征词，爬取各个站点的敏感信息。

在本发明的一个实施例中，域名信息包括域名；互联网资产信息收集系统还可以包括：

敏感信息字典库构建模块，用于根据域名构建敏感信息字典库，敏感信息字典库中存储有域名和敏感特征词的对应关系。

在本发明的一个实施例中，域名字典库建立模块501可以包括：

第一层爬取单元，用于获取预存的入口站点的地址，读取预存的爬取规则列表中的第一层爬取规则，并根据第一层爬取规则爬取各个入口站点的域名信息和各个入口站点的地址对应的网页中包含的第二层站点的地址；

第二层爬取单元，用于若第二层站点的地址不为空，且当前爬取层数小于预设爬取层数，则读取爬取规则列表中的第二层爬取规则，并根据第二层爬取规则爬取各个第二层站点的第二层域名信息和各个第二层站点的地址对应的网页中包含的第三层站点的地址；

合并单元，用于将各个第二层站点的第二层域名信息与该第二层站点对应的入口站点的域名信息合并，得到该第二层站点的域名信息；

第三层爬取规则读取单元，用于若第三层站点的地址不为空，且当前爬取层数小于预设爬取层数，则读取爬取规则列表中的第三层爬取规则；

循环执行单元，用于将第三层爬取规则作为新的第二层爬取规则，将第二层站点作为新的入口站点，将第三层站点作为新的第二层站点，继续执行根据第二层爬取规则爬取各个第二层站点的第二层域名信息和各个第二层站点的地址对应的网页中包含的第三层站点的地址的步骤，直至第三层站点的地址为空，或当前爬取层数大于或等于预设爬取层数。

在本发明的一个实施例中，应用结构树生成模块603可以包括：

根节点确定单元，用于将第一站点作为第一站点对应的应用结构树的根节点，其中，第一站点为各个站点中的任一站点，根节点存储有第一站点的域名信息、应用框架信息、版本信息和端口信息；

判断单元，用于根据所述域名字典库判断第一站点是否包含下一层站点；

下一层节点确定单元，用于若第一站点包含下一层站点，则将第一站点包含的各个下一层站点作为第一站点所在节点的下一层节点；

继续执行单元，用于将第一站点包含的各个下一层站点分别作为新的第一站点，并继续执行根据域名字典库判断第一站点是否包含下一层站点的步骤，直至每个新的第一站点均不包含下一层站点，成功生成根节点对应的应用结构树。

在本发明的一个实施例中，域名信息包括域名和站点名称，域名字典库中存储有本层域名、本层站点名称与上一层域名的对应关系；

判断单元，具体用于：

对应于上文实施例所述的互联网资产信息收集方法，图7示出了本发明实施例提供的终端设备的结构示意图。为了便于说明，仅示出了与本实施例相关的部分。

在本实施例中，互联网资产信息收集程序700安装并运行于终端设备70中。该终端设备70可以是移动终端、掌上电脑、服务器等。该终端设备70可包括，但不仅限于，存储器701、处理器702及显示器703。图7仅示出了具有组件701-703的终端设备70，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器701在一些实施例中可以是所述终端设备70的内部存储单元，例如该终端设备70的硬盘或内存。所述存储器701在另一些实施例中也可以是所述终端设备70的外部存储设备，例如所述终端设备70上配备的插接式硬盘，智能存储卡(Smart MediaCard，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器701还可以既包括所述终端设备70的内部存储单元也包括外部存储设备。所述存储器701用于存储安装于所述终端设备70的应用软件及各类数据，例如所述互联网资产信息收集程序700的程序代码等。所述存储器701还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器702在一些实施例中可以是一中央处理器(Central ProcessingUnit，CPU)，微处理器或其他数据处理芯片，用于运行所述存储器701中存储的程序代码或处理数据，例如执行所述互联网资产信息收集程序700等。

所述显示器703在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。所述显示器703用于显示在所述终端设备70中处理的信息以及用于显示可视化的用户界面，例如应用菜单界面、应用图标界面等。所述终端设备70的部件701-703通过系统总线相互通信。

在本实施例中，所述的互联网资产信息收集程序700可以被分割成一个或多个模块，所述一个或者多个模块被存储于所述存储器701中，并由一个或多个处理器(本实施例为所述处理器702)所执行，以完成本发明。例如，在图4中，所述的互联网资产信息收集程序700可以被分割成域名字典库建立模块、框架信息爬取模块、应用结构树生成模块和资产信息排序模块。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述互联网资产信息收集程序700在所述终端设备70中的执行过程。以下描述将具体介绍各个模块的功能。

其中，域名字典库建立模块，用于爬取各个站点的域名信息，并根据域名信息建立域名字典库；

其它模块或者单元可参照图6所示的实施例中的描述，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种互联网资产信息收集方法，其特征在于，所述资产信息包括各个站点的域名信息、应用框架信息、版本信息和端口信息，所述方法包括：

爬取各个站点的域名信息，并根据所述域名信息建立域名字典库；

爬取各个站点的应用框架信息和版本信息，并扫描获取各个站点的端口信息；所述端口信息包括端口号；

根据所述域名字典库、所述应用框架信息、所述版本信息和所述端口信息生成各个站点分别对应的应用结构树，包括：将第一站点作为所述第一站点对应的应用结构树的根节点，其中，所述第一站点为所述各个站点中的任一站点，所述根节点存储有所述第一站点的域名信息、应用框架信息、版本信息和端口信息；根据所述域名字典库判断所述第一站点是否包含下一层站点；若所述第一站点包含下一层站点，则将所述第一站点包含的各个下一层站点作为所述第一站点所在节点的下一层节点；将所述第一站点包含的各个下一层站点分别作为新的第一站点，并继续执行所述根据所述域名字典库判断所述第一站点是否包含下一层站点的步骤，直至每个新的第一站点均不包含下一层站点，成功生成所述根节点对应的应用结构树；所述应用结构树的每个节点存储有该节点对应的站点的资产信息；

根据所述各个站点分别对应的应用结构树，对各个站点的资产信息进行排序，显示排序后的各个站点的资产信息，包括：获取各个站点分别对应的应用结构树的层数，并将各个站点的资产信息按照所述层数由小到大的顺序进行排序；若存在层数相同的第一目标站点集合，则获取所述第一目标站点集合中的各个第一目标站点的版本信息对应的版本属性参数值，并将各个第一目标站点的资产信息按照所述版本属性参数值由小到大的顺序进行排序；若在所述第一目标站点集合中存在版本属性参数值相同的第二目标站点集合，则将所述第二目标站点集合中的各个第二目标站点的资产信息按照端口号由小到大的顺序进行排序。

2.根据权利要求1所述的互联网资产信息收集方法，其特征在于，在所述爬取各个站点的域名信息之后，还包括：

根据所述各个站点对应的敏感特征词，爬取各个站点的敏感信息。

3.根据权利要求2所述的互联网资产信息收集方法，其特征在于，所述域名信息包括域名；

在所述根据预先构建的敏感信息字典库，获取各个站点对应的敏感特征词之前，还包括：

根据所述域名构建敏感信息字典库，所述敏感信息字典库中存储有域名和敏感特征词的对应关系。

4.根据权利要求1所述的互联网资产信息收集方法，其特征在于，所述爬取各个站点的域名信息，包括：

获取预存的入口站点的地址，读取预存的爬取规则列表中的第一层爬取规则，并根据所述第一层爬取规则爬取各个入口站点的域名信息和各个入口站点的地址对应的网页中包含的第二层站点的地址；

若所述第二层站点的地址不为空，且当前爬取层数小于预设爬取层数，则读取所述爬取规则列表中的第二层爬取规则，并根据所述第二层爬取规则爬取各个第二层站点的第二层域名信息和各个第二层站点的地址对应的网页中包含的第三层站点的地址；

将各个第二层站点的第二层域名信息与该第二层站点对应的入口站点的域名信息合并，得到该第二层站点的域名信息；

若所述第三层站点的地址不为空，且当前爬取层数小于所述预设爬取层数，则读取所述爬取规则列表中的第三层爬取规则；

将所述第三层爬取规则作为新的第二层爬取规则，将所述第二层站点作为新的入口站点，将所述第三层站点作为新的第二层站点，继续执行所述根据所述第二层爬取规则爬取各个第二层站点的第二层域名信息和各个第二层站点的地址对应的网页中包含的第三层站点的地址的步骤，直至所述第三层站点的地址为空，或当前爬取层数大于或等于所述预设爬取层数。

5.根据权利要求1所述的互联网资产信息收集方法，其特征在于，所述域名信息包括域名和站点名称，所述域名字典库中存储有本层域名、本层站点名称与上一层域名的对应关系；

所述根据所述域名字典库判断所述第一站点是否包含下一层站点，包括：

判断所述域名字典库中的上一层域名中是否存在所述第一站点的域名；

若所述域名字典库中的上一层域名中不存在所述第一站点的域名，则所述第一站点不包含下一层站点；

若所述域名字典库中的上一层域名中存在所述第一站点的域名，则所述第一站点包含下一层站点，且上一层域名中存在的各个所述第一站点的域名对应的本层域名分别为所述第一站点包含的各个下一层站点的域名，上一层域名中存在的各个所述第一站点的域名对应的本层站点名称分别为所述第一站点包含的各个下一层站点的站点名称。

6.一种互联网资产信息收集系统，其特征在于，所述资产信息包括各个站点的域名信息、应用框架信息、版本信息和端口信息，所述系统包括：

域名字典库建立模块，用于爬取各个站点的域名信息，并根据所述域名信息建立域名字典库；

框架信息爬取模块，用于爬取各个站点的应用框架信息和版本信息，并扫描获取各个站点的端口信息；所述端口信息包括端口号；

应用结构树生成模块，用于根据所述域名字典库、所述应用框架信息、所述版本信息和所述端口信息生成各个站点分别对应的应用结构树，所述应用结构树的每个节点存储有该节点对应的站点的资产信息；应用结构树生成模块包括：根节点确定单元，用于将第一站点作为第一站点对应的应用结构树的根节点，其中，第一站点为各个站点中的任一站点，根节点存储有第一站点的域名信息、应用框架信息、版本信息和端口信息；判断单元，用于根据所述域名字典库判断第一站点是否包含下一层站点；下一层节点确定单元，用于若第一站点包含下一层站点，则将第一站点包含的各个下一层站点作为第一站点所在节点的下一层节点；继续执行单元，用于将第一站点包含的各个下一层站点分别作为新的第一站点，并继续执行根据域名字典库判断第一站点是否包含下一层站点的步骤，直至每个新的第一站点均不包含下一层站点，成功生成根节点对应的应用结构树；

资产信息排序模块，用于根据所述各个站点分别对应的应用结构树，对各个站点的资产信息进行排序，显示排序后的各个站点的资产信息；所述资产信息排序模块包括：基于层数排序单元，用于获取各个站点分别对应的应用结构树的层数，并将各个站点的资产信息按照层数由小到大的顺序进行排序；基于版本排序单元，用于若存在层数相同的第一目标站点集合，则获取第一目标站点集合中的各个第一目标站点的版本信息对应的版本属性参数值，并将各个第一目标站点的资产信息按照版本属性参数值由小到大的顺序进行排序；基于端口号排序单元，用于若在第一目标站点集合中存在版本属性参数值相同的第二目标站点集合，则将第二目标站点集合中的各个第二目标站点的资产信息按照端口号由小到大的顺序进行排序。

7.一种终端设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述互联网资产信息收集方法的步骤。