CN113190500A

CN113190500A - 一种基于互联网报告的情报积累归档系统及方法

Info

Publication number: CN113190500A
Application number: CN202110443949.9A
Authority: CN
Inventors: 王健
Original assignee: Guangdong Yunzhi Anxin Technology Co ltd
Current assignee: Guangdong Yunzhi Anxin Technology Co ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-30
Anticipated expiration: 2041-04-23
Also published as: CN113190500B

Abstract

本发明公开了一种基于互联网报告的情报积累归档系统及其方法，包括以下步骤：根据互联网公开情报的URL，获取URL对应的内容，并将其渲染成HTML页面，对HTML页面的内容进行保存，获得情报原始文件；根据页面和文字大小的比例基数，对情报原始文件中数据对象进行整合和文本格式转换处理，获得情报文本；根据预设的配置参数，对情报文本进行字符串匹配，提取情报文本中的报告价值内容；显示提取到的报告价值内容，对报告价值内容和情报原始文件进行归档。本发明，通过对情报原始文件的内容进行整合和文本格式转换处理，并通过对情报文本进行字符串匹配，提取到情报文本中的报告价值内容，实现了情报报告的自动生成，提高了情报的提取效率和归档效率。

Description

一种基于互联网报告的情报积累归档系统及方法

技术领域

本发明涉及网络安全技术领域，具体涉及一种基于互联网报告的情报积累归档系统及方法。

背景技术

安全分析是指对安全事件的响应，通过一些方法收集信息，经过对信息的处理，产出情报的过程。安全分析主要包括三个核心阶段：信息收集；信息分析，产出情报；将情报进行传播。其中，对于情报的阅读，是各个安全分析机构在进行安全分析过程中的重要工作。

互联网上的情报来源众多，包括OSINT、封闭、机密等，OSINT是可公开获取的数据，是最常见的信息获取途径，其中包括媒体、机构、开放博客、社交平台、会议论文、大厂公告等等。但凡是互联网能够访问的信息，都属于OSINT数据，该类数据源通常采用爬虫、爬取网页、api、RSS等方式获得，也可以通过邮件订阅的方式获得。

邮件列表曾是安全技术人员最主要的信息获取方式，通过订阅邮件列表就可以在电子邮件的界面上获取到各种各样的安全信息。然而，随着技术的发展，网上的安全信息指数级增长，需要处理的安全信息数据量陡增，并且由于信息来源鱼龙混杂，需要耗费大量的精力从来源混杂的信息中提炼有用信息，因此，采用人工的方式历遍全部安全信息，显示需要耗费大量的人工成本，不能满足现在的安全分析需要。

另外，由于现有的互联网情报列表中各厂商所采用的报告格式不同，如何对安全报告进行统一高效的归档，提高安全报告的处理效率，也成为现阶段安全技术人员需要考虑的问题。

有鉴于此，急需一种基于互联网报告的情报积累归档方法，以解决上述难题。

发明内容

本发明所要解决的技术问题是现有安全报告来源混杂、需要处理的信息量巨大、人工处理效率低、工作量大且难以进行统一归档的问题。

为了解决上述技术问题，本发明所采用的技术方案如下：

一种基于互联网公开报告的情报积累归档方法，包括以下步骤：

根据互联网公开情报的URL，获取URL内容，并将其渲染成HTML页面，对HTML页面的内容进行保存，获得情报原始文件；

按照页面和文字大小的比例基数，对情报原始文件中的数据对象进行整合和文本格式转换处理，获得情报文本；

根据预设的配置参数，对情报文本进行字符串匹配，提取情报文本中的报告价值内容；

显示提取到的报告价值内容，对提取到的报告价值内容和情报原始文件进行归档。

在上述方案中，优选的，所述预设的配置参数包括但不限于MD5、SHA1、SHA256、C&C、IP、攻击者手法。

在上述方案中，优选的，所述情报原始文件为PDF文件。

在上述方案中，优选的，所述页面和文字大小的比例基数为页面上文字的平均文字高度，所述页面上文字的平均文字高度的计算包括以下步骤：

识别单个文字的左上角横纵坐标和右下角横纵坐标，根据单个文字的左上角横纵坐标和右下角横纵坐标计算各行文字的单行文字高度；

识别页面的左上角横纵坐标和右下角横纵坐标，根据页面的左上角横纵坐标和右下角横纵坐标以及各行文字的单行文字高度，计算页面非文字空间高度；

根据页面非文字空间高度和各行文字的单行文字高度，获得页面上文字的平均文字高度。

在上述方案中，优选的，所述根据单个文字的左上角横纵坐标和右下角横纵坐标计算各行文字的单行文字高度包括：

取识别单个文字的左上角横纵坐标和右下角横纵坐标，分别记作x1,y1,x2,y2,并存入第一临时数组tmpArr1；取识别下一文字的左上角坐标和右上角坐标，当下一文字的左上角横坐标不大于上个文字的右下角横坐标时，对第一临时数组内的坐标进行如下运算：

计算所有文字的右下角纵坐标与左上角纵坐标的差值y2-y1；

对所有的y2-y1取平均值，并将平均值存入第二临时数组，清空第一临时数组。

在上述方案中，优选的，所述根据页面的左上角横纵坐标和右下角横纵坐标以及各行文字的单行文字高度，计算页面非文字空间高度包括：

计算页面的左上角横纵坐标和右下角横纵坐标，记为X1，Y1，X2，Y2，根据页面的左上角横纵坐标和右下角横纵坐标以及所述第二临时数组，计算页面非文字空间高度H，页面非文字空间高度H的计算公式如下：

H＝Y2-Y1-(第二临时数组的数值之和)。

在上述方案中，优选的，所述根据页面非文字空间高度和各行文字的单行文字高度，计算页面上文字的平均文字高度包括：

判断页面非文字空间高度H是否大于页面右下角纵坐标Y2的27.25％；如果页面非文字空间高度H大于页面右下角纵坐标Y2的27.25％，则将第二临时数组内数值去掉一个最大值和一个最小值后取平均值，否则直接对第二临时数组内的数值取平均值，此平均值为平均文字高度。

一种基于互联网报告的情报积累归档系统，包括：

采集模块，用于根据互联网公开情报的URL地址获取URL内容，并保存成情报原始文件；

导入模块，用于导入情报原始文件；

识别模块，用于根据页面和文字大小的比例基数，对情报原始文件中的数据对象进行合并成行的文本格式处理；

提取模块，用于情报文本进行与预设的配置参数进行字符串匹配，提取情报文本的价值内容；

输出模块，用于对提取的情报文本的价值内容进行显示，并输出情报报告，与情报原始文件一起归档。

在上述方案中，优选的，所述采集模块包括：

接口模块，通过http请求或API接口的方式获取输入到的URL内容；

渲染模块，用于将URL内容渲染成HTML页面；

文件保存模块，用于将渲染后的HTML页面保存成情报原始文件。

在上述方案中，优选的，所述识别模块包括：

坐标识别模块，用于识别文字坐标并计算页面和文字大小的比例技术；

格式转换模块，用于将情报原始文件中的数据对象转换成合并成行的文本格式，生成情报文本。

与现有技术相比，本发明提供的基于互联网公开报告的情报积累和归档系统及方法，通过URL获取并保持公开情报的内容，根据页面和文字大小的比例基数，对公开情报内容中的数据对象进行合并成行的文本格式处理后，对文本进行与预设配置参数的字符串匹配，从而自动提取出互联网公开情报的价值内容，生成安全分析报告，大大提高了对于互联网公开情报的处理速度和处理效率，同时可以实现不同厂商的互联网公开情报的格式处理，方便对互联网公开情报的同一格式和归档，大大提高了安全分析的效率，节约了人力成本。

附图说明

图1为本发明中基于互联网公开报告的情报积累归档系统的示意图；

图2为本发明中基于互联网公开报告的情报积累归档方法的流程图；

图3为本发明中获取情报原始文件的流程图；

图4为本发明中页面上文字的平均文字高度的计算的流程图；

图5为本发明中基于互联网公开报告的情报积累归档系统的截面的示意图。

具体实施方式

本发明提供了一种基于互联网报告的情报积累归档系统及方法，通过互联网公开情报的URL获取并保存页面内容，根据页面和文字大小的比例基数对页面内容中的数据对象进行合并成行的文本格式处理，再通过对文本进行与预设配置参数的字符串匹配，提取情报文本中的价值内容，提高了对互联网公开情报的处理效率，实现了互联网公开情报的高效、低出错处理，大大降低了互联网公开情报处理的人工成本，同时可以实现互联网公开情报内容的统一归档，方便便捷，提高了安全分析的效率。下面结合说明书附图和具体实施方式对本发明做出详细说明。

如图1所示，本发明提供了一种基于互联网公开报告的情报积累归档系统，包括采集模块1、导入模块2、识别模块3、提取模块4和输出模块5。

采集模块1用于根据互联网公开情报的URL地址获取URL内容，并保存成情报原始文件。采集模块1还包括接口模块11、渲染模块12和文件保存模块13，接口模块11通过http请求或API接口的方式获取输入到的URL内容，渲染模块12用于将URL内容渲染成HTML页面，文件保存模块13用于将渲染后的HTML页面保存成情报原始文件，情报原始文件为PDF文档。

导入模块2用于导入情报原始文件。识别模块3用于根据页面和文字大小的比例基数，对情报原始文件中的数据对象进行合并成行的文本格式处理。识别模块3包括坐标识别模块31和格式转换模块32，坐标识别模块31用于识别文字坐标并计算页面和文字大小的比例技术，格式转化模块32用于将情报原始文件中的数据对象转换成合并成行的文本格式，生成情报文本。

提取模块4用于情报文本进行与预设的配置参数进行字符串匹配，提取情报文本的价值内容。预设的配置参数包括但不限于MD5、SHA1、SHA256、C&C、IP、攻击者手法。输出模块5用于对提取的情报文本的价值内容进行显示，并输出情报报告，与情报原始文件一起归档。

本发明还提供了一种基于互联网公开报告的情报积累和归档方法，如图2所示，包括以下步骤：

S1、根据互联网公开情报的URL，获取URL内容，并将其渲染成HTML页面，对HTML页面的内容进行保存，获得情报原始文件。

具体的，采集模块1中的接口模块11通过http请求或API接口的方式获取输入到的URL内容，渲染模块12将获取的URL内容渲染成HTML页面，文件保存模块13将渲染后的HTML页面保存成情报原始文件，其中，情报原始文件为PDF文档。

其中，如图3所示，获取情报原始文件包括以下步骤：

首先由接口模块11判断输入的URL地址是否正确，如果不正确，在系统界面显示错误提示；

如果URL地址正确，则由接口模块11判断输入的URL地址是否可访问，如果不可访问，在系统界面显示错误提示；

如果URL地址可访问，则由接口模块11获取URL内容，由渲染模块12将获取的URL内容渲染成HTML页面，并由文件保存模块13将渲染后的HTML页面保存为PDF格式的情报原始文件，情报原始文件保存在系统所在的设备(如计算机)的内存装置内。

S2、按照页面和文字大小的比例基数，对情报原始文件中的数据对象进行整合和文本格式转换处理，获得情报文本。

具体的，导入模块2将保存的情报原始文件导入识别模块3，识别模块3中根据计算的页面和文字大小的比例基数，对情报原始文件中的数据对象进行合并成行的文本格式处理。

其中，如图4所示，页面和文字大小的比例基数为页面上文字的平均文字高度，其计算包括以下步骤：

S21、识别单个文字的左上角横纵坐标和右下角横纵坐标，根据单个文字的左上角横纵坐标和右下角横纵坐标计算各行文字的单行文字高度；

具体的，取识别单个文字的左上角横纵坐标和右下角横纵坐标，分别记作x1,y1,x2,y2,并存入第一临时数组tmpArr1；取识别下一文字的左上角坐标和右上角坐标，当下一文字的左上角横坐标不大于上个文字的右下角横坐标时，对第一临时数组内的坐标进行如下运算：

计算所有文字的右下角纵坐标与左上角纵坐标的差值y2-y1；

其中，对所有的y2-y1取平均值前，还包括去除所有y2-y1中一个最大值和一个最小值。

S22、识别页面的左上角横纵坐标和右下角横纵坐标，根据页面的左上角横纵坐标和右下角横纵坐标以及各行文字的单行文字高度，计算页面非文字空间高度；

具体的，计算页面的左上角横纵坐标和右下角横纵坐标，记为X1，Y1，X2，Y2，根据页面的左上角横纵坐标和右下角横纵坐标以及第二临时数组计算页面非文字空间高度H，页面非文字空间高度H的计算公式如下：

H＝Y2-Y1-(第二临时数组的数值之和)。

S23、根据页面非文字空间高度和各行文字的单行文字高度，获得页面上文字的平均文字高度；

具体的，判断页面非文字空间高度H是否大于页面右下角纵坐标Y2的27.25％；如果页面非文字空间高度H大于页面右下角纵坐标Y2的27.25％，则将第二临时数组内数值去掉一个最大值和一个最小值后取平均值，否则直接对第二临时数组内的数值取平均值，此平均值为平均文字高度textHeight。

对情报原始文件中的数据对象进行合并成行的文本格式处理，包括以下步骤：

S24、重新检索文字，判断文字间纵坐标之差是否大于平均文字高度；

S25、若大于，先在text变量加入"\n"后再加入检索到的文字；否则，直接在text变量加入检索到的文字。

具体的，格式转换模块32重新检索页面的文字，根据上述规则对文字进行文本格式转换，生成情报文本，情报文本是对原始文件中的数据对象进行合并成行和文本格式转换后的结果。

S3、根据预设的配置参数，对情报文本进行字符串匹配，提取情报文本中的报告价值内容。

具体的，提取模块3通过正则引擎，根据预设的配置参数对情报文本进行字符串匹配，对MD5、SHA1、SHA256、C&C、IP、攻击者手法等内容进行提取，获取情报文本中的报告价值内容。

其中，各配置参数的正则公式如下：

md5:/\b([a-f\d]{32})\b/ig

sha1:/\b([a-f\d]{40})\b/ig

sha256:/\b([a-f\d]{64})\b/ig

ipv4:/\b((2(5[0-5]|[0-4]\d))|[0-1]？\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]？\d{1,2})){3}\b/ig

ipv6:/\b\s*((([0-9A-Fa-f]{1,4}:){7}([0-9A-Fa-f]{1,4}|:))|(([0-9A-Fa-f]{1,4}:){6}(:[0-9A-Fa-f]{1,4}|((25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)){3}\b)ig|:))|(([0-9A-Fa-f]{1,4}:){5}(((:[0-9A-Fa-f]{1,4}){1,2})|:((25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)){3})|:))|(([0-9A-Fa-f]{1,4}:){4}(((:[0-9A-Fa-f]{1,4}){1,3})|((:[0-9A-Fa-f]{1,4})？:((25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)){3}))|:))|(([0-9A-Fa-f]{1,4}:){3}(((:[0-9A-Fa-f]{1,4}){1,4})|((:[0-9A-Fa-f]{1,4}){0,2}:((25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)){3}))|:))|(([0-9A-Fa-f]{1,4}:){2}(((:[0-9A-Fa-f]{1,4}){1,5})|((:[0-9A-Fa-f]{1,4}){0,3}:((25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)){3}))|:))|(([0-9A-Fa-f]{1,4}:){1}(((:[0-9A-Fa-f]{1,4}){1,6})|((:[0-9A-Fa-f]{1,4}){0,4}:((25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)){3}))|:))|(:(((:[0-9A-Fa-f]{1,4}){1,7})|((:[0-9A-Fa-f]{1,4}){0,5}:((25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]？\d)){3}))|:)))(％.+)？\s*\b/ig

domain:/\b([a-zA-Z0-9][-a-zA-Z0-9]{1,62}\.){1,}(com|net|biz|space|hta|today|it|cc|rs|ua|ru|online|live|club|center|org|site|me|co|es|xyz|top|pw|cn|agency|life|bid|stream|host|ml|cloud|info|world|date|rocks|win|in|cash|mobi|kr|email|group|ws|cf|nl|tk|ga|gq|icu|ir|pro|link|red|kz|ink|za|to|us|hu|so|news|dk|nu|plus|io|ms|one|la|hk|best|tokyo|asia|party|jp|guide|ly|lol|tv|vip|tmp|tech|press|name|ch|tw|at|eu|fr|tm|de|bazar|onion|work|ne|pk|credit|ca|vu|watch|cab|uk|br|sa|th|hr|pl|gd|ai|au|ar|my|nz|amsterdam|si|gr|ae|se|id|be|lu|sg|lt|no|ee|fi|cl|ro|lk|pt|ma|mx|ad|cz|ng|guru|am|ie|mn|cy|il|education)\b/ig

url:

/\b(https？|ftp|file):\/\/(([a-zA-Z0-9][-a-zA-Z0-9]{1,62}\.){1,}(com|net|biz|space|hta|today|it|cc|rs|ua|ru|online|live|club|center|org|site|me|co|es|xyz|top|pw|cn|agency|life|bid|stream|host|ml|cloud|info|world|date|rocks|win|in|cash|mobi|kr|email|group|ws|cf|nl|tk|ga|gq|icu|ir|pro|link|red|kz|ink|za|to|us|hu|so|news|dk|nu|plus|io|ms|one|la|hk|best|tokyo|asia|party|jp|guide|ly|lol|tv|vip|tmp|tech|press|name|ch|tw|at|eu|fr|tm|de|bazar|onion|work|ne|pk|credit|ca|vu|watch|cab|uk|br|sa|th|hr|pl|gd|ai|au|ar|my|nz|amsterdam|si|gr|ae|se|id|be|lu|sg|lt|no|ee|fi|cl|ro|lk|pt|ma|mx|ad|cz|ng|guru|am|ie|mn|cy|il|education))[-A-Za-z0-9+&@#\/％？＝～_|！:,.；]+[-A-Za-z0-9+&@#/％＝～_|]\b/ig

email:/\b[\w！#$％&'*+/＝？^_`{|}～-]+(？:\.[\w！#$％&'*+/＝？^_`{|}～-]+)*@(？:[\w](？:[\w-]*[\w])？\.)+[\w](？:[\w-]*[\w])？\b/ig

S4、显示提取到的报告价值内容，对提取到的报告价值内容和情报原始文件进行归档。

具体的，输出模块5将提取到的报告价值内容在系统界面上进行显示，系统界面如图5所示。输出模块5将报告价值内容输出情报报告，并与情报原始文件一起进行归档存档。

与现有技术相比，本发明提供的一种基于互联网报告的情报积累归档系统及方法，通过URL获取并保持公开情报的内容，根据页面和文字大小的比例基数，对公开情报内容中的数据对象进行合并成行的文本格式处理后，对文本进行与预设配置参数的字符串匹配，从而自动提取出互联网公开情报的价值内容，生成安全分析报告，大大提高了对于互联网公开情报的处理速度和处理效率，同时可以实现不同厂商的互联网公开情报的格式处理，方便对互联网公开情报的同一格式和归档，大大提高了安全分析的效率，节约了人力成本。

本发明并不局限于上述最佳实施方式，任何人应该得知在本发明的启示下做出的结构变化，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

Claims

1.一种基于互联网报告的情报积累归档方法，其特征在于，包括以下步骤：

根据互联网公开情报的URL，获取URL对应的内容，并将其渲染成HTML页面，对HTML页面的内容进行保存，获得情报原始文件；

根据页面和文字大小的比例基数，对情报原始文件中的数据对象进行整合和文本格式转换处理，获得情报文本；

2.根据权利要求1所述的基于互联网报告的情报积累归档方法，其特征在于，所述预设的配置参数包括但不限于MD5、SHA1、SHA256、C&C、IP、攻击者手法。

3.根据权利要求1所述的基于互联网报告的情报积累归档方法，其特征在于，所述情报原始文件为PDF文件。

4.根据权利要求3所述的基于互联网报告的情报积累归档方法，其特征在于，所述页面和文字大小的比例基数为页面上文字的平均文字高度，所述页面上文字的平均文字高度的计算包括以下步骤：

识别单个文字的左上角横纵坐标和右下角横纵坐标，根据单个文字的左上角横纵坐标和右下角横纵坐标，计算各行文字的单行文字高度；

根据页面非文字空间高度和各行文字的单行文字高度，计算页面上文字的平均文字高度。

5.根据权利要求4所述的基于互联网报告的情报积累归档方法，其特征在于，所述根据单个文字的左上角横纵坐标和右下角横纵坐标计算各行文字的单行文字高度包括：

计算所有文字的右下角纵坐标与左上角纵坐标的差值y2-y1；

6.根据权利要求5所述的基于互联网报告的情报积累归档方法，其特征在于，所述根据页面的左上角横纵坐标和右下角横纵坐标以及各行文字的单行文字高度，计算页面非文字空间高度包括：

H＝Y2-Y1-(第二临时数组的数值之和)。

7.根据权利要求6所述的基于互联网报告的情报积累归档方法，其特征在于，所述根据页面非文字空间高度和各行文字的单行文字高度，计算页面上文字的平均文字高度包括：

8.一种基于互联网报告的情报积累归档系统，其特征在于，包括：

导入模块，用于导入情报原始文件；

9.根据权利要求8所述的基于互联网报告的情报积累归档系统，其特征在于，所述采集模块包括：

渲染模块，用于将URL内容渲染成HTML页面；

10.根据权利要求8所述的基于互联网报告的情报积累归档系统，其特征在于，所述识别模块包括：