CN113190500A - 一种基于互联网报告的情报积累归档系统及方法 - Google Patents

一种基于互联网报告的情报积累归档系统及方法 Download PDF

Info

Publication number
CN113190500A
CN113190500A CN202110443949.9A CN202110443949A CN113190500A CN 113190500 A CN113190500 A CN 113190500A CN 202110443949 A CN202110443949 A CN 202110443949A CN 113190500 A CN113190500 A CN 113190500A
Authority
CN
China
Prior art keywords
text
page
information
character
horizontal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110443949.9A
Other languages
English (en)
Other versions
CN113190500B (zh
Inventor
王健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Yunzhi Anxin Technology Co ltd
Original Assignee
Guangdong Yunzhi Anxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Yunzhi Anxin Technology Co ltd filed Critical Guangdong Yunzhi Anxin Technology Co ltd
Priority to CN202110443949.9A priority Critical patent/CN113190500B/zh
Publication of CN113190500A publication Critical patent/CN113190500A/zh
Application granted granted Critical
Publication of CN113190500B publication Critical patent/CN113190500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于互联网报告的情报积累归档系统及其方法,包括以下步骤:根据互联网公开情报的URL,获取URL对应的内容,并将其渲染成HTML页面,对HTML页面的内容进行保存,获得情报原始文件;根据页面和文字大小的比例基数,对情报原始文件中数据对象进行整合和文本格式转换处理,获得情报文本;根据预设的配置参数,对情报文本进行字符串匹配,提取情报文本中的报告价值内容;显示提取到的报告价值内容,对报告价值内容和情报原始文件进行归档。本发明,通过对情报原始文件的内容进行整合和文本格式转换处理,并通过对情报文本进行字符串匹配,提取到情报文本中的报告价值内容,实现了情报报告的自动生成,提高了情报的提取效率和归档效率。

Description

一种基于互联网报告的情报积累归档系统及方法
技术领域
本发明涉及网络安全技术领域,具体涉及一种基于互联网报告的情报积累归档系统及方法。
背景技术
安全分析是指对安全事件的响应,通过一些方法收集信息,经过对信息的处理,产出情报的过程。安全分析主要包括三个核心阶段:信息收集;信息分析,产出情报;将情报进行传播。其中,对于情报的阅读,是各个安全分析机构在进行安全分析过程中的重要工作。
互联网上的情报来源众多,包括OSINT、封闭、机密等,OSINT是可公开获取的数据,是最常见的信息获取途径,其中包括媒体、机构、开放博客、社交平台、会议论文、大厂公告等等。但凡是互联网能够访问的信息,都属于OSINT数据,该类数据源通常采用爬虫、爬取网页、api、RSS等方式获得,也可以通过邮件订阅的方式获得。
邮件列表曾是安全技术人员最主要的信息获取方式,通过订阅邮件列表就可以在电子邮件的界面上获取到各种各样的安全信息。然而,随着技术的发展,网上的安全信息指数级增长,需要处理的安全信息数据量陡增,并且由于信息来源鱼龙混杂,需要耗费大量的精力从来源混杂的信息中提炼有用信息,因此,采用人工的方式历遍全部安全信息,显示需要耗费大量的人工成本,不能满足现在的安全分析需要。
另外,由于现有的互联网情报列表中各厂商所采用的报告格式不同,如何对安全报告进行统一高效的归档,提高安全报告的处理效率,也成为现阶段安全技术人员需要考虑的问题。
有鉴于此,急需一种基于互联网报告的情报积累归档方法,以解决上述难题。
发明内容
本发明所要解决的技术问题是现有安全报告来源混杂、需要处理的信息量巨大、人工处理效率低、工作量大且难以进行统一归档的问题。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种基于互联网公开报告的情报积累归档方法,包括以下步骤:
根据互联网公开情报的URL,获取URL内容,并将其渲染成HTML页面,对HTML页面的内容进行保存,获得情报原始文件;
按照页面和文字大小的比例基数,对情报原始文件中的数据对象进行整合和文本格式转换处理,获得情报文本;
根据预设的配置参数,对情报文本进行字符串匹配,提取情报文本中的报告价值内容;
显示提取到的报告价值内容,对提取到的报告价值内容和情报原始文件进行归档。
在上述方案中,优选的,所述预设的配置参数包括但不限于MD5、SHA1、SHA256、C&C、IP、攻击者手法。
在上述方案中,优选的,所述情报原始文件为PDF文件。
在上述方案中,优选的,所述页面和文字大小的比例基数为页面上文字的平均文字高度,所述页面上文字的平均文字高度的计算包括以下步骤:
识别单个文字的左上角横纵坐标和右下角横纵坐标,根据单个文字的左上角横纵坐标和右下角横纵坐标计算各行文字的单行文字高度;
识别页面的左上角横纵坐标和右下角横纵坐标,根据页面的左上角横纵坐标和右下角横纵坐标以及各行文字的单行文字高度,计算页面非文字空间高度;
根据页面非文字空间高度和各行文字的单行文字高度,获得页面上文字的平均文字高度。
在上述方案中,优选的,所述根据单个文字的左上角横纵坐标和右下角横纵坐标计算各行文字的单行文字高度包括:
取识别单个文字的左上角横纵坐标和右下角横纵坐标,分别记作x1,y1,x2,y2,并存入第一临时数组tmpArr1;取识别下一文字的左上角坐标和右上角坐标,当下一文字的左上角横坐标不大于上个文字的右下角横坐标时,对第一临时数组内的坐标进行如下运算:
计算所有文字的右下角纵坐标与左上角纵坐标的差值y2-y1;
对所有的y2-y1取平均值,并将平均值存入第二临时数组,清空第一临时数组。
在上述方案中,优选的,所述根据页面的左上角横纵坐标和右下角横纵坐标以及各行文字的单行文字高度,计算页面非文字空间高度包括:
计算页面的左上角横纵坐标和右下角横纵坐标,记为X1,Y1,X2,Y2,根据页面的左上角横纵坐标和右下角横纵坐标以及所述第二临时数组,计算页面非文字空间高度H,页面非文字空间高度H的计算公式如下:
H=Y2-Y1-(第二临时数组的数值之和)。
在上述方案中,优选的,所述根据页面非文字空间高度和各行文字的单行文字高度,计算页面上文字的平均文字高度包括:
判断页面非文字空间高度H是否大于页面右下角纵坐标Y2的27.25%;如果页面非文字空间高度H大于页面右下角纵坐标Y2的27.25%,则将第二临时数组内数值去掉一个最大值和一个最小值后取平均值,否则直接对第二临时数组内的数值取平均值,此平均值为平均文字高度。
一种基于互联网报告的情报积累归档系统,包括:
采集模块,用于根据互联网公开情报的URL地址获取URL内容,并保存成情报原始文件;
导入模块,用于导入情报原始文件;
识别模块,用于根据页面和文字大小的比例基数,对情报原始文件中的数据对象进行合并成行的文本格式处理;
提取模块,用于情报文本进行与预设的配置参数进行字符串匹配,提取情报文本的价值内容;
输出模块,用于对提取的情报文本的价值内容进行显示,并输出情报报告,与情报原始文件一起归档。
在上述方案中,优选的,所述采集模块包括:
接口模块,通过http请求或API接口的方式获取输入到的URL内容;
渲染模块,用于将URL内容渲染成HTML页面;
文件保存模块,用于将渲染后的HTML页面保存成情报原始文件。
在上述方案中,优选的,所述识别模块包括:
坐标识别模块,用于识别文字坐标并计算页面和文字大小的比例技术;
格式转换模块,用于将情报原始文件中的数据对象转换成合并成行的文本格式,生成情报文本。
与现有技术相比,本发明提供的基于互联网公开报告的情报积累和归档系统及方法,通过URL获取并保持公开情报的内容,根据页面和文字大小的比例基数,对公开情报内容中的数据对象进行合并成行的文本格式处理后,对文本进行与预设配置参数的字符串匹配,从而自动提取出互联网公开情报的价值内容,生成安全分析报告,大大提高了对于互联网公开情报的处理速度和处理效率,同时可以实现不同厂商的互联网公开情报的格式处理,方便对互联网公开情报的同一格式和归档,大大提高了安全分析的效率,节约了人力成本。
附图说明
图1为本发明中基于互联网公开报告的情报积累归档系统的示意图;
图2为本发明中基于互联网公开报告的情报积累归档方法的流程图;
图3为本发明中获取情报原始文件的流程图;
图4为本发明中页面上文字的平均文字高度的计算的流程图;
图5为本发明中基于互联网公开报告的情报积累归档系统的截面的示意图。
具体实施方式
本发明提供了一种基于互联网报告的情报积累归档系统及方法,通过互联网公开情报的URL获取并保存页面内容,根据页面和文字大小的比例基数对页面内容中的数据对象进行合并成行的文本格式处理,再通过对文本进行与预设配置参数的字符串匹配,提取情报文本中的价值内容,提高了对互联网公开情报的处理效率,实现了互联网公开情报的高效、低出错处理,大大降低了互联网公开情报处理的人工成本,同时可以实现互联网公开情报内容的统一归档,方便便捷,提高了安全分析的效率。下面结合说明书附图和具体实施方式对本发明做出详细说明。
如图1所示,本发明提供了一种基于互联网公开报告的情报积累归档系统,包括采集模块1、导入模块2、识别模块3、提取模块4和输出模块5。
采集模块1用于根据互联网公开情报的URL地址获取URL内容,并保存成情报原始文件。采集模块1还包括接口模块11、渲染模块12和文件保存模块13,接口模块11通过http请求或API接口的方式获取输入到的URL内容,渲染模块12用于将URL内容渲染成HTML页面,文件保存模块13用于将渲染后的HTML页面保存成情报原始文件,情报原始文件为PDF文档。
导入模块2用于导入情报原始文件。识别模块3用于根据页面和文字大小的比例基数,对情报原始文件中的数据对象进行合并成行的文本格式处理。识别模块3包括坐标识别模块31和格式转换模块32,坐标识别模块31用于识别文字坐标并计算页面和文字大小的比例技术,格式转化模块32用于将情报原始文件中的数据对象转换成合并成行的文本格式,生成情报文本。
提取模块4用于情报文本进行与预设的配置参数进行字符串匹配,提取情报文本的价值内容。预设的配置参数包括但不限于MD5、SHA1、SHA256、C&C、IP、攻击者手法。输出模块5用于对提取的情报文本的价值内容进行显示,并输出情报报告,与情报原始文件一起归档。
本发明还提供了一种基于互联网公开报告的情报积累和归档方法,如图2所示,包括以下步骤:
S1、根据互联网公开情报的URL,获取URL内容,并将其渲染成HTML页面,对HTML页面的内容进行保存,获得情报原始文件。
具体的,采集模块1中的接口模块11通过http请求或API接口的方式获取输入到的URL内容,渲染模块12将获取的URL内容渲染成HTML页面,文件保存模块13将渲染后的HTML页面保存成情报原始文件,其中,情报原始文件为PDF文档。
其中,如图3所示,获取情报原始文件包括以下步骤:
首先由接口模块11判断输入的URL地址是否正确,如果不正确,在系统界面显示错误提示;
如果URL地址正确,则由接口模块11判断输入的URL地址是否可访问,如果不可访问,在系统界面显示错误提示;
如果URL地址可访问,则由接口模块11获取URL内容,由渲染模块12将获取的URL内容渲染成HTML页面,并由文件保存模块13将渲染后的HTML页面保存为PDF格式的情报原始文件,情报原始文件保存在系统所在的设备(如计算机)的内存装置内。
S2、按照页面和文字大小的比例基数,对情报原始文件中的数据对象进行整合和文本格式转换处理,获得情报文本。
具体的,导入模块2将保存的情报原始文件导入识别模块3,识别模块3中根据计算的页面和文字大小的比例基数,对情报原始文件中的数据对象进行合并成行的文本格式处理。
其中,如图4所示,页面和文字大小的比例基数为页面上文字的平均文字高度,其计算包括以下步骤:
S21、识别单个文字的左上角横纵坐标和右下角横纵坐标,根据单个文字的左上角横纵坐标和右下角横纵坐标计算各行文字的单行文字高度;
具体的,取识别单个文字的左上角横纵坐标和右下角横纵坐标,分别记作x1,y1,x2,y2,并存入第一临时数组tmpArr1;取识别下一文字的左上角坐标和右上角坐标,当下一文字的左上角横坐标不大于上个文字的右下角横坐标时,对第一临时数组内的坐标进行如下运算:
计算所有文字的右下角纵坐标与左上角纵坐标的差值y2-y1;
对所有的y2-y1取平均值,并将平均值存入第二临时数组,清空第一临时数组。
其中,对所有的y2-y1取平均值前,还包括去除所有y2-y1中一个最大值和一个最小值。
S22、识别页面的左上角横纵坐标和右下角横纵坐标,根据页面的左上角横纵坐标和右下角横纵坐标以及各行文字的单行文字高度,计算页面非文字空间高度;
具体的,计算页面的左上角横纵坐标和右下角横纵坐标,记为X1,Y1,X2,Y2,根据页面的左上角横纵坐标和右下角横纵坐标以及第二临时数组计算页面非文字空间高度H,页面非文字空间高度H的计算公式如下:
H=Y2-Y1-(第二临时数组的数值之和)。
S23、根据页面非文字空间高度和各行文字的单行文字高度,获得页面上文字的平均文字高度;
具体的,判断页面非文字空间高度H是否大于页面右下角纵坐标Y2的27.25%;如果页面非文字空间高度H大于页面右下角纵坐标Y2的27.25%,则将第二临时数组内数值去掉一个最大值和一个最小值后取平均值,否则直接对第二临时数组内的数值取平均值,此平均值为平均文字高度textHeight。
对情报原始文件中的数据对象进行合并成行的文本格式处理,包括以下步骤:
S24、重新检索文字,判断文字间纵坐标之差是否大于平均文字高度;
S25、若大于,先在text变量加入"\n"后再加入检索到的文字;否则,直接在text变量加入检索到的文字。
具体的,格式转换模块32重新检索页面的文字,根据上述规则对文字进行文本格式转换,生成情报文本,情报文本是对原始文件中的数据对象进行合并成行和文本格式转换后的结果。
S3、根据预设的配置参数,对情报文本进行字符串匹配,提取情报文本中的报告价值内容。
具体的,提取模块3通过正则引擎,根据预设的配置参数对情报文本进行字符串匹配,对MD5、SHA1、SHA256、C&C、IP、攻击者手法等内容进行提取,获取情报文本中的报告价值内容。
其中,各配置参数的正则公式如下:
md5:/\b([a-f\d]{32})\b/ig
sha1:/\b([a-f\d]{40})\b/ig
sha256:/\b([a-f\d]{64})\b/ig
ipv4:/\b((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3}\b/ig
ipv6:/\b\s*((([0-9A-Fa-f]{1,4}:){7}([0-9A-Fa-f]{1,4}|:))|(([0-9A-Fa-f]{1,4}:){6}(:[0-9A-Fa-f]{1,4}|((25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3}\b)ig|:))|(([0-9A-Fa-f]{1,4}:){5}(((:[0-9A-Fa-f]{1,4}){1,2})|:((25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3})|:))|(([0-9A-Fa-f]{1,4}:){4}(((:[0-9A-Fa-f]{1,4}){1,3})|((:[0-9A-Fa-f]{1,4})?:((25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3}))|:))|(([0-9A-Fa-f]{1,4}:){3}(((:[0-9A-Fa-f]{1,4}){1,4})|((:[0-9A-Fa-f]{1,4}){0,2}:((25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3}))|:))|(([0-9A-Fa-f]{1,4}:){2}(((:[0-9A-Fa-f]{1,4}){1,5})|((:[0-9A-Fa-f]{1,4}){0,3}:((25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3}))|:))|(([0-9A-Fa-f]{1,4}:){1}(((:[0-9A-Fa-f]{1,4}){1,6})|((:[0-9A-Fa-f]{1,4}){0,4}:((25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3}))|:))|(:(((:[0-9A-Fa-f]{1,4}){1,7})|((:[0-9A-Fa-f]{1,4}){0,5}:((25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3}))|:)))(%.+)?\s*\b/ig
domain:/\b([a-zA-Z0-9][-a-zA-Z0-9]{1,62}\.){1,}(com|net|biz|space|hta|today|it|cc|rs|ua|ru|online|live|club|center|org|site|me|co|es|xyz|top|pw|cn|agency|life|bid|stream|host|ml|cloud|info|world|date|rocks|win|in|cash|mobi|kr|email|group|ws|cf|nl|tk|ga|gq|icu|ir|pro|link|red|kz|ink|za|to|us|hu|so|news|dk|nu|plus|io|ms|one|la|hk|best|tokyo|asia|party|jp|guide|ly|lol|tv|vip|tmp|tech|press|name|ch|tw|at|eu|fr|tm|de|bazar|onion|work|ne|pk|credit|ca|vu|watch|cab|uk|br|sa|th|hr|pl|gd|ai|au|ar|my|nz|amsterdam|si|gr|ae|se|id|be|lu|sg|lt|no|ee|fi|cl|ro|lk|pt|ma|mx|ad|cz|ng|guru|am|ie|mn|cy|il|education)\b/ig
url:
/\b(https?|ftp|file):\/\/(([a-zA-Z0-9][-a-zA-Z0-9]{1,62}\.){1,}(com|net|biz|space|hta|today|it|cc|rs|ua|ru|online|live|club|center|org|site|me|co|es|xyz|top|pw|cn|agency|life|bid|stream|host|ml|cloud|info|world|date|rocks|win|in|cash|mobi|kr|email|group|ws|cf|nl|tk|ga|gq|icu|ir|pro|link|red|kz|ink|za|to|us|hu|so|news|dk|nu|plus|io|ms|one|la|hk|best|tokyo|asia|party|jp|guide|ly|lol|tv|vip|tmp|tech|press|name|ch|tw|at|eu|fr|tm|de|bazar|onion|work|ne|pk|credit|ca|vu|watch|cab|uk|br|sa|th|hr|pl|gd|ai|au|ar|my|nz|amsterdam|si|gr|ae|se|id|be|lu|sg|lt|no|ee|fi|cl|ro|lk|pt|ma|mx|ad|cz|ng|guru|am|ie|mn|cy|il|education))[-A-Za-z0-9+&@#\/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]\b/ig
email:/\b[\w!#$%&'*+/=?^_`{|}~-]+(?:\.[\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\w](?:[\w-]*[\w])?\.)+[\w](?:[\w-]*[\w])?\b/ig
S4、显示提取到的报告价值内容,对提取到的报告价值内容和情报原始文件进行归档。
具体的,输出模块5将提取到的报告价值内容在系统界面上进行显示,系统界面如图5所示。输出模块5将报告价值内容输出情报报告,并与情报原始文件一起进行归档存档。
与现有技术相比,本发明提供的一种基于互联网报告的情报积累归档系统及方法,通过URL获取并保持公开情报的内容,根据页面和文字大小的比例基数,对公开情报内容中的数据对象进行合并成行的文本格式处理后,对文本进行与预设配置参数的字符串匹配,从而自动提取出互联网公开情报的价值内容,生成安全分析报告,大大提高了对于互联网公开情报的处理速度和处理效率,同时可以实现不同厂商的互联网公开情报的格式处理,方便对互联网公开情报的同一格式和归档,大大提高了安全分析的效率,节约了人力成本。
本发明并不局限于上述最佳实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。

Claims (10)

1.一种基于互联网报告的情报积累归档方法,其特征在于,包括以下步骤:
根据互联网公开情报的URL,获取URL对应的内容,并将其渲染成HTML页面,对HTML页面的内容进行保存,获得情报原始文件;
根据页面和文字大小的比例基数,对情报原始文件中的数据对象进行整合和文本格式转换处理,获得情报文本;
根据预设的配置参数,对情报文本进行字符串匹配,提取情报文本中的报告价值内容;
显示提取到的报告价值内容,对提取到的报告价值内容和情报原始文件进行归档。
2.根据权利要求1所述的基于互联网报告的情报积累归档方法,其特征在于,所述预设的配置参数包括但不限于MD5、SHA1、SHA256、C&C、IP、攻击者手法。
3.根据权利要求1所述的基于互联网报告的情报积累归档方法,其特征在于,所述情报原始文件为PDF文件。
4.根据权利要求3所述的基于互联网报告的情报积累归档方法,其特征在于,所述页面和文字大小的比例基数为页面上文字的平均文字高度,所述页面上文字的平均文字高度的计算包括以下步骤:
识别单个文字的左上角横纵坐标和右下角横纵坐标,根据单个文字的左上角横纵坐标和右下角横纵坐标,计算各行文字的单行文字高度;
识别页面的左上角横纵坐标和右下角横纵坐标,根据页面的左上角横纵坐标和右下角横纵坐标以及各行文字的单行文字高度,计算页面非文字空间高度;
根据页面非文字空间高度和各行文字的单行文字高度,计算页面上文字的平均文字高度。
5.根据权利要求4所述的基于互联网报告的情报积累归档方法,其特征在于,所述根据单个文字的左上角横纵坐标和右下角横纵坐标计算各行文字的单行文字高度包括:
取识别单个文字的左上角横纵坐标和右下角横纵坐标,分别记作x1,y1,x2,y2,并存入第一临时数组tmpArr1;取识别下一文字的左上角坐标和右上角坐标,当下一文字的左上角横坐标不大于上个文字的右下角横坐标时,对第一临时数组内的坐标进行如下运算:
计算所有文字的右下角纵坐标与左上角纵坐标的差值y2-y1;
对所有的y2-y1取平均值,并将平均值存入第二临时数组,清空第一临时数组。
6.根据权利要求5所述的基于互联网报告的情报积累归档方法,其特征在于,所述根据页面的左上角横纵坐标和右下角横纵坐标以及各行文字的单行文字高度,计算页面非文字空间高度包括:
计算页面的左上角横纵坐标和右下角横纵坐标,记为X1,Y1,X2,Y2,根据页面的左上角横纵坐标和右下角横纵坐标以及所述第二临时数组,计算页面非文字空间高度H,页面非文字空间高度H的计算公式如下:
H=Y2-Y1-(第二临时数组的数值之和)。
7.根据权利要求6所述的基于互联网报告的情报积累归档方法,其特征在于,所述根据页面非文字空间高度和各行文字的单行文字高度,计算页面上文字的平均文字高度包括:
判断页面非文字空间高度H是否大于页面右下角纵坐标Y2的27.25%;如果页面非文字空间高度H大于页面右下角纵坐标Y2的27.25%,则将第二临时数组内数值去掉一个最大值和一个最小值后取平均值,否则直接对第二临时数组内的数值取平均值,此平均值为平均文字高度。
8.一种基于互联网报告的情报积累归档系统,其特征在于,包括:
采集模块,用于根据互联网公开情报的URL地址获取URL内容,并保存成情报原始文件;
导入模块,用于导入情报原始文件;
识别模块,用于根据页面和文字大小的比例基数,对情报原始文件中的数据对象进行合并成行的文本格式处理;
提取模块,用于情报文本进行与预设的配置参数进行字符串匹配,提取情报文本的价值内容;
输出模块,用于对提取的情报文本的价值内容进行显示,并输出情报报告,与情报原始文件一起归档。
9.根据权利要求8所述的基于互联网报告的情报积累归档系统,其特征在于,所述采集模块包括:
接口模块,通过http请求或API接口的方式获取输入到的URL内容;
渲染模块,用于将URL内容渲染成HTML页面;
文件保存模块,用于将渲染后的HTML页面保存成情报原始文件。
10.根据权利要求8所述的基于互联网报告的情报积累归档系统,其特征在于,所述识别模块包括:
坐标识别模块,用于识别文字坐标并计算页面和文字大小的比例技术;
格式转换模块,用于将情报原始文件中的数据对象转换成合并成行的文本格式,生成情报文本。
CN202110443949.9A 2021-04-23 2021-04-23 一种基于互联网报告的情报积累归档系统及方法 Active CN113190500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110443949.9A CN113190500B (zh) 2021-04-23 2021-04-23 一种基于互联网报告的情报积累归档系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110443949.9A CN113190500B (zh) 2021-04-23 2021-04-23 一种基于互联网报告的情报积累归档系统及方法

Publications (2)

Publication Number Publication Date
CN113190500A true CN113190500A (zh) 2021-07-30
CN113190500B CN113190500B (zh) 2024-07-05

Family

ID=76978279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110443949.9A Active CN113190500B (zh) 2021-04-23 2021-04-23 一种基于互联网报告的情报积累归档系统及方法

Country Status (1)

Country Link
CN (1) CN113190500B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317845A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种深度网络数据自动抽取方法及系统
KR101500598B1 (ko) * 2014-10-06 2015-03-10 한국과학기술정보연구원 Xml 생성 시스템 및 방법
CN107622041A (zh) * 2017-09-18 2018-01-23 北京神州泰岳软件股份有限公司 隐性表格提取方法及装置
CN108833389A (zh) * 2018-06-05 2018-11-16 北京奇安信科技有限公司 一种情报数据共享处理方法及装置
CN109862021A (zh) * 2019-02-26 2019-06-07 武汉思普崚技术有限公司 威胁情报的获取方法及装置
CN110413864A (zh) * 2019-08-06 2019-11-05 南方电网科学研究院有限责任公司 一种网络安全情报采集方法、装置、设备及存储介质
CN110912889A (zh) * 2019-11-22 2020-03-24 上海交通大学 一种基于智能化威胁情报的网络攻击检测系统和方法
WO2020101479A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad System and method to detect and generate relevant content from uniform resource locator (url)
CN112464626A (zh) * 2020-12-09 2021-03-09 上海携宁计算机科技股份有限公司 Pdf文档的图表提取方法、电子设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101500598B1 (ko) * 2014-10-06 2015-03-10 한국과학기술정보연구원 Xml 생성 시스템 및 방법
CN104317845A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种深度网络数据自动抽取方法及系统
CN107622041A (zh) * 2017-09-18 2018-01-23 北京神州泰岳软件股份有限公司 隐性表格提取方法及装置
CN108833389A (zh) * 2018-06-05 2018-11-16 北京奇安信科技有限公司 一种情报数据共享处理方法及装置
WO2020101479A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad System and method to detect and generate relevant content from uniform resource locator (url)
CN109862021A (zh) * 2019-02-26 2019-06-07 武汉思普崚技术有限公司 威胁情报的获取方法及装置
CN110413864A (zh) * 2019-08-06 2019-11-05 南方电网科学研究院有限责任公司 一种网络安全情报采集方法、装置、设备及存储介质
CN110912889A (zh) * 2019-11-22 2020-03-24 上海交通大学 一种基于智能化威胁情报的网络攻击检测系统和方法
CN112464626A (zh) * 2020-12-09 2021-03-09 上海携宁计算机科技股份有限公司 Pdf文档的图表提取方法、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢钢: "基于Scrapy的信息采集与分析", 现代信息科技, vol. 4, no. 14, pages 96 - 98 *

Also Published As

Publication number Publication date
CN113190500B (zh) 2024-07-05

Similar Documents

Publication Publication Date Title
CN107766371B (zh) 一种文本信息分类方法及其装置
CN109635120B (zh) 知识图谱的构建方法、装置和存储介质
CN104951489B (zh) 一种应用于电力系统的气象数据解析处理方法
CN109522562B (zh) 一种基于文本图像融合识别的网页知识抽取方法
CN107153716B (zh) 网页内容提取方法和装置
CN103810251B (zh) 一种文本提取方法及装置
CN113450147B (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN111353491B (zh) 一种文字方向确定方法、装置、设备及存储介质
CN102663435B (zh) 基于半监督的垃圾图片过滤方法
US11010543B1 (en) Systems and methods for table extraction in documents
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN108090104A (zh) 用于获取网页信息的方法和装置
CN112560468A (zh) 气象预警文本处理方法、相关装置及计算机程序产品
CN112333185B (zh) 一种基于dns解析的域名阴影检测方法和装置
CN107239520B (zh) 一种通用论坛正文提取方法
CN116150651A (zh) 基于ai的深度合成检测方法和系统
US10963690B2 (en) Method for identifying main picture in web page
CN113468395A (zh) 一种基于倒排索引的互联网资产指纹识别方法与系统
CN113190500B (zh) 一种基于互联网报告的情报积累归档系统及方法
CN110674678A (zh) 视频中敏感标志的识别方法及装置
CN102902737B (zh) 一种网络图像自主收集与筛选方法
CN115565193A (zh) 问卷信息录入方法、装置、电子设备及存储介质
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
JP6267830B2 (ja) 画像処理を応用した文書構造解析装置
CN112131374B (zh) 文本的识别方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant