CN110413864A - 一种网络安全情报采集方法、装置、设备及存储介质 - Google Patents
一种网络安全情报采集方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110413864A CN110413864A CN201910721647.6A CN201910721647A CN110413864A CN 110413864 A CN110413864 A CN 110413864A CN 201910721647 A CN201910721647 A CN 201910721647A CN 110413864 A CN110413864 A CN 110413864A
- Authority
- CN
- China
- Prior art keywords
- file
- information
- network security
- class file
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Computer And Data Communications (AREA)
Abstract
本申请公开了一种网络安全情报采集方法,包括根据接收到的采集指令启动网络爬虫,并利用网络爬虫进行信息爬取,获得网络安全情报资源;对网络安全情报资源进行分类,获得文本类文件和非文本类文件;根据非文本类文件的文件类型调用文件转换工具,并利用文件转换工具将非文本类文件转换为文本类文件;根据预设情报标准格式规范对文本类文件进行信息提取,获得目标内容;通过预设标准化数据生成模型对目标内容进行标准化处理,获得标准化网络安全情报;该方法可以持续性、大规模地对互联网上的网络安全情报进行采集,有效的提高了信息采集效率。本申请还公开了一种网络安全情报采集装置、设备及计算机可读存储介质,均具有上述有益效果。
Description
技术领域
本申请涉及网络安全技术领域,特别涉及一种网络安全情报采集方法,还涉及一种网络安全情报采集装置、设备以及计算机可读存储介质。
背景技术
网络安全防御及威胁情报预警正在成为各行业重要的工作之一,筑牢信息安全防御高墙的第一要务是获取到精确可靠的网络安全威胁情报,网络威胁情报(Cyber ThreatIntelligence)是指面向网络安全领域的情报信息,通过情报可以解析特定攻击的方法,识别恶意的软件及木马。因此,收集网络安全情报,一方面可以了解网络安全威胁的发展趋势,有助于制定网络安全风险应对措施;另一方面可以对传统的安全防御方式进行优化和改进,形成能应对多样化和持续化威胁的网络安全策略。
网络攻击的手段层出不穷,互联网上网络安全情报信息的信息源也越来越多,许多安全研究人员常常会不定期在互联网媒体发表他们对网络安全威胁的研究成果,安全厂商或设备生产商也会不时在互联网发布针对特定设备的漏洞解决方案。
随着5G时代的到来,移动互联网及多媒体技术的发展,除了传统的文本,一些情报信息还以图片或者视频等形式存在,这些非结构化的数据常常需要由具备网络安全知识背景的专业人员进行人工提炼及总结之后才能运用于制定系统的安全防护策略,这种基于人力的情报搜集模式缺乏持续性,且成本高,效率低,无法应对日益规模化的大数据情报信息。而且,人工整理的情报信息往往缺乏标准化结构,无法像IPS、IDS、防火墙等安全设备产生的安全日志类结构化数据那样可直接用于后续网络安全智能化分析。
因此,如何提供一种网络安全情报的收集方法,以便于持续性、大规模地收集互联网上的网络安全威胁情报信息是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种网络安全情报采集方法,该网络安全情报采集方法可以持续性、大规模地对互联网上的网络安全情报进行采集,有效的提高了信息采集效率,同时避免了人工采集,降低了采集成本;本申请的另一目的是提供一种网络安全情报采集装置、设备以及计算机可读存储介质,也具有上述有益效果。
为解决上述技术问题,本申请提供了一种网络安全情报采集方法,所述网络安全情报采集方法包括:
根据接收到的采集指令启动网络爬虫,并利用所述网络爬虫进行信息爬取,获得网络安全情报资源;
对所述网络安全情报资源进行分类,获得文本类文件和非文本类文件;
根据所述非文本类文件的文件类型调用文件转换工具,并利用所述文件转换工具将所述非文本类文件转换为文本类文件;
根据预设情报标准格式规范对所述文本类文件进行信息提取,获得目标内容;
通过预设标准化数据生成模型对所述目标内容进行标准化处理,获得标准化网络安全情报。
优选的,所述利用所述网络爬虫进行信息爬取,获得网络安全情报资源,包括:
利用分布式爬虫和/或增量式爬虫进行信息爬取,获得所述网络安全情报资源。
优选的,所述对所述网络安全情报资源进行分类,获得文本类文件和非文本类文件之后,还包括:
利用分布式文件存储系统对所述文本类文件和所述非文本类文件进行存储。
优选的,所述根据所述非文本类文件的文件类型调用文件转换工具,并利用所述文件转换工具将所述非文本类文件转换为文本类文件,包括:
当所述非文本文类件为音频文件时,调用语音识别算法将所述音频文件转换为所述文本类文件;
当所述非文本类文件为图片文件时,调用OCR算法将所述图片文件转换为所述文本类文件;
当所述非文本类文件为视频文件时,调用所述语音识别算法和所述OCR算法将所述视频文件转换为所述文本类文件。
优选的,所述根据预设情报标准格式规范对所述文本文件进行信息提取,获得目标内容之前,还包括:
利用预设文本聚类算法对所述文本类文件进行筛选,获得符合指定文本主题的文本类文件。
优选的,所述根据预设情报标准格式规范对所述文本文件进行信息提取,获得目标内容,包括:
结合所述预设情报标准格式规范,利用LDA算法对所述文本类文件进行信息提取,获得所述目标内容。
优选的,所述网络安全情报采集方法还包括:
将所述标准化网络安全情报发送至前端界面进行显示。
为解决上述技术问题,本申请还提供了一种网络安全情报采集装置,所述网络安全情报采集装置包括:
资源获取模块,用于根据接收到的采集指令启动网络爬虫,并利用所述网络爬虫进行信息爬取,获得网络安全情报资源;
资源分类模块,用于对所述网络安全情报资源进行分类,获得文本类文件和非文本类文件;
文件转换模块,用于根据所述非文本类文件的文件类型调用文件转换工具,并利用所述文件转换工具将所述非文本类文件转换为文本类文件;
信息提取模块,用于根据预设情报标准格式规范对所述文本类文件进行信息提取,获得目标内容;
情报标准化模块,用于通过预设标准化数据生成模型对所述目标内容进行标准化处理,获得标准化网络安全情报。
为解决上述技术问题,本申请还提供了一种网络安全情报采集设备,所述网络安全情报采集设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任意一种网络安全情报采集方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种网络安全情报采集方法的步骤。
本申请所提供的一种网络安全情报采集方法,包括根据接收到的采集指令启动网络爬虫,并利用所述网络爬虫进行信息爬取,获得网络安全情报资源;对所述网络安全情报资源进行分类,获得文本类文件和非文本类文件;根据所述非文本类文件的文件类型调用文件转换工具,并利用所述文件转换工具将所述非文本类文件转换为文本类文件;根据预设情报标准格式规范对所述文本类文件进行信息提取,获得目标内容;通过预设标准化数据生成模型对所述目标内容进行标准化处理,获得标准化网络安全情报。
可见,本申请所提供的网络安全情报采集方法,能够自动化大规模地收集发布在互联网上的多种来源的网络安全情报,并利用计算机技术将其由非结构化的数据进行处理分析,转化为具有标准化结构的可共享的情报数据,有效节省了人工收集、分析、整理网络安全情报数据的时间和人力资源成本,提高了网络安全情报数据的收集处理效率;并且,该采集方法实现了除文本类数据之外的其他格式数据的采集,扩展了网络安全情报数据的收集范围,使收集到的网络安全情报数据更加完整;此外,经过处理形成的符合相关标准规范的结构化网络安全情报数据,还可直接与其他组织进行共享或直接用于网络安全智能分析。
本申请所提供的一种网络安全情报采集装置、设备以及计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请所提供的一种网络安全情报采集方法的流程示意图;
图2为本申请所提供的一种网络安全情报采集装置的结构示意图;
图3为本申请所提供的一种网络安全情报采集设备的结构示意图。
具体实施方式
本申请的核心是提供一种网络安全情报采集方法,该网络安全情报采集方法可以持续性、大规模地对互联网上的网络安全情报进行采集,有效的提高了信息采集效率,同时避免了人工采集,降低了采集成本;本申请的另一核心是提供一种网络安全情报采集装置、设备以及计算机可读存储介质,也具有上述有益效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参考图1,图1为本申请所提供的一种网络安全情报采集方法的流程示意图,该网络安全情报采集方法可以包括:
S101:根据接收到的采集指令启动网络爬虫,并利用网络爬虫进行信息爬取,获得网络安全情报资源;
本步骤旨在利用网络爬虫实现网络安全情报的采集。具体的,当接收到网络安全情报采集指令时,即可启动网络爬虫,以利用网络爬虫在网站中爬取网络安全情报资源。
其中,网络爬虫是一个爬行程序,可用于按照一定规则自动的抓取万维网信息,其类型并不唯一。在本申请中,可以根据预设关键词实现网络安全情报的爬取,该预设关键词可以为网络安全事件关键字、漏洞名称、漏洞类型、病毒名称、攻击方式等。
另外,上述被进行信息爬取的网站,可以为来自各漏洞通报共享平台、政府部门网站、安全厂商官网、设备制造商官网、网络安全技术论坛、行业自媒体的网站;进一步,为了应对各网站的反爬机制,还可以使用具有爬虫防屏蔽功能的网络爬虫,具体的,爬虫系统可以采用以下策略方法来防止爬虫被屏蔽:
(1)模拟不同内核的浏览器发起信息爬取请求;
(2)定期更换代理服务器和网关;
(3)降低网络爬虫爬取网页的频率,减少并发爬取的任务进程,限制每个ip并发爬取的次数,通过牺牲一定的效率来换取系统的稳定性;
(4)禁用cookie,由于在面对用户访问时,网站会在cookie中插入一些信息来判断是否是机器人,因此,通过屏蔽cookie更加有利于身份不被暴露。
可以理解的是,网络爬虫的爬取周期可以根据实际需要设置为定时或非定时,也可以根据网络安全情报的数据需求调整爬取频率,其具体设定并不影响本技术方案的实施。
优选的,上述利用网络爬虫进行信息爬取,获得网络安全情报资源,可以包括利用分布式爬虫和/或增量式爬虫进行信息爬取,获得网络安全情报资源。
本申请实施例提供了具体类型的网络爬虫,即分布式爬虫和/或增量式爬虫,其中,增量式爬虫可以有效减少重复爬取次数,当然,也可以通过设置增量爬取实现;分布式爬虫可有效提高搜索频率,具体可以创建一个主节点,并通过任务分工、资源分配、信息整合来掌控其他从节点进行信息抓取。
S102:对网络安全情报资源进行分类,获得文本类文件和非文本类文件;
具体而言,随着互联网及多媒体技术的发展,网络安全情报数据会以多种形式的媒介内容发布到互联网,而不仅仅只是文本信息,还可以以图片、音视频等形式存在,因此,为便于对情报资源进行统一分析,可以将情报资源转换为统一的格式。进一步,由于视频、音频、图片、表格等形式的文件在进行主题、语义分析的步骤上复杂多变,且当前自然语言处理技术最成熟的应用还是用于处理文本信息,因此,出于实际处理的便捷考虑,可以选择将其他格式的非文本类文件统一转换为文本类文件格式。由此,在本步骤中,旨在对网络安全情报资源进行分类,以获得文本类文件和非文本类文件。
S103:根据非文本类文件的文件类型调用文件转换工具,并利用文件转换工具将非文本类文件转换为文本类文件;
本步骤旨在实现非文本文件的类型转化,具体可根据非文本文件的文件类型,调取对应的文件转换工具,进而将非文本类文件转换为文本类文件。其中,文件转换工具多种多样,根据实际情况进行选择即可。
优选的,上述根据非文本类文件的文件类型调用文件转换工具,并利用文件转换工具将非文本类文件转换为文本类文件,可以包括:当非文本文类件为音频文件时,调用语音识别算法将音频文件转换为文本类文件;当非文本类文件为图片文件时,调用OCR(Optical Character Recognition,光学字符识别)算法将图片文件转换为文本类文件;当非文本类文件为视频文件时,调用语音识别算法和OCR算法将视频文件转换为文本类文件。
针对不同类型的非文本文件,本申请实施例提供了具体类型的文件转换工具,对于音频文件,可以利用语音识别技术实现,对于图片文件,可以利用图像文本识别技术实现,而对于视频文件,则可以对其进行分帧,结合语音识别技术和图像文本识别技术完成。可以理解的是,现有的语音识别技术及图像文本识别技术可以选择的相关软硬件有很多,且较为成熟,技术人员可以根据实际情况来自行选择,本申请在此不再赘述。
另外,对于文本类文件,其类型同样多种多样,如PDF、Word、WPS、XLS、PPT等,因此,在获得所有的文本类文件后,还可以进一步进行格式转换,将多种不同格式的文本类文件转换为统一格式的文本类文件,对于其转换过程,同样可以采用已有技术中的任意一种,本申请对此不做限定。
S104:根据预设情报标准格式规范对文本类文件进行信息提取,获得目标内容;
本步骤旨在实现目标内容的提取,该目标内容即为威胁网络安全的具体情报信息,可以为关键词、关键句、目标文本等类型,其具体内容可以由预设情报标准格式规范所确定,具体的,可按照各类威胁情报共享标准格式预先设置情报信息格式主题描述模型,用以对基于S103获取的文本类文件的处理指定定向目标,明确从文本中抽取的信息作为情报的组件内容。
其中,威胁情报表达的标准有很多种,即上述预设情报标准格式规范的类型不唯一,常见的有国外的“网络可观察表达式(CyboX)”、“结构化威胁信息表达式(STIX)”、“指标信息的可信自动化交换(TAXII)”以及“恶意软件属性枚举和特征描述(MAEC)”等,国内有国家标准《信息安全技术网络安全威胁信息格式规范Information security technology—Cyber security threat information format》(GB/T 36643-2018)。在本申请中,不限定使用哪种标准,本专业实施人员可根据实际需求进行选定。可以理解的是,无论选用何种标准,在本步骤中所提取的目标内容均需按照预设情报标准格式规范所要求的维度、组件、字段为目标值进行提取。
以国标GB/T 36643-2018为例,其规定一个典型的网络安全威胁信息表达模型由对象、方法和事件三个维度组成,其中对象域包括威胁主体和攻击目标,方法域包括攻击方法和应对措施,事件域包括可观测数据、攻击指标、安全事件、攻击活动,一共8个组件划分成3个域描述一个威胁情报信息,例如,可以将“攻击者”、“受害者”等作为关键词进行提取,以对应填充“威胁主体”组件的数据;将包含“预警”、“检测”、“防护”、“响应”等词语的句子或段落提取作为“应对措施”组件的数据对象。
此外,对于上述从文本类文件中提取目标内容的具体实现过程,可以采用已有技术中的任意一种信息提取方法,本申请对此不做限定。
优选的,上述根据预设情报标准格式规范对文本文件进行信息提取,获得目标内容,可以包括:结合预设情报标准格式规范,利用LDA(Latent Dirichlet Allocation隐含狄利克雷分布)算法对文本类文件进行信息提取,获得目标内容。
本申请实施例提供了一种较为具体的信息提取方法,即LDA算,此外,还可以为LSA(Latent Semantic Analysis潜在语义分析)算法、LSI(Latent Semantic Index潜在语义索引)算法等,该信息提取的具体实现流程如下:
(1)文本预处理:将获得的文本类文件去除指定无用的符号,如空格、符号、标签等;
(2)对文本进行分词,将句子转化为词的表示;
(3)去除停用词;
(4)词性标注,专有对象识别;
(5)文本向量化;
(6)利用机器学习算法提取目标内容(以关键词为例):在提取过程中,可以利用预先给定的情报标准组件关键词构造出主题描述模型,然后分别计算这些关键词包含的文本标记信息的加权文档频率,通过分析关键词的文档频率变化规律,来判断文本内容与任务所要求的主题之间的相关性,并进行提取文本文档的筛选。其中,依据提取任务的具体要求,通过调整主题描述模型中关键词的数量和相关性判别阈值,可以有效提高关键词提取结果的数量和准确性。进一步,将提取出来的相关性较高的关键词再补充至构造主题描述模型的组件关键词表中,可以进行模型优化,提高提取结果的相关性和准确性。
S105:通过预设标准化数据生成模型对目标内容进行标准化处理,获得标准化网络安全情报。
本步骤旨在实现目标内容的标准化处理,具体的,可以将基于S104提取的目标内容输入至标准化数据生成模型,进而根据各类威胁情报的表达格式、GB/T 36643-2018、Cybox、STIX等标准生成标准化的威胁情报数据,即上述标准化网络安全情报。其中,对于上述生成标准化数据的过程,其具体采用的转化方法不做限定,例如,可以采用间接转换法,先将配置成的模板名称和数据进行整合,然后进行半结构化输出,得到XML文件,再进一步对XML文件进行解析,将解析得到的数据存入数据库即可。
本申请所提供的网络安全情报采集方法,能够自动化大规模地收集发布在互联网上的多种来源的网络安全情报,并利用计算机技术将其由非结构化的数据进行处理分析,转化为具有标准化结构的可共享的情报数据,有效节省了人工收集、分析、整理网络安全情报数据的时间和人力资源成本,提高了网络安全情报数据的收集处理效率;并且,该采集方法实现了除文本类数据之外的其他格式数据的采集,扩展了网络安全情报数据的收集范围,使收集到的网络安全情报数据更加完整;此外,经过处理形成的符合相关标准规范的结构化网络安全情报数据,还可直接与其他组织进行共享或直接用于网络安全智能分析。
在上述实施例的基础上:
作为一种优选实施例,上述对网络安全情报资源进行分类,获得文本类文件和非文本类文件之后,还可以包括:利用分布式文件存储系统对文本类文件和非文本类文件进行存储。
本申请实施例旨在实现网络安全情报资源的存储,即将各类型文件分类存储,并进行编号排序,可通过分布式文件存储系统(HDFS)实现。具体的,HDFS具有可以处理超大文件,处理非结构化数据、半结构化数据、结构化数据等优点,可以流式的访问数据,支持一次写入、多次读取,可运行于廉价的商用机器集群上,还可在故障时能继续运行且不让用户察觉到明显的中断。
作为一种优选实施例,上述根据预设情报标准格式规范对所述文本文件进行信息提取,获得目标内容之前,还可以包括:利用预设文本聚类算法对所述文本类文件进行筛选,获得符合指定文本主题的文本类文件。
本申请实施例旨在对文本类文件进行筛选,在得到统一类型的文本类文件后,可以进行筛选以去除与网络安全主题无关的文件,保留符合主题情报需求的文件,进而提高网络安全情报的采集效率。其中,该具体实现方法可以采用基于主题词频数统计的文本聚类方法、语义角色标注方法等。
具体的,首先进行主题词筛选,对所有文本类文件进行分词,统计每个预设主题词在文本中出现的频数,得到统一词频表;进一步,根据预设主题词出现的频率设定判断阈值,规定一旦预设主题词在某个文件中出现的频率低于该判断阈值,即认定该文件不属于网络安全相关资源而将其剔除。除此之外,还可根据关键词之间的近似度关系计算词语的居间度密度,词语与主题越相关,词语的居间度密度越大,从而以此判断该文本类文件是否与安全主题相关。总之,较为常见的筛选方法是通过自然语言处理技术中的文档主题相关模型、算法等来实现,技术人员根据具体情况进行选择或设计即可。
作为一种优选实施例,该网络安全情报采集方法还可以包括:将标准化网络安全情报发送至前端界面进行显示。
本步骤旨在实现标准化网络安全情报的显示,具体可以将获得的标准化网络安全情报发送至前端界面进行图形化展示,或与其他智能化数据情报分析系统进行数据交互等。
为解决上述问题,请参考图2,图2为本申请所提供的一种网络安全情报采集装置的结构示意图,该网络安全情报采集装置可包括:
资源获取模块10,用于根据接收到的采集指令启动网络爬虫,并利用网络爬虫进行信息爬取,获得网络安全情报资源;
资源分类模块20,用于对网络安全情报资源进行分类,获得文本类文件和非文本类文件;
文件转换模块30,用于根据非文本类文件的文件类型调用文件转换工具,并利用文件转换工具将非文本类文件转换为文本类文件;
信息提取模块40,用于根据预设情报标准格式规范对文本类文件进行信息提取,获得目标内容;
情报标准化模块50,用于通过预设标准化数据生成模型对目标内容进行标准化处理,获得标准化网络安全情报。
可见,本申请实施例所提供的网络安全情报采集装置,能够自动化大规模地收集发布在互联网上的多种来源的网络安全情报,并利用计算机技术将其由非结构化的数据进行处理分析,转化为具有标准化结构的可共享的情报数据,有效节省了人工收集、分析、整理网络安全情报数据的时间和人力资源成本,提高了网络安全情报数据的收集处理效率;并且,该采集方法实现了除文本类数据之外的其他格式数据的采集,扩展了网络安全情报数据的收集范围,使收集到的网络安全情报数据更加完整;此外,经过处理形成的符合相关标准规范的结构化网络安全情报数据,还可直接与其他组织进行共享或直接用于网络安全智能分析。
作为一种优选实施例,上述资源获取模块10可具体用于利用分布式爬虫和/或增量式爬虫进行信息爬取,获得网络安全情报资源。
作为一种优选实施例,该网络安全情报采集装置还可以包括文件存储模块,用于利用分布式文件存储系统对文本类文件和非文本类文件进行存储。
作为一种优选实施例,上述文件转换模块30可包括:
第一转换单元,用于当非文本文类件为音频文件时,调用语音识别算法将音频文件转换为文本类文件;
第二转换单元,用于当非文本类文件为图片文件时,调用OCR算法将图片文件转换为文本类文件;
第三转换单元,用于当非文本类文件为视频文件时,调用语音识别算法和OCR算法将视频文件转换为文本类文件。
作为一种优选实施例,该网络安全情报采集装置还可以包括文件筛选模块,用于利用预设文本聚类算法对文本类文件进行筛选,获得符合指定文本主题的文本类文件。
作为一种优选实施例,上述信息提取模块40可具体用于结合预设情报标准格式规范,利用LDA算法对文本类文件进行信息提取,获得目标内容。
作为一种优选实施例,该网络安全情报采集装置还可以包括情报显示模块,用于将标准化网络安全情报发送至前端界面进行显示。
对于本申请提供的装置的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,请参考图3,图3为本申请所提供的一种网络安全情报采集设备的结构示意图,该网络安全情报采集设备可包括:
存储器1,用于存储计算机程序;
处理器2,用于执行计算机程序时实现如上所述任意一种网络安全情报采集方法的步骤。
对于本申请提供的设备的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如上所述任意一种网络安全情报采集方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。
以上对本申请所提供的网络安全情报采集方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围要素。
Claims (10)
1.一种网络安全情报采集方法,其特征在于,包括:
根据接收到的采集指令启动网络爬虫,并利用所述网络爬虫进行信息爬取,获得网络安全情报资源;
对所述网络安全情报资源进行分类,获得文本类文件和非文本类文件;
根据所述非文本类文件的文件类型调用文件转换工具,并利用所述文件转换工具将所述非文本类文件转换为文本类文件;
根据预设情报标准格式规范对所述文本类文件进行信息提取,获得目标内容;
通过预设标准化数据生成模型对所述目标内容进行标准化处理,获得标准化网络安全情报。
2.如权利要求1所述的网络安全情报采集方法,其特征在于,所述利用所述网络爬虫进行信息爬取,获得网络安全情报资源,包括:
利用分布式爬虫和/或增量式爬虫进行信息爬取,获得所述网络安全情报资源。
3.如权利要求1所述的网络安全情报采集方法,其特征在于,所述对所述网络安全情报资源进行分类,获得文本类文件和非文本类文件之后,还包括:
利用分布式文件存储系统对所述文本类文件和所述非文本类文件进行存储。
4.如权利要求1所述的网络安全情报采集方法,其特征在于,所述根据所述非文本类文件的文件类型调用文件转换工具,并利用所述文件转换工具将所述非文本类文件转换为文本类文件,包括:
当所述非文本文类件为音频文件时,调用语音识别算法将所述音频文件转换为所述文本类文件;
当所述非文本类文件为图片文件时,调用OCR算法将所述图片文件转换为所述文本类文件;
当所述非文本类文件为视频文件时,调用所述语音识别算法和所述OCR算法将所述视频文件转换为所述文本类文件。
5.如权利要求1所述的网络安全情报采集方法,其特征在于,所述根据预设情报标准格式规范对所述文本文件进行信息提取,获得目标内容之前,还包括:
利用预设文本聚类算法对所述文本类文件进行筛选,获得符合指定文本主题的文本类文件。
6.如权利要求1所述的网络安全情报采集方法,其特征在于,所述根据预设情报标准格式规范对所述文本文件进行信息提取,获得目标内容,包括:
结合所述预设情报标准格式规范,利用LDA算法对所述文本类文件进行信息提取,获得所述目标内容。
7.如权利要求1至6任意一项所述的网络安全情报采集方法,其特征在于,还包括:
将所述标准化网络安全情报发送至前端界面进行显示。
8.一种网络安全情报采集装置,其特征在于,包括:
资源获取模块,用于根据接收到的采集指令启动网络爬虫,并利用所述网络爬虫进行信息爬取,获得网络安全情报资源;
资源分类模块,用于对所述网络安全情报资源进行分类,获得文本类文件和非文本类文件;
文件转换模块,用于根据所述非文本类文件的文件类型调用文件转换工具,并利用所述文件转换工具将所述非文本类文件转换为文本类文件;
信息提取模块,用于根据预设情报标准格式规范对所述文本类文件进行信息提取,获得目标内容;
情报标准化模块,用于通过预设标准化数据生成模型对所述目标内容进行标准化处理,获得标准化网络安全情报。
9.一种网络安全情报采集设备,其特征在于,还包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任意一项所述的网络安全情报采集方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的网络安全情报采集方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910721647.6A CN110413864A (zh) | 2019-08-06 | 2019-08-06 | 一种网络安全情报采集方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910721647.6A CN110413864A (zh) | 2019-08-06 | 2019-08-06 | 一种网络安全情报采集方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110413864A true CN110413864A (zh) | 2019-11-05 |
Family
ID=68366142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910721647.6A Pending CN110413864A (zh) | 2019-08-06 | 2019-08-06 | 一种网络安全情报采集方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413864A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291378A (zh) * | 2019-12-05 | 2020-06-16 | 中国船舶重工集团公司第七0九研究所 | 威胁情报判研方法及装置 |
CN111581355A (zh) * | 2020-05-13 | 2020-08-25 | 杭州安恒信息技术股份有限公司 | 威胁情报的主题检测方法、装置和计算机存储介质 |
CN112182212A (zh) * | 2020-09-27 | 2021-01-05 | 广州汽车集团股份有限公司 | 一种网络车辆碰撞数据的处理方法及系统 |
CN112862985A (zh) * | 2020-12-30 | 2021-05-28 | 中兴智能交通股份有限公司 | 基于车场周边停车运营信息的计费动态折扣的系统和方法 |
CN112989040A (zh) * | 2021-03-10 | 2021-06-18 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
CN113032775A (zh) * | 2019-12-25 | 2021-06-25 | 中国电信股份有限公司 | 情报处理方法和情报处理系统 |
CN113268647A (zh) * | 2021-07-19 | 2021-08-17 | 广东南方电信规划咨询设计院有限公司 | 一种网络安全情报数据的分类方法、系统及装置 |
CN113485203A (zh) * | 2021-08-03 | 2021-10-08 | 上海德衡数据科技有限公司 | 一种智能控制网络资源共享的方法及系统 |
CN113704214A (zh) * | 2021-08-27 | 2021-11-26 | 北京市律典通科技有限公司 | 电子卷宗文件类型转换方法、装置及计算机设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391684A (zh) * | 2017-07-24 | 2017-11-24 | 深信服科技股份有限公司 | 一种威胁情报生成的方法及系统 |
CN107967250A (zh) * | 2016-10-19 | 2018-04-27 | 中兴通讯股份有限公司 | 一种信息处理方法及装置 |
-
2019
- 2019-08-06 CN CN201910721647.6A patent/CN110413864A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967250A (zh) * | 2016-10-19 | 2018-04-27 | 中兴通讯股份有限公司 | 一种信息处理方法及装置 |
CN107391684A (zh) * | 2017-07-24 | 2017-11-24 | 深信服科技股份有限公司 | 一种威胁情报生成的方法及系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291378A (zh) * | 2019-12-05 | 2020-06-16 | 中国船舶重工集团公司第七0九研究所 | 威胁情报判研方法及装置 |
CN113032775A (zh) * | 2019-12-25 | 2021-06-25 | 中国电信股份有限公司 | 情报处理方法和情报处理系统 |
CN113032775B (zh) * | 2019-12-25 | 2024-02-06 | 中国电信股份有限公司 | 情报处理方法和情报处理系统 |
CN111581355B (zh) * | 2020-05-13 | 2023-07-25 | 杭州安恒信息技术股份有限公司 | 威胁情报的主题检测方法、装置和计算机存储介质 |
CN111581355A (zh) * | 2020-05-13 | 2020-08-25 | 杭州安恒信息技术股份有限公司 | 威胁情报的主题检测方法、装置和计算机存储介质 |
WO2021227831A1 (zh) * | 2020-05-13 | 2021-11-18 | 杭州安恒信息技术股份有限公司 | 威胁情报的主题检测方法、装置和计算机存储介质 |
CN112182212A (zh) * | 2020-09-27 | 2021-01-05 | 广州汽车集团股份有限公司 | 一种网络车辆碰撞数据的处理方法及系统 |
CN112862985A (zh) * | 2020-12-30 | 2021-05-28 | 中兴智能交通股份有限公司 | 基于车场周边停车运营信息的计费动态折扣的系统和方法 |
CN112989040A (zh) * | 2021-03-10 | 2021-06-18 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
CN112989040B (zh) * | 2021-03-10 | 2024-02-27 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
CN113268647A (zh) * | 2021-07-19 | 2021-08-17 | 广东南方电信规划咨询设计院有限公司 | 一种网络安全情报数据的分类方法、系统及装置 |
CN113485203B (zh) * | 2021-08-03 | 2022-05-31 | 上海德衡数据科技有限公司 | 一种智能控制网络资源共享的方法及系统 |
CN113485203A (zh) * | 2021-08-03 | 2021-10-08 | 上海德衡数据科技有限公司 | 一种智能控制网络资源共享的方法及系统 |
CN113704214A (zh) * | 2021-08-27 | 2021-11-26 | 北京市律典通科技有限公司 | 电子卷宗文件类型转换方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413864A (zh) | 一种网络安全情报采集方法、装置、设备及存储介质 | |
CN106709345B (zh) | 基于深度学习方法推断恶意代码规则的方法、系统及设备 | |
CN110716910B (zh) | 一种日志管理方法、装置、设备和存储介质 | |
US11258814B2 (en) | Methods and systems for using embedding from Natural Language Processing (NLP) for enhanced network analytics | |
CN106534146B (zh) | 一种安全监测系统及方法 | |
CN104951539A (zh) | 互联网数据中心有害信息监测系统 | |
CN108399194A (zh) | 一种网络威胁情报生成方法及系统 | |
CN106778253A (zh) | 基于大数据的威胁情景感知信息安全主动防御模型 | |
CN109145102A (zh) | 智能问答方法及其知识图谱系统构建方法、装置、设备 | |
JP7120350B2 (ja) | セキュリティ情報分析方法、セキュリティ情報分析システム、及び、プログラム | |
CN110929145B (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
CN111813960B (zh) | 基于知识图谱的数据安全审计模型装置、方法及终端设备 | |
CN113536325A (zh) | 一种数字化信息风险监控方法及装置 | |
CN112765366A (zh) | 基于知识图谱的apt组织画像构建方法 | |
CN103701783A (zh) | 一种预处理单元、由其构成的数据处理系统以及处理方法 | |
CN104899324A (zh) | 一种基于idc有害信息监测系统的样本训练系统 | |
KR20210083936A (ko) | 사이버 위협정보 수집 시스템 | |
CN114528457A (zh) | Web指纹检测方法及相关设备 | |
CN115396147A (zh) | 一种融合云网端日志与威胁知识的apt检测方法 | |
CN115514558A (zh) | 一种入侵检测方法、装置、设备及介质 | |
Sun et al. | Design and application of an AI-based text content moderation system | |
Lu et al. | The design and implementation of configurable news collection system based on web crawler | |
CN107391684A (zh) | 一种威胁情报生成的方法及系统 | |
US20200110815A1 (en) | Multi contextual clustering | |
CN115051863B (zh) | 异常流量检测的方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191105 |