CN108399194A

CN108399194A - 一种网络威胁情报生成方法及系统

Info

Publication number: CN108399194A
Application number: CN201810085018.4A
Authority: CN
Inventors: 文辉; 李科; 李红; 朱红松; 孙利民
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2018-08-14

Abstract

本发明提供一种网络威胁情报生成方法及系统，方法包括：利用关键词从网络上收集网络安全事件的文本信息；利用分类模型将文本信息进行分类，并将不属于任一类别的文本信息进行过滤；提取每个类别包含的每个文本信息中的安全实体，并生成每个类别包含的每个文本信息的文本摘要，根据安全实体和文本摘要组成情报信息；对同一时间戳的文本信息进行聚类，获得每个时间戳对应的类文本信息，获取不同时间戳的与同一网络安全事件相关的所有类文本信息，将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列，形成了以事件链为展现形式的情报追踪体系，便于安全从业人员实时跟踪某安全事件，减少情报收集的人力资源成本。

Description

一种网络威胁情报生成方法及系统

技术领域

本发明涉及信息处理技术领域，更具体地，涉及一种网络威胁情报生成方法及系统。

背景技术

威胁情报是以知识为基础的事实，是通过一定的媒体传递给特定的用户，影响用户的选择及决策，用以辅助解决具体问题的信息。根据美国国家基础设施保护中心(Centre for the Protection of National Infrastructure，CPNI)的定义，网络威胁情报(Cyber Threat Intelligence),是面向网络安全领域的情报信息，通过情报可以解析特定攻击的方法，识别恶意的软件及木马，了解网络安全威胁的发展趋势，用以对传统的安全防御方式进行优化和改进，形成能应对多样化和持续化威胁的安全策略。

随着互联网及信息安全的发展，网络空间所受到的威胁也在逐渐复杂化，各类网络攻击也更加具有持续性及隐蔽性，使得安全从业人员必须持续跟踪并关注网络安全事件及其攻击手段、漏洞信息，总结相关情报并利用于系统的安全防护。然而基于人力的情报收集方法缺乏持久性，且成本高、效率低，迫切需要一个自动化的情报收集方法，以便用于整理、提炼网络安全相关的信息。

传统的网络威胁情报信息是由专门的机构组织收集与整理，主要通过分析威胁报告、运行沙箱实测、部署蜜罐等半自动方式收集攻击实例，记录攻击源(IP地址、病毒文件、木马程序等)、攻击目标及攻击行为等，形成网络威胁情报CTI(Cyber ThreatIntelligence)。为了方便这些数值类情报信息的管理，亦提出了诸如OpenIOC，STIX等信息结构标准便于威胁情报的共享与使用。虽然这种半自动化的方法能收集大量的安全情报信息，有利于安全防护系统(入侵检测系统) 的构建，但这些信息提取困难、种类繁杂、数据大量且未标识，不便于安全管理人员理解，更不适合作为管理人员制定安全防护策略的依据。

发明内容

本发明为了克服现有技术中网络威胁情报信息提取困难、种类繁杂、数据大量且未标识，不便于安全管理人员理解的问题，提供一种网络威胁情报生成方法及系统。

一方面，本发明提供一种网络威胁情报生成方法包括：

S1，提取网络安全事件的关键词，利用所述关键词从网络上收集所述网络安全事件的文本信息；

S2，训练所述文本信息的分类模型，利用所述分类模型将所述文本信息进行分类，获得每个类别包含的文本信息，并将不属于任一所述类别的文本信息进行过滤；

S3，提取每个所述类别包含的每个文本信息中的安全实体，并生成每个所述类别包含的每个文本信息的文本摘要，根据所述安全实体和所述文本摘要组成每个所述类别包含的每个文本信息对应的情报信息；

S4，对于任一所述类别，获取任一所述类别包含的每个文本信息对应的时间戳，对同一时间戳的文本信息进行聚类，获得每个时间戳对应的类文本信息，获取不同时间戳的与同一网络安全事件相关的所有类文本信息，将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列。

优选地，步骤S2中所述训练所述文本信息的分类模型进一步包括：去除每个所述文本信息的停用词，获取每个所述文本信息的所有文本词，计算每个所述文本词的tf-idf值，获得每个所述文本信息对应的 tf-idf值特征向量；利用每个所述文本信息对应的tf-idf值特征向量训练所述文本信息的分类模型。

优选地，步骤S3中所述提取每个所述类别包含的每个文本信息中的安全实体进一步包括：

获取网络安全事件的触发词，训练所述触发词对应的词向量，计算每个所述类别包含的每个文本信息中的每个句子与所述词向量的相似度，获取相似度大于预设阈值的目标句子，从所述目标句子中提取所述安全实体。

优选地，所述词向量包括所述触发词、所述触发词的词性、所述触发词的前一词、所述触发词的后一词、所述触发词的前一词的词性、所述触发词的后一词的词性、所述触发词在句法树中的深度、所述触发词对应的短语的类型、所述触发词到其支配子句顶层的路径和所述触发词的父节点的短语结构。

优选地，所述安全实体包括漏洞信息、事件地点、事件波及的设备名和事件波及的受害者。

利用正则表达式规则从所述目标句子中提取所述漏洞信息；

利用命名实体识别技术从所述目标句子中提取所述事件地点、事件波及的设备名和事件波及的受害者。

优选地，步骤S3中所述生成每个所述类别包含的每个文本信息的文本摘要进一步包括：利用文本摘要技术生成每个所述类别包含的每个文本信息的文本摘要。

一方面，本发明提供一种网络威胁情报生成系统，包括：

信息收集模块，用于提取网络安全事件的关键词，利用所述关键词从网络上收集所述网络安全事件的文本信息；

信息分类过滤模块，用于训练所述文本信息的分类模型，利用所述分类模型将所述文本信息进行分类，获得每个类别包含的文本信息，并将不属于任一所述类别的文本信息进行过滤；

情报生成模块，用于提取每个所述类别包含的每个文本信息中的安全实体，并生成每个所述类别包含的每个文本信息的文本摘要，根据所述安全实体和所述文本摘要组成每个所述类别包含的每个文本信息对应的情报信息；

情报排列模块，用于对于任一所述类别，获取任一所述类别包含的每个文本信息对应的时间戳，对同一时间戳的文本信息进行聚类，获得每个时间戳对应的类文本信息，获取不同时间戳的与同一网络安全事件相关的所有类文本信息，将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列。

一方面，本发明提供一种网络威胁情报生成方法的设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述任一所述的方法。

一方面，本发明提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述任一所述的方法。

本发明提供的一种网络威胁情报生成方法及系统，首先提取网络安全事件的关键词，并以关键词为主题抓取网络上发布的相关文本信息，再通过训练分类模型对文本信息进行分类和过滤，然后通过基于安全知识本体的实体抽取技术与从文本信息中提取漏洞信息、事件地点、事件波及的设备名和受害者等安全实体，并利用文本摘要技术生成安全事件文本信息的摘要，进而组成每个文本信息对应的情报信息，最终将同一时间戳的文本信息进行层级聚类，获得每个时间戳对应的类文本信息，并将不同时间戳中与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序将进行对齐与排列，组成以事件链为展现形式的情报。该方法融合了自然语言处理、机器学习、数据挖掘及开源信息收集工程技术，以安全事件为导向，从网络上的新闻、报告等开源信息中自动收集与整理安全威胁情报信息，形成以事件链为展现形式的情报追踪体系，便于安全从业人员实时跟踪某安全事件，并快速理解安全威胁相关的漏洞信息、威胁情报，从而能提升安全从业人员的安全防护知识，减少情报收集的人力资源成本，同时为管理人员制定安全防护策略提供情报依据。

附图说明

图1为本发明实施例的一种网络威胁情报生成方法的整体流程示意图；

图2为本发明实施例的Mirai事件的威胁情报信息的整体结构示意图；

图3为本发明实施例的一种网络威胁情报生成系统的整体结构示意图；

图4为本发明实施例的一种网络威胁情报生成方法的设备的结构框架示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本发明实施例的一种网络威胁情报生成方法的整体流程示意图，如图1所示，本发明提供一种网络威胁情报生成方法，包括：

具体地，首先通过人工收集历年发生的网络安全事件的信息，再利用手工标注的方式提取网络安全事件的关键词，如Mirai、Stuxnet 等，从而构建一个安全事件的本体库。将安全事件本体库中的关键词作为查询词提交给Bing、Google、baidu以及该安全网站列表中的搜索引擎入口，再通过网页解析及网页抓爬获取网络安全事件的文本信息，其中文本信息包括安全报告和网络新闻等。

进一步地，利用机器学习的方法训练上述文本信息的分类模型，再利用分类模型对上述文本信息进行分类，获得多个安全事件类别，及每个安全事件类别包含的文本信息。其中，可以根据文本信息的内容将文本信息分为信息漏洞和网络攻击等多个类别，可以根据文本信息的具体内容进行设置，此处不做具体限定。同时上述部分文本信息中虽然包括上述网络事件的关键词，但文本信息的具体内容并非与网络安全事件相关，有鉴于此，利用上述分类模型将不属于任何一个安全事件类别的文本信息进行过滤。

进一步地，预先设置事件情报模板，事件情报模板用于对文本信息的处理提供定向目标，明确从文本信息中抽取的信息以组成情报。本实施例中，事件情报模板中包含安全实体和文本摘要。有鉴于此，针对上述获得的每个类别包含的文本信息，利用实体抽取技术从每个类别包含的每个文本信息中提取出安全实体，其中安全实体包括漏洞信息、事件地点、事件波及的设备名和事件波及的受害者等。同时，可以利用文本摘要技术生成每个类别包含的每个文本信息的文本摘要。上述提取的安全实体和生成的文本摘要组成了每个类别包含的每个文本信息对应的情报信息。

进一步地，针对上述每个类别包含的文本信息，获取同一类别包含的每个文本信息的时间戳，将同一时间戳的文本信息进行层级聚类，聚类的同时将文本信息对应的时间戳和情报信息进行合并，选取权重高的文本信息的情报信息和时间戳，用以代表合并后的类文本信息。同一时间戳的文本信息经过层级聚类后生成了多个类文本信息，在此基础上，将不同时间戳的文本信息再次进行聚类，获取不同时间戳的与同一网络安全事件相关的所有类文本信息，最终将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列，组成以事件链为展现形式的情报。例如，上述获得的网络攻击类别包含的文本信息有80个，该80个文本信息对应的时间戳包括2016 年10月18日、2016年10月20日、2016年10月23日、2016年10 月27日、2016年10月31日、2016年11月15日、2017年3月22日和2017年5月12日，且每个时间戳对应的文本信息的数量分别为10、 6、14、7、13、11、8、5和6，其中对2016年10月18日的10个文本信息进行层级聚类后获得的类文件信息中包括Mirai事件相关的文本信息，对2016年10月23日的14个文本信息进行层级聚类后获得的类文件信息中包括Mirai事件相关的文本信息，对2016年10月31 日的13个文本信息进行层级聚类后获得的类文件信息中包括Mirai事件相关的文本信息，对2017年5月12日的6个文本信息进行层级聚类后获得的类文件信息中包括Mirai事件相关的文本信息。最终将上述不同时间戳的Mirai事件相关的文本信息对应的情报信息按照时间戳的顺序进行排列，组成以事件链为展现形式的情报(具体可参见图2)。

本发明提供的一种网络威胁情报生成方法，首先提取网络安全事件的关键词，并以关键词为主题抓取网络上发布的相关文本信息，再通过训练分类模型对文本信息进行分类和过滤，然后通过基于安全知识本体的实体抽取技术与从文本信息中提取漏洞信息、事件地点、事件波及的设备名和受害者等安全实体，并利用文本摘要技术生成安全事件文本信息的摘要，进而组成每个文本信息对应的情报信息，最终将同一时间戳的文本信息进行层级聚类，获得每个时间戳对应的类文本信息，并将不同时间戳中与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序将进行对齐与排列，组成以事件链为展现形式的情报。该方法融合了自然语言处理、机器学习、数据挖掘及开源信息收集工程技术，以安全事件为导向，从网络上的新闻、报告等开源信息中自动收集与整理安全威胁情报信息，形成以事件链为展现形式的情报追踪体系，便于安全从业人员实时跟踪某安全事件，并快速理解安全威胁相关的漏洞信息、威胁情报，从而能提升安全从业人员的安全防护知识，减少情报收集的人力资源成本，同时为管理人员制定安全防护策略提供情报依据。

基于上述任一实施例，提供一种网络威胁情报生成方法，步骤S2 中所述训练所述文本信息的分类模型进一步包括：去除每个所述文本信息的停用词，获取每个所述文本信息的所有文本词，计算每个所述文本词的tf-idf值，获得每个所述文本信息对应的tf-idf值特征向量；利用每个所述文本信息对应的tf-idf值特征向量训练所述文本信息的分类模型。

具体地，从上述收集的网络安全事件的文本信息中选取部分文本信息进行手工标注安全事件的类别，由于每个文本信息由多个词组成，在此基础上，去除每个文本信息中的停用词，获得每个文本信息的所有文本词，并计算每个文本词的tf-idf值，最终针对每个文本信息均可获得对应的tf-idf值特征向量。

进一步，根据上述手工标注的部分文本信息的类别，结合该部分文本信息对应的tf-idf值特征向量，通过机器学习的方法即可训练文本信息的分类模型，再根据其余每个文本信息对应的tf-idf值特征向量，即可对其余的文本信息进行分类。

此外，本实施例中，通过N个类别的文本信息训练N+1类的多类 SVM分类器，再利用N+1类的多类SVM分类器对上述收集的文本信息进行分类。其中N个类别代表N个安全事件类别，额外的1代表不属于任何一个安全事件的类别，与此同时还可以实现对不属于任何一个安全事件的类别的文本信息进行过滤。

本发明提供的一种网络威胁情报生成方法，针对收集的每个文本信息计算其中每个文本词的tf-idf值，从而获得每个文本信息对应的 tf-idf值特征向量，进而根据每个文本信息对应的tf-idf值特征向量训练文本信息的分类模型，最终根据分类模型对每个文本信息进行分类。能够自动实现对大量文本信息的准确分类，减少了情报收集的人力资源成本，同时有利于后续形成以事件链为展现形式的情报追踪体系，便于安全从业人员实时跟踪某安全事件。

基于上述任一实施例，提供一种网络威胁情报生成方法，步骤S3 中所述提取每个所述类别包含的每个文本信息中的安全实体进一步包括：

具体地，首先人工标注网络安全事件的触发词，其中触发词包括 “位于”、“感染”和“漏洞”等，在此基础上，训练基于句法结构的触发词对应的词向量。本实施例中，触发词对应的词向量包括触发词、触发词的词性、触发词的前一词、触发词的后一词、触发词的前一词的词性、触发词的后一词的词性、触发词在句法树中的深度、触发词对应的短语的类型、触发词到其支配子句顶层的路径和触发词的父节点的短语结构。

进一步地，在上述获得了触发词对应的词向量的基础上，计算每个网络安全事件类别包含的每个文本信息中的每个句子与词向量的相似度，若某个句子与词向量的相似度大于预设阈值，则可确定给句子为目标句子，进而对该目标句子进行分析，从该目标句子中提取出预先设置的安全实体。

本发明提供的一种网络威胁情报生成方法，通过人工标注网络安全事件的触发词，并训练基于句法结构的触发词对应的词向量，进而通过计算每个文本信息中的每个句子与词向量的相似度，即可确定包含安全实体的目标句子，最终通过对目标句子的分析即可提取出每个文本信息中的安全实体，避免了对文本信息中无关的句子进行额外的分析，在节省系统资源的同时能够有效准确地从文本信息中提取出安全实体，有利于后续形成以事件链为展现形式的情报追踪体系，便于安全从业人员实时跟踪某安全事件。

基于上述任一实施例，提供一种网络威胁情报生成方法，所述词向量包括所述触发词、所述触发词的词性、所述触发词的前一词、所述触发词的后一词、所述触发词的前一词的词性、所述触发词的后一词的词性、所述触发词在句法树中的深度、所述触发词对应的短语的类型、所述触发词到其支配子句顶层的路径和所述触发词的父节点的短语结构。

具体地，虽然与网络安全事件相关的文本信息的数量庞大，但每个文本信息中与网络安全事件相关的触发词往往相同，一般包括“位于”、“感染”和“漏洞”等，且触发词在每个文本信息中的句法结构也存在着相似性。有鉴于此，本实施例中，通过人工标注网络安全事件的触发词，并训练基于句法结构的触发词对应的词向量，其中词向量包括触发词、触发词的词性、触发词的前一词、触发词的后一词、触发词的前一词的词性、触发词的后一词的词性、触发词在句法树中的深度、触发词对应的短语的类型、触发词到其支配子句顶层的路径和触发词的父节点的短语结构。此外，在其他实施例中，触发词的种类和触发词对应的词向量可以根据实际情况进行设置，此处不做具体限定。

本发明提供的一种网络威胁情报生成方法，通过训练基于句法结构的触发词对应的词向量，有利于根据词向量定位每个文本信息中触发词所在的目标句子，进而有利于从目标句子中提取安全实体，避免了对文本信息中无关的句子进行额外的分析，在节省系统资源的同时能够有效准确地从文本信息中提取出安全实体，有利于后续形成以事件链为展现形式的情报追踪体系，便于安全从业人员实时跟踪某安全事件。

基于上述任一实施例，提供一种网络威胁情报生成方法，所述安全实体包括漏洞信息、事件地点、事件波及的设备名和事件波及的受害者。

具体地，在对收集的文本信息进行分类过滤后，为了针对每个文本信息生成对应的情报信息，应预先设置情报生成模板，情报生成模板中包括安全实体和时间内容摘要。本实施例中，安全实体包括漏洞信息、事件地点、事件波及的设备名和事件波及的受害者。其中，漏洞信息为漏洞CVE编号信息；事件地点为文本信息中网络安全事件发生的地点；事件波及的设备名和事件波及的受害者为文本信息中网络安全事件波及的设备名和受害者。以图2中的Mirai事件为例，从时间戳为2016年10月18日的情报信息中可以看出，其中漏洞CVE编号信息为CVE-2016-1000246和CVE-2016-1000245；事件地点为中国、巴西和哥伦比亚；事件波及的设备名为DNS server、IP camera和DVR；事件波及的受害者为XiongMai和Dahua。

此外，在其他实施例中，针对网络安全事件的文本信息提取的安全实体还可以根据实际需求设置其他的种类，此处不做具体限定。

本发明提供的一种网络威胁情报生成方法，针对每个文本信息提取漏洞信息、事件地点、事件波及的设备名和事件波及的受害者等安全实体，有利于后续形成以事件链为展现形式的情报追踪体系，便于安全从业人员实时跟踪某安全事件，并快速理解安全威胁相关的漏洞信息、威胁情报，从而能提升安全从业人员的安全防护知识，同时为管理人员制定安全防护策略提供情报依据。

利用正则表达式规则从所述目标句子中提取所述漏洞信息；

具体地，在上述确定了每个文本信息中的目标句子的基础上，针对每个文本信息，从目标句子中提取预先设置的安全实体，本实施例中预先设置的安全实体包括漏洞信息、事件地点、事件波及的设备名和事件波及的受害者等。

进一步地，利用正则表达式规则从目标句子中提取所述漏洞信息，由于漏洞信息为漏洞CVE编号信息，且漏洞CVE编号信息为存在特定规则的字符串，正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个"规则字符串"，这个"规则字符串"用来表达对字符串的一种过滤逻辑。因此，通过正则表达式规则即可实现对文本信息中漏洞信息的提取。

进一步地，利用命名实体识别技术从目标句子中提取事件地点、事件波及的设备名和事件波及的受害者，其中命名实体识别(Named Entity Recognition，简称NER)，又称作"专名识别"，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向 Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。本实施例中具体采用基于CRF的命名实体识别技术从目标句子中提取所述事件地点、事件波及的设备名和事件波及的受害者等安全实体，在其他实施例中也可以通过采用其他命名实体识别技术进行实现，此处不做具体限定。

本发明提供的一种网络威胁情报生成方法，利用正则表达式规则从目标句子中提取漏洞信息，并利用命名实体识别技术从目标句子中提取事件地点、事件波及的设备名和事件波及的受害者等信息，能够实现对文本信息中安全实体的准确提取，有利于后续形成以事件链为展现形式的情报追踪体系，便于安全从业人员实时跟踪某安全事件。

基于上述任一实施例，提供一种网络威胁情报生成方法，步骤S3 中所述生成每个所述类别包含的每个文本信息的文本摘要进一步包括：利用文本摘要技术生成每个所述类别包含的每个文本信息的文本摘要。

具体地，本实施例中利用文本摘要技术生成每个类别包含的每个文本信息的文本摘要，具体实现如下：

获取每个类别包含的每个文本信息对应的句子集，将句子集记为 T＝[S₁,S₂…S_N]，对句子集中的每个句子去除停用词，形成每个句子对应的词集合，将词集合记为S_i＝[t₁,t₂…t_M]；

计算句子的权重，将句子的权重记为W_ij，句子的权重的计算公式为：

将多个句子以权重作为边组成无向图，将每个句子作为节点Vi；

将无向图中的每个节点的权重W(V_i)进行迭代，In(V_i)代表所有连接到节点V_i的节点，Out(V_i)代表所有节点V_i连接到的节点，迭代公式为：

以句子的权重进行排序，选取权重高的前n个句子作为每个文本信息的文本摘要。

本发明提供的一种网络威胁情报生成方法，利用文本摘要技术生成每个类别包含的每个文本信息的文本摘要，有利于后续形成以事件链为展现形式的情报追踪体系，便于安全从业人员实时跟踪某安全事件，同时为管理人员制定安全防护策略提供情报依据。

图3为本发明实施例的一种网络威胁情报生成系统的整体结构示意图，如图3所示，本发明提供一种网络威胁情报生成系统，包括：

信息收集模块1，用于提取网络安全事件的关键词，利用所述关键词从网络上收集所述网络安全事件的文本信息；

信息分类过滤模块2，用于训练所述文本信息的分类模型，利用所述分类模型将所述文本信息进行分类，获得每个类别包含的文本信息，并将不属于任一所述类别的文本信息进行过滤；

情报生成模块3，用于提取每个所述类别包含的每个文本信息中的安全实体，并生成每个所述类别包含的每个文本信息的文本摘要，根据所述安全实体和所述文本摘要组成每个所述类别包含的每个文本信息对应的情报信息；

情报排列模块4，用于对于任一所述类别，获取任一所述类别包含的每个文本信息对应的时间戳，对同一时间戳的文本信息进行聚类，获得每个时间戳对应的类文本信息，获取不同时间戳的与同一网络安全事件相关的所有类文本信息，将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列。

具体地，本发明提供一种网络威胁情报生成系统，包括信息收集模块1、信息分类过滤模块2、情报生成模块3和情报排列模块4，通过各模块实现上述任一实施例中的网络威胁情报生成方法，具体实现如下：

首先通过人工收集历年发生的网络安全事件的信息，再利用手工标注的方式提取网络安全事件的关键词，如Mirai、Stuxnet等，从而构建一个安全事件的本体库。利用信息收集模块1将安全事件本体库中的关键词作为查询词提交给Bing、Google、baidu以及该安全网站列表中的搜索引擎入口，再通过网页解析及网页抓爬获取网络安全事件的文本信息，其中文本信息包括安全报告和网络新闻等。

进一步地，信息分类过滤模块2利用机器学习的方法训练上述文本信息的分类模型，再利用分类模型对上述文本信息进行分类，获得多个安全事件类别，及每个安全事件类别包含的文本信息。其中，可以根据文本信息的内容将文本信息分为信息漏洞和网络攻击等多个类别，可以根据文本信息的具体内容进行设置，此处不做具体限定。同时上述部分文本信息中虽然包括上述网络事件的关键词，但文本信息的具体内容并非与网络安全事件相关，有鉴于此，信息分类过滤模块2 利用上述分类模型将不属于任何一个安全事件类别的文本信息进行过滤。

进一步地，利用情报生成模块3预先设置事件情报模板，事件情报模板用于对文本信息的处理提供定向目标，明确从文本信息中抽取的信息以组成情报。本实施例中，事件情报模板中包含安全实体和文本摘要。有鉴于此，针对上述获得的每个类别包含的文本信息，情报生成模块3利用实体抽取技术从每个类别包含的每个文本信息中提取出安全实体，其中安全实体包括漏洞信息、事件地点、事件波及的设备名和事件波及的受害者等。同时，情报生成模块3利用文本摘要技术生成每个类别包含的每个文本信息的文本摘要。上述提取的安全实体和生成的文本摘要组成了每个类别包含的每个文本信息对应的情报信息。

进一步地，针对上述每个类别包含的文本信息，利用情报排列模块4获取同一类别包含的每个文本信息的时间戳，将同一时间戳的文本信息进行层级聚类，聚类的同时将文本信息对应的时间戳和情报信息进行合并，选取权重高的文本信息的情报信息和时间戳，用以代表合并后的类文本信息。同一时间戳的文本信息经过层级聚类后生成了多个类文本信息，在此基础上，利用情报排列模块4将不同时间戳的文本信息再次进行聚类，获取不同时间戳的与同一网络安全事件相关的所有类文本信息，最终利用情报排列模块4将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列，组成以事件链为展现形式的情报。

本发明提供的一种网络威胁情报生成系统，首先提取网络安全事件的关键词，并以关键词为主题抓取网络上发布的相关文本信息，再通过训练分类模型对文本信息进行分类和过滤，然后通过基于安全知识本体的实体抽取技术与从文本信息中提取漏洞信息、事件地点、事件波及的设备名和受害者等安全实体，并利用文本摘要技术生成安全事件文本信息的摘要，进而组成每个文本信息对应的情报信息，最终将同一时间戳的文本信息进行层级聚类，获得每个时间戳对应的类文本信息，并将不同时间戳中与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序将进行对齐与排列，组成以事件链为展现形式的情报。该方法融合了自然语言处理、机器学习、数据挖掘及开源信息收集工程技术，以安全事件为导向，从网络上的新闻、报告等开源信息中自动收集与整理安全威胁情报信息，形成以事件链为展现形式的情报追踪体系，便于安全从业人员实时跟踪某安全事件，并快速理解安全威胁相关的漏洞信息、威胁情报，从而能提升安全从业人员的安全防护知识，减少情报收集的人力资源成本，同时为管理人员制定安全防护策略提供情报依据。

图4示出本发明实施例的一种网络威胁情报生成方法的设备的结构框图。参照图4，所述多状态的挂件更新方法的设备，包括：处理器 (processor)41、存储器(memory)42和总线43；其中，所述处理器41和存储器42通过所述总线43完成相互间的通信；所述处理器41用于调用所述存储器42中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：提取网络安全事件的关键词，利用关键词从网络上收集网络安全事件的文本信息；训练文本信息的分类模型，利用分类模型将文本信息进行分类，获得每个类别包含的文本信息，并将不属于任一类别的文本信息进行过滤；提取每个类别包含的每个文本信息中的安全实体，并生成每个类别包含的每个文本信息的文本摘要，根据安全实体和文本摘要组成所述类别包含的每个文本信息对应的情报信息；对于任一类别，获取任一类别包含的每个文本信息对应的时间戳，对同一时间戳的文本信息进行聚类，获得每个时间戳对应的类文本信息，获取不同时间戳的与同一网络安全事件相关的所有类文本信息，将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：提取网络安全事件的关键词，利用关键词从网络上收集网络安全事件的文本信息；训练文本信息的分类模型，利用分类模型将文本信息进行分类，获得每个类别包含的文本信息，并将不属于任一类别的文本信息进行过滤；提取每个类别包含的每个文本信息中的安全实体，并生成每个类别包含的每个文本信息的文本摘要，根据安全实体和文本摘要组成所述类别包含的每个文本信息对应的情报信息；对于任一类别，获取任一类别包含的每个文本信息对应的时间戳，对同一时间戳的文本信息进行聚类，获得每个时间戳对应的类文本信息，获取不同时间戳的与同一网络安全事件相关的所有类文本信息，将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：提取网络安全事件的关键词，利用关键词从网络上收集网络安全事件的文本信息；训练文本信息的分类模型，利用分类模型将文本信息进行分类，获得每个类别包含的文本信息，并将不属于任一类别的文本信息进行过滤；提取每个类别包含的每个文本信息中的安全实体，并生成每个类别包含的每个文本信息的文本摘要，根据安全实体和文本摘要组成所述类别包含的每个文本信息对应的情报信息；对于任一类别，获取任一类别包含的每个文本信息对应的时间戳，对同一时间戳的文本信息进行聚类，获得每个时间戳对应的类文本信息，获取不同时间戳的与同一网络安全事件相关的所有类文本信息，将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的网络威胁情报生成方法的设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络威胁情报生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤S2中所述训练所述文本信息的分类模型进一步包括：去除每个所述文本信息的停用词，获取每个所述文本信息的所有文本词，计算每个所述文本词的tf-idf值，获得每个所述文本信息对应的tf-idf值特征向量；利用每个所述文本信息对应的tf-idf值特征向量训练所述文本信息的分类模型。

3.根据权利要求1所述的方法，其特征在于，步骤S3中所述提取每个所述类别包含的每个文本信息中的安全实体进一步包括：

4.根据权利要求3所述的方法，其特征在于，所述词向量包括所述触发词、所述触发词的词性、所述触发词的前一词、所述触发词的后一词、所述触发词的前一词的词性、所述触发词的后一词的词性、所述触发词在句法树中的深度、所述触发词对应的短语的类型、所述触发词到其支配子句顶层的路径和所述触发词的父节点的短语结构。

5.根据权利要求3任一所述的方法，其特征在于，所述安全实体包括漏洞信息、事件地点、事件波及的设备名和事件波及的受害者。

6.根据权利要求5所述的方法，其特征在于，步骤S3中所述提取每个所述类别包含的每个文本信息中的安全实体进一步包括：

利用正则表达式规则从所述目标句子中提取所述漏洞信息；

7.根据权利要求1所述的方法，其特征在于，步骤S3中所述生成每个所述类别包含的每个文本信息的文本摘要进一步包括：利用文本摘要技术生成每个所述类别包含的每个文本信息的文本摘要。

8.一种网络威胁情报生成系统，其特征在于，包括：

9.一种网络威胁情报生成方法的设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。