CN102446254B

CN102446254B - 一种基于文本挖掘的相似漏洞查询方法

Info

Publication number: CN102446254B
Application number: CN201110452353.1A
Authority: CN
Inventors: 刘晖; 易锦; 赵向辉; 刘彦钊; 张磊; 吴润浦; 曹伟; 刘林; 彭涛; 韩波
Original assignee: JETWAY INFORMATION SECURITY INDUSTRY Co Ltd; China Information Technology Security Evaluation Center
Current assignee: JETWAY INFORMATION SECURITY INDUSTRY Co Ltd; China Information Technology Security Evaluation Center
Priority date: 2011-12-30
Filing date: 2011-12-30
Publication date: 2014-08-06
Anticipated expiration: 2031-12-30
Also published as: CN102446254A

Abstract

本发明涉及一种基于文本挖掘的相似漏洞查询方法，属于计算机信息安全技术领域，其步骤包括：A、对漏洞数据进行预处理；B、相似漏洞查询输入处理；C、漏洞记录数据的处理；D、输出相似漏洞查询结果。本发明的优点有：将不明确采用文字描述的漏洞信息明确化，便于计算机系统对漏洞记录数据进行智能化处理；区别于基于关键字匹配的查询，根据相似度的大小输出查询结果，是一种模糊查询；能挖掘出漏洞数据之间暗含的模式和规律，为漏洞数据的进一步应用提供基础。

Description

一种基于文本挖掘的相似漏洞查询方法

技术领域

本发明涉及一种基于文本挖掘的相似漏洞查询方法，属于计算机信息安全技术领域。

背景技术

信息技术和互联网迅速发展，互联网上病毒木马程序泛滥，窃泄密事件频发，网络安全事件层出不穷，信息安全问题形势严峻。众多信息安全威胁的产生都与信息系统存在安全漏洞有关，世界各国已将漏洞信息等数据作为重要战略资源实施掌控。

2003年9月，美国国土安全部与Carnegie Mellon大学计算机应急响应中心CERT共同组建美国政府计算机应急响应中心US-CERT。US-CERT对外以US-CERT Vulnerability Notes的形式发布漏洞信息。2005年，在美国国土安全部网络安全司NCSD的赞助和US-CERT的技术支持下，美国国家标准与技术委员会NIST下属计算机安全资源中心CSRS建立了美国国家漏洞数据库NVD（National Vulnerability Database

）。2008年，欧盟推出了“欧洲盾牌计划”，拟建立一个包括漏洞发现、消除、防御所需的所有信息、模型和工具在内的漏洞数据库。中国信息安全测评中心负责建设运维中国国家信息安全漏洞库CNNVD（China National Vulnerability Database of Information Security），已经搜集了包括漏洞、补丁等信息在内的多种数据。一些信息安全厂商和组织也建立了漏洞库。如微软的安全公告、Dragonsoft漏洞库、开源漏洞库等。

目前，现有技术所建立的漏洞库都只是提供了漏洞公告、统计、查询等一些简单服务，如重要的漏洞实例描述、漏洞增长数量情况、漏洞分布情况、漏洞危害等级与修复情况以及基于关键字漏洞和补丁查询服务。

发明内容

本发明的目的在于，克服现有技术缺点，区别于普通的基于关键字匹配的查询，提供一种基于文本挖掘的相似漏洞查询方法，根据输入的漏洞记录标识，计算该漏洞记录与其他记录之间的相似度，根据相似度的大小输出查询结果，是一种模糊查询；依据特征词汇库对文本描述字段取值进行数值向量化处理，将不明确的文字描述明确化，便于计算机系统对漏洞记录数据的智能化处理；挖掘出漏洞数据之间暗含的模式和规律，为漏洞数据的进一步应用提供基础。

本发明的技术方案是：

一种基于文本挖掘的相似漏洞查询方法，包括下述步骤：

A、对漏洞数据进行预处理：选取漏洞记录属性字段数据；对原始漏洞数据进行数据清理，包括填充缺失的数据和纠正错误的数据；对清理之后的字段数据进行规范化处理；

B、相似漏洞查询输入处理：根据用户输入的相似漏洞查询条件，选定目标漏洞记录数据和筛选出查询漏洞数据记录集合；

C、漏洞记录数据的处理：计算漏洞记录数据之间的相似度，对漏洞记录数据进行重新排列；

D、输出相似漏洞查询结果：将C步骤重新排列的漏洞记录数据中的若干条输出。

在上述技术方案的基础上更进一步技述方案是：

所述的基于文本挖掘的相似漏洞查询方法，其目标漏洞记录数据为，筛选出的查询漏洞数据记录集合为；所述计算漏洞记录数据之间的相似度是计算漏洞记录数据与之间的相似度，计算结果为；所述对漏洞记录数据进行重新排列是依据从大到小的顺序对集合中的漏洞记录数据进行重新排列，前条记录即为相似漏洞查询结果，其中m的大小根据实际应用设定具体的值。

所述的基于文本挖掘的相似漏洞查询方法，所述对清理之后的字段数据规范化处理，包括：1）将数值型字段取值映射到特定的值域空间，包括：连续数值型字段处理和离散序数值型字段处理；2）将文本描述字段取值进行向量化处理。

所述的基于文本挖掘的相似漏洞查询方法，其连续数值型字段处理是将连续数值型字段取值映射到特定的值域空间，步骤是：先取出漏洞信息中该字段数据的最大值a和最小值b，某条漏洞记录该字段的原始取值为，然后依照公式，将原始字段取值映射到之间。

所述的基于文本挖掘的相似漏洞查询方法，其离散序数值型字段处理是将离散序数值字段取值映射到特定的值域空间，是依照公式，将原始字段取值映射到之间；其中：离散序数值有种状态，且，某条漏洞记录该字段的原始取值为，式中表示该取值在状态集中的排序序号。

所述的基于文本挖掘的相似漏洞查询方法，所述将文本描述字段取值进行向量化处理，其步骤是： 1）建立特征词汇库；2）将文本描述字段取值表示成对应特征词列的文本向量：即将漏洞记录的文本描述字段取值表示成对应所有特征词列的高纬空间文本向量；3）将文本向量映射为数值向量：若漏洞记录的文本描述字段取值含有某个特征词汇，则在该词汇对应的文本向量位置上置TF-IDF权值，否则置0。

所述的基于文本挖掘的相似漏洞查询方法，其建立特征词汇库的步骤是： 1）依据文字描述的信息分类选取词汇，存入特征词汇库；2）将特征词汇库进行更新，包括增加新发现的领域特征词汇和剔除描述能力不强的词汇；增加新发现的领域特征词汇在漏洞数据库存入新的数据时进行，剔除描述能力不强的词汇根据实际应用的效果来进行；3）在对特征词汇库进行更新之后，再对漏洞记录数据的文本描述字段取值重新进行向量化处理。

所述的基于文本挖掘的相似漏洞查询方法，所述筛选出查询漏洞数据记录集合是按用户输入的相似漏洞查询条件，包括漏洞类型相同和产品生产商名称相同两个选项进行选择，对该两个选项或同时都未选择，或选择一个，或都选，其中：若用户对两个选项都未选择，则筛选出数据记录集合包括除外的其他所有漏洞记录数据；若用户选择了一个选项，则中每条记录的漏洞类型或产品生产商名称与相同；若用户选择了两个选项，则中的每条记录的漏洞类型与产品生产商名称与都相同。

所述的基于文本挖掘的相似漏洞查询方法，所述计算漏洞记录数据与之间的相似度步骤是：

1）计算相似度之前的漏洞记录数据经过预处理，只包括单值变量和数值向量两类，取单值变量的字段为，取值为向量的字段有；

2）计算与的单值变量字段之间的相似度，结果为；

3）计算与的向量字段之间的相似度，结果为；

4）按照如下公式计算与之间的相似度：

其中，

所述的基于文本挖掘的相似漏洞查询方法，所述步骤2）的相似度，、分别为漏洞记录与中该字段经预处理之后的值。

所述的基于文本挖掘的相似漏洞查询方法，所述步骤3）的相似度，其中为字段的向量取值的转置，、为向量的维度。

本发明的显著优点和效果主要有：1．现有信息漏洞记录数据的文本描述字段取值为非结构化数据，不同的数据来源其描述格式和用词不同，计算机无法自动完成对文本描述字段的自动理解。本发明依据特征词汇库对文本描述字段取值进行数值向量化处理，将不明确的文字描述明确化，便于计算机系统对漏洞记录数据的智能化处理。2．现有漏洞数据库所提供的查询服务只能对用户输入的关键字进行匹配或者对用户输入的数值进行大于或小于范围内的查找，本发明根据输入的漏洞记录标识，计算该漏洞记录与其他记录之间的相似度，根据相似度的大小输出查询结果，是一种模糊查询。3．现有漏洞数据库的漏洞记录之间只有明确的类别一致、危险程序高低、发现时间先后的关系，漏洞记录之间的安全攻击依赖关系无法体现，本发明能挖掘出漏洞数据之间暗含的模式和规律，为漏洞数据的进一步应用提供基础。

附图说明

图1为本发明的流程图；

图2为图1中方框1001漏洞数据预处理的流程图；

图3为图2中方框2001选取漏洞记录属性字段数据处理的流程图，为所选中的漏洞记录属性字段的一个实施例示意图；

图4为图2中方框2009对清理之后的字段数据进行规范化处理的一个实施例示意图；

图5为图4中方框4013离散序数值型字段处理的一个实施例示意图；

图6为图4中方框4005将文本描述字段取值进行向量化处理的流程图；

图7为图6中方框6001建立特征词汇库的一个实施例示意图。

具体实施方式

结合附图和实施例对本发明作进一步说明如下。

实施例1：

如图1所示，为本发明基本实施例。一种基于文本挖掘的相似漏洞查询方法，包括下述步骤：A、1001步骤，对漏洞数据进行预处理：如图2所示：首先按2001步骤选取漏洞记录属性字段数据；再按2005步骤对原始漏洞数据进行数据清理，该清理步骤包括填充缺失的数据和纠正错误的数据；最后为2009步骤，对清理之后的字段数据进行规范化处理； B、1005步骤，相似漏洞查询输入处理：根据用户输入的相似漏洞查询条件，选定目标漏洞记录数据和筛选出查询漏洞数据记录集合； C、1009步骤，漏洞记录数据的处理：计算漏洞记录数据之间的相似度，对漏洞记录数据进行重新排列；D、1009步骤，输出相似漏洞查询结果：将C、即1009步骤重新排列的漏洞记录数据中的若干条输出。

实施例2：

如附图1-7所示，是在上述本发明基本实施例基础上进一步的较优的实施例。所述的目标漏洞记录数据为，筛选出的查询漏洞数据记录集合为；所述计算漏洞记录数据之间的相似度是计算漏洞记录数据与之间的相似度，计算结果为；所述对漏洞记录数据进行重新排列是依据从大到小的顺序对集合中的漏洞记录数据进行重新排列，前条记录即为相似漏洞查询结果，其中m的大小根据实际应用设定具体的值。如图4所示，所述对清理之后的字段数据规范化处理，包括：1）将数值型字段取值映射到特定的值域空间，包括：连续数值型字段处理和离散序数值型字段处理；2）将文本描述字段取值进行向量化处理。所述连续数值型字段处理是将连续数值型字段取值映射到特定的值域空间，步骤是：先取出漏洞信息中该字段数据的最大值a和最小值b，某条漏洞记录该字段的原始取值为，然后依照公式，将原始字段取值映射到之间。所述的离散序数值型字段处理是将离散序数值字段取值映射到特定的值域空间，是依照公式，将原始字段取值映射到之间；其中：离散序数值有种状态，且，某条漏洞记录该字段的原始取值为，式中表示该取值在状态集中的排序序号。如图6所示，所述将文本描述字段取值进行向量化处理，其步骤是：1）建立特征词汇库；2）将文本描述字段取值表示成对应特征词列的文本向量：即将漏洞记录的文本描述字段取值表示成对应所有特征词列的高纬空间文本向量；3）将文本向量映射为数值向量：若漏洞记录的文本描述字段取值含有某个特征词汇，则在该词汇对应的文本向量位置上置TF-IDF权值，否则置0。所述建立特征词汇库的步骤是：1）依据文字描述的信息分类选取词汇，存入特征词汇库；2）将特征词汇库进行更新，包括增加新发现的领域特征词汇和剔除描述能力不强的词汇；增加新发现的领域特征词汇在漏洞数据库存入新的数据时进行，剔除描述能力不强的词汇根据实际应用的效果来进行；3）在对特征词汇库进行更新之后，再对漏洞记录数据的文本描述字段取值重新进行向量化处理。所述筛选出查询漏洞数据记录集合是按用户输入的相似漏洞查询条件，包括漏洞类型相同和产品生产商名称相同两个选项进行选择，对该两个选项或同时都未选择，或选择一个，或都选，其中：若用户对两个选项都未选择，则筛选出数据记录集合包括除外的其他所有漏洞记录数据；若用户选择了一个选项，则中每条记录的漏洞类型或产品生产商名称与相同；若用户选择了两个选项，则中的每条记录的漏洞类型与产品生产商名称与都相同。所述计算漏洞记录数据与之间的相似度步骤是：

2）计算与的单值变量字段之间的相似度，结果为；

3）计算与的向量字段之间的相似度，结果为；

4）按照如下公式计算与之间的相似度：

其中，

所述步骤2）的相似度，、分别为漏洞记录与中该字段经预处理之后的值。

所述步骤3）的相似度，其中为字段的向量取值的转置，、为向量的维度。

进一步说明如下：

图1为本发明的流程图。相似漏洞查询始于方框1001，对漏洞数据进行预处理。在方框1005，依据输入的相似漏洞查询条件，对漏洞记录数据进行选定和筛选；所述相似漏洞查询条件包括漏洞记录标识和漏洞类型相同、产品生产商名称相同两个选项，这两个选项可以同时都不选择，或选择一个，或者都选；具体选项内容的设置和数量多少可根据具体应用进行调整。依据用户输入的漏洞记录标识，取出该漏洞记录数据，记为；依据用户对漏洞类型相同、产品生产商名称相同两个选项的选择，对除外的其他所有漏洞记录数据进行筛选，将筛选之后的数据记录表示成一个集合；在方框1009，计算漏洞记录数据之间的相似度；在方框1013，依据计算出来的相似度大小，输出查询结果，漏洞相似查询结束。

图2为图1中方框1001为对漏洞数据进行预处理的一个实施例。所述流程始于方框2001，选取与漏洞信息紧密相关的属性字段数据；在方框2005对所选择的原始漏洞数据进行数据清理，包括填充缺失的数据和纠正错误的数据；在方框2009，对清理之后的字段数据进行规范化处理，漏洞数据预处理结束。

图3为图2中方框2001所选中的漏洞记录属性字段数据的一个实施例示意图。所选中的漏洞记录属性字段包括CNNVD编号3001、漏洞类型3005、产品生产商名称3009、严重级别3013、利用复杂性3017、攻击复杂性3021和漏洞描述3021。

图4为图2中方框2009对清理之后的字段数据进行规范化处理的一个实施例示意图。所述的清理之后的字段数据、也即漏洞数据规范化处理包括：将数值型字段取值映射到特定的值域空间4001和文本描述字段取值的向量化处理4005，其中，将数值型字段取值映射到特定的值域空间4001包括：连续数值型字段处理4009和离散数值型字段处理4013。

图5为图4中方框4013离散序数值型字段处理的一个实施例示意图。所述的离散序数值型字段的取值包括低危5001、中危5005、高危5009和危急5013，且其危险程度由低到高，将其映射为数值0（5017）、0.33（5021）、0.67（2025）、1（2029）。

图6为图4中方框4005的处理流程图，为对文本描述字段取值进行向量化处理的一个实施例。所述流程始于方框6001建立特征词汇库；在方框6005将文本描述字段取值表示成对应特征词列的文本向量；在方框6009，将文本向量映射为数值向量，文本描述字段取值进行向量化处理结束。

图7为图6中方框6001建立特征词汇库的一个实施例示意图。所述建立的特征词汇库包括的类别有产品名称7001、范围7005、权限7009、结果7013、产品生产商名称7017和其他7021；产品名称7001类特征词汇包括Office 7025、Chrome 7029；范围7005类特征词汇包括本地7033、远程7037；权限7009类特征词汇包括下载7041、共享7045；结果7013类特征词汇包括拒绝服务7049、内存共享7053；产品生产商名称7017类特征词汇包括Microsoft 7057、Mozilla 7061；其他7021类特征词汇包括协议7065、接口7069。

本发明的权利要求保护范围不限于上述实施例。

Claims

1.一种基于文本挖掘的相似漏洞查询方法，其特征在于：包括下述步骤：

D、输出相似漏洞查询结果：将C步骤重新排列的漏洞记录数据中的若干条输出；

所述对清理之后的字段数据规范化处理，包括：

1）将数值型字段取值映射到特定的值域空间，包括：连续数值型字段处理和离散序数值型字段处理；

2）将文本描述的字段取值进行向量化处理。

2.按照权利要求1所述的基于文本挖掘的相似漏洞查询方法，其特征在于，所述目标漏洞记录数据为，筛选出的查询漏洞数据记录集合为；所述计算漏洞记录数据之间的相似度是计算漏洞记录数据与之间的相似度，计算结果为；所述对漏洞记录数据进行重新排列是依据从大到小的顺序对集合中的漏洞记录数据进行重新排列，前条记录即为相似漏洞查询结果，其中m的大小根据实际应用设定具体的值。

3.按照权利要求1所述的基于文本挖掘的相似漏洞查询方法，其特征在于，所述连续数值型字段处理是将连续数值型字段取值映射到特定的值域空间，步骤是：先取出漏洞信息中该字段数据的最大值a和最小值b，某条漏洞记录该字段的原始取值为，然后依照公式，将原始字段取值映射到之间。

4.按照权利要求1所述的基于文本挖掘的相似漏洞查询方法，其特征在于，所述离散序数值型字段处理是将离散序数值字段取值映射到特定的值域空间，是依照公式，将原始字段取值映射到之间；其中：离散序数值有种状态，且，某条漏洞记录该字段的原始取值为，式中表示该取值在状态集中的排序序号。

5.按照权利要求1所述的基于文本挖掘的相似漏洞查询方法，其特征在于，所述将文本描述字段取值进行向量化处理，其步骤是：

1）建立特征词汇库；

2）将文本描述字段取值表示成对应特征词列的文本向量：即将漏洞记录的文本描述字段取值表示成对应所有特征词列的高纬空间文本向量；

3）将文本向量映射为数值向量：若漏洞记录的文本描述字段取值含有某个特征词汇，则在该词汇对应的文本向量位置上置TF-IDF权值，否则置0。

6.按照权利要求5所述的基于文本挖掘的相似漏洞查询方法，其特征在于，所述建立特征词汇库的步骤是：

1）依据文字描述的信息分类选取词汇，存入特征词汇库；

2）将特征词汇库进行更新，包括增加新发现的领域特征词汇和剔除描述能力不强的词汇；增加新发现的领域特征词汇在漏洞数据库存入新的数据时进行，剔除描述能力不强的词汇根据实际应用的效果来进行；

3）在对特征词汇库进行更新之后，再对漏洞记录数据的文本描述字段取值重新进行向量化处理。

7.按照权利要求2所述的基于文本挖掘的相似漏洞查询方法，其特征在于，所述筛选出查询漏洞数据记录集合是按用户输入的相似漏洞查询条件，包括漏洞类型相同和产品生产商名称相同两个选项进行选择，对该两个选项或同时都未选择，或选择一个，或都选，其中：

若用户对两个选项都未选择，则筛选出数据记录集合包括除外的其他所有漏洞记录数据；

若用户选择了一个选项，则中每条记录的漏洞类型或产品生产商名称与相同；

若用户选择了两个选项，则中的每条记录的漏洞类型与产品生产商名称与都相同。

8.按照权利要求2所述的基于文本挖掘的相似漏洞查询方法，其特征在于，所述计算漏洞记录数据与之间的相似度步骤是：

1）计算相似度之前的漏洞记录数据经过预处理，只包括单值变量和数值向量两类，取单值变量的字段为，取数值向量的字段为；

2）计算与的单值变量字段之间的相似度，结果为；

3）计算与的向量字段之间的相似度，结果为；

4）按照如下公式计算与之间的相似度：

其中，

。

9.按照权利要求8所述的基于文本挖掘的相似漏洞查询方法，其特征在于，所述步骤2）的相似度，、分别为漏洞记录与中该字段经预处理之后的值。

10.按照权利要求8所述的基于文本挖掘的相似漏洞查询方法，其特征在于，所述步骤3）的相似度，其中为字段的向量取值的转置，、为向量的维度。