CN116108455B

CN116108455B - 漏洞去重方法、装置、设备以及存储介质

Info

Publication number: CN116108455B
Application number: CN202310383186.2A
Authority: CN
Inventors: 杨星; 沈传宝; 纪守领; 吴志勇; 梁振宇; 许颢砾; 胡书隆; 吴庆; 刘加瑞; 赵爱杰
Original assignee: Beijing Huayuan Information Technology Co Ltd
Current assignee: Beijing Huayuan Information Technology Co Ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-06-16
Anticipated expiration: 2043-04-12
Also published as: CN116108455A

Abstract

本公开的实施例提供了一种漏洞去重方法、装置、设备以及存储介质，应用于网络安全技术领域。所述方法包括获取漏洞信息的数据字段信息；根据预设归一化算法，对所述数据字段信息对应的数据进行归一化处理；采用摘要算法对归一化处理后的数据字段信息对应的数据进行加密，得到加密后的字符串文本；根据所述字符串文本生成漏洞编号；根据所述漏洞编号进行漏洞去重。以此方式，可以提高重复弱点识别的识别精度，从而提高漏洞去重的效率。

Description

漏洞去重方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及网络安全技术领域，具体涉及一种漏洞去重方法、装置、设备以及存储介质。

背景技术

在企业安全平台的漏洞管理中，有些纳管弱点数据（漏洞）有诸如基于公共漏洞和暴露（Common Vulnerabilities&Exposures，CVE）或国家信息安全漏洞共享平台（ChinaNational Vulnerability Database，CNVD）等确定的漏洞编号，该类弱点数据依据编号是全局唯一的，且有编号数据以编号作为唯一标识。但是，当前有相当一部分弱点数据并无该类官方编号，即没有CVE或CNVD编号。对于没有明确编号的弱点数据来说，平台在此基础上进行重复弱点识别，进而进行弱点类别相关的统计分析则变得困难。例如，若有两条弱点数据，一条的关键描述字段是fastjson反序列化漏洞，另一条是alibaba fastjson反序列化失败，按相同弱点进行聚合统计时上述两条弱点数据进行弱点类别相关的统计分析就存在困难。目前，针对无编号弱点数据，采用选取若干字段作为唯一标识或生成通用唯一识别码（Universally Unique Identifier，UUID）的方式进行重复弱点识别。

但对无编号弱点数据来说，每次重复发现生成UUID无法保证唯一性，会重复入库，也无法进行后期分析处理；若简单选取若干数据字段作为唯一表示，则由于字段内容的略微差异，容易将同一个弱点数据的不同表述认为是不同弱点数据；基于上述方式进行漏洞去重，将造成重复弱点识别的识别精度较低，从而导致漏洞去重的效率较低。

发明内容

本公开提供了一种漏洞去重方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种漏洞去重方法。该方法包括：

获取漏洞信息的数据字段信息；

根据预设归一化算法，对所述数据字段信息对应的数据进行归一化处理；

采用摘要算法对归一化处理后的数据字段信息对应的数据进行加密，得到加密后的字符串文本；

根据所述字符串文本生成漏洞编号；

根据所述漏洞编号进行漏洞去重。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述字符串文本包括多个；所述根据所述字符串文本生成漏洞编号包括：

根据预设连接规则，连接多个字符串文本生成漏洞编号；其中，预设连接规则根据数据字段信息的预设业务信息确定。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据预设连接规则，连接多个字符串文本生成漏洞编号包括：

根据预设连接规则和预设分级规则，连接多个字符串文本生成漏洞编号；其中，预设分级规则根据数据字段信息的预设业务信息和/或预设字段特征信息确定。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述字符串文本生成漏洞编号包括：

根据预设编号字段长度和预设截取规则，对所述字符串文本进行长度截取；

根据截取后的字符串文本生成漏洞编号。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述数据字段信息包括多个；所述根据预设归一化算法，对所述数据字段信息对应的数据进行归一化处理包括：

根据预设字段特征信息，从多个数据字段信息中提取关键字段信息；

根据预设归一化算法，对所述关键字段信息对应的数据进行归一化处理。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述关键字段信息包括多个；所述根据预设归一化算法，对所述数据字段信息对应的数据进行归一化处理还包括：

根据每个关键字段信息对应的预设归一化算法，对每个关键字段信息对应的数据进行归一化处理；其中，每个关键字段信息对应的预设归一化算法根据每个关键字段信息对应的预设字段特征信息确定。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述每个关键字段信息对应的预设归一化算法包括枚举算法或者严格匹配算法。

根据本公开的第二方面，提供了一种漏洞去重装置。该装置包括：

获取模块，用于获取漏洞信息的数据字段信息；

归一化模块，用于根据预设归一化算法，对所述数据字段信息对应的数据进行归一化处理；

加密模块，用于采用摘要算法对归一化处理后的数据字段信息对应的数据进行加密，得到加密后的字符串文本；

生成模块，用于根据所述字符串文本生成漏洞编号；

去重模块，用于根据所述漏洞编号进行漏洞去重。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

本申请实施例提供的一种漏洞去重方法、装置、设备以及存储介质，能够通过获取漏洞信息的数据字段信息；再根据预设归一化算法，对数据字段信息对应的数据进行归一化处理，以便将漏洞信息中所属同一信息的不同表述进行归一化处理；再采用摘要算法对归一化处理后的数据字段信息对应的数据进行加密，得到加密后的字符串文本，根据字符串文本生成漏洞编号，以便基于摘要算法的唯一性和不可逆性的特性，生成可以确保唯一性的漏洞编号；随后基于该漏洞编号进行漏洞去重，提高重复弱点识别的识别精度，从而提高漏洞去重的效率。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案，不构成对本公开的限定在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的漏洞去重方法的流程图；

图2示出了根据本公开的实施例的漏洞去重装置的框图；

图3示出了能够实施本公开的实施例的示例性电子设备的方框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开中，通过得到并基于唯一性的漏洞编号进行漏洞去重，提高重复弱点识别的识别精度，从而提高漏洞去重的效率。

图1示出了根据本公开实施例的漏洞去重方法100的流程图。

在框110，获取漏洞信息的数据字段信息。

在一些实施例中，漏洞信息可以为无编号的弱点数据。漏洞信息包括一个或多个数据字段信息，如姓名name、地址addr、年龄age以及描述信息desc等。

在一些实施例中，可以通过获取漏洞分析生成的漏洞，即弱点，从生成的漏洞中得到无编号的弱点数据，即漏洞信息。

在框120，根据预设归一化算法，对数据字段信息对应的数据进行归一化处理。

在一些实施例中，数据字段信息对应的数据包括一个或者多个。例如，name可以对应多个具体的数据，如“张三”、“张三丰”以及“张，三丰”等。再例如，addr可以对应多个具体的数据，如“北京”、“北京市”、“海淀”、“海淀区”、“海淀，区”以及“苏家坨镇”等。

在一些实施例中，若简单选取若干数据字段，如姓名、性别、地址等作为唯一表示，则由于字段内容的略微差异，容易将同一个弱点数据的不同表述认为是不同弱点数据，比如有两条数据，第一条数据是“张三，海淀”，第二条数据是“张三，海淀区”，对计算机来说，第二条数据地址字段多了个区字，无法严格相等，计算机会认为这是两条不同数据。

基于上述情况，对于同一概念的不同表述，可以以一定手段做归一化处理。例如“SQL注入”和“sql注入攻击”是同一意思，可以使用预设归一化算法，如自然语言处理（Natural Language Processing，NLP）或者枚举法等，统一处理成“SQL注入”。

可见，归一化处理就是将表面不同但相似，在人看来认为是同一个意思的两种表述，变成一种标准表述，如“fastjson反序列化漏洞”等同于“alibaba fastjson反序列化失败”。

在一些实施例中，可以维护一个字典表，将上述两种表述划等号，认为是同一个弱点，进行归一化处理。

在一些实施例中，还可以使用NLP的方式进行同义词识别，匹配率高于80%就认为是同一个弱点，进行归一化处理。

在一些实施例中，预设归一化算法可以根据用户的实际需求设置。

例如，预设归一化算法可以根据各数据字段信息对应的数据的预设字段特征信息确定。其中，预设字段特征信息可以根据业务上的特性确定，如name在业务上一般指名称，在人员相关系统中指姓名。

在一些实施例中，业务特性不同，对应的预设归一化算法也可能不同，比如“张三丰”和“张，三丰”，预设归一化算法可以是去掉字符串中所有空格、制表符或者逗号等。

在框130，采用摘要算法对归一化处理后的数据字段信息对应的数据进行加密，得到加密后的字符串文本。

在一些实施例中，摘要算法可以是消息摘要算法(Message Digest，MD)、安全散列算法（Secure Hash Algorithm，SHA）或者消息认证码算法（Message AuthenticationCode，MAC）。其中，MD包括MD2、MD4以及MD5；SHA包括SHA-1和SHA-2，SHA-2包括SHA-224、SHA-256、SHA-384以及SHA-512。

可选的，从安全性考虑，选取摘要算法为MD5。

在一些实施例中，基于数据摘要技术，如MD5的特征，采用MD5算法对归一化处理后的数据字段信息对应的数据进行加密，得到加密后的字符串文本。

其中，MD5算法的特征包括可以产生出一个128位（即16字节）的散列值，可以使用十六进制表示为32个字符（如2cf3bcb018d153066dc59ec883e22b7b），且MD5的重要特性是唯一性和不可逆性，当两段字符串文本略有不同时，生成的MD5摘要截然不同，能够完全体现文本的差异行。

可见，MD5算法本质是对一段二进制串的摘要，比如“张三丰”和“张，三丰”（第二个中间有个逗号）生成的MD5完全不同，简单说就是一段文本只要稍有改动，改动前后的MD5值完全不同。

基于此，加密后的字符串文本具备唯一性和不可逆性的特性。

在一些实施例中，针对无编号弱点数据，每次重复发现生成UUID无法保证唯一性，会重复入库，也无法进行后期分析处理，如某次发现一条弱点数据和某条已有数据A是同一条，但是这次给该数据生成的UUID标识和数据A对应的UUID是不同的，UUID无法作为数据唯一性标识的问题，采用MD5算法对归一化处理后的数据字段信息对应的数据进行加密，得到加密后的字符串文本，可以很好地解决该问题。

在一些实施例中，采用MD5算法加密还可以屏蔽字段内容的多样性，例如名字-张三丰，电话号码-185xxxxxxxx，转成MD5后都是一串固定长度的英文字母+数字字符串。

在框140，根据字符串文本生成漏洞编号。

在一些实施例中，基于加密后的字符串文本具备唯一性和不可逆性的特性，可以将字符串文本作为无编号弱点数据的漏洞编号。

在框150，根据漏洞编号进行漏洞去重。

在一些实施例中，将无编号弱点数据，根据数据特征，如几个概括性信息字段，生成存在唯一的漏洞编号，重复弱点生成的漏洞编号是相同的，可以达到漏洞去重的目的，解决了同一弱点多次发现时重复纳管问题。

根据本公开的实施例，实现了以下技术效果：

通过获取漏洞信息的数据字段信息；再根据预设归一化算法，对数据字段信息对应的数据进行归一化处理，以便将漏洞信息中所属同一信息的不同表述进行归一化处理；再采用摘要算法对归一化处理后的数据字段信息对应的数据进行加密，得到加密后的字符串文本，根据字符串文本生成漏洞编号，以便基于摘要算法的唯一性和不可逆性的特性，生成可以确保唯一性的漏洞编号；随后基于该漏洞编号进行漏洞去重，提高重复弱点识别的识别精度，从而提高漏洞去重的效率。

在一些实施例中，当上述字符串文本包括多个时；上述根据字符串文本生成漏洞编号包括：

在一些实施例中，预设连接规则表征多个字符串文本之间的连接规则，可以根据用户实际需求设置。

在一些实施例中，预设连接规则可以包括：

当一个数据字段信息对应有多个字符串文本时，根据预设业务信息的重要性，将多个字符串文本按照字符串文本的重要性程度从前至后依次连接；或者

当多个数据字段信息中各数据字段信息对应一个字符串文本时，根据预设业务信息的重要性，将多个字符串文本按照数据字段信息的重要性程度从前至后依次连接；或者

当多个数据字段信息中各数据字段信息对应多个字符串文本时，根据预设业务信息的重要性，先将多个数据字段信息中各数据字段信息对应的字符串文本构成的字符串文本组，按照数据字段信息的重要性程度从前至后依次连接，再将各字符串文本组中多个字符串文本按照字符串文本的重要性程度从前至后依次连接。

其中，预设业务信息的重要性可以是数据字段信息与数据字段信息之间，或者字符串文本与字符串文本之间同级的重要性，也可以是数据字段信息与字符串文本之间不同级的重要性。

在一些实施例中，预设业务信息可以包括业务范围，如地址范围，该预设业务信息对应的重要性程度为字段对应的要求范围的从大到小排序，如“北京市-海淀区-苏家坨镇”，不能随意排序，如“海淀区-北京市-苏家坨镇”。

在一些实施例中，预设业务信息还可以包括业务字段，可以设置字段重要性依次为name>ddr=age>desc，还可以设置desc字段中“反序列化漏洞”大于“SQL注入”的重要性。

在一些实施例中，当预设业务信息的重要性程度一致，还可以设置默认的连接顺序。同时，当有的业务与字段范围和重要性等都不相关，比如地址、年龄、电话号码等，这种排序就比较随意了，但是一定要固定排序，可以设置所有数据都按“地址，年龄，电话号码”这样的顺序排列。

在一些实施例中，根据预设连接规则，连接多个字符串文本生成漏洞编号。

根据本公开的实施例，针对各字符串文本对应的预设业务信息，根据预设连接规则，连接多个字符串文本生成漏洞编号，满足用户的不同需求。

在一些实施例中，上述根据预设连接规则，连接多个字符串文本生成漏洞编号包括：

在一些实施例中，预设字段特征信息和预设分级规则可以根据用户实际需求设置。其中，预设分级规则表征多个数据字段信息之间、多个字符串文本之间、数据字段信息与字符串文本之间，同级或者不同级的分级规则。

在一些实施例中，预设字段特征信息可以包括字段文本差异性信息，如name，addr，age，desc等基于字段本身文本差异造成的字段特征。预设字段特征信息还可以包括字段数据格式信息，如字段本身的数据格式不同造成的字段特征，如name字段的数据格式可以写成“张三丰”，还可以写成“张，三丰”，其实是一个人，但是第二个张后面有个控制。预设字段特征信息还可以包括字段重要性信息，重要性信息，就是表征业务上哪个字段更重要，比如重要性：name>addr=age>desc，name（姓名）最重要，desc（描述信息）最不重要。

在一些实施例中，预设分级规则可以包括：

当一个数据字段信息对应有多个字符串文本时，根据预设业务信息的重要性和/或预设字段特征信息，将多个字符串文本按照预设字段特征信息分级，按照字符串文本的重要性程度从前至后依次分级；或者

当多个数据字段信息中各数据字段信息对应一个字符串文本时，根据预设业务信息的重要性和/或预设字段特征信息，将多个字符串文本按照预设字段特征信息分级，按照字符串文本的重要性程度从前至后依次分级；或者

当多个数据字段信息中各数据字段信息对应多个字符串文本时，根据预设业务信息的重要性和/或预设字段特征信息，先将多个数据字段信息中各数据字段信息对应的字符串文本构成的字符串文本组，将多个字符串文本组按照预设字段特征信息分级，再按照数据字段信息的重要性程度从前至后依次连接，再将各字符串文本组中多个字符串文本按照预设字段特征信息分级，再按照字符串文本的重要性程度从前至后依次连接。

在一些实施例中，将漏洞编号处理成分级格式，便于对数据进行特定统计。

例如，对于同级下的进一步细分，可以将漏洞编号处理成“aaa-111”格式和“aaa-222”格式，如“SQL注入-mysql注入漏洞”和“SQL注入-oracle注入漏洞”。

再例如，对于不同级的细分，如“北京市海淀区苏家坨镇”是一个编号，实际分了3级：北京市-海淀区-苏家坨镇，分级的方式方便了特定的统计计算，比如北京市有几个区海淀区有多少个镇，从编号直接能算出来。

在一些实施例中，可以设置预设连接符，以固定的预设连接符连接构成漏洞编号的所有字符串文本，以便用户更为直观的查阅。预设连接符可以是“-”。

根据本公开的实施例，通过根据预设连接规则和预设分级规则，连接多个字符串文本，生成带有分级结构的漏洞编号，便于对漏洞信息进行特定的统计。

在一些实施例中，上述根据字符串文本生成漏洞编号包括：

根据预设编号字段长度和预设截取规则，对字符串文本进行长度截取；

根据截取后的字符串文本生成漏洞编号。

在一些实施例中，预设截取规则可以根据用户实际需求设置。

在一些实施例中，对字符串文本进行长度截取是为了可能的编号长度限制，比如数据库中编号字段最长64个字符，字段有2个，这样计算出来的每个字段MD5值是64位，拼接起来长度就超过了64，此时就要对字符串文本进行长度截取。

在一些实施例中，可以根据预设截取规则中预设的固定长度，对加密后的字符串文本进行截取。

根据本公开的实施例，通过上述方式对字符串文本进行长度截取，以便符合特定数据库的编号字段需求。

在一些实施例中，当上述数据字段信息包括多个时，上述根据预设归一化算法，对数据字段信息对应的数据进行归一化处理包括：

根据预设归一化算法，对关键字段信息对应的数据进行归一化处理。

在一些实施例中，关键字段信息可以是参与ID，即参与漏洞编号计算的字段的信息，如name或者addr。

在一些实施例中，可以根据预设字段特征信息，从多个数据字段信息中自动提取关键字段信息。

在一些实施例中，对关键字段信息对应的数据进行归一化处理，可以参见上述对数据字段信息对应的数据进行归一化处理的具体方式，为简要说明，在此不做赘述。

需要说明的是，关键字段信息的提取还可以通过人工选取的方式进行提取。例如，人工根据字段业务重要性选出若干个，如可以选出name，addr两个字段作为标记一个人的关键字段信息。

根据本公开的实施例，通过上述从多个数据字段信息中提取关键字段信息，有目的的简化漏洞对应的数据字段信息，进一步提高漏洞去重的效率。

在一些实施例中，上述关键字段信息包括多个；上述根据预设归一化算法，对数据字段信息对应的数据进行归一化处理还包括：

在一些实施例中，各关键字段信息可以有设定的对应的归一化算法，各关键字段信息对应的各数据也可以有设定的对应的归一化算法。参见上述对数据字段信息对应的数据进行归一化处理的具体方式，为简要说明，在此不做赘述。

根据本公开的实施例，针对不同数据字段信息的特性，通过预设对应的归一化算法进行归一化处理，提高将同一个弱点数据的不同表述进行归一化处理的精确度。

在一些实施例中，上述每个关键字段信息对应的预设归一化算法包括枚举算法或者严格匹配算法。

例如，name采用严格匹配算法，严格匹配就是计算机上的严格相等，如“张三”和“张三丰”认为是不同数据。addr采用枚举算法，将可能出现的各种形式的数据都存入数据库中，只要匹配到的都转换成标准的，如“海淀”和“海淀区”认为是相同数据，统一处理为“海淀区”。

根据本公开的实施例，通过对关键字段信息的归一化处理，通过上述方式将表述略有差别但意思完全相同的数据文本处理成相同固定的文本，进一步提高将同一个弱点数据的不同表述进行归一化处理的精确度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图2示出了根据本公开的实施例的漏洞去重装置200的方框图。如图2所示，装置200包括：

获取模块210，用于获取漏洞信息的数据字段信息；

归一化模块220，用于根据预设归一化算法，对所述数据字段信息对应的数据进行归一化处理；

加密模块230，用于采用摘要算法对归一化处理后的数据字段信息对应的数据进行加密，得到加密后的字符串文本；

生成模块240，用于根据所述字符串文本生成漏洞编号；

去重模块250，用于根据所述漏洞编号进行漏洞去重。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图3示出了可以用来实施本公开的实施例的电子设备300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

电子设备300包括计算单元301，其可以根据存储在ROM302中的计算机程序或者从存储单元308加载到RAM303中的计算机程序，来执行各种适当的动作和处理。在RAM303中，还可存储电子设备300操作所需的各种程序和数据。计算单元301、ROM302以及RAM303通过总线304彼此相连。I/O接口305也连接至总线304。

电子设备300中的多个部件连接至I/O接口305，包括：输入单元306，例如键盘、鼠标等；输出单元307，例如各种类型的显示器、扬声器等；存储单元308，例如磁盘、光盘等；以及通信单元309，例如网卡、调制解调器、无线通信收发机等。通信单元309允许电子设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理，例如方法100。例如，在一些实施例中，方法100可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元308。在一些实施例中，计算机程序的部分或者全部可以经由ROM302和/或通信单元309而被载入和/或安装到电子设备300上。当计算机程序加载到RAM303并由计算单元301执行时，可以执行上文描述的方法100的一个或多个步骤。备选地，在其他实施例中，计算单元301可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法100。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种漏洞去重方法，其特征在于，包括：

获取漏洞信息的数据字段信息；

根据预设归一化算法，对所述数据字段信息对应的数据进行归一化处理；所述归一化处理是将表述略有差别但意思完全相同的数据文本处理成相同固定的文本；

根据所述字符串文本生成漏洞编号；

根据所述漏洞编号进行漏洞去重。

2.根据权利要求1所述的方法，其特征在于，所述字符串文本包括多个；所述根据所述字符串文本生成漏洞编号包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预设连接规则，连接多个字符串文本生成漏洞编号包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述字符串文本生成漏洞编号包括：

根据截取后的字符串文本生成漏洞编号。

5.根据权利要求1所述的方法，其特征在于，所述数据字段信息包括多个；所述根据预设归一化算法，对所述数据字段信息对应的数据进行归一化处理包括：

6.根据权利要求5所述的方法，其特征在于，所述关键字段信息包括多个；所述根据预设归一化算法，对所述数据字段信息对应的数据进行归一化处理还包括：

7.根据权利要求6所述的方法，其特征在于，所述每个关键字段信息对应的预设归一化算法包括枚举算法或者严格匹配算法。

8.一种漏洞去重装置，其特征在于，包括：

获取模块，用于获取漏洞信息的数据字段信息；

归一化模块，用于根据预设归一化算法，对所述数据字段信息对应的数据进行归一化处理；所述归一化处理是将表述略有差别但意思完全相同的数据文本处理成相同固定的文本；

生成模块，用于根据所述字符串文本生成漏洞编号；

去重模块，用于根据所述漏洞编号进行漏洞去重。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一权利要求所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一权利要求所述的方法。