CN113343248A

CN113343248A - 一种漏洞识别方法、装置、设备和存储介质

Info

Publication number: CN113343248A
Application number: CN202110814335.7A
Authority: CN
Inventors: 毛杭清; 林钱雷; 尤永健; 常敏强
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-09-03

Abstract

本申请实施例公开了一种漏洞识别方法、装置、设备和存储介质，将目标识别文本输入到漏洞识别模型，就能得到目标识别文本中的漏洞信息的识别结果，该漏洞识别模型是利用多个标注漏洞信息的目标训练文本进行训练得到的。由此可见，本申请实施例可以利用训练得到的漏洞识别模型，快速的识别目标识别文本中的漏洞信息，相较于技术人员逐条查看目标识别文本的漏洞信息，利用漏洞识别模型识别目标识别文本的漏洞信息效率更高。

Description

一种漏洞识别方法、装置、设备和存储介质

技术领域

本申请涉及计算机领域，尤其涉及一种漏洞识别方法、装置、设备和存储介质。

背景技术

当前，随着计算机技术的发展，向用户提供多种服务的程序也越来越多。但是程序可能会在向用户提供服务的过程中出现漏洞。

在一些场景下，用户可以对使用程序过程中遇到的问题进行反馈，这些问题的反馈包括有关程序漏洞的反馈。技术人员通过对用户的反馈进行逐条查看，从而获得有关程序的漏洞信息，以进行相应的处理。可见，这种漏洞识别的方法效率较低。

发明内容

为了解决现有技术中漏洞识别效率低的问题，本申请实施例提供一种漏洞识别方法、装置、设备和存储介质，能够提高漏洞识别的效率。

本申请实施例提供一种漏洞识别方法，所述方法包括：

获取目标识别文本；

将所述目标识别文本输入到漏洞识别模型，得到识别结果，所述识别结果用于指示所述目标识别文本中的漏洞信息，所述漏洞识别模型根据目标训练文本集合训练得到，所述目标训练文本集合包括多个标注所述漏洞信息的目标训练文本。

可选地，所述识别结果用于指示所述目标识别文本中的漏洞信息包括：

所述识别结果用于指示所述目标识别文本是否描述有漏洞，所述漏洞识别模型根据标注是否描述有漏洞的目标训练文本训练得到；或，

所述识别结果用于指示所述目标识别文本中描述的漏洞的类型，所述漏洞识别模型根据标注所述漏洞的类型的目标训练文本训练得到。

可选地，所述方法还包括：

获取多个候选训练文本；

将所述多个候选训练文本中的每个候选训练文本分别转换为对应的向量；

对所述多个候选训练文本对应的向量进行聚类，得到聚类结果；

根据所述聚类结果从所述多个候选训练文本中确定出所述目标训练文本集合。

可选地，所述聚类结果包括聚类中心集合，所述聚类中心集合包括通过聚类得到的一个或多个类别的聚类中心；所述候选训练文本包括第一候选训练文本；

所述根据所述聚类结果从所述多个候选训练文本中确定出所述目标训练文本集合包括：

确定所述第一候选训练文本的向量与所述聚类中心集合中与所述第一候选训练文本的向量最接近的聚类中心之间的距离；

响应于所述距离小于或等于第一阈值，将所述第一候选训练文本确定为所述目标训练文本。

可选地，所述方法还包括：

获取候选训练文本集合，所述候选训练文本集合包括标注的漏洞信息相同的一个或多个候选训练文本，所述一个或多个候选训练文本包括第一候选训练文本；

确定所述候选训练文本集合中包括的候选训练文本的数目；

当所述数目小于或等于第二阈值时，将所述候选训练文本集合中的第一候选训练文本进行复制，得到一个或多个复制训练文本；将所述一个或多个候选训练文本以及所述一个或多个复制训练文本加入所述目标训练文本集合；或，

当所述数目小于或等于第三阈值时，根据所述候选训练文本集合中的第一候选训练文本生成一个或多个相似训练文本，所述第一候选训练文本的语义与所述相似训练文本在语义上相似；将所述一个或多个候选训练文本以及所述一个或多个相似训练文本加入所述目标训练文本集合。

可选地，当所述目标识别文本的识别结果指示所述目标识别文本描述有漏洞时，所述方法还包括：

当所述目标识别文本中包括预设类型词时，将所述目标识别文本描述的漏洞的类型确定为所述预设类型词标识的漏洞类型。

可选地，所述将所述目标识别文本描述的漏洞的类型确定为所述预设类型词标识的漏洞类型包括：

根据所述预设类型词和所述目标识别文本中与所述预设类型词对应的临近词得到目标类型短语，所述临近词为所述目标识别文本中与所述预设类型词相邻近的词；

将所述目标识别文本描述的漏洞的类型确定为所述目标类型短语标识的漏洞类型。

可选地，所述根据所述预设类型词和所述目标识别文本中与所述预设类型词对应的临近词得到目标类型短语包括：

将所述预设类型词和所述目标识别文本中与所述预设类型词对应的临近词进行组合，得到候选类型短语；当所述候选类型短语满足预设词性条件时，将所述候选类型短语确定为目标类型短语；或，

将所述预设类型词和所述目标识别文本中与所述预设类型词对应的临近词进行组合，得到候选类型短语；当所述候选类型短语的语义通顺度大于或等于第四阈值时，将所述候选类型短语确定为目标类型短语。

可选地，所述将所述候选类型短语确定为目标类型短语包括：

当所述候选类型短语在所述目标识别文本中出现的次数大于或等于第五阈值时，将所述候选类型短语确定为目标类型短语。

可选地，所述识别结果用于指示所述目标识别文本描述有漏洞，在得到识别结果之后，所述方法还包括：

确定在得到所述目标识别文本的识别结果之前的预设时间段内，识别结果指示描述有漏洞的历史识别文本的数目；

当所述数目大于或等于第六阈值时，进行告警。

可选地，在得到识别结果之后，所述方法还包括：

生成第一消息，所述第一消息中包括所述目标识别文本和所述识别结果；

发送所述第一消息至工单流转系统。

可选地，所述第一消息中还包括以下其中一项或多项：

用户标识和环节标识；

所述用户标识用于指示所述目标识别文本来自的用户；所述环节标识用于标识所述目标识别文本描述的漏洞产生的环节。

可选地，所述获取目标识别文本包括：

获取用户输入的目标识别对象，所述目标识别对象的类型为非文本类型；

将所述目标识别对象转换为所述目标识别文本；

其中，所述目标识别对象的类型包括以下其中一种或多种：

图片、音频和视频。

本申请实施例还提供一种漏洞识别装置，所述装置包括：

获取单元，用于获取目标识别文本；

识别单元，用于将所述目标识别文本输入到漏洞识别模型，得到识别结果，所述识别结果用于指示所述目标识别文本中的漏洞信息，所述漏洞识别模型根据目标训练文本集合训练得到，所述目标训练文本集合包括多个标注所述漏洞信息的目标训练文本。

本申请实施例还提供一种漏洞识别设备，所述设备包括：处理器和存储器；

所述存储器，用于存储指令；

所述处理器，用于执行所述存储器中的所述指令，执行如上述实施例所述的方法。

本申请实施例还提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述实施例所述的方法。

本申请实施例提供了一种漏洞识别方法，将目标识别文本输入到漏洞识别模型，就能得到目标识别文本中的漏洞信息的识别结果，该漏洞识别模型是利用多个标注漏洞信息的目标训练文本进行训练得到的。由此可见，本申请实施例可以利用训练得到的漏洞识别模型，快速的识别目标识别文本中的漏洞信息，相较于技术人员逐条查看目标识别文本的漏洞信息，利用漏洞识别模型识别目标识别文本的漏洞信息效率更高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种漏洞识别模型的训练方法的流程图；

图2为本申请实施例提供的一种漏洞识别方法的流程图；

图3为本申请实施例提供的一种漏洞识别装置的结构框图；

图4为本申请实施例提供的一种漏洞识别设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

正如背景技术中所述，现在对于用户的反馈都是通过技术人员逐条查看，尤其是有关程序漏洞的反馈，程序可以是系统级别，也可以是软件级别。

从用户反馈有关程序的漏洞，到技术人员通过逐条查看用户反馈，获得有关程序的漏洞信息，最后对程序的漏洞进行处理，这一过程需要的时间较长，可能会导致系统漏洞造成的影响进一步扩大。也就是说，技术人员逐条查看用户反馈，获得有关程序的漏洞信息的方式效率低，因此，如何提高识别用户反馈的有关程序的漏洞的效率是目前亟待解决的问题。

基于此，本申请实施例提供了一种漏洞识别方法，将目标识别文本输入到漏洞识别模型，就能得到目标识别文本中的漏洞信息的识别结果，该漏洞识别模型是利用多个标注漏洞信息的目标训练文本进行训练得到的。由此可见，本申请实施例可以利用训练得到的漏洞识别模型，快速的识别目标识别文本中的漏洞信息，相较于技术人员逐条查看目标识别文本的漏洞信息，利用漏洞识别模型识别目标识别文本的漏洞信息效率更高。

为了更好地进行漏洞识别，首先要对漏洞识别模型进行训练，因此本申请实施例首先介绍漏洞识别模型的训练方法。参见图1，该图为本申请实施例提供的一种漏洞识别模型的训练方法的流程图。

本申请实施例提供的漏洞识别模型的训练方法包括如下步骤：

S101，获取目标训练文本集合，所述目标训练文本集合包括多个标注漏洞信息的目标训练文本。

在本申请的实施例中，目标训练文本是已经标注漏洞信息的文本，例如目标训练文本可以是用户反馈的有关程序漏洞的文本，或者是模拟生成的有关程序漏洞的文本等。目标训练文本的数目为多个。

目标文本训练集合包括多个标注漏洞信息的目标训练文本。被标注漏洞信息的目标训练文本可以用于漏洞识别模型的训练。

对目标训练文本标注漏洞信息，可以有以下三种实现方式：

第一种可能的实现方式：漏洞信息可以表示有无漏洞。比如说，标记为0的目标训练文本代表该目标训练文本中没有描述漏洞，标记为1的目标训练文本代表该目标训练文本中描述有漏洞。

第二种可能的实现方式：漏洞信息可以表示漏洞的类型。例如漏洞的类型可以是业务类型，业务类型可以是审核、计划或数据等。漏洞的类型也可以是技术特征类型，技术特征类型反映漏洞在技术领域的类别，技术特征类型可以是界面类、功能类或崩溃类等，例如界面类可以是界面文字错误，功能类可以是程序功能出现问题。

以漏洞的业务类型进行举例说明对目标训练文本进行表述漏洞信息，比如说，标记为1的目标训练文本代表该目标训练文本中描述漏洞的类型为审核类，标记为2的目标训练文本代表该目标训练文本中描述漏洞的类型为数据类，标记为3的目标训练文本代表该目标训练文本中描述漏洞的类型为计划类。

第三种可能的实现方式：漏洞信息可以是上述两种结合在一起。比如说，标记为0的目标训练文本代表该目标训练文本中没有描述漏洞，标记为1的目标训练文本代表该目标训练文本中描述有漏洞，并且该目标训练文本中描述漏洞的类型为审核类，标记为2的目标训练文本代表该目标训练文本中描述有漏洞，并且该目标训练文本中描述漏洞的类型为数据类，标记为3的目标训练文本代表该目标训练文本中描述有漏洞，并且该目标训练文本中描述漏洞的类型为计划类。

本申请实施例列举的漏洞的类型和对漏洞信息进行的标记不构成对本申请的限定，本领域技术人员可以进行自由变型。

S102，根据目标训练文本集合训练所述漏洞识别模型。

在本申请的实施例中，可以利用目标训练文本集合中的多个标注漏洞信息的目标训练文本训练漏洞识别模型，漏洞识别模型的输入为目标训练文本，漏洞识别模型的输出为目标训练文本的识别结果，该识别结果指示目标训练文本的漏洞信息。

根据上述对目标训练文本标注漏洞信息的不同，训练时得到的漏洞识别模型也不同，相应的，漏洞识别模型的输出也不相同。

在本申请的实施例中，漏洞识别模型可以是神经网络模型，例如可以是深度双向预训练(Bidirectional Encoder Representation from Transformers，Bert)模型。Bert模型进行训练可以分为两个部分，第一部分是预训练部分，利用通用的文本进行训练，得到通用的语言模型，第二部分是微调部分，利用经过标注后的目标训练文本对通用的语言模型进行微调，得到针对标注后的目标训练文本的漏洞识别模型。

在本申请的实施例中，为了提升漏洞识别模型的训练效果，目标训练文本集合中的目标训练文本可以是进行筛选过的文本，是从多个候选训练文本中确定出的目标文本集合，候选训练文本是已经标注漏洞信息的文本。

以下将对从多个候选训练文本中确定出目标训练文本集合的步骤进行介绍：

S1021，获取多个候选训练文本。

在本申请的实施例中，候选训练文本是已经标注漏洞信息的文本，例如可以是用户反馈的有关程序漏洞的文本，或者是模拟生成的有关程序漏洞的文本等。

对候选训练文本进行漏洞信息的标注可以参考对目标训练文本进行标注的步骤，在此不再赘述。

S1022，将所述多个候选训练文本中的每个候选训练文本分别转换为对应的向量。

在进行漏洞识别模型的训练时，将多个候选训练文本中的每个候选训练文本都分别转换为对应的向量，例如可以利用自然语言处理模型将每个候选训练文本转换为对应的向量。

S1023，对所述多个候选训练文本对应的向量进行聚类，得到聚类结果。

在本申请的实施例中，通过对多个候选训练文本中每个候选训练文本对应的向量进行聚类，得到聚类结果。聚类可以是对多个候选训练文本的筛选，剔除与漏洞信息无关的文本。与漏洞信息无关的文本可以称为脏样本，例如可以是用户反馈的无意义的文本。比如说，用户反馈的文本为一串数字，这与漏洞信息毫无关系，为脏样本。也就是说，可能不是全部的候选训练文本都能够确定为目标训练文本，对于经过聚类后无法归类的候选训练文本，可能属于对漏洞识别模型的训练起到的效果较小的训练文本，可以进行剔除，保留通过聚类后能够归类为某一类别的候选训练文本，提高漏洞识别模型训练的准确性。

聚类结果可以包括聚类中心集合，聚类中心集合包括一个或多个聚类中心，聚类中心是通过对多个候选训练文本的向量进行聚类得到的。

S1024，根据所述聚类结果从所述多个候选训练文本中确定出目标训练文本集合。

在本申请的实施例中，在得到一个或多个聚类中心的聚类结果之后，可以根据聚类结果从多个候选训练文本中确定目标训练文本。

下面以第一候选训练文本为例介绍根据聚类结果从多个候选训练文本中确定目标训练文本集合的一种可能的实现方式，第一候选训练文本为多个候选训练文本中任意一个文本：

确定第一候选训练文本的向量与聚类中心集合中与第一候选训练文本的向量最接近的聚类中心之间的距离，响应于距离小于或等于第一阈值，将第一候选训练文本确定为目标训练文本，将第一候选训练文本加入目标训练文本集合中。其中，第一阈值可以根据实际情况进行确定，本申请实施例对此不进行具体确定。

也就是说，可以得到第一候选训练文本的向量与聚类中心集合中每个聚类中心之间的距离，确定第一候选训练文本的向量与聚类中心集合中与第一候选训练文本的向量最接近的聚类中心之间的距离，若该距离小于或等于第一阈值，则说明第一候选训练文本可以被归类为某一类别，可以将第一候选训练文本确定为目标训练文本，并将第一候选训练文本加入目标训练文本集合中。若该距离大于第一阈值，则说明第一候选训练文本无法被归类为某一类别，第一候选训练文本为与漏洞信息语义上无关的文本，为脏样本，则第一候选训练文本不被确定为目标训练文本。

在本申请的实施例中，多个候选训练文本可以分为多个候选训练文本集合，每个候选训练文本集合包括标注的漏洞信息相同的一个或多个候选训练文本。

考虑到每个候选训练文本集合包括的候选训练文本的数目可能不同，为了提高漏洞识别模型的识别效果，可以对包括候选训练文本的数目较少的某个候选训练文本集合进行候选训练文本的数目的增加，这样可以使得候选训练文本的数目较少的某个候选训练文本集合经过候选训练文本的数目的增加后，能够与其他候选训练文本集合包括的候选训练文本的数目接近，进而多个候选训练文本集合包括的候选训练文本的数目较为均匀，提高漏洞识别模型训练的效果。

下面以第一候选训练文本为例，对两种增加候选训练文本集合中包括的候选训练文本的数目的方式进行介绍，第一候选训练文本为第一候选训练文本集合包括的一个或多个候选训练文本中任意一个文本，第一候选训练文本集合为多个候选文本集合中候选训练文本数目较少的集合：

第一种可能的实现方式为将第一候选训练文本集合中的第一候选训练文本进行复制，得到一个或多个复制训练文本。

也就是说，在获取到第一候选训练文本集合之后，可以确定第一候选训练文本集合中包括的候选训练文本的数目，若该数目小于或等于第二阈值，则说明该第一候选训练文本集合中包括的候选训练文本的数目较少，可以通过将第一候选训练文本集合中的第一候选训练文本进行复制，得到一个或多个复制训练文本，之后将一个或多个候选训练文本以及一个或多个复制训练文本共同加入目标训练文本集合，作为目标训练文本进行漏洞识别模型的训练。

第二种可能的实现方式为根据第一候选训练文本集合中的第一候选训练文本生成一个或多个相似训练文本，第一候选训练文本的语义与相似训练文本在语义上相似。

也就是说，在获取到第一候选训练文本集合之后，可以确定第一候选训练文本集合中包括的候选训练文本的数目，若该数目小于或等于第三阈值，则说明该第一候选训练文本集合中包括的候选训练文本的数目较少，可以通过将第一候选训练文本生成一个或多个相似训练文本，之后将一个或多个候选训练文本以及一个或多个相似训练文本加入目标训练文本集合，作为目标训练文本进行漏洞识别模型的训练。

其中，将第一候选训练文本生成一个或多个相似训练文本，可以是将第一候选训练文本中的语句或词汇利用同义词替换得到一个或多个相似训练文本，以达到第一候选训练文本的语义与相似训练文本在语义上相似的目的。

第二阈值和第三阈值可以根据实际情况进行确定，第二阈值和第三阈值可以相同，也可以不同，本申请实施例对此不进行具体确定。

在本申请的实施例中，第二候选训练文本集合为多个候选文本集合中候选训练文本数目较多的集合，第二候选训练文本集合是不需要经过候选训练文本数目变化的集合，可以直接将第二候选训练文本集合包括的候选训练文本加入目标训练文本集合。

在本申请的实施例中，可以在对多个候选训练文本对应的向量进行聚类之后，再增加第一候选训练文本集合中候选训练文本的数目，也就是说，可以在剔除脏样本之后，再执行将多个候选训练文本集合包括的候选训练文本数目接近的步骤，这样可以进一步增加漏洞识别模型的准确性。

如上文所述，在标注目标训练文本的漏洞信息时，可以根据漏洞的类型进行标注，漏洞的类型可以根据目标训练文本中包括的预设类型词进行确定，即可以根据目标训练文本包括的预设类型词来标识目标训练文本的漏洞类型。其中，预设类型词可以是预先确定的有关漏洞的类型的词汇，在本申请的实施例中，利用预设类型词进行标识目标训练文本的漏洞类型可以是基于业务类型进行分类的。

作为一种示例，漏洞的业务类型可以与数据有关，则预设类型词可以是数据，若在目标训练文本中包括数据这一预设类型词，则说明该目标训练文本描述的漏洞的类型为数据有关的类型。

经过上述介绍可以得知，本申请实施例提供的漏洞识别模型是利用多个标注漏洞信息的目标训练文本进行训练得到的。

基于上述实施例提供的训练方法训练的漏洞识别模型，本申请实施例还提供一种利用漏洞识别模型进行漏洞识别的方法。

参见图2，该图为本申请实施例提供的一种漏洞识别方法的流程图。

本实施例提供的漏洞识别方法包括如下步骤：

S201，获取目标识别文本。

在本申请的实施例中，目标识别文本为待识别的文本，是没有经过标注漏洞信息的文本。可选的，所述待识别的文本来自用户。在一些示例中，可以采集用户输入的信息，根据用户输入的信息形成待识别的文本。

在实际应用中，用户输入的信息可以是文本类型，也可能是非文本类型，非文本类型的信息可以是图片、音频或视频等。

若用户输入的信息为文本类型，则直接获取目标识别文本。

若用户输入的信息为非文本类型，则获取用户输入的目标识别对象，目标识别对象为非文本类型的信息，例如图片、音频或视频等，之后将目标识别对象转换为目标识别文本。将非文本类型的目标识别对象转换为目标识别文本可以利用语音转换模型或图像转换模型。

S202，将所述目标识别文本输入到漏洞识别模型，得到识别结果，所述识别结果用于指示所述目标识别文本中的漏洞信息，所述漏洞识别模型根据目标训练文本集合训练得到，所述目标训练文本集合包括多个标注所述漏洞信息的目标训练文本。

在本申请的实施例中，将目标识别文本输入到漏洞识别模型，漏洞识别模型输出目标识别文本的识别结果，识别结果指示目标识别文本中的漏洞信息。其中，漏洞识别模型采用本申请实施例提供的训练方法进行训练，具体训练方法参考上述实施例，在此不再赘述。

如上述训练方法中不同的漏洞信息训练得到的漏洞识别模型不同，相应地，利用不同的漏洞识别模对目标识别文本进行识别时，输出的识别结果也不相同，具体输出的识别结果根据使用的漏洞识别模型进行确定。

在本申请的实施例中，在标注目标识别文本的漏洞的类型时，可以根据目标识别文本中包括的预设类型词进行确定，即根据目标识别文本包括的预设类型词来标识的目标识别文本的漏洞类型。其中，预设类型词可以是预先确定的有关漏洞的类型的词汇，漏洞的类型可以是业务类型，业务类型可以是审核、计划或数据等。

作为一种示例，漏洞的业务类型可以与数据有关，则预设类型词可以是数据，若在目标识别文本中包括数据这一预设类型词，则说明该目标识别文本描述的漏洞的类型为数据有关的类型。

在本申请的实施例中，利用预设类型词进行标识目标识别文本的漏洞类型是基于业务类型进行分类的，还可以对目标识别文本的漏洞类型在业务类型的基础上进行细分，以得到更加详细的目标识别文本的漏洞信息。

作为一种可能的实现方式，可以根据预设类型词和目标识别文本中与预设类型词对应的临近词得到目标类型短语，将目标识别文本描述的漏洞的类型确定为目标类型短语标识的漏洞类型。其中，临近词为目标识别文本中与预设类型词相邻近的词，即临近词为预设类型词前N个词和后N个词中的一种或多种，N为正整数。

作为一种示例，预设类型词为数据，临近词为预设类型词前2个词，临近词为没有，则目标类型短语为没有数据。

作为另一种示例，预设类型词为计划，临近词为预设类型词后2个词，临近词为报表，则目标类型短语为计划报表。

在实际应用中，不是全部的预设类型词和临近词进行组合都能够得到目标类型短语，在预设类型词和临近词进行组合得到的候选类型短语不能满足预设词性条件或语义通顺度不高，都不将候选类型短语确定为目标类型短语，这是由于候选类型短语不能满足某些条件时不足以反映漏洞的类型。

能够将预设类型词和临近词进行组合得到的候选类型短语确定为目标类型短语有以下两种可能的实现方式：

第一种可能的实现方式为当候选类型短语满足预设词性条件时，将候选类型短语确定为目标类型短语。其中预设词性条件可以是预先设定的目标类型短语的词性条件，例如预设词性条件可以为动词加名词的组合。

作为一种示例，预设词性条件为动词加名词的组合，预设类型词为计划，临近词为预设类型词前2个词，临近词为复制，则候选类型短语为复制计划，候选类型短语满足预设词性条件，可以将候选类型短语复制计划确定为目标类型短语。

第二种可能的实现方式为当候选类型短语的语义通顺度大于或等于第四阈值时，将候选类型短语确定为目标类型短语。其中，可以对候选类型短语输入至生成式预训练(Generative Pre-Training2，GTP2)模型对语义通顺度进行确定。GTP2模型的输出为语义通顺度的数值，该数值在0到1之间，数值越高代表语义通顺度越高。

在实际应用中，当候选类型短语满足上述任意一种实现方式之后，还可以继续判断候选类型短语在目标训练文本集合中出现的次数是否大于或等于第五阈值时，当大于或等于第五阈值时，将候选类型短语确定为目标类型短语，以进一步增加候选类型短语反映漏洞的类型的准确性。

第四阈值和第五阈值可以根据实际情况进行确定，本申请实施例对此不进行具体确定。

在本申请的实施例中，若漏洞识别模型的识别结果指示目标识别文本描述有漏洞，在得到识别结果之后，还可以统计在得到目标识别文本的识别结果之前的预设时间段内，识别结果指示描述有漏洞的历史识别文本的数目，若该数目大于或等于第六阈值，则进行告警处理。其中，历史识别文本为利用漏洞识别模型进行识别过，得到识别结果的文本。

也就是说，若识别结果指示描述有漏洞的文本在预设时间段内的数目达到一定数量，则说明用户反馈的漏洞发生的次数较为频繁，可以进行告警处理，以便通知相关人员及时进行处理。

第六阈值和预设时间段可以根据实际情况进行设置，本申请实施例对此不进行具体限定。

在本申请的实施例中，在将目标识别文本输入至漏洞识别模型，得到识别结果之后，还可以生成包括目标识别文本和识别结果的第一消息，并将该第一消息发送给提供工单流转系统服务的服务器或相关人员。第一消息可以通过通讯软件进行发送，例如飞书或微信等。工单流转系统是产品或运营等人员使用的工作系统。

在本申请的实施例中，第一消息中还可以包括用户标识或环节标识，其中，用户标识用于标识目标识别文本来自的用户，用户标识可以是用户的用户名，环节标识用于标识目标识别文本描述的漏洞产生的环节，例如目标识别文本描述的漏洞来自用户的登录环节。

本申请实施例提供的漏洞识别方法，将目标识别文本输入到漏洞识别模型，就能得到目标识别文本中的漏洞信息的识别结果，该漏洞识别模型是利用多个标注漏洞信息的目标训练文本进行训练得到的。由此可见，本申请实施例可以利用训练得到的漏洞识别模型，快速的识别目标识别文本中的漏洞信息，相较于技术人员逐条查看目标识别文本的漏洞信息，利用漏洞识别模型识别目标识别文本的漏洞信息效率更高。

基于以上实施例提供的一种漏洞识别方法，本申请实施例还提供了一种漏洞识别装置，下面结合附图来详细说明其工作原理。

参见图3，该图为本申请实施例提供的一种漏洞识别装置的结构框图。

本实施例提供的漏洞识别装置300包括：

获取单元310，用于获取目标识别文本。

识别单元320，用于将所述目标识别文本输入到漏洞识别模型，得到识别结果，所述识别结果用于指示所述目标识别文本中的漏洞信息，所述漏洞识别模型根据目标训练文本集合训练得到，所述目标训练文本集合包括多个标注所述漏洞信息的目标训练文本。

可选地，所述装置还包括：

候选训练文本获取单元，用于获取多个候选训练文本；

转换单元，用于将所述多个候选训练文本中的每个候选训练文本分别转换为对应的向量；

聚类单元，用于对所述多个候选训练文本对应的向量进行聚类，得到聚类结果；

第一确定单元，用于根据所述聚类结果从所述多个候选训练文本中确定出所述目标训练文本集合。

所述第一确定单元具体用于：

可选地，所述装置还包括：

候选训练文本集合获取单元，用于获取候选训练文本集合，所述候选训练文本集合包括标注的漏洞信息相同的一个或多个候选训练文本，所述一个或多个候选训练文本包括第一候选训练文本；

第二确定单元，用于确定所述候选训练文本集合中包括的候选训练文本的数目；

加入单元，用于当所述数目小于或等于第二阈值时，将所述候选训练文本集合中的第一候选训练文本进行复制，得到一个或多个复制训练文本；将所述一个或多个候选训练文本以及所述一个或多个复制训练文本加入所述目标训练文本集合；或，用于当所述数目小于或等于第三阈值时，根据所述候选训练文本集合中的第一候选训练文本生成一个或多个相似训练文本，所述第一候选训练文本的语义与所述相似训练文本在语义上相似；将所述一个或多个候选训练文本以及所述一个或多个相似训练文本加入所述目标训练文本集合。

可选地，当所述目标识别文本的识别结果指示所述目标识别文本描述有漏洞时，所述装置还包括：

第三确定单元，用于当所述目标识别文本中包括预设类型词时，将所述目标识别文本描述的漏洞的类型确定为所述预设类型词标识的漏洞类型。

可选地，所述第三确定单元具体用于：

可选地，所述识别结果用于指示所述目标识别文本描述有漏洞，在得到识别结果之后，所述装置还包括：

第四确定单元，用于确定在得到所述目标识别文本的识别结果之前的预设时间段内，识别结果指示描述有漏洞的历史识别文本的数目；

告警单元，用于当所述数目大于或等于第六阈值时，进行告警。

可选地，在得到识别结果之后，所述装置还包括：

生成单元，用于生成第一消息，所述第一消息中包括所述目标识别文本和所述识别结果；

发送单元，用于发送所述第一消息至工单流转系统。

可选地，所述第一消息中还包括以下其中一项或多项：

用户标识和环节标识；

可选地，所述获取单元具体用于：

将所述目标识别对象转换为所述目标识别文本；

其中，所述目标识别对象的类型包括以下其中一种或多种：

图片、音频和视频。

基于以上实施例提供的一种漏洞识别方法，本申请实施例还提供了一种漏洞识别设备，漏洞识别设备400包括：

处理器410和存储器420，处理器的数量可以一个或多个。在本申请的一些实施例中，处理器和存储器可通过总线或其它方式连接。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括NVRAM。存储器存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器控制终端设备的操作，处理器还可以称为CPU。

上述本申请实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例的方法中的任意一种实施方式。

当介绍本申请的各种实施例的元件时，冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外，还可以有其它元件。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种漏洞识别方法，其特征在于，所述方法包括：

获取目标识别文本；

2.根据权利要求1所述的方法，其特征在于，

所述识别结果用于指示所述目标识别文本中的漏洞信息包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个候选训练文本；

4.根据权利要求3所述的方法，其特征在于，所述聚类结果包括聚类中心集合，所述聚类中心集合包括通过聚类得到的一个或多个类别的聚类中心；所述候选训练文本包括第一候选训练文本；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述候选训练文本集合中包括的候选训练文本的数目；

6.根据权利要求2所述的方法，其特征在于，当所述目标识别文本的识别结果指示所述目标识别文本描述有漏洞时，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述目标识别文本描述的漏洞的类型确定为所述预设类型词标识的漏洞类型包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述预设类型词和所述目标识别文本中与所述预设类型词对应的临近词得到目标类型短语包括：

9.根据权利要求8所述的方法，其特征在于，所述将所述候选类型短语确定为目标类型短语包括：

10.根据权利要求2所述的方法，其特征在于，所述识别结果用于指示所述目标识别文本描述有漏洞，在得到识别结果之后，所述方法还包括：

当所述数目大于或等于第六阈值时，进行告警。

11.根据权利要求1所述的方法，其特征在于，在得到识别结果之后，所述方法还包括：

发送所述第一消息至工单流转系统。

12.根据权利要求13所述的方法，其特征在于，所述第一消息中还包括以下其中一项或多项：

用户标识和环节标识；

13.根据权利要求1所述的方法，其特征在于，所述获取目标识别文本包括：

将所述目标识别对象转换为所述目标识别文本；

其中，所述目标识别对象的类型包括以下其中一种或多种：

图片、音频和视频。

14.一种漏洞识别装置，其特征在于，所述装置包括：

获取单元，用于获取目标识别文本；

15.一种漏洞识别设备，其特征在于，所述设备包括：处理器和存储器；

所述存储器，用于存储指令；

所述处理器，用于执行所述存储器中的所述指令，执行如权利要求1-13中任一项所述的方法。

16.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-13任意一项所述的方法。