CN117744632B

CN117744632B - 漏洞信息关键字提取模型的构建方法、装置、设备及介质

Info

Publication number: CN117744632B
Application number: CN202410186505.5A
Authority: CN
Inventors: 陈志平; 陈笑泽; 滕俐军; 王志宾
Original assignee: Shenzhen Rongan Networks Technology Co ltd
Current assignee: Shenzhen Rongan Networks Technology Co ltd
Priority date: 2024-02-20
Filing date: 2024-02-20
Publication date: 2024-05-10
Anticipated expiration: 2044-02-20
Also published as: CN117744632A

Abstract

本申请公开了一种漏洞信息关键字提取模型的构建方法、装置、设备及介质，涉及数据处理技术领域，本申请漏洞信息关键字提取模型的构建方法包括：获取目标训练样本数据；通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征；基于所述漏洞描述信息高维特征和所述序列顺序特征得到目标条件随机场模型；根据所述目标条件随机场模型和所述初始漏洞信息关键字提取模型生成目标漏洞信息关键字提取模型。采用本申请达到了能够构建得到用于提取漏洞关键词的漏洞信息关键字提取模型的技术效果。

Description

漏洞信息关键字提取模型的构建方法、装置、设备及介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种漏洞信息关键字提取模型的构建方法、装置、终端设备及计算机可读存储介质。

背景技术

随着互联网技术的不断发展，系统维护工作成为了互联网行业内不可或缺的重要内容，而是否能更全面的获取漏洞关键字，也将对系统维护工作造成重要影响。

在相关技术中，技术人员往往只能采用人工筛选的方式获取漏洞关键词，并手动对获取的大量漏洞关键词进行标注以进一步完成系统维护工作。然而，采用人工获取漏洞关键词的方式容易出现漏洞关键词获取效率较低，且关键词的质量参差不齐的情况出现。

因此，如何能够自动抓取漏洞关键词，也就成为了行业内亟需解决的技术问题。

发明内容

本申请的主要目的在于提供一种漏洞信息关键字提取模型的构建方法、装置、终端设备及计算机可读存储介质，旨在能够构建得到用于提取漏洞关键词的漏洞信息关键字提取模型，进而提升对漏洞描述信息的处理效率。

为实现上述目的，本申请提供一种漏洞信息关键字提取模型的构建方法，所述漏洞信息关键字提取模型的构建方法包括步骤：

获取目标训练样本数据；

通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征；

基于所述漏洞描述信息高维特征和所述序列顺序特征得到目标条件随机场模型；

根据所述目标条件随机场模型和所述初始漏洞信息关键字提取模型生成目标漏洞信息关键字提取模型。

进一步地，所述获取目标训练样本数据的步骤，包括：

获取初始训练样本数据，并确定所述初始训练样本数据内包含的英文漏洞描述信息和英文漏洞标签关键字；

对所述英文漏洞描述信息进行翻译以得到中文漏洞描述信息，并对所述英文漏洞标签关键字进行拆分以得到目标漏洞标签关键字；

根据所述中文漏洞描述信息和所述目标漏洞标签关键字生成目标训练样本数据。

进一步地，所述根据所述中文漏洞描述信息和所述目标漏洞标签关键字生成目标训练样本数据的步骤，包括：

确定所述中文漏洞描述信息和所述目标漏洞标签关键字各自对应的分类标签；

基于各所述分类标签生成目标训练样本数据。

进一步地，在所述对所述英文漏洞描述信息进行翻译以得到中文漏洞描述信息的步骤之后，所述方法还包括：

确定所述中文漏洞描述信息对应的各文本序列长度，并在各所述文本序列长度中确定最大序列长度；

基于所述最大序列长度对所述中文漏洞描述信息进行填充得到目标中文漏洞描述信息；

对所述英文漏洞标签关键字进行拆分以得到目标漏洞标签关键字，并根据所述目标中文漏洞描述信息和所述目标漏洞标签关键字生成目标训练样本数据。

进一步地，所述通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征的步骤，包括：

通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的掩盖标记预测结果和全文关系结果；

对所述掩盖标记预测结果和所述全文关系结果进行转换得到目标输出向量；

对所述目标输出向量进行池化操作得到所述目标训练样本数据对应的漏洞描述信息高维特征。

进一步地，所述通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征的步骤，还包括：

获取预设的词汇表，并基于所述词汇表对所述目标训练样本数据进行转化得到离散符号序列；

通过所述初始漏洞信息关键字提取模型提取所述离散符号序列对应的正向长短期记忆网络计算结果和逆向长短期记忆网络计算结果；

根据所述正向长短期记忆网络计算结果和所述逆向长短期记忆网络计算结果得到所述目标训练样本数据对应的序列顺序特征。

进一步地，所述基于所述漏洞描述信息高维特征和所述序列顺序特征得到目标条件随机场模型的步骤，包括：

获取预设的初始条件随机场模型，并基于所述漏洞描述信息高维特征和所述序列顺序特征计算得到所述初始条件随机场模型对应的目标权重数值；

基于所述目标权重数值对所述初始条件随机场模型进行处理得到目标条件随机场模型。

此外，为实现上述目的，本发明还提供一种漏洞信息关键字提取模型的构建装置，所述装置包括：

数据获取模块，用于获取目标训练样本数据；

特征提取模块，用于通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征；

随机场构建模块，用于基于所述漏洞描述信息高维特征和所述序列顺序特征得到目标条件随机场模型；

模型构建模型，用于根据所述目标条件随机场模型和所述初始漏洞信息关键字提取模型生成目标漏洞信息关键字提取模型。

此外，为实现上述目的，本申请还提供一种终端设备，所述终端设备包括：存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的漏洞信息关键字提取模型的构建方法的步骤。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的漏洞信息关键字提取模型的构建方法的步骤。

本申请实施例提供的漏洞信息关键字提取模型的构建方法、装置、终端设备及计算机可读存储介质，通过获取目标训练样本数据；通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征；基于所述漏洞描述信息高维特征和所述序列顺序特征得到目标条件随机场模型；根据所述目标条件随机场模型和所述初始漏洞信息关键字提取模型生成目标漏洞信息关键字提取模型。

在本实施例中，当终端设备运行时，首先获取用于模型训练的目标训练样本数据，之后，终端设备获取预设的初始漏洞关键字提取模型，并通过该初始漏洞关键字提取模型对该目标训练样本数据进行处理，从而提取该目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征，再之后，终端设备基于该漏洞描述信息高维特征和序列顺序特征构建得到目标条件随机场模型，最后，终端设备基于该目标条件随机场模型对该初始漏洞关键字提取模型进行约束，从而得到目标漏洞关键字提取模型。

如此，本申请解决了相关技术中因为采用人工获取漏洞关键词的方式导致漏洞关键词获取效率较低，且关键词的质量参差不齐的技术问题，即，本申请通过在目标训练样本数据内提取漏洞描述信息高维特征和序列顺序特征，进而基于该漏洞描述信息高维特征和序列顺序特征构建目标条件随机场模型，从而基于该目标条件随机场模型对预设的初始漏洞信息关键字提取模型添加约束从而得到目标漏洞信息关键字提取模型，使得目标漏洞信息关键字提取模型能够识别漏洞描述信息内包含的多个漏洞关键词，进而达到了能够构建得到用于提取漏洞关键词的漏洞信息关键字提取模型的技术效果，从而提升了对漏洞描述信息的处理效率。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的终端设备的结构示意图；

图2为本申请漏洞信息关键字提取模型的构建方法第一实施例的流程示意图；

图3为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的目标训练样本数据示意图；

图4为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的初始训练样本数据示意图；

图5为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的中文漏洞描述信息示意图；

图6为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的初始Transformer模型结构示意图；

图7为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的双向LSTM编码层结构示意图；

图8为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的批量大小与填充率变化图；

图9为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的掩码示意图；

图10为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的训练损失函数变化图；

图11为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的训练准确度变化图；

图12为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的关键词识别结果示意图；

图13为本申请漏洞信息关键字提取模型的构建装置一实施例涉及功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，图1为本申请实施例方案涉及的硬件运行环境的终端设备结构示意图。

需要说明的是，本申请实施例终端设备可以是执行本申请漏洞信息关键字提取模型的构建方法的设备，该终端设备具体可以是内部配置有模型训练装置的移动终端、数据存储控制终端、PC等终端。

如图1所示，该终端设备可以包括：处理器1001，例如中央处理器（CentralProcessing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（WIreless-FIdelity，WI-FI）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM）存储器，也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及计算机程序。

在图1所示的终端设备中，网络接口1004主要用于与其他设备进行数据通信；用户接口1003主要用于与用户进行数据交互；本申请终端设备中的处理器1001、存储器1005可以设置在终端设备中，所述终端设备通过处理器1001调用存储器1005中存储的计算机程序，并执行以下各实施例。

基于上述的终端设备，提供本申请漏洞信息关键字提取模型的构建方法的整体构思。

针对上述现象，本申请提出了一种漏洞信息关键字提取模型的构建方法，所述漏洞信息关键字提取模型的构建方法包括步骤：获取目标训练样本数据；通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征；基于所述漏洞描述信息高维特征和所述序列顺序特征得到目标条件随机场模型；根据所述目标条件随机场模型和所述初始漏洞信息关键字提取模型生成目标漏洞信息关键字提取模型。

基于上述的终端设备和本申请漏洞信息关键字提取模型的构建方法的整体构思，进一步提出本申请漏洞信息关键字提取模型的构建方法的各个实施例。

请参照图2，图2为本申请漏洞信息关键字提取模型的构建方法第一实施例的流程示意图。

应当理解的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，本申请漏洞信息关键字提取模型的构建方法当然也可以以不同于此处的顺序执行所示出或描述的步骤。

如图2所示，在本实施例中，本申请漏洞信息关键字提取模型的构建方法可以包括步骤：

步骤S10：获取目标训练样本数据；

步骤S20：通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征；

步骤S30：基于所述漏洞描述信息高维特征和所述序列顺序特征得到目标条件随机场模型；

步骤S40：根据所述目标条件随机场模型和所述初始漏洞信息关键字提取模型生成目标漏洞信息关键字提取模型。

在本实施例中，当终端设备需要构建得到用于在中文漏洞描述信息中提取关键字信息的目标漏洞信息关键字提取模型时，终端设备首先调用爬虫获取用于模型训练的目标训练样本数据，之后，终端设备将该目标训练样本数据输入至自身所配置的模型训练装置，该模型训练装置调用自身所预设的初始漏洞信息关键字提取模型对该目标训练样本数据进行处理，从而提取该目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征，再之后，模型训练装置基于该漏洞描述信息高维特征和序列顺序特征构建得到目标条件随机场模型，最后，模型训练装置通过该目标条件随机场模型对该初始漏洞信息关键字提取模型添加关键字约束，从而生成目标漏洞信息关键字提取模型。

示例性地，例如，终端设备在运行时，若需要构建出用于在中文漏洞描述信息内提取出关键字信息的目标漏洞信息关键字提取模型时，终端设备首先获取如图3所示的用于训练的目标训练样本数据，之后，终端设备将该目标训练样本数据输入至自身所配置的模型训练装置，由模型训练装置调用自身所配置的初始Transformer模型对该目标训练样本进行处理，从而通过该Transformer模型内包含的Bert（Bidirectional EncoderRepresentation from Transformers，变压器的双向编码器表示）编码层和双向LSTM（LongShort Term Memory，时间循环神经网络）编码层对该目标训练样本数据进行处理，以提取该目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征，再之后，终端设备基于该漏洞描述信息高维特征和序列顺序特征训练得到目标条件随机场模型：

；

模型训练装置进而基于该目标条件随机场模型对初始Transformer模型添加关键字限制，从而得到能够用于提取关键字描述信息的目标Transformer模型：

。

进一步地，在一种可行的实施例中，上述步骤S10，具体可以包括：

步骤S101：获取初始训练样本数据，并确定所述初始训练样本数据内包含的英文漏洞描述信息和英文漏洞标签关键字；

步骤S102：对所述英文漏洞描述信息进行翻译以得到中文漏洞描述信息，并对所述英文漏洞标签关键字进行拆分以得到目标漏洞标签关键字；

步骤S103：根据所述中文漏洞描述信息和所述目标漏洞标签关键字生成目标训练样本数据。

需要说明的是，该英文漏洞描述信息即为初始训练样本数据内包含的用于对漏洞进行描述的文本信息内容，具体可以为该初始训练内容中包含的remark标签栏下包含的文本内容；此外，该英文漏洞标签关键字为该初始训练样本数据内包含的与该英文漏洞描述信息对应的标签下包含的文本内容，具体可以为该初始训练内容中包含的cve、score、system、producttype、company、brand及version等标签各自包含的文本内容。

在本实施例中，终端设备需要构建得到用于在中文漏洞描述信息中提取关键字信息的目标漏洞信息关键字提取模型时，终端设备首先调用爬虫获取用于训练的初始训练样本数据，终端设备进而读取该初始训练样本数据内包含的英文漏洞描述信息和英文漏洞标签关键字，之后，终端设备调用自身所配置的应用程序接口调用与自身相连的翻译模块对该英文漏洞描述信息进行翻译从而得到中文漏洞描述信息，同时，终端设备调用该应用程序接口调用与自身相连的单词拆分模块，从而将该英文漏洞标签关键字进行拆分得到目标漏洞标签关键字，最后，终端设备基于得到的中文漏洞描述信息和该目标漏洞标签关键字生成训练用的目标训练样本数据。

示例性地，例如，终端设备在运行时，若需要构建出用于在中文漏洞描述信息内提取出关键字信息的目标漏洞信息关键字提取模型时，终端设备首先调用爬虫获取如图4所示的用于训练的包含目标漏洞对应的漏洞描述信息和与漏洞对应的各漏洞标签数据的初始训练样本数据；终端设备从而读取该初始训练样本数据内remark一栏内包含的与漏洞对应的英文漏洞描述信息，同时，终端设备读取该初始训练样本数据内的cve、score、system、producttype、company、brand及version等标签栏内带有的与漏洞描述信息对应的英文漏洞标签关键字，之后，终端设备调用自身所配置的API（Application ProgrammingInterface，应用程序编程接口）调用与自身相连的翻译模块，从而通过该翻译模块对该remark栏内的英文漏洞描述信息翻译至中文，以得到如图5所示的中文漏洞描述信息，同时，终端设备通过API调用与自身相连的衍生拆分模块对初始训练样本数据内包含的company、brand、vision等漏洞标签下包含的英文漏洞标签关键字进行拆分，例如，将“firefox”拆分为“fire fox”，或者，将各英文漏洞标签关键词之间存在的“-”或“_”等符号替换为空格或删除，直至将各英文漏洞标签关键字完全拆解以生成目标漏洞关键字，最后，终端设备基于该中文漏洞描述信息和拆分后的目标漏洞关键字生成用于训练的目标训练样本数据。

如此，终端设备在训练目标Transformer模型之前，首先能够得到用于进行模型训练的中文训练样本数据，并确定各中文训练样本数据各自对应的标签数据，进而确保训练得到的Transformer模型能够适用与不同中文语境下的不同平台，从而进一步提升Transformer模型对漏洞描述信息关键字的提取效率。

进一步地，在一种可行的实施例中，上述步骤S103，具体可以包括：

步骤S1031：确定所述中文漏洞描述信息和所述目标漏洞标签关键字各自对应的分类标签；

步骤S1032：基于各所述分类标签生成目标训练样本数据。

在本实施例中，终端设备在获取各中文漏洞描述信息和目标漏洞关键字之后，首先对获取的各目标漏洞关键字进行分词从而得到各目标漏洞关键字各自对应的标签字段，终端设备进而在各标签字段中加入初始训练样本数据内包含的各原始标签字段，并对各标签字段内包含的重复字段进行删除从而得到中间训练数据，终端设备确定该中间训练数据内包含的各中文漏洞描述信息和漏洞标签关键字各自对应的分类标签，最后，终端设备对中间训练数据内包含的各中文漏洞描述信息和目标漏洞标签关键字添加各自对应的分类标签，从而生成目标训练样本数据。

示例性地，例如，终端设备在获取各中文漏洞描述信息和各目标漏洞关键字之后，首先对company字段和brand字段内包含的拆分后的目标漏洞关键字进行分词从而得到衍生字段，终端设备进而在各衍生字段中确定可能存在拆分不准确的衍生可疑字段，并将该衍生可疑字段对应的在初始训练样本数据中对应的原始字段加入至该衍生可疑字段中，同时，终端设备对经过处理后的company字段和brand字段进行比对，从而确定该company字段和该brand字段内包含的重叠字段，并对该重叠字段进行删除，之后，终端设备对剩余未经过处理的brand字段和version字段进行json解析，从而在brand字段和version字段中拆解出更多下层值，终端设备进而以各标签字段各自在初始训练样本数据中对应的CVE编码为唯一id，并以该唯一id为基础对经过处理的company字段、system字段、brand字段及version字段进行拼接，通过“|”为分割符，从而得到整合后的中间训练数据，最后，终端设备确定该中间训练数据内包含的各company字段、system字段、brand字段及version字段各自对应的分类标签，并向各字段添加各自对应的BIO标签，从而得到如图3所示的目标训练样本数据。

此外，需要说明的是，在本实施例及另一实施例中，终端设备在获取中文漏洞描述信息和拆分后的目标漏洞关键字之后，还可以先按照预设的第一文本序列长度对各英文漏洞描述信息进行筛选，从而在各英文漏洞描述信息中筛选出长度小于该第一文本序列长度的目标英文漏洞描述信息，同时，终端设备按照预设的小于该第一文本序列长度的第二文本序列长度对各中文漏洞描述信息进行筛选，从而在各中文漏洞描述信息中确定目标中文漏洞描述信息，进而在确定各目标英文漏洞描述信息和各目标中文漏洞描述信息之后，对各目标英文漏洞描述信息和各目标中文漏洞描述信息进行处理得到目标训练样本数据。

示例性地，例如，终端设备在获取中文漏洞描述信息和拆分后的目标漏洞关键字之后，首先获取预设的第一文本序列长度为100，终端设备从而基于该第一文本序列长度对初始训练样本数据内包含的各英文漏洞描述信息进行筛选，以在各英文漏洞描述信息中筛选出长度小于100的英文漏洞描述信息样本，同时，终端设备获取预设的第二文本序列长度为40，从而基于该第二文本序列长度对得到的各中文漏洞描述信息进行筛选，以在各中文漏洞描述信息中筛选出长度小于40的中文漏洞描述信息样本，之后，终端设备对该长度小于100的英文漏洞描述信息样本和该长度小于40的中文漏洞描述信息样本进行处理得到目标训练样本数据。

如此，终端设备能够在训练目标Transformer模型之前，首先在训练样本数据中确定长度较小且没有分析价值的训练样本数据，进而直接忽略这类没有分析价值的训练样本数据，以提升对Transformer模型的训练效率。

进一步地，在一种可行的实施例中，上述步骤S20，具体可以包括：

步骤S201：通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的掩盖标记预测结果和全文关系结果；

步骤S202：对所述掩盖标记预测结果和所述全文关系结果进行转换得到目标输出向量；

步骤S203：对所述目标输出向量进行池化操作得到所述目标训练样本数据对应的漏洞描述信息高维特征。

需要说明的是，请参照图6，图6为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的初始Transformer模型结构示意图，如图6所示，该初始漏洞信息关键字提取模型为基于Transformer模型构建得到的具有强大的语义理解和表征能力的漏洞信息关键字提取模型，可以理解的是，该初始漏洞信息关键字提取模型内包含Bert编码层、双向LSTM编码层及条件随机场等多个编码层，且多个编码层各自均包含自注意力机制：

；

其中，该自注意力机制下的Q，K，V分别代表查询（query）、键（key）和值（value）各自对应的矩阵表示形式；

此外，在多个编码层各自还包含有各自对应的多头注意力机制：

；

其中，该多头注意力机制下的，/>，/>及分别为初始漏洞信息关键字提取模型内包含的权重矩阵。

在本实施例中，终端设备在获取目标训练样本数据之后，首先将该目标训练样本数据输入至终端设备自身所配置的模型训练装置，模型训练装置进而调用技术人员预先存储的初始漏洞信息关键字提取模型对该目标训练样本数据进行处理，从而提取该目标训练样本数据对应的掩盖标记预测结果，初始漏洞信息关键字提取模型进而基于该掩盖标记预测结果进一步提取出目标训练样本数据对应的全文关系结果，之后，初始漏洞信息关键字提取模型对该掩盖标记预测结果和该全文关系结果进行转换从而得到目标输出向量，初始漏洞信息关键字提取模型进而对该目标输出向量执行池化操作，从而得到与目标训练样本数据对应的固定纬度向量，初始漏洞信息关键字提取模型将该固定纬度向量确定为目标训练样本数据对应的漏洞描述信息高维特征。

示例性地，例如，终端设备在获取目标训练样本数据之后，首先将该目标训练样本数据输入至自身所配置的模型训练装置，由模型训练装置将该目标训练样本数据输入至技术人员预先存储的初始Transformer模型，之后，该初始Transformer模型首先将获取的目标训练样本数据输入至自身所配置的Bert编码层，Bert编码层首先通过MLM（MaskedLanguage Model）随机掩盖输入的目标训练样本数据中的一部分标记，Bert编码层进而通过输入的目标训练样本数据中包含的各文本内容得到掩盖标记预测结果，以学习到词汇的上下文相关性，并输出对应的MLM损失函数：

；

其中，该MLM损失函数中的为输入标记，/>为对应的被掩盖标记，该P为Bert编码层输出的预测概率；

同时，该Bert编码层通过NSP（Next Sentence Prediction）在目标训练样本数据中随机选择两个句子，并判断两个句子在原文中是否为连续，从而确定两个句子之间的关系，Bert编码层进而通过NSP算法对目标训练样本数据进行遍历，得到目标训练样本数据对应的全文关系结果，并输出该全文关系结果对应的NSP损失函数：

；

其中，该NSP损失函数中的和/>均为目标训练样本数据中包含的两个句子，为句子/>和/>在原文中是否相邻；

之后，Bert编码层基于该全文关系结果和掩盖标记预测结果将目标训练样本数据内包含的文本序列全部转化为高维向量，从而得到Token-level输出和Sentence-level输出两部分，Bert编码层进而将该Token-level输出和Sentence-level输出两部分确定为目标训练样本数据对应的漏洞描述信息高维特征。

进一步地，在一种可行的实施例中，上述步骤S20，还可以包括：

步骤S204：获取预设的词汇表，并基于所述词汇表对所述目标训练样本数据进行转化得到离散符号序列；

步骤S205：通过所述初始漏洞信息关键字提取模型提取所述离散符号序列对应的正向长短期记忆网络计算结果和逆向长短期记忆网络计算结果；

步骤S206：根据所述正向长短期记忆网络计算结果和所述逆向长短期记忆网络计算结果得到所述目标训练样本数据对应的序列顺序特征。

需要说明的是，请参照图7，图7为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的双向LSTM编码层结构示意图，如图7所示，该双向LSTM是一种循环神经网络的变体，它结合了正向和逆向的信息流，以更全面地捕捉序列数据中的上下文信息。

在本实施例中，初始关键字信息提取模型在得到目标训练样本数据对应的漏洞描述信息高维特征之后，还需要基于获取的漏洞描述信息高维特征生成词汇表，并基于该词汇表对目标训练样本数据进行处理从而得到能够被模型使用的离散序列符号，之后，初始关键字模型基于该离散序列符号进行正向长短期记忆网络计算和逆向长短期记忆网络计算以得到正向长短期记忆网络计算结果和逆向长短期记忆网络计算结果，最后，初始关键字模型将计算得到的正向长短期记忆网络计算结果和逆向长短期记忆网络计算结果进行加和，从而得到目标训练样本数据对应的序列顺序特征。

示例性地，例如，初始Transformer模型在获取漏洞描述信息高维特征之后，首先基于汉语词典、牛津英文词典、ASCII码表及漏洞描述信息高维特征生成词汇表，初始Transformer模型进而基于该词汇表对目标训练样本数据中包含的文本序列进行转换从而得到为能够被模型处理的离散序列符号，初始Transformer模型进而将该离散序列符号通过Bert编码层输入至自身所配置的双向LSTM编码层，首先通过该双向LSTM编码层进行正向LSTM计算：

输入：；

遗忘：；

之后，双向LSTM编码层通过输入门和遗忘门公式能够对双向LSTM编码层内的RNN单元状态进行更新：；

输出：；

双向LSTM编码层进而基于RNN单元状态和输出门对应的输出结果确定正向LSTM计算结果：；

需要说明的是，该输入门的计算公式中，、/>及/>均为用于输入门计算的权重矩阵和偏置向量，/>为Sigmoid函数，此外，在遗忘门计算过程中，/>、/>及/>均为用于遗忘门计算的权重矩阵和偏置向量；此外，在RNN单元状态更新过程中，/>、/>及/>均为RNN单元状态更新过程中所需要的权重矩阵和偏置向量；此外，在输出门计算过程中，该/>，及/>为用于输出门计算的权重矩阵和偏置向量；此外，⊙为逐元素乘法，可以理解的是，该正向LSTM计算包含输入门计算、遗忘门计算、RNN单元状态更新、输出门计算及隐藏状态更新，通过这几个计算步骤，LSTM编码层可以捕获和处理输入序列中的长期依赖关系，并输出响应的隐藏序列状态。

同时，初始Transformer模型通过该双向LSTM编码层进行逆向LSTM计算：

输入：；

遗忘：；

输出：；

双向LSTM编码层进而基于RNN单元状态和输出门对应的输出结果确定逆向LSTM计算结果：；

之后，Transformer模型将该正向LSTM计算结果和该逆向LSTM计算结果/>进行拼接或叠加，从而得到LSTM编码层输出的最终输出结果，并将该最终输出结果确定为序列顺序特征。

如此，本申请通过构建上述的词汇表能够将目标训练样本数据中包含的原始文本中的词汇量限制在一个相对较小的范围内，从而降低输入维度，减少模型的复杂度和计算资源的需求，同时，还能将不同的词汇映射到相应的标记，使得模型能够处理未见过的词汇，此外，本申请通过构建词汇表，还能限制输入序列的最大长度，从而避免Transormer模型在输入较长的序列时可能会出现模型计算复杂度增加，梯度消失或爆炸等情况。同时，Transformer模型能够通过双向LSTM编码层更准确的捕捉训练数据内的上线文特征。

进一步地，在一种可行的实施例中，上述步骤S30，具体可以包括：

步骤S301：获取预设的初始条件随机场模型，并基于所述漏洞描述信息高维特征和所述序列顺序特征计算得到所述初始条件随机场模型对应的目标权重数值；

步骤S302：基于所述目标权重数值对所述初始条件随机场模型进行处理得到目标条件随机场模型。

需要说明的是，该初始条件随机场模型是一个判别式模型，建模目标是确定条件概率，即通过该条件随机场模型确定，其中，X为漏洞描述信息经过bert编码层和双向LSTM编码层提取得到的序列顺序特征，Y为不同关键字的类别的标签（例如，在一个新闻分类任务中，类别标签可以包括“体育”、“科技”等。在一个情感分析任务中，类别标签可以包括“积极”、“消极”、“中性”等标签）。

在本实施例中，初始漏洞描述信息关键字提取模型在获取序列顺序特征之后，初始漏洞描述信息关键字提取模型还可以获取技术人员预设的初始条件随机场模型，并将该序列顺序特征和上述的漏洞描述信息高维特征输入至该初始条件随机场模型，初始漏洞描述信息关键字提取模型通过该初始条件随机场模型对序列顺序特征和该漏洞描述信息高维特征进行处理，从而得到该初始条件随机场模型内预设的边特征函数和节点特征函数各自对应的目标权重数值，之后，初始漏洞描述信息关键字提取模型基于该目标权重数值对该初始条件随机场模型进行处理得到待处理条件随机场模型，初始漏洞描述信息关键字提取模型进而对该待处理条件随机场模型进行归一化处理从而得到目标条件随机场模型。

示例性地，例如，初始Transformer模型在提取到目标训练样本数据对应的序列顺序特征和漏洞描述信息高维特征之后，初始Transformer模型读取技术人员预设的初始条件随机场模型：

；

其中，该初始条件随机场模型中的和/>分别为该初始条件随机场模型中的边特征函数和节点特征函数，可以理解的是，该边特征函数/>只与当前位置的标签和上一时刻的标签有关，考虑了相邻标签之间的关系。它描述了标签序列中相邻标签对的特征与它们出现的条件概率之间的关系，且该边特征函数/>通常定义在标签对/>上，表示给定观测序列和相邻标签对时，某个特征出现的条件概率；同样的，该节点特征函数/>只与当前位置的输入和标签有关，描述了标签和观测之间的关系。它将当前观测和标签之间的特征关系转化为条件概率。节点特征函数通常定义在标签/>上，表示给定观测序列和当前标签时，某个特征出现的条件概率；此外，可以理解的是，该边特征函数和节点特征函数可以由技术人员提前设置好；

初始Transformer模型基于该初始条件随机场模型对双向LSTM编码层输出的序列顺序特征和Bert编码层输出的漏洞描述信息高维特征进行处理，从而得到与边特征函数对应的第一权重值/>，和与节点特征函数/>对应的第二权重值/>，之后，初始Transformer模型基于该第一权重值/>和该第二权重值/>得到归一化处理需要的分母：

；

其中，该为给定观察序列/>在第i个位置的得分矩阵，具体为：

；

其中，；

初始Transformer模型进而基于该分母对初始条件随机场模型进行归一化处理得到归一化条件随机场模型：

；

初始Transformer模型对该归一化条件随机场模型取对数，从而得到归一化因子：

；

初始Transformer模型进而基于该归一化因子得到目标条件随机场模型为：

。

基于上述本申请漏洞信息关键字提取模型的构建方法的第一实施例，在此提出本申请漏洞信息关键字提取模型的构建方法第二实施例。

进一步地，在一种可行的实施例中，在上述步骤S102中“基于所述英文漏洞描述信息进行翻译以得到中文漏洞描述信息”的步骤之后，本申请漏洞信息关键字提取模型的构建方法还可以包括以下步骤：

步骤A10：确定所述中文漏洞描述信息对应的各文本序列长度，并在各所述文本序列长度中确定最大序列长度；

步骤A20：基于所述最大序列长度对所述中文漏洞描述信息进行填充得到目标中文漏洞描述信息；

步骤A30：对所述英文漏洞标签关键字进行拆分以得到目标漏洞标签关键字，并根据所述目标中文漏洞描述信息和所述目标漏洞标签关键字生成目标训练样本数据。

需要说明的是，终端设备在得到中文漏洞描述关键字之后，还可以首先确定各中文漏洞描述信息各自对应的文本序列长度，终端设备进而基于各该文本序列长度确定最大序列长度，之后，终端设备基于该最大序列长度对各中文漏洞描述信息进行填充从而得到各目标中文漏洞描述关键字，最后，终端设备调用该应用程序接口调用与自身相连的单词拆分模块，从而将该英文漏洞标签关键字进行拆分得到目标漏洞标签关键字，并基于得到的目标中文漏洞描述信息和该目标漏洞标签关键字生成训练用的目标训练样本数据。

示例性地，例如，请参照图8，图8为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的批量大小与填充率变化图，如图8所示，终端设备在得到中文漏洞描述关键字之后，还可以先对初始训练样本数据内包含的各文本序列进行采样，以采用不同的batch_size计算填充率，终端设备进而确定batch_size=64的批大小为最平衡的参数，并以该batch_size=64的批大小对获取的各中文漏洞描述信息进行分批，终端设备确定每批文本序列内包含的中文漏洞描述信息各自对应的序列长度，终端设备进而在各序列长度中确定长度最长的最长序列长度，之后，终端设备基于每批次中文漏洞描述信息各自对应的最长序列长度对各中文漏洞描述信息进行填充，从而得到序列长度均为最长序列长度的各目标中文漏洞描述信息，最后终端设备通过API调用与自身相连的衍生拆分模块对初始训练样本数据内包含的company、brand、vision等漏洞标签下包含的英文漏洞标签关键字进行拆分，例如，将“firefox”拆分为“fire fox”，或者，将各英文漏洞标签关键词之间存在的“-”或“_”等符号替换为空格或删除，直至将各英文漏洞标签关键字完全拆解以生成目标漏洞关键字，最后，终端设备基于上述的目标中文漏洞描述信息和拆分后的目标漏洞关键字生成用于训练的目标训练样本数据。

如此，终端设备能够确保输入至初始Transformer模型内的训练数据的长度均为一致，从而避免序列长度设置过短导致文本序列中会存在丢失关键信息，或者，序列长度设置过长导致额外增加初始Transformer模型的计算量的技术问题，同时，请参照图9，图9为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的掩码示意图，如图9所示，本申请通过采用上述方式确保了初始Transformer模型内的bert编码层能够在训练过程中标记每条漏洞描述信息填充位置，从而令bert编码层能够在输出时通过生成的掩码对特征进行隐藏，以使得填充位的特征为0，进而避免了由于bert编码层和双向LSTM编码层在建模训练时都会把填充位进行编码当作信息位进行学习，从而导致当bert编码层在学习到错误的填充位时会将高维信息传递给双向LSTM编码层，由此导致后续算法会学习到更多错误信息的情况出现。

此外，需要说明的是，由于bert编码层和双向LSTM编码层采用随机梯度下降，因此初始Transformer模型的损失来源于最后一个环节的条件随机场的最大似然估计，而由于bert编码层、双向LSTM编码层及条件随机场模型三个阶段各自对应的结构注定在不同编码层处理数据时的学习难度和收敛速度存在差异，因此，在未对目标条件随机场进行设置的情况下，对目标条件随机场进行检查即可发现双向LSTM编码层输出的目标数据对应的标签分数远远大于转移矩阵的数值，即，此时条件随机场的作用微乎其微，并没有起到约束作用。可以理解的是，上述现象是由于bert编码层结构以及针对漏洞关键字领域的分词会使bert编码层和双向LSTM编码层快速收敛，而目标条件随机场收敛较慢，因此导致初始Transformer模型整体不再更新，而条件随机场没有优化到位。因此，在本实施例及另一实施例中，终端设备还可以设置目标条件随机场的学习率为bert编码层的学习率的1000倍，以避免条件随机场不起作用的情况出现。

此外，需要说明的是，由于训练数据来源于经过网络爬虫获取的基础数据，从而导致该训练数据整体来看还是存在漏洞描述信息里有关键字没有标注出来的情况，而这会导致训练时精确率不高的情况出现。因此，在本实施例及另一实施例中，终端设备在训练模型之前，还可以确定目标训练样本数据对应的关键字类别覆盖率，从而基于各该关键字类别覆盖率在各目标训练样本数据中确定关键字覆盖率大于0.5的目标训练样本数据，并基于该关键字覆盖率大于0.5的目标训练样本数据对初始Transformer模型进行训练。如此，通过对关键字覆盖率进行筛选，终端设备能够避免用于训练的训练数据中存在部分漏洞描述信息关键字没有标注出来的情况出现，进而避免训练出的模型存在精确度较低的情况。

同样的，终端设备在训练得到目标Transformer模型之后，还可以确定验证集内包含的各验证集样本各自对应的关键字类别覆盖率，从而基于该关键字类别覆盖率在各验证集样本中确定关键字覆盖率大于0.8的目标验证集样本，并基于该目标验证集样本对目标Transformer模型进行验证，以确保用于对目标Transformer模型进行评测的验证集具有客观性，进而保证得到的目标Transformer模型的准确率和召回率具有客观性。

此外，需要说明的是，请参照图10和图11，其中，图10为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的训练损失函数变化图，图11为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的训练准确度变化图，如图10和图11所示，在本实施例及另一实施例中，图10中和图11中的epoch表示训练过程中数据轮询次数，loss则是在训练过程中输出的损失值。图10中的曲线A随着训练次数增加损失值越来越小，图10中的曲线B为验证曲线，其损失值则越来越大，由此可以判断数据质量对结果的影响较大，因此本申请通过采用了缩小数据范围，异常数据补偿解析的方式提升准确率，从图11的曲线可以看出，随着次数的增加，曲线A和曲线B结果趋向于拟合，在91%以上。

此外，请参照图12，图12为本申请漏洞信息关键字提取模型的构建方法一实施例涉及的关键词识别结果示意图，在本实施例及另一实施例中，当终端设备训练得到目标Transformer模型之后，终端设备可通过该目标Transformer模型对获取的CVE漏洞描述信息进行识别，从而在CVE漏洞描述信息中提取出漏洞描述信息关键字，从而得到一个由数组构成的关键字识别结果，通过该关键字识别结果能够确定关键字的开始位置、结束位置、关键词属性及关键词值。

此外，为实现上述目的，本申请还提供一种漏洞信息关键字提取模型的构建装置，所述漏洞信息关键字提取模型的构建装置应用于和终端设备相连的第一车辆，所请参照图13，图13为本申请漏洞信息关键字提取模型的构建装置一实施例涉及的功能模块示意图，如图13所示，所述装置包括：

数据获取模块10，用于获取目标训练样本数据；

特征提取模块20，用于通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征；

随机场构建模块30，用于基于所述漏洞描述信息高维特征和所述序列顺序特征得到目标条件随机场模型；

模型构建模型40，用于根据所述目标条件随机场模型和所述初始漏洞信息关键字提取模型生成目标漏洞信息关键字提取模型。

进一步地，数据获取模块10，包括：

样本读取单元，用于获取初始训练样本数据，并确定所述初始训练样本数据内包含的英文漏洞描述信息和英文漏洞标签关键字；

文本处理单元，用于对所述英文漏洞描述信息进行翻译以得到中文漏洞描述信息，并对所述英文漏洞标签关键字进行拆分以得到目标漏洞标签关键字；

标签生成单元，用于根据所述中文漏洞描述信息和所述目标漏洞标签关键字生成目标训练样本数据。

进一步地，标签生成单元，包括：

标签确认子单元，用于确定所述中文漏洞描述信息和所述目标漏洞标签关键字各自对应的分类标签；

标签添加子单元，用于基于各所述分类标签生成目标训练样本数据。

进一步地，文本处理单元，包括：

长度测定子单元，用于确定所述中文漏洞描述信息对应的各文本序列长度，并在各所述文本序列长度中确定最大序列长度；

文本填充子单元，用于基于所述最大序列长度对所述中文漏洞描述信息进行填充得到目标中文漏洞描述信息；

标签添加子单元，用于对所述英文漏洞标签关键字进行拆分以得到目标漏洞标签关键字，并根据所述目标中文漏洞描述信息和所述目标漏洞标签关键字生成目标训练样本数据。

进一步地，特征提取模块20，包括：

特征提取单元，用于通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的掩盖标记预测结果和全文关系结果；

向量转换单元，用于对所述掩盖标记预测结果和所述全文关系结果进行转换得到目标输出向量；

池化操作单元，用于对所述目标输出向量进行池化操作得到所述目标训练样本数据对应的漏洞描述信息高维特征。

进一步地，特征提取模块20，还包括：

文本转换单元，用于获取预设的词汇表，并基于所述词汇表对所述目标训练样本数据进行转化得到离散符号序列；

双向计算单元，用于通过所述初始漏洞信息关键字提取模型提取所述离散符号序列对应的正向长短期记忆网络计算结果和逆向长短期记忆网络计算结果；

结果拼接单元，用于根据所述正向长短期记忆网络计算结果和所述逆向长短期记忆网络计算结果得到所述目标训练样本数据对应的序列顺序特征。

进一步地，随机场构建模块30，包括：

权重计算单元，用于获取预设的初始条件随机场模型，并基于所述漏洞描述信息高维特征和所述序列顺序特征计算得到所述初始条件随机场模型对应的目标权重数值；

条件随机场构建单元，用于基于所述目标权重数值对所述初始条件随机场模型进行处理得到目标条件随机场模型。

此外，本申请还提供一种终端设备，该终端设备上有可在处理器上运行的计算机程序，所述终端设备执行所述计算机程序时实现如以上任一项实施例所述的漏洞信息关键字提取模型的构建方法的步骤。

本申请终端设备的具体实施例与上述漏洞信息关键字提取模型的构建方法各实施例基本相同，在此不作赘述。

此外，本申请还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上任一项实施例所述漏洞信息关键字提取模型的构建方法的步骤。

本发计算机可读存储介质的具体实施例与上述漏洞信息关键字提取模型的构建方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是内部配置有模型训练装置的移动终端、数据存储控制终端、PC等终端)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种漏洞信息关键字提取模型的构建方法，其特征在于，所述漏洞信息关键字提取模型的构建方法包括步骤：

获取目标训练样本数据；

所述通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的漏洞描述信息高维特征和序列顺序特征的步骤，包括：

对所述目标输出向量进行池化操作得到所述目标训练样本数据对应的漏洞描述信息高维特征；

和，

根据所述正向长短期记忆网络计算结果和所述逆向长短期记忆网络计算结果得到所述目标训练样本数据对应的序列顺序特征；

所述基于所述漏洞描述信息高维特征和所述序列顺序特征得到目标条件随机场模型的步骤，包括：

基于所述目标权重数值对所述初始条件随机场模型进行处理得到目标条件随机场模型；

根据所述目标条件随机场模型对所述初始漏洞信息关键字提取模型添加约束以生成目标漏洞信息关键字提取模型。

2.如权利要求1所述的漏洞信息关键字提取模型的构建方法，其特征在于，所述获取目标训练样本数据的步骤，包括：

3.如权利要求2所述的漏洞信息关键字提取模型的构建方法，其特征在于，所述根据所述中文漏洞描述信息和所述目标漏洞标签关键字生成目标训练样本数据的步骤，包括：

基于各所述分类标签生成目标训练样本数据。

4.如权利要求2所述的漏洞信息关键字提取模型的构建方法，其特征在于，在所述对所述英文漏洞描述信息进行翻译以得到中文漏洞描述信息的步骤之后，所述方法还包括：

5.一种漏洞信息关键字提取模型的构建装置，其特征在于，所述装置包括：

数据获取模块，用于获取目标训练样本数据；

所述提取模块，还用于通过预设的初始漏洞信息关键字提取模型提取所述目标训练样本数据对应的掩盖标记预测结果和全文关系结果；

和，

所述随机场构建模块，还用于获取预设的初始条件随机场模型，并基于所述漏洞描述信息高维特征和所述序列顺序特征计算得到所述初始条件随机场模型对应的目标权重数值；

模型构建模块，用于根据所述目标条件随机场模型对所述初始漏洞信息关键字提取模型添加约束以生成目标漏洞信息关键字提取模型。

6.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的漏洞信息关键字提取模型的构建方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的漏洞信息关键字提取模型的构建方法的步骤。