CN111343203B

CN111343203B - 一种样本识别模型训练方法、恶意样本提取方法及装置

Info

Publication number: CN111343203B
Application number: CN202010419722.6A
Authority: CN
Inventors: 王栋; 赵丙镇; 杨珂; 玄佳兴; 龚政; 郭宝贤; 许天兴
Original assignee: State Grid E Commerce Co Ltd
Current assignee: State Grid Digital Technology Holdings Co ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-08-28
Anticipated expiration: 2040-05-18
Also published as: CN111343203A

Abstract

本申请实施例公开了一种样本识别模型训练方法、恶意样本提取方法及装置，包括：获取训练文本数据；根据所述训练文本数据中的恶意样本标签对第一词汇进行恶意样本标注的标记与词边界标注的标记；依次选取所述训练文本数据中包含的语句作为目标训练语句；根据第二词汇，得到第二词汇对应的词向量和字符向量；将所述词向量和所述字符向量进行拼接，得到所述第二词汇的序列表示向量，进而得到所述目标训练语句的序列表示向量；将所述目标训练语句的序列表示向量、所述词边界标注和所述恶意样本标注作为训练数据，通过所述训练数据训练得到样本识别模型，使得样本识别模型可以较为全面地、准确地检测恶意样本。

Description

一种样本识别模型训练方法、恶意样本提取方法及装置

技术领域

本申请涉及人工智能技术领域，具体涉及一种样本识别模型训练方法、恶意样本提取方法及装置。

背景技术

随着网络技术的快速发展，网络安全受到越来越多的关注。在现有的网络环境中，存在着众多的威胁网络安全的因素。其中，对于网络中描述现存的、或者是即将出现针对资产的威胁或危险的相关信息可以称为威胁情报，威胁情报中则存在大量对于恶意样本的描述，这些恶意样本有助于网络安全工程师分析网络中可能发生的定向攻击或APT（AdvancedPersistent Threat，高级持续威胁）攻击。较早地检测以及发现恶意样本可以有效地分析出当前网络存在的安全问题及可能发生的攻击事件，以此做出相应的防御措施与安全决策。在大数据环境下，对于恶意样本的检测，可以从已收集的威胁情报中提取关于恶意样本的关键词汇，通过模型训练可以自动从相关网络的文本中获取这些关键词汇，即实现模型自动检测恶意样本，可以及时、准确地发现网络攻击和威胁情报。但是，现有的恶意样本的提取技术中存在恶意样本类型少、准确率不高的问题，不能全面地、准确地检测恶意样本。

发明内容

有鉴于此，本申请实施例提供一种样本识别模型训练方法、恶意样本提取方法及装置，能够实现较为准确的对恶意样本进行提取。

本申请实施例提供的技术方案如下：

第一方面，本申请提供一种样本识别模型训练方法，所述方法包括：

获取训练文本数据；

根据所述训练文本数据中的恶意样本标签对第一词汇进行恶意样本标注的标记与词边界标注的标记；所述第一词汇为所述训练文本数据中的词汇；所述恶意样本标签是预先定义的；

其中，所述根据所述训练文本数据中的恶意样本标签对第一词汇进行恶意样本标注的标记与词边界标注的标记，包括：

若所述第一词汇具有所述恶意样本标签，则标记恶意样本标注；

若所述第一词汇不具有所述恶意样本标签，则标记第一词边界标注；

若所述第一词汇具有所述恶意样本标签，则按照所述第一词汇在恶意样本中的顺序，标记第二词边界标注；

依次选取所述训练文本数据中包含的语句作为目标训练语句；根据第二词汇，得到所述第二词汇对应的词向量；根据所述第二词汇中的字符得到所述第二词汇对应的字符向量；所述第二词汇为所述目标训练语句中的词汇；

将所述词向量和所述字符向量进行拼接，得到所述第二词汇的序列表示向量，将所述第二词汇的序列表示向量组合，得到所述目标训练语句的序列表示向量；

将所述目标训练语句的序列表示向量、所述词边界标注和所述恶意样本标注作为训练数据，通过所述训练数据训练得到样本识别模型；所述样本识别模型用于识别词汇是否属于恶意样本；所述样本识别模型由双向长短期记忆网络层以及条件随机场层组成。

可选的，所述样本识别模型由双向长短期记忆网络层、注意力机制层以及条件随机场层组成。

可选的，所述方法还包括：将由所述第一词边界标记的词汇组成的目标训练语句进行删除，得到更新后的训练文本数据。

可选的，所述根据第二词汇，得到所述第二词汇对应的词向量，包括：

将第二词汇输入GLoVe模型中，得到所述第二词汇对应的词向量；

所述根据所述第二词汇中的字符得到所述第二词汇对应的字符向量，包括：

将所述第二词汇中的字符输入至卷积神经网络模型中，得到所述第二词汇的字符向量。

第二方面，本申请提供一种恶意样本提取方法，所述方法包括：

获取待识别文本数据；

依次选取所述待识别文本数据中包含的语句作为目标语句；根据第三词汇，得到所述第三词汇对应的词向量；根据所述第三词汇中的字符得到所述第三词汇对应的字符向量；所述第三词汇为所述目标语句中的词汇；

将所述词向量和所述字符向量进行拼接，得到所述第三词汇的序列表示向量，将所述第三词汇的序列表示向量组合，得到所述目标语句的序列表示向量；

将所述目标语句的序列表示向量输入到样本识别模型中，得到识别结果，所述识别结果包括词边界标注识别结果和恶意样本标注识别结果；所述样本识别模型为上述样本识别模型的训练方法训练得到的，用于识别所述待识别文本数据中的词汇是否属于恶意样本；

根据所述识别结果，判断所述第三词汇是否属于所述恶意样本，将属于所述恶意样本的第三词汇进行提取。

可选的，所述根据所述识别结果，判断所述第三词汇是否属于所述恶意样本，包括：

根据所述识别结果中的恶意样本标注识别结果，通过判断所述第三词汇是否具有恶意样本标注，判断所述第三词汇是否属于所述恶意样本；若所述第三词汇具有恶意样本标注，则所述第三词汇属于所述恶意样本。

第三方面，本申请提供一种样本识别模型训练装置，所述装置包括：

获取单元，用于获取训练文本数据；

标记单元，用于根据获取训练文本数据中的恶意样本标签对第一词汇进行恶意样本标注的标记与词边界标注的标记；所述第一词汇为所述训练文本数据中的词汇；所述恶意样本标签是预先定义的；

其中，所述根据获取训练文本数据中的恶意样本标签对第一词汇进行恶意样本标注的标记与词边界标注的标记，包括：

第一向量获取单元，用于依次选取所述训练文本数据中包含的语句作为目标训练语句；根据第二词汇，得到所述第二词汇对应的词向量；根据所述第二词汇中的字符得到所述第二词汇对应的字符向量；将所述第二词向量和所述字符向量进行拼接，得到所述第二词汇的序列表示向量，将所述第二词汇的序列表示向量组合，得到所述目标训练语句的序列表示向量；所述第二词汇为所述目标训练语句中的词汇；训练单元，用于将所述目标训练语句的序列表示向量、所述词边界标注和所述恶意样本标注作为训练数据，通过所述训练数据训练得到样本识别模型；所述样本识别模型用于识别词汇是否属于恶意样本；所述样本识别模型由双向长短期记忆网络层以及条件随机场层组成。

可选的，所述装置还包括：删除单元，用于将由第一词边界标记的词汇组成的目标训练语句进行删除，得到更新后的训练文本数据。

可选的，所述向量获取单元具体用于，将第二词汇输入GLoVe模型中，得到所述第二词汇对应的词向量；将所述第二词汇中的字符输入至卷积神经网络模型中，得到所述第二词汇的字符向量。

第四方面，本申请提供一种恶意样本提取装置，所述装置包括：

第二向量获取单元，用于获取待识别文本数据，依次选取所述待识别文本数据中包含的语句作为目标语句；根据第三词汇，得到所述第三词汇对应的词向量；根据所述第三词汇中的字符得到所述第三词汇对应的字符向量；将所述词向量和所述字符向量进行拼接，得到所述第三词汇的序列表示向量，将所述第三词汇的序列表示向量组合，得到所述目标语句的序列表示向量；所述第三词汇为所述目标语句中的词汇；

样本识别单元，用于将所述目标语句的序列表示向量输入到样本识别模型中，得到识别结果，所述识别结果包括词边界标注识别结果和恶意样本标注识别结果；所述样本识别模型为上述样本识别模型的训练方法训练得到的，用于识别所述待识别文本数据中的词汇是否属于恶意样本；

提取单元，用于根据所述识别结果，判断所述第三词汇是否属于所述恶意样本，将属于所述恶意样本的第三词汇进行提取。

可选的，所述提取单元，包括：

判断单元，用于根据所述识别结果中的恶意样本标注识别结果，通过判断第三词汇是否具有恶意样本标注，判断所述第三词汇是否属于所述恶意样本；若所述第三词汇具有恶意样本标注，则所述第三词汇属于所述恶意样本；

词汇提取单元，用于将属于恶意样本的第三词汇进行提取。

由此可见，本申请实施例具有如下有益效果：

本申请实施例提供的一种样本识别模型训练方法通过获取训练文本数据，根据所述训练文本数据中的恶意样本标签对第一词汇进行恶意样本标注的标记与词边界标注的标记；依次选取所述训练文本数据中包含的语句作为目标训练语句；根据第二词汇，得到词汇对应的词向量和词汇对应的字符向量；将所述词向量和所述字符向量进行拼接，得到所述词汇的序列表示向量，将所述词汇的序列表示向量组合，得到所述目标训练语句的序列表示向量；将所述目标训练语句的序列表示向量、所述词边界标注和所述恶意样本标注作为训练数据，通过所述训练数据训练得到样本识别模型；样本识别模型用于识别词汇是否属于恶意样本；样本识别模型由双向长短期记忆网络层以及条件随机场层组成。本申请实施例提供的方法通过根据词向量和字符向量得到词汇的序列表示向量，进而得到目标训练语句的序列表示向量，将目标训练语句的序列表示向量、词边界标注和恶意样本标注作为训练数据，可以更好的通过多维度训练样本识别模型，使得样本识别模型可以较为全面地、准确地检测恶意样本。

在实际应用中，通过样本识别模型对待识别文本数据进行恶意样本的识别，可以得到较为准确的识别结果，由此可以较为准确的得到待识别文本数据中的恶意样本，可以更好的通过恶意样本检测以及发现威胁情报。

附图说明

图1为本申请实施例提供的一种样本识别模型的训练方法的流程图；

图2为本申请实施例提供的一种词边界标注的标记方法的流程图；

图3为本申请实施例提供的一种样本识别模型的结构示意图；

图4为本申请实施例提供的一种恶意样本提取方法的流程图；

图5为本申请实施例提供的一种样本识别模型训练装置结构示意图；

图6为本申请实施例提供的一种恶意样本提取装置结构示意图。

具体实施方式

为了便于理解和解释本申请实施例提供的技术方案，下面将先对本申请的背景技术进行说明。

发明人在对传统的威胁情报中的恶意样本提取方法进行研究后发现，在现有的对于恶意样本的提取方法中，采用传统的深度学习提取方法，对恶意样本的特征表示不够充分，使得所提取的恶意样本的特征不够准确，对于威胁情报中的恶意样本的识别结果较差。

基于此，本申请实施例提供了一种样本识别模型训练方法，获取训练文本数据，根据所述训练文本数据中的恶意样本标签对第一词汇进行恶意样本标注的标记与词边界标注的标记；依次选取所述训练文本数据中包含的语句作为目标训练语句；根据第二词汇，得到第二词汇对应的词向量；根据所述第二词汇中的字符得到所述第二词汇对应的字符向量；将所述词向量和所述字符向量进行拼接，得到所述第二词汇的序列表示向量，将所述第二词汇的序列表示向量组合，得到所述目标训练语句的序列表示向量；将所述目标训练语句的序列表示向量、所述词边界标注和所述恶意样本标注作为训练数据，通过所述训练数据训练得到样本识别模型；所述样本识别模型用于识别词汇是否属于恶意样本；所述样本识别模型由双向长短期记忆网络层以及条件随机场层组成。通过根据训练文本数据的目标训练语句获取词汇的序列表示向量，可以使得对于词汇的特征更加准确，得到识别恶意样本更加准确的样本识别模型，从而实现了对于恶意样本的较为全面和准确的提取。

为便于理解本申请提供的种样本识别模型训练方法，下面将结合附图对该技术方案进行说明。

参见图1，该图为本申请实施例提供的一种样本识别模型的训练方法的流程图，如图1所述，该方法可以包括：

S101：获取训练文本数据。

训练文本数据可以为已确定的威胁情报中的文章或者是语段，可以理解的是，训练文本数据是由多个句子组成的，其中，每个句子中具有多个词汇，本申请实施例不限定训练文本数据的数量。

需要说明的是，恶意样本是指在威胁情报中较为关键的，具有代表性的，包含相关的威胁信息或者是恶意信息特征的词组。训练文本数据中包含恶意样本或对恶意样本的描述，本申请实施例中不限定恶意样本在训练文本数据中所占比例。恶意样本中可能包括一个或者多个词汇。训练文本数据中具有与恶意样本或者是与恶意样本的描述对应的恶意样本标签，可以为通过人工手动标记得到，也可以为通过标记系统标记得到。例如，可以通过brat系统进行标签标记的工作。

本申请实施例中不限定恶意样本标签的种类，恶意样本标签是预先定义的，在一种可能的实现方式中，可以包括以下10种中的一种或者多种：黑客组织名称、恶意MD5值、恶意SHA1值、恶意SHA256值、URL样本、IP样本、漏洞ID、漏洞名称、恶意软件ID和恶意软件名称。其中，恶意MD5值、恶意SHA1值、恶意SHA256值均是与加密算法有关的恶意样本，漏洞ID、漏洞名称是与漏洞相关的恶意样本，URL样本和IP样本用于表示与网络地址有关的恶意样本。

需要说明的是，由于在网络中常见的威胁情报的文本数据的格式与样本识别模型训练所需的数据格式并不相同，而获取到的训练文本数据是来源于原始的威胁情报的，所以需要进行格式的转换，可以将文本数据的格式转换为训练样本识别模型所需的格式。

S102：根据所述训练文本数据中的恶意样本标签对第一词汇进行恶意样本标注的标记与词边界标注的标记。

需要说明的是，第一词汇为所述训练文本数据中的词汇，词边界标注是对第一词汇进行有关恶意样本边界标记，可以通过词边界标注明确单个第一词汇是否具有恶意样本标签以及在具有恶意样本标签的恶意样本中的相对位置。在本申请实施例中可以对训练文本数据中所有的第一词汇进行词边界标注。

在一种可能的实现方式中，具有恶意样本标签的第一词汇，也就是恶意样本中的第一词汇，可以分为一类；不具有恶意样本标签的第一词汇，也就是不属于恶意样本的第一词汇，可以分成另外一类。具体可以为：若所述第一词汇不具有恶意样本标签，则将所述第一词汇标记为第一词边界标注；若所述第一词汇具有恶意样本标签，则按照所述第一词汇在恶意样本中的顺序，将所述第一词汇标记为第二词边界标注。其中，第一词边界标注表示该第一词汇不具有恶意样本标签，第二词边界标注表示该第一词汇具有恶意样本标签，在进行第二词边界标注时可以根据第一词汇在恶意样本中的顺序进行细化的标记，根据第一词汇在恶意样本中的位置，可以将第二词边界标注分为起始标记、中间标记、结尾标记以及单独标记，分别对应第一词汇在恶意样本中的起始位置、中间位置、结尾位置或者是该恶意样本中仅具有一个第一词汇。在一种可能的实现方式中，第一词边界标注可以为O标记，第二词边界标注中起始位置可以为B标记、中间位置为M标记、结尾位置为E标记以及单独标记为S标记。在进行词边界标注时，可以先根据不同的第一词汇在恶意样本中的位置标记不同的第二词边界标注，再将不属于恶意样本的第一词汇标记为第一词边界标注。可以理解的是，本申请实施例中第一词汇在恶意样本中的位置是指该第一词汇在一个恶意样本中所处的位置。

参见图2，该图为本申请实施例提供的一种词边界标注的方法的流程图。S201：获取第一词汇，获取其中属于恶意样本的第一词汇。S202：判断该第一词汇是否是恶意样本中的单独词汇，若是，则标记单独标记；若否，执行S203。S203：判断该第一词汇是否为恶意样本的起始词汇，若是，则标记起始标记；若否，执行S204。S204：判断该第一词汇是否为恶意样本的结尾词汇，若是，则标记结尾标记；若否，则标记中间标记。S205：剩余的第一词汇标记第一词边界标注。S206：标记结束。以英文为例：训练文本数据中的一个目标训练语句为“…… delivering a variant of Bisonal malware ”其中，“Bisonal malware”被认为是恶意软件名称是恶意样本，具有恶意样本标签，例如在训练文本数据中可以将“Bisonalmalware”标记为“恶意软件名称”的恶意样本标签。在对第一词汇进行词边界标注时，“Bisonal malware”是具有“恶意软件名称”的恶意样本标签的恶意样本，可以标记第二词边界标注，判断并非是单独词汇，“Bisonal”在恶意样本中处于开头的起始位置，所以将“Bisonal”标记为B标记，“malware”在恶意样本中处于结尾的位置，所以将“malware”标记为E标记。之后将该目标训练语句中不具有恶意样本标签的第一词汇标记为第一词边界标注，例如“delivering a variant of”这几个第一词汇可以标记为O标记。

需要说明的是，恶意样本标注可以为根据训练文本数据中的恶意样本标签对第一词汇进行相应的标记。恶意样本标注可以用于区分第一词汇属于不同类型的恶意样本标签。可以理解的是，在一种可能的实施方式中，对于具有恶意样本标签的第一词汇，可以同时具有恶意样本标注与第二词边界标注，对于不具有恶意样本标签的第一词汇，可能仅具有第一词边界标注。

S103：依次选取所述训练文本数据中包含的语句作为目标训练语句；根据第二词汇，得到所述第二词汇对应的词向量；根据所述第二词汇中的字符得到所述第二词汇对应的字符向量；

将所述词向量和所述字符向量进行拼接，得到所述第二词汇的序列表示向量，将所述第二词汇的序列表示向量组合，得到所述目标训练语句的序列表示向量。

为了便于进行特征的提取，可以依次将训练文本数据中包含的语句作为目标训练语句。本申请实施例中不限定选取目标训练语句的顺序，可以根据训练文本数据中包含的语句的顺序，依次将语句作为目标训练语句，进行对应的目标训练语句的序列表示向量的获取。

需要说明的是，第二词汇为所述目标训练语句中的词汇，词向量是对于一个第二词汇提取特征得到的，字符向量是对于一个第二词汇中的字符提取特征得到的。字符向量和词向量分别表示不同维度的特征。

在进行向量转化之前，还可以包括以字符为单位或者以词汇为单位进行独热编码。

在一种可能的实施方式中，可以通过卷积神经网络得到所述第二词汇的字符向量，将训练文本数据以字符为单位进行独热编码，将生成的字符序列进行第一字符向量的转换。本申请实施例中训练文本数据包含多个目标训练语句，以其中一个目标训练语句为例，字符序列可以为

，其中

，T为一个目标训练语句中词汇的个数，i表示第i个第二词汇；

，n为一个第二词汇中字符的个数，j表示第j个字符；则

表示一个目标训练语句中第i个第二词汇的第j个字符。通过卷积神经网络从转换后的第一字符向量中提取字符特征，并通过卷积神经网络中的最大池化层将提取的特征转化为字符向量。

对于词向量的转换，可以通过GLoVe模型实现，可以先将训练文本数据以词汇为单位进行独热编码，将词序列

,输入到GLoVe模型中，其中

，T代表一个目标训练语句中词汇的个数，

则代表目标训练语句中第i个第二词汇，通过GLoVe模型转换词向量。

将得到的该第二词汇的词向量和该第二词汇的字符向量进行拼接，得到该第二词汇的序列表示向量，可以理解的是，一个第二词汇可以具有多个字符向量，字符向量的个数可以由一个第二词汇中的字符的数量决定。通过得到第二词汇的序列表示向量，可以从不同的维度得到第二词汇的特征，使得训练后的样本识别模型对于恶意样本的识别更加准确。

将得到的目标训练语句中各个第二词汇的序列表示向量进行组合得到对应的目标训练语句的序列表示向量。可以根据第二词汇在目标训练语句中的顺序进行第二词汇的序列表示向量的组合，得到对应的目标训练语句的序列表示向量。

S104：将所述目标训练语句的序列表示向量、所述词边界标注和所述恶意样本标注作为训练数据，通过所述训练数据训练得到样本识别模型；所述样本识别模型用于识别词汇是否属于恶意样本；所述样本识别模型由双向长短期记忆网络层以及条件随机场层组成。

可以理解的是，通过目标训练语句的序列表示向量、所述词边界标注和所述恶意样本标注作为训练数据得到的样本识别模型，可以用于根据词汇具有的特征判断该词汇属于词边界标注的种类以及属于恶意样本标注的概率，实现对于恶意样本的识别。需要说明的是，其中，目标训练语句的序列表示向量为训练文本数据中全部的目标训练语句对应的序列表示向量。

由于训练文本数据中可能与恶意样本无关的词汇组成的训练文本数据较多，如果使用较多的无关词汇进行训练，会导致具有恶意样本标签的恶意样本在训练文本数据中所占比率较低，影响样本识别模型的训练效果。所以，在开始进行对样本识别模型的训练之前，还可以将由第一词边界标记的词汇组成的目标训练语句进行删除，得到更新后的训练文本数据。其中，训练文本数据可以为句子，将全部由第一词边界标记词汇组成的句子进行删除，得到更新后的句子，也就是具有第二次边界标记的词汇的句子。由此可以得到具有第二次边界标记的词汇组成的训练文本数据，将不具有第二词边界标记的词汇的训练文本数据进行删除，可以减少不具有恶意样本标签的训练文本数据对样本识别模型造成的干扰，使得第一词边界标注的词汇与第二词边界标注的词汇在数量上平衡，实现了标记平衡。

由于恶意样本是处于句子或者是文章中的，所以恶意样本与上下文之间是具有一定的联系的，所以，样本识别模型可以由注意力机制层、双向长短期记忆网络层以及条件随机场层组成。通过在双向长短期记忆网络层后加入注意力机制层，可以增强与上下文环境的关联性，增强了词汇与上下文的关联性，提高了识别的准确性。

由此可知，本申请实施例提供的一种样本识别模型的训练方法，通过第二词汇的词向量和字符向量得到第二词汇的序列表示向量，第二词汇的序列表示向量可以从词汇的两个维度体现词汇的特性。通过第二词汇的序列表示向量得到目标训练语句的序列表示向量，将目标训练语句的序列表示向量作为训练数据进行训练之一，使得样本识别模型可以更好的学习恶意样本的特征，可以得到识别结果更加准确的样本识别数据。

参见图3，该图为本申请实施例提供的一种恶意样本提取方法的流程图，如图3所述，该方法可以包括：

S301：获取待识别文本数据，依次选取所述待识别文本数据中包含的语句作为目标语句；根据第三词汇，得到所述第三词汇对应的词向量；根据所述第三词汇中的字符得到所述第三词汇对应的字符向量；

将所述词向量和所述字符向量进行拼接，得到所述第三词汇的序列表示向量，将所述第三词汇的序列表示向量组合，得到所述目标语句的序列表示向量。

需要说明的是，待识别文本数据可以是未经过恶意样本标签标记的，不包含恶意样本标签的数据。

本申请实施例中，第三词汇为所述目标语句中的词汇，从待识别文本数据中选取目标语句，得到目标语句中第三词汇对应的词向量、字符向量以及得到第三词汇的序列表示向量和目标语句的序列表示向量的方法与上述S103中的方法相似，在此不再赘述。

S302：将所述目标语句的序列表示向量输入到样本识别模型中，得到识别结果，所述识别结果包括所述词边界标注识别结果和恶意样本标注识别结果；所述样本识别模型为根据上述样本识别模型的训练方法训练得到的，用于识别所述待识别文本数据中的第三词汇是否属于恶意样本。

需要说明的是，将待识别文本的目标语句的序列表示向输入到训练好的样本识别模型中，可以得到样本识别模型输出的词边界标注识别结果和恶意样本标注识别结果。可以理解的是，训练数据中每个词汇都具有对应的词边界标注，但是只有恶意样本具有恶意样本标记。对于任意一个第三词汇，词边界标注识别结果中具有的是该第三词汇最大概率对应的词边界标注，当词边界标注识别结果中该第三词汇最大概率对应的词边界标注为第一词边界标注时，该第三词汇的恶意样本标注识别结果可以为无对应的恶意样本标注。当词边界标注识别结果中该第三词汇最大概率对应的词边界标注为第二词边界标注时，该第三词汇的恶意样本标注识别结果可以为最大概率对应的恶意样本标注。

参见图4，该图为本申请实施例提供的一种样本识别模型的结构示意图。其中，

为一个目标语句中第i个第三词汇对应的词向量，

为一个目标语句中第i个第三词汇中第j个字符对应的字符向量。

为该目标语句的序列表示向量，其中

为该目标语句中第i个第三词汇的词向量和该第三词汇所有的字符向量拼接得到的特征向量。将特征向量输入到样本识别模型中，得到

。其中,

表示将第i个第三词汇的特征向量向前推算得到的词汇序列，

表示将第i个第三词汇的特征向量向后推算得到的序列，

为将第i个第三词汇向前推算和向后推算得到的序列进行结合得到的目标语句的特征序列。双向长短期记忆网络层根据词汇的特征序列可以得到每个词汇对应的标签的分值，通过条件随机场层输出符合词汇排列逻辑的识别结果。

S303：根据所述识别结果，判断所述第三词汇是否为恶意样本中的词汇，将属于恶意样本的第三词汇进行提取。

根据所述识别结果中的恶意样本标注识别结果，判断所述目标语句中的第三词汇是否具有恶意样本标注，若第三词汇具有恶意样本标注，则所述第三词汇为恶意样本中的词汇。

在确定该第三词汇是恶意样本后，可以根据词边界标注识别结果确定该第三词汇在恶意样本中的位置。由此可以通过对一个或者多个第三词汇进行识别结果的判断，得到识别后的恶意样本。

在一种可能的实现方式中，可以将识别得到的恶意样本储存在建立的恶意样本库中，可以根据恶意样本库中的恶意样本进行威胁情报的检测。

可以根据样本识别模型的识别结果进行对于样本识别模型的评估，可以根据样本识别模型得到的识别结果计算准确率和召回率，根据准确率和召回率的计算结果进行对于样本识别模型的评估和改进。其中，准确率是样本识别模型识别出的正确的恶意样本的数量与识别出的恶意样本的是数量的比值；召回率是样本识别模型识别出的正确的恶意样本的数量与待识别文本数据中具有的恶意样本的数量的比值。

本申请实施例提供的一种恶意样本提取方法，通过输入待识别文本数据中目标语句的序列表示向量，可以得到样本识别模型输出的识别结果，根据识别结果，可以得到恶意样本。通过将目标语句的序列表示向量作为输入数据，可以更加准确的反映目标语句中各个词汇的特征，使得样本识别模型识别的结果更加准确，得到较为准确的恶意样本，可以通过得到的恶意样本进行威胁情报的检测。

参见图5，该图为本申请实施例提供的一种样本识别模型训练装置结构示意图，如图5所述，该装置可以包括：

获取单元501，用于获取训练文本数据。

标记单元502，用于根据所述训练文本数据中的恶意样本标签对第一词汇进行恶意样本标注的标记与词边界标注的标记；所述第一词汇为所述训练文本数据中的词汇；所述恶意样本标签是预先定义的；

第一向量获取单元503，用于依次选取所述训练文本数据中包含的语句作为目标训练语句；根据第二词汇，得到所述第二词汇对应的词向量；根据所述第二词汇中的字符得到所述第二词汇对应的字符向量；将所述词向量和所述字符向量进行拼接，得到所述第二词汇的序列表示向量，将所述第二词汇的序列表示向量组合，得到所述目标训练语句的序列表示向量；

训练单元504，用于将所述目标训练语句的序列表示向量、所述词边界标注和所述恶意样本标注作为训练数据，通过所述训练数据训练得到样本识别模型；所述样本识别模型用于识别词汇是否属于恶意样本；所述样本识别模型由双向长短期记忆网络层以及条件随机场层组成。

参见图6，该图为本申请实施例提供的一种恶意样本提取装置结构示意图，如图6所述，该装置可以包括：

第二向量获取单元601，用于获取待识别文本数据，依次选取所述待识别文本数据中包含的语句作为目标语句；根据第三词汇，得到所述第三词汇对应的词向量；根据所述第三词汇中的字符得到所述第三词汇对应的字符向量；将所述词向量和所述字符向量进行拼接，得到所述第三词汇的序列表示向量，将所述第三词汇的序列表示向量组合，得到所述目标语句的序列表示向量；所述第三词汇为所述目标语句中的词汇；

样本识别单元602，用于将所述目标语句的序列表示向量输入到样本识别模型中，得到识别结果，所述识别结果包括词边界标注识别结果和恶意样本标注识别结果；所述样本识别模型为上述的样本识别模型的训练方法训练得到的，用于识别所述待识别文本数据中的词汇是否属于恶意样本；

提取单元603，用于根据所述识别结果，判断所述第三词汇是否属于所述恶意样本，将属于所述恶意样本的第三词汇进行提取。

可选的，所述提取单元，包括：

判断单元，用于根据所述识别结果中的恶意样本标注识别结果，通过判断所述第三词汇是否具有恶意样本标注，判断所述第三词汇是否属于所述恶意样本；若所述第三词汇具有恶意样本标注，则所述第三词汇属于所述恶意样本；

词汇提取单元，用于将属于恶意样本的第三词汇进行提取。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个（项）”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b或c中的至少一项（个），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个样本或者操作与另一个样本或操作区分开来，而不一定要求或者暗示这些样本或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种样本识别模型训练方法，其特征在于，所述方法包括：

获取训练文本数据；

根据所述训练文本数据中的恶意样本标签对第一词汇进行恶意样本标注的标记与词边界标注的标记；所述第一词汇为所述训练文本数据中的词汇；所述恶意样本标签是预先定义的；所述恶意样本标签包括黑客组织名称、恶意MD5值、恶意SHA1值、恶意SHA256值、URL样本、IP样本、漏洞ID、漏洞名称、恶意软件ID和恶意软件名称中的一种或者多种；

若所述第一词汇具有所述恶意样本标签，则标记所述恶意样本标注；

将由所述第一词边界标注标记的词汇组成的目标训练语句进行删除，得到更新后的训练文本数据；依次选取所述训练文本数据中包含的语句作为目标训练语句；根据第二词汇，得到所述第二词汇对应的词向量；根据所述第二词汇中的字符得到所述第二词汇对应的字符向量；所述第二词汇为所述目标训练语句中的词汇；

将所述目标训练语句的序列表示向量、所述词边界标注和所述恶意样本标注作为训练数据，通过所述训练数据训练得到样本识别模型；所述样本识别模型用于识别词汇是否属于恶意样本；所述样本识别模型由双向长短期记忆网络层、注意力机制层以及条件随机场层组成。

2.根据权利要求1所述的方法，其特征在于，所述根据第二词汇，得到所述第二词汇对应的词向量，包括：

将所述第二词汇中的字符输入至卷积神经网络模型中，得到所述第二词汇对应的字符向量。

3.一种恶意样本提取方法，其特征在于，所述方法包括：

获取待识别文本数据；

将所述目标语句的序列表示向量输入到样本识别模型中，得到识别结果，所述识别结果包括词边界标注识别结果和恶意样本标注识别结果；所述样本识别模型为根据权利要求1-2任一项所述的样本识别模型的训练方法训练得到的，用于识别所述待识别文本数据中的词汇是否属于恶意样本；

4.根据权利要求3所述的方法，其特征在于，所述根据所述识别结果，判断所述第三词汇是否属于所述恶意样本，包括：

5.一种样本识别模型训练装置，其特征在于，所述装置包括：

获取单元，用于获取训练文本数据；

标记单元，用于根据所述训练文本数据中的恶意样本标签对第一词汇进行恶意样本标注的标记与词边界标注的标记；所述第一词汇为所述训练文本数据中的词汇；所述恶意样本标签是预先定义的；所述恶意样本标签包括黑客组织名称、恶意MD5值、恶意SHA1值、恶意SHA256值、URL样本、IP样本、漏洞ID、漏洞名称、恶意软件ID和恶意软件名称中的一种或者多种；

若所述第一词汇具有所述恶意样本标签，则按照所述第一词汇在恶意样本中的顺序，标记第二词边界标注；第一向量获取单元，用于依次选取所述训练文本数据中包含的语句作为目标训练语句；根据第二词汇，得到所述第二词汇对应的词向量；根据所述第二词汇中的字符得到所述第二词汇对应的字符向量；将所述词向量和所述字符向量进行拼接，得到所述第二词汇的序列表示向量，将所述第二词汇的序列表示向量组合，得到所述目标训练语句的序列表示向量；所述第二词汇为所述目标训练语句中的词汇；

训练单元，用于将所述目标训练语句的序列表示向量、所述词边界标注和所述恶意样本标注作为训练数据，通过所述训练数据训练得到样本识别模型；所述样本识别模型用于识别词汇是否属于恶意样本；所述样本识别模型由双向长短期记忆网络层、注意力机制层以及条件随机场层组成。

6.一种恶意样本提取装置，其特征在于，所述装置包括：

样本识别单元，用于将所述目标语句的序列表示向量输入到样本识别模型中，得到识别结果，所述识别结果包括词边界标注识别结果和恶意样本标注识别结果；所述样本识别模型为根据权利要求1-2任一项所述的样本识别模型的训练方法训练得到的，用于识别所述待识别文本数据中的词汇是否属于恶意样本；