CN116776144A

CN116776144A - 样本行为特征确定方法、特征提取模型的训练方法及装置

Info

Publication number: CN116776144A
Application number: CN202310559022.0A
Authority: CN
Inventors: 刘昱均; 万鸣; 王占一; 应凌云; 刘璐
Original assignee: Qax Technology Group Inc
Current assignee: Qax Technology Group Inc
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-09-19

Abstract

本发明实施例提供一种样本行为特征确定方法、特征提取模型的训练方法及装置。样本行为特征确定方法包括：获取目标样本行为日志；目标样本行为日志包括至少一个行为信息和各行为信息对应的操作对象；基于各行为信息和各行为信息对应的操作对象构建图数据；图数据包括至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息；将至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息均输入特征提取模型，得到特征提取模型输出的目标样本行为特征；特征提取模型基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签训练得到。本方法可以提高样本行为特征确定的准确性。

Description

样本行为特征确定方法、特征提取模型的训练方法及装置

技术领域

本发明涉及样本检测技术领域，尤其涉及一种样本行为特征确定方法、特征提取模型的训练方法及装置。

背景技术

随着技术的不断发展，计算机程序被广泛应用到各行业中。计算机程序被执行时实施的各种行为可能会对具体的应用带来消极的影响，因此，计算机程序的各种行为受到越来越多的关注。例如，通过解析计算机程序被执行时的具体行为可以得到行为的行为特征，分析该行为特征可以及时发现计算机程序实施的恶意行为或破坏行为，避免出现消极的影响。

相关技术中，通常使用沙箱分析方法对计算机程序的行为特征进行分析确定。示例地，在沙箱环境中运行待分析的计算机程序，以获取执行该计算机程序时的行为数据，通过特征工程或深度学习模型直接从各个行为数据中学习特征，进一步可以确定计算机程序各行为的行为特征。

但上述相关技术中，在利用行为数据确定行为特征时，不能全面利用行为数据蕴含的深层信息，导致确定出的行为特征准确性较低。

发明内容

针对现有技术中的问题，本发明实施例提供一种样本行为特征确定方法、特征提取模型的训练方法及装置。

示例地，本发明实施例提供了以下技术方案：

第一方面，本发明实施例提供了一种样本行为特征确定方法，包括：

获取目标样本行为日志；所述目标样本行为日志包括至少一个行为信息和各所述行为信息对应的操作对象；

基于各所述行为信息和各所述行为信息对应的操作对象构建图数据；所述图数据包括至少两个节点、节点之间连接的边、各所述节点的特征信息以及各所述边的特征信息；所述节点用于表征所述操作对象，所述边用于表征与所述边连接的节点表征的操作对象对应的行为信息；

将至少两个所述节点、节点之间连接的边、各所述节点的特征信息以及各所述边的特征信息均输入至特征提取模型中，得到所述特征提取模型输出的目标样本行为特征；所述特征提取模型是基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签训练得到的。

进一步地，所述将至少两个所述节点、节点之间连接的边、各所述节点的特征信息以及各所述边的特征信息均输入至特征提取模型中，得到所述特征提取模型输出的目标样本行为特征，包括：

将各所述节点的特征信息输入至所述特征提取模型的第一全连接层，得到所述第一全连接层输出的各所述节点对应的第一连续特征；

将各所述边的特征信息输入至所述特征提取模型的第二全连接层，得到所述第二全连接层输出的各所述边对应的第二连续特征；

将至少两个所述节点、节点之间连接的边、各所述第一连续特征和各所述第二连续特征均输入至所述特征提取模型的特征提取层中，得到所述特征提取层输出的所述目标样本行为特征。

进一步地，所述将各所述节点的特征信息输入至所述特征提取模型的第一全连接层，得到所述第一全连接层输出的第一连续特征，包括：

将各所述节点的特征信息输入至所述特征提取模型的第一嵌入层，得到所述第一嵌入层输出的第一嵌入特征；

将所述第一嵌入特征输入至所述第一全连接层中，得到所述第一全连接层输出的所述第一连续特征；

所述将各所述边的特征信息输入至所述特征提取模型的第二全连接层，得到所述第二全连接层输出的各所述边对应的第二连续特征，包括：

将各所述边的特征信息输入至所述特征提取模型的第二嵌入层，得到所述第二嵌入层输出的第二嵌入特征；

将所述第二嵌入特征输入至所述第二全连接层中，得到所述第二全连接层输出的所述第二连续特征。

进一步地，所述特征提取模型为基于如下方式训练得到的：

获取多个训练样本行为日志；

针对各所述训练样本行为日志，将所述训练样本行为日志转化为图数据样本，并提取所述训练样本行为日志中的序列特征；

基于所述图数据样本生成样本图像，并提取所述样本图像中的图像特征；

基于各所述训练样本行为日志对应的所述序列特征和所述图像特征，确定至少一个正训练样本对和至少一个负训练样本对；

基于至少一个所述正训练样本对、至少一个所述负训练样本对、各正训练样本对的标签以及各负训练样本对的标签，对初始特征提取模型进行训练，得到所述特征提取模型。

进一步地，所述基于各所述训练样本行为日志对应的所述序列特征和所述图像特征，确定至少一个正训练样本对和至少一个负训练样本对，包括：

对所有所述训练样本行为日志进行分组，得到至少两个训练样本对；所述训练样本对包括第一训练样本行为日志和第二训练样本行为日志；

针对各所述训练样本对，确定所述第一训练样本行为日志对应的图像特征和所述第二训练样本行为日志对应的图像特征的第一相似度，并确定所述第一训练样本行为日志对应的序列特征和所述第二训练样本行为日志对应的序列特征的第二相似度；

基于各所述第一相似度和各所述第二相似度确定至少一个正训练样本对和至少一个负训练样本对。

进一步地，所述基于各所述第一相似度和各所述第二相似度确定至少一个正训练样本对和至少一个负训练样本对，包括：

针对各所述训练样本对，在确定所述训练样本对对应的第一相似度大于或等于第一预设值，且所述训练样本对对应的第二相似度大于或等于第二预设值的情况下，确定对应的训练样本对为所述正训练样本对；

在确定所述训练样本对对应的第一相似度小于第三预设值，且所述训练样本对对应的第二相似度小于第四预设值的情况下，确定对应的训练样本对为所述负训练样本对；

所述第一预设值大于或等于所述第三预设值，所述第二预设值大于或等于所述第四预设值。

进一步地，所述基于至少一个所述正训练样本对、至少一个所述负训练样本对、各正训练样本对的标签以及各负训练样本对的标签，对初始特征提取模型进行训练，得到所述特征提取模型，包括：

将至少一个所述正训练样本对和至少一个所述负训练样本对输入至初始特征提取模型中，得到所述初始特征提取模型输出的各预测样本行为特征；

基于各所述预测样本行为特征、各正训练样本对的标签以及各负训练样本对的标签，构建损失函数；

基于所述损失函数对所述初始特征提取模型的模型参数进行优化，得到所述特征提取模型。

进一步地，所述节点的特征信息采用节点的类型标识来表征；所述边的特征信息采用边的类型标识来表征。

第二方面，本发明实施例还提供了一种特征提取模型的训练方法，包括：

获取多个训练样本行为日志；

在确定所述第一相似度大于或等于第一预设值，且所述第二相似度大于或等于第二预设值的情况下，确定对应的训练样本对为所述正训练样本对；

在确定所述第一相似度小于第三预设值，且所述第二相似度小于第四预设值的情况下，确定对应的训练样本对为所述负训练样本对；

第三方面，本发明实施例还提供了一种样本行为特征确定装置，包括：

第一获取单元，用于获取目标样本行为日志；所述目标样本行为日志包括至少一个行为信息和各所述行为信息对应的操作对象；

图数据构建单元，用于基于各所述行为信息和各所述行为信息对应的操作对象构建图数据；所述图数据包括至少两个节点、节点之间连接的边、各所述节点的特征信息以及各所述边的特征信息；所述节点用于表征所述操作对象，所述边用于表征与所述边连接的节点表征的操作对象对应的行为信息；

第一提取单元，用于将至少两个所述节点、节点之间连接的边、各所述节点的特征信息以及各所述边的特征信息均输入至特征提取模型中，得到所述特征提取模型输出的目标样本行为特征；所述特征提取模型是基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签训练得到的。

第四方面，本发明实施例还提供了一种特征提取模型的训练装置，包括：

第二获取单元，用于获取多个训练样本行为日志；

第一转化单元，用于针对各所述训练样本行为日志，将所述训练样本行为日志转化为图数据样本，并提取所述训练样本行为日志中的序列特征；

生成单元，用于基于所述图数据样本生成样本图像，并提取所述样本图像中的图像特征；

第一确定单元，用于基于各所述训练样本行为日志对应的所述序列特征和所述图像特征，确定至少一个正训练样本对和至少一个负训练样本对；

第一训练单元，用于基于至少一个所述正训练样本对、至少一个所述负训练样本对、各正训练样本对的标签以及各负训练样本对的标签，对初始特征提取模型进行训练，得到所述特征提取模型。

第五方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述样本行为特征确定方法，或者，实现如第二方面所述特征提取模型的训练方法。

第六方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述样本行为特征确定方法，或者，实现如第二方面所述特征提取模型的训练方法。

第七方面，本发明实施例还提供了一种计算机程序产品，其上存储有可执行指令，该指令被处理器执行时使处理器实现如第一方面所述样本行为特征确定方法，或者，实现如第二方面所述特征提取模型的训练方法。

本发明实施例提供的样本行为特征确定方法、特征提取模型的训练方法及装置，基于获取的目标样本行为日志中各行为信息和各行为信息对应的操作对象构建图数据，将各行为信息、各操作对象以及各行为信息与各操作对象间的调用关系通过图数据得以表达，利用图数据全面反映所有操作对象以及所有行为信息间的全局调用关系，数据信息的利用维度得到提高；进一步地，基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签可以训练得到对比学习式的特征提取模型，将图数据中的数据信息输入特征提取模型，由于图数据能够全面反映所有操作对象以及所有行为信息间的全局调用关系，所以可以得到准确性更高的目标样本行为特征，从而提高了行为特征确定的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的样本行为特征确定方法的流程示意图；

图2是本发明实施例提供的行为信息关系示意图；

图3是本发明实施例提供的邻接矩阵的示意图；

图4是本发明实施例提供的特征提取模型的结构示意图；

图5是本发明实施例提供的获取训练样本对标签的流程示意图；

图6是本发明实施例提供的特征提取模型训练流程框图之一；

图7是本发明实施例提供的特征提取模型训练流程框图之二；

图8是本发明实施例提供的特征提取模型的训练方法的流程示意图；

图9是本发明实施例提供的样本行为特征确定装置的结构示意图；

图10是本发明实施例提供的特征提取模型的训练装置的结构示意图；

图11是本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明中为描述的对象所编序号本身，例如“第一”，“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

在对本发明实施例的技术方案介绍之前，先对涉及到的技术术语进行解释：

(1)有向图：具有方向性的图，是由一组顶点和一组有方向的边组成的，每条有方向的边都连接着一对有序的顶点。

(2)图神经网络(Graph Neural Network，GNN)：使用神经网络来学习图结构数据，提取和发掘图结构数据中的特征和模式，以满足聚类、分类、预测、分割、生成等图学习任务需求。

(3)图嵌入：将图节点或子图以向量的形式表达，供给现有的机器学习模型直接使用，例如，可以用于索引、分类、回归和聚类等。图嵌入可以使用GNN来训练得到。图级别图嵌入，即将图以向量的形式表达。

(4)对比学习：对比式学习着重于学习同类实例之间的共同特征，区分非同类实例之间的不同之处。其目标是学习一个编码器，此编码器对同类数据进行相似的编码，使非同类的数据的编码结果尽可能的不同。

在一些计算机程序应用场景中，需要对计算机程序执行过程中的行为有一定程度的了解。例如，需要了解各个计算机程序执行过程的行为，来对计算机程序进行分类，便于对各个计算机程序进行分类管理。又例如，需要了解安全等级未知的计算机程序执行过程的各行为，以确定计算机程序及各行为的安全性，防止程序对系统造成攻击或破坏。未知程序对系统的攻击会造成用户敏感数据泄露或重大经济损失。在这些攻击中，恶意程序攻击是最常见的类型，因此，对恶意程序运行时的各行为进行准确地确定具有积极的意义。

沙箱是一种计算机运行环境的虚拟镜像系统，可以将恶意程序放入沙箱运行，恶意程序在沙箱中的所有操作都是虚拟的，这样可以确保恶意程序无法对系统关键部位进行改动，破坏系统，同时还能记录恶意程序执行的所有操作，形成沙箱日志以供分析。传统的沙箱分析方法，通过判断沙箱日志中是否存在典型的威胁行为对恶意程序进行分析。典型的威胁行为，例如是已知恶意域名访问、文件修改和注册表更改等。沙箱分析方法需要依据丰富的先验知识来制定分析方案，对新出现的恶意程序威胁行为不敏感，不能全面利用行为数据信息，导致行为特征确定的准确性较低。

在计算机程序运行的行为日志信息中，系统的应用程序编程接口API(Application Programming Interface，API)调用序列是最常用的数据源，它捕获了计算机程序执行时的所有操作，包括网络访问、文件操作等。一些分析方法中通过特征工程或深度学习模型直接对API调用序列进行特征学习，并对计算机程序运行的行为特征进行确定。

基于此，本发明实施例提供一种样本行为特征确定方法，基于目标样本行为日志中各行为信息和各行为信息对应的操作对象构建图数据，利用图数据全面反映所有操作对象以及所有行为信息间的全局调用关系，提高数据信息的利用维度，全面运用目标样本行为日志的动态行为信息；进一步地，基于训练得到的对比式学习的特征提取模型，将图数据中的数据信息输入特征提取模型，可以得到准确性更高的目标样本行为特征，提高了行为特征确定的准确性。

下面结合图1-图7对本发明实施例提供的样本行为特征确定方法进行描述。本方法的执行主体可以是计算机、服务器或者服务器集群等电子设备，或者是专门设计的智能设备，也可以是设置在该电子设备或智能设备中的样本行为特征确定装置，该样本行为特征确定装置可以通过软件、硬件或两者的结合来实现。本方法可以应用在需要进行样本行为特征确定的任意场景中，例如，对恶意计算机程序进行检测或分析的场景。

图1是本发明实施例提供的样本行为特征确定方法的流程示意图，参照图1所示，该样本行为特征确定方法包括如下的步骤110～步骤130。

步骤110：获取目标样本行为日志；目标样本行为日志包括至少一个行为信息和各行为信息对应的操作对象。

其中，目标样本行为日志是需要进行行为特征确定的对象，该目标样本行为日志记录有待测程序被执行时实施的各类行为信息。目标样本行为日志包括至少一个行为信息和各行为信息对应的操作对象，行为信息可以是行为的实现方式等，行为信息对应的操作对象可以是行为的实施主体或行为的被实施对象。

示例地，获取目标样本行为日志的方式可以为：通过在沙箱等仿真环境中运行待测程序，记录该程序运行过程中的所有行为，在记录的所有行为中即可得到目标样本行为日志。例如，行为日志可以是JS对象简谱(JavaScrip t Object Notation，JSON)结构数据。

举例来说，在沙箱环境中运行待测程序，记录该待测程序运行过程的行为日志，该行为日志即为目标样本行为日志。假设运行该待测程序后，获取到的目标样本行为日志可以包括以下行为信息：(1)开始S创建进程A；(2)进程A创建进程B；(3)进程A写入文件C；(4)进程A发送网络数据至网络服务D。其中，创建进程、写入文件和发送网络数据即为行为信息；进程A、进程B、文件C和网络服务D即为操作对象。需要说明的是，开始S是为了赋予目标样本行为日志以起始节点而设置的起点，开始S可以视为操作对象。

步骤120：基于各行为信息和各行为信息对应的操作对象构建图数据；图数据包括至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息；节点用于表征操作对象，边用于表征与边连接的节点表征的操作对象对应的行为信息。

示例地，图数据是基于各行为信息和各行为信息对应的操作对象而构建的数据信息，图数据能表达出行为信息和行为信息对应的操作对象间的局部调用关系，还能全面表达目标样本行为日志中所有行为信息和各行为信息对应的操作对象的全局调用关系，反映出更加全面的目标样本行为日志中蕴含的动态行为信息。基于各行为信息和各行为信息对应的操作对象构建图数据时，可以借助计算机程序或构建图数据的算法来实现，此处不做限制。

在构建出的图数据中，包括至少两个节点、节点之间连接的边。节点用于表征操作对象，边用于表征节点间的行为信息。可以用邻接矩阵来表示图数据中的节点以及节点之间连接的边，节点以及节点之间连接的边构成有向图。

图2是本发明实施例提供的行为信息关系示意图。如图2所示，包括的操作对象有开始S、进程A、进程B、文件C和网络服务D，具体的行为信息为：开始S创建进程A，进程A创建进程B，进程A写入文件C，进程A发送网络数据至网络服务D。通过图2可以直观反映出目标样本行为日志中各行为信息和各行为信息对应的操作对象的全局调用关系。

示例地，可以通过矩阵或向量的形式数值化表示目标样本行为日志中各行为信息以及各行为信息对应的操作对象，例如用邻接矩阵来表示。

图3是本发明实施例提供的邻接矩阵的示意图，如图3所示，可以采用邻接矩阵来表示节点以及节点之间连接的边构成的有向图，可以采用Graph来表示邻接矩阵。其中，图2中的开始S、进程A、进程B、文件C和网络服务D分别对应邻接矩阵Graph中各行和各列的S、A、B、C和D，各行表示起始节点，各列表示终止节点；邻接矩阵Graph中的各元素，用1表示起始节点有一条边指向终止节点，用0表示起始节点没有边指向终止节点。对照图2可知，节点S有一条边指向节点A，则邻接矩阵Graph中S行A列的元素为1；节点A有一条边指向节点C，则邻接矩阵Graph中A行C列的元素为1；节点A没有边指向节点S，则邻接矩阵Graph中A行S列的元素为0；依次类推，则可以用邻接矩阵Graph来表示有向图。用邻接矩阵表示有向图可以将具象化的图像转换为数值化的矩阵，进一步地，邻接矩阵便于将目标样本行为日志中的信息输入到图神经网络模型中进行特征提取、表征或运算等。可以将邻接矩阵理解为对图数据中部分信息的数值化表达。

需要说明的是，邻接矩阵和图2所示的行为信息关系示意图是对目标样本行为日志的两种表达形式，二者分别从数值化的角度和具象化的角度反映目标样本行为日志包含的信息，二者可以同时得到也可以不同时得到。解析目标样本行为日志得到图2所示的行为信息关系示意图或邻接矩阵的方法，可以通过计算机程序或解析算法等方式来实现，此处不再赘述。

在构建出的图数据中，还包括各节点的特征信息以及各边的特征信息。节点的特征信息可以是基于节点提取的数据信息，边的特征信息可以是基于边提取的数据信息。

示例地，节点的特征信息可以采用节点的类型标识来表征；边的特征信息可以采用边的类型标识来表征。这样，可以得到表征各节点类型的特征信息和表征各边类型的特征信息，在确定目标样本行为特征时，能结合各节点的类型属性和边的类型属性，从而提高样本行为特征确定的准确性。

举例来说，表1是本发明实施例提供的节点类型、边类型定义示例表。可以根据表1分别确定图数据中各节点的特征信息以及各边的特征信息。可选地，可以根据样本行为特征确定的具体需要，定义28个节点类型和90个边类型，用数字0-27表示28种节点类型，用数字0-89表示90种边类型。

表1

根据表1所示节点类型、边类型定义示例，对图2中每个节点和边的特征信息用对应类型的数字表示。如图2所示的有向图，包含5个节点S、A、B、C、D，转换为节点编号可以表示为[0,1,2,3,4]，这5个节点对应的各节点的特征信息可以用向量表示为[0,1,1,2,3]；图2还包含4个边，各边的起始节点分别为S、A、A、A，终止节点分别为A、B、C、D，则这4个边转换为节点编号可以表示为([0,1,1,1],[1,2,3,4])，即节点0→节点1、节点1→节点2、节点1→节点3、节点1→节点4，这4个边对应的各边的特征信息可以用向量表示为[0,0,1,2]。

步骤130：将至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息均输入至特征提取模型中，得到特征提取模型输出的目标样本行为特征；特征提取模型是基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签训练得到的。

其中，特征提取模型是经过训练后得到的模型，将至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息均输入至特征提取模型中，可以得到特征提取模型输出的目标样本行为特征。目标样本行为特征可以用于表征待确定行为特征的程序被执行时的行为。例如，可以对输出的目标样本行为特征进行分析确定该程序是否为恶意程序。

正训练样本对可以是相似程度较高的至少两个训练样本，负训练样本对可以是相似程度较低的至少两个训练样本。

在训练得到特征提取模型时，是基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签进行的对比学习式的模型训练。利用模型对没有统一分类标准的目标样本行为进行行为特征确定时，由于样本的类别标签难以获取，因此很难用有监督模型进行训练；另一方面，由于生成式无监督模型关注样本繁琐的细节，模型结构及优化方法复杂，不能训练得到适合的模型；因此，这些情况都可能导致在应用模型进行目标样本行为特征确定时，准确性降低。而对比式学习模型着重于学习同类实例之间的共同特征，区分非同类实例之间的不同之处，经过对比式学习训练得到的特征提取模型，可以准确得出目标样本行为特征，能提高确定的准确性。

本发明实施例提供的样本行为特征确定方法，基于获取的目标样本行为日志中各行为信息和各行为信息对应的操作对象构建图数据，将各行为信息、各操作对象以及各行为信息与各操作对象间的调用关系通过图数据得以表达，利用图数据全面反映所有操作对象以及所有行为信息间的全局调用关系，数据信息的利用维度得到提高；进一步地，基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签可以训练得到对比学习式的特征提取模型，将图数据中的数据信息输入特征提取模型，由于图数据能够全面反映所有操作对象以及所有行为信息间的全局调用关系，所以可以得到准确性更高的目标样本行为特征，从而提高了行为特征确定的准确性。

为了使各节点的特征信息转换为相同分布的特征信息，各边的特征信息转换为相同分布的特征信息，从而提升特征提取模型的鲁棒性，进一步提高样本行为特征确定的准确性，可以在特征提取模型中设置全连接层。

在一种示例实施例中，将至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息均输入至特征提取模型中，得到特征提取模型输出的目标样本行为特征，包括：将各节点的特征信息输入至特征提取模型的第一全连接层，得到第一全连接层输出的各节点对应的第一连续特征；将各边的特征信息输入至特征提取模型的第二全连接层，得到第二全连接层输出的各边对应的第二连续特征；将至少两个节点、节点之间连接的边、各第一连续特征和各第二连续特征均输入至特征提取模型的特征提取层中，得到特征提取层输出的目标样本行为特征。

示例地，第一全连接层和第二全连接层均可以为全连接层(Fully ConnectedLayer，FC)，第一全连接层是针对节点的特征信息而设置的神经网络层结构，第二全连接层是针对边的特征信息而设置的神经网络层结构。第一全连接层可以将各节点的特征信息转换为同一种分布的第一连续特征；第二全连接层可以将各边的特征信息转换为同一种分布的第二连续特征。

特征提取层是特征提取模型中的神经网络层结构，用于对输入的各特征进行提取融合。将至少两个节点、节点之间连接的边、各第一连续特征和各第二连续特征均输入至特征提取模型的特征提取层中，可以得到特征提取层输出的目标样本行为特征。

在本实施例中，利用第一全连接层和第二全连接层分别对输入的特征信息进行线性变换，实现维度转换，增强模型的表达能力，减少特征信息的位置对于分类结果的影响，提高了特征提取模型的鲁棒性。

在前述实施例的基础上，为提升特征提取模型的泛化能力，将节点或边的离散特征转换为连续特征，防止节点的特征信息和边的特征信息在训练过程中出现过拟合，避免样本行为特征确定的准确性受到影响，可以在第一全连接层前设置第一嵌入层，在第二全连接层前设置第二嵌入层。

在一种示例实施例中，将各节点的特征信息输入至特征提取模型的第一全连接层，得到第一全连接层输出的第一连续特征，包括：将各节点的特征信息输入至特征提取模型的第一嵌入层，得到第一嵌入层输出的第一嵌入特征；将第一嵌入特征输入至第一全连接层中，得到第一全连接层输出的第一连续特征；将各边的特征信息输入至特征提取模型的第二全连接层，得到第二全连接层输出的各边对应的第二连续特征，包括：将各边的特征信息输入至特征提取模型的第二嵌入层，得到第二嵌入层输出的第二嵌入特征；将第二嵌入特征输入至第二全连接层中，得到第二全连接层输出的第二连续特征。

其中，第一嵌入层和第二嵌入层均为嵌入层Embedding(Embedding Layer)，第一嵌入层是针对节点的特征信息而设置的神经网络层结构，第二嵌入层是针对边的特征信息而设置的神经网络层结构。Embedding可以将离散的特征信息转换为连续的特征信息，防止过拟合的现象。

示例地，将各节点的特征信息输入至特征提取模型的第一嵌入层，得到第一嵌入层输出的第一嵌入特征，并将第一嵌入特征输入至第一全连接层中，得到第一全连接层输出的第一连续特征；将各边的特征信息输入至特征提取模型的第二嵌入层，得到第二嵌入层输出的第二嵌入特征，并将第二嵌入特征输入至第二全连接层中，得到第二全连接层输出的第二连续特征。利用第一嵌入层和第二嵌入层分别对节点的特征信息和边的特征信息进行向量化处理，增加输出向量的维度，使处理后的节点的特征信息和边的特征信息转换为连续特征，便于特征提取模型的后续使用，防止节点的特征信息和边的特征信息在训练过程中出现过拟合而影响行为特征确定的准确性。

示例地，第一嵌入层输出的第一嵌入特征的维度可以根据节点类型的数量设置为(28，128)，其中，28表示节点类型的数量为28种，输出的第一嵌入特征的维度为128维；第二嵌入层输出的第二嵌入特征的维度可以根据边类型的数量设置为(90，128)，其中，90表示边类型的数量为90种，输出的第二嵌入特征的维度为128维。

在本实施例中，第一全连接层前设置第一嵌入层，第二全连接层前设置第二嵌入层，将节点的特征信息输入第一嵌入层，将边的特征信息输入第二嵌入层，进一步地，分别经过第一全连接层和第二全连接层后，可以得到连续的相同分布的特征信息。

图4是本发明实施例提供的特征提取模型的结构示意图，如图4所示，特征提取模型可以包括同构图网络GIN(Graph Isomorphism Network，GIN)和前馈神经网络FNN(Feedforward Neural Network，FNN)，各节点、节点之间连接的边、第一全连接层输出的第一连续特征以及第二全连接层输出的第二连续特征均输入至同构图网络GIN中，可以得到GIN输出值，该GIN输出值包括表征目标样本行为日志全局调用关系的向量以及表征各节点的向量。将该GIN输出值输入前馈神经网络FNN中，将表征目标样本行为日志全局调用关系的向量以及表征各节点的向量作进一步的融合后，可以得到全局输出(Global_output)，即可以得到特征提取模型输出的目标样本行为特征。

在本实施例中，将基于各行为信息和各行为信息对应的操作对象构建的图数据，输入具有第一嵌入层、第二嵌入层、第一全连接层、第二全连接层、同构图网络和前馈神经网络的特征提取模型中，可以输出图级别表征的目标样本行为特征，实现了基于图神经网络的图嵌入应用，利用各行为信息和各行为信息对应的操作对象之间的全局调用关系，可以更加准确地确定出目标样本行为日志的目标样本行为特征。

本发明实施例提供的样本行为特征确定方法可以应用到恶意样本分析领域，对恶意样本的行为日志进行处理，基于目标样本行为日志构建图数据，基于图神经网络搭建对比式学习模型，构建对比学习训练集，通过训练得到可以表征目标样本行为特征的深度学习模型，能提升对恶意样本动态行为的表征能力。本方法还可以灵活应用于其他恶意样本分析的应用场景中，现有的恶意样本分析方法大多是对样本是否恶意进行检测，或者为恶意样本赋予分类标签，这些方法的应用场景比较单一，无法对恶意样本进行更复杂的分析，例如相似恶意样本搜索，相似恶意样本聚类，恶意样本挖掘等。通过本方法确定目标样本行为特征，可以对大量恶意样本的动态行为表征进行聚类，可以将相似样本聚为一类，分析恶意样本的恶意类型；还可以基于恶意样本的动态行为表征进行相似样本搜索，发现新的恶意样本或对相似恶意样本做推荐。

上述实施例中的特征提取模型是基于训练得到的模型，下面对训练得到该特征提取模型的方法进行描述。特征提取模型的训练具体包括以下步骤：

(1)获取多个训练样本行为日志。

其中，训练样本行为日志可以是用于特征提取模型训练的任意行为日志。每个训练样本行为日志中包括至少一个行为信息和各所述行为信息对应的操作对象。例如，在沙箱中运行各训练样本程序，得到各训练样本程序对应的训练样本行为日志，训练样本行为日志中包括至少一个样本行为信息和各样本行为信息对应的样本操作对象。

(2)针对各训练样本行为日志，将训练样本行为日志转化为图数据样本，并提取训练样本行为日志中的序列特征。

示例地，可以利用计算机程序或算法等方式对训练样本行为日志进行解析，将训练样本行为日志转化为图数据样本，基于图数据样本提取训练样本行为日志中的序列特征。可选地，将训练样本行为日志转化为图数据样本的方法可以采用与上述步骤120中基于各行为信息和各行为信息对应的操作对象构建图数据相同的方法。

示例地，可以利用调用序列特征提取模型，提取训练样本行为日志中各个API调用序列的时序特征，作为训练样本行为日志的序列特征。该时序特征可以表征各个API在时间顺序下的特征信息，API即为上述所述的操作对象。在提取API调用序列的时序特征作为训练样本行为日志的序列特征时，可以不考虑训练样本行为日志中各API之间的全局调用关系，直接提取各API的序列特征。

(3)基于图数据样本生成样本图像，并提取样本图像中的图像特征。

示例地，基于图数据样本可以生成对应的样本图像，并基于该样本图像提取图像特征。基于图数据样本生成样本图像，例如可以是基于图数据样本绘制图2所示的行为信息关系示意图，下面将图2所示的行为信息关系示意图称为样本图像，样本图像可以是各类格式的图像或图片，例如png格式的图像或jpg格式的图像等。可以采用图像生成的方法来实现，此处不做限制。

基于该样本图像提取图像特征时，可以使用图像分类模型进行图像特征的提取，也可以使用其他的图像特征提取模型或算法进行图像特征提取；图像特征可以根据不同的模型或算法、不同的样本图像属性或类型等情况来具体确定，此处不再赘述。

(4)基于各训练样本行为日志对应的序列特征和图像特征，确定至少一个正训练样本对和至少一个负训练样本对。

示例地，可以利用提取到的各训练样本行为日志对应的序列特征和图像特征，根据各训练样本行为日志的序列特征和图像特征之间的相似程度来确定至少一个正训练样本对和至少一个负训练样本对。例如，将相似程度较高的两个训练样本行为日志确定为一个正训练样本对，将相似程度较低的两个训练样本行为日志确定为一个负训练样本对。

可选地，对所有训练样本行为日志进行分组，得到至少两个训练样本对；训练样本对包括第一训练样本行为日志和第二训练样本行为日志；针对各训练样本对，确定第一训练样本行为日志对应的图像特征和第二训练样本行为日志对应的图像特征的第一相似度，并确定第一训练样本行为日志对应的序列特征和第二训练样本行为日志对应的序列特征的第二相似度；基于各第一相似度和各第二相似度确定至少一个正训练样本对和至少一个负训练样本对。

示例地，将获取到的多个训练样本行为日志进行分组，可以得到至少两个训练样本对。例如，将获取到的3个训练样本行为日志进行两两分组，可以得到3个训练样本对。

在一个训练样本对中包括第一训练样本行为日志和第二训练样本行为日志。对第一训练样本行为日志对应的图像特征和第二训练样本行为日志对应的图像特征进行比较，确定二者之间的相似程度即可得到第一相似度。第一相似度是用于反映第一训练样本行为日志对应的图像特征和第二训练样本行为日志对应的图像特征之间相似程度。例如，图像特征用向量来表示时，计算两个向量间的余弦相似度，将两个图像特征间的余弦相似度确定为第一相似度。

类似地，对第一训练样本行为日志对应的序列特征和第二训练样本行为日志对应的序列特征进行比较，确定二者之间的相似程度，即可得到第二相似度。第二相似度是用于反映第一训练样本行为日志对应的序列特征和第二训练样本行为日志对应的序列特征之间相似程度。例如，序列特征用向量来表示时，计算两个向量间的余弦相似度，将两个序列特征间的余弦相似度确定为第二相似度。

可选地，基于各第一相似度和各第二相似度确定至少一个正训练样本对和至少一个负训练样本对时，可以根据第一预设值和第二预设值来确定。

在一种实现方式中，针对各训练样本对，在确定训练样本对对应的第一相似度大于或等于第一预设值，且训练样本对对应的第二相似度大于或等于第二预设值的情况下，确定对应的训练样本对为正训练样本对；在确定训练样本对对应的第一相似度小于第一预设值，且训练样本对对应的第二相似度小于第二预设值的情况下，确定对应的训练样本对为负训练样本对。

示例地，第一预设值可以是用于判断第一相似度大小的阈值，第二预设值可以是用于判断第二相似度大小的阈值。第一预设值和第二预设值可以是相同的值也可以是不同的值，二者均可以根据实际情况具体设置。将第一相似度大于或等于第一预设值，且第二相似度大于或等于第二预设值的样本对确定为正训练样本对；将第一相似度小于第一预设值，且第二相似度小于第二预设值的训练样本对确定为负训练样本对。

举例来说，将每个训练样本行为日志的图像特征和序列特征记录到特征库中。用S1表示第一训练样本行为日志，用S2表示第二训练样本行为日志，则训练样本对P可以表示为P＝(S1，S2)。针对每个训练样本对P，从特征库中调取S1和S2各自对应的图像特征和序列特征，特征库中存储有各训练样本行为日志对应的图像特征和序列特征，计算S1对应的图像特征和S2对应的图像特征之间的余弦相似度，即得到第一相似度，计算S1对应的序列特征和S2对应的序列特征之间的余弦相似度，即得到第二相似度。例如，第一预设值和第二预设值均设置为0.97，第三预设值和第四预设值均设置为0.6，当第一相似度大于或等于0.97，且第二相似度大于或等于0.97时，该训练样本对P为正训练样本对；当第一相似度小于0.6，且第二相似度小于0.6时，该训练样本对P为负训练样本对。

示例地，可以用公式(1)来分别计算第一相似度和第二相似度。

其中，在计算第一相似度时，A表示第一训练样本行为日志的图像特征，B表示第二训练样本行为日志的图像特征；A_i表示第一训练样本行为日志的图像特征A用向量表示时对应向量中的各元素，i可理解为各元素的序号；B_i表示第二训练样本行为日志的图像特征B用向量表示时对应向量中的各元素，i可理解为各元素的序号。在计算第二相似度时，A表示第一训练样本行为日志的序列特征，B表示第二训练样本行为日志的序列特征；A_i表示第一训练样本行为日志的序列特征A用向量表示时对应向量中的各元素，i可理解为各分量的序号；B_i表示第二训练样本行为日志的序列特征B用向量表示时对应向量中的各元素，i可理解为各元素的序号。

进一步地，可以对确定出的正训练样本对和负训练样本对设置标签。例如，将正训练样本对的标签设置为“1”，将负训练样本对的标签设置为“-1”。由正训练样本对和负训练样本对可以组成训练集。

示例地，表2是本发明实施例提供的训练集示例表，如表2所示，训练样本对P1包括第一训练样本行为日志S11和第二训练样本行为日志S21，且训练样本对P1为正训练样本对，标签为1；训练样本对P2包括第一训练样本行为日志S12和第二训练样本行为日志S22，且训练样本对P2为负训练样本对，标签为-1。

表2

训练样本对	标签
		P1(S11，S21)	1
P2(S12，S22)	-1

图5是本发明实施例提供的获取训练样本对标签的流程示意图，如图5所示，针对获取到的训练样本行为日志，将其转换为图数据样本，并提取训练样本行为日志中的序列特征；基于图数据样本生成样本图像，并提取样本图像中的图像特征。所有训练样本行为日志的图像特征和序列特征可以组成特征库。对所有训练样本行为日志进行分组，可以得到至少两个训练样本对，根据各训练样本对中的第一相似度和第二相似度，可以确定各训练样本对的标签。

本发明实施例提供的对比学习式训练集的构建方法，借助图像特征和序列特征及其他辅助信息可以获得各训练样本对的标签，能解决恶意样本或其他样本不易分类标注标签，或标签难以获取的问题，提高了样本标注的效率。

(5)基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签，对初始特征提取模型进行训练，得到特征提取模型。

示例地，初始特征提取模型可以是各类初始神经网络模型，例如，可以是图卷积神经网络(Graph Convolutional Network，GCN)、图神经网络(Neural Network for Graphs，NN4G)、图注意神经网络(Graph Attention Networks,GAT)和扩散卷积神经网络(Diffusion Convolutional Neural Network，DCNN)等其中的至少一种神经网络组成的模型，但不限于此。

示例地，基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签，对初始特征提取模型进行训练，得到特征提取模型，包括：将至少一个正训练样本对和至少一个负训练样本对输入至初始特征提取模型中，得到初始特征提取模型输出的各预测样本行为特征；基于各预测样本行为特征、各正训练样本对的标签以及各负训练样本对的标签，构建损失函数；基于损失函数对初始特征提取模型的模型参数进行优化，得到特征提取模型。

其中，将训练样本对和样本对的标签输入初始特征提取模型，可以得到初始特征提取模型输出的预测样本行为特征，值得注意的是，输入的训练样本对中需要包括正训练样本对和负训练样本对。

损失函数用于评价初始特征提取模型输出的各预测样本行为特征与真实结果之间的差距，可以指导训练过程向更优的方向进行。在训练过程中可以基于损失函数对初始特征提取模型的模型参数进行优化迭代，使最终得到的特征提取模型趋于优化，在输入目标样本行为日志进行推理应用时，能确定出更加准确的目标样本行为特征。

示例地，损失函数可以采用公式(2)示出的对比学习损失函数。

其中，G_i(1)表示初始特征提取模型输出的第i个训练样本对中第一训练样本行为日志的预测样本行为特征；G_i(2)表示初始特征提取模型输出的第i个训练样本对中第二训练样本行为日志的预测样本行为特征；similarity表示G_i(1)和G_i(2)之间的余弦相似度；y_i表示第i个训练样本对对应的标签，例如1或者-1；batchsize表示批量输入初始特征提取模型的训练样本对的数量；l表示输入第i个训练样本对后得出的损失函数结果。

本发明实施例提供的训练得到特征提取模型的方法，是对比式学习模型的训练方法，着重于学习同类实例之间的共同特征，区分非同类实例之间的不同之处，与生成式学习模型相比，对比式学习模型的结构以及优化方法更简单，且泛化能力更强。同时，本方法基于构建的图数据样本进行训练，利用图数据反映出的全局调用关系，使训练出的特征提取模型能输出更准确的行为特征确定结果。

图6是本发明实施例提供的特征提取模型训练流程框图之一，如图6所示，在训练集中批量提取训练样本对，将提取的训练样本对输入初始特征提取模型中，输出各训练样本对的各预测样本行为特征，利用对比学习损失函数计算对比学习损失并得到损失函数结果，若损失函数结果达到可接受的程度或不再下降时，可以认为此时初始特征提取模型的模型参数最优，此时的初始特征提取模型即为训练好的最优化的特征提取模型；若损失函数结果没有达到可接受的程度或继续下降时，可以认为此时初始特征提取模型的模型参数未达到最优，需要对模型进一步优化，则返回将训练样本对批量输入初始特征提取模型的步骤继续进行训练，直到损失函数结果达到可接受的程度或不再下降得到最优化的特征提取模型。

本发明实施例提供的特征提取模型的训练方法是对比学习式的方法，其核心思想在于聚集同类样本，区分非同类样本。因此，对比学习的训练集不需要标识每个训练样本的类别标签，只需要标注各训练样本对的标签，用标签来标识训练样本对中各训练样本的相似程度，即，相似的训练样本组成正训练样本对，不相似的训练样本组成负训练样本对，这样，可以减少人工标注的成本，提高训练的效率。

图7是本发明实施例提供的特征提取模型训练流程框图之二，如图7所示，在开始训练后，获取训练样本行为日志；针对各训练样本行为日志，将训练样本行为日志转化为图数据样本；对图数据样本进行数据处理，例如，提取图像特征和序列特征；数据处理后可以形成包含有图像特征和序列特征的训练集；基于该训练集进行模型训练；确定训练过程中模型是否收敛，若模型收敛则得到训练好的特征提取模型，若模型没有收敛则继续进行模型训练，直到模型收敛得到训练好的特征提取模型后即可结束。

在上述实施例的基础上，对本发明实施例提供的特征提取模型的训练方法进行说明。

图8是本发明实施例提供的特征提取模型的训练方法的流程示意图，本方法的执行主体可以是计算机或智能终端等电子设备，如图8所示，该方法包括如下的步骤810～步骤850。

步骤810：获取多个训练样本行为日志。

步骤820：针对各训练样本行为日志，将训练样本行为日志转化为图数据样本，并提取训练样本行为日志中的序列特征。

步骤830：基于图数据样本生成样本图像，并提取样本图像中的图像特征。

步骤840：基于各训练样本行为日志对应的序列特征和图像特征，确定至少一个正训练样本对和至少一个负训练样本对。

步骤850：基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签，对初始特征提取模型进行训练，得到特征提取模型。

可选地，基于各训练样本行为日志对应的序列特征和图像特征，确定至少一个正训练样本对和至少一个负训练样本对，包括：对所有训练样本行为日志进行分组，得到至少两个训练样本对；训练样本对包括第一训练样本行为日志和第二训练样本行为日志；针对各训练样本对，确定第一训练样本行为日志对应的图像特征和第二训练样本行为日志对应的图像特征的第一相似度，并确定第一训练样本行为日志对应的序列特征和第二训练样本行为日志对应的序列特征的第二相似度；在确定第一相似度大于或等于第一预设值，且第二相似度大于或等于第二预设值的情况下，确定对应的训练样本对为正训练样本对；在确定第一相似度小于第三预设值，且第二相似度小于第四预设值的情况下，确定对应的训练样本对为负训练样本对；第一预设值大于或等于第三预设值，第二预设值大于或等于第四预设值。

可选地，基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签，对初始特征提取模型进行训练，得到特征提取模型，包括：将至少一个正训练样本对和至少一个负训练样本对输入至初始特征提取模型中，得到初始特征提取模型输出的各预测样本行为特征；基于各预测样本行为特征、各正训练样本对的标签以及各负训练样本对的标签，构建损失函数；基于损失函数对初始特征提取模型的模型参数进行优化，得到特征提取模型。

本发明实施例提供的特征提取模型的训练方法与上述实施例中关于特征提取模型的训练方法类似，并可以达到相同的技术效果，为避免重复此处不再赘述。

下面对本发明实施例提供的样本行为特征确定装置进行描述，下文描述的样本行为特征确定装置与上文描述的样本行为特征确定方法可相互对应参照。

图9是本发明实施例提供的样本行为特征确定装置的结构示意图，如图9所示，样本行为特征确定装置900包括：

第一获取单元910，用于获取目标样本行为日志；目标样本行为日志包括至少一个行为信息和各行为信息对应的操作对象；

图数据构建单元920，用于基于各行为信息和各行为信息对应的操作对象构建图数据；图数据包括至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息；节点用于表征操作对象，边用于表征与边连接的节点表征的操作对象对应的行为信息；

第一提取单元930，用于将至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息均输入至特征提取模型中，得到特征提取模型输出的目标样本行为特征；特征提取模型是基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签训练得到的。

基于上述任一实施例，第一提取单元930具体用于：

将各节点的特征信息输入至特征提取模型的第一全连接层，得到第一全连接层输出的各节点对应的第一连续特征；

将各边的特征信息输入至特征提取模型的第二全连接层，得到第二全连接层输出的各边对应的第二连续特征；

将至少两个节点、节点之间连接的边、各第一连续特征和各第二连续特征均输入至特征提取模型的特征提取层中，得到特征提取层输出的目标样本行为特征。

基于上述任一实施例，第一提取单元930具体用于：

将各节点的特征信息输入至特征提取模型的第一嵌入层，得到第一嵌入层输出的第一嵌入特征；

将第一嵌入特征输入至第一全连接层中，得到第一全连接层输出的第一连续特征；

将各边的特征信息输入至特征提取模型的第二嵌入层，得到第二嵌入层输出的第二嵌入特征；

将第二嵌入特征输入至第二全连接层中，得到第二全连接层输出的第二连续特征。

基于上述任一实施例，该样本行为特征确定装置900还包括：

第三获取单元，用于获取多个训练样本行为日志；

第二转化单元，用于针对各训练样本行为日志，将训练样本行为日志转化为图数据样本，并提取训练样本行为日志中的序列特征；

第二提取单元，用于基于图数据样本生成样本图像，并提取样本图像中的图像特征；

第二确定单元，用于基于各训练样本行为日志对应的序列特征和图像特征，确定至少一个正训练样本对和至少一个负训练样本对；

第二训练单元，用于基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签，对初始特征提取模型进行训练，得到特征提取模型。

基于上述任一实施例，第二确定单元具体用于：

对所有训练样本行为日志进行分组，得到至少两个训练样本对；训练样本对包括第一训练样本行为日志和第二训练样本行为日志；

针对各训练样本对，确定第一训练样本行为日志对应的图像特征和第二训练样本行为日志对应的图像特征的第一相似度，并确定第一训练样本行为日志对应的序列特征和第二训练样本行为日志对应的序列特征的第二相似度；

基于各第一相似度和各第二相似度确定至少一个正训练样本对和至少一个负训练样本对。

基于上述任一实施例，第二确定单元还具体用于：

针对各训练样本对，在确定训练样本对对应的第一相似度大于或等于第一预设值，且训练样本对对应的第二相似度大于或等于第二预设值的情况下，确定对应的训练样本对为正训练样本对；

在确定训练样本对对应的第一相似度小于第三预设值，且训练样本对对应的第二相似度小于第四预设值的情况下，确定对应的训练样本对为负训练样本对；第一预设值大于或等于第三预设值，第二预设值大于或等于第四预设值。

基于上述任一实施例，第二训练单元具体用于：

将至少一个正训练样本对和至少一个负训练样本对输入至初始特征提取模型中，得到初始特征提取模型输出的各预测样本行为特征；

基于各预测样本行为特征、各正训练样本对的标签以及各负训练样本对的标签，构建损失函数；

基于损失函数对初始特征提取模型的模型参数进行优化，得到特征提取模型。

基于上述任一实施例，节点的特征信息采用节点的类型标识来表征；边的特征信息采用边的类型标识来表征。

本实施例的装置，可以用于执行样本行为特征确定方法侧实施例中任一实施例的方法，其具体实现过程和技术效果与样本行为特征确定方法侧实施例中类似，具体可以参见样本行为特征确定方法侧实施例中的详细介绍，此处不再赘述。

下面对本发明实施例提供的特征提取模型的训练装置进行描述，下文描述的特征提取模型的训练装置与上文描述的特征提取模型的训练方法可相互对应参照。

图10是本发明实施例提供的特征提取模型的训练装置的结构示意图，如图10所示，特征提取模型的训练装置1000包括：

第二获取单元1010，用于获取多个训练样本行为日志；

第一转化单元1020，用于针对各训练样本行为日志，将训练样本行为日志转化为图数据样本，并提取训练样本行为日志中的序列特征；

生成单元1030，用于基于图数据样本生成样本图像，并提取样本图像中的图像特征；

第一确定单元1040，用于基于各训练样本行为日志对应的序列特征和图像特征，确定至少一个正训练样本对和至少一个负训练样本对；

第一训练单元1050，用于基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签，对初始特征提取模型进行训练，得到特征提取模型。

可选地，第一确定单元1040具体用于：

在确定第一相似度大于或等于第一预设值，且第二相似度大于或等于第二预设值的情况下，确定对应的训练样本对为正训练样本对；

在确定第一相似度小于第三预设值，且第二相似度小于第四预设值的情况下，确定对应的训练样本对为负训练样本对；

第一预设值大于或等于第三预设值，第二预设值大于或等于第四预设值。

可选地，第一训练单元1050具体用于：

本实施例的装置，可以用于执行特征提取模型的训练方法侧实施例中任一实施例的方法，其具体实现过程和技术效果与特征提取模型的训练方法侧实施例中类似，具体可以参见特征提取模型的训练方法侧实施例中的详细介绍，此处不再赘述。

图11是本发明实施例提供的电子设备的实体结构示意图，如图11所示，该电子设备1100可以包括：处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行如下方法：获取目标样本行为日志；目标样本行为日志包括至少一个行为信息和各行为信息对应的操作对象；基于各行为信息和各行为信息对应的操作对象构建图数据；图数据包括至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息；节点用于表征操作对象，边用于表征与边连接的节点表征的操作对象对应的行为信息；将至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息均输入至特征提取模型中，得到特征提取模型输出的目标样本行为特征；特征提取模型是基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签训练得到的。

或者，处理器1110可以调用存储器1130中的逻辑指令，以执行如下方法：

获取多个训练样本行为日志；针对各训练样本行为日志，将训练样本行为日志转化为图数据样本，并提取训练样本行为日志中的序列特征；基于图数据样本生成样本图像，并提取样本图像中的图像特征；基于各训练样本行为日志对应的序列特征和图像特征，确定至少一个正训练样本对和至少一个负训练样本对；基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签，对初始特征提取模型进行训练，得到特征提取模型。

此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的样本行为特征确定方法，该方法包括：获取目标样本行为日志；目标样本行为日志包括至少一个行为信息和各行为信息对应的操作对象；基于各行为信息和各行为信息对应的操作对象构建图数据；图数据包括至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息；节点用于表征操作对象，边用于表征与边连接的节点表征的操作对象对应的行为信息；将至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息均输入至特征提取模型中，得到特征提取模型输出的目标样本行为特征；特征提取模型是基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签训练得到的。

或者，该计算机程序被处理器执行时实现如下方法：

又一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行如下方法：获取目标样本行为日志；目标样本行为日志包括至少一个行为信息和各行为信息对应的操作对象；基于各行为信息和各行为信息对应的操作对象构建图数据；图数据包括至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息；节点用于表征操作对象，边用于表征与边连接的节点表征的操作对象对应的行为信息；将至少两个节点、节点之间连接的边、各节点的特征信息以及各边的特征信息均输入至特征提取模型中，得到特征提取模型输出的目标样本行为特征；特征提取模型是基于至少一个正训练样本对、至少一个负训练样本对、各正训练样本对的标签以及各负训练样本对的标签训练得到的。

或者，当所述程序指令被计算机执行时，计算机能够实现如下方法：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种样本行为特征确定方法，其特征在于，包括：

2.根据权利要求1所述的样本行为特征确定方法，其特征在于，所述将至少两个所述节点、节点之间连接的边、各所述节点的特征信息以及各所述边的特征信息均输入至特征提取模型中，得到所述特征提取模型输出的目标样本行为特征，包括：

3.根据权利要求2所述的样本行为特征确定方法，其特征在于，所述将各所述节点的特征信息输入至所述特征提取模型的第一全连接层，得到所述第一全连接层输出的第一连续特征，包括：

4.根据权利要求1所述的样本行为特征确定方法，其特征在于，所述特征提取模型为基于如下方式训练得到的：

获取多个训练样本行为日志；

5.根据权利要求4所述的样本行为特征确定方法，其特征在于，所述基于各所述训练样本行为日志对应的所述序列特征和所述图像特征，确定至少一个正训练样本对和至少一个负训练样本对，包括：

6.根据权利要求5所述的样本行为特征确定方法，其特征在于，所述基于各所述第一相似度和各所述第二相似度确定至少一个正训练样本对和至少一个负训练样本对，包括：

7.根据权利要求4所述的样本行为特征确定方法，其特征在于，所述基于至少一个所述正训练样本对、至少一个所述负训练样本对、各正训练样本对的标签以及各负训练样本对的标签，对初始特征提取模型进行训练，得到所述特征提取模型，包括：

8.根据权利要求1-7任一项所述的样本行为特征确定方法，其特征在于，所述节点的特征信息采用节点的类型标识来表征；所述边的特征信息采用边的类型标识来表征。

9.一种特征提取模型的训练方法，其特征在于，包括：

获取多个训练样本行为日志；

10.根据权利要求9所述的特征提取模型的训练方法，其特征在于，所述基于各所述训练样本行为日志对应的所述序列特征和所述图像特征，确定至少一个正训练样本对和至少一个负训练样本对，包括：

11.根据权利要求9或10所述的特征提取模型的训练方法，其特征在于，所述基于至少一个所述正训练样本对、至少一个所述负训练样本对、各正训练样本对的标签以及各负训练样本对的标签，对初始特征提取模型进行训练，得到所述特征提取模型，包括：

12.一种样本行为特征确定装置，其特征在于，包括：

13.一种特征提取模型的训练装置，其特征在于，包括：

第二获取单元，用于获取多个训练样本行为日志；

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述样本行为特征确定方法，或者，实现如权利要求9至11任一项所述特征提取模型的训练方法。

15.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述样本行为特征确定方法，或者，实现如权利要求9至11任一项所述特征提取模型的训练方法。

16.一种计算机程序产品，其上存储有可执行指令，其特征在于，该指令被处理器执行时使处理器实现如权利要求1至8任一项所述样本行为特征确定方法，或者，实现如权利要求9至11任一项所述特征提取模型的训练方法。