CN116594838B

CN116594838B - 多模态数据预训练方法及系统

Info

Publication number: CN116594838B
Application number: CN202310566857.9A
Authority: CN
Inventors: 李斌
Original assignee: Shanghai Haoxin Haoyi Intelligent Technology Co ltd
Current assignee: Shanghai Haoxin Haoyi Intelligent Technology Co ltd
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-12-22
Anticipated expiration: 2043-05-18
Also published as: CN116594838A

Abstract

本申请实施例提供一种多模态数据预训练方法及系统，通过有监督训练数据对多个教师异常分析神经网络进行初始化配置，再通过多个初始化配置的教师异常分析神经网络，获取无监督训练数据的目标异常活动数据，最后通过无监督训练数据和无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，使得学生异常分析神经网络能够从多个初始化配置的教师异常分析神经网络中初步获取先验权重参数，由此提高学生异常分析神经网络的分析性能。此外，本申请可以结合无监督训练数据对学生异常分析神经网络进行初始化配置，而不受限于有监督训练数据，可以降低学生异常分析神经网络的训练成本。

Description

多模态数据预训练方法及系统

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种多模态数据预训练方法及系统。

背景技术

不同的存在形式或信息来源均可被称之为一种模态，由两种或两种以上模态组成的数据称之为多模态数据(多模态用来表示不同形态的数据形式，或者同种形态不同的格式)。也即，多模态数据是指对于同一个描述对象，通过不同领域或视角获取到的数据，并且把描述这些数据的每一个领域或视角叫做一个模态，如在计算机领域中，通过件不同视角的计算机运行活动数据进行汇总从而构成多模态计算机活动数据，并将其应用于人工智能训练数据中。然而，在实际针对多模态数据的预训练过程中，需要大量的携带训练标签的有监督数据进行训练，训练成本较高，影响训练效率。

发明内容

有鉴于此，本申请的目的在于提供一种多模态数据预训练方法及系统，通过有监督训练数据对多个教师异常分析神经网络进行初始化配置，再通过多个初始化配置的教师异常分析神经网络，获取无监督训练数据的目标异常活动数据，最后通过无监督训练数据和无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，使得学生异常分析神经网络能够从多个初始化配置的教师异常分析神经网络中初步获取先验权重参数，由此提高学生异常分析神经网络的分析性能。此外，本申请可以结合无监督训练数据对学生异常分析神经网络进行初始化配置，而不受限于有监督训练数据，可以降低学生异常分析神经网络的训练成本。

依据本申请的第一方面，提供一种多模态数据预训练方法，应用于多模态数据预训练系统，所述方法包括：

基于有监督训练数据对多个教师异常分析神经网络进行初始化配置，生成多个初始化配置的教师异常分析神经网络，所述有监督训练数据是指携带异常活动标注数据的训练用多模态计算机活动数据；

基于所述多个初始化配置的教师异常分析神经网络对无监督训练数据分别进行异常分析，生成所述无监督训练数据的多个参考异常活动数据，所述无监督训练数据是指不携带异常活动标注数据的训练用多模态计算机活动数据；

基于所述无监督训练数据的多个参考异常活动数据，确定所述无监督训练数据的目标异常活动数据；

依据所述无监督训练数据以及所述无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，生成初始化配置的学生异常分析神经网络，所述初始化配置的学生异常分析神经网络用于对候选多模态计算机活动数据进行分析得到所述候选多模态计算机活动数据的异常活动决策数据。

在第一方面的一种可能的实施方式中，所述参考异常活动数据表征所述无监督训练数据是否命中目标异常标签；

所述基于所述无监督训练数据的多个参考异常活动数据，确定所述无监督训练数据的目标异常活动数据，包括：

基于所述无监督训练数据的多个参考异常活动数据分别对应的异常概率的平均化概率，确定所述无监督训练数据的目标异常活动数据；

其中，所述多个参考异常活动数据中的第i个参考异常活动数据对应的异常概率，是由所述多个教师异常分析神经网络中的第i个教师异常分析神经网络得到的，用于确定所述无监督训练数据是否命中所述目标异常标签的异常概率。

在第一方面的一种可能的实施方式中，所述基于所述无监督训练数据的多个参考异常活动数据分别对应的异常概率的平均化概率，确定所述无监督训练数据的目标异常活动数据，包括：

在所述无监督训练数据的多个参考异常活动数据分别对应的异常概率的平均化概率大于第一设定概率时，确定所述无监督训练数据的目标异常活动数据为命中所述目标异常标签；

或者，在所述无监督训练数据的多个参考异常活动数据分别对应的异常概率的平均化概率小于第一设定概率时，确定所述无监督训练数据的目标异常活动数据为不命中所述目标异常标签。

在第一方面的一种可能的实施方式中，所述参考异常活动数据表征所述无监督训练数据是否命中目标异常标签；所述基于所述无监督训练数据的多个参考异常活动数据，确定所述无监督训练数据的目标异常活动数据，包括：

在所述无监督训练数据的多个参考异常活动数据中，命中所述目标异常标签的映射次数大于不命中所述目标异常标签的映射次数时，确定所述无监督训练数据的目标异常活动数据为命中所述目标异常标签；

或者，在所述无监督训练数据的多个参考异常活动数据中，命中所述目标异常标签的映射次数小于不命中所述目标异常标签的映射次数时，确定所述无监督训练数据的目标异常活动数据为不命中所述目标异常标签。

在第一方面的一种可能的实施方式中，所述方法还包括：在所述无监督训练数据的多个参考异常活动数据中，命中所述目标异常标签的映射次数等于不命中所述目标异常标签的映射次数时，将所述多个参考异常活动数据中的第j个参考异常活动数据，输出为所述无监督训练数据的目标异常活动数据。

在第一方面的一种可能的实施方式中，所述依据所述无监督训练数据以及所述无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，生成初始化配置的学生异常分析神经网络之后，还包括：

基于所述有监督训练数据对所述初始化配置的学生异常分析神经网络进行网络权重参数更新，生成预训练生成的学生异常分析神经网络。

在第一方面的一种可能的实施方式中，所述多个教师异常分析神经网络中包括第一教师异常分析神经网络，所述第一教师异常分析神经网络用于执行异常标签分析任务；

所述基于有监督训练数据对多个教师异常分析神经网络进行初始化配置，生成多个初始化配置的教师异常分析神经网络，包括：

基于所述第一教师异常分析神经网络提取第一训练用多模态计算机活动数据的特征表征信息，基于所述第一训练用多模态计算机活动数据的特征表征信息，生成所述第一训练用多模态计算机活动数据的第一异常活动标注数据；其中，所述第一训练用多模态计算机活动数据携带有异常活动标注数据，所述第一异常活动标注数据包括：第一训练方向数据的异常概率和第二训练方向数据的异常概率，所述第一训练方向数据对应于命中目标异常标签，所述第二训练方向数据对应于不命中目标异常标签；

基于所述第一异常活动标注数据和所述携带的异常活动标注数据，计算第一训练代价值；

基于所述第一训练代价值对所述第一教师异常分析神经网络进行网络权重参数更新，生成初始化配置的第一教师异常分析神经网络。

在第一方面的一种可能的实施方式中，所述多个教师异常分析神经网络中包括第二教师异常分析神经网络，所述第二教师异常分析神经网络用于执行态势分析任务；

基于所述第二教师异常分析神经网络提取第一训练用多模态计算机活动数据的特征表征信息，基于所述第一训练用多模态计算机活动数据的特征表征信息，生成所述第一训练用多模态计算机活动数据的第二异常活动标注数据；其中，所述第一训练用多模态计算机活动数据携带有异常活动标注数据，所述第二异常活动标注数据包括态势分析任务的异常概率，所述态势分析任务的异常概率大于第二设定概率对应于命中目标异常标签，所述态势分析任务的异常概率小于第二设定概率对应于不命中目标异常标签；

基于所述第二异常活动标注数据和所述携带的异常活动标注数据，计算第二训练代价值；

基于所述第二训练代价值对所述第二教师异常分析神经网络进行网络权重参数更新，生成初始化配置的第二教师异常分析神经网络。

在第一方面的一种可能的实施方式中，所述依据所述无监督训练数据以及所述无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，生成初始化配置的学生异常分析神经网络，包括：

获取所述无监督训练数据的知识抽取特征；

基于所述学生异常分析神经网络基于所述无监督训练数据的知识抽取特征，生成所述无监督训练数据的预测异常活动数据；

基于所述无监督训练数据的预测异常活动数据和所述无监督训练数据的目标异常活动数据，计算第三训练代价值；

基于所述第三训练代价值对所述学生异常分析神经网络进行网络权重参数更新，生成所述初始化配置的学生异常分析神经网络；

所述获取所述无监督训练数据的知识抽取特征，包括：

对所述无监督训练数据进行切分，生成一个或多个模态活动数据；

获取所述一个或多个模态活动数据分别对应的模态活动特征；

对所述一个或多个模态活动数据分别对应的模态活动特征进行融合，生成所述无监督训练数据的知识抽取特征；

或者，通过注意力可逆残差算子，生成所述无监督训练数据的特征表征信息，以及所述无监督训练数据中包含的各个有向图节点分别对应的特征表征信息；

将所述无监督训练数据的特征表征信息，分别与所述各个有向图节点分别对应的特征表征信息进行融合，生成所述各个有向图节点分别对应的融合特征表征信息；

将所述各个有向图节点分别对应的融合特征表征信息进行汇聚，生成所述无监督训练数据的知识抽取特征。

依据本申请的第二方面，提供一种服务器，所述服务器包括包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行指令，所述处理器在执行所述机器可执行指令时，该服务器实现前述的多模态数据预训练方法。

依据本申请的第三方面，提供提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，当所述计算机可执行指令被执行时，实现前述的多模态数据预训练方法。

依据上述各个方面，本申请通过有监督训练数据对多个教师异常分析神经网络进行初始化配置，再通过多个初始化配置的教师异常分析神经网络，获取无监督训练数据的目标异常活动数据，最后通过无监督训练数据和无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，使得学生异常分析神经网络能够从多个初始化配置的教师异常分析神经网络中初步获取先验权重参数，由此提高学生异常分析神经网络的分析性能。此外，本申请可以结合无监督训练数据对学生异常分析神经网络进行初始化配置，而不受限于有监督训练数据，可以降低学生异常分析神经网络的训练成本。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以依据这些附图获得其它相关的附图。

图1本申请实施例所提供的多模态数据预训练方法的流程示意图；

图2示出了本申请实施例所提供的用于实现上述的多模态数据预训练方法的多模态数据预训练系统的组件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将依据本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物占用率绘制。本申请中使用的流程图示出了依据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加至少一个其它操作，也可以从流程图中移除至少一个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。依据本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本申请保护的范围。

图1示出了本申请实施例提供的多模态数据预训练方法的流程示意图，应当理解，在其它实施例中，本实施例的多模态数据预训练方法其中部分步骤的顺序可以依据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该多模态数据预训练方法的详细步骤介绍如下。

步骤S101，基于有监督训练数据对多个教师异常分析神经网络进行初始化配置，生成多个初始化配置的教师异常分析神经网络，该有监督训练数据是指携带异常活动标注数据的训练用多模态计算机活动数据。

训练用多模态计算机活动数据是指用于对教师异常分析神经网络进行初始化配置的多模态计算机活动数据，可以由多个模态的计算机活动数据构成，计算机活动数据可以用于表示计算机在运行各个进程所记录的运行活动数据。有监督训练数据中的异常活动标注数据为训练用多模态计算机活动数据的真实异常标注数据，以指示训练用多模态计算机活动数据所属的实际异常标签。例如，可以人工基于先验知识来生成训练用多模态计算机活动数据对应的异常活动标注数据，以获取对训练具有实际价值的有监督训练数据。有监督训练数据对应的训练用多模态计算机活动数据可以标记为第一训练用多模态计算机活动数据，无监督训练数据对应的训练用多模态计算机活动数据可以标记为第二训练用多模态计算机活动数据，以作区分。无监督训练数据是指不携带异常活动标注数据的训练用多模态计算机活动数据，也即第二训练用多模态计算机活动数据没有真实异常标注数据。

步骤S102，基于多个初始化配置的教师异常分析神经网络对无监督训练数据分别进行异常分析，生成无监督训练数据的多个参考异常活动数据，该无监督训练数据是指不携带异常活动标注数据的训练用多模态计算机活动数据。

其中，参考异常活动数据表征无监督训练数据是否命中目标异常标签，不同的参考异常活动数据之间可能不相同，参考异常活动数据仅为某一个初始化配置的教师异常分析神经网络的分析结果。例如，第1个参考异常活动数据指示无监督训练数据命中目标异常标签，第2个参考异常活动数据指示无监督训练数据命中目标异常标签，第3个参考异常活动数据指示无监督训练数据不命中目标异常标签。

对于每个初始化配置的教师异常分析神经网络，通过初始化配置的教师异常分析神经网络对无监督训练数据中的第二训练用多模态计算机活动数据进行处理，即可得到无监督训练数据的参考异常活动数据。示例性地，先获取第二训练用多模态计算机活动数据的模态活动特征，再通过初始化配置的教师异常分析神经网络基于第二训练用多模态计算机活动数据的模态活动特征，对第二训练用多模态计算机活动数据进行编码，生成第二训练用多模态计算机活动数据的特征表征信息。然后通过全连接网络依次对第二训练用多模态计算机活动数据的特征表征信息进行处理，即可得到无监督训练数据的参考异常活动数据。

步骤S103，基于无监督训练数据的多个参考异常活动数据，确定无监督训练数据的目标异常活动数据。

无监督训练数据的目标异常活动数据用于敲定无监督训练数据是否命中目标异常标签，目标异常活动数据为多个初始化配置的教师异常分析神经网络所推定的异常分析结果。。

一种可能的实施方式中，可以确定无监督训练数据的目标异常活动数据：基于无监督训练数据的多个参考异常活动数据分别对应的异常概率的平均化概率，确定无监督训练数据的目标异常活动数据；其中，多个参考异常活动数据中的第i个参考异常活动数据对应的异常概率，是由多个教师异常分析神经网络中的第i个教师异常分析神经网络得到的，用于确定无监督训练数据是否命中目标异常标签的异常概率。

一种可能的实施方式中，参考异常活动数据对应的异常概率表征无监督训练数据命中目标异常标签的可能性(如下述实施例中的第一训练方向数据的异常概率和态势分析任务的异常概率)，该异常概率越大，无监督训练数据命中目标异常标签的可能性越大。对多个参考异常活动数据分别对应的异常概率进行平均计算，即可得到无监督训练数据的目标异常活动数据对应的异常概率。例如，第1个参考异常活动数据对应的异常概率为0.6，第2个参考异常活动数据对应的异常概率为0.7，第3个参考异常活动数据对应的异常概率为0.8，则目标异常活动数据对应的异常概率为0.7。

基于目标异常活动数据对应的异常概率即可确定目标异常活动数据。示例性地，在无监督训练数据的多个参考异常活动数据分别对应的异常概率的平均化概率大于第一设定概率时，确定无监督训练数据的目标异常活动数据为命中目标异常标签；或者，在无监督训练数据的多个参考异常活动数据分别对应的异常概率的平均化概率小于第一设定概率时，确定无监督训练数据的目标异常活动数据为不命中目标异常标签。

此外，在其它可能的实施方式中，可以确定无监督训练数据的目标异常活动数据：在无监督训练数据的多个参考异常活动数据中，命中目标异常标签的映射次数大于不命中目标异常标签的映射次数时，确定无监督训练数据的目标异常活动数据为命中目标异常标签；或者，在无监督训练数据的多个参考异常活动数据中，命中目标异常标签的映射次数小于不命中目标异常标签的映射次数时，确定无监督训练数据的目标异常活动数据为不命中目标异常标签。

例如，设第1个参考异常活动数据指示无监督训练数据命中目标异常标签，第2个参考异常活动数据指示无监督训练数据命中目标异常标签，第3个参考异常活动数据指示无监督训练数据不命中目标异常标签，则命中目标异常标签的映射次数为2，不命中目标异常标签的映射次数为1，命中目标异常标签的映射次数大于不命中目标异常标签的映射次数，因此，无监督训练数据的目标异常活动数据为命中目标异常标签。

一种可能的实施方式中，在无监督训练数据的多个参考异常活动数据中，命中目标异常标签的映射次数等于不命中目标异常标签的映射次数时，将多个参考异常活动数据中的第j个参考异常活动数据，输出为无监督训练数据的目标异常活动数据。

其中，第j个参考异常活动数据可以是指第j个初始化配置的教师异常分析神经网络的输出，该第j个初始化配置的教师异常分析神经网络可以基于经验值指定的初始化配置的教师异常分析神经网络，该第j个初始化配置的教师异常分析神经网络可以随机选定的初始化配置的教师异常分析神经网络。

一种可能的实施方式中，在获取多个初始化配置的教师异常分析神经网络的过程中，若检测到目标初始化配置的教师异常分析神经网络的表现性能满足实际需求，则可以先通过该目标初始化配置的教师异常分析神经网络，获取无监督训练数据的目标参考异常活动数据，在该目标参考异常活动数据对应的异常概率不小于指定设定概率(如0.95)时，可以将该目标参考异常活动数据，直接确定为无监督训练数据的目标异常活动数据，无需再基于余下的n-1个初始化配置的教师异常分析神经网络对无监督训练数据分别进行异常分析。在该目标参考异常活动数据对应的异常概率小于指定设定概率(如0.95)时，则需要基于余下的n-1个初始化配置的教师异常分析神经网络对无监督训练数据分别进行异常分析，生成无监督训练数据的n-1个参考异常活动数据，然后依据以上方式对目标参考异常活动数据和n-1个参考异常活动数据进行处理，来获取无监督训练数据的目标异常活动数据。如此，在上述目标参考异常活动数据不小于指定设定概率时，仅需基于一个初始化配置的教师异常分析神经网络对无监督训练数据进行处理，即可得到无监督训练数据的目标异常活动数据，从而提高学生异常分析神经网络的训练效率。

步骤S104，依据无监督训练数据以及无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，生成初始化配置的学生异常分析神经网络，该初始化配置的学生异常分析神经网络用于对候选多模态计算机活动数据进行分析得到所述候选多模态计算机活动数据的异常活动决策数据。

一种可能的实施方式中，学生异常分析神经网络的具体训练过程可以参见下述实施例。

1、获取无监督训练数据的知识抽取特征。

无监督训练数据的知识抽取特征可表示无监督训练数据，知识抽取特征也可以标记为模态活动特征。

一种可能的实施方式中，可以对无监督训练数据进行切分，生成一个或多个模态活动数据；获取一个或多个模态活动数据分别对应的模态活动特征；对一个或多个模态活动数据分别对应的模态活动特征进行融合，生成无监督训练数据的知识抽取特征。

一种可能的实施方式中，可以通过注意力可逆残差算子，生成无监督训练数据的特征表征信息，以及无监督训练数据中包含的各个有向图节点分别对应的特征表征信息；将无监督训练数据的特征表征信息，分别与各个有向图节点分别对应的特征表征信息进行融合，生成各个有向图节点分别对应的融合特征表征信息；将各个有向图节点分别对应的融合特征表征信息进行汇聚，生成无监督训练数据的知识抽取特征。

2、通过学生异常分析神经网络基于无监督训练数据的知识抽取特征，生成无监督训练数据的预测异常活动数据。

一种可能的实施方式中，通过学生异常分析神经网络基于无监督训练数据的知识抽取特征，对无监督训练数据进行异常分析预测，即可得到无监督训练数据的预测异常活动数据。预测异常活动数据是指对无监督训练数据的异常分析结果，用于分析无监督训练数据是否命中目标异常标签。

3、基于无监督训练数据的预测异常活动数据和无监督训练数据的目标异常活动数据，计算第三训练代价值。

一种可能的实施方式中，第三训练代价值可以为均方差函数值。示例性地，基于均方差函数值，基于无监督训练数据的预测异常活动数据和无监督训练数据的目标异常活动数据之间的差异，即可计算得到第三训练代价值。

4、基于第三训练代价值对学生异常分析神经网络进行网络权重参数更新，生成初始化配置的学生异常分析神经网络。

一种可能的实施方式中，以最小化第三训练代价值，对学生异常分析神经网络进行网络权重参数更新，即可得到初始化配置的学生异常分析神经网络。

一种可能的实施方式中，在得到初始化配置的学生异常分析神经网络之后，还可以基于有监督训练数据对初始化配置的学生异常分析神经网络进行网络权重参数更新，生成预训练生成的学生异常分析神经网络(即上述训练完成的学生异常分析神经网络)，如此可以进一步提高学生异常分析神经网络的异常分析性能。

采用以上实施例，通过有监督训练数据对多个教师异常分析神经网络进行初始化配置，再通过多个初始化配置的教师异常分析神经网络，获取无监督训练数据的目标异常活动数据，最后通过无监督训练数据和无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，使得学生异常分析神经网络能够从多个初始化配置的教师异常分析神经网络中初步获取先验权重参数，由此提高学生异常分析神经网络的分析性能。此外，本申请可以结合无监督训练数据对学生异常分析神经网络进行初始化配置，而不受限于有监督训练数据，可以降低学生异常分析神经网络的训练成本。

一种可能的实施方式中，教师异常分析神经网络的训练流程可参见下述实施例。

一种可能的实施方式中，上述多个教师异常分析神经网络中可以包括第一教师异常分析神经网络和第二教师异常分析神经网络为例，第一教师异常分析神经网络用于执行异常标签分析任务，第二教师异常分析神经网络用于执行态势分析任务。

1、通过第一教师异常分析神经网络提取第一训练用多模态计算机活动数据的特征表征信息，基于第一训练用多模态计算机活动数据的特征表征信息，生成第一训练用多模态计算机活动数据的第一异常活动标注数据。

其中，特征表征信息用于表征训练用多模态计算机活动数据的特征向量，第一异常活动标注数据包括：第一训练方向数据的异常概率和第二训练方向数据的异常概率，第一训练方向数据对应于命中目标异常标签，第二训练方向数据对应于不命中目标异常标签。第一训练用多模态计算机活动数据携带有异常活动标注数据(即真实异常标注数据)。

一种可能的实施方式中，先获取第一训练用多模态计算机活动数据的模态活动特征，再通过第一教师异常分析神经网络基于第一训练用多模态计算机活动数据的模态活动特征，提取得到第一训练用多模态计算机活动数据的特征表征信息，再通过第一教师异常分析神经网络基于第一训练用多模态计算机活动数据的特征表征信息，对第一训练用多模态计算机活动数据进行分类，生成第一训练用多模态计算机活动数据的第一异常活动标注数据。

2、基于第一异常活动标注数据和携带的异常活动标注数据，计算第一训练代价值。

第一训练代价值用于表征第一异常活动标注数据和携带的异常活动标注数据之间的差异性。上述第一损失函数可以为焦点损失函数值。

3、基于第一训练代价值对第一教师异常分析神经网络进行网络权重参数更新，生成初始化配置的第一教师异常分析神经网络。

一种可能的实施方式中，以最小化第一训练代价值，对第一教师异常分析神经网络进行网络权重参数更新，即可得到初始化配置的第一教师异常分析神经网络，初始化配置的第一教师异常分析神经网络的异常分析精度更高。

示例性地，第二教师异常分析神经网络的训练过程可以包括如下内容。

1、通过第二教师异常分析神经网络提取第一训练用多模态计算机活动数据的特征表征信息，基于第一训练用多模态计算机活动数据的特征表征信息，生成第一训练用多模态计算机活动数据的第二异常活动标注数据。

其中，第一训练用多模态计算机活动数据携带有异常活动标注数据，第二异常活动标注数据包括态势分析任务的异常概率，态势分析任务的异常概率大于第二设定概率对应于命中目标异常标签，态势分析任务的异常概率小于第二设定概率对应于不命中目标异常标签。

先获取第一训练用多模态计算机活动数据的模态活动特征，再通过第二教师异常分析神经网络中的注意力可逆残差算子基于第一训练用多模态计算机活动数据的模态活动特征，对第一训练用多模态计算机活动数据进行编码，生成第一训练用多模态计算机活动数据的特征表征信息，依次对第一训练用多模态计算机活动数据的特征表征信息进行处理，即可得到第一训练用多模态计算机活动数据的第二异常活动标注数据。

2、基于第二异常活动标注数据和携带的异常活动标注数据，计算第二训练代价值。

第二训练代价值用于表征第二异常活动标注数据和携带的异常活动标注数据之间的差异性。

第二训练代价值可以为均方差函数值，由此依据第二异常活动标注数据中态势分析任务的异常概率，与携带的异常活动标注数据之间的差异，来计算第二训练代价值。态势分析任务的异常概率为概率值，其范围为0-1。

3、基于第二训练代价值对第二教师异常分析神经网络进行网络权重参数更新，生成初始化配置的第二教师异常分析神经网络。

一种可能的实施方式中，以最小化第二训练代价值，对第二教师异常分析神经网络进行网络权重参数更新，即可得到初始化配置的第二教师异常分析神经网络。

在获取输入的候选多模态计算机活动数据之后，对候选多模态计算机活动数据进行分模态活动数据，生成一个或多个模态活动数据，获取一个或多个模态活动数据分别对应的模态活动特征，对一个或多个模态活动数据分别对应的模态活动特征进行融合，生成候选多模态计算机活动数据的知识抽取特征。

基于以上步骤，通过有监督训练数据对多个教师异常分析神经网络进行初始化配置，再通过多个初始化配置的教师异常分析神经网络，获取无监督训练数据的目标异常活动数据，最后通过无监督训练数据和无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，使得学生异常分析神经网络能够从多个初始化配置的教师异常分析神经网络中初步获取先验权重参数，由此提高学生异常分析神经网络的分析性能。

图2示意性地示出了可被用于实现本申请中所述的各个实施例的多模态数据预训练系统100。

图2示出了本发明实施例提供的用于实现上述的多模态数据预训练方法的多模态数据预训练系统100的硬件结构意图，如图2所示，多模态数据预训练系统100可包括处理器110、机器可读存储介质120、总线130以及通信单元140。

一种示例性的设计思路中，多模态数据预训练系统100可以是单个服务器，也可以是服务器组。所述服务器组可以是集中式的，也可以是分布式的(例如，多模态数据预训练系统100可以是分布式的系统)。一种示例性的设计思路中，多模态数据预训练系统100可以是本地的，也可以是远程的。例如，多模态数据预训练系统100可以经由网络访问存储于机器可读存储介质120中的信息和/或数据。又例如，多模态数据预训练系统100可以直接连接到机器可读存储介质120以访问存储的信息和/或数据。一种示例性的设计思路中，多模态数据预训练系统100可以在云平台上实施。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

机器可读存储介质120可以储存数据和/或指令。一种示例性的设计思路中，机器可读存储介质120可以存储从外部终端获取的数据。一种示例性的设计思路中，机器可读存储介质120可以储存多模态数据预训练系统100用来执行或使用来完成本发明中描述的示例性方法的数据及/或指令。一种示例性的设计思路中，机器可读存储介质120可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性易失性读写存储器可以包括随机存取内存(RAM)。示例性RAM可包括主动随机存取存储器(DRAM)、双倍数据速率同步主动随机存取存储器(DDR SDRAM)、被动随机存取存储器(SRAM)、晶闸管随机存取存储器(T-RAM)和零电容随机存取存储器(Z-RAM)等。示例性只读存储器可以包括掩模型只读存储器(MROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(PEROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)和数字多功能磁盘只读存储器等。一种示例性的设计思路中，机器可读存储介质120可以在云平台上实现。仅作为示例，云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云，多层云等，或其任意组合。

在具体实现过程中，至少一个处理器110执行机器可读存储介质120存储的计算机可执行指令，使得处理器110可以执行如上方法实施例的多模态数据预训练方法，处理器110、机器可读存储介质120以及通信单元140依据总线130连接，处理器110可以用于控制通信单元140的收发动作。

处理器110的具体实现过程可参见上述多模态数据预训练系统100执行的各个方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

此外，本发明实施例还提供一种可读存储介质，所述可读存储介质中预设有计算机可执行指令，当处理器执行所述计算机可执行指令时，实现如上多模态数据预训练方法。

应当理解的是，以上描述仅出于说明的目的，并不旨在限制本发明的范围。对于本领域的普通技术人员来说，可以依据本发明的描述，做出多种修改和变化。然而，这些修改和变化不会背离本发明的范围。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员来说，上述发明公开仅作为示例，并不构成对本发明的限制。虽然此处并没有明确说明，本领域技术人员可能会对本发明进行各种修改、改进和修正。该类修改、改进和修正在本发明中被建议，所以该类修改、改进、修正仍属于本发明示范实施例的精神和范围。

同时，本发明使用了特定词语来描述本发明的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本发明至少一个实施例相关的某一特征、结构或特性。因此，应当强调并注意的是，本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定系指同一实施例。此外，本发明的一个或以上实施例中的某些特征、结构或特性可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本发明的各方面可以依据多个具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的过程、机器、产品或物质的组合，或对其任何新的和有用的改良。相应地，本发明的各个方面可以完全由硬件执行、可以完全由软件(包括韧体、常驻软件、微代码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外，本发明公开的各方面可以采取体现在一个或以上计算机可读介质中的计算机程序产品的形式，其中计算机可读程序代码包含在其中。

计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。此类传播信号可以有多种形式，包括电磁形式、光形式等或任何合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以依据连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以依据任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质等或其任意组合。

本发明各部分操作所需的计算机程序编码可以用任意一种或以上程序语言编写，包括面向主体编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，主动编程语言如Python、Ruby和Groovy，或其它编程语言等。该程序编码可以完全在电力作业分区计算机上运行、或作为独立的软件包在电力作业分区计算机上运行、或部分在电力作业分区计算机上运行部分在远程计算机运行、或完全在远程计算机或多模态数据预训练系统上运行。在后种情况下，远程计算机可以依据任何网络形式与电力作业分区计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如基于因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本发明所述处理元素和序列的顺序、数字字母的使用、或其它名称的使用，并非用于限定本发明流程和方法的顺序。尽管上述披露中依据各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有匹配本发明实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以依据硬件设备实现，但是也可以只依据软件的解决方案得以实现，如在现有的多模态数据预训练系统或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本发明披露的表述，从而帮助对一个或以上发明实施例的理解，前文对本发明实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。同理，应当注意的是，为了简化本发明披露的表述，从而帮助对一个或以上发明实施例的理解，前文对本发明实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。

Claims

1.一种多模态数据预训练方法，其特征在于，应用于服务器，所述方法包括：

依据所述无监督训练数据以及所述无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，生成初始化配置的学生异常分析神经网络，所述初始化配置的学生异常分析神经网络用于对候选多模态计算机活动数据进行分析得到所述候选多模态计算机活动数据的异常活动决策数据；

所述参考异常活动数据表征所述无监督训练数据是否命中目标异常标签；

其中，所述多个参考异常活动数据中的第i个参考异常活动数据对应的异常概率，是由所述多个教师异常分析神经网络中的第i个教师异常分析神经网络得到的，用于确定所述无监督训练数据是否命中所述目标异常标签的异常概率；

所述基于所述无监督训练数据的多个参考异常活动数据分别对应的异常概率的平均化概率，确定所述无监督训练数据的目标异常活动数据，包括：

或者，在所述无监督训练数据的多个参考异常活动数据分别对应的异常概率的平均化概率小于第一设定概率时，确定所述无监督训练数据的目标异常活动数据为不命中所述目标异常标签；

所述依据所述无监督训练数据以及所述无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，生成初始化配置的学生异常分析神经网络，包括：

获取所述无监督训练数据的知识抽取特征；

基于所述第三训练代价值对所述学生异常分析神经网络进行网络权重参数更新，生成所述初始化配置的学生异常分析神经网络。

2.根据权利要求1所述的多模态数据预训练方法，其特征在于，所述基于所述无监督训练数据的多个参考异常活动数据，确定所述无监督训练数据的目标异常活动数据，包括：

3.根据权利要求2所述的多模态数据预训练方法，其特征在于，所述方法还包括：在所述无监督训练数据的多个参考异常活动数据中，命中所述目标异常标签的映射次数等于不命中所述目标异常标签的映射次数时，将所述多个参考异常活动数据中的第j个参考异常活动数据，输出为所述无监督训练数据的目标异常活动数据。

4.根据权利要求1所述的多模态数据预训练方法，其特征在于，所述依据所述无监督训练数据以及所述无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，生成初始化配置的学生异常分析神经网络之后，还包括：

5.根据权利要求1所述的多模态数据预训练方法，其特征在于，所述多个教师异常分析神经网络中包括第一教师异常分析神经网络，所述第一教师异常分析神经网络用于执行异常标签分析任务；

6.根据权利要求1所述的多模态数据预训练方法，其特征在于，所述多个教师异常分析神经网络中包括第二教师异常分析神经网络，所述第二教师异常分析神经网络用于执行态势分析任务；

7.根据权利要求1所述的多模态数据预训练方法，其特征在于，所述依据所述无监督训练数据以及所述无监督训练数据的目标异常活动数据，对学生异常分析神经网络进行初始化配置，生成初始化配置的学生异常分析神经网络，还包括：

所述获取所述无监督训练数据的知识抽取特征，包括：

8.一种多模态数据预训练系统，其特征在于，所述多模态数据预训练系统包括处理器以及可读存储介质，所述可读存储介质存储有程序，该程序被所述处理器执行时实现上述权利要求1-7任意一项所述的多模态数据预训练方法。