CN111639766A

CN111639766A - 样本数据的生成方法以及装置

Info

Publication number: CN111639766A
Application number: CN202010455213.9A
Authority: CN
Inventors: 杨诗宇; 张奕
Original assignee: Shanghai Jilian Network Technology Co ltd
Current assignee: Shandong Ruihan Network Technology Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-08
Anticipated expiration: 2040-05-26
Also published as: CN111639766B

Abstract

本发明公开了一种样本数据的生成方法以及装置，该方法包括：获取待处理样本数据；将待处理样本数据输入至预先训练好的特征提取模型中，得到与待处理样本数据对应的目标特征向量；将与所述当前状态对应的待处理样本数据以及所述目标特征向量输入至预先训练得到的一致性评估函数中，得到与当前状态相对应的当前动作；基于当前动作，确定与所述待处理样本数据对应的当前样本数据；当所述当前动作与前一时刻对应的动作满足预设终止条件时，将所述当前样本数据作为目标样本数据。本发明实施例的技术方案，通过对待处理样本数据进行处理得到目标样本数据，基于目标样本数据训练模型时，可以快速的训练机器模型以及模型准确性的技术效果。

Description

样本数据的生成方法以及装置

技术领域

本发明实施例涉及信息处理技术领域，尤其涉及一种样本数据的生成方法以及装置。

背景技术

在训练机器学习模型时，通常是基于人工标注的样本数据来训练机器学习模型。

由于是基于人工标注的样本来训练机器学习模型，因此存在人工标注的成本较高，准确率较低，导致模型的训练效率较低的技术问题。

发明内容

本发明提供一种样本生成方法以及装置，以实现确定样本数据的便捷性以及高效性的技术效果。

第一方面，本发明实施例提供了一种样本数据的生成方法，该方法包括：

获取待处理样本数据；

将所述待处理样本数据输入至预先训练好的特征提取模型中，得到与所述待处理样本数据对应的目标特征向量；

将与所述当前状态对应的待处理样本数据以及所述目标特征向量输入至预先训练得到的一致性评估函数中，得到与当前状态相对应的当前动作；

基于当前动作，确定与所述待处理样本数据对应的当前样本数据；

基于所述当前动作与前一时刻对应的动作，确定满足预设终止条件时，将所述当前样本数据作为目标样本数据。

第二方面，本发明实施例还提供了一种样本数据的生成装置，该装置包括：

待处理样本数据确定模块，用于获取待处理样本数据；

目标特征向量确定模块，用于将所述待处理样本数据输入至预先训练好的特征提取模型中，得到与所述待处理样本数据对应的目标特征向量；

当前动作确定模块，用于将与所述当前状态对应的待处理样本数据以及所述目标特征向量输入至预先训练得到的一致性评估函数中，得到与当前状态相对应的当前动作；

当前样本数据确定模块，用于基于当前动作，确定与所述待处理样本数据对应的当前样本数据；

目标样本数据确定模块，用于基于所述当前动作与前一时刻对应的动作，确定满足预设终止条件时，将所述当前样本数据作为目标样本数据。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例任一所述的样本数据的生成方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例任一所述的样本数据的生成方法。

本发明实施例的技术方案，基于预先训练得到的特征提取模型和一致性评估函数对待处理样本数据进行处理，可以从待处理样本数据中确定最优的样本数据，并作为目标样本数据，避免了现有技术中需要对样本数据进行手动标注，存在准确率较低以及劳动成本较高的技术问题，实现了自动、便捷、高效的从待处理样本数据中筛选出目标样本数据，进而提高模型训练效率的技术效果。

附图说明

为了更加清楚地说明本发明示例性实施例的技术方案，下面对描述实施例中所需要用到的附图做一简单介绍。显然，所介绍的附图只是本发明所要描述的一部分实施例的附图，而不是全部的附图，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图得到其他的附图。

图1为本发明实施例一所提供的一种样本数据的生成方法的流程示意图；

图2为本发明实施例二所提供的训练特征提取模型的流程示意图；

图3为本发明实施例三所提供的训练一致性评估函数的流程示意图；

图4为本发明实施例四所提供的一种生成目标样本数据的流程示意图；

图5为本发明实施例五所提供的一优选实施例的流程示意图；

图6为本发明实施例六所提供的一种样本数据的生成装置结构示意图；

图7为本发明实施例七所提供的一种设备结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一所提供的一种样本数据的生成方法流程示意图，本实施例可适用于根据数据之间的关联性生成样本和对样本进行标注的，从而快速得到满足一定条件的目标样本数据的情况，该方法可以由样本数据的生成装置来执行，该装置可以通过软件和/或硬件的形式实现。

在介绍本实施例技术方案之前，先简单介绍下应用场景。本实施例的技术方案可基于数据之间的关联性来生成目标样本数据。例如，对于视频数据而言，声音和视觉是两个不同的信息维度，但是在一段视频中，可以表达相同的内容，因此具有很强的关联性，在本实施例中基于对视频数据进行处理，来确定视频数据中的目标样本数据，即将视频片段中声音和图像可以完全对应上的视频数据作为目标样本数据。

如图1，本实施例的方法包括：

S110、获取待处理样本数据。

需要说明的是，若需要从某个视频中获取声音和视频中口型完全对应的视频片段，则需要对该视频对应的视频数据进行处理，可以将与该视频对应的视频数据作为待处理样本数据。

为了从待处理样本数据中确定出目标样本数据，可以将待处理样本数据对应的视频划分为至少一个视频片段。划分为至少一个视频片段的依据可以是：将视频按照等时间间隔划分或者将预设数量的视频帧作为一个视频片段。示例性的，若待处理数据对应的视频时长为10min，将10min的视频等时间间隔的划分为10个视频片段；或者是，确定10min时长的视频对应的视频帧，可选的，2000个视频帧，按照等视频帧划分的方式将2000个视频帧划分为20各视频片段。

示例性的，可以依据待处理数据对应的视频时长，将视频等时间间隔的划分为N个视频片段，可以将每个视频片段的视频数据的集合作为待处理样本数据。例如，将视频X，划分为N个视频片段待处理样本数据可以表示为X＝(x₁,x₂,…,x_n)，其中，x_n表示视频中的每个视频片段。

S120、将待处理样本数据输入至预先训练好的特征提取模型中，得到与待处理样本数据对应的目标特征向量。

其中，特征提取模型为预先训练的，用于提取与待处理样本数据对应的特征向量。待处理数据是视频对应的数据，因此提取出的特征向量中包括声音特征向量和视觉特征向量，即目标特征向量中声音特征向量和视觉特征向量。

具体的，将获取到的待处理样本数据，即目标视频输入至特征提取模型中，基于特征提取模型可以提取出视频中的声音特征向量和视觉特征向量。

其中，特征提取模型中包括声音特征网络和视觉特征网络。将视频帧输入到特征提取模型中后，可以经声音特征网络对视频数据中的语音数据进行处理，提取出与语音数据对应的声音特征向量；经视觉特征网络对视频数据中的图像进行处理，可以提取出视频数据对应的视觉特征向量。

S130、将与当前状态对应的待处理样本数据以及目标特征向量输入至预先训练得到的一致性评估函数中，得到与当前状态相对应的当前动作。

其中，用户可以根据实际需求设置与当前状态对应的待处理样本数据中的状态。一致性评估函数为预先训练得到的，用于对输入的数据进行处理，确定出与当前状态对应当前动作。当前动作待处理数据中需要删除哪些数据的动作。

具体的，可以将与当前状态对应的待处理数据以及与待处理数据对应的目标特征向量输入至预先训练得到的一致性评估函数中，基于一致性评估函数可以确定与当前状态对应的当前动作。

S140、基于当前动作，确定与所述待处理样本数据对应的当前样本数据。

其中，当前样本数据与基于当前动作对待处理样本数据进行处理后的样本数据。也就是说，当前样本数据是基于一致性评估函数输出的当前动作来确定的。当需要得到与下一个状态相对应的样本数据时，可以基于与下一个状态对应的动作对当前样本数据进行处理，以得到与下一状态对应的当前样本数据。

具体的，由于当前动作中可以包括是删除或者保留的标识信息，因此可以基于一致性评估函数的输出动作，确定待处理数据中的删除的数据和保留的数据，并将删除和保留得到的数据作为当前样本数据。

S150、基于所述当前动作与前一状态对应的动作，确定满足预设终止条件时，将所述当前样本数据作为目标样本数据。

其中，基于当前动作以及前一状态对应的动作，可以计算得到一个结果，基于该结果与预设终止条件之间的关系，可以确定是否将当前样本数据作为目标样本数据。

在本实施例中，当计算得到的结果满足预设终止条件时，可以将当前状态下得到的当前样本数据作为目标样本数据。当计算得到的结果不满足预设终止条件时，可以将基于当前状态对应的当前动作生成下一时刻对应的当前状态，并将当前状态和目标特征向量输入至一致性评估函数中，以得到与当前状态对应的当前动作，进而根据当前动作与前一状态对应的动作确定是否需要将当前状态对应的样本数据作为目标样本数据。

也就是说，一旦计算得到的结果不满足预设终止条件，可以基于当前动作确定下一时刻的状态，返回执行S130至S150，直至计算结果满足预设条件，可以将当前样本数据作为目标样本数据。

实施例二

在前述实施例的基础上，为了得到目标样本数据还需要训练得到特征提取模型。训练特征提取模型包括：训练特征提取模型，包括；获取多个训练样本数据；多个训练样本数据中包括正样本数据和负样本数据；每个训练样本数据中包括多个视频片段，与训练样本数据对应的样本目标特征向量；样本目标特征向量中包括样本声音特征向量和样本视觉特征向量；针对多个训练样本数据中的每个训练样本数据，将训练样本数据输入至待训练特征提取模型中，得到与每个训练样本数据对应的训练目标特征向量；基于样本目标特征向量和训练目标特征向量，计算预设损失函数的函数值，根据计算结果对待训练特征提取模型中的网络参数进行调整；损失函数与待训练特征提取模型相对应；将损失函数达到收敛作为训练目标，对待训练特征提取模型进行训练，以得到特征提取模型；特征提取模型，用于对待处理样本数据进行处理，以得到与待处理样本数据对应的目标特征向量。图2为本发明实施例二所提供的训练特征提取模型的示意图。如图2所示，方法包括：

S210、将待训练样本数据输入至待训练特征提取模型中。

为了提高特征模型的准确性，可以尽可能多的获取待训练样本数据，以基于待训练样本数据训练得到特征提取模型。

其中，待训练样本数据可以理解为训练特征提取模型的样本数据。将修正参数为默认值的模型作为待训练特征提取模型。由于本实施例主要是提取视频数据的目标特征向量，而视频数据中不仅包括声音还包括图片，因此待训练特征提取模型是声音和视觉特征联合的深度神经网络，可以将声音和视觉数据作为待训练特征提取模型的两个分支，以基于待训练特征提取模型提取视频数据的训练声音特征向量和训练视觉特征向量。每个待训练样本数据中包括至少一个视频片段以及与每个视频片段对应的目标特征向量。目标特征向量中包括样本声音特征向量和样本视觉特征向量。

为了提高特征提取模型的准确性，多个训练样本数据中不仅包括正样本数据，还包括负样本数据。其中，正样本数据为声音和口型是完全可以对应上的数据，负样本数据是指声音或者口型不一致的样本数据。

针对所有训练样本数据中的每个待训练样本数据，可以将待训练样本数据的视频片段输入至待训练特征提取模型中，以得到与待训练样本数据相对应的训练目标特征向量。

S220、基于待训练特征提取模型获取待训练样本数据的训练目标特征向量。

其中，特征提取模型中可以包括声音和视觉的神经网络，用于对视频片段中声音和视觉两个维度的特征提取，以得到声音和视觉两个维度对应份声音特征向量和视觉特征向量。将视频片段输入至待训练特征模型后，可以通过模型中的声音和视觉网络分别对视频片段中的声音和视频画面进行处理，以得到视频片段中的声音特征向量和视觉特征向量。训练目标特征向量可以理解为由训练特征提取模型输出的特征向量，该特征向量中包括声音特征向量和视觉特征向量。

S230、基于样本目标特征向量和训练目标特征向量，计算预设损失函数的函数值，根据计算结果对待训练特征提取模型中的网络参数进行调整。

其中，样本目标特征向量为样本数据中的特征向量。训练目标特征向量为基于待训练特征提取模型对训练样本数据处理后得到的特征向量。损失函数为预先设置的，用于衡量确定出的待训练特征向量是否满足预设条件。

具体的，获取训练样本数据中的样本目标特征向量，以及训练目标特征向量进行处理，得到损失函数值，基于损失函数值来修正待训练特征提取模型中的网络参数。

S240、当损失函数收敛时得到的待训练特征提取模型作为特征提取模型。

具体的，可以将损失函数的训练误差，即损失参数作为检测损失函数当前是否达到收敛的条件，比如训练误差是否小于预设误差或误差变化趋势是否趋于稳定，或者当前的迭代次数是否等于预设次数。若检测达到收敛条件，比如损失函数的训练误差达到小于预设误差或误差变化趋于稳定，表明待训练特征提取模型训练完成，此时可以停止迭代训练。若检测到当前未达到收敛条件，可以进一步获取样本数据对待训练特征提取模型进行训练，直至损失函数的训练误差在预设范围之内。当损失函数的训练误差达到收敛时，可以将待训练特征提取模型作为特征提取模型。

示例性的，视觉特征提取网络输入为一组视频帧，每帧图像经过卷积神经网络CNN后输入LSTM层，得到Fv特征向量，即视觉特征向量；声音特征提取网络输入为一组音频帧对应的频谱图，每帧频谱图经过卷积神经网络CNN后输入LSTM层，得到Fa特征向量，即声音特征向量；基于Fv特征向量与Fa特征向量与样本目标训练样本数据中的样本目标特征向量输入到距离损失函数进行训练，得到特征提取模型。训练特征提取模型的训练样本数据可以是：以来源于同一段视频中的声音和图像同步的数据作为正样本，以来源于不同视频的声音图像数据作为负样本，也可以是声音和图像不同步的数据作为负样本。基于正样本和负样本对待训练特征提取模型进行训练，以得到特征提取模型。经过训练得到的特征提取模型可以对输入的视频片段进行声音和视觉特征提取，对于输入的视频可以标记为X，其提取出的声音特征向量和视觉特征向量可分别记为Fv(X)和Fa(X)。

本发明实施例的技术方案，通过训练得到的特征提取模型，可以提取出待处理样本数据中的声音特征向量和视觉特征向量，并基于声音特征向量和视觉特征向量从待处理样本数据中确定目标样本数据。

实施例三

图3为本发明实施例三所提供的训练一致性评估函数的流程示意图。在前述实施例的基础上，为了从待处理样本数据中确定目标样本数据，可以基于预先训练好的质量评估函数对待处理样本数据的目标特征向量和不同状态对应的待处理数据进行处理，以基于处理结果从待处理样本数据中确定目标样本数据。上述相同或者相应的名词的解释可参见上述实施例，在此不再赘述。

如图3所示，所述方法包括：

S310、将待训练一致性评估函数中的评估参数初始化。

其中，一致性评估函数可以是Q_θ(s_t,a_t)函数，Q函数可以对应神经网络的形式，θ为一致性评估函数中的参数，本实施例中主要用于训练Q函数中的θ参数。Q函数的输入可以是神经网络的输入，对应t时刻的状态。s_t为t时刻训练样本数据中的样本状态，描述t时刻待处理数据是否被保留的状态，a_t表示t时刻采取的动作，即t时刻待处理数据是否采取丢弃的动作。由于待训练一致性评估函数中的初始值为默认的，因此可以将设置为默认值的一致性评估函数作为待训练一致性评估函数。

在对一致性评估函数中的参数进行初始化后，可以确定各个待训练样本数据的初始化状态。

S320、随机选取样本状态以及动作，生成时间序列状态和动作。

其中，随机选取样本状态s_t以及动作a_t，生成时间序列状态和动作。时间序列状态和动作可以表示为{s_t,a_t},t＝1,2,3…。

需要说明的是，训练待训练一致性评估函数是基于待训练样本数据对应的特征向量来实现的。也就是说，在获取到待训练样本数据后，基于特征提取模型可以得到每个待训练样本数据的待训练声音特征向量和待训练视觉特征向量。

在确定待处理数据的初始状态后，可以对初始状态对应的待训练数据进行处理，以得到与初始状态对应的初始动作。

S330、基于待训练一致性评估函数对随机样本状态进行处理得到当前评估值。

其中，针对多个训练样本数据中的每个训练样本数据，将初始状态、训练样本数据的样本目标特征向量输入至待训练一致性评估函数中，得到与初始状态相对应的初始动作。基于初始动作确定待训练样本数据的样本第二状态；将样本第二状态以及待训练样本数据的样本目标特征向量输入至训练一致性评估函数，得到与样本第二状态对应的第二动作；基于初始动作与第二动作，确定与初始状态对应的初始评估值。

在本实施例中，可以通过如下公式对所述初始动作和所述第二动作进行处理，确定与所述初始状态对应的初始评估值，

r_t＝sgn(D(Fa,Fv|s_t)-D(Fa,Fv|s_t+1))其中，r_t表示与当前状态对应的当前评估值，Fa为样本目标特征向量中的样本声音特征向量，Fv为样本目标特征向量中的样本视觉特征向量，s_t表示当前状态，s_t+1为当前状态的下一状态，D(Fa,Fv|s_t)表示与当前状态s_t相对应的样本声音特征向量和样本视觉特征向量之间的相似度值；D(Fa,Fv|s_t+1)表示与当前状态的下一状态s_t+1相对应的样本声音特征向量和样本视觉特征向量之间的相似度值，sgn表示信号函数。

在本实施例中，通过如下公式确定与当前状态相对应的样本声音特征向量和样本视觉特征向量之间的相似度值；

其中，

表示当前状态s_t下的训练样本数据中与各个视频片段对应的状态，n为训练样本数据中视频片段的数量，Fa_i与每个视频片段对应的样本声音特征向量，Fv_i与每个视频片段中对应的样本视觉特征向量。也就是说，根据Q函数对应神经网络的输入输出，其训练数据包括各状态S_t和动作a_t的采样以及对应的输出声音视觉内容一致性估计值r_t。状态s_t和动作a_t的采样可通过样本全集X生成，以每一个X的状态以及该状态下每一个可能的丢弃动作作为一个训练样本，该样本对应的输出声音视觉内容一致性估计值r_t的计算方式为r_t＝sgn(D(Fa,Fv|s_t)-D(Fa,Fv|s_t+1))，其中sgn()为符号函数，输入为正时值为1，为负时值为-1，s_t+1为t+1时刻的样本集合状态，由s_t和a_t唯一确定。D(Fa,Fv|s_t)表示状态s_t下对应的样本集合中所有样本的声音特征Fa和视觉特征Fv之间的距离，可以表征相似度。

表示状态s_t下的样本集合，n为此集合中样本个数。

S340、判断与当前状态相对应的当前评估值是否满足预设条件，若是，则执行S350；若否，则执行S360。

其中，由于当前评估值的计算是通过符号函数来确定，因此预设条件可以是1。

当当前评估值满足预设条件时，可以将当前评估值作为标准值；若当前评估值不满足预设条件时，可以基于预设公式来确定与当前状态对应的当前标准值，并返回执行与各个状态对应的当前评估值，进而基于当前评估值确定标准值，进而基于标准值与当前评估值修正一致性评估函数中的评估参数。

S350、将当前状态对应的当前评估值作为当前标准值。

具体的，当当前评估值满足预设条件时，可以将当前评估值作为当前标准值。

S360、基于预设公式确定与当前评估值相对应的当前标准值。

具体的，当当前评估值不满足预设条件时，可以通过预设公式来确定当前标准值。预设公式可以是：

其中η为衰减系数，取值范围在[0,1]之间，可设为0.9。

S370、基于当前标准值与当前评估值训练待训练一致性评估函数中的修正参数，在修正参数收敛时确定的待训练一致性评估函数作为一致性评估函数。

通过以上时间序列t上的内循环可生成与输入{s_t,a_t}对应的Q函数在时间序列上的标准输出序列y_t。最后根据实际Q函数的输出Q(s_t,a_t)和估计的标注输出y_t直接的欧氏距离计算梯度

进行反向传播，更新Q函数的参数θ。也就是说，基于当前标准值与当前评估值可以得到一致性评估函数。

在本实施例中，可以通过迭代的方式训练一致性评估函数。

进入K步迭代循环，其中K为训练迭代次数：每次迭代时先从样本全集X，即待训练数据中包括多个视频片段，可以将该视频片段作为一个样本全集，随机选取样本状态s_t以及动作a_t，生成一个时间序列的状态和动作{s_t,a_t},t＝1,2,3…，通过对样本状态进行处理，可以计算得到{s_t,a_t}对应的一致性评估值，即r_t，形成{s_t,a_t}与r_t的一组数据对。随后进入时间序列t上的内循环，对时间序列上的{s_t,a_t}与r_t，

函数输出的标准值记为y_t，当满足终止条件即对任意动作a_t都有r_t＜0时，y_t＝r_t，否则y_t通过递推公式

得到，其中η为衰减系数，取值范围在[0,1]之间，可设为0.9。通过以上时间序列t上的内循环可生成与输入{s_t,a_t}对应的Q函数在时间序列上的标准输出序列y_t。最后根据实际Q函数的输出Q(s_t,a_t)和估计的标注输出y_t直接的欧氏距离计算梯度

进行反向传播，更新Q函数的参数θ。

基于更新后的一致性评估参数，可以得到一致性评函数。

本发明实施例的技术方案，基于训练得到的一致性评估函数对样本数据进行处理，可以基于处理结果确定当前保留的样本数据是否为最优数据，从而从待处理数据中筛选出最优的样本数据，提高了确定样本数据的便捷性以及高效性的技术效果。

实施例四

作为上述实施例的一优选实施例，图4为本发明实施例四所提供的一种生成目标样本数据的流程示意图。在本实施例中可以将生成的样本作为最优样本。如图4所示，所述方法包括：

S401、获取样本全集。

具体的，可以将目标视频划分为至少一个视频片段，可选的，100个视频片段，分别标记为x₁、x₂、…，可以将100个视频片段作为一个样本全集。

S402、对样本全集进行初始化。

需要说明的是，在训练得到特征提取模型后，可以基于特征提取模型确定与样本全集相对应的特征向量。

在本实施例中，对样本全集进行初始化可以是确定与初始状态相对应的状态集合。

S403、当前状态s_t对应的动作集A_t＝{a_o}。

其中，可以将任一时刻对应的样本数据的状态作为当前状态。

S404、根据准则

选取本时刻t的最优动作a_t。

具体的，通过对当前状态进行处理，可以得到与当前状态相对应的当前动作。

S405、根据a_t和当前状态s_t生成下一时刻的状态。

具体的，基于与当前状态对应的当前动作可以确定下一时刻的状态，即根据当前动作中的标识，可以确定是否保留或者删除当前样本数据中的视频片段，将基于当前动作得到的处理结果作为下一时刻的状态。

S406、计算

需要说明的是，在确定下一时刻的状态后，可以重复执行S404至S405，得到与下一时刻的状态对应的动作。

S407、如果Q_max＜0，则返回执行S403，若否，则执行S408。

基于当前动作以及下一状态对应的动作，可以计算得到评估值，基于评估值与预设条件之间的关系，可以确定是否将该状态对应的样本数据作为最优样本数据，即目标样本数据。若满足预设条件，则可以将该状态对应的样本数据作为最优样本数据；若不满足预设条件，则可以返回执行S403。

S408、取s_t+1为最终状态，获得对应的最优样本集X^*。

需要说明的是，如果下一时刻对应的质量评估值，满足预设条件，则可以将下一时刻对应的状态作为最终状态，此时样本数据中的视频片段为得到的最优样本，即实现了自动便捷的从全部样本数据集中确定最优样本集。

从与待处理样本数据对应的样本全集中确定最优样本集的具体流程可以是：初始化时从样本全集X开始，此时记时间t＝0；

进入迭代循环：首先对当前状态s_t，即剩余的样本集合，列出其所有可能的动作集合A_t＝{a_i}，即所有可能被去除的样本的去除动作；根据准则

选取本时刻t的最优动作a_t；根据a_t和当前状态s_t生成下一时刻的状态s_t+1；计算用于终止条件判断的

如果满足Q_max＜0的终止条件，则终止循环，并取状态s_t+1为最终状态，s_t+1对应的X中保留的样本集合即为最终选中的具有最优声音视觉一致性的样本集合X^*，否则令t＝t+1继续迭代循环。本发明实施例的技术方案，通过学习得到的评价函数Q能从样本全集X中选中最佳的声音视觉匹配样本子集，从而提高自监督学习训练样本的质量。

实施例五

作为上述实施例的一优选实施例，图5为本发明实施例五所提供的一优选实施例流程示意图。如图5所示，所述方法包括：

S501、获取待处理视频，并将待处理视频进行采样分割。

具体的，可以依据等时间间隔或者等视频帧的方式，将待处理视频划分为多个视频片段。

S502、基于特征提取模型训练对视频采样片段进行处理，得到声音和视觉特征向量。

将所有视频片段输入至特征提取模型中，基于特征提取模型中的视觉神经网络和声音神经网络对各个视频片段进行处理，提取出视频数据的声音特征向量和视觉特征向量。

S503、将声音和视觉特征向量以及当前状态输入至一致性代价评估函数中，可以得到与当前状态对应的当前动作，基于当前动作得到一致性评估值。

具体的，将声音特征向量、视觉特征向量以及与当前状态对应的待处理数据输入至一致性评估函数中，可以得到与当前状态对应的当前动作。基于当前动作以及上一时刻对应的动作，可以确定与当前状态对应的一致性评估值。

当一致性评估值满足预设条件时，则可以将当前状态对应的待处理数据作为最优样本数据，反之重复执行S502至S503直至评估值满足预设条件时对应的样本数据作为最优样本数据。

S504、基于一致性评估值从待处理视频中确定最优样本数据。

具体的，当一致性性评估值满足预设条件时，可以将当前状态对应的待处理数据，即保留下的待处理数据作为最优样本数据。

实施例六

图6为本发明实施例六所提供的一种样本数据的生成装置结构示意图。如图6所示，所述装置包括：待处理样本数据确定模块610、目标特征向量确定模块620、当前动作确定模块630、当前样本数据确定模块640以及目标样本数据确定模块650。

其中，待处理样本数据确定模块610，用于获取待处理样本数据；目标特征向量确定模块620，用于将所述待处理样本数据输入至预先训练好的特征提取模型中，得到与所述待处理样本数据对应的目标特征向量；当前动作确定模块630，用于将与所述当前状态对应的待处理样本数据以及所述目标特征向量输入至预先训练得到的一致性评估函数中，得到与当前状态相对应的当前动作；当前样本数据确定模块640，用于基于当前动作，确定与所述待处理样本数据对应的当前样本数据；目标样本数据确定模块650，用于基于所述当前动作与前一时刻对应的动作，确定满足预设终止条件时，将所述当前样本数据作为目标样本数据。

在上述技术方案的基础上，所述待处理样本数据中包括至少一个视频片段，相应的，所述目标特征向量确定模块，还用于将所述待处理样本数据输入至预先训练好的特征提取模型中，得到与所述至少一个视频片段相对应的目标特征向量，所述目标特征向量中包括声音特征向量和视觉特征向量。

在上述各技术方案的基础上，所述装置还包括：特征提取模块，用于训练特征提取模型；

所述特征提取模块包括：

训练样本数据获取单元，用于获取多个训练样本数据；所述多个训练样本数据中包括正样本数据和负样本数据；每个训练样本数据中包括多个视频片段，与所述训练样本数据对应的样本目标特征向量；所述样本目标特征向量中包括样本声音特征向量和样本视觉特征向量；

训练目标特征向量确定单元，用于针对多个训练样本数据中的每个训练样本数据，将所述训练样本数据输入至待训练特征提取模型中，得到与每个训练样本数据对应的训练目标特征向量；

模型参数调整单元，用于基于所述样本目标特征向量和所述训练目标特征向量，计算预设损失函数的函数值，根据计算结果对所述待训练特征提取模型中的网络参数进行调整；所述损失函数与所述待训练特征提取模型相对应；

特征提取模型确定单元，用于将所述损失函数达到收敛作为训练目标，对所述待训练特征提取模型进行训练，以得到所述特征提取模型；所述特征提取模型，用于对待处理样本数据进行处理，以得到与待处理样本数据对应的目标特征向量。

在上述各技术方案的基础上，所述装置还包括：一致性评估函数确定模块，用于训练所述一致性评估函数；

所述一致性评估函数确定模块包括：

状态确定单元，用于确定各个所述训练样本数据的初始状态；

动作确定单元，用于针对多个训练样本数据中的每个训练样本数据，将所述初始状态、所述训练样本数据的样本目标特征向量输入至待训练一致性评估函数中，得到与所述初始状态相对应的初始动作；

第二状态确定单元，用于基于所述初始动作确定所述待训练样本数据的样本第二状态；

第二动作确定单元，用于将所述样本第二状态以及所述待训练样本数据的样本目标特征向量输入至所述训练一致性评估函数，得到与所述样本第二状态对应的第二动作；

评估值确定单元，用于基于所述初始动作与所述第二动作，确定与所述初始状态对应的初始评估值；

标准值确定单元，用于当所述初始评估值不满足预设条件时，基于所述初始评估值确定与初始状态对应的初始标准值；

评估参数确定单元，用于基于所述初始评估值与所述初始标准值，更新所述一致性评估函数中的评估参数；

评估参数更新单元，用于将所述初始状态更新为样本第二状态，将所述初始动作更新为第二动作，重复执行将所述第二动作作为下一时刻的样本第二状态，输入至所述待训练一致性评估函数，以更新所述待训练一致性评估函数中的评估参数，直至评估值满足预设条件。

在上述各技术方案的基础上，所述评估值确定单元，还用于：基于预先设置的递推公式确定与所述初始状态对应的初始标准值。

在上述各技术方案的基础上，所述评估参数确定单元，还用于基于当前评估值与标准值之间差值的平方更新所述待训练一致性评估函数中的评估参数。

在上述各技术方案的基础上，通过如下公式对所述初始动作和所述第二动作进行处理，确定与所述初始状态对应的初始评估值，

r_t＝sgn(D(Fa,Fv|s_t)-D(Fa,Fv|s_t+1))其中，r_t表示与当前状态对应的当前评估值，Fa为样本目标特征向量中的样本声音特征向量，Fv为样本目标特征向量中的样本视觉特征向量，s_t表示当前状态，s_t+1为当前状态的下一状态，D(Fa,Fv|s_t)表示与当前状态s_t相对应的样本声音特征向量和样本视觉特征向量之间的相似度值；D(Fa,Fv|s_t+1)表示与当前状态的下一状态s_t+1相对应的样本声音特征向量和样本视觉特征向量之间的相似度值。

在上述各技术方案的基础上，通过如下公式确定与当前状态相对应的样本声音特征向量和样本视觉特征向量之间的相似度值；

其中，

表示当前状态s_t下的训练样本数据中与各个视频片段对应的状态，n为训练样本数据中视频片段的数量，Fa_i与每个视频片段对应的样本声音特征向量，Fv_i与每个视频片段中对应的样本视觉特征向量。

在上述各技术方案的基础上，所述装置还包括：通过对所述当前动作与前一时刻对应的动作进行处理，确定未满足所述预设终止条件时，基于所述当前动作确定下一时刻的状态，并将所述状态作为当前状态，

本发明实施例所提供的样本数据的生成装置可执行本发明任意实施例所提供的样本数据的生成方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

实施例七

图7为本发明实施例五提供的一种设备的结构示意图。图7示出了适于用来实现本发明实施例实施方式的示例性设备70的框图。图7显示的设备70仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，设备70以通用计算设备的形式表现。设备70的组件可以包括但不限于：一个或者多个处理器或者处理单元701，系统存储器702，连接不同系统组件(包括系统存储器702和处理单元701)的总线703。

总线703表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备70典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备70访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器702可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)704和/或高速缓存存储器705。设备70可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统706可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线703相连。存储器702可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块707的程序/实用工具708，可以存储在例如存储器702中，这样的程序模块707包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块707通常执行本发明所描述的实施例中的功能和/或方法。

设备70也可以与一个或多个外部设备709(例如键盘、指向设备、显示器710等)通信，还可与一个或者多个使得用户能与该设备70交互的设备通信，和/或与使得该设备70能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口711进行。并且，设备70还可以通过网络适配器712与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器712通过总线703与设备70的其它模块通信。应当明白，尽管图7中未示出，可以结合设备70使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元701通过运行存储在系统存储器702中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的样本数据的生成方法。

实施例八

本发明实施例八还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行样本数据的生成方法。

该方法包括：

获取待处理样本数据；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种样本数据的生成方法，其特征在于，包括：

获取待处理样本数据；

将与当前状态对应的待处理样本数据以及所述目标特征向量输入至预先训练得到的一致性评估函数中，得到与当前状态相对应的当前动作；

2.根据权利要求1所述的方法，其特征在于，所述待处理样本数据中包括至少一个视频片段，相应的，所述将所述待处理样本数据输入至预先训练好的特征提取模型中，得到与所述待处理样本数据对应的目标特征向量；

将所述待处理样本数据输入至预先训练好的特征提取模型中，得到与所述至少一个视频片段相对应的目标特征向量，所述目标特征向量中包括声音特征向量和视觉特征向量。

3.根据权利要求1所述的方法，其特征在于，还包括：训练特征提取模型；

所述训练特征提取模型，包括；

获取多个训练样本数据；所述多个训练样本数据中包括正样本数据和负样本数据；每个训练样本数据中包括多个视频片段，与所述训练样本数据对应的样本目标特征向量；所述样本目标特征向量中包括样本声音特征向量和样本视觉特征向量；

针对多个训练样本数据中的每个训练样本数据，将所述训练样本数据输入至待训练特征提取模型中，得到与每个训练样本数据对应的训练目标特征向量；

基于所述样本目标特征向量和所述训练目标特征向量，计算预设损失函数的函数值，根据计算结果对所述待训练特征提取模型中的网络参数进行调整；所述损失函数与所述待训练特征提取模型相对应；

将所述损失函数达到收敛作为训练目标，对所述待训练特征提取模型进行训练，以得到所述特征提取模型；

所述特征提取模型，用于对待处理样本数据进行处理，以得到与待处理样本数据对应的目标特征向量。

4.根据权利要求3所述的方法，其特征在于，还包括：训练所述一致性评估函数；

所述训练所述一致性评估函数包括：

确定各个所述训练样本数据的初始状态；

针对多个训练样本数据中的每个训练样本数据，将所述初始状态、所述训练样本数据的样本目标特征向量输入至待训练一致性评估函数中，得到与所述初始状态相对应的初始动作；

基于所述初始动作确定所述待训练样本数据的样本第二状态；

将所述样本第二状态以及所述待训练样本数据的样本目标特征向量输入至所述训练一致性评估函数，得到与所述样本第二状态对应的第二动作；

基于所述初始动作与所述第二动作，确定与所述初始状态对应的初始评估值；

当所述初始评估值不满足预设条件时，基于所述初始评估值确定与初始状态对应的初始标准值；

基于所述初始评估值与所述初始标准值，更新所述一致性评估函数中的评估参数；

将所述初始状态更新为样本第二状态，将所述初始动作更新为第二动作，重复执行将所述第二动作作为下一时刻的样本第二状态，输入至所述待训练一致性评估函数，以更新所述待训练一致性评估函数中的评估参数，直至评估值满足预设条件。

5.根据权利要求4所述的方法，其特征在于，所述基于所述初始评估值确定与初始状态对应的初始标准值，包括：

基于预先设置的递推公式确定与所述初始状态对应的初始标准值。

6.根据权利要求4所述的方法，其特征在于，所述基于所述初始评估值与所述初始标准值，更新所述一致性评估函数中的评估参数，包括：

基于当前评估值与标准值之间差值的平方更新所述待训练一致性评估函数中的评估参数。

7.根据权利要求4所述的方法，其特征在于，通过如下公式对所述初始动作和所述第二动作进行处理，确定与所述初始状态对应的初始评估值，

r_t＝sgn(D(Fa,Fv|s_t)-D(Fa,Fv|s_t+1))，

其中，r_t表示与当前状态对应的当前评估值，Fa为样本目标特征向量中的样本声音特征向量，Fv为样本目标特征向量中的样本视觉特征向量，s_t表示当前状态，s_t+1为当前状态的下一状态，D(Fa,Fv|s_t)表示与当前状态s_t相对应的样本声音特征向量和样本视觉特征向量之间的相似度值；D(Fa,Fv|s_t+1)表示与当前状态的下一状态s_t+1相对应的样本声音特征向量和样本视觉特征向量之间的相似度值。

8.根据权利要求7所述的方法，其特征在于，还包括：通过如下公式确定与当前状态相对应的样本声音特征向量和样本视觉特征向量之间的相似度值；

其中，

9.根据权利要求1所述的方法，其特征在于，还包括：

通过对所述当前动作与前一时刻对应的动作进行处理，确定未满足所述预设终止条件时，基于所述当前动作确定下一时刻的状态，并将所述状态作为当前状态。

10.一种样本数据的生成装置，其特征在于，包括：

待处理样本数据确定模块，用于获取待处理样本数据；