CN110929772A

CN110929772A - 模型训练方法、样本生成方法、装置、电子设备及存储介质

Info

Publication number: CN110929772A
Application number: CN201911122452.6A
Authority: CN
Inventors: 郭晓锋; 谭颖; 李海
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-03-27

Abstract

本发明涉及一种模型训练方法、样本生成方法、装置、电子设备及存储介质，其中，模型训练方法包括：在数据集中提取初始样本及与所述初始样本对应的类别标签；利用所述初始样本及所述类别标签，对预先建立的变分自编码器进行训练，直至所述变分自编码器收敛，所述变分自编码器包括编码器和解码器；将训练完成的所述变分自编码器中的解码器作为样本生成模型，所述样本生成模型用于生成训练样本。本发明实施例可以生成用于自动生成训练样本的样本生成模型，便于利用样本生成模型自动生成训练样本，整个过程简单便捷，节省人工收集训练样本的时间和精力，提高训练样本的收集效率。

Description

模型训练方法、样本生成方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机领域，尤其涉及一种模型训练方法、样本生成方法、装置、电子设备及存储介质。

背景技术

大数据时代的到来和高性能计算设备(如GPU，TPU)的算力日益提升，使得人工智能取得了长足的发展。

然而，现有的人工智能算法往往依赖大量的标注数据进行训练，比如：著名的数据集ImageNet中包含上千万张标注好类别的图片，每一张图片都是使用相机拍照，或者其他方式搜集而来，每一张图片由人工标注、核验，整个过程费时费力，且耗费大量的资金。

发明内容

为了解决上述技术问题或者至少部分地解决上述人工搜集训练样本时，每一张图片由人工标注、核验，整个过程费时费力，且耗费大量的资金的技术问题，本发明提供了一种模型训练方法、样本生成方法、装置、电子设备及存储介质。

第一方面，本发明提供了一种模型训练方法，包括：

在数据集中提取初始样本及与所述初始样本对应的类别标签；

利用所述初始样本及所述类别标签，对预先建立的变分自编码器进行训练，直至所述变分自编码器收敛，所述变分自编码器包括编码器和解码器；

将所述变分自编码器中的解码器确定为用于生成训练样本的样本生成模型。

可选地，将所述初始样本输入至所述变分自编码器的编码器，所述编码器输出特征向量；

将所述类别标签和所述特征向量输入至所述变分自编码器的解码器，所述解码器输出目标样本。

可选地，训练所述变分自编码器的目标函数根据初始样本和所述目标样本之间的欧氏距离，以及，所述特征向量和随机噪声之间的散度确定。

可选地，所述变分自编码器的编码器使用的神经网络为具有跳层连接结构的神经网络，所述跳层连接结构用于将所述神经网络的第N+1层的输入特征跳层连接至第M-N层，其中，M≥4，N≥1，N+1＜M-N，利用第M-N层将第N+1层的输入特征与第M-N-1层的输出特征融合。

第二方面，本发明提供了一种样本生成方法，包括：

获取待生成训练样本的类别信息及随机采样到的随机噪声；

将所述类别信息和所述随机噪声输入预设的样本生成模型，得到所述待生成训练样本，所述样本生成模型是利用第一方面任一所述的模型训练方法训练的。

第三方面，本发明提供了一种模型训练装置，包括：

提取模块，用于在数据集中提取初始样本及与所述初始样本对应的类别标签；

训练模块，用于利用所述初始样本及所述类别标签，对预先建立的变分自编码器进行训练，直至所述变分自编码器收敛，所述变分自编码器包括编码器和解码器；

确定模块，用于将所述变分自编码器中的解码器确定为用于生成训练样本的样本生成模型。

可选地，所述训练模块，还用于：

将所述初始样本和所述类别标签输入至所述变分自编码器的编码器，所述编码器输出特征向量；

第四方面，本发明提供了一种样本生成装置，包括：

获取模块，用于获取待生成训练样本的类别信息及随机采样到的随机噪声；

输入模块，用于将所述类别信息和所述随机噪声输入预设的样本生成模型，得到所述待生成训练样本，所述样本生成模型是利用第一方面任一所述的模型训练方法训练的。

第五方面，本发明提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的模型训练方法或者第二方面所述的样本生成方法。

第六方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有模型训练方法的程序，所述模型训练方法的程序被处理器执行时实现第一方面任一所述的模型训练方法或者第二方面所述的样本生成方法的步骤。

本发明实施例提供的上述技术方案与现有技术相比具有如下优点：

本发明实施例提供的该方法，通过首先在数据集中提取初始样本及与所述初始样本对应的类别标签，将所述初始样本和所述类别标签输入至预先建立的变分自编码器的编码器，将所述类别标签和所述编码器输出的特征向量输入至所述变分自编码器的解码器，输出目标样本，利用预设目标函数对所述变分自编码器进行训练，最后可以将训练完成的所述变分自编码器中的解码器作为用于生成训练样本的样本生成模型。

本发明实施例通过利用初始样本、类别标签及目标函数对变分自编码器的编码器和解码器进行训练，可以生成用于自动生成训练样本的样本生成模型，便于利用样本生成模型自动生成训练样本，整个过程简单便捷，节省人工收集训练样本的时间和精力，提高训练样本的收集效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例提供的一种模型训练方法的流程示意图；

图2为本发明一个实施例提供的一种初始样本的示意图；

图3为本发明一个实施例提供的一种变分自编码器中编码器的神经网络结构示意图；

图4为本发明一个实施例提供的一种模型训练方法的原理示意图；

图5为本发明又一实施例提供的一种样本生成方法的流程示意图；

图6为本发明一个实施例提供的一种样本生成方法的原理示意图；

图7为本发明一个实施例提供的一种模型训练装置的结构图；

图8为本发明一个实施例提供的一种样本生成装置的结构图；

图9为本发明一个实施例提供的电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有的人工智能算法往往依赖大量的标注数据进行训练，比如：著名的数据集ImageNet中包含上千万张标注好类别的图片，每一张图片都是使用相机拍照，或者其他方式搜集而来，每一张图片由人工标注、核验，整个过程费时费力，且耗费大量的资金。为此，本发明实施例提供的一种模型训练方法、样本生成方法、装置、电子设备及存储介质，如图1所示，所述模型训练方法可以包括以下步骤：

步骤S101，在数据集中提取初始样本及与所述初始样本对应的类别标签；

在本发明实施例中，数据集是由样本数据组成的集合，数据集中至少包含多个初始样本及每个初始样本对应的类别标签。

示例性的，数据集可以为Mnist手写体数据集，Mnist手写体数据集至少包含一个训练图片集和一个训练标签集，其中，训练图片集中包括多个训练图片(即初始样本)，训练图片集中的每个训练图片均在训练标签集中存在一个对应的类别标签。

在该步骤中，可以在数据集中提取至少一个初始样本，及每个初始样本对应的类别标签。

示例性的，在训练图片集中提取的初始样本可以如图2所示，其中包含10个图片内容分别为0～9的数字的图片，在训练标签集中提取与所述图片对应的类别标签，图片内容分别为0～9的数字的图片，各图片对应的类别标签分别为0～9，即：图片内容为“0”的图片，其类别标签为“0”；图片内容为“1”的图片，其类别标签为“1”；图片内容为“2”的图片，其类别标签为“2”；图片内容为“3”的图片，其类别标签为“3”；……图片内容为“9”的图片，其类别标签为“9”。

步骤S102，利用所述初始样本及所述类别标签，对预先建立的变分自编码器进行训练，直至所述变分自编码器收敛，所述变分自编码器包括编码器和解码器。

在该步骤中，可以将所述初始样本输入至变分自编码器的编码器，所述编码器输出特征向量，将所述类别标签和所述编码器输出的特征向量输入至所述变分自编码器的解码器，所述解码器输出目标样本；

考虑到图像生成问题的特殊性，编码器模块使用的深度神经网络不同于传统神经网络，使用跳层连接(Skip-Connection)来对底层特征和高层特征进行融合，所以，在本发明实施例中，变分自编码器的编码器使用的神经网络为具有跳层连接结构的神经网络，所述跳层连接结构用于将所述神经网络的第N+1层的输入特征跳层连接至第M-N层，其中，M≥4，N≥1，N+1＜M-N，利用第M-N层将第N+1层的输入特征与第M-N-1层的输出特征融合。

如图3所示，以M＝6为例，初始样本从第1层(输入层)依次输入第2层、第3层、第4层、第5层和第6层(输出层)，最终由第6层输出，第2层至第5层可以分别根据实际需要设置为卷积层、池化层或者归一化层等，其中，第2层和第5层之间可以跳层连接，该跳层连接将第二层的输入输送至第5层，这样第5层的输入包括第四层的输出和第2层的输入，利用第5层进行低层(第2层)输入特征和高层(第4层)输出特征的融合；同理，第3层和第4层之间也可以跳层连接，该跳层连接将第3层的输入输送至第4层，这样，第4层的输入包括第3层的输出和第3层的输入，利用第4层进行低层(第3层)输入特征和高层(第3层)输出特征的融合，在实际应用中，M还可以根据实际情况取其它数值。

本发明实施例通过在编码器的神经网络结构中设置跳层连接，可以使得编码器输出的特征向量在保证具有图像局部一致性的同时，还保证每个图像局部有全局一致性，也就是说，保证图像局部和全局更加协调一致，因此底层和高层特征的融合有利于提升样本生成效果，便于生成图像质量更佳的训练样本。

如图4所示，可以将初始样本输入编码器模块，编码器模块输出编码后的特征向量，将特征向量和类别标签一同输入解码器，解码器输出与类别标签同一类别的目标样本，将特征向量和类别标签一同输入解码器训练变分自编码器，可以便于在后续使用训练好的变分自编码器生成目标样本时，可以按照指定的类别输出该指定类别的目标样本。

在本发明实施例中，预先建立的变分自编码器可以为条件变分自编码器。条件变分自编码器在训练时，加入一个类别标签向量，让条件变分自编码器学习图片时加入类别标签因素，这样可以按照类别标签的数值来生成指定类别的图片，因此实现让条件变分自编码器的解码器按指定的类别生成目标样本。

本发明实施例中的变分自编码器包括编码器和解码器，编码器和解码器均为深度神经网络结构，在编码器的编码阶段需要在输入端输入初始样本和与初始样本对应的类别标签，编码器提取初始样本和类别标签的特征信息得到编码后的特征向量，该特征向量可以指固定维度的浮点数向量。

在解码器的解码阶段是将编码器的输出，即：特征向量，和与初始样本对应的类别标签作为输入，类别标签表示待生成的目标样本的类别，例如：比如数字1，其类别标签可以表示为：(0，1，0，0，0，0，0，0，0)。

为了生成与初始样本尽量相似但仍与初始样本仍有不同的目标样本，所以训练所述变分自编码器的目标函数根据初始样本和所述目标样本之间的欧氏距离，以及，所述特征向量和随机噪声之间的散度确定。通过该目标函数，可以通过初始样本和目标样本之间的欧式距离的部分使得目标样本与初始样本尽量相似，通过特征向量和随机噪声之间的散度的部分使得目标样本与初始样本仍有不同。

在本发明实施例中，所述目标函数为：

Loss＝(I_ori-I_target)²+KL(f_ori||f_noise)

其中，I_ori为初始样本，I_target为目标样本，f_ori为特征向量，f_noise为对高斯函数进行随机采样得到的随机噪声，KL(f_ori||f_noise)表示特征向量与随机噪声之间的散度，KL散度用以描述两个概率分布之间的发散程度。

高斯函数具体形式如下：

示例性的，实际应用过程中，可以使用深度学习库(比如tensorflow)等，提取高斯函数f(x)采样后的噪声f_noise。

在编码器的编码阶段输入端输入类别标签时，一般是通过一个全连接层的变换将编码得到的结果连接(contact)到原始输入的地方，在解码器解码阶段也将类别标签作为输入，与高斯分布的随机值一并运算，生成目标样本。

步骤S103，将所述变分自编码器中的解码器确定为用于生成训练样本的样本生成模型。

本发明实施例通过首先在数据集中提取初始样本及与所述初始样本对应的类别标签，利用所述初始样本及所述类别标签，对预先建立的变分自编码器进行训练，直至所述变分自编码器收敛，所述变分自编码器包括编码器和解码器，最后可以将所述变分自编码器中的解码器确定为用于生成训练样本的样本生成模型。

本发明实施例通过利用初始样本和类别标签对变分自编码器的编码器和解码器进行训练，可以生成用于自动生成训练样本的样本生成模型，便于利用样本生成模型自动生成训练样本，整个过程简单便捷，节省人工收集训练样本的时间和精力，提高训练样本的收集效率。

基于前述实施例的样本生成模型，在本发明的又一实施例中，还提供一种样本生成方法，如图5所示，所述样本生成方法可以包括以下步骤：

步骤S201，获取待生成训练样本的类别信息及随机采样到的随机噪声；

如图6所示，在本发明实施例中，输入期望生成目标样本的类别信息，基于前述实施例中的Mnist手写体数据集，可以输入的类别信息的向量为(0，1，0，0，0，0，0，0，0，0)，这个向量第一位为1，第0位和其余位均为0，表示期望生成目标样本的类别为1，对应Mnist手写体数据集中，即为生成数字1，然后将类别信息的向量和随机噪声一同送入解码器模块，得到目标样本，目标样本为数字1。

实际应用过程中，可以使用深度学习库(比如tensorflow)等，提取高斯函数f(x)采样后的噪声f_noise。

步骤S202，将所述类别信息和所述随机噪声输入预设的样本生成模型，得到所述待生成训练样本。

在本发明实施例中，所述样本生成模型是利用前述模型训练方法的实施例训练得到的。

本发明实施例通过首先获取待生成训练样本的类别信息及随机采样到的随机噪声，可以将所述类别信息和所述随机噪声输入预设的样本生成模型，得到所述待生成训练样本。

本发明实施例能够在将类别信息及随机噪声输入样本生成模型后，自动生成训练样本，整个过程简单便捷，节省人工收集训练样本的时间和精力，提高训练样本的收集效率。

在本发明的又一实施例中，还提供一种模型训练装置，如图7所示，所述装置包括：

提取模块11，用于在数据集中提取初始样本及与所述初始样本对应的类别标签；

训练模块12，用于利用所述初始样本及所述类别标签，对预先建立的变分自编码器进行训练，直至所述变分自编码器收敛，所述变分自编码器包括编码器和解码器；

确定模块13，用于将所述变分自编码器中的解码器确定为用于生成训练样本的样本生成模型。

本发明实施例通过首先在数据集中提取初始样本及与所述初始样本对应的类别标签，利用所述初始样本及所述类别标签，对预先建立的变分自编码器进行训练，直至所述变分自编码器收敛，所述变分自编码器包括编码器和解码器，最后可以将所述变分自编码器中的解码器作为用于生成训练样本的样本生成模型。

在本发明的又一实施例中，所述训练模块12，还用于：

在本发明的又一实施例中，所述变分自编码器的编码器使用的神经网络为具有跳层连接结构的神经网络，所述跳层连接结构用于将所述神经网络的第N+1层的输入特征跳层连接至第M-N层，其中，M≥4，N≥1，N+1＜M-N，利用第M-N层将第N+1层的输入特征与第M-N-1层的输出特征融合。

在本发明的又一实施例中，训练所述变分自编码器的目标函数根据初始样本和所述目标样本之间的欧氏距离，以及，所述特征向量和随机噪声之间的散度确定。

所述目标函数为：

Loss＝(I_ori-I_target)²+KL(f_ori||f_noise)

其中，I_ori为初始样本，I_target为目标样本，f_ori为特征向量，f_noise为对高斯函数进行随机采样得到的随机噪声，KL(f_ori||f_noise)表示特征向量与随机噪声之间的散度。

在本发明的又一实施例中，还提供一种样本生成装置，如图8所示，所述装置包括：

获取模块21，用于获取待生成训练样本的类别信息及随机采样到的随机噪声；

输入模块22，用于将所述类别信息和所述随机噪声输入预设的样本生成模型，得到所述待生成训练样本，所述样本生成模型是前述模型驯良装置的实施例训练的。

在本发明的又一实施例中，还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现前述方法实施例所述的模型训练方法。

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现前述方法实施例所述的样本生成方法。

本发明实施例提供的电子设备，处理器通过执行存储器上所存放的程序实现了获取视频的播放操作，根据播放操作确认相应的帧率降低策略，根据帧率降低策略对视频数据对应的帧数据进行调整后进行播放，保证播放设备可以良好的播放视频。

上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明的又一实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有模型训练方法的程序，所述模型训练方法的程序被处理器执行时实现前述方法实施例所述的模型训练方法的步骤。

在本发明的又一实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有样本生成方法的程序，所述样本生成方法的程序被处理器执行时实现前述方法实施例所述的样本生成方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，利用所述初始样本及所述类别标签，对所述变分自编码器进行训练，包括：

将所述初始样本输入至所述变分自编码器的编码器，所述编码器输出特征向量；

3.根据权利要求2所述的模型训练方法，其特征在于，训练所述变分自编码器的目标函数根据初始样本和所述目标样本之间的欧氏距离，以及，所述特征向量和随机噪声之间的散度确定。

4.根据权利要求1所述的模型训练方法，其特征在于，所述变分自编码器的编码器使用的神经网络为具有跳层连接结构的神经网络，所述跳层连接结构用于将所述神经网络的第N+1层的输入特征跳层连接至第M-N层，其中，M≥4，N≥1，N+1＜M-N，利用第M-N层将第N+1层的输入特征与第M-N-1层的输出特征融合。

5.一种样本生成方法，其特征在于，包括：

获取待生成训练样本的类别信息及随机采样到的随机噪声；

将所述类别信息和所述随机噪声输入预设的样本生成模型，得到所述待生成训练样本，所述样本生成模型是利用权利要求1至4任一所述的模型训练方法训练的。

6.一种模型训练装置，其特征在于，包括：

7.根据权利要求6所述的模型训练装置，其特征在于，所述训练模块，还用于：

8.根据权利要求7所述的模型训练装置，其特征在于，训练所述变分自编码器的目标函数根据初始样本和所述目标样本之间的欧氏距离，以及，所述特征向量和随机噪声之间的散度确定。

9.根据权利要求6所述的模型训练装置，其特征在于，所述变分自编码器的编码器使用的神经网络为具有跳层连接结构的神经网络，所述跳层连接结构用于将所述神经网络的第N+1层的输入特征跳层连接至第M-N层，其中，M≥4，N≥1，N+1＜M-N，利用第M-N层将第N+1层的输入特征与第M-N-1层的输出特征融合。

10.一种样本生成装置，其特征在于，包括：

输入模块，用于将所述类别信息和所述随机噪声输入预设的样本生成模型，得到所述待生成训练样本，所述样本生成模型是利用权利要求6至9任一所述的模型训练装置训练的。

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1～4任一所述的模型训练方法或者权利要求5所述的样本生成方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有模型训练方法的程序，所述模型训练方法的程序被处理器执行时实现权利要求1-4任一所述的模型训练方法或者权利要求5所述的样本生成方法的步骤。