CN111914949A

CN111914949A - 基于强化学习的零样本学习模型的训练方法及装置

Info

Publication number: CN111914949A
Application number: CN202010846632.5A
Authority: CN
Inventors: 张勇东; 葛健男; 谢洪涛
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-11-10
Anticipated expiration: 2040-08-20
Also published as: CN111914949B

Abstract

本发明公开了一种基于强化学习的零样本学习模型的训练方法及装置、计算机可读存储介质，该方法包括以下步骤：获取已训练的分类模型；固定已训练的分类模型的参数，将训练数据输入已训练的分类模型；从已训练的分类模型获取训练数据经特征提取后得到的特征数据，将特征数据转换为状态向量；将状态向量输入基于强化学习的动作预测模型，根据当前的奖赏值进行预测得到动作预测结果并执行相应的动作，以对输入的训练数据进行调整；通过损失函数优化基于强化学习的动作预测模型的参数，得到已训练的基于强化学习的动作预测模型，再与已训练的分类模型组成已训练的基于强化学习的零样本学习模型。本发明实现了进一步提高零样本学习模型的性能的效果。

Description

基于强化学习的零样本学习模型的训练方法及装置

技术领域

本申请涉及图像识别技术领域，尤其涉及一种基于强化学习的零样本学习模型的训练方法及装置、计算机可读存储介质。

背景技术

零样本学习(Zero Shot Learning,ZSL)是一种训练集和测试集在数据类别上没有交集的图像分类技术。传统的图像分类技术属于监督学习，需要对每张图片打标签来方便模型的训练。而现实世界生物种类繁多，对所有物种的图片打标签将耗费大量人力成本，而且部分物种甚至需要专家的知识来进行标注。这限制了数据集的产生，进而导致传统图像分类技术难以大范围推广。而零样本学习不需要对所有类别的图片进行标注，它通过类别的属性将已标注的类别的信息迁移到未标注的类别上，进而对未标注类别的图片进行分类。而连接已标注和未标注类别的桥梁就是属性特征，它可以表征类别的颜色、食性、翅膀宽度等信息。在使用零样本学习进行图像分类时，为了更好地关注目标区域，从而提高零样本学习的性能，往往需要对图像中的目标进行搜寻。传统技术通常采用直接学习裁剪系数的方法对目标进行搜寻，但是这种方法带来的效果仍然较差。

发明内容

本申请实施例通过提供一种基于强化学习的零样本学习模型的训练方法及装置、计算机可读存储介质，解决了传统技术在对图像进行目标搜索时效果较差的问题，实现了对图像的序列化操作，提高了对图像进行目标搜索的精度和效果，达到了进一步提高零样本学习模型的性能的效果。

本申请实施例提供了一种基于强化学习的零样本学习模型的训练方法，所述方法包括：

获取已训练的分类模型；

固定所述已训练的分类模型中的参数，并将训练数据输入至所述已训练的分类模型；

从所述已训练的分类模型中获取所述训练数据经特征提取后得到的特征数据，并将所述特征数据转换为状态向量；

将所述状态向量输入至基于强化学习的动作预测模型，根据当前的奖赏值进行预测得到动作预测结果并执行相应的动作，以对输入的训练数据进行调整；

通过损失函数优化所述基于强化学习的动作预测模型中的参数，得到已训练的基于强化学习的动作预测模型，从而与所述已训练的分类模型组成已训练的基于强化学习的零样本学习模型。

在一实施例中，所述获取已训练的分类模型的步骤，具体包括：

获取针对分类模型的图像数据集；

将所述图像数据集中的图片放缩至预设尺寸，并进行随机的设定大小的裁剪及水平翻转处理；

对处理后的图片进行特征数据提取，并将所述特征数据映射为对应于图片类别的分类结果；

根据所述分类结果判断所述图片的预测类别；

通过损失函数优化所述分类模型中的参数，得到已训练的分类模型。

在一实施例中，所述根据所述分类结果判断所述图片的预测类别的步骤，具体包括：

若所述分类结果中最可能的分类结果满足预设条件，则认为所述图片属于已知类别，并将所述最可能的分类结果对应的图片类别作为所述图片的预测类别。

在一实施例中，所述根据所述分类结果判断所述图片的预测类别的步骤，还包括：

若所述分类结果中最可能的分类结果不满足预设条件，则认为所述图片属于未知类别，并利用所述图像数据集中的属性特征对所述特征数据进行处理；

将处理后的特征数据映射为新的对应于图片类别的分类结果，并将最可能的分类结果对应的图片类别作为所述图片的预测类别。

在一实施例中，所述将所述特征数据转换为状态向量的步骤，具体包括：

对所述特征数据进行处理得到特征向量，并将所述特征向量与历史动作向量进行拼接，得到状态向量。

在一实施例中，所述基于强化学习的动作预测模型应用于图片，所述动作包括左上、右上、左下、右下和中心的裁剪动作及终止动作。

在一实施例中，所述将所述状态向量输入至基于强化学习的动作预测模型，根据当前的奖赏值进行预测得到动作预测结果并执行相应的动作，以对输入的训练数据进行调整的步骤，具体包括：

将所述状态向量输入至基于强化学习的动作预测模型，并根据当前的奖赏值进行预测得到动作预测结果；

根据所述动作预测结果使用预设的奖赏函数对当前的奖赏值进行更新；

若所述动作预测结果为终止动作或裁剪动作迭代次数达到设定值，则接受所述动作预测结果；

若所述动作预测结果为裁剪动作且迭代次数未达到设定值，则对所述图片执行所述裁剪动作，并继续对所述裁剪后的图片进行动作预测。

在一实施例中，所述方法还包括：

利用所述已训练的基于强化学习的动作预测模型对针对分类模型的图像数据集进行重构，得到重构的图像数据集；

使用所述重构的图像数据集对所述已训练的基于强化学习的零样本学习模型进行再次训练。

本申请实施例还提供了一种装置，所述装置包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的零样本学习模型训练程序，所述零样本学习模型训练程序被所述处理器执行时实现如上述的基于强化学习的零样本学习模型的训练方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有零样本学习模型训练程序，所述零样本学习模型训练程序被处理器执行时实现如上述的基于强化学习的零样本学习模型的训练方法的步骤。

本申请实施例中提供的一种基于强化学习的零样本学习模型的训练方法及装置、计算机可读存储介质的技术方案，至少具有如下技术效果：

由于采用了获取已训练的分类模型；固定所述已训练的分类模型中的参数，并将训练数据输入至所述已训练的分类模型；从所述已训练的分类模型中获取所述训练数据经特征提取后得到的特征数据，并将所述特征数据转换为状态向量；将所述状态向量输入至基于强化学习的动作预测模型，根据当前的奖赏值进行预测得到动作预测结果并执行相应的动作，以对输入的训练数据进行调整；通过损失函数优化所述基于强化学习的动作预测模型中的参数，得到已训练的基于强化学习的动作预测模型，从而与所述已训练的分类模型组成已训练的基于强化学习的零样本学习模型的技术手段。所以，有效解决了传统技术在对图像进行目标搜索时效果较差的问题，实现了对图像的序列化操作，提高了对图像进行目标搜索的精度和效果，达到了进一步提高零样本学习模型的性能的效果。

附图说明

图1为本申请实施例涉及的装置的结构示意图；

图2为本申请基于强化学习的零样本学习模型的训练方法第一实施例的流程示意图；

图3为本申请基于强化学习的零样本学习模型的训练方法第二实施例的流程示意图；

图4为本申请基于强化学习的零样本学习模型的训练方法第三实施例的流程示意图；

图5为本申请实施例涉及的分类模型的示意图；

图6为本申请实施例涉及的基于强化学习的零样本学习模型的示意图；

图7为本申请实施例涉及的动作的示意图；

图8为本申请实施例涉及的裁剪过程的示意图。

具体实施方式

本申请为了解决传统技术在对图像进行目标搜索时效果较差的问题，采用了获取已训练的分类模型；固定所述已训练的分类模型中的参数，并将训练数据输入至所述已训练的分类模型；从所述已训练的分类模型中获取所述训练数据经特征提取后得到的特征数据，并将所述特征数据转换为状态向量；将所述状态向量输入至基于强化学习的动作预测模型，根据当前的奖赏值进行预测得到动作预测结果并执行相应的动作，以对输入的训练数据进行调整；通过损失函数优化所述基于强化学习的动作预测模型中的参数，得到已训练的基于强化学习的动作预测模型，从而与所述已训练的分类模型组成已训练的基于强化学习的零样本学习模型的技术方案。实现了对图像的序列化操作，提高了对图像进行目标搜索的精度和效果，达到了进一步提高零样本学习模型的性能的效果。

为了更好地理解上述技术方案，下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

结合图1所示，其为本申请各个实施例中涉及的装置的一种硬件结构示意图，所述装置可以包括：处理器101、存储器102、输入单元103、输出单元104等部件。本领域技术人员可以理解，图1所示的装置的硬件结构并不构成对所述装置的限定，所述装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对所述装置的各个部件进行具体的介绍：

处理器101是装置的控制中心，连接整个装置的各个部分，通过运行或执行存储在存储器102内的程序，以及调用存储在存储器102内的数据，执行装置的各种功能或者对数据进行处理，从而对装置进行整体监控。此外，处理器101至少包括图形处理器GPU。

存储器102可用于存储装置的各种程序以及各种数据。存储器102主要包括存储程序区和存储数据区，其中，存储程序区至少存储了进行零样本学习模型训练所需的程序；存储数据区可以存储装置的各种数据。此外，存储器102可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。

输入单元103可用于从所述装置外部输入用于进行零样本学习模型训练所需的数据。

输出单元104可用于输出进行零样本学习模型训练时的对应于输入数据的预测结果。

在本申请实施例中，处理器101可以用于调用存储在存储器102中的零样本学习模型训练程序，并执行以下操作：

获取已训练的分类模型；

在一实施例中，处理器101可以用于调用存储在存储器102中的零样本学习模型训练程序，并执行以下操作：

获取针对分类模型的图像数据集；

根据所述分类结果判断所述图片的预测类别；

本实施例根据上述技术方案，采用了获取已训练的分类模型；固定所述已训练的分类模型中的参数，并将训练数据输入至所述已训练的分类模型；从所述已训练的分类模型中获取所述训练数据经特征提取后得到的特征数据，并将所述特征数据转换为状态向量；将所述状态向量输入至基于强化学习的动作预测模型，根据当前的奖赏值进行预测得到动作预测结果并执行相应的动作，以对输入的训练数据进行调整；通过损失函数优化所述基于强化学习的动作预测模型中的参数，得到已训练的基于强化学习的动作预测模型，从而与所述已训练的分类模型组成已训练的基于强化学习的零样本学习模型的技术方案。所以，有效解决了传统技术在对图像进行目标搜索时效果较差的问题，实现了对图像的序列化操作，提高了对图像进行目标搜索的精度和效果，达到了进一步提高零样本学习模型的性能的效果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

结合图2所示，在本申请的第一实施例中，本申请的基于强化学习的零样本学习模型的训练方法具体包括以下步骤：

步骤S110，获取已训练的分类模型。

在本实施例中，所述分类模型即为初始的零样本学习模型，可用于对输入数据进行分类，其中所述输入数据可以是已知数据类别的数据，也可以是未知数据类别的数据，即所述分类模型不仅能识别出训练数据中已有的数据类别，还能够对未知数据类别的数据进行区分。在一实施例中，所述输入数据为图像，即所述分类模型可以是用于对图像数据进行分类的零样本学习模型。可以理解的是，根据实际需要，所述分类模型也可以是用于对其它能够进行零样本学习的数据进行分类的零样本学习模型。在一实施例中，所述获取已训练的分类模型主要包括以下步骤：获取针对所述分类模型的数据集；对所述数据集进行处理；提取所述数据集中数据的特征数据；将所述特征数据映射为分类结果；根据分类结果确定所述数据的对应数据类别；通过优化所述分类模型中的参数对分类模型进行训练，得到已训练的分类模型。

步骤S120，固定所述已训练的分类模型中的参数，并将训练数据输入至所述已训练的分类模型。

在本实施例中，为了提高零样本学习模型的性能，我们选择了在使用已训练的分类模型对输入数据进行分类之前先对输入数据进行处理的方法。即在对所述输入数据进行分类前先执行相应的动作。在一实施例中，所述方法为对输入图片的非目标区域进行裁剪，所述动作即为裁剪或者终止。可以理解的是，根据实际需要，所述方法也可以是其它能够使输入数据更好地进行分类的方法。为了实施所述方法，我们在所述已训练的分类模型中加入了动作预测模型来预测对输入数据进行处理的动作。在所述已训练的分类模型中加入了动作预测模型之后还需要对所述动作预测模型进行训练。此时，需要固定所述已训练的分类模型中的参数，并将用于对所述动作预测模型进行训练的训练数据输入至所述已训练的分类模型，以此获取对所述动作预测模型进行训练的必要数据。

步骤S130，从所述已训练的分类模型中获取所述训练数据经特征提取后得到的特征数据，并将所述特征数据转换为状态向量。

在本实施例中，为了提高零样本学习模型的性能，我们还在所述动作预测模型中加入了强化学习的技术手段。其中，强化学习是指从环境状态到动作映射的学习，它通过试错机制在给定的马尔可夫过程中寻找到最优策略。将强化学习技术引入到零样本学习中，通过将对需要进行分类的目标的搜寻看作是一个马尔可夫过程，来逐步关注目标区域，从而提高零样本学习模型的性能。马尔可夫过程简单说就是一个智能体采取行动从而改变自己的状态获得奖励与环境发生交互的循环过程。在本实施例中，将训练数据经特征提取后得到的特征数据作为当前状态，并在所述特征数据中加入历史动作，得到所述训练数据的状态向量。

步骤S140，将所述状态向量输入至基于强化学习的动作预测模型，根据当前的奖赏值进行预测得到动作预测结果并执行相应的动作，以对输入的训练数据进行调整。

在本实施例中，在动作预测模型中加入强化学习的技术手段得到了基于强化学习的动作预测模型，而通过将训练数据的特征数据转换为状态向量得到了当前状态。在将所述状态向量输入至基于强化学习的动作预测模型之后，则可以根据所述状态向量以及各个动作的当前奖赏值通过动作预测模型进行动作预测，从而得到动作预测结果。而在得到动作预测结果之后，还需要对训练数据执行所述动作预测结果对应的动作，以对输入的训练数据进行调整，得到下一个状态的训练数据，并继续对下一个状态的训练数据进行动作预测，直到预设条件被满足为止。在一实施例中，所述预设条件可以是动作执行次数达到设定值。值得注意的是，在执行了动作之后，需要根据奖赏函数对动作的奖赏值进行更新，并且对奖赏值进行更新需要在对下一个状态进行动作预测之前。

步骤S150，通过损失函数优化所述基于强化学习的动作预测模型中的参数，得到已训练的基于强化学习的动作预测模型，从而与所述已训练的分类模型组成已训练的基于强化学习的零样本学习模型。

在本实施例中，可以通过损失函数对所述基于强化学习的动作预测模型中的参数进行优化，从而得到已训练的基于强化学习的动作预测模型。并且由于此前已经获得已训练的分类模型，所以可以得到由两者组成的已训练的基于强化学习的零样本学习模型。

上述方法的有益效果为采用了获取已训练的分类模型；固定所述已训练的分类模型中的参数，并将训练数据输入至所述已训练的分类模型；从所述已训练的分类模型中获取所述训练数据经特征提取后得到的特征数据，并将所述特征数据转换为状态向量；将所述状态向量输入至基于强化学习的动作预测模型，根据当前的奖赏值进行预测得到动作预测结果并执行相应的动作，以对输入的训练数据进行调整；通过损失函数优化所述基于强化学习的动作预测模型中的参数，得到已训练的基于强化学习的动作预测模型，从而与所述已训练的分类模型组成已训练的基于强化学习的零样本学习模型的技术方案。所以，有效解决了传统技术在对图像进行目标搜索时效果较差的问题，实现了对图像的序列化操作，提高了对图像进行目标搜索的精度和效果，达到了进一步提高零样本学习模型的性能的效果。

结合图3所示，在本申请的第二实施例中，本申请的基于强化学习的零样本学习模型的训练方法具体包括以下步骤：

步骤S210，获取已训练的分类模型。

在本实施例中，所述分类模型为对图像进行分类的零样本学习模型，在一实施例中，获取已训练的分类模型主要包括以下五个步骤。

步骤S211，获取针对分类模型的图像数据集。

所述针对分类模型的图像数据集包括图片和属性特征两个部分，而所述图片又可以分为已知类别的图片和未知类别的图片。其中，已知类别的图片可用于模型的训练，而对于模型的测试则使用已知类别的图片和未知类别的图片的混合数据。属性特征通常是维度为k×m的矩阵，k表示类别数量，m表示属性数量。其中，属性可以是表示类别特征的标志。以鸟类数据集CUB为例，该数据集是由加州理工学院于2010年提出的细粒度数据集。所述数据集包含11788张鸟类图片，并包含200类鸟类子类，其中已标注类别和未标注类别分别为150、50种，训练集、验证集和测试集的数量分别为7057、1764和2967。并且每个鸟类类别有312维度的属性向量，因此其属性特征的矩阵维度为200×312。

步骤S212，将所述图像数据集中的图片放缩至预设尺寸，并进行随机的设定大小的裁剪及水平翻转处理。

在获取了针对分类模型的图像数据集之后，需要对所述图像数据集中的图片进行处理。在一实施例中，所述分类模型可以如图5所示，并且每次输入分类模型的图片的数量可以是128张。首先，为了将输入分类模型的图片的大小进行统一，需要将所述图像数据集中的图片放缩至预设尺寸。在一实施例中，所述预设尺寸为480×480。在将所述图像数据集中的图片放缩至预设尺寸之后，还需要对所述放缩之后的图片进行随机的设定大小的裁剪处理和随机的水平翻转处理，其目的在于对图片数据进行扩充，并且提高训练后的分类模型的模型精度、增强训练后的分类模型的模型稳定性。其中，所述设定大小需要小于所述预设尺寸。在一实施例中，所述设定大小为448×448。

步骤S213，对处理后的图片进行特征数据提取，并将所述特征数据映射为对应于图片类别的分类结果。

在得到处理后的图片之后，使用特征提取网络对所述处理后的图片进行特征数据提取，可以得到图片的特征数据，然后通过映射网络将所述特征数据映射为对应于图片类别的分类结果。在一实施例中，所述分类模型如图5所示，图片首先经过一个卷积神经网络获得所述图片的特征图，其中每张图片对应的特征图的维度为2048×28×28；然后所述图片的特征图通过一个一层卷积，输出维度为2048的一维特征向量，其中所述特征向量用于表征所述图片的特征；所述特征向量在通过一个输出的维度为200的全连接层并经过一个softmax层后获得维度为200的输出，即可得到对应于图片类别的分类结果。

步骤S214，根据所述分类结果判断所述图片的预测类别。

在得到对应于图片类别的分类结果之后，可以根据所述分类结果判断所述图片的预测类别。在一实施例中，所述根据所述分类结果判断所述图片的预测类别可以包括以下三个步骤。

步骤a，若所述分类结果中最可能的分类结果满足预设条件，则认为所述图片属于已知类别，并将所述最可能的分类结果对应的图片类别作为所述图片的预测类别。

步骤b，若所述分类结果中最可能的分类结果不满足预设条件，则认为所述图片属于未知类别，并利用所述图像数据集中的属性特征对所述特征数据进行处理。

在一实施例中，所述最可能的分类结果为概率最高的分类结果；而所述预设条件可以是最可能的分类结果的概率大于阈值τ，如在CUB数据集中所述阈值τ设定为0.8。其中，利用所述图像数据集中的属性特征对所述特征数据进行处理可以是：将维度为312×200属性特征输入一个输入为312、输出为2048的两层全连接层，映射为一个2048×200的矩阵，并利用所述矩阵与特征数据中的维度为2048的特征向量进行点乘，得到维度为200的向量。

步骤c，将处理后的特征数据映射为新的对应于图片类别的分类结果，并将最可能的分类结果对应的图片类别作为所述图片的预测类别。

步骤S215，通过损失函数优化所述分类模型中的参数，得到已训练的分类模型。

在本实施例中，可以通过损失函数对所述分类模型中的参数进行优化，从而得到已训练的分类模型。在一实施例中，由于所述分类模型包含一个softmax层，因此所述损失函数在包含了softmax损失之后可以如下所示：

L_all＝L_sem+L_vis

其中，C(·)为预测概率，N为类别数；f(·)为卷积神经网络，g(·)为全连接层，

为图像，

为属性信息。

步骤S220，固定所述已训练的分类模型中的参数，并将训练数据输入至所述已训练的分类模型。

步骤S231，从所述已训练的分类模型中获取所述训练数据经特征提取后得到的特征数据。

在本实施例中，所述训练数据为图片。从所述已训练的分类模型中获取所述训练数据经特征提取后得到的特征数据即为将训练用的图片输入至已训练的分类模型中，经过处理及提取特征数据得到所述图片的特征数据。在一实施例中，所述过程为每次取一张图片输入到如图6所示的模型中，首先将输入图片放缩至预设尺寸，其中所述预设尺寸为480×480，并进行随机的设定大小的裁剪及水平翻转处理，其中所述设定大小为448×448；然后经过卷积神经网络提取到图片的维度为2048×28×28的特征图。

步骤S232，对所述特征数据进行处理得到特征向量，并将所述特征向量与历史动作向量进行拼接，得到状态向量。

在本实施例中，在得到所述图片的特征数据之后还需要进行处理得到特征向量，并将所述特征向量与历史动作向量进行拼接，得到状态向量。在一实施例中，步骤S231中得到的维度为2048×28×28的特征图经过池化可以获得维度为2048×7×7的特征图，然后经过拉伸得到维度为100352的特征向量；在将所述特征向量与历史的四个动作向量进行拼接后得到维度为100376的状态向量。其中，所述动作向量为6维的向量，并且初始的动作向量为零向量。

步骤S240，将所述状态向量输入至基于强化学习的动作预测模型，根据当前的奖赏值进行预测得到动作预测结果并执行相应的动作，以对输入的训练数据进行调整。

在本实施例中，在得到状态向量并将其输入至基于强化学习的动作预测模型中，即可根据状态向量及动作的当前奖赏值进行预测得到动作预测结果，并可以在得到动作预测结果后执行相应的动作，以对输入的图片进行调整。在一实施例中，步骤S240具体可以包括以下四个步骤。

步骤S241，将所述状态向量输入至基于强化学习的动作预测模型，并根据当前的奖赏值进行预测得到动作预测结果。

将所述状态向量输入至如图6中所示的基于强化学习的动作预测模型中，可以得到一个6维的动作向量，即为动作预测结果，并且其对应于对图片进行处理的6个动作的其中一个动作。其中，所述6个动作包括如图7所示的左上、右上、左下、右下和中心的裁剪动作及终止动作。

步骤S242，根据所述动作预测结果使用预设的奖赏函数对当前的奖赏值进行更新。

在得到了所述预测结果之后，还需要根据所述动作预测结果使用预设的奖赏函数对当前的奖赏值进行更新。所述裁剪动作的奖赏函数为：

终止动作的奖赏函数为：

R_a(s,s′)＝γsign(P_t(b′)-P_t(b))

其中η为设定的基础裁剪动作奖赏值，在一实施例中设定为1；γ为基础终止动作奖赏值，在一实施例中设定为3；pred为预测类别，target为标签，P_t()为预测类别的置信度，从已训练的分类模型中获得；b表示当前状态时选择的图像区域，b’表示下一个状态时候选择的图像区域；s和s’分别为当前状态和下一个状态。

步骤S243，若所述动作预测结果为终止动作或裁剪动作迭代次数达到设定值，则接受所述动作预测结果。

步骤S244，若所述动作预测结果为裁剪动作且迭代次数未达到设定值，则对所述图片执行所述裁剪动作，并继续对所述裁剪后的图片进行动作预测。

在一实施例中，所述迭代次数的设定值为6。其中对图片进行裁剪的过程可以如图8所示。

步骤S250，通过损失函数优化所述基于强化学习的动作预测模型中的参数，得到已训练的基于强化学习的动作预测模型，从而与所述已训练的分类模型组成已训练的基于强化学习的零样本学习模型。

在本实施例中，所述损失函数可以是：

L_a＝E[(TargetQ-Q(s,a))²]

其中TargetQ为选择动作的值，即为动作预测模型对应动作的输出值，Q(s,a)为选择动作的预测值，其中预测值通过如下公式进行计算：

Q(s,a)＝R+λmax_aQ(s′,a′)

其中R为累计的奖赏，λ可以设定为0.9，a为当前动作，a’为上一动作。

上述方法的有益效果为将训练分类模型和基于强化学习的动作预测模型的步骤进行了细化。解决了传统技术在对图像进行目标搜索时效果较差的问题，实现了对图像的序列化操作，提高了对图像进行目标搜索的精度和效果，达到了进一步提高零样本学习模型的性能的效果。

结合图4所示，在本申请的第三实施例中，本申请的基于强化学习的零样本学习模型的训练方法具体包括以下步骤：

步骤S310，获取已训练的分类模型。

步骤S320，固定所述已训练的分类模型中的参数，并将训练数据输入至所述已训练的分类模型。

步骤S330，从所述已训练的分类模型中获取所述训练数据经特征提取后得到的特征数据，并将所述特征数据转换为状态向量。

步骤S340，将所述状态向量输入至基于强化学习的动作预测模型，根据当前的奖赏值进行预测得到动作预测结果并执行相应的动作，以对输入的训练数据进行调整。

步骤S350，通过损失函数优化所述基于强化学习的动作预测模型中的参数，得到已训练的基于强化学习的动作预测模型，从而与所述已训练的分类模型组成已训练的基于强化学习的零样本学习模型。

步骤S360，利用所述已训练的基于强化学习的动作预测模型对针对分类模型的图像数据集进行重构，得到重构的图像数据集。

在本实施例中，在获得已训练的基于强化学习的动作预测模型之后，可以使用所述已训练的基于强化学习的动作预测模型对针对分类模型的图像数据集进行重构，即将所述针对分类模型的图像数据集再次输入已训练的分类模型以及已训练的基于强化学习的动作预测模型中，对所述图像数据集中的图片进行动作预测并执行所述动作，得到新的处理过后的图像数据集。在一实施例中为使用所述已训练的基于强化学习的动作预测模型对所述图像数据集中的图片进行裁剪，得到重构的图像数据集。

步骤S370，使用所述重构的图像数据集对所述已训练的基于强化学习的零样本学习模型进行再次训练。

在本实施例中，在获得所述重构的图像数据集之后，将所述重构的图像数据集再次输入至所述已训练的分类模型，对所述已训练的分类模型进行再次训练，并在再次训练完成后，固定所述已再训练的分类模型中的参数，将所述重构的图像数据集输入至所述已再训练的分类模型中，对所述已训练的基于强化学习的动作预测模型进行再次训练。

上述方法的有益效果为增加了对图像数据集进行处理后再次训练基于强化学习的零样本学习模型的步骤。通过使用处理后的图像数据集对基于强化学习的零样本学习模型进行再次训练，解决了传统技术在对图像进行目标搜索时效果较差的问题，进一步实现了对图像的序列化操作，提高了对图像进行目标搜索的精度和效果，达到了更进一步提高零样本学习模型的性能的效果。

基于同一发明构思，本申请实施例还提供了一种装置，所述装置包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的零样本学习模型训练程序，所述零样本学习模型训练程序被所述处理器执行时实现如上述的基于强化学习的零样本学习模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

由于本申请实施例提供的装置，为实施本申请实施例的方法所采用的装置，故而基于本申请实施例所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本申请实施例的方法所采用的装置都属于本申请所欲保护的范围。

基于同一发明构思，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有零样本学习模型训练程序，所述零样本学习模型训练程序被处理器执行时实现如上述的基于强化学习的零样本学习模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

由于本申请实施例提供的计算机可读存储介质，为实施本申请实施例的方法所采用的计算机可读存储介质，故而基于本申请实施例所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本申请实施例的方法所采用的计算机可读存储介质都属于本申请所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于强化学习的零样本学习模型的训练方法，其特征在于，所述方法包括：

获取已训练的分类模型；

2.如权利要求1所述的基于强化学习的零样本学习模型的训练方法，其特征在于，所述获取已训练的分类模型的步骤，具体包括：

获取针对分类模型的图像数据集；

根据所述分类结果判断所述图片的预测类别；

3.如权利要求2所述的基于强化学习的零样本学习模型的训练方法，其特征在于，所述根据所述分类结果判断所述图片的预测类别的步骤，具体包括：

4.如权利要求2所述的基于强化学习的零样本学习模型的训练方法，其特征在于，所述根据所述分类结果判断所述图片的预测类别的步骤，还包括：

5.如权利要求1所述的基于强化学习的零样本学习模型的训练方法，其特征在于，所述将所述特征数据转换为状态向量的步骤，具体包括：

6.如权利要求1所述的基于强化学习的零样本学习模型的训练方法，其特征在于，所述基于强化学习的动作预测模型应用于图片，所述动作包括左上、右上、左下、右下和中心的裁剪动作及终止动作。

7.如权利要求6所述的基于强化学习的零样本学习模型的训练方法，其特征在于，所述将所述状态向量输入至基于强化学习的动作预测模型，根据当前的奖赏值进行预测得到动作预测结果并执行相应的动作，以对输入的训练数据进行调整的步骤，具体包括：

8.如权利要求1所述的基于强化学习的零样本学习模型的训练方法，其特征在于，所述方法还包括：

9.一种装置，其特征在于，所述装置包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的零样本学习模型训练程序，所述零样本学习模型训练程序被所述处理器执行时实现如权利要求1至8任一项所述的基于强化学习的零样本学习模型的训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有零样本学习模型训练程序，所述零样本学习模型训练程序被处理器执行时实现如权利要求1至8任一项所述的基于强化学习的零样本学习模型的训练方法的步骤。