CN112906785B

CN112906785B - 基于融合的零样本物体种类识别方法、装置及设备

Info

Publication number: CN112906785B
Application number: CN202110178794.0A
Authority: CN
Inventors: 谢中武; 王熙照; 张天伦; 罗宇轩; 王冉
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2023-12-22
Anticipated expiration: 2041-02-09
Also published as: CN112906785A

Abstract

本发明实施例公开了一种基于融合的零样本物体种类识别方法、装置及设备，该方法包括：获取待识别对象的视觉向量；根据视觉向量结合预确定的目标网络模型确定第一预测结果和第二预测结果；根据第一预测结果和对应的决策参数，以及第二预测结果确定待识别对象所属物体种类的识别结果，决策参数通过差分进化算法确定。解决了物体种类识别过程中，由于使用单一分类器所造成的结果不准确的问题，通过差分进化算法确定决策参数，然后通过决策参数对第一预测结果和第二预测结果进行决策融合，得到最终的待识别对象所属物体种类的识别结果。通过差分进化算法选择决策参数，使识别结果融合过程中可以得到最优结果，提高了物体种类识别的准确度。

Description

基于融合的零样本物体种类识别方法、装置及设备

技术领域

本发明实施例涉及数据处理技术，尤其涉及基于融合的零样本物体种类识别方法、装置及设备。

背景技术

随着计算机技术的发展，深度学习的应用越来越多。在物体种类识别的模型训练过程中，由于存在物体图像种类不齐全，即缺少某一种类物体的图像，所以出现了零样本学习这一技术。在通用零样本学习(generalized zero-shot learning,GZSL)中，大家常常采用基于条件生成对抗网络(conditional generative adversarial nets,CGAN)来生成不可见类样例的视觉向量。

在通用零样本学习范式下，其需要学习样本x到其标签y的映射关系，其中y的标签空间包括可见类与不可见类。即：训练条件生成对抗网络(CGAN)时，训练样本中没有不可见类样例，只能依靠可见类的语义信息(用来描述一个类的属性向量，即条件生成对抗网络中的条件)和视觉向量(图片经特征抽取器进行变换所得的向量)训练一个可以根据语义信息就能生成视觉向量的模型。然后将该生成模型迁移到生成不可见样例上来，即只利用不可见类的语义信息就能生成不可见类的视觉向量。

现有技术中在基于条件生成对抗网络来生成不可见类样例的视觉向量后，对分类器进行训练实现样例类别识别时，通常直接在特征空间基于有监督学习训练一个能区分样例类别的分类器，此种方式直接使用生成的不可见类样例与可见类的训练数据共同训练一个单一的分类器，其决策能力较弱，得到的决策结果不够准确。

发明内容

本发明提供一种基于融合的零样本物体种类识别方法、装置及设备，以提高根据视觉向量进行分类时的分类准确度。

第一方面，本发明实施例提供了一种基于融合的零样本物体种类识别方法，所述方法包括：

获取待识别对象的视觉向量；

根据所述视觉向量结合预确定的目标网络模型确定第一预测结果和第二预测结果；

根据所述第一预测结果和对应的决策参数，以及第二预测结果确定所述待识别对象所属物体种类的识别结果，所述决策参数通过差分进化算法确定。

第二方面，本发明实施例还提供了一种基于融合的零样本物体种类识别装置，该装置包括：

获取模块，用于获取待识别对象的视觉向量；

预测结果确定模块，用于根据所述视觉向量结合预确定的目标网络模型确定第一预测结果和第二预测结果；

识别结果确定模块，用于根据所述第一预测结果和对应的决策参数，以及第二预测结果确定所述待识别对象所属物体种类的识别结果，所述决策参数通过差分进化算法确定。

第三方面，本发明实施例还提供了一种计算机设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的一种基于融合的零样本物体种类识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的一种基于融合的零样本物体种类识别方法。

本发明实施例提供了一种基于融合的零样本物体种类识别方法、装置及设备，该方法包括：获取待识别对象的视觉向量；根据所述视觉向量结合预确定的目标网络模型确定第一预测结果和第二预测结果；根据所述第一预测结果和对应的决策参数，以及第二预测结果确定所述待识别对象所属物体种类的识别结果，所述决策参数通过差分进化算法确定。解决了物体种类识别过程中，由于使用单一分类器进行识别分类所造成的结果不准确的问题，预先训练好目标网络模型，通过将待识别对象的视觉向量输入至目标网络模型，得到输出的第一预测结果和第二预测结果，通过差分进化算法确定决策参数，然后通过决策参数对第一预测结果和第二预测结果进行决策融合，得到最终的待识别对象所属物体种类的识别结果。通过差分进化算法确定决策参数，选择最优的决策参数，使识别结果融合过程中可以得到最优结果，提高了物体种类识别的准确度。

附图说明

图1是本发明实施例一中的一种基于融合的零样本物体种类识别方法的流程图；

图2是本发明实施例二中的一种基于融合的零样本物体种类识别方法的流程图；

图3是本发明实施例二中的一种通过目标网络模型预测物体种类的识别结果的流程示例图；

图4是本发明实施例二中的一种基于融合的零样本物体种类识别方法中通过差分进化算法确定决策参数的实现流程图；

图5是本发明实施例三中的一种基于融合的零样本物体种类识别装置的结构示意图；

图6是本发明实施例四中的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

实施例一

图1给出了本申请实施例一提供的一种基于融合的零样本物体种类识别方法的流程图，该方法适用于在进行物体种类识别时提高识别准确率的情况。该方法可以由计算机设备执行，该计算机设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。一般而言，计算机设备可以是笔记本、台式计算机以及智能平板等。

如图1所示，本实施例一提供的一种基于融合的零样本物体种类识别方法，具体包括如下步骤：

S110、获取待识别对象的视觉向量。

在本实施例中，待识别对象具体可以理解为具有所属物体种类识别需求的一类物体，例如，猫、鱼、老虎等等。视觉向量具体可以理解为表示图像特征的向量，例如，将图片样例输入到特征抽取器中得到对应的向量即为视觉向量。

需要知道的是，在进行物体种类识别过程中，待识别的物体分为可见类和不可见类，可见类是指有相应图片的物体，不可见类是指在模型训练过程中没有真实的相应图片的物体。所以，待识别对象可以是可见类，也可以是不可见类。本申请以通用零样本学习中，条件生成对抗网络中生成不可见类样例的视觉向量后进行样例类别识别为例，说明物体种类识别过程，所以以待识别对象为不可见类为例。

具体的，由于待识别对象为不可见类，所以没有相应的图片，也无法直接获得相应的视觉向量，但是待识别对象具有语义向量。通过将待识别对象的语义向量输入至预先训练好的条件生成对抗网络中，生成相应的视觉向量。

S120、根据视觉向量结合预确定的目标网络模型确定第一预测结果和第二预测结果。

在本实施例中，目标网络模型具体可以理解为预先训练好的模型，用于进行物体种类识别，目标网络模型中包括了两个分类器。第一预测结果具体可以理解为目标网络模型所预测的待识别对象所属物体种类的第一种预测结果；同理，第一预测结果具体可以理解为目标网络模型所预测的待识别对象所属物体种类的第二种预测结果。

具体的，目标网络模型由于预先已经训练好，所以其可以对输入的视觉向量进行数据处理，进行物体种类预测。所以直接将视觉向量作为目标网络模型的输入，得到目标网络模型输出的第一预测结果和第二预测结果。

S130、根据第一预测结果和对应的决策参数，以及第二预测结果确定待识别对象所属物体种类的识别结果，决策参数通过差分进化算法确定。

在本实施例中，决策参数具体可以理解为对第一预测结果和第二预测结果进行识别结果融合的参数。识别结果具体可以理解为待识别对象所属的物体种类，例如，猫、鸟等。差分进化算法(Differential Evolution Algorithm，DE)是一种高效的全局优化算法。它是基于群体的启发式搜索算法，群体中的每个个体对应一个解向量。差分进化算法的进化流程包括变异、杂交和选择操作。差分进化算法具有结构简单、容易实现、收敛快速、鲁棒性强的特点。

具体的，决策参数预先设置多种选择，例如，100个待选值，然后通过差分进化算法从多个待选值中选择最优解作为决策参数。通过决策参数对第一预测结果和第二预测结果进行决策融合，将融合后的结果作为待识别对象所属物体种类的识别结果。在通过决策参数进行决策融合时，可以将第一预测结果与决策参数相乘，然后与第二预测结果相加得到最终的识别结果。

本发明实施例提供了一种基于融合的零样本物体种类识别方法，该方法包括：获取待识别对象的视觉向量；根据所述视觉向量结合预确定的目标网络模型确定第一预测结果和第二预测结果；根据所述第一预测结果和对应的决策参数，以及第二预测结果确定所述待识别对象所属物体种类的识别结果，所述决策参数通过差分进化算法确定。解决了物体种类识别过程中，由于使用单一分类器进行识别分类所造成的结果不准确的问题，预先训练好目标网络模型，通过将待识别对象的视觉向量输入至目标网络模型，得到输出的第一预测结果和第二预测结果，通过差分进化算法确定决策参数，然后通过决策参数对第一预测结果和第二预测结果进行决策融合，得到最终的待识别对象所属物体种类的识别结果。通过差分进化算法确定决策参数，选择最优的决策参数，使识别结果融合过程中可以得到最优结果，提高了物体种类识别的准确度。

实施例二

图2为本发明实施例二提供的一种基于融合的零样本物体种类识别方法的流程图。本实施例的技术方案在上述技术方案的基础上进一步细化，具体主要包括如下步骤：

S210、获取待识别对象的视觉向量。

S220、根据视觉向量确定第一输入数据和第二输入数据。

在本实施例中，目标网络模型包括两个分类器，第一分类器和第二分类器，第一分类器和第二分类器为不同类型的两个分类器。第一输入数据具体可以理解为目标网络模型中第一分类器所输入的数据，第二输入数据具体可以理解为目标网络模型中第二分类器所输入的数据。

具体的，通过对视觉向量进行分析处理，例如，通过预先训练好的模型，将视觉向量输入，得到模型输出的语义向量，将模型输出的数据作为第一输入数据，将视觉向量和模型输出的数据综合作为第二输入数据。

示例性的，图3为本申请提供的一种通过目标网络模型预测物体种类的识别结果的流程示例图，如图3所示：目标回归器21接收输入的视觉向量，并输出预测语义向量，预测语义向量作为第一输入数据输入到第一分类器22中，同时预测语义向量和视觉向量拼接形成拼接向量，作为第二输入数据输入到第二分类器23中，第一分类器22输出第一预测结果f1，第二分类器23输出第二预测结果f2，通过决策参数a对f1和f2进行融合，得到最终的物体种类识别结果y。

进一步地，本申请实施例将根据视觉向量确定第一输入数据和第二输入数据具体化为：

a、将视觉向量输入至预确定的目标回归器，获得对应的预测语义向量。

在本实施例中，目标回归器具体可以理解为预先训练好的回归器Regressor，通过训练学习后，对输入的视觉向量可以预测得到相应的语义向量。预测语义向量具体可以理解为根据视觉向量进行预测得到的语义向量。

在上述步骤中，目标回归器的确定是通过可见类的视觉向量和标准语义向量训练回归器。其优化目标为最小化以下损失函数loss：

L_R＝||a-R(x)||²

其中，L_R为损失函数，a为标准语义向量，R(x)为回归器输出的语义向量。通过使用可见类的视觉向量和标准语义向量建立视觉向量到语义向量的映射关系，目的是对视觉向量进行降维。

示例性的，本申请实施例提供一种训练得到目标回归器的方法流程：预先获取大量训练所需要的数据，数据均为可见类的数据，每组数据包括视觉向量和对应的标准语义向量，将视觉向量和对应的标准语义向量输入到待训练的回归器中，待训练的回归器根据视觉向量进行预测，输出语义向量，然后根据输出的语义向量和标准语义向量结合损失函数公式得到损失函数，根据损失函数进行反向传播，最终得到符合要求的目标回归器。

接上述描述，在获得视觉向量后，将视觉向量输入至预先训练好的目标回归器中，目标回归器根据训练过程中学习到的经验，对视觉向量进行预测，最终将预测语义向量作为学习结果输出。

b、将预测语义向量与视觉向量进行维度拼接，得到拼接向量。

在本实施例中，拼接向量具体可以理解为将两个向量进行拼接所得到的向量。通过将预测语义向量和视觉向量进行维度拼接，得到多维度的拼接向量。例如，预测语义向量为85维度的向量，视觉向量为2048维度的向量，得到的拼接向量为85+2048＝2133维度的向量。

c、将预测语义向量确定为第一输入数据，将拼接向量作为第二输入数据。

S230、将第一输入数据输入至目标网络模型中的第一分类器，根据第一分类器的输出结果确定第一预测结果。

在本实施例中，第一分类器可以是K-邻近算法(K Nearest Neighbors，KNN)、支持向量机SVM、逻辑回归等分类器。

其中，KNN是在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类。SVM是使用分类与回归分析来分析数据的监督学习模型及其相关的学习算法。在给定一组训练样本后，每个训练样本被标记为属于两个类别中的一个或另一个。SVM的训练算法会创建一个将新的样本分配给两个类别之一的模型，使其成为非概率二元线性分类器。支持向量机模型将样本表示为在空间中的映射的点，这样具有单一类别的样本能尽可能明显的间隔分开出来。所有这样新的样本映射到同一空间，就可以基于它们落在间隔的哪一侧来预测属于哪一类别。

具体的，将预测语义向量作为第一输入数据输入到第一分类器中，第一分类器根据经验确定学习结果并输出，输出结果即为第一预测结果。第一预测结果为多维数据，第一预测结果的维度与预先设置的物体种类识别结果的分类有关，例如，预先设置物体种类的识别结果有50种(即存在50种类的识别结果)，第一预测结果的维度为50维，每一维度代表是此物体种类的概率。

S240、将第二输入数据输入至目标网络模型中的第二分类器，根据第二分类器的输出结果确定第二预测结果。

在本实施例中，第二分类器可以是基于深度学习的神经网络模型。第二预测结果与第一预测结果的维度相同，且每一维度所对应的含义相同。

由于第二输入数据为预测语义向量与视觉向量进行维度拼接得到的拼接向量，所以其观察数据角度更为多样化。现有技术中，通过第二分类器预测识别结果(即第二预测结果)时，仅将视觉向量作为第二分类器的输入，此时观察数据的角度仅有一个，预测结果准确度较低。本申请为解决此问题，通过将预测语义向量和视觉向量进行拼接，得到拼接向量，将拼接向量作为第二分类器的输入，为预测识别结果提供两个观察数据的角度，所以得到的识别结果更加准确。

示例性的，本申请实施例提供一种确定第二分类器的方法流程：预先获取大量训练所需要的数据，此数据为语义向量与视觉向量进行拼接后得到的向量，每组数据包括拼接后的向量和对应的标准识别结果，将拼接后的向量和对应的标准识别结果输入到待训练的分类器中，待训练的分类器根据拼接后的向量进行预测，输出预测的识别结果，然后根据输出的识别结果和标准识别结果确定最小化交叉熵，最终得到符合要求的第二分类器。第二分类器优化目标为最小化交叉熵：其中，y_i为待训练的分类器输出的第i个识别结果，P_i为第i个标准识别结果。

S250、将第一预测结果与决策参数相乘，得到决策结果。

在本实施例中，决策结果具体可以理解为通过决策参数对第一预测结果进行修正后所得到的预测结果。以第一预测结果为50维的数据为例，在与决策参数进行相乘时，每一个维度均乘以决策参数。

S260、确定决策结果与第二预测结果之和中设定数量的维度值所对应的类别，并确定各维度值中的最大维度值。

在本实施例中，设定数量具体可以理解为根据实际物体种类所设定的数值，如上述示例性说明中的50，其表明了第一预测结果和第二预测结果的维度数量。维度值具体可以理解为每个维度上的数值，其代表了识别结果为何种物体类别的概率，如，(0.1，0.2，0.1,0.6)代表了物体种类为猫类的概率为0.1，物体种类为虎类的概率为0.2，物体种类为鸟类的概率为0.1，物体种类为熊类的概率为0.6。

将决策结果与第二预测结果进行相加，得到总和y，y为设定数量维度的数据，确定每个维度的维度值，以及每个维度对应的类别。同时比较每个维度的维度值的大小，将数值最大的维度值确定为最大维度值。

S270、将最大维度值所对应的类别确定为待识别对象所属物体种类的识别结果。

在确定最大维度值后，将最大维度值对应的类别确定为待识别对象所属物体种类的识别结果，即待识别对象所属物体种类的识别结果为从多个类别中选择概率最大的类别。

进一步地，图4为本申请实施例提供的一种基于融合的零样本物体种类识别方法中通过差分进化算法确定决策参数的实现流程图，具体包括如下步骤：

S251、获取包括第一预设数量的初始参数的初始参数集，并将初始参数集作为当前参数集。

在本实施例中，第一预设数量可以根据需求设置，其为初始参数集中所包含数据的数量，即决策参数的待选值的数量。初始参数具体可以理解为预先设置好的初始值，差分进化算法在实现过程中，需要设置初始值，才可以进行后续的进化，得到最优解。初始参数集具体可以理解为未进行进化前的参数集合；当前参数集具体可以理解为当前进行差分进化时所使用的参数集合。

具体的，在进行待识别对象的物体种类识别之前，需要先确定决策参数。在确定决策参数时，预先选择第一预设数量的初始参数构成初始参数集，将初始参数集作为当前参数集，进行差分进化。

S252、根据当前参数集中的各当前参数结合目标网络模型根据训练样本集所输出的第一训练结果和第二训练结果确定当前调和平均数。

在本实施例中，当前参数具体可以理解为当前参数集中的参数；训练样本集具体可以理解为包含大量训练样本的数据集；第一训练结果具体可以理解为确定决策参数时目标网络模型所输出的第一种预测结果；第二训练结果具体可以理解为确定决策参数时目标网络模型所输出的第二种预测结果。当前调和平均数具体可以理解为衡量零样本学习的指标，为当前计算得到的调和平均数。

具体的，在确定决策参数前，预先获取训练样本集，将训练样本集中的各训练样本依次输入到目标网络模型中，得到相应的第一训练结果和第二训练结果。通过当前参数对第一训练结果和第二训练结果进行决策融合，得到调和平均数，由于存在多个当前参数，采用同样的方式依次求得对应的调和平均数，根据多个调和平均数确定当前调和平均数。

进一步地，训练样本集包括第三预设数量的训练样本，训练样本的样本类型包括可见类和不可见类；

相应的，本申请实施例将根据当前参数集中的各当前参数结合目标网络模型根据训练样本集所输出的第一训练结果和第二训练结果确定当前调和平均数具体化为：

A、获取当前参数集中的首个当前参数，将首个当前参数作为当前训练参数。

在本实施例中，由于确定当前调和平均数时是根据每个当前参数依次确定一个调和平均数，最终根据多个调和平均数确定当前调和平均数，所以每次确定调和平均数时所使用的当前参数作为一个当前训练参数，即此次所使用的当前参数，即为当前训练参数，由此实现对调和平均数的确定。首先获取当前参数集中的第一个当前参数，将其作为当前训练参数确定调和平均数。

B、针对每个训练样本，根据所对应的第一训练结果和当前训练参数，以及第二训练结果确定训练分类结果。

在本实施例中，训练分类结果具体可以理解为在确定决策参数过程中目标网络模型根据训练样本所预测的物体分类识别结果。对于每个训练样本，在将其输入到目标网络模型中后，均会得到对应的第一训练结果和第二训练结果，将第一训练结果乘以当前训练参数，乘积与第二训练结果作和，得到训练分类结果。

可以知道的是，训练分类结果的确定方式与识别结果的确定方式一致，其区别是目标网络模型输入的数据不同，以及进行结果融合时的参数不同。

C、根据各训练分类结果和对应的样本类型确定可见类准确率和不可见类准确率。

在本实施例中，可见类准确率具体可以理解为预测类型为可见类的物体种类的准确度；不可见类准确率具体可以理解为预测类型为不可见类的物体种类的准确度。

需要知道的是，训练样本通常情况下数量比较大，并且物体种类较多，每个物体种类包含多个训练所用数据，如猫的照片有200张，狗的照片有300张。在决策参数确定过程中，训练样本集中的训练样本既包括可见类，也包括生成的不可见类，在训练样本确定时，其为可见类还是不可见类也就相应确定了。由于训练样本的样本类型包括了可见类和不可见类，所以需要统计所有可见类的训练样本的准确度，以及所有不可见类的训练样本的准确度。

具体的，各训练样本均对应一个训练分类结果，由于训练样本已经标识了标准分类结果，所以将训练分类结果和标准分类结果进行比较，可以确定预测的训练分类结果是否正确。根据同一种类的物体的预测结果确定此种物体预测的准确度，采用同样的计算方式得到每一种物体预测的准确度。然后统计可见类的训练样本的准确率，计算得到可见类准确率，以及统计不可见类的训练样本的准确率，计算得到不可见类准确率。

进一步地，本申请实施例将根据各训练分类结果和对应的样本类型确定可见类准确率和不可见类准确率具体化为：

根据各训练样本所对应的标准物体类别统计同一标准物体类别的各训练样本所对应的训练分类结果，确定各训练样本所对应标准物体类别的类别准确率和样本类型；将样本类型为可见类的各类别准确率的平均值确定为可见类准确率；将样本类型为不可见类的各类别准确率的平均值确定为不可见类准确率。

在本实施例中，标准物体类别具体可以理解为对训练样本所属物体类别的标识，即训练样本实际所属的物体类别；类别准确率具体可以理解为每种物体类别的识别或预测准确率。

具体的，每个训练样本均对应一个标准物体类别(上述步骤c中所述的标准识别结果)，统计每种标准物体类别的训练样本对应的训练分类结果，得到此类标准物体类别的类别准确率，同时由于训练样本是确定的，也可以得到此类标准物体类别的样本类型。

统计所有样本类型为可见类的各类别准确率，将其平均值作为可见类准确率；统计所有样本类型为不可见类的各类别准确率，将其平均值作为不可见类准确率。

D、采用给定的调和平均数表达式，结合可见类准确率和不可见类准确率，确定调和平均数。

在本实施例中，调和平均数表达式为预先确定的计算公式，将可见类准确率和不可见类准确率带入到给定的调和平均数表达式中，计算得到调和平均数。

示例性的，本申请提供一种调和平均数的表达式：

其中，M为调和平均数；A_s为可见类准确率；A_s为不可见类准确率。

E、如果当前训练参数存在下一当前参数，将当前训练参数的下一当前参数作为新的当前训练参数，返回执行B操作。

步骤D确定的调和平均数为一个当前参数所对应的调和平均数，由于当前参数有多个，所以在未对所有当前参数均计算时，需要获取下一当前参数，继续计算调和平均数，直到所有当前参数均参与计算，即当前训练参数步存在下一当前参数。

F、根据各调和平均数确定当前调和平均数。

具体的，根据各调和平均数确定当前调和平均数的方式可以是取平均值，最大值、最小值、加权求和、中位数等方式。一般地，在根据各调和平均数确定当前调和平均数时，为保证所选择的当前调和平均数为最优值，通常选择各调和平均数中的最大值作为当前调和平均数。

S253、判断当前调和平均数是否满足预设的终止条件，若是，执行S254；否则，执行S255。

在本实施例中，终止条件具体可以理解为差分进化停止的条件，此时已经找到了最优解，即决策参数，无需继续进行进化。终止条件可以是连续预设次数当前调和平均数的增长值小于一定阈值，例如，连续5次当前调和平均数的增长值小于0.001。

S254、将当前参数集中的最优参数确定为决策参数。

此时由于已经找到了最优解，可以结束差分进化。最优解在当前参数集中，为当前参数集中的最优参数，将最优参数确定为决策参数。确定最优参数的方法可以是比较当前参数集中的每个当前参数所对应的调和平均数，将调和平均数最大值所对应的当前参数确定为最优参数。在确定出决策参数后，此时直接结束流程。

S255、从当前参数集中选择第二预设数量的当前参数进行变异，形成进化参数。

在本实施例中，第二预设数量可以是预先设置的值，优选设置为3；进化参数具体可以理解为差分进化中变异得到的参数。

具体的，从当前参数集中选择第二预设数量的当前参数，根据各当前参数进行参数变异，生成新的参数，即进化参数。举例说明进化参数的确定过程：首先从当前参数集中选择两个当前参数进行向量做差生成差分矢量，然后，选择另外一个当前参数与差分矢量求和生成进化参数。表达式如下：

u_i＝x_r1+F*(x_r2-x_r3)

其中，r₁,r₂,r₃，i互不相同，所以第一预设数量NP必须大于4，F是缩放因子通常在0-2之间，它控制偏差向量的放大作用。进化参数的形成过程可以理解为把两个向量的差值乘上变异算子加给第三个向量作为进化参数。

S256、通过对进化参数进行交叉选择，形成进化参数集，并将进化参数集作为新的当前参数集，返回执行S252。

在本实施例中，进化参数集具体可以理解为在参数进化后，根据进化参数所形成的参数集合。

为了增加干扰向量的多样性，引入交叉操作。通过对进化参数进行交叉选择，判断是否保留进化参数，进化参数的用途是替换当前参数集中的一个当前参数。所以在变异前，首先确定被替换的当前参数。在第一次进化时，进行初始化，差分进化算法利用第一预设数量NP个维数为D的实数值参数向量，作为每一代的种群(即当前参数集)。本申请实施例中以NP＝100，即100个个体(即当前参数)，D＝1为例。x_i＝x_min+rand1*(x_max-x_min)，其中，x_i为首次被替换的当前参数；x_min＝-5；x_max＝5；rand1为(0,1)之间的随机数。

如果rand2<＝CR，保留进化参数，使用进化参数替换当前参数集中的一个当前参数，即x_i；在不满足rand2<＝CR的条件时，保留被替换的参数x_i，丢掉进化参数。其中，CR为交叉概率，取值范围为[0,1]之间的随机浮点数，为预先确定的数值，优选设置为0.5。CR主要反映的是在交叉的过程中，子代与父代、中间变异体之间交换信息量的大小程度。CR的值越大，信息量交换的程度越大。交叉可以理解为：如果随机产生的rand2小于CR,那么就将变异后的进化参数保留，如果不是就将原来的当前参数保留，进而形成进化参数集。

此时形成的进化参数集，需要判断其是否真的相比于原来的参数集实现了进化，将进化参数集作为新的当前参数集，计算当前调和平均数。比较此次得到的当前调和平均数和上一个当前调和平均数的大小，当此次得到的当前调和平均数较大时，保留此次的当前调和平均数以及当前参数集(此时的当前参数集为进化参数集)。当此次得到的当前调和平均数小于上一个当前调和平均数时，进化后的参数并没有带来较好的效果，所以此次进化无需保留，不保留当前调和平均数和当前参数集。并且，在下一次进化时，判断是否需要保留进化参数集时，由于此次进化的进化参数集没有保留，所以其是与此次保留的没有进化的当前参数集所确定的当前调和平均数进行比较。通过贪婪选择策略选择出较优的个体进行保留，直到得到最优参数，将最优参数作为决策参数。

其进化过程可以理解为：首先对由初始参数集构成的当前参数集进行初始化，然后计算当前调和平均数，判断是否满足终止条件，当满足终止条件时，将当前参数集中的最优参数确定为决策参数；否则，进行变异操作，形成进化参数，对进化参数进行交叉选择，形成进化参数集，然后根据进化参数集再次确定当前调和平均数，比较此次的当前调和平均数和上一次保留的当前调和平均数的大小，若此次的当前调和平均数大于上一次保留的当前调和平均数，保留进化参数集，并继续判断是否满足终止条件；否则，不保留进化参数集，但是仍然判断是否满足终止条件，并继续进行进化。下一次进化后，仍然采用相同的方式判断是否保留进化参数集以及是否满足终止条件，直到满足终止条件。

本发明实施例提供了一种基于融合的零样本物体种类识别方法，解决了物体种类识别过程中，由于使用单一分类器进行识别分类所造成的结果不准确的问题，预先训练好目标网络模型，目标网络模型中包括第一分类器和第二分类器，通过视觉向量得到第一输入数据和第二输入数据，分别输入至第一分类器和第二分类器，得到输出的第一预测结果和第二预测结果，通过差分进化算法确定决策参数，然后通过决策参数对第一预测结果和第二预测结果进行决策融合，得到最终的待识别对象所属物体种类的识别结果。通过两种分类器分别预测分类结果，然后通过差分进化算法选择出的决策参数进行决策融合，使识别结果融合过程中可以得到最优结果，提高了物体种类识别的准确度。并且通过将将预测语义向量和视觉向量进行维度拼接，得到多维度的拼接向量，为预测识别结果提供两个观察数据的角度，提高了识别结果的准确性。

实施例三

图5为本发明实施例三提供的一种基于融合的零样本物体种类识别装置的结构示意图，该装置包括：获取模块31、预测结果确定模块32和识别结果确定模块33。

其中，获取模块31，用于获取待识别对象的视觉向量；预测结果确定模块32，用于根据所述视觉向量结合预确定的目标网络模型确定第一预测结果和第二预测结果；识别结果确定模块33，用于根据所述第一预测结果和对应的决策参数，以及第二预测结果确定所述待识别对象所属物体种类的识别结果，所述决策参数通过差分进化算法确定。

本发明实施例提供了一种基于融合的零样本物体种类识别装置，解决了物体种类识别过程中，由于使用单一分类器进行识别分类所造成的结果不准确的问题，预先训练好目标网络模型，通过将待识别对象的视觉向量输入至目标网络模型，得到输出的第一预测结果和第二预测结果，通过差分进化算法确定决策参数，然后通过决策参数对第一预测结果和第二预测结果进行决策融合，得到最终的待识别对象所属物体种类的识别结果。通过差分进化算法确定决策参数，选择最优的决策参数，使识别结果融合过程中可以得到最优结果，提高了物体种类识别的准确度。

进一步地，预测结果确定模块32包括：

数据确定单元，用于根据所述视觉向量确定第一输入数据和第二输入数据；

第一结果确定单元，用于将所述第一输入数据输入至目标网络模型中的第一分类器，根据所述第一分类器的输出结果确定第一预测结果；

第二结果确定单元，用于将所述第二输入数据输入至目标网络模型中的第二分类器，根据所述第二分类器的输出结果确定第二预测结果。

进一步地，数据确定单元，具体用于将所述视觉向量输入至预确定的目标回归器，获得对应的预测语义向量；将所述预测语义向量与所述视觉向量进行维度拼接，得到拼接向量；将所述预测语义向量确定为第一输入数据，将所述拼接向量作为第二输入数据。

进一步地，识别结果确定模块33包括：

决策结果确定单元，用于将所述第一预测结果与所述决策参数相乘，得到决策结果；

维度值确定单元，用于确定所述决策结果与第二预测结果之和中设定数量的维度值所对应的类别，并确定各所述维度值中的最大维度值；

识别结果确定单元，用于将所述最大维度值所对应的类别确定为待识别对象所属物体种类的识别结果。

进一步地，该装置还包括：决策参数确定模块，用于通过差分进化算法确定决策参数。

相应的，决策参数确定模块，包括：

参数集获取单元，用于获取包括第一预设数量的初始参数的初始参数集，并将所述初始参数集作为当前参数集；

调和数确定单元，用于根据所述当前参数集中的各所述当前参数结合所述目标网络模型根据训练样本集所输出的第一训练结果和第二训练结果确定当前调和平均数；

判断单元，用于判断所述当前调和平均数是否满足预设的终止条件，若是，将所述当前参数集中的最优参数确定为决策参数；否则，从所述当前参数集中选择第二预设数量的当前参数进行变异，形成进化参数；通过对所述进化参数进行交叉选择，形成进化参数集，并将所述进化参数集作为新的当前参数集，返回执行确定当前调和平均数的操作。

进一步地，所述训练样本集包括第三预设数量的训练样本，所述训练样本的样本类型包括可见类和不可见类；

相应的，调和数确定单元，具体用于：获取当前参数集中的首个当前参数，将所述首个当前参数作为当前训练参数；针对每个训练样本，根据所对应的第一训练结果和当前训练参数，以及第二训练结果确定训练分类结果；根据各所述训练分类结果和对应的样本类型确定可见类准确率和不可见类准确率；采用给定的调和平均数表达式，结合所述可见类准确率和不可见类准确率，确定调和平均数；如果所述当前训练参数存在下一当前参数，将所述当前训练参数的下一当前参数作为新的当前训练参数，返回执行训练分类结果的确定操作；根据各所述调和平均数确定当前调和平均数。

进一步地，根据各所述训练分类结果和对应的样本类型确定可见类准确率和不可见类准确率的方式可以具体化为：根据各所述训练样本所对应的标准物体类别统计同一标准物体类别的各训练样本所对应的训练分类结果，确定各训练样本所对应标准物体类别的类别准确率和样本类型；将样本类型为可见类的各类别准确率的平均值确定为可见类准确率；将样本类型为不可见类的各类别准确率的平均值确定为不可见类准确率。

本发明实施例所提供的基于融合的零样本物体种类识别装置可执行本发明任意实施例所提供的基于融合的零样本物体种类识别方法，具备执行方法相应的功能模块和有益效果。

实施例四

图6为本发明实施例四提供的一种计算机设备的结构示意图，如图6所示，该设备包括处理器40、存储器41、输入装置42和输出装置43；设备中处理器40的数量可以是一个或多个，图6中以一个处理器40为例；设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于融合的零样本物体种类识别方法对应的程序指令/模块(例如，基于融合的零样本物体种类识别装置中的获取模块31、预测结果确定模块32和识别结果确定模块33)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的基于融合的零样本物体种类识别方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种基于融合的零样本物体种类识别方法，该方法包括：

获取待识别对象的视觉向量；

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于融合的零样本物体种类识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述基于融合的零样本物体种类识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于融合的零样本物体种类识别方法，其特征在于，包括：

获取待识别对象的视觉向量；

根据所述第一预测结果和对应的决策参数，以及第二预测结果确定所述待识别对象所属物体种类的识别结果，所述决策参数通过差分进化算法确定；

根据所述视觉向量结合预确定的目标网络模型确定第一预测结果和第二预测结果，包括：

根据所述视觉向量确定第一输入数据和第二输入数据；

将所述第一输入数据输入至目标网络模型中的第一分类器，根据所述第一分类器的输出结果确定第一预测结果；

将所述第二输入数据输入至目标网络模型中的第二分类器，根据所述第二分类器的输出结果确定第二预测结果；

根据所述视觉向量确定第一输入数据和第二输入数据，包括：

将所述视觉向量输入至预确定的目标回归器，获得对应的预测语义向量；

将所述预测语义向量与所述视觉向量进行维度拼接，得到拼接向量；

将所述预测语义向量确定为第一输入数据，将所述拼接向量作为第二输入数据。

2.根据权利要求1所述的方法，其特征在于，根据所述第一预测结果和对应的决策参数，以及第二预测结果确定所述待识别对象所属物体种类的识别结果，包括：

将所述第一预测结果与所述决策参数相乘，得到决策结果；

确定所述决策结果与第二预测结果之和中设定数量的维度值所对应的类别，并确定各所述维度值中的最大维度值；

将所述最大维度值所对应的类别确定为待识别对象所属物体种类的识别结果。

3.根据权利要求1所述的方法，其特征在于，通过差分进化算法确定决策参数的步骤包括：

获取包括第一预设数量的初始参数的初始参数集，并将所述初始参数集作为当前参数集；

根据所述当前参数集中的各所述当前参数结合所述目标网络模型根据训练样本集所输出的第一训练结果和第二训练结果确定当前调和平均数；

判断所述当前调和平均数是否满足预设的终止条件，若是，将所述当前参数集中的最优参数确定为决策参数；

否则，从所述当前参数集中选择第二预设数量的当前参数进行变异，形成进化参数；

通过对所述进化参数进行交叉选择，形成进化参数集，并将所述进化参数集作为新的当前参数集，返回执行确定当前调和平均数的操作。

4.根据权利要求3所述的方法，其特征在于，所述训练样本集包括第三预设数量的训练样本，所述训练样本的样本类型包括可见类和不可见类；

相应的，根据所述当前参数集中的各所述当前参数结合所述目标网络模型根据训练样本集所输出的第一训练结果和第二训练结果确定当前调和平均数，包括：

获取当前参数集中的首个当前参数，将所述首个当前参数作为当前训练参数；

针对每个训练样本，根据所对应的第一训练结果和当前训练参数，以及第二训练结果确定训练分类结果；

根据各所述训练分类结果和对应的样本类型确定可见类准确率和不可见类准确率；

采用给定的调和平均数表达式，结合所述可见类准确率和不可见类准确率，确定调和平均数；

如果所述当前训练参数存在下一当前参数，将所述当前训练参数的下一当前参数作为新的当前训练参数，返回执行训练分类结果的确定操作；

根据各所述调和平均数确定当前调和平均数。

5.根据权利要求4所述的方法，其特征在于，所述根据各所述训练分类结果和对应的样本类型确定可见类准确率和不可见类准确率，包括：

根据各所述训练样本所对应的标准物体类别统计同一标准物体类别的各训练样本所对应的训练分类结果，确定各训练样本所对应标准物体类别的类别准确率和样本类型；

将样本类型为可见类的各类别准确率的平均值确定为可见类准确率；

将样本类型为不可见类的各类别准确率的平均值确定为不可见类准确率。

6.一种基于融合的零样本物体种类识别装置，其特征在于，包括：

获取模块，用于获取待识别对象的视觉向量；

识别结果确定模块，用于根据所述第一预测结果和对应的决策参数，以及第二预测结果确定所述待识别对象所属物体种类的识别结果，所述决策参数通过差分进化算法确定；

预测结果确定模块，包括：

第二结果确定单元，用于将所述第二输入数据输入至目标网络模型中的第二分类器，根据所述第二分类器的输出结果确定第二预测结果；

数据确定单元，具体用于将所述视觉向量输入至预确定的目标回归器，获得对应的预测语义向量；

7.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的基于融合的零样本物体种类识别方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的基于融合的零样本物体种类识别方法。