CN111814805A

CN111814805A - 特征提取网络训练方法以及相关方法和装置

Info

Publication number: CN111814805A
Application number: CN202010562140.3A
Authority: CN
Inventors: 张雷; 潘华东; 殷俊; 张兴明
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-10-23
Anticipated expiration: 2040-06-18
Also published as: CN111814805B

Abstract

本申请提供特征提取网络训练方法以及相关方法和装置。该特征提取网络训练方法包括：获得图像训练集，图像训练集包括同一目标的两种模态的图像；将图像训练集输入到特征提取网络，以得到每一目标的两种模态的图像特征；利用每个目标的两种模态的图像特征的差异计算损失；在损失减小的方向，更新特征提取网络的参数。本申请可以使得通过特征提取网络提取出的同一目标的两种模态的图像特征更加相似，解决了不同模态之间的语义鸿沟，将本申请训练出的特征提取网络应用到图像搜索中，可以解决不同模态无法互相搜索的问题。

Description

特征提取网络训练方法以及相关方法和装置

技术领域

本申请涉及图像技术领域，特别是涉及特征提取网络训练方法以及相关方法和装置。

背景技术

越来越多监控摄像头的使用，产生了海量的视频数据，需要在这些数据中快速检索到目标，并进行相关分析，是一项重要的任务。以图搜图技术能够在图片库中快速检索到目标，已广泛应用在抓捕嫌疑犯，和寻找走失老人、儿童中，并取得较好的效果。但以图搜图技术存在红外和可见光等不同模态图像之间的语义鸿沟，存在不同模态图像无法互相搜索的问题。

发明内容

本申请提供特征提取网络训练方法以及相关方法和装置，使得通过特征提取网络提取出的同一目标的两种模态的图像特征更加相似，解决了不同模态之间的语义鸿沟，将本申请训练出的特征提取网络应用到图像搜索中，可以解决不同模态无法互相搜索的问题。

为达到上述目的，本申请提供一种特征提取网络的训练方法，该方法包括：

获取图像训练集，图像训练集包括同一目标的两种模态的图像；

将图像训练集输入到特征提取网络，以得到每一目标的两种模态的图像特征；

利用每个目标的两种模态的图像特征的差异计算损失；

在损失减小的方向，更新特征提取网络的参数。

其中，在损失减小的方向，更新特征提取网络的参数，包括：

利用损失梯度反向传播更新特征提取网络的参数。

其中，两种模态包括第一模态和第二模态，将图像训练集输入到特征提取网络，以得到每一目标的两种模态的图像特征，之后包括：

将至少一个目标的第一模态的图像特征输入到第一图像分类器；基于第一图像分类器的分类结果，并利用梯度反向传播算法确定特征提取网络的第一组参数；

将至少一个目标的第二模态的图像特征输入到第二图像分类器；基于第二图像分类器的分类结果，并利用梯度反向传播算法确定特征提取网络的第二组参数；

利用损失梯度反向传播更新特征提取网络的参数，包括：利用损失梯度反向传播确定特征提取网络的第三组参数；

将特征提取网络的第一组参数、第二组参数和第三组参数进行加权处理，得到特征提取网络的最终参数。

其中，将图像训练集输入到特征提取网络，以得到每一目标的两种模态的图像特征，之后包括：

将每一目标的两种模态的图像特征连接，得到每一目标的融合特征；

将至少一个目标的融合特征输入到第三图像分类器；基于第三图像分类器的分类结果，并利用梯度反向传播算法确定特征提取网络的第四组参数；

将特征提取网络的第一组参数、第二组参数和第三组参数进行加权处理，得到特征提取网络的最终参数，包括：

将特征提取网络的第一组参数、第二组参数、第三组参数和第四组参数进行加权处理，得到特征提取网络的最终参数。

其中，两种模态的图像选自可见光图像、深度图像、红外图像、素描图像和3D图像中的两种。

其中，利用每个目标的两种模态的图像特征的差异计算损失，包括：

计算每个目标的两种模态的图像特征的欧式距离；

利用至少一个目标对应的欧式距离计算损失。

为达到上述目的，本申请提供一种图像的特征提取方法，该方法包括：

获取待提取特征的图像；

将待提取特征的图像输入至特征提取网络；其中，特征提取网络是采用上述方法训练得到的；

通过特征提取网络提取待提取特征的图像的特征。

为达到上述目的，本申请提供一种图像搜索方法，该方法包括：

获取待搜索图像；

将待搜索图像输入至特征提取网络；以得到待搜索图像的特征；其中，特征提取网络是采用上述特征提取网络的训练方法训练得到的；

确定待搜索图像的特征与数据库中各图像的特征的差异；

根据差异确定与待搜索图像相似的图像，得到图像搜索结果。

为达到上述目的，本申请提供一种电子设备，该电子设备包括存储器和处理器；存储器中存储有计算机程序，处理器用于执行计算机程序以实现上述方法中的步骤。

为达到上述目的，本申请提供一种可读存储介质，其上存储有计算机程序，程序被处理器执行时实现上述方法中的步骤。

本申请的方法是：通过特征提取网络对图像训练集中图像进行特征提取，以得到每一目标的两种模态的图像特征；并利用每一目标的两种模态的图像特征的差异计算损失，在损失减小的方向，更新特征提取网络的参数，这样在训练和更新特征提取网络的过程中，可以使同一目标的两种模态的图像特征的差异减小，使得通过特征提取网络提取出的同一目标的两种模态的图像特征更加相似，解决了不同模态之间的语义鸿沟，从而用按照本申请的特征提取网络的训练方法训练出的特征提取网络进行图像搜索，只需要其中一种模态的图像，就可以搜索出两种模态的图像。

附图说明

为了更清楚地说明本申请实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施方式，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请特征提取网络的训练方法第一实施方式的流程示意图；

图2是本申请特征提取网络的训练方法第二实施方式的流程示意图；

图3是本申请图像的特征提取方法一实施方式的流程示意图；

图4是本申请图像搜索方法一实施方式的流程示意图；

图5是本申请电子设备的结构示意图；

图6是本申请可读存储介质一实施方式的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本申请的技术方案，下面结合附图和具体实施方式对本申请所提供的特征提取网络训练方法以及相关方法和装置做进一步详细描述。

具体请参阅图1，图1是本申请特征提取网络的训练方法第一实施方式的流程示意图。本实施方式特征提取网络的训练方法包括以下步骤。

S101：获取图像训练集。

图像训练集包括同一目标的两种模态的图像。同一目标的两种模态的图像可以包括同一目标的红外图像、可见光图像、素描图像、3D图像和深度图像等各种模态中任意两种模态的图像。例如，同一目标的两种模态的图像为同一目标的红外图像和可见光图像，这样利用本申请的特征提取网络减少了红外图像和可见光图像之间的语义鸿沟。

另外，同一目标的两种模态的图像中包含的内容可以相同，例如，同一目标的两种模态的图像中均包含左下角的迎春花、右边的柳树和位于中间的行人A。

S102：将图像训练集输入到特征提取网络，以得到每一目标的两种模态的图像特征。

利用特征提取网络对图像训练集中的图像进行特征提取，可以得到每一目标的两种模态的图像特征。

本申请的特征提取网络可以是任意特征提取网络，只要特征提取网络具有提取输入图像特征的功能即可，例如resnet50或CNN网络。

S103：利用每个目标的两种模态的图像特征的差异计算损失。

步骤S103包括：计算每个目标的两种模态的图像特征之间的差异；将多个目标的两种模态的图像特征的差异综合，以得到损失。具体，可以将每个目标的两种模态的图像特征之间的欧式距离、余弦距离或曼哈顿距离等作为每个目标的两种模态的图像特征之间的差异。

其中，将多个目标的两种模态的图像特征的差异综合的步骤，可以为：计算多个目标的两种模态的图像特征的差异之和；或，计算多个目标的两种模态的图像特征的差异的二范数；当然不限于此。

S104：在损失减小的方向，更新特征提取网络的参数。

具体的，可以采用反向传播、梯度下降等方法，调整特征提取网络中各个参数，从而训练和更新特征提取网络。

在本实施方式中，通过特征提取网络对图像训练集中图像进行特征提取，以得到每一目标的两种模态的图像特征；并利用每一目标的两种模态的图像特征的差异计算损失，在损失减小的方向，更新特征提取网络的参数，这样在训练和更新特征提取网络的过程中，可以使同一目标的两种模态的图像特征的差异减小，使得通过特征提取网络提取出的同一目标的两种模态的图像特征更加相似，解决了不同模态之间的语义鸿沟，从而用按照本申请的特征提取网络的训练方法训练出的特征提取网络进行图像搜索，只需要其中一种模态的图像，就可以搜索出两种模态的图像。

具体请参阅图2，图2是本申请特征提取网络的训练方法第二实施方式的流程示意图。本实施方式特征提取网络的训练方法包括以下步骤。

S201：获取图像训练集。

图像训练集包括同一目标的两种模态的图像。

具体内容可参见步骤S101，在此不做赘述。

S202：将图像训练集输入到特征提取网络，以得到每一目标的两种模态的图像特征。

具体内容可参见步骤S102，在此不做赘述。

两种模态包括第一模态和第二模态。

S203：利用损失梯度反向传播确定特征提取网络的第三组参数。

S204：将至少一个目标的第一模态的图像特征输入到第一图像分类器；基于第一图像分类器的分类结果，并利用梯度反向传播算法确定特征提取网络的第一组参数。

将至少一个目标的第一模态的图像特征输入到第一图像分类器，得到每一目标的分类结果，接着可以基于多个目标的分类结果，利用梯度反向传播算法确定特征提取网络的第一组参数。

可以理解的是，在此之前，可以先标注出每一目标所属类别的真实值。

例如，基于至少一个目标的第一模态的图像特征利用第一图像分类器，确认至少一个目标的第一模态图像中人的ID预测值和置信度；并基于至少一个目标的第一模态图像中人的ID真实值和ID预测值、置信度利用梯度反向传播算法确认特征提取网络的第一组参数。

可以理解的是，步骤S204只要在步骤S202之后执行即可，可以和步骤S203同时执行，也可以在步骤S203之后执行。

S205：将至少一个目标的第二模态的图像特征输入到第二图像分类器；基于第二图像分类器的分类结果，并利用梯度反向传播算法确定特征提取网络的第二组参数。

将至少一个目标的第二模态的图像特征输入到第二图像分类器，得到每一目标的分类结果，接着可以基于多个目标的分类结果，利用梯度反向传播算法确定特征提取网络的第二组参数。

可以理解的是，在此之前，可以先标注出每一目标所属类别真实值。

例如，基于至少一个目标的第二模态的图像特征利用第二图像分类器，确认至少一个目标的第二模态图像中人的ID预测值和置信度；并基于至少一个目标的第二模态图像中人的ID真实值和ID预测值、置信度利用梯度反向传播算法确认特征提取网络的第二组参数。

S206：将每一目标的两种模态的图像特征连接，得到每一目标的融合特征。

S207：将至少一个目标的融合特征输入到第三图像分类器；基于第三图像分类器的分类结果，并利用梯度反向传播算法确定特征提取网络的第四组参数。

至少一个目标的融合特征输入到第三图像分类器，得到每一目标的分类结果，接着可以基于多个目标的分类结果，利用梯度反向传播算法确定特征提取网络的第四组参数。

例如，基于至少一个目标的融合特征利用第三图像分类器，确认至少一个目标中人的ID预测值和置信度；并基于至少一个目标中人的ID真实值和ID预测值、置信度利用梯度反向传播算法确认特征提取网络的第四组参数。

S208：将特征提取网络的第一组参数、第二组参数、第三组参数和第四组参数进行加权处理，得到特征提取网络的最终参数。

具体地，可以将特征提取网络需要更新的每一参数在第一组参数、第二组参数、第三组参数和第四组参数中对应的值进行加权，得到特征提取网络每一参数的最终值，并用每一参数的最终值更新特征提取网络的参数。

例如，特征提取网络需要更新6个参数，分别为w1、w2、w3、b1、b2和b3。w1在第一组参数值为1，在第二组参数中值为5，在第三组参数中值为3，在第四组参数中值为2，那w1的最终值为1*a+5*b+3*c+2*d。然后分别求出w2、w3、b1、b2和b3的最终值，并将特征提取网络的参数更新为w1、w2、w3、b1、b2和b3的最终值。

下面为更好说明本申请特征提取网络的训练方法，提供以下具体实施例以同一目标的红外图像和可见光图像来示例性说明。

实施例

输入红外和可见光两种模态的图像(b1+b2)*3*H*W，其中b1,b2分别代表红外和可见光一一对应的图像数，其中b1＝b2。利用特征提取网络提取红外和可见光两种模态的图像中的特征，如resnet50，得到特征(b1+b2)*C*1*1，其中C为特征维度。计算b1*C与b2*C的欧式距离损失，并进行梯度反传，用来约束不同模态特征之间的语意鸿沟。通过将b1，b2的C维度特征分别全连接到图像类别的个数，将图像的ID作为监督信号，进行梯度反传更新。同时将不同模态的特征b1*C与b2*C，对应红外和可见光的特征连接，得到b1*2C的特征。将b1*2C的特征全连接到对应的图像类别的个数，将图像的ID作为监督信号，进行梯度反传更新。

具体请参阅图3，图3是本申请图像的特征提取方法一实施方式的流程示意图。本实施方式图像的特征提取方法包括以下步骤。

S301：获取待提取特征的图像。

S302：将待提取特征的图像输入至特征提取网络。

其中，特征提取网络是采用上述特征提取网络的训练方法训练得到的。

S303：通过特征提取网络提取待提取特征的图像的特征。

在本实施方式中，因为上述特征提取网络的训练方法使得两种模态之间的鸿沟不断减小，从而利用特征提取网络提取出的两种模态的图像特征相似度很高，这样以特征提取网络提取出的其中一种模态的图像特征可以包括两种模态的图像特征。

具体请参阅图4，图4是本申请图像搜索方法一实施方式的流程示意图。本实施方式图像搜索方法包括以下步骤。

S401：获取待搜索图像。

S402：将待搜索图像输入至特征提取网络，以得到待搜索图像的特征。

特征提取网络是采用上述特征提取网络的训练方法训练得到的。

S403：确定待搜索图像的特征与数据库中各图像的特征之间的差异。

可以将待搜索图像的特征与数据库中各图像的特征之间的余弦距离、欧式距离或曼哈顿距离作为待搜索图像的特征与数据库中各图像的特征之间的差异。

S404：根据差异确定与待搜索图像相似的图像，得到图像搜索结果。

在一实现方式中，可以将差异小于阈值的图像作为与待搜索图像相似的图像。

在另一实现方式中，可以基于差异的大小顺序对数据库中各图像进行排序，可以将差异最小的N个图像作为与待搜索图像相似的图像，其中N为正整数。

在本实施方式中，可以以一种模态的图像搜索到两种模态的图像，可以实现不同模态之间的图像搜索，不同模态数据共用同一个特征提取网络，耗时低，使用时不需要同时输入两种模态的数据，本申请方案简单易实施，具有很高的工程实用性。

另外，两种模态的图像可以是可见光图像和红外图像，这样可以有效应对夜间场景，提升夜间拍摄图像的检索效果。

请参阅图5，图5是本申请电子设备一实施方式的结构示意图。本电子设备10包括相互耦接的存储器11和处理器12，存储器11用于存储程序指令，处理器12用于执行程序指令以实现上述任一实施方式的方法。

上述特征提取网络的训练方法、图像的特征提取方法及图像搜索方法的逻辑过程以计算机程序呈现，在计算机程序方面，若其作为独立的软件产品销售或使用时，其可存储在计算机存储介质中，因而本申请提出一种可读存储介质。请参阅图6，图6是本申请可读存储介质一实施方式的结构示意图，本实施方式可读存储介质20中存储有计算机程序21，计算机程序21被处理器执行时实现上述方法中的步骤。

该可读存储介质20具体可以为U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory，)、磁碟或者光盘等可以存储计算机程序的介质，或者也可以为存储有该计算机程序的服务器，该服务器可将存储的计算机程序发送给其他设备运行，或者也可以自运行该存储的计算机程序。该可读存储介质20从物理实体上来看，可以为多个实体的组合，例如多个服务器、服务器加存储器、或存储器加移动硬盘等多种组合方式。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种特征提取网络的训练方法，其特征在于，所述方法包括：

获得图像训练集，所述图像训练集包括同一目标的两种模态的图像；

将所述图像训练集输入到所述特征提取网络，以得到每一目标的两种模态的图像特征；

利用每个目标的两种模态的图像特征的差异计算损失；

在损失减小的方向，更新所述特征提取网络的参数。

2.根据权利要求1所述的训练方法，其特征在于，所述在损失减小的方向，更新所述特征提取网络的参数，包括：

利用损失梯度反向传播更新所述特征提取网络的参数。

3.根据权利要求2所述的训练方法，其特征在于，两种模态包括第一模态和第二模态，所述将所述图像训练集输入到所述特征提取网络，以得到每一目标的两种模态的图像特征，之后包括：

将至少一个目标的第一模态的图像特征输入到第一图像分类器；基于所述第一图像分类器的分类结果，并利用梯度反向传播算法确定所述特征提取网络的第一组参数；

将至少一个目标的第二模态的图像特征输入到第二图像分类器；基于所述第二图像分类器的分类结果，并利用梯度反向传播算法确定所述特征提取网络的第二组参数；

所述利用损失梯度反向传播更新所述特征提取网络的参数，包括：利用损失梯度反向传播确定所述特征提取网络的第三组参数；

将所述特征提取网络的第一组参数、第二组参数和第三组参数进行加权处理，得到所述特征提取网络的最终参数。

4.根据权利要求3所述的训练方法，其特征在于，所述将所述图像训练集输入到所述特征提取网络，以得到每一目标的两种模态的图像特征，之后包括：

将至少一个目标的融合特征输入到第三图像分类器；基于所述第三图像分类器的分类结果，并利用梯度反向传播算法确定所述特征提取网络的第四组参数；

所述将所述特征提取网络的第一组参数、第二组参数和第三组参数进行加权处理，得到所述特征提取网络的最终参数，包括：

将所述特征提取网络的第一组参数、第二组参数、第三组参数和第四组参数进行加权处理，得到所述特征提取网络的最终参数。

5.根据权利要求1所述的训练方法，其特征在于，所述两种模态的图像选自可见光图像、深度图像、红外图像、素描图像和3D图像中的两种。

6.根据权利要求1所述的训练方法，其特征在于，所述利用每个目标的两种模态的图像特征的差异计算损失，包括：

计算每个目标的两种模态的图像特征的欧式距离；

利用至少一个目标对应的欧式距离计算损失。

7.一种图像的特征提取方法，其特征在于，所述方法包括：

获取待提取特征的图像；

将所述待提取特征的图像输入至特征提取网络；其中，所述特征提取网络是采用权利要求1至6任一项所述的方法训练得到的；

通过所述特征提取网络提取所述待提取特征的图像的特征。

8.一种图像搜索方法，其特征在于，所述方法包括：

获取待搜索图像；

将所述待搜索图像输入至特征提取网络；以得到所述待搜索图像的特征；其中，所述特征提取网络是采用权利要求1至6任一项所述的方法训练得到的；

确定所述待搜索图像的特征与数据库中各图像的特征的差异；

根据所述差异确定与所述待搜索图像相似的图像，得到图像搜索结果。

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器；所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现如权利要求1-8中任一项所述方法的步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。