CN110222211A

CN110222211A - 手绘图像检索方法及装置

Info

Publication number: CN110222211A
Application number: CN201910431464.0A
Authority: CN
Inventors: 庞芸萍
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-09-10

Abstract

本公开是关于手绘图像检索方法及装置。该方法包括：将手绘图像输入至卷积神经网络模型，获取卷积神经网络模型中的隐藏层输出的特征描述值，根据隐藏层输出的特征描述值获取目标高斯混合模型中高斯分量的偏导数；根据高斯分量的偏导数获取能够表征图像的特征向量，用以对手绘图像进行检索。其中，根据隐藏层输出的特征描述值获取到的目标高斯混合模型中高斯分量的偏导数，可以获取手绘图像更多特征间的相关信息，从而可以提高手绘图像检索精度。

Description

手绘图像检索方法及装置

技术领域

本公开涉及图像处理技术领域，尤其涉及手绘图像检索方法及装置。

背景技术

随着终端设备技术的发展，以图搜图的应用已经成为终端设备中基本功能性软件，在该软件中，用户输入手绘图像便可以查找到对应的网络图像或者手绘图像中的产品名称和产品信息。

发明内容

为克服相关技术中存在的问题，本公开实施例提供手绘图像检索方法及装置。所述技术方案如下：

根据本公开实施例的第一方面，提供一种手绘图像检索方法，包括：

将手绘图像输入至卷积神经网络模型；

获取所述卷积神经网络模型中的隐藏层输出的特征描述值；

根据所述隐藏层输出的特征描述值获取目标高斯混合模型中高斯分量的偏导数；所述目标高斯混合模型表征在高斯分量参数下，隐藏层输出特征描述值的概率分布情况；

根据所述高斯分量的偏导数获取能够表征所述手绘图像的特征向量；

根据所述特征向量对所述手绘图像进行检索。

本公开的实施例提供的技术方案可以包括以下有益效果：将手绘图像输入至卷积神经网络模型，获取卷积神经网络模型中的隐藏层输出的特征描述值，根据隐藏层输出的特征描述值获取目标高斯混合模型中高斯分量的偏导数；根据高斯分量的偏导数获取能够表征图像的特征向量，用以对手绘图像进行检索。其中，根据隐藏层输出的特征描述值获取到的目标高斯混合模型中高斯分量的偏导数，可以获取手绘图像更多特征间的相关信息，从而可以提高手绘图像检索精度。

在一个实施例中，所述根据所述隐藏层输出的特征描述值获取目标高斯混合模型中高斯分量的偏导数之前，所述方法还包括：

对预设高斯混合模型进行特征聚类，并通过预设样本集训练所述预设高斯混合模型得到所述目标高斯混合模型；所述预设样本集包括多个图像组合，每个所述图像组合中包括预设手绘图像和所述预设手绘图像对应的目标检索图像。

在一个实施例中，所述根据所述隐藏层输出的特征描述值获取目标高斯混合模型中高斯分量的偏导数，包括：

获取每个所述隐藏层输出的特征描述值针对所述目标高斯混合模型中的每个高斯分量的一阶平均偏导数和二阶平均偏导数；

所述根据所述高斯分量的偏导数获取能够表征所述手绘图像的特征向量，包括：

将每一个所述高斯分量的一阶平均偏导数和二阶平均偏导数联接，获取能够表征所述手绘图像的特征向量。

在一个实施例中，所述特征向量包括：Fisher特征向量。

在一个实施例中，所述隐藏层包括：抽象层。

根据本公开实施例的第二方面，提供一种手绘图像检索装置，包括：

输入模块，用于将手绘图像输入至卷积神经网络模型；

第一获取模块，用于获取所述卷积神经网络模型中的隐藏层输出的特征描述值；

第二获取模块，用于根据所述第一获取模块获取的所述隐藏层输出的特征描述值获取目标高斯混合模型中高斯分量的偏导数；所述目标高斯混合模型表征在高斯分量参数下，隐藏层输出特征描述值的概率分布情况；

第三获取模块，用于根据所述第二获取模块获取的所述高斯分量的偏导数获取能够表征所述手绘图像的特征向量；

检索模块，用于根据所述第三获取模块获取的所述特征向量对所述手绘图像进行检索。

在一个实施例中，所述装置还包括：第四获取模块；

所述第四获取模块，用于对预设高斯混合模型进行特征聚类，并通过预设样本集训练所述预设高斯混合模型得到所述目标高斯混合模型；所述预设样本集包括多个图像组合，每个所述图像组合中包括预设手绘图像和所述预设手绘图像对应的目标检索图像。

在一个实施例中，所述第二获取模块包括：第一获取子模块；所述第三获取模块，包括：第二获取子模块；

所述第一获取子模块，用于获取每个所述隐藏层输出的特征描述值针对所述目标高斯混合模型中的每个高斯分量的一阶平均偏导数和二阶平均偏导数；

所述第二获取子模块，用于将所述第一获取子模块获取的每一个所述高斯分量的一阶平均偏导数和二阶平均偏导数联接，获取能够表征所述手绘图像的特征向量。

在一个实施例中，所述特征向量包括：Fisher特征向量。

在一个实施例中，所述隐藏层包括：抽象层。

根据本公开实施例的第三方面，提供一种手绘图像检索装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

将手绘图像输入至卷积神经网络模型；

获取所述卷积神经网络模型中的隐藏层输出的特征描述值；

根据所述特征向量对所述手绘图像进行检索。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现第一方面中任一项所述方法的步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的手绘图像检索方法的流程图。

图2是根据一示例性实施例示出的一种手绘图像检索方法的流程图。

图3是根据一示例性实施例示出的一种手绘图像检索装置的框图一。

图4是根据一示例性实施例示出的一种手绘图像检索装置的框图二。

图5是根据一示例性实施例示出的一种手绘图像检索装置的框图三。

图6是根据一示例性实施例示出的一种用于手绘图像检索的装置90的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

随着以图搜图应用的普及和终端设备等的不断发展，手绘图像获取越来越方便，基于手绘图像的检索成为了计算机视觉领域的热点问题。目前手绘图像检索主要基于卷积神经网络，该方法依赖于参数调整和样本训练，且最后会通过全连接层整合联接，以卷积神经网络的全连接层的整合联接作为手绘图像的特征，进行手绘图像的检索。

但由于手绘图像与传统的常规图像最大的区别是，手绘图像的前景稀疏，并且手绘图像由前景线条和空白背景组成，而常规图像是由密集像素点组成。上述以卷积神经网络的全连接层的整合联接作为手绘图像的特征的方式缺乏语义层面的表达及特征描述力不足的问题，会影响最终检索精度。

为了提升检索精度，本公开提出一种手绘图像检索方法。

图1是根据一示例性实施例示出的手绘图像检索方法的流程图，如图1所示，该方法包括以下步骤S101-S104：

在步骤S101中，将手绘图像输入至卷积神经网络模型。

在步骤S102中，获取卷积神经网络模型中的隐藏层输出的特征描述值。

在步骤S103中，根据隐藏层输出的特征描述值获取目标高斯混合模型中高斯分量的偏导数；目标高斯混合模型表征在高斯分量参数下，隐藏层输出特征描述值的概率分布情况。

在步骤S104中，根据高斯分量的偏导数获取能够表征手绘图像的特征向量。

可以将每一个高斯分量的偏导数进行联接，从而获取能够表征手绘图像的特征向量。

在步骤S105中，根据特征向量对手绘图像进行检索。

本公开中在进行手绘图像的检索时，会对卷积神经网络模型的隐藏层输出的特征描述值进行处理，处理的目的是为了使得处理后的特征描述值包括了手绘图像的语义层面的表达以及可以有效表征手绘图像的特征，进而使用处理后的特征描述值对手绘图像进行检索。

上述根据所述高斯分量的偏导数获取能够表征手绘图像的特征向量的方法可以采用Fisher编码的方式，此时获取到的能够表征手绘图像的特征向量可以包括：Fisher特征向量。在本实施例中的步骤包括：获取到目标高斯混合模型后，然后根据隐藏层输出的特征描述值获取目标高斯混合模型中高斯分量的偏导数，然后将每个高斯分量的偏导数进行联接得到能够表征手绘图像的Fisher特征向量，以此作为特征实现对手绘图像的检索。

上述采用Fisher编码的方式代替相关技术中的全连接层，使用高斯混合模型可以获取更多特征间的相关信息，从而可以提高手绘图像检索精度。

其中，Fisher编码是一种集合了模式分类中生产力和识别力优势的有效框架。Fisher编码的观点是用源于概率密度函数的梯度向量去描述一个信号，即模型化信号产生的过程，之后把这种方法表示的图像向量输入到分类器中进行处理。考虑到图像分类输入的信号是图像，提出生成视觉词袋时使用高斯混合模型这种生成模型，高斯混合模型可以近似的给出图像底层特征的分布。

本实施例中提取卷积神经网络中全连接层之前的隐藏层输出的特征描述值，是由于隐藏层输出的特征描述值通过多层卷积操作后，具备对输入的手绘图像的抽象描述力，隐藏层输出的特征描述值包括N个特征向量集合，将N个特征向量集合表示为x₁,…,x_N∈R^D。

上述的隐藏层包括卷积神经网络的抽象层。

本公开的实施例提供的技术方案可以包括以下有益效果：将手绘图像输入至卷积神经网络模型，获取卷积神经网络模型中的隐藏层输出的特征描述值，根据隐藏层输出的特征描述值获取目标高斯混合模型中高斯分量的偏导数；根据高斯分量的偏导数获取能够表征手绘图像的特征向量，用以对手绘图像进行检索。其中，根据隐藏层输出的特征描述值获取到的目标高斯混合模型中高斯分量的偏导数，可以获取手绘图像更多特征间的相关信息，从而可以提高手绘图像检索精度。

一个实施例中，上述方法还包括以下子步骤：

对预设高斯混合模型进行特征聚类，并通过预设样本集训练预设高斯混合模型得到目标高斯混合模型；预设样本集包括多个图像组合，每个图像组合中包括预设手绘图像和预设手绘图像对应的目标检索图像。

利用如下式所示的预设高斯混合模型进行特征聚类，然后基于预设样本集对如下式所示的预设高斯混合模型进行训练，以得到目标高斯混合模型，此时得到的目标高斯混合模型为通过上述训练得到的多个高斯混合模型的集合。

其中，K表示高斯分量数，即聚类中心数；η表示高斯分量参数(ρ₁,μ₁,Σ₁,...,ρ_K,μ_K,Σ_K)，其中，ρ_k表示第k个高斯分量的先验概率值，μ_k∈R^D表示第k个高斯分量的均值，Σ_k∈R^D×D表示第k个高斯分量的半正定协方差矩阵；高斯分量参数(ρ₁,μ₁,Σ₁,...,ρ_K,μ_K,Σ_K)确定通过EM算法；D表示特征向量的维度，即x_i的维度。

在一个实施例中，上述步骤S103包括以下子步骤A1，上述步骤S104包括以下子步骤A2：

在A1中，获取每个隐藏层输出的特征描述值针对目标高斯混合模型中的每个高斯分量的一阶平均偏导数和二阶平均偏导数。

在A2中，将每一个高斯分量的一阶平均偏导数和二阶平均偏导数联接，获取能够表征手绘图像的特征向量。

以特征向量为Fisher特征向量为例进行说明：

在进行手绘图像检索时，获取卷积神经网络的隐藏层输出的特征描述值后，基于每个隐藏层输出的特征描述值，获取该隐藏层输出的特征描述值针对上述获取的目标高斯混合模型中的每个高斯分量的一阶平均偏导数和二阶平均偏导数，得到的一阶平均偏导数α_k和二阶平均偏导数β_k如下式所示：

其中，N表示隐藏层输出的特征描述值的序号，π_ik表示特征描述值x_i由第k个高斯分量生成的概率，α_k表示第k个高斯分量的一阶平均偏导数，β_k表示第k个高斯分量的二阶平均偏导数。

通过联接K个高斯分量的α_k和β_k生成一组代表手绘图像的特征集合的Fisher向量。

最终的Fisher向量f可表示为：将其作为特征向量用于手绘图像的检索。

本公开中采用Fisher编码方法代替卷积神经网络的全连接层，可以获取手绘图像中更多特征间相关信息，从而可以提高手绘图像检索精度。

图2是根据一示例性实施例示出的一种手绘图像检索方法的流程图，如图2所示，该方法包括以下步骤：

在S201中，对预设高斯混合模型进行特征聚类，并通过预设样本集训练预设高斯混合模型得到目标高斯混合模型；其中，预设样本集包括多个图像组合，每个图像组合中包括预设手绘图像和预设手绘图像对应的目标检索图像；目标高斯混合模型表征在高斯分量参数下，隐藏层输出特征描述值的概率分布情况。

在S202中，将手绘图像输入至卷积神经网络模型。

在S203中，获取卷积神经网络模型中的抽象层输出的特征描述值。

在S204中，获取每个抽象层输出的特征描述值针对目标高斯混合模型中的每个高斯分量的一阶平均偏导数和二阶平均偏导数。

在S205中，联接所有高斯分量的一阶平均偏导数和二阶平均偏导数，得到能够表征手绘图像的Fisher特征向量。

在S206中，根据构建的Fisher特征向量对手绘图像进行检索。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图3是根据一示例性实施例示出的一种手绘图像检索装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图3所示，该手绘图像检索装置包括：

输入模块11，用于将手绘图像输入至卷积神经网络模型；

第一获取模块12，用于获取所述卷积神经网络模型中的隐藏层输出的特征描述值；

第二获取模块13，用于根据所述第一获取模块12获取的所述隐藏层输出的特征描述值获取目标高斯混合模型中高斯分量的偏导数；所述目标高斯混合模型表征在高斯分量参数下，隐藏层输出特征描述值的概率分布情况；

第三获取模块14，用于根据所述第二获取模块13获取的所述高斯分量的偏导数获取能够表征所述手绘图像的特征向量；

检索模块15，用于根据所述第三获取模块14获取的所述特征向量对所述手绘图像进行检索。

在一个实施例中，如图4所示，所述装置还包括：第四获取模块16；

所述第四获取模块16，用于对预设高斯混合模型进行特征聚类，并通过预设样本集训练所述预设高斯混合模型得到所述目标高斯混合模型；所述预设样本集包括多个图像组合，每个所述图像组合中包括预设手绘图像和所述预设手绘图像对应的目标检索图像。

在一个实施例中，如图5所示，所述第二获取模块13包括：第一获取子模块131；所述第三获取模块14，包括：第二获取子模块141；

所述第一获取子模块131，用于获取每个所述隐藏层输出的特征描述值针对所述目标高斯混合模型中的每个高斯分量的一阶平均偏导数和二阶平均偏导数；

所述第二获取子模块141，用于将所述第一获取子模块131获取的每一个所述高斯分量的一阶平均偏导数和二阶平均偏导数联接，获取能够表征所述手绘图像的特征向量。

在一个实施例中，所述特征向量包括：Fisher特征向量。

在一个实施例中，所述隐藏层包括：抽象层。

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

将手绘图像输入至卷积神经网络模型；

获取所述卷积神经网络模型中的隐藏层输出的特征描述值；

根据所述特征向量对所述手绘图像进行检索。

上述处理器还可被配置为：

在一个实施例中，所述特征向量包括：Fisher特征向量。

在一个实施例中，所述隐藏层包括：抽象层。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于手绘图像检索的装置90的框图。例如，装置90可以被提供为一服务器。装置90包括处理组件902，其进一步包括一个或多个处理器，以及由存储器903所代表的存储器资源，用于存储可由处理组件902的执行的指令，例如应用程序。存储器903中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件902被配置为执行指令，以执行上述方法。

装置90还可以包括一个电源组件906被配置为执行装置90的电源管理，一个有线或无线网络接口905被配置为将装置90连接到网络，和一个输入输出(I/O)接口908。装置90可以操作基于存储在存储器903的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置90的处理器执行时，使得装置90能够执行上述的手绘图像检索方法，所述方法包括：

将手绘图像输入至卷积神经网络模型；

获取所述卷积神经网络模型中的隐藏层输出的特征描述值；

根据所述特征向量对所述手绘图像进行检索。

在一个实施例中，所述特征向量包括：Fisher特征向量。

在一个实施例中，所述隐藏层包括：抽象层。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种手绘图像检索方法，其特征在于，包括：

将手绘图像输入至卷积神经网络模型；

获取所述卷积神经网络模型中的隐藏层输出的特征描述值；

根据所述特征向量对所述手绘图像进行检索。

2.根据权利要求1所述的方法，其特征在于，所述根据所述隐藏层输出的特征描述值获取目标高斯混合模型中高斯分量的偏导数之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述隐藏层输出的特征描述值获取目标高斯混合模型中高斯分量的偏导数，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述特征向量包括：Fisher特征向量。

5.根据权利要求4所述的方法，其特征在于，所述隐藏层包括：抽象层。

6.一种手绘图像检索装置，其特征在于，包括：

输入模块，用于将手绘图像输入至卷积神经网络模型；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：第四获取模块；

8.根据权利要求6所述的装置，其特征在于，所述第二获取模块包括：第一获取子模块；所述第三获取模块，包括：第二获取子模块；

9.根据权利要求6-8任一项所述的装置，其特征在于，所述特征向量包括：Fisher特征向量。

10.根据权利要求9所述的装置，其特征在于，所述隐藏层包括：抽象层。

11.一种手绘图像检索装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

将手绘图像输入至卷积神经网络模型；

获取所述卷积神经网络模型中的隐藏层输出的特征描述值；

根据所述特征向量对所述手绘图像进行检索。

12.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至5中任一项所述方法的步骤。