CN108122001B

CN108122001B - 图像识别方法及装置

Info

Publication number: CN108122001B
Application number: CN201711332698.7A
Authority: CN
Inventors: 张水发
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2022-03-11
Anticipated expiration: 2037-12-13
Also published as: CN108122001A

Abstract

本公开是关于图像识别方法及装置。该方法包括：获取一组部位图像，一组部位图像包括n张部位图像，每张部位图像展示待识别物的一个预设部位；n是大于1的整数；根据一组部位图像和预设网络，确定n个分类结果；其中，每个分类结果包括一张部位图像对应的至少一种型号及每种型号的型号概率；预设网络是加入神经元丢弃概率的卷积神经网络，预设网络是通过部位图像样本和型号样本训练出来的；根据n个分类结果确定待识别物的型号。该技术方案中，提高识别相似型号待识别物的准确率；与此同时，还能避免网络过拟合。

Description

图像识别方法及装置

技术领域

本公开涉及图像处理领域，尤其涉及图像识别方法及装置。

背景技术

目前，图像识别是人工智能的一个重要领域。如果图像识别出的结果不准确，那么处理器处理不准确结果得到的信息肯定是有问题的，因此，图像识别的准确性一定程度了限制了人工智能的发展。

发明内容

本公开实施例提供图像识别方法及装置。所述技术方案如下：

根据本公开实施例的第一方面，提供一种图像识别方法，包括：

获取一组部位图像，所述一组部位图像包括n张部位图像，所述每张部位图像展示待识别物的一个预设部位；所述n是大于1的整数；

根据所述一组部位图像和预设网络，确定n个分类结果；其中，每个分类结果包括一张部位图像对应的至少一种型号及每种型号的型号概率；所述预设网络是加入神经元丢弃概率的卷积神经网络，所述预设网络是通过部位图像样本和型号样本训练出来的；

根据所述n个分类结果确定所述待识别物的型号。

在一个实施例中，所述预设网络包括特征提取层和识别层；所述特征提取层包括卷积层、dropout层和池化层；

其中，所述dropout层设置在所述卷积层和所述池化层之间，所述dropout层用于随机丢弃所述卷积层卷积出来的特征图中的特征。

在一个实施例中，所述特征提取层还包括BN层，

其中，所述BN层设置在所述dropout层和所述池化层之间。

在一个实施例中，所述识别层的最后一层包括注意力机制的能量函数，所述能量函数用于根据本次输出结果和上次分类结果，预测当前部位图像的分类结果，所述本次输出结果是所述当前部位图像作为所述预设网络的输入时，所述识别层的倒数第二层输出的结果。

在一个实施例中，所述根据所述n个分类结果确定所述待识别物的型号包括：

在最后一个分类结果中，将型号概率最大的型号作为所述待识别物的型号。

将所述n个分类结果中的型号概率按照型号分类；

根据所述n张部位图像的预设加权值，计算分类为同一型号的型号概率的加权平均值；所述预设加权值是同一部位图像对应的每种型号的型号概率的加权值；

在各个型号的型号概率的加权平均值中，将加权平均值最大的型号作为所述待识别物的型号。

根据本公开实施例的第二方面，提供一种图像识别装置，包括：

获取模块，用于获取一组部位图像，所述一组部位图像包括n张部位图像，所述每张部位图像展示待识别物的一个预设部位；所述n是大于1的整数；

第一确定模块，用于根据所述一组部位图像和预设网络，确定n个分类结果；其中，每个分类结果包括一张部位图像对应的至少一种型号及每种型号的型号概率；所述预设网络是加入神经元丢弃概率的卷积神经网络，所述预设网络是通过部位图像样本和型号样本训练出来的；

第二确定模块，用于根据所述n个分类结果确定所述待识别物的型号。

在一个实施例中，所述特征提取层还包括BN层，

其中，所述BN层设置在所述dropout层和所述池化层之间。

在一个实施例中，所述第二确定模块包括：

处理子模块，用于在最后一个分类结果中，将型号概率最大的型号作为所述待识别物的型号。

在一个实施例中，所述第二确定模块包括：

分类子模块，用于将所述n个分类结果中的型号概率按照型号分类；

计算子模块，用于根据所述n张部位图像的预设加权值，计算分类为同一型号的型号概率的加权平均值；所述预设加权值是同一部位图像对应的每种型号的型号概率的加权值；

平均子模块，用于在各个型号的型号概率的加权平均值中，将加权平均值最大的型号作为所述待识别物的型号。

根据本公开实施例的第三方面，提供一种图像识别装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据所述n个分类结果确定所述待识别物的型号。

本公开的实施例提供的技术方案可以包括以下有益效果：在预设网络训练程中，预设网络中部位图像样本的特征会随机被丢弃，这样，加大了训练不同型号样本的部位图像样本的特征差异性，使得训练出来的预设网络更容易识别不同型号的待识别物的相似部位，因此，提高识别相似型号待识别物的准确率；与此同时，还能避免网络过拟合。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的图像识别方法的流程图。

图2是根据一示例性实施例示出的dropout层设置预设网络的位置。

图3是根据一示例性实施例示出的以VGG16为基础设计的预设网络的示意图。

图4是根据一示例性实施例示出的BN层设置在预设网络的位置。

图5是根据一示例性实施例示出的图像识别方法的流程图。

图6是根据一示例性实施例示出的图像识别方法的流程图。

图7是根据一示例性实施例示出的展示图像。

图8是根据一示例性实施例示出的单独图像。

图9是根据一示例性实施例示出的部位图像。

图10是根据一示例性实施例示出的图像识别装置的框图。

图11是根据一示例性实施例示出的图像识别装置的框图。

图12是根据一示例性实施例示出的图像识别装置的框图。

图13是根据一示例性实施例示出的图像识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中，由于同一系车的内饰都很相似，同一系车不同车型的内饰很难识别出差异性特征，这样，车型也就无法识别到具体哪个车型，因此，识别效率差，用户体验低。

图1是根据一示例性实施例示出的一种图像识别方法的流程图，如图1所示，图像识别方法用于图像识别装置中，该装置应用于服务器，该方法可以包括以下步骤101-103：

在步骤101中，获取一组部位图像。

每张部位图像展示待识别物的一个预设部位；n是大于1的整数。预设部位可以是待识别物的部件，待识别物可以是具有多种型号且外形相似的设备，例如待识别物是一款车，预设部位是该车的内饰，例如车座、方向盘、挡风玻璃、仪表盘等，待识别物还可以是空调扇，预设部位是空调扇的按钮、空调的扇叶等、空调扇的滚轮等。

在步骤102中，根据一组部位图像和预设网络，确定n个分类结果。

这里，其中，每个分类结果包括一张部位图像对应的至少一种型号及每种型号的型号概率；预设网络是加入神经元丢弃概率的卷积神经网络，预设网络是通过部位图像样本和型号样本训练出来的。

本实施例中，神经元丢弃概率是随机丢弃由预设网络的特征层的某一层提取出的预设部位的特征图中的特征的概率，丢弃的特征将不作为下一层的输入。

在步骤103中，根据n个分类结果确定待识别物的型号。

其中，待识别物的型号是型号样本中的一个。

在一个实施例中，如图2预设网络包括特征提取层和识别层；特征提取层包括卷积层、dropout层和池化层，每个dropout层分别设置在相应的卷积层和相应的池化层之间，dropout层用于随机丢弃卷积层卷积出来的特征图中的特征。

本实施例中，卷积层、dropout层和池化层三者都不止一层，特征提取层并不是一次提取出部位图像的特征的，它是多次提取得到的，因此，特征提取层包括多层深度，每一层深度都至少包括卷积层、dropout层和池化层。其中，卷积层和池化层之间设置有dropout层，每一层深度的卷积层包括多层子卷积层。特征提取层还可以包括激活层，激活层用于增加特征图的非线性。特征提取层可以是快速区域卷积神经网络的特征提取层训练得到的。

其中，如图3所示，预设神经网络可以是VGG16为基础设计的，其中,预设神经网络包括8层深度，前5层深度构成了上述特征提取层，第6层深度是第一层识别层，第7层深度是第二层识别层，第8层深度是第三层是识别层。

在一个实施例中，如图4所示，特征提取层还包括批规范化(BatchNormalization，BN)层，其中，BN层设置在dropout层和池化层之间。

这里，增加BN层能够提高预设网络的收敛速度，大大减少训练时间。

在一个实施例中，识别层的最后一层包括注意力机制的能量函数，能量函数用于根据本次输出结果和上次分类结果，预测当前部位图像的分类结果，本次输出结果是当前部位图像作为预设网络的输入时，识别层的倒数第二层输出的结果。

对于第i张预设部位图，i是正整数，通过特征提取层提取第i张部位图像的特征图；通过识别层为特征图进行分类，得到第i张部位图像对应的第i个分类结果。在识别层中最后一层中，将第i-1个分类结果、识别层的倒数第二层的输出结果输入能量函数，得到第i个分类结果；第i个分类结果包括第i个部位图像所对应的至少一种型号及每种型号的型号概率。值得说明的是，由于第1个分类结果是没有前一次的输出结果，因此，可以预设一个第0个分类结果，例如第0个分类结果包括训练物的所有型号，且每种型号的型号概率相同，型号概率加起来为1。

这里，能量函数为r_t＝tan(σ(I)+γ(r_t-1))，其中，σ和γ是注意力机制的学习参数。

在一个实施例中，如图5所示，图1中步骤103，即根据n个分类结果确定待识别物的型号，可以包括：

在步骤1031中，在最后一个分类结果中，将型号概率最大的型号作为待识别物的型号。

这里，最后一个分类结果是第n个分类结果。

在一个实施例中，如图6所示，图1中步骤103，即根据n个分类结果确定待识别物的型号，可以包括：

在步骤1032中，将n个分类结果中的型号概率按照型号分类。

在步骤1033中，根据n张部位图像的预设加权值，计算分类为同一型号的型号概率的加权平均值。

预设加权值是同一部位图像对应的每种型号的型号概率的加权值。

在步骤1034中，在各个型号的型号概率的加权平均值中，将加权平均值最大的型号作为待识别物的型号。

假设预设部位图像有3张，第一张预设部位图像的输出结果包括A类型及其型号概率a1、B类型及其型号概率b1和C类型及其型号概率c1；第二张预设部位图像的输出结果包括B类型及其型号概率b2、C类型及其型号概率c2和D类型及其型号概率d2；第三张预设部位图像的输出结果包括A类型及其型号概率a3、C类型及其型号概率c3、E类型及其型号概率e3、F类型及其型号概率f3。第一张部位图像的预设加权值是w1，第二张预设部位图像的预设加权值是w2，第三张预设部位的预设加权值是w3。

A型号的型号概率是a1、a3；B型号的型号概率b1、b2；C型号的型号概率是c1和c2和c3；D型号的型号概率是d2和d3；E型号的型号概率是e3；F型号的型号概率是f3。

A型号的型号概率的加权平均值是(a1*w1+a3*w3)/3；

B型号的型号概率的加权平均值是(b1*w1+b2*w2)/3；

C型号的型号概率的加权平均值是(c1*w1+c2*w2+c3*w3)/3；

D型号的型号概率的加权平均值是(d2*w2+d3*w3)/3；

E型号的型号概率的加权平均值是e3*w3/3；

F型号的型号概率的加权平均值是f3*w3/3。

在一个实施例中，图1中的步骤101，即获取一组部位图像，可以包括：

获取展示待识别物的展示图像；从展示图像中，裁剪出n张单独图像；将n张单独图像调整到指定像素和指定尺寸；将调整后的n张单独图像作为一组部位图像的n张部位图像。指定像素和指定尺寸是预设网络要求的。

本实施例中，n张单独图像的每一张都展示一个不同的预设部位，指定像素和指定尺寸都是预设神经网络要求的。这里，每张部位图像是按照其显示的预设部位的预设顺序进行排序的。

示例的，图7是一张展示图图像，其展示了一辆待识别车，为了对该待识别车进行分类，需要裁剪下车身的预设部位的单独图像，图8为展示方向盘的单独图像、图9为展示方向盘的部位图像。

值得说明的是，本实施例中的一组图像还可以通过以下方式获取：对待识别物的每个预设部位进行拍照，得到预设部位的单独图像；将单独图像调整到指定尺寸和指定像素，调整后的单独图像即为部位图像。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图10是根据一示例性实施例示出的一种图像识别装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图10所示，该图像识别装置包括：

获取模块201，用于获取一组部位图像，所述一组部位图像包括n张部位图像，所述每张部位图像展示待识别物的一个预设部位；所述n是大于1的整数。

第一确定模块202，用于根据所述一组部位图像和预设网络，确定n个分类结果；其中，每个分类结果包括一张部位图像对应的至少一种型号及每种型号的型号概率；所述预设网络是加入神经元丢弃概率的卷积神经网络，所述预设网络是通过部位图像样本和型号样本训练出来的。

第二确定模块203，用于根据所述n个分类结果确定所述待识别物的型号。

在一个实施例中，所述特征提取层还包括BN层，

其中，所述BN层设置在所述dropout层和所述池化层之间。

在一个实施例中，如图11所示，所述第二确定模块203包括：

处理子模块2031，用于在最后一个分类结果中，将型号概率最大的型号作为所述待识别物的型号。

在一个实施例中，如图12所示，所述第二确定模块203包括：

分类子模块2032，用于将所述n个分类结果中的型号概率按照型号分类；

计算子模块2033，用于根据所述n张部位图像的预设加权值，计算分类为同一型号的型号概率的加权平均值；所述预设加权值是同一部位图像对应的每种型号的型号概率的加权值；

平均子模块2034，用于在各个型号的型号概率的加权平均值中，将加权平均值最大的型号作为所述待识别物的型号。

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

根据所述n个分类结果确定所述待识别物的型号。

上述处理器还可被配置为：

所述预设网络包括特征提取层和识别层；所述特征提取层包括卷积层、dropout层和池化层；

所述特征提取层还包括BN层，

其中，所述BN层设置在所述dropout层和所述池化层之间。

所述识别层的最后一层包括注意力机制的能量函数，所述能量函数用于根据本次输出结果和上次分类结果，预测当前部位图像的分类结果，所述本次输出结果是所述当前部位图像作为所述预设网络的输入时，所述识别层的倒数第二层输出的结果。

所述根据所述n个分类结果确定所述待识别物的型号包括：

将所述n个分类结果中的型号概率按照型号分类；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图13是根据一示例性实施例示出的一种用于图像识别装置的框图。例如，装置1900可以被提供为一服务器。装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置1900的处理器执行时，使得装置1900能够执行上述图像识别方法，所述方法包括：

根据所述n个分类结果确定所述待识别物的型号。

所述特征提取层还包括BN层，

其中，所述BN层设置在所述dropout层和所述池化层之间。

所述根据所述n个分类结果确定所述待识别物的型号包括：

将所述n个分类结果中的型号概率按照型号分类；

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别方法，其特征在于，包括：

获取一组部位图像，所述一组部位图像包括n张部位图像，每张部位图像展示待识别物的一个预设部位；所述n是大于1的整数；

根据所述n个分类结果确定所述待识别物的型号，

其中所述预设网络包括特征提取层和识别层，

所述特征提取层包括卷积层、dropout层和池化层，所述dropout层设置在所述卷积层和所述池化层之间，所述dropout层用于随机丢弃所述卷积层卷积出来的特征图中的特征；

所述识别层的最后一层包括注意力机制的能量函数，所述能量函数用于根据本次输出结果和上次分类结果，预测当前部位图像的分类结果，所述本次输出结果是所述当前部位图像作为所述预设网络的输入时，所述识别层的倒数第二层输出的结果，

所述能量函数为r_t=tan(σ(I)+γ(r_t-1))，其中，σ和γ是注意力机制的学习参数。

2.根据权利要求1所述的方法，其特征在于，所述特征提取层还包括批规范化BN层，

其中，所述BN层设置在所述dropout层和所述池化层之间。

3.根据权利要求1所述的方法，其特征在于，所述根据所述n个分类结果确定所述待识别物的型号包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述n个分类结果确定所述待识别物的型号包括：

将所述n个分类结果中的型号概率按照型号分类；

5.一种图像识别装置，其特征在于，包括：

获取模块，用于获取一组部位图像，所述一组部位图像包括n张部位图像，每张部位图像展示待识别物的一个预设部位；所述n是大于1的整数；

第二确定模块，用于根据所述n个分类结果确定所述待识别物的型号，

其中所述预设网络包括特征提取层和识别层，

6.根据权利要求5所述的装置，其特征在于，所述特征提取层还包括BN层，

其中，所述BN层设置在所述dropout层和所述池化层之间。

7.根据权利要求5所述的装置，其特征在于，所述第二确定模块包括：

8.根据权利要求5所述的装置，其特征在于，所述第二确定模块包括：

9.一种图像识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据所述n个分类结果确定所述待识别物的型号，

其中所述预设网络包括特征提取层和识别层，

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4任一项所述方法的步骤。