CN112668608A

CN112668608A - 一种图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN112668608A
Application number: CN202011402760.7A
Authority: CN
Inventors: 申世伟
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-04-16
Anticipated expiration: 2040-12-04
Also published as: CN112668608B

Abstract

本公开关于一种图像识别方法、装置、电子设备及存储介质，该方法包括：获取预先训练好的图像识别模型，所述图像识别模型包括卷积层、特征整合层和全连接层；获取待识别图像，确定与所述待识别图像对应的像素值数组；通过所述卷积层对所述像素值数组进行卷积处理得到与所述待识别图像对应的特征图；通过所述特征整合层对所述特征图中的各特征点进行特征整合，生成具有交互关系的特征序列；将所述具有交互关系的特征序列输入到所述图像识别模型的全连接层，通过所述全连接层对所述具有交互关系的特征序列进行处理，基于处理结果确定所述待识别图像的目标类别。本公开能够提高图像识别的准确率和精度。

Description

一种图像识别方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种图像识别方法、装置、电子设备及存储介质。

背景技术

图像识别是指对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是人工智能的一个重要领域。图像识别技术是以图像的主要特征为基础的，每个图像都有其自身的特征，由此可见对待识别图像的特征提取是图像识别过程中的一个重要步骤。

相关技术中，在采用深度学习网络模型进行图像识别时，可通过深度学习网络模型的各层对待识别图像进行识别，不断扩大每层节点在图像中的感受区域，然而每个节点能够感受到的图像区域依旧是有限的，从而使得每个节点只能从图像中获取有限的图像特征信息，进而导致基于每个节点获取的图像特征信息进行图像识别的识别结果不准确；因此需要提出一种能够提高图像识别准确率的方法。

发明内容

本公开提供一种图像识别方法、装置、电子设备及存储介质，以至少解决相关技术中存在的图像识别不准确的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图像识别方法，包括：

获取预先训练好的图像识别模型，所述图像识别模型包括卷积层、特征整合层和全连接层；

获取待识别图像，确定与所述待识别图像对应的像素值数组；

将所述像素值数组输入到所述图像识别模型的卷积层，通过所述卷积层对所述像素值数组进行卷积处理得到与所述待识别图像对应的特征图；

将所述特征图输入到所述图像识别模型的特征整合层，通过所述特征整合层对所述特征图中的各特征点进行特征整合，生成具有交互关系的特征序列；

将所述具有交互关系的特征序列输入到所述图像识别模型的全连接层，通过所述全连接层对所述具有交互关系的特征序列进行处理，基于处理结果确定所述待识别图像的目标类别。

在一示例性实施例中，所述卷积层中包括第一数量的卷积核；

所述通过所述卷积层对所述像素值数组进行卷积处理得到与所述待识别图像对应的特征图包括：

采用每个卷积核分别与所述像素值数组进行卷积操作，得到层级深度为第一数量的特征图。

在一示例性实施例中，所述特征整合层包括词向量序列重构层以及注意力交互层；

所述通过所述特征整合层对所述特征图中的各特征点进行特征整合，生成具有交互关系的特征序列包括：

将所述特征图输入到所述词向量序列重构层，通过所述词向量序列重构层对所述特征图中的各特征点进行处理，生成具有空间位置信息的词向量序列；

将所述具有空间位置信息的词向量序列输入到所述注意力交互层，生成所述具有交互关系的特征序列。

在一示例性实施例中，所述通过所述词向量序列重构层对所述特征图中的各特征点进行处理，生成具有空间位置信息的词向量序列包括：

生成所述特征图中各特征点的词向量；

确定所述特征图中各特征点之间的空间位置关系信息；

基于所述特征图中各特征点之间的空间位置关系信息对各特征点的词向量进行拼接，生成所述具有空间位置信息的词向量序列。

在一示例性实施例中，所述生成所述特征图中各特征点的词向量包括：

遍历所述特征图中的各特征点；

对于每个特征点，获取每个特征点在各层级的特征值，得到与每个特征点对应的所述第一数量的特征值；

基于每个特征点对应的所述第一数量的特征值，生成与每个特征点对应的词向量。

在一示例性实施例中，所述确定所述特征图中各特征点之间的空间位置关系信息包括：

确定所述特征图的尺寸；

基于所述特征图的尺寸确定对所述特征图中各特征点的采样策略，所述采样策略中包括对多个待采样点的采样顺序以及所述多个采样点的空间位置信息；

以所述特征图的左上角的特征点为采样起点，基于所述多个采样点的采样顺序以及所述多个采样点的空间位置信息对所述特征图中的各特征点进行采样，得到特征点采样序列；

基于各特征点在所述特征点采样序列中的排序位置信息确定各特征点之间的空间位置关系信息。

在一示例性实施例中，所述方法还包括对所述图像识别模型进行训练的步骤，包括：

获取预设深度学习模型，所述预设深度学习模型包括卷积层、特征整合层和全连接层；

获取样本图像集合，所述样本图像集合中包括多个样本图像以及与每个样本图像对应的原始类别标签；

对于每个样本图像：

确定与所述样本图像对应的像素值数组；

将所述样本图像对应的像素值数组输入到所述预设深度学习模型的卷积层，通过所述卷积层对所述样本图像对应的像素值数组进行卷积处理得到与所述样本图像对应的特征图；

将所述样本图像对应的特征图输入到所述预设深度学习模型的特征整合层，通过所述特征整合层对所述特征图中的各特征点进行特征整合，生成具有交互关系的特征序列；

将所述具有交互关系的特征序列输入到所述预设深度学习模型的全连接层，通过所述全连接层对所述具有交互关系的特征序列进行处理，基于处理结果确定所述样本图像的预测类别；

基于所述样本图像的预测类别标签以及所述样本图像的原始类别标签，对所述预设深度学习模型的模型参数进行调整；

当基于所述样本图像集合中的多个样本图像以及相应的原始类别标签完成对所述预设深度学习模型的训练时，确定训练完成时的预设深度模型为所述图像识别模型。

根据本公开实施例的第二方面，提供一种图像识别装置，包括：

图像识别模型获取单元，被配置为执行获取预先训练好的图像识别模型，所述图像识别模型包括卷积层、特征整合层和全连接层；

待识别图像获取单元，被配置为执行获取待识别图像，确定与所述待识别图像对应的像素值数组；

第一特征图生成单元，被配置为执行将所述像素值数组输入到所述图像识别模型的卷积层，通过所述卷积层对所述像素值数组进行卷积处理得到与所述待识别图像对应的特征图；

第一特征序列生成单元，被配置为执行将所述特征图输入到所述图像识别模型的特征整合层，通过所述特征整合层对所述特征图中的各特征点进行特征整合，生成具有交互关系的特征序列；

目标类别识别单元，被配置为执行将所述具有交互关系的特征序列输入到所述图像识别模型的全连接层，通过所述全连接层对所述具有交互关系的特征序列进行处理，基于处理结果确定所述待识别图像的目标类别。

所述第一特征图生成单元还用于采用每个卷积核分别与所述像素值数组进行卷积操作，得到层级深度为第一数量的特征图。

所述第一特征序列生成单元包括：

词向量序列生成单元，被配置为执行将所述特征图输入到所述词向量序列重构层，通过所述词向量序列重构层对所述特征图中的各特征点进行处理，生成具有空间位置信息的词向量序列；

交互特征序列生成单元，被配置为执行将所述具有空间位置信息的词向量序列输入到所述注意力交互层，生成所述具有交互关系的特征序列。

在一示例性实施例中，所述词向量序列生成单元包括：

词向量生成单元，被配置为执行生成所述特征图中各特征点的词向量；

空间位置关系信息确定单元，被配置为执行确定所述特征图中各特征点之间的空间位置关系信息；

词向量拼接单元，被配置为执行基于所述特征图中各特征点之间的空间位置关系信息对各特征点的词向量进行拼接，生成所述具有空间位置信息的词向量序列。

在一示例性实施例中，所述词向量生成单元包括：

特征点遍历单元，被配置为执行遍历所述特征图中的各特征点；

特征值获取单元，被配置为执行对于每个特征点，获取每个特征点在各层级的特征值，得到与每个特征点对应的所述第一数量的特征值；

第一生成单元，被配置为执行基于每个特征点对应的所述第一数量的特征值，生成与每个特征点对应的词向量。

在一示例性实施例中，所述空间位置关系信息确定单元包括：

特征图尺寸确定单元，被配置为执行确定所述特征图的尺寸；

采样策略确定单元，被配置为执行基于所述特征图的尺寸确定对所述特征图中各特征点的采样策略，所述采样策略中包括对多个待采样点的采样顺序以及所述多个采样点的空间位置信息；

特征点采样单元，被配置为执行以所述特征图的左上角的特征点为采样起点，基于所述多个采样点的采样顺序以及所述多个采样点的空间位置信息对所述特征图中的各特征点进行采样，得到特征点采样序列；

关系信息确定单元，被配置为执行基于各特征点在所述特征点采样序列中的排序位置信息确定各特征点之间的空间位置关系信息。

在一示例性实施例中，所述装置还包括模型训练单元，包括：

预设深度学习模型获取单元，被配置为执行获取预设深度学习模型，所述预设深度学习模型包括卷积层、特征整合层和全连接层；

样本图像集合获取单元，被配置为执行获取样本图像集合，所述样本图像集合中包括多个样本图像以及与每个样本图像对应的原始类别标签；

第一确定单元，被配置为执行对于每个样本图像，确定与所述样本图像对应的像素值数组；

第二特征图生成单元，被配置为执行将所述样本图像对应的像素值数组输入到所述预设深度学习模型的卷积层，通过所述卷积层对所述样本图像对应的像素值数组进行卷积处理得到与所述样本图像对应的特征图；

第二特征序列生成单元，被配置为执行将所述样本图像对应的特征图输入到所述预设深度学习模型的特征整合层，通过所述特征整合层对所述特征图中的各特征点进行特征整合，生成具有交互关系的特征序列；

预测类别确定单元，被配置为执行将所述具有交互关系的特征序列输入到所述预设深度学习模型的全连接层，通过所述全连接层对所述具有交互关系的特征序列进行处理，基于处理结果确定所述样本图像的预测类别；

参数调整单元，被配置为执行基于所述样本图像的预测类别标签以及所述样本图像的原始类别标签，对所述预设深度学习模型的模型参数进行调整；

图像识别模型确定单元，被配置为执行当基于所述样本图像集合中的多个样本图像以及相应的原始类别标签完成对所述预设深度学习模型的训练时，确定训练完成时的预设深度模型为所述图像识别模型。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上所述的图像识别方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如上所述的图像识别方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行上述图像识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开采用包括卷积层、特征整合层和全连接层的已训练图像识别模型对待识别图像的类别进行识别，包括确定与待识别图像对应的像素值数组，通过卷积层对像素值数组进行卷积处理得到与待识别图像对应的特征图；通过特征整合层对特征图中的各特征点进行特征整合，生成具有交互关系的特征序列，这里对特征图中的各特征点进行特征整合，能够提取出各特征点之间的交互关系，由于特征图中的每个特征点均可对应到待识别图像中的一个图像区域，所以提取出各特征点之间的交互关系能够从全局上整合待识别图像的上下文关系，从而生成的具有交互关系的特征序列充分体现了各区域图像之间的联系，能够实现对待识别图像的精准刻画；将具有交互关系的特征序列输入到全连接层，从而确定待识别图像的目标类别。因此，采用本公开提供的新增了特征整合层的图像识别模型进行图像识别能够提高识别的准确率和精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的实施环境示意图。

图2是根据一示例性实施例示出的一种图像识别方法流程图。

图3是根据一示例性实施例示出的一种具有交互关系的特征序列生成方法流程图。

图4是根据一示例性实施例示出的一种具有空间位置信息的词向量序列生成方法流程图。

图5是根据一示例性实施例示出的特征图中每个特征点的词向量的生成方法流程图。

图6是根据一示例性实施例示出的各特征点之间的空间位置关系信息的生成方法流程图。

图7是根据一示例性实施例示出的Transformer结构示意图。

图8是根据一示例性实施例示出的编码器、译码器内部结构图。

图9是根据一示例性实施例示出的一种图像识别模型训练方法流程图。

图10是根据一示例性实施例示出的特征图示意图。

图11是根据一示例性实施例示出的一种图像识别装置示意图。

图12是根据一示例性实施例示出的一种电子设备结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，其示出了本公开实施例提供的实施环境示意图，该实施环境可包括：第一终端110和第二终端120，所述第一终端110和所述第二终端120可通过网络进行数据通信。

具体地，第一终端110向第二终端120发送图像识别请求，该图像识别请求中可包括待识别的图像；第二终端接收到图像识别请求时，采用图像识别模型对图像识别请求中的待识别图像进行识别，得到对待识别图像的识别结果，例如待识别图像的目标类别，并将识别结果返回给第一终端110。另外，第二终端120还可以根据获取的图像样本数据对预设的深度学习模型进行训练，以生成图像识别模型。

第一终端110具体可以为提供给用户发送图像识别请求的用户终端，其可以基于浏览器/服务器模式(Browser/Server，B/S)或客户端/服务器模式(Client/Server，C/S)与第二终端120进行通信。第一终端110可以包括：智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本公开实施例中的第一终端110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

第二终端120具体可以为对图像进行识别的终端，例如图像识别服务器，其与第一终端110可以通过有线或者无线建立通信连接，第二终端120可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群，其中服务器可以是云端服务器。

为了解决相关技术中采用深度学习模型进行图像识别时存在的识别结果不准确的问题，本公开实施例提供了一种图像识别方法，该方法的执行主体可以为上述图1中的第二终端，请参阅图2，该方法具体可包括：

S210.获取预先训练好的图像识别模型，所述图像识别模型包括卷积层、特征整合层和全连接层。

本公开实施例中所生成的图像识别模型可以是在相关卷积神经网络的基础上进行改进得到的，具体可以是在卷积层和全连接层之间添加了特征整合层，以通过特征整合层对卷积层的输出信息进行特征整合得到整合信息，并将整合信息输入到全连接层，通过全连接层得到图像识别结果。

S220.获取待识别图像，确定与所述待识别图像对应的像素值数组。

待识别图像可以为灰度图像，也可以为彩色图像；当待识别图像为灰度图像时，其像素值数组为一个二维数组，该二维数组中的每个元素为相应灰度图像在相应像素点的像素值；当待识别图像为彩色图像时，其像素值数组为一个三维数组，一幅彩色图像可以看成是M×N×3大小的彩色像素的数组，其中每个彩色像素点都是在特定空间位置的彩色图像所对应的红、绿、蓝三个分量。

S230.将所述像素值数组输入到所述图像识别模型的卷积层，通过所述卷积层对所述像素值数组进行卷积处理得到与所述待识别图像对应的特征图。

在卷积层中可包括第一数量的卷积核，每个卷积核可对应一个信息通道，例如可以有提取轮廓、提取纹理、提取颜色等的信息通道，第一数量具体可以为2ⁿ(n≥0)。

对于当前输入的待识别图像，采用每个卷积核分别与当前待识别图像的像素值数组进行卷积操作，得到层级深度为第一数量的特征图，即卷积层中包含的卷积核的数量等于特征图的层级深度；由于通过不同的卷积核对同一像素值矩阵进行卷积可得到不同的特征，从而每进行一次卷积操作所得到的特征可对应特征图中的一个层级。

每一个卷积核可以被看做特征识别器，通过将不同的卷积核与待识别图像的像素值数组进行卷积操作，能够得到待识别图像中所包含的不同维度的特征，可实现根据需要对待识别图像中的特征进行提取，从而可以为后续基于待识别图像所包含的特征进行图像识别提供便利。

S240.将所述特征图输入到所述图像识别模型的特征整合层，通过所述特征整合层对所述特征图中的各特征点进行特征整合，生成具有交互关系的特征序列。

本公开实施例中特征整合层还可具体包括词向量序列重构层以及注意力交互层，具体请参阅图3，其示出了一种具有交互关系的特征序列生成方法，该方法可包括：

S310.将所述特征图输入到所述词向量序列重构层，通过所述词向量序列重构层对所述特征图中的各特征点进行处理，生成具有空间位置信息的词向量序列。

S320.将所述具有空间位置信息的词向量序列输入到所述注意力交互层，生成所述具有交互关系的特征序列。

其中词向量序列重构层能够基于各特征点的空间位置信息，生成词向量序列，注意力交互层能够识别出词向量序列中各词向量之间的交互关系，这里可将特征图中的各特征点看成是文本中的词，从而上述识别出各特征点的词向量之间的交互关系相当于识别出文本中各词的向量之间的上下文关系。由于特征图中的每个特征点均可对应到待识别图像中的一个图像区域，从而通过词向量序列重构层以及注意力交互层所生成的与特征图对应的特征序列中既包含了待识别图像各图像区域的特征信息，又包含了各图像区域之间的空间位置信息，从而能够进一步对待识别图像的特征进行刻画，提高了特征序列对待识别图像刻画的准确性。

其中，在通过词向量序列重构层生成具有空间位置信息的词向量序列时，需要在生成的各特征点的词向量的基础上附加空间位置信息，具体请参阅图4，其示出了一种具有空间位置信息的词向量序列生成方法，该方法可包括：

S410.生成所述特征图中各特征点的词向量。

S420.确定所述特征图中各特征点之间的空间位置关系信息。

S430.基于所述特征图中各特征点之间的空间位置关系信息对各特征点的词向量进行拼接，生成所述具有空间位置信息的词向量序列。

由于图像上相邻的区域一般具有相似的关系，词向量序列是由特征图中各特征点的词向量生成的，从而在生成词向量序列时将空间上相近的特征点对应的词向量拼接在一起，能够体现特征点之间的相似关系，并且可以为后续抽取各特征点的词向量之间的交互关系提供便利。

根据本实施例上述内容可知，特征图的层级深度可以为第一数量，当第一数量大于1时，卷积核的数量也大于1，由于特征图的不同层级上的特征值是基于不同的卷积核进行卷积得到的，从而对于特征图中的每个特征点，该特征点在不同的层级上可对应不同的特征值；对于特征图中每个特征点的词向量的生成方法可参阅图5，该方法可包括：

S510.遍历所述特征图中的各特征点。

S520.对于每个特征点，获取每个特征点在各层级的特征值，得到与每个特征点对应的所述第一数量的特征值。

S530.基于每个特征点对应的所述第一数量的特征值，生成与每个特征点对应的词向量。

对于特征图中的每个特征点，将各个层级上与其对应的特征值进行排列即可生成与该特征点对应的词向量。特征图中的每个层级均对应一个深度学习的通道，每个通道提取的信息不同，从而可确定每个特征点在各层级的特征值，生成相应的词向量。其中每个词向量的维度对应特征图的层级深度，即词向量的维度为第一数量。通过将特征图中的每个特征点在不同层级的特征值进行拼接以生成相应的词向量，可以使得每个词向量中均包含对应特征点在各个层级的特征；另外通过词向量的形式对各特征点进行特征描述能够提高特征表达的直观性和便捷性，并且基于词向量的计算方式易于操作且便于实现。对于本实施例上述的特征图中各特征点之间的空间位置关系信息的生成方法可参阅图6，具体可包括：

S610.确定所述特征图的尺寸。

S620.基于所述特征图的尺寸确定对所述特征图中各特征点的采样策略，所述采样策略中包括对多个待采样点的采样顺序以及所述多个采样点的空间位置信息。

S630.以所述特征图的左上角的特征点为采样起点，基于所述多个采样点的采样顺序以及所述多个采样点的空间位置信息对所述特征图中的各特征点进行采样，得到特征点采样序列。

S640.基于各特征点在所述特征点采样序列中的排序位置信息确定各特征点之间的空间位置关系信息。

对于特征图的尺寸，一般可采用N×N的形式来表示，对于不同的特征图尺寸会对应不同的采样策略，从而在确定了特征图的尺寸之后便可确定相应的采样策略，相应采样策略中的采样点的数量与特征图中特征点的数量相同。根据采样策略的指示可确定当前需要访问的采样点，并根据该采样点的空间位置信息找到该采样点；当对当前采样点访问完成时，再根据下一采样点的空间位置信息找到相应的采样点，以此类推，从而可得到对特征图中各特征点的采样序列。另外，根据采样策略中的采样顺序对特征图中各特征点进行采样，从特征图中可直观地表示出相应的采样轨迹，该采样轨迹即是与特征图对应的特征点采样轨迹。例如采样轨迹可以为“之”字形，即根据对特征图中各特征点的采样顺序对各特征点进行连接，所生成的采样轨迹为“之”字形。

由于采样策略中包含了对待采样特征点的空间位置信息的设置，具体地，采样策略中空间位置信息的设置是基于各特征点之间的空间距离来实现的，从而使得基于采样策略进行采样之后的各特征点之间存在相应的空间位置关系，能够提高空间位置信息确定的便利性和可实施性。

对于图3中涉及的注意力交互层具体可以通过自然语言处理中Transformer结构来实现，即在具体实施时，可采用Transformer结构来学习具有空间位置信息的词向量序列中各词向量之间的交互关系，具体的Transformer结构可参阅图7，Transformer结构由编码器部分和译码器部分构成，本公开实施例中，编码器部分可包括6个编码器Encoder，每个编码器Encoder结构相同，但并不会共享权值；译码器部分可包括6个译码器Decoder；其中每个编码器的内部结构图以及每个译码器的内部结构图可参阅图8，编码器包括自注意力层Self-Attention和前馈神经网络Feed Forward Neural Network两层结构，自注意力层Self-Attention能够帮助当前节点不仅仅只关注当前的词，还能获取到上下文的语义。每个编码器Encoder的输入首先会通过一个Self-Attention层，通过Self-Attention层帮助Encoder在编码单词的过程中查看输入序列中的其他单词，Self-Attention层的输出会被传入一个全连接的前馈神经网络Feed Forward Neural Network，每个Encoder的前馈神经网络参数个数都是相同的，但是它们的作用是独立的。

译码器包括自注意力层Self-Attention、编译码注意力层Encoder-DecoderAttention和前馈神经网络Feed Forward Neural Network，编译码注意力层Encoder-Decoder Attention能够帮助当前节点获取当前需要关注的重点内容。

在通过Transformer结构生成具有交互关系的特征序列时，Transformer结构中的每个Encoder接收上述的具有空间位置信息的词向量序列作为输入，然后将这些向量传递到Self-Attention层，Self-Attention层产生一个等量维数的向量列表，这里具体为第一数量维度的向量列表，然后进入前馈神经网络，前馈神经网络的输出也为一个第一数量维度的向量列表，然后再将前馈神经网络的输出到下一个Encoder。对于Self-Attention的计算过程，就是将每个词的词向量相互点积得到每个单词之间的相似度，这个相似度可看成是一种得分，这些得分经过softmax之后就成为每个词的权重，最后利用这个权重对所有的词向量求加权和，这样一个词中就融合其他词的含义(也就是上下文)，如果某个词V的得分高，相应权重就会更大，从而当前词对词V就更加关注。在实际实现过程中，可通过矩阵计算的方式来完成。

将最后一个Encoder的输出作为每个Decoder输入，通过每个Decoder中的各层进行处理，最终可得到具有交互关系的特征序列。

S250.将所述具有交互关系的特征序列输入到所述图像识别模型的全连接层，通过所述全连接层对所述具有交互关系的特征序列进行处理，基于处理结果确定所述待识别图像的目标类别。

本公开实施例中的全连接层可以有多层，全连接层在整个神经网络中起到分类器的作用，即起到将学习到的分布式特征表示映射到样本标记空间的作用，全连接层可基于具有交互的特征序列对待识别图像的目标类别进行确定。具体地，若图像识别模型是用于识别当前待识别图像是否属于某个特定类别时，那么全连接层的输出结果可以是一个概率值，用于表示当前待识别图像属于某个特定类别的概率，并设置相应的概率阈值，当预测得到的概率值大于等于概率阈值时，则可确定当前待识别图像属于该特定类别；当预测得到的概率值小于概率阈值时，则可确定当前待识别图像不属于该特定类别。若图像识别模型是用于从多个目标类别中确定当前待识别图像所属的类别，那么全连接层的输出结果可以是一个多维的向量，该多维向量的维度与目标类别的数量相等，且该多维向量中的每个维度的数值表示属于相应目标类别的概率，可将多维向量中最大数值所对应的目标类别确定为当前待识别图像所属的目标类别。

对于本公开实施例中的图像识别模型，可通过相应的模型训练方法进行训练得到，请参阅图9，其示出了一种图像识别模型训练方法，该方法可包括：

S910.获取预设深度学习模型，所述预设深度学习模型包括卷积层、特征整合层和全连接层。

S920.获取样本图像集合，所述样本图像集合中包括多个样本图像以及与每个样本图像对应的原始类别标签。

S930.对于每个样本图像：确定与所述样本图像对应的像素值数组。

S940.将所述样本图像对应的像素值数组输入到所述预设深度学习模型的卷积层，通过所述卷积层对所述样本图像对应的像素值数组进行卷积处理得到与所述样本图像对应的特征图。

S950.将所述样本图像对应的特征图输入到所述预设深度学习模型的特征整合层，通过所述特征整合层对所述特征图中的各特征点进行特征整合，生成具有交互关系的特征序列。

S960.将所述具有交互关系的特征序列输入到所述预设深度学习模型的全连接层，通过所述全连接层对所述具有交互关系的特征序列进行处理，基于处理结果确定所述样本图像的预测类别。

S970.基于所述样本图像的预测类别标签以及所述样本图像的原始类别标签，对所述预设深度学习模型的模型参数进行调整。

S980.当基于所述样本图像集合中的多个样本图像以及相应的原始类别标签完成对所述预设深度学习模型的训练时，确定训练完成时的预设深度模型为所述图像识别模型。

可通过数据收集来确定样本图像集合，具体可以是随机获取大量图像作为初始数据，并基于人工标注或其他已有模型获取该批图像数据的标签。对于预设深度学习模型，具体可采用resnet101或者Inception-v3等模型，基于初始数据和对应标签训练预设深度学习模型，采用样本数据训练多次，直至损失函数的值几乎不再下降，此时表明该深度学习模型收敛，可结束对该深度学习模型的训练。其中深度学习网络相关参数设置：学习率为0.001；优化器为adam；使用label-smoothing来平滑标签提升模型的泛化性，通过对标签进行平滑使得对噪音更鲁棒，学习效果更好；同时加载使用imagenet-预训练的模型参数作为初始模型参数；数据增强采取随机裁剪、左右翻转、亮度对比度等颜色空间变换，通过对数据进行增强，能够提高泛化性，学习效果更好；优化目标为常见的分类损失函数——交叉熵损失；采用tensorflow等训练框架进行训练。

对于图9所示的模型训练过程中与上述采用模型进行识别的过程中相同的实施细节，在此不再赘述。另外，在对预设深度学习模型的模型参数进行调整时，具体可采用反向传播的方法进行实现。通过在卷积神经网络模型的基础上增加特征整合层以实现模型的改进，并基于样本图像对改进后的模型进行训练，得到图像识别模型；其中特征整合层能够对卷积层的输出信息进行特征整合得到整合信息，使得训练生成的图像识别模型具备特征整合能力，能够对待识别图像中所包含的特征进行整合，进而可提高图像识别模型的识别准确性。本公开采用包括卷积层、特征整合层和全连接层的已训练图像识别模型对待识别图像的类别进行识别，包括确定与待识别图像对应的像素值数组，通过卷积层对像素值数组进行卷积处理得到与待识别图像对应的特征图；通过特征整合层对特征图中的各特征点进行特征整合，生成具有交互关系的特征序列，这里对特征图中的各特征点进行特征整合，能够提取出各特征点之间的交互关系，由于特征图中的每个特征点均可对应到待识别图像中的一个图像区域，所以提取出各特征点之间的交互关系能够从全局上整合待识别图像的上下文关系，从而生成的具有交互关系的特征序列充分体现了各区域图像之间的联系，能够实现对待识别图像的精准刻画；将具有交互关系的特征序列输入到全连接层，从而确定待识别图像的目标类别。因此，采用本公开提供的新增了特征整合层的图像识别模型进行图像识别能够提高识别的准确率和精度。

下面以一具体示例来说明本公开的具体实施过程，可包括：

1.对于当前待识别图像，通过图像识别模型的卷积层下采样后生成N×N×D的特征图，其中N×N为特征图的长和宽，此时特征图中的N×N个特征点分别代表了当前待识别图像中的一小块区域；D代表特征图的深度，此处以N＝3为例进行说明。

2.通过图像识别模型的词向量序列重构层生成具有空间位置信息的词向量序列。

将特征图中N×N个特征点看做文本中的词，生成各个特征点的词向量，根据各特征点之间的空间位置关系信息生成具有空间位置信息的词向量序列。

具体地，根据特征图中各特征点在不同层级中的特征值生成与每个特征点对应的词向量，其中每个词向量的长度为D，一共可生成3×3＝9个词向量，对这9个长度为D的词向量进行重构，便可生成词向量序列。在具体进行词向量重构时，可结合各特征点的空间位置信息来实现，例如以N＝3为例说明具有空间位置信息的词向量序列生成方法，请参阅图10，其示出了3×3的特征图，可按照图10中数值从小到大的顺序对相应特征点对应的词向量进行拼接，从而生成具备空间位置关系的词向量序列，该词向量序列可保留原始图像区域间的空间位置关系。例如，特征点1和特征点2、特征点3在图像空间上最相近，图像的相邻区域具有相似的关系，所以在生成词向量序列时，可让特征点1、特征点2和特征点3所对应的词向量靠近些。

3.通过图像识别模型中的注意力交互层生成具有交互关系的特征序列。

假设采用的是inception-v3深度学习网络，则可保留该网络的倒数第三层的平均池化层前的部分，输入图片可以得到大小为N×N(N＝3)，深度为D的特征图，然后重构采样特征图得到M×D(M＝N×N)的特征序列；再将特征序列输入到Transformer结构中学习特征序列间的相互关系，会得到经过相互关系学习后的M×D的特征序列，此时只需获取第一个节点的输出即可(该节点通过特征交互后，可以包含M×D的特征的内容)；然后连接多层全连接层，输出到对应的类别，这部分类似inception-v3网络的后半部分。

由此可知，本公开可看成是是将Transformer结构添加到了inception-v3网络的中间部分作为特征整合，因此新的网络结构的损失函数与inception-v3网络一致。

从而本公开能够基于不同图像区域间的注意力机制，增加各区域间的交互，来更充分的整合图像各区域间的信息，提升图像模型的识别性能，从而提高图像识别的准确性。

请参阅图11，其示出了一种图像识别装置，该装置可包括：

图像识别模型获取单元1110，被配置为执行获取预先训练好的图像识别模型，所述图像识别模型包括卷积层、特征整合层和全连接层；

待识别图像获取单元1120，被配置为执行获取待识别图像，确定与所述待识别图像对应的像素值数组；

第一特征图生成单元1130，被配置为执行将所述像素值数组输入到所述图像识别模型的卷积层，通过所述卷积层对所述像素值数组进行卷积处理得到与所述待识别图像对应的特征图；

第一特征序列生成单元1140，被配置为执行将所述特征图输入到所述图像识别模型的特征整合层，通过所述特征整合层对所述特征图中的各特征点进行特征整合，生成具有交互关系的特征序列；

目标类别识别单元1150，被配置为执行将所述具有交互关系的特征序列输入到所述图像识别模型的全连接层，通过所述全连接层对所述具有交互关系的特征序列进行处理，基于处理结果确定所述待识别图像的目标类别。

所述第一特征图生成单元1130还用于采用每个卷积核分别与所述像素值数组进行卷积操作，得到层级深度为第一数量的特征图。

所述第一特征序列生成单元1140包括：

在一示例性实施例中，所述词向量序列生成单元包括：

在一示例性实施例中，所述词向量生成单元包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种包括指令的存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如本实施例中的任一方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行如本实施例中的任一方法。

本实施例还提供了一种电子设备，其结构图请参见图12，该设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储媒体1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储媒体1230可以是短暂存储或持久存储。存储在存储媒体1230的程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对设备中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储媒体1230通信，在设备1200上执行存储媒体1230中的一系列指令操作。设备1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。本实施例上述的任一方法均可基于图12所示的设备进行实施。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别方法，其特征在于，包括：

2.根据权利要求1所述的图像识别方法，其特征在于，所述卷积层中包括第一数量的卷积核；

3.根据权利要求2所述的图像识别方法，其特征在于，所述特征整合层包括词向量序列重构层以及注意力交互层；

4.根据权利要求3所述的图像识别方法，其特征在于，所述通过所述词向量序列重构层对所述特征图中的各特征点进行处理，生成具有空间位置信息的词向量序列包括：

生成所述特征图中各特征点的词向量；

确定所述特征图中各特征点之间的空间位置关系信息；

5.根据权利要求4所述的图像识别方法，其特征在于，所述生成所述特征图中各特征点的词向量包括：

遍历所述特征图中的各特征点；

6.根据权利要求4所述的图像识别方法，其特征在于，所述确定所述特征图中各特征点之间的空间位置关系信息包括：

确定所述特征图的尺寸；

7.根据权利要求1所述的图像识别方法，其特征在于，所述方法还包括对所述图像识别模型进行训练的步骤，包括：

对于每个样本图像：

确定与所述样本图像对应的像素值数组；

8.一种图像识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的图像识别方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的图像识别方法。