CN108694398B

CN108694398B - 一种图像分析方法及装置

Info

Publication number: CN108694398B
Application number: CN201710221223.4A
Authority: CN
Inventors: 程战战; 郑钢; 钮毅; 罗兵华
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-04-06
Filing date: 2017-04-06
Publication date: 2020-10-30
Anticipated expiration: 2037-04-06
Also published as: CN108694398A

Abstract

本发明实施例提供了一种图像分析方法及装置，方法包括：从目标图像中提取至少一个目标图像特征；获得预先构建的注意力模型当前对各个目标图像特征的关注度；根据所获得的各个目标图像特征，以及各个目标图像特征对应的关注度，确定注意力模型所关注目标的识别结果，该目标由至少一个目标图像特征构成；确定各个目标图像特征所对应目标区域的第一中心位置坐标；根据各个目标图像特征对应的关注度和各个第一中心位置坐标，计算目标在目标图像中的第二中心位置坐标；将第二中心位置坐标作为具有该识别结果的目标的定位结果。应用本发明实施例，可以对所识别的目标进行快速定位，提高了分析图像的速度。

Description

一种图像分析方法及装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像分析方法及装置。

背景技术

随着技术的发展，常常需要对图像进行各种各样的分析。例如，需要对图像中的内容进行识别，并对所识别的内容进行定位等等。

现有技术中，常常采用传统分类器，例如常常利用SVM(Support Vector Machine，支持向量机)算法，对大量的图像样本进行训练，从而构建得到SVM分类器。然后基于所构建的SVM分类器，对待分析图像的图像特征进行分类，进而对待分析图像中的内容进行识别。当对图像中的某一目标识别，并得到该目标的图像特征对应的分类后，再对待分析图像进行分割、生成候选矩形框、提取候选矩形框中的图像特征，和对提取到的候选矩形框中的图像特征进行分类等操作，然后再根据各个矩形框中的图像特征所对应的分类和所识别到的目标的图像特征所对应的分类的匹配关系，建立各个候选矩形框与已识别目标的对应关系，从而实现对已识别的目标进行定位。其中，该目标属于图像内容的一部分。

但是该种方法，需要在对该目标进行识别后，才能分析识别后的目标在图像中的定位，使得该种分析方式速度较慢，不能满足用户对图像进行快速分析的需求。

发明内容

本发明实施例的目的在于提供一种图像分析方法及装置，以提高分析图像的速度。

第一方面，本发明实施例提供了一种图像分析方法，所述方法可以包括：

从目标图像中提取至少一个目标图像特征；

获得预先构建的注意力模型当前对各个目标图像特征的关注度；

根据所获得的各个目标图像特征，以及各个目标图像特征对应的关注度，确定所述注意力模型所关注目标的识别结果，其中，所述目标由至少一个目标图像特征构成；

确定所述各个目标图像特征所对应目标区域的第一中心位置坐标，其中，任一目标图像特征所对应目标区域为所述目标图像中，能够提取到该目标图像特征的图像区域；

根据各个目标图像特征对应的关注度和各个第一中心位置坐标，计算所述目标在所述目标图像中的第二中心位置坐标；

将所述第二中心位置坐标作为具有所述识别结果的所述目标的定位结果。

可选地，所述从目标图像中提取至少一个目标图像特征的步骤，可以包括：

利用卷积神经网络算法对所述目标图像进行卷积，获得至少一个目标图像特征。

可选地，所述利用卷积神经网络算法对所述目标图像进行卷积，获得至少一个目标图像特征的步骤，可以包括：

利用卷积神经网络算法对所述目标图像进行一层卷积，获得至少一个目标图像特征；

相应地，所述确定所述各个目标图像特征所对应目标区域的第一中心位置坐标的步骤，包括：

确定所述各个目标图像特征所对应目标区域；

计算所述各个目标图像特征所对应目标区域的第一中心位置坐标；

其中，确定任一目标图像特征所对应的目标区域所利用的公式可以为：

X_min＝(X-1)*stride_w+1-pad_w

X_max＝(X-1)*stride_w-pad_w+kernel_w

Y_min＝(Y-1)*stride_h+1-pad_h

Y_max＝(Y-1)*stride_h-pad_h+kernel_h

其中，所述X表示卷积得到的目标图像特征的中心位置的横坐标，所述Y表示卷积得到的该目标图像特征的中心位置的纵坐标，所述X_min表示该目标图像特征所对应目标区域的最小横坐标，所述X_max表示该目标图像特征所对应目标区域的最大横坐标，所述Y_min表示该目标图像特征所对应目标区域的最小纵坐标，所述Y_max表示该目标图像特征所对应目标区域的最大纵坐标，所述stride_w表示对所述目标图像进行卷积时的横向步幅长度，所述stride_h表示对所述目标图像进行卷积时的纵向步幅长度，所述pad_w表示对所述目标图像进行卷积时横向增加的像素数，pad_h表示对所述目标图像进行卷积时纵向增加的像素数，所述kernel_w表示对所述目标图像进行卷积时所利用卷积核的宽，所述kernel_h表示所述卷积核的高。

可选地，所述根据各个目标图像特征所对应的关注度和各个第一中心位置坐标，计算所述目标在所述目标图像中的第二中心位置坐标的步骤，可以包括：

针对每个第一中心位置坐标，利用相应目标图像特征对应的关注度对该第一中心位置坐标进行加权计算，得到位置加权值；

对所获得的各个位置加权值进行求和，得到第一和值；

将所述第一和值作为所述目标在所述目标图像中的第二中心位置坐标。

可选地，根据所获得的各个目标图像特征，以及各个目标图像特征对应的关注度，确定所述注意力模型所关注目标的识别结果的步骤，可以包括：

根据所获得的各个目标图像特征，以及各个目标图像特征对应的关注度，利用预先构建的循环神经网络，确定所述注意力模型所关注目标的识别结果。

可选地，所述获得预先构建的注意力模型当前对各个目标图像特征的关注度的计算公式可以为：

其中，所述a_t,j表示在所述注意模型在本次t关注所述目标时，目标图像特征h_j所得到的关注度，其中，关注度小于等于1；所述

为预设参数向量，所述T表示所述预设参数向量的维度，且所述预设参数的维度与所提取得到的目标图像特征的数目相等；所述W_a表示第一预设参数矩阵，所述U_a表示第二预设参数矩阵，所述s_t-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值。

可选地，所述根据所获得的各个图像特征，以及各个目标图像特征对应的关注度，利用预先构建的循环神经网络，确定所述注意力模型所关注目标的识别结果的步骤，可以包括：

针对每个目标图像特征，利用相应目标图像特征对应的关注度对该目标图像特征进行加权计算，得到图像特征加权值；

对所获得的各个图像特征加权值进行求和，得到第二和值；

将所述第二和值输入至预先构建的循环神经网络中，输出得到所述注意力模型当前所关注目标所对应的目标向量；

根据预设第一对应关系，获得所述目标向量对应的目标关键字，并将所述目标关键字作为所述目标的识别结果，其中，所述第一对应关系记录有预设向量和预设关键字的对应关系。

可选地，所述循环神经网络可以通过以下公式表征：

s_t＝Recurrent(y_t-1,g_t,s_t-1)

y_t＝Softmax(Ws_t)

其中，所述s_t表示所述循环神经网络在在所述注意模型本次t关注所述目标时所对应的隐藏值，所述s_t-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值；所述g_t表示所述第二和值；所述y_t表示所述循环神经网络在所述注意力模型本次t关注所述目标时所输出的目标向量，所述y_t-1表示所述循环神经网络在所述注意力模型上一次t-1关注上一目标时所输出的向量；所述W表示预设的参数矩阵。

可选地，在本发明实施例中，所述方法还可以包括：

在获得所述注意力模型所关注的各个目标所对应的识别结果后，基于所获得的各个识别结果，形成针对所述目标图像的场景描述语句。

第二方面，本发明实施例提供了一种图像分析装置，所述装置可以包括：

提取单元，用于从目标图像中提取至少一个目标图像特征；

获得单元，用于获得预先构建的注意力模型当前对各个目标图像特征的关注度；

第一确定单元，用于根据所获得的各个目标图像特征，以及各个目标图像特征对应的关注度，确定所述注意力模型所关注目标的识别结果，其中，所述目标由至少一个目标图像特征构成；

第二确定单元，用于确定所述各个目标图像特征所对应目标区域的第一中心位置坐标，其中，任一目标图像特征所对应目标区域为所述目标图像中，能够提取到该目标图像特征的图像区域；

计算单元，用于根据各个目标图像特征对应的关注度和各个第一中心位置坐标，计算所述目标在所述目标图像中的第二中心位置坐标；

定位单元，用于将所述第二中心位置坐标作为具有所述识别结果的所述目标的定位结果。

可选地，所述提取单元具体用于：

可选地，所述提取单元具体用于：利用卷积神经网络算法对所述目标图像进行一层卷积，获得至少一个目标图像特征；

所述第二确定单元具体用于：

确定所述各个目标图像特征所对应目标区域；

其中，确定任一目标图像特征所对应的目标区域所利用的公式为：

X_min＝(X-1)*stride_w+1-pad_w

X_max＝(X-1)*stride_w-pad_w+kernel_w

Y_min＝(Y-1)*stride_h+1-pad_h

Y_max＝(Y-1)*stride_h-pad_h+kernel_h

可选地，所述计算单元具体用于：

对所获得的各个位置加权值进行求和，得到第一和值；

可选地，所述第一确定单元可以包括：

第一确定子单元，用于根据所获得的各个目标图像特征，以及各个目标图像特征对应的关注度，利用预先构建的循环神经网络，确定所述注意力模型所关注目标的识别结果。

可选地，所述获得单元获得预先构建的注意力模型当前对各个目标图像特征的关注度的计算公式可以为：

可选地，所述第一确定子单元具体用于：

对所获得的各个图像特征加权值进行求和，得到第二和值；

可选地，所述循环神经网络可以通过以下公式表征：

s_t＝Recurrent(y_t-1,g_t,s_t-1)

y_t＝Softmax(Ws_t)

可选地，在本发明实施例中，所述装置还可以包括：

场景描述语句形成单元，用于在获得所述注意力模型所关注的各个目标所对应的识别结果后，基于所获得的各个识别结果，形成针对所述目标图像的场景描述语句。

在本发明实施例中，可以先从所述目标图像中提取出至少一个目标图像特征，并根据预先构建的注意力模型，获得该注意力模型对各个目标图像特征的关注度；由于注意力模型对所述各个目标图像特征的关注度确定之后，所述注意力模型当前所关注的目标也就确定了。这样，可以在对所述注意力模型当前所关注的目标进行识别的同时，对当前所关注的目标进行定位计算，提高了分析图像的速度。

其中，对所述注意力模型所关注的目标进行定位的计算方式为：首先确定各个目标图像特征在所述目标图像中所对应的目标区域，并计算出各个目标区域所对应的第一中心位置坐标；然后基于各个目标图像特征对应的关注度，以及各个目标区域对应的第一中心位置坐标，计算所述目标在所述目标图像中的第二中心位置坐标。进而，可以确定所识别的目标位于所述目标图像的第二中心位置坐标处，这样，实现了对所识别的目标的快速定位，提高了分析图像的速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像分析方法流程图；

图2为本发明实施例提供的一种图像分析方法中获得注意力模型所关注目标的第二中心位置坐标的方法示意图；

图3为本发明实施例提供的一种图像分析方法中所预先构建的循环神经网络的示意图；

图4为本发明实施例提供的一种图像分析方法中能够对目标图像形成场景语义描述的循环神经网络的示意图；

图5为本发明实施例提供的一种图像分析装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中存在的问题，本发明实施例提供了一种图像分析方法及装置。

下面首先对本发明实施例提供的图像分析方法进行说明。

参见图1，本发明实施例提供的图像分析方法可以包括如下步骤：

S101：从目标图像中提取至少一个目标图像特征；

可以理解的是，在执行从目标图像中提取至少一个目标图像特征的步骤之前，需要先确定待进行图像分析的目标图像。

需要说明的是，任一目标图像特征可以包括颜色特征，纹理特征和亮度特征中的一种或多种特征，当然并不局限于此。

还需要说明的是，在一种实现方式中，可以先对所述目标图像进行图像预处理。例如，先对该目标图像进行图像灰度化处理和图像光照补偿处理，之后，按照现有的图像分割方法对进行预处理后得到的图像进行分割，得到多个分割区域，再分别从各个分割区域中提取目标特征图像。

在另一种实现方式中，可以基于卷积神经网络(Convolutional Neural Network，CNN)算法，对所述目标图像进行卷积计算，即可获得至少一个目标图像特征。在该种实现方式中，不需要对目标图像进行图像灰度化处理和图像分割等一系列预处理操作，可以直接对所述目标图像的图像特征进行提取，降低了提取图像特征的繁琐度，加快了从所述目标图像中提取所述至少一个目标图像特征的速度。

值得说明的是，所述卷积神经网络是一种前馈神经网络，可以直接对图像进行处理，从而获得相应的图像特征，此为现有技术，在此不做详述。

S102：获得预先构建的注意力模型当前对各个目标图像特征的关注度；

需要说明的是，注意力模型，也叫视觉注意力模型，是一种利用计算机等设备来模拟人类视觉注意力的模型。其中，所述预先构建的注意力模型可以是现有技术中存在的任意一种注意力模型。通过该注意力模型，可以预测人眼在观看所述目标图像时，人眼所可能关注的目标图像特征，并可以计算人眼对所关注的目标图像特征的关注度。

例如，针对一幅鸟飞在海面上的图像，当该图像输入至注意力模型后，注意力模型可以预测人眼在观看该图像时，首先会对鸟的图像特征的关注比较多，因而注意力模型会首先赋予鸟所对应的图像特征更多的关注，即当前鸟对应的图像特征得到的关注度较高，而该幅图像中其他的图像特征得到的关注度较低。

S103：根据所获得的各个目标图像特征，以及各个目标图像特征对应的关注度，确定所述注意力模型所关注目标的识别结果，其中，所述目标由至少一个目标图像特征构成；

需要说明的是，由于任意一个关注度表征了所对应的目标图像特征当前被关注的程度。因此，在确定所述注意力模型当前对各个目标图像特征的关注度之后，则所述注意力模型当前所关注的目标也随之确定了。但是，此时并不知道当前所关注的目标具体是什么，还需要对当前所关注的目标进行识别，获得识别结果。

结合上述示例，当鸟对应的图像特征得到的关注度较高时，所述注意力模型并不知道赋予了较多关注的图像特征为鸟对应的图像特征，也就不知道当前主要关注的目标是鸟，因此还需要对所关注的目标进行识别。

此时，可以根据从该幅图像中提取到的各个目标图像特征，以及该各个目标图像特征所对应的关注度，来确定当前所关注目标的识别结果，从而实现对所关注目标的识别。该种识别方式中，由于鸟对应的图像特征所占的比重(即获得的关注度)较大，因此在对所关注目标所对应的目标图像特征进行分析后，所获得的识别结果很可能为鸟，也就是说，所得到的识别结果准确度较高。

S104：确定所述各个目标图像特征所对应目标区域的第一中心位置坐标，其中，任一目标图像特征所对应目标区域为所述目标图像中，能够提取到该目标图像特征的图像区域；

可以理解的是，在确定任一目标图像特征所对应的目标区域的第一中心位置坐标之前，需要确定该目标图像特征所对应目标区域。

举例而言，当所获得的一个目标图像特征为鸟所对应的图像特征时，首先确定该鸟所对应的图像特征所对应的目标区域，其中，该目标区域为所述鸟飞在海面上的这幅图像中，能够提取到该鸟对应的图像特征的图像区域。之后，计算该图像区域中的第一中心位置坐标。

需要说明的是，在从所述目标图像中获得任一目标图像特征后，即可执行确定该目标图像特征所对应目标区域的步骤，这是合理的。

S105：根据各个目标图像特征对应的关注度和各个第一中心位置坐标，计算所述目标在所述目标图像中的第二中心位置坐标；

可以理解的是，由于当所述注意力模型对各个目标图像特征的关注度确定之后，该注意力模型当前所关注的目标也就确定了，因此在确定所述各个目标图像特征对应的关注度后，即可根据各个目标图像特征对应的关注度，以及各个目标图像特征所对应的第一中心位置坐标，来确定所述目标在所述目标图像中的第二中心位置坐标，并不需要在对所述目标进行识别后，才执行对所述目标进行定位的步骤，提高了图像分析速度。

例如，当获得注意力模型对鸟所对应的图像特征的关注度为1，对提取到的其他目标图像特征的关注度均为0后，即可将该鸟所对应的图像特征所对应的第一中心位置坐标，作为所述鸟在所对应原图中的定位，这是合理的。需要说明的是，此时所获得的第二中心位置坐标与所述第一中心位置坐标相同。

S106：将所述第二中心位置坐标作为具有所述识别结果的所述目标的定位结果。

举例而言，当获得所述目标的识别结果为鸟，所述目标的定位结果为所述第二中心位置坐标时，得到的分析结果为：所述目标图像中的第二中心位置坐标处有一只鸟。

下面对本发明实施例中确定各个目标图像特征所对应的目标区域的方式进行举例说明。

需要说明的是，在本发明实施例中，在提取得到各个目标图像特征后，可以反推各个目标图像特征在所述目标图像中的目标区域。例如，当利用卷积神经网络算法对所述目标图像进行一层卷积，获得至少一个目标图像特征后，可以计算所获得的任一目标图像特征所对应的目标区域，并且计算公式可以为：

X_min＝(X-1)*stride_w+1-pad_w

X_max＝(X-1)*stride_w-pad_w+kernel_w

Y_min＝(Y-1)*stride_h+1-pad_h

Y_max＝(Y-1)*stride_h-pad_h+kernel_h

值得说明的是，当利用卷积神经网络算法对所述目标图像进行多层卷积(例如两层)，获得至少一个目标图像特征时，第一层卷积为对所述目标图像进行卷积，并卷积得到第一图像特征卷积层；第二层卷积为对所述第一图像特征卷积层进行卷积，并获得目标图像特征卷积层。并且，通过这两层卷积，可以从所述目标图像中提取得到所述至少一个目标图像特征。

那么，首先可以采用上述目标区域的计算公式，对任一目标图像特征进行第一次逆向计算，并且其中所计算得到的所述X_min表示该目标图像特征在第一图像特征卷积层所对应的第一逆推区域的最小横坐标，所述X_max表示该目标图像特征在第一图像特征卷积层所对应第一逆推区域的最大横坐标，所述Y_min表示该目标图像特征在第一图像特征卷积层所对应第一逆推区域的最小纵坐标，所述Y_max表示该目标图像特征第一图像特征卷积层所对应第一逆推区域的最大纵坐标。也就是说，第一次逆向计算得到的第一逆推区域为所述第一图像特征卷积层中，能够提取到该目标图像特征的区域。

还需要说明的是，第一次逆向计算中，所述stride_h表示对所述第一图像特征卷积层进行卷积时的纵向步幅长度，所述pad_w表示对所述第一图像特征卷积层进行卷积时横向增加的像素数，pad_h表示对所述第一图像特征卷积层进行卷积时纵向增加的像素数，所述kernel_w表示对所述第一图像特征卷积层进行卷积时所利用卷积核的宽，所述kernel_h表示对所述第一图像特征卷积层进行卷积时所利用卷积核的高。

另外，当需要计算所述目标图像特征在所述目标图像中所对应的目标区域时，先计算该目标图像特征在所述第一图像特征卷积层所对应的第一逆推区域的逆推中心位置坐标。然后，调用上述目标区域的计算公式进行第二逆向计算，并将该逆推中心位置坐标作为X和Y。另外，在该次计算中，所述stride_h表示对所述目标图像进行卷积时的纵向步幅长度，所述pad_w表示对所述目标图像进行卷积时横向增加的像素数，pad_h表示对所述目标图像进行卷积时纵向增加的像素数，所述kernel_w表示对所述目标图像进行卷积时所利用卷积核的宽，所述kernel_h表示对所述目标图像进行卷积时所利用卷积核的高。这样，可以获得所述目标图像特征在所述目标图像中所对应的图像区域。

需要说明的是，当利用卷积神经网络算法对所述目标图像进行N层卷积时，需要利用N次上述目标区域计算公式进行N次逆向计算，从而获得目标图像特征在所述目标图像中所对应的图像区域。在该种实现方式中，采用反推的方式，可以逐步反推任一目标图像特在所述目标图像中的目标区域。

下面结合图2，对本发明实施例中计算所述目标在所述目标图像中的第二中心位置坐标的方法进行详细说明。

参见图2，假设从所述目标图像中提取得到T个目标图像特征，其中，所述T个目标图像特征分别为h₁、h₂、……、h_T-1和h_T；所述注意力模型在当前t对h₁、h₂、……、h_T和h_T-1的关注度分别为a_t,1、a_t,2、……、a_t,T-1和a_t,T；并且，计算得到所述T个目标图像特征所对应的第一中心位置坐标分别为c_t,1、c_t,2、……、c_t,T-1和c_t,T。那么，可以根据以下步骤计算所述第二中心位置坐标c_t：

针对每个第一中心位置坐标，利用相应目标图像特征对应的关注度对该第一中心位置坐标进行加权计算，得到位置加权值：h₁a_t,1、h₂a_t,2、……、h_T-1a_t,T-1和h_Ta_t,T；

对所获得的各个位置加权值进行求和，得到第一和值S₁＝h₁a_t,1+h₂a_t,2+……h_T- ₁a_t,T-1+h_Ta_t,T；

举例而言，当注意力模型当前给某一目标图像特征的关注度为1时，则表明所述注意力模型的注意力全都集中在该目标图像特征上，即所关注目标的第二中心位置坐标位于该目标图像特征所对应目标区域的中心。

也就是说，所述注意力模型所关注目标在接近于关注度高的目标图像特征所对应的区域，因此可以根据注意力模型当前对各个目标图像特征的关注度，快速地对所关注目标所对应的第二中心位置坐标进行计算，从而实现对所关注目标的快速定位。并且该种定位方式，不依赖对所述目标的识别，也就是，可以在对所述目标进行识别的过程中，对所述目标进行定位，提高了图像分析的速度。

下面对本发明实施例中对所述注意力模型所关注的目标进行识别的方法进行说明。

在一种实现方式中，可以根据所获得的各个目标图像特征，以及各个目标图像特征对应的关注度，利用预先构建的循环神经网络，确定所述注意力模型所关注目标的识别结果。

在该种实现方式中，可以基于所获得的各个目标图像特征，以及各个目标图像特征对应的关注度，作为所述预先构建的循环神经网络的输入数据。然后，将所述输入数据输入至所述循环神经网络，最后能够从所述循环神经网络中输出所述注意力模型所关注的所述目标对应的识别结果。

可以理解的是，所述预先构建的循环神经网络，是通过对大量的图像进行训练后所得到的循环神经网络，并且该循环神经网络能够根据输入数据，得到所述注意力模型所关注的目标的识别结果。

下面结合图3，对利用预先构建的循环神经网络，确定所述注意力模型所关注目标的识别结果的方法作进一步说明。

参见图3，图3左侧为利用卷积神经网络算法对目标图像A进行卷积，从而获得作为所述循环神经网络的输入数据之一的目标图像特征，其中，所获得目标图像特征h₁、h₂、……、h_T-1和h_T。另外，还需要获得作为输入所述循环神经网络的输入数据之一的关注度，即注意力模型当前对上述各个目标图像特征的关注度：a₁、a₂、……、a_T-1和a_T。

并且，在获取得到各个目标图像特征，以及各个关注度后，可以执行如下步骤：

针对每个目标图像特征，利用相应目标图像特征对应的关注度对该目标图像特征进行加权计算，得到图像特征加权值：h₁a₁、h₂a₂、……、h_t-1a_T-1和h_Ta_T；

对所获得的各个图像特征加权值进行求和，得到第二和值S₂＝h₁a₁+h₂a₂+……h_t- ₁a_T-1+h_Ta_T；

将所述第二和值S₂输入至预先构建的循环神经网络中，输出得到所述注意力模型当前所关注目标所对应的目标向量y_t；

根据预设第一对应关系，获得所述目标向量y_t对应的目标关键字，并将所述目标关键字作为所述目标的识别结果，其中，所述第一对应关系记录有预设向量和预设关键字的对应关系。

可以理解的是，由于所述循环神经网络中记录有预设向量和预设关键字的第一对应关系，因此在根据所述第二和值S₂，计算得到所述注意力模型当前所关注目标所对应的目标向量y_t后，即可根据所述第一对应关系，获得所述目标向量y_t对应的目标关键字，并将所述目标关键字作为所述目标的识别结果。例如获得的所述目标向量y_t对应的目标关键字为鸟，则可知道对所述目标的识别结果为鸟。

需要说明的是，获得注意力模型当前对上述各个目标图像特征的关注度的计算公式可以为：

可以理解的是，由于该种关注度的计算公式中包含循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值s_t-1，因而所述注意力模型当前对各个目标图像特征的所分配的关注度，会受所述循环神经网络的影响。

另外，还需要说明的是，图3右侧所对应的预先构建的循环神经网络可以表征为：

s_t＝Recurrent(y_t-1,g_t,s_t-1)

y_t＝Softmax(Ws_t)

其中，所述s_t表示所述循环神经网络在在所述注意模型本次t关注所述目标时所对应的隐藏值，所述s_t-1表示所述循环神经网络在所述注意模型上一次t-1关注上一目标时所对应的隐藏值；所述g_t表示输入数据，即所述第二和值；所述y_t表示所述循环神经网络在所述注意力模型本次t关注所述目标时所输出的目标向量，所述y_t-1表示所述循环神经网络在所述注意力模型上一次t-1关注上一目标时所输出的向量；所述W表示预设的参数矩阵。

值得说明的是，本发明实施例的图像分析方法还能对字母和数字进行识别，在此不做详述。

下面结合图4对本发明实施例中形成针对所述目标图像的场景描述语句的方法进行说明。

参见图4可知，当需要对所述注意力模型当前所关注的目标、上次所关注的目标，以及下次所关注的目标等等进行识别时，所述循环神经网络的神经元也相应的增加。并且针对所述注意力模型每次关注的目标，均输出一个对应的目标向量，从而可以根据第一对应关系，得到所获得的各个目标向量对应的目标关键字，即获得所关注的各个目标的识别结果。进而可以基于所获得的各个识别结果，形成针对所述目标图像的场景描述语句，实现对所述目标图像的场景描述。

举例而言，针对上述目标图像A，获得y₁对应的目标关键字为bird，获得y₂对应的目标关键字为flying，获得y₃对应的目标关键字为over，获得y₄对应的目标关键字为of，获得y₅对应的目标关键字为sea，从而获得场景描述语句为：bird flying over of sea。另外，还可以定位注意力模型所关注的目标鸟和所关注的海在所述目标图像A中的位置。当然，也可以定位over等目标关键字所对应的位置，但是对介词进行定位不具有实际定位意义。

需要说明的是，所述循环神经网络具有基于当前的识别结果，预测下一次识别结果的能力，此为现有技术，在此不做详述。

还需要说明的是，图4中的虚线部分表示所述注意力模型在当前t关注目标时，各个目标图像特征所对应的关注度的计算指向，以及所述注意力模型在下一次t+1关注目标时，各个目标图像特征所对应的关注度的计算指向。图4中的实线部分表示循环神经网络计算y_t-1、y_t和y_t+1的指向。

相应于上述方法实施例，本发明实施例还提供了一种图像分析装置，参见图5，所述图像分析装置可以包括：

提取单元501，用于从目标图像中提取至少一个目标图像特征；

获得单元502，用于获得预先构建的注意力模型当前对各个目标图像特征的关注度；

第一确定单元503，用于根据所获得的各个目标图像特征，以及各个目标图像特征对应的关注度，确定所述注意力模型所关注目标的识别结果，其中，所述目标由至少一个目标图像特征构成；

第二确定单元504，用于确定所述各个目标图像特征所对应目标区域的第一中心位置坐标，其中，任一目标图像特征所对应目标区域为所述目标图像中，能够提取到该目标图像特征的图像区域；

计算单元505，用于根据各个目标图像特征对应的关注度和各个第一中心位置坐标，计算所述目标在所述目标图像中的第二中心位置坐标；

定位单元506，用于将所述第二中心位置坐标作为具有所述识别结果的所述目标的定位结果。

可选地，所述提取单元501具体用于：利用卷积神经网络算法对所述目标图像进行卷积，获得至少一个目标图像特征。

可选地，所述提取单元501具体用于：利用卷积神经网络算法对所述目标图像进行一层卷积，获得至少一个目标图像特征；

所述第二确定单元504具体用于：

确定所述各个目标图像特征所对应目标区域；

X_min＝(X-1)*stride_w+1-pad_w

X_max＝(X-1)*stride_w-pad_w+kernel_w

Y_min＝(Y-1)*stride_h+1-pad_h

Y_max＝(Y-1)*stride_h-pad_h+kernel_h

可选地，所述计算单元505具体用于：

对所获得的各个位置加权值进行求和，得到第一和值；

可选地，所述第一确定单元503包括：

可选地，所述获得单元502获得预先构建的注意力模型当前对各个目标图像特征的关注度的计算公式为：

可选地，所述第一确定子单元具体用于：

对所获得的各个图像特征加权值进行求和，得到第二和值；

将所述第二和值输入至循环神经网络中，输出得到所述注意力模型当前所关注目标所对应的目标向量；

可选地，在本发明实施例提供的图像分析装置中，所述循环神经网络通过以下公式表征：

s_t＝Recurrent(y_t-1,g_t,s_t-1)

y_t＝Softmax(Ws_t)

可选地，所述装置还可以包括：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像分析方法，其特征在于，包括：

从目标图像中提取至少一个目标图像特征；

对所获得的各个位置加权值进行求和，得到第一和值；

将所述第一和值作为所述目标在所述目标图像中的第二中心位置坐标；

2.根据权利要求1所述的方法，其特征在于，所述从目标图像中提取至少一个目标图像特征的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用卷积神经网络算法对所述目标图像进行卷积，获得至少一个目标图像特征的步骤，包括：

确定所述各个目标图像特征所对应目标区域；

X_min＝(X-1)*stride_w+1-pad_w

X_max＝(X-1)*stride_w-pad_w+kernel_w

Y_min＝(Y-1)*stride_h+1-pad_h

Y_max＝(Y-1)*stride_h-pad_h+kernel_h

4.根据权利要求1-3任一项所述的方法，其特征在于，根据所获得的各个目标图像特征，以及各个目标图像特征对应的关注度，确定所述注意力模型所关注目标的识别结果的步骤，包括：

5.根据权利要求4所述的方法，其特征在于，所述获得预先构建的注意力模型当前对各个目标图像特征的关注度的计算公式为：

6.根据权利要求5所述的方法，其特征在于，所述根据所获得的各个图像特征，以及各个目标图像特征对应的关注度，利用预先构建的循环神经网络，确定所述注意力模型所关注目标的识别结果的步骤，包括：

对所获得的各个图像特征加权值进行求和，得到第二和值；

7.根据权利要求6所述的方法，其特征在于，所述循环神经网络通过以下公式表征：

s_t＝Recurrent(y_t-1,g_t,s_t-1)

y_t＝Softmax(Ws_t)

8.根据权利要求6或7所述的方法，其特征在于，还包括：

9.一种图像分析装置，其特征在于，包括：

提取单元，用于从目标图像中提取至少一个目标图像特征；

计算单元，用于针对每个第一中心位置坐标，利用相应目标图像特征对应的关注度对该第一中心位置坐标进行加权计算，得到位置加权值；对所获得的各个位置加权值进行求和，得到第一和值；将所述第一和值作为所述目标在所述目标图像中的第二中心位置坐标；

10.根据权利要求9所述的装置，其特征在于，所述提取单元具体用于：

11.根据权利要求10所述的装置，其特征在于，所述提取单元具体用于：利用卷积神经网络算法对所述目标图像进行一层卷积，获得至少一个目标图像特征；

所述第二确定单元具体用于：

确定所述各个目标图像特征所对应目标区域；

X_min＝(X-1)*stride_w+1-pad_w

X_max＝(X-1)*stride_w-pad_w+kernel_w

Y_min＝(Y-1)*stride_h+1-pad_h

Y_max＝(Y-1)*stride_h-pad_h+kernel_h

12.根据权利要求9-11任一项所述的装置，其特征在于，所述第一确定单元包括：

13.根据权利要求12所述的装置，其特征在于，所述获得单元获得预先构建的注意力模型当前对各个目标图像特征的关注度的计算公式为：

14.根据权利要求13所述的装置，其特征在于，所述第一确定子单元具体用于：

对所获得的各个图像特征加权值进行求和，得到第二和值；

15.根据权利要求14所述的装置，其特征在于，所述循环神经网络通过以下公式表征：

s_t＝Recurrent(y_t-1,g_t,s_t-1)

y_t＝Softmax(Ws_t)

16.根据权利要求14或15所述的装置，其特征在于，还包括：