CN106529511B

CN106529511B - 图像结构化方法及装置

Info

Publication number: CN106529511B
Application number: CN201611146151.3A
Authority: CN
Inventors: 张弛; 毛慧子
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2019-12-10
Anticipated expiration: 2036-12-13
Also published as: CN106529511A

Abstract

本发明的实施例提供了图像结构化方法和装置。该方法包括：基于第一神经网络提取图像的特征，其中所述特征用特征张量表示；基于第二神经网络，根据所述特征张量确定所述图像中的、可能存在感兴趣对象的区域；根据所述特征张量计算所述可能存在感兴趣对象的区域的特征向量：以及基于第三神经网络，根据所述特征向量识别所述可能存在感兴趣对象的区域中的感兴趣对象并确定所述感兴趣对象的位置以及所述感兴趣对象的属性。上述方法和装置避免了在检测对象和确定对象属性这两个环节中都引入额外的误差。此外，还有效避免了背景对分析感兴趣对象的属性的干扰。这提高了图像结构化分析的准确性。

Description

图像结构化方法及装置

技术领域

本发明涉及图像处理领域，更具体地涉及一种图像结构化方法和装置。

背景技术

随着通信网络、数据压缩和海量存储技术的发展，越来越多的多媒体信息以计算机可读的形式存在于互联网上。它们不仅包括常见的文字数据，还包括图像、视频等媒体信息。它们一般没有图像结构，并缺乏语义信息，信息检索系统难以对它们进行有效搜索，只有对媒体数据进行有效结构化，才能帮助人们更快地找到感兴趣内容。

图像结构化是一种图像内容信息提取的智能分析过程，它对图像内容按照语义关系，采用时空分割、特征提取、对象识别等处理手段，组织成可供计算机和人理解的文本信息。可以理解，上述图像可以是一个或多个独立的图像，还可以是组成视频的帧。

目前，图像结构化，特别是视频结构化，已经应用到很多领域。例如，对行人，车辆的视频结构化是诸多安防应用中不可或缺的一环。

现有技术中，通常把诸如行人、车辆等对象检测和对象的属性分析分成两个独立的环节来完成。首先，在检测环节中，对每一视频帧，检测出行人和/或车辆。通过边框把它们的位置和大小表示出来。然后，分析边框中行人和/或车辆的属性信息，达到视频结构化的目的。在以上两个独立环节中，都可能引入额外的误差，造成误差的传播扩大。由此，现有的图像结构化方法和系统处理精度较低，难以避免图像中背景对分析感兴趣对象的属性的干扰。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种图像结构化方法和装置。

根据本发明一个方面，提供了一种图像结构化方法，包括：

基于第一神经网络提取图像的特征，其中所述特征用特征张量表示；

基于第二神经网络，根据所述特征张量确定所述图像中的、可能存在感兴趣对象的区域；

根据所述特征张量计算所述可能存在感兴趣对象的区域的特征向量：以及

基于第三神经网络，根据所述特征向量识别所述可能存在感兴趣对象的区域中的感兴趣对象并确定所述感兴趣对象的位置以及所述感兴趣对象的属性。

示例性地，所述第二神经网络包括回归器，所述根据所述特征张量确定所述图像中的、可能存在感兴趣对象的区域包括：

针对所述特征张量中的超像素点对应的向量，基于所述回归器确定所述图像中的、所述感兴趣对象可能存在的矩形区域；以及

合并所述矩形区域中的、重叠度高于第一阈值的矩形区域，将合并后保留的矩形区域作为所述可能存在感兴趣对象的区域。

示例性地，所述第二神经网络还包括分类器，在所述合并步骤之前，所述根据所述特征张量确定所述图像中的、可能存在感兴趣对象的区域还包括：

针对所述特征张量中的超像素点对应的向量，基于所述分类器确定所述图像中的、所述超像素点所对应的区域存在的感兴趣对象以及所存在的感兴趣对象的可信度；以及

基于所述所存在的感兴趣对象的可信度，获得存在可信度高于第二阈值的感兴趣对象的矩形区域；并且

其中，所述合并步骤只针对所述存在可信度高于第二阈值的感兴趣对象的矩形区域。

示例性地，所述根据所述特征张量计算所述可能存在感兴趣对象的区域的特征向量包括：

对于所述特征张量与所述可能存在感兴趣对象的区域对应的部分中的超像素点所对应的向量的各个频道，计算所述各个频道的最大值或平均值；以及

根据所述各个频道的最大值或平均值生成所述特征向量。

将所有所述可能存在感兴趣对象的区域划分成特定数目的子区域；

对于所述特征张量与每个子区域的对应的部分中的超像素点所对应的向量的各个频道，计算所述各个频道的最大值或平均值；

根据所述各个频道的最大值或平均值生成该子区域的向量；以及

连接所有子区域的向量，以生成所述特征向量。

示例性地，所述基于第一神经网络提取图像的特征包括：基于所述第一神经网络，对所述图像进行卷积和池化，以获得表示所述图像的特征张量。

示例性地，所述特征是热力图。

示例性地，所述方法还包括：利用训练输入数据和对应的标注内容训练所述第一神经网络、所述第二神经网络和/或所述第三神经网络。

根据本发明另一方面，还提供了一种图像结构化装置，包括：

特征提取模块，用于基于第一神经网络提取图像的特征，其中所述特征用特征张量表示；

可能区域分析模块，用于基于第二神经网络根据所述特征张量确定所述图像中的、可能存在感兴趣对象的区域；

区域向量计算模块，用于根据所述特征张量计算所述可能存在感兴趣对象的区域的特征向量；以及

对象和属性确定模块，用于基于第三神经网络根据所述特征向量识别所述可能存在感兴趣对象的区域中的感兴趣对象并确定所述感兴趣对象的位置以及所述感兴趣对象的属性。

示例性地，所述第二神经网络包括回归器，所述可能区域分析模块包括：

回归单元，用于针对所述特征张量中的超像素点对应的向量，基于所述回归器确定所述图像中的、所述感兴趣对象可能存在的矩形区域；以及

合并单元，用于合并所述矩形区域中的、重叠度高于第一阈值的矩形区域，将合并后保留的矩形区域作为所述可能存在感兴趣对象的区域。

示例性地，所述第二神经网络还包括分类器，所述可能区域分析模块还包括：

分类单元，用于针对所述特征张量中的超像素点对应的向量，基于所述分类器确定所述图像中的、所述超像素点所对应的区域存在的感兴趣对象以及所存在的感兴趣对象的可信度；以及

排序单元，用于基于所述所存在的感兴趣对象的可信度获得存在可信度高于第二阈值的感兴趣对象的矩形区域；并且

其中，所述合并单元只针对所述存在可信度高于第二阈值的感兴趣对象的矩形区域进行操作。

示例性地，所述区域向量计算模块包括：

第一频道值计算单元，用于对于所述特征张量与所述可能存在感兴趣对象的区域对应的部分中的超像素点所对应的向量的各个频道，计算所述各个频道的最大值或平均值；以及

向量生成单元，用于根据所述各个频道的最大值或平均值生成所述特征向量。

示例性地，所述区域向量计算模块包括：

子区域划分单元，用于将所有所述可能存在感兴趣对象的区域划分成特定数目的子区域；

第二频道值计算单元，用于对于所述特征张量与每个子区域的对应的部分中的超像素点所对应的向量的各个频道，计算所述各个频道的最大值或平均值；

子区域向量生成单元，用于根据所述各个频道的最大值或平均值生成该子区域的向量；以及

连接单元，用于连接所有子区域的向量，以生成所述特征向量。

示例性地，所述特征提取模块包括特征提取单元，用于基于所述第一神经网络，对所述图像进行卷积和池化，以获得表示所述图像的特征张量。

示例性地，所述特征是热力图。

示例性地，所述装置还包括训练模块，用于利用训练输入数据和对应的标注内容训练所述第一神经网络、所述第二神经网络和/或所述第三神经网络。

上述图像结构化方法和装置避免了在检测对象和确定对象属性这两个环节中都引入额外的误差。此外，还有效避免了背景对分析感兴趣对象的属性的干扰。这提高了图像结构化分析的准确性。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同或相似部件或步骤。

图1示出了用于实现根据本发明实施例的用于图像结构化方法和装置的示例电子设备的示意性框图；

图2示出了根据本发明一个实施例的图像结构化方法的示意性流程图；

图3示出了根据本发明一个实施例的图像结构化方法所涉及的神经网络的示意图；

图4示出了根据本发明一个实施例的确定图像中的建议区域的步骤的示意性流程图；

图5示出了根据本发明另一个实施例的确定图像中的建议区域的步骤的示意性流程图；

图6示出了根据本发明一个实施例的计算建议区域的特征向量的步骤的示意性流程图；

图7示出了根据本发明另一个实施例的计算建议区域的特征向量的步骤的示意性流程图；

图8示出了根据本发明一个实施例的图像结构化装置的示意性框图；以及

图9示出了根据本发明一个实施例的图像结构化设备的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的图像结构化方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106和输出装置108，这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的计算机功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用来接收用户所输入的指令以及采集数据的装置，并且可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

上述输入装置106和输出装置108主要用于与用户交互。

下面，将参考图2描述根据本发明一个实施例的图像结构化方法200。图像结构化是识别和检测图像中的对象并分析对象的属性的技术。该对象包括任何感兴趣对象，例如视频结构化中，人们通常感兴趣的行人、车辆等。在下面的实施例中，以行人和车辆作是对象的示例进行描述。可以理解，感兴趣对象不仅限于此，例如，还可以包括动物等。

在步骤S220中，基于第一神经网络提取图像的特征。第一神经网络可以将所提取的特征用特征张量表示。

如前所述，该图像可以是视频帧。例如，对于待结构化的一段视频，可以将视频中的各帧输入到第一神经网络，以提取每帧的特征。该第一神经网络可以是一层或多层的卷积神经网络。卷积神经网络是一种前馈神经网络，由若干卷积单元组成。每个卷积单元可以响应一部分覆盖范围内的周围单元。

卷积神经网络的运算目的是提取所输入的图像的特征。卷积神经网络的不同层次能够提取不同的特征，由此，总层数不同的卷积神经网络能够提取不同的特征。卷积神经网络的第一卷积层可提取一些低级的特征，如图像的边缘、线条和角等特征。后面的卷积层可根据前面的卷积层所提取的低级的特征迭代提取更高级、更复杂的特征。换言之，总层数越多的卷积神经网络提取的特征越复杂。

对于所输入的图像，具有特定层数的卷积神经网络可提取热力图形式的特征。其中，热力图的像素值表示与热力图的该像素对应的原图上的相应区域的特征，该特征通常用一个向量表示。

本领域普通技术人员可以理解，上述热力图、图像的边缘和线条等不同复杂度的特征均是示例。在实际应用中，可以根据需要采用各种图像特征，在本申请中对此不做限制。

对于一个图像，例如视频中的一帧，由第一神经网络提取的特征可以用张量表示，在本文中称其为特征张量。不同于一些其他方法中，人为定义图像的特征；如前所述，根据本发明的实施例，特征张量是由诸如卷积神经网络的第一神经网络自动提取的。

特征张量可以是三阶的。三阶特征张量的三个阶可以分别代表图像的横向，纵向和频道(channel)。横向是图像的宽度的方向。纵向是图像的高度的方向。在特征是热力图的情况下，频道的个数表示特征张量所包含的热力图的个数。换个角度来说，三阶特征张量X可以包括多个元素。示例性地，三阶特征张量X中的每个元素可以表示为X[i][j][k]，其中，i、j、k分别表示不同阶，i＝0,1,2,..,h-1；j＝0,1,...,w-1；k＝0,1,...,c-1；h、w、c分别表示特征张量X的高度，宽度和频道个数。c个元素可以构成一个超像素点(superpixel)，可以用X[i][j]表示。换言之，特征张量中的、横坐标为i且纵坐标为j的所有频道的数值组成的一个c维向量，称该c维向量为超像素点对应的向量或表示超像素点的向量，即，超像素点S＝X[i][j]可以表示为S[k]＝X[i][j][k]，其中k＝0,1,...,c-1。每一个超像素点分别对应原始图像中的一个相应区域。

根据本发明的一个实施例，步骤S220可以包括：基于第一神经网络，对所输入的图像进行卷积和池化(Pooling)，以获得表示所述图像的特征张量。对所输入的图像进行卷积和池化操作后，特征张量的长与所述图像的宽度可能不等，特征张量的宽与所述图像的高度也可能不等。

在步骤S240中，基于第二神经网络，根据步骤S220所获得的特征张量确定所述图像中的、可能存在感兴趣对象的区域，也可称为建议区域。

如前所述特征张量可包括多个超像素点。一个表示超像素点的向量分别对应原始图像中的一个相应区域，该向量包含了该相应区域的特征。因此，根据特征张量中的超像素点可以确定该相应区域是否存在感兴趣对象以及该可能存在感兴趣对象的区域。对于从一个图像提取的特征张量，第二神经网络可以输出多个感兴趣对象以及其各自可能存在的区域。

对于通过卷积神经网络的卷积与池化操作来获得的特征张量的超像素点，其包括根据其所确定的可能存在感兴趣对象的区域的信息，而该区域在面积上大于超像素点所对应的原始图像中的相应区域。此外，每个可能存在感兴趣对象的区域通常对应多个超像素点。当然，一些区域也可能只对应一个超像素点。

示例性地，用矩形表示该可能存在感兴趣对象的区域。矩形的数学描述简单，便于数据处理。

在步骤S260中，根据步骤S220所获得的特征张量计算步骤S240所确定的可能存在感兴趣对象的区域的特征向量。

在此步骤中，可以根据特征张量中的、与所确定的可能存在感兴趣对象的区域相对应的超像素点，计算该区域的特征向量。特征向量用数字表示了该区域的信息。如前所述，超像素点包括根据其所确定的可能存在感兴趣对象的矩形区域的信息。也就是说，综合这些超像素点的信息即可获得表示该区域的特征的特征向量。

在步骤S280中，基于第三神经网络，根据步骤S260所计算的特征向量识别所述可能存在感兴趣对象的区域中的感兴趣对象并确定所述感兴趣对象的位置以及所述感兴趣对象的属性。第三神经网络可以包括分类器和/或回归器。将步骤S260所计算的特征向量，即一维向量，分别输入到这些不同的分类器和/或回归器中，以获得图像结构化结果。

可选地，第三神经网络包括第一分类器，用于根据步骤S260所计算的特征向量识别可能存在感兴趣对象的区域中的感兴趣对象。具体例如，利用第一分类器对图像中的物体进行检测并识别出行人、车辆和背景。第三神经网络还可以包括第二回归器。利用第二回归器确定感兴趣对象所在的图像具体位置，例如，由紧密包围该感兴趣对象的矩形框限定的矩形区域。该矩形区域可以由顶点、宽度和/或边界来给出。第三神经网络还可以包括第三分类器和第四回归器。利用第三分类器和第四回归器对感兴趣对象的属性进行分类或回归，示例性地，感兴趣对象的属性包括行人的性别、年龄、衣着颜色、衣着款式、是否背包以及背包颜色，车辆的颜色以及车型号等。

图3示出了根据本发明一个实施例的图像结构化方法200所涉及的神经网络的示意图。本领域普通技术人员结合上述描述，能够理解该神经网络的结构和实现。

上述图像结构化方法200中，根据神经网络所获得的特征张量，将识别感兴趣对象、确定感兴趣对象的位置的操作与提取感兴趣对象的属性的信息两个操作合并在一起，由此，能够在检测对象的同时，确定对象的属性。从而，避免了在检测对象和确定对象属性这两个环节中都引入额外的误差。此外，在图像结构化方法200中，还有效避免了背景对分析感兴趣对象的属性的干扰。这提高了图像结构化分析的准确性。

图4示出了根据本发明一个实施例的上述步骤S240的示意性流程图。该步骤S240所涉及的第二神经网络包括回归器。示例性地，回归器是1*1的卷积神经网络。如图4所示，该步骤S240进一步包括以下步骤。

步骤S444，针对特征张量中的超像素点对应的向量S＝X[i][j]，基于第二神经网络中的回归器确定图像中的、感兴趣对象可能存在的矩形区域。

将每个表示一个超像素点的向量S＝X[i][j]输入一个回归器，回归器可输出表示图像中的、可能存在感兴趣对象的区域的矩形。可以理解，对于一个图像而言，可能存在多个这样的矩形区域。在该步骤中初步确定了一些感兴趣对象可能存在的矩形区域。

步骤S448，合并矩形区域中的、重叠度高于第一阈值的矩形区域，将合并后保留的矩形区域作为所述可能存在感兴趣对象的区域。

在一个示例中，首先，确定各个矩形区域与其他矩形区域的重叠度。然后，将重叠度高于第一阈值(例如0.5或0.7或0.8等)的矩形区域进行合并。例如，假设矩形区域Ra与矩形区域Rb之间的重叠度高于第一阈值，那么仅保留其中一个矩形区域，具体例如矩形区域Ra，而放弃另一个矩形区域，具体例如矩形区域Rb，将最后得到的矩形区域(矩形区域Ra)作为可能存在感兴趣对象的区域。

在上述步骤S240中，利用回归器确定感兴趣对象可能存在的矩形区域，并且合并矩形区域中的重叠度较高的矩形区域，由此获得的可能存在感兴趣对象的区域更准确，即图像结构化操作的结构更准确。

图5示出了根据本发明另一个实施例的上述步骤S240的示意性流程图。该步骤S240所涉及的第二神经网络包括回归器和分类器。回归器和/或分类器可以是1*1的卷积神经网络。如图5所示，该步骤S240进一步包括以下步骤。

步骤S542，针对特征张量中的超像素点对应的向量S＝X[i][j]，基于第二神经网络中的分类器确定所述图像中的、所述超像素点所对应的区域存在的感兴趣对象以及所存在的感兴趣对象的可信度。

将每个表示一个超像素点的向量S＝X[i][j]输入一个分类器，分类器可输出图像中的、超像素点所对应的区域存在的感兴趣对象，例如行人、车辆等。可以理解，对于一个图像而言，可能存在多个感兴趣对象。此外，分类器还可输出每个感兴趣对象的可信度，其也可以称为分类器的可信度。

步骤S544，针对特征张量中的超像素点对应的向量S＝X[i][j]，基于第二神经网络中的回归器确定所述图像中的、感兴趣对象可能存在的矩形区域。此步骤与上述步骤S442类似，为了简洁，不再赘述。

步骤S546，基于步骤S542所确定的所存在的感兴趣对象的可信度，获得存在可信度高于第二阈值(例如0.8或0.85)的感兴趣对象的矩形区域。

感兴趣对象和其可能存在的矩形区域之间存在着一一对应关系。示例性地，根据矩形区域中的感兴趣对象的可信度，对步骤S544所初步确定的矩形区域进行排序，以获得经排序的序列中的、可信度高于第二阈值的感兴趣对象所存在的矩形区域。

步骤S548，针对所述存在可信度高于第二阈值的感兴趣对象的矩形区域，合并其中的重叠度高于第一阈值的矩形区域，将合并后保留的矩形区域作为所述可能存在感兴趣对象的区域。

该步骤与步骤S448类似，区别在于，此步骤只针对其中的感兴趣对象的可信度高于第二阈值的矩形区域进行操作。为了简洁，在此不再详细描述步骤S548的执行过程。

上述步骤S240中，确定可能存在感兴趣对象的矩形区域的过程中，综合考虑了矩形区域中的感兴趣对象的可信度因素，进一步保证了所确定的可能存在感兴趣对象的区域的准确性，由此保证了图像结构化操作的准确性。

图6示出了根据本发明一个实施例的上述步骤S260的示意性流程图。如图6所示，步骤S260可以包括以下步骤。

在步骤S662中，对于所述特征张量与所述可能存在感兴趣对象的区域对应的部分中的超像素点所对应的向量的各个频道，计算所述各个频道的最大值或平均值。

如前所述，对于从其中提取特征张量的原始图像，其中包括一个或多个可能存在感兴趣对象的区域，例如上述矩形区域。反过来讲，对于图像中的每个可能存在感兴趣对象的区域，特征张量中存在与前述区域对应的超像素点。每个超像素点可以用向量S＝X[i][j]来表示，该向量可以称为超像素点所对应的向量。在步骤S662中，计算这些超像素点所对应的向量S＝X[i][j]的各个频道的最大值或平均值。可以理解等式中的i和j的取值范围由与可能存在感兴趣对象的区域对应的的超像素点在特征向量中的位置来确定。

步骤S662的具体操作例如，分别取k＝0,1,...,c-1，其中c为特征张量的频道个数，遍历i和j的所有可能取值，确定分别与k＝0,1,...,c-1相对应的S[k]＝X[i][j][k]中的最大值P_max[k]。

又例如，分别取k＝0,1,...,c-1，其中c为特征张量的频道个数，遍历i和j的所有可能取值，计算分别与k＝0,1,...,c-1相对应的S[k]＝X[i][j][k]的平均值P_avg[k]。

在步骤S664中，根据所述各个频道的最大值或平均值生成可能存在感兴趣对象的区域的特征向量。

具体例如，将由P_max[k]或P_avg[k]构成的c维向量作为该特征向量，其中k＝0,1,...,c-1。

在上述步骤S260中，根据与可能存在感兴趣对象的区域对应的超像素点的最大值或平均值来生成表示该区域的特征向量，避免了误差干扰。

图7示出了根据本发明另一个实施例的上述步骤S260的示意性流程图。如图7所示，该步骤S260包括以下步骤。

步骤S761，将所有可能存在感兴趣对象的区域划分成特定数目的子区域。

以上述可能存在感兴趣对象的矩形区域为例，可以所有矩形区域平均划分为相同数目的子区域。具体例如，将其都平均划分成N*M个子区域，其中N和M均为正整数，例如3*6个或2*3个等。

步骤S762，对于特征张量与每个子区域的对应的部分中的超像素点所对应的向量的各个频道，计算所述各个频道的最大值或平均值。

此步骤与前述步骤S662类似，区别在于步骤S762中的超像素点所对应的向量位于特征张量与可能存在感兴趣对象的区域的子区域的对应部分中，而非位于特征张量与整个可能存在感兴趣对象的区域的对应部分中。

本领域技术人员通过阅读步骤S662的描述和上述阐释，能够清楚了解步骤S762的执行过程，为了简洁，在此不再赘述。

步骤S764，根据所述各个频道的最大值或平均值生成子区域的向量。该步骤的执行过程与步骤S664类似。可以理解，每个子区域的向量也是一个c维向量，c为特征张量的频道个数。为了简洁，在此不再详细描述。

步骤S766，连接所有子区域的向量，以生成所述特征向量。

具体地，对于一个可能存在感兴趣对象的区域，可以将其各子区域对应的向量合并(连接)成一个长向量作为该区域对应的向量特征。假设在步骤S761中将所有可能存在感兴趣对象的区域均划分为2*3(即6)个子区域，则在此步骤中将6个子区域的向量进行连接，由此生成6c维的特征向量。

在上述步骤S260中，将所有可能存在感兴趣对象的区域均划分成相同数目的子区域，由此保证最终得到的区域的特征向量规格一致，便于进行后续计算操作，进而确保了图像结构化方法的执行效率。

可选地，在图像结构化方法中还可以包括利用训练输入数据和对应的标注内容训练前述第一神经网络、第二神经网络和/或第三神经网络。

如前所述，第一神经网络可以是卷积神经网络。下面以卷积神经网络来描述该第一神经网络的训练过程。首先，接收训练输入数据，例如训练图像。训练图像是其中已经标注了的特征的图像。然后，利用所接收的训练图像训练初始神经网络，以获得上述卷积神经网络。初始神经网络的参数可以进行随机初始化，也可以利用之前已经训练好的网络进行初始化，例如VGG，GoogleLeNet等。对于这些训练好的网络，可以选取其中的某些部分作为本发明的卷积神经网络的一部分，也可以固定其中的一部分参数不参与训练。卷积神经网络中的每个卷积单元的参数可以在训练过程中通过反向传播算法优化得到。

第二神经网络和第三神经网络的训练过程与上述第一神经网络的训练过程类似。第二神经网络的训练输入数据(例如训练热力图)中标注了可能存在感兴趣对象的区域。第三神经网络的训练输入数据(例如训练热力图)中标注了感兴趣对象以及所述感兴趣对象的属性。

为了简洁，不再详细描述第二神经网络和第三神经网络的训练过程。

利用了训练的方式来获得第一神经网络、第二神经网络和/或第三神经网络。这可以获得可靠性和实用性更强的神经网络，由此保证图像结构化的准确性。

根据本发明另一方面，还提供了一种图像结构化装置。图8示出了根据本发明一个实施例的图像结构化装置800的示意性框图。如图8所示，图像结构化装置800包括特征提取模块820、可能区域分析模块840、区域向量计算模块860和对象和属性确定模块880。

特征提取模块820用于基于第一神经网络提取图像的特征。所述特征用特征张量表示。特征提取模块820可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S220。可选地，所述特征是热力图。

可选地，特征提取模块820包括特征提取单元。特征提取单元用于基于所述第一神经网络，对所述图像进行卷积和池化，以获得表示所述图像的特征张量。

可能区域分析模块840用于基于第二神经网络根据特征提取模块820所提取的特征张量确定所述图像中的、可能存在感兴趣对象的区域。可能区域分析模块840可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S240。

区域向量计算模块860用于根据特征提取模块820所提取的特征张量计算可能区域分析模块840所确定的可能存在感兴趣对象的区域的特征向量。区域向量计算模块860可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S260。

对象和属性确定模块880用于基于第三神经网络根据区域向量计算模块860所计算的特征向量识别所述可能存在感兴趣对象的区域中的感兴趣对象并确定所述感兴趣对象的位置以及所述感兴趣对象的属性。对象和属性确定模块880可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S280。

上述图像结构化装置800能够在检测对象的同时，确定对象的属性。从而，避免了在检测对象和确定对象属性这两个环节中都引入额外的误差。此外，图像结构化装置800还有效避免了背景对分析感兴趣对象的属性的干扰。这提高了图像结构化分析的准确性。

在一个示例中，第二神经网络可以包括回归器。上述可能区域分析模块840可以包括回归单元和合并单元。

回归单元用于针对特征提取模块820所提取的特征张量中的超像素点对应的向量，基于所述回归器确定所述图像中的、所述感兴趣对象可能存在的矩形区域。回归单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S444。

合并单元用于合并回归单元所确定的矩形区域中的、重叠度高于第一阈值的矩形区域，将合并后保留的矩形区域作为所述可能存在感兴趣对象的区域。合并单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S448。

在另一个示例中，第二神经网络除了包括回归器，还可以包括分类器。上述可能区域分析模块840除了包括回归单元和合并单元，还可以包括分类单元和排序单元。

分类单元用于针对特征提取模块820所提取的特征张量中的超像素点对应的向量，基于所述分类器确定所述图像中的、所述超像素点所对应的区域存在的感兴趣对象以及所存在的感兴趣对象的可信度。分类单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S542。

排序单元用于基于分类单元所确定的所存在的感兴趣对象的可信度获得存在可信度高于第二阈值的感兴趣对象的矩形区域。排序单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S546。

在该示例中，所述合并单元只针对所述存在可信度高于第二阈值的感兴趣对象的矩形区域进行操作。

在一个示例中，所述区域向量计算模块860包括第一频道值计算单元和向量生成单元。

第一频道值计算单元用于对于特征提取模块820所提取的特征张量与所述可能存在感兴趣对象的区域对应的部分中的超像素点所对应的向量的各个频道，计算所述各个频道的最大值或平均值。第一频道值计算单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S662。

向量生成单元用于根据所述各个频道的最大值或平均值生成可能存在感兴趣对象的区域的特征向量。向量生成单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S664。

在一个示例中，所述区域向量计算模块860包括子区域划分单元、第二频道值计算单元、子区域向量生成单元和连接单元。

子区域划分单元用于将所有所述可能存在感兴趣对象的区域划分成特定数目的子区域。子区域划分单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S761。

第二频道值计算单元用于对于特征提取模块820所提取的特征张量与每个子区域的对应的部分中的超像素点所对应的向量的各个频道，计算所述各个频道的最大值或平均值。第二频道值计算单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S762。

子区域向量生成单元用于根据所述各个频道的最大值或平均值生成该子区域的向量。子区域向量生成单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S764。

连接单元用于连接所有子区域的向量，以生成所述特征向量。连接单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S766。

可选地，上述图像结构化装置还包括训练模块，用于利用训练输入数据和对应的标注内容训练所述第一神经网络、所述第二神经网络和/或所述第三神经网络。训练模块可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现，并且可以执行根据本发明实施例的上述图像结构化方法中的训练步骤。

本领域普通技术人员通过阅读上文关于图像结构化方法的详细描述，能够理解上述图像结构化装置的结构、实现以及优点，因此这里不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图9示出了根据本发明一个实施例的图像结构化设备900的示意性框图。如图9所示，图像结构化设备900包括输入装置910、存储装置920、处理器930以及输出装置940。

所述输入装置910用于接收用户所输入的操作指令以及采集数据。输入装置910可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。

所述存储装置920存储用于实现根据本发明实施例的图像结构化方法中的相应步骤的程序代码。

所述处理器930用于运行所述存储装置920中存储的程序代码，以执行根据本发明实施例的图像结构化方法的相应步骤，并且用于实现根据本发明实施例的图像结构化装置中的特征提取模块820、可能区域分析模块840、区域向量计算模块860和对象和属性确定模块880。

在一个实施例中，在所述程序代码被所述处理器930运行时使所述图像结构化设备900执行以下步骤：

示例性地，所述特征是热力图。

示例性地，所述第二神经网络包括回归器。在所述程序代码被所述处理器930运行时使所述图像结构化设备900执行根据所述特征张量确定所述图像中的、可能存在感兴趣对象的区域的步骤包括：

示例性地，所述第二神经网络还包括分类器。在所述程序代码被所述处理器930运行时使所述图像结构化设备900在所述合并步骤之前执行的根据所述特征张量确定所述图像中的、可能存在感兴趣对象的区域的步骤还包括：

示例性地，在所述程序代码被所述处理器930运行时使所述图像结构化设备900执行的根据所述特征张量计算所述可能存在感兴趣对象的区域的特征向量的步骤包括：

根据所述各个频道的最大值或平均值生成所述特征向量。

连接所有子区域的向量，以生成所述特征向量。

示例性地，在所述程序代码被所述处理器930运行时使所述图像结构化设备900执行的基于第一神经网络提取图像的特征的步骤包括：

基于所述第一神经网络，对所述图像进行卷积和池化，以获得表示所述图像的特征张量。

示例性地，在所述程序代码被所述处理器930运行时还使所述图像结构化设备900执行以下步骤：

利用训练输入数据和对应的标注内容训练所述第一神经网络、所述第二神经网络和/或所述第三神经网络。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的图像结构化方法的相应步骤，并且用于实现根据本发明实施例的图像结构化装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行以下步骤：

示例性地，所述特征是热力图。

示例性地，所述第二神经网络包括回归器。在所述计算机程序指令被所述计算机或处理器运行时使计算机或处理器执行的根据所述特征张量确定所述图像中的、可能存在感兴趣对象的区域的步骤包括：

示例性地，所述第二神经网络还包括分类器。在所述计算机程序指令被所述计算机或处理器运行时使计算机或处理器在所述合并步骤之前执行的根据所述特征张量确定所述图像中的、可能存在感兴趣对象的区域的步骤包括：

示例性地，在所述计算机程序指令被所述计算机或处理器运行时使计算机或处理器执行的根据所述特征张量计算所述可能存在感兴趣对象的区域的特征向量的步骤包括：

根据所述各个频道的最大值或平均值生成所述特征向量。

示例性地，在所述计算机程序指令被所述计算机或处理器运行时，使计算机或处理器执行的根据所述特征张量计算所述可能存在感兴趣对象的区域的特征向量的步骤包括：

连接所有子区域的向量，以生成所述特征向量。

示例性地，在所述计算机程序指令被所述计算机或处理器运行时使计算机或处理器执行的基于第一神经网络提取图像的特征的步骤包括：

示例性地，所述计算机程序指令在被计算机或处理器运行时还使得所述计算机或处理器执行以下步骤：

根据本发明实施例的图像结构化设备中的各模块可以通过根据本发明实施例的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机或处理器运行时实现。

根据本发明实施例的图像结构化方法及装置、图像结构化设备以及存储介质，避免了在检测对象和确定对象属性这两个环节中都引入额外的误差。此外，还有效避免了背景对分析感兴趣对象的属性的干扰。这提高了图像结构化分析的准确性。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的图像结构化装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像结构化方法，包括：

2.如权利要求1所述的方法，其中，所述第二神经网络包括回归器，所述根据所述特征张量确定所述图像中的、可能存在感兴趣对象的区域包括：

3.如权利要求2所述的方法，其中，所述第二神经网络还包括分类器，在所述合并步骤之前，所述根据所述特征张量确定所述图像中的、可能存在感兴趣对象的区域还包括：

4.如权利要求1至3任一项所述的方法，其中，所述根据所述特征张量计算所述可能存在感兴趣对象的区域的特征向量包括：

根据所述各个频道的最大值或平均值生成所述特征向量。

5.如权利要求1至3任一项所述的方法，其中，所述根据所述特征张量计算所述可能存在感兴趣对象的区域的特征向量包括：

连接所有子区域的向量，以生成所述特征向量。

6.如权利要求1至3任一项所述的方法，其中，所述基于第一神经网络提取图像的特征包括：

7.如权利要求1至3任一项所述的方法，其中，所述特征是热力图。

8.如权利要求1至3任一项所述的方法，其中，所述方法还包括：

9.一种图像结构化装置，包括：

10.如权利要求9所述的装置，其中，所述第二神经网络包括回归器，所述可能区域分析模块包括：

11.如权利要求10所述的装置，其中，所述第二神经网络还包括分类器，所述可能区域分析模块还包括：

12.如权利要求9至11任一项所述的装置，其中，所述区域向量计算模块包括：

13.如权利要求9至11任一项所述的装置，其中，所述区域向量计算模块包括：

14.如权利要求9至11任一项所述的装置，其中，所述特征提取模块包括：

特征提取单元，用于基于所述第一神经网络，对所述图像进行卷积和池化，以获得表示所述图像的特征张量。

15.如权利要求9至11任一项所述的装置，其中，所述特征是热力图。

16.如权利要求9至11任一项所述的装置，其中，所述装置还包括：

训练模块，用于利用训练输入数据和对应的标注内容训练所述第一神经网络、所述第二神经网络和/或所述第三神经网络。