CN109598298B

CN109598298B - 图像物体识别方法和系统

Info

Publication number: CN109598298B
Application number: CN201811443553.9A
Authority: CN
Inventors: 冯建兴
Original assignee: Shanghai Haohua Technology Co ltd
Current assignee: Shanghai Haohua Technology Co ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2021-06-04
Anticipated expiration: 2038-11-29
Also published as: CN109598298A

Abstract

本发明属于图像识别技术领域，具体提供了一种图像物体识别方法和系统，旨在解决现有技术难以既保证准确地识别小物体又保证识别速度的问题。为此目的，本发明提供的图像物体识别方法包括获取目标图像对应的多个预设图像尺寸的待识别图像并且分别对每个待识别图像的像素坐标进行归一化处理，得到每个待识别图像的像素坐标矩阵；基于预先构建的图像物体识别网络并且根据每个待识别图像及其像素坐标矩阵，识别目标图像中对象的类别和位置信息。基于上述步骤，本发明提供的方法具有在不牺牲对大物体检测准确性的前提下，能够保证对小物体识别准确性的同时提高识别速度的有益效果。

Description

图像物体识别方法和系统

技术领域

本发明属于图像识别技术领域，具体涉及一种图像物体识别方法和系统。

背景技术

识别图像中的对象是图像识别领域的经典问题。传统的图像对象识别方法主要包括三个步骤：第一、图像中候选框的确立；第二、计算每个候选框中图像块的特征；第三、根据特征进行分类。传统的图像对象识别方法准确度较低，现已逐步淘汰。

随着神经网络的发展，神经网络可以极大地提高对象识别的准确性。基于神经网络的图像对象识别方法是将图像作为神经网络的输入，将识别结果作为输出，不同的模型的实现方法不同。现有的基于神经网络的图像识别方法主要包括以下三种：

第一、基于RCNN系列模型，其中，RCNN系列模型包括RCNN，Fast RCNN，FasterRCNN，基于RCNN系列模型的图像对象识别方法包括两个阶段，第一阶段是计算候选物体框的位置，第二阶段是根据物体框进行分类；

第二、基于YOLO系列模型，其中，YOLO系列模型包括YOLO2和YOLO3，基于YOLO系列模型的图像对象识别方法只有一个阶段，与基于RCNN系列模型的图像对象识别方法相比，速度更快，但是对图像中尺寸较小的物体不敏感；

第三、基于SSD模型，该方法结合了Faster RCNN模型中的Anchor机制和YOLO模型识别速度快的优点，但是网络结构复杂，且需要较大的计算量。

现有的基于神经网络的图像识别方法都采用了Anchor机制，这种机制让所需要计算的物体框和预先设定的Anchor作比较，但是对于较小的密集物体或者重叠物体则无法很好地进行识别，若要实现较好的识别效果，需要预设大量的Anchor，但是同时又会降低计算速度，因此现有的基于神经网络的图像识别方法难以既保证准确地识别小物体又保证识别速度。

因此，如何提出一种在不牺牲对大物体检测准确性的前提下，能够保证对小物体识别准确性的同时提高识别速度的方案是本领域技术人员目前需要解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有技术难以既保证准确地识别小物体又保证识别速度的问题，本发明的第一方面提供了一种图像物体识别方法，包括：

获取目标图像对应的多个预设图像尺寸的待识别图像并且分别对每个所述待识别图像的像素坐标进行归一化处理，得到所述每个待识别图像的像素坐标矩阵；

基于预先构建的图像物体识别网络并且根据所述每个待识别图像及其像素坐标矩阵，识别所述目标图像中对象的类别和位置信息；

其中，所述图像物体识别网络是基于预设的图像识别样本并利用机器学习算法所构建的神经网络。

在上述方法的优选技术方案中，所述图像物体识别网络包括多个按照网络层尺度由大至小顺次连接的编码网络以及多个按照网络层尺度由小至大顺次连接的解码网络；

其中，所述网络层尺度相同的编码网络与解码网络连接。

在上述方法的优选技术方案中，“基于预先构建的图像物体识别网络并且根据所述每个待识别图像及其像素坐标矩阵，识别所述目标图像中对象的类别和位置信息”的步骤包括：

基于首层编码网络并且根据与所述首层编码网络对应的待识别图像及其像素坐标矩阵进行编码，基于非首层编码网络并且根据前一层编码网络的编码结果以及与所述非首层编码网络对应的待识别图像及其像素坐标矩阵进行编码；

基于首层解码网络并且根据最后一层编码网络的编码结果进行解码，基于非首层解码网络并且根据前一层解码网络的解码结果以及与所述非首层解码网络对应的编码网络的编码结果进行解码；

根据最后一层解码网络的解码结果获取所述目标图像中对象的类别和位置信息；

其中，每个所述编码网络对应的待识别图像及其像素坐标矩阵取决于所述每个编码网络的网络层尺度，所述目标图像中对象的位置信息包括所述对象的中心点坐标和所述对象的边框坐标。

在上述方法的优选技术方案中，“获取目标图像对应的多个预设图像尺寸的待识别图像”的步骤包括：

判断所述目标图像的长宽是否一致，

若一致，则分别根据所述多个预设图像尺寸对所述目标图像进行缩小处理，得到所述待识别图像；

若不一致，则在将所述目标图像的长宽调整一致后分别根据所述多个预设图像尺寸对所述调整后的目标图像进行缩小处理，得到所述待识别图像；

其中，所述预设图像尺寸取决于所述目标图像的尺寸。

在上述方法的优选技术方案中，所述方法还包括：

基于所述图像识别样本与预设的目标函数并且利用所述机器学习算法对所述图像物体识别网络进行网络训练；

其中，所述目标函数包括分类目标函数和位置检测目标函数。

本发明的第二方面还提供了一种图像物体识别系统，包括：

获取模块，配置为获取目标图像对应的多个预设图像尺寸的待识别图像并且分别对每个所述待识别图像的像素坐标进行归一化处理，得到所述每个待识别图像的像素坐标矩阵；

识别模块，配置为基于预先构建的图像物体识别网络并且根据所述每个待识别图像及其像素坐标矩阵，识别所述目标图像中对象的类别和位置信息；

在上述系统的优选技术方案中，所述图像物体识别网络包括多个按照网络层尺度由大至小顺次连接的编码网络以及多个按照网络层尺度由小至大顺次连接的解码网络；

其中，所述网络层尺度相同的编码网络与解码网络连接。

在上述系统的优选技术方案中，所述识别模块进一步配置为：

在上述系统的优选技术方案中，所述获取模块进一步配置为：

判断所述目标图像的长宽是否一致，

其中，所述预设图像尺寸取决于所述目标图像的尺寸。

在上述系统的优选技术方案中，所述图像物体识别系统还包括训练模块，所述训练模块配置为：

与最接近的现有技术相比，上述技术方案至少具有如下有益效果：

1、本发明提供的图像物体识别方法，可以基于预先构建的图像物体识别网络并根据获取的每个待识别图像及其像素坐标矩阵，图像物体识别网络包括多个按照网络层尺度由大至小顺次连接的编码网络以及多个按照网络层尺度由小至大顺次连接的解码网络，网络层尺度相同的编码网络与解码网络连接，可以识别目标图像中对象的类别和位置信息，一次性实现物体的识别和分类，图像物体识别网络可以在不同网络尺度上识别每个待识别图像中不同大小的物体，可以识别出同一位置上多个大小不同的物体。

2、本发明提供的图像物体识别方法，首层编码网络对与其对应的待识别图像及其像素坐标矩阵进行编码，非首层编码网络根据前一层编码网络的结果以及其对应的待识别图像和像素坐标矩阵进行编码；首层解码网络对最后一层编码网络的编码结果进行解码，非首层解码网络根据前一层解码网络的解码结果以及其对应的编码网络的编码结果进行解码，可以在不牺牲大物体识别准确性的前提下，提高对小物体识别的精度，并且无需采用Anchor机制，提高了识别速度。

附图说明

图1为本发明一种实施例的图像物体识别方法的主要步骤示意图；

图2为本发明一种实施例的图像物体识别网络进行物体识别的主要流程示意图；

图3为本发明一种实施例的图像物体识别系统的主要结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

参阅附图1，图1示例性地示出了本实施例中图像物体识别方法的主要步骤。如图1所示，本实施例中图像物体识别方法主要包括下述步骤：

步骤S101：获取目标图像对应的多个预设图像尺寸的待识别图像。

在实际应用中，图像中较小的密集物体或者重叠物体是图像识别的一大难题，现有技术大都采用Anchor机制，该机制预设大量的Anchor，让所需要计算的物体框和预先设定的Anchor作比较，难以既保证准确地识别小物体又保证识别速度。因此，为了可以在不牺牲对大物体检测准确性的前提下，又能够保证对小物体识别准确性的同时提高识别速度，可以获取目标图像对应的多个预设图像尺寸的待识别图像，具体地，获取目标图像对应的多个预设图像尺寸的待识别图像的步骤可以包括：

判断目标图像的长宽是否一致，

若一致，则分别根据多个预设图像尺寸对目标图像进行缩小处理，得到待识别图像；

若不一致，则在将目标图像的长宽调整一致后分别根据多个预设图像尺寸对调整后的目标图像进行缩小处理，得到待识别图像；

其中，预设图像尺寸取决于目标图像的尺寸。

为了减少后续计算量，可以先将目标图像的长宽调整为一致。为了能够更好地识别图像中较小的密集物体或者重叠物体，可以分别根据多个预设图像尺寸对目标图像进行缩小处理，得到待识别图像。对目标图像进行缩小处理，是为了网络中每一层均可以直接得到原始图像的信息。其中，预设的图像尺寸取决于目标图像的尺寸，以目标图像的尺寸是W*W为例，则根据多个预设图像尺寸对目标图像进行缩小处理得到的待识别图像的尺寸可以为(1/2W)*(1/2W)、(1/4W)*(1/4W)等，可以从不同尺寸的图像可以识别出不同大小的物体。

步骤S102：分别对每个待识别图像的像素坐标进行归一化处理，得到每个待识别图像的像素坐标矩阵。

分别对每个待识别图像的像素坐标进行归一化处理，可以得到每个待识别图像的像素坐标矩阵，计算图像像素的坐标有利于后续网络计算每个物体的高和宽，不仅可以提高计算速度，还可以更好地获取图像中物体的位置信息。具体地，以输入图像的大小是W*W为例，进行归一化处理后，像素坐标矩阵中第(i，j)个元素的值为(i/W，j/W)。

步骤S103：基于预先构建的图像物体识别网络的首层编码网络并且根据与首层编码网络对应的待识别图像及其像素坐标矩阵进行编码。

预先构建的图像物体识别网络是基于预设的图像识别样本并利用机器学习算法所构建的神经网络，其中，神经网络可以是UNet网络结构。为了能够更好地识别图像中物体的类型和位置信息，在图像物体识别网络进行物体识别，获取物体的类型和位置信息之前，可以基于图像识别样本与预设的目标函数并且利用机器学习算法对图像物体识别网络进行网络训练，其中，目标函数包括分类函数和位置检测目标函数。

具体地，目标函数包含两个部分。第一个部分是分类，模型采用标准的softmax函数进行分类，然后计算交叉熵作为分类的目标函数；第二部分是对目标物体的边界框的长和宽进行回归，采用L1距离进行回归。由于分类的目标大部分都是背景，为了更稳定的训练，可以采用常用的损失函数：

FL(p)＝-(1-p)^γlog(p)

其中，p表示目标物体在某个位置是某种类别的预测概率，γ表示预设的参数。

为了更好地训练图像物体识别网络，可以对图像识别样本进行预处理，具体地，可以假设图像识别样本包括图像以及图像中每个对象的边界框，其中，图像的尺寸可以为H*W，因此，可以获得每个物体的重心为c，高和宽分别为h和w，根据每个物体的宽度为该物体定义一个尺度s：

s＝floor(min(h/H,w/W)/0.05)

若一个物体很小，那么s可以认为等于0，该物体则可以在图像物体识别网络的靠后层被检出；若一个物体很大，那么s可以认为很大，则该物体可以在图像物体识别网络靠前层被检出，因此，大尺寸的物体和小尺寸的物体可以同时被检出。此外，训练图像物体识别网络可以使用Adam算法，可以使用xavier算法初始化网络的权重参数。

参阅附图2，图2示例性地示出了本实施例中图像物体识别网络进行物体识别的主要流程。如图2所示，图2中A1表示归一化的坐标矩阵，A2表示识别出的物体的类别，A3表示识别出的物体的位置信息，E1-E3表示编码网络的编码层，D1-D3表示解码网络的解码层，箭头表示输入输出关系。

图像物体识别网络包括多个按照网络层尺度由大至小顺次连接的编码网络以及多个按照网络层尺度由小至大顺次连接的解码网络，网络层尺度相同的编码网络与解码网络连接，其中，每一层编码网络和解码网络均可以包括多个神经网络组件，包括但不限于Conv、ReLU、BatchNorm等标准的神经网络组件。

首层编码网络根据与首层编码网络对应的待识别图像及其像素坐标矩阵进行编码，其中，首层编码网络对应的待识别图像可以是原始目标图像，首层编码网络对与其对应的待识别图像及其像素坐标矩阵进行编码后，将编码结果送入与其连接的下一层编码网络。

步骤S104：基于图像物体识别网络的非首层编码网络并且根据前一层编码网络的编码结果以及与非首层编码网络对应的待识别图像及其像素坐标矩阵进行编码。

每一层非首层编码网络均包括两个输入，一个输入是前一层编码网络的编码结果，另一个是与非首层编码网络对应的待识别图像及其像素坐标矩阵，根据前一层编码网络的编码结果以及与非首层编码网络对应的待识别图像及其像素坐标矩阵进行编码，将编码结果送入与其连接的下一层编码网络，直至最后一层编码网络将编码结果送入与其连接的解码网络。

步骤S105：基于图像物体识别网络的首层解码网络并且根据最后一层编码网络的编码结果进行解码。

首层解码网络根据最后一层编码网络的编码结果进行解码，将解码结果送入与其连接的下一层解码网络。

步骤S106：基于图像物体识别网络的非首层解码网络并且根据前一层解码网络的解码结果以及与非首层解码网络对应的编码网络的编码结果进行解码，根据最后一层解码网络的解码结果获取目标图像中对象的类别和位置信息。

除首层解码网络外，其余的非首层解码网络均包括两个输入，其中，非首层解码网络的一个输入是前一层解码网络的解码结果，另一个输入是与非首层解码网络对应的编码网络的编码结果；每层非首层解码网络根据前一层解码网络的解码结果以及与非首层解码网络对应的编码网络的编码结果进行解码，将解码结果送入与其连接的下一层解码网络，直至最后一层解码网络获取目标图像中对象的类别和位置信息，其中，每一层解码网络均可以输出图像中物体的类别和位置信息，最后一层解码网络将每一层解码网络输出的物体的类别和位置信息汇总显示。

具体地，对于每张图片，其解码网络某一层的类别输出是一个3D矩阵W*W*C，其中W*W表示对应分辨率下图片的尺寸，C表示一共要识别的物体的种类数(将背景看作是一个独立的类别)。图像物体识别网络的解码网络的尺度越大，如最后一层解码网络，那么这一层就能包含更多的细节信息，就更容易识别小的物体。因此，网络的尺度越大，所能识别的物体的越小，反之亦然。在解码网络的某个层上，如果输出物体的类别为c，并且物体的高和宽分别是h和w，那么在对应尺度的图像上，以该位置为中心，长h宽w的区域是一个属于类别c的物体。通过这种方式可以识别出不同大小的物体，并且可以有效的识别小的物体。而且图像物体识别网络可以直接输出物体的中心而不需要用回归函数来识别物体的位置，网络可以直接回归物体的大小而不需要一个Anchor来间接的识别物体的大小。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

基于上述方法实施例，本发明还提供了一种图像物体识别系统。下面结合附图，对该图像物体识别系统进行说明。

参阅附图3，图3示例性地示出了本实施例中图像物体识别系统的主要结构。图像物体识别系统主要包括获取模块1和识别模块2。

获取模块1，配置为获取目标图像对应的多个预设图像尺寸的待识别图像并且分别对每个所述待识别图像的像素坐标进行归一化处理，得到所述每个待识别图像的像素坐标矩阵；

识别模块2，配置为基于预先构建的图像物体识别网络并且根据所述每个待识别图像及其像素坐标矩阵，识别所述目标图像中对象的类别和位置信息；

在上述系统实施例的优选技术方案中，所述图像物体识别网络包括多个按照网络层尺度由大至小顺次连接的编码网络以及多个按照网络层尺度由小至大顺次连接的解码网络；

其中，所述网络层尺度相同的编码网络与解码网络连接。

在上述系统实施例的优选技术方案中，所述识别模块2进一步配置为：

在上述系统实施例的优选技术方案中，所述获取模块1进一步配置为：

判断所述目标图像的长宽是否一致，

其中，所述预设图像尺寸取决于所述目标图像的尺寸。

在上述系统实施例的优选技术方案中，所述图像物体识别系统还包括训练模块，所述训练模块配置为：

所属技术领域的技术人员可以清楚地了解到，为了描述的方便和简洁，本发明系统实施例的具体工作过程以及相关说明，可以参考前述方法实施例中的对应过程，且与上述方法具有相同的有益效果，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种图像物体识别方法，其特征在于，包括：

其中，所述图像物体识别网络是基于预设的图像识别样本并利用机器学习算法所构建的神经网络；

其中，所述图像识别样本包括图像以及图像中每个对象的边界框，当图像的尺寸为H*W，获得每个对象的物体的中心为c，高和宽分别为h和w，定义该物体的一个尺度s为：

s＝floor(min(h/H,w/W)/0.05)；

若一个物体很小，那么s认为等于0，该物体在图像物体识别网络的靠后层被检出；

若一个物体很大，那么s认为很大，该物体在图像物体识别网络靠前层被检出；

所述图像物体识别网络包括多个按照网络层尺度由大至小顺次连接的编码网络以及多个按照网络层尺度由小至大顺次连接的解码网络；其中，所述网络层尺度相同的编码网络与解码网络连接；

“基于预先构建的图像物体识别网络并且根据所述每个待识别图像及其像素坐标矩阵，识别所述目标图像中对象的类别和位置信息”的步骤包括：

2.根据权利要求1所述的图像物体识别方法，其特征在于，“获取目标图像对应的多个预设图像尺寸的待识别图像”的步骤包括：

判断所述目标图像的长宽是否一致，

其中，所述预设图像尺寸取决于所述目标图像的尺寸。

3.根据权利要求1所述的图像物体识别方法，其特征在于，所述方法还包括：

4.一种图像物体识别系统，其特征在于，包括：

s＝floor(min(h/H,w/W)/0.05)；

所述识别模块进一步配置为：

5.根据权利要求4所述的图像物体识别系统，其特征在于，所述获取模块进一步配置为：

判断所述目标图像的长宽是否一致，

其中，所述预设图像尺寸取决于所述目标图像的尺寸。

6.根据权利要求4所述的图像物体识别系统，其特征在于，所述图像物体识别系统还包括训练模块，所述训练模块配置为：