CN107844794B

CN107844794B - 图像识别方法和装置

Info

Publication number: CN107844794B
Application number: CN201610839173.1A
Authority: CN
Inventors: 俞刚; 彭超
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2022-02-22
Anticipated expiration: 2036-09-21
Also published as: CN107844794A

Abstract

本发明实施例提供一种图像识别方法和装置。该图像识别方法包括：获取待识别图像；提取待识别图像的特征；将待识别图像的特征输入循环神经网络，以获得与待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域，其中，循环神经网络在每次循环中输出一个或多个候选区域之一，并且循环神经网络在当前循环中输出的候选区域与循环神经网络在之前的至少一次循环中输出的候选区域相关；以及对一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果。上述方法和装置采用循环神经网络进行图像识别，可以避免与其他对象重叠的对象被过滤，并且可以有效利用图像场景中的上下文信息。

Description

图像识别方法和装置

技术领域

本发明涉及图像识别领域，更具体地涉及一种图像识别方法和装置。

背景技术

图像识别主要是对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术。下面以互联网领域的图像理解为例进行描述。互联网上的图像每天都以上亿级的数量增长着，目前对互联网上的图像的处理往往是根据图像的标题来进行检索和索引。因为图像的标题往往可能有很大的随意性，因此给图像的检索带来了很大的干扰。随着图像识别技术的发展，对图像的智能理解已经越来越受到重视。相比于传统的通过人力描述的方式，通过人工智能以智能的方式对图像内容进行理解有着非常大的优点以及广泛的应用场景。

目前常规的图像理解主要通过对象检测算法，使用滑动窗(sliding-window)遍历图像中所有可能的位置，并使用分类器来判断当前位置是否存在感兴趣的对象。因为是遍历搜索，往往后期需要加入非极大值抑制(NMS，non-maximum suppression)，这样与其他对象重叠的对象有可能会被过滤掉。另外，因为每个位置都是独立进行对象识别的，即不考虑其他位置的对象的识别信息，因此在识别对象的过程中往往不能很好地利用图像场景中的上下文(context)信息。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种图像识别方法和装置。

根据本发明一方面，提供了一种图像识别方法。该图像识别方法包括：获取待识别图像；提取所述待识别图像的特征；将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域，其中，所述循环神经网络在每次循环中输出所述一个或多个候选区域之一，并且所述循环神经网络在当前循环中输出的候选区域与所述循环神经网络在之前的至少一次循环中输出的候选区域相关；以及对所述一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果。

示例性地，所述将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域包括：当所述循环神经网络的循环次数达到次数阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

示例性地，所述循环神经网络在每次循环中还输出与在该循环中输出的候选区域相关的置信度，所述将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域包括：当所述循环神经网络在当前循环中输出的置信度小于置信度阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

示例性地，所述提取所述待识别图像的特征包括：利用第一卷积神经网络提取所述待识别图像的特征。

示例性地，所述对所述一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果包括：对于所述一个或多个候选区域中的每一个，将所述待识别图像的特征和该候选区域输入第二卷积神经网络，以获得该候选区域所对应的对象的识别结果。

示例性地，所述识别结果包括对象的类别和对象的属性。

示例性地，在所述获取待识别图像之前，所述图像识别方法还包括：获取样本图像，所述样本图像中的每个对象的类别和属性是已知的；以及利用所述样本图像对所述循环神经网络和所述第二卷积神经网络进行训练。

示例性地，在所述提取所述待识别图像的特征之前，所述图像识别方法还包括：在所述待识别图像的尺寸大于预定尺寸的情况下，调整所述待识别图像的尺寸以使其不大于所述预定尺寸。

示例性地，所述循环神经网络在每次循环之后将在当前循环中输出的候选区域返回输入至所述循环神经网络的输入层用于下一候选区域的运算。

根据本发明另一方面，提供了一种图像识别装置。该图像识别装置包括：待识别图像获取模块，用于获取待识别图像；特征提取模块，用于提取所述待识别图像的特征；候选区域获得模块，用于将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域，其中，所述循环神经网络在每次循环中输出所述一个或多个候选区域之一，并且所述循环神经网络在当前循环中输出的候选区域与所述循环神经网络在之前的至少一次循环中输出的候选区域相关；以及对象识别模块，用于对所述一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果。

示例性地，所述候选区域获得模块包括：第一循环停止子模块，用于当所述循环神经网络的循环次数达到次数阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

示例性地，所述循环神经网络在每次循环中还输出与在该循环中输出的候选区域相关的置信度，所述候选区域获得模块包括：第二循环停止子模块，用于当所述循环神经网络在当前循环中输出的置信度小于置信度阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

示例性地，所述特征提取模块包括提取子模块，用于利用第一卷积神经网络提取所述待识别图像的特征。

示例性地，所述对象识别模块包括：识别子模块，用于对于所述一个或多个候选区域中的每一个，将所述待识别图像的特征和该候选区域输入第二卷积神经网络，以获得该候选区域所对应的对象的识别结果。

示例性地，所述识别结果包括对象的类别和对象的属性。

示例性地，所述图像识别装置还包括：样本图像获取模块，用于获取样本图像，所述样本图像中的每个对象的类别和属性是已知的；以及训练模块，用于利用所述样本图像对所述循环神经网络和所述第二卷积神经网络进行训练。

示例性地，所述图像识别装置还包括：图像调整模块，用于在所述特征提取模块提取所述待识别图像的特征之前，在所述待识别图像的尺寸大于预定尺寸的情况下，调整所述待识别图像的尺寸以使其不大于所述预定尺寸。

根据本发明实施例的图像识别方法和装置，由于采用循环神经网络来预测待识别图像中可能存在的对象，因此无需传统图像识别方法中使用NMS进行抑制的操作，这样可以避免与其他对象重叠的对象被过滤掉，此外，该方法可以有效地利用图像场景中的上下文信息。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的图像识别方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的图像识别方法的示意性流程图；

图3示出根据本发明一个实施例的图像识别方法的操作流程的示意图；

图4示出根据本发明一个实施例的图像识别装置的示意性框图；以及

图5示出根据本发明一个实施例的图像识别系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为了解决上文所述的问题，本发明提出一种基于深度神经网络的图像识别方法，其首先提取出图像的特征描述，随后使用循环神经网络(Recurrent Neural Network，简称RNN)来预测图像中可能存在的对象，随后对对象进行识别，例如给出语义上面的类别和/或属性判断。本发明提出的方法可以应用于各种图像的理解，特别是互联网图像的理解，其对于互联网检索和互联网广告等领域具有非常重要的意义。

首先，参照图1来描述用于实现根据本发明实施例的图像识别方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108和图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集用于进行图像识别的待识别图像，并且将所采集的待识别图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他图像采集装置采集用于进行图像识别的待识别图像，并将采集的待识别图像发送给电子设备100，或者电子设备100可以经由网络下载或直接从本地存储装置(例如上述存储装置104)中获取待识别图像。

示例性地，用于实现根据本发明实施例的图像识别方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的图像识别方法。图2示出根据本发明一个实施例的图像识别方法200的示意性流程图。如图2所示，图像识别方法200包括以下步骤。

在步骤S210，获取待识别图像。

待识别图像可以是任何需要识别其中所包含的对象的图像。例如，待识别图像可以是用于进行图像理解的图像。图像理解即需要研究图像中有什么对象、对象之间的相互关系如何、图像描述的是什么场景等等，在这种情况下，需要对图像中的对象进行识别。

待识别图像可以是摄像头采集到的原始图像或者是经由网络下载或本地存储的原始图像，也可以是对原始图像进行预处理之后获得的图像。另外，待识别图像可以是静态图像，也可以是一段视频中的视频帧。

在步骤S220，提取待识别图像的特征。

为了识别待识别图像中的对象，可以首先从待识别图像中提取有价值的特征描述，基于提取出的特征来识别待识别图像中的对象。示例性地，待识别图像的特征可以采用常规特征表示，例如其可以是手动设计(hand-crafted)特征，如梯度直方图(HOG，histogram of gradient)特征等。相应地，可以采用常规的图像特征提取方法来提取待识别图像的特征。

示例性地，可以利用训练好的卷积神经网络(CNN)来提取待识别图像的特征。根据本发明一个实施例，步骤S220可以包括：利用第一卷积神经网络提取待识别图像的特征。与常规特征相比，利用卷积神经网络提取的特征对待识别图像的描述能力更强，并且能够充分利用现有的大数据。示例性而非限制性地，第一卷积神经网络可以是VGG网络或者残差网络(residual network)。第一卷积神经网络可以具有任何合适的网络结构，其卷积层等各种层的层数、滤波器个数、滤波器大小等参数均可以根据需要而定，本发明不对此进行限制。示例性地，第一卷积神经网络可以预先采用大量样本图像训练获得。

在采用第一卷积神经网络提取待识别图像的特征的过程中，可以提取出待识别图像中有价值的信息，同时尽可能保留待识别图像的空间位置关系。待识别图像的特征是用特征图(feature map)的形式表示的，也就是说，第一卷积神经网络实际输出的是特征图。与原始输入的待识别图像相比，随着第一卷积神经网络中的多个卷积层的不断卷积，卷积层输出的特征图的尺寸越来越小。举例说明，假设初始输入第一卷积神经网络的待识别图像的尺寸是100像素×100像素，在经过多次卷积之后，第一卷积神经网络最终输出的特征图的尺寸可能是例如24像素×24像素。虽然与原始输入的待识别图像相比，第一卷积神经网络输出的特征图的尺寸缩小了，但是其可以在一定程度上保留待识别图像的空间位置关系。例如，假设待识别图像中包含两个行人A和B，行人A在左，行人B在右，则第一卷积神经网络输出的特征图所表示的该两个行人的相对位置关系基本是不变的，还是行人A在左行人B在右。

在步骤S230，将待识别图像的特征输入循环神经网络，以获得与待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域，其中，循环神经网络在每次循环中输出一个或多个候选区域之一，并且循环神经网络在当前循环中输出的候选区域与循环神经网络在之前的至少一个循环中输出的候选区域相关。

如上文所述，传统的图像识别往往依赖于使用滑动窗遍历图像中的所有位置，然后使用分类器来判断当前位置是否存在感兴趣的对象，但是这样需要后续使用NMS来抑制一些冗余框。NMS的阈值定义非常复杂，过大容易导致在拥挤(crowd)情况下抑制掉某些对象，过小容易导致过多的假阳性(false positive)。另外，由于每个位置是独立做分类决策的，所以往往没有用到图像场景中的上下文信息。

本发明提出使用循环神经网络来循环生成对象的候选区域。候选区域可以指示对象所处的位置，其包含可能的对象候选。候选区域可以用边界框(bounding-box)的形式来表示。由于循环神经网络在每次循环之后输出与一个对象对应的一个候选区域而非针对同一对象输出多个候选区域，因此在图像识别过程中，无需使用NMS来抑制冗余框，从而可以避免过滤掉与其他对象重叠的对象。另外，由于循环神经网络中有记忆单元(memory)，其可以对之前循环的状态进行一定的信息存储，所以每次预测下一对象时，都可以利用之前预测出的对象的部分信息。例如，假设待识别图像中包含两个行人A和B，行人A对行人B有一定程度的遮挡，并且假设循环神经网络在第一次循环中输出包含行人A在内的边界框(即候选区域)a，则在循环神经网络的第二次循环过程中，可以将边界框a考虑在内，即认为行人B不可能也占据边界框a的位置，从而将边界框a所占据的区域排除在外，仅检测行人B未被行人A遮挡住的部分。当然，在这种情况下，除可以利用图像场景中的上下文信息之外，还可以达到上文所描述的避免与其他对象重叠的对象被过滤的效果，因为即使行人B被行人A部分遮挡，仍然可以检测到行人B，而不会将行人B过滤掉。又例如，假设待识别图像中包含自行车和自行车上方的骑车人，并且假设循环神经网络在第一次循环中输出包含自行车在内的边界框(即候选区域)b，则在循环神经网络的第二次循环过程中，可以考虑在边界框b周围的像素信息，从而可以检测到位于自行车上方的骑车人。应当理解，上面的两个示例是通过形象化的方式描述循环神经网络对上下文信息的利用，然而，实际上循环神经网络不一定按照上述逻辑对图像进行处理，其具体工作方式需要根据实际情况而定。

由于循环神经网络本身的信息反馈机制的作用，使得循环神经网络在当前循环中输出的候选区域与循环神经网络在之前的至少一次循环中输出的候选区域相关。示例性地，循环神经网络在每次循环之后将在该循环中输出的候选区域返回输入至循环神经网络的输入层用于下一候选区域的运算。在利用循环神经网络循环计算候选区域的过程中，待识别图像的特征是循环神经网络的固定输入，在每次循环中待识别图像的特征都作为循环神经网络的一路输入参与运算，而每次循环所输出的候选区域可以返回到循环神经网络的输入层作为新的输入参与下一候选区域的运算。如上文所述，循环神经网络包含记忆单元，其可以存储当前循环中的一些状态信息(其包括某些隐藏层输出的中间结果和输出层输出的候选区域)，在下一次循环过程中这些存储的状态信息可以作为反馈信息输入到循环神经网络的输入层。本领域技术人员可以理解，对于循环神经网络内部的各种层的连接关系和反馈关系均可以通过循环神经网络的训练而确定，其无需人工干涉。

从以上描述的循环神经网络的反馈方式可以看出，由于每次循环开始时的输入层和/或隐藏层的参数都会有所变化，因此可以保证当前循环输出的候选区域与之前的循环输出的候选区域不同，也就是说这两个候选区域不包含同一对象(即不与同一对象相对应)。基于上述原因，如上文所描述的那样，在图像识别过程中，无需使用NMS来抑制冗余框，从而可以避免过滤掉与其他对象重叠的对象。

在步骤S240，对一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果。

示例性地，对象的识别结果可以包括对象的类别和/或对象的属性。对象的类别可以是诸如行人、汽车、猫、牛、房屋等类别。对象的属性可以包括通用属性和特定类别的对象所拥有的属性。通用属性可以是诸如对象的颜色、纹理等，特定类别的对象所拥有的属性可以是诸如汽车的车型、车牌号、用途，行人的年龄、性别、身高，等等。

示例性地，可以通过训练好的分类器对候选区域所对应的对象进行识别，以判断其类别和/或属性。分类器可以是卷积神经网络。根据本发明一个实施例，步骤S240可以包括：对于一个或多个候选区域中的每一个，将待识别图像的特征和该候选区域输入第二卷积神经网络，以获得该候选区域所对应的对象的识别结果。

在计算获得一个或多个候选区域之后，将每个候选区域与待识别图像的特征一起输入第二卷积神经网络，以判断该候选区域所对应的对象的类别和/或属性。图3示出根据本发明一个实施例的图像识别方法的操作流程的示意图。图3仅是示例而非对本发明的限制，根据本发明实施例的图像识别方法不局限于图3所示的流程模式。如图3所示，首先将待识别图像输入到第一卷积神经网络中提取特征，随后将第一卷积神经网络输出的待识别图像的特征输入循环神经网络中获得候选区域，随后利用第二卷积神经网络识别候选区域所对应的对象。在采用第二卷积神经网络识别对象时，可以将待识别图像的特征和每个候选区域输入第二卷积神经网络，以判断候选区域所对应的对象的类别和/或属性。

上述第一卷积神经网络、循环神经网络和第二卷积神经网络可以是预先训练好的，这些网络的训练过程与其使用过程类似，区别在于输入的是样本图像，并且训练过程中需要构建损失函数。

根据本发明实施例的图像识别方法，由于采用循环神经网络来预测待识别图像中可能存在的对象，循环神经网络在每次循环中输出一个候选区域，并且利用当前输出的候选区域计算下一候选区域的位置，因此这样能保证下一次输出的候选区域和当前输出的候选区域所对应的对象不是同一对象，从而无需传统图像识别方法中使用NMS进行抑制的操作，这样可以避免与其他对象重叠的对象被过滤掉。此外，由于采用循环神经网络，因此在每次循环过程中计算候选区域时考虑了之前的候选区域的信息，因此可以有效地利用图像场景中的上下文信息来计算候选区域，从而可以提高候选区域确定的准确度，并且可以提高图像识别效率。

示例性地，根据本发明实施例的图像识别方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的图像识别方法可以部署在图像采集端处，例如，可以部署在具有摄像头的移动终端处。替代地，根据本发明实施例的图像识别方法还可以分布地部署在服务器端(或云端)和客户端处。例如，可以在客户端采集待识别图像，客户端将采集到的待识别图像传送给服务器端(或云端)，由服务器端(或云端)进行图像识别。

示例性地，步骤S230可以包括：当循环神经网络的循环次数达到次数阈值时，停止循环神经网络的循环，以获得一个或多个候选区域中的所有候选区域。

次数阈值可以是任何合适的值，本发明不对此进行限制。例如，次数阈值可以是10、20、100等。循环神经网络不断循环运算，每次循环输出一个候选区域(bounding-box)，该候选区域用于指示对应对象的位置。次数阈值可以根据理论或经验设定。例如，可以假设图像中的对象不太可能超过100个，因此可以将次数阈值设置为100。在这种情况下，在循环神经网络循环100次之后，循环次数达到次数阈值，此时可以停止循环神经网络的循环，得到100个候选区域。

示例性地，循环神经网络在每次循环中还输出与在该循环中输出的候选区域相关的置信度，步骤S230可以包括：当循环神经网络在当前循环中输出的置信度小于置信度阈值时，停止循环神经网络的循环，以获得一个或多个候选区域中的所有候选区域。

循环神经网络在每次循环中除输出一个候选区域之外，还输出该候选区域的置信度，其用分数(score)表示。候选区域中包含的对象(即候选区域对应的对象)可能是任意感兴趣的前景类别中的一类对象。前景类别可以理解为采用本文所述的图像识别方法能够识别出的对象类别，也就是基于训练好的循环神经网络、在采用第一卷积神经网络的情况下的第一卷积神经网络以及在采用第二卷积神经网络的情况下的第二卷积神经网络能够识别出的对象类别，例如行人、汽车等等。除前景类别以外的其他对象类别可以视为背景类别，即采用本文所述的图像识别方法无法识别出的对象类别都可以视为背景类别。循环神经网络每次输出的候选区域可以按置信度的大小排序输出，也就是说循环神经网络在第一次循环中输出的候选区域的置信度最高，在第二次循环中输出的候选区域的置信度低于在第一次循环中输出的候选区域的置信度，在第三次循环中输出的候选区域的置信度低于在第二次循环中输出的候选区域的置信度，依此类推。如果当前输出的置信度小于置信度阈值，则可以停止循环神经网络的循环，即不再计算和输出新的候选区域，不再检测新的对象。置信度阈值可以是任何合适的值，本发明不对此进行限制。

如上所述，整个算法不停地循环输出候选区域，直到置信度小于置信度阈值时停止。需要注意的是，在循环神经网络输出与每个候选区域相关的置信度的情况下，返回至循环神经网络的输入层的信息还可以包括在每次循环中输出的置信度。

根据本发明实施例，识别结果可以包括对象的类别和对象的属性。在采用第二卷积神经网络进行对象识别的情况下，可以采用第二卷积神经网络同时检测对象的类别和属性，相应地，在训练过程中，可以利用已知对象的类别和属性同时训练第二卷积神经网络。

第二卷积神经网络可以是一个小型的卷积神经网络，其输出端有两个分支，分别用于输出对象的类别和对象的属性。对于在步骤S230中生成的每个候选区域，在利用第二卷积神经网络判断对象的种类(特定前景类或者背景类)时，可以同时输出该对象的多个属性，包括但不限于：对象的颜色、纹理等通用属性，以及某些类别特有的属性，例如汽车的车型、用途，行人的年龄、性别等。

同时输出对象的类别以及属性的一个好处是对象识别过程可以当作多任务学习(Multi-task learning)过程。因为对象的属性对于对象的类别的判断是非常有价值的，同时，对象的类别的信息对于属性的预测也是非常有价值的，所以将这两部分一起输出能够相辅相成，同时可以节约计算资源(复用了两种任务的一些特征)。

根据本发明实施例，在步骤S210之前，图像识别方法200还可以包括：获取样本图像，所述样本图像中的每个对象的类别和属性是已知的；以及利用样本图像对循环神经网络和第二卷积神经网络进行训练。

可以收集大量样本图像，样本图像中的对象的类别和属性已知，然后利用这些样本图像来训练循环神经网络、第二卷积神经网络以及在采用第一卷积神经网络的情况下的第一卷积神经网络。

如上文所述，由第二卷积神经网络输出对象的类别和属性的过程(即对象识别过程)可以视为一个多任务学习过程，因为这两个任务是强相关的，因此在第二卷积神经网络的训练期间，可以在输出端构建分别与类别和属性相关的两个损失函数，利用这两个损失函数的激活信号来训练第二卷积神经网络，从而能够增强类别和属性这两个方面的结果。此外，在计算对象的类别和属性的过程中，两个任务可以相互复用对方的很多中间结果。

根据本发明实施例，在步骤S220之前，图像识别方法200还可以包括：在待识别图像的尺寸大于预定尺寸的情况下，调整待识别图像的尺寸以使其不大于预定尺寸。

对于尺寸过大的待识别图像，可能需要做一些尺寸调整(resize)操作，以避免处理过大的图像时发生存储溢出等问题。预定尺寸可以根据需要设定，其可以是任何合适的尺寸，本发明不对此进行限制。

除调整图像尺寸之外，在步骤S220之前，还可以执行其他图像预处理操作，包括但不限于图像的滤波、平滑等操作。

根据本发明另一方面，提供一种图像识别装置。图4示出了根据本发明一个实施例的图像识别装置400的示意性框图。

如图4所示，根据本发明实施例的图像识别装置400包括待识别图像获取模块410、特征提取模块420、候选区域获得模块430和对象识别模块440。所述各个模块可分别执行上文中结合图2-3描述的图像识别方法的各个步骤/功能。以下仅对该图像识别装置400的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

待识别图像获取模块410用于获取待识别图像。待识别图像获取模块410可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

特征提取模块420用于提取所述待识别图像的特征。特征提取模块420可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

候选区域获得模块430用于将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域，其中，所述循环神经网络在每次循环中输出所述一个或多个候选区域之一，并且所述循环神经网络在当前循环中输出的候选区域与所述循环神经网络在之前的至少一次循环中输出的候选区域相关。候选区域获得模块430可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

对象识别模块440用于对所述一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果。对象识别模块440可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

根据本发明实施例，所述候选区域获得模块430包括：第一循环停止子模块，用于当所述循环神经网络的循环次数达到次数阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

根据本发明实施例，所述循环神经网络在每次循环中还输出与在该循环中输出的候选区域相关的置信度，所述候选区域获得模块430包括：第二循环停止子模块，用于当所述循环神经网络在当前循环中输出的置信度小于置信度阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

根据本发明实施例，所述特征提取模块420包括提取子模块，用于利用第一卷积神经网络提取所述待识别图像的特征。

根据本发明实施例，所述对象识别模块440包括：识别子模块，用于对于所述一个或多个候选区域中的每一个，将所述待识别图像的特征和该候选区域输入第二卷积神经网络，以获得该候选区域所对应的对象的识别结果。

根据本发明实施例，所述识别结果包括对象的类别和对象的属性。

根据本发明实施例，所述图像识别装置400还包括：样本图像获取模块，用于获取样本图像，所述样本图像中的每个对象的类别和属性是已知的；以及训练模块，用于利用所述样本图像对所述循环神经网络和所述第二卷积神经网络进行训练。

根据本发明实施例，所述图像识别装置400还包括：图像调整模块，用于在所述特征提取模块420提取所述待识别图像的特征之前，在所述待识别图像的尺寸大于预定尺寸的情况下，调整所述待识别图像的尺寸以使其不大于所述预定尺寸。

根据本发明实施例，所述循环神经网络在每次循环之后将在当前循环中输出的候选区域返回输入至所述循环神经网络的输入层用于下一候选区域的运算。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图5示出了根据本发明一个实施例的图像识别系统500的示意性框图。图像识别系统500包括图像采集装置510、存储装置520、以及处理器530。

图像采集装置510用于采集待识别图像。图像采集装置510是可选的，图像识别系统500可以不包括图像采集装置510。

所述存储装置520存储用于实现根据本发明实施例的图像识别方法中的相应步骤的程序代码。

所述处理器530用于运行所述存储装置520中存储的程序代码，以执行根据本发明实施例的图像识别方法的相应步骤，并且用于实现根据本发明实施例的图像识别装置中的待识别图像获取模块410、特征提取模块420、候选区域获得模块430和对象识别模块440。

在一个实施例中，所述程序代码被所述处理器530运行时使所述图像识别系统500执行以下步骤：获取待识别图像；提取所述待识别图像的特征；将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域，其中，所述循环神经网络在每次循环中输出所述一个或多个候选区域之一，并且所述循环神经网络在当前循环中输出的候选区域与所述循环神经网络在之前的至少一次循环中输出的候选区域相关；以及对所述一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果。

在一个实施例中，所述程序代码被所述处理器530运行时使所述图像识别系统500所执行的将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域的步骤包括：当所述循环神经网络的循环次数达到次数阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

在一个实施例中，所述循环神经网络在每次循环中还输出与在该循环中输出的候选区域相关的置信度，所述程序代码被所述处理器530运行时使所述图像识别系统500所执行的将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域的步骤包括：当所述循环神经网络在当前循环中输出的置信度小于置信度阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

在一个实施例中，所述程序代码被所述处理器530运行时使所述图像识别系统500所执行的提取所述待识别图像的特征的步骤包括：利用第一卷积神经网络提取所述待识别图像的特征。

在一个实施例中，所述程序代码被所述处理器530运行时使所述图像识别系统500所执行的对所述一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果的步骤包括：对于所述一个或多个候选区域中的每一个，将所述待识别图像的特征和该候选区域输入第二卷积神经网络，以获得该候选区域所对应的对象的识别结果。

在一个实施例中，所述识别结果包括对象的类别和对象的属性。

在一个实施例中，在所述程序代码被所述处理器530运行时使所述图像识别系统500所执行的获取待识别图像的步骤之前，所述程序代码被所述处理器530运行时还使所述图像识别系统500执行：获取样本图像，所述样本图像中的每个对象的类别和属性是已知的；以及利用所述样本图像对所述循环神经网络和所述第二卷积神经网络进行训练。

在一个实施例中，在所述程序代码被所述处理器530运行时使所述图像识别系统500所执行的提取所述待识别图像的特征的步骤之前，所述程序代码被所述处理器530运行时还使所述图像识别系统500执行：在所述待识别图像的尺寸大于预定尺寸的情况下，调整所述待识别图像的尺寸以使其不大于所述预定尺寸。

在一个实施例中，所述循环神经网络在每次循环之后将在当前循环中输出的候选区域返回输入至所述循环神经网络的输入层用于下一候选区域的运算。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的图像识别方法的相应步骤，并且用于实现根据本发明实施例的图像识别装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的图像识别装置的各个功能模块，并且/或者可以执行根据本发明实施例的图像识别方法。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行以下步骤：获取待识别图像；提取所述待识别图像的特征；将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域，其中，所述循环神经网络在每次循环中输出所述一个或多个候选区域之一，并且所述循环神经网络在当前循环中输出的候选区域与所述循环神经网络在之前的至少一次循环中输出的候选区域相关；以及对所述一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域的步骤包括：当所述循环神经网络的循环次数达到次数阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

在一个实施例中，所述循环神经网络在每次循环中还输出与在该循环中输出的候选区域相关的置信度，所述计算机程序指令在被计算机运行时使所述计算机所执行的将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域的步骤包括：当所述循环神经网络在当前循环中输出的置信度小于置信度阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的提取所述待识别图像的特征的步骤包括：利用第一卷积神经网络提取所述待识别图像的特征。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的对所述一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果的步骤包括：对于所述一个或多个候选区域中的每一个，将所述待识别图像的特征和该候选区域输入第二卷积神经网络，以获得该候选区域所对应的对象的识别结果。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的获取待识别图像的步骤之前，所述计算机程序指令在被计算机运行时还使所述计算机执行：获取样本图像，所述样本图像中的每个对象的类别和属性是已知的；以及利用所述样本图像对所述循环神经网络和所述第二卷积神经网络进行训练。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的提取所述待识别图像的特征的步骤之前，所述计算机程序指令在被计算机运行时还使所述计算机执行：在所述待识别图像的尺寸大于预定尺寸的情况下，调整所述待识别图像的尺寸以使其不大于所述预定尺寸。

根据本发明实施例的图像识别系统中的各模块可以通过根据本发明实施例的实施图像识别的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的图像识别方法及装置，由于采用循环神经网络来预测待识别图像中可能存在的对象，因此无需传统图像识别方法中使用NMS进行抑制的操作，这样可以避免与其他对象重叠的对象被过滤掉，此外，该方法可以有效地利用图像场景中的上下文信息。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的图像识别装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像识别方法，包括：

获取待识别图像；

提取所述待识别图像的特征；

将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域，其中，所述循环神经网络在每次循环中输出所述一个或多个候选区域之一，并且所述循环神经网络在当前循环中输出的候选区域与所述循环神经网络在之前的至少一次循环中输出的候选区域相关，其中，所述一个或多个候选区域中的每个候选区域用边界框的形式表示；以及

对所述一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果；

其中，所述对所述一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果包括：

对于所述一个或多个候选区域中的每一个，将所述待识别图像的特征和该候选区域输入第二卷积神经网络，以获得该候选区域所对应的对象的识别结果。

2.如权利要求1所述的图像识别方法，其中，所述将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域包括：

当所述循环神经网络的循环次数达到次数阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

3.如权利要求1所述的图像识别方法，其中，所述循环神经网络在每次循环中还输出与在该循环中输出的候选区域相关的置信度，所述将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域包括：

当所述循环神经网络在当前循环中输出的置信度小于置信度阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

4.如权利要求1所述的图像识别方法，其中，所述提取所述待识别图像的特征包括：利用第一卷积神经网络提取所述待识别图像的特征。

5.如权利要求1所述的图像识别方法，其中，所述识别结果包括对象的类别和对象的属性。

6.如权利要求5所述的图像识别方法，其中，在所述获取待识别图像之前，所述图像识别方法还包括：

获取样本图像，所述样本图像中的每个对象的类别和属性是已知的；以及

利用所述样本图像对所述循环神经网络和所述第二卷积神经网络进行训练。

7.如权利要求1所述的图像识别方法，其中，在所述提取所述待识别图像的特征之前，所述图像识别方法还包括：

在所述待识别图像的尺寸大于预定尺寸的情况下，调整所述待识别图像的尺寸以使其不大于所述预定尺寸。

8.如权利要求1所述的图像识别方法，其中，所述循环神经网络在每次循环之后将在当前循环中输出的候选区域返回输入至所述循环神经网络的输入层用于下一候选区域的运算。

9.一种图像识别装置，包括：

待识别图像获取模块，用于获取待识别图像；

特征提取模块，用于提取所述待识别图像的特征；

候选区域获得模块，用于将所述待识别图像的特征输入循环神经网络，以获得与所述待识别图像中的一个或多个对象一一对应的、用于指示对应的对象的位置的一个或多个候选区域，其中，所述循环神经网络在每次循环中输出所述一个或多个候选区域之一，并且所述循环神经网络在当前循环中输出的候选区域与所述循环神经网络在之前的至少一次循环中输出的候选区域相关，其中，所述一个或多个候选区域中的每个候选区域用边界框的形式表示；以及

对象识别模块，用于对所述一个或多个候选区域中的每一个所对应的对象进行识别，以获得该候选区域所对应的对象的识别结果；

其中，所述对象识别模块包括：

识别子模块，用于对于所述一个或多个候选区域中的每一个，将所述待识别图像的特征和该候选区域输入第二卷积神经网络，以获得该候选区域所对应的对象的识别结果。

10.如权利要求9所述的图像识别装置，其中，所述候选区域获得模块包括：

第一循环停止子模块，用于当所述循环神经网络的循环次数达到次数阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

11.如权利要求9所述的图像识别装置，其中，所述循环神经网络在每次循环中还输出与在该循环中输出的候选区域相关的置信度，所述候选区域获得模块包括：

第二循环停止子模块，用于当所述循环神经网络在当前循环中输出的置信度小于置信度阈值时，停止所述循环神经网络的循环，以获得所述一个或多个候选区域中的所有候选区域。

12.如权利要求9所述的图像识别装置，其中，所述特征提取模块包括提取子模块，用于利用第一卷积神经网络提取所述待识别图像的特征。

13.如权利要求9所述的图像识别装置，其中，所述识别结果包括对象的类别和对象的属性。

14.如权利要求13所述的图像识别装置，其中，所述图像识别装置还包括：

样本图像获取模块，用于获取样本图像，所述样本图像中的每个对象的类别和属性是已知的；以及

训练模块，用于利用所述样本图像对所述循环神经网络和所述第二卷积神经网络进行训练。

15.如权利要求9所述的图像识别装置，其中，所述图像识别装置还包括：

图像调整模块，用于在所述特征提取模块提取所述待识别图像的特征之前，在所述待识别图像的尺寸大于预定尺寸的情况下，调整所述待识别图像的尺寸以使其不大于所述预定尺寸。

16.如权利要求9所述的图像识别装置，其中，所述循环神经网络在每次循环之后将在当前循环中输出的候选区域返回输入至所述循环神经网络的输入层用于下一候选区域的运算。