CN109978077B

CN109978077B - 视觉识别方法、装置和系统及存储介质

Info

Publication number: CN109978077B
Application number: CN201910278161.XA
Authority: CN
Inventors: 金鑫; 魏秀参; 赵博睿; 谢烟平
Original assignee: Xuzhou Kuangshi Data Technology Co ltd; Nanjing Kuangyun Technology Co ltd; Beijing Kuangshi Technology Co Ltd
Current assignee: Xuzhou Kuangshi Data Technology Co ltd; Nanjing Kuangyun Technology Co ltd; Beijing Kuangshi Technology Co Ltd
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2021-03-12
Anticipated expiration: 2039-04-08
Also published as: CN109978077A

Abstract

本发明实施例提供视觉识别方法、装置和系统及存储介质。方法包括：获取待识别图像；利用神经网络提取待识别图像的图像特征，神经网络包括残差学习结构；在每个残差学习结构中，残差块对神经网络中的、该残差学习结构所连接的上一结构输出的第一特征图进行卷积操作，以生成第二特征图；恒等映射块对第一特征图进行恒等映射操作，以获得第三特征图；打分块对第一特征图进行打分，以生成打分特征图；整合块根据第二特征图、第三特征图和打分特征图生成第四特征图，并将第四特征图输入到该残差学习结构所连接的下一结构中；基于图像特征对待识别图像进行视觉识别。上述方案可以显著提高视觉识别的准确率。

Description

视觉识别方法、装置和系统及存储介质

技术领域

本发明涉及人工智能领域，更具体地涉及一种视觉识别方法、装置和系统以及存储介质。

背景技术

视觉识别是计算机视觉中一个非常基本的问题，也是最重要的问题之一。视觉识别包括图像识别、目标检测、目标定位、实例分割、人体姿态估计、深度估计以及等多种技术。在深度学习时代，卷积神经网络(CNN)的出现让这类问题得到了很好的解决。卷积核是CNN的核心。CNN由一系列堆叠的卷积层构成，通过端到端的联合训练。这些卷积核由最终的损失函数驱动来进行优化，然后生成输入数据的分布式表示。这些分布式表示表明了图像的视觉识别结果。

在大规模图像数据集(如ImageNet和MS-COCO)上经过训练后，CNN具有优秀的特征抽取能力和图像识别能力，其中有一些优秀的网络模型，例如VGG、Inception系列和残差网络(ResNet)系列等。

虽然已经存在上述优秀的网络模型，但这些现有网络模型的视觉识别结果仍然难以满足用户对识别精度的要求。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种视觉识别方法、装置和系统以及存储介质。

根据本发明一方面，提供了一种视觉识别方法，包括：

获取待识别图像；

利用神经网络提取所述待识别图像的图像特征，其中，所述神经网络包括至少一个残差学习结构，每个残差学习结构包括残差块、恒等映射块、打分块和整合块；

在每个残差学习结构中，

所述残差块用于对该残差学习结构所连接的上一结构输出的第一特征图进行卷积操作，以生成第二特征图；

所述恒等映射块用于对所述第一特征图进行恒等映射操作，以获得第三特征图；

所述打分块用于对所述第一特征图进行打分，以生成打分特征图；

所述整合块用于根据所述第二特征图、所述第三特征图和所述打分特征图生成第四特征图，并将所述第四特征图输入到该残差学习结构所连接的下一结构中；以及

基于所述图像特征对所述待识别图像进行视觉识别。

示例性地，所述打分块包括顺次连接的编码器和解码器；

所述编码器用于对所述第一特征图进行编码操作；

所述解码器用于对经编码的第一特征图进行解码操作，以获得所述打分特征图。

示例性地，所述编码器利用输入通道为Cl、输出通道为C2、组为G1的卷积网络实现，所述解码器利用输入通道为C2、输出通道为C1、组为G1的反卷积网络实现，其中C1、C2和G1均为正整数。

示例性地，所述整合块具体用于将所述第二特征图、所述第三特征图和所述打分特征图进行元素相加，以获得所述第四特征图，并将所述第四特征图输入到该残差学习结构所连接的下一结构中。

示例性地，所述神经网络包括N个网络区段，每个网络区段包括至少一个残差学习结构，第i+1个网络区段中的残差块的卷积层的输出通道个数是第i个网络区段中的对应卷积层的输出通道个数的2倍，其中N为大于1的整数，i为小于N的正整数。

示例性地，所述恒等映射块利用直连通路实现，所述直连通路用于将所述第一特征图作为所述第三特征图直接输出到所述整合块。

示例性地，所述神经网络包括顺次连接的第一特征提取子网络、所述至少一个残差学习结构和第二特征提取子网络，

所述利用神经网络提取所述待识别图像的图像特征包括：

利用所述第一特征提取子网络提取所述待识别图像的初级特征图；

利用所述至少一个残差学习结构对所述初级特征图进行处理，以生成次级特征图；

利用所述第二特征提取子网络对所述次级特征图进行特征提取操作，以生成所述图像特征。

示例性地，所述第一特征提取子网络包括卷积结构和池化层；

所述利用所述第一特征提取子网络提取所述待识别图像的所述初级特征图包括：

利用所述卷积结构对所述待识别图像进行卷积操作；

利用所述池化层对经卷积的待识别图像进行池化操作，以获得所述初级特征图。

示例性地，所述第二特征提取子网络利用全局池化层实现。

示例性地，所述基于所述图像特征对所述待识别图像进行视觉识别包括：利用全连接层基于所述图像特征对所述待识别图像进行图像识别。

根据本发明另一方面，提供了一种视觉识别装置，包括：

输入模块，用于获取待识别图像；

特征提取模块，用于利用神经网络提取所述待识别图像的图像特征，其中，所述神经网络包括至少一个残差学习结构，每个残差学习结构包括残差块、恒等映射块、打分块和整合块；

在每个残差学习结构中，

视觉识别模块，用于基于所述图像特征对所述待识别图像进行视觉识别。

根据本发明另一方面，提供了一种视觉识别系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述视觉识别方法。

根据本发明又一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述视觉识别方法。

根据本发明实施例的视觉识别方法、装置和系统以及存储介质，通过打分块减少了由卷积神经网络的分布式表示带来的噪声所产生的影响。由此，显著提高了视觉识别的准确率。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1a、图1b和图1c分别示出了根据现有技术的卷积神经网络进行目标为狗的图像识别时该卷积神经网络中的某网络层输出的3个不同通道的特征图；

图2示出了现有技术中的残差网络的残差学习结构的示意图；

图3示出了用于实现根据本发明实施例的视觉识别方法和装置的示例电子设备的示意性框图；

图4示出了根据本发明一个实施例的视觉识别方法的示意性流程图；

图5示出了根据本发明一个实施例的残差学习结构的结构示意图；

图6示出了根据本发明一个实施例的利用神经网络提取待识别图像的图像特征的示意性流程图；

图7示出了根据本发明一个实施例的视觉识别装置的示意性框图；以及

图8示出了根据本发明一个实施例的视觉识别系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

如上所述，卷积网络会生成输入数据的分布式表示。但是分布式表示会带来视觉识别的噪声。图1a、图1b和图1c分别示出了根据现有技术的卷积神经网络进行目标为狗的图像识别时该卷积神经网络中的某网络层输出的3个不同通道(channel)的特征图(feature map)。在图1a所示的第35号通道的特征图中，识别出了狗的头部，如图1a中的标记“11”所指示的区域所示。但是在图1b和图1c所分别示出的第1440、558号通道的特征图中，一些不相关的背景也具有高度激活的响应，如图1b中的标记”21”、“22”“23”以及图1c中的标记”31”、“32”、“33”所指示的区域所示。这是卷积神经网络在图像识别时对图像进行分布式表示带来的弊端。虽然这些噪声激活可以通过分类器的权重来抑制，但它们可能损害识别精度。

ResNet成功地将恒等映射(identity mapping)应用到卷积神经网络中。该恒等映射利用跨层连接(short cut)来实现。图2示出了现有技术中的ResNet的残差学习结构的示意图。如图2所示，该残差学习结构包括左右两个通路。左边通路是残差块，用于对其输入进行卷积操作。右边通路即恒等映射块，用于对其输入进行恒等映射操作。最后，将残差块所输出的特征图和恒等映射块所输出的特征图进行对应像素相加，得到该残差学习结构的输出结果。

ResNet实现了网络的加深、特征图的多次利用和信息的跨层传输。但是，正是因为跨层连接的存在，使得噪声信息也得到了重复利用和传输。根据本发明实施例的技术方案有效减少了由卷积神经网络的分布式表示带来的噪声所产生的负面影响，提高了学习到的表示的鲁棒性。由此，提高了视觉识别的精度。

为了解决上述现有技术中的问题，本发明实施例提供一种视觉识别处理方法和装置。

参照图3来描述用于实现根据本发明实施例的视觉识别方法和装置的示例电子设备300。

如图3所示，电子设备300包括一个或多个处理器302、一个或多个存储装置304。可选地，电子设备300还可以包括输入装置306、输出装置308、以及图像采集装置310，这些组件通过总线系统312和/或其它形式的连接机构(未示出)互连。应当注意，图3所示的电子设备300的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器302可以采用微处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，所述处理器302可以是中央处理单元(CPU)、图像处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备300中的其它组件以执行期望的功能。

所述存储装置304可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器302可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置306可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置308可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。可选地，所述输入装置306和所述输出装置308可以集成在一起，采用同一交互装置(例如触摸屏)实现。

所述图像采集装置310可以采集图像(包括静态图像和视频帧)，并且将所采集的图像存储在所述存储装置304中以供其它组件使用。图像采集装置310可以是单独的相机、移动终端中的摄像头或抓拍机中的图像传感器。应当理解，图像采集装置310仅是示例，电子设备300可以不包括图像采集装置310。在这种情况下，可以利用其他具有图像采集能力的器件采集图像，并将采集的图像发送给电子设备300。

示例性地，用于实现根据本发明实施例的视觉识别方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

根据本发明实施例的视觉识别方法、装置、系统及存储介质可以用于识别图像中的各种目标。目标可以例如是人体、人脸、卡片、证件、各种动物等任何期望识别的对象。

下面，将参考图4描述根据本发明实施例的视觉识别方法。图4示出根据本发明一个实施例的视觉识别方法400的示意性流程图。如图4所示，视觉识别方法400包括以下步骤S410、S420、S430。

步骤S410，获取待识别图像。

待识别图像可以是任何合适的、需要进行视觉识别的图像。待识别图像可以是摄像头等图像采集装置采集到的原始图像，也可以是对原始图像进行预处理之后获得的图像。该预处理操作可以包括为了更清楚的识别目标的所有操作。例如，预处理操作可以包括滤波等去噪操作。

待识别图像可以由电子设备300包括的图像采集装置310(例如摄像头)采集并传送到处理器302进行处理。待识别图像也可以由客户端设备(诸如包括摄像头的图像采集设备)采集最后发送到电子设备300以由电子设备300的处理器302进行处理。

此外，可以由电子设备300包括的图像采集装置310(例如摄像头)或由客户端设备(诸如包括摄像头的图像采集设备)采集原始图像并传送到处理器302进行预处理，以获取待识别图像，并且接下来仍由处理器302进行后续处理。

步骤S420，利用神经网络提取步骤S410所获取的待识别图像的图像特征。该神经网络包括至少一个残差学习结构。

在神经网络中，残差学习结构所处于的位置在此不做限定。示例性地，残差学习结构可以处于神经网络的中间位置，则该残差学习结构连接并接收该神经网络中其他网络层的输出的特征图并且将该残差学习结构输出的特征图输出到该神经网络中另外的网络层。示例性地，残差学习结构可以处于该神经网络的最下层，则该残差学习结构接收该神经网络中其他网络层输出的特征图，并且该残差学习结构输出的特征图输出到另外的结构中。可以理解，该另外的结构是不属于前述神经网络的，例如其可以属于前述神经网络所连接的、用于进行图像分类或识别的神经网络。

图5示出了根据本发明一个实施例的残差学习结构的结构示意图。如图5所示，残差学习结构包括三个通路。最左边通路是残差块。中间通路是恒等映射块。最右边通路是打分块。在残差块、恒等映射块和打分块下面，存在一个整合块，以整合上述三个块的输出结果并生成残差学习结构的输出结果。残差学习结构从其所连接的上一个结构中接收输入特征图，然后经过残差学习结构的处理，输出一个输出特征图至其所连接的下一结构中。

在图5所示的残差学习结构中，残差块用于对神经网络中的、该残差学习结构所连接的上一结构输出的第一特征图进行卷积操作，以生成第二特征图。恒等映射块用于对上述第一特征图进行恒等映射操作，以获得第三特征图。这两个网络块类似于现有技术中的ResNet的对应网络块。

残差块可以用前向神经网络实现。可选地，残差块可以用两个互连的输入和输出通道都是64个并且卷积核是3*3的卷积块实现。如图5所示，残差块还可以用一个输入通道为256个、卷积核为1*1、输出通道为64个的卷积块、一个输入通道和输出通道都是64个，卷积核为3*3的卷积块以及一个输入通道是64个、卷积核为1*1、输出通道为256个的卷积块实现。本领域普通技术人员可以理解，上述残差块的具体实现仅用于示例，而非对本发明的限制。

恒等映射块用于对其所接收的第一特征图进行恒等映射操作，以获得第三特征图。可选地，该恒等映射块利用直连通路实现，如图5所示。该直连通路用于将第一特征图作为第三特征图直接输出到所述整合块。在这种情况下，恒等映射块的输入第一特征图即是其输出结果-第三特征图。利用直连通路实现恒等映射块不会产生额外的参数，减小了计算复杂度。替代地，恒等映射块还可以对其所接收的第一特征图执行线性映射。在一些示例中，通过线性映射，恒等映射块的输出通道的个数可以与其输入通道的个数不同。由此，保证了整合块的顺利整合。

打分块用于对上述第一特征图进行打分，以生成打分特征图。打分特征图中的不同像素值用于表示第一特征图中对应区域的识别质量。在一个示例中，打分特征图可以是一个热力图。在热力图中，像素的不同的高亮形式表示了第一特征图中对应区域的识别质量。利用打分块，可以提高残差块和恒等映射块学习到的分布式表示的质量，以提高其鲁棒性。

整合块用于根据残差块输出的第二特征图、恒等映射块输出的第三特征图和打分块输出的打分特征图生成第四特征图，并将第四特征图输入到该残差学习结构所连接的下一结构中。可以理解，该残差学习结构所连接的下一结构可以属于残差学习结构所在的神经网络，也可以不属于残差学习结构所在的神经网络。整合块综合了残差块、恒等映射块和打分块所各自输出的特征图。可以理解，整合块可以以任意顺序综合如上三个块各自输出的特征图。例如，可以先综合恒等映射块和打分块分别输出的特征图。然后，再将残差块输出的特征图与先前的综合结果综合在一起。如果神经网络已经达到最优，残差块输出将为0。恒等映射块输出的第三特征图可以是第一特征图的线性映射。通过打分块对第一特征图进行打分，可以使得神经网络最终的识别结果更加准确。

步骤S430，基于步骤S420提取的图像特征对待识别图像进行视觉识别。可以采用任何现有的或未来研发的视觉识别技术来实现该步骤S430。例如，可以根据需要，基于图像特征针对待识别图像进行各种不同的操作。具体例如，可以基于图像特征，对待识别图像进行分类和识别、目标检测、实例分割等等。对于每种操作，也可以采用各种现有的或未来研发的方法。例如，可以利用Faster R-CNN来基于上述图像特征进行目标检测。

可选地，该步骤S430可以用神经网络来实现。示例性地，可以用全连接层来基于图像特征对待识别图像进行图像识别。将图像特征输入到全连接层中，由该全连接层输出图像识别结果。神经网络的全连接层易于实现且能够较理想地基于图像特征实现图像分类。

上述视觉识别方法利用了残差学习结构中的打分块来对其输入特征图进行打分，减少了卷积神经网络学习到的分布式表示的噪声，提高了其鲁棒性。从而，达到了提高视觉识别准确率的目的。

在一个实施例中，残差学习结构中的打分块包括顺次连接的编码器(encoder)和解码器(decoder)。

编码器用于对打分块所接收的第一特征图进行编码操作。解码器用于对经编码的第一特征图进行解码操作，以获得打分特征图。编码器可以对第一特征图进行空间压缩和重建，使得第一特征图在编码后空间降维。通过解码器的对应解码操作，可以使得打分特征图与原始的第一特征图的空间维度相同。

编码器和解码器是数据相关的。编码器只能压缩与训练数据类似的数据。例如，使用人脸训练出来的编码器在压缩别的图像时，比如树木图像，性能很差。这是因为编码器学习的特征是与人脸相关的。编码器是有损的。编码器可以降低第一特征图的空间维度。解码器可以对经编码的第一特征图进行空间升维。编码器和解码器具有从样本数据中自动学习的能力。可以很容易地利用特定目标的样本数据训练出对应的编码器和解码器，而无需任何其他新工作。

通过将打分块所接收的第一特征图输入到编码器，编码器可以提取其中有用的、紧凑的压缩信息，然后再经解码器进行解码。最后，通过整合模块综合残差学习结构的各个块输出的信息，能够得到第一特征图的更干净的表示，显著去除第一特征图中的噪声。由此，能够确保视觉识别的精度。

可选地，上述编码器利用输入通道为Cl、输出通道为C2、组为G1的卷积网络实现，上述解码器利用输入通道为C2、输出通道为C1、组为G1的反卷积网络实现，其中Cl、C2和G1均为正整数。可选地，C1为256，C2为64，G1为32。可选地，编码器和解码器都用3*3的核实现。

可选地，残差学习结构中的整合块用于将第二特征图、第三特征图和打分特征图进行元素相加，以获得第四特征图；并将该第四特征图输入到该残差学习结构所连接的下一结构中。

在该实施例中，整合块对第二特征图、第三特征图和打分特征图执行对应像素相加的操作。从而，用较简单的方式综合了第一特征图和第一特征图的打分结果，使得第四特征图保留了第一特征图中的有用特征，去除了第一特征图中的噪声。由此，保证了视觉识别的精确度。此外，在保证视觉识别精度的同时，避免了引进更多参数，减少了计算量。

可选地，用于步骤S420的神经网络包括N个网络区段。N为大于1的整数。每个网络区段包括至少一个残差学习结构。第i+1个网络区段中的残差块的卷积层的输出通道个数是第i个网络区段中的对应卷积层的输出通道个数的2倍，其中，i为小于N的正整数。

具体例如，神经网络包括4个网络区段。可选地，第1个网络区段至第4个网络区段分别包括3、4、6和3个残差学习结构。替代地，第1个网络区段至第4个网络区段分别包括3、4、23和3个残差学习结构。后一种情况下，神经网络的总层数大于前者的总层数。可以理解，这里残差学习结构的个数仅为示例，而非对本发明的限制。

再次参考图5，神经网络中的残差学习结构中的残差块都包括3个卷积层。假设第一个网络区段中每个残差块中的卷积层的输出通道数分别是[64，64，256]，那么第二个网络区段中的对应卷积层的输出通道个数分别是[128，128，512]。第三个网络区段和第四个网络区段中的对应卷积层的输出通道个数以此类推，为了简洁，在此不再赘述。

可选地，在上述神经网络中，神经网络中的残差学习结构中的残差块包括的3个卷积层。这3个卷积层分别包括1*1的卷积核、3*3的卷积核和1*1的卷积核。第2个网络区段到第4个网络区段中的第一个的包括3*3卷积核的卷积层执行步长为2的卷积操作，该4个网络区段中的其余所有的卷积层执行步长为1的卷积操作。

示例性地，步骤S420所用的神经网络可以包括顺次连接的第一特征提取子网络、前述至少一个残差学习结构和第二特征提取子网络。在此实施例中，残差学习结构位于神经网络的中间位置。可以理解，残差学习结构可以包括在前述N个网络区段中。图6示出了利用该神经网络提取待识别图像的图像特征的示意性流程图。如图6所示，步骤S420可以包括以下子步骤。

步骤S421，利用第一特征提取子网络提取待识别图像的初级特征图。步骤S422，利用至少一个残差学习结构对初级特征图进行处理，以生成次级特征图。步骤S423，利用第二特征提取子网络对次级特征图进行特征提取操作，以生成所述图像特征。

对于神经网络来说，深度越深，复杂度越高，其表达能力越强。由此，神经网络的分类性能越好。在图6所示实施例中，利用神经网络的三个子网络来完成图像特征的提取，由此保证了图像特征的信息量，进而保证了视觉识别的准确性。

在一个示例中，上述第一特征提取子网络包括卷积结构和池化层。上述步骤S421包括以下步骤。首先，利用卷积结构对待识别图像进行卷积操作。可选地，该卷积结构可以由7*7的卷积核组成，其执行步长为2卷积操作。然后，利用池化层对经卷积的待识别图像进行池化操作，以获得前述初级特征图。卷积结构实现了对其输入的局部连接和参数共享，以提取其输入的特征图。池化层实现了下采样，去掉了卷积结构输出的特征图中不重要的样本，进一步减少了参数的数量。该池化层可以是一个最大池化层。该池化层可以由3*3的核组成，其执行步长为2的池化操作。该实施例中的第一特征提取子网络的结构使得可以利用有限的计算，实现准确的视觉识别。

在一个示例中，神经网络可以包括顺次连接的多个残差学习结构。可以理解残差学习结构的个数可以是任意的，例如4个。这些残差学习结构中，第一个残差学习结构连接上述第一特征提取子网络，接收该第一特征提取子网络输出的初级特征图，并把其输出特征图输出给下一残差学习结构。相应地，除了第一个残差学习结构之外，其他残差学习结构接收其上一残差学习结构输出的特征图。最下面的残差学习结构将其输出特征图输出给第二特征提取子网络。

在一个示例中，上述第二特征提取子网络利用全局池化层实现。换言之，即上述步骤S423利用全局池化层实现。该全局池化层可以由7*7的核组成。利用全局池化层更好地实现了空间特征的抽象。由此，使得所提取的图像特征能够覆盖更大的感受野，更利于视觉识别。

根据本发明的实施例的视觉识别方法在各个大型的国际数据集上进行实验，视觉识别的准确度都取得了一致性的提高。以下表格示出了在不同国际数据集上的进行不同视觉识别实验的实验结果。

表1在ImageNet上的图像识别结果

表2在CIFAR-10上的图像识别结果

如表1和表2所示，根据本发明实施例的图像识别方法无论是在大数据集(ImageNet)还是小数据集(CIFAR)上，都有非常好的识别提升能力。

表3和表4分别示出了在MSCOCO上进行目标检测和实例分割的实验结果。表3的实验结果是采用同一种Faster R-CNN算法，分别用现有技术和本发明实施例的目标检测方法来获得的。表4的实验结果是采用同一种Mask R-CNN算法，分别用现有技术和本发明实施例的实例分割方法来获得的。在表3和表4中，mmAP表示平均精度期望的期望(mean of meanAverage Precision)。AP@0.50表示交集除以并集(intersection over union，即IoU)大于或等于0.5情况下的平均精度。AP@0.75表示IoU大于或等于0.75情况下的平均精度。AR100表示返回100个检测框的情况下的平均召回率(Average Recall)。

表3在MSCOCO上目标检测结果

表4在MSCOCO上实例分割结果

如表3和表4所示，在目标检测和实例分割技术上，本发明实施例的方法的性能也取得了非常好的提升，特别地，在目标检测中可以提高2.5mmAP，实例分割中可以提高1.1mmAP。不仅如此，对于各项评价指标，本发明实施例的视觉识别方法都优于现有技术的视觉识别方法。

根据本发明另一方面，提供一种视觉识别装置。图7示出了根据本发明一个实施例的视觉识别装置700的示意性框图。如图7所示，根据本发明实施例的视觉识别装置700包括输入模块710、特征提取模块720和视觉识别模块730。所述各个模块可分别执行上文中结合图4-6描述的视觉识别方法的各个步骤/功能。以下仅对该视觉识别装置700的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

输入模块710用于获取待识别图像。输入模块710可以由图3所示的电子设备中的处理器302运行存储装置303中存储的程序指令来实现。

特征提取模块720用于利用神经网络提取所述待识别图像的图像特征。所述神经网络包括至少一个残差学习结构，每个残差学习结构包括残差块、恒等映射块、打分块和整合块。在每个残差学习结构中，所述残差块用于对该残差学习结构所连接的上一结构输出的第一特征图进行卷积操作，以生成第二特征图；所述恒等映射块用于对所述第一特征图进行恒等映射操作，以获得第三特征图；所述打分块用于对所述第一特征图进行打分，以生成打分特征图；所述整合块用于根据所述第二特征图、所述第三特征图和所述打分特征图生成第四特征图，并将所述第四特征图输入到该残差学习结构所连接的下一结构中。特征提取模块720可以由图3所示的电子设备中的处理器302运行存储装置303中存储的程序指令来实现。

视觉识别模块730用于基于所述图像特征对所述待识别图像进行视觉识别。通道连接模块730可以由图3所示的电子设备中的处理器302运行存储装置303中存储的程序指令来实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图8示出了根据本发明一个实施例的视觉识别系统800的示意性框图。视觉识别系统800包括存储装置(即存储器)810以及处理器820。

所述存储装置810存储用于实现根据本发明实施例的视觉识别方法中的相应步骤的计算机程序指令。

所述处理器820用于运行所述存储装置810中存储的计算机程序指令，以执行根据本发明实施例的视觉识别方法的相应步骤。

在一个实施例中，所述计算机程序指令被所述处理器820运行时用于执行以下步骤：

获取待识别图像；

在每个残差学习结构中，

基于所述图像特征对所述待识别图像进行视觉识别。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的视觉识别方法的相应步骤，并且用于实现根据本发明实施例的视觉识别装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的视觉识别装置的各个功能模块，并和/或者可以执行根据本发明实施例的视觉识别方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：

获取待识别图像；

在每个残差学习结构中，

基于所述图像特征对所述待识别图像进行视觉识别。

根据本发明实施例的视觉识别系统中的各模块可以通过根据本发明实施例实施视觉识别的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的视觉识别装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视觉识别方法，包括：

获取待识别图像；

在每个残差学习结构中，

所述打分块用于对所述第一特征图进行打分，以生成打分特征图，其中，所述打分块包括顺次连接的编码器和解码器；所述编码器用于对所述第一特征图进行编码操作；所述解码器用于对经编码的第一特征图进行解码操作，以获得所述打分特征图；

所述整合块用于将所述第二特征图、所述第三特征图和所述打分特征图进行元素相加，以获得第四特征图，并将所述第四特征图输入到该残差学习结构所连接的下一结构中；以及

基于所述图像特征对所述待识别图像进行视觉识别。

2.如权利要求1所述的方法，其中，所述编码器利用输入通道为C1、输出通道为C2、组为G1的卷积网络实现，所述解码器利用输入通道为C2、输出通道为C1、组为G1的反卷积网络实现，其中C1、C2和G1均为正整数。

3.如权利要求1或2所述的方法，其中，所述神经网络包括N个网络区段，每个网络区段包括至少一个残差学习结构，第i+1个网络区段中的残差块的卷积层的输出通道个数是第i个网络区段中的对应卷积层的输出通道个数的2倍，其中N为大于1的整数，i为小于N的正整数。

4.如权利要求1或2所述的方法，其中，所述恒等映射块利用直连通路实现，所述直连通路用于将所述第一特征图作为所述第三特征图直接输出到所述整合块。

5.如权利要求1或2所述的方法，其中，所述神经网络包括顺次连接的第一特征提取子网络、所述至少一个残差学习结构和第二特征提取子网络，

所述利用神经网络提取所述待识别图像的图像特征包括：

6.如权利要求5所述的方法，其中，所述第一特征提取子网络包括卷积结构和池化层；

利用所述卷积结构对所述待识别图像进行卷积操作；

7.如权利要求5所述的方法，其中，所述第二特征提取子网络利用全局池化层实现。

8.如权利要求1所述的方法，其中，所述基于所述图像特征对所述待识别图像进行视觉识别包括：

利用全连接层基于所述图像特征对所述待识别图像进行图像识别。

9.一种视觉识别装置，包括：

输入模块，用于获取待识别图像；

在每个残差学习结构中，

10.一种视觉识别系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至8任一项所述的视觉识别方法。

11.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至8任一项所述的视觉识别方法。