CN111480169A

CN111480169A - 用于模式识别的方法、系统和装置

Info

Publication number: CN111480169A
Application number: CN201780097570.9A
Authority: CN
Inventors: 曹家乐
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2017-10-10
Filing date: 2017-10-10
Publication date: 2020-07-31
Also published as: EP3695347A1; US20200242451A1; EP3695347A4; US11755889B2; WO2019071433A1

Abstract

可以提供一种用于模式识别的方法，包括：接收数据；使用卷积神经网络处理该数据以识别该数据中的模式，其中，卷积神经网络至少包括：包括第一卷积块序列的第一分支，在任何两个相邻的第一卷积块之间设置池化层，每个第一卷积块包括至少一个卷积层；以及包括第二卷积块序列的第二分支，每个第二卷积块包括至少一个卷积层，并且其中，使用卷积神经网络处理该数据以识别该数据中的模式包括：在先第二卷积块接收通过组合由在先第一卷积块输出的特征图和由在后第一卷积块输出的特征图形成的第一特征图，处理第一特征图，并且输出第二特征图；以及在后第二卷积块接收通过组合该第二特征图和由另一在后第一卷积块输出的特征图形成的第三特征图，处理第三特征图，并且输出第四特征图。还提供了一种用于模式识别的对应装置和系统以及一种计算机可读介质。

Description

用于模式识别的方法、系统和装置

技术领域

本公开的实施例通常涉及模式识别领域，尤其涉及用于模式识别的方法、系统和装置。

背景技术

作为特定形式的模式识别的对象检测是非常经典的计算机视觉任务，并且在诸如辅助驾驶和视频监控之类的更大范围的领域中越来越多地应用。最近，基于CNN(卷积神经网络)的方法在对象检测中取得了巨大的成功。通常，它基于两个阶段：提议生成(proposalgeneration)和提议分类(proposal classification)。更快的R-CNN(请参见S.Ren、K.He、R.Girshick和J.Sun在IEEE Trans《模式分析与机器智能》2017年第6期第39卷第1137-1149页的“更快的R-CNN：使用区域提议网络，实现实时对象检测(Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks)”)是用于对象检测的最著名的方法之一。它共享相同的网络以进行提议生成和提议分类。因此，它可以在不增加计算成本的情况下提高检测准确性。

尽管成功了，但是基于更快的R-CNN的对象检测仍然存在一些问题。更快的R-CNN基于最后一个卷积层预测候选提议，然后通过池化最后一个卷积层的特征对候选提议进行分类。尽管最后一个卷积层具有较大的接收域和高级语义信息，但最后一个卷积层的特征图的空间分辨率却很小。结果是原始图像的空间结构信息丢失了很多。因此，小型对象检测的性能更差。

发明内容

因此，提供了用于模式识别的方法、装置和系统、以及计算机可读介质。

在一个实施例中，描述了一种用于模式识别的方法。该方法包括：接收数据；使用卷积神经网络处理该数据以识别该数据中的模式，其中，卷积神经网络至少包括：包括第一卷积块序列的第一分支以及包括第二卷积块序列的第二分支，在任何两个相邻的第一卷积块之间设置第一池化层，每个第一卷积块包括至少一个卷积层，每个第二卷积块包括至少一个卷积层，并且其中，使用卷积神经网络处理该数据以识别该数据中的模式包括：在先第二卷积块接收通过组合由在先第一卷积块输出的特征图和由在后第一卷积块输出的特征图形成的第一特征图、处理第一特征图、并且输出第二特征图；以及在后第二卷积块接收通过组合该第二特征图和由另一在后第一卷积块输出的特征图形成的第三特征图、处理第三特征图、并且输出第四特征图。

在另一个示例实施例中，描述了一种用于模式识别的装置。该装置包括：至少一个处理器，包括计算机程序代码的至少一个存储器；该至少一个存储器和该计算机程序代码被配置为与该至少一个处理器一起使该装置：接收数据；使用卷积神经网络处理该数据以识别该数据中的模式，其中，卷积神经网络至少包括：包括第一卷积块序列的第一分支以及包括第二卷积块序列的第二分支，在任何两个相邻的第一卷积块之间设置第一池化层，每个第一卷积块包括至少一个卷积层，每个第二卷积块包括至少一个卷积层，并且其中，使用卷积神经网络处理该数据以识别该数据中的模式包括：在先第二卷积块接收通过组合由在先第一卷积块输出的特征图和由在后第一卷积块输出的特征图形成的第一特征图、处理第一特征图、并且输出第二特征图，以及在后第二卷积块接收通过组合该第二特征图和由另一在后第一卷积块输出的特征图形成的第三特征图、处理第三特征图、并且输出第四特征图。

在另一示例实施例中，一种用于模式识别的系统，包括：被配置为接收数据的接收模块；以及被配置为处理该数据以识别该数据中的模式的卷积神经网络，其中，卷积神经网络至少包括：包括第一卷积块序列的第一分支以及包括第二卷积块序列的第二分支，在任何两个相邻的第一卷积块之间设置第一池化层，每个第一卷积块包括至少一个卷积层，每个第二卷积块包括至少一个卷积层，并且其中，使用卷积神经网络处理该数据以识别该数据中的模式包括：在先第二卷积块接收通过组合由在先第一卷积块输出的特征图和由在后第一卷积块输出的特征图形成的第一特征图、处理第一特征图、并且输出第二特征图，以及在后第二卷积块接收通过组合该第二特征图和由另一在后第一卷积块输出的特征图形成的第三特征图、处理第三特征图、并且输出第四特征图。

在另一示例实施例中，一种编码有指令的计算机可读介质，该指令当由计算机执行时致使执行根据本公开的任何实施例的方法。

附图说明

因此，在一般性地描述了本公开之后，现在将参考附图，这些附图没有必要按比例绘制，并且其中：

图1示出了根据本公开的一些实施例的逐渐组合CNN的多个层的基于CNN的网络的示意性架构；

图2示出了根据本公开的一些其他实施例的逐渐组合CNN的多个层的基于CNN的网络的示意性架构；

图3示出了根据本公开的一些实施例的用于模式识别的方法的示意流程图；

图4示出了根据本公开的一些实施例的用于模式识别的装置的示意性框图；以及

图5示出了根据本公开的一些实施例的用于模式识别的系统的示意性框图。

具体实施方式

为了提高对象检测的性能，本公开提出了一种基于CNN的网络，该网络逐渐将CNN的多个层组合为高级语义和高分辨率层。具体来说，该网络分为两个分支。一个分支与原始CNN结构相同。另一个分支在不降低空间分辨率的情况下，逐渐组合原始CNN结构的多个层。最后，逐渐将多个层组合为高级语义和高分辨率层的基于CNN的网络被用于对象检测。

参考图1，示出了根据本公开的一些实施例的逐渐地组合CNN的多个层的基于CNN的网络的示意性架构。给出输入图像，可以使用具有两个分支的基于CNN的网络来检测输入图像中的对象。

如图1所示，根据一些实施例的基于CNN的网络包括两个分支。下面的分支可以与标准的CNN架构相同。它可以由多个卷积块按顺序组成。在所示的示例中，下面的分支包括四个卷积块，分别标示为Conv3b、Conv4b、Conv5b和Conv6b；它可以可选地在卷积块Conv3b之前包括两个附加卷积块，Conv1b和Conv2b，图中未示出。在每对相邻的卷积块之间可以存在池化层(图中未示出)，使得与在先卷积块的空间分辨率相比，在后卷积块的空间分辨率续降低，例如降低2的因子。每个卷积块可以包括一个或多个卷积层，并且每个卷积层可以包括由一个或多个过滤器和激活功能层(例如整流线性单元(ReLU)层)组成的卷积层。卷积层还可以包括其他层，例如在恰当卷积层与激活功能层之间设置的批量归一化层。

每个卷积层将由在先卷积层输出的图像或特征图作为输入数据，用其每个过滤器对输入数据执行卷积操作，并输出包含从输入数据提取的语义信息的特征图。

由于在每对相邻的卷积块之间设置有池化层，由在先卷积块输出的特征图将具有高分辨率空间信息，但具有低级语义信息，而由在后卷积块输出的特征图将具有高级语义信息，但具有低分辨率空间信息。

在一些示例性实施例中，顶部分支可以是高分辨率分支。它可以由多个卷积块按顺序组成。在所示的示例中，它由三个卷积块Conv4t、Conv5t和Conv6t组成。每个卷积块可以包括一个或多个卷积层。卷积层Conv4t将特征图Conv3h作为输入并输出特征图；卷积层Conv5t将特征图Conv4h作为输入并输出特征图；卷积层Conv6t将特征图Conv5h作为输入并输出特征图。卷积块Conv4t、Conv5t和Conv6t的空间分辨率可以相同且很高，例如与下面分支中的卷积块Conv3b的相同。

在所示的示例中，可以通过组合由卷积块Conv3b输出的特征图和由下面分支的在后卷积块Conv4b输出的上采样的特征图，来生成特征图Conv3h；可以通过组合由卷积块Conv4t输出的特征图和由下面分支的在后卷积块Conv5b输出的上采样的特征图，来生成特征图Conv4h；并且可以通过组合由卷积块Conv5t输出的特征图和由下面分支的另一在后卷积块Conv6b输出的上采样的特征图，来生成特征图Conv5h。通过这种方式，由卷积块Conv6t输出的最终特征图将具有不同空间分辨率和语义信息的下面分支的多个层合并在一起，因此它将具有高语义信息和高分辨率空间结构。

在一些示例性实施例中，可以使用相应的上采样层(图中未示出)来上采样由下面分支的在后卷积块Conv4b输出的特征图、由下面分支的另一在后卷积块Conv5b输出的特征图或由下面分支的另一在后卷积块Conv6b输出的特征图。上采样层可以利用现有技术中的各种上采样方法来执行特征图的上采样，例如插值方法(例如，双线性插值方法)或反卷积方法。上采样后，被上采样的特征图将具有与将要组合的特征图相同的空间分辨率。

在一些示例性实施例中，可以使用相应的组合层(图中未示出)来组合由卷积块Conv3b输出的特征图和由下面分支的在后卷积块Conv4b输出的上采样的特征图，组合由卷积块Conv4t输出的特征图和由下面分支的另一在后卷积块Conv5b输出的上采样的特征图，或组合由卷积块Conv5t输出的特征图和由下面分支的另一在后卷积块Conv6b输出的上采样的特征图。

组合层可以使用各种方法来组合两个特征图。在某些示例性实施例中，在两个特征图具有相同深度的情况下，组合层可以仅通过加两个特征图的每对对应元素的值来组合两个特征图，并且在两个特征图具有不同深度的情况下，首先可以使用附加的卷积层(图中未示出)来将两个特征图中的一个特征图的深度改变为与两个特征图的另一个特征图的深度相同，并且然后组合层可以通过加两个特征图的每对对应元素的值来组合两个特征图。在此类示例性实施例中，可以可选地使用附加的卷积层(图中未示出)来减少或增加组合的特征图的深度。

在一些其他示例性实施例中，组合层可以通过级联两个特征图的每对对应元素的值来组合两个特征图，从而形成具有深度等于两个特征图的深度之和的组合特征图。在此类示例性实施例中，可以可选地使用附加的卷积层(图中未示出)以减少或增加组合特征图的深度。

根据本公开的实施例，代替将下面分支的所有不同卷积层的特征图直接组合在一起，提议的基于CNN的网络层逐渐将不同卷积层的特征图组合在一起。在每一组合的过程中，具有相似语义特性的两个卷积层的特征图被组合在一起，然后卷积块遵循卷积层的组合特征图以改善语义级别并扩大相应的域。提出的解决方案具有以下优点：

(a)提出的解决方案具有由最终卷积块输出的最终高分辨率特征图。因此，它可以保留用于小规模对象检测的空间信息。

(b)提出的解决方案逐渐地组合不同卷积层的特征图(即，组合具有相似语义级别的卷积层的特征图)。因此，当将不同卷积层的特征图组合在一起时，它可以减少不同卷积层之间的语义间隙。

(c)提出的解决方案的语义级别更高。因此，提出的解决方案更加具有鲁棒性。

在某些示例性实施例中，可以使用区域提议网络进一步处理由提出的基于CNN的网络生成的最终特征图，以生成区域提议。区域提议网络可以是本领域已知的，例如J.Sun等人在IEEE Trans《模式分析与机器智能》2017年第6期第39卷第1137-1149页的“更快的R-CNN：使用区域提议网络实现实时对象检测(Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks)”(其全文作为引用并入本文)所描述的。例如，为生成区域提议(即，一组矩形对象提议，每个都有对象分数)，区域提议网络可以在生成的最终特征图上滑动较小的网络上，以生成较低维度的特征，该特征被馈送入两个同级(sibling)全连接卷积层，用于定位提议的矩形区域的盒子回归层以及用于估计每个提议的矩形区域的对象的概率的盒子分类层。替代地，区域提议网络也可以是未来开发的网络。

在一些示例性实施例中，可以将生成的区域提议作为最终检测到的对象或识别的模式而输出。

在一些其他示例性实施例中，由区域提议网络生成的区域提议和由提出的基于CNN的网络生成的最终特征图可以进一步被馈送入基于区域的对象检测网络(图中未示出)，该基于区域的对象检测网络可以利用区域提议和最终特征图来检测输入图像中的对象或模式。这种基于区域的对象检测网络可以是本领域已知的，例如J.Sunetal等人在IEEETrans《模式分析与机器智能》2017年第6期第39卷第1137-1149页的“更快的R-CNN：使用区域提议网络实现实时对象检测(Faster R-CNN:Towards Real-Time Object Detectionwith Region Proposal Networks)”和R.Girshick在2015年IEEE计算机视觉国际会议(ICCV)中“快速R-CNN”所描述的，它们的全文作为引用并入本文。例如，基于区域的对象检测网络可以是一种快速R-CNN检测器，包括：对于每个区域提议从特征图提取固定长度的特征向量的ROI(感兴趣的区域)池化层，接收并处理特征向量的全连接层序列，以及两个同级输出层，该两个同级输出层包括产生对K+1个类别的softmax概率估计的softmax层和产生特定于类别的边界盒回归偏移的绑定盒回归层，其中损失函数是分类和边界盒回归的结合。替代地，基于区域的对象检测网络也可以是未来开发的网络。

可以理解的是，尽管以上参考附图描述了根据本公开的一些实施例的逐渐组合CNN的多个层的基于CNN的网络的架构，上述描述和说明仅是示例性的，而不是将本公开限制为所描述和说明的特定架构。例如，尽管该架构在图中示出为在下面分支中包括四个卷积块，但是在其他实施例中，该架构可以包括更少或更多的卷积块。例如，在一些实施例中，该架构可以在下面分支中包括三个卷积块，即Conv3b、Conv4b和Conv5b，而没有Conv6b，在这种情况下，顶部分支可以仅包括卷积块Conv4t和Conv5t，而没有Conv6t，并且由卷积块Conv5t输出的特征图可以是最终特征图。例如，在一些其他实施例中，该架构可以在下面分支中包括五个、六个或甚至更多的卷积块，并且可以对应地在顶部分支中包括四个、五个或甚至更多的卷积块。

参考图2，示出了根据本公开的一些其他实施例的逐渐地组合了CNN的多个层的基于CNN的网络的示意性架构。对于大多数部分，图2所示的架构与图1所示并且如上所述的架构相同，唯一的差异是在图2所示的架构中由组合形成的中间特征图中的一个或多个也被各个区域提议网络用来生成各个区域提议，并且合并模块(图2中未示出)被用来合并各个区域提议以生成最终区域提议，该最终区域提议将与由该架构生成的最终特征图一起被馈送入基于区域的检测网络(图2中未示出)，以如上面描述的那样检测输入图像中的对象或模式。

在一些示例性实施例中，合并单元可以使用NMS(非最大抑制)方法来合并高度重叠的各个区域提议，以生成最终区域提议。

如本领域技术人员所理解的那样，一种基于提出的基于CNN的网络的用于模式识别或对象检测的方法包括训练阶段和测试阶段。训练阶段的目标是学习基于CNN的网络的参数。使用学习的基于CNN的网络，测试阶段将检测在测试图像或数据中的对象或模式。

首先，以图像中的检测对象为例，具体的训练阶段可以描述如下：

步骤1：准备一组训练图像及其对应的对象真值(ground-truth)。

步骤2：使用高斯函数初始化每个卷积层的权重；设置训练阶段的参数(例如，学习速率、迭代次数、批处理的大小和正负比率)。

步骤3：基于标准的反向传播算法，训练基于CNN的网络。

其次，如何在测试阶段使用训练的基于CNN的网络可以描述如下：

步骤1：准备测试图像。

步骤2：通过训练的基于CNN的网络提取对象提议。

步骤3：对于每个对象提议，将其发送到基于区域的对象检测网络(例如，快速R-CNN检测器)进行分类，从而检测出图像中的对象。最终输出对象检测结果(即检测分数和边界盒位置)。

步骤4：可选地，基于对象检测结果，可以使用NMS方法来组合高度重叠的对象。

参考图3，示出了根据本公开的一些实施例的用于模式识别的方法的示意流程图。如图所示，该方法包括以下步骤：

在步骤310中，接收数据。该数据可以是要对其执行模式识别的任何数据。例如，该数据可以是图像数据或视频数据，可以对该图像数据或视频数据执行对象检测以寻找或分类图像或视频中的对象。此类图像数据可以通过摄像机实时捕获，也可以通过其他方式例如从存储设备或诸如互联网的网络中获取。再举一个例子，该数据可以是可以对其执行语音模式检测以进行语音识别的音频数据。此类音频数据可以通过麦克风实时捕获，或者以其他方式从存储设备或诸如互联网的网络中获取。

在步骤320中，使用卷积神经网络对该数据进行处理，以识别该数据中的模式，其中，该卷积神经网络至少包括：包括第一卷积块序列的第一分支以及包括第二卷积块序列的第二分支，在任何两个相邻的第一卷积块之间设置池化层，每个第一卷积块包括至少一个卷积层，每个第二卷积块包括至少一个卷积层，并且其中，使用卷积神经网络处理该数据以识别该数据中的模式包括以下子步骤：

在子步骤321中，在先第二卷积块接收通过组合由在先第一卷积块输出的特征图和由在后第一卷积块输出的特征图而形成的第一特征图，处理第一特征图，并且输出第二特征图；以及

在子步骤322中，在后第二卷积块接收通过组合该第二特征图和由另一在后第一卷积块输出的特征图而形成的第三特征图，处理第三特征图，并且输出第四特征图。可以理解的是，卷积神经网络可以是如图1或图2所示并如上所述的基于CNN的网络，或其变体。

在一些示例性实施例中，使用卷积神经网络处理该数据以识别该数据中的模式进一步包括以下子步骤：

另一在后第二卷积块接收通过组合该第四特征图和由又一在后第一卷积块输出的特征图而形成的第五特征图，处理第五特征图，以及输出第六特征图。

使用区域提议网络处理第六特征图以生成最终区域提议。

使用各个区域提议网络处理第一特征图、第三特征图、第五特征图和第六特征图中的至少两个，以分别生成第一区域提议、第三区域提议、第五区域提议和第六区域提议中的至少两个提议；以及

合并第一区域提议、第三区域提议、第五区域提议和第六区域提议中的该至少两个提议，以生成最终区域提议。

利用第六特征图和最终区域提议以及基于区域的对象检测网络来将区域分类为识别的模式。

在一些示例性实施例中，通过组合由在先第一卷积块输出的特征图和由在后第一卷积块输出的特征图而形成第一特征图包括：

对由该在后第一卷积块输出的特征图进行上采样，以具有与由该在先第一卷积块输出的特征图相同的空间分辨率；以及

通过添加该两个特征图的每对对应元素的值或者通过级联该两个特征图的每对对应元素的值，来组合由该在后第一卷积块输出的上采样的特征图和由该在先第一卷积块输出的特征图，以形成第一特征图；

并且通过组合第二特征图和由另一在后第一卷积块输出的特征图来形成第三特征图包括：

对由另一在后第一卷积块输出的特征图进行上采样以具有与第二特征图相同的空间分辨率；以及

通过添加该两个特征图的每对对应元素的值或者通过级联该两个特征图的每对对应元素的值，来组合由该另一在后第一卷积块输出的上采样的特征图和第二特征图，以形成第三特征图。

在一些示例性实施例中，第二卷积块具有相同的空间分辨率。

在一些示例性实施例中，该在先第一卷积块和该在后第一卷积块是相邻的第一卷积块，因为没有其他的第一卷积块被设置在其间，并且该在后第一卷积块和该另一在后第一卷积块是相邻的第一卷积块，因为没有其他的第一卷积块被设置在其间。

虽然参考图3描述了根据本公开的一些实施例的用于模式识别的方法的流程图，要注意，上述描述和附图仅是出于说明的目的，而不是对本公开的限制。在本公开的其他实施例中，该方法可以包括比所描述和图示的步骤更多、更少或不同的步骤，并且这些步骤之间的顺序、包括、功能等之间的关系可以不同于所描述和图示的那些。

将进一步理解，流程图的每个框以及流程图中的框的组合可以通过各种手段来实现，例如硬件、固件、处理器、电路和/或与执行包括一个或多个计算机程序指令的软件相关联的其他设备。例如，上述方法中的一个或多个步骤可以由计算机程序指令体现。在此方面，体现上述步骤的计算机程序指令可以由根据本公开示例实施例的如下描述的装置的存储器设备存储并由该装置的处理器执行。如将被理解的那样，任何这样的计算机程序指令可以被加载到计算机或其他可编程装置(例如，硬件)上以产生机器，从而使得所形成的计算机或其他可编程装置实现流程图框中指定的功能。这些计算机程序指令也可以存储在计算机可读存储器中，其可以指导计算机或其他可编程装置按照特定的方式进行操作，使得存储在计算机可读存储器中的指令产生制品，该制品的执行实现流程图框中指定的功能。也可以将计算机程序指令加载到计算机或其他可编程装置上，以使一系列操作在计算机或其他可编程装置上执行，以产生计算机实现的过程，使得在该计算机或其他可编程装置上执行的指令提供用于实现流程图中指定的功能的操作。

相应地，流程图的框支持用于执行指定功能的装置的组合以及用于执行指定功能的操作的组合。将会理解，流程图中的一个或多个框以及这些框的组合可以通过执行特定功能的基于专用硬件的计算机系统或专用硬件和计算机指令的组合来实现。

在示例实施例中，可以对上述操作中的某些操作进行修改或进一步放大。此外，在示例实施例中，可以包括附加可选操作。可以按照任何顺序和任何组合对上述操作进行修改、添加或放大。

参考图4，示出了根据本公开的示例实施例的用于模式识别的装置400的示意图。装置400可以包括至少一个处理器410、包括计算机程序代码的至少一个存储器420；该至少一个存储器420和该计算机程序代码被配置为利用该至少一个处理器410致使该装置400：接收数据；使用卷积神经网络处理该数据以识别该数据中的模式，其中，该卷积神经网络至少包括：包括第一卷积块序列的第一分支以及包括第二卷积块序列的第二分支，在任何两个相邻的第一卷积块之间设置池化层，每个第一卷积块包括至少一个卷积层，每个第二卷积块包括至少一个卷积层，并且其中，使用卷积神经网络处理该数据以识别该数据中的模式包括：在先第二卷积块接收通过组合由在先第一卷积块输出的特征图和由在后第一卷积块输出的特征图形成的第一特征图、处理第一特征图、并且输出第二特征图，以及在后第二卷积块接收通过组合该第二特征图和由另一在后第一卷积块输出的特征图形成的第三特征图、处理第三特征图、并且输出第四特征图。可以理解的是，卷积神经网络可以是如图1或图2所示和如上所述的基于CNN的网络，或其变体。

在一些示例性实施例中，该装置可以进一步包括用于接收数据的可选的用户接口430和/或可选的通信接口440。

在一些示例性实施例中，使用卷积神经网络处理该数据以识别该数据中的模式进一步包括：另一在后第二卷积块接收通过组合该第四特征图和由又一在后第一卷积块输出的特征图形成的第五特征图，处理第五特征图，以及输出第六特征图。

在一些示例性实施例中，使用卷积神经网络处理该数据以识别该数据中的模式进一步包括：使用区域提议网络处理第六特征图以生成最终区域提议。

在一些示例性实施例中，使用卷积神经网络处理该数据以识别该数据中的模式进一步包括：

在一些示例性实施例中，使用卷积神经网络处理该数据以识别该数据中的模式进一步包括：使用基于区域的对象检测网络利用第六特征图和最终区域提议来将区域分类为识别的模式。

在一些示例性实施例中，通过组合由在先第一卷积块输出的特征图和由在后第一卷积块输出的特征图，来形成第一特征图包括：

在一些示例性实施例中，处理器410(和/或协处理器或协助或以其他方式与处理器410相关联的任何其他处理电路)可以通过总线与存储器420进行通信用于在装置400的部件之间传递信息。存储器420可以包括例如一个或多个易失性和/或非易失性存储器。换句话说，例如，存储器420可以是包括被配置为存储数据(例如，位)的栅极的电子存储设备(例如，计算机可读存储介质)，这些数据可以是机器(例如，像处理器410的计算设备)能检索的。存储器420可以被配置为存储用于使装置400能够执行根据本公开的示例实施例的各种功能的信息、数据、应用程序、指令等。例如，存储器420可以被配置为缓冲输入数据以供处理器410处理。附加地或替代地，存储器420也可以被配置为存储指令以供处理器410执行。

可以将装置400体现为芯片或芯片组。换句话说，装置400可以包括一个或多个物理封装(例如芯片)，包括结构组件(例如基板)上的材料、组件和/或电线。结构组件可以为包括在其上的部件电路提供物理强度、尺寸保留和/或电气交互限制。因此，在某些情况下，装置400可以被配置为在单个芯片上或作为单个片上系统来实现本公开的示例实施例。因此，在某些情况下，芯片或芯片组可以构成执行一项或多项操作以提供本文所述功能的装置。

处理器410可以以多种不同的方式体现。例如，处理器210可以体现为各种硬件处理手段中的一种或多种，例如协处理器、微处理器、控制器、数字信号处理器(DSP)、带有或不带有附带DSP的处理元件、或包括集成电路(例如ASIC(专用集成电路)、FPGA(现场可编程门阵列)、微控制器单元(MCU)、硬件加速器、专用计算机芯片等)的各种其他处理电路。因此，在示例实施例中，处理器410可以包括被配置为独立执行的一个或多个处理核心。多核处理器可以在单个物理组装中启用多处理。附加地或替代地，处理器410可以包括通过总线串联配置的一个或多个处理器，以使得能够独立执行指令、流水线和/或多线程。

在示例实施例中，处理器410可被配置为执行存储在存储器420中或者处理器410可以访问的指令。替代地或附加地，处理器410可被配置为执行硬件编码的功能。因此，无论是通过硬件或软件方法进行配置，还是通过其组合进行配置，处理器410都可以表示在被相应配置时能够执行根据本公开的示例实施例的操作的实体(例如，物理上体现在电路中)。因此，例如，当处理器410被体现为ASIC、FPGA等时，处理器410可以被专门进行硬件配置用于进行此处所述的操作。替代地，作为另一个示例，当处理器410被体现为软件指令的执行器时，这些指令可以具体配置处理器410以当这些指令被执行时执行本文所述的算法和/或操作。但是，在某些情况下，处理器410可以是通过用于执行本文描述的算法和/或操作的指令进一步配置处理器410，被配置为采用本公开的示例性实施例的特定设备(例如，移动终端或网络实体)的处理器。处理器410可以尤其包括被配置为支持处理器410的操作的时钟、算术逻辑单元(ALU)和逻辑门。

同时，可选的通信接口440可以是诸如在硬件或硬件和软件的组合中体现的设备或电路的任何装置，其被配置为从与装置400进行通信的网络和/或任何其他设备或模块接收数据，和/或向与装置400进行通信的网络和/或任何其他设备或模块发送数据。在该方面，通信接口440可以包括例如天线(或多个天线)，并支持硬件和/或软件以实现与无线通信网络的通信。附加地或替代地，通信接口440可以包括用于与天线交互以促使通过天线发送信号或处理通过天线接收的信号的接收的电路。在某些环境中，通信接口240可以替代地或也支持有线通信。因此，例如，通信接口440可以包括网络接口卡、通信调制解调器和/或其他硬件/软件，用于支持通过光纤、电缆、数字用户线(DSL)、通用串行总线(USB)或其他机制的通信。

在示例实施例中，装置400可以包括用户接口430，该用户接口430可以依次与处理器410进行通信以接收用户输入的指示或与用户输入相关的指示和/或致使向用户提供声音、视觉、机械或其他输出。因此，用户接口430可以包括例如键盘、鼠标、操纵杆、显示器、触摸屏、触摸区域、软键、麦克风、扬声器或其他输入/输出机制。

虽然已经参考图4描述了根据本公开的一些实施例的用于模式识别的装置，但是要注意，上面的描述和图示仅是示例性说明，而不是对本公开的限制。在本公开的其他实施例中，该装置可以包括比所描述和说明的更多、更少或不同的部件，并且这些部件之间的连接、包括、功能等之间的关系可以不同于所描述和图示的那些。

参考图5，示出了根据本公开的一些实施例的用于模式识别的系统500。如图所示，系统500包括：被配置为接收数据的接收模块501；以及被配置为处理该数据以识别该数据中的模式的卷积神经网络502，其中，卷积神经网络至少包括：包括第一卷积块序列的第一分支以及包括第二卷积块序列的第二分支，在任何两个相邻的第一卷积块之间设置池化层，每个第一卷积块包括至少一个卷积层，每个第二卷积块包括至少一个卷积层，并且其中，处理该数据以识别该数据中的模式包括：

在先第二卷积块接收通过组合由在先第一卷积块输出的特征图和由在后第一卷积块输出的特征图形成的第一特征图，处理第一特征图，并且输出第二特征图；以及

在后第二卷积块接收通过组合该第二特征图和由另一在后第一卷积块输出的特征图形成的第三特征图，处理第三特征图，并且输出第四特征图。可以理解的是，卷积神经网络可以是如图1或图2所示和如上所述的基于CNN的网络，或其变体。

在一些示例性实施例中，处理该数据以识别该数据中的模式进一步包括：另一在后第二卷积块接收通过组合该第四特征图和由又一在后第一卷积块输出的特征图形成的第五特征图，处理第五特征图，并且输出第六特征图。

在一些示例性实施例中，系统500进一步可选地包括被配置为处理第六特征图以生成最终区域提议的区域提议网络503。

在一些示例性实施例中，系统500进一步可选地包括：

各个区域提议网络503，其被配置为处理第一特征图、第三特征图、第五特征图和第六特征图中的至少两个，以分别生成第一区域提议、第三区域提议、第五区域提议和第六区域提议中的至少两个；以及

合并模块504，其被配置为合并所述第一区域提议、所述第三区域提议、所述第五区域提议和所述第六区域提议中的所述至少两个，以生成最终区域提议。

在一些示例性实施例中，系统500进一步可选地包括基于区域的对象检测网络505，其被配置为利用第六特征图和最终区域提议来将区域分类为识别的模式。

在一些示例性实施例中，卷积神经网络502进一步包括：

第一上采样层，其被配置为对由该在后第一卷积块输出的特征图进行上采样，以具有与由该在先第一卷积块输出的特征图相同的空间分辨率；

第一组合层，其被配置为通过添加该两个特征图的每对对应元素的值或者通过级联该两个特征图的每对对应元素的值，来组合由该在后第一卷积块输出的上采样的特征图和由该在先第一卷积块输出的特征图，以形成第一特征图；

第二上采样层，其被配置为对由另一在后第一卷积块输出的特征图进行上采样以具有与第二特征图相同的空间分辨率；以及

第二组合层，其被配置为通过添加该两个特征图的每对对应元素的值或者通过级联该两个特征图的每对对应元素的值，来组合由该另一在后第一卷积块输出的上采样的特征图和第二特征图，以形成第三特征图。

该系统可以体现在软件、固件、硬件或它们的组合中。例如，该系统可以体现在一个或多个计算机程序中，这些程序可以存储在存储介质或存储器设备中，并可以由处理设备加载并执行以执行该系统的功能。另一个示例是，该系统可以体现在由一个或多个计算机程序配置的计算设备中，以执行该系统的功能。

在本公开的另一实施例中，提供了一种编码有指令的计算机可读介质，所述指令当由计算机执行时致使执行上文描述的根据本公开的任一实施例的用于模式识别的方法。

根据本公开的实施例的卷积神经网络可以体现在软件、固件、硬件或它们的组合中。例如，卷积神经网络可以体现在一个或多个计算机程序中，这些程序可以存储在存储介质或存储器设备中，并可以由处理设备加载和执行。再例如，可以在由一个或多个计算机程序配置的计算设备中体现卷积神经网络。

本发明的解决方案可以生成高级语义和高分辨率特征图。通过高级语义信息，特征表示能力更强，特征更具有鲁棒性。通过高分辨率特征图，可以保留用于检测小规模对象的更多空间信息。

KITTI是著名的视觉基准(http://www.cvlibs.net/datasets/kitti)。对于对象检测，它具有7481个训练图像和7518个测试图像。采用VGG16架构(K.Simonyan和A.Zisserman，“Very Deep Convoluntional Networks For Large-ScaleImageRecognition”(用于大规模图像识别的非常深的卷积网络)[J]，arXiv：1409.1556，2014)来证明解决本发明方案的有效性。

本发明方法与其他两种方法比较：(a)基于原始VGG16的原始方法(称为方法A)；(2)直接组合多层的方法(称为方法B)。对于行人检测，方法A在中度子集上的平均精度(AP)为64.33％，方法B在中度子集上的平均精度(AP)为65.78％，而本发明方法在中度子集上的精度为68.47％。对于骑车人检测，方法A在中度子集上的平均精度(AP)为62.21％，方法B在中度子集上的平均精度(AP)为63.42％，而本发明方法在中度子集上的精度为66.29％。因此，本发明的方法可以显著改善检测性能。

出于说明和描述的目的，已经提供了上述实施例的描述。它并非旨在是穷举性的或限制本公开。特定实施例的单个元素或特征通常不限于该特定实施例，而是在适用的情况下可以互换，并且可以在选定的实施例中使用，即使没有特别说明或描述。相同的地方也可以有很多不同。此类变化不应视为背离本公开，并且所有此类修改均旨在包括在本公开的范围内。

提供了前述示例实施例，以使得本公开将是透彻的并且将范围充分传达给本领域技术人员。阐述了许多具体细节，例如特定部件、设备和方法的示例，以提供对本公开的实施例的充分理解。对本领域技术人员将显而易见的是，不需要采用具体细节，可以以许多不同的形式体现示例性实施例，并且都不应将其解释为限制本公开的范围。在一些示例实施例中，未详细描述众所周知的过程、众所周知的设备结构和众所周知的技术。

本文使用的术语仅出于描述特定示例实施例的目的，并且不旨在进行限制。如本文所使用的，单数形式“一”、“一个”和“该”可以旨在也包括复数形式，除非上下文中另有明确说明。术语“包括”、“包含”、“具有”是包括性的，并且因此指定了所陈述的特征、整数、步骤、操作、要素和/或部件的存在，但不排除存在或添加一个或多个其他特征、整数、步骤、操作、要素、部件和/或其组。除非另有明确说明，否则本文描述的方法步骤、过程和操作均不一定解释为必须要求按照所讨论或示出的特定顺序执行。还应该理解可以采用附加的或替代的步骤。

尽管本文可以使用第一、第二、第三等术语来描述各种元素、部件、区域、层和/或部分，但是这些元素、部件、区域、层和/或部分不应受到这些术语的限制。这些术语仅可用于区分一个元素、部件、区域、层或部分与另一个区域、层或部分。除非上下文中明确指出，否则术语“第一”、“第二”和其他数字术语在本文中使用时并不隐含着顺序或次序。因此，下面讨论的第一元素、部件、区域、层或部分可以被称为第二元素、部件、区域、层或部分，而不背离示例性实施例的教导。

受益于在上述描述中呈现的教导以及相关联附图的本发明所涉及的领域的技术人员将想到本文阐述的本公开的许多修改和其他实施例。因此，可以理解的是，发明不限于所公开的特定实施例，并且修改和其他实施例旨在包括在所附权利要求的范围内。此外，尽管前面的描述和相关联的附图在元素和/或功能的某些示例组合的上下文中描述示例实施例，但应该理解，元素和/或功能的不同组合可以由替代实施例提供，而不背离所附权利要求的范围。例如，在此方面，还设想了与上面明确描述的如在所附权利要求中的一些权利要求中所阐述的不同的元素和/或功能的组合。尽管本文使用了特定术语，但它们仅用于一般性和描述性意义，并非出于限制的目的。

Claims

1.一种用于模式识别的方法，包括：

接收数据；

使用卷积神经网络处理所述数据以识别所述数据中的模式，

其中，所述卷积神经网络至少包括：

包括第一卷积块序列的第一分支，在任何两个相邻的第一卷积块之间设置池化层，每个第一卷积块包括至少一个卷积层，以及

包括第二卷积块序列的第二分支，每个第二卷积块包括至少一个卷积层，以及

其中，使用卷积神经网络处理所述数据以识别所述数据中的模式包括：

在先第二卷积块接收通过组合由在先第一卷积块输出的特征图和由在后第一卷积块输出的特征图形成的第一特征图，处理所述第一特征图，并且输出第二特征图；以及

在后第二卷积块接收通过组合所述第二特征图和由另一在后第一卷积块输出的特征图形成的第三特征图，处理所述第三特征图，并且输出第四特征图。

2.根据权利要求1所述的方法，其中，使用卷积神经网络处理所述数据以识别所述数据中的模式包括：

另一在后第二卷积块接收通过组合所述第四特征图和由又一在后第一卷积块输出的特征图形成的第五特征图，处理所述第五特征图，并且输出第六特征图。

3.根据权利要求2所述的方法，其中，使用卷积神经网络处理所述数据以识别所述数据中的模式进一步包括：

使用区域提议网络处理所述第六特征图，以生成最终区域提议。

4.根据权利要求2所述的方法，其中，使用卷积神经网络处理所述数据以识别所述数据中的模式进一步包括：

使用各个区域提议网络处理所述第一特征图、所述第三特征图、所述第五特征图和所述第六特征图中的至少两个，以分别生成第一区域提议、第三区域提议、第五区域提议和第六区域提议中的至少两个；以及

合并第一区域提议、第三区域提议、第五区域提议和第六区域提议中的所述至少两个，以生成最终区域提议。

5.根据权利要求3或4所述的方法，使用卷积神经网络处理所述数据以识别所述数据中的模式进一步包括：

通过基于区域的对象检测网络利用所述第六特征图和所述最终区域提议来将区域分类为识别的模式。

6.根据任一前述权利要求所述的方法，

其中，通过组合由在先第一卷积块输出的特征图和由在后第一卷积块输出的特征图形成所述第一特征图包括：

对由所述在后第一卷积块输出的特征图进行上采样，以具有与由所述在先第一卷积块输出的特征图相同的空间分辨率；以及

通过加所述两个特征图的每对对应元素的值或者通过级联所述两个特征图的每对对应元素的值，来组合由所述在后第一卷积块输出的上采样的特征图和由所述在先第一卷积块输出的所述特征图，以形成所述第一特征图；

并且其中，通过组合所述第二特征图和由另一在后第一卷积块输出的特征图来形成所述第三特征图包括：

对由所述另一在后第一卷积块输出的特征图进行上采样以具有与所述第二特征图相同的空间分辨率；以及

通过加所述两个特征图的每对对应元素的值或者通过级联所述两个特征图的每对对应元素的值，来组合由所述另一在后第一卷积块输出的上采样的特征图和所述第二特征图，以形成所述第三特征图。

7.根据前述任何一项权利要求所述的方法，其中，所述第二卷积块具有相同的空间分辨率。

8.根据前述权利要求中任何一项所述的方法，其中，所述在先第一卷积块和所述在后第一卷积块是相邻的第一卷积块，因为没有其他的第一卷积块被设置在其间，并且所述在后第一卷积块和所述另一在后第一卷积块是相邻的第一卷积块，因为没有其他的第一卷积块被设置在其间。

9.一种用于模式识别的装置，包括：

至少有一个处理器，

包括计算机程序代码的至少一个存储器；

所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置：

接收数据；

使用卷积神经网络处理所述数据以识别所述数据中的模式，

其中，所述卷积神经网络至少包括：

10.根据权利要求9所述的装置，其中，使用卷积神经网络处理所述数据以识别所述数据中的模式包括：

11.根据权利要求10所述的装置，其中，使用卷积神经网络处理所述数据以识别所述数据中的模式进一步包括：

12.根据权利要求10所述的装置，其中，使用卷积神经网络处理所述数据以识别所述数据中的模式进一步包括：

13.根据权利要求11或12所述的装置，使用卷积神经网络处理所述数据以识别所述数据中的模式进一步包括：

14.根据权利要求9-13中任何一项所述的装置，

对由所述在后第一卷积块输出的所述特征图进行上采样，以具有与由所述在先第一卷积块输出的所述特征图相同的空间分辨率；以及

对由所述另一在后第一卷积块输出的所述特征图进行上采样以具有与所述第二特征图相同的空间分辨率；以及

15.根据前述权利要求9-14中任一项所述的装置，其中，所述第二卷积块具有相同的空间分辨率。

16.根据前述权利要求9-15中任一项所述的装置，其中，所述在先第一卷积块和所述在后第一卷积块是相邻的第一卷积块，因为没有其他的第一卷积块被设置在其间，并且所述在后第一卷积块和所述另一在后第一卷积块是相邻的第一卷积块，因为没有其他的第一卷积块被设置在其间。

17.一种用于模式识别的系统，包括：

被配置为接收数据的接收模块；以及

被配置为处理所述数据以识别所述数据中的模式的卷积神经网络，其中，所述卷积神经网络至少包括：

包括第一卷积块序列的第一分支，在任何两个相邻的第一卷积块之间设置池化层，每个第一卷积块包括至少一个卷积层；以及

其中，处理所述数据以识别所述数据中的模式包括：

18.根据权利要求17所述的系统，其中，处理所述数据以识别所述数据中的模式进一步包括：

19.根据权利要求18所述的系统，进一步包括：

区域提议网络，其被配置为处理所述第六特征图，以生成最终区域提议。

20.根据权利要求18所述的系统，进一步包括：

各个区域提议网络，其被配置为处理所述第一特征图、所述第三特征图、所述第五特征图和所述第六特征图中的至少两个，以分别生成第一区域提议、第三区域提议、第五区域提议和第六区域提议中的至少两个；以及

合并模块，其被配置为合并第一区域提议、第三区域提议、第五区域提议和第六区域提议中的所述至少两个，以生成最终区域提议。

21.根据权利要求19或20所述的系统，进一步包括：

基于区域的对象检测网络，其被配置为利用所述第六特征图和所述最终区域提议来将区域分类为识别的模式。

22.根据任何权利要求15-18所述的系统，其中，所述卷积神经网络进一步包括：

第一上采样层，其被配置为对由所述在后第一卷积块输出的特征图进行上采样，以具有与由所述在先第一卷积块输出的特征图相同的空间分辨率；

第一组合层，其被配置为通过加所述两个特征图的每对对应元素的值或者通过级联所述两个特征图的每对对应元素的值，来组合由所述在后第一卷积块输出的上采样的特征图和由所述在先第一卷积块输出的特征图，以形成所述第一特征图；

第二上采样层，其被配置为对由所述另一在后第一卷积块输出的特征图进行上采样，以具有与所述第二特征图相同的空间分辨率；以及

第二组合层，其被配置为通过加所述两个特征图的每对对应元素的值或者通过级联所述两个特征图的每对对应元素的值，来组合由所述另一在后第一卷积块输出的上采样的特征图和所述第二特征图，以形成所述第三特征图。

23.根据权利要求17-22中任一项所述的系统，其中，所述第二卷积块具有相同的空间分辨率。

24.根据权利要求17-23中任一项所述的系统，其中，所述在先第一卷积块和所述在后第一卷积块是相邻的第一卷积块，因为没有其他的第一卷积块被设置在其间，并且所述在后第一卷积块和所述另一在后第一卷积块是相邻的第一卷积块，因为没有其他的第一卷积块被设置在其间。

25.一种通过指令编码的计算机可读介质，所述指令当由计算机执行时致使执行根据权利要求1-8中任一项所述的方法。