CN104794501A

CN104794501A - 模式识别方法及装置

Info

Publication number: CN104794501A
Application number: CN201510245631.4A
Authority: CN
Inventors: 胡晓林; 梁鸣
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-05-14
Filing date: 2015-05-14
Publication date: 2015-07-22
Anticipated expiration: 2035-05-14
Also published as: CN104794501B

Abstract

本发明提供了一种模式识别方法及装置，其中模式识别方法包括：接收待识别数据；利用基于具有递归卷积层的卷积神经网络训练得到的模式识别模型对所述待识别数据进行模式识别；其中，所述具有递归卷积层的卷积神经网络为在前馈输入基础上结合层内递归输入，得到总输入，并对所述总输入进行非线性激发的神经网络。本申请中使用的具有递归卷积层的卷积神经网络其能够充分融入上下文信息，并在保持参数数量不变的情况下增加网络的深度，因此本申请有效提高了模式识别的准确性。

Description

模式识别方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种模式识别方法及装置。

背景技术

模式识别是用于对输入的模式进行识别，输出该模式的类别。例如包括但不限于：人脸识别，手势识别，交通标志识别，语音识别等。

现有技术的模式识别方法是基于神经网络进行训练，得到模式识别模型，利用训练得到的模式识别模型来识别模式的类别。其中，利用卷积神经网络(CNN，Convolutional Neural Network)训练模式识别模型是比较常见的一种训练方法。但是，发明人发现利用已有的卷积神经网络进行模式识别模型的训练至少存在如下问题：

首先，由于卷积神经网络是纯前馈结构，在识别时无法充分融入上下文信息，而上下文信息则对识别效果有重要的影响。

另外，网络深度大小对识别性能影响较大，识别准确率会随深度增加而增加，而卷积神经网络的卷积层深度固定为1，要想增加网络深度，只能增加卷积层的个数，但这样做会增加模型的参数数量，可能导致过拟合，因此，受网络深度影响基于目前的卷积神经网络训练得到的模式识别模型的识别准确率难以保证。

因此，利用基于已有的卷积神经网络训练得到的模式识别模型进行模式识别的准确率较低。

发明内容

本发明解决的技术问题之一是提供一种模式识别方法及装置，有效提高模式识别准确率。

根据本发明一方面的一个实施例，提供了一种模式识别方法，包括：

接收待识别数据；

利用基于具有递归卷积层的卷积神经网络训练得到的模式识别模型对所述待识别数据进行模式识别；

其中，所述具有递归卷积层的卷积神经网络为在前馈输入基础上结合层内递归输入，得到总输入，并对所述总输入进行非线性激发的神经网络。

根据本发明另一方面的一个实施例，提供了一种模式识别装置，包括：

接收单元，用于接收待识别数据；

模式识别单元，用于利用基于具有递归卷积层的卷积神经网络训练得到的模式识别模型对所述待识别数据进行模式识别；

本申请实施例的模式识别方法由于使用基于具有递归卷积层的卷积神经网络训练得到的模式识别模型进行模式识别，所述具有递归卷积层的卷积神经网络为在前馈输入基础上结合层内递归输入，得到总输入，并对所述总输入进行非线性激发的神经网络，该具有递归卷积层的卷积神经网络其能够充分融入上下文信息，并在保持参数数量不变的情况下增加网络的深度，有效提高了模式识别的准确性。

本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本发明一个实施例的利用层内递归卷积神经网络训练模型示意图。

图2是根据本发明一个实施例的利用图1训练得到的模式识别模型进行模式识别示意图。

图3是根据本发明一个实施例的模式识别方法的流程图。

图4是根据本发明一个实施例的模式识别装置结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

所述计算机设备包括用户设备与网络设备。其中，所述用户设备包括但不限于电脑、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备或网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

应当理解的是，当一个单元被称为“连接”或“耦合”到另一单元时，其可以直接连接或耦合到所述另一单元，或者可以存在中间单元。与此相对，当一个单元被称为“直接连接”或“直接耦合”到另一单元时，则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”，“与...邻近”相比于“与...直接邻近”等等)。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

本申请实施例是基于卷积神经网络进行模式识别，此处所述的卷积神经网络为具有递归卷积层的卷积神经网络，是在前馈输入基础上结合层内递归输入，得到总输入，并对所述总输入进行非线性激发的神经网络。也就是本实施例所述的卷积神经网络是在已有的卷积层加入层内递归连接，将其转变为递归卷积层，以达到利用上下文信息的目的。为描述方便，本申请实施例将在卷积层加入层内递归连接的卷积神经网络称为层内递归卷积神经网络。

已有的卷积神经网络的卷积层的每个单元接收前一层局部单元的输入，并对输入进行非线性激发，得到该单元的响应，其中，该单元的输入可用如下公式表示：

z_{ijk} = {(w_{k}^{f})}^{T} u^{(i, j)} + b_{k}

其中，z_ijk表示第k张特征图上处于(i,j)位置的单元所接收到的输入，u^(i,j)表示向量化的前一层特征图上以(i,j)为中心的局部单元的响应，表示向量化的前馈输入的权值，T表示转置。

该单元的输出(即响应)可用如下公式表示：

x_ijk＝f(z_ijk)

其中，x_ijk表示该单元的输出，f为非线性激发函数。

本申请实施例的层内递归卷积神经网络是将上述卷积层加入层内递归连接(即在前馈输入基础上结合层内递归输入)，得到递归卷积层，该递归卷积层中的前馈输入随离散时间而变化，具体可表示为：

{(w_{k}^{f})}^{T} u^{(i, j)} (t)

其中，t表示时间值，且t≤N，其中N表示总时间步数。

该递归卷积层的层内递归输入具体可表示为：

{(w_{k}^{r})}^{T} x^{(i, j)} (t - 1)

其中，x^(i,j)(t-1)表示上一时间步当前层特征图上以为(i,j)中心的局部单元的响应，表示向量化的层内递归输入的权值。

则递归卷积层的总输入可用公式表示为：

z_{ijk} (t) = {(w_{k}^{f})}^{T} u^{(i, j)} (t) + {(w_{k}^{r})}^{T} x^{(i, j)} (t - 1) + b_{k} - - - (1)

其中，z_ijk(t)表示总输入，b_k为偏差值。

对应的输出(该单元的响应)即为对总输入进行非线性激发，具体可表示为：

x_ijk(t)＝f(z_ijk)(t) (2)

其中，x_ijk(t)表示当前时间步单元的响应，

由上述公式可以看出，本申请实施例所述的递归卷积层是一个离散时间上的动态系统，单元的输出随着时间步的推移而演化。该递归卷积层相对于卷积层具有如下优势：

1)在已有的卷积层中，每个单元的感受野(即接收到的局部输入的大小)是固定的，无法动态融合上下文信息。而递归卷积层的每个单元可以利用任意大范围内的上下文信息。通过对公式(1)(2)的不断迭代，使得单元不仅受到前馈输入的影响，也受到来自其他单元的递归输入的影响，由此间接的受到了其他单元前馈输入的影响，因此能够影响到每个单元的输入范围变得越来越大，相当于每个单元的感受野在逐渐扩大。

2)通过沿时间展开，递归卷积层可以展开成任意深度的子网络，在参数数量保持不变的情况下增加网络的深度。

上述优势均有利于提高模式识别的准确率。

本申请实施例在执行模式识别前，需要基于层内递归卷积神经网络训练出用于模式识别的模式识别模型。图1中所示为模型训练过程示意图。在训练过程中，需要搜集多组训练数据以及验证数据。利用验证数据对训练模型进行训练来确定训练模型的超参数，所述超参数包括但不限于：训练模型的层数、展开次数、步数以及每层划分的单元数等等。确定了训练模型的超参数后，可利用训练数据对其进行训练，以确定训练模型的前馈输入权值以及层内递归输入权重。具体的，可将其沿时间展开一定的步数(即上述训练得到的超参数中的步数)得到一个前馈网络，将训练数据成组输入到训练模型中，计算出各层的输出，利用误差反向传播算法求得的梯度对前馈输入权值和层内递归输入权值进行更新。对多组训练数据重复上述操作，直到训练准确率不再上升为止。其中，本申请实施例对提取的训练数据的用于模式识别的参数不做具体限制，对于不同的模式识别场景，其需要提取的参数不同。

其中，由于递归卷积层沿时间展成的子网络中存在多条输入到输出的路径，因此，在训练阶段这种多路径结构有利于模型的优化。例如，使用误差反向传播算法时，该算法在层数较多时效果可能会变差，而在递归卷积层的多路径子网络中，误差传输如果在长路径上遇到困难，在短路径上仍然可以继续传输，因此保证了误差反向传播算法的执行效果。

经过上述训练最终可得到一个模式识别模型，该模式识别模型的前馈输入权值和层内递归输入权值已确定，利用该模式识别模型可进行模式识别操作。

图2中所示为利用模式识别模型进行模式识别操作的示意图，其对应的模式识别方法的流程如图3中所示，该方法可应用于任意模式识别场景，包括但不限于：人脸识别，手势识别，交通标志识别，语音识别等。参照图2及图3中所示，本申请实施例的模式识别方法包括如下步骤：

S30、接收待识别数据；

如图2中所示，模式识别模型接收需要识别模式类别的待识别数据，例如，该待识别数据可以为一张图片。

S31、利用基于具有递归卷积层的卷积神经网络训练得到的模式识别模型对所述待识别数据进行模式类别。

所述的模式识别模型为依照上述方法基于具有递归卷积层的卷积神经网络训练得到的模式识别模型，该模式识别模型的输出结果即为识别出的模式的类别。

本申请实施例还提供一种与上述模式识别方法对应的模式识别装置，该装置利用基于具有递归卷积层的卷积神经网络训练得到的模式识别模型进行模式识别，对于具有递归卷积层的卷积神经网络的描述以及模式识别模型的训练过程同上面实施例中所述，此处不再赘述。如图4中所示为所述装置结构示意图，该装置主要包括：

接收单元40，用于接收待识别数据。该接收单元40接收需要识别模式类别的待识别数据，例如，该待识别数据可以为一张图片。

模式识别单元41，用于利用基于具有递归卷积层的卷积神经网络训练得到的模式识别模型对所述待识别数据进行模式识别。

本申请实施例的模式识别装置由于使用基于具有递归卷积层的卷积神经网络训练得到的模式识别模型进行模式识别，所述具有递归卷积层的卷积神经网络为在前馈输入基础上结合层内递归输入，得到总输入，并对所述总输入进行非线性激发的神经网络，该具有递归卷积层的卷积神经网络其能够充分融入上下文信息，并在保持参数数量不变的情况下增加网络的深度，有效提高了模式识别的准确性。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种模式识别方法，其特征在于，包括：

接收待识别数据；

2.如权利要求1所述的方法，其特征在于，所述前馈输入随离散时间而变化，具体表示为：

其中，u^(i,j)表示向量化的前一层特征图上以(i,j)为中心的局部单元的响应，表示向量化的前馈输入的权值，T表示转置，t表示时间值，且t≤N，其中N表示总时间步数。

3.如权利要求2所述的方法，其特征在于，所述层内递归输入具体表示为：

其中，x^(i，j)(t-1)表示上一时间步当前层特征图上以为(i,j)中心的局部单元的响应，表示向量化的层内递归输入的权值。

4.如权利要求3所述的方法，其特征在于，所述总输入用公式表示为：

z_{ijk} (t) = {(w_{k}^{f})}^{T} u^{(i, j)} (t) + {(w_{k}^{r})}^{T} x^{(i, j)} (t - 1) + b_{k},

其中，z_ijk(t)表示总输入，b_k为偏差值。

5.如权利要求4所述的方法，其特征在于，对所述总输入进行非线性激发用公式表示为：

x_ijk(t)＝f(z_ijk)(t)，其中，x_ijk(t)表示当前时间步单元的响应，f为非线性激发函数。

6.如权利要求1所述的方法，其特征在于，所述模式识别包括但不限于以下任一项：

人脸识别、手势识别、交通标志识别、语言识别。

7.一种模式识别装置，其特征在于，包括：

接收单元，用于接收待识别数据；

8.如权利要求7所述的装置，其特征在于，所述前馈输入随离散时间而变化，具体表示为：

9.如权利要求8所述的装置，其特征在于，所述层内递归输入具体表示为：

10.如权利要求9所述的装置，其特征在于，所述总输入用公式表示为：

z_{ijk} (t) = {(w_{k}^{f})}^{T} u^{(i, j)} (t) + {(w_{k}^{r})}^{T} x^{(i, j)} (t - 1) + b_{k},

其中，z_ijk(t)表示总输入，b_k为偏差值。

11.如权利要求10所述的装置，其特征在于，所述对所述总输入进行非线性激发用公式表示为：

12.如权利要求7所述的装置，其特征在于，所述模式识别包括但不限于以下任一项：

人脸识别、手势识别、交通标志识别、语言识别。