CN112101395A

CN112101395A - 一种图像的识别方法及装置

Info

Publication number: CN112101395A
Application number: CN201910527015.6A
Authority: CN
Inventors: 程战战
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2020-12-18

Abstract

本申请提供一种图像的识别方法及装置。其中，方法包括：将待识别的目标图像划分为至少两个子图像；获取每一子图像的第一特征向量；根据已训练的注意力集中模型的参数数据，计算得到每一子图像的注意力分配概率值；依据各子图像的第一特征向量和注意力分配概率值确定用于识别所述目标图像的第二特征向量，利用所述第二特征向量识别所述目标图像得到识别结果。本申请具有图像识别更简单、高效的积极效果。

Description

一种图像的识别方法及装置

技术领域

本申请涉及图像识别处理技术领域，具体而言，涉及一种图像的识别方法及装置。

背景技术

相关技术中，在对证件图像(如身份证、驾照等的图像)进行识别时，都是通过先对证件图像中的文字及头像等信息进行目标检测，具体的该目标检测的过程包括特征提取和特征比对等步骤，然后对检测的目标进行目标识别，而在目标检测与目标识别两个过程的衔接处，需要进行阈值设定、阈值调整和特征值的重复使用等处理步骤，存在着计算量大和效率低的缺陷。

发明内容

有鉴于此，本申请提供一种图像的识别方法及装置，以提高识别的效率。

具体地，本申请是通过如下技术方案实现的：

第一方面，本申请实施例提供了一种图像的识别方法，所述方法包括：

将待识别的目标图像划分为至少两个子图像；

获取每一子图像的第一特征向量；

根据已训练的注意力模型的参数数据，计算得到每一子图像的注意力分配概率值；

依据各子图像的第一特征向量和注意力分配概率值确定用于识别所述目标图像的第二特征向量，利用所述第二特征向量识别所述目标图像得到识别结果。

第二方面，本申请实施例提供了一种图像的识别装置，所述装置包括：

图像划分模块，用于将待识别的目标图像划分为至少两个子图像；

获取模块，用于获取每一子图像的第一特征向量；

计算模块，用于根据已训练的注意力模型的参数数据，计算得到每一子图像的注意力分配概率值；

识别模块，用于依据各子图像的第一特征向量和注意力分配概率值确定用于识别所述目标图像的第二特征向量，利用所述第二特征向量识别所述目标图像得到识别结果。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面所述的图像的识别方法的步骤。

第四方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的图像的识别方法的步骤。

本申请实施例中提供的一种证件图像的识别方法及装置，将待识别的目标图像进行切割，得到多个子图像；获取每个子图像的第一特征向量，通过已训练完成的注意力分配模型计算得到每一子图像的注意力分配概率值，然后根据每个子图像的第一特征向量和每个子图像的注意力分配概率值确定用于识别目标图像的第二特征向量，利用该第二特征向量识别目标图像得到识别结果；本发明实施例中通过得到的目标参数进行识别目标图像，不需要进行目标检测，相对于现有技术中的目标检测加目标识别的模式，具有更简单、高效的积极效果。

附图说明

图1是本申请一示例性实施例示出的一种图像的识别方法的流程示意图；

图2是本申请一示例性实施例示出的一种图像的识别方法中注意力分配模型的计算框架示意图；

图3是本申请一示例性实施例示出的识别目标图像方法的流程示意图；

图4是本申请一示例性实施例示出的目标图像处理的效果示意图；

图5是本申请一示例性实施例示出的一种图像的识别装置的结构示意图；

图6是本申请一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

考虑到现有技术中，在进行对身份证、护照、合同等证件图像进行识别时，一般都是通过获取包含该证件的图像，预先对图像进行目标检测，然后对检测的目标进行目标识别，该过程中涉及到大量的中间阈值设定及调整的问题，具有计算量大，识别效率低的缺项。基于此，本申请实施例提供了一种图像的识别方法及装置。

图1是本申请一示例性实施例示出的一种图像的识别方法的流程示意图。参照图1所示，本实施例中提供的图像的识别的方法，该方法包括如下步骤：

S100、将待识别的目标图像划分为至少两个子图像。

本实施例中将待识别图像进行图像切割，得到多个子图像；其中，切割的方式需要满足以下原则：a、所有子图像从待识别图像中切割而出；b、所有子图像之间无序；c、所有子图像的并集与所述待识别图像等价。

将待识别图像进行切割时，可以是随机切割成任意大小。可选地，为便于处理，在切割时使切割后得到的子图像的尺寸满足：宽度在60-120像素之间，高度为24-48像素之间。

本申请一可选的实施例中，上述在将待识别的目标图像进行切割之前，可以是初步对该图像进行文本区域的识别，识别出该图像中文本信息所在的区域，然后在保证同一行文本区域的完整性的前提下，对目标图像进行切割。

示例性的，通过直方图的方式对图像进行文本区域识别，并初步得到图像中的文本区域的位置信息，根据该位置信息对图像进行切割，如此可以避免图像中的关联信息被切割到不同的子图像中，提高后续的识别效率。例如，被识别的证件为身份证时，在对身份证的图像进行切割时满足使该身份证号码的一串完整的数字处在同一个子图像中而不被切割开。

S102、获取每一子图像的第一特征向量。

将每一子图像输入至已训练的特征提取模型，利用特征提取模型对输入的子图像进行特征提取，得到输入的子图像的第一特征向量。该已训练的特征提取模型可以是已训练完成的第一神经网络模型。

可选的，上述的第一神经网络模型可以是卷积神经网络或者是循环神经网络，将多个子图像输入至卷积神经网络或者循环神经网络，经过卷积神经网络或者循环神经网络的计算输出，得到所述多个子图像分别对应的第一特征向量。

以卷积神经网络为例，通过以下公式(1)对多个子图像进行特征提取，得到子图像的第一特征向量：

h_j＝CNN(I_j) (1)

其中，上述h_j为第j个子图像对应的第一特征向量，每一个第一特征向量均对应原图像中的某一个区域(即子图像)；CNN表示进行卷积神经网络的计算，I_j为第j个子图像。

进而，本实施例中通过卷积神经网络的计算，最终得到每个子图像对应的第一特征向量。

S104、根据已训练的注意力模型的参数数据，计算得到每一子图像的注意力分配概率值。

图2示出了本申请一实施例提供的一种注意力模型的计算框架示意图。参照图2所示，在得到每一个子图像对应的第一特征向量以后，通过以下公式(2)和公式(3)计算得到每个第一特征向量所对应的注意力分配概率值，

a_t，j＝Softmax(e_t，j) (3),

其中，其中，e_t，j为中间参数，v^T、W和U均为训练后的注意力模型的自学习参数，s_t-1为注意力模型的隐层状态，α_t，j为注意力分配概率值向量α_t的第j个向量因子；h_j为第j个子图像对应的第一特征向量；Tanh表示进行非线性变换处理，Softmax表示进行归一化处理。

本实施例中，通过训练好的注意力模型计算得到每个子图像的注意力分配概率值。该注意力模型在训练时所使用的训练数据中，包含有与最终的识别结果具有相同类别的训练数据，比如如果该注意力模型用于对身份证图像进行的识别，则该注意力模型的训练数据中应当包含有一定数量的身份证图像。进而可以保证使用训练完成的注意力模型对待识别图像进行准确预测。

S106、依据各子图像的第一特征向量和注意力分配概率值确定用于识别所述目标图像的第二特征向量，利用所述第二特征向量识别所述目标图像得到识别结果。

本实施例中以原图像被分割为T个子图像为例，在对子图像进行特征提取操作以后，得到T个第一特征向量，分别为：h₁-h_T。进一步的，根据计算得到的注意力分配概率值对T个第一特征向量进行加权；以第t个注意力分配概率值向量为α_t＝(α_t，1，α_t，2，α_t，3、、、α_t，j、、、α_t，T)为例，按照如下公式(4)进行加权求和运算以后，得到运算结果g_t：

其中，t∈(1，T)。

本实施例中通过对上述的第一特征向量按照上述的注意力分配概率值进行加权，实现了目标图像中的有效信息(感兴趣信息)的提取。上述的第二特征向量即为提取的目标图像中所包含的有效信息。该有效信息为目标图像中需要进行识别的信息，以目标图像为身份证图像为例，该有效信息包括文本和图像。

参照图3所示的实施例，本实施例中，上述步骤S106中，利用所述第二特征向量识别所述目标图像得到识别结果，具体包括如下步骤S200-S202：

S200、将第二特征向量输入至已训练的第二神经网络模型，以由所述第二神经网络模型对输入的第二特征向量进行格式转换得到目标参数。

可选的，上述在得到第二特征向量以后，通过已训练的第二神经网络模型对该目标参数进行格式转换，该第二神经网络模型可以是卷积神经网络或者循环神经网络。

再次参照图2所示，以第二神经网络模型为循环神经网络为例，通过该循环神经网络计算得到表征原图像的目标参数s_t，具体计算如下公式(5)所示：

s_t＝Recurrent(y_t-1，g_t，s_t-1) (5)

其中，上述Recurrent表示进行循环神经网络的处理，该循环神经网络的输入为向量y_t-1、g_t、s_t-1，输出为目标参数s_t。其中，y_t-1为第t-1个输出的识别结果，g_t为第t个运算结果，s_t-1为第t-1个的目标参数。

S202、对所述目标参数进行识别得到识别结果，将所述识别结果确定为所述目标图像的识别结果。

本实施例中得到的目标参数表征了目标图像中所包含的有效信息，该信息包括文本信息和图像信息。示例性的，该目标参数可以是图像数据，进而通过第二神经网络模型将第二特征向量还原至图像数据，实现了由原图像数据至目标图像数据的映射。

在得到表征目标图像的目标参数s_t以后，将该目标参数进一步输入至已训练的第三神经网络模型，经过该第三神经网络模型识别该目标参数，得到目标图像的识别结果。

示例性的，参见图4所示的效果示意图，以待识别的目标图像为身份证图像为例，首先对身份证图像进行随机分割得到多个子图像，通过上述的卷积神经网络(CNN)对各子图像进行特征提取，得到各子图像的第一特征向量，然后通过注意力模型计算得到各子图像的注意力分配概率值，通过对各子图像的第一特征向量和注意力分配概率值进行加权求和，对目标图像进行提取有效信息(第二特征向量)，然后通过第二神经网络模型的处理得到最终的目标参数，通过第三神经网络模型对目标参数进行识别，得到最终的目标图像的识别结果。

可选的，该第三神经网络模型可以是多层感知器MLP(Multi-Layer Perceptron)，将所述多层感知器的输出进行归一化处理后，选择概率最大的输出作为最终识别出的识别结果。具体，如下公式(6)所示：

y_t＝Softmax(Ws_t) (6)

其中，上述W为多层感知器的自学习参数矩阵，通过自学习得到；s_t为第t次输出的目标参数。Softmax表示进行归一化处理计算。

其中，y_t为最终输出的识别结果。

本申请实施例所提供的一种图像的识别方法，无需对图像中的目标进行检测，仅通过图像切割和使用注意力模型得到表征原图像的目标参数，通过直接对该目标参数进行识别实现对证件等的图像的识别，相对于现有技术，省却了目标检测的过程，节省了计算量，提高了识别效率。

与前述图像的识别方法的实施例相对应，本申请还提供了图像的识别装置的实施例。

图5是本申请一示例性实施例示出的一种图像的识别装置的结构示意图；参照图5所示，该装置包括：

图像划分模块501，用于将待识别的目标图像划分为至少两个子图像；

获取模块502，用于获取每一子图像的第一特征向量；

计算模块503，用于根据已训练的注意力模型的参数数据，计算得到每一子图像的注意力分配概率值；

识别模块504，用于依据各子图像的第一特征向量和注意力分配概率值确定用于识别所述目标图像的第二特征向量，利用所述第二特征向量识别所述目标图像得到识别结果。

可选的，上述获取模块502，具体用于；

将每一子图像输入至已训练的特征提取模型，利用所述特征提取模型对输入的子图像进行特征提取，得到输入的子图像的第一特征向量.

可选的，上述识别模块504，具体用于：

将各子图像的第一特征向量和注意力分配概率值进行加权求和运算，得到运算结果；

将所述运算结果确定为用于识别所述目标图像的第二特征向量。

可选的，上述识别模块504，具体用于：

将第二特征向量输入至已训练的第二神经网络模型，以由所述第二神经网络模型对输入的第二特征向量进行格式转换得到目标参数；

对所述目标参数进行识别得到识别结果，将所述识别结果确定为所述目标图像的识别结果。

可选的，上述识别模块504，具体用于：

将所述目标参数输入至已训练的第三神经网路模型，将所述第三神经网路模型的输出进行归一化处理后，选择概率最大的输出作为最终的识别结果。

本申请一实施例中还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例所述的图像的识别方法的步骤。

图6是本申请实施例示出的一种计算机设备的结构示意图。参照图6所示，该计算机设备600，至少包括存储器602和处理器601；所述存储器602通过通信总线603和所述处理器601连接，用于存储所述处理器601可执行的计算机指令；所述处理器601用于从所述存储器602读取计算机指令以实现上述任一实施例所述的图像的识别方法的步骤。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种图像的识别方法，其特征在于，所述方法包括：

将待识别的目标图像划分为至少两个子图像；

获取每一子图像的第一特征向量；

根据已训练的注意力集中模型的参数数据，计算得到每一子图像的注意力分配概率值；

2.根据权利要求1所述的方法，其特征在于，所述获取每一子图像的第一特征向量，包括：

将每一子图像输入至已训练的特征提取模型，利用所述特征提取模型对输入的子图像进行特征提取，得到输入的子图像的第一特征向量。

3.根据权利要求1所述的方法，其特征在于，所述依据各子图像的第一特征向量和注意力分配概率值确定用于识别所述目标图像的第二特征向量，包括：

4.根据权利要求1所述方法，其特征在于，所述利用所述第二特征向量识别所述目标图像得到识别结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述目标参数进行识别得到识别结果，包括：

6.一种图像的识别装置，其特征在于，所述装置包括：

获取模块，用于获取每一子图像的第一特征向量；

7.根据权利要求6所述的装置，其特征在于，所述获取模块，具体用于；

8.根据权利要求6所述的装置，其特征在于，所述识别模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述识别模块，具体用于：

10.根据权利要求6所述的装置，其特征在于，所述识别模块，具体用于：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-5任一所述的图像的识别方法的步骤。

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-5任一所述的图像的识别方法的步骤。