CN113065423A

CN113065423A - 一种基于深度学习的票证关键信息提取方法和装置

Info

Publication number: CN113065423A
Application number: CN202110295682.3A
Authority: CN
Inventors: 张宾; 孙喜民; 周晶; 刘丹; 王帅; 李慧超
Original assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Current assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-07-02

Abstract

本申请公开了一种基于深度学习的票证关键信息提取方法和装置，将待审核图像输入至预先构建的目标检测网络中，经由目标检测网络对待审核图像进行目标检测，得到各个文本框图像、以及各个文本框图像的类别。对各个文本框图像进行文字识别，得到文本框图像与文字信息之间的对应关系。基于类别与审核项之间的预设对应关系、以及文本框图像与文字信息之间的对应关系，确定审核项所对应的文字信息。相较于现有技术，本申请所述方法无需对识别得到的各个文字信息进行规则匹配，避免因规则匹配所导致的误差，从而有效提升文字识别的准确性。

Description

一种基于深度学习的票证关键信息提取方法和装置

技术领域

本申请涉及图像识别技术领域，尤其涉及一种基于深度学习的票证关键信息提取方法和装置。

背景技术

对待审核图像进行文字识别，一直是图像识别技术中的关注重点。所谓的待审核图像，即人们日常生活工作中所接触的票证(例如身份证、发票、缴费清单、以及火车票等)的图像。对待审核图像进行文字识别，其实就是提取票证中的关键信息。

在现有技术中，大多利用文字识别技术，识别待审核图像所示的各个文字信息，并对各个文字信息进行规则匹配，确定各个预设的审核项(即票证中关键信息的类型)所对应的文字信息，以身份证图像为例，预设的审核项可以为身份证号码、家庭住址和出生年月等。然而，规则匹配的匹配结果较为容易出错，使得待审核图像的文字识别的准确性降低。

发明内容

本申请提供了一种基于深度学习的票证关键信息提取方法和装置，目的在于提高文字识别的准确性。

为了实现上述目的，本申请提供了以下技术方案：

一种基于深度学习的票证关键信息提取方法，包括：

将待审核图像输入至预先构建的目标检测网络中，经由所述目标检测网络对所述待审核图像进行目标检测，得到各个文本框图像、以及各个所述文本框图像的类别；

对各个所述文本框图像进行文字识别，得到所述文本框图像与文字信息之间的对应关系；

基于所述类别与审核项之间的预设对应关系、以及所述文本框图像与文字信息之间的对应关系，确定所述审核项所对应的文字信息；

其中，所述目标检测网络对所述待审核图像进行目标检测的过程为：

利用预设的锚框修正结构，修正所述目标检测网络的锚框，使得所述锚框的旋转角度与所述待审核图像所示文字的旋转角度之间的差值，不大于预设阈值；

利用预设的特征金字塔网络，对所述待审核图像进行特征提取，得到各个特征图；

针对每个所述特征图，在所述特征图上使用所述锚框生成多个边框，并对各个所述边框进行后处理，得到每个所述特征图的文本框图像；

利用预设的分类器，识别各个所述文本框图像的类别。

可选的，所述目标检测网络的构建过程，包括：

构建训练集；其中，所述训练集包括样本图像、与所述样本图像对应的标注框、以及所述标注框的类别；

将所述样本图像输入至预设的卷积神经网络中，利用预设的损失函数和优化算法训练所述卷积神经网络，直至所述卷积神经网络输出的文本框图像与所述标注框对应、以及输出的类别与所述标注框的类别对应，确定当前训练得到的卷积神经网络为所述目标检测网络。

可选的，所述锚框修正结构包括：

多个卷积层。

可选的，所述特征金字塔网络包括：

特征提取器。

可选的，所述特征提取器包括：

多个卷积层。

可选的，还包括：

将所述审核项与所述文字信息之间的对应关系存储至本地。

一种基于深度学习的票证关键信息提取装置，包括：

目标检测单元，用于将待审核图像输入至预先构建的目标检测网络中，经由所述目标检测网络对所述待审核图像进行目标检测，得到各个文本框图像、以及各个所述文本框图像的类别；

文字识别单元，用于对各个所述文本框图像进行文字识别，得到所述文本框图像与文字信息之间的对应关系；

确定单元，用于基于所述类别与审核项之间的预设对应关系、以及所述文本框图像与文字信息之间的对应关系，确定所述审核项所对应的文字信息；

利用预设的锚框修正结构，修正所述目标检测网络的锚框，使得所述锚框的旋转角度与所述待审核图像所示文字的旋转角度之间的差值，不大于预设阈值；利用预设的特征金字塔网络，对所述待审核图像进行特征提取，得到各个特征图；针对每个所述特征图，在所述特征图上使用所述锚框生成多个边框，并对各个所述边框进行后处理，得到每个所述特征图的文本框图像；利用预设的分类器，识别各个所述文本框图像的类别。

可选的，还包括：

存储单元，用于将所述审核项与所述文字信息之间的对应关系存储至本地。

一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行所述的基于深度学习的票证关键信息提取方法。

一种基于深度学习的票证关键信息提取设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的基于深度学习的票证关键信息提取方法。

本申请提供的技术方案，将待审核图像输入至预先构建的目标检测网络中，经由目标检测网络对待审核图像进行目标检测，得到各个文本框图像、以及各个文本框图像的类别。对各个文本框图像进行文字识别，得到文本框图像与文字信息之间的对应关系。基于类别与审核项之间的预设对应关系、以及文本框图像与文字信息之间的对应关系，确定审核项所对应的文字信息。其中，目标检测网络对待审核图像进行目标检测的过程为：利用预设的锚框修正结构，修正目标检测网络的锚框的旋转角度，使得锚框的旋转角度与待审核图像所示文字的旋转角度之间的差值，不大于预设阈值；利用预设的特征金字塔网络，对待审核图像进行特征提取，得到各个特征图；针对每个特征图，在特征图上使用锚框生成多个边框，并对各个边框进行后处理，得到特征图的文本框图像；利用预设的分类器，识别各个文本框图像的类别。相较于现有技术，本申请所述方法无需对识别得到的各个文字信息进行规则匹配，避免因规则匹配所导致的误差，从而有效提升文字识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于深度学习的票证关键信息提取方法的示意图；

图2为本申请实施例提供的一种锚框修正结构的网络示意图；

图3为本申请实施例提供的一种待审核图像的示意图；

图4为本申请实施例提供的另一种待审核图像的示意图；

图5为本申请实施例提供的一种特征金字塔网络的示意图；

图6为本申请实施例提供的一种基于深度学习的票证关键信息提取装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，为本申请实施例提供的一种基于深度学习的票证关键信息提取方法的示意图，包括如下步骤：

S101：将待审核图像输入至预先构建的目标检测网络中，经由目标检测网络对待审核图像进行目标检测，得到各个文本框图像、以及各个文本框图像的类别。

其中，将待审核图像输入目标检测网络中，获得目标检测网络输出的各个文本框图像、以及各个文本框图像的类别。在本申请实施例中，目标检测网络时通过将样本图像作为输入，将人工标注的样本图像包含的各类型对象的位置区域作为训练目标，训练得到。

需要说明的是，目标检测网络对待审核图像进行目标检测的过程包括：

1、利用预设的锚框修正结构，修正目标检测网络的锚框的旋转角度，使得锚框的旋转角度与待审核图像所示文字的旋转角度之间的差值，不大于预设阈值。

需要说明的是，预设的锚框修正结构包括多个卷积层，具体的，可以参见图2所示。

所谓的锚框(anchor)，亦可以称为先验框，可以理解为多尺度的滑动窗口。以图3所示的待审核图像为例，在目标检测过程中，目标检测网络会将待审核图像预先划分为3×3个网格，每个网格均对应一个锚框，图3中所示的各个点为不同网格所对应的锚框的中心点，图3所示的3个矩形框代表锚框的3种形状。

在实际应用中，锚框的坐标通常表示为(x^a,y^a,w^a,h^a,θ)，x^a为锚框中心点的横坐标，y^a为锚框中心点的纵坐标，w^a为锚框的宽，h^a为锚框的高，a为锚框的索引，θ为锚框的旋转角度。锚框的中心点坐标、宽和高的具体取值，为本领域技术人员所熟悉的公知常识，这里不再赘述。

在本申请实施例中，修正前的锚框的旋转角度θ取值为0，修正后的锚框的旋转角度θ的取值范围为

此外，修正后的锚框的坐标(x,y,w,h,θ)，相较于修正前的锚框的坐标(x^a,y^a,w^a,h^a,θ)，其偏移的坐标量为：

其中，

代表锚框的中心点横坐标的偏移量，

代表锚框的中心点纵坐标的偏移量，

代表锚框的宽的偏移量，

代表锚框的高的偏移量，

代表锚框的旋转角度的变化量。

需要强调的是，修正后的锚框的旋转角度可由技术人员根据实际情况调整，具体的，预先测量待审核图像中所示文字的旋转角度，而后依据文字的旋转角度调整锚框的参数

具体的，基于旋转角度修正后的锚框所得到的边框，相较于基于旋转角度修正前的锚框所得到的边框，两者之间的差别，可参见图4所示。基于图4可知，基于旋转角度修正后的锚框所得到的边框，能够完全涵盖文字“12345678”，并且，边框的旋转角度能够与文字“12345678”的旋转角度保持一致，如此一来，能够保证边框所框定的文字信息是完整的，从而提高目标检测的准确性。

2、利用预设的特征金字塔网络，对待审核图像进行特征提取，得到各个特征图(feature map)。

需要说明的是，预设的特征金字塔网络包括特征提取器(Feature PyramidNetworks，FPN)，特征提取器包括多个卷积层，具体的，可以参见图5所示。所谓的特征图，为本领域技术人员所熟悉的公知常识，这里不再赘述。

3、针对每个特征图，在特征图上使用锚框生成多个边框，并对各个边框进行后处理，得到每个特征图的文本框图像。

4、利用预设的分类器，识别各个文本框图像的类别。

需要说明的是，分类器为本领域技术人员所熟悉的公知常识，这里不再赘述。

另外，目标检测网络的构建过程，包括：构建训练集，其中，训练集包括样本图像、与样本图像对应的标注框(即人工标注的样本图像包含的对象的位置区域)、以及标注框的类别(即人工标注的样本图像包含的对象的类型)；将样本图像输入至预设的卷积神经网络中，利用预设的损失函数和优化算法训练卷积神经网络，直至卷积神经网络输出的文本框图像与标注框对应、以及输出的类别与标注框的类别对应，确定当前训练得到的卷积神经网络为目标检测网络。

S102：对各个文本框图像进行文字识别，得到文本框图像与文字信息之间的对应关系。

S103：基于类别与审核项之间的预设对应关系、以及文本框图像与文字信息之间的对应关系，确定审核项所对应的文字信息。

可选的，还可以将审核项与文字信息之间的对应关系存储至本地，方便用户随时查阅。

综上所述，相较于现有技术，本实施例所述方法无需对识别得到的各个文字信息进行规则匹配，避免因规则匹配所导致的误差，从而有效提升文字识别的准确性。

与上述本申请实施例提供的基于深度学习的票证关键信息提取方法相对应，本申请实施例还提供了一种基于深度学习的票证关键信息提取装置。

如图6所示，为本申请实施例提供的一种基于深度学习的票证关键信息提取装置的结构示意图，包括：

目标检测单元100，用于将待审核图像输入至预先构建的目标检测网络中，经由目标检测网络对待审核图像进行目标检测，得到各个文本框图像、以及各个文本框图像的类别。

其中，目标检测网络对待审核图像进行目标检测的过程为：利用预设的锚框修正结构，修正目标检测网络的锚框的旋转角度，使得锚框的旋转角度与待审核图像所示文字的旋转角度之间的差值，不大于预设阈值；利用预设的特征金字塔网络，对待审核图像进行特征提取，得到各个特征图；针对每个特征图，在特征图上使用锚框生成多个边框，并对各个边框进行后处理，得到每个特征图的文本框图像；利用预设的分类器，识别各个文本框图像的类别。锚框修正结构包括多个卷积层，特征金字塔网络包括特征提取器，特征提取器包括多个卷积层。

目标检测网络的构建过程包括：构建训练集，其中，训练集包括样本图像、与样本图像对应的标注框、以及标注框的类别；将样本图像输入至预设的卷积神经网络中，利用预设的损失函数和优化算法训练卷积神经网络，直至卷积神经网络输出的文本框图像与标注框对应、以及输出的类别与标注框的类别对应，确定当前训练得到的卷积神经网络为目标检测网络。

文字识别单元200，用于对各个文本框图像进行文字识别，得到文本框图像与文字信息之间的对应关系。

确定单元300，用于基于类别与审核项之间的预设对应关系、以及文本框图像与文字信息之间的对应关系，确定审核项所对应的文字信息。

存储单元400，用于将审核项与文字信息之间的对应关系存储至本地。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行上述本申请提供的基于深度学习的票证关键信息提取方法。

本申请还提供了一种基于深度学习的票证关键信息提取设备，包括：处理器、存储器和总线。处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述本申请提供的基于深度学习的票证关键信息提取方法，包括如下步骤：

利用预设的锚框修正结构，修正所述目标检测网络的锚框的旋转角度，使得所述锚框的旋转角度与所述待审核图像所示文字的旋转角度之间的差值，不大于预设阈值；

利用预设的分类器，识别各个文本框图像的类别。

可选的，所述目标检测网络的构建过程，包括：

可选的，所述锚框修正结构包括：

多个卷积层。

可选的，所述特征金字塔网络包括：

特征提取器。

可选的，所述特征提取器包括：

多个卷积层。

可选的，还包括：

将所述审核项与所述文字信息之间的对应关系存储至本地。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度学习的票证关键信息提取方法，其特征在于，包括：

利用预设的分类器，识别各个所述文本框图像的类别。

2.根据权利要求1所述的方法，其特征在于，所述目标检测网络的构建过程，包括：

3.根据权利要求1所述的方法，其特征在于，所述锚框修正结构包括：

多个卷积层。

4.根据权利要求1所述的方法，其特征在于，所述特征金字塔网络包括：

特征提取器。

5.根据权利要求4所述的方法，其特征在于，所述特征提取器包括：

多个卷积层。

6.根据权利要求1所述的方法，其特征在于，还包括：

将所述审核项与所述文字信息之间的对应关系存储至本地。

7.一种基于深度学习的票证关键信息提取装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1-6任一所述的基于深度学习的票证关键信息提取方法。

10.一种基于深度学习的票证关键信息提取设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-6任一所述的基于深度学习的票证关键信息提取方法。