CN110969129A

CN110969129A - 一种端到端税务票据文本检测与识别方法

Info

Publication number: CN110969129A
Application number: CN201911220830.4A
Authority: CN
Inventors: 刘新宇; 李锐; 于治楼
Original assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-04-07
Anticipated expiration: 2039-12-03
Also published as: CN110969129B

Abstract

本发明特别涉及一种端到端税务票据文本检测与识别方法。该端到端税务票据文本检测与识别方法，首先采用目标检测算法粗略检测文本区域，根据税务票据文本某些文字之间间距大的特性提出边界注意力机制，细化文本区域；然后利用语义分割技术检测税务印章中的弯曲文本，同时进行文本识别。该端到端税务票据文本检测与识别方法，利用检测加分割技术既可以检测水平和多方向文本又可以检测弯曲文本，同时利用注意力机制通过迭代的方式实现了字间距大的文本实例的检测，而且实现了端到端的检测与识别，既可以提高检测与识别的准确率又可以提高整个流程的效率。

Description

一种端到端税务票据文本检测与识别方法

技术领域

本发明涉及深度学习中目标检测与语义分技术领域，特别涉及一种端到端税务票据文本检测与识别方法。

背景技术

近年来，由于文本检测与识别技术(OCR技术)巨大的应用前景，该项技术吸引了越来越多研究者的关注。文本检测与识别技术能够自动，快速地获取不同场景中的文本信息，为后续操作提供便利，例如手写文档录入，场景理解，自动驾驶，地理定位等诸多方面。

目前的工作基本都将检测和识别视为两个独立的任务——文本检测任务和文本识别任务。文本图片首先输入到检测模型定位出相应的文本区域，将文本区域裁剪出来输入到文本识别模型输出相应的识别结果。以往文本检测和文本识别技术使用的都是基于人工设计的特征，但随着深度学习的发展，现在大部分的文本检测和文本识别技术使用的都是深度神经网络自动学习特征。

文本检测技术大致可以分为两类。

首先是基于检测的方法，这类方法又可以细分为基于组件的方法和基于单词或文本行的方法。

(一)基于组件的方法首先检测文本的一部分(可能包含一个或多个字符)，然后通过后处理的方式将这些组件分组，将同一组的组件合并，形成最终的文本。

(二)另一种方法是基于单词或文本行的方法，这类方法主要继承自一些流行的目标检测框架，例如Faster RCNN，SSD等。这类方法首先设置一些默认的文本框，通过卷积神经网络对文本框是否包含文本分类，并对文本框进行边框回归。

基于检测的方法在水平文本或多方向文本中取得了不错的表现，但是无法检测弯曲文本。

第二类是基于分割的方法，这类方法主要继承自语义分割，输入图片经过分割网络输出与原图片相同尺度的掩码图片，掩码图片每个像素的值都是0～1，表示有无文本。通过后处理的方式将像素分组，同一组的像素构成一个最终的文本区域。

基于分割的方法可以检测任意形状的文本，但是需要像素级别的标注，数据集的标注有巨大的困难。另外如何将像素分组也是目前遇到的难题，两个文本区域距离太近容易将相应的像素分到同一组中。

目前，文本识别技术主要基于编码-解码框架，在解码过程中利用各注意力机制提高识别准确率。2D attention可以用来识别弯曲文本。

虽然，现有的技术大多将文本检测和文本识别视为两个独立的任务，但是着两个任务在一定程度上是可以相辅相成的。最近虽然已经出现一些端到端的设计，但是这些模型大多数采用堆砌的策略，将检测和识别的模块堆积在一个模型里面，导致整体结构太过复杂，训练困难。另外目前流行的框架基本都是基于英文文本的，而专门用于中文的模型少之又少。

针对以上情况，本发明提出了一种端到端税务票据文本检测与识别方法。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的端到端税务票据文本检测与识别方法。

本发明是通过如下技术方案实现的：

一种端到端税务票据文本检测与识别方法，其特征在于：首先采用目标检测算法粗略检测文本区域，根据税务票据文本某些文字之间间距大的特性提出边界注意力机制，细化文本区域；然后利用语义分割技术检测税务印章中的弯曲文本，同时进行文本识别。

本发明端到端税务票据文本检测与识别方法，包括以下步骤：

第一步，原始税务票据图像输入到文本检测模块，所述文本检测模块基于SSD(Single Shot MultiBox Detector，目标检测算法)模型粗略定位文本，划定文本矩形框；

第二步，文本区域细化模块采用注意力机制，通过迭代的方式不断优化矩形文本框；

第三步，文本区域分割与识别模块将优化过的矩形文本区域的特征作为输入，通过语义分割技术定位出弯曲的文本区域，同时识别出3768类一级汉字。

所述第一步中，使用SSD模型粗略定位文本区域，SSD模型会输出若干个水平矩形框，每个矩形框都有相应的文本的分数，根据不同的分数选择不同的阈值对矩形文本框进行初步筛选。

所述第二步中，文本区域细化模块通过迭代的方式不断优化SSD模型产生的文本框，使得优化后的文本框能够将字间距较大的文本实例包含进来。

所述第二步中，通过迭代的方式不断优化矩形文本框，包括以下步骤：

(1)将SSD模型检测出的文本框映射到特征图(feature map)上，得到相应的文本区域特征；

(2)所述文本区域特征经过卷积操作得到具有4个channel通道的，与文本区域特征有相同尺度的注意力特征；分别表示当前文本框在进行调整时更应该关注左上、左下、右上或右下中的哪个位置；

(3)将4个注意力特征与每个文本区域特征分别进行点乘，然后再经过多次卷积，产生一个16维的输出向量，分别表示左上角、左下角、右上角和右下角在x坐标轴和y坐标轴方向上的偏移量；

(4)利用偏移量对文本框进行更新，多次重复步骤(1)～(3)，最终产生的矩形文本框即可很好的包围字间距大的文本实例。

所述第三步中，通过语义分割技术定位出弯曲的文本区域并进行识别，包括以下步骤：

(1)将调整后的文本框再次映射到特征图(feature map)上得到相应的文本区域特征；

(2)利用全卷积的方式对文本区域特征进行分割，产生与输入文本区域有相同尺度的3769个channel通道的掩码图，从而检测出矩形文本框中所有形状的文本区域，同时对所有形状的文本区域中的内容进行识别，使得模型能够端到端检测并识别税务票据文字。

所述步骤(2)中，掩码图中每个像素的值均为0～1，第一个掩码图是文本区域掩码图；其中每个像素值表示该像素是否属于文本，剩余3768个分别表示一级汉字的掩码图，每个掩码图上每个像素的值表示该像素是否属于相应的汉字。

本发明端到端税务票据文本检测与识别方法，具体实施步骤如下。

第一步，单独训练SSD模型，训练k1轮，k1为自然数；

第二步，将图片输入SSD模型产生初始文本框，固定SSD模型，训练注意力(attention)模块，训练k2轮，k2为自然数；

第三步，固定SSD模型，注意力(attention)模块，训练分割模块，训练k3轮，k3为自然数；

第四步，将上述前三步交替进行，逐块优化模型；

第五步，将文本检测模块，文本区域细化模块和文本区域分割与识别模块协同训练，整体优化模型；

第六步，将图片输入训练好的模型，即可直接产生弯曲的文本区域和识别结果。

本发明的有益效果是：该端到端税务票据文本检测与识别方法，利用检测加分割技术既可以检测水平和多方向文本又可以检测弯曲文本，同时利用注意力机制通过迭代的方式实现了字间距大的文本实例的检测，而且实现了端到端的检测与识别，既可以提高检测与识别的准确率又可以提高整个流程的效率。

附图说明

附图1为本发明端到端税务票据文本检测与识别方法示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明中的技术方案，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚，完整的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

该端到端税务票据文本检测与识别方法，首先采用目标检测算法粗略检测文本区域，根据税务票据文本某些文字之间间距大的特性提出边界注意力机制，细化文本区域；然后利用语义分割技术检测税务印章中的弯曲文本，同时进行文本识别。

该端到端税务票据文本检测与识别方法，包括以下步骤：

税务票据中有些文本实例非常长(例如票据抬头)，字符间的间距较大，所以上一步的检测很容易将一个文本实例识别成若干个独立的字。为了避免上述情况，该端到端税务票据文本检测与识别方法设计了一种新的边界注意力机制。所述第二步中，文本区域细化模块通过迭代的方式不断优化SSD模型产生的文本框，使得优化后的文本框能够将字间距较大的文本实例包含进来。

该端到端税务票据文本检测与识别方法，具体实施步骤如下。

第一步，单独训练SSD模型，训练k1轮，k1为自然数；

第四步，将上述前三步交替进行，逐块优化模型；

与现有技术相比，该端到端税务票据文本检测与识别方法，具有以下特定：

第一，实现了端到端的检测与识别，提高了文本检测与识别的效率和效果；

第二，利用注意力机制，通过迭代的方式实现了字间距大的文本实例的检测；

第三，利用检测加分割技术既可以检测水平和多方向文本又可以检测弯曲文本；

第四，检测部分和识别部分使用共享的卷积特征，大大减小了模型的复杂度，提高了模型的效率；

第五，文本检测模块，文本区域细化模块和文本区域分割与识别模块可以交替进行训练，相比于以往的端到端模型，模型的训练难度更低。

以上对本发明实例中的一种端到端税务票据文本检测与识别方法进行了详细的介绍。本部分采用具体实例对发明的原理及实施方式进行了阐述，以上实例仅用于帮助理解本发明的核心思想，在不脱离本发明原理的情况下，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

Claims

1.一种端到端税务票据文本检测与识别方法，其特征在于：首先采用目标检测算法粗略检测文本区域，根据税务票据文本某些文字之间间距大的特性提出边界注意力机制，细化文本区域；然后利用语义分割技术检测税务印章中的弯曲文本，同时进行文本识别。

2.根据权利要求1所述的端到端税务票据文本检测与识别方法，其特征在于，包括以下步骤：

第一步，原始税务票据图像输入到文本检测模块，所述文本检测模块基于SSD模型粗略定位文本，划定文本矩形框；

3.根据权利要求2所述的端到端税务票据文本检测与识别方法，其特征在于：所述第一步中，使用SSD模型粗略定位文本区域，SSD模型会输出若干个水平矩形框，每个矩形框都有相应的文本的分数，根据不同的分数选择不同的阈值对矩形文本框进行初步筛选。

4.根据权利要求2或3所述的端到端税务票据文本检测与识别方法，其特征在于：所述第二步中，文本区域细化模块通过迭代的方式不断优化SSD模型产生的文本框，使得优化后的文本框能够将字间距较大的文本实例包含进来。

5.根据权利要求4所述的端到端税务票据文本检测与识别方法，其特征在于：所述第二步中，通过迭代的方式不断优化矩形文本框，包括以下步骤：

(1)将SSD模型检测出的文本框映射到特征图上，得到相应的文本区域特征；

6.根据权利要求5所述的端到端税务票据文本检测与识别方法，其特征在于：所述第三步中，通过语义分割技术定位出弯曲的文本区域并进行识别，包括以下步骤：

(1)将调整后的文本框再次映射到特征图上得到相应的文本区域特征；

7.根据权利要求6所述的端到端税务票据文本检测与识别方法，其特征在于：所述步骤(2)中，掩码图中每个像素的值均为0～1，第一个掩码图是文本区域掩码图；其中每个像素值表示该像素是否属于文本，剩余3768个分别表示一级汉字的掩码图，每个掩码图上每个像素的值表示该像素是否属于相应的汉字。

8.根据权利要求7所述的端到端税务票据文本检测与识别方法，其特征在于，实施步骤如下：

第一步，单独训练SSD模型，训练k1轮，k1为自然数；

第二步，将图片输入SSD模型产生初始文本框，固定SSD模型，训练注意力模块，训练k2轮，k2为自然数；

第三步，固定SSD模型，注意力模块，训练分割模块，训练k3轮，k3为自然数；

第四步，将上述前三步交替进行，逐块优化模型；