CN113902031A

CN113902031A - 一种单据文本识别的方法、装置、设备及介质

Info

Publication number: CN113902031A
Application number: CN202111260770.6A
Authority: CN
Inventors: 王茵
Original assignee: Shanghai Zongbo Technology Co ltd
Current assignee: Shanghai Zongbo Technology Co ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-07

Abstract

本发明公开了一种单据文本识别的方法，包括：步骤一、建立模板库，以存储多个类别的单据识别模板；步骤二、获取待识别单据的图像并进行预处理，得到待识别图像；步骤三、采用CTPN算法对待识别图像进行文本定位，得到多个文本候选框；步骤四、根据多个文本候选框与所述模板库中的单据识别模板进行匹配，筛选出待识别图像对应的所述单据识别模板，作为目标单据识别模板；步骤五、根据目标单据识别模板，采用CRNN算法从待识别图像识别出感兴趣的文本信息。本发明创建了模板库存储多个类别的单据识别模板，将待识别单据与单据识别模板进行匹配，利用单据识别模板裁剪出感兴趣的文本区域，识别出感兴趣的文本信息，提高单据识别的效率。

Description

一种单据文本识别的方法、装置、设备及介质

技术领域

本发明涉及文本识别技术领域，特别涉及一种单据文本识别的方法、装置、设备及介质。

背景技术

随着组织型结构领域(例如：面向企业(to business，2B)领域)中移动办公的兴起，移动办公软件在人们的工作中的作用越来越重要，人们在工作中可以通过移动办公软件及时沟通，工作中很多单据是通过单据图像的形式进行提交的，再通过图像文本识别转化成文本信息进一步录入，如果提交的单据图像存在噪声较高、文本信息量较大，则会导致单据图像的文本识别、转录工作效率低，识别精度差。

发明内容

本发明提供了一种单据文本识别的方法，通过创建模板库储存多个类别的单据识别模板，获取的单据图像通过预处理后与单据识别模板进行匹配，再根据单据识别模板选择的裁剪单据图像上感兴趣的区域，进行文本信息识别，通过引入单据识别模板，大大提高了单据文本识别的效率。

本发明的技术方案为：

一种单据文本识别的方法，包括：

步骤一、建立模板库，以存储多个类别的单据识别模板；

步骤二、获取待识别单据的图像并进行预处理，得到待识别图像；

步骤三、采用CTPN算法对待识别图像进行文本定位，得到多个文本候选框；

步骤四、根据多个文本候选框与模板库中的单据识别模板进行匹配，筛选出待识别图像对应的单据识别模板，作为目标单据识别模板；

步骤五、根据目标单据识别模板，采用CRNN算法从待识别图像识别出感兴趣的文本信息。

优选的是，单据识别模板包括标题框和多个目标信息框。

优选的是，预处理包括：

对所图像进行灰度化处理，并输出二值化图像；

利用边缘检测算法对二值化图像进行梯度化，以梯度图为引导图进行预滤波去除所述图像中背景；

将去除背景后的二值化图像进行多尺度卷积融合滤波，去除二值化图像中的噪声，得到待识别图像。

优选的是，多尺度卷积融合滤波过程为：

将二值化图像输入第一滤波器，进行卷积滤波，得到第一滤波图像；

将二值化图像输入第二滤波器，进行卷积滤波，得到第二滤波图像；

将二值化图像输入第三滤波器，进行卷积滤波，得到第三滤波图像；

将第一滤波图像、第二滤波图像和第三滤波图像均值融合得到待识别图像；

其中，第一滤波器的卷积核为3×3，第二滤波器的卷积核为5×5，第三滤波器的卷积核为7×7。

优选的是，文本定位包括：

通过VGG16卷积神经网络提取待识别图像的五个卷积层的特征图；

采用3×3滑动窗口提取特征图的特征；

将特征输入到双向GRU网络中；

将双向GRU网络的输出结果输入到全连接层，得到多个文本候选框。

优选的是，步骤四包括：

遍历文本候选框，计算文本候选框坐标与单据识别模板的标题框坐标间的误差；

遍历模板库，筛选出误差最小的标题框对应的单据识别模板作为目标单据识别模板。

优选的是，步骤五包括：

根据目标单据模板对待识别图像进行朝向校正并确定多个目标信息框；

根据目标信息框从待识别图像中裁剪出多个感兴趣区域；

采用CRNN算法识别感兴趣区域的文本信息作为感兴趣的文本信息。

一种单据文本识别的装置，包括：

模板库模块，其创建模板库，以存储多个类别的单据识别模板；

接收模块，其获取待识别的单据图像；

预处理模块，其能够对单据图像进行预处理，去除单据图像的噪声，并输出待识别图像；

特征提取模块，其能够对待识别图像进行特征提取，并输出多个文本候选框；

匹配模块，其能够筛选出待识别图像对应的单据识别模板；

文本识别模块，其根据单据识别模板裁剪所述待识别图像，并进行文本识别。

一种单据文本识别的设备，包括处理器和存储器，存储器用于存储能够被处理器读取的计算机指令，当计算机指令被读取时，处理器执行上述的单据文本识别的方法。

一种存储介质，用于存储计算机可读指令，计算机可读指令用于使计算机执行上述的单据文本识别的方法。

本发明的有益效果是：

1、本发明提供的一种单据文本识别的方法，通过创建模板库储存多个类别的单据识别模板，获取的单据图像通过预处理后与单据识别模板进行匹配，再根据单据识别模板选择的裁剪单据图像上感兴趣的区域，进行文本信息识别，通过引入单据识别模板，大大提高了单据文本识别的效率。

2、本发明提供的一种单据文本识别的方法，对待识别的单据图像采用边缘检测算法去除图像背景，采用多尺度卷积融合率波法去除图像噪声，蒜段了后续模板匹配和文本识别的时长。

3、本发明还提供了单据文本识别的装置、设备个介质，为高效率的单据文本识别提供硬件支持。

附图说明

图1为本发明的一个实施例中一种单据文本识别的方法流程图。

图2为本发明的另一个实施例中一种单据文本识别的方法流程图。

图3为本发明的一个实施例中一种单据文本识别的装置示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

“内”等指示的方向或位置关系的术语是基于附图所述的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

如图1所示，一种单据文本识别的方法，包括：

S110、建立模板库，以存储多个类别的单据识别模板。

其中，单据识别模板包括标题框和多个目标信息框。

标题框用于与待识别的单据进行匹配，目标信息框作为单据文本信息识别的选定框，仅针对感兴趣的区域进行文本识别。

S120、获取待识别单据的图像并进行预处理，得到待识别图像。

首先，对所图像进行灰度化处理，并输出二值化图像。

然后，利用边缘检测算法对二值化图像进行梯度化，以梯度图为引导图进行预滤波去除所述图像中背景。

计算所述二值化图像数据水平方向和垂直方向的梯度幅值；

根据水平方向和垂直方向的梯度幅值计算图像梯度幅值和梯度方向；

保留梯度方向上的梯度幅值最大值，抑制非最大值；

设定梯度阈值，去除梯度值小于梯度阈值的伪边缘，得到去除背景的二值化图像。

最后，将去除背景后的二值化图像进行多尺度卷积融合滤波，去除二值化图像中的噪声，得到待识别图像，具体过程为：

S130、采用CTPN算法对待识别图像进行文本定位，得到多个文本候选框。

采用3×3滑动窗口提取特征图的特征；

将特征输入到双向GRU网络中；

S140、根据多个文本候选框与模板库中的单据识别模板进行匹配，筛选出待识别图像对应的单据识别模板，作为目标单据识别模板。

S150、根据目标单据识别模板，采用CRNN算法从待识别图像识别出感兴趣的文本信息。

根据目标信息框从待识别图像中裁剪出多个感兴趣区域；

在一个具体实施例中，一种单据文本识别的方法如图2所示，包括：

S110、读取待识别的单据图像。

S120、判断是否需要预处理。

在单据识别场景中，工作人员需要将采集到的单据图片输入模型，这个采集到的图片质量层次不齐，有直接在原电子文档上截图的，有打印出纸质并且拍下的，还有直接在屏幕上拍下的，样式复杂。此处可以根据获取的单据图像的质量手动或者自动选择是否需要进行预处理。

若需要预处理，则具体过程为：

S121、对所图像进行灰度化处理，并输出二值化图像。

S122、利用边缘检测算法对二值化图像进行梯度化，以梯度图为引导图进行预滤波去除所述图像中背景。

S123、将去除背景后的二值化图像进行多尺度卷积融合滤波，去除二值化图像中的噪声，得到待识别图像。

此处，分别采用卷积核为3×3、5×5和7×7的滤波器进行卷积滤波，卷积处理后通过padding补0的方式补齐使之和原图尺寸相等，然后将三个卷积处理结果相对应层加取均值，输出待识别图像。

S130、特征提取并经CPTN文本检测输出文本候选框。

本发明用VGG16来产生特征图(feature map)，首先进行3×3的滑动窗口卷积，即每个点都结合周围区域特征获得一个长度为的特征向量，输出(N×C×W/16×H/16)的feature map。

再将这个feature map进行reshape

N×9C×H×W→(NH)×W×9C

然后以batch＝NH且最大时间长度T_max＝W的数据流输入双向GRU网络，学习每一行的特征序列，双向GRU网络输出(NH)×W×256,再经过reshape恢复形状：

(NH)×W×256→N×256×H×W

接着将GRU输出的结果，输入到全连接层，得到多个文本候选框(textproposals)。

S140、根据CPTN识别得到的多个文本候选框与模板库进行匹配，筛选出目标单据识别模板。

首先，计算CPTN识别出的所有文本候选框的位置坐标和单据识别模板所给的标题框位置坐标之间的误差；

然后，对所有误差结果排序，误差最小的文本候选框被认为是匹配框；

最后，根据匹配框对应筛选出目标单据识别模板。

S151、根据目标单据识别模板对待识别图片进行裁剪，具体为，根据目标单据模板对待识别图像进行朝向校正并确定多个目标信息框,根据目标信息框从待识别图像中裁剪出多个感兴趣区域。

S152、采用CRNN算法对感兴趣区域进行文本信息识别。

这样就筛选出本发明需要识别的文本框，在给识别模型CRNN识别时,就不需要识别单据上全部的文本，只需识别感兴趣区域的文本框内文本，缩短了CRNN识别部分的耗时。且将CTPN和CRNN中的双向LSTM替换成了双向GRU，在不减小精度的情况下减少了参数量，更进一步节省识别部分的训练和推理时间。

如图3所示，一种单据文本识别的装置，包括模板库模块110、接收模块120、预处理模块130、特征提取模块140、匹配模块150和文本识别模块160。

模板库模块110用于创建模板库，以存储多个类别的单据识别模板，接收模块120获取待识别的单据图像，预处理模块130能够对单据图像进行预处理，去除单据图像的噪声，并输出待识别图像，特征提取模块140能够对待识别图像进行特征提取，并输出多个文本候选框，匹配模块150能够筛选出待识别图像对应的单据识别模板，文本识别模块160根据单据识别模板裁剪所述待识别图像，并进行文本识别。

本发明实施例中提供的技术方案，至少具有如下技术效果或优点：

本发明提供的一种单据文本识别的方法，通过创建模板库储存多个类别的单据识别模板，获取的单据图像通过预处理后与单据识别模板进行匹配，再根据单据识别模板选择的裁剪单据图像上感兴趣的区域，进行文本信息识别，通过引入单据识别模板，大大提高了单据文本识别的效率。本发明提供的一种单据文本识别的方法，对待识别的单据图像采用边缘检测算法去除图像背景，采用多尺度卷积融合率波法去除图像噪声，蒜段了后续模板匹配和文本识别的时长。本发明还提供了单据文本识别的装置、设备个介质，为高效率的单据文本识别提供硬件支持。

以上内容仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不脱离本发明的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。

Claims

1.一种单据文本识别的方法，其特征在于，包括：

步骤一、建立模板库，以存储多个类别的单据识别模板；

步骤三、采用CTPN算法对所述待识别图像进行文本定位，得到多个文本候选框；

步骤四、根据所述多个文本候选框与所述模板库中的单据识别模板进行匹配，筛选出所述待识别图像对应的所述单据识别模板，作为目标单据识别模板；

步骤五、根据所述目标单据识别模板，采用CRNN算法从所述待识别图像识别出感兴趣的文本信息。

2.如权利要求1所述的单据文本识别的方法，其特征在于，所述单据识别模板包括标题框和多个目标信息框。

3.如权利要求2所述的单据文本识别的方法，其特征在于，所述预处理包括：

对所图像进行灰度化处理，并输出二值化图像；

利用边缘检测算法对所述二值化图像进行梯度化，以梯度图为引导图进行预滤波去除所述图像中背景；

将去除背景后的二值化图像进行多尺度卷积融合滤波，去除所述二值化图像中的噪声，得到待识别图像。

4.如权利要求3所述的单据文本识别的方法，其特征在于，所述多尺度卷积融合滤波过程为：

将所述二值化图像输入第一滤波器，进行卷积滤波，得到第一滤波图像；

将所述二值化图像输入第二滤波器，进行卷积滤波，得到第二滤波图像；

将所述二值化图像输入第三滤波器，进行卷积滤波，得到第三滤波图像；

将所述第一滤波图像、所述第二滤波图像和所述第三滤波图像均值融合得到待识别图像；

其中，所述第一滤波器的卷积核为3×3，所述第二滤波器的卷积核为5×5，所述第三滤波器的卷积核为7×7。

5.如权利要求4所述的单据文本识别的方法，其特征在于，所述文本定位包括：

通过VGG16卷积神经网络提取所述待识别图像的五个卷积层的特征图；

采用3×3滑动窗口提取所述特征图的特征；

将所述特征输入到双向GRU网络中；

6.如权利要求5所述的单据文本识别的方法，其特征在于，所述步骤四包括：

遍历所述文本候选框，计算所述文本候选框坐标与所述单据识别模板的标题框坐标间的误差；

遍历所述模板库，筛选出所述误差最小的所述标题框对应的单据识别模板作为目标单据识别模板。

7.如权利要求6所述的单据文本识别的方法，其特征在于，所述步骤五包括：

根据所述目标单据模板对所述待识别图像进行朝向校正并确定多个目标信息框；

根据所述目标信息框从所述待识别图像中裁剪出多个感兴趣区域；

采用CRNN算法识别所述感兴趣区域的文本信息作为感兴趣的文本信息。

8.一种单据文本识别的装置，其特征在于，包括：

接收模块，其获取待识别的单据图像；

预处理模块，其能够对所述单据图像进行预处理，去除所述单据图像的噪声，并输出待识别图像；

特征提取模块，其能够对所述待识别图像进行特征提取，并输出多个文本候选框；

匹配模块，其能够筛选出所述待识别图像对应的单据识别模板；

文本识别模块，其根据所述单据识别模板裁剪所述待识别图像，并进行文本识别。

9.一种单据文本识别的设备，其特征在于，包括处理器和存储器，所述存储器用于存储能够被所述处理器读取的计算机指令，当所述计算机指令被读取时，所述处理器执行如权利要求1至7任一项所述的方法。

10.一种存储介质，其特征在于，用于存储计算机可读指令，所述计算机可读指令用于使计算机执行如权利要求1至7任一项所述的方法。