CN111091090A

CN111091090A - 一种银行报表ocr识别方法、装置、平台和终端

Info

Publication number: CN111091090A
Application number: CN201911281887.5A
Authority: CN
Inventors: 周康明
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-05-01

Abstract

一种银行报表OCR识别方法，通过OCR获得银行报表的图像，对于银行报表的识别方法包括的步骤有：获得银行报表模板；检测银行报表图像的边界线段；对银行报表线段进行排除、融合、筛除处理后确定银行报表边界；对银行报表图像作仿射变换；确定银行报表上需识别区域并且对该区域进行识别。

Description

一种银行报表OCR识别方法、装置、平台和终端

技术领域

本发明属于图像处理技术领域，特别涉及一种银行报表OCR识别方法、装置、平台和终端。

背景技术

随着金融市场的放开，银行业发展迅猛，经营范围不断扩大，业务不断增加。在日常经营中，财务报表作为常见的定量输出工具，有着不可或缺的作用，它不仅是银行从事各项业务活动以及资产管理的直接结果体现，还有利于银行管理者分析各项财务成本，考核各项财务指标，对银行各项业务做出正确评价和引领，同时，还是国家管理部门改善金融管理，制定金融政策的重要依据。除了银行自身经营以及业务办理过程中涉及的账单、报表等，银行还需要处理大量的外部报表，尤其在作为银行主要盈利来源之一的信贷业务上尤为突出。企业报表上直接反映了企业的经营状况，银行只有对企业报表进行详尽地分析之后才决定是否对企业进行放款。

以往的报表识别和录入往往采用人工的方式，不仅费时费力，且有时由于人工长时间的审阅疲劳，或者疏忽大意，还会导致错误发生。在很多时候，一张报表图像上面的条目多则上百条，少则几十条，人工识别录入不仅效率低下，还浪费了很多经营成本。

近年来，随着计算机硬件处理性能的不断提升，同时，伴随着机器学习和深度学习理论和技术的不断发展，OCR作为图像识别领域的分支，也有了较大发展。目前，较为人所知的，例如银行卡OCR、身份证OCR识别技术早已应用到大规模的生产生活中，而一些表格类识别软件也相继应用而生，但是与银行卡OCR和身份证OCR相比，其性能远远达不到需求。究其原因，有如下三点：

首先，银行卡和身份证的版式和大小固定，而报表文档种类繁多，格式多样，数不胜数，为开发带来了难度；

其次，银行卡和身份证版面信息位置固定，而报表类文档条目位置不固定，并且表格大小不一，常有合并单元格情形，为检测和识别增加了难度；

再者，银行卡以及身份证内容字体格式固定，而报表不仅包含打印体，还有手写体，大大增加了识别难度。

目前，还鲜有公开的银行类报表解决方案。

发明内容

本发明提出了一种银行报表识别方法。

本发明实施例之一，一种银行报表OCR识别方法，通过OCR获得银行报表的图像，对于银行报表的识别方法包括的步骤有：获得银行报表模板；检测银行报表图像的边界线段；对银行报表线段进行排除、融合、筛除处理后确定银行报表边界；对银行报表图像作仿射变换；确定银行报表上需识别区域并且对该区域进行识别。

本发明的有益效果包括：在识别银行报表时，大大提升了识别效率，克服了人工效率低下的缺点。尤其适用于银行报表的多路人工比对。以往，银行报表审阅和录入往往采用三条支路，两条支路对同一张报表条目进行审阅录入，如果两条支路录入一致，则视为通过，如果不通过，则进入第三条分支进行判断。本发明完全可以代替其中的一条分支，将算法识别的结果和一条支路人工识别结果做比对，如果一致则表示通过，如果不一致则通过第三条支路校验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1根据本发明实施例之一的银行报表OCR识别流程示意图。

具体实施方式

根据一个或者多个实施例，如图1所示，一种银行报表OCR识别方法。该方法基于一个银行报表模板历史仓库，历史仓库里面存有标注好的各类报表的四边边界信息，以及需要识别的各个条目的位置信息。

在识别过程中，主要分为以下几步：

1、提取模板信息。输入一张待识别报表图像，判断此类报表的标注信息是否已经存在于历史仓库中，如果不存在，则标注入库，如果存在，提取模板信息后，进入下一步。

2、图像缩放。由于报表图像大小不一，为了适用后续通用的算法，这里需要将待检测图像做适度缩放，这里采用图像处理中常用的插值法将图像缩放到指定大小范围内。

3、图像预处理。图像预处理包括先采用3×3结构元素对图像进行开运算，来达到消除小的噪点的目的，然后采用3×3结构元素对开运算结果进行闭运算，此步骤可以填补一些线段细小缺失的部分。

4、线段检测。采用lsd线段检测算法，对第三步预处理后的结果进行检测。此步骤，会检测到很多线段，除了报表图像最外框边界信息，里面每个条目的小框也会检测到线段信息。此外，如果由于扫描干扰或者图像质量不佳，还会检测到其他干扰线段。求出每一条线段与X轴正向的角度，并且将所有线段的角度转化为[0,180)度。

5、线段排除。报表类图像通常都是正对扫描，很少有畸变，透视等现象，为此，横向表格线的角度通常在0度或者180度附近，纵向表格线的角度通常在90度附近。为横向和纵向表格线设定一个容忍阈值，选出在阈值范围内的线段，剔除在阈值范围外的线段。

6、线段融合。将步骤5得到的线段按照角度划分为横线和竖线，对横线和竖线分别采用融合算法进行线段融合，经过此步骤，基本得到了报表图像的框线位置信息。

7、线段筛除。根据一些先验信息，筛处一些线段。例如报表最外界边框的横线长度一定大于输入图像宽度的一半，报表最外界边框的竖线长度与输入图像高度的比值应该在合理范围之内，报表边界距离输入图像四边有一定距离。以此三个条件进行线段筛选。

8、四边确定。报表图像的左右两边基本是对称的，上下两边基本是对称的，以左右边为例，左边和右边角度差应该在一定阈值范围内，线段长度差应该在一定阈值范围内，左边的上端点Y坐标和右边上端点Y坐标之差应该在一定范围内，左边的下端点Y坐标和右边的下端点Y坐标之差应该在一定范围内，上下边同理。并且，四边组成的交点应该满足一定条件，以上边和左边组成的交点为例，交点距离上边和左边的距离应该小于一定阈值，交点距离上边的左端点应该小于一定阈值，交点距离左边的上端点应该小于一定阈值，其他各边组成的交点同理。通过这些设定的阈值条件确定出输入报表图像的四边。

9、图像仿射变换。对于步骤8得到的四边分别求出各边的交点，得到4个交点后与步骤1中提取的模板交点信息求出仿射变换矩阵，然后将输入的识别图进行仿射变换，得到和模板图像尺寸一样的图像。

10、定位识别区域。基于步骤9仿射变换得到的图像和步骤1提取的每个待识别区域位置信息，提取出待识别区域的小图像。由于经过仿射变换，得到的图像已经和模板图像是一样大小了，所以可以直接套用模板的位置信息。

11、区域识别。对于每一个步骤10定位出的区域，首先通过Resnet深度模型训练出的分类器进行分类，判断是打印体还是手写体。接着，再采用LSTM+CTC模型进行识别，如果是手写体，则采用手写体识别模型，如果是打印体，则采用打印体识别模型。

虽然本发明实施例提出的是银行报表类识别，但是同样适用于各种行业含有边框的单据、账单、类目等识别，诸如信用卡申请单，信息表，报名表等等。本发明实施例所涉及的分类模型和识别模型可以采用文中所述但不限于文中所述，其他有益模型皆可以替换。

根据一个或者多个实施例，一种银行报表OCR识别装置，所述识别装置包括存储器；以及

耦合到所述存储器的处理器，该处理器被配置为执行存储在所述存储器中的指令，所述处理器执行以下操作：

提取报表模板信息，输入一张待识别报表图像，判断此类报表的标注信息是否已经存在于历史仓库中，如果不存在，则标注入库，如果存在，提取报表模板信息后，进入下一步；

对报表图像缩放，是将获得的报表图像采用插值法缩放到指定大小；

对报表图像预处理，先采用3×3结构元素对报表图像进行开运算，然后采用3×3结构元素对开运算结果进行闭运算，用以填补线段的细小缺失；

检测报表图像边界线段，采用线段检测算法检测出报表线段，计算每一条线段与X轴正向的角度，并且将所有线段的角度转化为[0,180)度；

对报表线段排除，为横向和纵向表格线设定容忍阈值，选出在容忍阈值范围内的线段，剔除在容忍阈值范围外的线段；

对报表线段融合，将报表线段按照角度划分为横线和竖线，对横线和竖线分别采用融合算法进行线段融合，得到报表图像的框线位置；

对报表线段筛除，根据先验信息，筛除不合理的线段；

确定报表边界，根据报表图像对称关系和交点合理阈值确定报表的四周边界；

对报表图像仿射变换，根据报表交点和报表模板对报表图像进行仿射变换，获得与报表模板图像相同尺寸的报表图像；

定位报表识别区域，套用报表模板的位置信息，提取出待识别区域图像；

对定位区域进行识别，对获得的定位区域，进行字体识别。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种银行报表OCR识别方法，通过OCR获得银行报表的图像，其特征在于，对于银行报表的识别方法包括的步骤有：获得银行报表模板；检测银行报表图像的边界线段；对银行报表线段进行排除、融合、筛除处理后确定银行报表边界；对银行报表图像作仿射变换；确定银行报表上需识别区域并且对该区域进行识别，其中，

获得银行报表模板，输入待识别银行报表图像，判断此银行报表的标注信息是否已经存在于报表模板数据库中，

如果所述银行报表的标注不存在，则将该标注加入报表模板数据库，

如果所述银行报表的标注存在，则从报表模板数据库中提取所述银行报表的模板；

检测所述银行报表图像边界线段，采用线段检测算法检测出报表线段，计算每一条线段与X轴正向的角度，并且将所有线段的角度转化为[0,180)度；

对所述银行报表线段进行排除，为横向和纵向表格线设定容忍阈值，选出在容忍阈值范围内的线段，剔除在容忍阈值范围外的线段；

对所述银行报表线段进行融合，将报表线段按照角度划分为横线和竖线，对横线和竖线分别采用融合算法进行线段融合，得到所述银行报表图像的框线位置；

对所述银行报表线段进行筛除处理，根据先验规则，筛除不合理的线段；

确定所述银行报表边界，根据所述银行报表图像对称关系和交点阈值确定所述银行报表的四周边界；

对所述银行报表图像作仿射变换，根据所述银行报表中的线段交点和所述银行报表模板对所述银行报表图像进行仿射变换，将仿射变换后的报表图像替换所述银行报表模板图像；

确定所述银行报表所需识别区域，套用所述银行报表模板的位置信息，提取出待识别区域图像；

对提取出的待识别区域进行进行银行报表字符的识别。

2.根据权利要求1所述的银行报表OCR识别方法，其特征在于，在获得银行报表模板的步骤之后，对所述银行报表图像进行缩放和报表图像预处理，

对所述银行报表图像的缩放，是将获得的所述银行报表图像采用插值法缩放到指定大小；

对所述银行报表图像的预处理，是采用N×N结构元素对报表图像进行开运算，然后再采用N×N结构元素对开运算结果进行闭运算，用以填补线段的细小缺失，这里N是正整数。

3.一种银行报表OCR识别装置，其特征在于，所述识别装置包括存储器；以及

对提取出的待识别区域进行进行银行报表字符的识别。

4.一种银行报表OCR识别平台，其特征在于，所述平台包括服务器，服务器具有存储器；以及

对提取出的待识别区域进行进行银行报表字符的识别。

5.一种终端，其特征在于，该移动终端向如权利要求4所述的银行报表OCR识别平台发送报表OCR图像和识别请求，接收所述报表OCR识别平台反馈的检测结果。

6.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1至2中任一所述的方法。