CN111340032A

CN111340032A - 一种基于金融领域应用场景的字符识别方法

Info

Publication number: CN111340032A
Application number: CN202010182564.7A
Authority: CN
Inventors: 赵富强; 余炅桦; 徐雪
Original assignee: Tianjin Demai Technology Co Ltd
Current assignee: Tianjin Demai Technology Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-06-26

Abstract

本发明涉及字符识别，具体涉及一种基于金融领域应用场景的字符识别方法，对单据进行扫描，对扫描后的图像进行前景提取，将单据从图像背景中分离出来，从单据中提取识别检测区域图片，利用训练后的手写体识别模型，对手写体检测区域图片进行识别，利用训练后的打印体识别模型，对打印体检测区域图片进行识别，汇总识别结果并输出；本发明提供的技术方案能够有效克服现有技术所存在的无法自动提取单据内的固定文本区域、不能对单据内不同字体的字符进行有效识别的缺陷。

Description

一种基于金融领域应用场景的字符识别方法

技术领域

本发明涉及字符识别，具体涉及一种基于金融领域应用场景的字符识别方法。

背景技术

目前，我国正处于金融自动化、智能化阶段，金融被认为是人工智能落地最快的领域之一，智能金融也被列入国家发展规划，依托人工智能技术能够为客户提供更加便捷的交互服务。人工智能在金融领域的应用将彻底改变当前人类的生产模式，取代更多人、更多重复性的工作，劳动密集型的工作将完全由机器人完成，人力将投入到更具价值的事情。

在金融领域，传统业务办理、报销流程办理过程繁琐，涉及到一系列票据填写、手写签字确认等人工办理流程，使得对公业务服务效率极低、客户体验感较差，对银行的业务拓展极为不利。另外，传统票据报销需要人工确认、核对手写报销金额，使得企业办公效率低下。OCR识别为上述问题的有效解决带来了曙光，研究OCR识别技术，大量票据填写、手写签字确认等需要人工进行的工作，均可交由智能设备通过OCR识别技术完成，将极大简化办理流程、节省人力和时间成本，提高企业竞争力。

涉及金融单据字符识别，主要具有以下难点：

一、用于建模的实际单据数据量较少且较难获得；

二、单据内的固定文本区域如何自动提取；

三、如何对单据内不同字体的字符进行识别。

发明内容

(一)解决的技术问题

针对现有技术所存在的上述缺点，本发明提供了一种基于金融领域应用场景的字符识别方法，能够有效克服现有技术所存在的无法自动提取单据内的固定文本区域、不能对单据内不同字体的字符进行有效识别的缺陷。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于金融领域应用场景的字符识别方法，包括以下步骤：

S1、对单据进行扫描，对扫描后的图像进行前景提取，将单据从图像背景中分离出来；

S2、从单据中提取识别检测区域图片；

S3、利用训练后的手写体识别模型，对手写体检测区域图片进行识别；

S4、利用训练后的打印体识别模型，对打印体检测区域图片进行识别；

S5、汇总识别结果并输出。

优选地，所述对扫描后的图像进行前景提取，将单据从图像背景中分离出来，包括以下步骤：

S1、进行前景增强，通过中值滤波、二值化、灰度化增大单据与图像背景的色差；

S2、进行单据分割，通过统计扫描图像在水平方向、竖直方向上的像素和判定单据在扫描图像上的边界，并将单据与图像背景分离。

优选地，所述中值滤波的方框尺寸为257。

优选地，若所述水平方向上的像素和超过设定阈值，则判断该行为单据所在区域；若所述竖直方向上的像素和超过设定阈值，则判断该列为单据所在区域。

优选地，所述从单据中提取识别检测区域图片，包括以下步骤：

S1、利用相对坐标法对单据中的检测区域图片进行分割提取；

S2、判断分割提取得到的检测区域图片属于手写体检测区域图片还是打印体检测区域图片，并进行分类。

优选地，所述手写体检测区域图片的识别方法包括单字识别和多字识别，所述单字识别包括以下步骤：

S1、分别采用直方图法、K-means聚类法、CRAFT法对手写体检测区域图片进行单字分割；

S2、对单字分割后的图像进行二值化处理以去除背景；

S3、采用VGG16模型对每个处理后的单字图像进行识别，在VGG16模型中的全连接层后连接SoftMax层计算该单字图像属于各类字的概率，并输出概率最大的那个字作为VGG16模型的预测结果；

S4、根据单字纠错规则对识别结果进行纠错。

优选地，所述单字纠错规则包括：

若识别结果不出现在零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、亿、万、仟、佰、元、角、分、整这19个汉字中，则对预测结果依据概率值降序排序，并输出前十个汉字；

若前十个汉字中出现了19个汉字中的单个或多个，则输出索引号最小的汉字作为识别结果；

若前十个汉字中未出现19个汉字中的任意一个，则选择索引号最小的汉字，并从纠错词典中查找该汉字对应的正确字符。

优选地，所述多字识别包括以下步骤：

S1、采用CRNN模型进行识别；

S2、对识别结果进行多字识别纠错。

优选地，所述CRNN模型由CNN卷积层、RNN循环层、CTC转录层组成，所述CNN卷积层由VGG16模型构成，所述RNN循环层采用BLSTM对CNN卷积层输入的序列进行预测，所述CTC转录层通过CTCLoss将RNN循环层获取的序列信息转换成最终识别结果。

优选地，所述对识别结果进行多字识别纠错，包括以下步骤：

S1、依据识别对象建立相应模板；

S2、通过比较识别结果与模板之间的差别对识别结果进行多字识别纠错。

(三)有益效果

与现有技术相比，本发明所提供的一种基于金融领域应用场景的字符识别方法具有以下有益效果：

1、通过前景增强增大单据与图像背景的色差，并通过统计扫描图像在水平方向、竖直方向上的像素和判定单据在扫描图像上的边界，将单据与图像背景分离；

2、利用相对坐标法对单据中的检测区域图片进行分割提取，判断分割提取得到的检测区域图片属于手写体检测区域图片还是打印体检测区域图片，并进行分类，从而能够自动提取单据内的固定文本区域；

3、利用训练后的手写体识别模型，对手写体检测区域图片进行识别，利用训练后的打印体识别模型，对打印体检测区域图片进行识别，从而能够对单据内不同字体的字符进行有效识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明流程示意图；

图2为本发明手写体单据单字识别总体效果示意图；

图3为本发明手写体单据中检测区域图片分割提取示意图；

图4为本发明手写体单据单字识别中单字分割示意图；

图5为本发明手写体单据多字识别分割示意图；

图6为本发明单字纠错规则中纠错词典部分内容示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于金融领域应用场景的字符识别方法，如图1至图6所示，包括以下步骤：

S2、从单据中提取识别检测区域图片；

S5、汇总识别结果并输出。

对扫描后的图像进行前景提取，将单据从图像背景中分离出来，包括以下步骤：

中值滤波的方框尺寸为257。

若水平方向上的像素和超过设定阈值，则判断该行为单据所在区域；若竖直方向上的像素和超过设定阈值，则判断该列为单据所在区域。

从单据中提取识别检测区域图片，包括以下步骤：

手写体检测区域图片的识别方法包括单字识别和多字识别，单字识别包括以下步骤：

S2、对单字分割后的图像进行二值化处理以去除背景；

S4、根据单字纠错规则对识别结果进行纠错。

单字纠错规则包括：

多字识别包括以下步骤：

S1、采用CRNN模型进行识别；

S2、对识别结果进行多字识别纠错。

CRNN模型由CNN卷积层、RNN循环层、CTC转录层组成，CNN卷积层由VGG16模型构成，RNN循环层采用BLSTM对CNN卷积层输入的序列进行预测，CTC转录层通过CTCLoss将RNN循环层获取的序列信息转换成最终识别结果。

对识别结果进行多字识别纠错，包括以下步骤：

S1、依据识别对象建立相应模板；

通过前景增强增大单据与图像背景的色差，并通过统计扫描图像在水平方向、竖直方向上的像素和判定单据在扫描图像上的边界，将单据与图像背景分离。

单据以外的区域均属于背景区域，但背景区域并不只有一种固定像素，因此需要去除噪声干扰以及非单据区域。通过中值滤波，可以消除样本中的部分噪声，另外扫描图像中单据占比较大且呈长方形，因此将中值滤波的方框尺寸设为257，能够取得较好的试验效果。之后进行二值化和灰度化，这种操作可以增大单据与图像背景的色差，以实现单据的图像增强。

单据分割可以通过直方图分割技术达到预想效果，首先统计扫描图像在水平方向、竖直方向上的像素和，设定像素和的阈值，若某行、某列的像素和超过设定阈值，即判定该行、该列为单据图像所在区域，通过该方法可确定单据图像的边界，并将单据与图像背景分离。

利用相对坐标法对单据中的检测区域图片进行分割提取，判断分割提取得到的检测区域图片属于手写体检测区域图片还是打印体检测区域图片，并进行分类，从而能够自动提取单据内的固定文本区域。

由于各项文字在单据内的位置均是相对固定的，因此可根据相对坐标法对单据中的检测区域图片进行分割提取，并依据每个坐标的位置对分割提取的图片进行分类，即该图片内的文字属于手写体字符或打印体字符，并对分类后的两类图片进行字符内容识别。

支票上各检测区域图片的分割位置如图2所示，其中1号位置的检测框坐标为[1453，50，1701，90]，2号位置的检测框坐标为[1454，91，1698，141]，3号位置的检测框坐标为[694，109，1165，184]，4号位置的检测框坐标为[615，212，1311，283]，5号位置的检测框坐标为[1339，241，1693，283]，分割提取后的检测区域图片如图3所示。

利用训练后的手写体识别模型，对手写体检测区域图片进行识别，利用训练后的打印体识别模型，对打印体检测区域图片进行识别，从而能够对单据内不同字体的字符进行有效识别。

S2、对单字分割后的图像进行二值化处理以去除背景；

S4、根据单字纠错规则对识别结果进行纠错。

单字切割分别采用了直方图法、K-means聚类法与CRAFT法，单字分割的示意图如图4所示。

(1)直方图法

直方图法首先将待识别的文本图像进行二值化去背景处理，然后把文本图片进行水平投影，得到垂直方向上的像素分布，有像素存在的区域即为文本所在区域；再对文本图片进行垂直投影，得到水平方向的像素分布，有像素存在的区域即为文本所在区域。综合垂直方向与水平方向的投影，设定用于分割字符与字符的阈值，即可确定单个字符在图片中水平方向与垂直方向的区域位置，并依据坐标对单个字符进行分割。

(2)K-means聚类法

K-means算法是针对直方图法的阈值选择问题进行优化，通过自动选择阈值去判定每个字符的长度、宽度，进而实现对单个字符更精准的分割。K-means算法的核心思想是采用距离作为相似性的评价指标，从n个数据对象任意选择k个对象作为初始聚类中心，对于剩下其它对象，则根据它们与聚类中心的相似度(距离)，分别将它们分配给与其最相似的聚类，然后再计算每个新聚类的聚类中心，不断重复这一过程直到聚类中心k个对象不再变更为止。

(3)CRAFT法

CRAFT(Character Region Awareness forText Detection)法的思路是利用分割的方法，网络结构基于VGG16模型，采用U-Net作为解码器，输出分为两个通道，RegionScore表示该点是文字中心的概率，即字符区域的置信度，用于定位图像中的独立字符区域；Affinity Score可以认为该点是两个字之间中心的概率，即关联系数，它的作用是将独立的字符关联起来组成一个检测实例。

对单字分割后的图像进行二值化处理以去除背景，采用VGG16模型对每个处理后的单字图像进行识别，在VGG16模型中的全连接层后连接SoftMax层计算该单字图像属于各类字的概率，并输出概率最大的那个字作为VGG16模型的预测结果。VGG16模型中共包含13层卷积层、5层池化层和3层全连接层。

通过统计单据内大写金额与日期的汉字，共包含19个汉字，分别为：零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、亿、万、仟、佰、元、角、分、整，识别系统构建了纠错词典，其中部分内容如图6所示，纠错规则如下：

手写体检测区域图片的识别方法包括单字识别和多字识别，多字识别包括以下步骤：

S1、采用CRNN模型进行识别；

S2、对识别结果进行多字识别纠错。

多字识别主要采用CRNN模型进行识别。CRNN模型由CNN卷积层、RNN循环层、CTC转录层组成，采用VGG16模型作为CNN卷积层网络，并针对VGG16模型进行一定调整，将第三个与第四个最大池化层的卷积核尺寸修改为1×2。采用BLSTM作为RNN循环层，用于对CNN卷积层输入的序列进行预测，BLSTM的优点是充分利用了序列的前向信息和后向信息，在卷积特征的基础上继续提取文字序列特征，有助于序列预测。由于每个样本的字符数量、字体样式、字体大小不完全相同，因此导致RNN循环层每列输出并不一定能与每个字符一一对应，CTC转录层则是用于解决该问题而提出的，CTC层设置了CTCLoss，将RNN循环层获取的序列信息通过去整合等操作转换成最终识别结果。输入CRNN模型的图片尺寸为280×32，通过CNN卷积层将图片的特征提取出来后，得到1×7×512大小的卷积特征矩阵，之后采用两层深层双向LSTM对序列进行预测，最后通过CTC转录层输出最终结果。

对识别结果进行多字识别纠错，包括以下步骤：

S1、依据识别对象建立相应模板；

通过设定特定文本规则，对多字识别的结果进行纠错。如针对大写金额的多字识别，可依据“亿、万、仟、佰、拾、元、整、角、分”等金额单位设定大写金额模板，通过比较多字识别结果与模板之间的差别，对大写金额的识别结果进行纠错。针对日期的多字识别，依据“年、月、日”等日期单位设定日期模板，通过比较多字识别结果与模板之间的差别，对日期的识别结果进行纠错。

打印体检测区域图片上主要包括单据的小写金额、账号与单据编号，采用与手写体检测区域图片多字识别中的CRNN模型即可进行打印体检测区域图片的识别。

针对手写体检测区域图片的识别，基于直方图法、K-means聚类法、CRAFT法进行单字分割，之后采用VGG16模型进行单字手写体字符识别训练，并进行多字识别训练，同时与百度、阿里、华为的通用文字识别API进行对比(没考虑网络带宽)，测试结果如表1所示。

表1手写体检测区域图片单字识别、多字识别测试结果

由上表可知，手写体检测区域图片的识别方法与百度、阿里、华为的识别方法相比，在准确率与识别时间上有一定优势，其中采用单字识别的准确率最高，达到86.2％，且后期还有进一步优化空间。

针对打印体检测区域图片的识别，基于CRNN模型的识别方案进行训练，并与百度、阿里、华为的票据识别API进行对比，测试结果如表2所示。

表2打印体检测区域图片多字识别测试结果

由上表可知，打印体检测区域图片的多字识别方法与百度、阿里、华为的识别方法相比，准确率均较高，但在识别时间上优于其他三种方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于金融领域应用场景的字符识别方法，其特征在于：包括以下步骤：

S2、从单据中提取识别检测区域图片；

S5、汇总识别结果并输出。

2.根据权利要求1所述的基于金融领域应用场景的字符识别方法，其特征在于：所述对扫描后的图像进行前景提取，将单据从图像背景中分离出来，包括以下步骤：

3.根据权利要求2所述的基于金融领域应用场景的字符识别方法，其特征在于：所述中值滤波的方框尺寸为257。

4.根据权利要求2所述的基于金融领域应用场景的字符识别方法，其特征在于：若所述水平方向上的像素和超过设定阈值，则判断该行为单据所在区域；若所述竖直方向上的像素和超过设定阈值，则判断该列为单据所在区域。

5.根据权利要求1所述的基于金融领域应用场景的字符识别方法，其特征在于：所述从单据中提取识别检测区域图片，包括以下步骤：

6.根据权利要求5所述的基于金融领域应用场景的字符识别方法，其特征在于：所述手写体检测区域图片的识别方法包括单字识别和多字识别，所述单字识别包括以下步骤：

S2、对单字分割后的图像进行二值化处理以去除背景；

S4、根据单字纠错规则对识别结果进行纠错。

7.根据权利要求6所述的基于金融领域应用场景的字符识别方法，其特征在于：所述单字纠错规则包括：

8.根据权利要求6所述的基于金融领域应用场景的字符识别方法，其特征在于：所述多字识别包括以下步骤：

S1、采用CRNN模型进行识别；

S2、对识别结果进行多字识别纠错。

9.根据权利要求8所述的基于金融领域应用场景的字符识别方法，其特征在于：所述CRNN模型由CNN卷积层、RNN循环层、CTC转录层组成，所述CNN卷积层由VGG16模型构成，所述RNN循环层采用BLSTM对CNN卷积层输入的序列进行预测，所述CTC转录层通过CTCLoss将RNN循环层获取的序列信息转换成最终识别结果。

10.根据权利要求8所述的基于金融领域应用场景的字符识别方法，其特征在于：所述对识别结果进行多字识别纠错，包括以下步骤：

S1、依据识别对象建立相应模板；