CN111340032A - 一种基于金融领域应用场景的字符识别方法 - Google Patents
一种基于金融领域应用场景的字符识别方法 Download PDFInfo
- Publication number
- CN111340032A CN111340032A CN202010182564.7A CN202010182564A CN111340032A CN 111340032 A CN111340032 A CN 111340032A CN 202010182564 A CN202010182564 A CN 202010182564A CN 111340032 A CN111340032 A CN 111340032A
- Authority
- CN
- China
- Prior art keywords
- document
- recognition
- character
- detection area
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000001514 detection method Methods 0.000 claims abstract description 66
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000012937 correction Methods 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 23
- 102100032202 Cornulin Human genes 0.000 claims description 13
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 13
- 238000013518 transcription Methods 0.000 claims description 9
- 230000035897 transcription Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 238000003064 k means clustering Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000007547 defect Effects 0.000 abstract description 3
- 210000005266 circulating tumour cell Anatomy 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/2455—Discrimination between machine-print, hand-print and cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明涉及字符识别,具体涉及一种基于金融领域应用场景的字符识别方法,对单据进行扫描,对扫描后的图像进行前景提取,将单据从图像背景中分离出来,从单据中提取识别检测区域图片,利用训练后的手写体识别模型,对手写体检测区域图片进行识别,利用训练后的打印体识别模型,对打印体检测区域图片进行识别,汇总识别结果并输出;本发明提供的技术方案能够有效克服现有技术所存在的无法自动提取单据内的固定文本区域、不能对单据内不同字体的字符进行有效识别的缺陷。
Description
技术领域
本发明涉及字符识别,具体涉及一种基于金融领域应用场景的字符识别方法。
背景技术
目前,我国正处于金融自动化、智能化阶段,金融被认为是人工智能落地最快的领域之一,智能金融也被列入国家发展规划,依托人工智能技术能够为客户提供更加便捷的交互服务。人工智能在金融领域的应用将彻底改变当前人类的生产模式,取代更多人、更多重复性的工作,劳动密集型的工作将完全由机器人完成,人力将投入到更具价值的事情。
在金融领域,传统业务办理、报销流程办理过程繁琐,涉及到一系列票据填写、手写签字确认等人工办理流程,使得对公业务服务效率极低、客户体验感较差,对银行的业务拓展极为不利。另外,传统票据报销需要人工确认、核对手写报销金额,使得企业办公效率低下。OCR识别为上述问题的有效解决带来了曙光,研究OCR识别技术,大量票据填写、手写签字确认等需要人工进行的工作,均可交由智能设备通过OCR识别技术完成,将极大简化办理流程、节省人力和时间成本,提高企业竞争力。
涉及金融单据字符识别,主要具有以下难点:
一、用于建模的实际单据数据量较少且较难获得;
二、单据内的固定文本区域如何自动提取;
三、如何对单据内不同字体的字符进行识别。
发明内容
(一)解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了一种基于金融领域应用场景的字符识别方法,能够有效克服现有技术所存在的无法自动提取单据内的固定文本区域、不能对单据内不同字体的字符进行有效识别的缺陷。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于金融领域应用场景的字符识别方法,包括以下步骤:
S1、对单据进行扫描,对扫描后的图像进行前景提取,将单据从图像背景中分离出来;
S2、从单据中提取识别检测区域图片;
S3、利用训练后的手写体识别模型,对手写体检测区域图片进行识别;
S4、利用训练后的打印体识别模型,对打印体检测区域图片进行识别;
S5、汇总识别结果并输出。
优选地,所述对扫描后的图像进行前景提取,将单据从图像背景中分离出来,包括以下步骤:
S1、进行前景增强,通过中值滤波、二值化、灰度化增大单据与图像背景的色差;
S2、进行单据分割,通过统计扫描图像在水平方向、竖直方向上的像素和判定单据在扫描图像上的边界,并将单据与图像背景分离。
优选地,所述中值滤波的方框尺寸为257。
优选地,若所述水平方向上的像素和超过设定阈值,则判断该行为单据所在区域;若所述竖直方向上的像素和超过设定阈值,则判断该列为单据所在区域。
优选地,所述从单据中提取识别检测区域图片,包括以下步骤:
S1、利用相对坐标法对单据中的检测区域图片进行分割提取;
S2、判断分割提取得到的检测区域图片属于手写体检测区域图片还是打印体检测区域图片,并进行分类。
优选地,所述手写体检测区域图片的识别方法包括单字识别和多字识别,所述单字识别包括以下步骤:
S1、分别采用直方图法、K-means聚类法、CRAFT法对手写体检测区域图片进行单字分割;
S2、对单字分割后的图像进行二值化处理以去除背景;
S3、采用VGG16模型对每个处理后的单字图像进行识别,在VGG16模型中的全连接层后连接SoftMax层计算该单字图像属于各类字的概率,并输出概率最大的那个字作为VGG16模型的预测结果;
S4、根据单字纠错规则对识别结果进行纠错。
优选地,所述单字纠错规则包括:
若识别结果不出现在零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、亿、万、仟、佰、元、角、分、整这19个汉字中,则对预测结果依据概率值降序排序,并输出前十个汉字;
若前十个汉字中出现了19个汉字中的单个或多个,则输出索引号最小的汉字作为识别结果;
若前十个汉字中未出现19个汉字中的任意一个,则选择索引号最小的汉字,并从纠错词典中查找该汉字对应的正确字符。
优选地,所述多字识别包括以下步骤:
S1、采用CRNN模型进行识别;
S2、对识别结果进行多字识别纠错。
优选地,所述CRNN模型由CNN卷积层、RNN循环层、CTC转录层组成,所述CNN卷积层由VGG16模型构成,所述RNN循环层采用BLSTM对CNN卷积层输入的序列进行预测,所述CTC转录层通过CTCLoss将RNN循环层获取的序列信息转换成最终识别结果。
优选地,所述对识别结果进行多字识别纠错,包括以下步骤:
S1、依据识别对象建立相应模板;
S2、通过比较识别结果与模板之间的差别对识别结果进行多字识别纠错。
(三)有益效果
与现有技术相比,本发明所提供的一种基于金融领域应用场景的字符识别方法具有以下有益效果:
1、通过前景增强增大单据与图像背景的色差,并通过统计扫描图像在水平方向、竖直方向上的像素和判定单据在扫描图像上的边界,将单据与图像背景分离;
2、利用相对坐标法对单据中的检测区域图片进行分割提取,判断分割提取得到的检测区域图片属于手写体检测区域图片还是打印体检测区域图片,并进行分类,从而能够自动提取单据内的固定文本区域;
3、利用训练后的手写体识别模型,对手写体检测区域图片进行识别,利用训练后的打印体识别模型,对打印体检测区域图片进行识别,从而能够对单据内不同字体的字符进行有效识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明流程示意图;
图2为本发明手写体单据单字识别总体效果示意图;
图3为本发明手写体单据中检测区域图片分割提取示意图;
图4为本发明手写体单据单字识别中单字分割示意图;
图5为本发明手写体单据多字识别分割示意图;
图6为本发明单字纠错规则中纠错词典部分内容示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于金融领域应用场景的字符识别方法,如图1至图6所示,包括以下步骤:
S1、对单据进行扫描,对扫描后的图像进行前景提取,将单据从图像背景中分离出来;
S2、从单据中提取识别检测区域图片;
S3、利用训练后的手写体识别模型,对手写体检测区域图片进行识别;
S4、利用训练后的打印体识别模型,对打印体检测区域图片进行识别;
S5、汇总识别结果并输出。
对扫描后的图像进行前景提取,将单据从图像背景中分离出来,包括以下步骤:
S1、进行前景增强,通过中值滤波、二值化、灰度化增大单据与图像背景的色差;
S2、进行单据分割,通过统计扫描图像在水平方向、竖直方向上的像素和判定单据在扫描图像上的边界,并将单据与图像背景分离。
中值滤波的方框尺寸为257。
若水平方向上的像素和超过设定阈值,则判断该行为单据所在区域;若竖直方向上的像素和超过设定阈值,则判断该列为单据所在区域。
从单据中提取识别检测区域图片,包括以下步骤:
S1、利用相对坐标法对单据中的检测区域图片进行分割提取;
S2、判断分割提取得到的检测区域图片属于手写体检测区域图片还是打印体检测区域图片,并进行分类。
手写体检测区域图片的识别方法包括单字识别和多字识别,单字识别包括以下步骤:
S1、分别采用直方图法、K-means聚类法、CRAFT法对手写体检测区域图片进行单字分割;
S2、对单字分割后的图像进行二值化处理以去除背景;
S3、采用VGG16模型对每个处理后的单字图像进行识别,在VGG16模型中的全连接层后连接SoftMax层计算该单字图像属于各类字的概率,并输出概率最大的那个字作为VGG16模型的预测结果;
S4、根据单字纠错规则对识别结果进行纠错。
单字纠错规则包括:
若识别结果不出现在零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、亿、万、仟、佰、元、角、分、整这19个汉字中,则对预测结果依据概率值降序排序,并输出前十个汉字;
若前十个汉字中出现了19个汉字中的单个或多个,则输出索引号最小的汉字作为识别结果;
若前十个汉字中未出现19个汉字中的任意一个,则选择索引号最小的汉字,并从纠错词典中查找该汉字对应的正确字符。
多字识别包括以下步骤:
S1、采用CRNN模型进行识别;
S2、对识别结果进行多字识别纠错。
CRNN模型由CNN卷积层、RNN循环层、CTC转录层组成,CNN卷积层由VGG16模型构成,RNN循环层采用BLSTM对CNN卷积层输入的序列进行预测,CTC转录层通过CTCLoss将RNN循环层获取的序列信息转换成最终识别结果。
对识别结果进行多字识别纠错,包括以下步骤:
S1、依据识别对象建立相应模板;
S2、通过比较识别结果与模板之间的差别对识别结果进行多字识别纠错。
通过前景增强增大单据与图像背景的色差,并通过统计扫描图像在水平方向、竖直方向上的像素和判定单据在扫描图像上的边界,将单据与图像背景分离。
单据以外的区域均属于背景区域,但背景区域并不只有一种固定像素,因此需要去除噪声干扰以及非单据区域。通过中值滤波,可以消除样本中的部分噪声,另外扫描图像中单据占比较大且呈长方形,因此将中值滤波的方框尺寸设为257,能够取得较好的试验效果。之后进行二值化和灰度化,这种操作可以增大单据与图像背景的色差,以实现单据的图像增强。
单据分割可以通过直方图分割技术达到预想效果,首先统计扫描图像在水平方向、竖直方向上的像素和,设定像素和的阈值,若某行、某列的像素和超过设定阈值,即判定该行、该列为单据图像所在区域,通过该方法可确定单据图像的边界,并将单据与图像背景分离。
利用相对坐标法对单据中的检测区域图片进行分割提取,判断分割提取得到的检测区域图片属于手写体检测区域图片还是打印体检测区域图片,并进行分类,从而能够自动提取单据内的固定文本区域。
由于各项文字在单据内的位置均是相对固定的,因此可根据相对坐标法对单据中的检测区域图片进行分割提取,并依据每个坐标的位置对分割提取的图片进行分类,即该图片内的文字属于手写体字符或打印体字符,并对分类后的两类图片进行字符内容识别。
支票上各检测区域图片的分割位置如图2所示,其中1号位置的检测框坐标为[1453,50,1701,90],2号位置的检测框坐标为[1454,91,1698,141],3号位置的检测框坐标为[694,109,1165,184],4号位置的检测框坐标为[615,212,1311,283],5号位置的检测框坐标为[1339,241,1693,283],分割提取后的检测区域图片如图3所示。
利用训练后的手写体识别模型,对手写体检测区域图片进行识别,利用训练后的打印体识别模型,对打印体检测区域图片进行识别,从而能够对单据内不同字体的字符进行有效识别。
手写体检测区域图片的识别方法包括单字识别和多字识别,单字识别包括以下步骤:
S1、分别采用直方图法、K-means聚类法、CRAFT法对手写体检测区域图片进行单字分割;
S2、对单字分割后的图像进行二值化处理以去除背景;
S3、采用VGG16模型对每个处理后的单字图像进行识别,在VGG16模型中的全连接层后连接SoftMax层计算该单字图像属于各类字的概率,并输出概率最大的那个字作为VGG16模型的预测结果;
S4、根据单字纠错规则对识别结果进行纠错。
单字切割分别采用了直方图法、K-means聚类法与CRAFT法,单字分割的示意图如图4所示。
(1)直方图法
直方图法首先将待识别的文本图像进行二值化去背景处理,然后把文本图片进行水平投影,得到垂直方向上的像素分布,有像素存在的区域即为文本所在区域;再对文本图片进行垂直投影,得到水平方向的像素分布,有像素存在的区域即为文本所在区域。综合垂直方向与水平方向的投影,设定用于分割字符与字符的阈值,即可确定单个字符在图片中水平方向与垂直方向的区域位置,并依据坐标对单个字符进行分割。
(2)K-means聚类法
K-means算法是针对直方图法的阈值选择问题进行优化,通过自动选择阈值去判定每个字符的长度、宽度,进而实现对单个字符更精准的分割。K-means算法的核心思想是采用距离作为相似性的评价指标,从n个数据对象任意选择k个对象作为初始聚类中心,对于剩下其它对象,则根据它们与聚类中心的相似度(距离),分别将它们分配给与其最相似的聚类,然后再计算每个新聚类的聚类中心,不断重复这一过程直到聚类中心k个对象不再变更为止。
(3)CRAFT法
CRAFT(Character Region Awareness forText Detection)法的思路是利用分割的方法,网络结构基于VGG16模型,采用U-Net作为解码器,输出分为两个通道,RegionScore表示该点是文字中心的概率,即字符区域的置信度,用于定位图像中的独立字符区域;Affinity Score可以认为该点是两个字之间中心的概率,即关联系数,它的作用是将独立的字符关联起来组成一个检测实例。
对单字分割后的图像进行二值化处理以去除背景,采用VGG16模型对每个处理后的单字图像进行识别,在VGG16模型中的全连接层后连接SoftMax层计算该单字图像属于各类字的概率,并输出概率最大的那个字作为VGG16模型的预测结果。VGG16模型中共包含13层卷积层、5层池化层和3层全连接层。
通过统计单据内大写金额与日期的汉字,共包含19个汉字,分别为:零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、亿、万、仟、佰、元、角、分、整,识别系统构建了纠错词典,其中部分内容如图6所示,纠错规则如下:
若识别结果不出现在零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、亿、万、仟、佰、元、角、分、整这19个汉字中,则对预测结果依据概率值降序排序,并输出前十个汉字;
若前十个汉字中出现了19个汉字中的单个或多个,则输出索引号最小的汉字作为识别结果;
若前十个汉字中未出现19个汉字中的任意一个,则选择索引号最小的汉字,并从纠错词典中查找该汉字对应的正确字符。
手写体检测区域图片的识别方法包括单字识别和多字识别,多字识别包括以下步骤:
S1、采用CRNN模型进行识别;
S2、对识别结果进行多字识别纠错。
多字识别主要采用CRNN模型进行识别。CRNN模型由CNN卷积层、RNN循环层、CTC转录层组成,采用VGG16模型作为CNN卷积层网络,并针对VGG16模型进行一定调整,将第三个与第四个最大池化层的卷积核尺寸修改为1×2。采用BLSTM作为RNN循环层,用于对CNN卷积层输入的序列进行预测,BLSTM的优点是充分利用了序列的前向信息和后向信息,在卷积特征的基础上继续提取文字序列特征,有助于序列预测。由于每个样本的字符数量、字体样式、字体大小不完全相同,因此导致RNN循环层每列输出并不一定能与每个字符一一对应,CTC转录层则是用于解决该问题而提出的,CTC层设置了CTCLoss,将RNN循环层获取的序列信息通过去整合等操作转换成最终识别结果。输入CRNN模型的图片尺寸为280×32,通过CNN卷积层将图片的特征提取出来后,得到1×7×512大小的卷积特征矩阵,之后采用两层深层双向LSTM对序列进行预测,最后通过CTC转录层输出最终结果。
对识别结果进行多字识别纠错,包括以下步骤:
S1、依据识别对象建立相应模板;
S2、通过比较识别结果与模板之间的差别对识别结果进行多字识别纠错。
通过设定特定文本规则,对多字识别的结果进行纠错。如针对大写金额的多字识别,可依据“亿、万、仟、佰、拾、元、整、角、分”等金额单位设定大写金额模板,通过比较多字识别结果与模板之间的差别,对大写金额的识别结果进行纠错。针对日期的多字识别,依据“年、月、日”等日期单位设定日期模板,通过比较多字识别结果与模板之间的差别,对日期的识别结果进行纠错。
打印体检测区域图片上主要包括单据的小写金额、账号与单据编号,采用与手写体检测区域图片多字识别中的CRNN模型即可进行打印体检测区域图片的识别。
针对手写体检测区域图片的识别,基于直方图法、K-means聚类法、CRAFT法进行单字分割,之后采用VGG16模型进行单字手写体字符识别训练,并进行多字识别训练,同时与百度、阿里、华为的通用文字识别API进行对比(没考虑网络带宽),测试结果如表1所示。
表1手写体检测区域图片单字识别、多字识别测试结果
由上表可知,手写体检测区域图片的识别方法与百度、阿里、华为的识别方法相比,在准确率与识别时间上有一定优势,其中采用单字识别的准确率最高,达到86.2%,且后期还有进一步优化空间。
针对打印体检测区域图片的识别,基于CRNN模型的识别方案进行训练,并与百度、阿里、华为的票据识别API进行对比,测试结果如表2所示。
表2打印体检测区域图片多字识别测试结果
由上表可知,打印体检测区域图片的多字识别方法与百度、阿里、华为的识别方法相比,准确率均较高,但在识别时间上优于其他三种方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于金融领域应用场景的字符识别方法,其特征在于:包括以下步骤:
S1、对单据进行扫描,对扫描后的图像进行前景提取,将单据从图像背景中分离出来;
S2、从单据中提取识别检测区域图片;
S3、利用训练后的手写体识别模型,对手写体检测区域图片进行识别;
S4、利用训练后的打印体识别模型,对打印体检测区域图片进行识别;
S5、汇总识别结果并输出。
2.根据权利要求1所述的基于金融领域应用场景的字符识别方法,其特征在于:所述对扫描后的图像进行前景提取,将单据从图像背景中分离出来,包括以下步骤:
S1、进行前景增强,通过中值滤波、二值化、灰度化增大单据与图像背景的色差;
S2、进行单据分割,通过统计扫描图像在水平方向、竖直方向上的像素和判定单据在扫描图像上的边界,并将单据与图像背景分离。
3.根据权利要求2所述的基于金融领域应用场景的字符识别方法,其特征在于:所述中值滤波的方框尺寸为257。
4.根据权利要求2所述的基于金融领域应用场景的字符识别方法,其特征在于:若所述水平方向上的像素和超过设定阈值,则判断该行为单据所在区域;若所述竖直方向上的像素和超过设定阈值,则判断该列为单据所在区域。
5.根据权利要求1所述的基于金融领域应用场景的字符识别方法,其特征在于:所述从单据中提取识别检测区域图片,包括以下步骤:
S1、利用相对坐标法对单据中的检测区域图片进行分割提取;
S2、判断分割提取得到的检测区域图片属于手写体检测区域图片还是打印体检测区域图片,并进行分类。
6.根据权利要求5所述的基于金融领域应用场景的字符识别方法,其特征在于:所述手写体检测区域图片的识别方法包括单字识别和多字识别,所述单字识别包括以下步骤:
S1、分别采用直方图法、K-means聚类法、CRAFT法对手写体检测区域图片进行单字分割;
S2、对单字分割后的图像进行二值化处理以去除背景;
S3、采用VGG16模型对每个处理后的单字图像进行识别,在VGG16模型中的全连接层后连接SoftMax层计算该单字图像属于各类字的概率,并输出概率最大的那个字作为VGG16模型的预测结果;
S4、根据单字纠错规则对识别结果进行纠错。
7.根据权利要求6所述的基于金融领域应用场景的字符识别方法,其特征在于:所述单字纠错规则包括:
若识别结果不出现在零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、亿、万、仟、佰、元、角、分、整这19个汉字中,则对预测结果依据概率值降序排序,并输出前十个汉字;
若前十个汉字中出现了19个汉字中的单个或多个,则输出索引号最小的汉字作为识别结果;
若前十个汉字中未出现19个汉字中的任意一个,则选择索引号最小的汉字,并从纠错词典中查找该汉字对应的正确字符。
8.根据权利要求6所述的基于金融领域应用场景的字符识别方法,其特征在于:所述多字识别包括以下步骤:
S1、采用CRNN模型进行识别;
S2、对识别结果进行多字识别纠错。
9.根据权利要求8所述的基于金融领域应用场景的字符识别方法,其特征在于:所述CRNN模型由CNN卷积层、RNN循环层、CTC转录层组成,所述CNN卷积层由VGG16模型构成,所述RNN循环层采用BLSTM对CNN卷积层输入的序列进行预测,所述CTC转录层通过CTCLoss将RNN循环层获取的序列信息转换成最终识别结果。
10.根据权利要求8所述的基于金融领域应用场景的字符识别方法,其特征在于:所述对识别结果进行多字识别纠错,包括以下步骤:
S1、依据识别对象建立相应模板;
S2、通过比较识别结果与模板之间的差别对识别结果进行多字识别纠错。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182564.7A CN111340032A (zh) | 2020-03-16 | 2020-03-16 | 一种基于金融领域应用场景的字符识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182564.7A CN111340032A (zh) | 2020-03-16 | 2020-03-16 | 一种基于金融领域应用场景的字符识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111340032A true CN111340032A (zh) | 2020-06-26 |
Family
ID=71186088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010182564.7A Pending CN111340032A (zh) | 2020-03-16 | 2020-03-16 | 一种基于金融领域应用场景的字符识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111340032A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861731A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于ocr的贷后检查系统及方法 |
CN111967246A (zh) * | 2020-07-30 | 2020-11-20 | 湖南大学 | 一种购物票据识别结果纠错方法 |
CN115082934A (zh) * | 2022-07-04 | 2022-09-20 | 南京晨浩泰电子商务有限公司 | 一种金融票据中手写汉字分割识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096601A (zh) * | 2016-06-06 | 2016-11-09 | 深圳辰通智能股份有限公司 | 一种自动检测票据中字符类型的方法和系统 |
CN107358795A (zh) * | 2017-07-17 | 2017-11-17 | 陈剑桃 | 一种有效的车牌识别系统 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108460418A (zh) * | 2018-03-07 | 2018-08-28 | 南京邮电大学 | 一种基于文字识别与语义分析的发票分类方法 |
CN109993112A (zh) * | 2019-03-29 | 2019-07-09 | 杭州睿琪软件有限公司 | 一种图片中表格的识别方法及装置 |
CN110781898A (zh) * | 2019-10-21 | 2020-02-11 | 南京大学 | 一种中文ocr后处理的无监督学习方法 |
CN110866501A (zh) * | 2019-11-19 | 2020-03-06 | 中国建设银行股份有限公司 | 一种训练数据生成方法、数据识别方法和计算机存储介质 |
-
2020
- 2020-03-16 CN CN202010182564.7A patent/CN111340032A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096601A (zh) * | 2016-06-06 | 2016-11-09 | 深圳辰通智能股份有限公司 | 一种自动检测票据中字符类型的方法和系统 |
CN107358795A (zh) * | 2017-07-17 | 2017-11-17 | 陈剑桃 | 一种有效的车牌识别系统 |
CN108460418A (zh) * | 2018-03-07 | 2018-08-28 | 南京邮电大学 | 一种基于文字识别与语义分析的发票分类方法 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN109993112A (zh) * | 2019-03-29 | 2019-07-09 | 杭州睿琪软件有限公司 | 一种图片中表格的识别方法及装置 |
CN110781898A (zh) * | 2019-10-21 | 2020-02-11 | 南京大学 | 一种中文ocr后处理的无监督学习方法 |
CN110866501A (zh) * | 2019-11-19 | 2020-03-06 | 中国建设银行股份有限公司 | 一种训练数据生成方法、数据识别方法和计算机存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967246A (zh) * | 2020-07-30 | 2020-11-20 | 湖南大学 | 一种购物票据识别结果纠错方法 |
CN111861731A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于ocr的贷后检查系统及方法 |
CN115082934A (zh) * | 2022-07-04 | 2022-09-20 | 南京晨浩泰电子商务有限公司 | 一种金融票据中手写汉字分割识别方法 |
CN115082934B (zh) * | 2022-07-04 | 2023-12-29 | 蒋锋 | 一种金融票据中手写汉字分割识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241894B (zh) | 一种基于表格定位和深度学习的票据内容识别系统和方法 | |
CN110210413B (zh) | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 | |
Louloudis et al. | Text line and word segmentation of handwritten documents | |
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
CN111325203A (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
CN110032938B (zh) | 一种藏文识别方法、装置及电子设备 | |
CN108805076B (zh) | 环境影响评估报告书表格文字的提取方法及系统 | |
CN111027297A (zh) | 一种对图像型pdf财务数据关键表格信息的处理方法 | |
Lee et al. | Binary segmentation algorithm for English cursive handwriting recognition | |
CN111666938A (zh) | 一种基于深度学习的两地双车牌检测识别方法及系统 | |
CN111340032A (zh) | 一种基于金融领域应用场景的字符识别方法 | |
CN112818951B (zh) | 一种票证识别的方法 | |
CN106203539B (zh) | 识别集装箱箱号的方法和装置 | |
WO2021042505A1 (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CN113128442A (zh) | 基于卷积神经网络的汉字书法风格识别方法和评分方法 | |
Chamchong et al. | Character segmentation from ancient palm leaf manuscripts in Thailand | |
CN111460927A (zh) | 对房产证图像进行结构化信息提取的方法 | |
CN113191348B (zh) | 一种基于模板的文本结构化提取方法及工具 | |
CN111652117A (zh) | 一种对多文档图像分割的方法及介质 | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
CN113657377A (zh) | 一种机打票据图像结构化识别方法 | |
CN112784932A (zh) | 一种字体识别方法、装置和存储介质 | |
Song et al. | A handwritten character extraction algorithm for multi-language document image | |
CN111414917A (zh) | 一种低像素密度文本的识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200626 |