CN117095423B - 一种银行单据字符的识别方法及装置 - Google Patents

一种银行单据字符的识别方法及装置 Download PDF

Info

Publication number
CN117095423B
CN117095423B CN202311366078.0A CN202311366078A CN117095423B CN 117095423 B CN117095423 B CN 117095423B CN 202311366078 A CN202311366078 A CN 202311366078A CN 117095423 B CN117095423 B CN 117095423B
Authority
CN
China
Prior art keywords
character
image
characters
feature
outline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311366078.0A
Other languages
English (en)
Other versions
CN117095423A (zh
Inventor
陈超
杨婧
于中宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank Of Shanghai Co ltd
Original Assignee
Bank Of Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank Of Shanghai Co ltd filed Critical Bank Of Shanghai Co ltd
Priority to CN202311366078.0A priority Critical patent/CN117095423B/zh
Publication of CN117095423A publication Critical patent/CN117095423A/zh
Application granted granted Critical
Publication of CN117095423B publication Critical patent/CN117095423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明提供一种银行单据字符的识别方法及装置,涉及字符图像识别技术领域,所述方法包括:获取银行单据字符;对所述银行单据字符进行预处理,以得到预处理图像;对所述预处理图像进行轮廓提取,获取单据图像区域的轮廓;根据所述单据图像区域的轮廓,分割图像,获得包含单个字符的图形;对每个分割后的单个字符进行特征识别,以获得特征字符;根据所述特征字符,将所述单个字符分为不同的区域;对每个区域进行识别,以得到区域识别结果;将每个区域识别结果进行融合,判断出单个字符识别结果;根据所有单个字符识别结果,构建出完整的字符图像内容。本发明提高了银行单据字符中字符内容的识别准确率。

Description

一种银行单据字符的识别方法及装置
技术领域
本发明涉及字符图像识别技术领域,特别是指一种银行单据字符的识别方法及装置。
背景技术
在银行业务场景中,各类银行单据字符的数字化处理与识别一直是业务自动化的关键问题。传统的基于模板匹配的对于复杂多变的银行单据字符识别效果较差。
近年来,随着计算机视觉和深度学习技术的发展,一些基于深度学习的字符识别方法取得了长足进步,但是直接应用到银行单据识别中,识别精度仍然存在问题。
发明内容
本发明要解决的技术问题是提供一种银行单据字符的识别方法及装置,提高了银行单据字符中字符内容的识别准确率。
为解决上述技术问题,本发明的技术方案如下:
第一方面,一种银行单据字符的识别方法,所述方法包括:
获取银行单据字符;
对所述银行单据字符进行预处理,以得到预处理图像;
对所述预处理图像进行轮廓提取,获取单据图像区域的轮廓;
根据所述单据图像区域的轮廓,分割图像,获得包含单个字符的图形;
对每个分割后的单个字符进行特征识别,以获得特征字符;
根据所述特征字符,将所述单个字符分为不同的区域;
对每个区域进行识别,以得到区域识别结果;
将每个区域识别结果进行融合,判断出单个字符识别结果;
根据所有单个字符识别结果,构建出完整的字符图像内容。
进一步的,获取银行单据字符,包括:
获取银行业务中的字符图形样本;
识别所述字符图形样本,以得到识别字符;
对所述识别字符进行筛选,以得到筛选字符;
对所述筛选字符进行格式化处理,以得到银行单据字符。
进一步的,对所述银行单据字符进行预处理,以得到预处理图像,包括:
对所述银行单据字符进行处理,以获得字符图像;
将所述字符图像进行处理,以获得灰度图像;
对所述灰度图像进行噪声过滤,以得到第一图像;
调整所述第一图像的大小,并进行倾斜校正,以得到第二图像;
对所述第二图像使用全局阈值方法进行处理,得到二值图像;
对所述二值图像进行处理,以得到预处理图像。
进一步的,对所述预处理图像进行轮廓提取,获取单据图像区域的轮廓,包括:
提取所述预处理图像的边缘;
根据预处理图像的边缘,从任意起点开始,沿着边缘轮廓遍历直到返回起点,以生成封闭的边缘轮廓;
计算每个边缘轮廓的面积,通过预设的阈值对所述轮廓进行筛选,以得到筛选轮廓;
根据筛选轮廓的高度、宽度比例去除非字符的形状轮廓;
根据轮廓的位置关系,将轮廓分组,每个组表示一个字符区域;
计算每个字符区域的外接矩形,作为最后提取的字符轮廓区域。
进一步的,根据所述单据图像区域的轮廓,分割图像,获得包含单个字符的图形,包括:
获取字符轮廓区域的轮廓坐标;
根据所述轮廓坐标,在所述单据图像上标注出每个字符区域的外接矩形框;
在每个矩形框内按行逐个分割出含单个字符的图形;
计算每个分割字符图像的大小;
对分割出的字符图像进行缩放到相同高度;
将缩放到相同高度的单个字符按顺序重新排列,并保存至目录或数据库中。
进一步的,对每个分割后的单个字符进行特征识别,以获得特征字符,包括:
对每个分割后的单个字符进行灰度归一化;
在灰度归一化后将单个字符进行尺度归一化;
在尺度归一化后对单个字符进行特征计算,以获得第一特征;
根据所述第一特征,进行特征选择,以获得第二特征;
对所述第二特征进行特征编码,以得到编码特征;
对所述编码特征进行特征池化,以实现将图像划分为多个子区域;
对每个子区域的特征进行汇总,以得到每个子区域的特征总结。
进一步的,根据所述特征字符,将所述单个字符分为不同的区域,包括:
将图像划分为预定义的区域;
根据每个划分的区域,提取每个划分的区域的特征;
将每个区域的特征编码为一个特征向量;
将所有区域的特征向量汇总到一个全局特征向量。
第二方面,一种银行单据字符的识别装置,包括:
获取模块,用于获取银行单据字符;对所述银行单据字符进行预处理,以得到预处理图像;对所述预处理图像进行轮廓提取,获取单据图像区域的轮廓;根据所述单据图像区域的轮廓,分割图像,获得包含单个字符的图形;
处理模块,用于对每个分割后的单个字符进行特征识别,以获得特征字符;根据所述特征字符,将所述单个字符分为不同的区域;对每个区域进行识别,以得到区域识别结果;将每个区域识别结果进行融合,判断出单个字符识别结果;根据所有单个字符识别结果,构建出完整的字符图像内容。
第三方面,一种计算设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述方法。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,该程序被处理器执行时实现上述方法。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,提高了银行单据字符中字符内容的识别准确率,通过结合传统图像处理与深度学习识别技术,提高了定位、分割和特征表达的效果,从而提高了最终的字符识别准确率;扩大了银行单据识别的应用范围,相比整体端到端的方法,该方法在处理复杂、变形的银行单据时更加灵活和有效,扩大了可识别单据的范围;减少了识别模型的训练需求,依靠预处理与轮廓提取等传统技术完成初步定位和分割,降低了深度学习模型的训练难度,减少了大量标注数据的需求。
附图说明
图1是本发明的实施例提供的银行单据字符的识别方法的流程示意图。
图2是本发明的实施例提供的银行单据字符的识别装置示意图。
具体实施方式
下面将参照附图更细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的实施例提出一种银行单据字符的识别方法,所述方法包括:
步骤11,获取银行单据字符;
步骤12,对所述银行单据字符进行预处理,以得到预处理图像;
步骤13,对所述预处理图像进行轮廓提取,获取单据图像区域的轮廓;
步骤14,根据所述单据图像区域的轮廓,分割图像,获得包含单个字符的图形;
步骤15,对每个分割后的单个字符进行特征识别,以获得特征字符;
步骤16,根据所述特征字符,将所述单个字符分为不同的区域;
步骤17,对每个区域进行识别,以得到区域识别结果;
步骤18,将每个区域识别结果进行融合,判断出单个字符识别结果;
步骤19,根据所有单个字符识别结果,构建出完整的字符图像内容。
在本发明实施例中,提高了银行单据字符中字符内容的识别准确率,通过结合传统图像处理与深度学习识别技术,提高了定位、分割和特征表达的效果,从而提高了最终的字符识别准确率;扩大了银行单据识别的应用范围,相比整体端到端的方法,该方法在处理复杂、变形的银行单据时更加灵活和有效,扩大了可识别单据的范围;减少了识别模型的训练需求,依靠预处理与轮廓提取等传统技术完成初步定位和分割,降低了深度学习模型的训练难度,减少了大量标注数据的需求。
在本发明一优选的实施例中,上述步骤11,可以包括:
步骤111,获取银行业务中的字符图形样本;
步骤112,识别所述字符图形样本,以得到识别字符;
步骤113,对所述识别字符进行筛选,以得到筛选字符;
步骤114,对所述筛选字符进行格式化处理,以得到银行单据字符。
在本发明实施例中,获取更加全面和高质量的银行单据字符样本,通过直接从银行业务中获取不同类型的字符图像,作为单据图像的样本,保证了样本的全面性和质量;引入了样本识别和筛选步骤,识别样本中的字符内容,可以过滤掉一些无效或错误样本;筛选可以删除识别质量差的样本,保证输入单据图像的质量;格式化处理规范化了单据图像,格式化处理可以将不同来源、大小、方向的单据图像,转换为规范的格式,有利于后续预处理和识别;简化了单据图像的采集工作,通过上述流程,可以直接从业务系统中获取字符样本并转换为单据图像,无需再进行大量手工扫描或拍照;为构建单据识别系统提供了数据流程,该优化步骤为构建端到端的单据识别系统提供了完整的数据流程,从采集样本到生成规范化的单据图像输入;提高了系统的适应能力,通过样本识别、筛选和格式化,系统可以适应不同类型、质量的单据样本,提高了适应能力。
在本发明另一优选的实施例中,在步骤111中,获取银行业务中的字符图形样本, 例如,可以从银行业务系统数据库中收集包含账单、转账收据等字符图像共1000张作为样 本。在步骤112中,在识别所述字符图形样本时涉及对所述字符图形样本进行预处理,其中, 具体包括:步骤1121,构建高斯核,其中,xy为高斯核坐标,σ为高斯核标准 差;步骤1122,计算高斯核权重矩阵,具体包括:设高斯核大小为(2k+1)×(2k+1),中心坐标 为(0,0),计算高斯核每个坐标(x,y)的权重,构成高斯核权重矩阵W k×k ;步骤1223,通过对输入图像I的每个像 素点(i,j)进行滤波,其中,为滤波后的图像,为输入图像在 局部窗口内的像素值,高斯核权重矩阵;k为半径,代表高斯核的大小; 为输入图像I的像素坐标;为高斯核坐标,范围为-kk;步骤1224,通过识别字符中的字符区域,其 中,I x I y 为图像横纵向梯度,为字符区域;当识别出图像中的字符区域后,检测图 像中字符的倾斜角度,并进行旋转校正。
在步骤113中,在对所述识别字符进行筛选时,具体包括以下操作步骤:对识别字符进行大小筛选,移除过小的文本区域,计算每个连接组件的面积阈值T素,移除面积的连接组件;对识别字符进行长宽比筛选,移除过扁的文本区域,计算每个连接组件的长宽比R,设置长宽比阈值T r ,例如3,移除长宽比R大于阈值T r 的连接组件;对识别字符进行颜色筛选,移除非黑色的文本区域,将图像转换到HSV色彩空间,设置黑色阈值,例如V小于50,移除V大于阈值的非黑色文本区域;对筛选后的图像进行闭操作,填充文本中的空洞。通过大小筛选、长宽比筛选和颜色筛选,可以有效去除非文本的噪声区域,然后进行形态学闭操作,填充文本中的空洞,得到筛选后的清晰文本图像。
在步骤114中,在对图像格式化处理时,具体包括:对筛选后的文本图像进行矫正,使文本行对齐,计算文本行的角度,进行旋转变换,使文本行水平对齐;调整文本行间距,计算文本行之间的距离,对较近的文本行进行向下移动,使行间距均匀;调整文本字间距,计算文本里每个字的边界框,对较近的字边界进行扩张,使字间距均匀;识别表格结构,检测文本行与列的交点,确定表格网格结构;根据识别的表格结构,插入表格线,在表格交点处绘制文本线,形成表格的网格结构,输出格式化后的文本图像,以银行单据标准格式进行保存。通过文本矫正、调整间距、识别表格和插入表格线等处理,可以将筛选后的文本图像转换成格式化的银行单据字符。
在本发明一优选的实施例中,上述步骤12,可以包括:
步骤121,对所述银行单据字符进行处理,以获得字符图像;
步骤122,将所述字符图像进行处理,以获得灰度图像;
步骤123,对所述灰度图像进行噪声过滤,以得到第一图像;
步骤124,调整所述第一图像的大小,并进行倾斜校正,以得到第二图像;
步骤125,对所述第二图像使用全局阈值方法进行处理,得到二值图像;
步骤126,对所述二值图像进行处理,以得到预处理图像。
在本发明实施例中,从银行单据字符中提取出包含字符的区域,将字符图像转换为灰度图像,滤除灰度图像中的噪声,可以提高后续处理的效果,调整图像到适合的大小,可以提高处理速度,倾斜校正可以提高后续分割和识别的准确率,使用全局阈值方法得到二值图像,有利于提取字符的轮廓;通过这些预处理步骤,逐步提高图像质量,标准化图像,有利于后续对字符的检测、识别和理解,提高了整体方法的健壮性和准确率。
在本发明另一优选的实施例中,在步骤121中,检测图像中的垂直和水平边缘;当检测图像中的垂直和水平边缘后,对图像进行边缘检测,得到文本的边缘图;使用Hough变换,检测图像中直线段,定位文本行;根据文本行位置,分割图像,提取出文本行图像;对每个文本行图像进行投影处理,确定文本行内每个字符的位置;根据字符位置,分割文本行图像,提取每个字符的图形;对提取出的字符图像进行排列组合,构成文本区域图像;从银行单据字符中移除非文本区域,保留文本区域图像;输出处理后的只包含文本的字符图像。
在步骤122中,计算字符图像每个像素点的红、绿、蓝颜色通道的数值R(x,y)、G(x,y)和 B(x,y);根据红、绿、蓝三个颜色通道,计算每个像素的灰度值: Gray(x,y) = R(x,y)×0.299 + G(x,y)×0.587 + B(x,y)×0.114;将每个像素的红、绿、蓝值均设置为其灰度值: R'(x,y) = Gray(x,y), G'(x,y) = Gray(x,y) ,B'(x,y) = Gray(x,y);将处理后的图像作为灰度图像保存。
在步骤123和步骤124中,使用5×5高斯滤波器平滑灰度图像,减少噪声;计算每个像素与周围8邻域像素的差值,去除孤立噪点;中值滤波去除椒盐噪声;输出滤波处理后的图像;使用双三次插值算法调整图像大小为统一尺寸,例如,1024×1024;计算图像整体倾斜角度θ;对图像进行旋转变换,使图像水平: X' = Xcosθ-Ysinθ,Y' = Xsinθ+ Ycosθ;输出调整大小并校正倾斜后的图像。
在步骤125和步骤126中,计算图像整体灰度直方图,获得灰度分布概率密度函数;根据灰度分布概率密度函数,以及合适的全局阈值T,将灰度图像二值化,输出二值图像;连通域分析填充字符内部空洞,腐蚀操作分离字符连接,膨胀操作恢复字符形状,去除面积小于阈值的噪声区域,输出后处理优化的二值图像。
在本发明一优选的实施例中,上述步骤13,可以包括:
步骤131,提取所述预处理图像的边缘;
步骤132,根据预处理图像的边缘,从任意起点开始,沿着边缘轮廓遍历直到返回起点,以生成封闭的边缘轮廓;
步骤133,计算每个边缘轮廓的面积,通过预设的阈值对所述轮廓进行筛选,以得到筛选轮廓;
步骤134,根据筛选轮廓的高度、宽度比例去除非字符的形状轮廓;
步骤135,根据轮廓的位置关系,将轮廓分组,每个组表示一个字符区域;
步骤136,计算每个字符区域的外接矩形,作为最后提取的字符轮廓区域。
在本发明实施例中,根据预处理图像的边缘,设当前轮廓点为s,轮廓点集为E={e 1 ,e 2 ,…,e t };从当前点s出发,在轮廓点集E中找到与其最邻近的点e j ,即;将找到的邻近点e j 设为当前点s;如果s等于起点e 1 ,则提取完整封闭轮廓,重复操作直到提取完整封闭轮廓,其中,e 1 ,e 2 ,…,e t 为轮廓点集,表示轮廓的点的集合,其中每个e t 表示一个轮廓点;x e y e 表示轮廓点e的坐标,分别表示轮廓点的横坐标和纵坐标;x s y s 表示当前点s的坐标,分别表示当前处理的轮廓点的横坐标和纵坐标;t表示轮廓点的总数量,表示轮廓点集的大小;j表示最邻近点的索引,表示与当前点最邻近的轮廓点在轮廓点集中的索引。在步骤133中,具体包括,取轮廓点集中的第一个点点点们之间的距离∣1∣,取第二个点点点它们之间的距离∣2∣,重复该过程,直到最后两个轮廓点,计算它们之间的距离,将所有轮廓线段的长度求和,即可得到轮廓总面积S 1 ,如果轮廓总面积S 1 大于预设面积阈值Ts,则保留该轮廓,否则如果轮廓总面积S 1 小于Ts,则舍弃该轮廓,其中,轮廓总面积S 1 的计算公式为:,其中,p表示轮廓点的数量;c i 是第i个轮廓点的坐标,即c i = (x i y i );/>是曲率惩罚系数,用于控制曲率惩罚的强度,(x c(i+1) ,y c(i+1)) 表示下一个轮廓点的坐标。在步骤134中,计算每个筛选得到的轮廓的外接矩形,得到高度H和宽度W1,计算轮廓的高宽比R1 = H/W1,设置一个高宽比的阈值,例如3,对每个轮廓,判断其高宽比R1,如果R1大于阈值(例如大于3),则判断该轮廓为非字符,去除该轮廓,如果R1小于阈值(例如小于3),则保留该轮廓作为字符轮廓,返回去除非字符轮廓后的轮廓集合;通过计算每个轮廓的高宽比,并设定一个合适的阈值,可以有效去除一些非字符的长条形等轮廓,保留主要的字符轮廓。
在步骤135中,计算每个轮廓的外接矩形的坐标,计算每个轮廓外接矩形的中心点坐标: x c = x + w/2y c = y + h/2;设有n个轮廓的中心点坐标为{x 1 ,y 1 },{x 2 ,y 2 },…,{x n y n },初始化k 2 个聚类中心{c 1 c 2 ,…,c k2 },对每个轮廓中心点{x i y i },计算到每个聚类中心,/>表示第i个点和第j个点之间的距离;(x i y i ) 表示第i个点的坐标;(/>,/>) 表示第j个点的坐标;将每个轮廓中心点分配到距离最近的聚类中心cluster(x i ,y i )=argmin j d ij ;更新聚类中心的坐标为所分配轮廓中心的均值,其中,/>表示所有坐标点的和的倒数;重复操作直到聚类中心坐标收敛;根据最后的聚类结果,将轮廓分到相应的组;对每个组内的轮廓,计算它们的包围框,将包围框作为该组字符区域,即每个组表示检测到的一个字符区域,返回所有组的字符区域包围框,通过计算轮廓的空间坐标关系,将轮廓自动分组,每个组代表一个独立的字符实例,实现对不同字符区域的分组和定位。在步骤136中,分组后的字符轮廓区域,每个区域包含多个轮廓框;对每个字符区域内的所有轮廓框,计算它们的最小外接矩形,具体包括:初始化外接矩形为第一个轮廓框,遍历后续的轮廓框,不断更新外接矩形的坐标,使其包含所有轮廓框,最终得到能够包含该字符区域所有轮廓框的最小外接矩形,将最小外接矩形的坐标作为该字符区域的定位框;每个字符区域的外接矩形坐标,作为最后的字符定位结果。通过合并每个区域内的所有轮廓框,计算最小包围矩形,可以精确提取字符实例的位置,完成字符的定位。
在本发明一优选的实施例中,上述步骤14,可以包括:
步骤141,获取字符轮廓区域的轮廓坐标;
步骤142,根据所述轮廓坐标,在所述单据图像上标注出每个字符区域的外接矩形框;
步骤143,在每个矩形框内按行逐个分割出含单个字符的图形;
步骤144,计算每个分割字符图像的大小;
步骤145,对分割出的字符图像进行缩放到相同高度;
步骤146,将缩放到相同高度的单个字符按顺序重新排列,并保存至目录或数据库中。
在本发明实施例中,能够精确地定位图像中每个字符的位置,能够准确地界定每个字符的边界,有助于避免在字符分割过程中出现误分割或漏分割的情况,能够将每个字符独立出来;计算每个分割字符图像的大小,能够了解每个字符的实际大小;对分割出的字符图像进行缩放到相同高度,能够统一字符的大小;将缩放到相同高度的单个字符按顺序重新排列,并保存至目录或数据库中,能够保持字符的原始顺序,同时,将字符图像保存至目录或数据库中,为后续的批量处理或长期存储提供了便利。
在本发明一优选的实施例中,上述步骤15,可以包括:
步骤151,对每个分割后的单个字符进行灰度归一化;
步骤152,在灰度归一化后将单个字符进行尺度归一化;
步骤153,在尺度归一化后对单个字符进行特征计算,以获得第一特征;
步骤154,根据所述第一特征,进行特征选择,以获得第二特征;
步骤155,对所述第二特征进行特征编码,以得到编码特征;
步骤156,对所述编码特征进行特征池化,以实现将图像划分为多个子区域;
步骤157,对每个子区域的特征进行汇总,以得到每个子区域的特征总结。
在本发明实施例中,在步骤151中,通过对每个分割后的单个字符进行灰度归一化,其中,a、/>c均为参数;/>为输入图像;/>分别表示图像数据中的最小值和最大值,/>表示归一化后的图像数据,通过进行灰度归一化可以增强对比度,消除光照变化影响。在步骤152中,通过将归一化后的图像数据归一化到m 1 ×n 1 大小图像,其中,m1,n1为目标大小;N i 为三次样条插值基函数;y i 为控制点;/>表示函数;因此,通过将归一化后的图像数据归一化到m 1 ×n 1 大小图像,可以消除字符尺寸比例变化的影响。在步骤153中,通过对每个关键点计算梯度方向直方图,生成128维特征,可以获取字符的局部纹理信息。在步骤154中,使用LASSO回归进行特征选择,可以去除冗余特征,提升区分度。在步骤155中,通过对所述第二特征进行特征编码,以得到编码特征,其中,/>为编码特征,x 1 为输入特征,D为字典矩阵,z为编码系数,λ为控制编码的稀疏度;因此,可以增加特征稳定性。在步骤156中,在L尺度上进行空间金字塔池化,提取特征码字,可以增强特征鲁棒性。步骤157中,拼接各区域码字,生成超向量表示整体特征,可以融合多尺度信息。
在本发明一优选的实施例中,上述步骤16,可以包括:
步骤161,将图像划分为预定义的区域;
步骤162,根据每个划分的区域,提取每个划分的区域的特征;
步骤163,将每个区域的特征编码为一个特征向量;
步骤164,将所有区域的特征向量汇总到一个全局特征向量。
在本发明实施例中,上述步骤161具体包括,将输入图像等分为m×n个区域,例如4×4等分为16个区域,可以划分本地区域,便于提取局部特征。上述步骤162具体包括,对每个局部区域,提取SIFT特征描述子,可以获取每个局部区域的纹理和形状。上述步骤163具体包括,使用向量量化或稀疏编码,将SIFT特征编码为稀疏码字,可以获得紧凑和稳定的特征表示。上述步骤164具体包括,将所有区域的特征码字连接起来,形成一个超级向量,作为图像的整体特征表示,因此,可以融合局部信息,表征图像全局特征。通过划分本地区域并提取特征,再编码汇总为全局特征,可以获得对图像整体和局部信息进行表达的稳定特征表示,为后续分类或检索任务提供有效特征。
如图2所示,本发明的实施例还提供一种银行单据字符的识别装置20,包括:
获取模块21,用于获取银行单据字符;对所述银行单据字符进行预处理,以得到预处理图像;对所述预处理图像进行轮廓提取,获取单据图像区域的轮廓;根据所述单据图像区域的轮廓,分割图像,获得包含单个字符的图形;
处理模块22,用于对每个分割后的单个字符进行特征识别,以获得特征字符;根据所述特征字符,将所述单个字符分为不同的区域;对每个区域进行识别,以得到区域识别结果;将每个区域识别结果进行融合,判断出单个字符识别结果;根据所有单个字符识别结果,构建出完整的字符图像内容。
可选的,对所述预处理图像进行轮廓提取,获取单据图像区域的轮廓,包括:
提取所述预处理图像的边缘;
根据预处理图像的边缘,从任意起点开始,沿着边缘轮廓遍历直到返回起点,以生成封闭的边缘轮廓;
计算每个边缘轮廓的面积,通过预设的阈值对所述轮廓进行筛选,以得到筛选轮廓;
根据筛选轮廓的高度、宽度比例去除非字符的形状轮廓;
根据轮廓的位置关系,将轮廓分组,每个组表示一个字符区域;
计算每个字符区域的外接矩形,作为最后提取的字符轮廓区域。
可选的,根据所述单据图像区域的轮廓,分割图像,获得包含单个字符的图形,包括:
获取字符轮廓区域的轮廓坐标;
根据所述轮廓坐标,在所述单据图像上标注出每个字符区域的外接矩形框;
在每个矩形框内按行逐个分割出含单个字符的图形;
计算每个分割字符图像的大小;
对分割出的字符图像进行缩放到相同高度;
将缩放到相同高度的单个字符按顺序重新排列,并保存至目录或数据库中。
可选的,对每个分割后的单个字符进行特征识别,以获得特征字符,包括:
对每个分割后的单个字符进行灰度归一化;
在灰度归一化后将单个字符进行尺度归一化;
在尺度归一化后对单个字符进行特征计算,以获得第一特征;
根据所述第一特征,进行特征选择,以获得第二特征;
对所述第二特征进行特征编码,以得到编码特征;
对所述编码特征进行特征池化,以实现将图像划分为多个子区域;
对每个子区域的特征进行汇总,以得到每个子区域的特征总结。
可选的,根据所述特征字符,将所述单个字符分为不同的区域,包括:
将图像划分为预定义的区域;
根据每个划分的区域,提取每个划分的区域的特征;
将每个区域的特征编码为一个特征向量;
将所有区域的特征向量汇总到一个全局特征向量。
需要说明的是,该装置是与上述方法相对应的装置,上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上所述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种银行单据字符的识别方法,其特征在于,所述方法包括:
获取银行单据字符,包括:获取银行业务中的字符图形样本;识别所述字符图形样本,以得到识别字符;对所述识别字符进行筛选,以得到筛选字符;对所述筛选字符进行格式化处理,以得到银行单据字符;在识别所述字符图形样本时涉及对所述字符图形样本进行预处理,其中,具体包括:构建高斯核其中,x,y为高斯核坐标,σ为高斯核标准差;计算高斯核权重矩阵,具体包括:设高斯核大小为(2k+1)×(2k+1),中心坐标为(0,0),计算高斯核每个坐标(x,y)的权重,构成高斯核权重矩阵Wk×k;通过/> 对输入图像I的每个像素点(i,j)进行滤波,其中,I′(i,j)为滤波后的图像,I(i+m,j+n)为输入图像在局部窗口内的像素值,W(m,n)为高斯核权重矩阵;k为半径,代表高斯核的大小;i,j为输入图像I的像素坐标;m,n为高斯核坐标,范围为-k至k;通过/> 识别字符中的字符区域,其中,Ix,Iy为图像横纵向梯度;
对所述银行单据字符进行预处理,以得到预处理图像,包括:对所述银行单据字符进行处理,以获得字符图像;将所述字符图像进行处理,以获得灰度图像;对所述灰度图像进行噪声过滤,以得到第一图像;调整所述第一图像的大小,并进行倾斜校正,以得到第二图像;对所述第二图像使用全局阈值方法进行处理,得到二值图像;对所述二值图像进行处理,以得到预处理图像;
对所述预处理图像进行轮廓提取,获取单据图像区域的轮廓;
根据所述单据图像区域的轮廓,分割图像,获得包含单个字符的图形;
对每个分割后的单个字符进行特征识别,以获得特征字符;
根据所述特征字符,将所述单个字符分为不同的区域;
对每个区域进行识别,以得到区域识别结果;
将每个区域识别结果进行融合,判断出单个字符识别结果;
根据所有单个字符识别结果,构建出完整的字符图像内容。
2.根据权利要求1所述的银行单据字符的识别方法,其特征在于,对所述预处理图像进行轮廓提取,获取单据图像区域的轮廓,包括:
提取所述预处理图像的边缘;
根据预处理图像的边缘,从任意起点开始,沿着边缘轮廓遍历直到返回起点,以生成封闭的边缘轮廓;
计算每个边缘轮廓的面积,通过预设的阈值对所述轮廓进行筛选,以得到筛选轮廓;
根据筛选轮廓的高度、宽度比例去除非字符的形状轮廓;
根据轮廓的位置关系,将轮廓分组,每个组表示一个字符区域;
计算每个字符区域的外接矩形,作为最后提取的字符轮廓区域。
3.根据权利要求2所述的银行单据字符的识别方法,其特征在于,根据所述单据图像区域的轮廓,分割图像,获得包含单个字符的图形,包括:
获取字符轮廓区域的轮廓坐标;
根据所述轮廓坐标,在所述单据图像上标注出每个字符区域的外接矩形框;
在每个矩形框内按行逐个分割出含单个字符的图形;
计算每个分割字符图像的大小;
对分割出的字符图像进行缩放到相同高度;
将缩放到相同高度的单个字符按顺序重新排列,并保存至目录或数据库中。
4.根据权利要求3所述的银行单据字符的识别方法,其特征在于,对每个分割后的单个字符进行特征识别,以获得特征字符,包括:
对每个分割后的单个字符进行灰度归一化;
在灰度归一化后将单个字符进行尺度归一化;
在尺度归一化后对单个字符进行特征计算,以获得第一特征;
根据所述第一特征,进行特征选择,以获得第二特征;
对所述第二特征进行特征编码,以得到编码特征;
对所述编码特征进行特征池化,以实现将图像划分为多个子区域;
对每个子区域的特征进行汇总,以得到每个子区域的特征总结。
5.根据权利要求4所述的银行单据字符的识别方法,其特征在于,根据所述特征字符,将所述单个字符分为不同的区域,包括:
将图像划分为预定义的区域;
根据每个划分的区域,提取每个划分的区域的特征;
将每个区域的特征编码为一个特征向量;
将所有区域的特征向量汇总到一个全局特征向量。
6.一种银行单据字符的识别装置,其特征在于,包括:
获取模块,用于获取银行单据字符,包括:获取银行业务中的字符图形样本;识别所述字符图形样本,以得到识别字符;对所述识别字符进行筛选,以得到筛选字符;对所述筛选字符进行格式化处理,以得到银行单据字符;在识别所述字符图形样本时涉及对所述字符图形样本进行预处理,其中,具体包括:构建高斯核其中,x,y为高斯核坐标,σ为高斯核标准差;计算高斯核权重矩阵,具体包括:设高斯核大小为(2k+1)×(2k+1),中心坐标为(0,0),计算高斯核每个坐标(x,y)的权重,构成高斯核权重矩阵Wk×k;通过对输入图像I的每个像素点(i,j)进行滤波,其中,I′(i,j)为滤波后的图像,I(i+m,j+n)为输入图像在局部窗口内的像素值,W(m,n)为高斯核权重矩阵;k为半径,代表高斯核的大小;i,j为输入图像I的像素坐标;m,n为高斯核坐标,范围为-k至k;通过/>识别字符中的字符区域,其中,Ix,Iy为图像横纵向梯度;对所述银行单据字符进行预处理,以得到预处理图像,包括:对所述银行单据字符进行处理,以获得字符图像;将所述字符图像进行处理,以获得灰度图像;对所述灰度图像进行噪声过滤,以得到第一图像;调整所述第一图像的大小,并进行倾斜校正,以得到第二图像;对所述第二图像使用全局阈值方法进行处理,得到二值图像;对所述二值图像进行处理,以得到预处理图像;对所述预处理图像进行轮廓提取,获取单据图像区域的轮廓;根据所述单据图像区域的轮廓,分割图像,获得包含单个字符的图形;
处理模块,用于对每个分割后的单个字符进行特征识别,以获得特征字符;根据所述特征字符,将所述单个字符分为不同的区域;对每个区域进行识别,以得到区域识别结果;将每个区域识别结果进行融合,判断出单个字符识别结果;根据所有单个字符识别结果,构建出完整的字符图像内容。
7.一种计算设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序,该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
CN202311366078.0A 2023-10-20 2023-10-20 一种银行单据字符的识别方法及装置 Active CN117095423B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311366078.0A CN117095423B (zh) 2023-10-20 2023-10-20 一种银行单据字符的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311366078.0A CN117095423B (zh) 2023-10-20 2023-10-20 一种银行单据字符的识别方法及装置

Publications (2)

Publication Number Publication Date
CN117095423A CN117095423A (zh) 2023-11-21
CN117095423B true CN117095423B (zh) 2024-01-05

Family

ID=88781659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311366078.0A Active CN117095423B (zh) 2023-10-20 2023-10-20 一种银行单据字符的识别方法及装置

Country Status (1)

Country Link
CN (1) CN117095423B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2908210A1 (fr) * 2014-10-10 2016-04-10 Morpho Procede d'identification d'un signe sur un document deforme
JP2017033469A (ja) * 2015-08-05 2017-02-09 キヤノン株式会社 画像識別方法、画像識別装置及びプログラム
CN107622263A (zh) * 2017-02-20 2018-01-23 平安科技(深圳)有限公司 单据图像的字符识别方法和装置
WO2018018788A1 (zh) * 2016-07-29 2018-02-01 深圳友讯达科技股份有限公司 一种基于图像识别的计量表抄表装置及其方法
WO2018040342A1 (zh) * 2016-08-31 2018-03-08 百度在线网络技术(北京)有限公司 用于识别图像中文字区域的方法和装置
CN108564079A (zh) * 2018-05-08 2018-09-21 东华大学 一种便携式字符识别装置及方法
CN109034145A (zh) * 2018-07-06 2018-12-18 西安电子科技大学 基于OpenCV的银行卡号识别方法
CN112115948A (zh) * 2020-09-15 2020-12-22 电子科技大学 一种基于深度学习的芯片表面字符识别方法
WO2021109697A1 (zh) * 2019-12-05 2021-06-10 嘉楠明芯(北京)科技有限公司 字符分割方法、装置以及计算机可读存储介质
CN112966691A (zh) * 2021-04-14 2021-06-15 重庆邮电大学 基于语义分割的多尺度文本检测方法、装置及电子设备
CN113283441A (zh) * 2021-06-09 2021-08-20 高书俊 一种贴片电阻上的印刷字符识别方法、装置、终端及介质
WO2022121039A1 (zh) * 2020-12-10 2022-06-16 广州广电运通金融电子股份有限公司 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN114973228A (zh) * 2022-05-31 2022-08-30 上海交通大学 基于轮廓特征增强的金属零件表面文本识别方法及系统
CN115861993A (zh) * 2022-12-29 2023-03-28 苏州科达科技股份有限公司 字符识别方法、系统、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US20150286860A1 (en) * 2014-04-02 2015-10-08 Le Moustache Club S.L. Method and Device for Generating Data from a Printed Document

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2908210A1 (fr) * 2014-10-10 2016-04-10 Morpho Procede d'identification d'un signe sur un document deforme
JP2017033469A (ja) * 2015-08-05 2017-02-09 キヤノン株式会社 画像識別方法、画像識別装置及びプログラム
WO2018018788A1 (zh) * 2016-07-29 2018-02-01 深圳友讯达科技股份有限公司 一种基于图像识别的计量表抄表装置及其方法
WO2018040342A1 (zh) * 2016-08-31 2018-03-08 百度在线网络技术(北京)有限公司 用于识别图像中文字区域的方法和装置
CN107622263A (zh) * 2017-02-20 2018-01-23 平安科技(深圳)有限公司 单据图像的字符识别方法和装置
CN108564079A (zh) * 2018-05-08 2018-09-21 东华大学 一种便携式字符识别装置及方法
CN109034145A (zh) * 2018-07-06 2018-12-18 西安电子科技大学 基于OpenCV的银行卡号识别方法
WO2021109697A1 (zh) * 2019-12-05 2021-06-10 嘉楠明芯(北京)科技有限公司 字符分割方法、装置以及计算机可读存储介质
CN112115948A (zh) * 2020-09-15 2020-12-22 电子科技大学 一种基于深度学习的芯片表面字符识别方法
WO2022121039A1 (zh) * 2020-12-10 2022-06-16 广州广电运通金融电子股份有限公司 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN112966691A (zh) * 2021-04-14 2021-06-15 重庆邮电大学 基于语义分割的多尺度文本检测方法、装置及电子设备
CN113283441A (zh) * 2021-06-09 2021-08-20 高书俊 一种贴片电阻上的印刷字符识别方法、装置、终端及介质
CN114973228A (zh) * 2022-05-31 2022-08-30 上海交通大学 基于轮廓特征增强的金属零件表面文本识别方法及系统
CN115861993A (zh) * 2022-12-29 2023-03-28 苏州科达科技股份有限公司 字符识别方法、系统、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
核零空间算法在字符识别中的应用;韩笑等;《计算机与数字工程》;第51卷(第07期);全文 *

Also Published As

Publication number Publication date
CN117095423A (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
US9230383B2 (en) Document image compression method and its application in document authentication
CN110298376B (zh) 一种基于改进b-cnn的银行票据图像分类方法
CN114529925B (zh) 一种全线表表格结构识别方法
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
CN112949455B (zh) 一种增值税发票识别系统及方法
CN115457565A (zh) 一种ocr文字识别方法、电子设备及存储介质
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN112364862B (zh) 一种基于直方图相似度的扰动变形汉字图片匹配的方法
CA2267828A1 (en) Multiple size reductions for image segmentation
Kölsch et al. Recognizing challenging handwritten annotations with fully convolutional networks
CN115620322B (zh) 一种基于关键点检测的全线表表格结构识别方法
CN115512379A (zh) 一种识别提取纸质文本中复选框勾选结果的方法及系统
CN115880704A (zh) 一种病例的自动编目方法、系统、设备及存储介质
CN109271882B (zh) 一种区分颜色的手写体汉字提取方法
CN118135584A (zh) 一种基于深度学习的手写表单自动识别方法和系统
CN111612045B (zh) 一种获取目标检测数据集的通用方法
CN117576699A (zh) 一种基于深度学习的机车工单信息智能识别方法及系统
CN117095423B (zh) 一种银行单据字符的识别方法及装置
CN116912865A (zh) 表格图像识别方法、装置、设备及介质
CN111488870A (zh) 文字识别方法和文字识别装置
CN115731550A (zh) 一种基于深度学习的药品说明书自动识别方法、系统及存储介质
CN116778135A (zh) 一种文本信息的检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant