CN112966537A - 基于二维码定位的表单识别方法及系统 - Google Patents
基于二维码定位的表单识别方法及系统 Download PDFInfo
- Publication number
- CN112966537A CN112966537A CN202110185463.XA CN202110185463A CN112966537A CN 112966537 A CN112966537 A CN 112966537A CN 202110185463 A CN202110185463 A CN 202110185463A CN 112966537 A CN112966537 A CN 112966537A
- Authority
- CN
- China
- Prior art keywords
- dimensional code
- form image
- positioning
- character
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K7/00—Methods or arrangements for sensing record carriers, e.g. for reading patterns
- G06K7/10—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
- G06K7/14—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
- G06K7/1404—Methods for optical code recognition
- G06K7/1439—Methods for optical code recognition including a method step for retrieval of the optical code
- G06K7/1443—Methods for optical code recognition including a method step for retrieval of the optical code locating of the code in an image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K7/00—Methods or arrangements for sensing record carriers, e.g. for reading patterns
- G06K7/10—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
- G06K7/14—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
- G06K7/1404—Methods for optical code recognition
- G06K7/1408—Methods for optical code recognition the method being specifically adapted for the type of code
- G06K7/1417—2D bar codes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Toxicology (AREA)
- Electromagnetism (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Abstract
本发明提供一种基于二维码定位的表单识别方法及系统,该方法包括:对待识别的表单进行扫描,获取表单图像,表单是在预设的表单模板上进行填写得到的;将表单图像和对应的表单模板进行匹配,根据匹配结果,获取表单图像中定位二维码的二维码位置偏移量,并根据二维码位置偏移量,得到表单图像中的文字区域坐标信息;根据文字区域坐标信息,获取表单图像中的文本区域图片,并将文本区域图片输入到训练好的文字识别模型中,得到表单图像的文字识别信息,训练好的文字识别模型是由样本文本区域图片,对卷积递归神经网络进行训练得到的。本发明有效克服文字检测阶段多目标检测带来的巨大开销,准确获取文本框的位置坐标,精确地将文字内容识别。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于二维码定位的表单识别方法及系统。
背景技术
在银行、保险、证券、医疗、司法和档案管理等诸多领域中,存在着大量的需要把卡证、牌照、票据、表单、合同以及其他纸质文档录入的需求,而使用光学字符识别(OpticalCharacter Recognition,简称OCR)技术可以省去绝大多数文字录入的繁琐工作。OCR识别技术属于计算机视觉领域,将纸张、卡证和车牌之类载体上的文字,通过光学手段和技术手段翻译成计算机可以使用的电子化数据的过程。引入OCR识别技术可以省去业务录入的时间,使得原来需要三五分钟才能完成的工作,可以缩减到几秒钟,大大提升业务效率。
相比有着几十年发展历史的传统OCR技术来说,深度学习是个新兴事物。传统OCR的流程大都是:图像处理-二值化-版面分析-行切割-字切割-单字识别-后处理。自从2012年Imagenet竞赛中采用深度学习技术的AlexNet夺得冠军后,在图像视频领域,深度学习方法就已开始大幅超越传统算法,之后产生了新的基于深度学习的OCR识别技术。深度学习OCR的识别流程与传统大有不同,流程基本可以简化为:多目标检测-整行识别-后处理。在复杂版式的文字识别上,深度学习OCR相比传统OCR技术,具有压倒性的技术优势。
但是对于一些低算力的边缘计算设备,其无法满足多目标检测所需要的巨量GPU资源,只能使用压缩之后的低精度CPU模型进行计算,导致精度带来了巨大误差;同时,即使是使用GPU进行多目标检测本身,也需要对应的模板匹配进行后处理来确保精度。因此,现在亟需一种基于二维码定位的表单识别方法及系统来解决上述问题。
发明内容
针对现有技术存在的问题,本发明提供一种基于二维码定位的表单识别方法及系统。
本发明提供一种基于二维码定位的表单识别方法,包括:
对待识别的表单进行扫描,获取表单图像,所述表单是在预设的表单模板上进行填写得到的;
将所述表单图像和对应的表单模板进行匹配,根据匹配结果,获取所述表单图像中定位二维码的二维码位置偏移量,并根据所述二维码位置偏移量,得到所述表单图像中的文字区域坐标信息;
根据所述文字区域坐标信息,获取所述表单图像中的文本区域图片,并将所述文本区域图片输入到训练好的文字识别模型中,得到所述表单图像的文字识别信息,所述训练好的文字识别模型是由样本文本区域图片,对卷积递归神经网络进行训练得到的。
根据本发明提供的一种基于二维码定位的表单识别方法,所述训练好的文字识别模型通过以下步骤训练得到:
将样本表单的文字区域标记为文本框,构建得到训练样本集;
将所述训练样本集输入到卷积递归神经网络中进行训练,得到训练好的文字识别模型。
根据本发明提供的一种基于二维码定位的表单识别方法,所述根据所述二维码位置偏移量,得到所述表单图像中的文字区域坐标信息,包括:
获取表单模板中文字区域的文本框标注坐标;
根据所述二维码位置偏移量和所述文本框标注坐标,对所述表单图像的文字区域进行偏移矫正,获取所述表单图像中的文字区域坐标信息。
根据本发明提供的一种基于二维码定位的表单识别方法,所述方法还包括:
获取表单图像中的白色像素占比,并根据所述白色像素占比判断表单图像是否为空白页面,若所述白色像素占比大于预设阈值,则判断获知表单图像为空白页面。
根据本发明提供的一种基于二维码定位的表单识别方法,所述表单模板的形状为矩形,所述矩形的任一角落设置有定位二维码,所述定位二维码包括有二维码坐标信息和二维码尺寸信息。
根据本发明提供的一种基于二维码定位的表单识别方法,在所述对待识别的表单进行扫描,获取表单图像之后,所述方法还包括:
对所述表单图像进行预处理,以对预处理后的表单图像进行文字识别,所述预处理包括对比度调整、锐度调整和均值滤波处理。
根据本发明提供的一种基于二维码定位的表单识别方法,所述定位二维码还包括:统一资源定位符地址信息。
本发明还提供一种基于二维码定位的表单识别系统,包括:
表单图像获取模块,用于对待识别的表单进行扫描,获取表单图像,所述表单是在预设的表单模板上进行填写得到的;
表单图像处理模块,用于将所述表单图像和对应的表单模板进行匹配,根据匹配结果,获取所述表单图像中定位二维码的二维码位置偏移量,并根据所述二维码位置偏移量,得到所述表单图像中的文字区域坐标信息;
表单文字图像识别模块,用于根据所述文字区域坐标信息,获取所述表单图像中的文本区域图片,并将所述文本区域图片输入到训练好的文字识别模型中,得到所述表单图像的文字识别信息,所述训练好的文字识别模型是由样本文本区域图片,对卷积递归神经网络进行训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于二维码定位的表单识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于二维码定位的表单识别方法的步骤。
本发明提供的基于二维码定位的表单识别方法及系统,相比现有技术,能够有效克服文字检测阶段多目标检测带来的巨大开销,能够准确灵活的获取到文本框的位置坐标,并精确地将文字内容识别出来,具有结构简单、维护方便和识别精度高的优点。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于二维码定位的表单识别方法的流程示意图;
图2为本发明提供的表单模板的示意图;
图3为本发明提供的基于定位二维码获取坐标偏移量的示意图;
图4为本发明提供的基于二维码定位的表单识别系统的结构示意图;
图5为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在现有的深度学习OCR技术中,对于一些低算力的边缘计算设备,其无法满足多目标检测所需要的巨量GPU资源,只能使用压缩之后的低精度CPU模型进行计算,导致精度带来了巨大误差。同时,即使是使用GPU进行多目标检测本身,也需要对应的模板匹配进行后处理来确保精度。本发明直接采用二维码定位的方式,获取固定模板的表单中文字的位置坐标,之后再送入文字识别模型进行识别。甚至对于某些只需要识别特定位置符号的表单,如选票或调查问卷等,根本无需文字识别模型,只需要简单的分类模型对区域内符号进行分类即可,大大节省了计算资源与检测时间,同时减少了人工智能黑盒效应导致的无法控制的误差,提高了系统容错率,降低了整套系统的使用和调试门槛。
图1为本发明提供的基于二维码定位的表单识别方法的流程示意图,如图1所示,本发明提供了一种基于二维码定位的表单识别方法,包括:
步骤101,对待识别的表单进行扫描,获取表单图像,所述表单是在预设的表单模板上进行填写得到的。
在本发明中,首先预设多种类型的表单模板,这些表单模板可根据实际的需求进行设置,图2为本发明提供的表单模板的示意图,可参考图2所示,在一实施例中,所述表单模板的形状为矩形,所述矩形的任一角落设置有定位二维码,所述定位二维码包括有二维码坐标信息和二维码尺寸信息,本实施例选用图2中的表单模板进行填写表单内容,在表单模板的任一角落处设置有定位二维码(本实施例将定位二维码设置在表单右上角),优选地,在表单模板的每个文字填写区域均设置成文本框的形式,以供填写相关文字内容。具体地,表单模板在制作时,表单模板以PDF或者JPG格式打开,其形状需设置为矩形,比例应接近标准印刷尺寸对应比例;然后,根据实际填写需求,设置为纵向或横向排列,同时,将其补齐成指定的标准印刷尺寸大小;接着,将定位二维码图片以JPG格式放置于表单模板某一角落内指定区域,其中,定位二维码可以手动拖曳、缩放改变其位置及大小,并且定位二维码左上角顶点的坐标和二维码长宽信息将会保存到对应的模板参数中。之后即可打印表单模板制作表单,等待其填写后送入扫描仪,通过扫描得到对应的表单图像。
步骤102,将所述表单图像和对应的表单模板进行匹配,根据匹配结果,获取所述表单图像中定位二维码的二维码位置偏移量,并根据所述二维码位置偏移量,得到所述表单图像中的文字区域坐标信息。
在本发明中,将表单图像的定位二维码进行模板匹配,获取该表单图像对应的表单模板,并得到表单图像中定位二维码的位置信息,然后将表单图像的定位二维码和表单模板的二维码坐标(即表单模板中定位二维码的坐标信息)进行比对,得出二维码位置偏移量;通过模板中文字框标注坐标和二维码位置偏移量,获取到需要识别文字部分的坐标信息,并将其切割下来保存在内存中,优选地,将切割得到的的坐标信息硬盘中进行备份。
步骤103,根据所述文字区域坐标信息,获取所述表单图像中的文本区域图片,并将所述文本区域图片输入到训练好的文字识别模型中,得到所述表单图像的文字识别信息,所述训练好的文字识别模型是由样本文本区域图片,对卷积递归神经网络进行训练得到的。
在本发明中,将切割出来的文字区域图片输入到文字识别模型,该模型是由卷积神经网络(Convolutional Neural Networks,简称CNN)+双向长短时记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)+CTC(Connectionist TemporalClassification)组成的卷积递归神经网络(convolutional-recursive neuralnetworks,简称CRNN)识别模型,可以将图像中的文字信息转为文本,并保存到对应的类别中。在本发明中,通过浏览器可以访问后台数据库,里面记录了每张表单对应位置的文字识别结果,可以对结果进行处理及统计。对于某些需要实时统计的表单,后台会自动刷新展示当前表单的相关数据,并将统计结果展示在表格中。
本发明提供的基于二维码定位的表单识别方法,相比现有技术,能够有效克服文字检测阶段多目标检测带来的巨大开销,能够准确灵活的获取到文本框的位置坐标,并精确地将文字内容识别出来,具有结构简单、维护方便和识别精度高的优点。
在上述实施例的基础上,所述训练好的文字识别模型通过以下步骤训练得到:
将样本表单的文字区域标记为文本框,构建得到训练样本集;
将所述训练样本集输入到卷积递归神经网络中进行训练,得到训练好的文字识别模型。
在本发明中,文字识别模型采用CRNN文字识别模型,对于中英文文本都能得到较好程度的识别。在进行模型预训练时,预训练模型由合成数据集进行训练,规模可达数百万张,保证了模型的泛化能力。在正式训练时,根据数据样本中文本框被切出来的矩形部分进行训练。需要说明的是,在本发明中,也可不进行训练,直接使用预训练模型进行识别。
在上述实施例的基础上,所述根据所述二维码位置偏移量,得到所述表单图像中的文字区域坐标信息,包括:
获取表单模板中文字区域的文本框标注坐标;
根据所述二维码位置偏移量和所述文本框标注坐标,对所述表单图像的文字区域进行偏移矫正,获取所述表单图像中的文字区域坐标信息。
在本发明中,图3为本发明提供的基于定位二维码获取坐标偏移量的示意图,可参考图3所示,根据制作模板时标注的坐标框(文本框)位置坐标,与检测定位二维码后得到的坐标偏移量进行相加,得到各文本标注框在表单中的实际位置坐标(即图3中虚线框的坐标信息)。之后根据该坐标,对各文本框进行切割,按编号排序后送入文字识别模型进行识别,同时保存到硬盘备份。
在上述实施例的基础上,所述方法还包括:
获取表单图像中的白色像素占比,并根据所述白色像素占比判断表单图像是否为空白页面,若所述白色像素占比大于预设阈值,则判断获知表单图像为空白页面。
在本发明中,对于空白页面,例如,扫描到表单背面或传输不完整导致的缺页,通过计算白色像素所占比例进行判断,如果是空白页,直接跳过二维码定位部分,从而节省计算资源,提高效率。
在上述实施例的基础上,在所述对待识别的表单进行扫描,获取表单图像之后,所述方法还包括:
对所述表单图像进行预处理,以对预处理后的表单图像进行文字识别,所述预处理包括对比度调整、锐度调整和均值滤波处理。
在本发明中,通过对表单图像进行预处理,从而确保图像质量清晰、无重叠和无显著噪声。
在上述实施例的基础上,所述定位二维码还包括:统一资源定位符地址信息。
在本发明中,通过对定位二维码进行解码,根据解码得到的统一资源定位符(Uniform Resource Locator,简称URL)信息,打开对应的文字展示页面,同时,通过URL内部经过规则设计的字符串,还可以获取表单的模板类型和检测方式等隐含信息。
在另一实施例中,对本发明进行整体说明。首先,需要提前设计表单模板并进行标注,具体地,将表单模板以PDF或者JPG格式在控制软件(设计表单模板样式的程序)内打开,其形状需为矩形,比例应接近标准印刷尺寸对应比例;之后在软件内设置是纵向或横向排列,软件将自动将其补齐成指定的标准印刷尺寸大小。在本发明中,调整尺寸部分代码为:short为短边,long为长边,以归一化后超出范围的一边为准。以A4为例进行说明,归一化图片尺寸在300dpi下,为2480*3508,对应的代码为:
进一步地,在表单模板中添加定位二维码时,将定位二维码图片以JPG格式上传到软件内,可以手动拖曳、缩放改变其位置及大小,放置于表单模板某一角落内指定区域,定位二维码左上角顶点的坐标和二维码长宽将会保存到对应的模板参数中。之后即可打印模板制作表单,等待其填写后送入扫描仪。扫描仪将自动卷入并扫描表单,并通过线缆将表单图像数据发送到嵌入式计算机中进行处理。当嵌入式计算机在将表单图像保存到内存中后,将内存中的表单图像经过图像处理方法进行矫正,图像处理方法包含调整对比度、调整锐度和均值滤波等操作。对于同一款扫描仪的每一批不同表单,参数需要预先经过多次实验进行确定,以确保达到最佳化印刷效果。部分图像处理代码如下:
src=cv2.imread(pic_path,cv2.IMREAD_GRAYSCALE)
src=cv2.medianBlur(src,3)
在确保表单图像质量清晰、无重叠、无显著噪声之后,嵌入式计算机将该处理过的图像通过以太网接口发送到软件端图像识别计算机(即通过该计算机内的文字识别模型进行识别)。
进一步地,图像识别计算机接收到文字图像后,通过定位二维码进行原图像矫正,获取坐标偏移量,从而获取到扫描造成的表单偏移后文本框的实际坐标。
在本发明中,对于空白页面,如为表单背面或传输不完整导致的缺页,通过计算白色像素所占比例进行判断,如果是空白页,直接跳过二维码定位部分,节省计算资源,提高效率。在本发明中,设置空白页面的阈值为0.98,其代码如下:
ratio=np.sum(src==255)/src.size
if ratio>0.98:
return None,tuple([0,0]),False
若为非空白页面,即可尝试定位二维码,部分代码如下:
res=cv2.matchTemplate(src,template,cv2.TM_SQDIFF)
cv2.normalize(res,res,0,1,cv2.NORM_MINMAX,-1)
res=np.where(res<=0.01,res,1)
min_val,max_val,min_loc,max_loc=cv2.minMaxLoc(res)
min_loc即为检测到的二维码左上角横纵坐标。
由于表单在投入扫描仪的时候不区分正反面、且不区分上下方向,所以可能存在某一面检测不到二维码、或者检测到的二维码位置不在指定的角落(如右上角)的情况,对此本发明采取如下方法进行避免:
对于表单两面都检测不到定位二维码或者两面都检测到定位二维码的情况,判定其为无效样本,标记并由软件转为人工处理;
对于只在其中一面检测到定位二维码的情况,还需判断定位二维码所在位置是否为指定的某个角落,在本发明中,采取将长边和短边各自平分的方式将表单划分为四个象限,判断定位二维码是否在该象限内。
以定位二维码设置在表单右上角为例,若检测到的定位二维码处于右上角,则可返回图片内容及定位二维码坐标,以及存在定位二维码的判定状态;
若检测到的定位二维码处于左下角,则可能是表单被倒着扫描进来,将图片进行上下180度的翻转后重新检测二维码流程,再次进行判断;
若检测到的定位二维码位于左上角或右下角,则可能是因为定位二维码模糊导致了错误识别,此时判定为无效样本,标记并由软件转为人工处理,返回空数组、(0,0)坐标及二维码不存在的状态。
以右上角为例,判定部分代码如下:
进一步地,解析定位二维码的内容,将其携带的信息用于选票分类等操作。在本发明汇总,定位二维码内部还可包含URL地址,用来展示表单相关信息的页面,解析部分代码如下:
reader=zxing.BarCodeReader()
barcode=reader.decode("QR_temp.jpg")
将检测到定位二维码坐标与制作模板时提供的二维码坐标进行比较,得到偏移量:
delta_x=left_top[0]-QR_X
delta_y=left_top[1]-QR_Y
然后,根据制作模板时标注的坐标框位置坐标,与检测二维码后得到的坐标偏移量进行相加,得到各文本标注框在表单中的实际位置坐标。之后根据该坐标,对各文本框进行切割,编号排序后送入文字识别模型进行识别,同时保存到硬盘备份。对于文字识别结果,可将其回填入模板中对应位置,也可直接输出,同时还可由软件对文字识别结果进行统计,展示各统计指标。
图4为本发明提供的基于二维码定位的表单识别系统的结构示意图,如图4所示,本发明提供了一种基于二维码定位的表单识别系统,包括表单图像获取模块401、表单图像处理模块402和表单文字图像识别模块403,其中,表单图像获取模块401用于对待识别的表单进行扫描,获取表单图像,所述表单是在预设的表单模板上进行填写得到的;表单图像处理模块402用于将所述表单图像和对应的表单模板进行匹配,根据匹配结果,获取所述表单图像中定位二维码的二维码位置偏移量,并根据所述二维码位置偏移量,得到所述表单图像中的文字区域坐标信息;表单文字图像识别模块403用于根据所述文字区域坐标信息,获取所述表单图像中的文本区域图片,并将所述文本区域图片输入到训练好的文字识别模型中,得到所述表单图像的文字识别信息,所述训练好的文字识别模型是由样本文本区域图片,对卷积递归神经网络进行训练得到的。
在本发明中,表单图像获取模块401可以是扫描仪,在该扫描仪上设有USB接口及LAN以太网接口。表单图像处理模块402可以为扫描仪控制端的嵌入式计算机,该嵌入式计算机为Linux嵌入式系统,具有存储图像、矫正图像和传输图像的功能。表单文字图像识别模块403可以为软件端的图像识别计算机,该图像识别计算机外设数据接口及以太网接口,内设有与扫描仪控制端配套的控制软件,具有扫描仪传输控制功能、表单模板标注功能、图像识别功能功能及表单信息统计展示功能。
在本发明中,表单模板具有和扫描仪所扫描表单相同的多规格的定位二维码,一般放置于表单的一角,默认放置在右上角,用于校正标注框坐标偏差,其中,表单大小可为A4、B5、A5等常规印刷尺寸大小。扫描仪的USB接口与嵌入式计算机的数据接口经数据线连接,嵌入式计算机的USB接口和HDMI接口可与操作和显示设备的对应接口经数据线连接。扫描仪采集的表单图像由数据线传输至嵌入式计算机内,嵌入式计算机将表单图像进行矫正,并按序编号后存储在本地备份,同时经以太网接口将图像发送至图像识别计算机。
本发明提供的基于二维码定位的表单识别系统,相比现有技术,能够有效克服文字检测阶段多目标检测带来的巨大开销,能够准确灵活的获取到文本框的位置坐标,并精确地将文字内容识别出来,具有结构简单、维护方便和识别精度高的优点。
本发明提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图5为本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(CommunicationsInterface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行基于二维码定位的表单识别方法,该方法包括:对待识别的表单进行扫描,获取表单图像,所述表单是在预设的表单模板上进行填写得到的;将所述表单图像和对应的表单模板进行匹配,根据匹配结果,获取所述表单图像中定位二维码的二维码位置偏移量,并根据所述二维码位置偏移量,得到所述表单图像中的文字区域坐标信息;根据所述文字区域坐标信息,获取所述表单图像中的文本区域图片,并将所述文本区域图片输入到训练好的文字识别模型中,得到所述表单图像的文字识别信息,所述训练好的文字识别模型是由样本文本区域图片,对卷积递归神经网络进行训练得到的。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于二维码定位的表单识别方法,该方法包括:对待识别的表单进行扫描,获取表单图像,所述表单是在预设的表单模板上进行填写得到的;将所述表单图像和对应的表单模板进行匹配,根据匹配结果,获取所述表单图像中定位二维码的二维码位置偏移量,并根据所述二维码位置偏移量,得到所述表单图像中的文字区域坐标信息;根据所述文字区域坐标信息,获取所述表单图像中的文本区域图片,并将所述文本区域图片输入到训练好的文字识别模型中,得到所述表单图像的文字识别信息,所述训练好的文字识别模型是由样本文本区域图片,对卷积递归神经网络进行训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于二维码定位的表单识别方法,该方法包括:对待识别的表单进行扫描,获取表单图像,所述表单是在预设的表单模板上进行填写得到的;将所述表单图像和对应的表单模板进行匹配,根据匹配结果,获取所述表单图像中定位二维码的二维码位置偏移量,并根据所述二维码位置偏移量,得到所述表单图像中的文字区域坐标信息;根据所述文字区域坐标信息,获取所述表单图像中的文本区域图片,并将所述文本区域图片输入到训练好的文字识别模型中,得到所述表单图像的文字识别信息,所述训练好的文字识别模型是由样本文本区域图片,对卷积递归神经网络进行训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于二维码定位的表单识别方法,其特征在于,包括:
对待识别的表单进行扫描,获取表单图像,所述表单是在预设的表单模板上进行填写得到的;
将所述表单图像和对应的表单模板进行匹配,根据匹配结果,获取所述表单图像中定位二维码的二维码位置偏移量,并根据所述二维码位置偏移量,得到所述表单图像中的文字区域坐标信息;
根据所述文字区域坐标信息,获取所述表单图像中的文本区域图片,并将所述文本区域图片输入到训练好的文字识别模型中,得到所述表单图像的文字识别信息,所述训练好的文字识别模型是由样本文本区域图片,对卷积递归神经网络进行训练得到的。
2.根据权利要求1所述的基于二维码定位的表单识别方法,其特征在于,所述训练好的文字识别模型通过以下步骤训练得到:
将样本表单的文字区域标记为文本框,构建得到训练样本集;
将所述训练样本集输入到卷积递归神经网络中进行训练,得到训练好的文字识别模型。
3.根据权利要求1所述的基于二维码定位的表单识别方法,其特征在于,所述根据所述二维码位置偏移量,得到所述表单图像中的文字区域坐标信息,包括:
获取表单模板中文字区域的文本框标注坐标;
根据所述二维码位置偏移量和所述文本框标注坐标,对所述表单图像的文字区域进行偏移矫正,获取所述表单图像中的文字区域坐标信息。
4.根据权利要求1所述的基于二维码定位的表单识别方法,其特征在于,所述方法还包括:
获取表单图像中的白色像素占比,并根据所述白色像素占比判断表单图像是否为空白页面,若所述白色像素占比大于预设阈值,则判断获知表单图像为空白页面。
5.根据权利要求1所述的基于二维码定位的表单识别方法,其特征在于,所述表单模板的形状为矩形,所述矩形的任一角落设置有定位二维码,所述定位二维码包括有二维码坐标信息和二维码尺寸信息。
6.根据权利要求1所述的基于二维码定位的表单识别方法,其特征在于,在所述对待识别的表单进行扫描,获取表单图像之后,所述方法还包括:
对所述表单图像进行预处理,以对预处理后的表单图像进行文字识别,所述预处理包括对比度调整、锐度调整和均值滤波处理。
7.根据权利要求5所述的基于二维码定位的表单识别方法,其特征在于,所述定位二维码还包括:统一资源定位符地址信息。
8.一种基于二维码定位的表单识别系统,其特征在于,包括:
表单图像获取模块,用于对待识别的表单进行扫描,获取表单图像,所述表单是在预设的表单模板上进行填写得到的;
表单图像处理模块,用于将所述表单图像和对应的表单模板进行匹配,根据匹配结果,获取所述表单图像中定位二维码的二维码位置偏移量,并根据所述二维码位置偏移量,得到所述表单图像中的文字区域坐标信息;
表单文字图像识别模块,用于根据所述文字区域坐标信息,获取所述表单图像中的文本区域图片,并将所述文本区域图片输入到训练好的文字识别模型中,得到所述表单图像的文字识别信息,所述训练好的文字识别模型是由样本文本区域图片,对卷积递归神经网络进行训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于二维码定位的表单识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于二维码定位的表单识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110185463.XA CN112966537B (zh) | 2021-02-10 | 2021-02-10 | 基于二维码定位的表单识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110185463.XA CN112966537B (zh) | 2021-02-10 | 2021-02-10 | 基于二维码定位的表单识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966537A true CN112966537A (zh) | 2021-06-15 |
CN112966537B CN112966537B (zh) | 2022-12-09 |
Family
ID=76284898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110185463.XA Active CN112966537B (zh) | 2021-02-10 | 2021-02-10 | 基于二维码定位的表单识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966537B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535166A (zh) * | 2021-06-22 | 2021-10-22 | 浙江浙大中控信息技术有限公司 | 一种模块化页面生成方法 |
CN113822269A (zh) * | 2021-11-23 | 2021-12-21 | 浙江保融科技股份有限公司 | 一种基于图像识别纸质存单自动录入方法 |
CN114637845A (zh) * | 2022-03-11 | 2022-06-17 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
CN114937272A (zh) * | 2022-05-26 | 2022-08-23 | 中国平安人寿保险股份有限公司 | 基于文字识别的识别结果检测方法、装置、设备及介质 |
CN117152745A (zh) * | 2023-10-23 | 2023-12-01 | 杭州迪安医学检验中心有限公司 | 一种基于图像处理技术的支原体识别和录入方法及系统 |
CN117854091A (zh) * | 2024-01-15 | 2024-04-09 | 金锋馥(滁州)科技股份有限公司 | 基于图像特征检测的包裹多面密集标签信息提取方法 |
CN118366181A (zh) * | 2024-06-18 | 2024-07-19 | 江西省送变电工程有限公司 | 一种用于电力施工的机具表单数据处理方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567741A (zh) * | 2010-12-27 | 2012-07-11 | 汉王科技股份有限公司 | 表单匹配方法和装置 |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
US9418315B1 (en) * | 2016-03-14 | 2016-08-16 | Sageworks, Inc. | Systems, methods, and computer readable media for extracting data from portable document format (PDF) files |
CN109145904A (zh) * | 2018-08-24 | 2019-01-04 | 讯飞智元信息科技有限公司 | 一种字符识别方法及装置 |
CN109815765A (zh) * | 2019-01-21 | 2019-05-28 | 东南大学 | 一种提取含有二维码的营业执照信息的方法及装置 |
CN111989692A (zh) * | 2019-09-30 | 2020-11-24 | 北京市商汤科技开发有限公司 | 表单识别方法、表格提取方法及相关装置 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
-
2021
- 2021-02-10 CN CN202110185463.XA patent/CN112966537B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567741A (zh) * | 2010-12-27 | 2012-07-11 | 汉王科技股份有限公司 | 表单匹配方法和装置 |
US9418315B1 (en) * | 2016-03-14 | 2016-08-16 | Sageworks, Inc. | Systems, methods, and computer readable media for extracting data from portable document format (PDF) files |
WO2017160654A2 (en) * | 2016-03-14 | 2017-09-21 | Sageworks, Inc. | Systems, methods, and computer readable media for extracting data from portable document format (pdf) files |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
CN109145904A (zh) * | 2018-08-24 | 2019-01-04 | 讯飞智元信息科技有限公司 | 一种字符识别方法及装置 |
CN109815765A (zh) * | 2019-01-21 | 2019-05-28 | 东南大学 | 一种提取含有二维码的营业执照信息的方法及装置 |
CN111989692A (zh) * | 2019-09-30 | 2020-11-24 | 北京市商汤科技开发有限公司 | 表单识别方法、表格提取方法及相关装置 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
Non-Patent Citations (1)
Title |
---|
潘炜 等: "基于深度学习的表格类型工单识别设计与实现", 《数学技术与应用》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535166A (zh) * | 2021-06-22 | 2021-10-22 | 浙江浙大中控信息技术有限公司 | 一种模块化页面生成方法 |
CN113535166B (zh) * | 2021-06-22 | 2023-10-13 | 浙江中控信息产业股份有限公司 | 一种模块化页面生成方法 |
CN113822269A (zh) * | 2021-11-23 | 2021-12-21 | 浙江保融科技股份有限公司 | 一种基于图像识别纸质存单自动录入方法 |
CN113822269B (zh) * | 2021-11-23 | 2022-03-29 | 浙江保融科技股份有限公司 | 一种基于图像识别纸质存单自动录入方法 |
CN114637845A (zh) * | 2022-03-11 | 2022-06-17 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
CN114637845B (zh) * | 2022-03-11 | 2023-04-14 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
CN114937272A (zh) * | 2022-05-26 | 2022-08-23 | 中国平安人寿保险股份有限公司 | 基于文字识别的识别结果检测方法、装置、设备及介质 |
CN117152745A (zh) * | 2023-10-23 | 2023-12-01 | 杭州迪安医学检验中心有限公司 | 一种基于图像处理技术的支原体识别和录入方法及系统 |
CN117854091A (zh) * | 2024-01-15 | 2024-04-09 | 金锋馥(滁州)科技股份有限公司 | 基于图像特征检测的包裹多面密集标签信息提取方法 |
CN117854091B (zh) * | 2024-01-15 | 2024-06-07 | 金锋馥(滁州)科技股份有限公司 | 基于图像特征检测的包裹多面密集标签信息提取方法 |
CN118366181A (zh) * | 2024-06-18 | 2024-07-19 | 江西省送变电工程有限公司 | 一种用于电力施工的机具表单数据处理方法及系统 |
CN118366181B (zh) * | 2024-06-18 | 2024-08-27 | 江西省送变电工程有限公司 | 一种用于电力施工的机具表单数据处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112966537B (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966537B (zh) | 基于二维码定位的表单识别方法及系统 | |
WO2020232872A1 (zh) | 表格识别方法、装置、计算机设备和存储介质 | |
CN110363102A (zh) | 一种pdf文件的对象识别处理方法及装置 | |
CN112183038A (zh) | 一种表格识别套打方法、计算机设备及计算机可读存储介质 | |
CN111274957A (zh) | 网页页面验证码识别方法、装置、终端和计算机存储介质 | |
CN101908136A (zh) | 一种表格识别处理方法及系统 | |
CN109598185B (zh) | 图像识别翻译方法、装置、设备及可读存储介质 | |
CN116704523B (zh) | 一种用于出版印刷设备的文字排版图像识别系统 | |
CN111914805A (zh) | 表格结构化方法、装置、电子设备及存储介质 | |
CN113569863B (zh) | 一种单据稽查的方法、系统、电子设备及存储介质 | |
CN108564081A (zh) | 卡片放置方向的识别方法、装置以及图像处理装置 | |
CN114004984B (zh) | 一种高压电缆附件工艺库图纸比对方法和系统 | |
CN113901933B (zh) | 基于人工智能的电子发票信息抽取方法、装置及设备 | |
CN112507782A (zh) | 文本图像的识别方法及装置 | |
CN113139535A (zh) | 一种ocr文档识别方法 | |
CN110647885A (zh) | 基于图片识别的试卷拆分方法、装置、设备以及介质 | |
CN114648771A (zh) | 文字识别方法、电子设备和计算机可读存储介质 | |
CN111027545A (zh) | 卡证图片标志检测方法、装置、计算机设备及存储介质 | |
WO2022082431A1 (en) | Systems and methods for extracting information from paper media based on depth information | |
CN113920520A (zh) | 图像文本识别方法、系统、存储介质及电子设备 | |
CN113111882A (zh) | 一种卡证识别方法、装置、电子设备及存储介质 | |
CN112200789A (zh) | 一种图像识别的方法及装置、电子设备和存储介质 | |
CN109635798B (zh) | 一种信息提取方法及装置 | |
CN115294557A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
CN113793264B (zh) | 一种基于卷积模型的档案图像处理方法、系统和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |