CN109145904A - 一种字符识别方法及装置 - Google Patents
一种字符识别方法及装置 Download PDFInfo
- Publication number
- CN109145904A CN109145904A CN201810972547.6A CN201810972547A CN109145904A CN 109145904 A CN109145904 A CN 109145904A CN 201810972547 A CN201810972547 A CN 201810972547A CN 109145904 A CN109145904 A CN 109145904A
- Authority
- CN
- China
- Prior art keywords
- character
- area
- referring
- template image
- location information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种字符识别方法及装置,依据待识别图像与模板图像之间的偏差量以及由模板图像生成的感兴趣区域的位置信息,确定待识别图像中的待识别区域,并识别待识别区域中的字符。与现有的从整个待识别图像中识别字符的方式相比,先确定待识别区域,再识别待识别区域中的字符的方式,能够缩小识别的范围,因此,能够减小其它区域中的信息对于识别的影响,所以,具有较高的识别准确性。
Description
技术领域
本申请涉及电子信息领域,尤其涉及一种字符识别方法及装置。
背景技术
表格处理是常见的日常工作,随着信息技术的发展,借助计算机技术处理表格,能够显著减少消耗的人力和时间,提升工作效率。获取表格中的文字信息,是计算机处理表格的第一步。
光学字符识别(简称OCR)技术是高效获取表格内的文字信息的工具之一,通过OCR可以识别出拍摄或扫描得到的表格图像中的文字,从而在短时间内完成大量的文字信息的采集。
目前大多数OCR产品均将表格图像作为一个整体进行识别,而除了字符,表格中还包括线条等非字符,因为非字符的干扰,导致对于字符识别的准确性降低。
发明内容
本申请提供了一种字符识别方法及装置,目的在于解决现有的OCR识别的准确性低的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种字符识别方法,包括:
获取由模板图像生成的模板信息,所述模板信息包括感兴趣区域的位置信息;
计算待识别图像与所述模板图像之间的偏差量;
依据所述偏差量以及所述感兴趣区域的位置信息,确定所述待识别图像中的待识别区域;
识别所述待识别区域中的字符。
可选的,所述模板信息还包括:
参照区域的位置信息和参照字符,所述参照字符为所述参照区域中的字符;
所述计算待识别图像与所述模板图像之间的偏差量包括:
从所述待识别图像中识别出每一个参照字符的检测区域,任意一个所述参照字符的检测区域为该参照字符在所述待识别图像中对应的一个图像区域;
依据所述检测区域的位置信息与所述参照区域的位置信息,计算所述计算待识别图像与所述模板图像之间的偏差量。
可选的,所述依据所述检测区域的位置信息与所述参照区域的位置信息,计算所述计算待识别图像与所述模板图像之间的偏差量包括:
计算第一目标点集中的点构成的凸包的面积,得到第一面积值;所述第一目标点集为从每一个所述参照区域的左边框选取的一个的点构成的集合;
计算第二目标点集中的点构成的凸包的面积,得到第二面积值;所述第二目标点集为从每一个所述检测区域的左边框选取的一个的点构成的集合,其中,对应的参照区域与检测区域中选取的点在左边框的相对位置相同;
依据所述第一面积值与所述第二面积值,确定所述待识别图像相对于所述模板图像的缩放比例。
可选的,所述第一目标点集为每一个所述参照区域的左边框的中点;
所述第二目标点集为每一个所述检测区域的左边框的中点。
可选的,所述依据所述检测区域的位置信息与所述参照区域的位置信息,计算所述计算待识别图像与所述模板图像之间的偏差量还包括:
依据所述缩放比例、所述检测区域的位置信息与所述参照区域的位置信息,计算所述待识别图像相对于所述模板图像的水平偏移距离和垂直偏移距离。
可选的,所述从所述待识别图像中识别出每一个参照字符的检测区域包括:
识别所述待识别图像,得到第二识别结果,所述第二识别结果包括矩形图像区域和所述矩形图像区域对应的字符;
查找在所述第二识别结果中仅对应一个矩形图像区域的参照字符,作为确定参照字符;所述确定参照字符在所述第二识别结果中对应的矩形图像区域为所述确定参照字符的检测区域;
按照以下方式,确定除所述确定参照字符外的任意一个参照字符的检测区域:依据第一位置关系与第二位置关系,确定该参照字符的检测区域,所述第一位置关系为所述确定参照字符的参照区域与该参照字符的参照区域在所述模板图像中的位置关系,所述第二位置关系为所述确定参照字符的检测区域与该参照字符在所述第二识别结果中对应的各个矩形图像区域的位置关系。
可选的,所述参照字符满足以下条件的至少一项:
以所述参照字符为顶点,在所述模板图像上形成的多边形的面积大于预设的阈值;所述参照字符在所述模板图像中具有唯一性;所述参照字符为同一类型表格中共有的字符;
所述参照区域的特征与所述检测区域的特征一致,所述特征包括以下至少一项:形状特征、包括的字符的特征。
可选的,所述模板信息还包括:
参照字符和参照区域的位置信息,所述参照字符为所述参照区域中的字符;
所述获取由模板图像生成的模板信息包括:
接收用户输入的所述模板图像;
基于输入所述感兴趣区域的指令,将所述用户在所述模板图像中框选的区域,作为所述感兴趣区域;
接收用户输入的所述参照字符,并基于所述用户输入参照区域的指令,将所述用户在所述模板图像中框选的区域,作为所述参照区域;
获得所述感兴趣区域和所述参照区域在所述模板图像中的位置信息。
可选的,在所述获得所述参照区域在所述模板图像上的位置信息之后,还包括:
在所述模板图像中识别第一区域,任意一个所述第一区域为所述模板图像中字符识别结果为任意一个所述参照字符的图像区域;
将任意一个所述第一区域的位置信息,作为该第一区域对应的参照字符的参照区域的位置信息。
一种字符识别装置,包括:
获取模块,用于获取由模板图像生成的模板信息,所述模板信息包括感兴趣区域的位置信息;
计算模块,用于计算待识别图像与所述模板图像之间的偏差量;
确定模块,用于依据所述偏差量以及所述感兴趣区域的位置信息,确定所述待识别图像中的待识别区域;
识别模块,用于识别所述待识别区域中的字符。
一种字符识别设备,包括:
存储器和处理器;
所述存储器用于存储一个或多个程序;
所述处理器用于执行所述一个或多个程序,以使得所述字符识别设备实现上述字符识别方法。
一种计算机可读介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述字符识别方法。
本申请所述的字符识别方法及装置,依据待识别图像与模板图像之间的偏差量以及由模板图像生成的感兴趣区域的位置信息,确定待识别图像中的待识别区域,并识别待识别区域中的字符。与现有的从整个待识别图像中识别字符的方式相比,先确定待识别区域,再识别待识别区域中的字符的方式,能够缩小识别的范围,因此,能够减小其它区域中的信息对于识别的影响,所以,具有较高的识别准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种字符识别方法的流程图;
图2为模板图像的示例图;
图3为本申请实施例公开的又一种字符识别方法的流程图;
图4为本申请实施例公开的模板信息的获取界面的示例图;
图5为本申请实施例公开的算缩放比例和偏移距离的流程图;
图6为本申请实施例公开的一种字符识别装置的结构示意图。
具体实施方式
本申请实施例公开的字符识别方法及装置,使用模板信息中的感兴趣区域以及模板图像与待识别图像之间的偏差值,定位待识别图像中的待识别区域,将待识别区域作为OCR的识别对象,而非整个待识别图像,从而有利于提高OCR识别的准确性。
需要说明的是,在本申请的以下实施例中,以表格图像为例进行说明,但本申请公开的字符识别方法及装置,不仅适用于表格图像,还适用于能够使用OCR识别的其它图像。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例公开的一种字符识别方法,包括以下步骤:
S101:获取模板图像。
模板图像可以为用户上传的表格的图像,也可以为预先存储的表格的图像。模板图像具有字符清晰、结构与待识别图像中的表格的结构一致的特征。
S102:获取由模板图像生成的模板信息。
本实施例中,模板信息为感兴趣区域的位置信息。感兴趣区域用于定位待识别图像中的感兴趣字符所占的区域,即待识别区域。
具体的,可以向用户显示模板图像,由用户在模板图像中框选感兴趣区域,将用户框选的操作指令作为获取感兴趣区域的指令,基于该指令,获取用户框选的感兴趣区域的位置信息。
举例说明,感兴趣区域为矩形,其位置信息为:矩形的左上角坐标、矩形的高和矩形的宽。
S103:计算待识别图像与模板图像之间的偏差量。
由于获取图像的方式存在差异性,例如,扫描不同表格的角度和距离的差异,所以待识别图像中的表格相对于模板图像中的表格,可能存在缩放或偏移量,因此,即使模板图像中表格的结构与待识别图像中的表格的结构一致,直接使用模板图像中的感兴趣区域,定位待识别图像中的待识别区域,也会存在偏差,而导致定位到的待识别区域中可能不能精确包括感兴趣字符。所以,有必要确定待识别图像与模板图像之间的偏差量。
具体的,偏差量包括缩放比例、水平方向偏移距离和垂直方向偏移距离。
偏差量的具体计算方法将在以下实施例中说明。或者,也可以使用其它的图像处理算法,计算待识别图像与模板图像之间的偏差量。
S104:依据偏差量以及感兴趣区域的位置信息,确定待识别图像中的待识别区域。
具体的,待识别区域的X坐标=感兴趣区域的X坐标/缩放比例+水平偏移距离,待识别区域的Y坐标=感兴趣区域的Y坐标/缩放比例+垂直偏移距离。
例如:
待识别区域的左上角X坐标=感兴趣区域的左上角X坐标/缩放比例+水平偏移距离。
待识别区域的左上角Y坐标=感兴趣区域的左上角Y坐标/缩放比例+垂直偏移距离。
待识别区域的右下角X坐标=(感兴趣区域的左上角X坐标+感兴趣区域的宽)/缩放比例+水平偏移距离。
待识别区域的右下角Y坐标=(感兴趣区域的左上角Y坐标+感兴趣区域的高)/缩放比例+垂直偏移距离。
S105:使用OCR识别待识别区域中的字符。
可选的,在模板信息中包括感兴趣区域中的感兴趣字符的字段名称的情况下,可以通过待识别区域与感兴趣区域的对应关系,确定识别出的字符的对应的字段名称。
从图1所示的过程,与现有OCR识别将整个图像作为识别对象的方式相比,从待识别图像中划分出待识别区域,能够有效避免非字符信息对于识别的干扰,有利于提高识别的准确性。更为重要的是,在依据模板图像中的感兴趣区域定位待识别图像中的待识别区域的过程中,将待识别图像与模板图像之间的偏差量作为考虑因素,使得得到的待识别区域的位置更为精确,从而从待识别图像中更为精确地得到用户希望的字符,进一步提高识别的准确性。
下面将以图2所示的表格为例,对图1所示的方法进行更为详细的举例说明。
图2为个人求职登记表(未填写的),用户需要将众多已填写的求职登记表中的身份证号、出生日期、毕业院校和参加工作时间各项的具体内容(即各项后对应的单元格中的字符)提取出来,针对该需求的字符识别过程如图3所示,包括以下步骤:
S301:接收用户上传的图2所示的个人求职登记表,作为模板图像。
因为求职登记表的结构相同,所以可以将任意一份(求职者已填写或未填写)求职登记表的扫描图像(或照片)作为模板图像。
S302:获取模板信息。
本实施例中,模板信息包括参照区域的位置信息、参照字符、感兴趣区域的字段名称和感兴趣区域的位置信息。
其中,参照区域为模板图像中包括参照字符的区域,参照字符为参照区域中包括的字符,例如图2中,参照字符为:身份证号、性别、政治面貌和健康状况。参照区域为模板图像中包括上述任意一个参照字符的矩形图像区域(图2中包括参照字符的阴影区域)。需要说明的是,参照区域中不包括除了参照字符之外的其它字符。为了便于描述,将包括任意一个参照字符的参照区域,称为该字符的参照区域。
具体的,可以如图4所示,显示模板信息的获取界面,其中参照字符的获取通道采用输入框的形式,即用户在参照字符的各个输入框中输入参照字符。参照区域的输入通道采用框选形式,即用户在输入一个参照字符例如身份证号后,在模板图像上使用鼠标框选一个包括字符:“身份证号”的矩形区域(矩形区域中不能包括其它字符),并确定框选的矩形区域的位置信息,例如包括左上角的坐标(X,Y)、矩形框的宽度值(W)和矩形框的高度值(H),位置信息显示在相应的参照字符之下。
感兴趣区域的字段名称(表示感兴趣区域中的字符的所属项,图2简称为字段名)也采用输入框的形式,即用户在感兴趣区域的字段名称的各个输入框中输入感兴趣区域的字段名称,例如身份证号、出生日期、毕业院校和工作时间。图2中,感兴趣区域的字段名称表示从感兴趣区域中识别出的字符的所属项。例如,字段名称为“身份证号”的感兴趣区域,在已填写的求职登记表中,该感兴趣区域中填写的是求职者的身份证号(例如数字字符串)。代表身份证号的字符串的所属项为“身份证号”。
感兴趣区域的输入通道也采用框选形式,即用户在模板图像上使用鼠标框选一个矩形区域,框选的矩形区域的位置信息,例如包括左上角的坐标(X,Y)、矩形框的宽度值(W)和矩形框的高度值(H)显示在相应的感兴趣区域的字段名称之下。
以用户需要从已填写的求职登记表中识别出身份证号、出生日期、毕业院校和参加工作时间各项的具体内容(即各项后对应的表格中的字符)为例,用户需要在图2所示的模板图像中框选的感兴趣区域分别为:身份证号、出生日期、毕业院校和参加工作时间单元格各自之后的单元格中的区域。
S303:使用OCR识别模板图像,得到第一识别结果。
通常,OCR将图像中的单行字符识别为矩形图像区域,再识别出矩形区域中的字符,因此,第一识别结果中包括矩形图像区域(已知位置信息)和矩形图像区域中的字符的识别结果。为了便于描述,以下将一个矩形图像区域与其中识别出的字符,称为对应的矩形图像区域与字符。即与字符对应的矩形图像区域为字符识别结果为该字符的矩形图像区域。与矩形图像区域对应的字符为从矩形图像区域中识别出的字符。
S304:使用第一识别结果,修正模板信息中的参照区域的位置信息。
具体的,在第一识别结果中查找第一区域,任意一个第一区域为字符识别结果为任意一个参照字符的矩形图像区域,并将任意一个第一区域的位置信息,作为其对应的参照字符的参照区域的位置信息。
可见,S304的目的为将OCR识别出的参照字段对应的矩形图像区域的位置信息,替换人工框选的参照区域的位置信息。
因为人工框选具有随意性,可能导致后续识别结果的准确性不稳定,而S304能够避免这种不稳定性。
需要说明的是,如果某个参照字符在第一识别结果中没有找到对应的矩形图像区域,则该参照字符的参照区域的位置信息保持不变(即不做修正)。
S305:使用OCR识别待识别图像,得到第二识别结果。
基于上述举例,因为需要得到每份求职登记表中的身份证号、出生日期、毕业院校和参加工作时间各项的具体内容(即各项后对应的单元格中的字符),所以,待识别的图像为每份求职登记表的扫描图像(或照片)。
第二识别结果中包括矩形图像区域(已知位置信息)和矩形图像区域对应的字符。
S306:使用第二识别结果,计算待识别的图像与模板图像的缩放比例和偏移距离。
具体的,计算缩放比例和偏移距离的过程如图5所示,包括:
S3061:对于任意一个参照字符:从第二识别结果中的矩形图像区域中,查找该参照字符对应的矩形图像区域,并将一个找到的区域作为该参照字符的检测区域。
因为参照字符对应的矩形图像区域可能为多个,而检测区域为其中一个,所以,使用以下方式获得检测区域:
1、查找在第二识别结果中仅对应一个矩形图像区域的参照字符,作为确定参照字符。确定参照字符在第二识别结果中对应的矩形图像区域即为确定参照字符的检测区域。
2、使用确定参照字符及其检测区域和参照区域,确定其它任意一个参照字符的检测区域:
在模板图像中,确定参照字符的参照区域与该参照字符的参照区域的水平位置关系,作为参照水平位置关系。其中,水平位置关系可以为左或右。具体的,水平位置关系可以通过水平距离确定:计算确定参照字符的参照区域与该参照字符的参照区域的水平距离,。例如,可以将该参照字符的参照区域左上角x坐标与确定参照字符的参照区域左上角x坐标之间的差值,作为两者之间的水平距离,如果水平距离为正,确定参照字符的参照区域在该参照字符的参照区域的左边,即参照水平位置关系为左。
在待识别图像中,确定参照字符的检测区域与该参照字符在第二识别结果中对应的各个矩形图像区域的水平位置关系,得到多个水平位置关系(该参照字符对应的任意一个矩形图像区域得到一个水平位置关系)。该参照字符对应的多个矩形图像区域中,与确定参照字符的检测区域的水平位置关系与参照水平位置关系唯一相同的矩形图像区域,为该参照字符的检测区域。如果使用水平位置关系得到多个矩形图像区域,则不能确定该参照字符的检测区域。
如果使用水平位置关系得不到该参照字符的检测区域,则使用垂直位置关系进行筛选:在模板图像中,确定参照字符的参照区域与该参照字符的参照区域的垂直位置关系,作为参照垂直位置关系。其中,垂直位置关系可以为上或下。具体的,垂直位置关系可以通过垂直距离确定:计算确定参照字符的参照区域与该参照字符的参照区域的垂直距离,例如,可以将该参照字符的参照区域左上角y坐标与确定参照字符的参照区域左上角y坐标之间的差值,作为两者之间的垂直距离。如果垂直距离为正,确定参照字符的参照区域在该参照字符的参照区域的下边,即参照垂直位置关系为下。该参照字符对应的多个矩形图像区域中,与确定参照字符的检测区域的垂直位置关系与参照垂直位置关系唯一相同的矩形图像区域,为该参照字符的检测区域。需要说明的是,在待识别图像中计算水平(或垂直)距离的规则与在模板图像中使用的计算水平(或垂直)距离的规则相同。
如果使用上述方法得不到某个参照字符的检测区域,则将该参照字符对应的矩形图像区域按照在待识别图像中从上到下、从左到右的顺序排序,并将排序结果中的首个矩形图像区域作为该参照字符的检测区域。
同样的,如果每一个参照字符在第二识别结果中都找不到唯一对应的矩形图像区域,则按照上述排序的方法,确定检测区域。即:对于任意一个参照字符,则将该参照字符对应的矩形图像区域按照在待识别图像中从上到下、从左到右的顺序排序,并将排序结果中的首个矩形图像区域作为该参照字符的检测区域。
S3062:计算所有的参照区域的左边框的中点构成的凸包的面积,作为第一面积值,并计算所有的检测区域的左边框的中点构成的凸包的面积,作为第二面积值。
凸包(convex hull)是指包括特定点的最小凸多边形。本实施例中,所有的参照区域的左边框的中点构成的凸包为:包括所有的参照区域的左边框的中点的最小凸多边形。所有的检测区域的左边框的中点构成的凸包为:包括所有的检测区域的左边框的中点的最小凸多边形。
OCR工具在检测时的算法可能与用户标定参照区域的思路并不一致,例如用户标定时,仅选择了一行固定文字中的前3个字,而OCR工具在检测文字区域时,通常以行为单位,每个矩形均包含一整行文字,所以在计算比例和偏移时,仅选择矩形左侧边的信息作为匹配的参考位置。
进一步的,在标定或检测图像内的字符区域时,目的是包含区域内的字符,因此为了确保字符完全被包含在检测区域内,通常会在字符四周多包含一些非字符区域以提升检测区域的容错性。这些非字符区域的选择通常是随意、无规律的,由于无法确定用户标定或OCR工具检测区域中这些非字符区域的大小,为减少这些区域匹配时造成的误差,使用矩形框的中点作为计算比例和偏移时的参考点。
当然,构成凸包时,也可以使用左上角、左下角等左边框的其它点,只要检测区域与对应的参照区域(对应是指,两者中包括相同的参照字段)的左边框上选择的点的相对位置相同(例如,均为左上角或均为左下角)即可。
S3063:依据第一面积值和第二面积值,确定缩放比例。
具体的,缩放比例=(第一面积值/第二面积值)1/2。
S3064:依据参照区域的位置信息、检测区域的位置信息和缩放比例,计算偏移距离。
具体的,对于任意一个参照字符,计算偏移距离:
中间水平偏移距离=该字符对应的检测区域的左边框中点的x坐标-该字符对应的参照区域的左边框中点的x坐标/缩放比例。
中间垂直偏移距离=该字符对应的检测区域的左边框中点的y坐标-该字符对应的参照区域的左边框中点的y坐标/缩放比例。
对于所有参照字符计算中间偏移距离后,依据所有中间偏移距离,计算最终的偏移距离,例如,从所有水平偏移距离中删除最大值和最小值后,再取剩余的水平偏移距离的平均值,作为最终的水平偏移距离。最终的垂直偏移距离以同样的方法得到。
S307:依据偏差量以及感兴趣区域的位置信息,确定待识别图像中的待识别区域。
按照上述步骤,确定出的待识别的求职登记表中的待识别区域分别为身份证号、出生日期、毕业院校和参加工作时间各项后对应的单元格中包括各项具体字符的区域。
S308:使用OCR识别待识别区域中的字符。
基于上例,将身份证号、出生日期、毕业院校和参加工作时间各项后对应的单元格中的字符提取出来,得到身份证号信息、出生日期信息、毕业院校信息和参加工作时间信息。
图3所示的过程中,用户可以自定义模板图像,并在模板图像上标定包括参照字符的参照区域和感兴趣区域,并可以对参照区域进行修正,在识别过程中,依据参照字符和参照区域,计算待识别图像和模板图像之间的偏差量,并依据偏差量和感兴趣区域,精确确定待识别区域,不仅能够提高字符识别的准确性,还能够提升用户的参与程度,从而用户可以通过感兴趣区域的标定,获得真正感兴趣的字符,而无需再从整个图像的识别结果中进行后续筛选。同时,由于用户可以自定义模板图像,所获取的模板的有效性和针对性较强,也能够避免使用神经网络分析总结模板的超大计算量,从而提高字符识别的效率。
需要说明的是,上述识别过程中反复使用了参照区域与OCR识别出的矩形图像区域(包括检测区域)的对比手段,因此,基于OCR识别矩形图像区域的特点,本实施例中,参照字符需要满足以下条件的至少一项:以参照字符为顶点,在模板图像上形成的多边形的面积大于预设的阈值,具体的,至少设置4个参照字符(顶点小于4的多边形的面积通常不能满足阈值),且参照字符尽量分布在模板图像的四周。参照字符在模板图像中具有唯一性。参照字符为同一类型表格中共有的字符。
参照区域需要满足以下条件的至少一项:参照区域的特征需要与OCR识别出的矩形图像区域的特征(包括形状特征和其中包括的字符的特征)一致,具体的,参照区域为矩形,参照区域中的字符清晰、且需包括在同一类型表格中共有的字符。参照区域中的字符不存在换行。参照区域中的字符从一行字符的起始点开始框选。
基于上述条件,除了用户自定义之外,还可以在用户自定义的模板图像上依据上述条件,自动确定参照字符和参照区域。在此情况下,S303和S304可以跳过。或者,在用户自定义参照字符和参照区域的情况下,可以依据上述条件,判断用户自定义的参照字符和参照区域是否满足要求,如果不满足要求,显示提示信息,提示用户重新定义或选择。
需要说明的是,因为现有的大部分OCR识别技术,从图像中识别出的包括单行字符的图像区域为矩形,所以,上述实施例中,均以矩形区域为例进行说明,但本申请实施例中所述的区域并不限定为矩形,也可以采用其它形状。
图6为本申请实施例公开的一种字符识别装置,包括:获取模块、计算模块、确定模块和识别模块。
其中,获取模块用于获取由模板图像生成的模板信息,所述模板信息包括感兴趣区域的位置信息。计算模块用于计算待识别图像与所述模板图像之间的偏差量。确定模块用于依据所述偏差量以及所述感兴趣区域的位置信息,确定所述待识别图像中的待识别区域。识别模块用于识别所述待识别区域中的字符。
可选的,所述模板信息还包括:参照区域的位置信息和参照字符,所述参照字符为所述参照区域中的字符。所述计算模块计算待识别图像与所述模板图像之间的偏差量的具体实现方式为:从所述待识别图像中识别出每一个参照字符的检测区域,任意一个所述参照字符的检测区域为该参照字符在所述待识别图像中对应的一个图像区域;并依据所述检测区域的位置信息与所述参照区域的位置信息,计算所述计算待识别图像与所述模板图像之间的偏差量。
进一步的,所述计算模块依据所述检测区域的位置信息与所述参照区域的位置信息,计算所述计算待识别图像与所述模板图像之间的偏差量包括:计算第一目标点集中的点构成的凸包的面积,得到第一面积值;所述第一目标点集为从每一个所述参照区域的左边框选取的一个的点构成的集合;计算第二目标点集中的点构成的凸包的面积,得到第二面积值;所述第二目标点集为从每一个所述检测区域的左边框选取的一个的点构成的集合,其中,对应的参照区域与检测区域中选取的点在左边框的相对位置相同;依据所述第一面积值与所述第二面积值,确定所述待识别图像相对于所述模板图像的缩放比例。
其中,可选的,所述第一目标点集为每一个所述参照区域的左边框的中点;所述第二目标点集为每一个所述检测区域的左边框的中点。
进一步的,所述计算模块依据所述检测区域的位置信息与所述参照区域的位置信息,计算所述计算待识别图像与所述模板图像之间的偏差量还包括:依据所述缩放比例、所述检测区域的位置信息与所述参照区域的位置信息,计算所述待识别图像相对于所述模板图像的水平偏移距离和垂直偏移距离。
可选的,所述计算模块从所述待识别图像中识别出每一个参照字符的检测区域包括:识别所述待识别图像,得到第二识别结果,所述第二识别结果包括矩形图像区域和所述矩形图像区域对应的字符;查找在所述第二识别结果中仅对应一个矩形图像区域的参照字符,作为确定参照字符;所述确定参照字符在所述第二识别结果中对应的矩形图像区域为所述确定参照字符的检测区域;按照以下方式,确定除所述确定参照字符外的任意一个参照字符的检测区域:依据第一位置关系与第二位置关系,确定该参照字符的检测区域,所述第一位置关系为所述确定参照字符的参照区域与该参照字符的参照区域在所述模板图像中的位置关系,所述第二位置关系为所述确定参照字符的检测区域与该参照字符在所述第二识别结果中对应的各个矩形图像区域的位置关系。
可选的,所述参照字符满足以下条件的至少一项:以所述参照字符为顶点,在所述模板图像上形成的多边形的面积大于预设的阈值;所述参照字符在所述模板图像中具有唯一性;所述参照字符为同一类型表格中共有的字符;所述参照区域的特征与所述检测区域的特征一致,所述特征包括以下至少一项:形状特征、包括的字符的特征。
可选的,所述模板信息还包括:参照字符和参照区域的位置信息,所述参照字符为所述参照区域中的字符。所述获取模块用于获取由模板图像生成的模板信息的具体实现方式为:接收用户输入的所述模板图像;基于输入所述感兴趣区域的指令,将所述用户在所述模板图像中框选的区域,作为所述感兴趣区域;接收用户输入的所述参照字符,并基于所述用户输入参照区域的指令,将所述用户在所述模板图像中框选的区域,作为所述参照区域;获得所述感兴趣区域和所述参照区域在所述模板图像中的位置信息。
进一步的,所述获取模块还用于:在所述模板图像中识别第一区域,任意一个所述第一区域为所述模板图像中字符识别结果为任意一个所述参照字符的图像区域;将任意一个所述第一区域的位置信息,作为该第一区域对应的参照字符的参照区域的位置信息。
图6所示的字符识别装置,具有较高的识别准确性,进一步的,还能够提升用户的参与程度,并具有较高字符识别的效率。
本申请实施例还公开了一种字符识别设备,包括:存储器和处理器。所述存储器用于存储一个或多个程序。所述处理器用于执行所述一个或多个程序,以使得所述字符识别设备实现上述字符识别方法。
本申请实施例还公开了一种计算机可读介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述字符识别方法。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种字符识别方法,其特征在于,包括:
获取由模板图像生成的模板信息,所述模板信息包括感兴趣区域的位置信息;
计算待识别图像与所述模板图像之间的偏差量;
依据所述偏差量以及所述感兴趣区域的位置信息,确定所述待识别图像中的待识别区域;
识别所述待识别区域中的字符。
2.根据权利要求1所述的方法,其特征在于,所述模板信息还包括:
参照区域的位置信息和参照字符,所述参照字符为所述参照区域中的字符;
所述计算待识别图像与所述模板图像之间的偏差量包括:
从所述待识别图像中识别出每一个参照字符的检测区域,任意一个所述参照字符的检测区域为该参照字符在所述待识别图像中对应的一个图像区域;
依据所述检测区域的位置信息与所述参照区域的位置信息,计算所述计算待识别图像与所述模板图像之间的偏差量。
3.根据权利要求2所述的方法,其特征在于,所述依据所述检测区域的位置信息与所述参照区域的位置信息,计算所述计算待识别图像与所述模板图像之间的偏差量包括:
计算第一目标点集中的点构成的凸包的面积,得到第一面积值;所述第一目标点集为从每一个所述参照区域的左边框选取的一个的点构成的集合;
计算第二目标点集中的点构成的凸包的面积,得到第二面积值;所述第二目标点集为从每一个所述检测区域的左边框选取的一个的点构成的集合,其中,对应的参照区域与检测区域中选取的点在左边框的相对位置相同;
依据所述第一面积值与所述第二面积值,确定所述待识别图像相对于所述模板图像的缩放比例。
4.根据权利要求3所述的方法,其特征在于,所述第一目标点集为每一个所述参照区域的左边框的中点;
所述第二目标点集为每一个所述检测区域的左边框的中点。
5.根据权利要求3所述的方法,其特征在于,所述依据所述检测区域的位置信息与所述参照区域的位置信息,计算所述计算待识别图像与所述模板图像之间的偏差量还包括:
依据所述缩放比例、所述检测区域的位置信息与所述参照区域的位置信息,计算所述待识别图像相对于所述模板图像的水平偏移距离和垂直偏移距离。
6.根据权利要求2所述的方法,其特征在于,所述从所述待识别图像中识别出每一个参照字符的检测区域包括:
识别所述待识别图像,得到第二识别结果,所述第二识别结果包括矩形图像区域和所述矩形图像区域对应的字符;
查找在所述第二识别结果中仅对应一个矩形图像区域的参照字符,作为确定参照字符;所述确定参照字符在所述第二识别结果中对应的矩形图像区域为所述确定参照字符的检测区域;
按照以下方式,确定除所述确定参照字符外的任意一个参照字符的检测区域:依据第一位置关系与第二位置关系,确定该参照字符的检测区域,所述第一位置关系为所述确定参照字符的参照区域与该参照字符的参照区域在所述模板图像中的位置关系,所述第二位置关系为所述确定参照字符的检测区域与该参照字符在所述第二识别结果中对应的各个矩形图像区域的位置关系。
7.根据权利要求2所述的方法,其特征在于,所述参照字符满足以下条件的至少一项:
以所述参照字符为顶点,在所述模板图像上形成的多边形的面积大于预设的阈值;所述参照字符在所述模板图像中具有唯一性;所述参照字符为同一类型表格中共有的字符;
所述参照区域的特征与所述检测区域的特征一致,所述特征包括以下至少一项:形状特征、包括的字符的特征。
8.根据权利要求1所述的方法,其特征在于,所述模板信息还包括:
参照字符和参照区域的位置信息,所述参照字符为所述参照区域中的字符;
所述获取由模板图像生成的模板信息包括:
接收用户输入的所述模板图像;
基于输入所述感兴趣区域的指令,将所述用户在所述模板图像中框选的区域,作为所述感兴趣区域;
接收用户输入的所述参照字符,并基于所述用户输入参照区域的指令,将所述用户在所述模板图像中框选的区域,作为所述参照区域;
获得所述感兴趣区域和所述参照区域在所述模板图像中的位置信息。
9.根据权利要求8所述的方法,其特征在于,在所述获得所述参照区域在所述模板图像上的位置信息之后,还包括:
在所述模板图像中识别第一区域,任意一个所述第一区域为所述模板图像中字符识别结果为任意一个所述参照字符的图像区域;
将任意一个所述第一区域的位置信息,作为该第一区域对应的参照字符的参照区域的位置信息。
10.一种字符识别装置,其特征在于,包括:
获取模块,用于获取由模板图像生成的模板信息,所述模板信息包括感兴趣区域的位置信息;
计算模块,用于计算待识别图像与所述模板图像之间的偏差量;
确定模块,用于依据所述偏差量以及所述感兴趣区域的位置信息,确定所述待识别图像中的待识别区域;
识别模块,用于识别所述待识别区域中的字符。
11.一种字符识别设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储一个或多个程序;
所述处理器用于执行所述一个或多个程序,以使得所述字符识别设备实现权利要求1-9中任一项所述的字符识别方法。
12.一种计算机可读介质,其特征在于,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行权利要求1-9中任一项所述的字符识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810972547.6A CN109145904A (zh) | 2018-08-24 | 2018-08-24 | 一种字符识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810972547.6A CN109145904A (zh) | 2018-08-24 | 2018-08-24 | 一种字符识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109145904A true CN109145904A (zh) | 2019-01-04 |
Family
ID=64827814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810972547.6A Pending CN109145904A (zh) | 2018-08-24 | 2018-08-24 | 一种字符识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145904A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886108A (zh) * | 2019-01-17 | 2019-06-14 | 上海大学 | 一种表单任意区域字符识别与信息录入方法 |
CN110222326A (zh) * | 2019-06-11 | 2019-09-10 | 上海卓繁信息技术股份有限公司 | 一种证照识别模板制作工具 |
CN110263616A (zh) * | 2019-04-29 | 2019-09-20 | 五八有限公司 | 一种文字识别方法、装置、电子设备及存储介质 |
CN111639643A (zh) * | 2020-05-22 | 2020-09-08 | 深圳市赛为智能股份有限公司 | 字符识别方法、装置、计算机设备及存储介质 |
CN111639636A (zh) * | 2020-05-29 | 2020-09-08 | 北京奇艺世纪科技有限公司 | 一种字符识别方法及装置 |
CN111915509A (zh) * | 2020-07-03 | 2020-11-10 | 三峡大学 | 基于图像处理去阴影优化的保护压板状态辨识方法 |
CN112101368A (zh) * | 2020-09-22 | 2020-12-18 | 北京百度网讯科技有限公司 | 一种字符图像处理方法、装置、设备和介质 |
CN112434747A (zh) * | 2020-06-24 | 2021-03-02 | 支付宝实验室(新加坡)有限公司 | 认证方法和系统 |
CN112966537A (zh) * | 2021-02-10 | 2021-06-15 | 北京邮电大学 | 基于二维码定位的表单识别方法及系统 |
CN113111882A (zh) * | 2021-02-24 | 2021-07-13 | 北京邮电大学 | 一种卡证识别方法、装置、电子设备及存储介质 |
CN113191131A (zh) * | 2021-05-10 | 2021-07-30 | 重庆中科云从科技有限公司 | 用于文本识别的表格模板建立方法、文本识别方法、系统 |
CN114267037A (zh) * | 2021-12-27 | 2022-04-01 | 朗森特科技有限公司 | 一种利用ocr图片识别技术归档归类病历检验检查报告 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1063774A (ja) * | 1996-08-16 | 1998-03-06 | Fuji Photo Film Co Ltd | 文字認識装置 |
CN101344925A (zh) * | 2007-07-10 | 2009-01-14 | 富士通株式会社 | 字符识别方法 |
CN101464951A (zh) * | 2007-12-21 | 2009-06-24 | 北大方正集团有限公司 | 图像识别方法及系统 |
CN101859382A (zh) * | 2010-06-03 | 2010-10-13 | 复旦大学 | 一种基于最大稳定极值区域的车牌检测与识别的方法 |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
CN107862303A (zh) * | 2017-11-30 | 2018-03-30 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
US9946946B1 (en) * | 2016-04-08 | 2018-04-17 | Intelligent Security Systems Corporation | Systems and methods for recognizing symbols in images |
CN107977665A (zh) * | 2017-12-15 | 2018-05-01 | 北京科摩仕捷科技有限公司 | 一种发票中关键信息的识别方法及计算设备 |
-
2018
- 2018-08-24 CN CN201810972547.6A patent/CN109145904A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1063774A (ja) * | 1996-08-16 | 1998-03-06 | Fuji Photo Film Co Ltd | 文字認識装置 |
CN101344925A (zh) * | 2007-07-10 | 2009-01-14 | 富士通株式会社 | 字符识别方法 |
CN101464951A (zh) * | 2007-12-21 | 2009-06-24 | 北大方正集团有限公司 | 图像识别方法及系统 |
CN101859382A (zh) * | 2010-06-03 | 2010-10-13 | 复旦大学 | 一种基于最大稳定极值区域的车牌检测与识别的方法 |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
US9946946B1 (en) * | 2016-04-08 | 2018-04-17 | Intelligent Security Systems Corporation | Systems and methods for recognizing symbols in images |
CN107862303A (zh) * | 2017-11-30 | 2018-03-30 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN107977665A (zh) * | 2017-12-15 | 2018-05-01 | 北京科摩仕捷科技有限公司 | 一种发票中关键信息的识别方法及计算设备 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886108A (zh) * | 2019-01-17 | 2019-06-14 | 上海大学 | 一种表单任意区域字符识别与信息录入方法 |
CN110263616A (zh) * | 2019-04-29 | 2019-09-20 | 五八有限公司 | 一种文字识别方法、装置、电子设备及存储介质 |
CN110222326A (zh) * | 2019-06-11 | 2019-09-10 | 上海卓繁信息技术股份有限公司 | 一种证照识别模板制作工具 |
CN111639643B (zh) * | 2020-05-22 | 2023-06-27 | 深圳市赛为智能股份有限公司 | 字符识别方法、装置、计算机设备及存储介质 |
CN111639643A (zh) * | 2020-05-22 | 2020-09-08 | 深圳市赛为智能股份有限公司 | 字符识别方法、装置、计算机设备及存储介质 |
CN111639636A (zh) * | 2020-05-29 | 2020-09-08 | 北京奇艺世纪科技有限公司 | 一种字符识别方法及装置 |
CN112434747A (zh) * | 2020-06-24 | 2021-03-02 | 支付宝实验室(新加坡)有限公司 | 认证方法和系统 |
CN111915509A (zh) * | 2020-07-03 | 2020-11-10 | 三峡大学 | 基于图像处理去阴影优化的保护压板状态辨识方法 |
CN111915509B (zh) * | 2020-07-03 | 2023-12-29 | 北京博电互联能源科技有限公司 | 基于图像处理去阴影优化的保护压板状态辨识方法 |
CN112101368A (zh) * | 2020-09-22 | 2020-12-18 | 北京百度网讯科技有限公司 | 一种字符图像处理方法、装置、设备和介质 |
CN112101368B (zh) * | 2020-09-22 | 2023-08-18 | 北京百度网讯科技有限公司 | 一种字符图像处理方法、装置、设备和介质 |
CN112966537A (zh) * | 2021-02-10 | 2021-06-15 | 北京邮电大学 | 基于二维码定位的表单识别方法及系统 |
CN113111882A (zh) * | 2021-02-24 | 2021-07-13 | 北京邮电大学 | 一种卡证识别方法、装置、电子设备及存储介质 |
CN113191131A (zh) * | 2021-05-10 | 2021-07-30 | 重庆中科云从科技有限公司 | 用于文本识别的表格模板建立方法、文本识别方法、系统 |
CN114267037A (zh) * | 2021-12-27 | 2022-04-01 | 朗森特科技有限公司 | 一种利用ocr图片识别技术归档归类病历检验检查报告 |
CN114267037B (zh) * | 2021-12-27 | 2024-09-06 | 朗森特科技有限公司 | 一种利用ocr图片识别技术归档归类病历检验检查报告 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145904A (zh) | 一种字符识别方法及装置 | |
CN111476227B (zh) | 基于ocr的目标字段识别方法、装置及存储介质 | |
CN110414477B (zh) | 图像比例尺检测方法及装置 | |
CN110084260B (zh) | 一种训练多图案识别和配准工具模型的半监督方法 | |
CN108986152B (zh) | 一种基于差分图像的异物检测方法及装置 | |
CN110796135B (zh) | 目标的定位方法及装置、计算机设备、计算机存储介质 | |
US9626761B2 (en) | Sampling method and image processing apparatus of CS-RANSAC for estimating homography | |
US20120170835A1 (en) | Determining the Uniqueness of a Model for Machine Vision | |
CN111459269A (zh) | 一种增强现实显示方法、系统及计算机可读存储介质 | |
Kataria et al. | Improving structure from motion with reliable resectioning | |
Guo et al. | Exploring GIS knowledge to improve building extraction and change detection from VHR imagery in urban areas | |
CN115937003A (zh) | 图像处理方法、装置、终端设备和可读存储介质 | |
CN106846399B (zh) | 一种获取图像的视觉重心的方法及装置 | |
CN116205889A (zh) | 偏移检测方法、装置、电子设备及存储介质 | |
CN110991357A (zh) | 一种答案匹配方法、装置和电子设备 | |
CN104899551B (zh) | 一种表单图像分类方法 | |
EP2921994A2 (en) | Alignment apparatus, alignment method, and alignment computer program | |
CN110008902B (zh) | 一种融合基本特征和形变特征的手指静脉识别方法及系统 | |
CN109635798A (zh) | 一种信息提取方法及装置 | |
CN116052175A (zh) | 文字检测方法、电子设备、存储介质及计算机程序产品 | |
CN113362380B (zh) | 一种图像特征点检测模型训练方法、装置及其电子设备 | |
CN110210341A (zh) | 基于人脸识别的身份证认证方法及其系统、可读存储介质 | |
CN115147843A (zh) | 文本识别方法、装置、存储介质及计算机设备 | |
CN112308842B (zh) | 一种基于印刷品图像的定位核自动提取方法 | |
WO2022110492A1 (zh) | 指静脉身份识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190104 |
|
RJ01 | Rejection of invention patent application after publication |