CN114332865B

CN114332865B - 一种证件ocr识别方法及系统

Info

Publication number: CN114332865B
Application number: CN202210235254.6A
Authority: CN
Inventors: 刘海龙; 闵刚; 姚占龙
Original assignee: Beijing Ruirong Tianxia Technology Co ltd
Current assignee: Beijing Ruirong Tianxia Technology Co ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-03
Anticipated expiration: 2042-03-11
Also published as: CN114332865A

Abstract

本发明公开了一种证件OCR识别方法及系统，包括：采集证件图像、证件图像预处理、证件图像粗定位、证件图像文本定位、证件图像文本识别、证件图像文本校正；其中，证件图像粗定位，包括：对证件图像进行文本检测，识别筛选出文本区域；对所有文本区域进行裁剪，得到对应的文本图片集；对文本图片集进行逐个识别，将识别结果与预选定基准区域的基准字符串格式进行匹配；选择匹配度最高的图片文本框为基准定位。本发明通过对现有OCR识别方法进行改进，克服边缘检测困难、校正身份证照片倾斜、改善字迹模糊，提高识别率，降低拒识率。

Description

一种证件OCR识别方法及系统

技术领域

本发明涉及图像识别技术领域，具体涉及一种证件OCR识别方法及系统。

背景技术

身份证等证件识别技术使用成熟的OCR文字识别技术，通过手机或者带有摄像头的终端设备对身份证拍照，并对身份证照片做OCR文字识别，提取身份证信息。此技术越来越被广大消费用户认知并使用，不仅集合了身份证识别，还包括驾驶证识别、行驶证识别、护照识别、车牌识别、银行卡号识别、名片识别等集合化的功能。

现有身份证等证件的OCR识别方法，包括：

1.采集身份证等证件图像；

2.证件图像预处理：图像预处理是指对身份证等证件图像进行灰度化、二值化和去噪、纠偏、透视变换等处理，以使身份证图像的质量得到改善，同时保留和增强身份证中纹理和颜色的信息，去除可能影响身份证区域纹理和颜色信息的噪点，为身份证图像定位提供方便；其中，常用的预处理方法包括：图像灰度化、图像灰度拉伸和空域滤波之中值滤波。

3.证件图像粗定位：图像粗定位是指图像经过各种算法的处理后能够清楚地显示出身份证图像区域，同时使图像中的非身份证区域减弱，从而能准确有效地定位出身份证中各个要素在图像中的位置；其中，使用的算法主要有：边缘检测法、数学形态学法、基于纹理分析的定位方法、行检测和边缘统计法、遗传算法、Hough变化和轮廓线法、基于小波变换的方法和神经网络法等；例如，现有专利CN109034165A公开了《一种证件图像的裁切方法、装置、系统及存储介质》，其采用边缘检测法对灰度图像进行边缘线段检测，得到所述灰度图像的边缘线段信息，针对证件边界模糊的情形，上述专利的轮廓检测不准确。

4.证件图像文本定位：图像文本定位是指对身份证中关键文本区域（如姓名、性别、出生日期、民族、住址、有效期等关键要素）进行定位、调整区域尺寸、提取有效图像，并将这些区域从照片中切分出来；例如，现有专利CN109993160B公开了《一种图像矫正及文本与位置识别方法及系统》，其通过检测图片的文字角度来获得旋转角度，同时依据神经网络进行文本识别；其不涉及文本的基准定位，无法实现文本直接识别；现有专利CN111914836A公开了《一种身份证信息提取方法、装置、设备和介质》，其确定身份证号码包含所述每个字符所在区域的子区域，根据所述子区域的边框线与水平线的夹角，对所述身份证图像进行倾斜矫正，其不适用于局部变形等情况下证件的识别；现有专利CN111144400A公开了《一种身份证信息的识别方法、装置、终端设备及存储介质》，其不适用于倾斜、局部变形等情况下证件的识别。

5.证件图像文本识别；图像文本识别是指采用OCR技术对切分出的文本图像进行识别，获得关键要素文本信息；常用的OCR工具有：tesseract，EasyOCR，PaddleOCR。

6.证件图像文本校正：图像文本校正是指对识别出的关键要素，按要素构成规则进行匹配，并进行最大程度纠正；如出生日期需要符合身份证中的日期格式，性别和民族需要匹配相应数据字典，住址需要符合相应国家行政区划标准等。

现有的身份证OCR识别方法在一些小语种国家的商业银行应用于移动银行中，遇到了以下问题：

1.有些用户对身份证做了塑封，证件边界模糊，轮廓检测不准确；

2.身份证质地较薄、易弯曲，身份证拍照在水平和纵深方向倾斜度较大；

3.身份证印刷清晰度不高，磨损度高，关键要素字迹模糊和粘连。

上述问题在常用的身份证OCR技术应用中识别率不高，拒识率高，无法满足商业银行的推广使用。

发明内容

针对现有技术中存在的上述问题，本发明提供一种证件OCR识别方法及系统，通过对现有OCR识别方法进行改进，克服边缘检测困难、校正证件照片倾斜、改善字迹模糊，提高识别率，降低拒识率。

本发明公开了一种证件OCR识别方法，包括：采集证件图像、证件图像预处理、证件图像粗定位、证件图像文本定位、证件图像文本识别、证件图像文本校正；

其中，所述证件图像粗定位，包括：

对证件图像进行文本检测，识别筛选出文本区域；

对所有所述文本区域进行裁剪，得到对应的文本图片集；

对所述文本图片集进行逐个识别，将识别结果与预选定基准区域的基准字符串格式进行匹配；

选择匹配度最高的图片文本框为基准定位。

作为本发明的进一步改进，所述基准区域为证件上固定位置的机器读码区。

作为本发明的进一步改进，采用基于卷积神经网络CNN架构的CRAFT技术对证件图像进行文本检测。

作为本发明的进一步改进，使用OCR工具，采用按行识别模式，对所述文本图片集进行逐个识别。

作为本发明的进一步改进，所述证件图像文本定位，包括：

对预处理后的二值化图像进行逐点像素霍夫变换，探测出图像中各行文本所在的直线；

统计各行文本所在直线的倾斜角度，将最集中的倾斜角度作为整个证件图像的图像倾斜角度；

基于所述图像倾斜角度，旋转得到校正图像和校正基准定位；

基于校正图像和校正基准定位，对各文本框进行定位校正，裁剪得到各文本框图像。

作为本发明的进一步改进，所述统计各行文本所在直线的倾斜角度，将最集中的倾斜角度作为整个证件图像的图像倾斜角度；包括：

从0度开始，按0.1度步进，对所有直线所在角度区间进行计数统计；

获得直线角度最集中的区间，并将该区间对应角度的中间值作为整个证件图像的图像倾斜角度。

作为本发明的进一步改进，所述基于所述图像倾斜角度，旋转得到校正图像和校正基准定位；包括：

根据所述图像倾斜角，获得仿射映射矩阵M；

基于所述仿射映射矩阵M，对原图像进行仿射变换，得到校正图像；

基于所述仿射映射矩阵M，对原图像中的文本框基准定位进行变换，得到校正后的基准定位坐标L。

作为本发明的进一步改进，所述基于校正图像和校正基准定位，对各文本框进行定位校正，裁剪得到各文本框图像；包括：

计算校正后的基准定位坐标L与证件关键要素文本框模板中基准定位的水平、上下偏移量和缩放比例，对证件关键要素文本框模板中各文本框进行定位校正；

根据文本框定位校正结果，对校正后图像进行裁剪，得到各文本框图像。

本发明还公开了一种证件OCR识别系统，包括：

采集模块，用于采集证件图像；

预处理模块，用于证件图像预处理；

粗定位模块，用于证件图像粗定位；

文本定位模块，用于证件图像文本定位；

文本识别模块，用于证件图像文本识别；

文本校正模块，用于证件图像文本校正；

其中，所述粗定位模块，具体用于：

对证件图像进行文本检测，识别筛选出文本区域；

对所有所述文本区域进行裁剪，得到对应的文本图片集；

选择匹配度最高的图片文本框为基准定位。

作为本发明的进一步改进，所述文本定位模块，具体用于：

获得直线角度最集中的区间，并将该区间对应角度的中间值作为整个证件图像的图像倾斜角度；

根据所述图像倾斜角，获得仿射映射矩阵M；

基于所述仿射映射矩阵M，对原图像中的文本框基准定位进行变换，得到校正后的基准定位坐标L；

与现有技术相比，本发明的有益效果为：

本发明采用基准特征文本框定位，解决了证件边缘模糊造成的轮廓检测不准的问题；

本发明采用基准定位校正模板，解决了证件图像倾斜、局部变形等问题。

附图说明

图1为本发明一种实施例公开的证件OCR识别方法的流程图；

图2为图1中证件图像粗定位方法的流程图；

图3为图1中证件图像文本定位方法的流程图；

图4为本发明一种实施例公开的证件OCR识别系统的框架图；

图5为小语种国家的身份证示意图；

图6为采用常规边界检测后定位的文本区域示意图；

图7为采用本发明机读码定位后图像的校正示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下述证件以身份证为例，并结合附图对本发明做进一步的详细描述：

如图1所示，本发明提供一种证件OCR识别方法，包括：

步骤1、采集证件图像；

步骤2、证件图像预处理；

步骤3、证件图像粗定位；

步骤4、证件图像文本定位；

步骤5、证件图像文本识别；

步骤6、证件图像文本校正。

其中，

在证件图像粗定位过程中，针对用户身份证或其它证件做塑封，易造成证件边界模糊的问题；常用的边缘检测法应用于轮廓检测效果不好，主要表现在边缘不闭合、线条不连贯；同时，由于身份证边缘检测结果，将被应用于证件中关键要素文本框的基准定位，因此，其问题的关键在于能否找到新的基准定位。

分析中华人民共和国居民身份证，正面最底部，是18位长串的证件号；海外很多国家身份证正面底部，具有2-3行30位长的机器读码，如图5所示，小语种国家的身份证上包含有照片区（如图5所示的头像框）、信息区（如图5所示的头像框区左侧的多个方框区，其展示有姓名、性别、出生日期、民族、住址、有效期等关键要素）、机器读码区（如图5所示的在照片区和信息区下方3行且每行为30位长的机器读码）。由于身份证上的证件号、机器读码都遵循相应规范，因此其可用于进行格式和数据校验。

基于此，区别于现有OCR识别方法采用的边缘检测技术实现图像粗定位，本发明通过证件基准特征文本框定位实现图像粗定位；以选用图中倒数第二行的机器读码为例，如图2所示，本发明的证件图像粗定位，具体包括：

步骤31、对证件图像进行文本检测，识别筛选出文本区域；其中，上述文本检测的方法可采用基于卷积神经网络CNN架构的CRAFT（Character-Region Awareness For Textdetection）技术实现；

步骤32、对所有文本区域进行裁剪，得到对应的文本图片集；

步骤33、对文本图片集进行逐个识别，将识别结果与预选定基准区域的基准字符串格式进行匹配；其中，文本图片集的识别可使用OCR工具且采用按行识别模式实现，基准区域为证件上固定位置的机器读码区；

步骤34、遍历所有文本图片集后，选择与机器读码区基准字符串格式匹配度最高的图片文本框为基准定位。

进一步，本发明的上述粗定位方法也适用于具有固定位置的机器读码区或基准区的其它证件。

其中，

在文本定位中过程中，基于身份证基准定位，可对证件中各关键要素文本框模板进行预先设定，明确各文本框的相对基准定位的纵横坐标，文本框语言、格式、长度等，便于OCR识别后的文本校正；但由于实际应用中身份证拍照中所存在的倾斜、变形等问题，常用的固定模板无法直接用于文本框裁剪。

基于此，区别于现有采用固定模板实现文本定位，本发明采用基准定位的校正模板实现文本定位；在身份证文字均为印刷体，各行文本平行，所在线性的倾斜角度一致的前提下，本发明统计各行图像中各行文本所在直线的倾斜角度，将最集中的倾斜角度作为整个身份证图像的图像倾斜角度；基于图像倾斜角度，旋转得到校正图像和校正基准定位；基于校正图像和校正基准定位，对各文本框进行定位校正，裁剪得到各文本框图像。

如图3所示，本发明的证件图像文本定位，具体包括：

步骤41、对预处理后的二值化图像进行逐点像素霍夫变换，探测出图像中各行文本所在的直线；

步骤42、从0度开始，按n度步进，对所有直线所在角度区间进行计数统计；其中，0度＜n＜1度，优选n取0.1度；

步骤43、获得直线角度最集中的区间，并将该区间对应角度的中间值作为整个身份证图像的图像倾斜角度；

步骤44、根据图像倾斜角，获得仿射映射矩阵M；

步骤45、基于仿射映射矩阵M，对原图像进行仿射变换，得到校正图像；

步骤46、基于仿射映射矩阵M，对原图像中的文本框基准定位进行变换，得到校正后的基准定位坐标L；

步骤47、计算校正后的基准定位坐标L与证件关键要素文本框模板中基准定位的水平、上下偏移量和缩放比例，对证件关键要素文本框模板中各文本框进行定位校正；

步骤48、根据文本框定位校正结果，对校正后图像进行裁剪，得到各文本框图像。

如图4所示，本发明提供一种证件OCR识别系统，包括：

采集模块，用于采集证件图像；

预处理模块，用于证件图像预处理；

粗定位模块，用于证件图像粗定位，具体用于实现上述步骤31~34；

文本定位模块，用于证件图像文本定位，具体用于实现上述步骤41~48；

文本识别模块，用于证件图像文本识别；

文本校正模块，用于证件图像文本校正。

以图6的倾斜身份证为例：

现有OCR识别方法在步骤3采用边界检测等方法，进行身份证图像粗定位后，进入步骤4进行文本定位。在步骤4，一般采用文本区域位置模板来定位不同文本区域，由于身份证文本与身份证边界存在严重夹角，造成文本区域定位失效，后续的识别步骤将失败；如图6所示的虚线框即为其定位的文本区域。

本发明在步骤3利用卷积神经网络CRAFT进行机器读码区基准定位，获得如图7虚线框所示的机读码“IDKHMO*********<<<<<<<<<<<<<<<”的定位区域。之后，采用霍夫变换，对原身份证图像进行校正和关键文本区域定位，可以正确识别身份证关键要素信息。如：

{

"ocr_status": "normal",

"idNumber": "*********",

"name": "~~~",

"first_name": "~~",

"last_name": "~",

"english_name": "+++ +++",

"gender": "~",

"birth": "######",

"issue_date": "~~~",

"expiry_date": "%%%%%%",

"image": "+++ +++.png"

}

本发明的优点为：

本发明采用基准特征文本框定位，解决了身份证边缘模糊造成的轮廓检测不准的问题；

本发明采用基准定位校正模板，解决了身份证图像倾斜、局部变形等问题。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种证件OCR识别方法，包括：采集证件图像、证件图像预处理、证件图像粗定位、证件图像文本定位、证件图像文本识别、证件图像文本校正；

其特征在于，

所述证件图像粗定位，包括：

对证件图像进行文本检测，识别筛选出文本区域；

对所有所述文本区域进行裁剪，得到对应的文本图片集；

选择匹配度最高的图片文本框为基准定位；

所述证件图像文本定位，包括：

根据所述图像倾斜角，获得仿射映射矩阵M；

2.如权利要求1所述的证件OCR识别方法，其特征在于，所述基准区域为证件上固定位置的机器读码区。

3.如权利要求1所述的证件OCR识别方法，其特征在于，采用基于卷积神经网络CNN架构的CRAFT技术对证件图像进行文本检测。

4.如权利要求1所述的证件OCR识别方法，其特征在于，使用OCR工具，采用按行识别模式，对所述文本图片集进行逐个识别。

5.如权利要求1所述的证件OCR识别方法，其特征在于，所述统计各行文本所在直线的倾斜角度，将最集中的倾斜角度作为整个证件图像的图像倾斜角度；包括：

6.一种证件OCR识别系统，包括：

采集模块，用于采集证件图像；

预处理模块，用于证件图像预处理；

粗定位模块，用于证件图像粗定位；

文本定位模块，用于证件图像文本定位；

文本识别模块，用于证件图像文本识别；

文本校正模块，用于证件图像文本校正；

其特征在于，所述粗定位模块，具体用于：

对证件图像进行文本检测，识别筛选出文本区域；

对所有所述文本区域进行裁剪，得到对应的文本图片集；

选择匹配度最高的图片文本框为基准定位；

所述文本定位模块，具体用于：

根据所述图像倾斜角，获得仿射映射矩阵M；