CN108427946B - 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法 - Google Patents

复杂场景下基于内特征和文本域布局的驾驶证检测识别方法 Download PDF

Info

Publication number
CN108427946B
CN108427946B CN201810218038.4A CN201810218038A CN108427946B CN 108427946 B CN108427946 B CN 108427946B CN 201810218038 A CN201810218038 A CN 201810218038A CN 108427946 B CN108427946 B CN 108427946B
Authority
CN
China
Prior art keywords
image
area
text
vehicle type
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810218038.4A
Other languages
English (en)
Other versions
CN108427946A (zh
Inventor
陈羽中
林洋洋
柯逍
黄腾达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810218038.4A priority Critical patent/CN108427946B/zh
Publication of CN108427946A publication Critical patent/CN108427946A/zh
Application granted granted Critical
Publication of CN108427946B publication Critical patent/CN108427946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种复杂场景下基于内特征和文本域布局的驾驶证检测识别方法,首先用归一化和SSR增强等技术预处理图像,用形态学操作和线段修补对证件中的车型框边框进行修补,通过轮廓检测与过滤得到车型框轮廓,求拟合直线的交点得到车型框顶点,结合标准驾驶证布局得到驾驶证区域图像。然后分析积分投影信息对车型文本区域位置进行精细定位,从它开始,每次找临近的未定位区域进行粗定位和精细定位得到文本区域图像,并在地址栏以上区域进行倾斜校正。最后融合多种方法对文本区域二值化,用专训的文字识别引擎识别文字。该方法快速鲁棒,能准确迅速地识别各种复杂场景下的拍摄出来的图像,具有较好的实用性和较高的应用价值。

Description

复杂场景下基于内特征和文本域布局的驾驶证检测识别方法
技术领域
本发明属于计算机视觉领域,并将其应用至驾驶证识别系统上,具体涉及一种复杂场景下基于内特征和文本域布局的驾驶证检测和识别方法。
背景技术
驾驶证是驾驶者的驾驶资格凭证,通过它可以确定驾驶者的驾驶资格,一直以来在交通执法中都占有重要地位,在交通执法过程中常常需要提取驾驶证中的信息,而如今。而随着社会信用体系的不断发展,驾驶证也已经不仅仅局限在交通执法中使用,同时也作为一种个人信用凭证,被纳入到信用体系中来,因此驾驶证信息录入便成为了一项十分重要的工作。然而传统的人工录入方式效率低且容易出错,同时驾驶证介质本身是不带有信息,录入方式不便。但随着近年来OCR文字识别技术的不断发展,使得通过一般的手持移动拍摄设备如手机等来拍摄驾驶证,然后使用文字识别引擎识别通过计算机视觉技术来从拍摄的图片中获取驾驶证中的文本区域中的文字的方法有了可能性。该种方法操作便捷,设备要求低,能有效简化录入工作,实用性高
但是通过一般手持设备拍摄得到的驾驶证图片经常会存在光照不均证件倾斜和形变等一系列不佳的拍摄效果,而同时处理要快速及时,因此,一种能可靠准确且鲁棒快速的驾驶证识别方法则变得重要了起来。
驾驶证识别是对驾驶证图像素材进行加工处理,属于计算机视觉的范畴,而驾驶证识别技术多是通过从图像中提取证件区域,然后进行版面分析获得文本区域,然后利用文字识别引擎进行文字识别。因此,提供可靠准确且鲁棒快速的驾驶证区域提取、文本区域分析和文字识别方法,是整个证件识别技术中的重中之重。
发明内容
本发明的目的在于提供一种复杂场景下基于内特征和文本域布局的驾驶证检测与识别方法,通过对驾驶证图像进行一系列的处理,能可靠准确且鲁棒快速地对证件图像进行检测与识别。
为实现上述目的,本发明的技术方案是:一种复杂场景下基于内特征和文本域布局的驾驶证检测识别方法,其包括以下步骤:步骤A:对输入的驾驶证图像进行预处理;步骤B:从预处理后的驾驶证图像的预先设定区域中提取车型框的轮廓;步骤C:对步骤B中所获得的车型框轮廓提取驾驶证区域图像,同时对车型文本区域进行粗定位;步骤D:粗定位驾驶证图像中剩余的未定位文本区域;步骤E:对粗定位的文本区域进行精细定位,若还有未定位的文本区域则跳至步骤D;步骤F:对精细定位的文本区域使用OCR识别引擎识别文字。
在本发明一实施例中,在所述步骤A中,对输入图像进行预处理,包括以下步骤:步骤A1:使用双线性插值对图像进行缩放,使图像的尺寸归一化;步骤A2:使用单尺度视网膜增强算法增强图像;步骤A3:通过如下公式对步骤A2所得到的图像进行灰度化;
G=0.299*Sr+0.587Sg+0.114*Sb
其中,Sr、Sg和Sb为图像在RGB颜色空间下各通道的像素值,G为灰度值。
在本发明一实施例中,在所述步骤B中,从预处理后的驾驶证图像的预先设定区域中提取车型框的轮廓,具体包括以下步骤:步骤B1:采用如下公式计算每个像素点的二值化阈值Ts,获得二值化图:
Figure BDA0001599222280000021
其中,gx、gy代表当前要二值化像素的坐标,gi、gj代表当前处理到的坐标,b、c分别代表邻域大小以及减去的固定常量值;G为灰度值;步骤B2:对步骤B1中获得的二值化图使用形态学操作填补小间隙;步骤B3:利用图像中有效线段长度对直线断裂进行修复;步骤B4:对步骤B3所获得的图像使用Satoshi Suzuki算法进行轮廓检测并过滤得到车型框轮廓;如提取失败,则跳转到步骤B1,并选择更小的参数c进行二值化,以获得信息程度更丰富的二值化图像;尝试三次后失败则该张驾驶证图像识别失败。
在本发明一实施例中,所述步骤B3中,利用图像中有效线段长度对直线断裂进行修复,具体包括以下步骤:步骤B31:对步骤B2所获得的图像分别从左到右,从上到下两个方向遍历,取得数量为总行数加总列数的线段信息;步骤B32:对步骤B31获得的每条线段,找到一条有效宽度大于设定好的最小有效宽度的有效像素段;步骤B33:从前一段有效像素段后开始找另一条有效像素段,如果这两条有效像素段中的较小值大于事先设定的最大间距,则将这两段之间的像素设为有效像素,合并两条线段;步骤B34:从后一条线段开始再次执行步骤B33直至线段处理完成。
在本发明一实施例中,所述步骤B4中对检测到的轮廓集进行过滤,具体包括以下步骤:步骤B41:对轮廓使用Douglas-Peucker Line-Simplification算法拟合多边形;步骤B42:过滤拟合多边形顶点个数不是为四的轮廓;步骤B43:过滤拟合四边形面积周长比小于一半标准比例或大于两倍标准比例的轮廓;步骤B44:过滤拟合四边形长宽比小于一半标准比例或者大于1.5倍标准比例的轮廓,其中,四边形的长宽为对边和的均值,较大者作为长;步骤B45:若只剩下一个轮廓,则该轮廓即为车型框轮廓,否则此次车型框轮廓提取失败。
在本发明一实施例中,在所述步骤C中,对步骤B中所获得的车型框轮廓提取驾驶证区域图像,同时对车型文本区域进行粗定位,具体包括以下步骤:步骤C1:按如下公式划分步骤B中得到的车型框轮廓点集得到四条边的点集:
Figure BDA0001599222280000031
其中contour为轮廓点集,k为当前点索引,offset为索引偏移量,d为事先设定的单向最大距离,x、y分别代表横纵坐标,H、V分别代表水平和竖直点集;步骤C2:根据各个点集中首点的坐标大小确定其在四边形中代表的边,然后分别对四个点集用最小二乘法拟合直线;步骤C3:根据步骤C2中拟合得到的四条直线及其代表边的位置信息,分别求出车型框四个顶点的坐标;
步骤C4:利用步骤C3中获得的四个顶点坐标,结合标准驾驶证中车型框在证件中的对应顶点坐标,对步骤A中预处理过的图像进行透视变换,得到证件区域图像的灰度图,同时也将该图像中车型框的位置作为车型文本区域的粗定位。
在本发明一实施例中,在所述步骤D中,粗定位驾驶证图像中剩余的未定位文本区域,具体包括以下步骤:步骤D1:从当前未定位区域中找到离已定位区域中的最近的一个区域作为待定位区域;步骤D2:根据标准驾驶证中的文本区域布局信息,在离待定位区域最近的一个已定位区域上加上设定的横纵坐标偏移量作为粗定位坐标;步骤D3:若当前处理的是地址栏文本区域,则利用该区域对步骤C中提取的驾驶证区域图像进行倾斜校正。同时更新当前区域的粗定位坐标。
在本发明一实施例中,在所述步骤D3中,若当前处理的是地址栏文本区域,则利用该区域对步骤C中提取的驾驶证区域图像进行倾斜校正,具体包括以下步骤:步骤D31:使用Niblack算法对地址栏文本区域灰度图进行二值化;步骤D32:检测轮廓并计算最小外接矩形;步骤D33:使用矩形中点的纵坐标限制、与水平的夹角限制和面积及高限制来过滤矩形集;步骤D34:使用D33中过滤的矩形集里每个矩形的中点集合拟合直线,并求出直线角度;步骤D35:使用D34中的角度对驾驶证区域图像进行旋转校正。
在本发明一实施例中,在所述步骤E中,对粗定位的文本区域进行精细定位,具体包括以下步骤:步骤E1:用以下公式计算粗定位图像中的积分图像II(ix,iy)=Grp(ix,iy)+I(ix-1,iy)+I(ix,iy-1)-I(ix-1,iy-1);其中ix和iy为坐标,Grp粗定位文本区域的灰度图;步骤E2:用以下公式求得各个像素的二值化阈值Ti并二值化:
Figure BDA0001599222280000041
其中,w是局部的区域宽度,Tp是事先设定的百分比阈值;步骤E3:对步骤E2中的二值化图进行形态学操作后水平投影,将其中连续一段投影值大于事先设定的水平投影高度阈值且宽度大于事先设定的水平投影宽度阈值的有效投影区域作为该文本区域的最终行定位区域;步骤E4:对步骤E2中的二值化图先截取步骤E3中定位的区域,然后再进行形态学操作后垂直投影,并从首端开始过滤投影值大于事先设定的垂直投影高度阈值的连续区域;步骤E5:从步骤E4的过滤区域后找到其中连续一段投影值大于事先设定的垂直投影高度阈值且宽度大于事先设定的垂直投影宽度阈值的有效投影区域作为预估边界区域;步骤E6:从预估边界往后找下一个有效投影区域,如果该区域与预估边界间的间隙距离大于事先设定的最大间隙宽度阈值,则将该区域作为预估边界,重复步骤E6;否则,则以当前预估边界加上实现设定的边界偏移量作为最后的左单边界;步骤E7:反向处理步骤E4中的垂直投影信息,定出右单边界;步骤E8:通过步骤E3定位的行定位区域与步骤E6和步骤E7定位出的双边单边界,从图像中提取文本区域图像。
在本发明一实施例中,所述步骤F中,对精细定位的文本区域使用OCR识别引擎识别文字,具体包括以下步骤:步骤F1:二值化文本区域图像;步骤F2:使用OCR识别引擎对二值化的文本区域图像进行识别;所述步骤F1中,二值化文本区域图像,具体包括以下步骤:步骤F11:采用步骤B1中的方法,使用两种不同参数计算二值化阈值,二值化得到二值图Bt1和Bt2;步骤F12:采用Niblack算法使用两种不同参数计算得到二值图Bt3和Bt4;步骤F13:使用OTSU算法得到二值图Bt5;步骤F14:使用两种不同参数对灰度图进行黑帽运算,然后使用OTSU算法二值化,得到二值图Bt6和Bt7;步骤F15:使用如下公式计算每个像素点的得分SCORE:
Figure BDA0001599222280000042
其中,Btm为步骤F11至步骤B4中的二值图,如Bt1和Bt2.weightm为权重,如weight1为Bt1在该方法的权重;当得分大于0.5时,则将像素设为有效像素,否则设为无效像素。
相较于现有技术,本发明具有以下的优点和积极效果:首先本发明证件区域提取采用的是通过检测驾驶证内的车型框然后透视变换得到,由于车型框特征明显与背景有较大区分度,不会被拍摄的驾驶证外的不同背景所影响,所以方法具有较大的鲁棒性,而且透视变换能有效地对驾驶证变形进行校正,同时是从车型框的小区域中处理,处理更加快速。其次,在车型框的检测过程中采用了三段式的检测以及利用形态学操作和线段修补,使得检测鲁棒,容错性高。再者在驾驶证的文本区域检测中,是基于驾驶证布局,从车型框开始每次只定位附近的区域从而逐步粗定位出所有文本区域,然后再进行精细定位吗,这样有针对性的逐步迭代能更精确地进行文本区域定位,而且每次处理时只处理局部的文本区域,操作区域小,耗费时间更少。最后采用了多种二值化方法融合的文本区域二值化,在一定程度上解决了文字笔画的缺失和粘连问题。综上,本发明快速鲁棒,能应用在各种复杂场景下拍摄的驾驶证检测与识别上,有较好的实际应用价值。
附图说明
图1为本发明一种复杂场景下基于内特征和文本域布局的驾证检测和识别方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步解释说明。
图1是本发明的一种复杂场景下基于内特征和文本域布局的驾证检测和识别方法的实现流程图。首先通过尺寸归一化,SSR增强和灰度化对图像进行预处理;其次,将图像二值化后通过形态学操作和线段修复修补图像,再经过轮廓检测和过滤得到车型框轮廓;再者,将轮廓点集进行划分并确定其代表边并拟合直线,通过求直线交点取得车型框顶点,再结合标准驾驶证布局使用透视变换提取证件区域图像,同时得到车型文本区域的粗定位;然后使用不断使用已定位的文本区域,以坐标偏移的方式得到未定位的文本区域,其中在处理地址栏文本区域后使用Niblack二值化图像检测轮廓并求得最小外接矩形并过滤,取得每个矩形中的中点来拟合直线求倾斜角度,旋转图像来做图像的倾斜校正;接着利用图像积分二值化图像,通过形态学操作和分析图像投影信息对文本区域做进一步的精细定位;最后用融合多种方法的二值化方法取得文本区域二值图,并使用专门训练的文字识别引擎对每个文本区域识别得到最后结果。如图1所示,所述方法包括以下步骤:
步骤A:对输入的驾驶证图像进行预处理;
具体的,在所述步骤A中,对输入图像进行预处理,包括以下步骤:
步骤A1:使用双线性插值对图像进行缩放,使图像的尺寸归一化;
步骤A2:使用单尺度视网膜增强算法(Single Scale Retinex)增强图像;
步骤A3:通过如下公式对步骤A2所得到的图像进行灰度化;
G=0.299*Sr+0.587Sg+0.114*Sb
其中,Sr、Sg和Sb为图像在RGB颜色空间下各通道的像素值,G为灰度值。
步骤B:从预处理后的驾驶证图像的预先设定区域中提取车型框的轮廓;
具体的,在所述步骤B中,从预处理后的驾驶证图像的预先设定区域中提取车型框的轮廓,具体包括以下步骤:
步骤B1:采用如下公式计算每个像素点的二值化阈值Ts,获得二值化图;
Figure BDA0001599222280000061
其中,gx、gy代表当前要二值化像素的坐标,gi、gj代表当前处理到的坐标,b、c分别代表邻域大小以及减去的固定常量值。
步骤B2:对步骤B1中获得的二值化图使用形态学操作填补小间隙;
步骤B3:利用图像中有效线段长度对直线断裂进行修复;
具体的,所述步骤B3中,利用图像中有效线段长度对直线断裂进行修复,具体包括以下步骤:
步骤B31:对步骤B2所获得的图像分别从左到右,从上到下两个方向遍历,取得数量为总行数加总列数的线段信息。
步骤B32:对步骤B31获得的每条线段,找到一条有效宽度大于设定好的最小有效宽度的有效像素段。
步骤B33:从前一段有效像素段后开始找另一条有效像素段,如果这两条有效像素段中的较小值大于事先设定的最大间距,则将这两段之间的像素设为有效像素,合并两条线段。
步骤B34:从后一条线段开始再次执行步骤B33直至线段处理完成。
步骤B4:对步骤B3所获得的图像使用Satoshi Suzuki算法进行轮廓检测并过滤得到车型框轮廓。
具体的,所述步骤B4中对检测到的轮廓集进行过滤,具体包括以下步骤:
步骤B41:对轮廓使用Douglas-Peucker Line-Simplification算法拟合多边形。
步骤B42:过滤拟合多边形顶点个数不是为四的轮廓。
步骤B43:过滤拟合四边形面积周长比小于一半标准比例大于两倍标准比例的轮廓。
步骤B44:过滤拟合四边形长宽比小于一般标准比例,大于1.5倍标准比例的轮廓。其中,四边形的长宽为对边和的均值,较大者作为长。
步骤B45:若只剩下一个轮廓,则该轮廓即为车型框轮廓,否则此次车型框轮廓提取失败。
步骤B5:如提取失败,则跳转到步骤B1,在公式中以更小的C参数进行二值化以获得信
息程度更丰富的二值化图像。尝试三次后失败则该张驾驶证图像识别失败。
步骤C:对步骤B中所获得的车型框轮廓提取驾驶证区域图像,同时对车型文本区域进行粗定位;
具体的,在所述步骤C中,对步骤B中所获得的车型框轮廓提取驾驶证区域图像,同时对车型文本区域进行粗定位,具体包括以下步骤:
步骤C1:按如下公式划分步骤B中得到的车型框轮廓点集得到四条边的点集:
Figure BDA0001599222280000071
其中contour为轮廓点集,k为当前点索引,offset为索引偏移量,d为事先设定的单向最大距离,x、y分别代表横纵坐标,H、V分别代表水平和竖直点集。
步骤C2:根据各个点集中首点的坐标大小确定其在四边形中代表的边,然后分别对四个点集用最小二乘法拟合直线。
步骤C3:根据步骤C2中拟合得到的四条直线及其代表边的位置信息,分别求出车型框四个顶点的坐标。
步骤C4:利用步骤C3中获得的四个顶点坐标,结合标准驾驶证中车型框在证件中的对应顶点坐标,对步骤A中预处理过的图像进行透视变换,得到证件区域图像的灰度图。同时也将该图像中车型框的位置作为车型文本区域的粗定位。
步骤D:粗定位驾驶证图像中剩余的未定位文本区域。
具体的,在所述步骤D中,粗定位驾驶证图像中剩余的未定位文本区域,具体包括以下步骤:
步骤D1:从当前未定位区域中找到离已定位区域中的最近的一个区域作为待定位区域。
步骤D2:根据标准驾驶证中的文本区域布局信息,在离待定位区域最近的一个已定位区域上加上设定的横纵坐标偏移量作为粗定位坐标。
步骤D3:若当前处理的是地址栏文本区域,则利用该区域对步骤C中提取的驾驶证区域图像进行倾斜校正。同时更新当前区域的粗定位坐标。
具体的,在所述步骤D3中,若当前处理的是地址栏文本区域,则利用该区域对步骤C中提取的驾驶证区域图像进行倾斜校正,具体包括以下步骤:
步骤D31:使用Niblack算法对地址栏文本区域灰度图进行二值化。
步骤D32:检测轮廓并计算最小外接矩形。
步骤D33:使用矩形中点的纵坐标限制、与水平的夹角限制和面积及高限制来过滤矩形集。
步骤D34:使用D33中过滤的矩形集里每个矩形的中点集合拟合直线,并求出直线角度。
步骤D35:使用D34中的角度对驾驶证区域图像进行旋转校正。
步骤E:对粗定位的文本区域进行精细定位,若还有未定位的文本区域则跳至步骤D;
具体的,在所述步骤E中,对粗定位的文本区域进行精细定位,具体包括以下步骤:
步骤E1:用以下公式计算粗定位图像中的积分图像I:
I(ix,iy)=Grp(ix,iy)+I(ix-1,iy)+I(ix,iy-1)-I(ix-1,iy-1)
其中ix和iy为坐标,Grp粗定位文本区域的灰度图。
步骤E2:用以下公式求得各个像素的二值化阈值Ti并二值化:
Figure BDA0001599222280000081
其中,w是局部的区域宽度,Tp是事先设定的百分比阈值。
步骤E3:对步骤E2中的二值化图进行形态学操作后水平投影,将其中连续一段投影值大于事先设定的水平投影高度阈值且宽度大于事先设定的水平投影宽度阈值的有效投影区域作为该文本区域的最终行定位区域。
步骤E4:对步骤E2中的二值化图先截取步骤E3中定位的区域,然后再进行形态学操作后垂直投影,并从首端开始过滤投影值大于事先设定的垂直投影高度阈值的连续区域。
步骤E5:从步骤E4的过滤区域后找到其中连续一段投影值大于事先设定的垂直投影高度阈值且宽度大于事先设定的垂直投影宽度阈值的有效投影区域作为预估边界区域。
步骤E6:从预估边界往后找下一个有效投影区域,如果该区域与预估边界间的间隙距离大于事先设定的最大间隙宽度阈值,则将该区域作为预估边界,重复步骤E6。否则,则以当前预估边界加上实现设定的边界偏移量作为最后的左单边界。
步骤E7:反向处理步骤E4中的垂直投影信息,定出右单边界。
步骤E8:通过步骤E3定位的行定位区域与步骤E6和步骤E7定位出的双边单边界,从图像中提取文本区域图像。
步骤F:对精细定位的文本区域使用OCR识别引擎识别文字。
具体的,所述步骤F中,对精细定位的文本区域使用OCR识别引擎识别文字,具体包括以下步骤:
步骤F1:二值化文本区域图像。
具体的,所述步骤F1中,二值化文本区域图像,具体包括以下步骤:
步骤F11:采用步骤B1中的方法,使用两种不同参数计算二值化阈值,二值化得到二值图Bt1和Bt2
步骤F12:采用Niblack算法使用两种不同参数计算得到二值图Bt3和Bt4
步骤F13:使用OTSU算法得到二值图Bt5
步骤F14:使用两种不同参数对灰度图进行黑帽运算,然后使用OTSU算法二值化,得到二值图Bt6和Bt7
步骤F15:使用如下公式计算每个像素点的得分SCORE:
Figure BDA0001599222280000091
其中,Btm为步骤F11至步骤B4中的二值图,如Bt1和Bt2.weightm为权重,如weight1为Bt1在该方法的权重。当得分大于0.5时,则将像素设为有效像素,否则设为无效像素。
步骤F2:使用OCR识别引擎对二值化的文本区域图像进行识别。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (6)

1.一种复杂场景下基于内特征和文本域布局的驾驶证检测识别方法,其特征在于:包括以下步骤:
步骤A:对输入的驾驶证图像进行预处理;
步骤B:从预处理后的驾驶证图像的预先设定区域中提取车型框的轮廓;
步骤C:对步骤B中所获得的车型框轮廓提取驾驶证区域图像,同时对车型文本区域进行粗定位;
步骤D:粗定位驾驶证图像中剩余的未定位文本区域;
步骤E:对粗定位的文本区域进行精细定位,若还有未定位的文本区域则跳至步骤D;
步骤F:对精细定位的文本区域使用OCR识别引擎识别文字;
在所述步骤B中,从预处理后的驾驶证图像的预先设定区域中提取车型框的轮廓,具体包括以下步骤:
步骤B1:采用如下公式计算每个像素点的二值化阈值Ts,获得二值化图:
Figure FDA0003210043920000011
其中,gx、gy代表当前要二值化像素的坐标,gi、gj代表当前处理到的坐标,b、c分别代表邻域大小以及减去的固定常量值;G为灰度值;
步骤B2:对步骤B1中获得的二值化图使用形态学操作填补小间隙;
步骤B3:利用图像中有效线段长度对直线断裂进行修复;
步骤B4:对步骤B3所获得的图像使用Satoshi Suzuki算法进行轮廓检测并过滤得到车型框轮廓;
步骤B5:如提取失败,则跳转到步骤B1,并选择更小的参数c进行二值化,以获得信息程度更丰富的二值化图像;尝试三次后失败则该张驾驶证图像识别失败;
在所述步骤C中,对步骤B中所获得的车型框轮廓提取驾驶证区域图像,同时对车型文本区域进行粗定位,具体包括以下步骤:
步骤C1:按如下公式划分步骤B中得到的车型框轮廓点集得到四条边的点集:
Figure FDA0003210043920000012
其中contour为轮廓点集,k为当前点索引,offset为索引偏移量,d为事先设定的单向最大距离,x、y分别代表横纵坐标,H、V分别代表水平和竖直点集;
步骤C2:根据各个点集中首点的坐标大小确定其在四边形中代表的边,然后分别对四个点集用最小二乘法拟合直线;
步骤C3:根据步骤C2中拟合得到的四条直线及其代表边的位置信息,分别求出车型框四个顶点的坐标;
步骤C4:利用步骤C3中获得的四个顶点坐标,结合标准驾驶证中车型框在证件中的对应顶点坐标,对步骤A中预处理过的图像进行透视变换,得到证件区域图像的灰度图,同时也将该图像中车型框的位置作为车型文本区域的粗定位;
在所述步骤D中,粗定位驾驶证图像中剩余的未定位文本区域,具体包括以下步骤:
步骤D1:从当前未定位区域中找到离已定位区域中的最近的一个区域作为待定位区域;
步骤D2:根据标准驾驶证中的文本区域布局信息,在离待定位区域最近的一个已定位区域上加上设定的横纵坐标偏移量作为粗定位坐标;
步骤D3:若当前处理的是地址栏文本区域,则利用该区域对步骤C中提取的驾驶证区域图像进行倾斜校正;同时更新当前区域的粗定位坐标;
在所述步骤E中,对粗定位的文本区域进行精细定位,具体包括以下步骤:
步骤E1:用以下公式计算粗定位图像中的积分图像I:
I(ix,iy)=Grp(ix,iy)+I(ix-1,iy)+I(ix,iy-1)-I(ix-1,iy-1);
其中ix和iy为坐标,Grp粗定位文本区域的灰度图;
步骤E2:用以下公式求得各个像素的二值化阈值Ti并二值化:
Figure FDA0003210043920000021
其中,w是局部的区域宽度,Tp是事先设定的百分比阈值;
步骤E3:对步骤E2中的二值化图进行形态学操作后水平投影,将其中连续一段投影值大于事先设定的水平投影高度阈值且宽度大于事先设定的水平投影宽度阈值的有效投影区域作为该文本区域的最终行定位区域;
步骤E4:对步骤E2中的二值化图先截取步骤E3中定位的区域,然后再进行形态学操作后垂直投影,并从首端开始过滤投影值大于事先设定的垂直投影高度阈值的连续区域;
步骤E5:从步骤E4的过滤区域后找到其中连续一段投影值大于事先设定的垂直投影高度阈值且宽度大于事先设定的垂直投影宽度阈值的有效投影区域作为预估边界区域;
步骤E6:从预估边界往后找下一个有效投影区域,如果该区域与预估边界间的间隙距离大于事先设定的最大间隙宽度阈值,则将该区域作为预估边界,重复步骤E6;否则,则以当前预估边界加上实现设定的边界偏移量作为最后的左单边界;
步骤E7:反向处理步骤E4中的垂直投影信息,定出右单边界;
步骤E8:通过步骤E3定位的行定位区域与步骤E6和步骤E7定位出的双边单边界,从图像中提取文本区域图像。
2.根据权利要求1所述的复杂场景下基于内特征和文本域布局的驾驶证检测识别方法,其特征在于:在所述步骤A中,对输入图像进行预处理,包括以下步骤:
步骤A1:使用双线性插值对图像进行缩放,使图像的尺寸归一化;
步骤A2:使用单尺度视网膜增强算法增强图像;
步骤A3:通过如下公式对步骤A2所得到的图像进行灰度化;
G=0.299*Sr+0.587Sg+0.114*Sb
其中,Sr、Sg和Sb为图像在RGB颜色空间下各通道的像素值,G为灰度值。
3.根据权利要求1所述的复杂场景下基于内特征和文本域布局的驾驶证检测识别方法,其特征在于:所述步骤B3中,利用图像中有效线段长度对直线断裂进行修复,具体包括以下步骤:
步骤B31:对步骤B2所获得的图像分别从左到右,从上到下两个方向遍历,取得数量为总行数加总列数的线段信息;
步骤B32:对步骤B31获得的每条线段,找到一条有效宽度大干设定好的最小有效宽度的有效像素段;
步骤B33:从前一段有效像素段后开始找另一条有效像素段,如果这两条有效像素段中的较小值大于事先设定的最大间距,则将这两段之间的像素设为有效像素,合并两条线段;
步骤B34:从后一条线段开始再次执行步骤B33直至线段处理完成。
4.根据权利要求1所述的复杂场景下基于内特征和文本域布局的驾驶证检测识别方法,其特征在于:所述步骤B4中对检测到的轮廓集进行过滤,具体包括以下步骤:
步骤B41:对轮廓使用Douglas-Peucker Line-Simplification算法拟合多边形;
步骤B42:过滤拟合多边形顶点个数不是为四的轮廓;
步骤B43:过滤拟合四边形面积周长比小于一半标准比例或大于两倍标准比例的轮廓;
步骤B44:过滤拟合四边形长宽比小于一半标准比例或者大于1.5倍标准比例的轮廓,其中,四边形的长宽为对边和的均值,较大者作为长;
步骤B45:若只剩下一个轮廓,则该轮廓即为车型框轮廓,否则此次车型框轮廓提取失败。
5.根据权利要求1所述的复杂场景下基于内特征和文本域布局的驾驶证检测识别方法,其特征在于:在所述步骤D3中,若当前处理的是地址栏文本区域,则利用该区域对步骤C中提取的驾驶证区域图像进行倾斜校正,具体包括以下步骤:
步骤D31:使用Niblack算法对地址栏文本区域灰度图进行二值化;
步骤D32:检测轮廓并计算最小外接矩形;
步骤D33:使用矩形中点的纵坐标限制、与水平的夹角限制和面积及高限制来过滤矩形集;
步骤D34:使用D33中过滤的矩形集里每个矩形的中点集合拟合直线,并求出直线角度;
步骤D35:使用D34中的角度对驾驶证区域图像进行旋转校正。
6.根据权利要求1所述的复杂场景下基于内特征和文本域布局的驾驶证检测识别方法,其特征在于:
所述步骤F中,对精细定位的文本区域使用OCR识别引擎识别文字,具体包括以下步骤:
步骤F1:二值化文本区域图像;
步骤F2:使用OCR识别引擎对二值化的文本区域图像进行识别;
所述步骤F1中,二值化文本区域图像,具体包括以下步骤:
步骤F11:采用步骤B1中的方法,使用两种不同参数计算二值化阈值,二值化得到二值图Bt1和Bt2
步骤F12:采用Niblack算法使用两种不同参数计算得到二值图Bt3和Bt4
步骤F13:使用OTSU算法得到二值图Bt5
步骤F14:使用两种不同参数对灰度图进行黑帽运算,然后使用OTSU算法二值化,得到二值图Bt6和Bt7
步骤F15:使用如下公式计算每个像素点的得分SCORE:
Figure FDA0003210043920000041
其中,Btm为步骤F11至步骤F14 中的二值图,Bt1和Bt2的weightm为权重,weight1为Bt1在该方法的权重;当得分大于0.5时,则将像素设为有效像素,否则设为无效像素。
CN201810218038.4A 2018-03-16 2018-03-16 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法 Active CN108427946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810218038.4A CN108427946B (zh) 2018-03-16 2018-03-16 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810218038.4A CN108427946B (zh) 2018-03-16 2018-03-16 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法

Publications (2)

Publication Number Publication Date
CN108427946A CN108427946A (zh) 2018-08-21
CN108427946B true CN108427946B (zh) 2021-11-26

Family

ID=63158300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810218038.4A Active CN108427946B (zh) 2018-03-16 2018-03-16 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法

Country Status (1)

Country Link
CN (1) CN108427946B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241962A (zh) * 2018-08-30 2019-01-18 云南电网有限责任公司普洱供电局 一种字符识别方法及装置
CN110097054A (zh) * 2019-04-29 2019-08-06 济南浪潮高新科技投资发展有限公司 一种基于图像投影变换的文本图像纠偏方法
CN110132823A (zh) * 2019-05-15 2019-08-16 林伟阳 一种基于模板匹配与查找轮廓的细胞计数方法
CN110245632A (zh) * 2019-06-20 2019-09-17 浙江键能供应链管理有限公司 一种基于ocr文字识别的司机管理系统
CN110363196B (zh) * 2019-06-20 2022-02-08 吴晓东 一种倾斜文本的文字精准识别的方法
CN110427909B (zh) * 2019-08-09 2023-04-28 连连银加信息技术有限公司 一种移动端驾驶证检测方法、系统及电子设备和存储介质
CN111260675B (zh) * 2020-01-21 2022-07-05 武汉大学 一种图像真实边界高精度提取方法及系统
CN111553344B (zh) * 2020-04-17 2023-05-12 携程旅游信息技术(上海)有限公司 文本图像的倾斜校正方法、系统、设备和存储介质
CN113033540B (zh) * 2021-04-14 2024-08-02 易视腾科技股份有限公司 场景文字的轮廓拟合和校正方法、电子设备及存储介质
CN114283431B (zh) * 2022-03-04 2022-06-28 南京安元科技有限公司 一种基于可微分二值化的文本检测方法
CN118505692B (zh) * 2024-07-18 2024-10-11 辽宁亿金电子有限公司 一种电容器缺陷检测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488984A (zh) * 2013-10-11 2014-01-01 从兴技术有限公司 基于智能移动设备的二代身份证识别方法及装置
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN106156712A (zh) * 2015-04-23 2016-11-23 信帧电子技术(北京)有限公司 一种基于自然场景下的身份证号码识别方法与装置
CN106407980A (zh) * 2016-11-03 2017-02-15 贺江涛 一种基于图像处理的银行卡号码识别方法
CN107563377A (zh) * 2017-08-30 2018-01-09 江苏实达迪美数据处理有限公司 一种利用边缘和文字区域的证件关键区域检测定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488984A (zh) * 2013-10-11 2014-01-01 从兴技术有限公司 基于智能移动设备的二代身份证识别方法及装置
CN106156712A (zh) * 2015-04-23 2016-11-23 信帧电子技术(北京)有限公司 一种基于自然场景下的身份证号码识别方法与装置
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN106407980A (zh) * 2016-11-03 2017-02-15 贺江涛 一种基于图像处理的银行卡号码识别方法
CN107563377A (zh) * 2017-08-30 2018-01-09 江苏实达迪美数据处理有限公司 一种利用边缘和文字区域的证件关键区域检测定位方法

Also Published As

Publication number Publication date
CN108427946A (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
CN108427946B (zh) 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法
Wei et al. Multi-vehicle detection algorithm through combining Harr and HOG features
CN109784344B (zh) 一种用于地平面标识识别的图像非目标滤除方法
CN107066933B (zh) 一种道路标牌识别方法及系统
CN109886896B (zh) 一种蓝色车牌分割与矫正方法
Greenhalgh et al. Recognizing text-based traffic signs
CN109145915B (zh) 一种复杂场景下车牌快速畸变矫正方法
CN103116751B (zh) 一种车牌字符自动识别方法
CN105373794B (zh) 一种车牌识别方法
Ashtari et al. An Iranian license plate recognition system based on color features
CN101334836B (zh) 一种融合色彩、尺寸和纹理特征的车牌定位方法
CN109726717B (zh) 一种车辆综合信息检测系统
US8582819B2 (en) Methods and systems for improving yield in wanted vehicle searches
CN105488492B (zh) 一种彩色图像预处理方法、道路识别方法及相关装置
CN105005766B (zh) 一种车身颜色识别方法
CN103034848B (zh) 一种表单类型的识别方法
CN107301405A (zh) 自然场景下的交通标志检测方法
CN109034145B (zh) 基于OpenCV的银行卡号识别方法
CN106815583B (zh) 一种基于mser和swt相结合的夜间车辆车牌定位方法
Tian et al. A two-stage character segmentation method for Chinese license plate
Yang et al. A novel approach for license plate character segmentation
CN104200210A (zh) 一种基于部件的车牌字符分割方法
CN103413119A (zh) 基于人脸稀疏描述子的单样本人脸识别方法
CN104680130A (zh) 一种身份证汉字识别方法
CN106874901B (zh) 一种行驶证识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant