CN107122775A - 一种基于特征匹配的安卓手机身份证字符识别方法 - Google Patents

一种基于特征匹配的安卓手机身份证字符识别方法 Download PDF

Info

Publication number
CN107122775A
CN107122775A CN201710195810.0A CN201710195810A CN107122775A CN 107122775 A CN107122775 A CN 107122775A CN 201710195810 A CN201710195810 A CN 201710195810A CN 107122775 A CN107122775 A CN 107122775A
Authority
CN
China
Prior art keywords
image
character
straight line
row
chinese character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710195810.0A
Other languages
English (en)
Inventor
刘宁钟
李志杰
袁鹏泰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201710195810.0A priority Critical patent/CN107122775A/zh
Publication of CN107122775A publication Critical patent/CN107122775A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明公开了一种基于特征匹配的安卓手机身份证字符识别方法,特别是结合欧式距离提取汉字外围特征进行一级区分、提取汉字笔划穿越次数特征进行二级区分、提取汉字网格特征进行最终识别的方法,属于图像处理与字符识别的技术领域。本发明先对采集图像进行预处理,在此基础上使用Hough变换找直线和透视变换分割出目标身份证图像。在分割出的身份证图像上,利用固定的比例坐标,分割出姓名、性别、身份证号的区域图像,对这三个图像分别进行二值化,使用投影法进行字符分割,得到待识别汉字的图像集合。最后对二值化和归一化后的标准字库和待识别汉字图像提取特征,利用特征匹配的方法,完成字符识别。

Description

一种基于特征匹配的安卓手机身份证字符识别方法
技术领域
本发明公开了一种基于特征匹配的安卓手机身份证字符识别方法,特别是结合欧式距离提取汉字外围特征进行一级区分、提取汉字笔划穿越次数特征进行二级区分、提取汉字网格特征进行最终识别的方法,属于图像处理与字符识别的技术领域。
背景技术
目前身份证的信息大多需要人工录入,效率十分低下,而且长时间的识别过程也会使人眼疲劳。所以该方法已经不适应于当今计算机等领域飞速发展的现状。现如今安卓手机在人群中应用广泛,研究安卓手机如何自动读取身份证信息是十分必要的,可以有效地克服人工识别的局限性,且具有识别效率高、识别准确度高的优点。
身份证姓名汉字识别属于印刷体汉字识别的范围。印刷体汉字的识别最早追溯到20世纪60年代。经过这么多年发展,现有的印刷体汉字识别方法有结构模式识别方法、统计模式识别方法、结构模式识别和统计模式识别相结合的方法、人工神经网络方法、仿人视觉的识别方法等。其中,常用的统计模式识别方法有模板匹配、利用变换特征的方法、利用笔画方向特征的方法、利用外围特征的方法、利用特征点特征的方法。
基于特征匹配的安卓手机身份证字符识别是通过对采集的含有身份证的图像进行识别来获取姓名、性别、身份证号等信息。安卓手机身份证字符识别技术主要涉及身份证图像采集,采集图像处理,身份证分割,字符分割,特征提取,特征匹配等步骤。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于特征匹配的安卓手机身份证字符识别方法,解决现有的身份证字符识别方法较为复杂的问题。
技术方案:
一种基于特征匹配的安卓手机身份证字符识别方法,包括步骤:
步骤1:通过安卓手机摄像头采集身份证图像;
步骤2:对步骤1采集的身份证图像进行预处理;然后利用Hough变换检测直线;通过直线找交点,透视变换分割出宽和高的比例在1.49至1.69区间的无背景身份证图像;
步骤3:根据姓名、性别、身份证号三个信息区域在身份证上位置固定,利用比例坐标,分割出以上三个区域图像;
步骤4:对步骤3分割出的三个区域图像分别进行二值化,使用投影法进行字符分割,然后对分割后的字符进行归一化处理;
步骤5:在步骤4的基础上提取待识别姓名汉字图像的特征向量,依次提取汉字外围特征、提取笔划穿越次数特征及提取汉字网格特征,分别提取性别和身份证号两部分图像的网格特征;
步骤6:对标准字库中的汉字、0至9的10个数字和英文字母x的二值图像使用投影法进行字符分割,然后对各字符归一化,进而提取出各字符的特征向量,构成标准字库;
步骤7:根据步骤5提取的待识别图像的特征向量与标准字库中个字符的特征向量的差距大小进行特征匹配,完成字符识别。
所述步骤2中对采集的身份证图像进行预处理,具体为:首先将输入图像按公式GrayValue=(306*R+601*G+117*B)>>10计算各像素的灰度值,然后将灰度图像缩放成像素341*256的图像,再对缩放后的灰度图像进行中值滤波,最后对图像进行自适应Canny边缘检测。
所述步骤2通过直线找交点,透视变换分割出宽和高的比例在1.49至1.69区间的无背景身份证图像具体为:
步骤21:对于Hough变换得到的直线集合,分别对位置在图像上1/5处、下1/5处、左1/5处、右1/5处的直线进行同一条直线的连接处理;具体为:
(1)当一条直线L1在图像右1/5处时,若一条直线L2满足:a.L2倾斜角度与L1夹角在5度以内;b.两条直线列间距在3个像素点以内;c.两条直线行间距在30个像素点以内;d.两条直线的长度均大于7个像素点,则将两条直线连在一起;
(2)当一条直线L3在图像左1/5处时,若一条直线L4满足:a.L4倾斜角度与L3夹角在5度以内;b.两条直线列间距在3个像素点以内;c.两条直线行间距在30个像素点以内;d.两条直线的长度均大于7个像素点,则将两条直线连在一起;
(3)当一条直线L5在图像上1/5处时,若一条直线L6满足:a.L5倾斜角度与L6夹角在5度以内;b.两条直线行间距在3个像素点以内;c.两条直线列间距在30个像素点以内;d.两条直线的长度均大于7个像素点,则将两条直线连在一起;
(4)当一条直线L7在图像下1/5处时,若一条直线L8满足:a.L7倾斜角度与L8夹角在5度以内;b.两条直线行间距在3个像素点以内;c.两条直线列间距在30个像素点以内;d.两条直线的长度均大于7个像素点,则将两条直线连在一起;
步骤22:在连接后的直线集合中,需要找到身份证外围的四条直线;最后由找到的四条直线求出在预处理后图像中身份证的四个顶点坐标,由缩放比例可得在采集图像中身份证四个顶点的坐标,过程如下:
(1)分别在在预处理后图像的上1/5和下1/5内,找到与水平的夹角在0度至20度区间的最长线;
(2)分别在预处理后图像的左1/5和右1/5内,找到与竖直线相交角度在0度到20度区间的最长线;
步骤23:由透视变换,在采集图像中分割出宽和高比例在1.49至1.69区间的无背景身份证图像,并且解决图像因采集而产生的图像畸变问题。
所述投影法字符分割具体过程如下:
(1)先从上到下统计每行像素值为0的像素点个数,找到个数为0的行,如果此时出现连续个数为0的行,则找出连续行的行号的中间值,由此得到分割行的行号其中,行号表示这一行为图像中的第几行;
(2)在姓名区域彩色图像上进行行分割;
(3)对行分割后的二值图,从左到右统计每列像素值为0的像素点个数,找到个数为0的列,如果此时出现连续个数为0的列的列号,则找出连续列的列号的中间值,由此得到分割列的列号;其中,列号表示这一列为图像中的第几列;
(4)在行分割后的姓名区域彩色图像上进行列分割。
所述归一化处理为:
(1)先从上到下统计每行像素值为0的像素点个数,在其中,找出第一个不为0的行号和最后一个不为0的行号;
(2)从左到右统计每列像素值为0的像素点个数,在其中,找出第一个不为0的列号和最后一个不为0的列号;
(3)由(1)(2),在单个字符二值图像中,分割出满足要求的图像:第一行、最后一行,第一列,最后一列像素值为0的像素点个数均不等于0。
提取汉字外围特征具体过程如下:
(1)计算每一行从图像左边缘至第一次遇到黑像素的长度P1i,i=1,2,3...,50;
(2)计算每一行从图像左边缘第一次遇到黑像素结束至第二次遇到黑像素的长度P2i(i=1,2,3...,50);
(3)仿照上述两步,提取其它三个边缘的特征;
(4)根据上述方法可以提取出一个50*2*4=400维的外围特征。
提取笔划穿越次数特征具体提取过程如下:
(1)分别从图像的1/4和3/4处进行水平和垂直穿越,得到一组特征值Ai=(a1,a2,a3,a4),其中,a1,a2分别代表水平方向1/4处和3/4处的穿越次数,a3,a4分别代表垂直方向1/4处和3/4处的穿越次数;
(2)对图像进行水平半穿越,把h上左处到v中上处的笔划穿越次数h1,v中上处到h上右处的笔划穿越次数h2,h下左处到v中下处的笔划穿越次数h3,v中下处到h下右处的笔划穿越次数h4作为一组特征值,A2=(h1,h2,h3,h4);
(3)同理,得到垂直方向上的特征值,即A3=(v1,v2,v3,v4)。其中,v1代表v左上处到h中左处的笔划穿越次数,v2代表h中左处到v左下处的笔划穿越次数,v3代表v右上处到h中右处的笔划穿越次数,v4代表h中右处到v右下处的笔划穿越次数;
(4)最后把这3组向量的组合作为汉字的特征值,即A=(A1,A2,A3)。
提取汉字网格特征具体提取过程如下:
(1)将像素50*50的汉字点阵平均分成5*5;
(2)统计各网格内黑像素的数量Pi,i=1,2,3...,100;
(3)统计整个汉字黑像素的数量SUM;
(4)计算每个网格中黑像素个数占整个汉字黑像素总数的比例Ri,即Ri=Pi/SUM,i=1,2,3...,100,则特征向量(R1,R2...R100)就是该汉字的网格特征。
所述特征向量的差距大小采用欧氏距离衡量;具体特征匹配方法为:在标准字库中,先在汉字外围特征上,找出满足差距阈值的汉字进行一级区分;然后在笔划穿越次数特征上,找出满足差距阈值的汉字进行二级区分;最后利用网格特征,找出距离最小的汉字,即是待识别的汉字。
有益效果:由于结合欧式距离提取汉字外围特征进行一级区分、提取汉字笔划穿越次数特征进行二级区分、提取汉字网格特征进行最终识别,使得身份证汉字识别的效率以及准确率都很高。
附图说明
图1是本发明一种基于特征匹配的安卓手机身份证字符识别方法的算法流程图。
图2是采集的原始图像示意图。
图3是预处理后的图像示意图。
图4是分割出来的无背景身份证图像示意图。
图5是在无背景身份证图像中分割出的姓名区域图像。
图6是在无背景身份证图像中分割出的性别区域图像。
图7是在无背景身份证图像中分割出的身份证号区域图像。
图8是归一化后的一个待识别汉字二值图像示意图。
图9是汉字外围特征示意图。
图10是汉字笔划穿越次数特征示意图。
图11是汉字网格特征示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明的流程如图1所示,包括以下步骤:
步骤1,采集身份证图像。本技术基于Android手机开发。程序自动调节手机摄像头进行自动聚焦以达到最优的扫描、拍摄效果。识别算法支持2种方式的照片来源,分别是手机扫描身份证图像方式和人工拍摄方式。采集的原始图像如图2所示。
步骤2,如图3所示,对采集的身份证图像进行预处理,具体包括以下步骤:
(1)图像灰度化,输入图像为RGB格式,按公式GrayValue=(306*R+601*G+117*B)>>10计算各像素的灰度值;
(2)将灰度图像缩放成像素341*256的图像,这是为了提高处理速度;
(3)对缩放后的灰度图像进行中值滤波,这是一种对图像中很多影响失败率的噪音点进行的平滑去噪处理;
(4)对图像进行自适应Canny边缘检测。
步骤4,利用概率Hough变换来检测直线。
步骤5,对于Hough变换得到的直线集合,因为身份证最外围的四条边会出现同一条直线产生断裂的情况,为了接下来找出这四条线的准确性,需要分别对位置在图像上1/5处、下1/5处、左1/5处、右1/5处的直线进行同一条直线的连接处理,连接过程如下:
(1)当一条直线L1在图像右1/5处时,若一条直线L2满足:a.L2倾斜角度与L1夹角在5度以内;b.两条直线列间距在3个像素点以内;c.两条直线行间距在30个像素点以内;d.两条直线的长度均大于7个像素点,则我们可以将两条直线连在一起;
(2)当一条直线L3在图像左1/5处时,若一条直线L4满足:a.L4倾斜角度与L3夹角在5度以内;b.两条直线列间距在3个像素点以内;c.两条直线行间距在30个像素点以内;d.两条直线的长度均大于7个像素点,则我们可以将两条直线连在一起;
(3)当一条直线L5在图像上1/5处时,若一条直线L6满足:a.L5倾斜角度与L6夹角在5度以内;b.两条直线行间距在3个像素点以内;c.两条直线列间距在30个像素点以内;d.两条直线的长度均大于7个像素点,则我们可以将两条直线连在一起;
(4)当一条直线L7在图像下1/5处时,若一条直线L8满足:a.L7倾斜角度与L8夹角在5度以内;b.两条直线行间距在3个像素点以内;c.两条直线列间距在30个像素点以内;d.两条直线的长度均大于7个像素点,则我们可以将两条直线连在一起。
步骤6,在连接后的直线集合中,需要找到身份证外围的四条直线,寻找过程如下:
(1)分别在在预处理后图像的上1/5和下1/5内,找到与水平的夹角在0度至20度区间的最长线;
(2)分别在预处理后图像的左1/5和右1/5内,找到与竖直线相交角度在0度到20度区间的最长线。
步骤7,由找到的四条直线求出在预处理后图像中身份证的四个顶点坐标,由缩放比例可得在采集图像中身份证四个顶点的坐标。再由透视变换,可在采集图像中分割出宽和高比例在1.49至1.69区间的无背景身份证图像,并且解决图像因采集而产生的图像畸变问题。如图4。
步骤8,根据姓名、性别、身份证号三个信息区域在身份证上位置固定,利用比例坐标,在步骤7分割出的无背景身份证图像上,分割出含有以上三个信息的矩形区域图像,分割后的结果见附图5、附图6和附图7。
步骤9,对分割出来的采集图像上的姓名区域,先灰度化,再大津阈值二值化。
步骤10,对二值化后的姓名区域图像,进行投影法字符分割,将各个字符分割开,具体过程如下:
(1)先从上到下统计每行像素值为0的像素点个数,即统计每行黑色像素点个数,找到个数为0的行的行号(这一行在图像中的第几行),即找到一行全是白色像素点的行号,如果此时出现连续个数为0的行,则找出连续行号的中间值,由此得到分割行的行号,即得到下一步图像水平分割的分割点;
(2)在姓名区域彩色图像上进行行分割;
(3)对行分割后的二值图,从左到右统计每列像素值为0的像素点个数,找到个数为0的列,如果此时出现连续个数为0的列的列号(这一列为图像中的第几列),则找出连续列号的中间值,由此得到分割列的列号;
(4)在行分割后的姓名区域彩色图像上进行列分割,这样就可以得到姓名区域分割出来的彩色字符图像。
步骤11,对姓名区域分割出来的彩色字符图像,进行灰度化和大津阈值二值化;
步骤12,对二值化后的姓名字符和所占的方格进行字符位置和方格大小的归一化处理,处理过程如下:
(1)先从上到下统计每行像素值为0的像素点个数,在其中,找出第一个不为0的行号和最后一个不为0的行号;
(2)从左到右统计每列像素值为0的像素点个数,在其中,找出第一个不为0的列号和最后一个不为0的列号;
(3)由这四个值,在单个字符二值图像中,分割出图像满足:第一行、最后一行,第一列,最后一列像素值为0的像素点个数均不等于0。在此基础上将图像调整成像素50*50的二值图像,如图8。
步骤13,对归一化后的姓名汉字二值图像,提取汉字外围特征,见附图9,具体提取过程如下:
(1)计算每一行从图像左边缘至第一次遇到黑像素的长度P1i(i=1,2,3...,50);
(2)计算每一行从图像左边缘第一次遇到黑像素结束至第二次遇到黑像素的长度P2i(i=1,2,3...,50);
(3)仿照上述两步,提取其它三个边缘的特征(上、右、下);
(4)根据上述方法可以提取出一个50*2*4=400维的外围特征。
步骤14,对归一化后的姓名汉字二值图像,提取笔划穿越次数特征,见附图10,具体提取过程如下:
(1)分别从图像的1/4和3/4处进行水平和垂直穿越,得到一组特征值Ai=(a1,a2,a3,a4),其中,a1,a2分别代表水平方向1/4处和3/4处的穿越次数,a3,a4分别代表垂直方向1/4处和3/4处的穿越次数;
(2)对图像进行水平半穿越,把h上左处到v中上处的笔划穿越次数h1,v中上处到h上右处的笔划穿越次数h2,h下左处到v中下处的笔划穿越次数h3,v中下处到h下右处的笔划穿越次数h4作为一组特征值,A2=(h1,h2,h3,h4);
(3)同理,也可以得到垂直方向上的特征值,即A3=(v1,v2,v3,v4)。其中,v1代表v左上处到h中左处的笔划穿越次数,v2代表h中左处到v左下处的笔划穿越次数,v3代表v右上处到h中右处的笔划穿越次数,v4代表h中右处到v右下处的笔划穿越次数;
(4)最后把这3组向量的组合作为汉字的特征值,即A=(A1,A2,A3)。
步骤15,把待识别汉字二值图像进行大小和位置归一化后,提取汉字网格特征,见附图11,具体提取过程如下:
(1)将像素50*50的汉字点阵平均分成5*5;
(2)统计各网格内黑像素的数量Pi(i=1,2,3...,100);
(3)统计整个汉字黑像素的数量SUM;
(4)计算每个网格中黑像素个数占整个汉字黑像素总数的比例Ri,即Ri=Pi/SUM(i=1,2,3...,100),则特征向量(R1,R2...R100)就是该汉字的网格特征。
步骤16,对含有3764个常用汉字的标准字库,按照上述提取汉字特征的方法挨个提取。其中,标准字库的概念在汉字特征匹配方法中是现有的,但标准字库的内容是不唯一的。
步骤17,将标准字库中的汉字图像与待识别的汉字图像进行特征匹配。标准字库图像与待识别汉字图像之间的对应特征差距使用欧氏距离来衡量。姓名中待识别汉字的特征匹配方法是:在标准字库中,先在汉字外围特征上,找出满足差距阈值的汉字进行一级区分;然后在笔划穿越次数特征上,找出满足差距阈值的汉字进行二级区分;最后利用网格特征,找出距离最小的汉字,即是待识别的汉字。
步骤18,识别性别区域图像,具体过程如下:
(1)对分割出来的性别区域图像,进行预处理,包括:灰度化和大津阈值二值化;
(2)将预处理后的图像,进行归一化处理;
(3)提取预处理、归一化后待识别图像的网格特征;
(4)两张分别含有“男”和“女”字样的归一化后二值图像作为性别识别的训练集,提取它们的网格特征;
(5)在训练集中,利用网格特征,找出距离最小的性别图像,得出性别是男还是女。
步骤19,识别身份证号区域图像,具体过程如下:
(1)对分割出来的身份证号区域图像,进行预处理,包括:灰度化和大津阈值二值化;
(2)利用上述方法,对预处理后的身份证号区域图像,进行字符分割和归一化;
(3)对每一个分割出来的归一化后的身份证号字符二值图像,只提取网格特征,不需要三级区分;
(4)把11张分别含有0至9十个数字和英文字母x的归一化后二值图像作为身份证号识别的训练集,分别提取它们的网格特征;
(5)利用上述性别识别的特征匹配方法,对每个待识别的身份证号字符图像,进行识别。
输出识别结果采用安卓手机端输出。
本发明实施例提供的技术方案,至少有以下技术效果:本发明一种基于特征匹配的安卓手机身份证字符识别方法,由于结合欧式距离提取汉字外围特征进行一级区分、提取汉字笔划穿越次数特征进行二级区分、提取汉字网格特征进行最终识别,使得身份证汉字识别的效率以及准确率都很高。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于特征匹配的安卓手机身份证字符识别方法,其特征在于:包括步骤:
步骤1:通过安卓手机摄像头采集身份证图像;
步骤2:对步骤1采集的身份证图像进行预处理;然后利用Hough变换检测直线;通过直线找交点,透视变换分割出宽和高的比例在1.49至1.69区间的无背景身份证图像;
步骤3:根据姓名、性别、身份证号三个信息区域在身份证上位置固定,利用比例坐标,分割出以上三个区域图像;
步骤4:对步骤3分割出的三个区域图像分别进行二值化,使用投影法进行字符分割,然后对分割后的字符进行归一化处理;
步骤5:在步骤4的基础上提取待识别姓名汉字图像的特征向量,依次提取汉字外围特征、提取笔划穿越次数特征及提取汉字网格特征,分别提取性别和身份证号两部分图像的网格特征;
步骤6:对标准字库中的汉字、0至9的10个数字和英文字母x的二值图像使用投影法进行字符分割,然后对各字符归一化,进而提取出各字符的特征向量,构成标准字库;
步骤7:根据步骤5提取的待识别图像的特征向量与标准字库中个字符的特征向量的差距大小进行特征匹配,完成字符识别。
2.根据权利要求1所述的安卓手机身份证字符识别方法,其特征在于:所述步骤2中对采集的身份证图像进行预处理,具体为:首先将输入图像按公式GrayValue=(306*R+601*G+117*B)>>10计算各像素的灰度值,然后将灰度图像缩放成像素341*256的图像,再对缩放后的灰度图像进行中值滤波,最后对图像进行自适应Canny边缘检测。
3.根据权利要求1所述的安卓手机身份证字符识别方法,其特征在于:所述步骤2通过直线找交点,透视变换分割出宽和高的比例在1.49至1.69区间的无背景身份证图像具体为:
步骤21:对于Hough变换得到的直线集合,分别对位置在图像上1/5处、下1/5处、左1/5处、右1/5处的直线进行同一条直线的连接处理;具体为:
(1)当一条直线L1在图像右1/5处时,若一条直线L2满足:a.L2倾斜角度与L1夹角在5度以内;b.两条直线列间距在3个像素点以内;c.两条直线行间距在30个像素点以内;d.两条直线的长度均大于7个像素点,则将两条直线连在一起;
(2)当一条直线L3在图像左1/5处时,若一条直线L4满足:a.L4倾斜角度与L3夹角在5度以内;b.两条直线列间距在3个像素点以内;c.两条直线行间距在30个像素点以内;d.两条直线的长度均大于7个像素点,则将两条直线连在一起;
(3)当一条直线L5在图像上1/5处时,若一条直线L6满足:a.L5倾斜角度与L6夹角在5度以内;b.两条直线行间距在3个像素点以内;c.两条直线列间距在30个像素点以内;d.两条直线的长度均大于7个像素点,则将两条直线连在一起;
(4)当一条直线L7在图像下1/5处时,若一条直线L8满足:a.L7倾斜角度与L8夹角在5度以内;b.两条直线行间距在3个像素点以内;c.两条直线列间距在30个像素点以内;d.两条直线的长度均大于7个像素点,则将两条直线连在一起;
步骤22:在连接后的直线集合中,需要找到身份证外围的四条直线;最后由找到的四条直线求出在预处理后图像中身份证的四个顶点坐标,由缩放比例可得在采集图像中身份证四个顶点的坐标,过程如下:
(1)分别在在预处理后图像的上1/5和下1/5内,找到与水平的夹角在0度至20度区间的最长线;
(2)分别在预处理后图像的左1/5和右1/5内,找到与竖直线相交角度在0度到20度区间的最长线;
步骤23:由透视变换,在采集图像中分割出宽和高比例在1.49至1.69区间的无背景身份证图像,并且解决图像因采集而产生的图像畸变问题。
4.根据权利要求1所述的安卓手机身份证字符识别方法,其特征在于:所述投影法字符分割具体过程如下:
(1)先从上到下统计每行像素值为0的像素点个数,找到个数为0的行,如果此时出现连续个数为0的行,则找出连续行的行号的中间值,由此得到分割行的行号其中,行号表示这一行为图像中的第几行;
(2)在姓名区域彩色图像上进行行分割;
(3)对行分割后的二值图,从左到右统计每列像素值为0的像素点个数,找到个数为0的列,如果此时出现连续个数为0的列的列号,则找出连续列的列号的中间值,由此得到分割列的列号;其中,列号表示这一列为图像中的第几列;
(4)在行分割后的姓名区域彩色图像上进行列分割。
5.根据权利要求1所述的安卓手机身份证字符识别方法,其特征在于:所述归一化处理为:
(1)先从上到下统计每行像素值为0的像素点个数,在其中,找出第一个不为0的行号和最后一个不为0的行号;
(2)从左到右统计每列像素值为0的像素点个数,在其中,找出第一个不为0的列号和最后一个不为0的列号;
(3)由(1)(2),在单个字符二值图像中,分割出满足要求的图像:第一行、最后一行,第一列,最后一列像素值为0的像素点个数均不等于0。
6.根据权利要求1所述的安卓手机身份证字符识别方法,其特征在于:提取汉字外围特征具体过程如下:
(1)计算每一行从图像左边缘至第一次遇到黑像素的长度P1i,i=1,2,3...,50;
(2)计算每一行从图像左边缘第一次遇到黑像素结束至第二次遇到黑像素的长度P2i(i=1,2,3...,50);
(3)仿照上述两步,提取其它三个边缘的特征;
(4)根据上述方法可以提取出一个50*2*4=400维的外围特征。
7.根据权利要求1所述的安卓手机身份证字符识别方法,其特征在于:提取笔划穿越次数特征具体提取过程如下:
(1)分别从图像的1/4和3/4处进行水平和垂直穿越,得到一组特征值Ai=(a1,a2,a3,a4),其中,a1,a2分别代表水平方向1/4处和3/4处的穿越次数,a3,a4分别代表垂直方向1/4处和3/4处的穿越次数;
(2)对图像进行水平半穿越,把h上左处到v中上处的笔划穿越次数h1,v中上处到h上右处的笔划穿越次数h2,h下左处到v中下处的笔划穿越次数h3,v中下处到h下右处的笔划穿越次数h4作为一组特征值,A2=(h1,h2,h3,h4);
(3)同理,得到垂直方向上的特征值,即A3=(v1,v2,v3,v4)。其中,v1代表v左上处到h中左处的笔划穿越次数,v2代表h中左处到v左下处的笔划穿越次数,v3代表v右上处到h中右处的笔划穿越次数,v4代表h中右处到v右下处的笔划穿越次数;
(4)最后把这3组向量的组合作为汉字的特征值,即A=(A1,A2,A3)。
8.根据权利要求1所述的安卓手机身份证字符识别方法,其特征在于:提取汉字网格特征具体提取过程如下:
(1)将像素50*50的汉字点阵平均分成5*5;
(2)统计各网格内黑像素的数量Pi,i=1,2,3...,100;
(3)统计整个汉字黑像素的数量SUM;
(4)计算每个网格中黑像素个数占整个汉字黑像素总数的比例Ri,即Ri=Pi/SUM,i=1,2,3...,100,则特征向量(R1,R2...R100)就是该汉字的网格特征。
9.根据权利要求1所述的安卓手机身份证字符识别方法,其特征在于:所述特征向量的差距大小采用欧氏距离衡量;具体特征匹配方法为:在标准字库中,先在汉字外围特征上,找出满足差距阈值的汉字进行一级区分;然后在笔划穿越次数特征上,找出满足差距阈值的汉字进行二级区分;最后利用网格特征,找出距离最小的汉字,即是待识别的汉字。
CN201710195810.0A 2017-03-29 2017-03-29 一种基于特征匹配的安卓手机身份证字符识别方法 Pending CN107122775A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710195810.0A CN107122775A (zh) 2017-03-29 2017-03-29 一种基于特征匹配的安卓手机身份证字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710195810.0A CN107122775A (zh) 2017-03-29 2017-03-29 一种基于特征匹配的安卓手机身份证字符识别方法

Publications (1)

Publication Number Publication Date
CN107122775A true CN107122775A (zh) 2017-09-01

Family

ID=59718110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710195810.0A Pending CN107122775A (zh) 2017-03-29 2017-03-29 一种基于特征匹配的安卓手机身份证字符识别方法

Country Status (1)

Country Link
CN (1) CN107122775A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446699A (zh) * 2018-02-08 2018-08-24 东华大学 一种复杂场景下身份证图片信息识别系统
CN108564082A (zh) * 2018-04-28 2018-09-21 苏州赛腾精密电子股份有限公司 图像处理方法、装置、服务器和介质
CN108764240A (zh) * 2018-03-28 2018-11-06 中科博宏(北京)科技有限公司 基于字符相对大小的计算机视觉身份证字符分割识别技术
CN110020655A (zh) * 2019-04-19 2019-07-16 厦门商集网络科技有限责任公司 一种基于二值化的字符去噪方法及终端
CN110287851A (zh) * 2019-06-20 2019-09-27 厦门市美亚柏科信息股份有限公司 一种目标图像定位方法、装置、系统及存储介质
CN110348326A (zh) * 2019-06-21 2019-10-18 安庆师范大学 基于身份证识别和多设备访问的家庭健康信息处理方法
CN110427909A (zh) * 2019-08-09 2019-11-08 杭州有盾网络科技有限公司 一种移动端驾驶证检测方法、系统及电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521569A (zh) * 2011-11-30 2012-06-27 康佳集团股份有限公司 一种智能手机身份证识别方法、系统及手机
CN103488984A (zh) * 2013-10-11 2014-01-01 从兴技术有限公司 基于智能移动设备的二代身份证识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521569A (zh) * 2011-11-30 2012-06-27 康佳集团股份有限公司 一种智能手机身份证识别方法、系统及手机
CN103488984A (zh) * 2013-10-11 2014-01-01 从兴技术有限公司 基于智能移动设备的二代身份证识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘聚宁: "印刷体汉字识别系统研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)计算机软件及计算机应用》 *
宋韧: "基于图像处理和模式识别的身份证识别系统设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)计算机软件及计算机应用》 *
王丽: "基于霍夫变换的证件图像尺寸恢复", 《福建电脑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446699A (zh) * 2018-02-08 2018-08-24 东华大学 一种复杂场景下身份证图片信息识别系统
CN108764240A (zh) * 2018-03-28 2018-11-06 中科博宏(北京)科技有限公司 基于字符相对大小的计算机视觉身份证字符分割识别技术
CN108564082A (zh) * 2018-04-28 2018-09-21 苏州赛腾精密电子股份有限公司 图像处理方法、装置、服务器和介质
CN110020655A (zh) * 2019-04-19 2019-07-16 厦门商集网络科技有限责任公司 一种基于二值化的字符去噪方法及终端
CN110287851A (zh) * 2019-06-20 2019-09-27 厦门市美亚柏科信息股份有限公司 一种目标图像定位方法、装置、系统及存储介质
CN110348326A (zh) * 2019-06-21 2019-10-18 安庆师范大学 基于身份证识别和多设备访问的家庭健康信息处理方法
CN110427909A (zh) * 2019-08-09 2019-11-08 杭州有盾网络科技有限公司 一种移动端驾驶证检测方法、系统及电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN107122775A (zh) 一种基于特征匹配的安卓手机身份证字符识别方法
USRE47889E1 (en) System and method for segmenting text lines in documents
Gatos et al. ICDAR2009 handwriting segmentation contest
Zhou et al. Bangla/English script identification based on analysis of connected component profiles
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
WO2022121039A1 (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN109241894A (zh) 一种基于表格定位和深度学习的针对性票据内容识别系统和方法
Zhang et al. Text detection in natural scene images based on color prior guided MSER
CN103310211B (zh) 一种基于图像处理的填注标记识别方法
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
CN105574531A (zh) 一种基于交点特征提取的数字识别方法
CN106529532A (zh) 一种基于积分特征通道与灰度投影的车牌识别系统
CN103295009B (zh) 基于笔画分解的车牌字符识别方法
CN110969129A (zh) 一种端到端税务票据文本检测与识别方法
CN103577818A (zh) 一种图像文字识别的方法和装置
CN105260751A (zh) 一种文字识别方法及其系统
CN104408449A (zh) 智能移动终端场景文字处理方法
CN109740572A (zh) 一种基于局部彩色纹理特征的人脸活体检测方法
CN105426890A (zh) 一种字符扭曲粘连的图形验证码识别方法
CN106503748A (zh) 一种基于s‑sift特征和svm训练器的车型识别算法
Yan et al. Detection and recognition of text superimposed in images base on layered method
CN107195069A (zh) 一种人民币冠字号自动识别方法
CN106503694A (zh) 基于八邻域特征的数字识别方法
CN105740857A (zh) 一种基于ocr的快速纸笔投票结果自动采集与识别系统
CN110443184A (zh) 身份证信息提取方法、装置及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170901

RJ01 Rejection of invention patent application after publication