CN107622268A - 一种身份证字符分割的方法 - Google Patents
一种身份证字符分割的方法 Download PDFInfo
- Publication number
- CN107622268A CN107622268A CN201710858247.0A CN201710858247A CN107622268A CN 107622268 A CN107622268 A CN 107622268A CN 201710858247 A CN201710858247 A CN 201710858247A CN 107622268 A CN107622268 A CN 107622268A
- Authority
- CN
- China
- Prior art keywords
- image
- card
- chinese character
- boundary
- floor projection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种身份证字符分割方法。首先通过专用设备采集身份证图像,再对身份证图像中的黑色字体采用二值化阈值随图像底色的变化而变化的二值化处理方式,得到二值图像,并将反向的二值图像旋转180度得到正向的二值图像;然后,对二值图像做水平投影,基于水平投影结果获取身份证号码部分的上下边界,对身份证号码图像做垂直投影,基于垂直投影得到号码的左右边界,以及每个号码的位置;并基于汉字部分与号码部分的对应位置关系,得到汉字部分的左、右边界,从而基于汉字部分图像的水平投影,垂直投影得到姓名、民族和家庭地址部分的单个字符的分割。本发明用于提取身份信息的字符分割,其分割准确,且成本开销低。
Description
技术领域
本发明属于数字图像处理领域,主要涉及身份证识别、OCR领域。
背景技术
二代身份证是确认中华人民共和国公民身份的重要证件,通过身份证信息,可以唯一地找到现实生活中的一个人。很多场合的出入都需要登记当事人的身份证信息。
身份证信息读取器是一种已经成熟的可靠的可读身份证信息的设备。它能够判断二代身份证的真伪,在读取信息以后,可以显示身份证内姓名、身份证号、照片等一切信息。功能强大的身份证读取器同时意味着它的成本开销极大,一套廉价的身份证识别系统的需求呼之欲出。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种处理成本开销小的身份证字符分割方法,且分割准确度高。
本发明的身份证字符分割方法包括下列步骤:
通过专用设备采集身份证图像,所述专用设备包括采集槽、摄像单元,其中放置身份证的采集槽的尺寸与身份证的尺寸相当,摄像单元位于采集槽的下方;
对身份证图像中的黑色字体采用二值化阈值随图像底色的变化而变化的二值化处理方式,得到二值图像;
对二值图像进行正反检测,若检测检测结果为反向,则旋转180度,其中正反检测具体为:对所述二值图像做形态学处理,使得在同一水平高度的字会被连通成为一个连通区域,若最长的连通区域位于检测图像的左上角区域,则检测图像为反向;若在右下角区域,则检测图像为正向;
正反检测后的二值图像做水平投影,基于水平投影结果获取身份证号码部分的上下边界;并切割得到身份证号码图像,对所述身份证号码图像做垂直投影,基于垂直投影得到号码的左右边界,以及每个号码的位置;
基于号码左右边界得到号码长度L,并基于倒数第10个数字的位置得到汉字部分的右边界,基于汉字部分的边长为0.82L,得到汉字部分的左边界,并切割得到汉字部分图像;
对所述汉字部分图像进行水平投影,得到姓名、民族和家庭地址部分的上下边界,并切割得到姓名部分图像、民族部分图像和家庭地址部分图像,再分别各部分做垂直投影,完成各部分的单个字符的分割。
为了进一步提升采集图像的精准度,在采集槽长边设置挡光条,则采集的身份证图像的上下呈现两条挡光黑边;故需要对其进行上下切片处理后,再执行分割处理,其中上下切片处理具体为:
对水平投影值从上往下检索,当第i行的水平投影值低于预设阈值Tth时,则将第i(或i+k)行作为二值图像的上边界;对水平投影值从下往上检索,当第j行的水平投影值低于预设阈值Tth时,取第j(或j-k)行为二值图像的下边界。
综上所述,由于采用了上述技术方案,本发明的有益效果是:对身份证信息的字符分割准确,且成本开销低。
附图说明
图1是具体实施方式的处理系统结构示意图;
图2是采集图像示意图;
图3是预处理后的图像的水平投影示意图;
图4是字符边界标示图;
图5身份证号码区域的垂直投影图;
图6汉字部分的分离示意图;
图7汉字部分的水平投影图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
参见图1,本发明的处理系统包括采集槽、摄像单元和图像处理单元,其中放置身份证的采集槽的尺寸与身份证的尺寸相当,摄像单元位于采集槽的下方,用于采集所放置的身份证的图像,并将采集的身份证图像发送给图像处理单元进行字符分割的处理。例如将采集槽设置为透明带轻微凹陷区域的平台,所述凹陷区域的尺寸和身份证的尺寸大致相当;凹陷区域的下方设置摄像头和补光灯,为了保障所拍摄的图像质量,在在凹陷区域的上下边界分别设置黑色的挡光边,即在凹陷区域较长的两条边上设置挡光边。由于凹陷区域和身份证大小几乎一致,每次由摄像头获取的图像质量稳定可靠,获取图像大致如图2所示,整个身份证正面信息包揽其中,上下稳定地呈现两条挡光黑边。
图像预处理:因黑边和字符的颜色十分接近(都是黑色),为了排除对后续的分割处理的影响,需要将这两条黑边切除。图像切边的步骤具体为:
①二值化图像:对身份证图像中颜色为黑色的字进行二值化处理,不对蓝色的字进行二值化的原因在于:身份证两边的底色为蓝色,中间为红色,因此蓝色的字对于底色的对比度是不稳定的。二值化图像首先要计算图像的灰度图,得到灰度图后能够发现身份证的底色是变化的,因此不适合采用固定阈值的方法二值化图像。本发明中,采用二值化阈值随图像底色的变化而变化的二值化处理方式,例如wolfjolion的二值化算法(具体可参考文献“Extraction and recognition of artificial text in multimedia documents”),从而能够很好地分离出底色和字的颜色。
②上下切边:因为图像的上下两条黑边的颜色的和字体的颜色一致,导致上下黑边也会被当作字体分割出来,因此需要切掉上下两条黑边。对黑边的切割采用的是对二值图做水平投影的方法。上边界的确定:水平投影值从上往下检索,当第i行的水平投影值低于某个预设阈值Tth时,则认为当前行为黑边的上边界,为了确保边界的定位精度,取第i+k行作为身份证图像的上边界,k为经验值,例如k=5。同理,身份证图像的下边界确定过程为:水平投影值从下往上检索,当第j行的水平投影值低于阈值Tth时,取第j-k行为身份证图像的下边界。从而得到切割好的身份证图像(二值图),如图4所示的二值图。
检测身份证正反:因采集到的图像可能为图2所示的两情情况。因此检测身份证是否被正向放置是很必要的。如果身份证没有被正向放置,本发明可以自动调整,使放反的身份证旋转180度,变为正向放置。本发明的正反检测原理为:检测身份证号所在位置,确定身份证是否被放反。因为,当身份证正向放置时,身份证号码的位置在图像的右下角,被放反时在左上角,而身份证号码又是最长的一串连续有字符的区域。具体操作可以分为以下几步:
①对二值化后的图像做形态学处理,使得在同一水平高度的字会被连通成为一块。这时身份证号码区域将会成为最长的连通区域。
②检测图像的左上角区域和右下角区域,如果最长连通区域位于右下角,则说明身份证防止正确。反之,说明身份证放反,使图像旋转180度。
分割出图像的号码部分和汉字部分:因整个身份证中特征最明显、字体最粗、颜色最黑的部分是身份证号码部分。因此可以利用该特征先将号码检测出来,同时,身份证号位置和汉字的位置其实是有关联的,所以又可以把汉字区域分割出来。具体操作如下:
①求图像的水平投影,用于判断身份证号码所在的行。经过图像的正反检测后,身份证号码所在位置为图像最下方,所以水平投影后,自下而上检测,一次检测到水平投影值连续较大的行就是身份证号码所在行,如图3所示。
②把身份证号码所在行的二值图像切割出来,做垂直投影,如图5所示。再利用垂直投影信息逐个检测每个数字所在具体位置。并基于身份证号码的倒数第10个数字的位置得到汉字部分的右边界,因为倒数第10个数字的位置所在的列正好是图像中存在汉字的右边界,参见图4。另外,在同一幅图片中,汉字所在位置的宽度为号码部分的长度的0.82,利用这个长度信息和汉字的右边界,可以推算出汉字的左边界。
③经过上述步骤,得到6个信息:汉字部分的左右边界、身份证号码部分的上下边界和左右边界,则可以利用所得到的6个信息将图像的身份证号码部分和汉字部分分别切割出来。
汉字部分分割:切割出汉字部分如图6所示,包括了姓名、性别、民族、出生日期和家庭住址。在对这些信息进行分割处理时,因性别和出生日期的信息包含在身份证号码中,故只需要对姓名、民族、家庭地址进行分割:先对其进行水平投影,得到如图7所示的各部分的水平投影图,然后将姓名、民族和家庭地址从文字部分图像分别切割出来;再分别对各部分(姓名、民族和家庭地址)进行垂直投影后,完成各部分的单个字符的分割。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (4)
1.一种身份证字符分割的方法,其特征在于,包括下列步骤:
通过专用设备采集身份证图像,所述专用设备包括采集槽、摄像单元,其中放置身份证的采集槽的尺寸与身份证的尺寸相当,摄像单元位于采集槽的下方;
对身份证图像中的黑色字体采用二值化阈值随图像底色的变化而变化的二值化处理方式,得到二值图像;
对二值图像进行正反检测,若检测检测结果为反向,则旋转180度,其中正反检测具体为:对所述二值图像做形态学处理,使得在同一水平高度的字会被连通成为一个连通区域,若最长的连通区域位于检测图像的左上角区域,则检测图像为反向;若在右下角区域,则检测图像为正向;
正反检测后的二值图像做水平投影,基于水平投影结果获取身份证号码部分的上下边界;并切割得到身份证号码图像,对所述身份证号码图像做垂直投影,基于垂直投影得到号码的左右边界,以及每个号码的位置;
基于号码左右边界得到号码长度L,并基于倒数第10个数字的位置得到汉字部分的右边界,基于汉字部分的边长为0.82L,得到汉字部分的左边界,并切割得到汉字部分图像;
对所述汉字部分图像进行水平投影,得到姓名、民族和家庭地址部分的上下边界,并切割得到姓名部分图像、民族部分图像和家庭地址部分图像,再分别各部分做垂直投影,完成各部分的单个字符的分割。
2.如权利要求1所述的方法,其特征在于,在采集槽长边设置挡光条,则采集的身份证图像的上下呈现两条挡光黑边;
在获取身份证号码部分的上下边界前,首先对二值图像进行上下切片处理:
对水平投影值从上往下检索,当第i行的水平投影值低于预设阈值Tth时,则将第i行作为二值图像的上边界;对水平投影值从下往上检索,当第j行的水平投影值低于预设阈值Tth时,取第j行为二值图像的下边界。
3.如权利要求2所述的方法,其特征在于,在确定二值图像的上下边界时,将第i+k行作为上边界,将第j-k行作为下边界。
4.如权利要求3所述的方法,其特征在于,k的取值为5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710858247.0A CN107622268B (zh) | 2017-09-21 | 2017-09-21 | 一种身份证字符分割的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710858247.0A CN107622268B (zh) | 2017-09-21 | 2017-09-21 | 一种身份证字符分割的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107622268A true CN107622268A (zh) | 2018-01-23 |
CN107622268B CN107622268B (zh) | 2021-04-30 |
Family
ID=61090463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710858247.0A Active CN107622268B (zh) | 2017-09-21 | 2017-09-21 | 一种身份证字符分割的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107622268B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734235A (zh) * | 2018-04-04 | 2018-11-02 | 四川骏逸富顿科技有限公司 | 一种用于电子处方的身份识别方法及系统 |
CN109101963A (zh) * | 2018-08-10 | 2018-12-28 | 深圳市碧海扬帆科技有限公司 | 证件图像自动正向的方法、图像处理装置和可读存储介质 |
CN110059695A (zh) * | 2019-04-23 | 2019-07-26 | 厦门商集网络科技有限责任公司 | 一种基于垂直投影的字符分割方法及终端 |
CN110414523A (zh) * | 2019-07-22 | 2019-11-05 | 彩讯科技股份有限公司 | 一种身份证识别方法、装置、设备及存储介质 |
CN111783757A (zh) * | 2020-06-01 | 2020-10-16 | 成都科大极智科技有限公司 | 一种基于ocr技术的复杂场景下身份证识别方法 |
CN112507758A (zh) * | 2019-09-16 | 2021-03-16 | 深圳中兴网信科技有限公司 | 答题卡字符串识别方法、装置、终端和计算机存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488984A (zh) * | 2013-10-11 | 2014-01-01 | 从兴技术有限公司 | 基于智能移动设备的二代身份证识别方法及装置 |
CN105701488A (zh) * | 2016-01-01 | 2016-06-22 | 广州恒巨信息科技有限公司 | 一种身份证识别方法 |
-
2017
- 2017-09-21 CN CN201710858247.0A patent/CN107622268B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488984A (zh) * | 2013-10-11 | 2014-01-01 | 从兴技术有限公司 | 基于智能移动设备的二代身份证识别方法及装置 |
CN105701488A (zh) * | 2016-01-01 | 2016-06-22 | 广州恒巨信息科技有限公司 | 一种身份证识别方法 |
Non-Patent Citations (1)
Title |
---|
C. WOLF 等: "Extraction and recognition of artificial text in multimedia documents", 《FORMAL PATTERN ANALYSIS & APPLICATIONS》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734235A (zh) * | 2018-04-04 | 2018-11-02 | 四川骏逸富顿科技有限公司 | 一种用于电子处方的身份识别方法及系统 |
CN109101963A (zh) * | 2018-08-10 | 2018-12-28 | 深圳市碧海扬帆科技有限公司 | 证件图像自动正向的方法、图像处理装置和可读存储介质 |
CN110059695A (zh) * | 2019-04-23 | 2019-07-26 | 厦门商集网络科技有限责任公司 | 一种基于垂直投影的字符分割方法及终端 |
CN110414523A (zh) * | 2019-07-22 | 2019-11-05 | 彩讯科技股份有限公司 | 一种身份证识别方法、装置、设备及存储介质 |
CN112507758A (zh) * | 2019-09-16 | 2021-03-16 | 深圳中兴网信科技有限公司 | 答题卡字符串识别方法、装置、终端和计算机存储介质 |
CN111783757A (zh) * | 2020-06-01 | 2020-10-16 | 成都科大极智科技有限公司 | 一种基于ocr技术的复杂场景下身份证识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107622268B (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622268A (zh) | 一种身份证字符分割的方法 | |
CN110008944B (zh) | 基于模板匹配的ocr识别方法及装置、存储介质 | |
WO2019169532A1 (zh) | 车牌识别方法及云系统 | |
Gllavata et al. | A robust algorithm for text detection in images | |
CN104298982B (zh) | 一种文字识别方法及装置 | |
WO2018018788A1 (zh) | 一种基于图像识别的计量表抄表装置及其方法 | |
WO2018233038A1 (zh) | 基于深度学习的车牌识别方法、装置、设备及存储介质 | |
CN107491730A (zh) | 一种基于图像处理的化验单识别方法 | |
Yang et al. | Lecture video indexing and analysis using video ocr technology | |
CN105654072A (zh) | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 | |
CN104573688A (zh) | 基于深度学习的移动平台烟草激光码智能识别方法及装置 | |
CN108109133B (zh) | 一种基于数字图像处理技术的蚕卵自动计数方法 | |
CN101122953A (zh) | 一种图片文字分割的方法 | |
Roy et al. | Wavelet-gradient-fusion for video text binarization | |
JP2012500428A (ja) | 印刷媒体ページの記事へのセグメント化 | |
CN110807454B (zh) | 基于图像分割的文字定位方法、装置、设备及存储介质 | |
EP3848472A2 (en) | Methods and systems for automated counting and classifying microorganisms | |
CN111091124B (zh) | 一种书脊文字识别方法 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN106228157A (zh) | 基于图像识别技术的彩色图像文字段落分割与识别方法 | |
CN110599512A (zh) | 基于图像识别的药品名称识别方法及系统 | |
CN110135225B (zh) | 样本标注方法及计算机存储介质 | |
US20220230748A1 (en) | Artificial intelligence cloud diagnosis platform | |
CN110135407B (zh) | 样本标注方法及计算机存储介质 | |
BE1026159B1 (fr) | Système de traitement d’image et procede de traitement d’image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |