CN109961064B - 身份证文本定位方法、装置、计算机设备及存储介质 - Google Patents

身份证文本定位方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109961064B
CN109961064B CN201910213340.5A CN201910213340A CN109961064B CN 109961064 B CN109961064 B CN 109961064B CN 201910213340 A CN201910213340 A CN 201910213340A CN 109961064 B CN109961064 B CN 109961064B
Authority
CN
China
Prior art keywords
identity card
image
text line
text
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910213340.5A
Other languages
English (en)
Other versions
CN109961064A (zh
Inventor
张欢
李爱林
周先得
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huafu Technology Co ltd
Original Assignee
Shenzhen Huafu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huafu Technology Co ltd filed Critical Shenzhen Huafu Technology Co ltd
Priority to CN201910213340.5A priority Critical patent/CN109961064B/zh
Publication of CN109961064A publication Critical patent/CN109961064A/zh
Application granted granted Critical
Publication of CN109961064B publication Critical patent/CN109961064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及身份证文本定位方法、装置、计算机设备及存储介质,该方法包括获取初始身份证图像;采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标;根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像;采用第二卷积神经网络对待定位身份证图像进行文本行顶点确定,以得到文本行的顶点坐标;根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像;输出文本行图像至终端,以使文本行图像显示于终端。本发明所采用的卷积神经网络模型规模较小,对运行环境要求低,定位准确率高且鲁棒性高。

Description

身份证文本定位方法、装置、计算机设备及存储介质
技术领域
本发明涉及身份证识别方法,更具体地说是指身份证文本定位方法、装置、计算机设备及存储介质。
背景技术
身份证是用于证明持有人身份的证件,多由各国或地区政府发行予公民。它将作为每个人独一无二的公民身份的证明工具,身份证上附有文本信息,文本信息一般表明了对应人员的身份信息。身份证文本定位是身份证识别算法中的关键部分,文本位置定位是否准确直接影响文字识别的效果。
现有的身份证文本定位方法是用传统图像识别方法进行文本定位,如先对图像进行去噪处理,再进行灰度化,二值化,轮廓提取,形态学变换等方法确定身份证文本位置。该方法准确率低,不适合商用。另外一种定位方法是利用深度学习技术来进行文本定位,一般使用经典物体检测网络如Faster RCNN,Yolo,SSD等进行文本定位。但这些方法使用的网络架构通常比较复杂,参数庞大,对移动端部署不够友好,使运行环境不堪重负。
因此,有必要设计一种新的方法,实现对运行环境要求低,定位准确率高且鲁棒性高。
发明内容
本发明的目的在于克服现有技术的缺陷,提供身份证文本定位方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:身份证文本定位方法,包括:
获取初始身份证图像;
采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标;
根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像;
采用第二卷积神经网络对待定位身份证图像进行文本行顶点确定,以得到文本行的顶点坐标;
根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像;
输出文本行图像至终端,以使文本行图像显示于终端。
其进一步技术方案为:所述第一卷积神经网络是通过身份证样本图片和身份证外框标注信息作为训练数据输入卷积神经网络训练所得的。
其进一步技术方案为:所述第二卷积神经网络是通过对身份证样本图片进行处理后作为训练数据输入输入卷积神经网络训练所得的。
其进一步技术方案为:所述第二卷积神经网络是通过对身份证样本图片进行处理后作为训练数据输入输入卷积神经网络训练所得的,包括:
根据身份证外框标注信息求出身份证外框四个标注点的最小旋转矩形;
根据最小旋转矩形对身份证样本图片进行裁剪,以得到水平无旋转的身份证图像;
对身份证样本图片上的文本行标注信息进行变换,以得到处理后的身份证样本图片;
对处理后的身份证样本图片输入卷积神经网络进行训练。
其进一步技术方案为:所述根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像,包括:
根据身份证的顶点坐标计算身份证最小外接旋转矩形,以得到身份证旋转矩形的信息;
对身份证旋转矩形的信息对初始身份证图像进行旋转,以得到水平状态身份证图像;
根据身份证旋转矩形的信息对水平状态身份证图像进行裁剪,以得到待定位身份证图像。
其进一步技术方案为:所述根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像,包括:
判断所述文本行的顶点坐标是否满足设定条件;
若否,则根据文本行的顶点坐标计算文本行最小外接旋转矩阵,以得到文本行旋转矩形的信息;
对文本行旋转矩形的信息对待定位身份证图像进行旋转,以得到水平状态文本行图像;
根据文本行旋转矩形的信息对水平状态文本行图像进行裁剪,以得到文本行图像;
若否,则判断是否所有文本行的顶点坐标都判断完毕;
若是,则进入结束步骤;
若否,则返回判断所述文本行的顶点坐标是否满足设定条件。
其进一步技术方案为:所述采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标之前,还包括:
将初始身份证图像进行尺寸调整。
本发明还提供了身份证文本定位装置,包括:
图像获取单元,用于获取初始身份证图像;
图像顶点确定单元,用于采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标;
外边框定位单元,用于根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像;
文本行顶点确定单元,用于采用第二卷积神经网络对待定位身份证图像进行文本行顶点确定,以得到文本行的顶点坐标;
文本框定位单元,用于根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像;
输出单元,用于输出文本行图像至终端,以使文本行图像显示于终端。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过对初始身份证图像采用卷积神经网络处理后,进行外边框定位,以得到水平且无旋转的待定位身份证图像,再由卷积神经网络对待定位身份证图像进行文本行顶点确定,结合文本行定位处理,以得到身份证的文本行信息,所采用的卷积神经网络模型规模较小,对运行环境要求低,定位准确率高且鲁棒性高。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的身份证文本定位方法的应用场景示意图;
图2为本发明实施例提供的身份证文本定位方法的流程示意图;
图3为本发明实施例提供的身份证文本定位方法的子流程示意图;
图4为本发明实施例提供的身份证文本定位方法的子流程示意图;
图5为本发明实施例提供的初始身份证图像的程示意图;
图6为本发明实施例提供的身份证文本定位方法处理过程中的图像示意图;
图7为本发明另一实施例提供的身份证文本定位方法的流程示意图;
图8为本发明实施例提供的身份证文本定位装置的示意性框图;
图9为本发明实施例提供的身份证文本定位装置的外边框定位单元的示意性框图;
图10为本发明实施例提供的身份证文本定位装置的文本框定位单元的示意性框图;
图11为本发明另一实施例提供的身份证文本定位装置的示意性框图;
图12为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的身份证文本定位方法的应用场景示意图。图2为本发明实施例提供的身份证文本定位方法的示意性流程图。该身份证文本定位方法应用于服务器中,该服务器与终端进行数据交互,从终端获取到初始身份证图像后,服务器对初始身份证图像利用卷积神经网络进行处理,以得到文本行图像,并输出至终端进行显示。
图2是本发明实施例提供的身份证文本定位方法的流程示意图。如图2所示,该方法包括以下步骤S110至S160。
S110、获取初始身份证图像。
在本实施例中,初始身份证图像是指未经过任何处理的身份证图像。一般采用摄像头拍摄身份证获取,也可以采用扫描设备扫描身份证所得。
S120、采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标。
在本实施例中,上述的第一卷积神经网络是通过身份证样本图片和身份证外框标注信息作为训练数据输入卷积神经网络训练所得的。
训练卷积神经网络需要大量身份证图片样本,且需要对身份证和各文本行的顶点进行标注,首先将原始训练样本图片和身份证外框标注信息作为网络一的训练数据,训练前运用模糊以及旋转等手段进行数据扩增,增加数据量,再送入第一卷积神经网络进行训练,以得到训练好的网络。身份证图片样本是指用于训练网络的身份证图像。
在本实施例中,采用的第一卷积神经网络结构如下:
输入层:200×200×1;
卷积层1:200×200×1×32(3×3卷积);
池化层1:50×50×1×32(4×4步长);
卷积层2:50×50×1×64(3×3卷积);
池化层2:25×25×1×64(2×2步长);
卷积层3:25×25×1×128(3×3卷积);
池化层3:13×13×1×128(2×2步长);
卷积层4:13×13×1×256(1×1卷积);
池化层4:7×7×1×256(2×2步长);
全连接层1:12544;
全连接层2:1024;
输出层:8。
S130、根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像。
在本实施例中,待定位身份证图像是指只包括身份证的图像,且处于水平无旋转状态的身份证图像。
在一实施例中,上述的步骤S130可包括步骤S131~S133。
S131、根据身份证的顶点坐标计算身份证最小外接旋转矩形,以得到身份证旋转矩形的信息。
在本实施例中,身份证最小外接旋转矩形是带有目标物体的最小外接矩形,身份证旋转矩形的信息指的是身份证最小外接旋转矩形的旋转角度、位置和长宽等可表明矩形特性的信息。
第一卷积神经网络会对初始身份证图像进行处理后,输出8个浮点型数值,依次是身份证左上,右上,右下,左下四个点的xy坐标,也就是身份证的四个顶点坐标,根据这身份证的四个顶点坐标可求出其最小外接旋转矩形,计算身份证的最小外接旋转矩形时可以基于顶点链码和离散格林的旋转法求取。
S132、对身份证旋转矩形的信息对初始身份证图像进行旋转,以得到水平状态身份证图像。
具体地,根据所求得身份证旋转矩形的角度,先将整幅初始身份证图像依照该角度进行旋转,使初始身份证图像处于水平状态,以便于后续的文本定位。
S133、根据身份证旋转矩形的信息对水平状态身份证图像进行裁剪,以得到待定位身份证图像。
在本实施例中,待定位身份证图像是指对齐后的水平无旋转的身份证图像。
根据旋转矩形的位置和长宽裁剪图像,所裁剪得的图像即为对齐后的水平无旋转身份证图像。对不同旋转角度,不同大小的身份证图像文本定位效果都比较稳定,鲁棒性强。
S140、采用第二卷积神经网络对待定位身份证图像进行文本行顶点确定,以得到文本行的顶点坐标。
在本实施例中,文本行的顶点坐标是指身份证图像内的文本信息的所有顶点的坐标。
第二卷积神经网络是通过对身份证样本图片进行处理后作为训练数据输入输入卷积神经网络训练所得的;包括:
根据身份证外框标注信息求出身份证外框四个标注点的最小旋转矩形;
根据最小旋转矩形对身份证样本图片进行裁剪,以得到水平无旋转的身份证图像;
对身份证样本图片上的文本行标注信息进行变换,以得到处理后的身份证样本图片;
对处理后的身份证样本图片输入卷积神经网络进行训练。
第二卷积神经网络的训练数据则需要在身份证样本图片上进行裁剪加工。根据身份证外边框的标注信息,求出四个标注点的最小旋转矩形,根据最小旋转矩形进行裁剪得到水平无旋转的身份证图像,由于图像经过了裁剪,文本行的标注信息也需要做相应的变换,数据处理好后再送入卷积神经网络进行训练。
获得对齐的待定位身份证图像后,将待定位身份证图像输入到第二卷积神经网络,该第二卷积神经网络的架构与第一卷积神经网络基本相同,但输出层的节点数有56个,身份证上最多有7行文本需要进行定位,每个定位区域由4个坐标决定,每个坐标由2个浮点数表示,因此输出层为56个节点。这56个节点最终会输出56个浮点值,8个为一组,按顺序对应姓名、性别与民族、出生年月、地址栏(三行)、身份证号码这七个文本行的顶点坐标。
S150、根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像。
在本实施例中,文本行图像是指对包含身份证文本信息的图像。
在一实施例中,请参阅图4,上述的步骤S150可包括步骤S151~S155。
S151、判断所述文本行的顶点坐标是否满足设定条件。
该设定条件是指文本行的顶点坐标是否接近0,若是,则表明该文本行不存在。
由于地址栏会在一行到三行变动,如果第二行或第三行不存在,相应的输出将会是0,可以依此来判断该地址行是否存在。因此,需要对每个文本行的顶点坐标进行判断,以准确的定位到文本行。
S152、若否,则根据文本行的顶点坐标计算文本行最小外接旋转矩阵,以得到文本行旋转矩形的信息。
在本实施例中,文本行最小外接旋转矩形是带有目标物体的最小外接矩形,文本行旋转矩形的信息指的是文本行最小外接旋转矩形的旋转角度、位置和长宽等可表明矩形特性的信息。
每一个文本行的顶点坐标会有四个,总共有7个文本行,根据这文本行的四个顶点坐标可求出其文本行的最小外接旋转矩形,计算文本行的最小外接旋转矩形时可以基于顶点链码和离散格林的旋转法求取。
S153、对文本行旋转矩形的信息对待定位身份证图像进行旋转,以得到水平状态文本行图像。
具体地,根据所求得文本行旋转矩形的角度,先将待定位身份证图像该角度进行旋转,使文本行处于水平状态,以便于后续的文本定位。
S154、根据文本行旋转矩形的信息对水平状态文本行图像进行裁剪,以得到文本行图像。
在本实施例中,文本行图像是指对齐后的水平无旋转的带有文本信息的图像。
根据旋转矩形的位置和长宽裁剪图像,所裁剪得的图像即为对齐后的水平无旋转的文本行图像。对不同旋转角度,不同大小的身份证图像文本定位效果都比较稳定,鲁棒性强。
S155、若是,则判断是否所有文本行的顶点坐标都判断完毕;
若是,则进入结束步骤;
若否,则返回步骤S151。
S160、输出文本行图像至终端,以使文本行图像显示于终端。
使用的两个卷积神经网络都相对简洁,适合移动端存储与部署,由于卷积神经网络模型小巧,运算速度也比一般模型更快。先对齐身份证图像再定位文本信息,两个卷积神经网络可以互相补充,提高准确率。如图5和图6所示,对不同旋转角度,不同大小的身份证图像文本定位效果都比较稳定,鲁棒性强。可以根据网络节点输出顺序判断各个输出坐标的属性,无需再对所定位到的文本框进行属性判断。
上述的身份证文本定位方法,通过对初始身份证图像采用卷积神经网络处理后,进行外边框定位,以得到水平且无旋转的待定位身份证图像,再由卷积神经网络对待定位身份证图像进行文本行顶点确定,结合文本行定位处理,以得到身份证的文本行信息,所采用的卷积神经网络模型规模较小,对运行环境要求低,定位准确率高且鲁棒性高。
图7是本发明另一实施例提供的一种身份证文本定位方法的流程示意图。如图7所示,本实施例的身份证文本定位方法包括步骤S210-S270。其中步骤S210与上述实施例中的步骤S110类似,步骤S230-S270与上述实施例中的步骤S120-S160类似,在此不再赘述。下面详细说明本实施例中所增加的步骤S260-S270。
S220、将初始身份证图像进行尺寸调整。
将初始身份证图像的尺寸调整至大小为200×200,以便于第一级卷积神经网络的处理。
图8是本发明实施例提供的一种身份证文本定位装置300的示意性框图。如图8所示,对应于以上身份证文本定位方法,本发明还提供一种身份证文本定位装置300。该身份证文本定位装置300包括用于执行上述身份证文本定位方法的单元,该装置可以被配置于服务器中。
具体地,请参阅图8,该身份证文本定位装置300包括:
图像获取单元301,用于获取初始身份证图像;
图像顶点确定单元303,用于采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标;
外边框定位单元304,用于根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像;
文本行顶点确定单元305,用于采用第二卷积神经网络对待定位身份证图像进行文本行顶点确定,以得到文本行的顶点坐标;
文本框定位单元306,用于根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像;
输出单元307,用于输出文本行图像至终端,以使文本行图像显示于终端。
在一实施例中,如图9所示,所述外边框定位单元304包括:
第一信息获取子单元3041,用于根据身份证的顶点坐标计算身份证最小外接旋转矩形,以得到身份证旋转矩形的信息;
第一旋转子单元3042,用于对身份证旋转矩形的信息对初始身份证图像进行旋转,以得到水平状态身份证图像;
第一裁剪子单元3043,用于根据身份证旋转矩形的信息对水平状态身份证图像进行裁剪,以得到待定位身份证图像。
在一实施例中,如图10所示,所述文本框定位单元306包括:
第一判断子单元3061,用于判断所述文本行的顶点坐标是否满足设定条件;
第二信息获取子单元3062,用于若否,则根据文本行的顶点坐标计算文本行最小外接旋转矩阵,以得到文本行旋转矩形的信息;
第二旋转子单元3063,用于对文本行旋转矩形的信息对待定位身份证图像进行旋转,以得到水平状态文本行图像;
第二裁剪子单元3064,用于根据文本行旋转矩形的信息对水平状态文本行图像进行裁剪,以得到文本行图像;
第二判断子单元3065,用于若否,则判断是否所有文本行的顶点坐标都判断完毕。
图11是本发明另一实施例提供的一种身份证文本定位装置300的示意性框图。如图11所示,本实施例的身份证文本定位装置300是上述实施例的基础上增加了调整单元302。
所述调整单元302,用于将初始身份证图像进行尺寸调整。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述身份证文本定位装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述身份证文本定位装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图12所示的计算机设备上运行。
请参阅图12,图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器。
参阅图12,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种身份证文本定位方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种身份证文本定位方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取初始身份证图像;
采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标;
根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像;
采用第二卷积神经网络对待定位身份证图像进行文本行顶点确定,以得到文本行的顶点坐标;
根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像;
输出文本行图像至终端,以使文本行图像显示于终端。
其中,所述第一卷积神经网络是通过身份证样本图片和身份证外框标注信息作为训练数据输入卷积神经网络训练所得的。
所述第二卷积神经网络是通过对身份证样本图片进行处理后作为训练数据输入输入卷积神经网络训练所得的。
在一实施例中,处理器502在实现所述第二卷积神经网络是通过对身份证样本图片进行处理后作为训练数据输入输入卷积神经网络训练所得的步骤时,具体实现如下步骤:
根据身份证外框标注信息求出身份证外框四个标注点的最小旋转矩形;
根据最小旋转矩形对身份证样本图片进行裁剪,以得到水平无旋转的身份证图像;
对身份证样本图片上的文本行标注信息进行变换,以得到处理后的身份证样本图片;
对处理后的身份证样本图片输入卷积神经网络进行训练。
在一实施例中,处理器502在实现所述根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像,步骤的步骤时,具体实现如下步骤:
根据身份证的顶点坐标计算身份证最小外接旋转矩形,以得到身份证旋转矩形的信息;
对身份证旋转矩形的信息对初始身份证图像进行旋转,以得到水平状态身份证图像;
根据身份证旋转矩形的信息对水平状态身份证图像进行裁剪,以得到待定位身份证图像。
在一实施例中,处理器502在实现所述根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像步骤的步骤时,具体实现如下步骤:
判断所述文本行的顶点坐标是否满足设定条件;
若否,则根据文本行的顶点坐标计算文本行最小外接旋转矩阵,以得到文本行旋转矩形的信息;
对文本行旋转矩形的信息对待定位身份证图像进行旋转,以得到水平状态文本行图像;
根据文本行旋转矩形的信息对水平状态文本行图像进行裁剪,以得到文本行图像;
若否,则判断是否所有文本行的顶点坐标都判断完毕;
若是,则进入结束步骤;
若否,则返回判断所述文本行的顶点坐标是否满足设定条件。
在一实施例中,处理器502在实现所述采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标步骤之前,还实现如下步骤:
将初始身份证图像进行尺寸调整。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取初始身份证图像;
采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标;
根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像;
采用第二卷积神经网络对待定位身份证图像进行文本行顶点确定,以得到文本行的顶点坐标;
根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像;
输出文本行图像至终端,以使文本行图像显示于终端。
其中,所述第一卷积神经网络是通过身份证样本图片和身份证外框标注信息作为训练数据输入卷积神经网络训练所得的。
所述第二卷积神经网络是通过对身份证样本图片进行处理后作为训练数据输入输入卷积神经网络训练所得的。
在一实施例中,所述处理器在执行所述计算机程序而实现所述第二卷积神经网络是通过对身份证样本图片进行处理后作为训练数据输入输入卷积神经网络训练所得的步骤时,具体实现如下步骤:
根据身份证外框标注信息求出身份证外框四个标注点的最小旋转矩形;
根据最小旋转矩形对身份证样本图片进行裁剪,以得到水平无旋转的身份证图像;
对身份证样本图片上的文本行标注信息进行变换,以得到处理后的身份证样本图片;
对处理后的身份证样本图片输入卷积神经网络进行训练。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像,步骤时,具体实现如下步骤:
根据身份证的顶点坐标计算身份证最小外接旋转矩形,以得到身份证旋转矩形的信息;
对身份证旋转矩形的信息对初始身份证图像进行旋转,以得到水平状态身份证图像;
根据身份证旋转矩形的信息对水平状态身份证图像进行裁剪,以得到待定位身份证图像。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像步骤时,具体实现如下步骤:
判断所述文本行的顶点坐标是否满足设定条件;
若否,则根据文本行的顶点坐标计算文本行最小外接旋转矩阵,以得到文本行旋转矩形的信息;
对文本行旋转矩形的信息对待定位身份证图像进行旋转,以得到水平状态文本行图像;
根据文本行旋转矩形的信息对水平状态文本行图像进行裁剪,以得到文本行图像;
若否,则判断是否所有文本行的顶点坐标都判断完毕;
若是,则进入结束步骤;
若否,则返回判断所述文本行的顶点坐标是否满足设定条件。
在一实施例中,所述处理器在执行所述计算机程序而实现所述采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标步骤之前,还实现如下步骤:
将初始身份证图像进行尺寸调整。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.身份证文本定位方法,其特征在于,包括:
获取初始身份证图像;
采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标;
根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像;
采用第二卷积神经网络对待定位身份证图像进行文本行顶点确定,以得到文本行的顶点坐标;
根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像;
输出文本行图像至终端,以使文本行图像显示于终端;
所述第二卷积神经网络是通过对身份证样本图片进行处理后作为训练数据输入卷积神经网络训练所得的;所述第二卷积神经网络是通过对身份证样本图片进行处理后作为训练数据输入卷积神经网络训练所得的,包括:
根据身份证外框标注信息求出身份证外框四个标注点的最小旋转矩形;
根据最小旋转矩形对身份证样本图片进行裁剪,以得到水平无旋转的身份证图像;
对身份证样本图片上的文本行标注信息进行变换,以得到处理后的身份证样本图片;
对处理后的身份证样本图片输入卷积神经网络进行训练;
所述根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像,包括:
根据身份证的顶点坐标计算身份证最小外接旋转矩形,以得到身份证旋转矩形的信息;
对身份证旋转矩形的信息对初始身份证图像进行旋转,以得到水平状态身份证图像;
根据身份证旋转矩形的信息对水平状态身份证图像进行裁剪,以得到待定位身份证图像;所述根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像,包括:
判断所述文本行的顶点坐标是否满足设定条件;
若否,则根据文本行的顶点坐标计算文本行最小外接旋转矩阵,以得到文本行旋转矩形的信息;
对文本行旋转矩形的信息对待定位身份证图像进行旋转,以得到水平状态文本行图像;
根据文本行旋转矩形的信息对水平状态文本行图像进行裁剪,以得到文本行图像;
若是,则判断是否所有文本行的顶点坐标都判断完毕;
若是,则进入结束步骤;
若否,则返回判断所述文本行的顶点坐标是否满足设定条件。
2.根据权利要求1所述的身份证文本定位方法,其特征在于,所述第一卷积神经网络是通过身份证样本图片和身份证外框标注信息作为训练数据输入卷积神经网络训练所得的。
3.根据权利要求1至2任一项所述的身份证文本定位方法,其特征在于,所述采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标之前,还包括:
将初始身份证图像进行尺寸调整。
4.身份证文本定位装置,其特征在于,包括:
图像获取单元,用于获取初始身份证图像;
图像顶点确定单元,用于采用第一卷积神经网络对初始身份证图像进行图像顶点确定,以得到身份证的顶点坐标;
外边框定位单元,用于根据身份证的顶点坐标对初始身份证图像进行外边框定位,以得到待定位身份证图像;
文本行顶点确定单元,用于采用第二卷积神经网络对待定位身份证图像进行文本行顶点确定,以得到文本行的顶点坐标;
文本框定位单元,用于根据文本行的顶点坐标对待定位身份证图像进行文本框定位,以得到文本行图像;
输出单元,用于输出文本行图像至终端,以使文本行图像显示于终端;
文本框定位单元包括:
第一判断子单元,用于判断所述文本行的顶点坐标是否满足设定条件;
第二信息获取子单元,用于若否,则根据文本行的顶点坐标计算文本行最小外接旋转矩阵,以得到文本行旋转矩形的信息;
第二旋转子单元,用于对文本行旋转矩形的信息对待定位身份证图像进行旋转,以得到水平状态文本行图像;
第二裁剪子单元,用于根据文本行旋转矩形的信息对水平状态文本行图像进行裁剪,以得到文本行图像;
第二判断子单元,用于若否,则判断是否所有文本行的顶点坐标都判断完毕;
所述第二卷积神经网络是通过对身份证样本图片进行处理后作为训练数据输入卷积神经网络训练所得的;所述第二卷积神经网络是通过对身份证样本图片进行处理后作为训练数据输入卷积神经网络训练所得的,包括:根据身份证外框标注信息求出身份证外框四个标注点的最小旋转矩形;根据最小旋转矩形对身份证样本图片进行裁剪,以得到水平无旋转的身份证图像;对身份证样本图片上的文本行标注信息进行变换,以得到处理后的身份证样本图片;对处理后的身份证样本图片输入卷积神经网络进行训练。
5.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的方法。
6.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至3中任一项所述的方法。
CN201910213340.5A 2019-03-20 2019-03-20 身份证文本定位方法、装置、计算机设备及存储介质 Active CN109961064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910213340.5A CN109961064B (zh) 2019-03-20 2019-03-20 身份证文本定位方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910213340.5A CN109961064B (zh) 2019-03-20 2019-03-20 身份证文本定位方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109961064A CN109961064A (zh) 2019-07-02
CN109961064B true CN109961064B (zh) 2023-04-07

Family

ID=67024625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910213340.5A Active CN109961064B (zh) 2019-03-20 2019-03-20 身份证文本定位方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109961064B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348449B (zh) * 2019-07-10 2023-04-18 电子科技大学 一种基于神经网络的身份证文字识别方法
CN111126376B (zh) * 2019-10-16 2022-08-23 平安科技(深圳)有限公司 基于面部特征点检测的图片纠正方法、装置和计算机设备
CN111767787B (zh) * 2020-05-12 2023-07-18 北京奇艺世纪科技有限公司 身份证图像的正反面判断方法、装置、设备及存储介质
CN111626383B (zh) * 2020-05-29 2023-11-07 Oppo广东移动通信有限公司 字体识别方法及装置、电子设备、存储介质
CN111783757A (zh) * 2020-06-01 2020-10-16 成都科大极智科技有限公司 一种基于ocr技术的复杂场景下身份证识别方法
CN111767859A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 图像校正的方法、装置、电子设备及计算机可读存储介质
US11216960B1 (en) 2020-07-01 2022-01-04 Alipay Labs (singapore) Pte. Ltd. Image processing method and system
CN112333356B (zh) * 2020-10-09 2022-09-20 支付宝实验室(新加坡)有限公司 一种证件图像采集方法、装置和设备
CN112926469B (zh) * 2021-03-04 2022-12-27 浪潮云信息技术股份公司 基于深度学习ocr与版面结构的证件识别方法
CN113051901B (zh) * 2021-03-26 2023-03-24 重庆紫光华山智安科技有限公司 一种身份证文本识别方法、系统、介质及电子终端

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169493A (zh) * 2017-05-31 2017-09-15 北京小米移动软件有限公司 信息识别方法及装置
CN107688806B (zh) * 2017-08-21 2021-04-20 西北工业大学 一种基于仿射变换的自由场景文本检测方法
CN107563377A (zh) * 2017-08-30 2018-01-09 江苏实达迪美数据处理有限公司 一种利用边缘和文字区域的证件关键区域检测定位方法
CN107665354B (zh) * 2017-09-19 2021-04-23 北京小米移动软件有限公司 识别身份证的方法及装置
CN108960229B (zh) * 2018-04-23 2022-04-01 中国科学院信息工程研究所 一种面向多方向的文字检测方法和装置
CN109344727B (zh) * 2018-09-07 2020-11-27 苏州创旅天下信息技术有限公司 身份证文本信息检测方法及装置、可读存储介质和终端
CN109492643B (zh) * 2018-10-11 2023-12-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN109961064A (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
CN109961064B (zh) 身份证文本定位方法、装置、计算机设备及存储介质
CN109961040B (zh) 身份证区域定位方法、装置、计算机设备及存储介质
CN109977949B (zh) 边框微调的文本定位方法、装置、计算机设备及存储介质
CN110163087B (zh) 一种人脸姿态识别方法及系统
US11929048B2 (en) Method and device for marking target cells, storage medium and terminal device
CN112818812A (zh) 图像中表格信息的识别方法、装置、电子设备及存储介质
CN111275730A (zh) 地图区域的确定方法、装置、设备及存储介质
CN112308866B (zh) 图像处理方法、装置、电子设备及存储介质
CN109871829B (zh) 一种基于深度学习的检测模型训练方法和装置
CN107886082B (zh) 图像中数学公式检测方法、装置、计算机设备及存储介质
CN112348765A (zh) 数据增强方法、装置、计算机可读存储介质及终端设备
CN113608805B (zh) 掩膜预测方法、图像处理方法、显示方法及设备
CN113780201B (zh) 手部图像的处理方法及装置、设备和介质
CN115482186A (zh) 瑕疵检测方法、电子设备及存储介质
CN115272887A (zh) 基于无人机检测的海岸带垃圾识别方法、装置以及设备
CN112926564A (zh) 图片分析方法、系统、计算机设备和计算机可读存储介质
CN114255223A (zh) 基于深度学习的双阶段卫浴陶瓷表面缺陷检测方法和设备
CN111027545A (zh) 卡证图片标志检测方法、装置、计算机设备及存储介质
CN113269752A (zh) 一种图像检测方法、装置终端设备及存储介质
CN113241155A (zh) 一种头颅侧位片中标志点的获取方法及系统
CN112434582A (zh) 一种车道线颜色识别方法、系统、电子设备及存储介质
CN110210314B (zh) 人脸检测方法、装置、计算机设备及存储介质
CN112464744A (zh) 一种鱼姿态识别方法
CN111862343A (zh) 一种三维重建方法、装置、设备及计算机可读存储介质
WO2022257433A1 (zh) 图像的特征图的处理方法及装置、存储介质、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant after: Shenzhen Huafu Technology Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: SHENZHEN HUAFU INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant