CN113420756B - 证件图像的识别方法和装置、存储介质及电子装置 - Google Patents
证件图像的识别方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN113420756B CN113420756B CN202110860243.2A CN202110860243A CN113420756B CN 113420756 B CN113420756 B CN 113420756B CN 202110860243 A CN202110860243 A CN 202110860243A CN 113420756 B CN113420756 B CN 113420756B
- Authority
- CN
- China
- Prior art keywords
- text
- target
- information
- certificate
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种证件图像的识别方法和装置、存储介质及电子装置,其中,上述方法包括:获取针对目标证件采集的待识别证件图像中的证件区域图像,其中,所述证件区域图像为移除所述待识别证件图像中的背景信息所得到的图像;对所述证件区域图像进行目标检测,得到所述证件区域图像包含的多个文本框;基于所述多个文本框中的每个文本框的位置信息对所述证件区域图像进行版面分析,得到与所述每个文本框对应的信息类别;对目标文本框进行文本识别,得到目标识别结果,其中,所述目标文本框包括所述多个文本框中与待识别的目标信息类别对应的文本框。通过本申请,解决了相关技术中的证件图像的识别方法存在的证件信息提取的准确率低的问题。
Description
技术领域
本申请涉及图像处理领域,具体而言,涉及一种证件图像的识别方法和装置、存储介质及电子装置。
背景技术
用户的证件信息可以在相关的线上、线下业务中所使用,需要进行证件信息的录入。以驾驶证或行驶证为例,和车辆相关的众多的线上、线下业务均涉及驾驶证或行驶证信息的录入。如果采用手动录入证件信息的方式,工作量大,人力成本高,录入效率低。因此,智能识别如驾驶证行驶证等证件的证件信息的需求日益增长。
目前,相关技术中常采用关键点检测的方法对待识别的证件图像,进行针对证件信息的识别,但关键点检测受到图片质量影响较大,如果特征区域缺失,则异常返回,不能充分利用图像信息,对图像质量要求高。由此可见,相关技术中的证件图像的识别方法,存在证件信息提取的准确率低的问题。
发明内容
本申请实施例提供了一种证件图像的识别方法和装置、存储介质及电子装置,以至少解决相关技术中的证件图像的识别方法存在的证件信息提取的准确率低的问题。
根据本申请实施例的一个方面,提供了一种证件图像的识别方法,包括:获取针对目标证件采集的待识别证件图像中的证件区域图像,其中,所述证件区域图像为移除所述待识别证件图像中的背景信息所得到的图像;对所述证件区域图像进行目标检测,得到所述证件区域图像包含的多个文本框;基于所述多个文本框中的每个文本框的位置信息对所述证件区域图像进行版面分析,得到与所述每个文本框对应的信息类别;对目标文本框进行文本识别,得到目标识别结果,其中,该目标文本框包括所述多个文本框中与待识别的目标信息类别对应的文本框。
根据本申请实施例的另一个方面,还提供了一种证件图像的识别装置,包括:第一获取单元,用于获取针对目标证件采集的待识别证件图像中的证件区域图像,其中,所述证件区域图像为移除所述待识别证件图像中的背景信息所得到的图像;检测单元,用于对所述证件区域图像进行目标检测,得到所述证件区域图像包含的多个文本框;分析单元,用于基于所述多个文本框中的每个文本框的位置信息对所述证件区域图像进行版面分析,得到与所述每个文本框对应的信息类别;识别单元,用于对目标文本框进行文本识别,得到目标识别结果,其中,所述目标文本框包括所述多个文本框中与待识别的目标信息类别对应的文本框。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述证件图像的识别方法。
根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的证件图像的识别方法。
在本申请实施例中,采用移除待识别图像中的背景信息的方式,通过获取针对目标证件采集的待识别证件图像中的证件区域图像,其中,证件区域图像为移除待识别证件图像中的背景信息所得到的图像;对证件区域图像进行目标检测,得到证件区域图像包含的多个文本框;基于多个文本框中的每个文本框的位置信息对证件区域图像进行版面分析,得到与每个文本框对应的信息类别;对目标文本框进行文本识别,得到目标识别结果,其中,该目标文本框包括多个文本框中与待识别的目标信息类别对应的文本框,由于移除了待识别图像中的背景信息,可以减轻背景信息干扰,从而达到提高证件信息提取准确率的技术效果,进而解决了相关技术中的证件图像的识别方法存在证件信息提取的准确率低的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种可选的证件图像的识别方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的证件图像的识别方法的流程示意图;
图3是根据本申请实施例的一种可选的证件图像的正向页面的示意图;
图4是根据本申请实施例的一种可选的文本框的示意图;
图5是根据本申请实施例的另一种可选的文本框的示意图;
图6是根据本申请实施例的另一种可选的证件图像的识别方法的流程示意图;
图7是根据本申请实施例的一种可选的证件图像的识别装置的结构框图;
图8是根据本申请实施例的一种可选的电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种证件图像的识别方法。可选地,在本实施例中,上述证件图像的识别方法可以应用于如图1所示的由终端102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端102可以并不限定于为PC、手机、平板电脑等。
本申请实施例的证件图像的识别方法可以由服务器104来执行,也可以由终端102来执行,还可以是由服务器104和终端102共同执行。其中,终端102执行本申请实施例的证件图像的识别方法也可以是由安装在其上的客户端来执行。
以由服务器104来执行本实施例中的证件图像的识别方法为例,图2是根据本申请实施例的一种可选的证件图像的识别方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S202,获取针对目标证件采集的待识别证件图像中的证件区域图像,其中,证件区域图像为移除待识别证件图像中的背景信息所得到的图像。
本实施例中的证件图像的识别方法可以应用在对具有至少一个文本条目的证件中的指定条目进行识别的场景,上述证件可以是行驶证、驾驶证、身份证、学生证等。本实施例中以行驶证或者驾驶证为例进行说明。上述指定条目可以是姓名、性别、年龄、地址、编号等,本实施例中对于指定地址不做限定。
执行上述证件图像的识别方法的可以是具有图像拍摄功能的终端设备(例如,具有摄像头的智能手机),也可以是具有图像处理功能的终端设备或者后台服务器。本实施例中以由终端设备(可以具备图像拍摄功能,也可以不具备图像处理功能)执行上述证件图像的识别方法为例进行说明。
终端设备(也可以是终端设备上运行的图像处理软件)可以首先获取待识别证件图像,例如,输入的识别证件图像,待识别证件图像是拍摄的目标证件的图像,也就是,针对目标证件采集的图像。待识别证件图像一般会携带一些背景信息。为了避免背景信息对图像识别的影响,提高图像识别的准确性,终端设备可以移除待识别证件图像中的背景信息,从而获取与待识别证件图像对应的证件区域图像。
步骤S204,对证件区域图像进行目标检测,得到证件区域图像包含的多个文本框。
终端设备可以对证件区域进行目标检测,得到目标检测的结果。上述目标检测可以包括文本区域检测,对应地,目标检测结果可以包括证件区域图像包含的多个文本框。可选地,文本区域可以只检测条目的值信息,例如,驾驶证的证号、姓名、地址等内容。
步骤S206,基于多个文本框中的每个文本框的位置信息对证件区域图像进行版面分析,得到与每个文本框对应的信息类别。
基于各个文本框的位置信息,终端设备可以对证件区域图像进行版面分析。上述版面分析可以是结合阈值的目标证件中包含的条目、条目与目标证件的位置关系、条目之间的位置信息等等执行的。通过版本分析,终端设备可以确定与每个文本框对应的信息类别(也可以称为条目类别),例如,驾驶证的证号、姓名、地址等。
步骤S208,对目标文本框进行文本识别,得到目标识别结果,其中,目标文本框包括多个文本框中与待识别的目标信息类别对应的文本框。
对于需要识别的文本信息类别,即,目标信息类别,终端设备可以确定与其对应的文本框。终端设备可以对包含与待识别的目标信息类别对应的文本框的目标文本框进行文本识别,得到目标识别结果。可选地,识别多个文本框中的文本信息的步骤也可以是在对证件区域图像进行目标检测时执行的。对应地,终端设备可以确定从目标文本框中识别出的文本信息,得到目标识别结果。
例如,已得到所有的条目及其对应位置之后,用户可以配置需要识别的信息内容,将其送入CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)等文本识别网络进行识别,得到识别结果。
在得到目标识别结果,终端设备可以将其进行保存,例如,保存到本地,又例如,保存到服务器侧。可选地,终端设备也可以在其显示界面上显示出得到的目标识别结果。如果上述证件图像的识别方法是由服务器执行的,服务器可以将得到的目标识别结果保存到数据库或者其他存储设备中,也可以将其发送到终端设备上进行显示,本实施例中对此不做限定。
通过上述步骤,获取针对目标证件采集的待识别证件图像中的证件区域图像,其中,证件区域图像为移除待识别证件图像中的背景信息所得到的图像;对证件区域图像进行目标检测,得到证件区域图像包含的多个文本框;基于多个文本框中的每个文本框的位置信息对证件区域图像进行版面分析,得到与每个文本框对应的信息类别;对目标文本框进行文本识别,得到目标识别结果,其中,该目标文本框包括多个文本框中与待识别的目标信息类别对应的文本框,解决了相关技术中的证件图像的识别方法存在证件信息提取的准确率低的问题,提高了证件信息提取准确率。
在一个示例性实施例中,获取针对目标证件采集的待识别证件图像中的证件区域图像包括:
S11,对待识别证件图像进行证件区域检测,得到初始区域图像,其中,初始区域图像为包含目标证件的证件内容的矩形图像;
S12,对初始区域图像进行区域分割,得到与证件内容对应的区域顶点,其中,区域顶点为包含证件内容的多边形区域的顶点;
S13,对以区域顶点为顶点的多边形区域进行透射变换,得到证件区域图像。
用户拍摄的原始图片一般均带有背景信息,为了减轻背景信息的干扰,可以首先进行证件区域检测,即,进行证件ROI(Region Of Interest,感兴趣区域)检测。考虑到证件四个角是圆角,同时易被手指或者证件套壳遮挡,造成顶角缺失,不适合用多边形检测,因此,本实施例中使用的是矩形目标检测的方法。终端设备可以对待识别证件图像进行证件区域检测,得到初始区域图像,得到的初始区域图像是包含目标证件的证件内容的矩形图像。
由于证件图像存在透视和倾斜等现象,得到的证件矩形区域(初始区域图像,即,ROI区域)内依旧带有少量的背景信息,为了移除剩余的背景信息,可以进一步地对图像进行区域分割(即,ROI区域分割)与矫正,矫正后的图像只包含证件信息。
在本实施例中,终端设备可以首先对初始区域图像进行区域分割,得到与证件内容对应的区域顶点,这里的区域顶点是包含证件内容的多边形区域的顶点,例如,四边形区域;然后,对以区域顶点为顶点的多边形区域进行透射变换,以消除透射、倾斜等对图像造成的影响,从而得到证件区域图像。
可选地,也可以ROI检测和ROI区域分割合并为实例分割,算法运行效率有所提升,若证件在原图中的占比较小,精度相较于分步的方案会有所下降。可以根据实际数据的情况对两种方案进行选择。
通过本实施例,通过对ROI进行检测,并对ROI区域进行分割与矫正,可以提高背景信息移除的全面性,提高了证件区域图像的质量。
在一个示例性实施例中,在获取针对目标证件采集的待识别证件图像中的证件区域图像之后,上述方法还包括:
S21,在证件区域图像的宽高比小于或者等于目标比例阈值的情况下,将证件区域图像沿着目标方向旋转目标角度,得到旋转后的证件区域图像,其中,旋转后的证件区域图像的宽高比大于或者等于目标比例阈值。
按照证件的打印习惯,证件中的文字方向一般与长边的方向相同,也就是说,文字的方向与证件的长边平行。为了提高文字识别的准确性,在进行文本识别之前,可以首先判断证件区域图像的宽高比,如果证件区域图像的宽高比小于或者等于目标比例阈值,例如,1、1.5等,可以认为证件区域图像不是正向,例如,偏转90度(顺时针90度)或者270度(逆时针90度)。
在上述情况下,终端设备可以将证件区域图像沿着目标方向旋转目标角度(例如,90度、270度),得到旋转后的证件区域图像,旋转后的证件区域图像的宽高比大于或者等于目标比例阈值。
例如,在对图像进行矫正时,可以根据证件区域(即,证件区域图像)宽高进行旋转,最终得到的证件图像的页面角度(与证件图像的正向页面之间的夹角,如图3所示)是0度或者180度。
通过本实施例,通过基于证件区域图像的宽高比调整证件区域图像的页面角度,可以提高文字识别的准确性。
在一个示例性实施例中,在对证件区域图像进行目标检测,得到证件区域图像包含的多个文本框之后,上述方法还包括:
S31,根据多个文本框的方向,确定出目标图像方向,其中,目标图像方向为多个文本框的方向中重复次数最多的方向;
S32,对证件区域图像进行旋转矫正,得到旋转矫正后的证件区域图像,其中,旋转矫正后的证件区域图像的图像方向为目标图像方向。
终端设备可以对证件区域图像(或者旋转后的证件图像)进行目标检测,得到多个文本框。例如,可以在得到的0°或180°证件区域图像的基础上进行目标检测,对于驾驶证、行驶证等较为普遍存在的条目内容倾斜情况的证件,目标检测输出形式可以使用四边形而非矩形,从而提高后续版面分析和文本识别的准确率。
在得到多个文本框之后,终端设备可以确定各个文本框的方向。输出的文本框不一定是与证件区域图像的长边平行的,可以将与文字方向夹角小的宽的方向,确定为该文本框的方向。终端设备可以将多个文本框的方向中重复次数最多的方向,确定目标图像方向,也就是,该证件区域图像的页面角度。例如,可以将文本目标数最多的框方向确定为页面角度,从而可以提高页面角度分类的准确率。
在确定出页面角度之后,终端设备可以根据页面角度将证件图像与相关坐标进行旋转校正。例如,可以对证件区域图像进行旋转矫正,得到旋转矫正后的证件区域图像,旋转矫正后的证件区域图像的图像方向为目标图像方向。可选地,终端设备可以首先确定证件区域图像的图像方向;如果证件区域图像的图像方向为目标图像方向,则不旋转证件区域图像,否则,将证件区域图像的图像旋转180度,从而将证件区域图像的图像方向旋转为目标图像方向。
通过本实施例,通过将证件区域图像的图像方向旋转为文本目标数最多的框方向,可以提高页面角度分类的准确率。
在一个示例性实施例中,基于多个文本框中的每个文本框的位置信息对证件区域图像进行版面分析,得到与每个文本框对应的信息类别包括:
S41,根据多个文本框的位置信息对多个文本框进行分行处理,得到多个文本行,其中,多个文本行中的每个文本行包含多个文本框中的至少一个文本框;
S42,从目标证件的多个信息行中分别确定出与每个文本行对应的信息行;
S43,根据与每个文本行对应的信息行中所包含的信息类别,确定出每个文本行中的文本框的信息类别,以得到每个文本框对应的信息类别。
根据各个文本框的位置信息,终端设备可以对多个文本框进行分行处理,从而得到至少一个文本行,每个文本行可以包含至少一个文本框。目标证件可以预设多个信息行(也可称为条目行),例如,证号行、姓名行、地址行(地址可能有两行)。终端设备可以根据各个文本行的位置信息、各个信息行在目标证件中的位置信息等确定与每个文本行对应的信息行。
每个信息行中可以包含至少一个信息类别,例如,姓名、性别、国籍等,不同的信息行包含的信息类别可以是相同的,也可以是不同的。终端设备可以根据与每个文本行对应的信息行中所包含的信息类别,确定出每个文本行中的文本框的信息类别,从而得到每个文本框对应的信息类别。
通过本实施例,通过对文本框进行分行,并确定文本行与预设的信息行之间的对应关系,从而确定每个文本框对应的信息类别,可以提高与文本框对应的信息类别识别的准确性。
在一个示例性实施例中,根据多个文本框的位置信息对多个文本框进行分行处理,得到多个文本行包括:
S51,根据多个文本框在第一方向上的位置坐标对多个文本框进行排序,得到文本框序列,其中,第一方向为与证件区域图像的图像方向垂直的方向,证件区域图像的图像方向为多个文本框的方向中重复次数最多的方向;
S52,从文本框序列中依次获取文本框作为当前文本框执行分行操作,直到文本框序列中的所有文本框均已完成分行。
根据多个文本框在第一方向上的位置坐标,终端设备可以对多个文本框进行排序,得到文本框序列,其中,第一方向为与证件区域图像的图像方向垂直的方向(例如,y方向),证件区域图像的图像方向为多个文本框的方向中重复次数最多的方向,即,上述目标图像方向。例如,可以将所有文本框按y坐标排序。
对于文本框序列,终端设备可以从文本框序列中依次获取一个文本框作为当前文本框。如果当前文本框为第一个文本框,可以直接确定其为一个行的开始。如果当前文本框不是第一个文本框,则可以确定存在当前文本框的参考框,即,文本框序列中当前文本框的上一个文本框。终端设备可以确定当前文本框和参考框在第二方向上的第一重叠比例,这里的第二方向为证件区域图像的图像方向,例如,x方向。
如果第一重叠比例大于或者等于第一比例阈值,可以确定当前文本框与参考框位于不同行;如果第一重叠比例小于第一比例阈值,则可以确定当前文本框与参考框在第二方向上相邻的两个边缘,例如,在x方向上相邻的两个边缘。如果两个边缘在第一方向上的第二重叠比例大于或者等于第二比例阈值,可以确定当前文本框与参考框位于同一行,否则,可以确定当前文本框与参考框位于不同行。
在当前文本框已完成分行之后,如果文本框序列中还有其他文本框,则可以重新选取文本框作为当前文本框,重复执行上述分行操作;如果文本框序列中的所有文本框均已完成分行,则分行结束。在结束分行之后,终端设备可以得到多个文本行。
例如,比较当前框与参考框的y坐标,进行分行处理,分行后每行文本框按x坐标排序。如果参考框与当前文本框在x方向上存在较大区域交叠,则比较框(即,当前文本框)在参考框的下一行。
考虑到驾驶证、行驶证等同一行的文本框也可能存在较大位置偏移,如图4所示,参考框与当前文本框不交叠的情况需分别处理。如果参考框在当前文本框右侧(如图4所示),比较参考框的左侧边缘与比较框的右侧边缘y方向上的交叠占文本框高度的比例,判断比较框在参考框的同一行还是下一行。如果参考框在当前文本框左侧(如图5所示),比较参考框的右侧边缘与比较框的左侧边缘y方向上的交叠。判断完毕后,将当前文本框置为参考框,继续判断下一个文本框在同一行还是下一行。
通过本实施例,基于文本框之间在不同方向的重叠关系进行分行,可以兼容证件不同的版式,提高文本框分行的准确性。
在一个示例性实施例中,在从目标证件的多个信息行中分别确定出与每个文本行对应的信息行之前,上述方法还包括:
S61,在多个文本行中文本行之间的间隔大于或者目标间隔的相邻文本行之间添加无效行,得到更新后的多个文本行,其中,无效行为不进行信息行匹配的辅助行。
基于拍摄角度等原因可能存在未拍摄到部分信息行的情况,在此情况下,会存在行漏检现象。为了确定是否存在行漏检的情况,终端设备可以确定多个文本行中相邻的文本行之间的间隔。如果相邻的两个文本行之间的间隔大于或者等于目标间隔,可以在两个文本行之间添加无效行,从而得到更新后的多个文本行。无效行是辅助进行信息行匹配的,在进行文本行与信息行的匹配时,如果是文本行是无效行,则直接忽略,不进行信息行匹配。
例如,可以通过连续两行之间的间距判断中间是否存在行漏检现象,若存在,添加相应的无效行,无效行可通过设置信息类别为-1进行区分。在进行信息行匹配时,若遇到无效行即跳过。
通过本实施例,基于文本行的间距在文本行之间添加无效行,可以提高信息行匹配的准确性。
在一个示例性实施例中,为提高版面分析的鲁棒性,可以将目标证件的证件内容划分成多个参考区域,多个参考区域中的每个参考区域可以包含多个信息行中的至少一个信息行。可选地,可以将目标证件的证件内容划分成上下两个区域;对应地,可以将所有文本框分为上下区域分别进行版面分析,驾驶证以出生日期区分上下(出生日期属于下方区域),行驶证以车辆识别代号区分上下(车辆识别代号属于下方区域)。
对应地,在本实施例中,从目标证件的多个信息行中分别确定出与每个文本行对应的信息行包括:
S71,根据每个文本行的位置信息,确定每个文本行所属的参考区域,得到每个参考区域中的文本行;
S72,将每个参考区域中的文本行与每个参考区域所包含的信息行进行匹配,确定出与每个文本行对应的信息行。
在每个参考区域中,属于该参考区域的信息行的位置与该参考区域相对位置关系是确定的。根据每个文本行的位置信息,终端设备可以确定每一个文本行所属的参考区域,从而得到每个参考区域的文本行。
对于每个参考区域中的文本行,终端设备可以将其与每个参考区域所包含的信息行进行匹配,从而确定出与每个文本行对应的信息行。对于一个文本行,可以基于该文本行的位置信息、该文本行的相对位置关系、或者其他辅助信息,确定出与其匹配的信息行。
通过本实施例,通过对证件内容进行分区识别,可以提高信息行匹配的准确性,进而提高版面分析的鲁棒性。
在一个示例性实施例中,根据每个文本行的位置信息,确定每个文本行所属的参考区域包括:
S81,确定证件区域图像中的印章区域,其中,印章区域为目标证件上的目标印章所在的区域;
S82,根据多个文本行的位置信息、以及多个文本行与印章区域的位置关系,确定每个文本行所属的参考区域。
在一般的证件中,或加盖印章以标识该证件的合法性,印章区域的位置一般是固定的,因此,使用印章区域来辅助进行版面分析。在进行文本检测时,可以同时检测证件区域图像中的印章区域。例如,文本检测的类别可以分为3类,分别为0°文本,180°文本,印章区域。这里的印章区域是指包含多行文本的整块红章区域。
可选地,也可以其他时机进行印章区域检测、或者通过其他方式确定证件区域图像中的印章区域。例如,有少部分图片没有印章区域(比如,由于照片遮挡或磨损褪色的原因导致缺少印章区域),可以根据证件ROI区域的宽和高手动设置印章区域坐标信息。本实施例中对于获取印章区域的方式不做限定。
终端设备可以根据多个文本行的位置信息、以及多个文本行与印章区域的位置关系,确定每个文本行所属的参考区域。例如,可以根据多个文本行的数量确定存在行漏检,并基于是否存在行漏检采用不同的方式进行版面分析。
如果不存在(例如,多个文本行的数量达到数量阈值),则可以根据多个文本行的位置关系,确定属于每个参考区域的文本行;或者,也可以直接将文本行与信息行进行对应匹配,而无需划分不同的参考区域。
如果存在行漏检,则可以基于多个文本行的位置信息、以及多个文本行与印章区域的位置关系,确定每个文本行所属的参考区域。例如,对于在印章区域以上的文本行(y方向坐标大于印章区域y方向坐标),可以将其确定为属于印章以上区域;对于在印章区域以下的文本行,可以将其确定为属于印章以下区域;对于与印章区域在y方向有重叠的文本行,可以基于该文本行x方向的坐标,确定其所属的区域。
例如,在得到0°证件图像的基础上,可以结合印章区域对其进行版面分析,确定印章以上(下)区域的文本行,进而获得每个文本框对应的信息类别。
通过本实施例,通过印章区域辅助进行版面分析,可以提高信息行匹配的准确性,进而提高版本分析鲁棒性。
在一个示例性实施例中,将每个参考区域中的文本行与每个参考区域所包含的信息行进行匹配,确定出与每个文本行对应的信息行包括:
S91,确定目标参考区域中的文本行的文本行数,其中,目标参考区域为多个参考区域中的任意一个;
S92,在目标参考区域中的文本行的文本行数为目标行数的情况下,将目标参考区域中的文本行与目标参考区域所包含的信息行进行对应匹配,确定出与目标参考区域中的各个文本行对应的信息行。
在本实施例中,可以根据每个参考区域所包含的文本行的文本行数进行信息行匹配。对于多个参考区域中的任意一个参考区域,即,目标参考区域,终端设备可以首先确定目标参考区域中的文本行的文本行数。
如果目标参考区域中的文本行的文本行数为目标行数,可以确定目标参考区域内不存在行漏检,可以将目标参考区域中的文本行与目标参考区域所包含的信息行进行对应匹配,也就是,直接进行信息类别分析,从而确定目标参考区域中的各个文本行对应的信息行。
示例性地,在印章以上(下)区域分析时,可以首先通过连续两行之间的间距判断中间是否存在行漏检现象,若存在,添加相应的无效行。添加完无效行之后若该区域的行数符合既定行数,即可直接进行信息类别分析。比如,驾驶证上半区域行数大于等于3(分别是证号行、姓名行、地址行,地址可能有两行),说明没有行漏检,可从上到下对每行进行分析,如第一行即为证号,第三行及以下即为地址行,第二行根据x坐标和文本框长度区分姓名、性别、国籍项。
通过本实施例,基于参考区域中包含的文本行的文本行数进行信息行匹配,可以提高信息行匹配的准确性和效率。
在一个示例性实施例中,将每个参考区域中的文本行与每个参考区域所包含的信息行进行匹配,确定出与每个文本行对应的信息行还包括:
S101,在目标参考区域中的文本行的文本行数小于目标行数的情况下,根据位置参考信息,确定出与目标参考区域中的首个文本行所对应的目标信息行,其中,位置参考信息包括以下至少之一:首个文本行所包含的文本框数量,首个文本行与证件区域图像中的印章区域的位置关系,首个文本行中的文本框的宽高比,印章区域为目标证件上的目标印章所在的区域;
S102,将目标参考区域中的文本行与目标信息行以及目标信息行以下的信息行进行对应匹配,确定出与目标参考区域中的各个文本行对应的信息行。
如果目标参考区域中的文本行的文本行数小于目标行数,比如,在添加完无效行之后仍然小于预期的数量,可以首先确定与目标参考区域的第一个文本行对应的目标信息行;然后将目标参考区域中的文本行与目标信息行以及目标信息行以下的信息行进行对应匹配,从而确定出与目标参考区域中的各个文本行对应的信息行。
确定目标信息行所依据的参考信息(即,位置参考信息)可以有多种,可以包括但不限于以下至少之一:首个文本行所包含的文本框数量,首个文本行与证件区域图像中的印章区域的位置关系,首个文本行中的文本框的宽高比。这里的印章区域是目标证件上的目标印章所在的区域,与前述实施例中的印章区域是类似的,在此不做赘述。
例如,添加完无效行之后若该区域的行数小于既定行数,需要再判断起始行所对应的信息行,可以通过该行文本框个数、相对于印章的位置、文本框宽高比等进行分析,确定起始信息行后,重复前述实施例中的匹配步骤即可。
通过本实施例,基于位置参考信息确定出参考区域中的首个文本行所对应的信息行,进而基于首个文本行所对应的信息行进行信息行匹配,可以提高信息行匹配的准确性和效率。
在一个示例性实施例中,在对目标文本框进行文本识别,得到目标识别结果之后,上述方法还包括:
S111,获取与目标识别结果所对应的目标校验信息,其中,目标校验信息是对目标文本框的关联文本框进行文本识别所得到的识别结果;
S112,使用目标校验信息对目标识别结果进行校验,得到目标校验结果;
S113,在目标校验结果为校验通过的情况下,对目标识别结果进行结构化输出。
在得到目标识别结果之后,终端设备可以直接将目标识别结果进行结构化输出。可选地,为了提高识别结果输出的准确性,可以首先对目标识别结果进行后处理校验,例如,驾驶证主副页证号互校验,证号与性别、出生日期互校验等。终端设备可以获取对目标文本框的关联文本框进行文本识别所得到的识别结果,即目标校验信息,然后使用目标校验信息对目标识别结果进行校验,得到目标校验结果。
如果目标校验结果为校验通过,表示未从目标识别结果中发现错误信息,可以将目标识别结果进行结构化输出。如果目标校验结果为校验通过,表示从目标识别结果中发现错误信息,此时,可以重新进行识别,或者,输出错误提示信息。本实施例中对此不做限定。
通过本实施例,通过对识别结果进行后处理校验,可以提高证件信息识别的准确性。
下面结合可选示例对本申请实施例中的证件图像的识别方法进行解释说明。在本可选示例中,目标证件为驾驶证、行驶证等,也就是,本可选示例中提供的一种行驶证、驾驶证等的识别方法,涉及到卡证识别领域。
在进行卡证识别时,如果通过传统图像处理算法确定印章区域,辅助定位并识别双码区域信息,由于传统方法定位对光照污迹等均不鲁棒,支持识别的条目信息较少;如果在利用证件回归模型进行条目定位时,基于证件中条目的初始位置,回归得到各个条目的实际位置,由于条目的实际位置和方向均有随机偏移的情况,难以选择一种科学的标注方式表示初始位置和实际位置;如果仅使用图神经网络进行版面分析,由于将文本框变为节点后丢失文本框的宽高信息、以及在原图中的相对位置信息,对于检测少框等情况难以区分条目;而如果基于红章位置状态对行驶证页面进行矫正和提取,基于模板裁剪定位文本框,由于根据局部红章信息矫正证件整体、以及使用固定裁剪模板裁剪条目文本框鲁棒性较差,对存在局部遮挡、残缺、反光、污迹的证件识别效果差。
本可选示例中证件图像的识别方法是一种驾驶证行驶证智能识别方案,可以提高驾驶证行驶证信息提取的准确率。如图6所示,本可选示例中的证件图像的识别方法的流程可以包括以下步骤:
步骤S602,输入证件图像。
步骤S604,证件ROI检测(为了减轻背景干扰)。
步骤S606,ROI区域分割。
检测得到的区域存在倾斜透视等情况,对ROI区域再进行分割矫正,确保待处理图像只包含证件内容。
步骤S608,文本检测与方向分类。
证件ROI区域检测类别设置为0°文本、180°文本以及印章3个类别。在证件图像上进行文本检测与方向分类,可以对图像进行旋转矫正,可以提高页面角度分类准确性,并为后续版面分析提供辅助参考。
步骤S610,版面分析。
对矫正后的图像结合文本框进行版面分析,获得所有文本框的信息类别。可以根据比较框与参考框的相对位置关系进行分行判断,划分印章上下区域,并分别进行局部版面分析,可以提高整体版面分析的准确率与鲁棒性,很好地支持了部分框漏检的情况。
步骤S612,文本识别。
根据用户配置可以进行文本识别,得到用户所需的识别结果。此外,还可使用校验信息对识别结果进行校验,从而提高识别结果的准确性。
步骤S614,结构化输出。
得到的识别结果可以进行结构化输出。
通过本可选示例,先检测后分割,在证件ROI检测的基础上对ROI区域分割,将证件ROI区域矫正后再进行文本检测与识别,可以减轻背景信息干扰,提高后续步骤的准确率,算法鲁棒性好;版面分析的分行规则对于印刷内容倾斜时的条目分类鲁棒性较高;并且,对印章上下子区域分别进行版面分析,降低了图像反光等原因造成的文本框漏检情况的版面分析难度,提高版面分析准确率与鲁棒性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述证件图像的识别方法的证件图像的识别装置。图7是根据本申请实施例的一种可选的证件图像的识别装置的结构框图,如图7所示,该装置可以包括:
第一获取单元702,用于获取针对目标证件采集的待识别证件图像中的证件区域图像,其中,证件区域图像为移除待识别证件图像中的背景信息所得到的图像;
检测单元704,与第一获取单元702相连,用于对证件区域图像进行目标检测,得到证件区域图像包含的多个文本框;
分析单元706,与检测单元704相连,用于基于多个文本框中的每个文本框的位置信息对证件区域图像进行版面分析,得到与每个文本框对应的信息类别;识别单元708,与分析单元706相连,用于对目标文本框进行文本识别,得到目标识别结果,其中,该目标文本框包括多个文本框中与待识别的目标信息类别对应的文本框。
需要说明的是,该实施例中的第一获取单元702可以用于执行上述步骤S202,该实施例中的检测单元704可以用于执行上述步骤S204,该实施例中的分析单元706可以用于执行上述步骤S206,该实施例中的识别单元708可以用于执行上述步骤S208。
通过上述模块,获取针对目标证件采集的待识别证件图像中的证件区域图像,其中,证件区域图像为移除待识别证件图像中的背景信息所得到的图像;对证件区域图像进行目标检测,得到证件区域图像包含的多个文本框;基于多个文本框中的每个文本框的位置信息对证件区域图像进行版面分析,得到与每个文本框对应的信息类别;对目标文本框进行文本识别,得到目标识别结果,其中,该目标文本框包括多个文本框中与待识别的目标信息类别对应的文本框,解决了相关技术中的证件图像的识别方法存在证件信息提取的准确率低的问题,提高了证件信息提取准确率。
在一个示例性实施例中,第一获取单元包括:
检测模块,用于对待识别证件图像进行证件区域检测,得到初始区域图像,其中,初始区域图像为包含目标证件的证件内容的矩形图像;
分割模块,用于对初始区域图像进行区域分割,得到与证件内容对应的区域顶点,其中,区域顶点为包含证件内容的多边形区域的顶点;
变换模块,用于对以区域顶点为顶点的多边形区域进行透射变换,得到证件区域图像。
在一个示例性实施例中,上述装置还包括:
第一旋转单元,用于在获取针对目标证件采集的待识别证件图像中的证件区域图像之后,在证件区域图像的宽高比小于或者等于目标比例阈值的情况下,将证件区域图像沿着目标方向旋转目标角度,得到旋转后的证件区域图像,其中,旋转后的证件区域图像的宽高比大于或者等于目标比例阈值。
在一个示例性实施例中,上述装置还包括:
确定单元,用于在对证件区域图像进行目标检测,得到证件区域图像包含的多个文本框之后,根据多个文本框的方向,确定出目标图像方向,其中,目标图像方向为多个文本框的方向中重复次数最多的方向;
第二旋转单元,用于对证件区域图像进行旋转矫正,得到旋转矫正后的证件区域图像,其中,旋转矫正后的证件区域图像的图像方向为目标图像方向。
在一个示例性实施例中,分析单元包括:
分行模块,用于根据多个文本框的位置信息对多个文本框进行分行处理,得到多个文本行,其中,多个文本行中的每个文本行包含多个文本框中的至少一个文本框;
第一确定模块,用于从目标证件的多个信息行中分别确定出与每个文本行对应的信息行;
第二确定模块,用于根据与每个文本行对应的信息行中所包含的信息类别,确定出每个文本行中的文本框的信息类别,以得到每个文本框对应的信息类别。
在一个示例性实施例中,分行模块包括:
排序子模块,用于根据多个文本框在第一方向上的位置坐标对多个文本框进行排序,得到文本框序列,其中,第一方向为与证件区域图像的图像方向垂直的方向,证件区域图像的图像方向为多个文本框的方向中重复次数最多的方向;
执行子模块,用于从文本框序列中依次获取文本框作为当前文本框执行以下分行操作,直到文本框序列中的所有文本框均已完成分行:在存在当前文本框的参考框的情况下,确定当前文本框和参考框在第二方向上的第一重叠比例,其中,参考框为文本框序列中当前文本框的上一个文本框,第二方向为证件区域图像的图像方向;在第一重叠比例大于或者等于第一比例阈值的情况下,确定当前文本框与参考框位于不同行;在第一重叠比例小于第一比例阈值的情况下,确定当前文本框与参考框在第二方向上相邻的两个边缘;在两个边缘在第一方向上的第二重叠比例大于或者等于第二比例阈值的情况下,确定当前文本框与参考框位于同一行;在两个边缘在第一方向上的第二重叠比例小于第二比例阈值的情况下,确定当前文本框与参考框位于不同行。
在一个示例性实施例中,上述装置还包括:
添加单元,用于在从目标证件的多个信息行中分别确定出与每个文本行对应的信息行之前,在多个文本行中文本行之间的间隔大于或者目标间隔的相邻文本行之间添加无效行,得到更新后的多个文本行,其中,无效行为不进行信息行匹配的辅助行。
在一个示例性实施例中,目标证件的证件内容包含多个参考区域,多个参考区域中的每个参考区域包含多个信息行中的至少一个信息行。可选地,第一确定模块包括:
确定子模块,用于根据每个文本行的位置信息,确定每个文本行所属的参考区域,得到每个参考区域中的文本行;
匹配子模块,用于将每个参考区域中的文本行与每个参考区域所包含的信息行进行匹配,确定出与每个文本行对应的信息行。
在一个示例性实施例中,确定子模块包括:
第一确定子单元,用于确定证件区域图像中的印章区域,其中,印章区域为目标证件上的目标印章所在的区域;
第二确定子单元,用于根据多个文本行的位置信息、以及多个文本行与印章区域的位置关系,确定每个文本行所属的参考区域。
在一个示例性实施例中,匹配子模块包括:
第三确定子单元,用于确定目标参考区域中的文本行的文本行数,其中,目标参考区域为多个参考区域中的任意一个;
第一匹配子单元,用于在目标参考区域中的文本行的文本行数为目标行数的情况下,将目标参考区域中的文本行与目标参考区域所包含的信息行进行对应匹配,确定出与目标参考区域中的各个文本行对应的信息行。
在一个示例性实施例中,匹配子模块还包括:
第四确定子单元,用于在目标参考区域中的文本行的文本行数小于目标行数的情况下,根据位置参考信息,确定出与目标参考区域中的首个文本行所对应的目标信息行,其中,位置参考信息包括以下至少之一:首个文本行所包含的文本框数量,首个文本行与证件区域图像中的印章区域的位置关系,首个文本行中的文本框的宽高比,印章区域为目标证件上的目标印章所在的区域;
第二匹配子单元,用于将目标参考区域中的文本行与目标信息行以及目标信息行以下的信息行进行对应匹配,确定出与目标参考区域中的各个文本行对应的信息行。
在一个示例性实施例中,上述装置还包括:
第二获取单元,用于在对目标文本框进行文本识别,得到目标识别结果之后,获取与目标识别结果所对应的目标校验信息,其中,目标校验信息是对目标文本框的关联文本框进行文本识别所得到的识别结果;
校验单元,用于使用目标校验信息对目标识别结果进行校验,得到目标校验结果;
输出单元,用于在所述目标校验结果为校验通过的情况下,对所述目标识别结果进行结构化输出。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行本申请实施例中上述任一项证件图像的识别方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取针对目标证件采集的待识别证件图像中的证件区域图像,其中,证件区域图像为移除待识别证件图像中的背景信息所得到的图像;
S2,对证件区域图像进行目标检测,得到证件区域图像包含的多个文本框;
S3,基于多个文本框中的每个文本框的位置信息对证件区域图像进行版面分析,得到与每个文本框对应的信息类别;
S4,对目标文本框进行文本识别,得到目标识别结果,其中,该目标文本框包括多个文本框中与待识别的目标信息类别对应的文本框。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种用于实施上述证件图像的识别方法的电子装置,该电子装置可以是服务器、终端、或者其组合。
图8是根据本申请实施例的一种可选的电子装置的结构框图,如图8所示,包括处理器802、通信接口804、存储器806和通信总线808,其中,处理器802、通信接口804和存储器806通过通信总线808完成相互间的通信,其中,
存储器806,用于存储计算机程序;
处理器802,用于执行存储器806上所存放的计算机程序时,实现如下步骤:
S1,获取针对目标证件采集的待识别证件图像中的证件区域图像,其中,证件区域图像为移除待识别证件图像中的背景信息所得到的图像;
S2,对证件区域图像进行目标检测,得到证件区域图像包含的多个文本框;
S3,基于多个文本框中的每个文本框的位置信息对证件区域图像进行版面分析,得到与每个文本框对应的信息类别;
S4,对目标文本框进行文本识别,得到目标识别结果,其中,该目标文本框包括多个文本框中与待识别的目标信息类别对应的文本框。
可选地,在本实施例中,通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子装置与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,上述存储器806中可以但不限于包括上述证件图像的识别装置中的第一获取单元702、检测单元704、分析单元706以及识别单元708。此外,还可以包括但不限于上述证件图像的识别装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图8所示的结构仅为示意,实施上述证件图像的识别方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (13)
1.一种证件图像的识别方法,其特征在于,包括:
获取针对目标证件采集的待识别证件图像中的证件区域图像,其中,所述证件区域图像为移除所述待识别证件图像中的背景信息所得到的图像;
对所述证件区域图像进行目标检测,得到所述证件区域图像包含的多个文本框;
基于所述多个文本框中的每个文本框的位置信息对所述证件区域图像进行版面分析,得到与所述每个文本框对应的信息类别;
对目标文本框进行文本识别,得到目标识别结果,其中,所述目标文本框包括所述多个文本框中与待识别的目标信息类别对应的文本框;
其中,所述基于所述多个文本框中的每个文本框的位置信息对所述证件区域图像进行版面分析,得到与所述每个文本框对应的信息类别包括:根据所述多个文本框的位置信息对所述多个文本框进行分行处理,得到多个文本行,其中,所述多个文本行中的每个文本行包含所述多个文本框中的至少一个文本框;
从所述目标证件的多个信息行中分别确定出与所述每个文本行对应的信息行,其中,所述目标证件的证件内容包含多个参考区域,所述多个参考区域中的每个参考区域包含所述多个信息行中的至少一个信息行;根据与所述每个文本行对应的信息行中所包含的信息类别,确定出所述每个文本行中的文本框的信息类别,以得到所述每个文本框对应信息类别;
其中,所述从所述目标证件的多个信息行中分别确定出与所述每个文本行对应的信息行包括:根据所述每个文本行的位置信息,确定所述每个文本行所属的参考区域,得到所述每个参考区域中的文本行;将所述每个参考区域中的文本行与所述每个参考区域所包含的信息行进行匹配,确定出与所述每个文本行对应的信息行。
2.根据权利要求1所述的方法,其特征在于,所述获取针对目标证件采集的待识别证件图像中的证件区域图像包括:
对所述待识别证件图像进行证件区域检测,得到初始区域图像,其中,所述初始区域图像为包含所述目标证件的证件内容的矩形图像;
对所述初始区域图像进行区域分割,得到与所述证件内容对应的区域顶点,其中,所述区域顶点为包含所述证件内容的多边形区域的顶点;
对以所述区域顶点为顶点的所述多边形区域进行透射变换,得到所述证件区域图像。
3.根据权利要求1所述的方法,其特征在于,在所述获取针对目标证件采集的待识别证件图像中的证件区域图像之后,所述方法还包括:
在所述证件区域图像的宽高比小于或者等于目标比例阈值的情况下,将所述证件区域图像沿着目标方向旋转目标角度,得到旋转后的所述证件区域图像,其中,旋转后的所述证件区域图像的宽高比大于或者等于所述目标比例阈值。
4.根据权利要求1所述的方法,其特征在于,在所述对所述证件区域图像进行目标检测,得到所述证件区域图像包含的多个文本框之后,所述方法还包括:
根据所述多个文本框的方向,确定出目标图像方向,其中,所述目标图像方向为所述多个文本框的方向中重复次数最多的方向;
对所述证件区域图像进行旋转矫正,得到旋转矫正后的所述证件区域图像,其中,旋转矫正后的所述证件区域图像的图像方向为所述目标图像方向。
5.根据权利要求1所述的方法,其特征在于,所述根据所述多个文本框的位置信息对所述多个文本框进行分行处理,得到多个文本行包括:
根据所述多个文本框在第一方向上的位置坐标对所述多个文本框进行排序,得到文本框序列,其中,所述第一方向为与所述证件区域图像的图像方向垂直的方向,所述证件区域图像的图像方向为所述多个文本框的方向中重复次数最多的方向;
从所述文本框序列中依次获取文本框作为当前文本框执行以下分行操作,直到所述文本框序列中的所有文本框均已完成分行:
在存在所述当前文本框的参考框的情况下,确定所述当前文本框和所述参考框在第二方向上的第一重叠比例,其中,所述参考框为所述文本框序列中所述当前文本框的上一个文本框,所述第二方向为所述证件区域图像的图像方向;
在所述第一重叠比例大于或者等于第一比例阈值的情况下,确定所述当前文本框与所述参考框位于不同行;
在所述第一重叠比例小于所述第一比例阈值的情况下,确定所述当前文本框与所述参考框在所述第二方向上相邻的两个边缘;
在所述两个边缘在所述第一方向上的第二重叠比例大于或者等于第二比例阈值的情况下,确定所述当前文本框与所述参考框位于同一行;
在所述两个边缘在所述第一方向上的第二重叠比例小于第二比例阈值的情况下,确定所述当前文本框与所述参考框位于不同行。
6.根据权利要求1所述的方法,其特征在于,在所述从所述目标证件的多个信息行中分别确定出与所述每个文本行对应的信息行之前,所述方法还包括:
在所述多个文本行中文本行之间的间隔大于或者目标间隔的相邻文本行之间添加无效行,得到更新后的所述多个文本行,其中,所述无效行为不进行信息行匹配的辅助行。
7.根据权利要求1所述的方法,其特征在于,所述根据所述每个文本行的位置信息,确定所述每个文本行所属的参考区域包括:
确定所述证件区域图像中的印章区域,其中,所述印章区域为所述目标证件上的目标印章所在的区域;
根据所述多个文本行的位置信息、以及所述多个文本行与所述印章区域的位置关系,确定所述每个文本行所属的参考区域。
8.根据权利要求1所述的方法,其特征在于,所述将所述每个参考区域中的文本行与所述每个参考区域所包含的信息行进行匹配,确定出与所述每个文本行对应的信息行包括:
确定目标参考区域中的文本行的文本行数,其中,所述目标参考区域为所述多个参考区域中的任意一个;
在所述目标参考区域中的文本行的文本行数为目标行数的情况下,将所述目标参考区域中的文本行与所述目标参考区域所包含的信息行进行对应匹配,确定出与所述目标参考区域中的各个文本行对应的信息行。
9.根据权利要求8所述的方法,其特征在于,所述将所述每个参考区域中的文本行与所述每个参考区域所包含的信息行进行匹配,确定出与所述每个文本行对应的信息行还包括:
在所述目标参考区域中的文本行的文本行数小于所述目标行数的情况下,根据位置参考信息,确定出与所述目标参考区域中的首个文本行所对应的目标信息行,其中,所述位置参考信息包括以下至少之一:所述首个文本行所包含的文本框数量,所述首个文本行与所述证件区域图像中的印章区域的位置关系,所述首个文本行中的文本框的宽高比,所述印章区域为所述目标证件上的目标印章所在的区域;
将所述目标参考区域中的文本行与所述目标信息行以及所述目标信息行以下的信息行进行对应匹配,确定出与所述目标参考区域中的各个文本行对应的信息行。
10.根据权利要求1至9中任一项所述的方法,其特征在于,在所述对目标文本框进行文本识别,得到目标识别结果之后,所述方法还包括:
获取与所述目标识别结果所对应的目标校验信息,其中,所述目标校验信息是对所述目标文本框的关联文本框进行文本识别所得到的识别结果;
使用所述目标校验信息对所述目标识别结果进行校验,得到目标校验结果;在所述目标校验结果为校验通过的情况下,对所述目标识别结果进行结构化输出。
11.一种证件图像的识别装置,其特征在于,包括:
第一获取单元,用于获取针对目标证件采集的待识别证件图像中的证件区域图像,其中,所述证件区域图像为移除所述待识别证件图像中的背景信息所得到的图像;
检测单元,用于对所述证件区域图像进行目标检测,得到所述证件区域图像包含的多个文本框;
分析单元,用于基于所述多个文本框中的每个文本框的位置信息对所述证件区域图像进行版面分析,得到与所述每个文本框对应的信息类别;
识别单元,用于对目标文本框进行文本识别,得到目标识别结果,其中,所述目标文本框包括所述多个文本框中与待识别的目标信息类别对应的文本框;
其中,所述分析单元包括:分行模块,用于根据所述多个文本框的位置信息对所述多个文本框进行分行处理,得到多个文本行,其中,所述多个文本行中的每个文本行包含所述多个文本框中的至少一个文本框;第一确定模块,用于从所述目标证件的多个信息行中分别确定出与所述每个文本行对应的信息行,其中,所述目标证件的证件内容包含多个参考区域,所述多个参考区域中的每个参考区域包含所述多个信息行中的至少一个信息行;第二确定模块,用于根据与所述每个文本行对应的信息行中所包含的信息类别,确定出所述每个文本行中的文本框的信息类别,以得到所述每个文本框对应信息类别;
其中,所述第一确定模块包括:确定子模块,用于根据所述每个文本行的位置信息,确定所述每个文本行所属的参考区域,得到所述每个参考区域中的文本行;匹配子模块,用于将所述每个参考区域中的文本行与所述每个参考区域所包含的信息行进行匹配,确定出与所述每个文本行对应的信息行。
12.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至10中任一项所述的方法。
13.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860243.2A CN113420756B (zh) | 2021-07-28 | 2021-07-28 | 证件图像的识别方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860243.2A CN113420756B (zh) | 2021-07-28 | 2021-07-28 | 证件图像的识别方法和装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420756A CN113420756A (zh) | 2021-09-21 |
CN113420756B true CN113420756B (zh) | 2023-05-12 |
Family
ID=77718418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110860243.2A Active CN113420756B (zh) | 2021-07-28 | 2021-07-28 | 证件图像的识别方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420756B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114049646A (zh) * | 2021-11-29 | 2022-02-15 | 中国平安人寿保险股份有限公司 | 一种银行卡识别方法、装置、计算机设备及存储介质 |
CN114220111B (zh) * | 2021-12-22 | 2022-09-16 | 深圳市伊登软件有限公司 | 基于云平台的图文批量识别方法及系统 |
CN114332865B (zh) * | 2022-03-11 | 2022-06-03 | 北京锐融天下科技股份有限公司 | 一种证件ocr识别方法及系统 |
CN117808815B (zh) * | 2024-03-01 | 2024-04-26 | 北京阿迈特医疗器械有限公司 | 植、介入性管状器械的外壁质量检测方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492643A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于ocr的证件识别方法、装置、计算机设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569830B (zh) * | 2019-08-01 | 2023-08-22 | 平安科技(深圳)有限公司 | 多语言文本识别方法、装置、计算机设备及存储介质 |
CN110689010B (zh) * | 2019-09-27 | 2021-05-11 | 支付宝(杭州)信息技术有限公司 | 一种证件识别方法及装置 |
CN111259891B (zh) * | 2020-01-19 | 2023-04-18 | 福建升腾资讯有限公司 | 一种自然场景下身份证识别方法、装置、设备和介质 |
CN111898601A (zh) * | 2020-07-14 | 2020-11-06 | 浙江大华技术股份有限公司 | 一种身份证要素提取方法及装置 |
-
2021
- 2021-07-28 CN CN202110860243.2A patent/CN113420756B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492643A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于ocr的证件识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113420756A (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113420756B (zh) | 证件图像的识别方法和装置、存储介质及电子装置 | |
CN109002820B (zh) | 一种车牌识别方法、装置及相关设备 | |
EP3476092B1 (en) | Automation of image validation | |
CN108875731B (zh) | 目标识别方法、装置、系统及存储介质 | |
CN110097068B (zh) | 相似车辆的识别方法和装置 | |
JP7026165B2 (ja) | テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 | |
CN112258507B (zh) | 互联网数据中心的目标对象检测方法、装置和电子设备 | |
CN111639648A (zh) | 证件识别方法、装置、计算设备和存储介质 | |
CN116168351B (zh) | 电力设备巡检方法及装置 | |
CN112001200A (zh) | 识别码识别方法、装置、设备、存储介质和系统 | |
CN112988557A (zh) | 一种搜索框定位方法、数据采集方法、装置及介质 | |
CN110135288B (zh) | 一种电子证照的快速核对方法及装置 | |
CN112052702A (zh) | 一种识别二维码的方法和装置 | |
CN111858977A (zh) | 票据信息采集方法、装置、计算机设备和存储介质 | |
CN110647895A (zh) | 一种基于登录框图像的钓鱼页面识别方法及相关设备 | |
CN110909816B (zh) | 图片识别方法和装置 | |
CN111060507B (zh) | 一种车辆验证方法及装置 | |
CN115374517A (zh) | 布线软件的测试方法、装置、电子设备及存储介质 | |
CN112883973A (zh) | 车牌识别方法、装置、电子设备和计算机存储介质 | |
CN114708214A (zh) | 一种烟盒缺陷检测方法、装置、设备及介质 | |
CN113343968A (zh) | 多模板证书快速审证方法、系统、介质及装置 | |
CN113591657A (zh) | Ocr版面识别的方法、装置、电子设备及介质 | |
CN111242112A (zh) | 一种图像处理方法、身份信息处理方法及装置 | |
CN112288066B (zh) | 图形码打码和识别方法、装置及系统 | |
CN110502658B (zh) | 文档图像页码迁移方法、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |