CN111242112A - 一种图像处理方法、身份信息处理方法及装置 - Google Patents
一种图像处理方法、身份信息处理方法及装置 Download PDFInfo
- Publication number
- CN111242112A CN111242112A CN201811445295.8A CN201811445295A CN111242112A CN 111242112 A CN111242112 A CN 111242112A CN 201811445295 A CN201811445295 A CN 201811445295A CN 111242112 A CN111242112 A CN 111242112A
- Authority
- CN
- China
- Prior art keywords
- image
- card
- area
- target
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 230000010365 information processing Effects 0.000 title claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 31
- 238000002372 labelling Methods 0.000 claims abstract description 24
- 238000010606 normalization Methods 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012015 optical character recognition Methods 0.000 claims description 10
- 230000003042 antagnostic effect Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003707 image sharpening Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Abstract
本发明提供一种图像处理方法、身份信息处理方法及装置,该方法包括:对待处理图像进行预处理,得到目标图像;其中,所述待处理图像中包括具有目标格式的文字区域,所述预处理至少包括归一化处理;将所述目标图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域;其中,所述第一生成对抗网络模型为基于图像样本和其对应的第一标签图像训练得到的,所述图像样本为包括具有所述目标格式的文字区域的图像,所述第一标签图像为标注所述图像样本中文字区域后得到的图像。通过本发明提供的图像处理方法,可以减少文字倾斜、文字噪声等对文字区域定位的影响,提高定位图像的文字区域的准确性。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像处理方法、身份信息处理方法及装置。
背景技术
随着互联网技术的不断发展,涌现了大量的互联网应用,例如,互联网购物、互联网金融(例如,信贷、理财、支付等)等。为了保证安全性,许多互联网应用都需要对用户进行身份信息的核验。目前,通常是用户手动输入姓名、地址、身份证号等信息,这种方式常常造成实名认证慢、操作麻烦、易出错等问题。
为了解决上述问题,出现了基于用户上传的卡证图像(例如,身份证图像)自动识别上述身份信息的方案。然而,这种方案需要先定位卡证图像中文字区域,现有技术通常基于卡证图像中文字块的水平投影和垂直投影,进而定位文字块,这种方法比较容易受到干扰,比如,文字行倾斜、有污点噪声等,就容易造成定位不准确。
在现有技术中,针对定位卡证图像等的文字区域准确性较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供一种图像处理方法、身份信息处理方法及装置,以解决定位卡证图像等的文字区域准确性较低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种图像处理方法。该方法包括:
对待处理图像进行预处理,得到目标图像;其中,所述待处理图像中包括具有目标格式的文字区域,所述预处理至少包括归一化处理;
将所述目标图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域;其中,所述第一生成对抗网络模型为基于图像样本和其对应的第一标签图像训练得到的,所述图像样本为包括具有所述目标格式的文字区域的图像,所述第一标签图像为标注所述图像样本中文字区域后得到的图像。
第二方面,本发明实施例还提供一种身份信息处理方法。该方法包括:
获取卡证图像,其中,所述卡证图像为包括身份信息的图像;
利用上述的图像处理方法,提取所述卡证图像中的身份信息;
显示并保存所述身份信息。
第三方面,本发明实施例还提供一种图像处理装置。该装置包括:
预处理模块,用于对待处理图像进行预处理,得到目标图像;其中,所述待处理图像中包括具有目标格式的文字区域,所述预处理至少包括归一化处理;
定位模块,用于将所述目标图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域;其中,所述第一生成对抗网络模型为基于图像样本和其对应的第一标签图像训练得到的,所述图像样本为包括具有所述目标格式的文字区域的图像,所述第一标签图像为标注所述图像样本中文字区域后得到的图像。
第四方面,本发明实施例还提供一种图像处理装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的图像处理方法的步骤。
第五方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的图像处理方法的步骤。
本发明实施例中,通过对待处理图像进行预处理,得到目标图像;其中,所述待处理图像中包括具有目标格式的文字区域,所述预处理至少包括归一化处理;将所述目标图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域;其中,所述第一生成对抗网络模型为基于图像样本和其对应的第一标签图像训练得到的,所述图像样本为包括具有所述目标格式的文字区域的图像,所述第一标签图像为标注所述图像样本中文字区域后得到的图像。由于第一生成对抗网络模型具有较强的鲁棒性,可以减少文字倾斜、文字噪声等对文字区域定位的影响,提高定位图像的文字区域的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像处理方法的流程图;
图2是本发明实施例提供的一种标注文字区域的示意图;
图3是本发明实施例提供的另一种标注文字区域的示意图;
图4是本发明实施例提供的另一种图像处理方法的流程图;
图5是本发明实施例提供的一种卡证图像的示意图;
图6是本发明实施例提供的一种标注卡证图像的卡证区域的示意图;
图7是本发明实施例提供的一种生成模型的示意图;
图8是本发明实施例提供的一种判决模型的示意图;
图9是本发明实施例提供的一种图像处理装置的结构图;
图10是本发明实施例提供的另一种图像处理装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种图像处理方法。参见图1,图1是本发明实施例提供的一种图像处理方法的流程图,如图1所示,包括以下步骤:
步骤101、对待处理图像进行预处理,得到目标图像;其中,所述待处理图像中包括具有目标格式的文字区域,所述预处理至少包括归一化处理。
本发明实施例中,上述目标格式可以是任一格式,例如,身份证中文字的格式、银行卡中文字的格式、护照中文字的格式、简历中文字的格式、申请表中文字的格式等等。上述待处理图像可以是卡证图像(例如,身份证、银行卡、驾驶证、护照、学生证、工作证等),也可以是其他具有统一格式的图像,例如,基于某一简历模板生成的简历的图像、表格(例如,户口申请表、护照申请表、公司入职表等)的图像等。
上述归一化处理是指将待处理图像转换为第一预设大小,例如,256*256、128*256等。具体的,上述第一预设大小可以根据下述第一生成对抗网络模型进行设置。
需要说明的是,上述预处理还可以包括但不限于图像增强处理、剔除背景处理、二值化处理等。其中,上述图像增强处理可以包括图像滤波处理、图像锐化处理等。上述剔除背景处理是指剔除待处理图像中的背景区域,例如,某个卡证图像包括卡证区域和背景区域,通过上述剔除背景处理可以剔除卡证图像中的背景区域,以提取卡证图像中的卡证区域。
步骤102、将所述目标图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域;其中,所述第一生成对抗网络模型为基于图像样本和其对应的第一标签图像训练得到的,所述图像样本为包括具有所述目标格式的文字区域的图像,所述第一标签图像为标注所述图像样本中文字区域后得到的图像。
本发明实施例中,上述第一生成对抗网络模型是一种深度学习模型,通常包括生成模型和判别模型。上述图像样本为具有上述目标格式的文字区域的图像。例如,上述目标格式为身份证中文字的格式,则图像样本为身份证图像;上述目标格式为护照中文字的格式,则图像样本也为护照图像;上述目标格式为简历中文字格式,则图像样本具有该格式的简历图像;等等。需要说明的是,图像样本的数量可以根据实际需求进行合理设置,本发明对此不做限定。
上述第一标签图像为标注图像样本中文字区域后得到的图像。例如,可以采用预设标识标注图像样本中的文字区域,如图2所示,采用矩形框标注身份证图像中的文字区域,也即采用矩形框标注身份证图像中的“张三”、“男”、“汉”、“1990”、“12”、“2”、“湖南省长沙市XXXXXX”和“430XXXXXXXXXXXXXXX”;也可以是标注图像样本中文字区域的像素值为第一预设像素值(例如,255),标注图像样本中除文字区域之外的区域的像素值为第二预设像素值(例如,0),如图3所示,身份证图像中的文字区域均标注为白色,身份证图像中出文字区域之外的区域均标注为黑色。
需要说明的是,上述目标图像中的文字区域可以包括目标图像中的部分或是全部的文字,可以根据实际需求进行设置。例如,对于图2所示的身份证图像,如果仅需要定位定姓名和身份证号码,则在训练第一生成对抗网络模型的过程中可以仅对身份证图像样本中的姓名和身份证号码进行标注,也即仅标注“张三”和“430XXXXXXXXXXXXXXX”。
实际应用中,待处理图像和用于训练第一生成对抗网络模型的图像样本具有相同格式的文字区域,例如,上述待处理图像和图像样本可以为相同类型的图像。例如,在需要定位身份证图像中的文字区域的情况下,可以预先基于身份证图像样本训练得到第一生成对抗网络模型;在需要定位银行图像中的文字区域的情况下,可以预先基于银行卡图像样本训练得到第一生成对抗网络模型;在需要定位简历图像中的文字区域的情况下,可以预先基于具有相同格式的简历图像样本训练得到第一生成对抗网络模型。
该步骤中,将目标图像输入第一生成对抗网络模型之后,输出的可以是标注了文字区域的图像,例如,采用预设颜色的矩形标注文字区域,或是文字区域的像素值为255。从而可以进一步基于标注了文字区域的图像进一步确定文字区域的坐标。例如,对于第一生成对抗网络模型输出的是文字区域的像素值为255图像,可以采用连通域分析,确定目标图像中文字区域的坐标。
本发明实施例中,上述图像处理装置可以是服务器,也可以是终端,其中,终端可以是手机、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)和个人数字助理(personal digital assistant,简称PDA)等。
本发明实施例的图像处理方法,对待处理图像进行预处理,得到目标图像;其中,所述待处理图像中包括具有目标格式的文字区域,所述预处理至少包括归一化处理;将所述目标图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域;其中,所述第一生成对抗网络模型为基于图像样本和其对应的第一标签图像训练得到的,所述图像样本为包括具有所述目标格式的文字区域的图像,所述第一标签图像为标注所述图像样本中文字区域后得到的图像。由于第一生成对抗网络模型具有较强的鲁棒性,可以减少文字倾斜、文字噪声等对文字区域定位的影响,提高定位图像的文字区域的准确性。此外,基于训练的第一生成对抗网络模型定位图像中文字区域,还可以提高定位图像的文字区域的速度。
参见图4,图4是本发明实施例提供的另一种图像处理方法的流程图。本发明实施例与上一实施例的区别主要在于对预处理进行进一步限定。本发明实施例中,所述待处理图像为卡证图像,所述卡证图像包括卡证区域和背景区域;所述对待处理图像进行预处理,得到目标图像,包括:对待处理图像进行归一化处理,得到第一图像;将所述第一图像输入第二生成对抗网络模型,以定位所述第一图像中的卡证区域。
如图4所示,本发明实施例提供的图像处理方法包括以下步骤:
步骤401、对待处理图像进行归一化处理,得到第一图像。
该步骤中,上述归一化处理是指将待处理图像转换为第二预设大小,例如,256*256、128*256等。具体的,上述第二预设大小可以根据下述第二生成对抗网络模型进行设置。需要说明的是,上述待处理图像可以参见前述步骤101的相关描述,在此不做赘述。
步骤402、将所述第一图像输入第二生成对抗网络模型,以定位所述第一图像中的卡证区域;其中,所述第二生成对抗网络模型为基于卡证图像样本和其对应的第二标签图像训练得到的,所述第二标签图像为标注所述卡证图像样本中卡证区域后得到的图像。
实际应用中,卡证图像中除了卡证区域之外,通常还会包括一些背景区域。例如,如图5所示,卡证图像10包括卡证区域11和背景区域12。为了减少背景区域对卡证图像中的文字区域的定位的影响,可以先过滤掉卡证图像中的背景区域。
本发明实施例中,上述第二生成对抗网络模型和第一生成对抗网络模型可以是相同的生成对抗网络模型,例如,均为PIX2PIX网络模型,也即图像到图像的转换的网络模型,也可以是不同的生成对抗网络模型,本发明实施例对此不做限定。
上述卡证图像样本与上述待处理图像均为具有目标格式的文字区域的图像,例如,卡证图像样本和待处理图像均为身份证图像,或是卡证图像样本和待处理图像均为银行卡图像,等等。
上述第二标签图像为标注卡证图像样本中卡证区域后得到的图像。例如,可以采用预设标识标注卡证图像样本中的卡证区域,如图5所示,采用矩形框标注身份证图像中的卡证区域;也可以是标注卡证图像样本中卡证区域的像素值为第一预设像素值(例如,255),标注卡证图像样本中背景区域的像素值为第二预设像素值(例如,0),如图6所示,身份证图像中的卡证区域均标注为白色,身份证图像中背景区域均标注为黑色。
该步骤中,将第一图像输入第二生成对抗网络模型之后,可以得到标注了卡证区域的第二图像,例如,卡证区域的像素值均为255。
步骤403、提取所述第一图像中的所述卡证区域。
该步骤中,可以基于第二生成对抗网络模型输出的第二图像和上述第一图像,提取所述第一图像中的卡证区域。例如,基于第二图像中像素值为255的区域,采用连通域分析,确定第一图像中卡证区域的四个顶点的坐标,并可以基于四个顶点的坐标提取第一图像中的卡证区域。
步骤404、对所述卡证区域进行归一化处理,得到所述目标图像。
本发明实施例中,可以对所提取的卡证区域再次进行归一化处理,例如,将卡证区域转换为第一预设大小,例如,256*256、128*256等。具体的,上述第一预设大小可以根据下述第一生成对抗网络模型进行设置。
步骤405、将所述目标图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域;其中,所述第一生成对抗网络模型为基于图像样本和其对应的第一标签图像训练得到的,所述图像样本为包括具有所述目标格式的文字区域的图像,所述第一标签图像为标注所述图像样本中文字区域后得到的图像。
该步骤可以同上述步骤102,为避免重复,在此不做赘述。
本发明实施例先采用第二生成对抗网络模型提取待处理图像中的卡证区域,在基于第一生成对抗网络模型,以定位卡证区域中的文字区域,可以减少图像的背景区域对定位图像中的文字区域的干扰,进一步提高定位图像的文字区域的准确性。
可选的,所述第一生成对抗网络模型包括生成模型,其中,所述生成模型中特征图的通道数的最大值小于第一预设值,和/或所述生成模型的卷积核小于第二预设值。
本发明实施例中,上述生成模型可以包括多层卷积和多层反卷积。例如,如图7所示,生成模型包括8层卷积和8层反卷积,对于输入的256*256*3的图像,先进行8层卷积,提取特征,得到1*1*256的特征图,在对其进行8层反卷积,得到256*256*3的特征图。
上述生成模型中各层输出的特征图的通道数的最大值小于第一预设值,其中,第一预设值可以根据实际需求进行合理设置,例如,512、256等。例如,如图7所示,上述生成模型的各层所输出的特征图的通道数的最大值为256。上述生成模型中各层的卷积核小于第二预设值,其中,第二预设值可以根据实际需求进行合理设置,例如,4*4。例如,上述生成模型中各层的卷积核可以为3*3。
本发明实施例中,生成模型中特征图的通道数的最大值小于第一预设值,和/或所述生成模型的卷积核小于第二预设值,不仅可以减少第一生成对抗网络模型的训练时间,还可以提高基于第一生成对抗网络模型定位图像中文字区域的速度。
可选的,所述第一生成对抗网络模型为PIX2PIX网络模型。
例如,上述PIX2PIX网络模型的生成模型和判决模型可以分别如图7和图8所示。
本发明实施例中第一生成对抗网络模型为PIX2PIX网络模型,实现较为简单。
可选的,所述第一标签图像中文字区域的像素值均为第一预设像素值,所述第一标签图像中第一区域的像素值均为第二预设像素值,所述第一区域为所述第一标签图像中除所述文字区域之外的区域,所述第一预设像素值与所述第二预设像素值不同。
本发明实施例中,上述第一预设像素值和第二预设像素值可以根据实际情况进行合理设置。例如,第一预设像素值为0,第二预设像素值为255;或者第一预设像素值为255,第二预设像素值为0。
本发明实施例中第一标签图像中文字区域的像素值均为第一预设像素值,第一标签图像中第一区域的像素值均为第二预设像素值,可以使得训练得到的第一生成对抗网络模型所输出的图像中文字区域和除文字区域之外的区域分别为不同的像素值,便于快速、准确的确定图像中文字区域的坐标。
可选的,所述将第一图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域之后,所述方法还包括:
根据所定位的所述目标图像中文字区域的位置信息,对所述目标图像中的文字区域进行光学字符识别,得到所述目标图像中文字区域的文字。
本发明实施例中,在定位的所述目标图像中文字区域的位置信息之后,可以采用OCR(Optical Character Recognition,光学字符识别)识别文字区域中的文字。例如,参见图5,可以采用OCR识别到文字区域中第一个文字块的文字为“张三”,并可以根据第一个文字块的位置信息(例如,坐标)确定该文字块表示姓名;识别到文字区域中第二个文字块的文字为“男”,并可以根据第二个文字块的位置信息确定该文字块表示性别,以此类推。
本发明实施例通过OCR识别图像中文字区域中的文字,实现较为简单,且识别结果较为准确。
以下以身份证图像为例对本发明实施例进行说明:
步骤a1、生成对抗网络模型的训练。
上述第一生成对抗网络模型和第二生成对抗网络模型的训练流程类似,具体可以包括样本收集、模型训练和模型测试,其中:
样本收集:收集用户上传的原始图像(也即身份证图像),并对原始图像进行标注,主要是标注身份证区域以及其中的文字区域。
例如,标注5000张图像样本之后,对图像样本进行图像变换,包括旋转、透视变换、光照变化等,生成5万张图像样本,其中,2000张图像样本作为测试集,并将剩下的每个图像样本和其对应的掩模图像合并为一张图像作为训练集,其中,掩模图像也即标注了身份证区域图像(例如,参见图6)或者文字区域的图像(例如,参见图3)。
模型训练:基于PIX2PIX网络模型,并采用U-net网络,对于输入的每个图像样本(也即256*256*3的图像),先进行8层卷积,提取特征,得到1*1*256的特征维,再对其进行8层反卷积,并采用跳跃式传递(即Skip Connections)策略,得到256*256*3的特征图。然后可以将生成模型得到的特征图和掩模图像输入判别器,以判断图像是假还是真,并可使用L1损失函数作为目标函数,进行循环迭代,直到模型收敛。例如,将生成模型得到的特征图和掩模图像分别作为第一输入和第二输入,输入图8所示的判决器,先对生成模型得到的特征图(即256*256*3的图像)和掩模图像(即256*256*3的图像)进行合并(也即Concat),得到256*256*6的特征图,再进行5层卷积,得到判决结果。需要说明的是,图8中的卷积步幅即Convolution Stride)除最后一层(为1外,其他卷积层步幅为2。
可选的,在模型训练阶段,本发明实施例对原始的PIX2PIX网络模型进行了改进,将特征图的通道数的最大值调整为256,卷积核的大小调整为3*3,以减少网络参数,加快训练速度。
模型测试:在测试阶段,只需加载训练好的生成对抗网络模型,输入身份证图像,便可定位得到身份证中的文字区域。
例如,本发明实施例在2000张测试集上进行测试,使用IOU(Intersection overUnion,重叠区域面积)作为评价标准,定位准确率可达98%以上。
步骤a2、利用训练得到的生成对抗网络模型定位身份证图像中的文字区域。
该步骤可以包括图像步骤:
步骤a21、对待处理图像进行归一化处理,得到第一图像。
该步骤中,待处理图像为身份证图像。例如,将待处理图像转换为256*256的图像。
步骤a22、将第一图像输入第二生成对抗网络模型,以定位身份证区域。
为了能够有效的克服复杂背景下的定位问题,本发明实施例在文字区域定位之前,首先对身份证区域进行定位,这样可以过滤掉大部分的无用的背景信息。
该步骤中,输入是256*256的图像,经过第二生成对抗网络模型,可以输出身份证区域的像素值为0或是255等的掩模图像。根据该掩模图像,使用连通域分析,可以从第一图像中提取身份证区域,再将所提取的身份证区域其归一化为256*256。
步骤a23、将归一化处理后的图像输入第一生成对抗网络模型,以定位文字区域。
该步骤中,第一生成对抗网络模型可以输出文字块(姓名、地址、身份证号等)为0或255等的掩模图像,从而可以根据该掩模图像,利用连通域分析,便可得出各个文字块的坐标。
步骤a3、利用OCR识别文字区域的文字。
本发明实施例,首先,在文字区域定位之前先对身份证区域定位,可有效地去除大部分背景信息,提高最终的文字区域定位的准确率。其次,采用生成对抗网络模型进行文字区域定位,对于倾斜、有噪声等的文字区域,定位效果具有较大提升,可以极大的提高文字区域定位的准确率。最后,本发明实施例是一种端到端的定位模型,即输入一张图像,中间不需要其他操作,即可得到最终的文字区域的坐标,省去了现有方法的版面分析的步骤,从而可以提高定位速度。
本发明实施例还提供一种身份信息处理方法。该方法可以包括如下步骤:
获取卡证图像,其中,所述卡证图像为包括身份信息的图像;
利用上述的图像处理方法,提取所述卡证图像中的身份信息;
显示并保存所述身份信息。
本发明实施例中,上述卡证图像可以是包括身份信息的卡证图像,例如,身份证图像、社保卡图像、护照图像或驾照图像等。上述身份信息可以包括姓名、地址、身份证号等文字中的一项或是多项。可选的,上述卡证图像可以是用户上传的卡证图像,也可以是通过摄像头采集的卡证图像。
具体的,上述第一生成对抗网络模型可以为基于卡证图像样本和其对应的第一标签图像训练得到的,其中,第一标签图像可以为标注卡证图像样本中需要提取的文字区域(也即需要提取的身份信息所处区域)后得到的图像,从而基于上述第一生成对抗网络模型可以定位得到卡证图像中需要提取的身份信息所处区域,进一步通过OCR可以提取上述身份信息所处区域中的身份信息。在得到卡证图像中的身份信息之后,可以显示上述身份信息,以供用户核对,并可以保存上述身份信息。
实际情况中,为了保证安全性,许多互联网应用都需要对用户进行身份信息的验证,本发明实施例可以在需要对用户进行身份信息验证的情况下,接收用户上传的卡证图像,或是采集卡证图像,采用上述图像处理方式自动识别卡证图像中的身份信息,并可显示用于输入身份信息的应用界面中,以供用户核对,在确定所显示的身份信息无误的情况下,可以基于该身份信息对用户进行验证。
本发明实施例利用上述的图像处理方法,可以自动提取卡证图像中的身份信息,以进行身份验证,可以节省身份验证过程中用户操作,提高身份验证的效率,另外,还可以提高身份信息识别的准确性,进而提高身份验证的可靠性。
参见图9,图9是本发明实施例提供的图像处理装置的结构图。如图9所示,图像处理装置900包括:
预处理模块901,用于对待处理图像进行预处理,得到目标图像;其中,所述待处理图像中包括具有目标格式的文字区域,所述预处理至少包括归一化处理;
定位模块902,用于将所述目标图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域;其中,所述第一生成对抗网络模型为基于图像样本和其对应的第一标签图像训练得到的,所述图像样本为包括具有所述目标格式的文字区域的图像,所述第一标签图像为标注所述图像样本中文字区域后得到的图像。
可选的,所述待处理图像为卡证图像,所述卡证图像包括卡证区域和背景区域;
所述预处理模块,包括:
第一处理单元,用于对待处理图像进行归一化处理,得到第一图像;
定位单元,用于将所述第一图像输入第二生成对抗网络模型,以定位所述第一图像中的卡证区域;其中,所述第二生成对抗网络模型为基于卡证图像样本和其对应的第二标签图像训练得到的,所述第二标签图像为标注所述卡证图像样本中卡证区域后得到的图像;
提取单元,用于提取所述第一图像中的所述卡证区域;
第二处理单元,用于对所述卡证区域进行归一化处理,得到所述目标图像。
可选的,所述第一生成对抗网络模型包括生成模型,其中,所述生成模型中特征图的通道数的最大值小于第一预设值,和/或所述生成模型的卷积核小于第二预设值。
可选的,所述第一标签图像中文字区域的像素值均为第一预设像素值,所述第一标签图像中第一区域的像素值均为第二预设像素值,所述第一区域为所述第一标签图像中除所述文字区域之外的区域,所述第一预设像素值与所述第二预设像素值不同。
可选的,所述预处理还包括图像增强处理和剔除背景区域中的至少一项。
可选的,所述装置还包括:
识别模块,用于所述将第一图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域之后,根据所定位的所述目标图像中文字区域的位置信息,对所述目标图像中的文字区域进行光学字符识别,得到所述目标图像中文字区域的文字。
可选的,所述第一生成对抗网络模型为PIX2PIX网络模型。
本发明实施例提供的图像处理装置900能够实现图1和图4的方法实施例中图像处理装置实现的各个过程,为避免重复,这里不再赘述。
本发明实施例的图像处理装置900,预处理模块901,用于对待处理图像进行预处理,得到目标图像;其中,所述待处理图像中包括具有目标格式的文字区域,所述预处理至少包括归一化处理;定位模块902,用于将所述目标图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域;其中,所述第一生成对抗网络模型为基于图像样本和其对应的第一标签图像训练得到的,所述图像样本为包括具有所述目标格式的文字区域的图像,所述第一标签图像为标注所述图像样本中文字区域后得到的图像。由于第一生成对抗网络模型具有较强的鲁棒性,可以减少文字倾斜、文字噪声等对文字区域定位的影响,提高定位图像的文字区域的准确性。
参见图10,图10是本发明实施提供的另一种图像处理装置的结构图,如图10所示,简历处理装置1000包括:处理器1001、存储器1002及存储在所述存储器1002上并可在所述处理器上运行的计算机程序,数据发送装置1000中的各个组件通过总线接口1003耦合在一起,所述计算机程序被所述处理器1001执行时实现如下步骤:
对待处理图像进行预处理,得到目标图像;其中,所述待处理图像中包括具有目标格式的文字区域,所述预处理至少包括归一化处理;
将所述目标图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域;其中,所述第一生成对抗网络模型为基于图像样本和其对应的第一标签图像训练得到的,所述图像样本为包括具有所述目标格式的文字区域的图像,所述第一标签图像为标注所述图像样本中文字区域后得到的图像。
可选的,所述待处理图像为卡证图像,所述卡证图像包括卡证区域和背景区域;
所述计算机程序被所述处理器1001执行时还用于:
对待处理图像进行归一化处理,得到第一图像;
将所述第一图像输入第二生成对抗网络模型,以定位所述第一图像中的卡证区域;其中,所述第二生成对抗网络模型为基于卡证图像样本和其对应的第二标签图像训练得到的,所述第二标签图像为标注所述卡证图像样本中卡证区域后得到的图像;
提取所述第一图像中的所述卡证区域;
对所述卡证区域进行归一化处理,得到所述目标图像。
可选的,所述第一生成对抗网络模型包括生成模型,其中,所述生成模型中特征图的通道数的最大值小于第一预设值,和/或所述生成模型的卷积核小于第二预设值。
可选的,所述第一标签图像中文字区域的像素值均为第一预设像素值,所述第一标签图像中第一区域的像素值均为第二预设像素值,所述第一区域为所述第一标签图像中除所述文字区域之外的区域,所述第一预设像素值与所述第二预设像素值不同。
可选的,所述预处理还包括图像增强处理和剔除背景区域中的至少一项。
可选的,所述计算机程序被所述处理器1001执行时还用于:
所述将第一图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域之后,根据所定位的所述目标图像中文字区域的位置信息,对所述目标图像中的文字区域进行光学字符识别,得到所述目标图像中文字区域的文字。
可选的,所述第一生成对抗网络模型为PIX2PIX网络模型。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述图像处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种图像处理方法,其特征在于,包括:
对待处理图像进行预处理,得到目标图像;其中,所述待处理图像中包括具有目标格式的文字区域,所述预处理至少包括归一化处理;
将所述目标图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域;其中,所述第一生成对抗网络模型为基于图像样本和其对应的第一标签图像训练得到的,所述图像样本为包括具有所述目标格式的文字区域的图像,所述第一标签图像为标注所述图像样本中文字区域后得到的图像。
2.根据权利要求1所述的方法,其特征在于,所述待处理图像为卡证图像,所述卡证图像包括卡证区域和背景区域;
所述对待处理图像进行预处理,得到目标图像,包括:
对待处理图像进行归一化处理,得到第一图像;
将所述第一图像输入第二生成对抗网络模型,以定位所述第一图像中的卡证区域;其中,所述第二生成对抗网络模型为基于卡证图像样本和其对应的第二标签图像训练得到的,所述第二标签图像为标注所述卡证图像样本中卡证区域后得到的图像;
提取所述第一图像中的所述卡证区域;
对所述卡证区域进行归一化处理,得到所述目标图像。
3.根据权利要求1所述的方法,其特征在于,所述第一生成对抗网络模型包括生成模型,其中,所述生成模型中特征图的通道数的最大值小于第一预设值,和/或所述生成模型的卷积核小于第二预设值。
4.根据权利要求1所述的方法,其特征在于,所述第一标签图像中文字区域的像素值均为第一预设像素值,所述第一标签图像中第一区域的像素值均为第二预设像素值,所述第一区域为所述第一标签图像中除所述文字区域之外的区域,所述第一预设像素值与所述第二预设像素值不同。
5.根据权利要求1所述的方法,其特征在于,所述预处理还包括图像增强处理和剔除背景区域中的至少一项。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述将第一图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域之后,所述方法还包括:
根据所定位的所述目标图像中文字区域的位置信息,对所述目标图像中的文字区域进行光学字符识别,得到所述目标图像中文字区域的文字。
7.一种身份信息处理方法,其特征在于,包括:
获取卡证图像,其中,所述卡证图像为包括身份信息的图像;
利用权利要求6所述的图像处理方法,提取所述卡证图像中的身份信息;
显示并保存所述身份信息。
8.一种图像处理装置,其特征在于,包括:
预处理模块,用于对待处理图像进行预处理,得到目标图像;其中,所述待处理图像中包括具有目标格式的文字区域,所述预处理至少包括归一化处理;
定位模块,用于将所述目标图像输入第一生成对抗网络模型,以定位所述目标图像中的文字区域;其中,所述第一生成对抗网络模型为基于图像样本和其对应的第一标签图像训练得到的,所述图像样本为包括具有所述目标格式的文字区域的图像,所述第一标签图像为标注所述图像样本中文字区域后得到的图像。
9.一种图像处理装置,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的图像处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的图像处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811445295.8A CN111242112A (zh) | 2018-11-29 | 2018-11-29 | 一种图像处理方法、身份信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811445295.8A CN111242112A (zh) | 2018-11-29 | 2018-11-29 | 一种图像处理方法、身份信息处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111242112A true CN111242112A (zh) | 2020-06-05 |
Family
ID=70868638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811445295.8A Pending CN111242112A (zh) | 2018-11-29 | 2018-11-29 | 一种图像处理方法、身份信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111242112A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744140A (zh) * | 2020-10-16 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 一种图像处理方法、设备和计算机可读存储介质 |
CN114078082A (zh) * | 2020-08-10 | 2022-02-22 | 北京达佳互联信息技术有限公司 | 一种人物图像性别转换模型的训练、图像生成方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247950A (zh) * | 2017-06-06 | 2017-10-13 | 电子科技大学 | 一种基于机器学习的身份证图像文本识别方法 |
CN107451994A (zh) * | 2017-07-25 | 2017-12-08 | 宸盛科华(北京)科技有限公司 | 基于生成对抗网络的物体检测方法及装置 |
CN107622104A (zh) * | 2017-09-11 | 2018-01-23 | 中央民族大学 | 一种文字图像识别标注方法及系统 |
CN108154132A (zh) * | 2018-01-10 | 2018-06-12 | 马上消费金融股份有限公司 | 一种身份证文字提取方法、系统及设备和存储介质 |
US20180239951A1 (en) * | 2014-06-16 | 2018-08-23 | Siemens Healthcare Diagnostics Inc. | Virtual staining of cells in digital holographic microscopy images using general adversarial networks |
US20180268201A1 (en) * | 2017-03-15 | 2018-09-20 | Nec Laboratories America, Inc. | Face recognition using larger pose face frontalization |
-
2018
- 2018-11-29 CN CN201811445295.8A patent/CN111242112A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180239951A1 (en) * | 2014-06-16 | 2018-08-23 | Siemens Healthcare Diagnostics Inc. | Virtual staining of cells in digital holographic microscopy images using general adversarial networks |
US20180268201A1 (en) * | 2017-03-15 | 2018-09-20 | Nec Laboratories America, Inc. | Face recognition using larger pose face frontalization |
CN107247950A (zh) * | 2017-06-06 | 2017-10-13 | 电子科技大学 | 一种基于机器学习的身份证图像文本识别方法 |
CN107451994A (zh) * | 2017-07-25 | 2017-12-08 | 宸盛科华(北京)科技有限公司 | 基于生成对抗网络的物体检测方法及装置 |
CN107622104A (zh) * | 2017-09-11 | 2018-01-23 | 中央民族大学 | 一种文字图像识别标注方法及系统 |
CN108154132A (zh) * | 2018-01-10 | 2018-06-12 | 马上消费金融股份有限公司 | 一种身份证文字提取方法、系统及设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
蒋芸 等: "基于条件深度卷积生成对抗网络的视网膜血管分割", 《自动化学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114078082A (zh) * | 2020-08-10 | 2022-02-22 | 北京达佳互联信息技术有限公司 | 一种人物图像性别转换模型的训练、图像生成方法及装置 |
CN113744140A (zh) * | 2020-10-16 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 一种图像处理方法、设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789501B2 (en) | Methods for mobile image capture of vehicle identification numbers in a non-document | |
CN112669515B (zh) | 票据图像识别方法、装置、电子设备和存储介质 | |
CN108491866B (zh) | 色情图片鉴定方法、电子装置及可读存储介质 | |
CN112487848B (zh) | 文字识别方法和终端设备 | |
CN112434690A (zh) | 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质 | |
CN111353491B (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
US11144752B1 (en) | Physical document verification in uncontrolled environments | |
CN108323209B (zh) | 信息处理方法、系统、云处理设备以及计算机存储介质 | |
CN112434555B (zh) | 键值对区域识别方法、装置、存储介质和电子设备 | |
CN112528998B (zh) | 证件图像处理方法、装置、电子设备及可读存储介质 | |
CN111160395A (zh) | 图像识别方法、装置、电子设备和存储介质 | |
US11574492B2 (en) | Efficient location and identification of documents in images | |
CN113221897B (zh) | 图像矫正方法、图像文本识别方法、身份验证方法及装置 | |
CN111462094A (zh) | Pcba元器件检测方法、装置及计算机可读存储介质 | |
CN110738238A (zh) | 一种证件信息的分类定位方法及装置 | |
CN112434689A (zh) | 识别图片中信息的方法、装置、设备及存储介质 | |
CN114445843A (zh) | 固定版式的卡证图像文字识别方法和装置 | |
CN110135288B (zh) | 一种电子证照的快速核对方法及装置 | |
CN112232336A (zh) | 一种证件识别方法、装置、设备及存储介质 | |
CN111242112A (zh) | 一种图像处理方法、身份信息处理方法及装置 | |
CN109087439B (zh) | 票据校验方法、终端设备、存储介质及电子设备 | |
CN111178398A (zh) | 检测身份证图像信息篡改的方法、系统、存储介质及装置 | |
CN115546219B (zh) | 检测板式生成方法、板卡缺陷检测方法、装置及产品 | |
CN114708582B (zh) | 基于ai和rpa的电力数据智慧稽查方法及装置 | |
CN114359912B (zh) | 基于图神经网络的软件页面关键信息提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200605 |
|
RJ01 | Rejection of invention patent application after publication |