CN111461122B

CN111461122B - 一种证件信息检测与提取方法

Info

Publication number: CN111461122B
Application number: CN202010419375.7A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 韦天健
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2024-03-22
Anticipated expiration: 2040-05-18
Also published as: CN111461122A

Abstract

本发明公开一种证件信息检测与提取方法，使用合成的证件数据集，可以代替真实证件数据集进行Faster‑RCNN检测模型的训练；使用基于深度神经网络的方法对证件信息进行检测与分类，无需特殊预处理；使用端到端的文字识别方法，对不定长的证件文字信息进行识别，不需分割。本发明不需要设定字符长度，更不需要识别单个汉字，避免了因切分错误而对识别率造成的影响，只需将图片输入网络模型中，即可得到文本信息。相对于传统的基于字符模板匹配的方法，在面对低亮度、低对比度、光照不均、变形、残缺、遮挡等问题时，具有很强的适应，精度远远优于传统方法。

Description

一种证件信息检测与提取方法

技术领域

本发明涉及一种证件信息检测与提取方法，属于图像处理、文字识别技术领域。

背景技术

深度神经网络是一种复杂的数学模型，它是深度学习的一种模式，由一层层网络层组成，输入的数据在经过所有网络层后得到输出数据，根据输出数据与标记数据的差异可以构造出损失函数，然后对损失函数梯度进行反向传播，就可以对网络层的权重进行更新，从而进一步减小输出数据和标记数据间的差异。其中，用于输入的数据集与对应的标记数据构成了深度神经网络的训练数据集，深度神经网络的功能及性能跟网络结构和训练数据集相关。深度学习在图像处理领域被广泛使用，并且普遍取得优于传统方法的性能。

光学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。亦即将图像中的文字进行识别，并以文本的形式返回。文字识别一般上分为两个步骤：文字的检测和文字的识别。根据识别场景，可大致将OCR分为识别特定场景的专用OCR和识别多种场景的通用OCR。比如证件识别和车牌识别就是专用OCR的典型实例。自然场景文本识别的难度极高，原因包括：图片背景极为丰富，经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题，而且文本的布局可能存在扭曲、褶皱、换向等问题，其中的文字也可能字体多样、字号字重颜色不一的问题。

传统的文本检测方法通常是基于纹理和连通域信息的，最常用的方法有笔划宽度变换(SWT)、笔划特征变换(SFT)和最大稳定极值区域(MSER)法。这些方法都是通过人工选择特征，并不能很好地描述文本中的语义信息以适应文本的多样性。例如基于SWT的算法对于边缘信息较少的模糊图像效果很差，基于MSER的算法无法检测出不是MSER区域的文字。另外人工设计的特征会带来大量的参数，这些参数往往需要针对不同的图像做出具体的调整，不具有普适性，算法的鲁棒性较差。而且在一些场景复杂的自然图像上，可能无法区分与文本类似的背景区域，检测效果不理想。

传统的证件文字信息检测与识别方法，一般上先对证件图片进行适当预处理，然后使用某类特征检测方法，将文字检测并分割出来，将已分割待测证件图像与字符模板库中的字符信息模板进行匹配，得到最终证识件别结果。但是此类方法面对低亮度、低对比度、光照不均、变形、残缺、遮挡等问题时，适用性较低，常常无法满足精度要求。对于现有的基于深度学习的OCR方法，往往是检测出图片上所有的文字，而不能对特定的文字信息进行检测与识别，亦或仅能检测出文字，而不能对其进行分类（如名字、性别、民族等）。

现有的OCR 软件基本是先检测出所有的文本，然后通过人工定义的规则去匹配文本所属的类别。依靠规则进行文本分类有两个缺陷：（1）不具备泛化性能，对于每一种场景都需要设计一套规则；（2）规则要么极其复杂，要么鲁棒性差，对图片的质量要求高。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种证件信息检测与提取方法。本发明可以在进行文本检测、识别的同时进行文本分类，直接对证件驾的目标信息进行结构化提取。

技术方案：一种证件信息检测与提取方法，包括制作证件数据集、训练Faster-RCNN模型、训练CRNN模型和证件信息识别；

制作证件数据集：使用专门的数据集生成方法，而不需要真实的证件数据。首先制作相应证件模板，该模板与真实证件模板一致。然后在证件模板的属性对应的文本区域打印上随机的相应信息（文字信息），如在“名字”属性后边随机打印上一定长度的汉字，在“证号”属性后打印上与真实证件长度一致的一串数字。

为了提高模型的泛化性能，提供了一系列数据合成和数据增强方法。包括但不限于，对证件模板颜色进行随机扰动，证件模板上需打印的文字字体在预设的多种字体中随机选择，它们与真实证件的字体相仿，字体大小和颜色在预设范围内随机选择，在证件模板上打印的位置（属性文本区域）也在预设范围内波动。证件模板打印上文字信息后得到合成的证件图片，再把合成的证件图片粘贴到其他背景图片中；之后，使用加入噪声、颜色扰动、仿射变换的数据增强的方法，对图片进行数据增强处理；最终生成数万张不同的证件图片，通过最小外接矩形包围目标文本信息的方式获取每个目标属性对应的文本区域的四个坐标点，将每一项目标属性（如名字、日期等）对应文本区域对应的四个坐标点和文本区域类别作为标注信息（label），所述证件图片的标注信息形成证件数据集，用于文本检测与分类模型的训练。

训练Faster-RCNN模型：基于Faster-RCNN模型进行证件文本检测与分类，将上文所得到的证件数据集用于Faster-RCNN模型的训练，待Faster-RCNN模型训练好后将其用于证件信息检测与分类。

训练CRNN模型：采用基于CRNN的文本识别框架。用于文本识别模型（CRNN模型）的训练数据集由两部分构成：一部分以证件模板作为背景，通过随机改变字体类型、字体大小、字体颜色生成不同的文本行，粘贴在证件模板的相应的属性文本区域位置，然后对证件模板随机进行仿射变换和模糊处理，得到数据集；一部分来自于真实场景证件图片数据集。将上述两部分数据集的图片采用Faster-RCNN模型进行切割后，得到文本区域图片，使文本区域图片转化为分辨率是200*32的图片，得到训练数据集，将训练数据集用于CRNN模型训练，待CRNN模型训练好后，将Faster-RCNN模型得到的文本区域图片输入CRNN模型，得到文字识别结果。

证件信息识别：输入证件图片到Faster-RCNN模型，得到切割后的文本区域图片，并得知文本区域图片类别，然后将文本区域图片作为CRNN模型的输入，得到具体的结构化文字识别结果。

所述证件为驾驶证。

有益效果：与现有技术相比，本发明提供的证件信息检测与提取方法，主要体现在如下几个方面：

（1）训练深度神经网络需要使用专门的数据集，而收集和标注此类数据集往往需要耗费大量的人力和物力。本发明提出的证件图片合成方法，具有很强的鲁棒性，用于代替真实的证件图片，用于证件信息检测模型的训练，并取得良好的效果。

（2）深度学习以外的传统文本检测方法，都是通过人工来选择特征，并不能很好地描述文本中的语义信息以适应文本的多样性。另外人工设计的特征会带来大量的参数，这些参数往往需要针对不同的图像做出具体的调整，不具有普适性，算法的鲁棒性较差。而且在一些场景复杂的自然图像上，可能无法区分与文本类似的背景区域，检测效果不理想。与这些人工选择的特征相比，深度学习方法提取到的特征具有很大的优势。

（3）现有的基于深度学习（Faster-RCNN）的文本检测方法，往往是对场景的所有文本进行检测，并且没有检测出来的文本进行分类。本发明能够只对证件图片里的某些类别文本信息进行检测与分类，便于后续的文本识别和匹配。

（4）本发明使用端到端的基于深度神经网络的文本识别框架，无需对图片的文本区域进行切割等预处理，不需要设定字符长度，更不需要识别单个汉字，避免了因切分错误而对识别率造成的影响，只需将图片输入网络模型中，即可得到文本信息。相对于传统的基于字符模板匹配的方法，在面对低亮度、低对比度、光照不均、变形、残缺、遮挡等问题时，具有很强的适应，精度远远优于传统方法。

附图说明

图1是驾驶证信息提取流程图；

图2是驾驶证模板图；

图3是驾驶证数据集制作流程图；

图4是Faster-RCNN检测并分类文本区域的流程图；

图5是CRNN识别文本区域流程图；

图6是驾驶证信息检测与提取过程图；

图7是训练样例驾驶证图片示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，证件信息检测与提取方法，用于识别驾驶证，输入驾驶证图片到Faster-RCNN模型，得到切割后的文本区域图片，并得知文本区域图片类别，然后将文本区域图片作为CRNN模型的输入，得到具体的结构化文字识别结果。

本实施例以检测与识别驾驶证的姓名、性别、证号、驾照类型、有效期起始时间和有效期结束时间信息为例。在制作文本检测与分类模型（Faster-RCNN模型）训练数据集的过程如图3所示。步骤1，制作与真实驾驶证一样的驾驶证模板，如图2所示；步骤2，在驾驶证模板的属性相应位置随机打印上相应信息，如将姓名、性别、证号、驾照类型、有效期起始时间和有效期结束时间属性位置后打印上相应信息，六类文本区域通过最小外接矩形框包括，得到最小外接矩形的四个坐标点，即获取了每个属性的四个坐标点；步骤3，在ImageNet数据集随机选取一张图片作为背景图片，粘贴步骤2所得的包含坐标点的图片；步骤4，对步骤3的结果图片进行随机仿射变换；步骤5，以设定概率对步骤4的结果进行随机高斯模糊；步骤6，对步骤5的结果以设定概率加入随机椒盐噪声；步骤7，对步骤6随机椒盐噪声处理后所得图片的RGB三个通道分别进行颜色扰动；步骤8，重复步骤2-7，合成5万张图片，构成驾驶证数据集。将驾驶证数据集用以训练Faster-RCNN模型。

然后，使用数据集训练CRNN模型。该数据集由两部分构成：一部分是步骤8中，在驾驶证模板的基础上形成的500万张驾驶证图片构成的驾驶证数据集驾驶证图片的分辨率是200*32；一部分来自于开源的真实场景文本数据集。将上述两部分的图片里的文本区域采用Faster-RCNN模型进行切割后，使文本区域图片转化为分辨率是200*32的图片，得到训练数据集。将训练数据集用于CRNN模型训练。

训练好Faster-RCNN检测模型和CRNN模型后，输入一张驾驶证图片到Faster-RCNN模型，得到切割后的文本区域图片，并得知图片类别，然后将得到的五类文字图片作为CRNN模型的输入，得到具体的结构化结果，具体过程如图6所示。

如图2所示，驾驶证模板图片，它还未填入具体的个人信息。在该模板上填充具体的信息作为训练集。因为模板的大小是固定的，所以每个属性对应的空白区域（也就是需要填入具体信息的位置）也是固定的，定义好每一个属性对应文本的坐标，然后在该坐标填入（打印）文本。同时由于每个属性的对应文本的坐标位置是已知的，所以在某属性对应的空白区域填入文本后，通过该文本的坐标即可获得文本的类别。

为了提高模型的泛化性能，本方法会对该坐标的数值进行一定程度的扰动。以“姓名”这个属性为例，假设模板图片的大小为1000*1000（像素），在模板（120±10,180±10）的坐标范围填入“姓名”这个属性的文本。比如在图7中的（122，177）这个坐标（它在120±10,180±10）范围内）填入“李四”。在程序中可以设置“李四”这段文本的字体、大小、颜色，然后可以获取“李四”所在文本区域（它是一个矩形）的大小，也就是它的宽和高，具体为宽124，高为41。“李四”所在文本区域的左上角与模板坐标（122，177）对齐，将其粘贴（粘贴等价于上下文的打印、填入、填写）到模板中。这样我们就可以得到“李四”这个文本区域在模型的坐标（X,Y,W,H）,也是（122，177，124，41），其中(X，Y)表示左上角坐标，W,H表示文本区域的宽和高。（X,Y,W,H）也可以描画为一个包围“李四”这段文本的最小外接矩形，如图7中的矩形框。假设“姓名”这个属性为类别“1”，那么（122，177，124，41，1）就是“李四”这个文本区域的标注信息，它包括了位置信息和类别信息。同理，可以填入其它属性对应的文本区域并获取其标注信息。抽象的来说，合成的驾驶证数据集中每一张图片样本的标注信息为一个五维数组，也就是（X,Y,W,H,C），C代表文本区域类别。需要注意的是，本方法使用模板合成训练图片的过程中，需要填入所有属性的对应的文本，但是只要目标属性才有标注信息。比如图7中，只有姓名、证号、驾照类型、有效期起始时间和有效期结束时间五类属性为目标属性，它们具有标注信息，其它属性如国籍等不是目标属性，不需要标注信息。因而，训练好的Faster-RCNN模型只检测这五类目标属性。

本发明使用合成的驾驶证数据集，可以代替真实驾驶证数据集进行Faster-RCNN检测模型的训练。使用基于深度神经网络的方法对驾驶证信息进行检测与分类，无需特殊预处理。使用CRNN模型实现端到端的文字识别方法，对不定长的驾驶证文字信息进行识别，不需分割。

Claims

1.一种证件信息检测与提取方法，其特征在于：包括制作证件数据集、训练Faster-RCNN模型、训练CRNN模型和证件信息识别；

制作证件数据集：首先制作与证件一样的证件模板，然后在证件模板的属性对应的文本区域打印上随机的相应信息；证件模板打印上信息后得到合成的证件图片，获取每个目标属性对应文本区域的四个坐标点，将每个目标属性对应文本区域的四个坐标点和目标属性对应文本区域的类别作为标注信息，所述证件图片的标注信息形成证件数据集，用于文本检测与分类模型的训练；

训练Faster-RCNN模型：基于Faster-RCNN模型进行证件文本检测与分类，将上文所得到的证件数据集用于Faster-RCNN模型的训练；

训练CRNN模型：用于CRNN模型的训练数据集由两部分构成；一部分以证件模板作为背景，在证件模板的相应的属性文本区域位置输入相应的信息，得到数据集；一部分来自于真实场景证件图片数据集；将上述两部分数据集的图片采用训练好的Faster-RCNN模型进行切割后，得到作为训练数据集的文本区域图片，将训练数据集用于CRNN模型训练；

证件信息识别：输入证件图片到训练好的Faster-RCNN模型，得到切割后的文本区域图片，并得知文本区域图片类别，然后将文本区域图片作为训练好的CRNN模型的输入，得到具体的结构化文字识别结果；

在制作证件数据集时，对证件模板颜色进行随机扰动，证件模板的文字信息的字体在预设的多种字体中随机选择，字体大小和颜色在预设范围内随机选择，证件模板上文字信息打印的位置也在预设范围内波动；证件模板打印上文字信息后得到合成的证件图片，再把合成的证件图片粘贴到其他背景图片中；之后，使用加入噪声、颜色扰动、仿射变换的数据增强的方法，对图片进行数据增强处理；最终生成数万张不同的证件图片，通过最小外接矩形包围目标属性文本区域的方式获取每个目标属性文本区域对应的四个坐标点，将每一项目标属性文本区域对应的四个坐标点和类别作为标注信息，所述证件图片的标注信息形成证件数据集，用于文本检测与分类模型的训练；

在训练CRNN模型过程中，对于第一部分数据集，通过随机改变字体类型、字体大小、字体颜色生成不同的文本行，粘贴在证件模板的相应的属性文本区域，然后对证件模板随机进行仿射变换和模糊处理，得到数据集；将第一部分和第二部分的两部分数据集采用训练好的Faster-RCNN模型进行切割后，得到属性文本区域图片，使文本区域图片转化为分辨率是200*32的图片，得到训练数据集；

每个目标属性对应一个矩形文本区域，矩形文本区域的四个坐标点为（X,Y,W,H），其中(X，Y)表示矩形文本区域左上角坐标，W,H表示矩形文本区域的宽和高，证件数据集中每一张图片样本的标注信息为一个五维数组，也就是（X,Y,W,H,C），C代表文本区域的类别。

2.根据权利要求1所述的证件信息检测与提取方法，其特征在于：所述证件为驾驶证。