CN109492643B

CN109492643B - 基于ocr的证件识别方法、装置、计算机设备及存储介质

Info

Publication number: CN109492643B
Application number: CN201811182144.8A
Authority: CN
Inventors: 黄泽浩
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2023-12-19
Anticipated expiration: 2038-10-11
Also published as: CN109492643A

Abstract

本发明公开一种基于OCR的证件识别方法、装置、计算机设备及存储介质，该基于OCR的证件识别方法包括：获取原始证件图像和证件类型；对原始证件图像进行预处理，获取待识别证件图像；采用文字定位模型对待识别证件图像进行文字定位，获取待识别文字位置；基于待识别文字位置，对待识别证件图像进行裁剪，获取待识别文字区域；采用与证件类型相对应的预设区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别；基于待识别文字区域对应的文字类别，将待识别文字区域输入到与文字类别相对应的目标识别模型中进行识别，获取待识别文字区域对应的证件文本信息，该基于OCR的证件识别方法可有效提高证件图像识别的准确率和效率。

Description

基于OCR的证件识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及图像识别领域，尤其涉及一种基于OCR的证件识别方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术飞速发展。越来越多的人工智能技术被应用到各业务系统中，以提高工作效率。目前，在采用OCR(光学字符识别)技术识别居民身份证内容时，只能对拍摄较标准的身份证图像进行识别，而对于拍摄倾斜度较大或部分反光的身份证图像中的文字识别准确率较低。

发明内容

本发明实施例提供一种基于OCR的证件识别方法、装置、计算机设备及存储介质，以解决目前采用OCR技术对拍摄倾斜度较大或部分反光的身份证图像进行识别的准确率较低的问题。

一种基于OCR的证件识别方法，包括：

获取原始证件图像和证件类型；

对所述原始证件图像进行预处理，获取待识别证件图像；

采用文字定位模型对所述待识别证件图像进行文字定位，获取待识别文字位置；

基于所述待识别文字位置，对所述待识别证件图像进行裁剪，获取待识别文字区域；

采用与所述证件类型相对应的预设区域模板对所述待识别文字区域进行分类，获取所述待识别文字区域对应的文字类别；

基于所述待识别文字区域对应的文字类别，将所述待识别文字区域输入到与所述文字类别相对应的目标识别模型中进行识别，获取待识别文字区域对应的证件文本信息。

一种基于OCR的证件识别装置，包括：

原始证件图像获取模块，用于获取原始证件图像和证件类型；

待识别证件图像获取模块，用于对所述原始证件图像进行预处理，获取待识别证件图像；

待识别文字位置获取模块，用于采用文字定位模型对所述待识别证件图像进行文字定位，获取待识别文字位置；

待识别文字区域获取模块，用于基于所述待识别文字位置，对所述待识别证件图像进行裁剪，获取待识别文字区域；

文字类别获取模块，用于采用与所述证件类型相对应的预设区域模板对所述待识别文字区域进行分类，获取所述待识别文字区域对应的文字类别；

证件文本信息获取模块，用于基于所述待识别文字区域对应的文字类别，将所述待识别文字区域输入到与所述文字类别相对应的目标识别模型中进行识别，获取待识别文字区域对应的证件文本信息。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于OCR的证件识别方法的步骤。

一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于OCR的证件识别方法的步骤。

上述基于OCR的证件识别方法、装置、计算机设备及存储介质中，服务器通过获取原始证件图像和证件类型，以便对原始证件图像进行预处理，获取待识别证件图像，以排除干扰因素，减少图像复杂度，提高模型识别准确率。采用文字定位模型对待识别证件图像进行文字定位，获取待识别文字位置，以排除非文字区域的干扰。基于待识别文字位置，对待识别证件图像进行裁剪，获取待识别文字区域，再采用与证件类型相对应的预设区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别，无需人工干预，可直接根据预设区域模板对待识别文字区域进行分类，提高证件图像的识别效率。最后，基于待识别文字区域对应的文字类别，将待识别文字区域输入到与文字类别相对应的目标识别模型中进行识别，获取待识别文字区域对应的证件文本信息，避免采用泛化识别模型所造成的识别准确率不高的问题，极大地提高证件图像识别的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于OCR的证件识别方法的一应用环境示意图；

图2是本发明一实施例中基于OCR的证件识别方法的一流程图；

图3是图2中步骤S20的一具体示意图；

图4是图2中步骤S50的一具体示意图；

图5是图2中步骤S60 的一具体示意图；

图6是本发明一实施例中基于OCR的证件识别方法的另一流程图；

图7是本发明一实施例中基于OCR的证件识别装置的一原理框图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于OCR的证件识别方法，可应用在如图1的应用环境中，该基于OCR的证件识别方法可应用银行、证券、保险等金融机构或者其他机构配置的计算机设备上，用于智能识别证件（如身份证）图像，获取证件文本信息，提高业务办理效率和证件识别准确率。其中，计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

在一实施例中，如图2所示，提供一种基于OCR的证件识别方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取原始证件图像和证件类型。

其中，原始证件图像是由计算机设备上的图像采集模块采集到的未经处理的包含证件的图像。证件类型包括但不限于二代身份证和香港身份证。本实施例中，该原始证件图像具体为二代身份证图像或香港身份证图像。具体地，用户可在计算机设备上的图像采集模块中上传二代身份证图像或香港身份证图像，并从服务器弹出的证件类型列表选择证件类型，以使服务器获取原始证件图像和证件类型。证件类型列表包括但不限于二代身份证和香港身份证两种证件类型。本实施例中，图像采集模块包括但不限于相机拍摄或本地上传。

S20：对原始证件图像进行预处理，获取待识别证件图像。

其中，对原始证件图像进行预处理包括锐化处理、灰度化处理、透视变换处理和二值化处理。待识别证件图像是对原始证件图像进行预处理后得到的排除干扰因素的图像。锐化处理是增强图像的边缘及灰度跳变的部分，提高图像清晰度的处理。灰度化处理是将彩色的原始证件图像转化为灰度图像的处理。灰度图像是一种具有从黑色到白色间256级灰度色域或等级的单色图像。透视变换处理是将图片投影到一个新的视平面，以矫正图像的处理。二值化处理是将原始证件图像呈现出明显的黑白效果的处理。具体地，由于原始证件图像中可能会包含各种干扰因素，如颜色复杂或者倾斜等，因此需要对原始证件图像进行预处理，以排除干扰因素，减少图像复杂度，提高后续模型识别的准确率。

S30：采用文字定位模型对待识别证件图像进行文字定位，获取待识别文字位置。

其中，文字定位模型包括但不限于ctpn模型（Connectionist Text ProposalNetwork，文本检测网络）。ctpn模型是用于进行图像文字定位的常用网络模型，能够准确定位文字在图像中的位置，提高后续模型识别的准确率。待识别文字位置是指文字在待识别证件图像中的位置。

由于后续模型识别时需要对图像中含有文字的区域进行识别，以排除非文字区域的干扰，因此需要先确定待识别文字位置。文字区域指待识别证件图像中仅包含文字的区域。具体地，服务器采用文字定位模型对待识别证件图像进行文字定位，以获取N个矩形框以及每一矩形框各顶点位置坐标（即N个矩形框对应的待识别文字位置）。

S40：基于待识别文字位置，对待识别证件图像进行裁剪，获取待识别文字区域。

具体地，服务器将待识别文字位置对应的左上角位置坐标和右下角位置坐标作为定位坐标，并基于定位坐标确定矩形框的长度和宽度，再根据定位坐标、矩形框的长度和宽度对待识别证件图像进行裁剪，获取待识别文字区域，以便后续对每一裁剪后的待识别文本区域进行识别。

S50：采用与证件类型相对应的预设区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别。

其中，文字类别是指文字区域内的文字类型。该文字类型包括但不限于中文、数字、字母、数字和字母、中文和数字、中文和字母以及中文、数字和字母等类别。预设区域模板是预先创建的用于对待识别文字区域进行分类的模板。该预设区域模板是预先采集二代身份证图像或者香港身份证图像，并对二代身份证图像或香港身份证图像中每一行文字区域对应的场景字段进行标注（即标注文字类别）所创建的模板。例如二代身份证图像中第一行文字区域对应的场景字段为姓名、第二行文字区域对应的场景字段为性别和民族、第三行文字区域对应的场景字段为出生年月、第四行文字区域对应的场景字段为住址、第五行文字区域对应的场景字段为公民身份证号。场景字段是指二代身份证图像或香港身份证图像中每一行文字区域对应的字段（如姓名、性别以及民族等）。通过采用预设区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别，以便后续根据文字类别将待识别文字区域输入到对应的模型中进行识别，该过程无需人工干预，可直接根据预设区域模板对待识别文字区域进行分类，提高证件图像的识别效率。

S60：基于待识别文字区域对应的文字类别，将待识别文字区域输入到与文字类别相对应的目标识别模型中进行识别，获取待识别文字区域对应的证件文本信息。

其中，目标识别模型是预先训练好的用于对待识别文字区域进行识别获取证件文本信息的模型。该目标识别模型与文字类别相对应。证件文本信息是能够从待识别证件图像中得知的用户身份信息，该用户身份信息包括姓名、性别、民族、出生年月、住址和公民身份证号等。本实施例中，服务器通过对原始证件图像进行识别，获取证件文本信息，以使业务人员在使用业务系统为用户办理业务时，无需手动输入用户身份信息，提高业务办理效率且有效避免人工操作失误的问题。

具体地，若待识别文字区域对应的文字类别为数字和字母（如公民身份证号），则将该待识别文字区域输入到与数字和字母这一文字类别相对应的目标识别模型中进行识别，避免采用泛化识别模型所造成的识别准确率不高的问题，极大地提高证件图像识别的准确率。

本实施例中，服务器通过获取原始证件图像和证件类型，以便对原始证件图像进行预处理，获取待识别证件图像，以排除干扰因素，减少图像复杂度，提高模型识别准确率。采用文字定位模型对待识别证件图像进行文字定位，获取待识别文字位置，以排除非文字区域的干扰。基于待识别文字位置，对待识别证件图像进行裁剪，获取待识别文字区域，采用与证件类型相对应的预设区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别，无需人工干预，可直接根据预设区域模板对待识别文字区域进行分类，提高证件图像的识别效率。最后，基于待识别文字区域对应的文字类别，将待识别文字区域输入到与文字类别相对应的目标识别模型中进行识别，获取待识别文字区域对应的证件文本信息，避免采用泛化识别模型所造成的识别准确率不高的问题，极大地提高证件图像识别的准确率。

在一实施例中，如图3所示，步骤S20中，即对原始证件图像进行预处理，获取待识别证件图像，具体包括如下步骤：

S21：对原始证件图像进行灰度化处理，获取灰度图像。

由于原始证件图像中可能包含多种颜色，而颜色本身非常容易受到光照等因素的影响（如反光），同类的物体颜色有很多变化，所以颜色本身难以提供关键信息，因此需要对原始证件图像进行灰度化处理，获取灰度图像，以排除干扰，减少灰度图像的复杂度和信息处理量。具体地，原始证件图像进行灰度化处理在于，原始证件图像中的每个像素的颜色都是通过R（红）、G（绿）和B（蓝）三个分量决定的，而每个分量有0-255这256种值可取（0最暗表示黑色，255最亮表示白色）。而灰度图像是R、G和B三个分量相同的一种特殊的彩色图像。本实施例中，服务器可直接采用imread函数读取原始证件图像，即可获取灰度图像，可有效降低原始证件图像中包含反光等干扰因素的影响，提高后续模型识别对应的准确率。

S22：对灰度图像进行透视变换处理，获取矫正图像。

由于原始证件图像可能会存在不同程度的倾斜，影响模型识别结果，因此，需对灰度图像进行透视变换（矫正），该透视变换处理的过程是将原始证件图像投影到一个新的视平面的过程，获取矫正后的矫正图像，可有效降低原始证件图像由于拍摄角度倾斜等干扰因素的影响，提高后续模型识别的准确率。

具体地，透视变换的处理方法包括但不限于采用OpenCv中的perspectiveTransform函数进行透视变换处理。OpenCV是一个包含大量开源API（接口）的跨平台计算机视觉库，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。

S23：对矫正图像进行锐化处理，获取锐化图像。

为了使图像的边缘、轮廓线以及图像的细节变得清晰，需先对透视后的图像进行锐化处理，获取锐化图像，以去除背景纹路，提高识别准确率。其中，锐化处理的方法包括但不限于采用目前现有技术中常用的拉普拉斯算子、sobel（加权平均差分）算子和Prewitt（平均差分）算子中的任意一种，以sobel算子方法为例，可采用如下公式对透视后的图像对应的像素矩阵M（i,j）进行变换：

其中，M（i，j）表示矫正图像对应的像素矩阵。i和j代表矩阵的行和列。S(i，j)表示锐化图像对应的像素矩阵，A表示水平方向的卷积后的像素矩阵，B表示垂直方向的卷积后的像素矩阵。

S24：对锐化图像进行二值化处理，获取待识别证件图像。

为了进一步去除图像背景的干扰，需对锐化图像进行二值化处理，获取待识别证件图像。服务器获取锐化图像后，基于锐化图像的采样像素值和预先选取的阈值进行比较，将采样像素值大于或等于该阈值的像素值设置为1，小于该阈值的像素值设置为0。采样像素值是锐化图像中每一像素点对应的像素值。阈值的大小会影响锐化图像二值化处理的效果，阈值选取合适时，对锐化图像进行二值化处理的效果较好；阈值选取不合适时，会影响锐化图像二值化处理的效果。为了方便操作，简化计算过程，本实施例中的阈值是由开发人员根据经验确定。

本实施例中，为降低图像复杂度，提高后续模型识别准确率，需对原始证件图像进行灰度化处理，获取灰度图像，减少图像的复杂度和信息处理量。然后，对灰度图像进行透视变换处理，获取矫正图像，可有效降低原始证件图像因拍摄角度倾斜等干扰因素的影响，提高模型识别的准确率。接着，对矫正图像进行锐化处理，获取锐化图像，以去除背景纹路，提高识别准确率。最后，对锐化图像进行二值化处理，获取待识别证件图像，进一步去除图像背景的干扰，提高模型识别的准确率。

在一实施例中，预设区域模板包括但不限于二代身份证区域模板和香港身份证区域模板。如图4所示，步骤S50中，即采用与证件类型相对应的预设区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别，具体包括如下步骤：

S51：采用对比坐标方式对待识别文字区域进行分类，获取待识别文字区域对应的行标识。

其中，行标识是指通过对比坐标方式，对待识别文字区域对应的坐标进行分类，所获取的待识别文字区域在待识别证件图像中基于行级的标识（即第几行）。具体地，服务器基于待识别文字区域在待识别证件图像中的位置坐标，以对比坐标的方式，确定每一待识别文字区域对应的是哪一行，即确定其对应的行标识。例如，获取到的两个矩形框，假设以其中一个矩形框的左上角为原点，则该矩形框的左下角的坐标为（0，-3），则另一矩形框的左上角坐标为（0，-4）则可认定（0，-4）对应的矩形框为第二行，而（0，-3）对应的矩形框为第一行。本实施例中，采用对比坐标方式确定待识别文字区域对应的行标识，计算简单且计算量少，提高证件图像的识别效率。

S52：若证件类型为二代身份证，则基于待识别文字区域对应的行标识，采用二代身份证区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别。

具体地，若证件类型为二代身份证，则服务器基于待识别文字区域对应的行标识，即确定待识别文字区域位于待识别证件图像中的第几行，然后采用二代身份证区域模板对待识别文字区域进行分类。例如，若待识别文字区域的行标识为1，则默认该待识别文字区域位于待识别证件图像中的第一行，按照预设区域模板标注的二代身份证图像中的第一行为姓名，而姓名是中文的组合，因此获取该待识别文字区域的文字类别为中文。该确定待识别文字区域的文字类别的过程，无需人工进行分类，降低人力成本，提高识别效率。

S53：若证件类型为香港身份证，则基于待识别文字区域对应的行标识，采用香港身份证区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别。

具体地，若证件类型为香港身份证，则基于待识别文字区域对应的行标识，采用香港身份证区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别。例如，若待识别文字区域的行标识为1，则默认该待识别文字区域位于待识别证件图像中的第一行，按照预设区域模板标注的香港身份证图像中的第一行为身份证标题，而身份证标题是中文的组合，因此获取该待识别文字区域的文字类别为中文。

本实施例中，服务器通过采用对比坐标方式确定待识别文字区域对应的行标识，计算简单且计算量少，提高证件图像的识别效率。若证件类型为二代身份证，则基于待识别文字区域对应的行标识，采用二代身份证区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别；若证件类型为香港身份证，则基于待识别文字区域对应的行标识，采用香港身份证区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别。该确定待识别文字区域的文字类别的过程，无需人工进行分类，降低人力成本，提高识别效率。

在一实施例中，目标识别模型包括第一专用识别模型、第二专用识别模型和第三专用识别模型。本实施例中，目标识别模型包括第一专用识别模型、第二专用识别模型和第三专用识别模型。其中，第一专用识别模型是用于识别仅包含中文的证件图像的识别模型。第二专用识别模型是用于识别包含数字和/或字母的证件图像的识别模型。第三专用模型是用于识别不仅包含中文，且还包含数字或字母的证件图像的识别模型。

如图5所示，步骤S60中，即基于待识别文字区域对应的文字类别，将待识别文字区域输入到与文字类别相对应的目标识别模型中进行识别，获取待识别文字区域对应的证件文本信息，具体包括如下步骤：

S61：若待识别文字区域对应的文字类别仅包括中文，则将待识别文字区域输入到第一专用识别模型进行识别，获取待识别文字区域对应的证件文本信息。

具体地，若待识别文字区域对应的文字类别仅包括中文（如二代身份证中姓名对应的文字区域），则将待识别文字区域输入到第一专用识别模型进行识别，获取待识别文字区域对应的证件文本信息，以避免采用泛化识别模型所造成的识别准确率不高的问题，极大地提高证件图像识别的准确率。

S62：若待识别文字区域对应的文字类别包括数字和/或字母，则将待识别文字区域输入到第二专用识别模型进行识别，获取待识别文字区域对应的证件文本信息。

具体地，若待识别文字区域对应的文字类别包括数字（如香港身份证中出生日期对应的文字区域）、字母（如香港身份证中姓名对应的文字区域）、数字和字母（如二代身份证中公民身份证号对应的文字区域），则将待识别文字区域输入到第二专用识别模型进行识别，获取待识别文字区域对应的证件文本信息，以避免采用泛化识别模型所造成的识别准确率不高的问题，极大地提高证件图像识别的准确率。

S63：若待识别文字区域对应的文字类别不仅包括中文且还包括字母或者数字，则将待识别文字区域输入到第三专用识别模型进行识别，获取待识别文字区域对应的证件文本信息。

具体地，若待识别文字区域对应的文字类别包括中文和字母（如香港身份证中签发日期对应的文字区域）或者中文和数字（如二代身份证中出生日期对应的文字区域），则将待识别文字区域输入到第三专用识别模型进行识别，获取待识别文字区域对应的证件文本信息。

本实施例中，服务器对待识别文字区域对应的文字类别进行判断，若待识别文字区域对应的文字类别仅包括中文，则将待识别文字区域输入到第一专用识别模型进行识别，获取待识别文字区域对应的证件文本信息。若待识别文字区域对应的文字类别包括数字和/或字母，则将待识别文字区域输入到第二专用识别模型进行识别，获取待识别文字区域对应的证件文本信息。若待识别文字区域对应的文字类别不仅包括中文且还包括字母或者数字，则将待识别文字区域输入到第三专用识别模型进行识别，获取待识别文字区域对应的证件文本信息。该服务器通过将待识别文字区域按照文字类别输入到对应的目标识别模型中进行识别，避免采用泛化识别模型所造成的识别准确率不高的问题，极大地提高证件图像识别的准确率。

可理解，第一专用识别模型、第二专用识别模型和第三专用识别模型的训练过程一致，在此以训练第一专用识别模为例进行说明。在一实施例中，如图6所示，该基于OCR的证件识别方法还包括S70：预先训练第一专用识别模型。具体地，步骤S70中，即预先训练第一专用识别模型，具体包括如下步骤：

S71：获取待训练证件图像，对待训练证件图像进行文字定位，获取待训练文字位置。

其中，待训练文字位置是指文字在待训练证件图像中的位置。待训练证件图像是根据预先制作好的训练数据生成工具生成的训练证件图像。训练数据生成工具是预先制作的用于自动生成待训练证件图像，无需人工收集和标注，提高训练效率。可理解，待训练证件图像中的文字是训练数据生成工具自动按照文字顺序标注好的。具体地，对待训练证件图像进行文字定位，获取待训练文字位置的步骤与步骤S30相同，为避免重复，在此不再赘述。

S72：基于待训练文字位置，对待训练证件图像进行裁剪，获取待训练文字图像。

具体地，服务器将待训练文字位置对应的左上角位置坐标和右下角位置坐标作为定位坐标，并基于定位坐标确定矩形框的长度和宽度，再根据定位坐标、矩形框的长度和宽度对待训练证件图像进行裁剪，获取待训练文字图像，以便后续对每一裁剪后的待训练文字图像进行训练。

S73：将待训练文字图像输入到卷积神经网络中进行特征提取，获取待训练图像特征。

其中，卷积神经网络(Convolutional Neural Network，CNN)是局部连接网络，相对于全连接网络其最大的特点就是局部连接性和权值共享性。对于一副图像中的某个像素p来说，离像素p越近的像素对其影响也就越大，即局部连接性越大。另外，根据自然图像的统计特性，某个区域的权值也可以用于另一个区域，即权值共享性。权值共享可以理解为卷积核共享，在卷积神经网络(CNN)中，将一个卷积核对给定的图像做卷积运算就可以提取一种待训练图像特征，不同的卷积核可以提取不同的待训练图像特征。由于卷积神经网络的局部连接性，使得模型的复杂度降低，提高模型训练的效率；并且，由于卷积神经网络的权值共享性，因此卷积神经网络可以并行学习，进一步提高模型训练效率。

待训练图像特征是采用卷积神经网络对待训练文字图像进行特征提取所获取到的待训练文字图像对应的图像特征。卷积神经网络模型包括卷积层和池化层。将待训练文字图像输入卷积神经网络模型中进行训练，通过每一层卷积层的计算，获取每一层的卷积层的输出，卷积层的输出可以通过公式计算，其中，表示第/>层卷积层的第/>个顺序标签的输出，即待训练图像特征，/>表示未采用激活函数处理前的第/>个顺序标签（待训练证件图像中预先标注好的）的输出，/>表示/>层的第/>个顺序标签输出（即第/>个顺序标签所对应的待训练证件图像的待训练图像特征），/>表示激活函数，对于卷积层采用的激活函数/>为ReLu（Rectified Linear Unit,线性整流函数），相比其他激活函数的效果会更好），*表示卷积运算，/>表示第/>层的卷积核（权值），/>表示第l层的偏置。若第/>层是池化层,则在池化层采用最大池化的下样采样对卷积层的输出进行降维处理，具体降维公式为/>，其中，/>是指下采样计算，该下采样计算可以选择最大池化的方法，最大池化实际上就是在m*m的样本中取最大值。

S74：将待训练图像特征输入到长短时记忆神经网络中进行训练，获取长短时记忆神经网络的输出值。

其中，长短时记忆神经（long-short term memory，简称LSTM）网络是一种时间递归神经网络，适合于处理和预测具有时间序列，且时间序列间隔和延迟相对较长的重要事件。长短时记忆神经网络具有输入层、隐藏层和输出层这三层网络结构。其中，输入层是长短时记忆神经网络的第一层，用于接收外界信号，即负责接收原始证件图像。输出层是长短时记忆神经网络的最后一层，用于向外界输出信号，即负责输出长短时记忆神经网络的计算结果。隐藏层是长短时记忆神经网络中除输入层和输出层之外的各层，用于对卷积神经网络提取的待训练图像特征进行处理，获取长短时记忆神经网络的计算结果，即长短时记忆神经网络的输出值。可以理解地，采用长短时记忆神经网络进行模型训练增加了待训练证件图像的时序性，以便根据上下文对原始证件图像进行训练，从而提高了第一专用识别模型的准确率。

S75：根据长短时记忆神经网络的输出值，采用时序分类算法和模型优化算法更新卷积神经网络-长短时记忆神经网络的网络参数，获取第一专用识别模型。

其中，卷积神经网络-长短时记忆神经网络的网络参数即为卷积神经网络和长短时记忆神经网络的网络中的权值和偏置。时序分类算法（Connectionist temporalclassification，简称CTC），用于解决输入特征和输出标签之间对齐关系不确定的时间序列问题，是一种可以端到端同时优化模型参数和对齐切分的边界的算法。模型优化算法是用于对训练模型进行优化的算法。本实施例中，模型优化算法包括但不限于采用Adam优化算法对训练模型进行优化。Adam(Adaptive MomentEstimation)是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络的网络参数。

具体地，根据长短时记忆神经网络的输出值，先采用时序分类算法的公式构建损失函数。最后，在获取损失函数/>后，通过对/>求偏导，获取网络参数的梯度。其中，求偏导的公式为/>，/>为t时刻的网络参数，具体为卷积神经网络和长短时记忆神经网络的网络中的权值和偏置。/>为t时刻网络参数的梯度。然后，基于网络参数的梯度，采用Adam优化算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取第一专用识别模型。其中，Adam(Adaptive Moment Estimation)是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络的网络参数。Adam优化算法公式为/>，/>其中，/>、，/>，/>分别是网络参数梯度的一阶矩估计和二阶矩估计；/>为t时刻的网络参数的梯度；/>为一阶矩估计指数衰减率，/>的默认值为0.9；/>为二阶矩估计指数衰减率，/>的默认值为0.999；/>为平滑项，/>的默认为/>；/>为学习率，/>的默认值为0.0001。

进一步地，待识别文字区域对应的证件文本信息包括待检测地址信息，待测地址信息包括第一区域等级信息（省/市）、第二区域等级信息（市/区）和第三区域等级信息（县/街道）。其中，第一区域等级信息、第二区域等级信息和第三区域等级信息是按照行政划分等级来确定的。因此，在获取证件文本信息之后，为进一步确定待检测地址信息的准确性。本实施例中，还需将待检测地址信息与预先创建好的地址库中的地址数据进行对比，以提高证件文本信息的准确率。其中，地址库是预先采用爬虫工具爬取到的开源地址数据所创建的数据库。

具体地，将待检测地址信息与预先创建好的地址库中的地址数据进行对比；若第一区域等级信息、第二区域等级信息和第三区域等级信息中包含两个准确地址信息和一错误地址信息，则按照准确地址信息查找地址库，获取与错误地址信息对应的纠错地址信息，基于纠错地址信息对错误地址信息进行更新，获取目标地址信息。例如，若第二区域等级（如：市）比对有误的情况下，若该区域等级的上一区域等级（即第一区域等级（省））和下一区域等级（即第三区域等级（县））比对准确，则基于第一区域等级（省）和第三区域等级（县）这两个准确地址信息查找地址库，获取与错误地址信息（第二区域等级）对应的纠错地址信息，即从地址库中查找与第一区域等级和第三区域等级对应的纠错信息（即正确的第二区域等级对应的地址信息），基于纠错地址信息对错误地址信息（即待检测地址信息中的第二区域等级对应的地址信息）进行更新，进而获取目标地址信息。若第一区域等级信息、第二区域等级信息和第三区域等级信息中包含至少两个错误地址信息，则生成提示信息，提示用户未找到准确地址，重新识别，以确定待检测地址信息的准确性，提高识别准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于OCR的证件识别装置，该基于OCR的证件识别装置与上述实施例中基于OCR的证件识别方法一一对应。如图7所示，该基于OCR的证件识别装置包括原始证件图像获取模块10、待识别证件图像获取模块20、文字位置获取模块30、待识别文字区域获取模块40、文字类别获取模块50和证件文本信息获取模块60。各功能模块详细说明如下：

原始证件图像获取模块10，用于获取原始证件图像和证件类型。

待识别证件图像获取模块20，用于对原始证件图像进行预处理，获取待识别证件图像。

待识别文字位置获取模块30，用于采用文字定位模型对待识别证件图像进行文字定位，获取待识别文字位置。

待识别文字区域获取模块40，用于基于待识别文字位置，对待识别证件图像进行裁剪，获取待识别文字区域。

文字类别获取模块50，用于采用与证件类型相对应的预设区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别。

证件文本信息获取模块60，用于基于待识别文字区域对应的文字类别，将待识别文字区域输入到与文字类别相对应的目标识别模型中进行识别，获取待识别文字区域对应的证件文本信息。

具体地，待识别证件图像获取模块包括灰度图像获取单元、矫正图像获取单元、锐化图像获取单元和待识别证件图像获取单元。

灰度图像获取单元，用于对原始证件图像进行灰度化处理，获取灰度图像。

矫正图像获取单元，用于对灰度图像进行透视变换处理，获取矫正图像。

锐化图像获取单元，用于对矫正图像进行锐化处理，获取锐化图像。

待识别证件图像获取单元，用于对锐化图像进行二值化处理，获取待识别证件图像。

具体地，区域模板包括二代身份证区域模板和香港身份证区域模板。文字类别获取模块包括行标识获取单元、第一处理单元和第二处理单元。

行标识获取单元，用于采用对比坐标方式对待识别文字区域进行分类，获取待识别文字区域对应的行标识。

第一处理单元，用于若证件类型为二代身份证，则基于待识别文字区域对应的行标识，采用二代身份证区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别。

第二处理单元，用于若证件类型为香港身份证，则基于待识别文字区域对应的行标识，采用香港身份证区域模板对待识别文字区域进行分类，获取待识别文字区域对应的文字类别。

具体地，目标识别模型包括第一专用识别模型、第二专用识别模型和第三专用识别模型；证件文本信息获取模块包括第一输入单元、第二输入单元和第三输入单元。

第一输入单元，用于若待识别文字区域对应的文字类别仅包括中文，则将待识别文字区域输入到第一专用识别模型进行识别，获取待识别文字区域对应的证件文本信息。

第二输入单元，用于若待识别文字区域对应的文字类别包括数字和/或字母，则将待识别文字区域输入到第二专用识别模型进行识别，获取待识别文字区域对应的证件文本信息。

第三输入单元，用于若待识别文字区域对应的文字类别不仅包括中文且还包括字母或者数字，则将待识别文字区域输入到第三专用识别模型进行识别，获取待识别文字区域对应的证件文本信息。

具体地，该基于OCR的证件识别装置还包括待训练文字位置获取单元、待训练文字位置获取单元、待训练图像特征获取单元和、长短时记忆神经网络的输出值获取单元和第一专用识别模型获取单元。

待训练文字位置获取单元。用于对待训练证件图像进行文字定位，获取待训练文字位置。

待训练文字位置获取单元，用于基于待训练文字位置，对待训练证件图像进行裁剪，获取待训练文字图像。

待训练图像特征获取单元，用于将待训练文字图像输入到卷积神经网络中进行特征提取，获取待训练图像特征。

长短时记忆神经网络的输出值获取单元，用于将待训练图像特征输入到长短时记忆神经网络中进行训练，获取长短时记忆神经网络的输出值。

第一专用识别模型获取单元，用于根据长短时记忆神经网络的输出值，采用时序分类算法和模型优化算法更新卷积神经网络-长短时记忆神经网络的网络参数，获取第一专用识别模型。

关于基于OCR的证件识别装置的具体限定可以参见上文中对于基于OCR的证件识别方法的限定，在此不再赘述。上述基于OCR的证件识别方法中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行基于OCR的证件识别方法过程中生成或获取的数据，如证件文本信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于OCR的证件识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的基于OCR的证件识别方法的步骤，例如图2所示的步骤S10-S60，或者图3至图6中所示的步骤。或者，处理器执行计算机程序时实现基于OCR的证件识别装置这一实施例中的各模块/单元的功能，例如图7所示的各模块/单元的功能，为避免重复，这里不再赘述。

在一实施例中，提供一非易失性存储介质，该非易失性存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中基于OCR的证件识别方法的步骤，例如图2所示的步骤S10-S60，或者图3至图6中所示的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述基于OCR的证件识别装置这一实施例中的各模块/单元的功能，例如图7所示的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于OCR的证件识别方法，其特征在于，包括：

获取原始证件图像和证件类型；

对所述原始证件图像进行预处理，获取待识别证件图像；

所述预设区域模板包括二代身份证区域模板和香港身份证区域模板；

所述采用与所述证件类型相对应的预设区域模板对所述待识别文字区域进行分类，获取所述待识别文字区域对应的文字类别，包括：

采用对比坐标方式对所述待识别文字区域进行分类，获取所述待识别文字区域对应的行标识；

若所述证件类型为二代身份证，则基于所述待识别文字区域对应的行标识，采用所述二代身份证区域模板对所述待识别文字区域进行分类，获取所述待识别文字区域对应的文字类别；

若所述证件类型为香港身份证，则基于所述待识别文字区域对应的行标识，采用所述香港身份证区域模板对所述待识别文字区域进行分类，获取所述待识别文字区域对应的文字类别；

基于所述待识别文字区域对应的文字类别，将所述待识别文字区域输入到与所述文字类别相对应的目标识别模型中进行识别，获取待识别文字区域对应的证件文本信息；

所述目标识别模型包括第一专用识别模型、第二专用识别模型和第三专用识别模型；

基于所述待识别文字区域对应的文字类别，将所述待识别文字区域输入到与所述文字类别相对应的目标识别模型中进行识别，获取待识别文字区域对应的证件文本信息，包括：

若所述待识别文字区域对应的文字类别仅包括中文，则将所述待识别文字区域输入到所述第一专用识别模型进行识别，获取所述待识别文字区域对应的证件文本信息；

若所述待识别文字区域对应的文字类别包括数字和/或字母，则将所述待识别文字区域输入到所述第二专用识别模型进行识别，获取所述待识别文字区域对应的证件文本信息；

若所述待识别文字区域对应的文字类别不仅包括中文且还包括字母或者数字，则将所述待识别文字区域输入到所述第三专用识别模型进行识别，获取所述待识别文字区域对应的证件文本信息。

2.如权利要求1所述的基于OCR的证件识别方法，其特征在于，所述对所述原始证件图像进行预处理，获取待识别证件图像，包括：

对所述原始证件图像进行灰度化处理，获取灰度图像；

对所述灰度图像进行透视变换处理，获取矫正图像；

对所述矫正图像进行锐化处理，获取锐化图像；

对所述锐化图像进行二值化处理，获取待识别证件图像。

3.如权利要求1所述的基于OCR的证件识别方法，其特征在于，所述基于OCR的证件识别方法还包括：

获取待训练证件图像，对待训练证件图像进行文字定位，获取待训练文字位置；

基于待训练文字位置，对所述待训练证件图像进行裁剪，获取待训练文字图像；

将待训练文字图像输入到卷积神经网络中进行特征提取，获取待训练图像特征；

将待训练图像特征输入到长短时记忆神经网络中进行训练，获取长短时记忆神经网络的输出值；

根据所述长短时记忆神经网络的输出值，采用时序分类算法和模型优化算法更新卷积神经网络-长短时记忆神经网络的网络参数，获取所述第一专用识别模型。

4.一种基于OCR的证件识别装置，其特征在于，包括：

所述文字类别获取模块包括：

行标识获取单元，用于采用对比坐标方式对所述待识别文字区域进行分类，获取所述待识别文字区域对应的行标识；

第一处理单元，用于若所述证件类型为二代身份证，则基于所述待识别文字区域对应的行标识，采用所述二代身份证区域模板对所述待识别文字区域进行分类，获取所述待识别文字区域对应的文字类别；

第二处理单元，用于若所述证件类型为香港身份证，则基于所述待识别文字区域对应的行标识，采用所述香港身份证区域模板对所述待识别文字区域进行分类，获取所述待识别文字区域对应的文字类别；

证件文本信息获取模块，用于基于所述待识别文字区域对应的文字类别，将所述待识别文字区域输入到与所述文字类别相对应的目标识别模型中进行识别，获取待识别文字区域对应的证件文本信息；

5.如权利要求4所述的基于OCR的证件识别装置，其特征在于，所述待识别证件图像获取模块包括：

灰度图像获取单元，用于对所述原始证件图像进行灰度化处理，获取灰度图像；

矫正图像获取单元，用于对所述灰度图像进行透视变换处理，获取矫正图像；

锐化图像获取单元，用于对所述矫正图像进行锐化处理，获取锐化图像；

待识别证件图像获取单元，用于对所述锐化图像进行二值化处理，获取待识别证件图像。

6.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述基于OCR的证件识别方法的步骤。

7.一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述基于OCR的证件识别方法的步骤。