CN111539406B - 证件复印件信息识别方法、服务器及存储介质 - Google Patents

证件复印件信息识别方法、服务器及存储介质 Download PDF

Info

Publication number
CN111539406B
CN111539406B CN202010316548.2A CN202010316548A CN111539406B CN 111539406 B CN111539406 B CN 111539406B CN 202010316548 A CN202010316548 A CN 202010316548A CN 111539406 B CN111539406 B CN 111539406B
Authority
CN
China
Prior art keywords
field
image
preset
tensor
watermark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010316548.2A
Other languages
English (en)
Other versions
CN111539406A (zh
Inventor
叶颖琦
蒋栋
李龙
李翔
杜晨冰
万正勇
沈志勇
高宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Finance Technology Co Ltd
Original Assignee
China Merchants Finance Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Finance Technology Co Ltd filed Critical China Merchants Finance Technology Co Ltd
Priority to CN202010316548.2A priority Critical patent/CN111539406B/zh
Publication of CN111539406A publication Critical patent/CN111539406A/zh
Application granted granted Critical
Publication of CN111539406B publication Critical patent/CN111539406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明公开了一种证件复印件信息识别方法,应用于服务器,该方法包括接收客户端上传的第一图像,将第一图像进行倾斜矫正得到第二图像,对第二图像进行切割得到至少一个第三图像,将每个第三图像分别输入张量提取模型输出对应的字段张量,对每个第一字段对应的字段张量进行解析得到对应的第二字段作为第一图像中各字段的识别结果,判断识别出的第一字段在第二图像中是否被水印遮挡,若是则从第二图像中找到与该第一字段属性一致的校验字段,并获取预设校验字段对应的第二字段,计算被水印遮挡的第一字段对应的第二字段与预设校验字段对应的第二字段是否相同,若是则说明被水印遮挡的第一字段识别结果正确。本发明能够提高复印件信息提取的准确性。

Description

证件复印件信息识别方法、服务器及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种证件复印件信息识别方法、服务器及存储介质。
背景技术
OCR识别技术常用于提取证件相关信息,例如常用在资料存档、历史档案等等文件信息提取。但是当待提取的对象是证件复印件时,由于证件复印件相较于身份证原件较为模糊导致分辨率低、且常常带有水印,导致OCR识别精度不够理想。因此如何提高复印件信息提取的准确性成为了亟需解决的技术问题。
发明内容
本发明的主要目的在于提供一种证件复印件信息识别方法、服务器及存储介质,旨在如何提高复印件信息提取的准确性的问题。
为实现上述目的,本发明提供的一种证件复印件信息识别方法,应用于服务器,该方法包括:
接收步骤:接收客户端上传的包含证件复印件的第一图像,根据预先确定的矫正规则对所述第一图像进行倾斜矫正得到第二图像;
处理步骤:对所述第二图像进行切割,得到包含第一字段的至少一张第三图像,将所述第三图像输入预先训练的张量提取模型输出第一字段对应的字段张量;
解析步骤:对所述字段张量进行解析得到第二字段,将所述第二字段作为所述第一图像中的第一字段的识别结果;及
校验步骤:根据预设的水印识别规则判断所述第一字段在第二图像中是否被水印遮挡,若是,则从所述第二图像中查找出与该第一字段属性一致的预设校验字段,并获取所述预设校验字段对应的第二字段,判断所述被水印遮挡的第一字段对应的第二字段与预设校验字段对应的第二字段是否相同,若相同,则判断所述被水印遮挡的第一字段识别结果正确。
优选地,所述矫正规则包括:
获取所述第一图像中长度小于或等于第一预设长度的第一直线段;
从所述第一直线段中确定出倾斜角度小于或等于第一预设角度的所有第二直线段;
分别计算每两条所述第二直线段的中心点的y坐标差值,将所述差值小于或等于预设阈值对应的第二直线段归为一类;
利用最小二乘法分别将每一类所述第二直线段进行拟合得到每一类第二直线段对应的拟合直线;及
计算每条拟合直线的斜率,以及所有所述斜率的中位数和斜率的均值,确定出所述中位数与均值中的较小者并作为所述第一图像中倾斜线段的斜率,并根据所述确定的斜率调整所述第一图像的倾斜角度。
优选地,所述对所述第二图像进行切割是利用预设的字段切割算法,所述字段切割算法包括:
预先在数据库中创建预设字段模板图像与切割框之间的映射关系;
将所述第二图像及预设字段模板图像分别输入滑动窗口模型中,将所述预设字段模板图像作为滑动窗口,其中,所述滑动窗口的大小与预设字段模板图像的大小一致;
利用所述滑动窗口在所述第二图像中遍历搜索所述第一字段的位置,并计算所述预设字段模板图像与滑动窗口在所述第二图像上所覆盖图像区域之间的相似度值,标记所述相似度值最大者对应的图像区域为标记区域;及
根据所述映射关系从所述数据库中找到与所述预设字段模板图像对应的切割框,将所述切割框相对于标记区域向右偏移预设尺寸作为所述第一字段所处区域,将对所述第一字段所处区域进行切割得到的图像作为所述第三图像。
优选地,所述将所述第三图像输入预先训练的张量提取模型输出第一字段对应的字段张量包括:
利用所述张量提取模型的卷积层和池化层提取出所述第三图像的第一特征向量;
基于所述第一特征向量及所述张量提取模型的DenseNet结构和全连接层,提取出所述第三图像的第二特征向量;及
将所述第二特征向量均匀切分为w份,将切分后的每份特征向量作为一行张量,将每行张量依次堆叠得到概率分布矩阵n*w作为所述字段张量,其中,n表示所述第一字段字符的类别数,w表示所述第一字段字符的最大长度。
优选地,所述解析步骤中对所述字段张量进行解析得到第二字段是利用张量解析算法,所述张量解析算法包括:
遍历所述字段张量对应的概率分布矩阵中每一列的概率值,确定每一列中概率值最大值的位置,将该位置对应的字符作为该列对应的字段编码;
重复上述操作直至对所述字段张量完全解析得到所述第二字段;及
将所述第二字段作为所述第一图像中的第一字段的识别结果。
优选地,所述水印识别规则包括:
将所述第二图像及预先创建的水印模板图像分别输入滑动窗口模型中,将所述水印模板图像作为滑动窗口,其中,所述滑动窗口的大小与水印模板图像的大小一致;及
通过所述滑动窗口在所述第二图像中遍历搜索出水印的位置,计算所述水印模板图像与所述滑动窗口在第二图像上所覆盖图像区域之间的相似度值,选取所述相似度值最大者对应的图像区域作为被水印遮挡的区域,即被水印遮挡的第一字段。
为实现上述目的,本发明还进一步提供一种服务器,所述服务器包括存储器和处理器,所述存储器上存储有证件复印件信息识别程序,所述证件复印件信息识别程序被所述处理器执行时实现如下步骤:
接收步骤:接收客户端上传的包含证件复印件的第一图像,根据预先确定的矫正规则对所述第一图像进行倾斜矫正得到第二图像;
处理步骤:对所述第二图像进行切割,得到包含第一字段的至少一张第三图像,将所述第三图像输入预先训练的张量提取模型输出第一字段对应的字段张量;
解析步骤:对所述字段张量进行解析得到第二字段,将所述第二字段作为所述第一图像中的第一字段的识别结果;及
校验步骤:根据预设的水印识别规则判断所述第一字段在第二图像中是否被水印遮挡,若是,则从所述第二图像中查找出与该第一字段属性一致的预设校验字段,并获取所述预设校验字段对应的第二字段,判断所述被水印遮挡的第一字段对应的第二字段与预设校验字段对应的第二字段是否相同,若相同,则判断所述被水印遮挡的第一字段识别结果正确。
优选地,所述矫正规则包括:
获取所述第一图像中长度小于或等于第一预设长度的第一直线段;
从所述第一直线段中确定出倾斜角度小于或等于第一预设角度的所有第二直线段;
分别计算每两条所述第二直线段的中心点的y坐标差值,将所述差值小于或等于预设阈值对应的第二直线段归为一类;
利用最小二乘法分别将每一类所述第二直线段进行拟合得到每一类第二直线段对应的拟合直线;及
计算每条拟合直线的斜率,以及所有所述斜率的中位数和斜率的均值,确定出所述中位数与均值中的较小者并作为所述第一图像中倾斜线段的斜率,并根据所述确定的斜率调整所述第一图像的倾斜角度。
优选地,所述对所述第二图像进行切割是利用预设的字段切割算法,所述字段切割算法包括:
预先在数据库中创建预设字段模板图像与切割框之间的映射关系;
将所述第二图像及预设字段模板图像分别输入滑动窗口模型中,将所述预设字段模板图像作为滑动窗口,其中,所述滑动窗口的大小与预设字段模板图像的大小一致;
利用所述滑动窗口在所述第二图像中遍历搜索所述第一字段的位置,并计算所述预设字段模板图像与滑动窗口在所述第二图像上所覆盖图像区域之间的相似度值,标记所述相似度值最大者对应的图像区域为标记区域;及
根据所述映射关系从所述数据库中找到与所述预设字段模板图像对应的切割框,将所述切割框相对于标记区域向右偏移预设尺寸作为所述第一字段所处区域,将对所述第一字段所处区域进行切割得到的图像作为所述第三图像。
为实现上述目的,本发明进一步提供一种计算机可读存储介质,所述计算机可读存储介质上存储有证件复印件信息识别程序,所述证件复印件信息识别程序可被一个或者多个处理器执行,以实现如上所述的证件复印件信息识别方法的步骤。
本发明提出的证件复印件信息识别方法、服务器及存储介质,通过接收客户端上传的第一图像,将第一图像进行倾斜矫正得到第二图像,对第二图像进行切割得到至少一个第三图像,将每个第三图像分别输入张量提取模型输出对应的字段张量,对每个第一字段对应的字段张量进行解析得到对应的第二字段作为第一图像中各字段的识别结果,判断识别出的第一字段在第二图像中是否被水印遮挡,若是则从第二图像中找到与该第一字段属性一致的校验字段,并获取预设校验字段对应的第二字段,计算被水印遮挡的第一字段对应的第二字段与预设校验字段对应的第二字段是否相同,若是则说明被水印遮挡的第一字段识别结果正确。本发明能够提高复印件信息提取的准确性。
附图说明
图1为本发明服务器较佳实施例的应用环境图;
图2为图1中证件复印件信息识别程序较佳实施例的程序模块示意图;
图3为本发明证件复印件信息识别方法较佳实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参附图做进一步说明。
具体实施方式
为了使本发明的目的、技术本实施例及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术本实施例可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术本实施例的结合出现相互矛盾或无法实现时应当认为这种技术本实施例的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种服务器1。
所述服务器1包括,但不仅限于,存储器11、处理器12及网络接口13。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是服务器1的内部存储单元,例如该服务器1的硬盘。存储器11在另一些实施例中也可以是服务器1的外部存储设备,例如该服务器1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,存储器11还可以既包括服务器1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于服务器1的应用软件及各类数据,例如证件复印件信息识别程序10的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行证件复印件信息识别程序10等。
网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该服务器1与其他电子设备之间建立通信连接。
客户端可以是桌上型计算机、笔记本、平板电脑、手机等。
网络可以为互联网、云网络、无线保真(Wi-Fi)网络、个人网(PAN)、局域网(LAN)和/或城域网(MAN)。网络环境中的各种设备可以被配置为根据各种有线和无线通信协议连接到通信网络。这样的有线和无线通信协议的例子可以包括但不限于以下中的至少一个:传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备对设备通信、蜂窝通信协议和/或蓝牙(BlueTooth)通信协议或其组合。
可选地,该服务器1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以称为显示屏或显示单元,用于显示在服务器1中处理的信息以及用于显示可视化的用户界面。
图1仅示出了具有组件11-13以及证件复印件信息识别程序10的服务器1,本领域技术人员可以理解的是,图1示出的结构并不构成对服务器1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在本实施例中,图1的证件复印件信息识别程序10被处理器12执行时,实现以下步骤:
接收步骤:接收客户端上传的包含证件复印件的第一图像,根据预先确定的矫正规则对所述第一图像进行倾斜矫正得到第二图像;
处理步骤:对所述第二图像进行切割,得到包含第一字段的至少一张第三图像,将所述第三图像输入预先训练的张量提取模型输出第一字段对应的字段张量;
解析步骤:对所述字段张量进行解析得到第二字段,将所述第二字段作为所述第一图像中的第一字段的识别结果;及
校验步骤:根据预设的水印识别规则判断所述第一字段在第二图像中是否被水印遮挡,若是,则从所述第二图像中查找出与该第一字段属性一致的预设校验字段,并获取所述预设校验字段对应的第二字段,判断所述被水印遮挡的第一字段对应的第二字段与预设校验字段对应的第二字段是否相同,若相同,则判断所述被水印遮挡的第一字段识别结果正确。
关于上述步骤的详细介绍,请参照下述图2关于证件复印件信息识别程序10实施例的程序模块示意图及图3关于证件复印件信息识别方法实施例的方法流程示意图的说明。
参照图2所示,为图1中证件复印件信息识别程序10实施例的程序模块示意图。证件复印件信息识别程序10被分割为多个模块,该多个模块存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
在本实施例中,所述证件复印件信息识别程序10包括接收模块110、处理模块120、解析模块130及校验模块140。
接收模块110,用于接收客户端上传的包含证件复印件的第一图像,根据预先确定的矫正规则对所述第一图像进行倾斜矫正得到第二图像。
在本实施例中,第一图像可以是身份证图像或者其他待识别的证件图像,客户端拍摄的原始图像,例如摄像头,或者其他具有拍摄功能和数据传输功能的拍摄终端获取的第一图像,可能存在倾斜角度。如果直接将存在倾斜角度的第一图像输入后续的张量提取模型中,可能会造成图像识别准确性下降。因此,在本实施例中,在对第一图像进行张量提取之前,通过预先确定的矫正规则将第一图像进行倾斜矫正得到第二图像。
所述矫正规则包括:
获取所述第一图像中长度小于或等于第一预设长度(例如0.3cm)的第一直线段,具体可采用霍夫变换(Hough)的概率算法获取第一直线段;
从所述第一直线段中确定出倾斜角度小于或等于第一预设角度(例如5°)的所有第二直线段;
分别计算每两条所述第二直线段的中心点的y坐标差值,将所述差值小于或等于预设阈值(例如0.6cm)对应的第二直线段归为一类;
利用最小二乘法分别将每一类所述第二直线段进行拟合得到每一类第二直线段对应的拟合直线;及
计算每条拟合直线的斜率,以及所有所述斜率的中位数和斜率的均值,确定出所述中位数与均值中的较小者并作为所述第一图像中倾斜线段的斜率,并根据所述确定的斜率调整所述第一图像的倾斜角度。
例如,从第一图像中获取三条第二直线段,分别为a(长度0.1cm,倾斜角度4°,中心点y坐标值0.1)、b(长度0.2cm,倾斜角度3°,中心点y坐标值0.2)、c(长度0.3cm,倾斜角度2°,中心点y坐标值0.3)a与b及c之间的中心点y坐标值之差均小于0.6,因此第二直线段a、b、c为同一类,之后利用最小二乘法通过最小化误差的平方和寻找同一类第二直线段的最佳函数匹配(即拟合直线),并根据确定出的较小者调整所述第一图像的倾斜角度,使得矫正后的第二图像有利于提高后续张量提取模型对第一字段的张量提取的准确性。
其中,当较小者对应的斜率为正数时,说明对应的倾斜角为锐角或直角,则利用90°减去该斜率对应的角度得到待矫正角度,沿逆时针旋转第一图像待矫正角度得到第二图像;
当较小者对应的斜率为负数时,说明对应的倾斜角为钝角,则将该斜率对应的角度减去90°得到待矫正角度,沿顺时针旋转第一图像待矫正角度得到第二图像。
处理模块120,用于对所述第二图像进行切割,得到包含第一字段的至少一张第三图像,将所述第三图像输入预先训练的张量提取模型输出第一字段对应的字段张量。
为了消除客户端在拍摄过程中可能受到光照反射干扰,导致对后续的数据处理产生影响,因此,在本实施例中,在将第三图像输入张量提取模型之前,需要对第三图像进行预处理。预处理包括高斯滤波,均值滤波,Gamma矫正以及直方图均衡化等。
以身份证图像为例,由于身份证图像中的各第一字段的内容和结构均不同,且每个第一字段在第二图像中所处的位置坐标是预先确定好的,因此,在本实施例中,对第二图像进行切割得到至少一个第三图像,每个第三图像对应一个第一字段(例如性别、地址、身份证号码等身份证属性对应的字段),将每个第三图像分别输入预先训练的张量提取模型,输出对应的字段张量。
其中,所述张量(tensor)是一种多维的数据存储形式。
所述对所述第二图像进行切割是利用预设的字段切割算法,所述字段切割算法包括:
预先在数据库中创建预设字段模板图像与切割框之间的映射关系;
将所述第二图像及预设字段模板图像分别输入滑动窗口模型中,将所述预设字段模板图像作为滑动窗口,其中,所述滑动窗口的大小与预设字段模板图像的大小一致;
利用所述滑动窗口在所述第二图像中遍历搜索所述第一字段的位置,并计算所述预设字段模板图像与滑动窗口在所述第二图像上所覆盖图像区域之间的相似度值,标记所述相似度值最大者对应的图像区域为标记区域;及
根据所述映射关系从所述数据库中找到与所述预设字段模板图像对应的切割框,将所述切割框相对于标记区域向右偏移预设尺寸作为所述第一字段所处区域,将对所述第一字段所处区域进行切割得到的图像作为所述第三图像。
在另一实施例中,所述预设的字段切割算法还可采用水平投影算法。通过将第二图像进行二值化处理形成黑白图像,利用水平投影算法在二值化处理后的黑白图像上构建多条水平线,记录下穿过黑白图像时遇到的黑色像素点(即文本字段的像素点)的水平线记为1,遇到白色像素点(即空白行的像素点)的水平线记为0。将在竖直方向上并排、且标记为1的一组水平线作为一组,将组的数量作为第三图像的数量,同时将每一类中水平线的数量作为第三图像的宽度,水平线的长度作为第三图像的长度,最后根据每个第三图像的宽度与长度确定在第二图像中的位置坐标,便可切割出每个第三图像。
在本实施例中,所述张量提取模型是通过训练深度卷积神经网络模型得到的,基于预设数量的第三图像组成的样本集,通过反向梯度传播迭代优化训练所述深度卷积神经网络模型,得到所述张量提取模型。
所述张量提取模型采用121层的DenseNet作为主干网络提取第三图像的图像特征,具有网络深、特征丰富等优势,且去除了传统识别网络的LSTM结构(身份证内容中无需提取上下文信息),使得网络参数量小且推断速度快且支持多CPU或GPU并行训练,因参数量小,该网络在少量训练集(20000张)上,即可达到很好的训练效果,识别精度达到99%。所述预设的张量提取模型包括1个卷积层、1个池化层、121层DenseNet、1个批归一化层、1个激活层及1个全连接层。
在本实施例中,可以选取3*3、5*5或者7*7的卷积核尺寸。
池化层过滤器的大小为3×3,用于减小图像特征的尺寸,忽略不重要的特征(例如,噪点,干扰等)、保留重要特征(例如,字符的笔画)。
DenseNet的优势在于层与层之间的密集连接可有效防止梯度消失,采用121层的DenseNet可以提取高层图像语义特征,所提取的特征对字符识别任务更加友好,从而提高后续字符识别的精度。
批归一化层用于调整数据到激活函数的激活区域、防止过拟合、加速网络收敛。网络若没有批归一化层,训练精度高但测试精度低,会出现过拟合现象,应用批归一化层后网络的测试精度明显提升,有良好的抗过拟合效果。
激活层的作用在于引入非线性从而使网络有更好的拟合性,激活函数采用Relu函数,结构简单收敛速度快。
进一步地,所述将每个所述第三图像分别输入预先训练的张量提取模型,输出对应的字段张量包括:
利用所述张量提取模型的卷积层和池化层提取出所述第三图像的第一特征向量;
基于所述第一特征向量及所述张量提取模型的DenseNet结构和全连接层,提取出所述第三图像的第二特征向量;及
将所述第二特征向量均匀切分为w份,将切分后的每份特征向量作为一行张量,将每行张量依次堆叠得到概率分布矩阵n*w作为所述字段张量,其中,n表示所述第一字段字符的类别数,w表示所述第一字段字符的最大长度。由于身份证图像的各字段的字符最大长度不尽相同,上述输出的特征向量可能存在不能被均匀切分的情况,此时会在Densenet层和全连接层之间加入一层全连接层,得到适配各字段的字符最大长度的特征向量,从而可以被均匀切分。
以身份证为例,由于身份证各字段的内容和结构不同,所以我们针对身份证的这一特点,针对10个需识别字段,基于相同的骨干网络和不同的全连接分类层,构建了9个不同的深度卷积网络模型,其中地址和签发机关两个字段共用一个模型。这些模型的区别在于n和w的数值不同。
对于w的数值:性别的最大长度为1;身份证号的最大长度为18;民族的最大长度为1(将民族作为一个整体识别,不逐字符识别);出生日期(年月日)中年份的最大长度为4,月份的最大长度为1(将月份作为一个整体识别,不逐数字识别),日期的最大长度为1(同月份);姓名的最大长度为5(后三位可能为空白符);地址和签发机关的最大长度为12,因为在身份证上地址和签发机关一栏最多可写12个字;有效日期的最大长度为8,有效日期这一字段比较特殊,英文符号和中文字符混合在一起,由于两个英文数字或符号的占位等于一个汉字,所以我们以一个汉字的占位长度作为划分,得到有效日期的最大长度为8,即最多包括16位英文数字或8位汉字。
对于n的数值:姓名、地址和签发机关的识别模型的分类层的类别数为常用汉字的个数加一个空白符;民族的分类数为57,身份证上的民族类别共57类,为56个民族加上穿青人;性别的分类数为2,分别为男和女;出生日期中,年、月、日的分类数分别为10、12和31(年份的分类个数为10个阿拉伯数字,月的分类个数为12个月份,日期的分类个数为31个日期);身份证号的分类数为12,为10个阿拉伯数字加上大写英文字母X和一个空白符;有效日期的分类数是104,因为有效日期以一个汉字或两个英文或符号为一个分类单位,合计所有可能出现的情况共104种。
这种针对性的模型构建可以规避一些低级的常规性错误,提高识别准确率。如性别只存在男和女两种情况,若使用通用文字识别模型,可能出现除男和女外的其他识别结果(比如“另”),而本方案的模型设计可以很好地规避这一问题。同时,虽然模型数量多,但是在实际使用过程中,在模型加载初始化完成后,由于每个模型的体量小,且可以并行化处理,所以并不影响处理速度。
张量提取模型在训练时,使用Adam优化器,学习速率为0.0001,当模型在测试集上的准确率大于0.95时,学习速率按0.5倍的倍率每轮次衰减,直到学习速率小于0.00001后不再衰减。模型训练采用交叉熵损失函数,bat ch size设为64,batch size为每次送入网络中训练的样本数量,训练时首先前向传播产生损失值,再通过反向传播算法,向损失值减小的方向更新网络权重,持续训练直到模型收敛。
解析模块130,用于对所述字段张量进行解析得到第二字段,将所述第二字段作为所述第一图像中的第一字段的识别结果。
在本实施例中,所述解析步骤中对所述字段张量进行解析得到第二字段是利用张量解析算法,所述张量解析算法包括:
遍历所述字段张量对应的概率分布矩阵中每一列的概率值,确定每一列中概率值最大值的位置,将该位置对应的字符作为该列对应的字段编码;
重复上述操作直至对所述字段张量完全解析得到所述第二字段;及
将所述第二字段作为所述第一图像中的第一字段的识别结果。
例如:在张量提取模型输出的概率分布矩阵n*w中,每一列的元素概率之和为1,(即对于第j列所有元素的概率之和为1),通过遍历字段张量对应的概率分布矩阵中每一列的概率值,确定每一列中概率值最大值的位置i,再根据字符位置映射得到最终识别的字符。例如:对于出生年份这一字段,需识别0~9这10个数字,最大长度为4,则得到一个10行4列的概率分布矩阵,对于第0列的10个元素(在计算机识别过程中,默认正常情况下的第1列为第0列),求其概率最大值所在的位置,如果最大值在第2个元素,则可将第二个元素映射到其所代表的字符上去,从而得到第一图像中第一字段的识别结果。
校验模块140,用于根据预设的水印识别规则判断所述第一字段在第二图像中是否被水印遮挡,若是,则从所述第二图像中查找出与该第一字段属性一致的预设校验字段,并获取所述预设校验字段对应的第二字段,判断所述被水印遮挡的第一字段对应的第二字段与预设校验字段对应的第二字段是否相同,若相同,则判断所述被水印遮挡的第一字段识别结果正确。
在本实施例中,由于证件复印件通常会在身份证号码、或性别、或出生日期或地址位置上打上水印,为了验证被水印遮挡的第一字段识别出来的结果,即第二字段的数据准确性,因此,在本实施例中,需要对被水印遮挡的第一字段的识别结果进行校验。利用身份证的特殊性,例如身份证号码中第7位至第14位数字为8位出生日期信息,与身份证中的出生日期(年月日)可相互校验;例如身份证号中的第17位数字为性别信息位,可与身份证中的性别字段相互校验。
基于身份证的特殊性及上述例子,通过计算被水印遮挡的第一字段对应的第二字段与校验字段对应的第二字段之间是否相同,若是,则说明被水印遮挡的第一字段识别结果正确,若否,则以预设校验字段对应的第二字段为基准校正被水印遮挡的第一字段的识别结果。
进一步地,所述水印位置判断规则包括:
将所述第二图像及预先创建的水印模板图像分别输入滑动窗口模型中,将所述水印模板图像作为滑动窗口,其中,所述滑动窗口的大小与水印模板图像的大小一致;及
通过所述滑动窗口在所述第二图像中遍历搜索出水印的位置,计算所述水印模板图像与所述滑动窗口在第二图像上所覆盖图像区域之间的相似度值,选取所述相似度值最大者对应的图像区域作为被水印遮挡的区域,即被水印遮挡的第一字段。
此外,本发明还提供一种证件复印件信息识别方法。参照图3所示,为本发明证件复印件信息识别方法的实施例的方法流程示意图。服务器1的处理器12执行存储器11中存储的证件复印件信息识别程序10时实现证件复印件信息识别方法的如下步骤:
S110,接收客户端上传的包含证件复印件的第一图像,根据预先确定的矫正规则对所述第一图像进行倾斜矫正得到第二图像。
在本实施例中,第一图像可以是身份证图像或者其他待识别的证件图像,客户端拍摄的原始图像,例如摄像头,或者其他具有拍摄功能和数据传输功能的拍摄终端获取的第一图像,可能存在倾斜角度。如果直接将存在倾斜角度的第一图像输入后续的张量提取模型中,可能会造成图像识别准确性下降。因此,在本实施例中,在对第一图像进行张量提取之前,通过预先确定的矫正规则将第一图像进行倾斜矫正得到第二图像。
所述矫正规则包括:
获取所述第一图像中长度小于或等于第一预设长度(例如0.3cm)的第一直线段,具体可采用霍夫变换(Hough)的概率算法获取第一直线段;
从所述第一直线段中确定出倾斜角度小于或等于第一预设角度(例如5°)的所有第二直线段;
分别计算每两条所述第二直线段的中心点的y坐标差值,将所述差值小于或等于预设阈值(例如0.6cm)对应的第二直线段归为一类;
利用最小二乘法分别将每一类所述第二直线段进行拟合得到每一类第二直线段对应的拟合直线;及
计算每条拟合直线的斜率,以及所有所述斜率的中位数和斜率的均值,确定出所述中位数与均值中的较小者并作为所述第一图像中倾斜线段的斜率,并根据所述确定的斜率调整所述第一图像的倾斜角度。
例如,从第一图像中获取三条第二直线段,分别为a(长度0.1cm,倾斜角度4°,中心点y坐标值0.1)、b(长度0.2cm,倾斜角度3°,中心点y坐标值0.2)、c(长度0.3cm,倾斜角度2°,中心点y坐标值0.3)a与b及c之间的中心点y坐标值之差均小于0.6,因此第二直线段a、b、c为同一类,之后利用最小二乘法通过最小化误差的平方和寻找同一类第二直线段的最佳函数匹配(即拟合直线),并根据确定出的较小者调整所述第一图像的倾斜角度,使得矫正后的第二图像有利于提高后续张量提取模型对第一字段的张量提取的准确性。
其中,当较小者对应的斜率为正数时,说明对应的倾斜角为锐角或直角,则利用90°减去该斜率对应的角度得到待矫正角度,沿逆时针旋转第一图像待矫正角度得到第二图像;
当较小者对应的斜率为负数时,说明对应的倾斜角为钝角,则将该斜率对应的角度减去90°得到待矫正角度,沿顺时针旋转第一图像待矫正角度得到第二图像。
S120,对所述第二图像进行切割,得到包含第一字段的至少一张第三图像,将所述第三图像输入预先训练的张量提取模型输出第一字段对应的字段张量。
为了消除客户端在拍摄过程中可能受到光照反射干扰,导致对后续的数据处理产生影响,因此,在本实施例中,在将第三图像输入张量提取模型之前,需要对第三图像进行预处理。预处理包括高斯滤波,均值滤波,Gamma矫正以及直方图均衡化等。
以身份证图像为例,由于身份证图像中的各第一字段的内容和结构均不同,且每个第一字段在第二图像中所处的位置坐标是预先确定好的,因此,在本实施例中,对第二图像进行切割得到至少一个第三图像,每个第三图像对应一个第一字段(例如性别、地址、身份证号码等身份证属性对应的字段),将每个第三图像分别输入预先训练的张量提取模型,输出对应的字段张量。
其中,所述张量(tensor)是一种多维的数据存储形式。
所述对所述第二图像进行切割是利用预设的字段切割算法,所述字段切割算法包括:
预先在数据库中创建预设字段模板图像与切割框之间的映射关系;
将所述第二图像及预设字段模板图像分别输入滑动窗口模型中,将所述预设字段模板图像作为滑动窗口,其中,所述滑动窗口的大小与预设字段模板图像的大小一致;
利用所述滑动窗口在所述第二图像中遍历搜索所述第一字段的位置,并计算所述预设字段模板图像与滑动窗口在所述第二图像上所覆盖图像区域之间的相似度值,标记所述相似度值最大者对应的图像区域为标记区域;及
根据所述映射关系从所述数据库中找到与所述预设字段模板图像对应的切割框,将所述切割框相对于标记区域向右偏移预设尺寸作为所述第一字段所处区域,将对所述第一字段所处区域进行切割得到的图像作为所述第三图像。
在另一实施例中,所述预设的字段切割算法还可采用水平投影算法。通过将第二图像进行二值化处理形成黑白图像,利用水平投影算法在二值化处理后的黑白图像上构建多条水平线,记录下穿过黑白图像时遇到的黑色像素点(即文本字段的像素点)的水平线记为1,遇到白色像素点(即空白行的像素点)的水平线记为0。将在竖直方向上并排、且标记为1的一组水平线作为一组,将组的数量作为第三图像的数量,同时将每一类中水平线的数量作为第三图像的宽度,水平线的长度作为第三图像的长度,最后根据每个第三图像的宽度与长度确定在第二图像中的位置坐标,便可切割出每个第三图像。
在本实施例中,所述张量提取模型是通过训练深度卷积神经网络模型得到的,基于预设数量的第三图像组成的样本集,通过反向梯度传播迭代优化训练所述深度卷积神经网络模型,得到所述张量提取模型。
所述张量提取模型采用121层的DenseNet作为主干网络提取第三图像的图像特征,具有网络深、特征丰富等优势,且去除了传统识别网络的LSTM结构(身份证内容中无需提取上下文信息),使得网络参数量小且推断速度快且支持多CPU或GPU并行训练,因参数量小,该网络在少量训练集(20000张)上,即可达到很好的训练效果,识别精度达到99%。所述预设的张量提取模型包括1个卷积层、1个池化层、121层DenseNet、1个批归一化层、1个激活层及1个全连接层。
在本实施例中,可以选取3*3、5*5或者7*7的卷积核尺寸。
池化层过滤器的大小为3×3,用于减小图像特征的尺寸,忽略不重要的特征(例如,噪点,干扰等)、保留重要特征(例如,字符的笔画)。
DenseNet的优势在于层与层之间的密集连接可有效防止梯度消失,采用121层的DenseNet可以提取高层图像语义特征,所提取的特征对字符识别任务更加友好,从而提高后续字符识别的精度。
批归一化层用于调整数据到激活函数的激活区域、防止过拟合、加速网络收敛。网络若没有批归一化层,训练精度高但测试精度低,会出现过拟合现象,应用批归一化层后网络的测试精度明显提升,有良好的抗过拟合效果。
激活层的作用在于引入非线性从而使网络有更好的拟合性,激活函数采用Relu函数,结构简单收敛速度快。
进一步地,所述将每个所述第三图像分别输入预先训练的张量提取模型,输出对应的字段张量包括:
利用所述张量提取模型的卷积层和池化层提取出所述第三图像的第一特征向量;
基于所述第一特征向量及所述张量提取模型的DenseNet结构和全连接层,提取出所述第三图像的第二特征向量;及
将所述第二特征向量均匀切分为w份,将切分后的每份特征向量作为一行张量,将每行张量依次堆叠得到概率分布矩阵n*w作为所述字段张量,其中,n表示所述第一字段字符的类别数,w表示所述第一字段字符的最大长度。由于身份证图像的各字段的字符最大长度不尽相同,上述输出的特征向量可能存在不能被均匀切分的情况,此时会在Densenet层和全连接层之间加入一层全连接层,得到适配各字段的字符最大长度的特征向量,从而可以被均匀切分。
以身份证为例,由于身份证各字段的内容和结构不同,所以我们针对身份证的这一特点,针对10个需识别字段,基于相同的骨干网络和不同的全连接分类层,构建了9个不同的深度卷积网络模型,其中地址和签发机关两个字段共用一个模型。这些模型的区别在于n和w的数值不同。
对于w的数值:性别的最大长度为1;身份证号的最大长度为18;民族的最大长度为1(将民族作为一个整体识别,不逐字符识别);出生日期(年月日)中年份的最大长度为4,月份的最大长度为1(将月份作为一个整体识别,不逐数字识别),日期的最大长度为1(同月份);姓名的最大长度为5(后三位可能为空白符);地址和签发机关的最大长度为12,因为在身份证上地址和签发机关一栏最多可写12个字;有效日期的最大长度为8,有效日期这一字段比较特殊,英文符号和中文字符混合在一起,由于两个英文数字或符号的占位等于一个汉字,所以我们以一个汉字的占位长度作为划分,得到有效日期的最大长度为8,即最多包括16位英文数字或8位汉字。
对于n的数值:姓名、地址和签发机关的识别模型的分类层的类别数为常用汉字的个数加一个空白符;民族的分类数为57,身份证上的民族类别共57类,为56个民族加上穿青人;性别的分类数为2,分别为男和女;出生日期中,年、月、日的分类数分别为10、12和31(年份的分类个数为10个阿拉伯数字,月的分类个数为12个月份,日期的分类个数为31个日期);身份证号的分类数为12,为10个阿拉伯数字加上大写英文字母X和一个空白符;有效日期的分类数是104,因为有效日期以一个汉字或两个英文或符号为一个分类单位,合计所有可能出现的情况共104种。
这种针对性的模型构建可以规避一些低级的常识性错误,提高识别准确率。如性别只存在男和女两种情况,若使用通用文字识别模型,可能出现除男和女外的其他识别结果(比如“另”),而本方案的模型设计可以很好地规避这一问题。同时,虽然模型数量多,但是在实际使用过程中,在模型加载初始化完成后,由于每个模型的体量小,且可以并行化处理,所以并不影响处理速度。
张量提取模型在训练时,使用Adam优化器,学习速率为0.0001,当模型在测试集上的准确率大于0.95时,学习速率按0.5倍的倍率每轮次衰减,直到学习速率小于0.00001后不再衰减。模型训练采用交叉熵损失函数,bat ch size设为64,batch size为每次送入网络中训练的样本数量,训练时首先前向传播产生损失值,再通过反向传播算法,向损失值减小的方向更新网络权重,持续训练直到模型收敛。
S130,对所述字段张量进行解析得到第二字段,将所述第二字段作为所述第一图像中的第一字段的识别结果。
在本实施例中,所述解析步骤中对所述字段张量进行解析得到第二字段是利用张量解析算法,所述张量解析算法包括:
遍历所述字段张量对应的概率分布矩阵中每一列的概率值,确定每一列中概率值最大值的位置,将该位置对应的字符作为该列对应的字段编码;
重复上述操作直至对所述字段张量完全解析得到所述第二字段;及
将所述第二字段作为所述第一图像中的第一字段的识别结果。
例如:在张量提取模型输出的概率分布矩阵n*w中,每一列的元素概率之和为1,(即对于第j列所有元素的概率之和为1),通过遍历字段张量对应的概率分布矩阵中每一列的概率值,确定每一列中概率值最大值的位置i,再根据字符位置映射得到最终识别的字符。例如:对于出生年份这一字段,需识别0~9这10个数字,最大长度为4,则得到一个10行4列的概率分布矩阵,对于第0列的10个元素(在计算机识别过程中,默认正常情况下的第1列为第0列),求其概率最大值所在的位置,如果最大值在第2个元素,则可将第二个元素映射到其所代表的字符上去,从而得到第一图像中第一字段的识别结果。
S140,根据预设的水印识别规则判断所述第一字段在第二图像中是否被水印遮挡,若是,则从所述第二图像中查找出与该第一字段属性一致的预设校验字段,并获取所述预设校验字段对应的第二字段,判断所述被水印遮挡的第一字段对应的第二字段与预设校验字段对应的第二字段是否相同,若相同,则判断所述被水印遮挡的第一字段识别结果正确。
在本实施例中,由于证件复印件通常会在身份证号码、或性别、或出生日期或地址位置上打上水印,为了验证被水印遮挡的第一字段识别出来的结果,即第二字段的数据准确性,因此,在本实施例中,需要对被水印遮挡的第一字段的识别结果进行校验。利用身份证的特殊性,例如身份证号码中第7位至第14位数字为8位出生日期信息,与身份证中的出生日期(年月日)可相互校验;例如身份证号中的第17位数字为性别信息位,可与身份证中的性别字段相互校验。
基于身份证的特殊性及上述例子,通过计算被水印遮挡的第一字段对应的第二字段与校验字段对应的第二字段之间是否相同,若是,则说明被水印遮挡的第一字段识别结果正确,若否,则以预设校验字段对应的第二字段为基准校正被水印遮挡的第一字段的识别结果。
进一步地,所述水印位置判断规则包括:
将所述第二图像及预先创建的水印模板图像分别输入滑动窗口模型中,将所述水印模板图像作为滑动窗口,其中,所述滑动窗口的大小与水印模板图像的大小一致;及
通过所述滑动窗口在所述第二图像中遍历搜索出水印的位置,计算所述水印模板图像与所述滑动窗口在第二图像上所覆盖图像区域之间的相似度值,选取所述相似度值最大者对应的图像区域作为被水印遮挡的区域,即被水印遮挡的第一字段。
此外,本发明实施例还提出一种计算机可读存储介质,计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括证件复印件信息识别程序10,本发明之计算机可读存储介质的具体实施方式与上述证件复印件信息识别方法以及服务器1的具体实施方式大致相同,在此不再赘述。
需要说明的是,上述本发明实施例序日仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序日仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术本实施例本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种证件复印件信息识别方法,应用于服务器,其特征在于,该方法包括:
接收步骤:接收客户端上传的包含证件复印件的第一图像,根据预先确定的矫正规则对所述第一图像进行倾斜矫正得到第二图像;
处理步骤:对所述第二图像进行切割,得到包含第一字段的至少一张第三图像,将所述第三图像输入预先训练的张量提取模型输出第一字段对应的字段张量;
解析步骤:对所述字段张量进行解析得到第二字段,将所述第二字段作为所述第一图像中的第一字段的识别结果;及
校验步骤:根据预设的水印识别规则判断所述第一字段在第二图像中是否被水印遮挡,若是,则从所述第二图像中查找出与该第一字段属性一致的预设校验字段,并获取所述预设校验字段对应的第二字段,判断所述被水印遮挡的第一字段对应的第二字段与预设校验字段对应的第二字段是否相同,若相同,则判断所述被水印遮挡的第一字段识别结果正确。
2.如权利要求1所述的证件复印件信息识别方法,其特征在于,所述矫正规则包括:
获取所述第一图像中长度小于或等于第一预设长度的第一直线段;
从所述第一直线段中确定出倾斜角度小于或等于第一预设角度的所有第二直线段;
分别计算每两条所述第二直线段的中心点的y坐标差值,将所述差值小于或等于预设阈值对应的第二直线段归为一类;
利用最小二乘法分别将每一类所述第二直线段进行拟合得到每一类第二直线段对应的拟合直线;及
计算每条拟合直线的斜率,以及所有所述斜率的中位数和斜率的均值,确定出所述中位数与均值中的较小者并作为所述第一图像中倾斜线段的斜率,并根据所述确定的斜率调整所述第一图像的倾斜角度。
3.如权利要求1所述的证件复印件信息识别方法,其特征在于,所述对所述第二图像进行切割是利用预设的字段切割算法,所述字段切割算法包括:
预先在数据库中创建预设字段模板图像与切割框之间的映射关系;
将所述第二图像及预设字段模板图像分别输入滑动窗口模型中,将所述预设字段模板图像作为滑动窗口,其中,所述滑动窗口的大小与预设字段模板图像的大小一致;
利用所述滑动窗口在所述第二图像中遍历搜索所述第一字段的位置,并计算所述预设字段模板图像与滑动窗口在所述第二图像上所覆盖图像区域之间的相似度值,标记所述相似度值最大者对应的图像区域为标记区域;及
根据所述映射关系从所述数据库中找到与所述预设字段模板图像对应的切割框,将所述切割框相对于标记区域向右偏移预设尺寸作为所述第一字段所处区域,将对所述第一字段所处区域进行切割得到的图像作为所述第三图像。
4.如权利要求1所述的证件复印件信息识别方法,其特征在于,所述将所述第三图像输入预先训练的张量提取模型输出第一字段对应的字段张量包括:
利用所述张量提取模型的卷积层和池化层提取出所述第三图像的第一特征向量;
基于所述第一特征向量及所述张量提取模型的DenseNet结构和全连接层,提取出所述第三图像的第二特征向量;及
将所述第二特征向量均匀切分为w份,将切分后的每份特征向量作为一行张量,将每行张量依次堆叠得到概率分布矩阵n*w作为所述字段张量,其中,n表示所述第一字段字符的类别数,w表示所述第一字段字符的最大长度。
5.如权利要求4所述的证件复印件信息识别方法,其特征在于,所述解析步骤中对所述字段张量进行解析得到第二字段是利用张量解析算法,所述张量解析算法包括:
遍历所述字段张量对应的概率分布矩阵中每一列的概率值,确定每一列中概率值最大值的位置,将该位置对应的字符作为该列对应的字段编码;
重复上述操作直至对所述字段张量完全解析得到所述第二字段;及
将所述第二字段作为所述第一图像中的第一字段的识别结果。
6.如权利要求1所述的证件复印件信息识别方法,其特征在于,所述水印识别规则包括:
将所述第二图像及预先创建的水印模板图像分别输入滑动窗口模型中,将所述水印模板图像作为滑动窗口,其中,所述滑动窗口的大小与水印模板图像的大小一致;及
通过所述滑动窗口在所述第二图像中遍历搜索出水印的位置,计算所述水印模板图像与所述滑动窗口在第二图像上所覆盖图像区域之间的相似度值,选取所述相似度值最大者对应的图像区域作为被水印遮挡的区域,即被水印遮挡的第一字段。
7.一种服务器,其特征在于,所述服务器包括存储器和处理器,所述存储器上存储有证件复印件信息识别程序,所述证件复印件信息识别程序被所述处理器执行时实现如下步骤:
接收步骤:接收客户端上传的包含证件复印件的第一图像,根据预先确定的矫正规则对所述第一图像进行倾斜矫正得到第二图像;
处理步骤:对所述第二图像进行切割,得到包含第一字段的至少一张第三图像,将所述第三图像输入预先训练的张量提取模型输出第一字段对应的字段张量;
解析步骤:对所述字段张量进行解析得到第二字段,将所述第二字段作为所述第一图像中的第一字段的识别结果;及
校验步骤:根据预设的水印识别规则判断所述第一字段在第二图像中是否被水印遮挡,若是,则从所述第二图像中查找出与该第一字段属性一致的预设校验字段,并获取所述预设校验字段对应的第二字段,判断所述被水印遮挡的第一字段对应的第二字段与预设校验字段对应的第二字段是否相同,若相同,则判断所述被水印遮挡的第一字段识别结果正确。
8.如权利要求7所述的服务器,其特征在于,所述矫正规则包括:
获取所述第一图像中长度小于或等于第一预设长度的第一直线段;
从所述第一直线段中确定出倾斜角度小于或等于第一预设角度的所有第二直线段;
分别计算每两条所述第二直线段的中心点的y坐标差值,将所述差值小于或等于预设阈值对应的第二直线段归为一类;
利用最小二乘法分别将每一类所述第二直线段进行拟合得到每一类第二直线段对应的拟合直线;及
计算每条拟合直线的斜率,以及所有所述斜率的中位数和斜率的均值,确定出所述中位数与均值中的较小者并作为所述第一图像中倾斜线段的斜率,并根据所述确定的斜率调整所述第一图像的倾斜角度。
9.如权利要求8所述的服务器,其特征在于,所述对所述第二图像进行切割是利用预设的字段切割算法,所述字段切割算法包括:
预先在数据库中创建预设字段模板图像与切割框之间的映射关系;
将所述第二图像及预设字段模板图像分别输入滑动窗口模型中,将所述预设字段模板图像作为滑动窗口,其中,所述滑动窗口的大小与预设字段模板图像的大小一致;
利用所述滑动窗口在所述第二图像中遍历搜索所述第一字段的位置,并计算所述预设字段模板图像与滑动窗口在所述第二图像上所覆盖图像区域之间的相似度值,标记所述相似度值最大者对应的图像区域为标记区域;及
根据所述映射关系从所述数据库中找到与所述预设字段模板图像对应的切割框,将所述切割框相对于标记区域向右偏移预设尺寸作为所述第一字段所处区域,将对所述第一字段所处区域进行切割得到的图像作为所述第三图像。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有证件复印件信息识别程序,所述证件复印件信息识别程序可被一个或者多个处理器执行,以实现如权利要求1-6中任一项所述的证件复印件信息识别方法的步骤。
CN202010316548.2A 2020-04-21 2020-04-21 证件复印件信息识别方法、服务器及存储介质 Active CN111539406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010316548.2A CN111539406B (zh) 2020-04-21 2020-04-21 证件复印件信息识别方法、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010316548.2A CN111539406B (zh) 2020-04-21 2020-04-21 证件复印件信息识别方法、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN111539406A CN111539406A (zh) 2020-08-14
CN111539406B true CN111539406B (zh) 2023-04-18

Family

ID=71980070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010316548.2A Active CN111539406B (zh) 2020-04-21 2020-04-21 证件复印件信息识别方法、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111539406B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106169078A (zh) * 2016-07-14 2016-11-30 微额速达(上海)金融信息服务有限公司 图像识别方法
WO2019071662A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
WO2019137238A1 (zh) * 2018-01-09 2019-07-18 佛山科学技术学院 一种水印图像ocr识别方法及其系统
CN110472664A (zh) * 2019-07-17 2019-11-19 杭州有盾网络科技有限公司 一种基于深度学习的证件图片识别方法、装置及设备
CN110796054A (zh) * 2019-10-21 2020-02-14 支付宝(杭州)信息技术有限公司 证件验真方法及装置
CN110889402A (zh) * 2019-11-04 2020-03-17 广州丰石科技有限公司 一种基于深度学习的营业执照内容识别方法及系统
WO2020063314A1 (zh) * 2018-09-25 2020-04-02 京东数字科技控股有限公司 字符切分识别方法、装置、电子设备、存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106169078A (zh) * 2016-07-14 2016-11-30 微额速达(上海)金融信息服务有限公司 图像识别方法
WO2019071662A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
WO2019137238A1 (zh) * 2018-01-09 2019-07-18 佛山科学技术学院 一种水印图像ocr识别方法及其系统
WO2020063314A1 (zh) * 2018-09-25 2020-04-02 京东数字科技控股有限公司 字符切分识别方法、装置、电子设备、存储介质
CN110472664A (zh) * 2019-07-17 2019-11-19 杭州有盾网络科技有限公司 一种基于深度学习的证件图片识别方法、装置及设备
CN110796054A (zh) * 2019-10-21 2020-02-14 支付宝(杭州)信息技术有限公司 证件验真方法及装置
CN110889402A (zh) * 2019-11-04 2020-03-17 广州丰石科技有限公司 一种基于深度学习的营业执照内容识别方法及系统

Also Published As

Publication number Publication date
CN111539406A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN107798299B (zh) 票据信息识别方法、电子装置及可读存储介质
WO2019174130A1 (zh) 票据识别方法、服务器及计算机可读存储介质
CN107766809B (zh) 电子装置、票据信息识别方法和计算机可读存储介质
US10140511B2 (en) Building classification and extraction models based on electronic forms
CN109829453B (zh) 一种卡证中文字的识别方法、装置以及计算设备
WO2019109526A1 (zh) 人脸图像的年龄识别方法、装置及存储介质
CN108491866B (zh) 色情图片鉴定方法、电子装置及可读存储介质
WO2021151276A1 (zh) 基于oct图像的图像识别方法、装置、设备及存储介质
WO2020238054A1 (zh) Pdf文档中图表的定位方法、装置及计算机设备
US20200143575A1 (en) Method and device for displaying explanation of reference numeral in patent drawing image using artificial intelligence technology based machine learning
US9330331B2 (en) Systems and methods for offline character recognition
CN110555372A (zh) 数据录入方法、装置、设备及存储介质
WO2020143325A1 (zh) 一种电子文档的生成方法及设备
CN110136198B (zh) 图像处理方法及其装置、设备和存储介质
CN110717497B (zh) 图像相似度匹配方法、装置及计算机可读存储介质
WO2020253508A1 (zh) 异常细胞检测方法、装置及计算机可读存储介质
CN111401326B (zh) 基于图片识别的目标身份识别方法、服务器及存储介质
CN112102402B (zh) 闪光灯光斑位置识别方法、装置、电子设备及存储介质
CN111178147B (zh) 屏幕破碎分级方法、装置、设备及计算机可读存储介质
CN113111880B (zh) 证件图像校正方法、装置、电子设备及存储介质
US10896339B2 (en) Detecting magnetic ink character recognition codes
CN112396047B (zh) 训练样本生成方法、装置、计算机设备和存储介质
CN111539406B (zh) 证件复印件信息识别方法、服务器及存储介质
US9471905B2 (en) Methods and systems for processing electronic documents
CN113610090B (zh) 印章图像识别分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant