CN113673500A - 证件图像识别方法、装置、电子设备及存储介质 - Google Patents

证件图像识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113673500A
CN113673500A CN202110960670.8A CN202110960670A CN113673500A CN 113673500 A CN113673500 A CN 113673500A CN 202110960670 A CN202110960670 A CN 202110960670A CN 113673500 A CN113673500 A CN 113673500A
Authority
CN
China
Prior art keywords
image
certificate
identified
certificate image
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110960670.8A
Other languages
English (en)
Inventor
郑利群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202110960670.8A priority Critical patent/CN113673500A/zh
Publication of CN113673500A publication Critical patent/CN113673500A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本申请提供了一种证件图像识别方法、装置、电子设备;方法包括:对待识别证件图像进行目标检测,以确定待识别证件图像中的至少一个目标对象;对待识别证件图像进行文本识别,得到待识别证件图像中的文本内容;结合文本内容以及至少一个目标对象,对待识别证件图像进行完整性检测,得到检测结果;获取目标证件类型对应的内容模板,并将文本内容与内容模板进行匹配,得到内容匹配结果;当内容匹配结果表征文本内容与内容模板相匹配、且检测结果表征待识别证件图像为完整图像时,确定待识别证件图像为目标证件类型的证件图像。通过本申请,能够提高检测证件图像完整性的精确性以及识别目标证件类型图像的准确性。

Description

证件图像识别方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术,尤其涉及一种证件图像识别方法、装置、电子设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技转变,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。比如客户在办理金融业务时,为了确保业务操作的安全性,需要对客户上传的各种证件(如身份证、营业执照等)图像信息进行校验,一般都是客户在客户业务办理系统上传相关的证件图像,以便业务人员利用光学字符识别(OpticalCharacter Recognition,OCR)技术对证件照片进行校验。
相关证件图像识别方法一般是基于OCR技术对用户上传的证件照片进行证件检测(检测出证件区域)、文本检测(检测出证件文本区域)和文字识别,识别出用户上传的证件图像中的文本信息(比如姓名、证件号等),以供业务人员进行校验。然而这种处理方式存在识别效果不佳的问题,同时可能由于模糊、透视,光线等原因,导致证件图像的识别效果很难提升。
发明内容
本申请实施例提供一种证件图像识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高检测证件图像完整性的精确性以及识别目标证件类型图像的准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种证件图像识别方法,包括:
对待识别证件图像进行目标检测,以确定所述待识别证件图像中的至少一个目标对象;
对所述待识别证件图像进行文本识别,得到所述待识别证件图像中的文本内容;
结合所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行完整性检测,得到检测结果;
获取目标证件类型对应的内容模板,并将所述文本内容与所述内容模板进行匹配,得到内容匹配结果;
当所述内容匹配结果表征所述文本内容与所述内容模板相匹配、且所述检测结果表征所述待识别证件图像为完整图像时,确定所述待识别证件图像为所述目标证件类型的证件图像。
本申请实施例提供一种证件图像识别装置,包括:
目标检测模块,用于对待识别证件图像进行目标检测,以确定所述待识别证件图像中的至少一个目标对象;
文本识别模块,用于对所述待识别证件图像进行文本识别,得到所述待识别证件图像中的文本内容;
完整性检测模块,用于结合所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行完整性检测,得到检测结果;
匹配模块,用于获取目标证件类型对应的内容模板,并将所述文本内容与所述内容模板进行匹配,得到内容匹配结果;
确定模块,用于当所述内容匹配结果表征所述文本内容与所述内容模板相匹配、且所述检测结果表征所述待识别证件图像为完整图像时,确定所述待识别证件图像为所述目标证件类型的证件图像。
上述方案中,所述目标检测模块还用于将所述待识别证件图像输入至多目标检测模型;
通过所述多目标检测模型,对所述待识别证件图像进行多个目标对象的检测,得到所述待识别证件图像中的至少一个目标对象;
其中,所述目标对象包括:目标证件类型的证件图像对应的文本标识、所述目标证件类型的证件图像对应的图形标识中至少之一。
上述方案中,所述文本识别模块还用于检测所述待识别证件图像的证件方向;
当所述证件方向表征所述待识别证件图像未处于目标方向时,对所述待识别证件图像进行旋转,使得所述待识别证件图像处于所述目标方向;
当所述待识别证件图像处于所述目标方向时,确定所述待识别证件图像中的文本区域;
对所述文本区域进行文本识别,得到所述文本区域中的文本内容。
上述方案中,所述文本识别模块还用于获取所述待识别证件图像中目标对象的坐标信息;
根据所述坐标信息,确定所述目标对象的位置区域框;
当所述目标对象为目标证件类型的证件图像对应的文本标识时,分别对所述位置区域框的长和宽按照比例系数进行放大,得到放大后的位置区域框;
基于所述放大后的位置区域框,确定所述文本标识对应的文本区域。
上述方案中,所述完整性检测模块还用于确定所述文本内容所处的位置区域对应的第一长宽比;
分别确定各所述目标对象所处的位置区域对应的第二长宽比;
根据所述第一长宽比、所述第二长宽比以及长宽比阈值,对所述待识别证件图像进行完整性检测,得到检测结果。
上述方案中,所述完整性检测模块还用于确定所述第一长宽比与长宽比阈值的第一关系,基于所述第一关系,得到用于表征所述文本内容是否完整的检测结果;
确定所述第二长宽比与所述长宽比阈值的第二关系,基于所述第二关系,得到用于表征所述目标对象是否完整的检测结果;
当所述文本检测结果表征所述文本内容完整、且所述对象检测结果表征所述目标对象完整时,得到表征所述待识别证件图像为完整图像的检测结果;
当所述文本检测结果表征所述文本内容不完整,或者所述对象检测结果表征所述目标对象不完整时,得到表征所述待识别证件图像为不完整图像的检测结果。
上述方案中,所述完整性检测模块还用于对所述待识别证件图像进行边缘检测,得到所述待识别证件图像对应的边界区域;
所述结合所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行完整性检测,得到检测结果,包括:
结合所述边界区域、所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行完整性检测,得到检测结果。
上述方案中,所述完整性检测模块还用于根据所述边界区域,对所述待识别证件图像进行边界完整性检测,得到用于表征所述待识别证件图像的边界是否完整的第一检测结果;
结合所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行无覆盖检测,得到用于表征所述待识别证件图像的目标对象是否被覆盖的第二检测结果;
当所述第一检测结果表征所述待识别证件图像的边界是完整的,且当所述第二检测结果表征所述目标对象的显示比例大于等于显示阈值时,得到用于表征所述待识别证件图像为完整图像的检测结果。
上述方案中,所述内容模板包括关键词以及所述关键词的位置信息,所述匹配模块还用于将所述文本内容与所述关键词进行匹配,得到第一匹配结果;
当所述第一匹配结果表征所述关键词匹配成功时,获取所述文本内容的位置信息,并将所述文本内容的位置信息与所述关键词的位置信息进行匹配,得到第二匹配结果;
当所述第二匹配结果表征所述位置信息匹配成功时,得到表征所述文本内容与所述内容模板相匹配的内容匹配结果。
上述方案中,所述确定模块还用于当所述待识别证件图像为所述目标证件类型的证件图像时,将所述文本内容、所述检测结果以及所述内容匹配结果进行结构化处理,得到结构化文本结果。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的证件图像识别方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的证件图像识别方法。
本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请实施例提供的证件图像识别方法。
本申请实施例具有以下有益效果:
与相关技术中仅利用光学字符识别技术检测和识别证件图像中的文本内容的方式相比,本申请实施例通过对待识别正将图像进行目标检测得到检测结果,以及待识别证件图像进项文本识别得到相应的文本内容,并结合得到的检测结果以及文本内容检测待识别证件图像的完整性,如此,能够提高识别证件图像完整性的精度;将得到的文本内容与目标证件类型对应的内容模板进行匹配,得到内容匹配结果,能够保证识别证件图像的准确性。
附图说明
图1是本申请实施例提供的证件图像识别系统的一个可选的架构示意图;
图2是本申请实施例提供的电子设备的一个可选的结构示意图;
图3是本申请实施例提供的证件图像识别方法的一个可选的流程示意图;
图4是本申请实施例提供的营业执照对应的目标对象示意图;
图5是本申请实施例提供的识别证件图像中文本区域方法的流程图;
图6是本申请实施例提供的目标对象的坐标信息的示意图;
图7是本申请实施例提供的证件图像完整性检测方式的流程示意图;
图8是本申请实施例提供的目标对象的长宽比示意图;
图9是本申请实施例提供的图像完整性检测流程示意图;
图10是本申请实施例提供的营业执照图像的内容模板示意图;
图11是本申请实施例提供的内容模板匹配流程示意图;
图12是本申请实施例提供的证件图像识别方法的一个可选的流程示意图;
图13是本申请实施例提供的营业执照图像识别方法的流程示意图;
图14是本申请实施例提供的营业执照完整性检测流程图;
图15是本申请实施例提供的二维码扫描信息示意图;
图16是本申请实施例提供的二维码扫描信息的另一个示意图;
图17是本申请实施例提供的证件图像中字符识别子过程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
如果申请文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。
2)边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。边缘检测的实质是采用边缘检测算法来提取出图像中对象与背景间的交界线。
边缘是指其周围像素灰度急剧变化的那些象素的集合,它是图像最基本的特征。边缘存在于目标、背景和区域之间,所以,它是图像分割所依赖的最重要的依据。由于边缘是位置的标志,对灰度的变化不敏感,因此,边缘也是图像匹配的重要的特征。
边缘检测和区域划分是图像分割的两种不同的方法,二者具有相互补充的特点。在边缘检测中,是提取图像中不连续部分的特征,根据闭合的边缘确定区域。而在区域划分中,是把图像分割成特征相同的区域,区域之间的边界就是边缘。由于边缘检测方法不需要将图像逐个像素地分割,因此更适合大图像的分割。
3)计算机文字识别,俗称光学字符识别(OCR,Optical Character Recognition),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。
基于此,本申请实施例提供一种证件图像识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够适应各类板式证件图像的识别场景,同时能够提高识别证件图像的完整性以及准确性。
首先对本申请实施例提供的证件图像识别系统进行说明,参见图1,图1是本申请实施例提供的证件图像识别系统的一个可选的架构示意图,在证件图像识别系统100中,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。在一些实施例中,终端400可以是笔记本电脑,平板电脑,台式计算机,智能手机,专用消息设备,便携式游戏设备,智能音箱,智能手表等,但并不局限于此。服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。网络300可以是广域网或者局域网,又或者是二者的组合。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
终端400,用于发送携带待识别证件图像的图像识别请求至服务器200,以请求服务器200检测待识别证件图像是否为完整图像。
服务器200,用于对待识别证件图像进行目标检测,以确定待识别证件图像中的至少一个目标对象;对待识别证件图像进行文本识别,得到待识别证件图像中的文本内容;结合文本内容以及至少一个目标对象,对待识别证件图像进行完整性检测,得到检测结果;获取目标证件类型对应的内容模板,并将文本内容与内容模板进行匹配,得到内容匹配结果;当内容匹配结果表征文本内容与内容模板相匹配、且检测结果表征待识别证件图像为完整图像时,确定待识别证件图像为目标证件类型的证件图像。
终端400,还用于输出待识别证件图像的包含完整性检测结果的结构化文本信息。
在一些实施例中,终端400上设置有证件图像识别客户端410,用户基于证件图像识别客户端410进行待识别证件图像的选择,并基于选择的待识别证件图像触发图像识别指令,证件图像识别客户端410响应于图像识别指令,发送携带待识别证件图像的图像识别请求至服务器;服务器从图像识别请求中解析出待识别证件图像后,对待识别证件图像进行目标检测,以确定待识别证件图像中的至少一个目标对象;对待识别证件图像进行文本识别,得到待识别证件图像中的文本内容;结合文本内容以及至少一个目标对象,对待识别证件图像进行完整性检测,得到检测结果;获取目标证件类型对应的内容模板,并将文本内容与内容模板进行匹配,得到内容匹配结果;当内容匹配结果表征文本内容与内容模板相匹配、且检测结果表征待识别证件图像为完整图像时,确定待识别证件图像为目标证件类型的证件图像,并将待识别证件图像进行证件识别后得到的结构化文本结果返回至证件图像识别客户端410。
参见图2,图2是本申请实施例提供的电子设备的一个可选的结构示意图,在实际应用中,电子设备500可以实施为图1中的终端400或服务器200,以电子设备为图1所示的服务器200为例,对实施本申请实施例的证件图像识别方法的电子设备进行说明。图2所示的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可以理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的证件图像识别装置可以采用软件方式实现,图2示出了存储在存储器550中的证件图像识别装置555,其可以是程序和插件等形式的软件,包括以下软件模块:目标检测模块5551、文本识别模块5552、完整性检测模块5553、匹配模块5554和确定模块5555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的证件图像识别装置可以采用硬件方式实现,作为示例,本申请实施例提供的证件图像识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的证件图像识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
接下来,将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的证件图像识别方法。参见图3,图3是本申请实施例提供的证件图像识别方法的一个可选的流程示意图,结合图3示出的步骤进行说明。
在步骤101中,服务器对待识别证件图像进行目标检测,以确定待识别证件图像中的至少一个目标对象。
这里,待识别证件图像中目标证件类型可以是营业执照、身份证、行驶证、社会保障卡等。对于一些目标证件类型,可能会存在多个版式,例如,针对营业执照市面上流通多种不同的版式。
在一些实施例中,获取待识别证件图像中的至少一个目标对象,可以采用以下方式实现:将待识别证件图像输入至多目标检测模型;通过多目标检测模型,对待识别证件图像进行目标对象检测,得到待识别证件图像中的至少一个目标对象;其中,目标对象包括:目标证件类型的证件图像对应的文本标识、目标证件类型的证件图像对应的图形标识中至少之一。
对多目标检测模型进行说明,在一些实施例中,多目标检测模型是通过标注的证件图像样本集对预设的实例分割模型进行训练得到的。预设的实例分割模型可以包括MaskRCNN、FastRCNN等。标注的证件图像样本可以包括证件图像正样本以及证件图像负样本,证件图像正样本指的是边界完整、图像清晰且未被覆盖的证件图像,证件图像负样本包括边界缺损、或结合光线变化增加污损、旋转、缩放方法后生成的证件图像。
示例性地,以多目标检测模型用于对营业执照进行目标检测为例,多目标检测模型是通过收集和标注所有已有的所有营业执照的板式的证件图像,搭建基于深度学习的多目标检测模型,使用训练集中的营业执照样本图片,训练基于深度学习的多目标检测模型,得到训练完成的多目标检测模型。
在实际实施时,通过多目标检测模型,获取待识别证件图像中的至少一个目标对象。示例性地,参见图4,图4是本申请实施例提供的营业执照对应的目标对象示意图,将包含营业执照图像的待识别证件图像输入至多目标检测模型,得到营业执照图像中的各目标对象,相应的目标对象可以包括文本标识以及图形标识,针对文本标识可以是标题“营业执照”、或者统一社会信用代码、证件编号、名称、类型、法定代表人、经营范围、注册资本等固定文本标识,针对图像标识可以是国徽、印章或者二维码等固定图像,需要说明的是,针对不同版式的营业执照对应的文本标识或者图像标识是不固定的。
在一些实施例中,多目标检测模型输出结果的形式可以为{标签:标签对应的坐标信息},其中,坐标信息是相对坐标,即坐标信息是相对于目标证件图像-营业执照本身图片(不包含背景图像)的坐标。具体的输出结果样式可以为以下形式,{标签1-印章:(x1,y1,x2,y2),标签2-国徽:(x1,y1,x2,y2),标签3-二维码:(x1,y1,x2,y2),标签3-营业执照:(x1,y1,x2,y2)},其中,(x1,y1,x2,y2)可以是表示目标对象对应的区域的左上角、右下角的坐标信息(相对于中心点的偏移量)。
在另一些实施例中,也可以使用8个值表示目标对象的信息(x1,y1,x2,y2,x3,y3,x4,y4),这8个值分别表示矩形区域的左上角、右上角、右下角以及左下角的4个顶点坐标信息。
在另一些实施例中,将待识别证件图像输入至多目标检测模型,若无与目标类型图像相关的目标对象输出,表明待识别证件图像中不包含目标证件类型的图像。一般情况下,服务端向客户端发送提醒通知用于提示客户端重新上传待识别证件图像。
在步骤102中,对待识别证件图像进行文本识别,得到待识别证件图像中的文本内容。
在一些实施例中,证件图像文本信息提取方法可以为基于深度学习的OCR技术。在实际实施时,可以通过基于深度学习的OCR引擎基于在手机拍照影像进行字符识别,这种识别方式不仅能够返回识别的字符,也能够返回字符的位置坐标、角度、字号大小、置信度等信息。
在一些实施例中,在对待识别证件图像进行文本识别之前,为了文本识别结果的准确性,通过会对待识别证件图像进行预处理。在实际实施时,图像的预处理方式包括但不限于倾斜矫正,投射变换、亮度、对比度调节,图像缩放等操作。倾斜矫正和投射变换用于纠正拍照影像中存在的旋转以及近大远小等现象;亮度、对比度调节可使用伽马矫正、直方图变换等现有算法进行纠正;而图像缩放的目的,是当图像过大时(例如当前手机拍照照片分辨率经常能达到4000×3000),为了加快OCR处理速度,可以将图像横向、纵向等比例缩放,但不宜缩放过大以保证识别精度。
示例性地,服务器检测待识别证件图像的证件方向;当证件方向表征待识别证件图像未处于目标方向时,对待识别证件图像进行旋转,使得待识别证件图像处于目标方向。对待识别证件图像进行方向调整后,采用以下方式进行文本识别:当待识别证件图像处于目标方向时,确定待识别证件图像中的文本区域;对文本区域进行文本识别,得到文本区域中的文本内容。
对确定待识别证件图像中的文本区域的方式进行说明,在一些实施例中,确定待识别证件图像中的文本区域的实现方式,可以参见图5,图5是本申请实施例提供的识别证件图像中文本区域方法的流程图,结合图5示出的步骤进行说明。
步骤201,服务器获取待识别证件图像中目标对象的坐标信息。
以包含营业执照的待识别证件图像为例,通过对待识别证件图像进行目标检测,得到多个目标对象的坐标信息。参见图6,图6是本申请实施例提供的目标对象的坐标信息的示意图,图中展示的目标对象是营业执照图像中文本标识-统一社会信息代码,图中使用两个顶点A和B表示文本标识的坐标信息,A表示左上角顶点坐标,B表示右下角顶点坐标。
步骤202,服务器根据坐标信息,确定目标对象的位置区域框。
获取目标对象的坐标信息后,根据坐标信息确定目标对应对应的位置区域框。参见图6,文本标识-统一社会信息代码对应的位置区域框为A、B两点坐标确定的区域框(图6所示的编号1)。
步骤203,当目标对象为目标证件类型的证件图像对应的文本标识时,服务器分别对位置区域框的长和宽按照比例系数进行放大,得到放大后的位置区域框。
示例性的,承接步骤202,参见图6,获取到待识别证件图像中文本标识-统一社会信息代码对应的位置区域框(即A、B两点确定的位置区域框),然后基于预设的比例系数,分别对A、B两点确定的位置区域框的长和宽进行方法放大,得到A点放大后对应的C点。其中,比例系数的设置可以根据实际情况进行设置,比例系数可以是针对A、B两点对应的横坐标方向以及纵坐标方向的长度同时放大,也可以根据实际情况,仅放大横坐标方向的长度,或者仅放大纵坐标方向的长度。如文本标识与字符信息是上下位置时,可以对纵坐标方向的长度进行扩大;文本标识与字符信息是左右位置时,可以对横坐标方向的长度进行扩大。
步骤204,服务器基于放大后的位置区域框,确定文本标识对应的文本区域。
示例性的,承接步骤203,参见图6,基于对位置区域框进行放大处理后的顶点C以及顶点D,确定文本标识-统一社会信息代码对应的文本区域(图6所示的编号2)。
在一些实施例中,对于待识别证件图像中的中文文本内容,可以使用中文识别模型,而针对待识别证件图像中的数字和字母文本内容,如日期、统一社会信用代码,注册号、证件编号等字段,采用专门训练的数字和字母识别模型,由于词表较小,相比仅使用中文识别模型,能够大大提高文本识别效率。
在步骤103中,结合文本内容以及至少一个目标对象,对待识别证件图像进行完整性检测,得到检测结果。
这里,待识别证件图像的完整性检测包括两个方面,一是待识别证件图像中的目标证件图像拍的是否完整,二是目标证件图像中的某些信息是否被遮挡。对于检测图像拍的是否完整可以通过边缘检测的方式验证,具体的,使用边缘检测方式验证图像的边界完整性;对于检测图像中的某些信息是否被遮挡可以通过判断待识别证件图像中的目标对象的显示完整性进行验证。
在一些实施例中,检测待识别图像中各目标对象完整性的方式,可以是将各目标对象对应的坐标信息的长宽比与预设的长宽比阈值进行比较,当目标对象对应的长宽比大于等于长宽比阈值时,判断该目标对象是完整的。参见图7,图7是本申请实施例提供的证件图像完整性检测方式的流程示意图,结合图7示出的步骤进行说明。
步骤301,服务器确定文本内容所处的位置区域对应的第一长宽比。
待识别证件图像中的目标对象包括文本标识,针对文本标识需要确定文本标识对应的文本内容所处的位置区域对应的长宽比,记作第一长宽比p1
示例性的,参见图8,图8是本申请实施例提供的目标对象的长宽比示意图,以待识别证件图像为营业执照图像为例,获取文本标识(标题)“营业执照”对应的位置区域的第一长宽比,第一长宽比p1采用“营业执照”对应的位置区域的左上角顶点E坐标(x1,y1),以及右下角顶点F坐标(x2,y2)表示,长为|y2-y1|,宽为|x2-x1|,第一长宽比p1=|y2-y1|/|x2-x1|。
步骤302,服务器分别确定各目标对象所处的位置区域对应的第二长宽比。
待识别证件图像中的目标对象还包括图像标识,针对文图像标识需要图像标识所处的位置区域对应的长宽比,记作第二长宽比p2
示例性的,参见图8中,服务器分别获取待识别证件图像中的图像标识如国徽、二维码以及印章等的位置区域,并确定对应的第二长宽比,例如,“国徽”对应的位置区域的左上角顶点M坐标(x3,y3),以及右下角顶点N坐标(x4,y4)表示,长为|y4-y3|,宽为|x4-x3|,第二长宽比p2=|y4-y3|/|x4-x3|。
步骤303,服务器根据第一长宽比、第二长宽比以及长宽比阈值,对待识别证件图像进行完整性检测,得到检测结果。
在一些实施例中,根据第一长宽比、第二长宽比以及长宽比阈值进行完整性检测的实现方式为:服务器确定第一长宽比与长宽比阈值的第一关系,基于第一关系,得到用于表征文本内容是否完整的检测结果;确定第二长宽比与长宽比阈值的第二关系,基于第二关系,得到用于表征目标对象是否完整的检测结果;当文本检测结果表征文本内容完整、且对象检测结果表征目标对象完整时,得到表征待识别证件图像为完整图像的检测结果;当文本检测结果表征文本内容不完整,或者对象检测结果表征目标对象不完整时,得到表征待识别证件图像为不完整图像的检测结果。
在实际实施时,目标对象的坐标信息所确定的长宽比大于等于长宽比阈值时,确定当前检测的目标对象是完整的;目标对象的坐标信息所确定的长宽比小于长宽比阈值时,确定当前检测的目标对象是不完整的。
示例性地,以待识别证件图像为营业执照图像为例,判断营业执照图像中图像标识-国徽的完整性,设定图像标识的预设长宽比阈值为完整图像的3/5,则当检测到国徽图像(长宽比)大于等于预设长宽比阈值(3/5)时,表征图像标识-国徽是完整的,则当检测到国徽图像-国徽(长宽比)小于预设长宽比阈值(3/5)时,表征图像标识-国徽是不完整的。又例如,判断营业执照图像中图像标识-印章的完整性,设定图像标识-印章的预设长宽比阈值为完整图像的5/6,则当检测到印章图像(长宽比)大于等于预设长宽比阈值(5/6)时,表征图像标识-印章是完整的,则当检测到印章图像(长宽比)小于预设长宽比阈值(5/6)时,表征图像标识-印章是不完整的。判断各目标对象完整性的预设阈值可以根据实际经验设置。
在一些实施例中,对待识别证件图像进行完整性检测,还可以包括对待识别证件图像中的目标证件图像进行边缘检测,判断目标证件图像的边界是否完整,并结合边界完整性检测结果以及目标对象完整性检测结果,确定待识别证件图像的完整性,具体方式如下:对待识别证件图像进行边缘检测,得到待识别证件图像对应的边界区域;结合边界区域、文本内容以及至少一个目标对象,对待识别证件图像进行完整性检测,得到检测结果。
在一些实施例中,结合边界区域、文本内容以及目标对象,对待识别证件图像进行完整性检测的具体实现方式如下,参见图9,图9是本申请实施例提供的图像完整性检测流程示意图,结合图9示出的步骤进行说明。
步骤401,服务器根据边界区域,对待识别证件图像进行边界完整性检测,得到用于表征待识别证件图像的边界是否完整的第一检测结果。
根据相关边缘检测算法获取得到待识别证件图像中目标证件图像的边界区域,并判断目标证件图像的边界区域是否完整,参见图4中的边界区域。
步骤402,服务器结合文本内容以及至少一个目标对象,对待识别证件图像进行无覆盖检测,得到用于表征待识别证件图像的目标对象是否被覆盖的第二检测结果。
这里,获取待识别证件图像中的目标对象(文本标识以及图像标识)、并获取文本标识对应的文本内容如营业执照图像中的标题“营业执照”,对获取的目标图像进行无覆盖检测,即判断各目标对象的完整性(目标对象是否被遮盖)。
步骤403,服务器当第一检测结果表征待识别证件图像的边界是完整的,且当第二检测结果表征目标对象的显示比例大于等于显示阈值时,得到用于表征待识别证件图像为完整图像的检测结果。
当待识别证件图像中的目标证件图像的边界是完整的,且各目标对象被识别为是完整的时,确定当前待识别证件图像中的目标证件类型对应的图像是完整的。
在步骤104中,获取目标证件类型对应的内容模板,并将文本内容与内容模板进行匹配,得到内容匹配结果。
对目标证件类型对应的内容模板进行说明,在一些实施例中,可以为不同的目标证件类型设定对应的内容模板,如,身份证对应的内容模板文件、营业执照对应的内容模板文件。需要说明的是,同一个目标证件类型的证件图像可能存在各种不同的版式,比如营业执照图像就对应多种不同的版式。进行目标证件图像识别时,需要预先搜集已有的所有营业执照图像的版式,并设置与各版式对应的内容模板。
示例性的,参见图10,图10是本申请实施例提供的营业执照图像的内容模板示意图,图中展示了3个不同版式的营业执照图像对应的模板内容,如template1、template2以及template3等(图10中表示模板名称的方框示例性地圈出的信息)。内容模板主要包含营业执照图像中的文本标识(可称为固定文本或关键词,如名称、注册资本、法定代表人、经营范围、成立日期、营业期限等,图10中表示关键词的方框示例性地圈出的信息,一般是会在关键词前添加一个字母u,如<u“统一社会信用代码”>,<u“营业范围”>等),以及各固定文本在营业执照图像中的位置(关键词之间的相对位置关系,图10中表示位置信息的方框示例性地圈出的信息,一般采用使用row表示所在行索引,column表示列索引),此时的位置信息多以行列的形式展示,如图中所示的内容模板一(template1)对应的固定文本“统一社会信用代码”的位置信息是第一行第一列(row=0,column=0),固定文本“名称”的位置信息是第二行第一列(row=1,column=0),其中,行索引和列索引可以是从0开始,也可以是根据实际情况设定的。
在一些实施例中,通过匹配内容模板中的信息,当待识别证件图像中文本内容与内容模板中的信息匹配成功时,确定待识别证件图像中的目标证件对应的文本内容,并结构化识别出的文本内容。需要说明的是,在实际应用中,会将步骤103中得到的完整性检测结果作为结构化的文本结果中的一个属性信息。在识别得到的文本内容与内容模板不匹配时,得到待识别图像不是目标证件图像,如此能够防止非目标证件类型图像的误识别。
在一些实施例中,将待识别证件图像中的文本内容与目标证件类型对应的内容模板进行匹配,判断当前目标证件图像对应的目标板式的内容模板。参见图11,图11是本申请实施例提供的内容模板匹配流程示意图,结合图11示出的步骤进行说明。
步骤501,服务器将文本内容与关键词进行匹配,得到第一匹配结果。
示例性的,参见图10所示的内容模板信息,首先将获取得到的待识别证件图像中文本标识(固定文本)与内容模板中的关键词进行比较,查找到对应的至少一个候选内容模板。
步骤502,服务器当第一匹配结果表征关键词匹配成功时,获取文本内容的位置信息,并将文本内容的位置信息与关键词的位置信息进行匹配,得到第二匹配结果。
以文本内容中的文本标识为索引,获取对应的位置信息,然后分别与候选内容模板中相应关键词对应的位置信息进行匹配,得到位置信息是否匹配成功的匹配结果。
步骤503,服务器当第二匹配结果表征位置信息匹配成功时,得到表征文本内容与内容模板相匹配的内容匹配结果。
当步骤501中的文本标识与内容模板中的关键词匹配成功,且对应文本标识的位置信息与内容模板中的位置信息匹配成功时,得到待识别证件图像是目标图像完整且文本内容正确的目标证件图像。
在步骤105中,当内容匹配结果表征文本内容与内容模板相匹配、且检测结果表征待识别证件图像为完整图像时,确定待识别证件图像为目标证件类型的证件图像。
在一些实施例中,程序可以以JSON或XML方式将结构化的文本结果以Key-Value对进行输出,方便网络传输和接口调用,具体的,当待识别证件图像为目标证件类型的证件图像时,将文本内容、检测结果以及内容匹配结果进行结构化处理,得到结构化文本结果。
本申请实施例通过对待识别证件图像进行目标检测,得到各目标对象,并分别对各目标图像进行完整性检测,可以确定待识别证件图像中各目标对像(文本标识以及图像标识)的完整性;通过对待识别证件图像进行文本识别得到相应的文本内容,结合得到的完整性检测结果以及文本内容共同检测待识别证件图像的完整性,如此,能够提高识别图像完整性的精度;并将得到的文本内容与目标证件类型对应的内容模板进行匹配,得到内容匹配结果,能够保证识别证件图像的准确性。
接下来继续对本申请实施例提供的证件图像识别方法进行介绍,图12是本申请实施例提供的证件图像识别方法的一个可选的流程示意图,参见图12,本申请实施例提供的证件图像识别方法由客户端、服务器协同实施。
步骤601,客户端响应于针对待识别证件图像的图像识别指令,发送携带待识别证件图像的图像识别请求至服务器。
这里,图像识别指令可以是在一定的触发条件由客户端自动生成,例如客户端获取到一张待识别证件图像后则自动生成针对该待识别证件图像的图像识别指令。
步骤602,服务器解析图像识别请求中的待识别证件图像,将待识别证件图像输入至训练完成的多目标检测模型。
多目标检测模型是通过标注的证件图像样本集对预设的实例分割模型进行训练得到的。预设的实例分割模型可以包括MaskRCNN、FastRCNN等。
步骤603,服务器通过多目标检测模型,对待识别证件图像进行多个目标对象的检测,得到待识别证件图像中的至少一个目标对象。
这里,目标对象包括:目标证件类型的证件图像对应的文本标识、目标证件类型的证件图像对应的图形标识中至少之一。
步骤604,服务器检测待识别证件图像的证件方向。
客户端可以在该客户端的人机交互界面中呈现所述待识别图像是否为翻拍图像的提示信息。
步骤605,服务器判断待识别证件图像是否处于目标方向,当待识别证件图像处于目标方向时,确定待识别证件图像中的文本区域。
当待识别证件图像未处于目标方向时,服务器对待识别证件图像进行旋转,以使待识别证件图像处于目标方向。
步骤606,服务器对文本区域进行文本识别,得到文本区域中的文本内容。
这里,对于待识别证件图像中的中文文本内容,可以使用中文识别模型,而针对待识别证件图像中的数字和字母文本内容,如日期、统一社会信用代码,注册号、证件编号等字段,采用专门训练的数字和字母识别模型,由于词表较小,相比仅使用中文识别模型,能够大大提高文本识别效率。
步骤607,服务器结合文本内容以及至少一个目标对象,对待识别证件图像进行无覆盖检测,得到第三检测结果。
这里,是对待识别证件图像进行无覆盖检测,第三检测结果是用于表征待识别证件图像的目标对象是否被覆盖。
步骤608,服务器对待识别证件图像进行边缘检测,得到待识别证件图像对应的边界区域。
步骤609,服务器根据边界区域,对待识别证件图像进行边界完整性检测,得到第四检测结果。
这里,第四检测结果是用于表征待识别证件图像的边界是否完整的。
步骤610,当第四检测结果表征待识别证件图像的边界是完整的,且当第三检测结果表征目标对象的显示比例大于等于显示阈值时,得到目标检测结果。
目标检测结果,是用于表征所述待识别证件图像为完整图像。
步骤611,服务器获取目标证件类型对应的内容模板,并将文本内容与内容模板进行匹配,得到内容匹配结果。
步骤612,当内容匹配结果表征文本内容与内容模板相匹配、且目标检测结果表征待识别证件图像为完整图像时,服务器确定待识别证件图像为目标证件类型的证件图像。
步骤613,当待识别证件图像为目标证件类型的证件图像时,服务器将文本内容、目标检测结果以及内容匹配结果进行结构化处理,得到结构化文本结果。
步骤614,服务器将结构化文本结果发送至客户端。
这里,服务器可以以JSON或XML方式将结构化的文本结果以Key-Value对输出,方便网络传输和接口调用。
步骤615,客户端输出待识别证件图像的包含完整性检测结果的结构化文本信息。
客户端可以在该客户端的人机交互界面中呈现所述待识别证件图像是否为目标证件类型图像的提示信息。
本申请实施例,通过对待识别证件图像进行边缘检测确定图像边界的完整性,同时又对待识别证件图像中的目标对象进行无覆盖检测,基于这两种类型的检测结果确定待识别证件图像中目标证件类型的完整性,能够识别证件图像中单个目标对象的完整性,并能够提高识别证件图像的准确性;同时基于中文和数字字母双模型以及二维码内容辅助识别的方式,能够大大提高识别证件图像中文本内容的准确率;并利用模板匹配的方式,进一步提高识别文本内容的准确性。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。以待识别证件图像包含营业执照的图像为例,阐述本申请实施例提供的证件图像识别方法,参见图13,图13是本申请实施例提供的营业执照图像识别方法的流程示意图,将结合图13示出的步骤进行说明。
步骤701,服务器获取待识别图像,并将待识别图像输入至多目标检测模型,得到至少一个目标对象。
例如,将包含营业执照图像的待识别证件图像输入至多目标检测模型进行目标检测,若无与营业执照图像相关的目标对象输出,说明待识别图像中不包含营业执照本身的图像,此时,发出提醒通知用于提示重新上传待识别图像。
这里的多目标检测模型是通过标注的证件图像样本集对预设的实例分割模型进行训练得到的。预设的示例分割模型可以包括MaskRCNN、FastRCNN等。标注的证件样本图像可以包括正样本集和负样本集,正样本集指的是边界完整、图像清晰且未被覆盖的证件图像,负样本集包括边界缺损、或结合光线变化增加污损、旋转、缩放方法后生成的证件图像。
通过训练完成的多目标检测模型对待识别图像进行目标检测,可以得到待识别图像上的至少一个目标对象。
在一些实施例中,将包含有营业执照的图像输入至多目标检测模型后,输出与营业执照图像相关的多个固有目标(固有图像或固有文本),如图4中所示的二维码,国徽,印章等固定图像、以及“营业执照”等固定文本的位置和坐标。需要说明的是,输出的目标对象的坐标信息是相对坐标,相对于营业执照本身图片(不包含背景图像)的位置。输出结果样式如下所示,{标签1-印章:(x1,y1,x2,y2),标签2-国徽:(x1,y1,x2,y2),标签3-二维码:(x1,y1,x2,y2),标签3-营业执照:(x1,y1,x2,y2)},其中,(x1,y1,x2,y2)可以是表示固有目标对应的区域的左上角、右下角的坐标信息(相对于中心点的偏移量)。
步骤702,根据目标对象在待识别图像中的位置和布局,判断证件方向,并通过旋转处理摆正方向,得到方向正确的待识别图像。
这里,进行摆正等操作,是为了后续对待识别图像中的文本信息进行OCR识别操作。
步骤703,对待识别图像进行完整性检测,得到检测结果。
这里,待识别图像可以是步骤702处理后图像,检测结果用于表征待识别图像是否完整。
在一些实施例中,参见图14,图14是本申请实施例提供的营业执照完整性检测流程图,具体实现过程如下,1.输入待识别证件图像;2.服务器将待识别证件图像输入至多目标检测检测模型,获取目标对象,当检测不到营业执照中的目标对象时,拒绝后续操作;3.对待识别图像进行完整性判断,待识别图像的完整性检测包括两个方面,一是图像拍的是否完整,二是图像中的某些信息是否被遮挡。对于检测图像拍的是否完整可以通过边缘检测的方式验证,具体的,使用边缘检测方式验证图像的边界完整性(4.1边缘检测花边);对于检测图像中的某些图像标识是否被遮挡可以通过多目标检测模型检测实现(4.2检测图像标识完整性,如国徽完整性、印章完整性等);5.将边缘检测结果以及图像标识检测结果与预设规则进行比较;6.得到待识别图像是否完整的判断结果。
在实际实施时,设定的完整性判断预设规则,可以是将多目标检测模型输出的各目标对象对应的坐标信息的长宽比与预设的长宽比阈值进行比较,当目标对象对应的长宽比大于等于长宽比阈值时,判断该目标对象是完整的。示例性地,判断营业执照中国徽的完整性,需要检测到这个国徽图像(长宽比)的1/2(预设阈值);判断营业执照中印章的完整性,需要检测到这个印章图像(长宽比)的3/5(预设阈值)等。判断各目标对象完整性的阈值可以根据实际经验设置。
步骤704,对待识别图像进行文本识别,得到待识别图像中的文本内容。
在一些实施例中,使用OCR进行文本检测和识别,识别出所有的文本和内容。
在实际实施时,利用基于深度学习的OCR技术识别证件图像中的文本内容。对于待识别图像中的中文文本内容,可以使用中文识别模型,而针对待识别图像中的数字和字母文本内容,如日期、统一社会信用代码,注册号、证件编号等字段,采用专门训练的数字和字母识别模型,由于词表较小,相比仅使用中文识别模型,能够大大提高文本识别效率。
步骤705,获取证件类型对应的内容模板,并将文本内容与内容模板进行匹配,得到匹配结果。
对内容模板进行说明,在实际实施时,预设证件类型对应的内容模板。以证件类型为营业执照为例,预先通过收集所有营业执照的样式生成模板,参见图10提供的营业执照的内容模板示意图。图10中包含各类板式的营业执照对应的模板,内容模板主要包含营业执照中的固定文本(或称关键词,如名称、注册资本、法定代表人、经营范围、成立日期、营业期限等),以及各固定文本在营业执照图像中的位置(关键词之间的相对位置关系),此时的位置多以行列的形式展示,如图中所示的内容模板一(template1)对应的固定文本“统一社会信用代码”的位置信息是第一行第一列(row=0,column=0),固定文本“名称”的位置信息是第二行第一列(row=1,column=0),需要说明的是,行索引和列索引均是从0开始。
通过匹配内容模板中的信息,并结构化识别出的文本内容,识别得到的文本内容与内容模板不匹配时,得到待识别图像不是目标证件图像,如此,能够防止非营业执照图片误识别。
在实际实施时,结构化的文本内容可以以JSON的格式保存,并将前述完整性判断的结果作为结构化文本结果中的一个字段存储。
在一些实施例中,通过OCR识别后的文本内容可能不是很精确,比如有污渍、缺损以及被遮挡的文本内容时等。在此情况下,若营业执照中检测出的目标对象中包含二维码时,还可以继续执行下述步骤706,对OCR的识别得到的文本内容进行进一步验证。
步骤706,根据坐标信息获取检测出的二维码,用二维码识别工具识别出对应文本内容。
在一些实施例中,参见图15,图15是本申请实施例提供的二维码扫描信息示意图,扫描营业执照图像中的二维码直接得到的文本信息为营业执照完全准确的详细信息,直接替代OCR识别得到的文本结果。
在另一些实施例中,参见图16,图16是本申请实施例提供的二维码扫描信息的另一个示意图。扫描营业执照图像中的二维码得到网页,可进一步采用爬虫工具抓取网页内容,解析得到营业执照的信息,然后将解析得到的信息替换OCR得到的结果。
通过上述通过二维码辅助识别证件图像中的文本内容的方式,能够大大提高识别准确率。
上述步骤704至步骤706是对待识别证件图像中的字符内容(文本内容)进行识别的概括过程,具体的字符识别过程,可参见图17,图17是本申请实施例提供的证件图像中字符识别子过程示意图,实施步骤为:1、获取待识别图像(营业执照图像);2、通过多目标检测模型对图像进行目标检测,判断是否为营业执照图像,不是,则直接结束;3、对待识别证件图像进行裁减得到营业执照图像并摆正营业执照图像的方向;4、对步骤3中的营业执照图像进行字符识别,字符识别包括4.1通过中文和数字字母双模型识别图像中为中文字符以及数字字母字符,4.2结合营业执照图像中的二维码进行字符辅助识别;5、结合4.1以及4.2得到文本结果;6、将文本结果与预设模板进行匹配;7、匹配成功时,结构化文本结果并输出;8、匹配不成功时,得出待识别图像是非营业执照的识别结果。
本申请实施例通过基于中文和数字字母双模型以及二维码内容辅助识别的方式,能够大大提高识别证件图像中文本内容的准确率;另外,基于边缘检测和目标检测方式检测证件图像的完整性,能够确保证件图像的合规性;并利用模板匹配的方式,进一步提高识别文本内容的准确性,并能够有效识别出非营业执照。
下面继续说明本申请实施例提供的证件图像识别装置555的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器540的证件图像识别装置555中的软件模块可以包括:
目标检测模块5551,用于对待识别证件图像进行目标检测,以确定所述待识别证件图像中的至少一个目标对象;
文本识别模块5552,用于对所述待识别证件图像进行文本识别,得到所述待识别证件图像中的文本内容;
完整性检测模块5553,用于结合所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行完整性检测,得到检测结果;
匹配模块5554,用于获取目标证件类型对应的内容模板,并将所述文本内容与所述内容模板进行匹配,得到内容匹配结果;
确定模块5555,用于当所述内容匹配结果表征所述文本内容与所述内容模板相匹配、且所述检测结果表征所述待识别证件图像为完整图像时,确定所述待识别证件图像为所述目标证件类型的证件图像。
在一些实施例中,所述目标检测模块5551,还用于将所述待识别证件图像输入至多目标检测模型;通过所述多目标检测模型,对所述待识别证件图像进行多个目标对象的检测,得到所述待识别证件图像中的至少一个目标对象;其中,所述目标对象包括:目标证件类型的证件图像对应的文本标识、所述目标证件类型的证件图像对应的图形标识中至少之一。
在一些实施例中,所述文本识别模块5552,还用于检测所述待识别证件图像的证件方向;当所述证件方向表征所述待识别证件图像未处于目标方向时,对所述待识别证件图像进行旋转,使得所述待识别证件图像处于所述目标方向;当所述待识别证件图像处于所述目标方向时,确定所述待识别证件图像中的文本区域;对所述文本区域进行文本识别,得到所述文本区域中的文本内容。
在一些实施例中,所述文本识别模块5552,还用于获取所述待识别证件图像中目标对象的坐标信息;根据所述坐标信息,确定所述目标对象的位置区域框;当所述目标对象为目标证件类型的证件图像对应的文本标识时,分别对所述位置区域框的长和宽按照比例系数进行放大,得到放大后的位置区域框;基于所述放大后的位置区域框,确定所述文本标识对应的文本区域。
在一些实施例中,所述完整性检测模块5553,还用于确定所述文本内容所处的位置区域对应的第一长宽比;分别确定各所述目标对象所处的位置区域对应的第二长宽比;根据所述第一长宽比、所述第二长宽比以及长宽比阈值,对所述待识别证件图像进行完整性检测,得到检测结果。
在一些实施例中,所述完整性检测模块5553,还用于确定所述第一长宽比与长宽比阈值的第一关系,基于所述第一关系,得到用于表征所述文本内容是否完整的检测结果;确定所述第二长宽比与所述长宽比阈值的第二关系,基于所述第二关系,得到用于表征所述目标对象是否完整的检测结果;当所述文本检测结果表征所述文本内容完整、且所述对象检测结果表征所述目标对象完整时,得到表征所述待识别证件图像为完整图像的检测结果;当所述文本检测结果表征所述文本内容不完整,或者所述对象检测结果表征所述目标对象不完整时,得到表征所述待识别证件图像为不完整图像的检测结果。
在一些实施例中,所述完整性检测模块5553,还用于对所述待识别证件图像进行边缘检测,得到所述待识别证件图像对应的边界区域;结合所述边界区域、所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行完整性检测,得到检测结果。
在一些实施例中,所述完整性检测模块5553,还用于根据所述边界区域,对所述待识别证件图像进行边界完整性检测,得到用于表征所述待识别证件图像的边界是否完整的第一检测结果;结合所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行无覆盖检测,得到用于表征所述待识别证件图像的目标对象是否被覆盖的第二检测结果;当所述第一检测结果表征所述待识别证件图像的边界是完整的,且当所述第二检测结果表征所述目标对象的显示比例大于等于显示阈值时,得到用于表征所述待识别证件图像为完整图像的检测结果。
在一些实施例中,所述内容模板包括关键词以及所述关键词的位置信息,所述匹配模块5554,还用于将所述文本内容与所述关键词进行匹配,得到第一匹配结果;当所述第一匹配结果表征所述关键词匹配成功时,获取所述文本内容的位置信息,并将所述文本内容的位置信息与所述关键词的位置信息进行匹配,得到第二匹配结果;当所述第二匹配结果表征所述位置信息匹配成功时,得到表征所述文本内容与所述内容模板相匹配的内容匹配结果。
在一些实施例中,所述确定模块5555,还用于当所述待识别证件图像为所述目标证件类型的证件图像时,将所述文本内容、所述检测结果以及所述内容匹配结果进行结构化处理,得到结构化文本结果。
需要说明的是,本申请实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。
本申请实施例提供了一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现本申请实施例提供的证件图像识别方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3示出的证件图像识别方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例能够解决了证件图像识别精度低的问题,进而达到了提高证件图像识别精度的效果。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (14)

1.一种证件图像识别方法,其特征在于,所述方法包括:
对待识别证件图像进行目标检测,以确定所述待识别证件图像中的至少一个目标对象;
对所述待识别证件图像进行文本识别,得到所述待识别证件图像中的文本内容;
结合所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行完整性检测,得到检测结果;
获取目标证件类型对应的内容模板,并将所述文本内容与所述内容模板进行匹配,得到内容匹配结果;
当所述内容匹配结果表征所述文本内容与所述内容模板相匹配、且所述检测结果表征所述待识别证件图像为完整图像时,确定所述待识别证件图像为所述目标证件类型的证件图像。
2.根据权利要求1所述的方法,其特征在于,所述对待识别证件图像进行目标检测,以确定所述待识别证件图像中的至少一个目标对象,包括:
将所述待识别证件图像输入至多目标检测模型;
通过所述多目标检测模型,对所述待识别证件图像进行多个目标对象的检测,得到所述待识别证件图像中的至少一个目标对象;
其中,所述目标对象包括:目标证件类型的证件图像对应的文本标识、所述目标证件类型的证件图像对应的图形标识中至少之一。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
检测所述待识别证件图像的证件方向;
当所述证件方向表征所述待识别证件图像未处于目标方向时,对所述待识别证件图像进行旋转,使得所述待识别证件图像处于所述目标方向;
所述对所述待识别证件图像进行文本识别,得到所述待识别证件图像中的文本内容,包括:
当所述待识别证件图像处于所述目标方向时,确定所述待识别证件图像中的文本区域;
对所述文本区域进行文本识别,得到所述文本区域中的文本内容。
4.根据权利要求3所述的方法,其特征在于,所述确定所述待识别证件图像中的文本区域,包括:
获取所述待识别证件图像中目标对象的坐标信息;
根据所述坐标信息,确定所述目标对象的位置区域框;
当所述目标对象为目标证件类型的证件图像对应的文本标识时,分别对所述位置区域框的长和宽按照比例系数进行放大,得到放大后的位置区域框;
基于所述放大后的位置区域框,确定所述文本标识对应的文本区域。
5.根据权利要求1所述的方法,其特征在于,所述结合所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行完整性检测,得到检测结果,包括:
确定所述文本内容所处的位置区域对应的第一长宽比;
分别确定各所述目标对象所处的位置区域对应的第二长宽比;
根据所述第一长宽比、所述第二长宽比以及长宽比阈值,对所述待识别证件图像进行完整性检测,得到检测结果。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一长宽比、所述第二长宽比以及长宽比阈值,对所述待识别证件图像进行完整性检测,得到检测结果,包括:
确定所述第一长宽比与长宽比阈值的第一关系,基于所述第一关系,得到用于表征所述文本内容是否完整的文本检测结果;
确定所述第二长宽比与所述长宽比阈值的第二关系,基于所述第二关系,得到用于表征所述目标对象是否完整的对象检测结果;
当所述文本检测结果表征所述文本内容完整、且所述对象检测结果表征所述目标对象完整时,得到表征所述待识别证件图像为完整图像的检测结果;
当所述文本检测结果表征所述文本内容不完整,或者所述对象检测结果表征所述目标对象不完整时,得到表征所述待识别证件图像为不完整图像的检测结果。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述待识别证件图像进行边缘检测,得到所述待识别证件图像对应的边界区域;
所述结合所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行完整性检测,得到检测结果,包括:
结合所述边界区域、所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行完整性检测,得到检测结果。
8.根据权利要求7所述的方法,其特征在于,结合所述边界区域、所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行完整性检测,得到检测结果,包括:
根据所述边界区域,对所述待识别证件图像进行边界完整性检测,得到用于表征所述待识别证件图像的边界是否完整的第一检测结果;
结合所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行无覆盖检测,得到用于表征所述待识别证件图像的目标对象是否被覆盖的第二检测结果;
当所述第一检测结果表征所述待识别证件图像的边界是完整的,且当所述第二检测结果表征所述目标对象的显示比例大于等于显示阈值时,得到用于表征所述待识别证件图像为完整图像的检测结果。
9.根据权利要求1所述的方法,其特征在于,所述内容模板包括关键词以及所述关键词的位置信息,所述将所述文本内容与所述内容模板进行匹配,得到内容匹配结果,包括:
将所述文本内容与所述关键词进行匹配,得到第一匹配结果;
当所述第一匹配结果表征所述关键词匹配成功时,获取所述文本内容的位置信息,并将所述文本内容的位置信息与所述关键词的位置信息进行匹配,得到第二匹配结果;
当所述第二匹配结果表征所述位置信息匹配成功时,得到表征所述文本内容与所述内容模板相匹配的内容匹配结果。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述待识别证件图像为所述目标证件类型的证件图像时,将所述文本内容、所述检测结果以及所述内容匹配结果进行结构化处理,得到结构化文本结果。
11.一种证件图像识别装置,其特征在于,包括:
目标检测模块,用于对待识别证件图像进行目标检测,以确定所述待识别证件图像中的至少一个目标对象;
文本识别模块,用于对所述待识别证件图像进行文本识别,得到所述待识别证件图像中的文本内容;
完整性检测模块,用于结合所述文本内容以及所述至少一个目标对象,对所述待识别证件图像进行完整性检测,得到检测结果;
匹配模块,用于获取目标证件类型对应的内容模板,并将所述文本内容与所述内容模板进行匹配,得到内容匹配结果;
确定模块,用于当所述内容匹配结果表征所述文本内容与所述内容模板相匹配、且所述检测结果表征所述待识别证件图像为完整图像时,确定所述待识别证件图像为所述目标证件类型的证件图像。
12.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至10任一项所述的证件图像识别方法。
13.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至10任一项所述的证件图像识别方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10任一项所述的证件图像识别方法。
CN202110960670.8A 2021-08-20 2021-08-20 证件图像识别方法、装置、电子设备及存储介质 Pending CN113673500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110960670.8A CN113673500A (zh) 2021-08-20 2021-08-20 证件图像识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110960670.8A CN113673500A (zh) 2021-08-20 2021-08-20 证件图像识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113673500A true CN113673500A (zh) 2021-11-19

Family

ID=78544464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110960670.8A Pending CN113673500A (zh) 2021-08-20 2021-08-20 证件图像识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113673500A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511694A (zh) * 2022-01-28 2022-05-17 北京百度网讯科技有限公司 图像识别方法、装置、电子设备和介质
CN114943592A (zh) * 2022-05-16 2022-08-26 山东浪潮爱购云链信息科技有限公司 一种企业快速注册的方法、设备及存储介质
CN116597462A (zh) * 2023-03-29 2023-08-15 天云融创数据科技(北京)有限公司 一种基于ocr的证件识别方法
CN117437506A (zh) * 2023-12-20 2024-01-23 深圳兔展智能科技有限公司 训练样本生成方法、装置、计算机设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511694A (zh) * 2022-01-28 2022-05-17 北京百度网讯科技有限公司 图像识别方法、装置、电子设备和介质
CN114511694B (zh) * 2022-01-28 2023-05-12 北京百度网讯科技有限公司 图像识别方法、装置、电子设备和介质
CN114943592A (zh) * 2022-05-16 2022-08-26 山东浪潮爱购云链信息科技有限公司 一种企业快速注册的方法、设备及存储介质
CN114943592B (zh) * 2022-05-16 2024-03-26 山东浪潮爱购云链信息科技有限公司 一种企业快速注册的方法、设备及存储介质
CN116597462A (zh) * 2023-03-29 2023-08-15 天云融创数据科技(北京)有限公司 一种基于ocr的证件识别方法
CN117437506A (zh) * 2023-12-20 2024-01-23 深圳兔展智能科技有限公司 训练样本生成方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN113673500A (zh) 证件图像识别方法、装置、电子设备及存储介质
CN111476227B (zh) 基于ocr的目标字段识别方法、装置及存储介质
US10417489B2 (en) Aligning grid lines of a table in an image of a filled-out paper form with grid lines of a reference table in an image of a template of the filled-out paper form
US20190220508A1 (en) Interactively predicting fields in a form
CN111259889A (zh) 图像文本识别方法、装置、计算机设备及计算机存储介质
CN109685870B (zh) 信息标注方法及装置、标注设备及存储介质
CN110874618B (zh) 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN112926469B (zh) 基于深度学习ocr与版面结构的证件识别方法
CN111553251B (zh) 证件四角残缺检测方法、装置、设备及存储介质
US11610054B1 (en) Semantically-guided template generation from image content
US11341319B2 (en) Visual data mapping
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
US20210149931A1 (en) Scalable form matching
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机系统
CN113360737B (zh) 页面内容采集方法、装置、电子设备和可读介质
CN114937270A (zh) 古籍文字处理方法、装置及计算机可读存储介质
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
CN117115823A (zh) 一种篡改识别方法、装置、计算机设备和存储介质
CN112883926A (zh) 表格类医疗影像的识别方法及装置
CN111368709A (zh) 图片文本的识别方法、装置、设备及可读存储介质
Mulyana et al. Optimization of Text Mining Detection of Tajweed Reading Laws Using the Yolov8 Method on the Qur'an
CN111242112A (zh) 一种图像处理方法、身份信息处理方法及装置
US20230343005A1 (en) Methods and Systems for Automated Structured Keyboard Layout Generation
Bharadwaj et al. Web Application Based on Optical Character Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination