CN111178346B

CN111178346B - 文字区域的定位方法、装置、设备及存储介质

Info

Publication number: CN111178346B
Application number: CN201911158441.3A
Authority: CN
Inventors: 张陆; 彭展; 张燕锋
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2023-12-08
Anticipated expiration: 2039-11-22
Also published as: CN111178346A

Abstract

本申请涉及一种文字区域的定位方法、装置、设备及存储介质，方法包括：根据证件图像中参考元素的位置，以及所述参考元素与文字区域的相对位置关系，确定所述证件图像中的文字区域，作为第一文字区域，根据文字的图像特征识别所述证件图像中的文字区域，作为第二文字区域；根据所述第一文字区域和所述第二文字区域，确定所述证件图像的第一候选区域；根据实际证件中文字区域的位置，从所述证件图像中裁剪得到所述证件图像中的文字区域，作为第二候选区域；根据所述第一候选区域和所述第二候选区域，定位所述证件图像中的文字区域。本申请用以能够快速定位证件图像中的文字区域，有效提高证件的验证效率。

Description

文字区域的定位方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种中文字区域的定位方法、装置、设备及存储介质。

背景技术

随着互联网普及以及技术的发展，证券、银行、保险等行业中的很多业务的办理也逐渐可以在终端设备(如VTM，手机等)上实现，目前最普遍的是网上银行、手机银行等。这些业务按照规定都是需要“客户本人持本人有效证件”进行办理。

如果按传统方式在营业网点的柜面办理，需要客户本人持本人有效证件到柜面进行办理，由柜面工作人员现场验证客户身份。如果将这些业务搬到终端设备上，则面临的主要问题即是客户身份的验证，即如何确定是“客户本人持本人有效证件”在办理。上述过程需要进行两个阶段的验证：身份证信息验证，以及是否本人的验证。对于身份证验证，目前比较常用的做法是让客户分别拍身份证正反面的图像和人脸图像，然后传到后台审核人员进行人工审核(针对所有身份证)。

泰国身份证中存在密集、不规则的文字，这些文字中所包含的是身份证的重要信息，例如包括泰国公民身份证明卡的泰文和英文说明，证号、持卡人的名和姓，出生日期、发卡日期、发卡部门以及官员签字等。如果能快速定位到泰国身份证中的密集文字区域，则能够有效提高泰国身份证的验证效率。

发明内容

本申请提供了一种文字区域的定位方法、装置、设备及存储介质，用以能够快速定位证件图像中的文字区域，有效提高证件的验证效率。

第一方面，本申请实施例提供了一种文字区域定位方法，包括：

根据证件图像中参考元素的位置，以及所述参考元素与文字区域的相对位置关系，确定所述证件图像中的文字区域，作为第一文字区域，根据文字的图像特征识别所述证件图像中的文字区域，作为第二文字区域；

根据所述第一文字区域和所述第二文字区域，确定所述证件图像的第一候选区域；

根据实际证件中文字区域的位置，从所述证件图像中裁剪得到所述证件图像中的文字区域，作为第二候选区域；

根据所述第一候选区域和所述第二候选区域，定位所述证件图像中的文字区域。

可选地，根据证件图像中参考元素的位置，以及所述参考元素与文字区域的相对位置关系，确定所述证件图像中的文字区域，作为第一文字区域，包括：

将所述证件图像中的芯片作为所述参考元素，识别所述证件图像中芯片的像素位置；

根据实际证件中芯片与文字区域的相对位置关系，以及所述证件图像中芯片的像素位置，确定所述证件图像中的文字区域，作为第一文字区域。

可选地，识别所述证件图像中芯片的像素位置，包括：

对所述证件图像进行预处理以及二值化后，根据实际证件中芯片的轮廓形状和面积大小，从二值化后的证件图像中识别出芯片的像素位置。

可选地，根据文字的图像特征识别所述证件图像中的文字区域，作为第二文字区域，包括：

对所述证件图像进行形态学处理，获取处理后的证件图像中亮度低于预设值的图像区域，得到第一处理图像；

对所述第一处理图像进行梯度处理后得到第二处理图像；

识别出所述第二处理图像中的各个文字字符区域，对所述各个文字字符区域之间的间隙进行填充后，得到第三处理图像；

对所述第三处理图像进行二值化处理，得到所述证件图像中的文字区域，作为第二文字区域。

可选地，根据所述第一文字区域和所述第二文字区域，确定所述证件图像的第一候选区域，包括：

计算所述第一文字区域与所述第二文字区域的交集区域，作为第一交集区域，以及计算所述第一文字区域与所述第二文字区域的并集区域，作为第一并集区域；

计算所述第一交集区域与所述第一并集区域的比值，若所得的比值大于或等于第一预设值，则将所述第一并集区域作为所述第一候选区域。

可选地，根据实际证件中文字区域的位置，从所述证件图像中裁剪得到所述证件图像中的文字区域，作为第二候选区域，包括：

根据实际证件中文字区域的位置，定位所述证件图像中的外扩中心点，在所述证件图像中，以所述外扩中心点为中心外扩得到设定面积的区域，裁剪所述设定面积的区域，作为第二候选区域。

可选地，根据所述第一候选区域和所述第二候选区域，定位所述证件图像中的文字区域，包括：

计算所述第一候选区域与所述第二候选区域的交集区域，作为第二交集区域，以及计算所述第一候选区域与所述第二候选区域的并集区域，作为第二并集区域；

计算所述第二交集区域与所述第二并集区域的比值，若所得的比值大于或等于第二预设值，判断所述第二候选区域的边界是否在所述第一候选区域的边界所限定的范围内，若是，则将所述第二候选区域作为所述证件图像中最终的文字区域，否则，从所述第一候选区域中选取与所述第二候选区域大小相同的区域，作为所述证件图像中最终的文字区域。

第二方面，本申请实施例提供了一种文字区域定位装置，包括：

第一处理模块，用于根据证件图像中参考元素的位置，以及所述参考元素与文字区域的相对位置关系，确定所述证件图像中的文字区域，作为第一文字区域，根据文字的图像特征识别所述证件图像中的文字区域，作为第二文字区域；

第二处理模块，用于根据所述第一文字区域和所述第二文字区域，确定所述证件图像的第一候选区域；

第三处理模块，用于根据实际证件中文字区域的位置，从所述证件图像中裁剪得到所述证件图像中的文字区域，作为第二候选区域；

第四处理模块，用于根据所述第一候选区域和所述第二候选区域，定位所述证件图像中的文字区域。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述存储器中所存储的程序，实现第一方面所述的文字区域定位方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的文字区域定位方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：本申请实施例提供的该方法，通过证件图像中参考元素与文字区域的相对位置关系，确定证件图像中的第一文字区域，并且，直接通过图像特征识别得到证件图像中的第二文字区域，结合第一文字区域和第二文字区域得到第一候选区域，根据文字区域在实际证件中的位置，从证件图像中裁剪得到第二候选区域，综合该第一候选区域和第二候选区域，定位最终的文字区域，使得能够从多个角度定位文字区域，提高了文字区域定位的准确性，并且，不需要复杂的算法，能够快速的定位证件图像中的文字区域，有效提高了证件的验证效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中文字区域定位的方法流程示意图；

图2为本申请实施例中文字区域定位的装置结构示意图；

图3为本申请实施例中电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中提供了一种文字区域定位方法，该方法可以应用于任意一个电子设备。如图1所示，文字区域定位的具体过程如下：

步骤101，根据证件图像中参考元素的位置，以及该参考元素与文字区域的相对位置关系，确定该证件图像中的文字区域，作为第一文字区域，根据文字的图像特征识别该证件图像中的文字区域，作为第二文字区域。

具体地，进行文字区域定位的证件图像，可以是通过终端上的客户端程序获得，以手机为例，手机客户端在屏幕上显示用于采集证件图像的引导框，手机客户端提示(语音或者文字提示)用户将证件正面朝向手机屏幕，并将证件置于引导框内，调整拍摄姿态，以保证亮度、模糊度、边框等符合采集要求，手机客户端采集引导框内的图像获得，证件正面图像。证件反面图像的采集过程与此类似，此处不再重述。

其中，图像中的参考元素可以是证件图像中容易被识别的元素，例如证件图像中的芯片。

一个具体实施例中，第一文字区域的获得过程具体为：将证件图像中的芯片作为参考元素，识别证件图像中芯片的像素位置；根据实际证件中芯片与文字区域的相对位置关系，以及证件图像中芯片的像素位置，确定证件图像中的文字区域，作为第一文字区域。

其中，对原始的证件图像进行预处理以及二值化后，根据实际证件中芯片的轮廓形状和面积大小，从二值化后的证件图像中识别出芯片的像素位置。具体地，通过对原始采集的证件图像进行灰度化和高斯模糊化等预处理后，对预处理后的证件图像进行自适应二值化处理，得到二值化图像，在二值化图像中通过芯片大小和形状确定芯片的像素位置。

一个具体实施例中，第二文字区域的获得过程具体为：对证件图像进行形态学处理，获取处理后的证件图像中亮度低于预设值的图像区域，得到第一处理图像；对该第一处理图像进行梯度处理后得到第二处理图像；识别出该第二处理图像中的各个文字字符区域，对识别出的各个文字字符区域之间的间隙进行填充后，得到第三处理图像；对该第三处理图像进行二值化处理，得到该证件图像中的文字区域，作为第二文字区域。

也就是说，利用图像灰度、色彩变化的程度和文字特性，定位得到第二文字区域。具体地，对证件图像进行形态学中的黑帽(blackhat)操作，获取证件图像中亮度低于预设值的图像区域，作为第一处理图像；对第一处理图像进行scharr梯度处理，得到第二处理图像；对第二处理图像进行形态学中的闭操作，以填充字符之间的间隙，得到第三处理图像；对第三处理图像进行二值化处理，得到该证件图像中的文字区域，即第二文字区域。

步骤102，根据第一文字区域和第二文字区域，确定证件图像的第一候选区域。

一个具体实施例中，计算第一文字区域与第二文字区域的交集区域，作为第一交集区域，以及计算第一文字区域与第二文字区域的并集区域，作为第一并集区域；计算第一交集区域与第一并集区域的比值，若所得的比值大于或等于第一预设值，则将第一并集区域作为第一候选区域。如果所得的比值小于第一预设值，则重新采集证件图像后，执行步骤101至步骤104所描述的文字区域定位方法。

通过第一文字区域和第二文字区域确定第一候选区域，使得得到的第一候选区域准确性更高、鲁棒性更强。

步骤103，根据实际证件中文字区域的位置，从证件图像中裁剪得到该证件图像中的文字区域，作为第二候选区域。

一个具体实施例中，根据实际证件中文字区域的位置，定位证件图像中的外扩中心点，在该证件图像中，以外扩中心点为中心外扩得到设定面积的区域，裁剪该设定面积的区域，作为第二候选区域。

以泰国身份证为例，泰国身份证正面包含密集的文字区域，该文字区域基本位于泰国身份证正面的中心位置，可以定位采集引导框得到的泰国身份证正面图像的中心位置，以该中心位置为中心，外扩整个采集框所占面积的设定百分比的区域，裁剪该区域，得到第二候选区域。

步骤104，根据第一候选区域和第二候选区域，定位证件图像中的文字区域。

一个具体实施例中，计算第一候选区域与第二候选区域的交集区域，作为第二交集区域，以及计算第一候选区域与第二候选区域的并集区域，作为第二并集区域；计算第二交集区域与第二并集区域的比值，若所得的比值大于或等于第二预设值，判断第二候选区域的边界是否在第一候选区域的边界所限定的范围内，若是，则将第二候选区域作为证件图像中最终的文字区域，否则，从第一候选区域中选取与第二候选区域大小相同的区域，作为证件图像中最终的文字区域。

其中，若所得的比值小于第二预设值，则重新采集证件图像后，执行步骤101至步骤104所描述的文字区域定位方法。

其中，从第一候选区域中选取与第二候选区域大小相同的区域时，可以是以第一候选区域的几何中心为中心外扩，得到与第二候选区域大小相同的区域。

在定位最终的文字区域后，可以对该文字区域与其他区域分别执行不同的模糊度、反光等策略，从而提高文字区域内关键信息的识别效率，以及提高识别准确率，提高了不同环境下、不同采集设备模糊度、反光检测算法的准确率，使得采集的图像的可识别率增加。

本申请实施例中，通过证件图像中参考元素与文字区域的相对位置关系，确定证件图像中的第一文字区域，并且，直接通过图像特征识别得到证件图像中的第二文字区域，结合第一文字区域和第二文字区域得到第一候选区域，根据文字区域在实际证件中的位置，从证件图像中裁剪得到第二候选区域，综合该第一候选区域和第二候选区域，定位最终的文字区域，使得能够从多个角度定位文字区域，提高了文字区域定位的准确性，并且，不需要复杂的算法，能够快速的定位证件图像中的文字区域，有效提高了证件的验证效率。

基于同一构思，本申请实施例中提供了一种文字区域定位装置，该装置的具体实施可参见方法实施例部分的描述，重复之处不再赘述，如图2所示，该装置主要包括：

第一处理模块201，用于根据证件图像中参考元素的位置，以及所述参考元素与文字区域的相对位置关系，确定所述证件图像中的文字区域，作为第一文字区域，根据文字的图像特征识别所述证件图像中的文字区域，作为第二文字区域；

第二处理模块202，用于根据所述第一文字区域和所述第二文字区域，确定所述证件图像的第一候选区域；

第三处理模块203，用于根据实际证件中文字区域的位置，从所述证件图像中裁剪得到所述证件图像中的文字区域，作为第二候选区域；

第四处理模块204，用于根据所述第一候选区域和所述第二候选区域，定位所述证件图像中的文字区域。

基于同一构思，本申请实施例中还提供了一种电子设备，如图3所示，该电子设备主要包括：处理器301、通信接口302、存储器303和通信总线304，其中，处理器301、通信接口302和存储器303通过通信总线304完成相互间的通信。其中，存储器303中存储有可被至处理器301执行的程序，处理器301执行存储器303中存储的程序，实现如下步骤：根据证件图像中参考元素的位置，以及所述参考元素与文字区域的相对位置关系，确定所述证件图像中的文字区域，作为第一文字区域，根据文字的图像特征识别所述证件图像中的文字区域，作为第二文字区域；根据所述第一文字区域和所述第二文字区域，确定所述证件图像的第一候选区域；根据实际证件中文字区域的位置，从所述证件图像中裁剪得到所述证件图像中的文字区域，作为第二候选区域；根据所述第一候选区域和所述第二候选区域，定位所述证件图像中的文字区域。

上述电子设备中提到的通信总线304可以是外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。该通信总线304可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口302用于上述电子设备与其他设备之间的通信。

存储器303可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器301的存储装置。

上述的处理器301可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等，还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当该计算机程序在计算机上运行时，使得计算机执行上述实施例中所描述的文字区域定位方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文字区域定位方法，其特征在于，包括：

根据证件图像中参考元素的位置，以及所述参考元素与文字区域的相对位置关系，确定所述证件图像中的文字区域，作为第一文字区域，根据文字的图像特征识别所述证件图像中的文字区域，作为第二文字区域，其中，所述参考元素可为所述证件图像中易被识别的元素；

根据所述第一文字区域和所述第二文字区域，确定所述证件图像的第一候选区域，包括：计算所述第一文字区域与所述第二文字区域的交集区域，作为第一交集区域，以及计算所述第一文字区域与所述第二文字区域的并集区域，作为第一并集区域；计算所述第一交集区域与所述第一并集区域的比值，若所得的比值大于或等于第一预设值，则将所述第一并集区域作为所述第一候选区域；

根据实际证件中文字区域的位置，从所述证件图像中裁剪得到所述证件图像中的文字区域，作为第二候选区域，包括：根据实际证件中文字区域的位置，定位所述证件图像中的外扩中心点，在所述证件图像中，以所述外扩中心点为中心外扩得到设定面积的区域，裁剪所述设定面积的区域，作为第二候选区域；

根据所述第一候选区域和所述第二候选区域，定位所述证件图像中的文字区域，包括：计算所述第一候选区域与所述第二候选区域的交集区域，作为第二交集区域，以及计算所述第一候选区域与所述第二候选区域的并集区域，作为第二并集区域；

计算所述第二交集区域与所述第二并集区域的比值，若所得的比值大于或等于第二预设值，判断所述第二候选区域的边界是否在所述第一候选区域的边界所限定的范围内，若是，则将所述第二候选区域作为所述证件图像中最终的文字区域。

2.根据权利要求1所述的文字区域定位方法，其特征在于，根据证件图像中参考元素的位置，以及所述参考元素与文字区域的相对位置关系，确定所述证件图像中的文字区域，作为第一文字区域，包括：

3.根据权利要求2所述的文字区域定位方法，其特征在于，识别所述证件图像中芯片的像素位置，包括：

4.根据权利要求1至3任一项所述的文字区域定位方法，其特征在于，根据文字的图像特征识别所述证件图像中的文字区域，作为第二文字区域，包括：

对所述第一处理图像进行梯度处理后得到第二处理图像；

5.根据权利要求1所述的文字区域定位方法，其特征在于，在判断所述第二候选区域的边界是否在所述第一候选区域的边界所限定的范围内之后，所述方法还包括：

若所述第二候选区域的边界不在所述第一候选区域的边界所限定的范围内，从所述第一候选区域中选取与所述第二候选区域大小相同的区域，作为所述证件图像中最终的文字区域。

6.一种文字区域定位装置，其特征在于，包括：

第一处理模块，用于根据证件图像中参考元素的位置，以及所述参考元素与文字区域的相对位置关系，确定所述证件图像中的文字区域，作为第一文字区域，根据文字的图像特征识别所述证件图像中的文字区域，作为第二文字区域，其中，所述参考元素可为所述证件图像中易被识别的元素；

第二处理模块，用于根据所述第一文字区域和所述第二文字区域，确定所述证件图像的第一候选区域，包括：计算所述第一文字区域与所述第二文字区域的交集区域，作为第一交集区域，以及计算所述第一文字区域与所述第二文字区域的并集区域，作为第一并集区域；计算所述第一交集区域与所述第一并集区域的比值，若所得的比值大于或等于第一预设值，则将所述第一并集区域作为所述第一候选区域；

第三处理模块，用于根据实际证件中文字区域的位置，从所述证件图像中裁剪得到所述证件图像中的文字区域，作为第二候选区域，包括：根据实际证件中文字区域的位置，定位所述证件图像中的外扩中心点，在所述证件图像中，以所述外扩中心点为中心外扩得到设定面积的区域，裁剪所述设定面积的区域，作为第二候选区域；

第四处理模块，用于根据所述第一候选区域和所述第二候选区域，定位所述证件图像中的文字区域，包括：计算所述第一候选区域与所述第二候选区域的交集区域，作为第二交集区域，以及计算所述第一候选区域与所述第二候选区域的并集区域，作为第二并集区域；计算所述第二交集区域与所述第二并集区域的比值，若所得的比值大于或等于第二预设值，判断所述第二候选区域的边界是否在所述第一候选区域的边界所限定的范围内，若是，则将所述第二候选区域作为所述证件图像中最终的文字区域。

7.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述存储器中所存储的程序，实现权利要求1至5任一项所述的文字区域定位方法。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一项所述的文字区域定位方法。