CN110263782B

CN110263782B - 基于深度学习的卡证检测方法和装置

Info

Publication number: CN110263782B
Application number: CN201910383326.XA
Authority: CN
Inventors: 黄文韬; 刘鹏; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2024-05-07
Anticipated expiration: 2039-05-09
Also published as: CN110263782A

Abstract

本申请提供了一种基于深度学习的卡证检测方法和装置，该方法包括：获取目标卡证的画面；对所述画面进行预处理，得到符合卡证检测模型的输入要求的输入图像，所述卡证检测模型用于检测所述目标卡证在所述画面中的位置；将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息，所述卡证信息包括位置信息，所述位置信息用于指示所述卡证在图像中的位置；根据所述位置信息，确定所述画面中的检测框，所述检测框内包括所述目标卡证；通过显示界面显示所述检测框。采用本申请提供的基于深度学习的卡证检测方法和装置，能够提高应用程序的安全性。

Description

基于深度学习的卡证检测方法和装置

技术领域

本申请涉及图像检测领域，并且更具体地，涉及图像检测领域中基于深度学习的卡证检测方法和装置。

背景技术

在证件OCR(Optical Character Recognition，光学字符识别)等深度学习应用中，训练模型时需要用到大量证件数据，通常数据的采集都是通过人工进行的。在采集数据时，即使制定了采集要求，比如清晰度、角度等，人在理解时也会存在差异，或者是不遵守制定的要求，导致采集的数据中会出现一定量不符合要求的样本，这样就会又增加一步人工对样本进行筛选的成本。

现有技术通常通过软件来采集证件样本，即在证件采集时，在软件层面对所采集到的样本进行一定的要求，以控制所采集的样本的质量。这个功能最核心的部分，就是对证件的检测，通过检测画面中证件的位置，类型，长宽等信息，配合其他具体需求进一步进行其他操作。

由于现有技术中需要在设备上安装独立的应用软件进行证件检测，因此，不同设备之间的兼容性较差。

发明内容

本申请提供一种基于深度学习的卡证检测方法和装置，能够提高设备的兼容性，从而提高用户体验。

为实现上述目的，本申请提供一种基于深度学习的卡证检测方法，包括以下内容：

获取目标卡证的画面；

对所述画面进行预处理，得到符合卡证检测模型的输入要求的输入图像，所述卡证检测模型用于检测所述目标卡证在所述画面中的位置；

将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息，所述卡证信息包括位置信息，所述位置信息用于指示所述卡证在图像中的位置；

根据所述位置信息，确定所述画面中的检测框，所述检测框内包括所述目标卡证；

通过显示界面显示所述检测框。

在一种可能的实现方式中，在将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息之前，所述方法还包括：获取样本卡证和所述样本卡证的位置信息，所述位置信息包括人工标注的所述样本卡证的至少一对对角点中每个对角点的坐标、或四个顶点中每个顶点的坐标、或所述样本卡证各边的起始点和长度；根据所述样本卡证、所述位置信息和深度学习模型，得到所述卡证检测模型。

在一种可能的实现方式中，在将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息之前，所述方法还包括：通过URL地址向服务器发送请求消息，所述请求消息用于请求所述卡证检测模型的模型资源；接收所述服务器根据所述请求消息发送的所述模型资源；根据所述模型资源，建立所述卡证检测模型。

在一种可能的实现方式中，在将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息之前，所述方法还包括：从缓存中获取所述卡证检测模型。

在一种可能的实现方式中，所述预处理包括像素级别的处理。

在一种可能的实现方式中，所述卡证信息还包括所述目标卡证的正反面信息、置信度信息和类型信息中的至少一项。

在一种可能的实现方式中，所述方法还包括：通过文字控件的显示功能将所述卡证信息显示在所述检测框中。

为实现上述目的，本申请还提供一种基于深度学习的卡证检测装置，该装置具体包括：

获取单元，用于获取目标卡证的画面；

处理单元，用于对所述画面进行预处理，得到符合卡证检测模型的输入要求的输入图像，所述卡证检测模型用于检测所述目标卡证在所述画面中的位置；将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息，所述卡证信息包括位置信息，所述位置信息用于指示所述卡证在图像中的位置；

确定单元，用于根据所述位置信息，确定所述画面中的检测框，所述检测框内包括所述目标卡证；

显示单元，用于通过显示界面显示所述检测框。

在一种可能的实现方式中，所述获取单元还用于在将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息之前，获取样本卡证和所述样本卡证的位置信息，所述位置信息包括人工标注的所述样本卡证的至少一对对角点中每个对角点的坐标、或四个顶点中每个顶点的坐标、或所述样本卡证各边的起始点和长度；所述确定单元还用于根据所述样本卡证、所述位置信息和深度学习模型，得到所述卡证检测模型。

在一种可能的实现方式中，所述装置还包括发送单元、接收单元和建立单眼；所述发送单元用于在将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息之前，通过URL地址向服务器发送请求消息，所述请求消息用于请求所述卡证检测模型的模型资源；所述接收单元用于接收所述服务器根据所述请求消息发送的所述模型资源；所述建立单元用于根据所述模型资源，建立所述卡证检测模型。

在一种可能的实现方式中，所述获取单元具体用于在将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息之前，从缓存中获取所述卡证检测模型。

在一种可能的实现方式中，所述显示单元还用于通过文字控件的显示功能将所述卡证信息显示在所述检测框中。

为实现上述目的，本申请还提供一种计算机设备，包括存储器、处理器、通信接口以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述存储器、所述处理器以及所述通信接口之间通过内部连接通路互相通信，所述处理器执行所述计算机程序时实现上述方法的以下步骤：

获取目标卡证的画面；

通过显示界面显示所述检测框。

为实现上述目的，本申请还提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的以下步骤：

获取目标卡证的画面；

通过显示界面显示所述检测框。

本申请实施例提供的基于深度学习的卡证检测方法、装置、计算机设备和计算机可读存储介质中，浏览器获取目标卡证的画面；浏览器对所述画面进行预处理，得到符合卡证检测模型的输入要求的输入图像；浏览器将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息；浏览器根据所述位置信息，确定所述画面中的检测框；浏览器通过显示界面显示所述检测框。

基于浏览器实现对卡证的检测，用户无需在设备上安装独立的应用软件，操作较简单，且不同设备之间的兼容性强。

附图说明

图1是本申请实施例提供的基于深度学习的卡证检测方法的示意性流程图；

图2是本申请实施例提供的另一基于深度学习的卡证检测方法的示意性流程图；

图3是本申请实施例提供的显示界面示意图；

图4是本申请实施例提供的基于深度学习的卡证检测装置的示意性框图；

图5是本申请实施例提供的另一基于深度学习的卡证检测装置示意性框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1示出了本申请实施例提供的基于深度学习的卡证检测方法100的示意性流程图。应理解，该方法100可以由基于深度学习的卡证检测装置执行。

可选地，该装置可以为具有计算功能和通信接口的装置，例如，移动终端，更进一步地，该装置可以为移动终端中的功能模块，例如，浏览器。

该方法100包括如下步骤：

S110，获取目标卡证的画面。

可选地，所述卡证可以包括各种类型的卡或证件，本申请实施例对此不作限定。

可选地，S110中可以通过多种方式获取所述目标卡证的画面，本申请实施例对此不作限定。

在一种可能的实现方式中，可以通过接口调用摄像采集设备采集所述目标卡证的画面。

在另一种可能的实现方式中，可以通过获取本设备或其他设备中存储的所述目标卡证的画面。

S120，对所述画面进行预处理，得到符合卡证检测模型的输入要求的输入图像，所述卡证检测模型用于检测所述目标卡证在所述画面中的位置。

可选地，所述预处理包括像素级别的处理，例如灰度处理，以减少干扰。

可选地，所述预处理还包括尺寸处理，以得到符合模型的图像尺寸要求的输入图像。

S130，将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息，所述卡证信息包括位置信息，所述位置信息用于指示所述卡证在图像中的位置。

可选地，在S130之前，所述方法还包括：获取所述卡证检测模型。

可选地，可以通过多种途径获取所述卡证检测模型，本申请实施例对此不作限定。

在一种可能的实现方式中，在获取卡证检测模型之前，可以将训练好的卡证检测模型存储在特定的服务器中。相应地，S130可以为：前端通过URL地址向服务器发送请求消息，所述请求消息用于请求获取所述卡证检测模型的模型资源；接收所述服务器根据所述请求消息发送的所述模型资源，并在浏览器端建立好所述卡证检测模型。

在另一种可能的实现方式中，在获取卡证检测模型之前，可以通过上述第一种获取方式获取所述卡证检测模型，并存储在浏览器端的缓存中。相应地，S130可以为：从所述浏览器的缓存中获取所述卡证检测模型。

采用本申请提供的方案，只需要在首次使用所述卡证检测模型的时候向服务器请求模型资源，之后的步骤将全部在用户端进行，不需要再有持续的数据传输就可以实现持续的实时卡证检测功能，能够提高实时检测的速度和效率。

在又一种可能的实现方式中，在获取卡证检测模型之前，可以通过多种方式训练所述卡证检测模型。

具体地，可以获取样本卡证和所述样本卡证的位置信息，所述位置信息包括人工标注的所述样本卡证的至少一对对角点中每个对角点的坐标、或四个顶点中每个顶点的坐标、或所述样本卡证各边的起始点和长度；根据所述样本卡证、所述位置信息和深度学习模型，得到所述卡证检测模型。

在一种可能的实现方式中，所述深度学习模型可以采用MobileNet-SSD模型。上述根据所述样本卡证、所述位置信息和深度学习模型，得到所述卡证检测模型，可以为采用MobileNet-SSD模型，通过反向传播算法(back propagation)训练得到所述卡证检测模型。

具体地，将所述样本卡证输入采用第一内部参数的MobileNet-SSD模型，得到第一位置分析结果；根据所述第一位置分析结果和所述位置信息，分析得到第一误差；当所述第一误差小于预设值时，将采用第一内部参数的MobileNet-SSD模型确定为所述卡证检测模型。

可选地，在将所述样本卡证输入采用第一内部参数的MobileNet-SSD模型，得到第一位置分析结果之前，所述方法还包括：将所述样本卡证输入采用第二内部参数的mobilenet模型，得到第二位置分析结果，根据所述第二位置分析结果和所述位置信息，分析得到第二误差；当所述第二误差大于或等于所述预设值时，根据所述第二误差，将所述第二内部参数调整为所述第一内部参数。

应理解，反向传播算法是指通过误差来对模型中的权值进行不断调整直至误差符合预期的一种算法。

例如，假设模型包括方程式ax+by＝z，x、y为输入模型的值，z为模型计算出的结果值，这里a、b我们称为权值，其意义可以看做是x、y对结果z的影响力。我们分别先给a、b一个初始值a1、b1，然后通过输入一系列的(x,y)我们可以得到一系列的结果z，这时可以将得到的z和设定的正确的z’做比较，通过一定的算法计算出这一系列z与一系列z’的综合误差e，在根据这个误差e返回去根据一定算法对a、b进行一定调整得到a’、b’替换掉原来的a、b。然后将上述过程一直循环，直到计算出的e小于一个预期值，则判断这个模型训练完成。

需要说明的是，由于识别过程是在前端进行，所以需要先向服务器获取模型资源，所以模型资源的体积在保证识别正确率的情况下，需要尽可能小一些，以缩短获取模型文件的时间。此外，由于前端性能的限制，在保证正确率的情况下，模型的运算时间需要尽可能短一些，否则有可能造成运行阻塞等影响。因此，MobileNet这种体积较小且效果尚可的轻量级的模型在众多成熟的深度学习模型中是不错的选择。

还需要说明的是，模型的选择和训练不必在javascript下实施，目前就深度学习来说，相比javascript，其他平台如c++、python等能更好地发挥硬件的性能从而更高效地完成训练过程。因此，之后只需要将模型固化直接或通过转换应用到javascript平台即可。

S140，根据所述位置信息，确定所述画面中的检测框，所述检测框内包括所述目标卡证。

也就是说，可以根据所述位置信息，确定所述画面中检测框的位置，其中，所述检测框的尺寸应大于或等于所述检测框中目标卡证的图像的尺寸。

可选地，可以使用(html5第五代应用超文本标记语言)中的特定控件标识出所述检测框。

S150，通过显示界面显示所述检测框。

可选地，所述卡证信息还包括：所述目标卡证的正反面信息(即目标卡证的正面还是反面)、置信度信息(即预判概率)信息和类型信息(即属于身份证、工作证、银行卡还是一卡通)中的至少一项。

应理解，正反面信息、置信度信息和类型信息的训练过程与位置信息的训练过程类似，为避免重复，此处不再赘述。

可选地，所述方法还包括：在所述显示界面中的检测框中显示所述卡证信息。

具体地，可以通过文字控件的显示功能将所述卡证信息显示在所述检测框中。

例如，图2示出了PC端浏览器的显示界面，该显示界面显示出卡证检测框，该检测框中包括卡证，并同时在该检测框中示出卡证的正反面信息和置信度信息。

图3示出了本申请实施例提供的基于深度学习的卡证检测方法300的示意性流程图。应理解，该方法300可以由基于深度学习的卡证检测装置执行。

该方法300包括如下步骤：

S310，获取样本卡证和所述样本卡证的位置信息，所述位置信息包括人工标注的所述样本卡证的至少一对对角点中每个对角点的坐标、或四个顶点中每个顶点的坐标、或所述样本卡证各边的起始点和长度。

S320，根据所述样本卡证、所述位置信息和深度学习模型，得到卡证检测模型，所述卡证检测模型用于检测所述目标卡证在所述画面中的位置。

S330，获取目标卡证的画面。

S340，对所述画面进行预处理，得到符合卡证检测模型的输入要求的输入图像。

S350，将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息，所述卡证信息包括位置信息，所述位置信息用于指示所述卡证在图像中的位置。

S360，根据所述位置信息，确定所述画面中的检测框，所述检测框内包括所述目标卡证。

S370，通过显示界面显示所述检测框。

上面结合图1和图3介绍了本申请实施例提供的基于深度学习的卡证检测方法，下面将结合图4和图5介绍本申请实施例提供的基于深度学习的卡证检测装置。

图4示出了本申请实施例提供的装置300的示意性框图。该装置300包括：

获取单元410，用于获取目标卡证的画面；

处理单元420，用于对所述画面进行预处理，得到符合卡证检测模型的输入要求的输入图像，所述卡证检测模型用于检测所述目标卡证在所述画面中的位置；将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息，所述卡证信息包括位置信息，所述位置信息用于指示所述卡证在图像中的位置；

确定单元430，用于根据所述位置信息，确定所述画面中的检测框，所述检测框内包括所述目标卡证；

显示单元440，用于通过显示界面显示所述检测框。

图5示出了本申请实施例提供的基于深度学习的卡证检测装置400的示意性框图。该装置400可以为图5中所述的装置400，该装置400可以采用如图5所示的硬件架构。该装置400可以包括处理器510、通信接口520和存储器530，该处理器510、通信接口520和存储器530通过内部连接通路互相通信。图3中的处理单元420和确定单元430所实现的相关功能可以由处理器510来实现。图3中的获取单元410和显示单元440所实现的相关功能可以由处理器510控制通信接口520来实现。

该处理器510可以包括是一个或多个处理器，例如包括一个或多个中央处理单元(central processing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

该通信接口520用于输入和/或输出数据。该通信接口可以包括发送接口和接收接口，发送接口用于输出数据，接收接口用于输入数据。

该存储器530包括但不限于是随机存取存储器(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程存储器(erasable programmable readonly memory，EPROM)、只读光盘(compact disc read-only memory，CD-ROM)，该存储器530用于存储相关指令及数据。

存储器530用于存储该装置的程序代码和数据，可以为单独的器件或集成在处理器510中。

具体地，所述处理器510用于控制通信接口520调用存储器530中存储的代码指令并执行该代码指令。具体可参见方法实施例中的描述，在此不再赘述。

可以理解的是，图5仅仅示出了装置的简化设计。在实际应用中，该装置400还可以分别包含必要的其他元件，包含但不限于任意数量的通信接口、处理器、控制器、存储器等，而所有可以实现本申请的装置都在本申请的保护范围之内。

在一种可能的设计中，该装置400可以被替换为芯片装置，例如可以为可用于该装置中的芯片，用于实现该装置中处理器510的相关功能。该芯片装置可以为实现相关功能的现场可编程门阵列，专用集成芯片，系统芯片，中央处理器，网络处理器，数字信号处理电路，微控制器，还可以采用可编程控制器或其他集成芯片。该芯片中，可选的可以包括一个或多个存储器，用于存储程序代码，当所述代码被执行时，使得处理器实现相应的功能。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习的卡证检测方法，其特征在于，包括：

获取目标卡证的画面；其中，通过接口调用摄像采集设备采集所述目标卡证的画面，和/或通过获取本设备或其他设备中存储的所述目标卡证的画面；

通过URL地址向服务器发送请求消息，所述请求消息用于请求所述卡证检测模型的模型资源；接收所述服务器根据所述请求消息发送的所述模型资源；根据所述模型资源，建立所述卡证检测模型；

通过显示界面显示所述检测框；其中，在所述显示界面中的检测框中显示所述卡证信息；通过文字控件的显示功能将所述卡证信息显示在所述检测框中。

2.根据权利要求1所述的方法，其特征在于，在将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息之前，所述方法还包括：

获取样本卡证和所述样本卡证的位置信息，所述位置信息包括人工标注的所述样本卡证的至少一对对角点中每个对角点的坐标、或四个顶点中每个顶点的坐标、或所述样本卡证各边的起始点和长度；

根据所述样本卡证、所述位置信息和深度学习模型，得到所述卡证检测模型。

3.根据权利要求1所述的方法，其特征在于，在将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息之前，所述方法还包括：

从缓存中获取所述卡证检测模型。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述预处理包括像素级别的处理。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述卡证信息还包括所述目标卡证的正反面信息、置信度信息和类型信息中的至少一项。

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

通过文字控件的显示功能将所述卡证信息显示在所述检测框中。

7.一种基于深度学习的卡证检测装置，其特征在于，包括：

获取单元，用于获取目标卡证的画面；其中，通过接口调用摄像采集设备采集所述目标卡证的画面，和/或通过获取本设备或其他设备中存储的所述目标卡证的画面；

处理单元，用于对所述画面进行预处理，得到符合卡证检测模型的输入要求的输入图像，所述卡证检测模型用于检测所述目标卡证在所述画面中的位置；通过URL地址向服务器发送请求消息，所述请求消息用于请求所述卡证检测模型的模型资源；接收所述服务器根据所述请求消息发送的所述模型资源；根据所述模型资源，建立所述卡证检测模型；将所述输入图像输入卡证检测模型，得到所述目标卡证的卡证信息，所述卡证信息包括位置信息，所述位置信息用于指示所述卡证在图像中的位置；

显示单元，用于通过显示界面显示所述检测框；其中，在所述显示界面中的检测框中显示所述卡证信息；通过文字控件的显示功能将所述卡证信息显示在所述检测框中。

8.一种计算机设备，包括存储器、处理器、显示器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述存储器、所述处理器以及所述显示器之间通过内部连接通路互相通信，其特征在于，所述处理器控制所述显示器执行所述计算机程序时实现上述权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述权利要求1至6中任一项所述的方法的步骤。