CN110796145B

CN110796145B - 基于智能决策的多证件分割关联方法及相关设备

Info

Publication number: CN110796145B
Application number: CN201910884628.5A
Authority: CN
Inventors: 苏智辉; 孙强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2024-01-19
Anticipated expiration: 2039-09-19
Also published as: CN110796145A

Abstract

本发明涉及人工智能技术领域，尤其涉及一种基于智能决策的多证件分割关联方法及相关设备。该方法包括：获取用于分割的预分割图片，将预分割图片输入图片分割模型中，得到多张证件子图和证件类型；分别对单张证件子图进行文字识别处理，获取证件子图中的多个特征数据；将多张证件子图中的特征数据进行关联，得到多个证件类型之间的关联信息。本发明自动处理并分割证件图片，自动对不同类别的证件进行分类，得到不同的证件类型，可实现单个证件的单独使用。通过对不同证件类型进行有机关联，为后续检索用户信息提供数据。

Description

基于智能决策的多证件分割关联方法及相关设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于智能决策的多证件分割关联方法及相关设备。

背景技术

在办理银行业务时，如办理负债业务、资产业务或中间业务，通常需要客户提供相关证件，且需要对证件进行留档保存。在需要的证件不止一张时，如办理贷款业务时，同时需要对身份证及银行卡进行留档保存，此时如果分别对多张证件进行独立保存，不仅费时费力，还增加数据压力。若同时对多张证件放在一起进行保存，虽然保存速度快，但由于一张图片中保存包含了多种类型的证件，在后续需要单独使用某张证件时，带来了困难。

发明内容

有鉴于此，有必要针对银行证件图片包含多个同一种类证件，无法进行图像分割并独立使用的问题，提供一种基于智能决策的多证件分割关联方法及相关设备。

一种基于智能决策的多证件分割关联方法，包括：

获取用于分割的预分割图片，将所述预分割图片输入预设的图片分割模型中，得到多张证件子图和所述证件子图对应的证件类型；

分别对单张所述证件子图进行文字识别处理，获取所述证件子图中的多个特征数据；

将多张所述证件子图中的特征数据进行关联，得到多个所述证件类型之间的关联信息。

一种可能的设计中，所述获取用于分割的预分割图片，将所述预分割图片输入预设的图片分割模型中，得到多张证件子图和所述证件子图对应的证件类型前，包括：

采集不同类型的多张证件图片，初始化预设的图片分割模型，采用多张所述证件图片对所述图片分割模型进行训练，得到训练后的图片分割模型。

一种可能的设计中，所述采用多张所述证件图片对所述图片分割模型进行训练，包括：

对采集的单张所述证件图片中不同类型的单个证件标注标签，所述标签与单个证件的原图高宽一致，所述标签的像素点对应的像素值为单个证件所属的证件类型，将标注好的所述证件图片分为训练集和测试集；

将所述训练集中的证件图片和标签输入预设的图片分割模型中，调节模型参数，对所述图片分割模型进行训练；

采用所述测试集对训练后的所述图片分割模型进行测试，将测试结果与所述标签相比，当误差率大于预设的误差阈值，则增加证件图片的采集数量，并重新返回对单个证件标注标签步骤。

一种可能的设计中，所述将所述训练集中的证件图片和标签输入预设的图片分割模型中，调节模型参数，对所述图片分割模型进行训练，包括：

所述图片分割模型在进行图片分割时，采用如下步骤：

载入所述证件图片，通过预设的卷积神经网络提取特征图；

将所述特征图通过预设的区域候选网络生成建议窗口，每张证件图片生成多个建议窗口；

将多个建议窗口映射到所述卷积神经网络的最后一层卷积特征图上，得到新的特征图；

通过目标检测特殊层生成固定尺寸的边框、类型和掩膜；

根据所述边框和所述掩膜对所述证件图片进行分割，得到多个证件子图，根据类型确定所述证件子图的证件类型。

一种可能的设计中，所述获取用于分割的预分割图片，将所述预分割图片输入预设的图片分割模型中，得到多张证件子图和所述证件子图对应的证件类型后，包括：

将每张所述证件子图分别通过连通域处理为四边形结构；

将四边形结构的所述证件子图进行仿射变换，得到标准证件大小。

一种可能的设计中，所述分别对单张所述证件子图进行文字识别处理，获取所述证件子图中的多个特征数据，包括：

对所述证件子图进行光学字符识别OCR以生成OCR识别结果，所述OCR识别结果为字符串数组；

抽取所述OCR识别结果中的各个字符串数据组的特征信息，根据所述特征信息建立特征信息矩阵，所述特征信息矩阵中的元素是特征信息中的字符；

按照所述特征信息矩阵中元素的类型，将所述特征信息矩阵中的元素进行归类，形成数个特征信息子矩阵；

提取所述特征信息子矩阵中的每一个元素的灰度值，与预设的标准元素的灰度值进行比较，若某一个元素的灰度值与某一个标准元素的灰度值完全一致，则将某一个元素的灰度值作为子矩阵的要素特征，汇总所有比对结果得到证件子图中的特征数据。

一种可能的设计中，所述将多张所述证件子图中的特征数据进行关联，得到多个所述证件类型之间的关联信息，包括：

获取任一一个所述特征数据，与其他所述特征数据分别进行比较，若不同，则将两个所述特征数据进行关联，并标记两个所述特征数据所属的证件类型；

若相同，则继续比较，直到遍历完所有的特征数据。

一种基于智能决策的多证件分割关联装置，包括：

分割图片模块，用于获取用于分割的预分割图片，将所述预分割图片输入预设的图片分割模型中，得到多张证件子图和所述证件子图对应的证件类型；

识别文字模块，用于分别对单张所述证件子图进行文字识别处理，获取所述证件子图中的多个特征数据；

关联数据模块，用于将多张所述证件子图中的特征数据进行关联，得到多个所述证件类型之间的关联信息。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述基于智能决策的多证件分割关联方法的步骤。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述基于智能决策的多证件分割关联方法的步骤。

上述基于智能决策的多证件分割关联方法及相关设备，包括获取用于分割的预分割图片，将所述预分割图片输入预设的图片分割模型中，得到多张证件子图和所述证件子图对应的证件类型；分别对单张所述证件子图进行文字识别处理，获取所述证件子图中的多个特征数据；将多张所述证件子图中的特征数据进行关联，得到多个所述证件类型之间的关联信息。本发明采用将目标检测和语义分割相结合的图片分割模型应用到银行多证件图片分割任务中，自动处理并分割证件图片，自动对不同类别的证件进行分类，得到不同的证件类型，可实现单个证件的单独使用。通过对不同证件类型进行有机关联，为后续检索用户信息提供数据。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1为本发明一个实施例中的基于智能决策的多证件分割关联方法的流程图；

图2为本发明一个实施例中对图片分割模型进行训练的流程图；

图3为本发明一个实施例中对证件子图进行处理的流程图；

图4为本发明一个实施例中基于智能决策的多证件分割关联装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

图1为本发明一个实施例中的基于智能决策的多证件分割关联方法的流程图，如图1所示，一种基于智能决策的多证件分割关联方法，包括以下步骤：

步骤S1，分割图片：获取用于分割的预分割图片，将预分割图片输入预设的图片分割模型中，得到多张证件子图和证件子图对应的证件类型。

本步骤可以通过交互界面，接收用户的证件识别请求，在证件识别请求中获取用于分割的预分割图片。预分割图片可以是单张或多张，当预分割图片为多张时，分别独立输入图片分割模型中单独进行后续处理。预分割图片中含有一个证件或多个证件，证件可以包括身份证、银行卡、居住证、护照、结婚证、出生证等。

在一个实施例中，步骤S1前，包括：

采集不同类型的多张证件图片，初始化预设的图片分割模型，采用多张证件图片对图片分割模型进行训练，得到训练后的图片分割模型。

在采用预设的图片分割模型对预分割图片进行分割之前，为了得到较为精确的多张证件子图和证件类型，本步骤对图片分割模型进行训练，具体训练时如图2所示，采用如下方式：

步骤S101，标注标签：对采集的单张证件图片中不同类型的单个证件标注标签，标签与单个证件的原图高宽一致，标签的像素点对应的像素值为单个证件所属的证件类型，将标注好的证件图片分为训练集和测试集。

本步骤在标注标签时，标签可以采用JPG图片格式，证件类别可以如背景、卡1、卡2等，此时的标签的像素点对应的像素值“0”表示背景，“1”表示卡1,“2”表示卡2等。在标注时，可以通过自动标注的方式，通过预设的标注位置坐标模板，在坐标模板中贴入单个证件。

将标注好的证件图片划分训练集和测试集时，可以采用10:1的比例分为训练集和测试集。

步骤S102，训练：将训练集中的证件图片和标签输入预设的图片分割模型中，调节模型参数，对图片分割模型进行训练。

本步骤的图片分割模型优选采用mask-rcnn实例分割模型，此图片分割模型在进行图片分割时的工作步骤如下：

步骤S10201，提取特征图：载入证件图片，通过预设的卷积神经网络提取特征图。

卷积神经网络可以采用CNN卷积神经网络，包括多层卷积层，通过多层卷积层提取特征图(feature map)，卷积层计算公式为：

其中，X为卷积层输出的特征图，σ为激活函数，Y为灰度图像矩阵，为卷积运算符号，W为卷积核，b为偏置值。

步骤S10202，生成建议窗口：将特征图通过预设的区域候选网络生成建议窗口，每张证件图片生成多个建议窗口。

区域候选网络为RPN网络，包括一个卷积层、两个全连接层，特征图首先通过卷积层，然后两个并行的全连接层后，预测出多个预测框的坐标和宽高，即得到多个建议窗口。

步骤S10203，映射：将多个建议窗口映射到卷积神经网络的最后一层卷积特征图上，得到新的特征图。

由于每张证件图片生成了多个建议窗口，建议窗口之间具有大量重叠情况，造成运算能力的浪费，本步骤为了节省算力成本，在最后一层卷积输出的特征图上直接加入建议窗口信息，使得在此之前的CNN运算得以共享。

步骤S10204，生成固定尺寸的特征图：通过目标检测特殊层生成固定尺寸的边框、类型和掩膜。

将特征图通过目标检测特殊层，即RoI Align层生成含矩形边框、类型和mask掩膜的特征图。

RoI Align层使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值，从而将整个特征聚集过程转化为一个连续的操作，具体流程如下：遍历每一个建议窗口，保持浮点数边界不做量化；将建议窗口分割成k×k个单元，每个单元的边界也不做量化；在每个单元中计算固定四个坐标位置，用双线性内插的方法计算出这四个位置的值，然后进行最大池化操作，生成矩形边框，及对应的类型和mask掩膜。

步骤S10205，分割证件图片：根据边框和掩膜对证件图片进行分割，得到多个证件子图，根据类型确定证件子图的证件类型。

通过边框确定需要得到的单个证件子图的目标区域，通过掩膜抠出目标区域，最终得到证件子图，且以类型对应确定证件类型。

步骤S103，测试：采用测试集对训练后的图片分割模型进行测试，将测试结果与标签相比，当误差率大于预设的误差阈值，则增加证件图片的采集数量，并重新返回对单个证件标注标签步骤。

测试结果也包括对证件图片进行分割后的证件子图及证件类型，将证件子图和证件类型与原证件图片中标注的标签进行比较，即将证件子图的高宽与标签的高宽进行比较，将证件类型与标签的像素值进行比较，若不一致，或误差大于预设的误差阈值，则认为训练精确度不够，还需继续增加证件图片，对图片分割模型调节模型参数，继续进行训练，增加证件图片个数，返回步骤S101继续进行标注、训练和测试步骤。

本实施例通过对初始化后的图片分割模型经过不同类型证件图片的采集、对证件图片的标注、训练图片分割模型和测试图片分割模型，最终确定出较为精确有效的模型参数，得到较好的图片分割模型，以便于应用于预分割图片的图片分割中。

在一个实施例中，步骤S1后，如图3所示，包括：

步骤S111，连通域处理：将每张证件子图分别通过连通域处理为四边形结构。

在步骤S1对证件图片通过图片分割模型进行分割后，可能存在残缺现象，因此需要对分割后的每张证件子图进行连通域处理成四边形。

步骤S112，仿射变换处理：将四边形结构的证件子图进行仿射变换，得到标准证件大小。

在步骤S1对证件图片采集时，可能得到的证件子图是倾斜的，为了便于后续进行文字识别处理，需要将分割得到的每张证件子图进行仿射变换，得到85.6mm×54mm标准证件大小。

本实施例在对证件图片分割成若干证件子图后，对单张证件子图进行文字识别处理前，分别通过连通域和仿射变换处理，为下一步文字识别处理时，提供较为完整可靠的图片数据，便于后续的数据定位。

步骤S2，识别文字：分别对单张证件子图进行文字识别处理，获取证件子图中的多个特征数据。

本步骤在进行文字识别处理时，采用如下方式：对证件子图进行光学字符识别OCR以生成OCR识别结果，OCR识别结果为字符串数组。抽取OCR识别结果中的各个字符串数据组的特征信息，根据特征信息建立特征信息矩阵，特征信息矩阵中的元素是特征信息中的字符。按照特征信息矩阵中元素的类型，将特征信息矩阵中的元素进行归类，形成数个特征信息子矩阵。提取特征信息子矩阵中的每一个元素的灰度值，与预设的标准元素的灰度值进行比较，若某一个元素的灰度值与某一个标准元素的灰度值完全一致，则将某一个元素的灰度值作为子矩阵的要素特征，汇总所有比对结果得到证件子图中的特征数据。

本步骤的光学字符识别OCR是指用字符识别方法将证件子图上的形状自动翻译成计算机文字的过程；即针对印刷体字符，采用光学的方式将证件子图中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，得到多个特征数据，如姓名、身份证号码或银行卡卡号等信息。

本步骤中的单张证件子图对应得到多个特征数据，多张不同的证件子图，通过本步骤得到可能相同，也可能不同的多个特征数据。例如，证件类型为银行卡1的证件子图，得到银行卡号和姓名等特征数据，证件类型为身份证的证件子图，得到身份证号码和姓名等特征数据。则银行卡1的证件子图和身份证的证件子图，包括了银行卡号、身份证号码等不同的特征数据，也包括了相同的姓名特征数据。

步骤S3，关联数据：将多张证件子图中的特征数据进行关联，得到多个证件类型之间的关联信息。

本步骤在关联数据时，采用如下方式：获取任一一个特征数据，与其他特征数据分别进行比较，若不同，则将两个特征数据进行关联，并标记两个特征数据所属的证件类型；若相同，则继续比较，直到遍历完所有的特征数据。

例如，一张证件附图中分割出多张证件子图，包括证件类型为银行卡1、银行卡2、银行卡3及身份证对应的证件子图。经过步骤S2对每张证件子图进行文字识别处理，得到银行卡1的卡号、银行卡2的卡号、银行卡3的卡号，身份证上的姓名、身份证号码。通过本步骤对这些数据的关联，即将姓名、身份证号码、3张银行卡的卡号进行关联，得到用户的关联信息，为后续检索用户信息提供数据。

本实施例基于智能决策的多证件分割关联方法，通过训练好的图片分割模型对含有多个证件的证件图片进行分割，得到多个证件子图及对应的证件类型，并对多个证件子图分别进行文字识别，得到证件子图中的用户特征数据，并将用户的特征数据有效的关联起来，既可以实现单张证件子图的独立使用，又为后续办理金融业务时检索用户信息提供数据。

在一个实施例中，提出了一种基于智能决策的多证件分割关联装置，如图4所示，包括：

分割图片模块，用于获取用于分割的预分割图片，将预分割图片输入预设的图片分割模型中，得到多张证件子图和证件子图对应的证件类型；

识别文字模块，用于分别对单张证件子图进行文字识别处理，获取证件子图中的多个特征数据；

关联数据模块，用于将多张证件子图中的特征数据进行关联，得到多个证件类型之间的关联信息。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行计算机可读指令时实现上述各实施例的基于智能决策的多证件分割关联方法中的步骤。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例的基于智能决策的多证件分割关联方法中的步骤。其中，存储介质可以为非易失性存储介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明一些示例性实施例，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于智能决策的多证件分割关联方法，其特征在于，包括：

采集不同类型的多张证件图片，初始化预设的图片分割模型，采用多张所述证件图片对所述图片分割模型进行训练，得到训练后的图片分割模型；

所述采用多张所述证件图片对所述图片分割模型进行训练，包括：

采用所述测试集对训练后的所述图片分割模型进行测试，将测试结果与所述标签相比，当误差率大于预设的误差阈值，则增加证件图片的采集数量，并重新返回对单个证件标注标签步骤；

所述将所述训练集中的证件图片和标签输入预设的图片分割模型中，调节模型参数，对所述图片分割模型进行训练，包括：

所述图片分割模型在进行图片分割时，采用如下步骤：

载入所述证件图片，通过预设的卷积神经网络提取特征图；

通过目标检测特殊层生成固定尺寸的边框、类型和掩膜；

根据所述边框和所述掩膜对所述证件图片进行分割，得到多个证件子图，根据类型确定所述证件子图的证件类型；

2.根据权利要求1所述的基于智能决策的多证件分割关联方法，其特征在于，所述获取用于分割的预分割图片，将所述预分割图片输入预设的图片分割模型中，得到多张证件子图和所述证件子图对应的证件类型后，包括：

将每张所述证件子图分别通过连通域处理为四边形结构；

3.根据权利要求1所述的基于智能决策的多证件分割关联方法，其特征在于，所述分别对单张所述证件子图进行文字识别处理，获取所述证件子图中的多个特征数据，包括：

4.根据权利要求1所述的基于智能决策的多证件分割关联方法，其特征在于，所述将多张所述证件子图中的特征数据进行关联，得到多个所述证件类型之间的关联信息，包括：

若相同，则继续比较，直到遍历完所有的特征数据。

5.一种基于智能决策的多证件分割关联装置，其特征在于，包括：

训练模块，用于采集不同类型的多张证件图片，初始化预设的图片分割模型，采用多张所述证件图片对所述图片分割模型进行训练，得到训练后的图片分割模型；

所述图片分割模型在进行图片分割时，采用如下步骤：

载入所述证件图片，通过预设的卷积神经网络提取特征图；

通过目标检测特殊层生成固定尺寸的边框、类型和掩膜；

6.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至4中任一项权利要求所述基于智能决策的多证件分割关联方法的步骤。

7.一种存储有计算机可读指令的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至4中任一项权利要求所述基于智能决策的多证件分割关联方法的步骤。