CN117975466A

CN117975466A - 一种基于版面分析的通用场景卡证识别系统

Info

Publication number: CN117975466A
Application number: CN202410382195.4A
Authority: CN
Inventors: 展恩昊; 段强; 姜凯; 李锐
Original assignee: Shandong Inspur Science Research Institute Co Ltd
Current assignee: Shandong Inspur Science Research Institute Co Ltd
Priority date: 2024-04-01
Filing date: 2024-04-01
Publication date: 2024-05-03

Abstract

本发明涉及计算机视觉识别技术领域，具体涉及一种基于版面分析的通用场景卡证识别系统，包括图像预处理模块、深度特征卡证检测模块、自适应版面分析模块、文本数据提取模块、数据整合模块以及反馈调整模块；其中，图像预处理模块：接收原始卡证图像作为输入，并对原始卡证图像进行图像预处理，以输出优化后的图像；深度特征卡证检测模块：基于优化后的图像，应用深度学习算法进行卡证区域和类别的识别。本发明，通过自适应版面分析和深度特征检测技术的融合使用，不仅显著提高了卡证识别的准确性和效率，还强化了关键信息区域的识别能力，并具备灵活适应新卡证类型与快速更新的能力，确保了系统的高效性、可靠性及前瞻性。

Description

一种基于版面分析的通用场景卡证识别系统

技术领域

本发明涉及计算机视觉识别技术领域，尤其涉及一种基于版面分析的通用场景卡证识别系统。

背景技术

随着数字化信息时代的到来，电子卡证，如身份证、驾驶证、银行卡等，已经成为人们日常生活中不可或缺的一部分，这些电子卡证包含了大量的个人信息和重要数据，对于个人身份验证、金融交易等多个领域都有着极其重要的作用，因此，快速、准确地识别和处理这些卡证信息成为了一个迫切需要解决的问题，传统的卡证识别技术主要依赖于模板匹配和规则引擎，这些方法在处理标准化程度高、格式统一的卡证时表现良好，但面对版面设计多样化、信息布局不一的现实情况时，往往会遇到较大的挑战，识别精度和效率难以满足现代应用的需求。

本发明的核心技术难题在于如何提高卡证识别的准确性和适应性，以应对各种不同类型和设计的卡证，当前的卡证识别技术普遍面临着两大主要问题：一是对于版面布局和设计多样性的适应性不足，传统方法很难有效识别出非标准格式或者设计新颖的卡证；二是关键信息区域（如姓名、号码等）的识别和定位不够准确，尤其是在卡证图像质量不佳或信息部分被遮挡的情况下，识别准确率会大幅下降，此外，随着卡证种类的不断增加和更新，如何快速适应新卡证类型、无缝集成新的识别模型，也是现有技术亟需解决的难题。

因此，开发一种具有高度自适应性、可以准确识别并处理各种卡证信息的技术方案，成为了本领域技术发展的重要目标。

发明内容

基于上述目的，本发明提供了一种基于版面分析的通用场景卡证识别系统。

一种基于版面分析的通用场景卡证识别系统，包括图像预处理模块、深度特征卡证检测模块、自适应版面分析模块、文本数据提取模块、数据整合模块以及反馈调整模块；其中，

图像预处理模块：接收原始卡证图像作为输入，并对原始卡证图像进行图像预处理，以输出优化后的图像；

深度特征卡证检测模块：基于优化后的图像，应用深度学习算法进行卡证区域和类别的识别，并输出卡证位置、尺寸信息及类别标签；

自适应版面分析模块：基于卡证类别标签，选择并适合该类别卡证的版面分析模型，并通过选择的版面分析模型分析处理后的图像，以识别出关键信息区域；

文本数据提取模块：基于自适应版面分析模块识别的关键信息区域，通过OCR技术提取该关键信息区域的文本数据；

数据整合模块：整合从文本数据提取模块接收的文本数据，并将文本数据转换为结构化的卡证数据格式；

反馈调整模块：分析识别过程的误差和精度，将结果反馈至深度特征卡证检测模块和自适应版面分析模块，用于指导调整和优化参数。

进一步的，所述图像预处理模块包括噪声去除单元、色彩平衡单元、几何畸变校正单元和对比度增强单元；其中，

噪声去除单元：先接收原始卡证图像作为输入，接着应用高斯滤波算法处理图像，该高斯滤波算法时通过计算像素邻域内的加权平均值，来减少图像中的随机噪声，同时能保留边缘和细节信息，处理后输出去噪后的图像；

色彩平衡单元：以噪声去除单元的输出图像为输入，采用色彩校正算法调整图像的色彩平衡，该色彩校正算法将分析图像的颜色直方图，并自动调整色温和饱和度，确保图像颜色与真实场景匹配；

几何畸变校正单元：接收色彩平衡单元处理后的图像为输入，利用基于特征点匹配的透视变换算法进行几何畸变校正，该几何畸变校正单元将自动检测图像中的畸变特征，并计算所需的变换参数来矫正图像，使色彩平衡单元处理后的图像恢复到原始的视角和比例；

对比度增强单元：以几何畸变校正后的图像作为输入，使用直方图均衡化技术来增强图像对比度，最后输出的是对比度增强后的优化图像。

进一步的，所述深度特征卡证检测模块包括图像特征提取单元、区域提议单元以及分类定位单元；其中，

图像特征提取单元：接收优化后的图像作为输入，并应用预训练的深度卷积神经网络模型，以提取图像的深度特征表示，具体操作公式表示为：，其中/>代表输入图像的像素矩阵，/>和/>分别表示卷积层的权重和偏置，/>表示提取的特征映射；

区域提议单元：以图像特征提取单元的输出作为输入，利用选择性搜索算法生成候选区域；

分类定位单元：对每个候选区域，应用预设的CNN模型，执行两个并行的任务，其中一个是分类任务，具体通过softmax函数预测候选区域的类别标签；另一个是定位任务，使用回归技术预测卡证的位置和尺寸，所述分类任务的输出公式表示为：，其中，/>是给定特征/>下类别/>的条件概率，/>是特征/>在类别/>上的得分，是特征/>在类别/>上的得分，所述定位任务的输出为四元组：/>，分别表示卡证区域的中心点坐标/>和尺寸/>。

进一步的，所述区域提议单元中利用选择性搜索算法生成候选区域的步骤包括：

初始化阶段：使用图像分割算法将输入图像分割成小区域集合，基于图像的纹理、颜色、尺寸和形状相似性初始化候选区域，该图像分割算法公式表示为：，其中，/>为初始分割结果，/>为输入图像，/>表示图像分割函数；

合并阶段：依据预定义的相似性准则迭代合并初始化阶段中分割成的小区域，生成更大的候选区域，相似性准则通过计算区域之间的相似度来评估的，其中/>和代表两个区域，所述相似度计算公式为：

，

其中，分别表示颜色、纹理、尺寸和形状相似度，而为它们相应的权重；

输出阶段：重复合并过程直到满足停止条件，该停止条件包括达到预设的区域数量或合并后的区域大小超过预设的阈值，最终输出候选区域作为卡证存在的位置。

进一步的，所述自适应版面分析模块包括场景微调单元以及自适应调用单元；其中，

场景微调单元：用于针对不同垂直场景中遇到的各种卡证类型，先行在数据集上对版面分析模型进行精确微调，微调过程包括调整模型参数、优化特征提取层和增强模型对信息项的识别能力，每个场景下得到的微调版面分析模型都能够更好地适应该场景特有的版面布局和信息特征；

自适应调用单元：基于场景微调单元得到的各个版面分析模型，自适应调用单元负责根据实际识别需求动态选择最合适的版面分析模型，具体当接收到一个卡证图像进行处理时，该单元首先识别卡证的类型，然后从场景微调单元得到的模型库中选择一个针对该类型卡证微调过的版面分析模型进行调用，以实现针对性的高精度识别。

进一步的，所述文本数据提取模块包括预处理单元、OCR识别单元以及文本后处理单元；其中，

预处理单元：对图像进行预处理步骤，包括二值化、去噪、对比度增强，以提高OCR算法的识别效率；

OCR识别单元：通过采用深度学习模型进行文本识别，该深度学习模型结合了卷积神经网络和循环神经网络，并使用长短期记忆网络来提高对文本序列的识别准确性，OCR识别过程表示为：，

其中，表示基于CNN和RNN的深度学习OCR识别函数，/>表示深度学习模型的参数集，Image_pre表示经过预处理的卡证图像；Text表示识别出的文本内容。

进一步的，所述数据整合模块包括数据映射单元、数据验证单元以及结构化转换单元；其中，

数据映射单元：用于将文本数据提取模块输出的非结构化文本数据映射到预定义的卡证信息字段上，具体来说，每一块识别的文本通过与字段名称的匹配算法，确定其对应的卡证信息类别，包括姓名、卡号、有效期的信息，映射公式表示为：MappedDataExtractedText,FieldMap/>，

其中，ExtractedText表示从文本数据提取模块接收的非结构化文本数据，FieldMap表示预定义的字段映射关系；MappedData表示映射后的数据，其中每个文本片段都被标记为对应的卡证信息字段；

数据验证单元，在数据映射后，数据验证单元用于校验映射数据的准确性和完整性，数据验证单元采用正则表达式，对每个字段的数据进行格式和逻辑验证，确保数据的有效性具体对于日期字段，验证是否符合日期格式；对于卡号字段，验证是否只包含数字和符合卡证类型的长度要求；

结构化转换单元：将经过验证的映射数据转换为结构化的卡证数据格式，具体是将映射和验证后的数据组织成数据结构，所述数据结构为JSON或XML格式，以便于后续的存储、查询和交互操作，转换过程公式表示为：

StructuredDataValidatedData/>，其中，ValidatedData表示经过验证的映射数据，StructuredData表示转换后的结构化卡证数据。

进一步的，所述反馈调整模块包括误差分析单元、参数优化单元以及反馈执行单元；其中，

误差分析单元：用于计算深度特征卡证检测模块和自适应版面分析模块的识别结果与标准答案之间的差异，具体通过预设的算法计算准确率、召回率和F1分数，以量化识别性能；

参数优化单元：用于根据误差分析单元提供的精确统计指标，使用梯度下降法对模型参数进行优化，梯度下降法是一种寻找函数最小值的优化算法，通过迭代更新参数以减少误差，具体更新公式为：，其中，/>表示模型参数，/>表示学习率，是损失函数，/>是损失函数关于/>的梯度；

反馈执行单元：用于将参数优化单元的输出应用于深度特征卡证检测模块和自适应版面分析模块。

进一步的，所述通过预设的算法计算准确率、召回率和F1分数的计算方法包括：

准确率Accuracy的计算公式为：，

其中，TP表示正确识别的正样本数，TN表示正确识别的负样本数，FP表示错误识别为正样本的负样本数，FN表示错误识别为负样本的正样本数；

召回率Recall的计算公式为：，召回率衡量的是模型正确识别的正样本占所有正样本的比例；

F1分数F1Score的计算公式为：，其中，精确率Precision的计算公式为：/>，F1分数是精确率和召回率的调和平均数，用于综合考虑两者的性能。

本发明的有益效果：

本发明，通过引入自适应版面分析模块和深度特征卡证检测模块，显著提高了卡证识别的准确性和效率，自适应版面分析模块能够根据卡证类别标签自动选择最适合的版面分析模型，有效适应各种版面布局和设计的多样性，深度特征卡证检测模块利用深度学习技术精准定位卡证区域，进一步提高了识别过程的准确度，这一技术方案能够显著减少识别错误，提升整体处理速度，满足高效率、高准确度的现代应用需求。

本发明，通过对自适应版面分析模块与文本数据提取模块的结合使用，极大地强化了对关键信息区域的识别能力，特别是在卡证图像质量不佳或关键信息部分存在遮挡的情况下，本发明依然能够通过精细的版面分析和高效的OCR技术准确提取关键信息，这不仅提升了信息提取的准确性，也确保了信息处理的完整性，极大地提高了卡证处理系统的实用性和可靠性。

本发明，通过实时分析识别过程中的误差和精度，系统能够自动调整和优化参数设置，不断提升识别性能，不仅适用于当前的卡证识别需求，也能够适应未来技术发展和卡证设计变化的挑战，保证了系统的长期有效性和前瞻性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的通用场景卡证识别系统示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

如图1所示，一种基于版面分析的通用场景卡证识别系统，包括图像预处理模块、深度特征卡证检测模块、自适应版面分析模块、文本数据提取模块、数据整合模块以及反馈调整模块；其中，

自适应版面分析模块：基于卡证类别标签，选择并适合该类别卡证的版面分析模型，并通过选择的版面分析模型分析处理后的图像，以识别出关键信息区域，并输出关键信息的具体位置和边界框；

文本数据提取模块：基于自适应版面分析模块识别的关键信息区域，通过OCR技术提取该关键信息区域的文本数据，并将这些数据传递给数据整合模块；

反馈调整模块：分析识别过程的误差和精度，将结果反馈至深度特征卡证检测模块和自适应版面分析模块，用于指导调整和优化参数，提升系统性能和准确度。

图像预处理模块包括噪声去除单元、色彩平衡单元、几何畸变校正单元和对比度增强单元；其中，

色彩平衡单元：以噪声去除单元的输出图像为输入，采用色彩校正算法调整图像的色彩平衡，该色彩校正算法将分析图像的颜色直方图，并自动调整色温和饱和度，确保图像颜色与真实场景匹配，输出的是色彩平衡后的图像；

几何畸变校正单元：接收色彩平衡单元处理后的图像为输入，利用基于特征点匹配的透视变换算法进行几何畸变校正，该几何畸变校正单元将自动检测图像中的畸变特征，并计算所需的变换参数来矫正图像，使色彩平衡单元处理后的图像恢复到原始的视角和比例，输出的是畸变校正后的图像；

对比度增强单元：以几何畸变校正后的图像作为输入，使用直方图均衡化技术来增强图像对比度，最后输出的是对比度增强后的优化图像；

通过上述单元的顺序处理，图像预处理模块能够将原始卡证图像转换成去噪音、色彩平衡、几何校正和对比度增强的优化后图像，这一处理流程确保了图像质量的显著提升，为后续的卡证检测和信息识别步骤提供了高质量的输入图像，从而提高整个系统的识别准确率和效率。

深度特征卡证检测模块包括图像特征提取单元、区域提议单元以及分类定位单元；其中，

图像特征提取单元：接收优化后的图像作为输入，并应用预训练的深度卷积神经网络模型，例如VGG16或ResNet，以提取图像的深度特征表示，具体操作公式表示为：，其中/>代表输入图像的像素矩阵，/>和/>分别表示卷积层的权重和偏置，表示提取的特征映射；

区域提议单元：以图像特征提取单元的输出作为输入，利用选择性搜索算法生成候选区域，此单元的目的是在图像中识别可能包含卡证的区域，而不需要预先定义的针点，从而减少处理时间和提高识别的灵活性；

分类定位单元：对每个候选区域，应用预设的CNN模型，执行两个并行的任务，其中一个是分类任务，具体通过softmax函数预测候选区域的类别标签；另一个是定位任务，使用回归技术预测卡证的位置和尺寸，分类任务的输出公式表示为：，其中，/>是给定特征/>下类别/>的条件概率，/>是特征/>在类别/>上的得分，/>是特征/>在类别/>上的得分，定位任务的输出为四元组：/>，分别表示卡证区域的中心点坐标/>和尺寸/>；

通过上述单元的协同工作，深度特征卡证检测模块能够准确识别出图像中的卡证区域及其类别，并输出每个识别到的卡证的位置、尺寸信息和类别标签，这种基于深度学习的方法使得卡证检测更为精确和高效，适应多变的场景需求。

区域提议单元中利用选择性搜索算法生成候选区域的步骤包括：

合并阶段：依据预定义的相似性准则迭代合并初始化阶段中分割成的小区域，生成更大的候选区域，相似性准则通过计算区域之间的相似度来评估的，其中/>和代表两个区域，相似度计算公式为：

，

所述自适应版面分析模块包括场景微调单元以及自适应调用单元；其中，

场景微调单元：用于针对不同垂直场景（如身份验证、金融服务等）中遇到的各种卡证类型（如身份证、驾驶证、银行卡等），先行在数据集上对版面分析模型进行精确微调，微调过程包括调整模型参数、优化特征提取层和增强模型对信息项的识别能力，每个场景下得到的微调版面分析模型都能够更好地适应该场景特有的版面布局和信息特征，从而在实际应用中实现更高的识别精度和效率；

文本数据提取模块包括预处理单元、OCR识别单元以及文本后处理单元；其中，

预处理单元：对图像进行预处理步骤，包括二值化、去噪、对比度增强，以提高OCR算法的识别效率，这一阶段可以表示为:

，其中，/>表示预处理函数，包括二值化、去噪声和对比度增强的组合，Image_pre表示预处理后的图像，用于输入到OCR识别单元；

其中，表示基于CNN和RNN的深度学习OCR识别函数，/>表示深度学习模型的参数集，通过训练过程优化，Imagepre表示经过预处理的卡证图像；Text表示识别出的文本内容。

数据整合模块包括数据映射单元、数据验证单元以及结构化转换单元；其中，

其中，ExtractedText表示从文本数据提取模块接收的非结构化文本数据，FieldMap表示预定义的字段映射关系，包含各类卡证信息的字段名称和对应的识别规则；MappedData表示映射后的数据，其中每个文本片段都被标记为对应的卡证信息字段；

结构化转换单元：将经过验证的映射数据转换为结构化的卡证数据格式，具体是将映射和验证后的数据组织成数据结构，数据结构为JSON或XML格式，以便于后续的存储、查询和交互操作，转换过程公式表示为：

StructuredDataValidatedData/>，其中，ValidatedData表示经过验证的映射数据，StructuredData表示转换后的结构化卡证数据，例如JSON对象，包含所有必要的卡证信息字段；

卡证数据格式示例，结构化的卡证数据格式可能包含以下字段：

姓名：持卡人的全名；

卡号：卡证的唯一识别号码；

有效期：卡证的有效日期范围；

发行机构：卡证的发行和认证机构。

反馈调整模块包括误差分析单元、参数优化单元以及反馈执行单元；其中，

误差分析单元：用于计算深度特征卡证检测模块和自适应版面分析模块的识别结果与标准答案（即真实数据）之间的差异，具体通过预设的算法计算准确率、召回率和F1分数，以量化识别性能；

反馈执行单元：用于将参数优化单元的输出应用于深度特征卡证检测模块和自适应版面分析模块，此过程直接影响到模型参数的更新，确保模块性能根据误差分析的结果进行实时调整，这一过程通过程序化操作实现，保证了参数更新的准确执行。

通过预设的算法计算准确率、召回率和F1分数的计算方法包括：

准确率Accuracy的计算公式为：，

F1分数F1Score的计算公式为：，其中，精确率Precision的计算公式为：/>，F1分数是精确率和召回率的调和平均数，用于综合考虑两者的性能；

通过上述公式和技术的详细说明，我们确保反馈调整模块避免任何可能的不确定性，确保了整个模块的高效和准确性，这样的方法不仅提高了卡证识别系统的性能，也使得系统能够根据实际应用场景的需求进行自我优化。

Claims

1.一种基于版面分析的通用场景卡证识别系统，其特征在于，包括图像预处理模块、深度特征卡证检测模块、自适应版面分析模块、文本数据提取模块、数据整合模块以及反馈调整模块；其中，

2.根据权利要求1所述的一种基于版面分析的通用场景卡证识别系统，其特征在于，所述图像预处理模块包括噪声去除单元、色彩平衡单元、几何畸变校正单元和对比度增强单元；其中，

3.根据权利要求2所述的一种基于版面分析的通用场景卡证识别系统，其特征在于，所述深度特征卡证检测模块包括图像特征提取单元、区域提议单元以及分类定位单元；其中，

图像特征提取单元：接收优化后的图像作为输入，并应用预训练的深度卷积神经网络模型，以提取图像的深度特征表示，具体操作公式表示为：

，其中/>代表输入图像的像素矩阵，/>和/>分别表示卷积层的权重和偏置，/>表示提取的特征映射；

分类定位单元：对每个候选区域，应用预设的CNN模型，执行两个并行的任务，其中一个是分类任务，具体通过softmax函数预测候选区域的类别标签；另一个是定位任务，使用回归技术预测卡证的位置和尺寸，所述分类任务的输出公式表示为：，其中，是给定特征/>下类别/>的条件概率，/>是特征/>在类别/>上的得分，/>是特征/>在类别/>上的得分，所述定位任务的输出为四元组：/>，分别表示卡证区域的中心点坐标/>和尺寸/>。

4.根据权利要求3所述的一种基于版面分析的通用场景卡证识别系统，其特征在于，所述区域提议单元中利用选择性搜索算法生成候选区域的步骤包括：

合并阶段：依据预定义的相似性准则迭代合并初始化阶段中分割成的小区域，生成更大的候选区域，相似性准则通过计算区域之间的相似度来评估的，其中/>和/>代表两个区域，所述相似度计算公式为：

，

其中，分别表示颜色、纹理、尺寸和形状相似度，而/>为它们相应的权重；

5.根据权利要求4所述的一种基于版面分析的通用场景卡证识别系统，其特征在于，所述自适应版面分析模块包括场景微调单元以及自适应调用单元；其中，

6.根据权利要求5所述的一种基于版面分析的通用场景卡证识别系统，其特征在于，所述文本数据提取模块包括预处理单元、OCR识别单元以及文本后处理单元；其中，

7.根据权利要求6所述的一种基于版面分析的通用场景卡证识别系统，其特征在于，所述数据整合模块包括数据映射单元、数据验证单元以及结构化转换单元；其中，

8.根据权利要求7所述的一种基于版面分析的通用场景卡证识别系统，其特征在于，所述反馈调整模块包括误差分析单元、参数优化单元以及反馈执行单元；其中，

参数优化单元：用于根据误差分析单元提供的精确统计指标，使用梯度下降法对模型参数进行优化，梯度下降法是一种寻找函数最小值的优化算法，通过迭代更新参数以减少误差，具体更新公式为：，其中，/>表示模型参数，/>表示学习率，/>是损失函数，/>是损失函数关于/>的梯度；

9.根据权利要求8所述的一种基于版面分析的通用场景卡证识别系统，其特征在于，所述通过预设的算法计算准确率、召回率和F1分数的计算方法包括：

准确率Accuracy的计算公式为：，