CN117593752A

CN117593752A - 一种pdf文档录入方法、系统、存储介质及电子设备

Info

Publication number: CN117593752A
Application number: CN202410072781.9A
Authority: CN
Inventors: 雷鹏
Original assignee: Sco Digital Technology Co ltd
Current assignee: Sco Digital Technology Co ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-02-23
Anticipated expiration: 2044-01-18
Also published as: CN117593752B

Abstract

本发明提出了一种PDF文档录入方法、系统、存储介质及电子设备，属于文档识别领域，方法包括：S1、对PDF文档进行文字检测，建立文本图像数据集；S2、将文本图像数据集输入至CRNN模型中进行文字识别；S3、对识别文本集分别进行二值化处理；S4、构建文本类型判别模型，对文本类型判别模型进行训练；S5、获取待录入PDF文档中文本的初始位置信息；S6、确定待识别文本，并进行二值化处理，输入至训练好的文本类型判别模型，确定文本类型；S7、构建配对模型，将key类型文本的二值图和value类型文本的位置信息进行文本配对；S8、根据配对关系按照json字符串格式进行组装并输出，得到PDF文档录入的内容。

Description

一种PDF文档录入方法、系统、存储介质及电子设备

技术领域

本发明涉及文档识别技术领域，尤其涉及一种PDF文档录入方法、系统、存储介质及电子设备。

背景技术

在汽车经销商日常业务中，识别各保险公司的电子保单是一项关键任务。然而，不同保险公司的电子保单格式各异，表格内容长度不一，甚至存在多行内容的情况，这给信息提取带来了挑战。为了解决这些问题，将PDF文件上传和并使用PDF文档行扫描和内容提取是一种高效获取文档内容的途径。

现有的PDF文档扫描通过文件上传技术，通过PDF文档行扫描和内容提取技术，但是针对表格中内容跨越多行的情况，无法智能地识别并合并同一单元格中的多行内容，并且无法将PDF文档中的表格内容转换成可编辑的文本，容易在文档识别后出现数据格式混乱，导致文档识别后识别内容无法分析利用的情况。

因此，寻找一种既能够准确识别PDF文档中的内容，又能对识别到的数据进行结构化整理以便于数据分析的文档录入方法，是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明提出了一种PDF文档录入方法、系统、存储介质和电子设备，其使用DBNet算法进行文字检测和文本位置信息可以准确地定位PDF文档中的文本信息，使用文本类型判别模型对文本信息识别并使用配对模型进行文本特征配对，提高文本录入的准确性和效率。

本发明的技术方案是这样实现的：

第一方面，本发明提供了一种PDF文档录入方法，包括以下步骤：

S1、使用DBNet算法对PDF文档进行文字检测，确定PDF文档中文本的初始位置信息，根据文本的初始位置信息对文本信息进行图片截取，得到文本图像，建立文本图像数据集；

S2、将文本图像数据集输入至CRNN模型中进行文字识别，得到识别文本集；

S3、根据初始位置信息对识别文本集分别进行二值化处理，得到文本位置信息的二值图数据集；

S4、使用卷积神经网络构建文本类型判别模型，采用文本位置信息的二值图数据集对文本类型判别模型进行训练，得到训练好的文本类型判别模型；

S5、获取待录入PDF文档中文本的初始位置信息，根据文本的初始位置信息进行图片截取得到待识别文本图像；

S6、根据待识别文本图像确定待识别文本，并对待识别文本进行二值化处理得到待识别文本位置信息的二值图，将待识别文本位置信息的二值图输入至训练好的文本类型判别模型，确定文本类型；其中文本类型包括key类型文本和value类型文本；

S7、构建配对模型，将key类型文本的二值图和value类型文本的位置信息输入至配对模型进行文本配对，得到文本的配对关系；

S8、根据文本的配对关系按照json字符串格式进行组装并输出，得到PDF文档录入的内容。

在以上技术方案的基础上，优选的，所述配对模型包括图像信息处理模块、位置信息模块、注意力模块和相似度计算模块，步骤S7具体包括：

S71、将key类型文本的二值图输入至图像信息处理模块进行卷积池化处理，得到第一矩阵M_i；

S72、将value类型文本的位置信息输入至位置信息模块进行拼接处理，得到第二矩阵M_b；

S73、将第一矩阵M_i和第二矩阵M_b输入至注意力模块进行权重计算，得到注意力权重A_tt；

S74、将注意力权重A_tt和value类型文本的位置信息M_bn输入至相似度计算模块进行余弦相似度计算，得到配对值；

S75、将配对值与预设阈值进行比较，若配对值大于预设阈值，则可以将文本类型进行配对，得到文本的配对关系。

在以上技术方案的基础上，优选的，步骤S73具体包括：

将第一矩阵M_i输入至注意力模块，将第一矩阵M_i与权重矩阵W_i相乘，得到状态矩阵Q_b，状态矩阵Q_b的计算公式如下：

Q_b= M_i×W_i；

将第二矩阵M_b输入至注意力模块，将状态矩阵Q_b与第二矩阵M_b通过并softmax函数计算得到门控矩阵M_w，门控矩阵M_w的计算公式如下：

M_w=softmax(M_b×Q_b)；

将第二矩阵M_b与门控矩阵M_w进行注意力处理，得到注意力权重A_tt，注意力权重A_tt的计算公式如下：

A_tt= M_A×(1- M_w)×M_b+M_w×M_b；

其中，M_A表示权重矩阵。

在以上技术方案的基础上，优选的，步骤S74中配对值的计算公式如下：

simi= CosSim(A_tt, M_bn)

其中，simi表示配对值，CosSim表示余弦相似度函数，M_bn表示value类型文本的位置信息。

更进一步优选的，步骤S4中文本类型判别模型以AlexNet为基础，包括三组卷积池化模块、一组池化模块和一组全连接模块，步骤S4具体包括：

S41、文本位置信息的二值图数据集的训练集输入依次输入至三组卷积池化模块进行特征提取，得到第一特征；所述文本位置信息的二值图数据集包括训练集和验证集；

S42、将第一特征输入至池化模块进行池化操作，得到第二特征；

S43、将第二特征输入至全连接模块进行组合和加权，得到文本图像中的文本特征；

S44、根据文本图像中的文本特征利用反向传播算法更新文本类型判别模型的参数，在每个训练周期结束后，使用文本位置信息的二值图数据集的验证集对模型进行评估，得到训练好的文本类型判别模型。

在以上技术方案的基础上，优选的，所述卷积池化模块包括一个卷积层、一个池化层和一个批量归一化层，其中卷积层的卷积核大小为5×5，池化层的滑动窗口的大小为2×2。

在以上技术方案的基础上，优选的，所述二值化处理具体包括：

根据文本的初始位置信息分别确定PDF文档中单个文本的位置，并生成文本图片；其中文本图片的底色为第一色彩；

在文本图片上将待判别的文本划分为第二色彩区域块，将剩余文本划分为第二色彩边框，得到文本框文本的二值图。

第二方面，本发明提供了一种PDF文档录入系统，采用如上述所述的文档录入方法，包括：

数据集模块，其配置为使用DBNet算法对PDF文档进行文字检测，确定PDF文档中文本的初始位置信息，根据文本的初始位置信息将文本信息进行图片截取，得到文本图像，建立文本图像数据集；

文本识别模块，其配置为将文本图像输入至CRNN模型中进行文字识别，得到识别文本集；

二值化处理模块，其配置为根据初始位置信息对识别文本集分别进行二值化处理，得到文本位置信息的二值图数据集；

模型训练模块，其配置为使用卷积神经网络构建文本类型判别模型，采用文本位置信息的二值图数据集对文本类型判别模型进行训练，得到训练好的文本类型判别模型；

文本识别模块，其配置为获取待录入PDF文档中文本的初始位置信息，根据文本的初始位置信息进行图片截取得到待识别文本图像，根据待识别文本图像确定待识别文本，并对待识别文本进行二值化处理得到待识别文本位置信息的二值图，将待识别文本位置信息的二值图输入至训练好的文本类型判别模型，确定文本类型；其中文本类型包括key类型文本和value类型文本；

配对模块，其配置为将key类型文本的二值图和value类型文本的位置信息输入至配对模型进行文本配对，得到文本的配对关系；

文档录入模块，其配置为根据文本的配对关系按照json字符串格式进行组装并输出，得到PDF文档录入的内容。

第三方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现如上述所述的文档录入方法。

第四方面，本发明提供了一种电子设备，包括：至少一个处理器、一个存储器、通信接口和总线；

其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调佣所述程序指令，以实现如上述所述的文档录入方法。

本发明的PDF文档录入方法相对于现有技术具有以下有益效果：

（1）通过对PDF文档进行文字检测和二值化处理得到文本位置信息的二值图数据集，并使用二值图数据集对文本类型判别模型进行训练，提高文本录入的准确性和速度，根据配对模型对文本识别类型和待识别文本图像的二值图进行智能配对，从而建立文本的配对关系，使得录入的内容更加有条理和完整，提高文本录入的准确性和效率；

（2）通过将key类型文本的二值图输入至图像信息处理模块进行卷积池化处理提取出图像的特征信息，将value类型文本的位置信息输入至位置信息模块进行拼接处理，并将文本类型与位置信息相结合，根据注意力权重计算出文本图像与文本类型之间的相似度，根据预设的阈值进行自动化的配对决策，提高了配对的准确性和可靠性，减少了人工干预的失误；

（3）通过三组卷积池化模块对文本图像的二值图提取图像特征的多层次信息，并使用池化操作减少特征的维度，利用全连接模块学习特征之间的关联和权重，实现特征的非线性组合，提高了文本识别的准确性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的PDF文档录入方法的流程图；

图2为本发明的PDF文档录入方法的文本类型判别模型的框图；

图3为本发明的PDF文档录入方法的二值图的示例图；

图4为本发明的PDF文档录入方法的配对模型框图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，本发明提供了一种PDF文档录入方法，包括以下步骤：

在本申请实施例中，使用DBNet算法进行文字检测和文本位置信息可以准确地定位PDF文档中的文本信息，根据PDF文档中的文本信息对文本的自动化识别和截取，提高文本录入的准确性和效率，同时为后续步骤建立了文本图像数据集，为模型训练提供了丰富的数据资源。对文本图像进行二值化处理以凸显文本的轮廓和特征，根据二值图数据集训练出准确且高效的文本类型判别模型，提高文本录入的准确性和速度，根据文本识别类型和待识别文本图像的二值图进行智能配对，从而建立文本的配对关系，使得录入的内容更加有条理和完整，根据文本的配对关系按照JSON字符串格式进行组装并输出实现了对文本录入内容的格式化输出，使得输出的内容格式灵活多样，适应不同的需求，同时为后续的文本处理和应用提供了便利。

如图2所示，在本申请一实施例中，步骤S4中文本类型判别模型以AlexNet为基础，包括三组卷积池化模块、一组池化模块和一组全连接模块，步骤S4具体包括：

在本申请实施例中，通过三组卷积池化模块提取图像特征的多层次信息，包括边缘、纹理、形状等，增强文本类型判别模型对文本图像的表征能力，提高了文本识别的准确性；通过池化操作可以减少特征的维度，降低了后续全连接模块的计算复杂度，同时保留主要的特征信息并减少了特征的冗余提高了模型的训练和推理效率；通过全连接模块学习特征之间的关联和权重，实现特征的非线性组合，提高了文本识别的准确性和鲁棒性；通过反向传播算法可以更新文本类型判别模型的参数，使得文本类型判别模型能够不断优化，使用验证集对文本类型判别模型进行评估可以及时发现文本类型判别模型的问题，从而调整文本类型判别模型的结构和参数，提高了文本类型判别模型的泛化能力和准确性。

在本申请一实施例中，所述卷积池化模块包括一个卷积层、一个池化层和一个批量归一化层（即BN层），其中卷积层的卷积核大小为5×5，池化层的滑动窗口的大小为2×2。

通过卷积核大小5×5的卷积层可以捕捉到更大范围的特征，将池化层的滑动窗口设置为2×2可以有效地减少特征图的尺寸，同时保留主要特征信息。

在本申请一实施例中，所述全连接模块的包括四个全连接层，所述四个全连接层的神经元个数分别为1024，256，64和2。

通过四个全连接层将卷积池化模块提取到的高维特征进行非线性映射和组合，每个全连接层都可以将前一层的输出进行更高层次的抽象表示，从而逐步提取和组合更加抽象的文本特征，不仅提高了文本类型判别模型的表征能力和文本识别的准确性，还提高了模型对文本特征的多样性和丰富性。

在本申请一实施例中，所述池化模块包括3个滑动窗口为2×2的池化层，使特征图对平移具有一定的不变性，并对特征图中的局部特征进行统计，有助于提高模型对图像特征的表征能力。

如图3所示，在本申请一实施例中，所述二值化处理具体包括：

可以理解的，第一色彩和第二色彩为两种不同的颜色，本申请并不对色彩做具体限制。使用DBNet算法对PDF文档进行文字检测得到多个文本的位置，每个文本位置的矩形框有四个坐标表示，即（[x1，y1]，[x2，y2]，[x3，y3]，[x4，y4]），其中x1、x2、x3和x4分别表示矩形框四个坐标的横坐标，y1、y2、y3和y4分别表示矩形框四个坐标的纵坐标，对于待判别的文本在文本图片上划分为一个矩形区域，其区域内颜色为第二色彩，对于剩余的文本根据其坐标分别划分为一个区域，其区域为第二色彩边框，边框内部仍为第一色彩。

如图4所示，在本申请一实施例中，所述配对模型包括图像信息处理模块、位置信息模块、注意力模块和相似度计算模块，步骤S7具体包括：

在本申请实施例中，将key类型文本的二值图输入至图像信息处理模块进行卷积池化处理提取出图像的特征信息，减少图像数据的维度并保留重要的特征，将value类型文本的位置信息输入至位置信息模块进行拼接处理，通过将文本类型与位置信息相结合，综合考虑文本的语义信息和空间位置信息，根据图像特征和文本类型的综合信息计算出各个部分的注意力权重，使得文本类型判别模型能够关注到最重要的信息，提高了文本配对的准确性和鲁棒性，根据注意力权重计算出文本图像与文本类型之间的相似度，根据预设的阈值进行自动化的配对决策，提高了配对的准确性和可靠性，减少了人工干预的需要。

在本申请一实施例中，预设阈值为0.8，当配对值小于0.8时，则文本类型不能配对；当配对值大于0.8时将文本类型进行配对。

在本申请一实施例中，文本类型包括key和value，当配对值大于预设阈值，则将key和value进行配对，当有多个大于阈值的value，取配对值最大的value进行配对。

在本申请一实施例中，步骤S73具体包括：

Q_b= M_i×W_i；

Mw=softmax(M_b×Q_b)；

A_tt= M_A× (1- M_w)×M_b+M_w×M_b；

其中，M_A表示权重矩阵。

可以理解的，在配对模型学习训练过程中，先注意力学习权重M_A进行初始化，并能够根据训练情况发生变化。门控矩阵M_w融合了待识别文本的key类型文本的二值图和value类型文本的位置信息，利用上述公式进行计算得到注意力权重A_tt。

在本申请实施例中，通过综合考虑图像特征和文本类型的信息并对图像特征的进一步提取和加权，突出图像中的关键信息，并利用加权处理和计算注意力权重A_tt，实现了动态调整文本类型的注意力分布，提高了文本配对的准确性和鲁棒性。

在本申请一实施例中，步骤S74中配对值的计算公式如下：

simi= CosSim(A_tt, M_bn)

在本申请一实施例中，可以使用Python中的json库来构建JSON字符串，将配对的文本以键值对的形式组织在JSON对象中，将组装好的JSON字符串输出到文件或其他目标位置以得到PDF文档录入的内容。

本发明提供了一种PDF文档录入系统，采用如上述所述的文档录入方法，包括：

数据集模块，其配置为使用DBNet算法对PDF文档进行文字检测，确定PDF文档中文本的初始位置信息，根据文本的初始位置信息对文本信息进行图片截取，得到文本图像，建立文本图像数据集；

在本申请实施例中，PDF文档录入系统可以自动对PDF文档中的文本进行识别和录入，大大减少了手动录入的工作量，提高了效率。通过使用DBNet算法和卷积神经网络构建文本类型判别模型，实现对PDF文档中文本的准确识别，提高了录入的准确性；根据文本的初始位置信息建立文本图像数据集和二值图数据集，为模型训练提供了丰富的数据资源；配对模块通过配对模型将key类型文本的二值图和value类型文本的位置信息输入进行文本配对，从而建立文本的配对关系，使得录入的内容更加有条理和完整；文档录入模块可以根据文本的配对关系按照json字符串格式进行组装并输出，使得输出的内容格式灵活多样，适应不同的需求。

本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现如上述所述的文档录入方法。

本发明提供了一种电子设备，包括：至少一个处理器、一个存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调佣所述程序指令，以实现如上述所述的文档录入方法。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种PDF文档录入方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种PDF文档录入方法，其特征在于，所述配对模型包括图像信息处理模块、位置信息模块、注意力模块和相似度计算模块，步骤S7具体包括：

3.如权利要求2所述的一种PDF文档录入方法，其特征在于，步骤S73具体包括：

Q_b= M_i×W_i；

M_w=softmax(M_b×Q_b)；

A_tt= M_A× (1- M_w)×M_b+M_w×M_b；

其中，M_A表示权重矩阵。

4.如权利要求2所述的一种PDF文档录入方法，其特征在于，步骤S74中配对值的计算公式如下：

simi= CosSim(A_tt, M_bn)

5.如权利要求1所述的一种PDF文档录入方法，其特征在于，步骤S4中文本类型判别模型以AlexNet为基础，包括三组卷积池化模块、一组池化模块和一组全连接模块，步骤S4具体包括：

6.如权利要求5所述的一种PDF文档录入方法，其特征在于，所述卷积池化模块包括一个卷积层、一个池化层和一个批量归一化层，其中卷积层的卷积核大小为5×5，池化层的滑动窗口的大小为2×2。

7.如权利要求1所述的一种PDF文档录入方法，其特征在于，所述二值化处理具体包括：

在文本图片上将待判别的文本划分为第二色彩区域块，将剩余文本划分为第二色彩边框，得到文本位置信息的二值图。

8.一种PDF文档录入系统，其特征在于，采用如权利要求1-7任一项所述的文档录入方法，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现如权利要求1-7任一项所述的文档录入方法。

10.一种电子设备，其特征在于，包括：至少一个处理器、一个存储器、通信接口和总线；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调佣所述程序指令，以实现如权利要求1-7任一项所述的文档录入方法。