CN117593752A - 一种pdf文档录入方法、系统、存储介质及电子设备 - Google Patents
一种pdf文档录入方法、系统、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117593752A CN117593752A CN202410072781.9A CN202410072781A CN117593752A CN 117593752 A CN117593752 A CN 117593752A CN 202410072781 A CN202410072781 A CN 202410072781A CN 117593752 A CN117593752 A CN 117593752A
- Authority
- CN
- China
- Prior art keywords
- text
- position information
- pdf document
- type
- pairing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 102100032202 Cornulin Human genes 0.000 claims abstract description 7
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 52
- 238000011176 pooling Methods 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 9
- 230000010365 information processing Effects 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19153—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation using rules for classification or partitioning the feature space
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明提出了一种PDF文档录入方法、系统、存储介质及电子设备,属于文档识别领域,方法包括:S1、对PDF文档进行文字检测,建立文本图像数据集;S2、将文本图像数据集输入至CRNN模型中进行文字识别;S3、对识别文本集分别进行二值化处理;S4、构建文本类型判别模型,对文本类型判别模型进行训练;S5、获取待录入PDF文档中文本的初始位置信息;S6、确定待识别文本,并进行二值化处理,输入至训练好的文本类型判别模型,确定文本类型;S7、构建配对模型,将key类型文本的二值图和value类型文本的位置信息进行文本配对;S8、根据配对关系按照json字符串格式进行组装并输出,得到PDF文档录入的内容。
Description
技术领域
本发明涉及文档识别技术领域,尤其涉及一种PDF文档录入方法、系统、存储介质及电子设备。
背景技术
在汽车经销商日常业务中,识别各保险公司的电子保单是一项关键任务。然而,不同保险公司的电子保单格式各异,表格内容长度不一,甚至存在多行内容的情况,这给信息提取带来了挑战。为了解决这些问题,将PDF文件上传和并使用PDF文档行扫描和内容提取是一种高效获取文档内容的途径。
现有的PDF文档扫描通过文件上传技术,通过PDF文档行扫描和内容提取技术,但是针对表格中内容跨越多行的情况,无法智能地识别并合并同一单元格中的多行内容,并且无法将PDF文档中的表格内容转换成可编辑的文本,容易在文档识别后出现数据格式混乱,导致文档识别后识别内容无法分析利用的情况。
因此,寻找一种既能够准确识别PDF文档中的内容,又能对识别到的数据进行结构化整理以便于数据分析的文档录入方法,是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明提出了一种PDF文档录入方法、系统、存储介质和电子设备,其使用DBNet算法进行文字检测和文本位置信息可以准确地定位PDF文档中的文本信息,使用文本类型判别模型对文本信息识别并使用配对模型进行文本特征配对,提高文本录入的准确性和效率。
本发明的技术方案是这样实现的:
第一方面,本发明提供了一种PDF文档录入方法,包括以下步骤:
S1、使用DBNet算法对PDF文档进行文字检测,确定PDF文档中文本的初始位置信息,根据文本的初始位置信息对文本信息进行图片截取,得到文本图像,建立文本图像数据集;
S2、将文本图像数据集输入至CRNN模型中进行文字识别,得到识别文本集;
S3、根据初始位置信息对识别文本集分别进行二值化处理,得到文本位置信息的二值图数据集;
S4、使用卷积神经网络构建文本类型判别模型,采用文本位置信息的二值图数据集对文本类型判别模型进行训练,得到训练好的文本类型判别模型;
S5、获取待录入PDF文档中文本的初始位置信息,根据文本的初始位置信息进行图片截取得到待识别文本图像;
S6、根据待识别文本图像确定待识别文本,并对待识别文本进行二值化处理得到待识别文本位置信息的二值图,将待识别文本位置信息的二值图输入至训练好的文本类型判别模型,确定文本类型;其中文本类型包括key类型文本和value类型文本;
S7、构建配对模型,将key类型文本的二值图和value类型文本的位置信息输入至配对模型进行文本配对,得到文本的配对关系;
S8、根据文本的配对关系按照json字符串格式进行组装并输出,得到PDF文档录入的内容。
在以上技术方案的基础上,优选的,所述配对模型包括图像信息处理模块、位置信息模块、注意力模块和相似度计算模块,步骤S7具体包括:
S71、将key类型文本的二值图输入至图像信息处理模块进行卷积池化处理,得到第一矩阵Mi;
S72、将value类型文本的位置信息输入至位置信息模块进行拼接处理,得到第二矩阵Mb;
S73、将第一矩阵Mi和第二矩阵Mb输入至注意力模块进行权重计算,得到注意力权重Att;
S74、将注意力权重Att和value类型文本的位置信息Mbn输入至相似度计算模块进行余弦相似度计算,得到配对值;
S75、将配对值与预设阈值进行比较,若配对值大于预设阈值,则可以将文本类型进行配对,得到文本的配对关系。
在以上技术方案的基础上,优选的,步骤S73具体包括:
将第一矩阵Mi输入至注意力模块,将第一矩阵Mi与权重矩阵Wi相乘,得到状态矩阵Qb,状态矩阵Qb的计算公式如下:
Qb= Mi×Wi;
将第二矩阵Mb输入至注意力模块,将状态矩阵Qb与第二矩阵Mb通过并softmax函数计算得到门控矩阵Mw,门控矩阵Mw的计算公式如下:
Mw=softmax(Mb×Qb);
将第二矩阵Mb与门控矩阵Mw进行注意力处理,得到注意力权重Att,注意力权重Att的计算公式如下:
Att= MA×(1- Mw)×Mb+Mw×Mb;
其中,MA表示权重矩阵。
在以上技术方案的基础上,优选的,步骤S74中配对值的计算公式如下:
simi= CosSim(Att, Mbn)
其中,simi表示配对值,CosSim表示余弦相似度函数,Mbn表示value类型文本的位置信息。
更进一步优选的,步骤S4中文本类型判别模型以AlexNet为基础,包括三组卷积池化模块、一组池化模块和一组全连接模块,步骤S4具体包括:
S41、文本位置信息的二值图数据集的训练集输入依次输入至三组卷积池化模块进行特征提取,得到第一特征;所述文本位置信息的二值图数据集包括训练集和验证集;
S42、将第一特征输入至池化模块进行池化操作,得到第二特征;
S43、将第二特征输入至全连接模块进行组合和加权,得到文本图像中的文本特征;
S44、根据文本图像中的文本特征利用反向传播算法更新文本类型判别模型的参数,在每个训练周期结束后,使用文本位置信息的二值图数据集的验证集对模型进行评估,得到训练好的文本类型判别模型。
在以上技术方案的基础上,优选的,所述卷积池化模块包括一个卷积层、一个池化层和一个批量归一化层,其中卷积层的卷积核大小为5×5,池化层的滑动窗口的大小为2×2。
在以上技术方案的基础上,优选的,所述二值化处理具体包括:
根据文本的初始位置信息分别确定PDF文档中单个文本的位置,并生成文本图片;其中文本图片的底色为第一色彩;
在文本图片上将待判别的文本划分为第二色彩区域块,将剩余文本划分为第二色彩边框,得到文本框文本的二值图。
第二方面,本发明提供了一种PDF文档录入系统,采用如上述所述的文档录入方法,包括:
数据集模块,其配置为使用DBNet算法对PDF文档进行文字检测,确定PDF文档中文本的初始位置信息,根据文本的初始位置信息将文本信息进行图片截取,得到文本图像,建立文本图像数据集;
文本识别模块,其配置为将文本图像输入至CRNN模型中进行文字识别,得到识别文本集;
二值化处理模块,其配置为根据初始位置信息对识别文本集分别进行二值化处理,得到文本位置信息的二值图数据集;
模型训练模块,其配置为使用卷积神经网络构建文本类型判别模型,采用文本位置信息的二值图数据集对文本类型判别模型进行训练,得到训练好的文本类型判别模型;
文本识别模块,其配置为获取待录入PDF文档中文本的初始位置信息,根据文本的初始位置信息进行图片截取得到待识别文本图像,根据待识别文本图像确定待识别文本,并对待识别文本进行二值化处理得到待识别文本位置信息的二值图,将待识别文本位置信息的二值图输入至训练好的文本类型判别模型,确定文本类型;其中文本类型包括key类型文本和value类型文本;
配对模块,其配置为将key类型文本的二值图和value类型文本的位置信息输入至配对模型进行文本配对,得到文本的配对关系;
文档录入模块,其配置为根据文本的配对关系按照json字符串格式进行组装并输出,得到PDF文档录入的内容。
第三方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现如上述所述的文档录入方法。
第四方面,本发明提供了一种电子设备,包括:至少一个处理器、一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调佣所述程序指令,以实现如上述所述的文档录入方法。
本发明的PDF文档录入方法相对于现有技术具有以下有益效果:
(1)通过对PDF文档进行文字检测和二值化处理得到文本位置信息的二值图数据集,并使用二值图数据集对文本类型判别模型进行训练,提高文本录入的准确性和速度,根据配对模型对文本识别类型和待识别文本图像的二值图进行智能配对,从而建立文本的配对关系,使得录入的内容更加有条理和完整,提高文本录入的准确性和效率;
(2)通过将key类型文本的二值图输入至图像信息处理模块进行卷积池化处理提取出图像的特征信息,将value类型文本的位置信息输入至位置信息模块进行拼接处理,并将文本类型与位置信息相结合,根据注意力权重计算出文本图像与文本类型之间的相似度,根据预设的阈值进行自动化的配对决策,提高了配对的准确性和可靠性,减少了人工干预的失误;
(3)通过三组卷积池化模块对文本图像的二值图提取图像特征的多层次信息,并使用池化操作减少特征的维度,利用全连接模块学习特征之间的关联和权重,实现特征的非线性组合,提高了文本识别的准确性和鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的PDF文档录入方法的流程图;
图2为本发明的PDF文档录入方法的文本类型判别模型的框图;
图3为本发明的PDF文档录入方法的二值图的示例图;
图4为本发明的PDF文档录入方法的配对模型框图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,本发明提供了一种PDF文档录入方法,包括以下步骤:
S1、使用DBNet算法对PDF文档进行文字检测,确定PDF文档中文本的初始位置信息,根据文本的初始位置信息对文本信息进行图片截取,得到文本图像,建立文本图像数据集;
S2、将文本图像数据集输入至CRNN模型中进行文字识别,得到识别文本集;
S3、根据初始位置信息对识别文本集分别进行二值化处理,得到文本位置信息的二值图数据集;
S4、使用卷积神经网络构建文本类型判别模型,采用文本位置信息的二值图数据集对文本类型判别模型进行训练,得到训练好的文本类型判别模型;
S5、获取待录入PDF文档中文本的初始位置信息,根据文本的初始位置信息进行图片截取得到待识别文本图像;
S6、根据待识别文本图像确定待识别文本,并对待识别文本进行二值化处理得到待识别文本位置信息的二值图,将待识别文本位置信息的二值图输入至训练好的文本类型判别模型,确定文本类型;其中文本类型包括key类型文本和value类型文本;
S7、构建配对模型,将key类型文本的二值图和value类型文本的位置信息输入至配对模型进行文本配对,得到文本的配对关系;
S8、根据文本的配对关系按照json字符串格式进行组装并输出,得到PDF文档录入的内容。
在本申请实施例中,使用DBNet算法进行文字检测和文本位置信息可以准确地定位PDF文档中的文本信息,根据PDF文档中的文本信息对文本的自动化识别和截取,提高文本录入的准确性和效率,同时为后续步骤建立了文本图像数据集,为模型训练提供了丰富的数据资源。对文本图像进行二值化处理以凸显文本的轮廓和特征,根据二值图数据集训练出准确且高效的文本类型判别模型,提高文本录入的准确性和速度,根据文本识别类型和待识别文本图像的二值图进行智能配对,从而建立文本的配对关系,使得录入的内容更加有条理和完整,根据文本的配对关系按照JSON字符串格式进行组装并输出实现了对文本录入内容的格式化输出,使得输出的内容格式灵活多样,适应不同的需求,同时为后续的文本处理和应用提供了便利。
如图2所示,在本申请一实施例中,步骤S4中文本类型判别模型以AlexNet为基础,包括三组卷积池化模块、一组池化模块和一组全连接模块,步骤S4具体包括:
S41、文本位置信息的二值图数据集的训练集输入依次输入至三组卷积池化模块进行特征提取,得到第一特征;所述文本位置信息的二值图数据集包括训练集和验证集;
S42、将第一特征输入至池化模块进行池化操作,得到第二特征;
S43、将第二特征输入至全连接模块进行组合和加权,得到文本图像中的文本特征;
S44、根据文本图像中的文本特征利用反向传播算法更新文本类型判别模型的参数,在每个训练周期结束后,使用文本位置信息的二值图数据集的验证集对模型进行评估,得到训练好的文本类型判别模型。
在本申请实施例中,通过三组卷积池化模块提取图像特征的多层次信息,包括边缘、纹理、形状等,增强文本类型判别模型对文本图像的表征能力,提高了文本识别的准确性;通过池化操作可以减少特征的维度,降低了后续全连接模块的计算复杂度,同时保留主要的特征信息并减少了特征的冗余提高了模型的训练和推理效率;通过全连接模块学习特征之间的关联和权重,实现特征的非线性组合,提高了文本识别的准确性和鲁棒性;通过反向传播算法可以更新文本类型判别模型的参数,使得文本类型判别模型能够不断优化,使用验证集对文本类型判别模型进行评估可以及时发现文本类型判别模型的问题,从而调整文本类型判别模型的结构和参数,提高了文本类型判别模型的泛化能力和准确性。
在本申请一实施例中,所述卷积池化模块包括一个卷积层、一个池化层和一个批量归一化层(即BN层),其中卷积层的卷积核大小为5×5,池化层的滑动窗口的大小为2×2。
通过卷积核大小5×5的卷积层可以捕捉到更大范围的特征,将池化层的滑动窗口设置为2×2可以有效地减少特征图的尺寸,同时保留主要特征信息。
在本申请一实施例中,所述全连接模块的包括四个全连接层,所述四个全连接层的神经元个数分别为1024,256,64和2。
通过四个全连接层将卷积池化模块提取到的高维特征进行非线性映射和组合,每个全连接层都可以将前一层的输出进行更高层次的抽象表示,从而逐步提取和组合更加抽象的文本特征,不仅提高了文本类型判别模型的表征能力和文本识别的准确性,还提高了模型对文本特征的多样性和丰富性。
在本申请一实施例中,所述池化模块包括3个滑动窗口为2×2的池化层,使特征图对平移具有一定的不变性,并对特征图中的局部特征进行统计,有助于提高模型对图像特征的表征能力。
如图3所示,在本申请一实施例中,所述二值化处理具体包括:
根据文本的初始位置信息分别确定PDF文档中单个文本的位置,并生成文本图片;其中文本图片的底色为第一色彩;
在文本图片上将待判别的文本划分为第二色彩区域块,将剩余文本划分为第二色彩边框,得到文本框文本的二值图。
可以理解的,第一色彩和第二色彩为两种不同的颜色,本申请并不对色彩做具体限制。使用DBNet算法对PDF文档进行文字检测得到多个文本的位置,每个文本位置的矩形框有四个坐标表示,即([x1,y1],[x2,y2],[x3,y3],[x4,y4]),其中x1、x2、x3和x4分别表示矩形框四个坐标的横坐标,y1、y2、y3和y4分别表示矩形框四个坐标的纵坐标,对于待判别的文本在文本图片上划分为一个矩形区域,其区域内颜色为第二色彩,对于剩余的文本根据其坐标分别划分为一个区域,其区域为第二色彩边框,边框内部仍为第一色彩。
如图4所示,在本申请一实施例中,所述配对模型包括图像信息处理模块、位置信息模块、注意力模块和相似度计算模块,步骤S7具体包括:
S71、将key类型文本的二值图输入至图像信息处理模块进行卷积池化处理,得到第一矩阵Mi;
S72、将value类型文本的位置信息输入至位置信息模块进行拼接处理,得到第二矩阵Mb;
S73、将第一矩阵Mi和第二矩阵Mb输入至注意力模块进行权重计算,得到注意力权重Att;
S74、将注意力权重Att和value类型文本的位置信息Mbn输入至相似度计算模块进行余弦相似度计算,得到配对值;
S75、将配对值与预设阈值进行比较,若配对值大于预设阈值,则可以将文本类型进行配对,得到文本的配对关系。
在本申请实施例中,将key类型文本的二值图输入至图像信息处理模块进行卷积池化处理提取出图像的特征信息,减少图像数据的维度并保留重要的特征,将value类型文本的位置信息输入至位置信息模块进行拼接处理,通过将文本类型与位置信息相结合,综合考虑文本的语义信息和空间位置信息,根据图像特征和文本类型的综合信息计算出各个部分的注意力权重,使得文本类型判别模型能够关注到最重要的信息,提高了文本配对的准确性和鲁棒性,根据注意力权重计算出文本图像与文本类型之间的相似度,根据预设的阈值进行自动化的配对决策,提高了配对的准确性和可靠性,减少了人工干预的需要。
在本申请一实施例中,预设阈值为0.8,当配对值小于0.8时,则文本类型不能配对;当配对值大于0.8时将文本类型进行配对。
在本申请一实施例中,文本类型包括key和value,当配对值大于预设阈值,则将key和value进行配对,当有多个大于阈值的value,取配对值最大的value进行配对。
在本申请一实施例中,步骤S73具体包括:
将第一矩阵Mi输入至注意力模块,将第一矩阵Mi与权重矩阵Wi相乘,得到状态矩阵Qb,状态矩阵Qb的计算公式如下:
Qb= Mi×Wi;
将第二矩阵Mb输入至注意力模块,将状态矩阵Qb与第二矩阵Mb通过并softmax函数计算得到门控矩阵Mw,门控矩阵Mw的计算公式如下:
Mw=softmax(Mb×Qb);
将第二矩阵Mb与门控矩阵Mw进行注意力处理,得到注意力权重Att,注意力权重Att的计算公式如下:
Att= MA× (1- Mw)×Mb+Mw×Mb;
其中,MA表示权重矩阵。
可以理解的,在配对模型学习训练过程中,先注意力学习权重MA进行初始化,并能够根据训练情况发生变化。门控矩阵Mw融合了待识别文本的key类型文本的二值图和value类型文本的位置信息,利用上述公式进行计算得到注意力权重Att。
在本申请实施例中,通过综合考虑图像特征和文本类型的信息并对图像特征的进一步提取和加权,突出图像中的关键信息,并利用加权处理和计算注意力权重Att,实现了动态调整文本类型的注意力分布,提高了文本配对的准确性和鲁棒性。
在本申请一实施例中,步骤S74中配对值的计算公式如下:
simi= CosSim(Att, Mbn)
其中,simi表示配对值,CosSim表示余弦相似度函数,Mbn表示value类型文本的位置信息。
在本申请一实施例中,可以使用Python中的json库来构建JSON字符串,将配对的文本以键值对的形式组织在JSON对象中,将组装好的JSON字符串输出到文件或其他目标位置以得到PDF文档录入的内容。
本发明提供了一种PDF文档录入系统,采用如上述所述的文档录入方法,包括:
数据集模块,其配置为使用DBNet算法对PDF文档进行文字检测,确定PDF文档中文本的初始位置信息,根据文本的初始位置信息对文本信息进行图片截取,得到文本图像,建立文本图像数据集;
文本识别模块,其配置为将文本图像输入至CRNN模型中进行文字识别,得到识别文本集;
二值化处理模块,其配置为根据初始位置信息对识别文本集分别进行二值化处理,得到文本位置信息的二值图数据集;
模型训练模块,其配置为使用卷积神经网络构建文本类型判别模型,采用文本位置信息的二值图数据集对文本类型判别模型进行训练,得到训练好的文本类型判别模型;
文本识别模块,其配置为获取待录入PDF文档中文本的初始位置信息,根据文本的初始位置信息进行图片截取得到待识别文本图像,根据待识别文本图像确定待识别文本,并对待识别文本进行二值化处理得到待识别文本位置信息的二值图,将待识别文本位置信息的二值图输入至训练好的文本类型判别模型,确定文本类型;其中文本类型包括key类型文本和value类型文本;
配对模块,其配置为将key类型文本的二值图和value类型文本的位置信息输入至配对模型进行文本配对,得到文本的配对关系;
文档录入模块,其配置为根据文本的配对关系按照json字符串格式进行组装并输出,得到PDF文档录入的内容。
在本申请实施例中,PDF文档录入系统可以自动对PDF文档中的文本进行识别和录入,大大减少了手动录入的工作量,提高了效率。通过使用DBNet算法和卷积神经网络构建文本类型判别模型,实现对PDF文档中文本的准确识别,提高了录入的准确性;根据文本的初始位置信息建立文本图像数据集和二值图数据集,为模型训练提供了丰富的数据资源;配对模块通过配对模型将key类型文本的二值图和value类型文本的位置信息输入进行文本配对,从而建立文本的配对关系,使得录入的内容更加有条理和完整;文档录入模块可以根据文本的配对关系按照json字符串格式进行组装并输出,使得输出的内容格式灵活多样,适应不同的需求。
本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现如上述所述的文档录入方法。
本发明提供了一种电子设备,包括:至少一个处理器、一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调佣所述程序指令,以实现如上述所述的文档录入方法。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种PDF文档录入方法,其特征在于,包括以下步骤:
S1、使用DBNet算法对PDF文档进行文字检测,确定PDF文档中文本的初始位置信息,根据文本的初始位置信息对文本信息进行图片截取,得到文本图像,建立文本图像数据集;
S2、将文本图像数据集输入至CRNN模型中进行文字识别,得到识别文本集;
S3、根据初始位置信息对识别文本集分别进行二值化处理,得到文本位置信息的二值图数据集;
S4、使用卷积神经网络构建文本类型判别模型,采用文本位置信息的二值图数据集对文本类型判别模型进行训练,得到训练好的文本类型判别模型;
S5、获取待录入PDF文档中文本的初始位置信息,根据文本的初始位置信息进行图片截取得到待识别文本图像;
S6、根据待识别文本图像确定待识别文本,并对待识别文本进行二值化处理得到待识别文本位置信息的二值图,将待识别文本位置信息的二值图输入至训练好的文本类型判别模型,确定文本类型;其中文本类型包括key类型文本和value类型文本;
S7、构建配对模型,将key类型文本的二值图和value类型文本的位置信息输入至配对模型进行文本配对,得到文本的配对关系;
S8、根据文本的配对关系按照json字符串格式进行组装并输出,得到PDF文档录入的内容。
2.如权利要求1所述的一种PDF文档录入方法,其特征在于,所述配对模型包括图像信息处理模块、位置信息模块、注意力模块和相似度计算模块,步骤S7具体包括:
S71、将key类型文本的二值图输入至图像信息处理模块进行卷积池化处理,得到第一矩阵Mi;
S72、将value类型文本的位置信息输入至位置信息模块进行拼接处理,得到第二矩阵Mb;
S73、将第一矩阵Mi和第二矩阵Mb输入至注意力模块进行权重计算,得到注意力权重Att;
S74、将注意力权重Att和value类型文本的位置信息Mbn输入至相似度计算模块进行余弦相似度计算,得到配对值;
S75、将配对值与预设阈值进行比较,若配对值大于预设阈值,则可以将文本类型进行配对,得到文本的配对关系。
3.如权利要求2所述的一种PDF文档录入方法,其特征在于,步骤S73具体包括:
将第一矩阵Mi输入至注意力模块,将第一矩阵Mi与权重矩阵Wi相乘,得到状态矩阵Qb,状态矩阵Qb的计算公式如下:
Qb= Mi×Wi;
将第二矩阵Mb输入至注意力模块,将状态矩阵Qb与第二矩阵Mb通过并softmax函数计算得到门控矩阵Mw,门控矩阵Mw的计算公式如下:
Mw=softmax(Mb×Qb);
将第二矩阵Mb与门控矩阵Mw进行注意力处理,得到注意力权重Att,注意力权重Att的计算公式如下:
Att= MA× (1- Mw)×Mb+Mw×Mb;
其中,MA表示权重矩阵。
4.如权利要求2所述的一种PDF文档录入方法,其特征在于,步骤S74中配对值的计算公式如下:
simi= CosSim(Att, Mbn)
其中,simi表示配对值,CosSim表示余弦相似度函数,Mbn表示value类型文本的位置信息。
5.如权利要求1所述的一种PDF文档录入方法,其特征在于,步骤S4中文本类型判别模型以AlexNet为基础,包括三组卷积池化模块、一组池化模块和一组全连接模块,步骤S4具体包括:
S41、文本位置信息的二值图数据集的训练集输入依次输入至三组卷积池化模块进行特征提取,得到第一特征;所述文本位置信息的二值图数据集包括训练集和验证集;
S42、将第一特征输入至池化模块进行池化操作,得到第二特征;
S43、将第二特征输入至全连接模块进行组合和加权,得到文本图像中的文本特征;
S44、根据文本图像中的文本特征利用反向传播算法更新文本类型判别模型的参数,在每个训练周期结束后,使用文本位置信息的二值图数据集的验证集对模型进行评估,得到训练好的文本类型判别模型。
6.如权利要求5所述的一种PDF文档录入方法,其特征在于,所述卷积池化模块包括一个卷积层、一个池化层和一个批量归一化层,其中卷积层的卷积核大小为5×5,池化层的滑动窗口的大小为2×2。
7.如权利要求1所述的一种PDF文档录入方法,其特征在于,所述二值化处理具体包括:
根据文本的初始位置信息分别确定PDF文档中单个文本的位置,并生成文本图片;其中文本图片的底色为第一色彩;
在文本图片上将待判别的文本划分为第二色彩区域块,将剩余文本划分为第二色彩边框,得到文本位置信息的二值图。
8.一种PDF文档录入系统,其特征在于,采用如权利要求1-7任一项所述的文档录入方法,包括:
数据集模块,其配置为使用DBNet算法对PDF文档进行文字检测,确定PDF文档中文本的初始位置信息,根据文本的初始位置信息对文本信息进行图片截取,得到文本图像,建立文本图像数据集;
文本识别模块,其配置为将文本图像输入至CRNN模型中进行文字识别,得到识别文本集;
二值化处理模块,其配置为根据初始位置信息对识别文本集分别进行二值化处理,得到文本位置信息的二值图数据集;
模型训练模块,其配置为使用卷积神经网络构建文本类型判别模型,采用文本位置信息的二值图数据集对文本类型判别模型进行训练,得到训练好的文本类型判别模型;
文本识别模块,其配置为获取待录入PDF文档中文本的初始位置信息,根据文本的初始位置信息进行图片截取得到待识别文本图像,根据待识别文本图像确定待识别文本,并对待识别文本进行二值化处理得到待识别文本位置信息的二值图,将待识别文本位置信息的二值图输入至训练好的文本类型判别模型,确定文本类型;其中文本类型包括key类型文本和value类型文本;
配对模块,其配置为将key类型文本的二值图和value类型文本的位置信息输入至配对模型进行文本配对,得到文本的配对关系;
文档录入模块,其配置为根据文本的配对关系按照json字符串格式进行组装并输出,得到PDF文档录入的内容。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现如权利要求1-7任一项所述的文档录入方法。
10.一种电子设备,其特征在于,包括:至少一个处理器、一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调佣所述程序指令,以实现如权利要求1-7任一项所述的文档录入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410072781.9A CN117593752B (zh) | 2024-01-18 | 2024-01-18 | 一种pdf文档录入方法、系统、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410072781.9A CN117593752B (zh) | 2024-01-18 | 2024-01-18 | 一种pdf文档录入方法、系统、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117593752A true CN117593752A (zh) | 2024-02-23 |
CN117593752B CN117593752B (zh) | 2024-04-09 |
Family
ID=89915421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410072781.9A Active CN117593752B (zh) | 2024-01-18 | 2024-01-18 | 一种pdf文档录入方法、系统、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593752B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117912027A (zh) * | 2024-03-18 | 2024-04-19 | 山东大学 | 一种适用于rpa流程自动化的智能识别方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062874A (zh) * | 2018-06-12 | 2018-12-21 | 平安科技(深圳)有限公司 | 财政数据的获取方法、终端设备及介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110807309A (zh) * | 2018-08-01 | 2020-02-18 | 珠海金山办公软件有限公司 | 一种pdf文档的内容类型识别方法、装置及电子设备 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN112101367A (zh) * | 2020-09-15 | 2020-12-18 | 杭州睿琪软件有限公司 | 文本识别方法、图像识别分类方法、文档识别处理方法 |
CN112464781A (zh) * | 2020-11-24 | 2021-03-09 | 厦门理工学院 | 基于图神经网络的文档图像关键信息提取及匹配方法 |
CN113568965A (zh) * | 2021-07-29 | 2021-10-29 | 上海浦东发展银行股份有限公司 | 一种结构化信息的提取方法、装置、电子设备及存储介质 |
CN114328845A (zh) * | 2022-03-15 | 2022-04-12 | 北京译图智讯科技有限公司 | 一种文档图像关键信息自动结构化方法及系统 |
CN114495144A (zh) * | 2021-12-24 | 2022-05-13 | 新奥新智科技有限公司 | 文本图像中表格key-value信息的提取方法及装置 |
CN114663904A (zh) * | 2022-04-02 | 2022-06-24 | 成都卫士通信息产业股份有限公司 | 一种pdf文档布局检测方法、装置、设备及介质 |
WO2023093014A1 (zh) * | 2021-11-24 | 2023-06-01 | 北京百度网讯科技有限公司 | 一种票据识别方法、装置、设备以及存储介质 |
CN116524527A (zh) * | 2023-03-21 | 2023-08-01 | 山东浪潮科学研究院有限公司 | 一种表格图像文本识别方法及系统 |
-
2024
- 2024-01-18 CN CN202410072781.9A patent/CN117593752B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062874A (zh) * | 2018-06-12 | 2018-12-21 | 平安科技(深圳)有限公司 | 财政数据的获取方法、终端设备及介质 |
CN110807309A (zh) * | 2018-08-01 | 2020-02-18 | 珠海金山办公软件有限公司 | 一种pdf文档的内容类型识别方法、装置及电子设备 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN112101367A (zh) * | 2020-09-15 | 2020-12-18 | 杭州睿琪软件有限公司 | 文本识别方法、图像识别分类方法、文档识别处理方法 |
CN112464781A (zh) * | 2020-11-24 | 2021-03-09 | 厦门理工学院 | 基于图神经网络的文档图像关键信息提取及匹配方法 |
CN113568965A (zh) * | 2021-07-29 | 2021-10-29 | 上海浦东发展银行股份有限公司 | 一种结构化信息的提取方法、装置、电子设备及存储介质 |
WO2023093014A1 (zh) * | 2021-11-24 | 2023-06-01 | 北京百度网讯科技有限公司 | 一种票据识别方法、装置、设备以及存储介质 |
CN114495144A (zh) * | 2021-12-24 | 2022-05-13 | 新奥新智科技有限公司 | 文本图像中表格key-value信息的提取方法及装置 |
CN114328845A (zh) * | 2022-03-15 | 2022-04-12 | 北京译图智讯科技有限公司 | 一种文档图像关键信息自动结构化方法及系统 |
CN114663904A (zh) * | 2022-04-02 | 2022-06-24 | 成都卫士通信息产业股份有限公司 | 一种pdf文档布局检测方法、装置、设备及介质 |
CN116524527A (zh) * | 2023-03-21 | 2023-08-01 | 山东浪潮科学研究院有限公司 | 一种表格图像文本识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
B. YILDIZ: "pdf2table: A method to extract table information from pdf files", PROCEEDINGS OF INDIAN INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE (IICAI), 31 December 2005 (2005-12-31), pages 1773 - 1785 * |
张鸣洲: "基于深度学习的表格识别系统设计与实现", 中国优秀硕士学位论文全文数据库 (信息科技辑), no. 5, 31 May 2022 (2022-05-31), pages 138 - 1153 * |
徐志辉: "PDF内容提取系统设计与实现", 中国优秀硕士学位论文全文数据库 (信息科技辑), no. 1, 15 January 2024 (2024-01-15), pages 138 - 1045 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117912027A (zh) * | 2024-03-18 | 2024-04-19 | 山东大学 | 一种适用于rpa流程自动化的智能识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117593752B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021077984A1 (zh) | 对象识别方法、装置、电子设备及可读存储介质 | |
CN110222140B (zh) | 一种基于对抗学习和非对称哈希的跨模态检索方法 | |
US10963632B2 (en) | Method, apparatus, device for table extraction based on a richly formatted document and medium | |
WO2022033095A1 (zh) | 一种文本区域的定位方法及装置 | |
CN117593752B (zh) | 一种pdf文档录入方法、系统、存储介质及电子设备 | |
CN111881722B (zh) | 一种跨年龄人脸识别方法、系统、装置及存储介质 | |
CN112598643A (zh) | 深度伪造图像检测及模型训练方法、装置、设备、介质 | |
CN111582044A (zh) | 基于卷积神经网络和注意力模型的人脸识别方法 | |
CN115240178A (zh) | 一种票据图像的结构化信息提取方法及系统 | |
CN115050064A (zh) | 人脸活体检测方法、装置、设备及介质 | |
WO2022035942A1 (en) | Systems and methods for machine learning-based document classification | |
CN111275694B (zh) | 一种注意力机制引导的递进式划分人体解析系统及方法 | |
CN114724156B (zh) | 表单识别方法、装置及电子设备 | |
CN114863440A (zh) | 订单数据处理方法及其装置、设备、介质、产品 | |
CN117437522B (zh) | 一种人脸识别模型训练方法、人脸识别方法及装置 | |
CN114282258A (zh) | 截屏数据脱敏方法、装置、计算机设备及存储介质 | |
CN111898544B (zh) | 文字图像匹配方法、装置和设备及计算机存储介质 | |
CN111242114B (zh) | 文字识别方法及装置 | |
US20220392243A1 (en) | Method for training text classification model, electronic device and storage medium | |
CN113159071B (zh) | 一种跨模态图像-文本关联异常检测方法 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN112149523B (zh) | 基于深度学习和并查集算法识别并抽取图片的方法及装置 | |
WO2023173546A1 (zh) | 文本识别模型的训练方法、装置、计算机设备及存储介质 | |
Blanger et al. | A face recognition library using convolutional neural networks | |
CN114117037A (zh) | 意图识别方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |