CN111259830A - 一种海外农业pdf文档内容碎片化方法及系统 - Google Patents
一种海外农业pdf文档内容碎片化方法及系统 Download PDFInfo
- Publication number
- CN111259830A CN111259830A CN202010062861.8A CN202010062861A CN111259830A CN 111259830 A CN111259830 A CN 111259830A CN 202010062861 A CN202010062861 A CN 202010062861A CN 111259830 A CN111259830 A CN 111259830A
- Authority
- CN
- China
- Prior art keywords
- pdf document
- anchor frame
- overseas
- training
- information extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 10
- 230000015654 memory Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000010885 neutral beam injection Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013467 fragmentation Methods 0.000 description 7
- 238000006062 fragmentation reaction Methods 0.000 description 7
- 230000008520 organization Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种海外农业PDF文档内容碎片化方法及系统,方法包括:获取海外农业PDF文档,将其转储为图片后输入PDF文档信息提取模型中,检测海外农业PDF文档的碎片化内容;将海外农业PDF文档的碎片化内容进行图像转储进行显示。训练模型的过程包括:获取进行人工标注信息后的PDF文档,将其转储为图片后,采样图片的图像数据根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框作为匹配锚框;标注每个匹配锚框的类别,输入卷积神经网络中进行训练,将训练好的卷积神经网络作为PDF文档信息提取模型。本发明可以在训练样本的基础上对各种不同版式的PDF文档内容进行识别、分类和标注,兼容性较好。
Description
技术领域
本发明涉及文档信息检测领域,具体涉及一种海外农业PDF文档内容碎片化方法及系统。
背景技术
随着全球数字化和信息化的发展,电子文档大量产生给人们生活带来了翻天覆地的变化,在许多领域和应用场景下也逐渐取代了纸质文档成为人们主要的阅读和处理的对象。在进行海外农业研究以及开展农业对外合作时,不同国家的国别指南、政策法规、生产贸易等文献资源是重要的参考资料,为农业“走出去”、“引进来”以及相关研究提供重要的信息支撑。此类文献资源大多是来自于海外网站的电子文档,且篇幅长,内容杂,给相关政府决策部门、科研人员以及企业用户带来极大的信息获取的障碍。因此,传统的基于整篇文档为粒度的信息单元进行检索查询、组织揭示、发布展示无法很好地满足人们对于文献查阅文献效率和精度要求,显露出诸多不足之处。因此,以碎片化文档的形式进行检索、组织、存储和展现的方式应运而生,基于碎片化文档为粒度的信息单元具有三个潜在特性:(1)实现海外农业信息资源的精准发现。用户在检索时,检索结果可以直接定位到一个碎片文档(可能是一个章节、一个图表或者一个段落),从而更加精准地发现自己需要的信息,实现有针对性的轻量化阅读;(2)为实现碎片内容的计算挖掘、动态重组做准备。碎片化以后的片段文档一方面可以作为知识计算与挖掘的语料,消除了以整篇文档进行挖掘计算颗粒度太粗而导致结果误差较大,计算结果不理想的障碍;另一方面,对碎片化文档进行组织揭示,意味着突破了传统的基于整篇文档组织揭示的方法和深度,对文献进行更加细粒度的组织,并且能够按照新的知识组织体系进行重组,形成新的文档,满足用户多元化利用的需求。(3)更加适应多元化的阅读需求。碎片化之后更方便在多个终端阅读,速度更快,解决以往PDF打开或者阅读器打开慢,多终端不便阅读的问题。
在海外农业文献资源的电子文档中,大部分是以PDF格式存储的。现有两种对PDF文档进行碎片化方法:1、人工通过工具标注标题、段落、公式、图片、表格等碎片化信息,虽然该方法能最大程度保证碎片化结果的正确性,但是因为不能脱离人工干预,在大数据的今天是很难实现的;2、通过自动化程序解析PDF内字体、字号、位置、区域部元素信息,自动拼装成标题、段落、公式、图片、表格等碎片化信息,虽然该方法能在一定程度上缓解人工干预的程度,但是由于拼接元素信息缺少通用的方法,无法兼容各种不同版式的PDF文档。
发明内容
因此,本发明提供的一种训练PDF文档信息提取模型及海外农业PDF文档内容碎片化方法及系统,克服了现有技术中不能对不同版式的PDF进行碎片化信息提取的缺陷。
第一方面,本发明实施例提供训练PDF文档信息提取模型的方法,包括如下步骤:获取进行人工标注信息后的PDF文档;将标注后的PDF文档转储为图片;采样图片的图像数据,根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;标注每个匹配锚框的类别;将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为PDF文档信息提取模型。
在一实施例中,人工标注的信息包括PDF文档中标题、段落、公式、图片及表格。
在一实施例中,所述设置预设大小与宽高比组合的锚框的步骤,包括:设置一组锚框大小s1,...sn和一组锚框宽高比r1,...rm,在每个像素中心分别生成大小和宽高比组合为(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...(sn,r1)的锚框。
在一实施例中,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框的步骤,包括:获取锚框与真实边框组成的矩阵其中NA为锚框的数量,NB为真实边框的数量,且NA≥NB;获取矩阵X中锚框与真实边界框的交并比中的最大元素;将最大元素所在行和列的元素丢弃,再确定剩余元素中的最大元素,将其所在行和列的元素丢弃,直至遍历完NA-NB个锚框;给定其中的锚框Ai,根据矩阵的第i行找到与Ai交并比最大的真实边界框Bj,当交并比大于预设阈值时,为锚框Ai分配的真实边界框Bj。
在一实施例中,每个锚框标注的标签包括:人工标注的锚框的类别及真实边界框相对锚框的偏移量。
第二方面,本发明实施例提供一种海外农业PDF文档内容碎片化方法,包括:获取优质的海外农业PDF文档;将所述海外农业PDF文档转储为图片后,输入根据本发明实施例第一方面所述的训练PDF文档信息提取模型的方法得到的PDF文档信息提取模型中,检测海外农业PDF文档的碎片化内容;将所述海外农业PDF文档的碎片化内容进行图像转储进行显示。
第三方面,本发明实施例提供一种训练PDF文档信息提取模型的系统,包括:标注信息获取模型,用于获取进行人工标注信息后的PDF文档;标注图片转储模块,用于将标注后的PDF文档转储为图片;锚框匹配模块,用于采样图片的图像数据,根据采样区域的大小与宽高比筛选数据;设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;匹配锚框标注模块,用于标注每个匹配锚框的类别模型训练模块,用于将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为PDF文档信息提取模型。。
第四方面,本发明实施例提供一种海外农业PDF文档内容碎片化系统,包括:海外农业PDF文档获取模块,用于获取海外农业PDF文档;碎片化内容获取模块,用于将所述海外农业PDF文档转储为图片后,输入根据本发明实施例第一方面所述的训练PDF文档信息提取模型的方法得到的PDF文档信息提取模型中,检测海外农业PDF文档的碎片化内容;碎片化内容图像转储模块,用于将所述海外农业PDF文档的碎片化内容进行图像转储进行显示。
第五方面,本发明实施例提供一种计算机设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的训练PDF文档信息提取模型的方法,以及本发明实施例第二方面所述的海外农业PDF文档内容碎片化方法。
第六方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,以使所述至少一个处理器执行本发明实施例第一方面所述的训练PDF文档信息提取模型的方法,以及本发明实施例第二方面所述的海外农业PDF文档内容碎片化方法。
本发明技术方案,具有如下优点:
本发明实施例提供的一种海外农业PDF文档内容碎片化方法及系统,方法包括:获取海外农业PDF文档,将其转储为图片后输入PDF文档信息提取模型中,检测海外农业PDF文档的碎片化内容;将海外农业PDF文档的碎片化内容进行图像转储进行显示。训练模型的过程包括:获取进行人工标注信息后的PDF文档,将其转储为图片后,采样图片的图像数据根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框作为匹配锚框;标注每个匹配锚框的类别,输入卷积神经网络中进行训练,将训练好的卷积神经网络作为PDF文档信息提取模型。本发明可以在训练样本的基础上对各种不同版式的PDF文档内容进行识别、分类和标注,兼容性较好。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的训练PDF文档信息提取模型的方法的一个具体示例的流程图;
图2为本发明实施例提供的人工标注的样本的示意图;
图3为本发明实施例提供的卷积神经网络模型的示意图;
图4为本发明实施例提供的海外农业PDF文档内容碎片化方法的的一个具体示例的流程图;
图5为本发明实施例提供的未标注的PDF电子文档的一个示意图;
图6为本发明实施例提供的提取的海外农业PDF文档的碎片化内容的示意图;
图7为本发明实施例提供的训练PDF文档信息提取模型的系统的一个具体示例的模块组成图;
图8为本发明实施例提供的海外农业PDF文档内容碎片化系统的一个具体示例的模块组成图;
图9为本发明实施例提供的计算机设备一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供的一种训练PDF文档信息提取模型的方法,如图1所示,该模型的训练方法,包括如下步骤:
步骤S1:获取进行人工标注信息后的PDF文档。
本发明实施例中,人工标注的信息包括PDF中标题、段落、公式、图片及表格。但是并不以此为限,在其他实施例中可以标注更多的信息,以便后续训练提取信息,如图2所示的为人工标注的大量样本,其中包括了人工标注的类别信息的内容和所属页码、页面坐标。
步骤S2:将标注后的PDF文档转储为图片。
本发明实施例将PDF每页转储图片待下一步处理。
步骤S3:采样图片的图像数据,根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框。
本实施例中,以每个图片每个像素为中心生成多个不同的边界框,称为锚框。为了避免生成的锚框过多,减少算法的复杂度,设定一组锚框大小s1,...sn和一组锚框宽高比r1,...rm,在每个像素中心分别生成大小和宽高比组合为(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...(sn,r1)的锚框,以便下一步使用。假设图像中锚框分别为A1,...An,真实边界框分别为B1,...Bn,且NA≥NB。定义矩阵其中第i行第j列的元素Xij为锚框Ai与真实边界框bj的交并比。首先,获取矩阵X中最大元素,并将该元素的行索引与列索引分别记为i1,j1,为锚框Ai1分配真实边界框Bj1,锚框Ai1和真实边界框Bj1在所有的“锚框—真实边界框”的配对中相似度最高。接下来,将矩阵X中第i1行和第j1列上的所有元素丢弃。接下来获取矩阵X中剩余的最大元素,并将该元素的行索引与列索引分别记为i2,j2,为锚框Ai2分配真实边界框Bj2,再将矩阵X中第i2行和第j2列上的所有元素丢弃。依此类推,直到矩阵X中所有NB列元素全部被丢弃。接下来,只需遍历剩余的NA-NB个锚框:给定其中的锚框Ai,根据矩阵的第i行找到与Ai交并比最大的真实边界框Bj,只有当该交并比大于预先设定的阈值时,才为锚框Ai分配真实边界框Bj。
步骤S4:标注每个匹配锚框的类别。
本发明实施例一共需要为每个锚框标注两类标签,一是已经人工标注的锚框的类别(标题、段落、公式、图片、表格),二是真实边界框相对锚框的偏移量。本实施例的偏移量是根据B和A的中心坐标的相对位置以及两个框的相对大小计算得出,仅以此举例,不以此为限。
步骤S5:将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为PDF文档信息提取模型。
本发明实施例使用卷积神经网络抽取锚框中图像特征,具体的是采用全卷积网络模型,其模块构成如图3所示。对任意的锚框,将其填充为高宽相同,标注的锚框通过与卷积核进行卷积运算,再通过最大池化层降低其对位置的敏感性,在输出使用sigmoid激活函数,保证池化窗口在输入上每次滑动所覆盖的区域互不重叠。最后通过全连接层来给出信息含量更高的锚框特征向量,通过softmax层得到每个分类的概率。再通过1×1卷积层将每个分类的概率变换为类别向量,最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸。设输入的锚框向量为X,权重矩阵为W,卷积的前向计算函数的实现可以看作将函数输入乘以权重矩阵,并输出向量Y=WX。反向传播需要依据链式法则,由于dxY=WT,卷积的反向传播函数的实现可以看作将函数输入乘以转置后的权重矩阵WT,转置卷积层交换卷积层的前向计算函数与反向传播函数:转置卷积层的这两个函数可以看作将函数输入向量分别乘以WT和W。转置卷积层可以用来交换卷积层输入和输出的形状。通过以上过程对神经网络进行训练,在全卷积网络中,最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸,从而输出每个锚框的类别。
本发明实施例提供的训练PDF文档信息提取模型的方法,获取进行人工标注信息后的PDF文档;将标注后的PDF文档转储为图片;采样图片的图像数据,根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;标注每个匹配锚框的类别;将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为PDF文档信息提取模型,减少了人工工作量,可对各种不同版式的PDF文档内容进行识别、分类和标注,兼容性较好。
实施例2
本发明实施例提供一种海外农业PDF文档内容碎片化方法,如图4所示,包括如下步骤:
步骤S21:获取海外农业PDF文档。
实际应用中,从文献数据库中遴选优质的海外农业文献资源,如英国经济学人智库(The Economist IntelliGEnce Unit,EIU)、经济合作与发展组织(Organization forEconomic Co-operation and Development,OECD)及EconPapers(全球最大的经济研究论文、期刊论文和软件资源的收藏机构)等,获取PDF电子文档如图5所示。
步骤S22:将海外农业PDF文档转储为图片后,输入根据实施例1中的训练PDF文档信息提取模型的方法得到的PDF文档信息提取模型中,检测海外农业PDF文档的碎片化内容。
步骤S23:将海外农业PDF文档的碎片化内容进行图像转储进行显示。
本发明实施例,提取的海外农业PDF文档的碎片化内容如图6所示。本发明实施例提供的方法,可以在训练样本的基础上地对整个文档内容进行识别、分类和标注,大量减少了人工工作量。
实施例3
本发明实施例提供一种训练PDF文档信息提取模型的系统,如图7所示,包括:
标注信息获取模型1,用于用于获取进行人工标注信息后的PDF文档;此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
标注图片转储模块2,用于用于将标注后的PDF文档转储为图片;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
锚框匹配模块3,用于用于采样图片的图像数据,根据采样区域的大小与宽高比筛选数据;设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
匹配锚框标注模块4,用于标注每个匹配锚框的类别。此模块执行实施例1中的步骤S4所描述的方法,在此不再赘述。
模型训练模块5,用于将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为PDF文档信息提取模型。此模块执行实施例1中的步骤S5所描述的方法,在此不再赘述。
本发明实施例提供的训练PDF文档信息提取模型的系统,获取进行人工标注信息后的PDF文档;将标注后的PDF文档转储为图片;采样图片的图像数据,根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;标注每个匹配锚框的类别;将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为PDF文档信息提取模型,减少了人工工作量,可对各种不同版式的PDF文档内容进行识别、分类和标注,兼容性较好。
实施例4
本发明实施例提供一种海外农业PDF文档内容碎片化系统,如图8所示,包括:
海外农业PDF文档获取模块21,用于获取海外农业PDF文档;此模块执行实施例2中的步骤S21所描述的方法,在此不再赘述。碎片化内容获取模块22,用于将所述海外农业PDF文档转储为图片后,输入根据实施例1中的训练PDF文档信息提取模型的方法得到的PDF文档信息提取模型中,检测海外农业PDF文档的碎片化内容。此模块执行实施例2中的步骤S22所描述的方法,在此不再赘述。
碎片化内容图像转储模块3,用于将所述海外农业PDF文档的碎片化内容进行图像转储进行显示。此模块执行实施例2中的步骤S23所描述的方法,在此不再赘述。
本发明实施例提供的系统,可以在训练样本的基础上地对整个文档内容进行识别、分类和标注,大量减少了人工工作量。
实施例5
本发明实施例提供一种计算机设备,如图9所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的训练PDF文档信息提取模型的方法或实施例2中所述的海外农业PDF文档内容碎片化方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1中的训练PDF文档信息提取模型的方法或实施例2中所述的海外农业PDF文档内容碎片化方法。其中,通信总线402可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extendedindustry standard architecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的训练PDF文档信息提取模型的方法或实施例2中所述的海外农业PDF文档内容碎片化方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1中的训练PDF文档信息提取模型的方法或实施例2中所述的海外农业PDF文档内容碎片化方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种训练PDF文档信息提取模型的方法,其特征在于,包括如下步骤:
获取进行人工标注信息后的PDF文档;
将标注后的PDF文档转储为图片;
采样图片的图像数据,根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;
标注每个匹配锚框的类别;
将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为PDF文档信息提取模型。
2.根据权利要求1所述的训练PDF文档信息提取模型的方法,其特征在于,人工标注的信息包括PDF文档中标题、段落、公式、图片及表格。
3.根据权利要求1所述的训练PDF文档信息提取模型的方法,其特征在于,所述设置预设大小与宽高比组合的锚框的步骤,包括:
设置一组锚框大小s1,...sn和一组锚框宽高比r1,...rm,在每个像素中心分别生成大小和宽高比组合为(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...(sn,r1)的锚框。
5.根据权利要求1所述的训练PDF文档信息提取模型的方法,其特征在于,每个锚框标注的标签包括:人工标注的锚框的类别及真实边界框相对锚框的偏移量。
6.一种海外农业PDF文档内容碎片化方法,其特征在于,包括:
获取海外农业PDF文档;
将所述海外农业PDF文档转储为图片后,输入根据权利要求1-5任一所述的训练PDF文档信息提取模型的方法得到的PDF文档信息提取模型中,检测海外农业PDF文档的碎片化内容;
将所述海外农业PDF文档的碎片化内容进行图像转储进行显示。
7.一种训练PDF文档信息提取模型的系统,其特征在于,包括:
标注信息获取模型,用于获取进行人工标注信息后的PDF文档;
标注图片转储模块,用于将标注后的PDF文档转储为图片;
锚框匹配模块,用于采样图片的图像数据,根据采样区域的大小与宽高比筛选数据;设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;
匹配锚框标注模块,用于标注每个匹配锚框的类别;
模型训练模块,用于将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为PDF文档信息提取模型。
8.一种海外农业PDF文档内容碎片化系统,其特征在于,包括:
海外农业PDF文档获取模块,用于获取海外农业PDF文档;
碎片化内容获取模块,用于将所述海外农业PDF文档转储为图片后,输入根据权利要求1-5任一所述的训练PDF文档信息提取模型的方法得到的PDF文档信息提取模型中,检测海外农业PDF文档的碎片化内容;
碎片化内容图像转储模块,用于将所述海外农业PDF文档的碎片化内容进行图像转储进行显示。
9.一种计算机设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-5任一所述的训练PDF文档信息提取模型的方法,以及权利要求6所述的海外农业PDF文档内容碎片化方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-5任一所述的训练PDF文档信息提取模型的方法,以及权利要求6所述的海外农业PDF文档内容碎片化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010062861.8A CN111259830A (zh) | 2020-01-19 | 2020-01-19 | 一种海外农业pdf文档内容碎片化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010062861.8A CN111259830A (zh) | 2020-01-19 | 2020-01-19 | 一种海外农业pdf文档内容碎片化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111259830A true CN111259830A (zh) | 2020-06-09 |
Family
ID=70950930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010062861.8A Pending CN111259830A (zh) | 2020-01-19 | 2020-01-19 | 一种海外农业pdf文档内容碎片化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259830A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991403A (zh) * | 2019-12-19 | 2020-04-10 | 同方知网(北京)技术有限公司 | 一种基于视觉深度学习的文档信息碎片化抽取方法 |
CN112149523A (zh) * | 2020-09-04 | 2020-12-29 | 开普云信息科技股份有限公司 | 基于深度学习和并查集算法的ocr识别并抽取图片的方法、装置、电子设备及存储介质 |
CN112560767A (zh) * | 2020-12-24 | 2021-03-26 | 南方电网深圳数字电网研究院有限公司 | 文档签名识别方法、装置及计算机可读存储介质 |
CN112800727A (zh) * | 2021-04-14 | 2021-05-14 | 北京三维天地科技股份有限公司 | 给pdf文件加批注的方法及应用系统 |
CN112800719A (zh) * | 2020-12-28 | 2021-05-14 | 北京思题科技有限公司 | 一种电子文档结构化方法 |
CN114663904A (zh) * | 2022-04-02 | 2022-06-24 | 成都卫士通信息产业股份有限公司 | 一种pdf文档布局检测方法、装置、设备及介质 |
WO2023092211A1 (pt) | 2021-11-26 | 2023-06-01 | Petróleo Brasileiro S.A. - Petrobras | Método para extração e estruturação de informações |
CN117473980A (zh) * | 2023-11-10 | 2024-01-30 | 中国医学科学院医学信息研究所 | 一种便携式文档格式文件的结构化解析方法及相关产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250385A (zh) * | 2015-06-10 | 2016-12-21 | 埃森哲环球服务有限公司 | 用于文档的自动化信息抽象处理的系统和方法 |
CN106802884A (zh) * | 2017-02-17 | 2017-06-06 | 同方知网(北京)技术有限公司 | 一种版式文档正文碎片化的方法 |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN108536683A (zh) * | 2018-04-18 | 2018-09-14 | 同方知网数字出版技术股份有限公司 | 一种基于机器学习的论文碎片化信息抽取方法 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
-
2020
- 2020-01-19 CN CN202010062861.8A patent/CN111259830A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250385A (zh) * | 2015-06-10 | 2016-12-21 | 埃森哲环球服务有限公司 | 用于文档的自动化信息抽象处理的系统和方法 |
CN106802884A (zh) * | 2017-02-17 | 2017-06-06 | 同方知网(北京)技术有限公司 | 一种版式文档正文碎片化的方法 |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN108536683A (zh) * | 2018-04-18 | 2018-09-14 | 同方知网数字出版技术股份有限公司 | 一种基于机器学习的论文碎片化信息抽取方法 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
ALEX SMOLA等: "Introduction to Deep Learning 16.Object Detection", HTTPS://WWW.CDEEP.IITB.AC.IN/SLIDES/A19/CS725/CS725-L16.PDF, pages 1 - 29 * |
MATTHIAS HANSEN等: "Data-Driven Recognition and Extraction of PDF Document Elements" * |
MATTHIAS HANSEN等: "Data-Driven Recognition and Extraction of PDF Document Elements", MDPI TECHNOLOGIES, vol. 7, no. 3, pages 1 - 19 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991403A (zh) * | 2019-12-19 | 2020-04-10 | 同方知网(北京)技术有限公司 | 一种基于视觉深度学习的文档信息碎片化抽取方法 |
CN112149523A (zh) * | 2020-09-04 | 2020-12-29 | 开普云信息科技股份有限公司 | 基于深度学习和并查集算法的ocr识别并抽取图片的方法、装置、电子设备及存储介质 |
CN112560767A (zh) * | 2020-12-24 | 2021-03-26 | 南方电网深圳数字电网研究院有限公司 | 文档签名识别方法、装置及计算机可读存储介质 |
CN112800719A (zh) * | 2020-12-28 | 2021-05-14 | 北京思题科技有限公司 | 一种电子文档结构化方法 |
CN112800727A (zh) * | 2021-04-14 | 2021-05-14 | 北京三维天地科技股份有限公司 | 给pdf文件加批注的方法及应用系统 |
WO2023092211A1 (pt) | 2021-11-26 | 2023-06-01 | Petróleo Brasileiro S.A. - Petrobras | Método para extração e estruturação de informações |
CN114663904A (zh) * | 2022-04-02 | 2022-06-24 | 成都卫士通信息产业股份有限公司 | 一种pdf文档布局检测方法、装置、设备及介质 |
CN117473980A (zh) * | 2023-11-10 | 2024-01-30 | 中国医学科学院医学信息研究所 | 一种便携式文档格式文件的结构化解析方法及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259830A (zh) | 一种海外农业pdf文档内容碎片化方法及系统 | |
US11645826B2 (en) | Generating searchable text for documents portrayed in a repository of digital images utilizing orientation and text prediction neural networks | |
US7801358B2 (en) | Methods and systems for analyzing data in media material having layout | |
US8280164B2 (en) | Producing object cutouts in topically related images | |
US8531478B2 (en) | Method of browsing photos based on people | |
CN102053991B (zh) | 用于多语言文档检索的方法及系统 | |
US20130054595A1 (en) | Automated File Name Generation | |
US9164973B2 (en) | Processing a reusable graphic in a document | |
CN110991403A (zh) | 一种基于视觉深度学习的文档信息碎片化抽取方法 | |
CN115860271A (zh) | 艺术设计用方案管理系统及其方法 | |
Cheng et al. | M6doc: A large-scale multi-format, multi-type, multi-layout, multi-language, multi-annotation category dataset for modern document layout analysis | |
Hasan et al. | Bangla font recognition using transfer learning method | |
US9672438B2 (en) | Text parsing in complex graphical images | |
Vafaie et al. | Handwritten and printed text identification in historical archival documents | |
US11687514B2 (en) | Multimodal table encoding for information retrieval systems | |
CN114996400A (zh) | 裁判文书处理方法、装置、电子设备及存储介质 | |
CN117813601A (zh) | 用于能够使得相关数据从多个文档中被提取的系统和方法 | |
Bhatia et al. | Extraction of tabular data from pdf to csv files | |
Magapu | Development and customization of in-house developed OCR and its evaluation | |
CN117710997B (zh) | Pdf文件中无线表格的还原方法、设备及存储介质 | |
CA3210419C (en) | Method and system for extracting data from tables within regulatory content | |
CN112464892B (zh) | 票据区域识别方法、装置、电子设备及可读存储介质 | |
Naik et al. | Text Recognition, Object Detection and Language Translation App | |
Xu | Cross-Media Retrieval: Methodologies and Challenges | |
Qiu et al. | Evaluation of Generative AI Q&A Chatbot Chained to Optical Character Recognition Models for Financial Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |