CN110443270A - 图表定位方法、装置、计算机设备及计算机可读存储介质 - Google Patents
图表定位方法、装置、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110443270A CN110443270A CN201910527236.3A CN201910527236A CN110443270A CN 110443270 A CN110443270 A CN 110443270A CN 201910527236 A CN201910527236 A CN 201910527236A CN 110443270 A CN110443270 A CN 110443270A
- Authority
- CN
- China
- Prior art keywords
- picture
- samples pictures
- deep learning
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000004807 localization Effects 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 122
- 238000013136 deep learning model Methods 0.000 claims abstract description 111
- 238000004590 computer program Methods 0.000 claims description 22
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种图表定位方法、装置、计算机设备及计算机可读存储介质。所述方法属于图像分类技术领域,所述方法包括:获取预存的PDF图片训练集,所述PDF图片训练集包括PDF样本图片以及所述PDF样本图片的标注结果,所述标注结果包括所述PDF样本图片的特征区域的位置信息以及特征区域的类型,所述类型包括图片以及表格;通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练;若接收到待测PDF文件,将所述待测PDF文件转换为待测PDF图片;根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果,从而无论是对于有文本还是图片转换过来的PDF文件均能够快速定位其中表格区域以及图片区域的位置,使得本申请的适用范围更广。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种图表定位方法、装置、计算机设备及计算机可读存储介质。
背景技术
PDF文件中通常会包含有图片和表格,其中图片所在区域为图片区域,表格所在区域为表格区域,在某些实际应用中,需要标记PDF图片中的图片区域以及表格区域。现有技术中,对于源文件是文本内容的PDF文件,可根据文本内容的标签知道图片或表格的位置。
然而,对于从图片转化过来的PDF文件,由于无法读取PDF文件的源文件的文本内容的标签而导致无法定位到PDF文件中的图片和表格,可见,现有技术方法的局限性较大。
发明内容
本发明实施例提供了一种图表定位方法、装置、计算机设备及存储介质,旨在达到对所有类型的PDF文件实现图表定位的目的。
第一方面,本发明实施例提供了一种图表定位方法,其包括:
获取预存的PDF图片训练集,所述PDF图片训练集包括PDF样本图片以及所述PDF样本图片的标注结果,所述标注结果包括所述PDF样本图片的特征区域的位置信息以及特征区域的类型,所述类型包括图片以及表格;
通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练;
若接收到待测PDF文件,将所述待测PDF文件转换为待测PDF图片;
根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果。
第二方面,本发明实施例还提供了一种图表定位装置,其包括:
第一获取单元,用于获取预存的PDF图片训练集,所述PDF图片训练集包括PDF样本图片以及所述PDF样本图片的标注结果,所述标注结果包括所述PDF样本图片的特征区域的位置信息以及特征区域的类型,所述类型包括图片以及表格;
第一训练单元,用于通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练;
第一转换单元,用于若接收到待测PDF文件,将所述待测PDF文件转换为待测PDF图片;
确定单元,用于根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种图表定位方法、装置、计算机设备及存储介质。其中,所述方法包括:获取预存的PDF图片训练集,所述PDF图片训练集包括PDF样本图片以及所述PDF样本图片的标注结果,所述标注结果包括所述PDF样本图片的特征区域的位置信息以及特征区域的类型,所述类型包括图片以及表格;通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练;若接收到待测PDF文件,将所述待测PDF文件转换为待测PDF图片;根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果。通过应用本发明实施例的技术方案,获取预存的PDF图片训练集,PDF图片训练集包括PDF样本图片以及PDF样本图片的标注结果;通过PDF图片训练集对预构建的yoloV3深度学习模型进行训练;若接收到PDF文件,将PDF文件转换为待测PDF图片;根据训练后的yoloV3深度学习模型确定待测PDF图片的标注结果。本申请的方案无需使用PDF文件的源文件的文本内容,从而无论是对于有文本还是图片转换过来的PDF文件均能够快速定位其中表格区域以及图片区域的位置,使得本申请的适用范围更广。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图表定位方法的流程示意图;
图2为本发明实施例提供的一种图表定位方法的子流程示意图;
图3为本发明实施例提供的一种图表定位方法的子流程示意图;
图4为本发明实施例提供的一种图表定位方法的子流程示意图;
图5为本发明实施例提供的一种图表定位装置的示意性框图;
图6为本发明实施例提供的一种图表定位装置的第一训练单元的示意性框图;
图7为本发明实施例提供的一种图表定位装置的第二训练单元的示意性框图;
图8为本发明实施例提供的一种图表定位装置的第一转换单元的示意性框图;
图9为本发明实施例提供的一种图表定位装置的确定单元的示意性框图;
图10为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
图1是本发明实施例提供的图表定位方法的流程示意图。本发明实施例的方案可应用于终端中。如图所示,该方法包括以下步骤S1-S4。
S1,获取预存的PDF图片训练集。
其中,所述PDF图片训练集包括PDF样本图片以及所述PDF样本图片的标注结果,所述标注结果包括所述PDF样本图片的特征区域的位置信息以及特征区域的类型,所述类型包括图片以及表格。
具体实施中,预先在终端中存储PDF图片训练集,PDF图片训练集包括多个PDF样本图片以及对该PDF样本图片的标注结果。
PDF样本图片的标注结果包括PDF图片包含的特征区域(图片区域或者表格区域)的位置信息以及特征区域的类型,所述类型包括图片以及表格。若类型为图片,则表明该特征区域为图片区域;若类型为表格,则表明该特征区域为表格区域。
特征区域的位置信息可通过位置特征向量A(x,y,w,h)表示。其中,(x,y)为特征区域中心的坐标。w为特征区域的宽度。h为特征区域的高度。特征区域的类型可用类型向量B来表示。具体实施中,类型向量B是预先设定的,例如可设定图片的类型向量为B1,表格的类型向量为B2。
标注结果可由位置特征向量以及类型向量合并得到。具体地,标注结果表示为(A,B)。
具体操作中,终端可直接调用存储在终端中的PDF图片训练集,并根据该PDF图片训练集来对预构建的yoloV3深度学习模型进行训练。
S2,通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练。
具体实施中,终端通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练,经过训练后的yoloV3深度学习模型可对PDF图片中的表格区域以及图片区域进行标记。
需要说明的是,yoloV3深度学习模型是一种使用深度卷积神经网络学得的特征来检测对象的目标检测模型,通过yoloV3深度学习模型可对图片中的对象(在本方案中为图片区域或者表格区域)进行识别标记。
参见图2,在一实施例中,以上步骤S2具体包括如下步骤S21-S25。
S21,从所述PDF图片训练集中获取一PDF样本图片作为目标PDF样本图片。
具体实施中,终端从所述PDF图片训练集中获取一PDF样本图片作为目标PDF样本图片。
获取的方式可以是随机获取或者按照各PDF样本图片的排列顺序依次获取,本发明对此不做具体限定。
S22,通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练。
具体实施中,通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练。具体实施中,以所述目标PDF样本图片作为所述yoloV3深度学习模型的输入,并通过不断调整所述yoloV3深度学习模型的参数,直到所述yoloV3深度学习模型的输出为所述目标PDF样本图片的标注结果为止。
参见图3,在一实施例中,以上步骤S21包括如下步骤:
S221,获取所述目标PDF样本图片的特征图作为输入数据。
具体实施中,目标PDF样本图片是由多个像素组成的,像素的颜色由红(Red)、绿(Green)、蓝(Blue)三原色的色光以不同的比例相加得到。则每个像素可表示为(a,b,c),其中a为红的比例,b为绿的比例,c为蓝的比例。则分别提取每个像素的a、b、c值可得到三个特征矩阵。此三个特征矩阵组成的三维张量即为PDF样本图片的特征图。特征图为yoloV3深度学习模型能够识别的数据。
S222,将所述输入数据输入到所述yoloV3深度学习模型中。
具体实施中,将所述输入数据输入到所述yoloV3深度学习模型中。
S223,判断所述yoloV3深度学习模型的输出结果是否与所述目标PDF样本图片的标注结果相同。
具体实施中,判断所述yoloV3深度学习模型的输出结果是否与所述目标PDF样本图片的标注结果相同。
S224,如果所述yoloV3深度学习模型的输出结果与所述目标PDF样本图片的标注结果不相同,则根据所述yoloV3深度学习模型的输出结果以及所述目标PDF样本图片的标注结果调整所述yoloV3深度学习模型的参数,并返回所述将所述输入数据输入到所述yoloV3深度学习模型中的步骤。
具体实施中,如果所述yoloV3深度学习模型的输出结果是否与所述目标PDF样本图片的标注结果不相同,则根据所述yoloV3深度学习模型的输出结果以及所述目标PDF样本图片的标注结果调整所述yoloV3深度学习模型的参数。具体地,根据所述yoloV3深度学习模型的输出结果以及所述目标PDF样本图片的标注结果计算所述yoloV3深度学习模型的各层的误差,根据求得的误差更新所述yoloV3深度学习模型的各层的权值(即所述yoloV3深度学习模型的参数)。在更新了所述yoloV3深度学习模型的参数之后,返回所述将所述输入数据输入到所述yoloV3深度学习模型中的步骤,如此循环迭代直到yoloV3深度学习模型的输出结果与所述目标PDF样本图片的标注结果相同为止。
S225,如果所述yoloV3深度学习模型的输出结果与所述目标PDF样本图片的标注结果相同,则转到步骤S23。
具体实施中,如果所述yoloV3深度学习模型的输出结果与所述目标PDF样本图片的标注结果相同,则转到步骤S23,即获取另一PDF样本图片来对所述yoloV3深度学习模型进行训练。
S23,将所述目标PDF样本图片以及所述目标PDF样本图片的标注结果从所述PDF图片训练集中移除,并判断所述PDF图片训练集中是否还存在PDF样本图片。
具体实施中,在步骤S22之后,终端将所述目标PDF样本图片以及所述目标PDF样本图片的标注结果从所述PDF图片训练集中移除,并判断所述PDF图片训练集中是否还存在PDF样本图片,若存在,则继续训练直到获取完所有的PDF样本图片为止;否则结束训练。
S24,若所述PDF图片训练集中还存在PDF样本图片,从所述PDF图片训练集中获取另一PDF样本图片作为新的目标PDF样本图片,并返回所述通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练的步骤。
具体实施中,如果所述PDF图片训练集中还存在PDF样本图片,从所述PDF图片训练集中获取另一PDF样本图片作为新的目标PDF样本图片,并返回所述通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练的步骤,如此循环直到获取完所述PDF图片训练集中的所有PDF样本图片为止。
S25,若所述PDF图片训练集中不存在PDF样本图片,结束对所述yoloV3深度学习模型的训练。
具体实施中,如果所述PDF图片训练集中不存在PDF样本图片,则结束对所述yoloV3深度学习模型的训练。
S3,若接收到待测PDF文件,将所述待测PDF文件转换为待测PDF图片。
具体实施中,在对yoloV3深度学习模型训练后,如果接收到用户输入的待测PDF文件,首先将该待测PDF文件转换为待测PDF图片。
具体地,如果该待测PDF文件只有一页,则将该待测PDF文件转换为一张待测PDF图片。如果该待测PDF文件有多页,则将该待测PDF文件的每一页相应转换为一张PDF图片。
在一实施例中,以上步骤S3具体为:通过预设的PDF图片转换工具将所述待测PDF文件转换为待测PDF图片。
需要说明的是,PDF图片转换工具可具体为Apache PDF Box软件。将待测PDF文件输入到Apache PDF Box软件后,可实现将待测PDF文件转换为PDF图片。
需要说明的是,Apache PDF Box软件只是PDF图片转换工具的一个示例,本领域技术人员还可以采用其它的PDF图片转换工具,这并未超出本发明的保护范围。
S4,根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果。
具体实施中,在将待测PDF文件转换为待测PDF图片之后,根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果,从而实现了对待测PDF图片中的表格区域以及图片区域进行标注。
参见图4,在一实施例中,以上步骤S4具体包括如下步骤S41-S42。
S41,获取所述待测PDF图片的特征图作为目标特征图。
具体实施中,待测PDF图片是由多个像素组成的,像素的颜色由红(Red)、绿(Green)、蓝(Blue)三原色的色光以不同的比例相加得到。则每个像素可表示为(a,b,c),其中a为红的比例,b为绿的比例,c为蓝的比例。则分别提取每个像素的a、b、c值可得到三个特征矩阵。此三个特征矩阵组成的三维张量即为待测PDF图片的特征图。特征图为yoloV3深度学习模型能够识别的数据。
S42,将所述目标特征图输入到训练后的yoloV3深度学习模型中,并将所述yoloV3深度学习模型的输出结果作为所述待测PDF图片的标注结果。
具体实施中,将所述目标特征图输入到训练后的yoloV3深度学习模型中,并将所述yoloV3深度学习模型的输出结果作为所述待测PDF图片的标注结果,从而能够实现对待测PDF图片中的图片区域以及表格区域进行标注,并且本发明的方法无需依赖待测PDF文件的源文件的文本内容,能够适用于各种类型的待测PDF文件,具有更广的适用范围。
通过应用本发明实施例的技术方案,获取预存的PDF图片训练集,PDF图片训练集包括PDF样本图片以及PDF样本图片的标注结果;通过PDF图片训练集对预构建的yoloV3深度学习模型进行训练;若接收到PDF文件,将PDF文件转换为待测PDF图片;根据训练后的yoloV3深度学习模型确定待测PDF图片的标注结果。本申请的方案无需使用PDF文件的源文件的文本内容,从而无论是对于有文本还是图片转换过来的PDF文件均能够快速定位其中表格区域以及图片区域的位置,使得本申请的适用范围更广。
图5是本发明实施例提供的一种图表定位装置60的示意性框图。如图5所示,对应于以上图表定位方法,本发明还提供一种图表定位装置60。该图表定位装置60包括用于执行上述图表定位方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑等终端中。具体地,请参阅图5,该图表定位装置60包括第一获取单元61、第一训练单元62、第一转换单元63以及确定单元64。
第一获取单元61,用于获取预存的PDF图片训练集,所述PDF图片训练集包括PDF样本图片以及所述PDF样本图片的标注结果,所述标注结果包括所述PDF样本图片的特征区域的位置信息以及特征区域的类型,所述类型包括图片以及表格;
第一训练单元62,用于通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练;
第一转换单元63,用于若接收到待测PDF文件,将所述待测PDF文件转换为待测PDF图片;
确定单元64,用于根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果。
在一实施例中,如图6所示,所述第一训练单元62包括第二获取单元621、第二训练单元622、第一判断单元623以及第一返回单元624。
第二获取单元621,用于从所述PDF图片训练集中获取一PDF样本图片作为目标PDF样本图片;
第二训练单元622,用于通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练;
第一判断单元623,用于将所述目标PDF样本图片以及所述目标PDF样本图片的标注结果从所述PDF图片训练集中移除,并判断所述PDF图片训练集中是否还存在PDF样本图片;
第一返回单元624,用于若所述PDF图片训练集中还存在PDF样本图片,从所述PDF图片训练集中获取另一PDF样本图片作为新的目标PDF样本图片,并返回所述通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练的步骤。
在一实施例中,如图7所示,所述第二训练单元622包括第三获取单元6221、第一输入单元6222、第二判断单元6223以及第二返回单元6224。
第三获取单元6221,用于获取所述目标PDF样本图片的特征图作为输入数据;
第一输入单元6222,用于将所述输入数据输入到所述yoloV3深度学习模型中;
第二判断单元6223,用于判断所述yoloV3深度学习模型的输出结果是否与所述目标PDF样本图片的标注结果相同;
第二返回单元6224,用于若所述yoloV3深度学习模型的输出结果与所述目标PDF样本图片的标注结果不相同,则根据所述yoloV3深度学习模型的输出结果以及所述目标PDF样本图片的标注结果调整所述yoloV3深度学习模型的参数,并返回所述将所述输入数据输入到所述yoloV3深度学习模型中的步骤。
在一实施例中,如图8所示,所述第一转换单元63包括第二转换单元631。
第二转换单元631,用于通过预设的PDF图片转换工具将所述待测PDF文件转换为待测PDF图片。
在一实施例中,如图9所示,所述确定单元64包括第二获取单元641以及第二输入单元642。
第二获取单元641,用于获取所述待测PDF图片的特征图作为目标特征图;
第二输入单元642,用于将所述目标特征图输入到训练后的yoloV3深度学习模型中,并将所述yoloV3深度学习模型的输出结果作为所述待测PDF图片的标注结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述图表定位装置60和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述图表定位装置可以实现为一种计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
请参阅图10,图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑等具有通信功能的电子设备。参阅图10,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种图表定位方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种图表定位方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取预存的PDF图片训练集,所述PDF图片训练集包括PDF样本图片以及所述PDF样本图片的标注结果,所述标注结果包括所述PDF样本图片的特征区域的位置信息以及特征区域的类型,所述类型包括图片以及表格;
通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练;
若接收到待测PDF文件,将所述待测PDF文件转换为待测PDF图片;
根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果。
在一实施例中,处理器502在实现所述通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练步骤时,具体实现如下步骤:
从所述PDF图片训练集中获取一PDF样本图片作为目标PDF样本图片;
通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练;
将所述目标PDF样本图片以及所述目标PDF样本图片的标注结果从所述PDF图片训练集中移除,并判断所述PDF图片训练集中是否还存在PDF样本图片;
若所述PDF图片训练集中还存在PDF样本图片,从所述PDF图片训练集中获取另一PDF样本图片作为新的目标PDF样本图片,并返回所述通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练的步骤。
在一实施例中,处理器502在实现所述通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练步骤时,具体实现如下步骤:
获取所述目标PDF样本图片的特征图作为输入数据;
将所述输入数据输入到所述yoloV3深度学习模型中;
判断所述yoloV3深度学习模型的输出结果是否与所述目标PDF样本图片的标注结果相同;
若所述yoloV3深度学习模型的输出结果与所述目标PDF样本图片的标注结果不相同,则根据所述yoloV3深度学习模型的输出结果以及所述目标PDF样本图片的标注结果调整所述yoloV3深度学习模型的参数,并返回所述将所述输入数据输入到所述yoloV3深度学习模型中的步骤。
在一实施例中,处理器502在实现所述将所述待测PDF文件转换为待测PDF图片步骤时,具体实现如下步骤:
通过预设的PDF图片转换工具将所述待测PDF文件转换为待测PDF图片。
在一实施例中,处理器502在实现所述根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果步骤时,具体实现如下步骤:
获取所述待测PDF图片的特征图作为目标特征图;
将所述目标特征图输入到训练后的yoloV3深度学习模型中,并将所述yoloV3深度学习模型的输出结果作为所述待测PDF图片的标注结果。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤:
获取预存的PDF图片训练集,所述PDF图片训练集包括PDF样本图片以及所述PDF样本图片的标注结果,所述标注结果包括所述PDF样本图片的特征区域的位置信息以及特征区域的类型,所述类型包括图片以及表格;
通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练;
若接收到待测PDF文件,将所述待测PDF文件转换为待测PDF图片;
根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练步骤时,具体实现如下步骤:
从所述PDF图片训练集中获取一PDF样本图片作为目标PDF样本图片;
通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练;
将所述目标PDF样本图片以及所述目标PDF样本图片的标注结果从所述PDF图片训练集中移除,并判断所述PDF图片训练集中是否还存在PDF样本图片;
若所述PDF图片训练集中还存在PDF样本图片,从所述PDF图片训练集中获取另一PDF样本图片作为新的目标PDF样本图片,并返回所述通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练的步骤。
在一实施例中,所述处理器在执行所述计算机程序而实现所述通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练步骤时,具体实现如下步骤:
获取所述目标PDF样本图片的特征图作为输入数据;
将所述输入数据输入到所述yoloV3深度学习模型中;
判断所述yoloV3深度学习模型的输出结果是否与所述目标PDF样本图片的标注结果相同;
若所述yoloV3深度学习模型的输出结果与所述目标PDF样本图片的标注结果不相同,则根据所述yoloV3深度学习模型的输出结果以及所述目标PDF样本图片的标注结果调整所述yoloV3深度学习模型的参数,并返回所述将所述输入数据输入到所述yoloV3深度学习模型中的步骤。
在一实施例中,所述处理器在执行所述计算机程序而实现所述将所述待测PDF文件转换为待测PDF图片步骤时,具体实现如下步骤:
通过预设的PDF图片转换工具将所述待测PDF文件转换为待测PDF图片。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果步骤时,具体实现如下步骤:
获取所述待测PDF图片的特征图作为目标特征图;
将所述目标特征图输入到训练后的yoloV3深度学习模型中,并将所述yoloV3深度学习模型的输出结果作为所述待测PDF图片的标注结果。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种图表定位方法,其特征在于,包括:
获取预存的PDF图片训练集,所述PDF图片训练集包括PDF样本图片以及所述PDF样本图片的标注结果,所述标注结果包括所述PDF样本图片的特征区域的位置信息以及特征区域的类型,所述类型包括图片以及表格;
通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练;
若接收到待测PDF文件,将所述待测PDF文件转换为待测PDF图片;
根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果。
2.根据权利要求1所述的方法,其特征在于,所述通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练,包括:
从所述PDF图片训练集中获取一PDF样本图片作为目标PDF样本图片;
通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练;
将所述目标PDF样本图片以及所述目标PDF样本图片的标注结果从所述PDF图片训练集中移除,并判断所述PDF图片训练集中是否还存在PDF样本图片;
若所述PDF图片训练集中还存在PDF样本图片,从所述PDF图片训练集中获取另一PDF样本图片作为新的目标PDF样本图片,并返回所述通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练的步骤。
3.根据权利要求2所述的方法,其特征在于,所述通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练,包括:
获取所述目标PDF样本图片的特征图作为输入数据;
将所述输入数据输入到所述yoloV3深度学习模型中;
判断所述yoloV3深度学习模型的输出结果是否与所述目标PDF样本图片的标注结果相同;
若所述yoloV3深度学习模型的输出结果与所述目标PDF样本图片的标注结果不相同,则根据所述yoloV3深度学习模型的输出结果以及所述目标PDF样本图片的标注结果调整所述yoloV3深度学习模型的参数,并返回所述将所述输入数据输入到所述yoloV3深度学习模型中的步骤。
4.根据权利要求1所述的方法,其特征在于,所述将所述待测PDF文件转换为待测PDF图片,包括:
通过预设的PDF图片转换工具将所述待测PDF文件转换为待测PDF图片。
5.根据权利要求1所述的方法,其特征在于,所述根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果,包括:
获取所述待测PDF图片的特征图作为目标特征图;
将所述目标特征图输入到训练后的yoloV3深度学习模型中,并将所述yoloV3深度学习模型的输出结果作为所述待测PDF图片的标注结果。
6.一种图表定位装置,其特征在于,包括:
第一获取单元,用于获取预存的PDF图片训练集,所述PDF图片训练集包括PDF样本图片以及所述PDF样本图片的标注结果,所述标注结果包括所述PDF样本图片的特征区域的位置信息以及特征区域的类型,所述类型包括图片以及表格;
第一训练单元,用于通过所述PDF图片训练集对预构建的yoloV3深度学习模型进行训练;
第一转换单元,用于若接收到待测PDF文件,将所述待测PDF文件转换为待测PDF图片;
确定单元,用于根据训练后的yoloV3深度学习模型确定所述待测PDF图片的标注结果。
7.根据权利要求6所述的图表定位装置,其特征在于,所述第一训练单元包括:
第二获取单元,用于从所述PDF图片训练集中获取一PDF样本图片作为目标PDF样本图片;
第二训练单元,用于通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练;
第一判断单元,用于将所述目标PDF样本图片以及所述目标PDF样本图片的标注结果从所述PDF图片训练集中移除,并判断所述PDF图片训练集中是否还存在PDF样本图片;
第一返回单元,用于若所述PDF图片训练集中还存在PDF样本图片,从所述PDF图片训练集中获取另一PDF样本图片作为新的目标PDF样本图片,并返回所述通过所述目标PDF样本图片以及所述目标PDF样本图片的标注结果对所述yoloV3深度学习模型进行训练的步骤。
8.根据权利要求7所述的图表定位装置,其特征在于,所述第二训练单元包括:
第三获取单元,用于获取所述目标PDF样本图片的特征图作为输入数据;
第一输入单元,用于将所述输入数据输入到所述yoloV3深度学习模型中;
第二判断单元,用于判断所述yoloV3深度学习模型的输出结果是否与所述目标PDF样本图片的标注结果相同;
第二返回单元,用于若所述yoloV3深度学习模型的输出结果与所述目标PDF样本图片的标注结果不相同,则根据所述yoloV3深度学习模型的输出结果以及所述目标PDF样本图片的标注结果调整所述yoloV3深度学习模型的参数,并返回所述将所述输入数据输入到所述yoloV3深度学习模型中的步骤。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910527236.3A CN110443270B (zh) | 2019-06-18 | 图表定位方法、装置、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910527236.3A CN110443270B (zh) | 2019-06-18 | 图表定位方法、装置、计算机设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110443270A true CN110443270A (zh) | 2019-11-12 |
CN110443270B CN110443270B (zh) | 2024-05-31 |
Family
ID=
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101356A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 一种图片中特定文本的定位方法、装置及存储介质 |
CN112183298A (zh) * | 2020-09-23 | 2021-01-05 | 上海蜜度信息技术有限公司 | 表格图片的标注方法、系统、介质及装置 |
CN113111858A (zh) * | 2021-05-12 | 2021-07-13 | 数库(上海)科技有限公司 | 自动检测图片中表格的方法、装置、设备和存储介质 |
CN113643408A (zh) * | 2021-08-20 | 2021-11-12 | Oppo广东移动通信有限公司 | 图像生成方法及装置、计算机可读存储介质和电子设备 |
CN116563872A (zh) * | 2023-05-26 | 2023-08-08 | 珠海盈米基金销售有限公司 | 一种基于深度学习的图表提取方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN109255044A (zh) * | 2018-08-31 | 2019-01-22 | 江苏大学 | 一种基于YOLOv3深度学习网络的图像智能标注方法 |
CN109635838A (zh) * | 2018-11-12 | 2019-04-16 | 平安科技(深圳)有限公司 | 人脸样本图片标注方法、装置、计算机设备及存储介质 |
CN109697439A (zh) * | 2017-10-24 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 汉字定位方法及装置、存储介质和电子设备 |
CN109726755A (zh) * | 2018-12-26 | 2019-05-07 | 北京云测信息技术有限公司 | 一种图片标注方法、装置及电子设备 |
CN109816118A (zh) * | 2019-01-25 | 2019-05-28 | 上海深杳智能科技有限公司 | 一种基于深度学习模型的创建结构化文档的方法及终端 |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697439A (zh) * | 2017-10-24 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 汉字定位方法及装置、存储介质和电子设备 |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN109255044A (zh) * | 2018-08-31 | 2019-01-22 | 江苏大学 | 一种基于YOLOv3深度学习网络的图像智能标注方法 |
CN109635838A (zh) * | 2018-11-12 | 2019-04-16 | 平安科技(深圳)有限公司 | 人脸样本图片标注方法、装置、计算机设备及存储介质 |
CN109726755A (zh) * | 2018-12-26 | 2019-05-07 | 北京云测信息技术有限公司 | 一种图片标注方法、装置及电子设备 |
CN109816118A (zh) * | 2019-01-25 | 2019-05-28 | 上海深杳智能科技有限公司 | 一种基于深度学习模型的创建结构化文档的方法及终端 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183298A (zh) * | 2020-09-23 | 2021-01-05 | 上海蜜度信息技术有限公司 | 表格图片的标注方法、系统、介质及装置 |
CN112101356A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 一种图片中特定文本的定位方法、装置及存储介质 |
CN113111858A (zh) * | 2021-05-12 | 2021-07-13 | 数库(上海)科技有限公司 | 自动检测图片中表格的方法、装置、设备和存储介质 |
CN113643408A (zh) * | 2021-08-20 | 2021-11-12 | Oppo广东移动通信有限公司 | 图像生成方法及装置、计算机可读存储介质和电子设备 |
CN116563872A (zh) * | 2023-05-26 | 2023-08-08 | 珠海盈米基金销售有限公司 | 一种基于深度学习的图表提取方法及系统 |
CN116563872B (zh) * | 2023-05-26 | 2024-01-30 | 珠海盈米基金销售有限公司 | 一种基于深度学习的图表提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874594B (zh) | 基于语义分割网络的人体外表损伤检测方法及相关设备 | |
CN107633526A (zh) | 一种图像跟踪点获取方法及设备、存储介质 | |
CN108229575A (zh) | 用于检测目标的方法和装置 | |
CN108229479A (zh) | 语义分割模型的训练方法和装置、电子设备、存储介质 | |
GB2572029A (en) | Detecting objects using a weakly supervised model | |
CN108197623A (zh) | 用于检测目标的方法和装置 | |
CN107644209A (zh) | 人脸检测方法和装置 | |
CN108537859A (zh) | 使用深度学习的图像蒙板 | |
CN111832447B (zh) | 建筑图纸构件识别方法、电子设备及相关产品 | |
CN109815776B (zh) | 动作提示方法和装置、存储介质及电子装置 | |
CN109165645A (zh) | 一种图像处理方法、装置以及相关设备 | |
CN108229591A (zh) | 神经网络自适应训练方法和装置、设备、程序和存储介质 | |
CN109271935A (zh) | 物品与电子标签的配对方法、装置及系统 | |
CN109348731A (zh) | 一种图像匹配的方法及装置 | |
CN108132887A (zh) | 用户界面校验方法、装置、软件测试系统、终端及介质 | |
CN107622252A (zh) | 信息生成方法和装置 | |
CN107632773A (zh) | 用于获取信息的方法及装置 | |
CN111144215B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110136166A (zh) | 一种多路画面的自动跟踪方法 | |
CN106455056A (zh) | 定位方法和装置 | |
CN108960110A (zh) | 用于生成信息的方法和装置 | |
CN108509921A (zh) | 用于生成信息的方法和装置 | |
CN107003834A (zh) | 行人检测设备和方法 | |
CN108898604A (zh) | 用于处理图像的方法和设备 | |
CN110321892A (zh) | 一种图片筛选方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |