CN112464626A - Pdf文档的图表提取方法、电子设备和存储介质 - Google Patents
Pdf文档的图表提取方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112464626A CN112464626A CN202011449003.5A CN202011449003A CN112464626A CN 112464626 A CN112464626 A CN 112464626A CN 202011449003 A CN202011449003 A CN 202011449003A CN 112464626 A CN112464626 A CN 112464626A
- Authority
- CN
- China
- Prior art keywords
- box
- chart
- title
- text
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明实施例涉及数据处理领域,公开了一种PDF文档的图表提取方法、电子设备和存储介质。PDF文档的图表提取方法包括:对所述PDF文档进行划分,获取若干个待处理子区域Box并根据所述Box获取图表的标识位置,其中,所述标识位置包括标题位置和来源位置;根据所述标题位置和所述来源位置在去除页眉和页尾后的所述PDF文档中截图,获取第一图表;利用预设的识别模型处理所述PDF文档,获取图表截图;若检测到所述图表截图缺少标识,在所述PDF文档中识别所述图表截图缺少的所述标识并获取标识截图,组合所述图表截图和所述标识截图,获取第二图表;根据所述第一图表和所述第二图表获取实际提取图表。应用在PDF文档提取中。
Description
技术领域
本发明实施例涉及数据处理领域,特别涉及一种PDF文档的图表提取方法、电子设备和存储介质。
背景技术
可携带文档格式(Portable Document Format,PDF)能够不受平台、操作系统等的影响,始终显示文档的原始格式,被广泛应用于印刷出版、电子出版和网络出版中。然而,PDF文档始终保持原始格式还会造成文档不易被编辑,因此对于需要使用PDF文档信息的人群而言,只有使用PDFMiner等工具才能提取信息,其中,PDFMiner等工具的提取过程一般为:首先对PDF文档进行布局分析,将每个页面中的信息划分为不同的子区域,然后分别提取子区域中的信息。
然而,图表作为一种浓缩了多层次信息的、重要的文档信息,经常会出现在各式各样的PDF文档中,使用PDFMiner等工具主要是识别并提取子区域中的文字信息,无法对文档中的图表准确识别,更无法将图表及其对应的相关信息,如图表的标题和来源,一起准确提取。
发明内容
本发明实施方式的目的在于提供一种PDF文档的图表提取方法、电子设备和存储介质,能够准确识别PDF文档中的图表,改善图表提取的效果。
为解决上述技术问题,本发明的实施方式提供了一种PDF文档的图表提取方法,包括:对所述PDF文档进行划分,获取若干个待处理子区域Box并根据所述Box获取图表的标识位置,其中,所述标识位置包括标题位置和来源位置;根据所述标题位置和所述来源位置在去除页眉和页尾后的所述PDF文档中截图,获取第一图表;利用预设的识别模型处理所述PDF文档,获取图表截图;若检测到所述图表截图缺少标识,在所述PDF文档中识别所述图表截图缺少的所述标识并获取标识截图,组合所述图表截图和所述标识截图,获取第二图表;根据所述第一图表和所述第二图表获取实际提取图表。
本发明的实施方式还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上所述的PDF文档的图表提取方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现以上所述的PDF文档的图表提取方法。
本发明实施方式相对于现有技术而言,通过对PDF文档进行划分,能够获取若干个待处理子区域Box,接着进一步根据Box获取标题位置和来源位置,使得能够根据标题位置和来源位置准确地识别到图表所在区域,从而在去除页眉页尾之后的PDF文档中截图,得到准确的包含标题和来源的第一图表。同时,利用图表识别模型对PDF文档中的图表进行识别,得到图表截图,可以将包括不规则类型在内的图表识别,再对图表截图是否缺少标识进行检测,在检测到图表截图缺少标识时获取标识截图,并与图表截图进行组合得到包含完整图表信息的第二图表,保证了第二图表的完整性。最后通过第一图表和第二图表得到实际提取图表,能够在第一图表的基础上进一步补充PDF文档中的图表识别结果,且第一图表和第二图表均包含标题和来源,从而在保证将文档中的图表准确识别出来的基础上,获取到完整的和图表对应的相关信息,既改善了识别效果,又保证了图表识别和信息提取的完整性。
另外,本发明实施方式提供的PDF文档的图表提取方法,所述Box为文本Box,所述根据所述Box获取图表的标识位置,其中,所述标识位置包括标题位置和来源位置,包括:获取所述文本Box的文字信息和文本位置;根据所述文字信息对所述文本Box进行检测,获取标题Box和来源Box,其中,所述标题Box是包含标题的所述文本Box,所述来源Box是包含来源的所述文本Box;根据所述文字信息判断是否满足所述标题Box只包含一个所述标题或所述来源Box只包含一个所述来源;若是,将所述标题Box的所述文本位置确定为所述标题位置或将所述来源Box的所述文本位置确定为所述来源位置;若否,综合分析所述文本信息和所述文本位置,获取所述标题Box中每个所述标题的所述标题位置、每个所述来源Box中每个所述来源的所述来源位置。由于将来源Box只包含一个来源或者标题Box只包含一个标题的情况和来源Box包含不止一个来源或者标题Box包含不止一个标题的情况分别提供了不同的处理方法,因地制宜地获取标题位置和来源位置,能够提高处理的针对性,高效地获取更加准确的标题位置和来源位置,进而提高图表识别的准确度。
另外,本发明实施方式提供的PDF文档的图表提取方法,所述综合分析所述文本信息和所述文本位置,获取所述标题Box中每个所述标题的所述标题位置、每个所述来源Box中每个所述来源的所述来源位置,包括:若根据所述文字信息检测到所述标题Box中包含n个所述标题,获取所述标题Box的所述文本位置之后的前n个所述来源Box的所述文本位置,若根据所述来源Box的所述文本位置检测到n个所述来源Box位于所述PDF文档中的同一行,根据所述标题Box和所述来源Box的所述文本位置获取所述标题Box中每个所述标题的所述标题位置;若根据所述文字信息检测到所述来源Box中包含m个所述来源,获取所述来源Box的所述文本位置之前的后m个所述标题Box的所述文本位置,若根据所述标题的所述文本位置检测到所述标题Box位于所述PDF文档中的同一行,根据所述来源Box和所述标题Box的所述文本位置获取所述来源Box中每个所述来源的所述来源位置。由于直接使用PDF文档解析时获取的Box位置信息通过简单的计算就能够得到每个标题或来源的位置,不需要重新获取数据,也不需要再次使用文字识等方法,充分利用了现有资源,简化了处理步骤。同时,通过本申请的方案可以将包含多个来源的来源box或包含多个标题的标题box拆分成多个,得到每个来源或每个标题的位置,最后得到一一对应的标题、来源,从而避免了一个Box包含不止一个标题或者不止一个来源时出现多个图表存于一个截图的错误,使得最终得到正确一一对应的图表,即一个截图对应一张图表、一组对应的标题和来源,从而提高了PDF文档图表提取的正确性。
另外,本发明实施方式提供的PDF文档的图表提取方法,还包括:获取所述PDF文档中位于页眉高度阈值和页尾高度阈值内的所述Box;根据所述Box获取页眉Box和页尾Box;对所述页眉Box和所述页尾Box分别进行筛选,获取实际页眉Box和实际页尾Box;根据所述实际页眉Box的高度更新所述页眉高度阈值并根据所述实际页尾Box的高度更新所述页尾高度阈值;根据更新后的所述页眉高度阈值和所述页尾高度阈值去除所述页眉和所述页尾,获取去除页眉和页尾后的所述PDF文档。相对于现有技术中常用的去除页眉页尾的方法:设置初始高度阈值,根据高度阈值在PDF文档中截图获取图片,并通过循环检测图片文件的方式来调整高度阈值,本申请由于不进行截图,也不采用循环和较为复杂的计算,只需要通过统计和筛选页眉Box和页尾Box就能够获取准确的页眉、页尾高度阈值,然后根据准确的页眉、页尾高度阈值准确地去除页眉和页尾,既减小了计算量和消耗的时间,提高了识别和处理的速度,又不需要存储图片文件节约了存储资源,还能够得到适宜、准确的页眉、页尾高度阈值,不会过多或过少地去除PDF文档中页眉页尾区域。进一步地,还提高了PDF文档提取图表的准确性、处理效率。
另外,本发明实施方式提供的PDF文档的图表提取方法,所述Box为图片Box,所述根据所述Box获取页眉Box和页尾Box,包括:获取所述图片Box中的图片的文件名和图片位置;根据所述文件名分别统计位于所述页眉高度阈值内和位于所述页尾高度阈值内的同名图片Box的数量,其中,所述同名图片Box是所述文件名相同的所述图片Box;根据所述图片位置分别统计位于所述页眉高度阈值内和位于所述页尾高度阈值内的重复图片Box的数量,其中,所述重复图片Box是在页面中占用相同区域的图片Box;若所述同名图片Box的数量超过预设的第一数量阈值,将位于所述页眉高度阈值内的所述同名图片Box确定为所述页眉Box并将位于所述页尾高度阈值内的所述同名图片Box确定为所述页尾Box;若所述重复图片的数量超过预设的第二数量阈值,将位于所述页眉高度阈值内的所述重复图片Box确定为所述页眉Box并将位于所述页尾高度阈值内的所述重复图片Box确定为所述页尾Box。通过对图片进行简单的数量统计就能够得到可靠的页眉Box和页尾Box,简化了计算量,节约了资源,同时对图片的统计分析,实际上是对图像中的Logo等信息的利用,充分利用了PDF文档中的其他信息,提供了一种基于图片信息的页眉Box和页尾Box获取方法,使得得到的页眉Box和页尾Box更加全面,提高了页眉、页尾高度阈值的准确性,不会过多或过少地去除PDF文档中页眉页尾区域,进一步地,提高了图表提取的准确性。
另外,本发明实施方式提供的PDF文档的图表提取方法,所述Box为文本Box,所述根据所述Box获取页眉Box和页尾Box,包括:获取所述文本Box的文字信息和文本位置;根据所述文字信息分别统计位于所述页眉高度阈值内和位于所述页尾高度阈值内的相同文本Box的数量,其中,所述相同文本Box是所述文字信息相同的文本Box;根据所述文本位置分别统计位于所述页眉高度阈值内和位于所述页尾高度阈值内的相似文本Box的数量,其中,所述相似文本Box是在所述PDF文档中占用相同页面区域的文本Box;若所述相同文本的数量超过预设的第三数量阈值,将位于所述页眉高度阈值内的所述相同文本Box确定为所述页眉Box并将位于所述页尾高度阈值内的所述相同文本Box确定为所述页尾Box;若所述相似文本的数量超过预设的第四数量阈值,将位于所述页眉高度阈值内的所述相似文本Box确定为所述页眉Box并将位于所述页尾高度阈值内的所述相似文本Box确定为所述页尾Box。通过对文本进行简单的数量统计就能够得到可靠的页眉Box和页尾Box,简化了计算量,节约了资源,同时提供了了一种基于页眉页尾文字信息获取页眉Box和页尾Box的方法,一方面使得得到的页眉Box和页尾Box更加全面,提高了页眉、页尾高度阈值的准确性,不会过多或过少地去除PDF文档中页眉页尾区域,进一步地,提高了图表提取的准确性;另一方面,提供了第二种获取页眉Box和页尾Box的方法,提高了获取页眉Box和页尾Box的方法的多样性,进一步地,提高了图表提取的灵活性和实用性。
另外,本发明实施方式提供的PDF文档的图表提取方法,所述Box为文本Box,所述根据所述Box获取页眉Box和页尾Box,包括:获取所述文本Box的文字信息;若检测到位于所述页眉高度阈值内的所述Box的所述文字信息携带预定义的页眉特征信息,将所述Box确定为所述页眉Box;若检测到位于所述页尾高度阈值内的所述Box的所述文字信息携带预定义的页尾特征信息,将所述Box确定为所述页尾Box。通过页眉特征信息和页尾特征信息检测获取页眉Box和页尾Box,特征检测使得得到的页眉Box和页尾Box更加准确、可靠,进一步地提高了页眉、页尾高度阈值的准确性,不会过多或过少地去除PDF文档中页眉页尾区域,从而提高了图表提取的准确性。同时还提供了第三种页眉Box和页尾Box的获取方法、第二种基于文本信息的页眉Box和页尾Box的获取方法,继续深入地挖掘了文本Box的使用价值,充分利用了现有资源,提高了图表提取的灵活性和实用性。
另外,本发明实施方式提供的PDF文档的图表提取方法,所述对所述页眉Box和所述页尾Box分别进行筛选,获取实际页眉Box和实际页尾Box,包括:对所述页眉Box和所述页尾Box分别按照高度从大到小进行排序;确定第二顺位的所述页眉Box为所述实际页眉Box并确定第二顺位的所述页尾Box为所述实际页尾Box。通过选取第二顺位的页眉Box和页尾Box而不是第一顺位的页眉Box和页尾Box,避免了极端值的影响,提高了页眉、页尾位置的准确性。
另外,本发明实施方式提供的PDF文档的图表提取方法,所述根据所述标题位置和所述来源位置在去除页眉和页尾后的所述PDF文档中截图,获取第一图表,包括:获取去除所述页眉和所述页尾时的所述PDF文档的页面位置变化值;根据所述页面变化值更新所述标题位置和所述来源位置;根据更新后的所述标题位置和更新后的所述来源位置确定截图区域并截图,获取所述第一图表。由于在去除页眉页尾之后更新了标题位置和来源位置,使得利用标题位置和来源位置得到的第一图表区域更加准确,进一步使得得到的图表位置更加准确,识别效果更好,提取出来的图表页更加准确。
另外,本发明实施方式提供的PDF文档的图表提取方法,还包括:对所述第一图表进行直线检测,获取第一标记直线;若所述第一标记直线超过预设的长度阈值,遮盖所述第一标记直线;对遮盖处理后的所述第一图表进行边缘检测,获取边缘标记框;删除重合的所述边缘标记框后对相交的所述边缘标记框进行拼接,获取拼接框;根据所述拼接框更新所述第一图表。由于对第一图表进一步处理,尤其是能够通过边缘检测和边缘标记框的筛选将图表信息集中的区域和留白区域区分开,进一步地处理掉第一图表中的留白区域,能够更加准确地锁定图表的位置,使得图表信息在呈现时更加集中、准确,同时对图标进行拼接,使得得到的图表更加整洁、统一,改善了第一图表的识别效果和展示效果。
另外,本发明实施方式提供的PDF文档的图表提取方法,所述利用预设的识别模型处理所述PDF文档,获取图表截图,包括:利用所述识别模型处理所述PDF文档,获取图表标记框和所述图表标记框的置信度;将所述置信度不小于预设的置信阈值的所述图表标记框按照所述置信度从大到小进行排序,获取标记框序列;若检测到所述标记框序列中第i顺位的所述图表标记框与第k顺位的所述图表标记框相交且满足预设的面积阈值条件,删除第i顺位的所述图表标记框和第k顺位的所述图表标记框中所述置信度较小的所述图表标记框,其中,i=1,2,…,x-1,x为所述标记框序列包含的所述标记框的数量,k=i+1,i+2,…,x;根据所述标记框序列中剩下的所述图表标记框在所述PDF文档转化的图片上截图,获取所述图表截图。由于使用识别模型且删除识别模型输出的结果中不可靠、重合的部分,使得一个图表对应于一个标记框,在保证有效的图表截图的前提下减少了后续处理的图表截图的数量并提高了标记框和进一步得到的第二图表的可靠性,提高了后续处理的效率额准确性。
另外,本发明实施方式提供的PDF文档的图表提取方法,所述获取所述图表截图之后,还包括:将所述图表截图映射到所述PDF文档转化的图片中,获取与所述图表截图上方相接和/或下方相接的像素点的像素值;检测所述像素值是否为固定值;若否,将所述像素点添加到所述图表截图中,更新所述图表截图。通过检测像素点的像素值是否变化来检测图表截图是否将标题、来源部分截取完整,使得图表截图的信息更加完整,提高截图的准确性。
另外,本发明实施方式提供的PDF文档的图表提取方法,对所述图表截图进行直线检测,获取直线位置并根据所述直线位置获取标题区域;对所述标题区域进行文字识别,获取第一分析结果;提取所述图表截图中的文字并进行正则分析,获取对所述标题和所述来源的第二分析结果;根据所述第一分析结果和所述第二分析结果对所述图表截图中的所述标识进行检测。采用两种分析结果对图表中的标识进行检测,避免一种结果出错带来的检测错误,提高了标识检测的正确性,进一步提高了第二图表的准确性。
另外,本发明实施方式提供的PDF文档的图表提取方法,所述标识包括标题和来源,所述标识截图包括标题截图、来源截图,所述在所述PDF文档中识别所述图表截图缺少的所述标识并获取标识截图,包括:获取所述图表截图的截图位置;根据所述截图位置检测所述图表截图是否出现图表换页;若是,按照预定义的提取规则在所述图表截图所在页面的相邻页面上提取文字并进行正则分析,确定标题截图区域或来源截图区域,根据所述标题截图区域获取所述标题截图或根据所述来源截图区域获取所述来源截图;若否,利用所述识别模型对所述图表截图进行处理,确定标识区域,提取所述标识区域中的文字并进行正则分析,确定所述标题截图区域和/或所述来源截图区域,获取所述标题截图和/或所述来源截图。由于针对图表分页和标识识别结果出错分别给出获取标题截图、来源截图的方法,针对性强,使得提取的标题截图、来源截图更加准确,进一步地使得得到的第二图表能够包含图表对应的标题和来源,进而使得第二图表更加准确、信息更加全面。
另外,本发明实施方式提供的PDF文档的图表提取方法,还包括:若检测到所述图表截图未缺少所述标识,确定所述图表截图为所述第二图表。直接由识别模型的输出结果得到第二图表,提高了图表提取效率。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明的第一实施方式提供的PDF文档的图表提取方法的流程图;
图2是图1所示的本发明的第一实施方式提供的PDF文档的图表提取方法中步骤101的流程图;
图3是图1所示的本发明的第一实施方式提供的PDF文档的图表提取方法中涉及到的待处理子区域包含两个标题的示意图;
图4是图1所示的本发明的第一实施方式提供的PDF文档的图表提取方法中涉及到的待处理子区域包含两个来源的示意图;
图5是图1所示的本发明的第一实施方式提供的PDF文档的图表提取方法中步骤102的流程图;
图6是图1所示的本发明的第一实施方式提供的PDF文档的图表提取方法中步骤103的流程图;
图7是本发明的第二实施方式提供的PDF文档的图表提取方法的流程图;
图8是图7所示的本发明的第二实施方式提供的PDF文档的图表提取方法中步骤702的流程图一;
图9是图7所示的本发明的第二实施方式提供的PDF文档的图表提取方法中步骤702的流程图二;
图10是图7所示的本发明的第二实施方式提供的PDF文档的图表提取方法中步骤702的流程图三;
图11是本发明的第三实施方式提供的PDF文档的图表提取方法的流程图;
图12是本发明的第四实施方式提供的PDF文档的图表提取方法的流程图
图13是本发明的第五实施方式提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施方式涉及一种PDF文档的图表提取方法,应用在提取PDF文档中的信息的过程中,其流程如图1所示,包括:
步骤101,对PDF文档进行划分,获取若干个待处理子区域Box并根据Box获取图表的标识位置,其中,标识位置包括标题位置和来源位置。
在本实施方式中,PDF文档不仅包含文字,还包括图表,其中,图表包括图片、表格等。而且图表还携带标题和来源,标题位于图表的上方、来源位于图表的下方,因此可以通过获取标题位置和来源位置确定图表区域,图表区域包含图表、来源、标题。标题位置和来源位置可以是标题、来源所在PDF文档中的页码数和标题、来源在当前页面中的位置,还可以是标题、来源在整个PDF文档中的位置。
具体地,Box包括文本Box,则如图2所示,步骤101具体包括:
步骤201,对PDF文档进行划分,获取若干个文本Box。
具体地,将PDF文档按照直线、图像、表格、文本等不同类别的子对象所在区域划分不同的待处理子区域,此处只对文本感兴趣,因此具体的是获取其中的文本待处理子区域。
步骤202,获取文本Box的文字信息和文本位置。
具体地,对文本Box进行文本识别,得到文本Box中的文字信息,根据划分操作,得到Box的位置并作为文本位置。
更具体地,步骤201和步骤202可以通过以下方式实现:将PDF文档作为PDFMiner的输入,每个页面经过PDFMiner解析后可以输出每个页面的LTPage对象,其中,LTPage对象包括当前页面中的LTTextBox、LTFigure、LTImage、LTRect、LTCurve和LTLine等子对象,在本实施方式中,将每个子对象对应的待处理子区域均看作位置框,也就是Box,则上述子对象不仅包括文字信息或图像内容,还包括子对象的位置信息,如LTTextBox子对象(本发明中的文本Box)包括Box中的文字内容和Box的位置信息,位置信息可以是Box的左上角点和右下角点在某个PDF文档页面的坐标。相应地,下面提到的图片Box则LTImage子对象。
步骤203,根据文字信息对文本Box进行检测,获取标题Box和来源Box,其中,标题Box是包含标题的文本Box,来源Box是包含来源的文本Box。
具体地,图表的标题和来源具有典型的特征信息,如表x、xxx的变化曲线、数据来源等特征,通过正则分析等语义分析或特征检测的方法对文本Box的文字进行检测,从中获取包含标题的文本Box作为标题Box,包含来源的文本Box作为来源Box。
步骤204,根据文字信息判断是否满足标题Box只包含一个标题或来源Box只包含一个来源。
在本实施方式中,若是,执行步骤205,若否,执行步骤206。
具体地,进一步地,在包含标题或来源的基础上,检测标题特征、来源特征的数量进而判断是否只包含一个标题或一个来源。
步骤205,将标题Box的文本位置确定为标题位置或将来源Box的文本位置确定为来源位置。
具体地,若标题Box的文本位置用Box的左上角点和右下角点的坐标确定且为{(x1,y1),(x2,y2)},那么标题Box中的标题的位置为{(x1,y1),(x2,y2)},来源Box与上述方法大致相同,此处不一一赘述。
步骤206,综合分析文本信息和文本位置,获取标题Box中每个标题的标题位置、每个来源Box中每个来源的来源位置。
具体地,步骤206包括以下两种情况:
一种是,若根据文字信息检测到标题Box中包含n个标题,获取标题Box的文本位置之后的前n个来源Box的文本位置,若根据来源Box的文本位置检测到n个来源Box位于PDF文档中的同一行,根据标题Box和来源Box的文本位置获取标题Box中每个标题的标题位置。
更具体地说,如图3所示,以标题Box包含2个标题为例,标题Box包含两个标题——标题1和标题2,相应地在靠近标题Box且在标题Box之后有两个在PDF文档上距离最近来源Box分别包括了与标题1、标题2相对应的来源1和来源2,即包含来源1的来源Box1和包括来源2的来源Box2,若标题Box的位置是{(x1,y1),(x2,y2)},来源Box1的位置是{(x3,y3),(x4,y4)},来源Box2的位置是{(x5,y5),(x6,y6)},那么标题1的位置为{(x1,y1),(x5,y2)},标题2的位置信息为{(x5,y1),(x2,y2)}。
一种是,若根据文字信息检测到来源Box中包含m个来源,获取来源Box的文本位置之前的后m个标题Box的文本位置,若根据标题的文本位置检测到标题Box位于PDF文档中的同一行,根据来源Box和标题Box的文本位置获取来源Box中每个来源的来源位置。
更具体地说,如图4所示,以来源Box包含2个来源为例,来源Box包含两个来源——来源1和来源2,相应地在靠近来源Box且在来源Box之前有两个在PDF文档上距离最近的标题Box分别包括了与来源1、来源2相对应的标题1和标题2,即包含标题1的标题Box1和包括标题2的标题Box2,若来源Box的位置是{(x1,y1),(x2,y2)},标题Box1的位置信息是{(x3,y3),(x4,y4)},标题Box2的位置信息是{(x5,y5),(x6,y6)},那么来源1的位置信息为{(x1,y1),(x5,y2)},来源2的位置信息为{(x5,y1),(x2,y2)}。
上述两种情况由于直接使用PDF文档解析时获取的Box位置信息通过简单的计算就能够得到每个标题或来源的位置,不需要重新获取数据,也不需要再次使用文字识等方法,充分利用了现有资源,简化了处理步骤,避免了一个Box包含不止一个标题或者不止一个来源时出现的错误,从而避免了在PDF文档提取过程中可能由错误的标题位置和来源位置得到的错误的图表位置,最后得到错误的第一图表的情况,提高了PDF文档图表提取的正确性。
当然,以上两种情况仅为具体的举例说明,在实际的使用过程中,步骤206还可以包括其他情况,此处不做一一赘述。
上述步骤201-206由于将来源Box只包含一个来源或者标题Box只包含一个标题的情况和来源Box包含不止一个来源或者标题Box包含不止一个标题的情况分别提供了不同的处理方法,因地制宜地获取标题位置和来源位置,能够提高处理的针对性,高效地获取更加准确的标题位置和来源位置,进而提高图表识别的准确度。
需要说明的是,在一个实施例中将步骤101替换为步骤201-206,步骤205和步骤206之后均执行步骤102。
步骤102,根据标题位置和来源位置在去除页眉和页尾后的PDF文档中截图,获取第一图表。
在本实施方式中,去除页眉和页脚可以通过手动裁剪去除页眉和页尾,还可以是不断调整预设截取页眉页尾的高度阈值,然后根据满足条件的高度阈值去除页眉和页尾,其中,调整的方法是:统计根据高度阈值截取的图片的文件大小,如32KB、1.3MB,判断文件大小相同的图片的数据是否超过阈值,若超过阈值则调整高度阈值,否则,得到满意的高度阈值。当然,以上两种方法仅为具体的举例说明,在实际的使用过程中,还可以通过其他方式去除页眉页尾,此处不做一一赘述。
具体地,执行步骤101,获取标题位置和来源位置之后,可以利用标题位于图表上方、来源位于图表下方的特点,根据标题位置和来源位置确定包含完整标识的图表所在的区域,然后对该区域进行截图,得到第一图表。
需要说明的是,由于页眉和页尾会导致跨页(标题、图表、来源三者不在PDF文档的同一页面的场景)的图表在截图时,连同页眉和页尾一起处理,从而导致提取出来的图表还包含页眉、页尾,进而得到存在干扰信息的错误图表,因此,需要在去除页眉和页尾的PDF文档中进行截图。
更具体地说,如图5所示,步骤102可以包括:
步骤501,获取去除页眉和所述页尾时的PDF文档的页面位置变化值。
具体地,如去除页眉时截取了PDF文档每个页面最上方高度为2.5cm的区域,去除页尾时截取了PDF文档每个页面最下方高度为2.3cm的区域,那么页面变化值就是上方-2.5,下方-2.3。
步骤502,根据页面变化值更新标题位置和来源位置。
步骤503,根据更新后的标题位置和更新后的来源位置确定截图区域并截图,获取第一图表。
具体地,标题位置的左上角点作为截图区域的左上角点,来源的右下角点作为截图区域的右下角点,因此得到截图区域的左上角点和右下角点坐标,截取截图区域,就得到第一图表。
上述步骤501-503由于在去除页眉页尾之后更新了标题信息和来源信息,进一步更新了由标题信息和来源信息得到的图表位置,进一步使得得到的图表位置更加准确,使得第一图表更加准确,识别效果更好,提取出来的图表页更加准确。
步骤103,利用预设的识别模型处理PDF文档,获取图表截图。
在本实施方式中,识别模型可以是训练好的神经网络模型,如将PDF文档转化为图片,构成训练集,然后利用训练集训练Fast_RCNN模型,得到基于PDF文件的图表识别模型。
具体地,如图6所示,步骤103具体包括:
步骤601,利用识别模型处理PDF文档,获取图表标记框和图表标记框的置信度。
步骤602,将置信度不小于预设的置信阈值的图表标记框按照置信度从大到小进行排序,获取标记框序列。
具体地,置信阈值可以是根据实际情况设置的在区间(0,1)之间的一个数值。
步骤603,若检测到标记框序列中第i顺位的图表标记框与第k顺位的图表标记框相交且满足预设的面积阈值条件,删除第i顺位的图表标记框和第k顺位的图表标记框中面积较小的图表标记框。
需要说明的是,步骤603中的i和k满足i=1,2,…,x-1,x为标记框序列包含的标记框的数量,k=i+1,i+2,…,x。可以设定面积阈值条件为S(A∩B)<0.5×S(A∪B),其中,A、B是两个图表标记框,S(A∩B)、S(A∪B)分别是A∩B的面积和A∪B的面积。当然,上述面积阈值条件只是一种举例说明,还可以利用A和B的其他数据设置条件,此处不一一赘述。当满足了预设的阈值条件时,可以认为两个图标框是同一个图表的标记框,即产生重复标记,此时保留置信度较大的那个,能够提高得到的图表标记框的可靠性,进而提高利用图表标记框得到的第二图表的准确性。
步骤604,根据标记框序列中剩下的图表标记框在PDF文档转化的图片上截图,获取图表截图。
上述步骤601-604由于使用识别模型且删除识别模型输出的结果中不可靠、重合的部分,在保证有效的图表截图的前提下减少了后续处理的图表截图的数量,提高了后续处理的效率。
步骤104,检测图表截图是否缺少标识。
在本实施方式中,若是,执行步骤105,若否,执行步骤107。
具体地,标识一般指标题和来源。标题文字下方一般存在一条横线,基于此,检测图表截图中的标题的方法是:识别图表截图中的直线,获取直线位置信息,然后根据直线位置信息获取标题区域,接着对标题区域进行文本识别,获取第一分析结果。另外标题和来源都具有一些特征文字信息,可以通过正则分析确定是否是标题或者来源,基于此,检测图表截图中的标题和来源的方法是:提取图表截图中的文字并进行正则分析,获取对标题和来源的第二分析结果。最后根据第一分析结果和第二分析结果检测图表截图中的标识。
步骤105,在PDF文档中识别图表截图缺少的标识并获取标识截图。
具体地,步骤105存在以下两种情况:
一种是:图标换页。
具体地,按照预定义的提取规则在图表截图所在页面的相邻页面上提取文字并进行正则分析,确定标题截图区域或来源截图区域,根据标题截图区域获取标题截图或根据来源截图区域获取来源截图。
更具体地,设置提取规则为:若缺失标题,那么在上一页面的下端的占整个页面的最后30%的区域提取;若缺失来源,那么在下一页面的上端的整个页面的最先的30%的区域提取。提取时利用工具pdftotext从给区域的最后一行向上提取文本,然后对得到的文本进行正则分析,解析文字信息,识别第一个标题或来源的位置并根据位置进行截图。
一种是:图表截图实际存在标题、来源,但是,在检测时未识别到。
具体地,利用识别模型对图表截图进行处理,确定标识区域,提取标识区域中的文字并进行正则分析,确定标题截图区域和/或来源截图区域,获取标题截图和/或来源截图。
更具体地说,利用Fast-RCNN训练得到的识别模型对图表截图进一步识别,得到步骤104认定的缺少的标题的区域和/或缺少的来源的区域,然后在该区域利用pdftotext获取文字,用正则分析得到标题或来源,并进行截图。需要说明的是,若上述方法不可行,还可以利用OCR模型直接识别图表截图得到标题或来源,然后截图。
上述两种情况是针对图表分页和标识识别结果出错分别给出获取标题截图、来源截图的对应的解决方法,针对性强,使得提取的标题截图、来源截图更加准确,进一步地使得得到的第二图表能够包含图表对应的标题和来源,进而使得第二图表更加准确、信息更加全面。
需要说明的是,适用上述哪种情况是根据判断是否图标换页得到,判断的方法是:获取图表截图的截图位置,根据截图位置检测图表截图对应的图表是否出现图表跨页(图表和标题或图表和来源不在同一页眉上)。更具体地说,根据位置信息判断图表截图是否位于整个PDF文档当前页面的上方0.12h,其中,h是PDF文档每个页面的长度。当然,0.12h只是一种具体的举例说明,还可以是其他数据。
步骤106,组合图表截图和标识截图,获取第二图表。
步骤107,确定图表截图为第二图表。
步骤108,根据第一图表和第二图表获取实际提取图表。
具体地,删除第一图表和第二图表重复部分,剩下的就是实际提取图表,相当于利用第二图表来补充第一图表未识别到的PDF文档中的图表,使得得到的结果更加完整。
需要说明的是,第一图表和第二图表结合得到实际提取图表是一种优选的方案,实际上,第一图表和第二图表也可以单独作为实际提取图表,也就是,上述步骤101和步骤102就可以组合得到一个PDF文档的图表提取方案,上述步骤103和步骤104又可以组合得到另一个PDF文档的图表提取方案。
本发明实施方式相对于现有技术而言,通过对PDF文档进行划分,能够获取若干个待处理子区域Box,接着进一步根据Box获取标题位置和来源位置,使得能够根据标题位置和来源位置准确地识别到图表所在区域,从而在去除页眉页尾之后的PDF文档中截图,得到准确的包含标题和来源的第一图表,然后利用图表识别模型对PDF文档中的图表进行识别,得到图表截图,利用识别模型,使得PDF文档的处理效率得到提高,而且会对图表截图是否缺少标识进行检测,在检测到图表截图缺少标识时能够获取标识截图,并与图表截图进行组合得到包含完整图表信息的第二图表,保证了第二图表的完整性,最后通过第一图表和第二图表得到实际提取图表,能够在第一图表的基础上进一步补充PDF文档中的图表识别结果,且第一图表和第二图表均包含标题和来源,信息更加完整,提高了图表识别的准确率,改善了识别效果。
本发明的第二实施方式涉及一种PDF文档的图表提取方法,该方法与第一实施方式提供的PDF文档的图表提取方法基本相同,其区别在于,在步骤101之后、步骤102之前还提供一种新的去除PDF文档中的页眉和页尾的方法,如图7所示,包括:
步骤701,获取PDF文档中位于页眉高度阈值和页尾高度阈值内的Box。
步骤702,根据Box获取页眉Box和页尾Box。
具体地,步骤702存在三种情况以下三种情况:
一种是,Box为图片Box。
如图8所示,步骤702包括:
步骤801,获取图片Box中的图片的文件名和图片位置。
需要说明的是,图片的文件名和图片位置可以是PDFMiner解析得到的,此时,图片位置实际上识别出来的图片框的位置。
步骤802,根据文件名分别统计位于页眉高度阈值内和位于页尾高度阈值内的同名图片的数量。
需要说明的是,同名图片是指文件名相同的图片。
步骤803,根据图片位置分别统计位于页眉高度阈值内和位于页尾高度阈值内的重复图片的数量。
需要说明的是,重复图片是在页面中占用相同区域的图片。
步骤804,若同名图片Box的数量超过预设的第一数量阈值,将位于页眉高度阈值内的同名图片Box确定为页眉Box并将位于页尾高度阈值内的同名图片Box确定为页尾Box。
具体地,假如设置第一数量阈值为0.4*page_count,其中page_count为PDF文档的页数,在某一文件名下的图片文件的数量超过0.4*page_count时才保存该名称下的同名图片Box,其中,位于页眉高度阈值内的同名图片Box是页眉Box,位于页尾高度阈值内的同名图片Box是页尾Box。特别地,可以将每个页眉ox和页尾Box都保存两份,从而保证后续处理若存在删除步骤时不会出现所有页眉Box和页尾Box都被删掉的情况。
步骤805,若重复图片的数量超过预设的第二数量阈值,将位于页眉高度阈值内的重复图片Box确定为页眉Box并将位于页尾高度阈值内的重复图片Box确定为页尾Box。
具体地,假如设置第二数量阈值为0.5*page_count,其中page_count为PDF文档的页数,在某一重复情况下的重复图片Box的数量超过0.5*page_count时,才保存该重复情况下的重复图片Box,其中,位于页眉高度阈值内的重复图片Box是页眉Box,位于页尾高度阈值内的重复图片Box是页尾Box。特别地,可以将每个页眉Box和页尾Box都保存两份,从而保证后续处理若存在删除步骤时不会出现所有页眉Box和页尾Box都被删掉的情况。
上述情况在处理页眉或者页尾包含LOGO等图片时,效果最佳。
另一种是,Box为文本Box。
如图9所示,步骤702包括:
步骤901,获取文本Box的文字信息和文本位置。
步骤902,根据文字信息分别统计位于页眉高度阈值内和位于页尾高度阈值内的相同文本的数量。
需要说明的是,相同文本是文本信息相同的文本。
步骤903,根据文本位置分别统计位于页眉高度阈值内和位于页尾高度阈值内的相似文本的数量。
需要说明的是,相似文本是占用相同页面区域的文本。
步骤904,若相同文本的数量超过预设的第三数量阈值,将位于页眉高度阈值内的相同文本Box确定为页眉Box并将位于页尾高度阈值内的相同文本Box确定为页尾Box。
具体地,假如设置第一数量阈值为0.45*page_count,其中page_count为PDF文档的页数,在某一文字信息下的相同文本的数量超过0.45*page_count时才保存该文字信息下的相同文本Box,其中,位于页眉高度阈值内的相同文本Box是页眉Box,位于页尾高度阈值内的相同文本Box是页尾Box。特别地,可以将每个页眉Box和页尾Box都保存两份,从而保证后续处理若存在删除步骤时不会出现所有页眉Box和页尾Box都被删掉的情况。
步骤905,若相似文本的数量超过预设的第四数量阈值,将位于页眉高度阈值内的相似文本Box确定为页眉Box并将位于页尾高度阈值内的相似文本Box确定为页尾Box。
具体地,假如设置第一数量阈值为0.55*page_count,其中page_count为PDF文档的页数,在某一文本位置下的相似文本的数量超过0.55*page_count时才保存该文本位置下的相似文本Box,其中,位于页眉高度阈值内的相似文本Box是页眉Box,位于页尾高度阈值内的相似文本Box是页尾Box。特别地,可以将每个页眉Box和页尾Box都保存两份,从而保证后续处理若存在删除步骤时不会出现所有页眉Box和页尾Box都被删掉的情况。
还有一种是,Box为文本Box且预定义了页眉特征信息和页尾特征信息。
如图10所示,步骤702包括:
步骤1001,获取文本Box的文字信息。
步骤1002,若检测到位于页眉高度阈值内的Box的文字信息携带预定义的页眉特征信息,将Box确定为页眉Box。
具体地,页眉特征信息可以是PDF文档主题、文档作者等。
步骤1003,若检测到位于页尾高度阈值内的Box的文字信息携带预定义的页尾特征信息,将Box确定为页尾Box。
具体地,页尾特征信息可以是免责、重要、评级、声明、说明、信息披露、免责条款、最后一页、正文之后、[末尾]页等字符。
需要说明的是,可以将每个页眉Box和页尾Box都保存两份,从而保证后续处理若存在删除步骤时不会出现所有页眉Box和页尾Box都被删掉的情况。
需要说明的是,基于上述步骤702的三种具体的情况,还存在更优的选择如将三种情况两两组合、三种情况综合执行,可以互相补充,得到更多的页眉Box和页尾Box,进一步提高页眉阈值高度和页尾阈值高度的准确性。
步骤703,对页眉Box和页尾Box分别进行筛选,获取实际页眉Box和实际页尾Box。
具体地,筛选的方法是:对页眉Box和页尾Box分别按照高度从大到小进行排序,确定第二顺位的页眉Box为实际页眉Box并确定第二顺位的页尾Box为实际页尾Box。
需要说明的是,上述筛选第二顺位的页眉Box和页尾Box作为实际页眉Box和实际页尾Box只是为了避免第一顺位为极端影响因素而提出的方案,实际上还可以利用中位数原理将页眉Box和页尾Box作为实际页眉Box和实际页尾Box,还可以求取平均值做为高度阈值,而不再执行步骤704。
步骤704,根据实际页眉Box的高度更新页眉高度阈值并根据实际页尾Box的高度更新页尾高度阈值。
步骤705,根据更新后的页眉高度阈值和页尾高度阈值去除页眉和页尾,获取去除页眉和页尾后的PDF文档。
本发明实施方式相对于现有技术而言,在实现第一实施方式带来的有益效果基础上,相对于现有技术中常用的去除页眉页尾的方法:设置初始高度阈值,根据高度阈值在PDF文档中截图获取图片,并通过循环检测图片文件的方式来调整高度阈值,本申请由于不进行截图,也不采用循环和较为复杂的计算,只需要通过统计和筛选页眉Box和页尾Box就能够获取准确的页眉、页尾高度阈值,然后根据准确的页眉、页尾高度阈值准确地去除页眉和页尾,既减小了计算量和消耗的时间,提高了识别和处理的速度,有不需要存储图片文件节约了存储资源,还能够得到适宜、准确的页眉、页尾高度阈值,不会过多或过少地去除PDF文档中页眉页尾区域。进一步地,还提高了PDF文档提取图表的准确性、处理效率。
本发明的第三实施方式涉及一种PDF文档的图表提取方法,该方法与第一实施方式提供的PDF文档的图表提取方法基本相同,其区别在于,还对第一图表进一步处理,如图11所示,步骤102之后还包括:
步骤1101,对第一图表进行直线检测,获取第一标记直线。
具体地,利用OpenCV对第一图表进行直线检测,当然也可以用其他具有直线检测功能的工具进行直线检测。
步骤1102,若第一标记直线超过预设的长度阈值,遮盖第一标记直线。
具体地,设置长度阈值为L=0.8W,其中,L是长度阈值,W是第一图表的宽度,然后将长度达到L的直线用白色填充。需要说明的是,长度阈值为L=0.8W只是一种长度阈值的设置方法,还可以是其他根据实际情况设置的其他判断是否遮盖第一标记直线的条件。
步骤1103,对遮盖处理后的第一图表进行边缘检测,获取边缘标记框。
步骤1104,删除重合的边缘标记框后对相交的边缘标记框进行拼接,获取拼接框。
具体地,将执行步骤1103得到的边缘标记框按照面积大小进行排序,删除重合的边缘标记框,然后对相交的边缘标记框进行拼接,即取两两相交的边缘标记框的最左上角点和最右下角点构成一个大框,得到的大框就是拼接框。
步骤1105,根据拼接框更新第一图表。
具体地,将得到的拼接框继续拼接得到图片。
更具体地,使标题、图表、来源的边缘检测框的宽度一致,再根据边缘检测框所在的位置依次截图,最后按照标题、图表、来源的顺序从上至下依次拼接成图。
本发明实施方式相对于现有技术而言,在实现第一实施方式带来的有益效果基础上,由于对第一图表进一步处理,尤其是能够通过边缘检测和边缘标记框的筛选将图表信息集中的区域和留白区域区分开,进一步地处理掉第一图表中的留白区域,能够更加准确地锁定图表的位置,使得图表信息在呈现时更加集中、准确,同时对图标进行拼接,使得得到的图表更加整洁、统一,改善了第一图表的识别效果和展示效果。
需要说明的是上述的第二实施方式和第三实施方式实际上是针对获取第一图表进行的优化,而不涉及第二图表,因此,第二实施方式和第三实施方式实际上是对在将第一图表直接作为实际提取图表的实施方式,还可以看作对步骤101和步骤102组成的技术方案的改进。
本发明的第四实施方式涉及一种PDF文档的图表提取方法,该方法与第一实施方式提供的PDF文档的图表提取方法基本相同,其区别在于,还需要检测图表截图是否完整,如图12所示,步骤103之后还包括:
步骤1201,将图表截图映射到PDF文档转化的图片中,获取与图标截图上方相接和/或下方相接的像素点的像素值。
步骤1202,检测像素值是否为固定值。
具体地,若是,执行步骤1203,若否,执行步骤104。
需要说明的是,在截取图表时可能会出现标题或者来源只截取了部分,如只截取标题文字的下半部分,此时由于标题的上半部分遗留在PDF文档转化的图片上,而不是截取完整时的空白区域,像素值就不会是恒值,当该位置为空白时像素值才是恒值。
步骤1203,将像素点添加到图表截图中,更新图表截图。
本发明实施方式相对于现有技术而言,在实现第一实施方式带来的有益效果基础上,通过检测像素点的像素值是否变化来检测图表截图是否将标题、来源部分截取完整,使得图表截图的信息更加完整,提高截图的准确性,进一步地使得得到的第二图表能够包含图表对应的标题和来源,进而使得第二图表更加准确、信息更加全面。
需要说明的是,上述第四实施方式是对获取第二图表的过程进行的优化,不涉及第一图表,因此,第四实施方式实际上是对在将第二图表直接作为实际提取图表的实施方式,还可以看作是对步骤103和步骤104组成的技术方案的改进。
本发明第五实施方式涉及一种电子设备,如图13所示,包括:
至少一个处理器1301;以及,
与所述至少一个处理器1701通信连接的存储器1302;其中,
所述存储器1302存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器1301执行,以使所述至少一个处理器1301能够执行本发明第一至第四实施方式所述的PDF文档的图表提取方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明第六实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (10)
1.一种PDF文档的图表提取方法,其特征在于,包括:
对所述PDF文档进行划分,获取若干个待处理子区域Box并根据所述Box获取图表的标识位置,其中,所述标识位置包括标题位置和来源位置;
根据所述标题位置和所述来源位置在去除页眉和页尾后的所述PDF文档中截图,获取第一图表;
利用预设的识别模型处理所述PDF文档,获取图表截图;
若检测到所述图表截图缺少标识,在所述PDF文档中识别所述图表截图缺少的所述标识并获取标识截图,组合所述图表截图和所述标识截图,获取第二图表;
根据所述第一图表和所述第二图表获取实际提取图表。
2.根据权利要求1所述的方法,其特征在于,所述Box包括文本Box,所述根据所述Box获取图表的标识位置,其中,所述标识位置包括标题位置和来源位置,包括:
获取所述文本Box的文字信息和文本位置;
根据所述文字信息对所述文本Box进行检测,获取标题Box和来源Box,其中,所述标题Box是包含标题的所述文本Box,所述来源Box是包含来源的所述文本Box;
根据所述文字信息判断是否满足所述标题Box只包含一个所述标题或所述来源Box只包含一个所述来源;
若是,将所述标题Box的所述文本位置确定为所述标题位置或将所述来源Box的所述文本位置确定为所述来源位置;
若否,综合分析所述文本信息和所述文本位置,获取所述标题Box中每个所述标题的所述标题位置、每个所述来源Box中每个所述来源的所述来源位置。
3.根据权利要求2所述的方法,其特征在于,所述综合分析所述文本信息和所述文本位置,获取所述标题Box中每个所述标题的所述标题位置、每个所述来源Box中每个所述来源的所述来源位置,包括:
若根据所述文字信息检测到所述标题Box中包含n个所述标题,获取所述标题Box的所述文本位置之后的前n个所述来源Box的所述文本位置,若根据所述来源Box的所述文本位置检测到n个所述来源Box位于所述PDF文档中的同一行,根据所述标题Box和所述来源Box的所述文本位置获取所述标题Box中每个所述标题的所述标题位置;
若根据所述文字信息检测到所述来源Box中包含m个所述来源,获取所述来源Box的所述文本位置之前的后m个所述标题Box的所述文本位置,若根据所述标题的所述文本位置检测到所述标题Box位于所述PDF文档中的同一行,根据所述来源Box和所述标题Box的所述文本位置获取所述来源Box中每个所述来源的所述来源位置。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取所述PDF文档中位于页眉高度阈值和页尾高度阈值内的所述Box;
根据所述Box获取页眉Box和页尾Box;
对所述页眉Box和所述页尾Box分别进行筛选,获取实际页眉Box和实际页尾Box;
根据所述实际页眉Box的高度更新所述页眉高度阈值并根据所述实际页尾Box的高度更新所述页尾高度阈值;
根据更新后的所述页眉高度阈值和所述页尾高度阈值去除所述页眉和所述页尾,获取去除页眉和页尾后的所述PDF文档。
5.根据权利要求4所述的方法,其特征在于,所述Box包括图片Box,所述根据所述Box获取页眉Box和页尾Box,包括:
获取所述图片Box中的图片的文件名和图片位置;
根据所述文件名分别统计位于所述页眉高度阈值内和位于所述页尾高度阈值内的同名图片Box的数量,其中,所述同名图片Box是所述文件名相同的所述图片Box;
根据所述图片位置分别统计位于所述页眉高度阈值内和位于所述页尾高度阈值内的重复图片Box的数量,其中,所述重复图片Box是在页面中占用相同区域的图片Box;
若所述同名图片Box的数量超过预设的第一数量阈值,将位于所述页眉高度阈值内的所述同名图片Box确定为所述页眉Box并将位于所述页尾高度阈值内的所述同名图片Box确定为所述页尾Box;
若所述重复图片的数量超过预设的第二数量阈值,将位于所述页眉高度阈值内的所述重复图片Box确定为所述页眉Box并将位于所述页尾高度阈值内的所述重复图片Box确定为所述页尾Box。
6.根据权利要求4所述的方法,其特征在于,所述Box包括文本Box,所述根据所述Box获取页眉Box和页尾Box,包括:
获取所述文本Box的文字信息和文本位置;
根据所述文字信息分别统计位于所述页眉高度阈值内和位于所述页尾高度阈值内的相同文本Box的数量,其中,所述相同文本Box是所述文字信息相同的文本Box;
根据所述文本位置分别统计位于所述页眉高度阈值内和位于所述页尾高度阈值内的相似文本Box的数量,其中,所述相似文本Box是在所述PDF文档中占用相同页面区域的文本Box;
若所述相同文本的数量超过预设的第三数量阈值,将位于所述页眉高度阈值内的所述相同文本Box确定为所述页眉Box并将位于所述页尾高度阈值内的所述相同文本Box确定为所述页尾Box;
若所述相似文本的数量超过预设的第四数量阈值,将位于所述页眉高度阈值内的所述相似文本Box确定为所述页眉Box并将位于所述页尾高度阈值内的所述相似文本Box确定为所述页尾Box。
7.根据权利要求1所述的方法,其特征在于,所述根据所述标题位置和所述来源位置在去除页眉和页尾后的所述PDF文档中截图,获取第一图表,包括:
获取去除所述页眉和所述页尾时的所述PDF文档的页面位置变化值;
根据所述页面变化值更新所述标题位置和所述来源位置;
根据更新后的所述标题位置和更新后的所述来源位置确定截图区域并截图,获取所述第一图表。
8.根据权利要求1所述的方法,其特征在于,还包括:
对所述第一图表进行直线检测,获取第一标记直线;
若所述第一标记直线超过预设的长度阈值,遮盖所述第一标记直线;
对遮盖处理后的所述第一图表进行边缘检测,获取边缘标记框;
删除重合的所述边缘标记框后对相交的所述边缘标记框进行拼接,获取拼接框;
根据所述拼接框更新所述第一图表。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任意一项所述的PDF文档的图表提取方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的PDF文档的图表提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011449003.5A CN112464626B (zh) | 2020-12-09 | 2020-12-09 | Pdf文档的图表提取方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011449003.5A CN112464626B (zh) | 2020-12-09 | 2020-12-09 | Pdf文档的图表提取方法、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464626A true CN112464626A (zh) | 2021-03-09 |
CN112464626B CN112464626B (zh) | 2022-04-01 |
Family
ID=74801880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011449003.5A Active CN112464626B (zh) | 2020-12-09 | 2020-12-09 | Pdf文档的图表提取方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464626B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111858A (zh) * | 2021-05-12 | 2021-07-13 | 数库(上海)科技有限公司 | 自动检测图片中表格的方法、装置、设备和存储介质 |
CN113190500A (zh) * | 2021-04-23 | 2021-07-30 | 广东云智安信科技有限公司 | 一种基于互联网报告的情报积累归档系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589841A (zh) * | 2016-01-15 | 2016-05-18 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
CN106951400A (zh) * | 2017-02-06 | 2017-07-14 | 北京因果树网络科技有限公司 | 一种pdf文件的信息抽取方法及装置 |
CN107689070A (zh) * | 2017-08-31 | 2018-02-13 | 平安科技(深圳)有限公司 | 图表数据结构化提取方法、电子设备及计算机可读存储介质 |
CN107818075A (zh) * | 2017-10-16 | 2018-03-20 | 平安科技(深圳)有限公司 | 表格信息结构化提取方法、电子设备及计算机可读存储介质 |
CN108038426A (zh) * | 2017-11-29 | 2018-05-15 | 阿博茨德(北京)科技有限公司 | 一种提取文件中图表信息的方法及装置 |
US20190361972A1 (en) * | 2018-05-24 | 2019-11-28 | PAI TECH Company Limited | Method, apparatus, device for table extraction based on a richly formatted document and medium |
-
2020
- 2020-12-09 CN CN202011449003.5A patent/CN112464626B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589841A (zh) * | 2016-01-15 | 2016-05-18 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
CN106951400A (zh) * | 2017-02-06 | 2017-07-14 | 北京因果树网络科技有限公司 | 一种pdf文件的信息抽取方法及装置 |
CN107689070A (zh) * | 2017-08-31 | 2018-02-13 | 平安科技(深圳)有限公司 | 图表数据结构化提取方法、电子设备及计算机可读存储介质 |
CN107818075A (zh) * | 2017-10-16 | 2018-03-20 | 平安科技(深圳)有限公司 | 表格信息结构化提取方法、电子设备及计算机可读存储介质 |
CN108038426A (zh) * | 2017-11-29 | 2018-05-15 | 阿博茨德(北京)科技有限公司 | 一种提取文件中图表信息的方法及装置 |
US20190361972A1 (en) * | 2018-05-24 | 2019-11-28 | PAI TECH Company Limited | Method, apparatus, device for table extraction based on a richly formatted document and medium |
CN110532834A (zh) * | 2018-05-24 | 2019-12-03 | 北京庖丁科技有限公司 | 基于富文本格式文档的表格提取方法、装置、设备和介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190500A (zh) * | 2021-04-23 | 2021-07-30 | 广东云智安信科技有限公司 | 一种基于互联网报告的情报积累归档系统及方法 |
CN113111858A (zh) * | 2021-05-12 | 2021-07-13 | 数库(上海)科技有限公司 | 自动检测图片中表格的方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112464626B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020192391A1 (zh) | 基于ocr的图像转档方法、装置、设备及可读存储介质 | |
CN109657221B (zh) | 一种文档段落排序方法、排序装置、电子设备及存储介质 | |
CN112464626B (zh) | Pdf文档的图表提取方法、电子设备和存储介质 | |
JP5511450B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP6590355B1 (ja) | 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム | |
CN110399291A (zh) | 基于图像识别的用户页面测试方法及相关设备 | |
CN112884764A (zh) | 提取图像中地块的方法、装置、电子设备及存储介质 | |
CN114296662B (zh) | 基于网页的表格文书分页打印方法、装置及其应用 | |
EP2790111A1 (en) | Method and device for acquiring structured information in layout file | |
CN106846961A (zh) | 电子试卷的处理方法和装置 | |
US10762377B2 (en) | Floating form processing based on topological structures of documents | |
US9535880B2 (en) | Method and apparatus for preserving fidelity of bounded rich text appearance by maintaining reflow when converting between interactive and flat documents across different environments | |
CN115828874A (zh) | 基于图像识别技术的行业表格数字化处理方法 | |
CN107908843B (zh) | 基于图签信息提取的管理系统 | |
JP2011070558A (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
US10095677B1 (en) | Detection of layouts in electronic documents | |
CN113283231B (zh) | 获取签章位的方法、设置系统、签章系统及存储介质 | |
CN112947826B (zh) | 信息获取方法、装置及电子设备 | |
CN111079709B (zh) | 一种电子单据的生成方法、装置、计算机设备和存储介质 | |
CN107861931B (zh) | 模板文件处理方法、装置、计算机设备和存储介质 | |
CN114037828A (zh) | 组件识别方法、装置、电子设备及存储介质 | |
CN111382552B (zh) | 排版处理方法、装置、设备和存储介质 | |
CN113936187A (zh) | 文本图像合成方法、装置、存储介质及电子设备 | |
CN109739981B (zh) | 一种pdf文件类别判定方法及文字提取方法 | |
CN112312189B (zh) | 一种视频生成方法及视频生成系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210309 Assignee: Shanghai Chenghong Investment Consulting Co.,Ltd. Assignor: Shanghai Jining Computer Technology Co.,Ltd. Contract record no.: X2023310000008 Denomination of invention: Chart extraction methods, electronic devices and storage media of PDF documents Granted publication date: 20220401 License type: Common License Record date: 20230112 |