CN107688788B

CN107688788B - 文档图表抽取方法、电子设备及计算机可读存储介质

Info

Publication number: CN107688788B
Application number: CN201710776352.XA
Authority: CN
Inventors: 王鸿滨; 王晓伟; 汪伟; 苏晓明; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2021-01-08
Anticipated expiration: 2037-08-31
Also published as: CN107688788A; WO2019041526A1

Abstract

本发明公开了一种文档图表抽取方法，该方法包括步骤：获取指定文档中所有文字的位置信息，并根据所有文字的位置信息获取该指定文档中的文字分布信息；分析该指定文档中的文字分布信息，判断出该指定文档中文字分布密度较低的区域、或/及无文字分布的区域，并将所述文字分布密度较低的区域、或/及无文字分布的区域标记为候选图表区域；将所述标记的候选图表区域转换为图片，并从转换后的图片中筛选出包含图表信息的图片，作为该指定文档中抽取出的图表。本发明可以提升图表抽取的效率和覆盖面。

Description

文档图表抽取方法、电子设备及计算机可读存储介质

技术领域

本发明涉及计算机信息技术领域，尤其涉及一种文档图表抽取方法、电子设备及计算机可读存储介质。

背景技术

现有的PDF图表抽取工具及程序大多是基于PDF存储对象的，这种方式仅能抽取作为单独图片对象存储的图表，而在一个PDF文档中，含有较多的图表信息(如Office图表等)，这些图表都能直观地表达出文档中的部分信息。然而，现有的PDF图表抽取工具及程序对于Office图表等由多个部分组成的图表则无法正确抽取。故，现有技术中的文档图表抽取方法设计不够合理，亟需改进。

发明内容

有鉴于此，本发明提出一种文档图表抽取方法、电子设备及计算机可读存储介质，通过文本密度分析从PDF文档中抽取图表，提升了图表抽取的效率和覆盖面。

首先，为实现上述目的，本发明提出一种电子设备，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文档图表抽取系统，所述文档图表抽取系统被所述处理器执行时实现如下步骤：

获取指定文档中所有文字的位置信息，并根据所有文字的位置信息获取该指定文档中的文字分布信息；

分析该指定文档中的文字分布信息，判断出该指定文档中文字分布密度较低的区域、或/及无文字分布的区域，并将所述文字分布密度较低的区域、或/及无文字分布的区域标记为候选图表区域；及

将所述标记的候选图表区域转换为图片，并从转换后的图片中筛选出包含图表信息的图片，作为该指定文档中抽取出的图表。

优选地，所述判断出该指定文档中文字分布密度较低的区域包括：若一行文字的长度小于第一阀值，则判断出该行文字分布密度较低，并清洗该行文字。

优选地，所述判断出该指定文档中无文字分布的区域包括：对该指定文档中每一页从上到下进行扫描，若超过第二阀值宽度的区域没有扫描到文字，则判断出该区域为无文字分布的区域。

优选地，所述从转换后的图片中筛选出包含图表信息的图片包括：通过像素分布分析，对转换后的图片进行筛选，选择出包含图表信息的图片。

优选地，所述从转换后的图片中筛选出包含图表信息的图片包括：

对该转换后的图片进行灰度处理，将该转换后的图片转换为灰度图；

按行统计该灰度图中黑色像素点的数量和比例，若一行中黑色像素点的数量和比例超过指定阈值，则判定该行包含有具体内容；及

统计包含有具体内容的行的数量，若包含有具体内容的行数大于或等于设定阈值，则判定该转换后的图片为一张包含图表信息的图片。

此外，为实现上述目的，本发明还提供一种文档图表抽取方法，该方法应用于电子设备，所述方法包括：

优选地，所述判断出该指定文档中文字分布密度较低的区域包括：若一行文字的长度小于第一阀值，则判断出该行文字分布密度较低，并清洗该行文字；及

所述判断出该指定文档中无文字分布的区域包括：对该指定文档中每一页从上到下进行扫描，若超过第二阀值宽度的区域没有扫描到文字，则判断出该区域为无文字分布的区域。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有文档图表抽取系统，所述文档图表抽取系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述的文档图表抽取方法的步骤。

相较于现有技术，本发明所提出的电子设备、文档图表抽取方法及计算机可读存储介质，通过文本密度分析从PDF文档中抽取图表，该方法除了能提取传统方法能抽取的图表外，还能提取出传统方法无法提取的Office图表信息等由多个部分组成的图表，提升了图表抽取的效率和覆盖面。

附图说明

图1是本发明电子设备一可选的硬件架构的示意图；

图2是本发明电子设备中文档图表抽取系统一实施例的程序模块示意图；

图3为本发明文档图表抽取方法一实施例的实施流程示意图。

附图标记：

电子设备	2
		存储器	21
处理器	22
		网络接口	23
文档图表抽取系统	20
		获取模块	201
分析模块	202
		抽取模块	203
流程步骤	S31-S33

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

进一步需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

首先，本发明提出一种电子设备2。

参阅图1所示，是本发明电子设备2一可选的硬件架构的示意图。本实施例中，所述电子设备2可包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23。需要指出的是，图1仅示出了具有组件21-23的电子设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述电子设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备，该电子设备2可以是独立的服务器，也可以是多个服务器所组成的服务器集群。

所述存储器21至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器21可以是所述电子设备2的内部存储单元，例如该电子设备2的硬盘或内存。在另一些实施例中，所述存储器21也可以是所述电子设备2的外部存储设备，例如该电子设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括所述电子设备2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器21通常用于存储安装于所述电子设备2的操作系统和各类应用软件，例如所述文档图表抽取系统20的程序代码等。此外，所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子设备2的总体操作，例如执行与所述电子设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的文档图表抽取系统20等。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述电子设备2与其他电子设备之间建立通信连接。例如，所述网络接口23用于通过网络将所述电子设备2与外部数据平台相连，在所述电子设备2与外部数据平台之间的建立数据传输通道和通信连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

至此，己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面，将基于上述应用环境和相关设备，提出本发明的各个实施例。

参阅图2所示，是本发明电子设备2中文档图表抽取系统20一实施例的程序模块图。本实施例中，所述的文档图表抽取系统20可以被分割成一个或多个程序模块，所述一个或者多个程序模块被存储于所述存储器21中，并由一个或多个处理器(本实施例中为所述处理器22)所执行，以完成本发明。例如，在图2中，所述的文档图表抽取系统20可以被分割成获取模块201、分析模块202、以及抽取模块203。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述文档图表抽取系统20在所述电子设备2中的执行过程。以下将就各程序模块201-203的功能进行详细描述。

所述获取模块201，用于获取指定文档(如PDF文档)中所有文字的位置信息，并根据所有文字的位置信息获取该指定文档中的文字分布信息。

优选地，在本实施例中，所述文字的位置信息包括，但不限于，文字的横向坐标、纵向坐标、与上一行文字的纵向距离、及与下一行文字的纵向距离等。所述文字分布信息包括，但不限于，每一行文字的左上角坐标，该行文字的长度和宽度等。

所述分析模块202，用于分析该指定文档中的文字分布信息，判断出该指定文档中文字分布密度较低的区域、或/及无文字分布的区域，并将所述文字分布密度较低的区域、或/及无文字分布的区域标记为候选图表区域。

优选地，在本实施例中，所述判断出该指定文档中文字分布密度较低的区域包括：若一行文字的长度小于第一阀值(如5个字符单位长度)，则判断出该行文字分布密度较低，并清洗(删除)该行文字。清洗后的该行文字变成了一个无文字分布的区域。

优选地，在本实施例中，所述判断出该指定文档中无文字分布的区域包括：对该指定文档中每一页从上到下进行扫描，若超过第二阀值宽度(如2个字符单位宽度)的区域没有扫描到文字，则判断出该区域为无文字分布的区域。

所述抽取模块203，用于将所述标记的候选图表区域转换为图片，并从转换后的图片中筛选出包含图表信息的图片，作为该指定文档中抽取出的图表。在本实施例中，可以使用特定的图片处理工具(如ImageMagick工具)将所述标记的候选图表区域转换为图片。

优选地，在本实施例中，所述从转换后的图片中筛选出包含图表信息的图片包括：通过像素分布分析(或内容丰富程度分析)，对转换后的图片进行筛选，选择出包含图表信息(如PDF图表信息)的图片。由于无文字区域有两种情况：一种是图表，一种是页面的空白区域，通过对图片的像素分布分析，可以判断出是这两种情况中的哪一种。

具体而言，通过像素分布分析从转换后的图片中筛选出包含图表信息的图片包括：

(1)对该转换后的图片进行灰度处理(如通过应用程序Python中的Opencv模块进行灰度处理)，将该转换后的图片转换为灰度图。在该灰度图中，图片的每个像素点都被表示为0或255。其中，0代表黑色，为图片中有信息内容的像素点，255代表白色，为图片中空白的像素点。

(2)按行统计该灰度图中黑色像素点的数量和比例，若一行中黑色像素点的数量和比例超过指定阈值(如数量超过5，比例超过50％)，则判定该行包含有具体内容。

(3)统计包含有具体内容的行的数量，以此来判定图片中内容的丰富程度，包含有具体内容的行越多，则代表该图片的内容越丰富。若包含有具体内容的行数大于或等于设定阈值(如2行)，则判定该转换后的图片内容丰富，是一张包含图表信息的图片。反之，若包含有具体内容的行数小于该设定阈值(如2行)，则判定该转换后的图片内容不够丰富，是一张没有包含图表信息的空白图片。

通过上述程序模块201-203，本发明所提出的文档图表抽取系统20，通过文本密度分析从PDF文档中抽取图表，该方法除了能提取传统方法能抽取的图表外，还能提取出传统方法无法提取的Office图表信息等由多个部分组成的图表，提升了图表抽取的效率和覆盖面。

此外，本发明还提出一种文档图表抽取方法。

参阅图3所示，是本发明文档图表抽取方法一实施例的实施流程示意图。在本实施例中，根据不同的需求，图3所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S31，获取指定文档(如PDF文档)中所有文字的位置信息，并根据所有文字的位置信息获取该指定文档中的文字分布信息。

步骤S32，分析该指定文档中的文字分布信息，判断出该指定文档中文字分布密度较低的区域、或/及无文字分布的区域，并将所述文字分布密度较低的区域、或/及无文字分布的区域标记为候选图表区域。

步骤S33，将所述标记的候选图表区域转换为图片，并从转换后的图片中筛选出包含图表信息的图片，作为该指定文档中抽取出的图表。在本实施例中，可以使用特定的图片处理工具(如ImageMagick工具)将所述标记的候选图表区域转换为图片。

通过上述步骤S31-S33，本发明所提出的文档图表抽取方法，通过文本密度分析从PDF文档中抽取图表，该方法除了能提取传统方法能抽取的图表外，还能提取出传统方法无法提取的Office图表信息等由多个部分组成的图表，提升了图表抽取的效率和覆盖面。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质(如ROM/RAM、磁碟、光盘)，所述计算机可读存储介质存储有文档图表抽取系统20，所述文档图表抽取系统20可被至少一个处理器22执行，以使所述至少一个处理器22执行如上所述的文档图表抽取方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种电子设备，其特征在于，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文档图表抽取系统，所述文档图表抽取系统被所述处理器执行时实现如下步骤：

将所述标记的候选图表区域转换为图片，并从转换后的图片中筛选出包含图表信息的图片，作为该指定文档中抽取出的图表；

所述判断出该指定文档中文字分布密度较低的区域包括：若一行文字的长度小于第一阀值，则判断出该行文字分布密度较低，并清洗该行文字；

2.如权利要求1所述的电子设备，其特征在于，所述从转换后的图片中筛选出包含图表信息的图片包括：通过像素分布分析，对转换后的图片进行筛选，选择出包含图表信息的图片。

3.如权利要求2所述的电子设备，其特征在于，所述从转换后的图片中筛选出包含图表信息的图片包括：

4.一种文档图表抽取方法，应用于电子设备，其特征在于，所述方法包括：

所述判断出该指定文档中文字分布密度较低的区域包括：若一行文字的长度小于第一阀值，则判断出该行文字分布密度较低，并清洗该行文字；及

5.如权利要求4所述的文档图表抽取方法，其特征在于，所述从转换后的图片中筛选出包含图表信息的图片包括：通过像素分布分析，对转换后的图片进行筛选，选择出包含图表信息的图片。

6.如权利要求5所述的文档图表抽取方法，其特征在于，所述从转换后的图片中筛选出包含图表信息的图片包括：

7.一种计算机可读存储介质，所述计算机可读存储介质存储有文档图表抽取系统，所述文档图表抽取系统可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求4-6中任一项所述的文档图表抽取方法的步骤。