CN107832676A - 表格信息换行识别方法、电子设备及计算机可读存储介质 - Google Patents
表格信息换行识别方法、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107832676A CN107832676A CN201710975407.XA CN201710975407A CN107832676A CN 107832676 A CN107832676 A CN 107832676A CN 201710975407 A CN201710975407 A CN 201710975407A CN 107832676 A CN107832676 A CN 107832676A
- Authority
- CN
- China
- Prior art keywords
- cell
- word
- line
- positional information
- upper edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000015654 memory Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000007634 remodeling Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Abstract
本发明公开了一种表格信息换行识别方法,该方法包括步骤:获取指定文档中每行文字的位置信息;定位该指定文档中的特定表格,获取该特定表格的位置信息;根据该特定表格的位置信息依次读取该特定表格中的一行文字,并根据该行文字的位置信息从该行文字中识别出行内换行的单元格。本发明可以准确识别出PDF年报表格中的单元格存在的换行情形。
Description
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种表格信息换行识别方法、电子设备及计算机可读存储介质。
背景技术
现有针对PDF年报中表格的同一单元格中的文本识别,一般是基于OCR技术。但是,目前OCR技术只能依照相对位置将单元格的内容识别出来,如果单元格中有换行现象,则识别出来的文本内容可能会出现错乱现象,并由此引起歧义。故,现有技术中的表格信息换行识别方法设计不够合理,亟需改进。
发明内容
有鉴于此,本发明提出一种表格信息换行识别方法、电子设备及计算机可读存储介质,通过分析特定表格单元格的文字内容位置信息,可以识别出特定表格(如PDF年报表格)中的单元格存在的换行情形,且重塑后表格信息损失小。
首先,为实现上述目的,本发明提出一种电子设备,所述电子设备包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的表格信息换行识别系统,所述表格信息换行识别系统被所述处理器执行时实现如下步骤:
获取指定文档中每行文字的位置信息;
定位该指定文档中的特定表格,获取该特定表格的位置信息;及
根据该特定表格的位置信息依次读取该特定表格中的一行文字,并根据该行文字的位置信息从该行文字中识别出行内换行的单元格。
优选地,每行文字的位置信息包括:每行文字的左边沿坐标、上边沿坐标、文本宽度、文本长度;及
该特定表格的位置信息包括:该特定表格的左边沿坐标、表格宽度、和表格长度。
优选地,所述根据该行文字的位置信息从该行文字中识别出行内换行的单元格包括:
获取该行文字中每个单元格的文字内容位置信息,其中,每个单元格的文字内容位置信息包括每个单元格的文字内容的上边沿坐标;及
从文字内容上边沿坐标相同的单元格中,获取第一次出现的单元格位置和最后一次出现的单元格位置,将第一次出现的单元格位置到最后一次出现的单元格位置的所有单元格确定为同一行,并判定第一次出现的单元格位置与最后一次出现的单元格位置之间文字内容上边沿坐标不同的单元格为行内换行的单元格。
优选地,所述表格信息换行识别系统被所述处理器执行时还用于实现如下步骤:根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格;
所述根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格包括:
若行内换行识别后当前行文字中存在剩余单元格,则获取所述剩余单元格的文字内容位置信息,其中,所述剩余单元格的文字内容位置信息包括所述剩余单元格的文字内容的上边沿坐标;
计算所述剩余单元格的文字内容上边沿坐标与当前行及下一行所有单元格的文字内容上边沿坐标的距离;及
若距离最小值出现在当前行,则将所述剩余单元格的文字内容并入当前行,并判定所述剩余单元格为当前行的行尾换行单元格。
优选地,所述根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格包括:
若行内换行识别后当前行文字中存在剩余单元格,则获取所述剩余单元格的文字内容位置信息,其中,所述剩余单元格的文字内容位置信息包括所述剩余单元格的文字内容的上边沿坐标;
计算所述剩余单元格的文字内容上边沿坐标与当前行及上一行所有单元格的文字内容上边沿坐标的距离;
若距离最小值出现在当前行,则将所述剩余单元格的文字内容并入当前行,并判定所述剩余单元格为当前行的行尾换行单元格。
此外,为实现上述目的,本发明还提供一种表格信息换行识别方法,该方法应用于电子设备,所述方法包括:
获取指定文档中每行文字的位置信息;
定位该指定文档中的特定表格,获取该特定表格的位置信息;及
根据该特定表格的位置信息依次读取该特定表格中的一行文字,并根据该行文字的位置信息从该行文字中识别出行内换行的单元格。
优选地,每行文字的位置信息包括:每行文字的左边沿坐标、上边沿坐标、文本宽度、文本长度;及
该特定表格的位置信息包括:该特定表格的左边沿坐标、表格宽度、和表格长度。
优选地,所述根据该行文字的位置信息从该行文字中识别出行内换行的单元格包括:
获取该行文字中每个单元格的文字内容位置信息,其中,每个单元格的文字内容位置信息包括每个单元格的文字内容的上边沿坐标;及
从文字内容上边沿坐标相同的单元格中,获取第一次出现的单元格位置和最后一次出现的单元格位置,将第一次出现的单元格位置到最后一次出现的单元格位置的所有单元格确定为同一行,并判定第一次出现的单元格位置与最后一次出现的单元格位置之间文字内容上边沿坐标不同的单元格为行内换行的单元格。
优选地,该方法还包括步骤:根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格;
所述根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格包括:
若行内换行识别后当前行文字中存在剩余单元格,则获取所述剩余单元格的文字内容位置信息,其中,所述剩余单元格的文字内容位置信息包括所述剩余单元格的文字内容的上边沿坐标;
计算所述剩余单元格的文字内容上边沿坐标与当前行及下一行所有单元格的文字内容上边沿坐标的距离,或计算所述剩余单元格的文字内容上边沿坐标与当前行及上一行所有单元格的文字内容上边沿坐标的距离;及
若距离最小值出现在当前行,则将所述剩余单元格的文字内容并入当前行,并判定所述剩余单元格为当前行的行尾换行单元格。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有表格信息换行识别系统,所述表格信息换行识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的表格信息换行识别方法的步骤。
相较于现有技术,本发明所提出的电子设备、表格信息换行识别方法及计算机可读存储介质,通过分析特定表格单元格的文字内容位置信息,可以识别出特定表格(如PDF年报表格)中的单元格存在的换行情形(包括行内换行和行尾换行)。该方法无需将PDF文件转化为word、excel等结构化文档,就能准确识别出单元格内存在的换行情形,且重塑后表格信息损失小。
附图说明
图1是本发明电子设备一可选的硬件架构的示意图;
图2是本发明电子设备中表格信息换行识别系统一实施例的程序模块示意图;
图3为本发明表格信息换行识别方法一实施例的实施流程示意图;
图4为特定表格的单元格存在换行情形的示意图。
附图标记:
电子设备 | 2 |
存储器 | 21 |
处理器 | 22 |
网络接口 | 23 |
表格信息换行识别系统 | 20 |
获取模块 | 201 |
定位模块 | 202 |
识别模块 | 203 |
流程步骤 | S31-S33 |
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
首先,本发明提出一种电子设备2。
参阅图1所示,是本发明电子设备2一可选的硬件架构的示意图。本实施例中,所述电子设备2可包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23。需要指出的是,图1仅示出了具有组件21-23的电子设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述电子设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该电子设备2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
所述存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子设备2的内部存储单元,例如该电子设备2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子设备2的外部存储设备,例如该电子设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子设备2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子设备2的操作系统和各类应用软件,例如所述表格信息换行识别系统20的程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子设备2的总体操作,例如执行与所述电子设备2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的表格信息换行识别系统20等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子设备2与其他电子设备之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子设备2与外部数据平台相连,在所述电子设备2与外部数据平台之间的建立数据传输通道和通信连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。
参阅图2所示,是本发明电子设备2中表格信息换行识别系统20一实施例的程序模块图。本实施例中,所述的表格信息换行识别系统20可以被分割成一个或多个程序模块,所述一个或者多个程序模块被存储于所述存储器21中,并由一个或多个处理器(本实施例中为所述处理器22)所执行,以完成本发明。例如,在图2中,所述的表格信息换行识别系统20可以被分割成获取模块201、定位模块202、以及识别模块203。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述表格信息换行识别系统20在所述电子设备2中的执行过程。以下将就各程序模块201-203的功能进行详细描述。
所述获取模块201,用于获取指定文档(如PDF文档)中每行文字的位置信息。在本实施例中,可以使用特定的文字识别工具(如pdf2html工具)获取该指定文档中每行文字的位置信息。该特定的文字识别工具可以将PDF文档解析为文本文件(如XML文件),同时解析出每行文本在PDF文档中每行文字的位置信息。
优选地,在本实施例中,每行文字的位置信息包括,但不限于,每行文字的左边沿坐标、上边沿坐标、文本宽度、文本长度等坐标信息。其中,该指定文档中表格的每一行存储在相邻位置,即依据每行文字的位置信息(如左边沿坐标)依次存储。
所述定位模块202,用于定位该指定文档中的特定表格,获取该特定表格的位置信息,其中,该特定表格的位置信息包括,但不限于,该特定表格的左边沿坐标、表格宽度(表格高度)、和表格长度等。在本实施例中,可以通过该指定文档的特定规则,对该指定文档中的表格进行定位。例如,若该指定文档为PDF年报,则年报发布有明确的格式要求,可以根据类似下述的年报规则对特定表格进行判断:
如介绍主要客户和供应商时,表格标题会设为“主要销售客户和主要供应商情况”,因此这一标题后面就是客户供应商的特定表格。根据特定表格的标题关键词,则可以对介绍特定内容的表格进行定位,方便后续的解析。同理,PDF年报中的其它表格都有类似的格式。
所述识别模块203,用于根据该特定表格的位置信息依次读取该特定表格中的一行文字,并根据该行文字的位置信息从该行文字中识别出行内换行的单元格。在本实施例中,可以从该特定表格的左边沿坐标开始,根据该特定表格的表格长度读取第一行,并根据该特定表格的表格宽度直至读取到该特定表格的最后一行。
优选地,在本实施例中,该特定表格的每行文字包括多个单元格。参阅图4所示,该特定表格的每行文字包括4个单元格,即第1单元格、第2单元格、第3单元格、第4单元格。其中,第2单元格和第4单元格存在换行情形。更具体而言,所述换行情形包括行内换行和行尾换行,例如,第2单元格存在行内换行,第4单元格存在行尾换行。所述行内换行是指:在该特定表格的一行文字的内部单元格(如第2单元格或第3单元格)中存在换行情形。所述行尾换行是指:在该特定表格的一行文字的尾部单元格(如第4单元格)中存在换行情形。
优选地,在本实施例中,所述根据该行文字的位置信息从该行文字中识别出行内换行的单元格包括如下步骤A1-A2。
(A1)获取该行文字中每个单元格的文字内容位置信息,其中,每个单元格的文字内容位置信息包括,但不限于,每个单元格的文字内容的左边沿坐标、上边沿坐标、文本宽度、文本长度等坐标信息。
(A2)从文字内容上边沿坐标相同的单元格中,获取第一次出现的单元格位置和最后一次出现的单元格位置(即找到相同上边沿坐标第一次出现的单元格位置和最后一次出现的单元格位置),将第一次出现的单元格位置到最后一次出现的单元格位置的所有单元格确定为同一行,并判定第一次出现的单元格位置与最后一次出现的单元格位置之间文字内容上边沿坐标不同的单元格为行内换行的单元格。
举例而言,参阅图4所示特定表格的第一行,第1单元格和第3单元格的文字内容上边沿坐标相同。其中,第1单元格为第一次出现的单元格位置,第3单元格为最后一次出现的单元格位置,则将第1单元格、第2单元格、第3单元格确定为同一行,并判定第2单元格为行内换行的单元格(第2单元格的文字内容上边沿坐标不同)。
优选地,在其它实施例中,所述表格信息换行识别方法还包括步骤:根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格。
具体而言,所述根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格包括如下步骤B1-B3。
(B1)若行内换行识别后当前行文字中存在剩余单元格(如图4第一行的第4单元格),则获取所述剩余单元格的文字内容位置信息。其中,所述剩余单元格的文字内容位置信息包括,但不限于,所述剩余单元格的文字内容的左边沿坐标、上边沿坐标、文本宽度、文本长度等坐标信息。
(B2)计算所述剩余单元格的文字内容上边沿坐标与当前行(如第一行)及下一行(如第二行)所有单元格的文字内容上边沿坐标的距离。
(B3)若距离最小值出现在当前行,则将所述剩余单元格的文字内容并入当前行,并判定所述剩余单元格为当前行的行尾换行单元格。
进一步地,若距离最小值出现在下一行,则将所述剩余单元格的文字内容并入下一行,并判定所述剩余单元格为下一行的行尾换行单元格。
需要说明的是,在其它实施例中,所述根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格还可以包括如下步骤C1-C3。
(C1)若行内换行识别后当前行文字中存在剩余单元格(如图4第一行的第4单元格),则获取所述剩余单元格的文字内容位置信息。其中,所述剩余单元格的文字内容位置信息包括,但不限于,所述剩余单元格的文字内容的左边沿坐标、上边沿坐标、文本宽度、文本长度等坐标信息。
(C2)计算所述剩余单元格的文字内容上边沿坐标与当前行(如第二行)及上一行(如第一行)所有单元格的文字内容上边沿坐标的距离。
(C3)若距离最小值出现在当前行,则将所述剩余单元格的文字内容并入当前行,并判定所述剩余单元格为当前行的行尾换行单元格。
进一步地,若距离最小值出现在上一行,则将所述剩余单元格的文字内容并入上一行,并判定所述剩余单元格为上一行的行尾换行单元格。
需要说明的是,本实施例是以在PDF文件的特定表格(如客户供应商表格)中识别出表格信息换行情形为例进行说明,本领域技术人员可以理解,在其它实施例中,上述表格信息换行识别方法也可以针对PDF文件的所有表格进行换行情形识别,在此不再赘述。
通过上述程序模块201-203,本发明所提出的表格信息换行识别系统20,通过分析特定表格单元格的文字内容位置信息,可以识别出特定表格(如PDF年报表格)中的单元格存在的换行情形(包括行内换行和行尾换行)。该方法无需将PDF文件转化为word、excel等结构化文档,就能准确识别出单元格内存在的换行情形,且重塑后表格信息损失小。
此外,本发明还提出一种表格信息换行识别方法。
参阅图3所示,是本发明表格信息换行识别方法一实施例的实施流程示意图。在本实施例中,根据不同的需求,图3所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S31,获取指定文档(如PDF文档)中每行文字的位置信息。在本实施例中,可以使用特定的文字识别工具(如pdf2html工具)获取该指定文档中每行文字的位置信息。该特定的文字识别工具可以将PDF文档解析为文本文件(如XML文件),同时解析出每行文本在PDF文档中每行文字的位置信息。
优选地,在本实施例中,每行文字的位置信息包括,但不限于,每行文字的左边沿坐标、上边沿坐标、文本宽度、文本长度等坐标信息。其中,该指定文档中表格的每一行存储在相邻位置,即依据每行文字的位置信息(如左边沿坐标)依次存储。
步骤S32,定位该指定文档中的特定表格,获取该特定表格的位置信息,其中,该特定表格的位置信息包括,但不限于,该特定表格的左边沿坐标、表格宽度(表格高度)、和表格长度等。在本实施例中,可以通过该指定文档的特定规则,对该指定文档中的表格进行定位。例如,若该指定文档为PDF年报,则年报发布有明确的格式要求,可以根据类似下述的年报规则对特定表格进行判断:
如介绍主要客户和供应商时,表格标题会设为“主要销售客户和主要供应商情况”,因此这一标题后面就是客户供应商的特定表格。根据特定表格的标题关键词,则可以对介绍特定内容的表格进行定位,方便后续的解析。同理,PDF年报中的其它表格都有类似的格式。
步骤S33,根据该特定表格的位置信息依次读取该特定表格中的一行文字,并根据该行文字的位置信息从该行文字中识别出行内换行的单元格。在本实施例中,可以从该特定表格的左边沿坐标开始,根据该特定表格的表格长度读取第一行,并根据该特定表格的表格宽度直至读取到该特定表格的最后一行。
优选地,在本实施例中,该特定表格的每行文字包括多个单元格。参阅图4所示,该特定表格的每行文字包括4个单元格,即第1单元格、第2单元格、第3单元格、第4单元格。其中,第2单元格和第4单元格存在换行情形。更具体而言,所述换行情形包括行内换行和行尾换行,例如,第2单元格存在行内换行,第4单元格存在行尾换行。所述行内换行是指:在该特定表格的一行文字的内部单元格(如第2单元格或第3单元格)中存在换行情形。所述行尾换行是指:在该特定表格的一行文字的尾部单元格(如第4单元格)中存在换行情形。
优选地,在本实施例中,所述根据该行文字的位置信息从该行文字中识别出行内换行的单元格包括如下步骤A1-A2。
(A1)获取该行文字中每个单元格的文字内容位置信息,其中,每个单元格的文字内容位置信息包括,但不限于,每个单元格的文字内容的左边沿坐标、上边沿坐标、文本宽度、文本长度等坐标信息。
(A2)从文字内容上边沿坐标相同的单元格中,获取第一次出现的单元格位置和最后一次出现的单元格位置(即找到相同上边沿坐标第一次出现的单元格位置和最后一次出现的单元格位置),将第一次出现的单元格位置到最后一次出现的单元格位置的所有单元格确定为同一行,并判定第一次出现的单元格位置与最后一次出现的单元格位置之间文字内容上边沿坐标不同的单元格为行内换行的单元格。
举例而言,参阅图4所示特定表格的第一行,第1单元格和第3单元格的文字内容上边沿坐标相同。其中,第1单元格为第一次出现的单元格位置,第3单元格为最后一次出现的单元格位置,则将第1单元格、第2单元格、第3单元格确定为同一行,并判定第2单元格为行内换行的单元格(第2单元格的文字内容上边沿坐标不同)。
优选地,在其它实施例中,所述表格信息换行识别方法还包括步骤:根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格。
具体而言,所述根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格包括如下步骤B1-B3。
(B1)若行内换行识别后当前行文字中存在剩余单元格(如图4第一行的第4单元格),则获取所述剩余单元格的文字内容位置信息。其中,所述剩余单元格的文字内容位置信息包括,但不限于,所述剩余单元格的文字内容的左边沿坐标、上边沿坐标、文本宽度、文本长度等坐标信息。
(B2)计算所述剩余单元格的文字内容上边沿坐标与当前行(如第一行)及下一行(如第二行)所有单元格的文字内容上边沿坐标的距离。
(B3)若距离最小值出现在当前行,则将所述剩余单元格的文字内容并入当前行,并判定所述剩余单元格为当前行的行尾换行单元格。
进一步地,若距离最小值出现在下一行,则将所述剩余单元格的文字内容并入下一行,并判定所述剩余单元格为下一行的行尾换行单元格。
需要说明的是,在其它实施例中,所述根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格还可以包括如下步骤C1-C3。
(C1)若行内换行识别后当前行文字中存在剩余单元格(如图4第一行的第4单元格),则获取所述剩余单元格的文字内容位置信息。其中,所述剩余单元格的文字内容位置信息包括,但不限于,所述剩余单元格的文字内容的左边沿坐标、上边沿坐标、文本宽度、文本长度等坐标信息。
(C2)计算所述剩余单元格的文字内容上边沿坐标与当前行(如第二行)及上一行(如第一行)所有单元格的文字内容上边沿坐标的距离。
(C3)若距离最小值出现在当前行,则将所述剩余单元格的文字内容并入当前行,并判定所述剩余单元格为当前行的行尾换行单元格。
进一步地,若距离最小值出现在上一行,则将所述剩余单元格的文字内容并入上一行,并判定所述剩余单元格为上一行的行尾换行单元格。
需要说明的是,本实施例是以在PDF文件的特定表格(如客户供应商表格)中识别出表格信息换行情形为例进行说明,本领域技术人员可以理解,在其它实施例中,上述表格信息换行识别方法也可以针对PDF文件的所有表格进行换行情形识别,在此不再赘述。
通过上述步骤S31-S33及其相关步骤,本发明所提出的表格信息换行识别方法,通过分析特定表格单元格的文字内容位置信息,可以识别出特定表格(如PDF年报表格)中的单元格存在的换行情形(包括行内换行和行尾换行)。该方法无需将PDF文件转化为word、excel等结构化文档,就能准确识别出单元格内存在的换行情形,且重塑后表格信息损失小。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质(如ROM/RAM、磁碟、光盘),所述计算机可读存储介质存储有表格信息换行识别系统20,所述表格信息换行识别系统20可被至少一个处理器22执行,以使所述至少一个处理器22执行如上所述的表格信息换行识别方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的表格信息换行识别系统,所述表格信息换行识别系统被所述处理器执行时实现如下步骤:
获取指定文档中每行文字的位置信息;
定位该指定文档中的特定表格,获取该特定表格的位置信息;及
根据该特定表格的位置信息依次读取该特定表格中的一行文字,并根据该行文字的位置信息从该行文字中识别出行内换行的单元格。
2.如权利要求1所述的电子设备,其特征在于,每行文字的位置信息包括:每行文字的左边沿坐标、上边沿坐标、文本宽度、文本长度;及
该特定表格的位置信息包括:该特定表格的左边沿坐标、表格宽度、和表格长度。
3.如权利要求1所述的电子设备,其特征在于,所述根据该行文字的位置信息从该行文字中识别出行内换行的单元格包括:
获取该行文字中每个单元格的文字内容位置信息,其中,每个单元格的文字内容位置信息包括每个单元格的文字内容的上边沿坐标;及
从文字内容上边沿坐标相同的单元格中,获取第一次出现的单元格位置和最后一次出现的单元格位置,将第一次出现的单元格位置到最后一次出现的单元格位置的所有单元格确定为同一行,并判定第一次出现的单元格位置与最后一次出现的单元格位置之间文字内容上边沿坐标不同的单元格为行内换行的单元格。
4.如权利要求1所述的电子设备,其特征在于,所述表格信息换行识别系统被所述处理器执行时还用于实现如下步骤:根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格;
所述根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格包括:
若行内换行识别后当前行文字中存在剩余单元格,则获取所述剩余单元格的文字内容位置信息,其中,所述剩余单元格的文字内容位置信息包括所述剩余单元格的文字内容的上边沿坐标;
计算所述剩余单元格的文字内容上边沿坐标与当前行及下一行所有单元格的文字内容上边沿坐标的距离;及
若距离最小值出现在当前行,则将所述剩余单元格的文字内容并入当前行,并判定所述剩余单元格为当前行的行尾换行单元格。
5.如权利要求4所述的电子设备,其特征在于,所述根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格包括:
若行内换行识别后当前行文字中存在剩余单元格,则获取所述剩余单元格的文字内容位置信息,其中,所述剩余单元格的文字内容位置信息包括所述剩余单元格的文字内容的上边沿坐标;
计算所述剩余单元格的文字内容上边沿坐标与当前行及上一行所有单元格的文字内容上边沿坐标的距离;
若距离最小值出现在当前行,则将所述剩余单元格的文字内容并入当前行,并判定所述剩余单元格为当前行的行尾换行单元格。
6.一种表格信息换行识别方法,应用于电子设备,其特征在于,所述方法包括:
获取指定文档中每行文字的位置信息;
定位该指定文档中的特定表格,获取该特定表格的位置信息;及
根据该特定表格的位置信息依次读取该特定表格中的一行文字,并根据该行文字的位置信息从该行文字中识别出行内换行的单元格。
7.如权利要求6所述的表格信息换行识别方法,其特征在于,每行文字的位置信息包括:每行文字的左边沿坐标、上边沿坐标、文本宽度、文本长度;及
该特定表格的位置信息包括:该特定表格的左边沿坐标、表格宽度、和表格长度。
8.如权利要求6所述的表格信息换行识别方法,其特征在于,所述根据该行文字的位置信息从该行文字中识别出行内换行的单元格包括:
获取该行文字中每个单元格的文字内容位置信息,其中,每个单元格的文字内容位置信息包括每个单元格的文字内容的上边沿坐标;及
从文字内容上边沿坐标相同的单元格中,获取第一次出现的单元格位置和最后一次出现的单元格位置,将第一次出现的单元格位置到最后一次出现的单元格位置的所有单元格确定为同一行,并判定第一次出现的单元格位置与最后一次出现的单元格位置之间文字内容上边沿坐标不同的单元格为行内换行的单元格。
9.如权利要求6所述的表格信息换行识别方法,其特征在于,该方法还包括步骤:根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格;
所述根据当前行文字的位置信息从当前行文字中识别出行尾换行的单元格包括:
若行内换行识别后当前行文字中存在剩余单元格,则获取所述剩余单元格的文字内容位置信息,其中,所述剩余单元格的文字内容位置信息包括所述剩余单元格的文字内容的上边沿坐标;
计算所述剩余单元格的文字内容上边沿坐标与当前行及下一行所有单元格的文字内容上边沿坐标的距离,或计算所述剩余单元格的文字内容上边沿坐标与当前行及上一行所有单元格的文字内容上边沿坐标的距离;及
若距离最小值出现在当前行,则将所述剩余单元格的文字内容并入当前行,并判定所述剩余单元格为当前行的行尾换行单元格。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有表格信息换行识别系统,所述表格信息换行识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求6-9中任一项所述的表格信息换行识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710975407.XA CN107832676B (zh) | 2017-10-16 | 2017-10-16 | 表格信息换行识别方法、电子设备及计算机可读存储介质 |
PCT/CN2018/076190 WO2019075970A1 (zh) | 2017-10-16 | 2018-02-10 | 表格信息换行识别方法、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710975407.XA CN107832676B (zh) | 2017-10-16 | 2017-10-16 | 表格信息换行识别方法、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107832676A true CN107832676A (zh) | 2018-03-23 |
CN107832676B CN107832676B (zh) | 2024-02-02 |
Family
ID=61648540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710975407.XA Active CN107832676B (zh) | 2017-10-16 | 2017-10-16 | 表格信息换行识别方法、电子设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107832676B (zh) |
WO (1) | WO2019075970A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670461A (zh) * | 2018-12-24 | 2019-04-23 | 广东亿迅科技有限公司 | Pdf文字提取方法、装置、计算机设备和存储介质 |
CN110377885A (zh) * | 2019-06-14 | 2019-10-25 | 北京百度网讯科技有限公司 | 转换pdf文件的方法、装置、设备和计算机存储介质 |
CN110532968A (zh) * | 2019-09-02 | 2019-12-03 | 苏州美能华智能科技有限公司 | 表格识别方法、装置和存储介质 |
CN112287660A (zh) * | 2019-12-04 | 2021-01-29 | 上海柯林布瑞信息技术有限公司 | Pdf文件中的表格解析方法及装置、计算设备、存储介质 |
CN113408323A (zh) * | 2020-03-17 | 2021-09-17 | 华为技术有限公司 | 表格信息的提取方法、装置、设备及存储介质 |
CN113723301A (zh) * | 2021-08-31 | 2021-11-30 | 广州新丝路信息科技有限公司 | 一种进口货物报关单ocr识别分行处理方法及装置 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334585B (zh) * | 2019-05-22 | 2023-10-24 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN110705213B (zh) * | 2019-08-23 | 2023-11-14 | 平安科技(深圳)有限公司 | Pdf表格提取方法、装置、终端及计算机可读存储介质 |
CN112632927A (zh) * | 2020-12-30 | 2021-04-09 | 上海犀语科技有限公司 | 一种基于语义处理的表格片段链接复原方法及系统 |
CN112989783B (zh) * | 2021-03-31 | 2023-09-19 | 武汉烽火技术服务有限公司 | 一种智能组卷装置及方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040093355A1 (en) * | 2000-03-22 | 2004-05-13 | Stinger James R. | Automatic table detection method and system |
JP2005141306A (ja) * | 2003-11-04 | 2005-06-02 | Seiko Epson Corp | 改行ルール抽出システム、改行ルール抽出プログラム及び改行ルール抽出方法 |
CN102057369A (zh) * | 2008-04-15 | 2011-05-11 | Opera软件股份公司 | 用于当显示电子文档的选定区域时动态地文本换行的方法和设备 |
CN102722475A (zh) * | 2012-05-09 | 2012-10-10 | 深圳市万兴软件有限公司 | 一种PDF文档中的表格转换成Excel表格的方法 |
CN104063364A (zh) * | 2013-03-19 | 2014-09-24 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
CN105630916A (zh) * | 2015-12-21 | 2016-06-01 | 浙江工业大学 | 一种大数据环境下非结构化表格文档数据抽取与组织方法 |
CN105988979A (zh) * | 2015-02-16 | 2016-10-05 | 北京邮电大学 | 基于pdf文件的表格提取方法和装置 |
CN106873925A (zh) * | 2015-12-10 | 2017-06-20 | 北京国双科技有限公司 | 标签文本的显示方法及装置 |
CN106980605A (zh) * | 2017-02-17 | 2017-07-25 | 平安科技(深圳)有限公司 | 合同生成方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090282009A1 (en) * | 2008-05-09 | 2009-11-12 | Tags Ltd | System, method, and program product for automated grading |
US20120265759A1 (en) * | 2011-04-15 | 2012-10-18 | Xerox Corporation | File processing of native file formats |
CN102855232B (zh) * | 2012-09-14 | 2016-02-24 | 同方知网数字出版技术股份有限公司 | 一种表格分析编改加工方法 |
CN104268127B (zh) * | 2014-09-22 | 2018-02-09 | 同方知网(北京)技术有限公司 | 一种电子档版式文件阅读顺序分析的方法 |
-
2017
- 2017-10-16 CN CN201710975407.XA patent/CN107832676B/zh active Active
-
2018
- 2018-02-10 WO PCT/CN2018/076190 patent/WO2019075970A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040093355A1 (en) * | 2000-03-22 | 2004-05-13 | Stinger James R. | Automatic table detection method and system |
JP2005141306A (ja) * | 2003-11-04 | 2005-06-02 | Seiko Epson Corp | 改行ルール抽出システム、改行ルール抽出プログラム及び改行ルール抽出方法 |
CN102057369A (zh) * | 2008-04-15 | 2011-05-11 | Opera软件股份公司 | 用于当显示电子文档的选定区域时动态地文本换行的方法和设备 |
CN102722475A (zh) * | 2012-05-09 | 2012-10-10 | 深圳市万兴软件有限公司 | 一种PDF文档中的表格转换成Excel表格的方法 |
CN104063364A (zh) * | 2013-03-19 | 2014-09-24 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
CN105988979A (zh) * | 2015-02-16 | 2016-10-05 | 北京邮电大学 | 基于pdf文件的表格提取方法和装置 |
CN106873925A (zh) * | 2015-12-10 | 2017-06-20 | 北京国双科技有限公司 | 标签文本的显示方法及装置 |
CN105630916A (zh) * | 2015-12-21 | 2016-06-01 | 浙江工业大学 | 一种大数据环境下非结构化表格文档数据抽取与组织方法 |
CN106980605A (zh) * | 2017-02-17 | 2017-07-25 | 平安科技(深圳)有限公司 | 合同生成方法和装置 |
Non-Patent Citations (2)
Title |
---|
RIST, U等: "Document management and the development of information spaces", 28TH ANNUAL CONFERENCE OF THE SOCIETY FOR CLASSIFICATION, vol. 2005, pages 529 - 536 * |
陈文峰等: "基于C#实现文字图表显示的两种方法", 计算机应用与软件, vol. 28, no. 12, pages 243 - 245 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670461A (zh) * | 2018-12-24 | 2019-04-23 | 广东亿迅科技有限公司 | Pdf文字提取方法、装置、计算机设备和存储介质 |
CN110377885A (zh) * | 2019-06-14 | 2019-10-25 | 北京百度网讯科技有限公司 | 转换pdf文件的方法、装置、设备和计算机存储介质 |
CN110377885B (zh) * | 2019-06-14 | 2023-09-26 | 北京百度网讯科技有限公司 | 转换pdf文件的方法、装置、设备和计算机存储介质 |
CN110532968A (zh) * | 2019-09-02 | 2019-12-03 | 苏州美能华智能科技有限公司 | 表格识别方法、装置和存储介质 |
CN110532968B (zh) * | 2019-09-02 | 2023-05-23 | 苏州美能华智能科技有限公司 | 表格识别方法、装置和存储介质 |
CN112287660A (zh) * | 2019-12-04 | 2021-01-29 | 上海柯林布瑞信息技术有限公司 | Pdf文件中的表格解析方法及装置、计算设备、存储介质 |
CN113408323A (zh) * | 2020-03-17 | 2021-09-17 | 华为技术有限公司 | 表格信息的提取方法、装置、设备及存储介质 |
CN113723301A (zh) * | 2021-08-31 | 2021-11-30 | 广州新丝路信息科技有限公司 | 一种进口货物报关单ocr识别分行处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107832676B (zh) | 2024-02-02 |
WO2019075970A1 (zh) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832676A (zh) | 表格信息换行识别方法、电子设备及计算机可读存储介质 | |
CN107818075A (zh) | 表格信息结构化提取方法、电子设备及计算机可读存储介质 | |
CN107688789A (zh) | 文档图表抽取方法、电子设备及计算机可读存储介质 | |
CN107844468A (zh) | 表格信息跨页识别方法、电子设备及计算机可读存储介质 | |
CN107844634A (zh) | 多元通用模型平台建模方法、电子设备及计算机可读存储介质 | |
CN107330459B (zh) | 一种数据处理方法、装置和电子设备 | |
CN109543942A (zh) | 数据校验方法、装置、计算机设备和存储介质 | |
CN107689070A (zh) | 图表数据结构化提取方法、电子设备及计算机可读存储介质 | |
CN107679084A (zh) | 聚类标签生成方法、电子设备及计算机可读存储介质 | |
CN111159982B (zh) | 文档编辑方法、装置、电子设备及计算机可读存储介质 | |
CN111191079A (zh) | 一种文档内容获取方法、装置、设备及存储介质 | |
CN108038120A (zh) | 协同过滤推荐方法、电子设备及计算机可读存储介质 | |
CN108596785A (zh) | 电力设备数据的处理方法、装置、计算机设备和存储介质 | |
CN107807967A (zh) | 实时推荐方法、电子设备及计算机可读存储介质 | |
CN109902272A (zh) | 电子表格数据处理方法、装置、计算机设备和存储介质 | |
CN114238575A (zh) | 文档解析方法、系统、计算机设备及计算机可读存储介质 | |
CN108021621A (zh) | 数据库数据采集方法、应用服务器及计算机可读存储介质 | |
CN107766322A (zh) | 同名实体识别方法、电子设备及计算机可读存储介质 | |
CN109614914A (zh) | 车位顶点定位方法、装置和存储介质 | |
CN109446515A (zh) | 群组信息分析方法、电子装置及计算机可读存储介质 | |
CN106649210A (zh) | 一种数据转换方法及装置 | |
CN107844527A (zh) | 网页地址去重方法、电子设备及计算机可读存储介质 | |
CN112347131A (zh) | 一种基于城轨项目需求识别和覆盖的方法及装置 | |
CN107688564A (zh) | 新闻主体企业识别方法、电子设备及计算机可读存储介质 | |
CN107688788A (zh) | 文档图表抽取方法、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |