CN116071769A - 表格识别方法、装置、非易失性存储介质和计算机设备 - Google Patents
表格识别方法、装置、非易失性存储介质和计算机设备 Download PDFInfo
- Publication number
- CN116071769A CN116071769A CN202310196382.9A CN202310196382A CN116071769A CN 116071769 A CN116071769 A CN 116071769A CN 202310196382 A CN202310196382 A CN 202310196382A CN 116071769 A CN116071769 A CN 116071769A
- Authority
- CN
- China
- Prior art keywords
- cell
- picture
- target
- cells
- tree structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003062 neural network model Methods 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims 3
- 238000002372 labelling Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 206010006187 Breast cancer Diseases 0.000 description 3
- 208000026310 Breast neoplasm Diseases 0.000 description 3
- 102100039996 Histone deacetylase 1 Human genes 0.000 description 3
- 101001035024 Homo sapiens Histone deacetylase 1 Proteins 0.000 description 3
- 208000005016 Intestinal Neoplasms Diseases 0.000 description 3
- 102000015532 Nicotinamide phosphoribosyltransferase Human genes 0.000 description 3
- 108010064862 Nicotinamide phosphoribosyltransferase Proteins 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 201000002313 intestinal cancer Diseases 0.000 description 3
- 201000007270 liver cancer Diseases 0.000 description 3
- 208000014018 liver neoplasm Diseases 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Abstract
本发明公开了一种表格识别方法、装置、非易失性存储介质和计算机设备。其中,该方法包括:获取表格图片,其中,表格图片中包括目标表格;识别表格图片中的目标表格,得到目标表格内的文本信息和表征目标表格的单元格结构关系的树状结构信息;基于文本信息和树状结构信息,存储目标表格。本发明解决了现有技术中对图片中表格识别准确率低的技术问题。
Description
技术领域
本发明涉及图像识别领域,具体而言,涉及一种表格识别方法、装置、非易失性存储介质和计算机设备。
背景技术
表格是一种组织整理数据的重要手段,人们在通讯交流、科学研究以及数据分析活动当中广泛采用各种表格。在论文文献和专利申请文件中存在大量的表格,并且论文文献和专利申请文件均为图片格式,导致文件中的表格以图片形式存在,并且表格中往往包括很多信息。准确的识别表格,在某些业务场景中非常重要。
相关技术中通常采用文本识别和文本聚类结合的方式识别表格,这种根据文本位置进行文本聚类识别表格结构的方法无法准确识别表格中单元格之间的结构,导致对图片中的表格进行识别时出现较大差错。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种表格识别方法、装置、非易失性存储介质和计算机设备,以至少解决现有技术中对图片中表格识别准确率低的技术问题。
根据本发明实施例的一个方面,提供了一种表格识别方法,包括:获取表格图片,其中,表格图片中包括目标表格;识别表格图片中的目标表格,得到目标表格内的文本信息和表征目标表格的单元格结构关系的树状结构信息;基于文本信息和树状结构信息,存储目标表格。
可选地,识别表格图片中的目标表格,得到表征目标表格的单元格结构关系的树状结构信息,包括:根据表格图片,确定目标表格中的表头单元格和表值单元格;根据表头单元格和表值单元格,生成用于表征目标表格的单元格结构关系的树状结构信息。
可选地,根据表头单元格和表值单元格,生成表征目标表格的单元格结构关系的树状结构信息,包括:在目标表格包括多个表头单元格的情况下,确定多个表头单元格之间的第一父子节点关系;根据第一父子节点关系,确定多个表头单元格中的末级单元格;确定末级单元格与表值单元格之间的第二父子节点关系;根据第一父子节点关系和第二父子节点关系,生成树状结构信息。
可选地,确定多个表头单元格之间的第一父子节点关系,包括:根据表格图片,确定表头单元格的尺寸、位置和文本至少之一;根据表头单元格的尺寸、位置和文本至少之一,判断表头单元格中任意两个单元格之间的父子节点关系,确定第一父子节点关系。
可选地,根据表格图片,确定目标表格中的表头单元格和表值单元格,包括:将表格图片输入预先训练的神经网络模型中,神经网络模型输出表格图片中包括的表头单元格和表值单元格,其中,神经网络模型通过标注单元格属性的表格图片样本训练得到。
可选地,神经网络模型为通过如下方式训练得到的模型:获取多个表格图片样本;在多个表格图片样本中分别标注表格图片包括的表格中的表头单元格和表值单元格;基于多个表格图片样本训练原始神经网络模型,得到神经网络模型,其中,原始神经网络模型为神经网络模型的原始模型。
可选地,还包括:根据树状结构信息,建立表格文档,其中,表格文档的结构与树状结构信息的结构匹配;将文本信息填入表格文档,生成对目标表格的识别结果。
根据本发明实施例的另一方面,还提供了一种表格识别装置,包括:获取模块,用于获取表格图片,其中,表格图片中包括目标表格;识别模块,用于识别表格图片中的目标表格,得到目标表格内的文本信息和表征目标表格的单元格结构关系的树状结构信息;存储模块,用于基于文本信息和树状结构信息,存储目标表格。
根据本发明实施例的又一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行上述中任意一项表格识别方法。
根据本发明实施例的再一方面,还提供了一种计算机设备,计算机设备包括处理器,处理器用于运行程序,其中,程序运行时执行上述中任意一项表格识别方法。
在本发明实施例中,采用识别表格图片中目标表格单元格结构关系的方式,通过识别表征目标表格中单元格结构关系的树状结构信息和目标表格内的文本信息,并根据树状结构信息和文本信息存储目标表格,实现了准确识别目标表格结构的目的,从而实现了提高识别表格准确率的技术效果,进而解决了现有技术中对图片中表格识别准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现表格识别方法的计算机终端的硬件结构框图;
图2是根据本发明实施例提供的表格识别方法的流程示意图;
图3是根据本发明可选实施例提供的表格图片的示意图;
图4是根据本发明实施例提供的表格识别装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
文字识别(Optical Character Recognition,简称OCR),即电子设备检查纸上打印的字符或图片中的字符并将其翻译成计算机文字的过程。
根据本发明实施例,提供了一种表格识别的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现表格识别方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的表格识别方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的表格识别方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10的用户界面进行交互。
图2是根据本发明实施例提供的表格识别方法的流程示意图,如图2所示,该方法包括如下步骤:
步骤S202,获取表格图片,其中,表格图片中包括目标表格。
本步骤中,在对目标表格进行识别之前,需要先获取包含有目标表格的表格图片。在对目标表格进行识别时,目标表格通常位于各类文献中,而文献中完整的一页图片有很大可能不止包括目标表格,还包含其他文字信息,可以先得到文献中完整的一页图片,再对图片进行预处理,只存留目标表格的图片部分作为表格图片。
步骤S204,识别表格图片中的目标表格,得到目标表格内的文本信息和表征目标表格的单元格结构关系的树状结构信息。
本步骤中,表格图片中包括目标表格,目标表格由文本信息和单元格结构关系构成,可以分别识别目标表格中的文本信息和目标表格中的单元格结构,以提高对表格结构的识别效果。需要说明的是,识别出的文本信息是与单元格一一对应的文本信息,也就是说,可以识别出目标表格中的每个单元格和每个单元格中包括的文本,单元格中的文本和文本与单元格的对应关系共同组成表格的文本信息。单元格的结构以树状结构存储,被称为树状结构信息。识别表格图片中的文本信息可以通过预先训练的文本识别模型实现,该文本识别模型的训练样本可以是多张标注了单元格与单元格内文本的表格图片,该文本识别模型可以是神经网络模型,也可以是其他具有类似功能的模型。
步骤S206,基于文本信息和树状结构信息,存储目标表格。
本步骤中,在确定目标表格中的文本信息和树状结构信息后,就可以唯一地确定目标表格,所以可以以文本信息和树状结构信息的方式存储目标表格。
通过上述步骤,可以实现准确识别目标表格结构的目的,从而实现了提高识别表格准确率的技术效果,进而解决了现有技术中对图片中表格识别准确率低的技术问题。
作为一种可选地实施例,识别表格图片中的目标表格,得到表征目标表格的单元格结构关系的树状结构信息,可以通过以下步骤实现:根据表格图片,确定目标表格中的表头单元格和表值单元格;根据表头单元格和表值单元格,生成用于表征目标表格的单元格结构关系的树状结构信息。
可选地,识别表格图片并获取目标表格的单元格结构关系的方式可以是根据表格图片,确定目标表格中的表头单元格和表值单元格,需要说明的是,本可选实施例中,表格一列或几列的列标题即为表头,表头所占据的单元格即为表头单元格;表格中除了表头以外的单元格即为表值单元格,表值单元格中的文本内容即为表值。在目标表格中确定出表头单元格和表值单元格后,可以根据表头单元格和表值单元格生成树状结构信息。例如,如果目标表格的结构关系非常简单,仅有一个表头单元格和一个表值单元格,那么可以之间将表值单元格作为表头单元格的子节点直接生成树状结构信息。或者可以说,表头或表值即为单元格的类型,可以根据单元格的类型确定目标表格中单元格结构关系,即树状结构信息。
作为一种可选地实施例,根据表头单元格和表值单元格,生成表征目标表格的单元格结构关系的树状结构信息,可以通过以下步骤实现:在目标表格包括多个表头单元格的情况下,确定多个表头单元格之间的第一父子节点关系;根据第一父子节点关系,确定多个表头单元格中的末级单元格;确定末级单元格与表值单元格之间的第二父子节点关系;根据第一父子节点关系和第二父子节点关系,生成树状结构信息。
可选地,在目标表格结构较为复杂时,可以根据表头单元格和表值单元格分步骤确定树状结构信息。在目标表格包括多个表头单元格的情况下,可以先确定多个表头单元格之间的第一父子节点关系,其中,有些表头单元格没有其他表头单元格作为该表头单元格的子节点,有些表头单元格没有其他表头单元格作为该表头单元格的父节点,没有其他表头单元格作为子节点的表头单元格即为末级单元格。可以根据第一父子节点关系确定多个表头单元格中的末级单元格,然后确定末级单元格与表值单元格之间的第二父子节点关系,并且在确定末级单元格与表值单元格之间的第二父子节点关系时,可以仅确定每个末级单元格与每个表值单元格之间是否具有父子节点关系即可,而不需要确定每两个表值单元格之间是否具有父子节点关系。需要说明的是,第一父子节点关系和第二父子节点关系的表现形式可以为两个单元格是否具有父子节点关系,在两个单元格具有父子节点关系的情况下,需要确定父节点对应的单元格和子节点对应的单元格。在确定第一父子节点关系和第二父子节点关系后,可以将子节点链接至与其对应的父节点即可生成树状结构信息。
图3是根据本发明可选实施例提供的表格图片的示意图,如图3所示,文本为:化合物、IC50(μM)、HCT116(肠癌)、MDA-MB-231(乳腺癌)、HepG2(肝癌)、NAMPT、HDAC1的单元格即为表头单元格,其他单元格均为表值单元格,并且在表头单元格中,文本为化合物的单元格与其他表头单元格不具有父子节点关系,其他表头单元格之间具有父子节点关系,且文本为IC50(μM)的单元格是文本为HCT116(肠癌)、MDA-MB-231(乳腺癌)、HepG2(肝癌)、NAMPT、HDAC1的单元格的父节点,文本为HCT116(肠癌)、MDA-MB-231(乳腺癌)、HepG2(肝癌)、NAMPT、HDAC1的单元格是文本为IC50(μM)的单元格的子节点。
作为一种可选地实施例,确定多个表头单元格之间的第一父子节点关系,可以通过以下步骤实现:根据表格图片,确定表头单元格的尺寸、位置和文本至少之一;根据表头单元格的尺寸、位置和文本至少之一,判断表头单元格中任意两个单元格之间的父子节点关系,确定第一父子节点关系。
可选地,确定多个表头单元格之间的第一父子节点关系需要确定表头单元格中任意两个单元格之间的父子节点关系,确定表头单元格中任意两个单元格之间的父子关系,可以通过这两个表头单元格的尺寸,也可以根据这两个表头单元格的位置,还可以根据这两个表头单元格中文本的语义关系,还可以组合上述三项信息中的任意几项综合进行判断这两个表头单元格的父子节点关系。需要说明的是,还可以采用标注有表头单元格之间的父子节点关系的多张表格图片训练节点关系识别模型,并根据该节点关系识别模型判断表头单元格之间的父子节点关系,此时该节点关系识别模型可能是根据表头单元格的尺寸、位置和文本之间的语义关系确定表头单元格之间的父子节点关系,节点关系识别模型可以是神经网络模型,也可以是其他具有类似功能的模型。
作为一种可选地实施例,根据表格图片,确定目标表格中的表头单元格和表值单元格,可以通过以下步骤实现:将表格图片输入预先训练的神经网络模型中,神经网络模型输出表格图片中包括的表头单元格和表值单元格,其中,神经网络模型通过标注单元格属性的表格图片样本训练得到。
作为一种可选地实施例,神经网络模型为通过如下方式训练得到的模型:获取多个表格图片样本;在多个表格图片样本中分别标注表格图片包括的表格中的表头单元格和表值单元格;基于多个表格图片样本训练原始神经网络模型,得到神经网络模型,其中,原始神经网络模型为神经网络模型的原始模型。
可选地,可以采用标注有表头单元格和表值单元格的多个表格图片样本对原始神经网络模型进行训练,在对原始神经网络模型进行训练后,得到神经网络模型。此时可以将表格图片输入神经网络模型中,神经网络模型输出表格图片中包括的表头单元格和表值单元格。
作为一种可选地实施例,还可以通过以下步骤实现:根据树状结构信息,建立表格文档,其中,表格文档的结构与树状结构信息的结构匹配;将文本信息填入表格文档,生成对目标表格的识别结果。
可选地,在存储目标表格之后,如果需要将目标表格以电子表格的形式显示,可以根据树状结构信息建立与树状结构信息的结构匹配的表格文档,然后根据文本信息中包括的文本与单元格的对应关系,将文本填入表格文档中,即可生成电子表格版的目标表格,也即目标表格的识别结果。
作为一种具体的实施例,可以采用表格解析模型整体实现对表格识别的过程,表格解析模型可以是神经网络模型。可以先获取多张表格图片作为训练样本,并且在表格图片中标注表头单元格和表值单元格,也标注表头单元格之间的父子节点关系,在对多张表格图片进行标注之后,可以将多张表格图片交由表格解析模型学习。在使用表格解析模型识别表格时,可以将待识别的包含目标表格的表格图片输入表格解析模型中,表格解析模型可以根据学到的内容构建表格图片的树状结构信息,也可以根据树状结构信息将表格图片转换为电子表格。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的表格识别方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例,还提供了一种用于实施上述表格识别方法的表格识别装置,图4是根据本发明实施例提供的表格识别装置的结构框图,如图4所示,该表格识别装置包括:获取模块42,识别模块44和存储模块46,下面对该装置进行说明。
获取模块42,用于获取表格图片,其中,表格图片中包括目标表格。
识别模块44,与获取模块42连接,用于识别表格图片中的目标表格,得到目标表格内的文本信息和表征目标表格的单元格结构关系的树状结构信息。
存储模块46,与识别模块44连接,用于基于文本信息和树状结构信息,存储目标表格。
此处需要说明的是,上述获取模块42,识别模块44和存储模块46对应于实施例中的步骤S202至步骤S206,多个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例提供的计算机终端10中。
本发明的实施例可以提供一种计算机设备,可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。该计算机设备包括存储器和处理器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的表格识别方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的表格识别方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取表格图片,其中,表格图片中包括目标表格;识别表格图片中的目标表格,得到目标表格内的文本信息和表征目标表格的单元格结构关系的树状结构信息;基于文本信息和树状结构信息,存储目标表格。
可选地,上述处理器还可以执行如下步骤的程序代码:识别表格图片中的目标表格,得到表征目标表格的单元格结构关系的树状结构信息,包括:根据表格图片,确定目标表格中的表头单元格和表值单元格;根据表头单元格和表值单元格,生成用于表征目标表格的单元格结构关系的树状结构信息。
可选地,上述处理器还可以执行如下步骤的程序代码:根据表头单元格和表值单元格,生成表征目标表格的单元格结构关系的树状结构信息,包括:在目标表格包括多个表头单元格的情况下,确定多个表头单元格之间的第一父子节点关系;根据第一父子节点关系,确定多个表头单元格中的末级单元格;确定末级单元格与表值单元格之间的第二父子节点关系;根据第一父子节点关系和第二父子节点关系,生成树状结构信息。
可选地,上述处理器还可以执行如下步骤的程序代码:确定多个表头单元格之间的第一父子节点关系,包括:根据表格图片,确定表头单元格的尺寸、位置和文本至少之一;根据表头单元格的尺寸、位置和文本至少之一,判断表头单元格中任意两个单元格之间的父子节点关系,确定第一父子节点关系。
可选地,上述处理器还可以执行如下步骤的程序代码:根据表格图片,确定目标表格中的表头单元格和表值单元格,包括:将表格图片输入预先训练的神经网络模型中,神经网络模型输出表格图片中包括的表头单元格和表值单元格,其中,神经网络模型通过标注单元格属性的表格图片样本训练得到。
可选地,上述处理器还可以执行如下步骤的程序代码:神经网络模型为通过如下方式训练得到的模型:获取多个表格图片样本;在多个表格图片样本中分别标注表格图片包括的表格中的表头单元格和表值单元格;基于多个表格图片样本训练原始神经网络模型,得到神经网络模型,其中,原始神经网络模型为神经网络模型的原始模型。
可选地,上述处理器还可以执行如下步骤的程序代码:还包括:根据树状结构信息,建立表格文档,其中,表格文档的结构与树状结构信息的结构匹配;将文本信息填入表格文档,生成对目标表格的识别结果。
采用本发明实施例,提供了一种表格识别的方案。采用识别表格图片中目标表格单元格结构关系的方式,通过识别表征目标表格中单元格结构关系的树状结构信息和目标表格内的文本信息,并根据树状结构信息和文本信息存储目标表格,实现了准确识别目标表格结构的目的,从而实现了提高识别表格准确率的技术效果,进而解决了现有技术中对图片中表格识别准确率低的技术问题。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一非易失性存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种非易失性存储介质。可选地,在本实施例中,上述非易失性存储介质可以用于保存上述实施例所提供的表格识别方法所执行的程序代码。
可选地,在本实施例中,上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:获取表格图片,其中,表格图片中包括目标表格;识别表格图片中的目标表格,得到目标表格内的文本信息和表征目标表格的单元格结构关系的树状结构信息;基于文本信息和树状结构信息,存储目标表格。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:识别表格图片中的目标表格,得到表征目标表格的单元格结构关系的树状结构信息,包括:根据表格图片,确定目标表格中的表头单元格和表值单元格;根据表头单元格和表值单元格,生成用于表征目标表格的单元格结构关系的树状结构信息。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据表头单元格和表值单元格,生成表征目标表格的单元格结构关系的树状结构信息,包括:在目标表格包括多个表头单元格的情况下,确定多个表头单元格之间的第一父子节点关系;根据第一父子节点关系,确定多个表头单元格中的末级单元格;确定末级单元格与表值单元格之间的第二父子节点关系;根据第一父子节点关系和第二父子节点关系,生成树状结构信息。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:确定多个表头单元格之间的第一父子节点关系,包括:根据表格图片,确定表头单元格的尺寸、位置和文本至少之一;根据表头单元格的尺寸、位置和文本至少之一,判断表头单元格中任意两个单元格之间的父子节点关系,确定第一父子节点关系。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据表格图片,确定目标表格中的表头单元格和表值单元格,包括:将表格图片输入预先训练的神经网络模型中,神经网络模型输出表格图片中包括的表头单元格和表值单元格,其中,神经网络模型通过标注单元格属性的表格图片样本训练得到。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:神经网络模型为通过如下方式训练得到的模型:获取多个表格图片样本;在多个表格图片样本中分别标注表格图片包括的表格中的表头单元格和表值单元格;基于多个表格图片样本训练原始神经网络模型,得到神经网络模型,其中,原始神经网络模型为神经网络模型的原始模型。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据树状结构信息,建立表格文档,其中,表格文档的结构与树状结构信息的结构匹配;将文本信息填入表格文档,生成对目标表格的识别结果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种表格识别方法,其特征在于,包括:
获取表格图片,其中,所述表格图片中包括目标表格;
识别所述表格图片中的所述目标表格,得到所述目标表格内的文本信息和表征所述目标表格的单元格结构关系的树状结构信息;
基于所述文本信息和所述树状结构信息,存储所述目标表格。
2.根据权利要求1所述的方法,其特征在于,所述识别所述表格图片中的所述目标表格,得到表征所述目标表格的单元格结构关系的树状结构信息,包括:
根据所述表格图片,确定所述目标表格中的表头单元格和表值单元格;
根据所述表头单元格和所述表值单元格,生成用于表征所述目标表格的单元格结构关系的树状结构信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述表头单元格和所述表值单元格,生成表征所述目标表格的单元格结构关系的树状结构信息,包括:
在所述目标表格包括多个表头单元格的情况下,确定所述多个表头单元格之间的第一父子节点关系;
根据所述第一父子节点关系,确定所述多个表头单元格中的末级单元格;
确定所述末级单元格与所述表值单元格之间的第二父子节点关系;
根据所述第一父子节点关系和第二父子节点关系,生成所述树状结构信息。
4.根据权利要求3所述的方法,其特征在于,所述确定所述多个表头单元格之间的第一父子节点关系,包括:
根据所述表格图片,确定所述表头单元格的尺寸、位置和文本至少之一;
根据所述表头单元格的尺寸、位置和文本至少之一,判断所述表头单元格中任意两个单元格之间的父子节点关系,确定所述第一父子节点关系。
5.根据权利要求2所述的方法,其特征在于,所述根据所述表格图片,确定所述目标表格中的表头单元格和表值单元格,包括:
将所述表格图片输入预先训练的神经网络模型中,所述神经网络模型输出所述表格图片中包括的所述表头单元格和所述表值单元格,其中,所述神经网络模型通过标注单元格属性的表格图片样本训练得到。
6.根据权利要求5所述的方法,其特征在于,所述神经网络模型为通过如下方式训练得到的模型:
获取多个表格图片样本;
在所述多个表格图片样本中分别标注表格图片包括的表格中的表头单元格和表值单元格;
基于所述多个表格图片样本训练原始神经网络模型,得到所述神经网络模型,其中,所述原始神经网络模型为所述神经网络模型的原始模型。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,还包括:
根据所述树状结构信息,建立表格文档,其中,所述表格文档的结构与所述树状结构信息的结构匹配;
将所述文本信息填入所述表格文档,生成对所述目标表格的识别结果。
8.一种表格识别装置,其特征在于,包括:
获取模块,用于获取表格图片,其中,所述表格图片中包括目标表格;
识别模块,用于识别所述表格图片中的所述目标表格,得到所述目标表格内的文本信息和表征所述目标表格的单元格结构关系的树状结构信息;
存储模块,用于基于所述文本信息和所述树状结构信息,存储所述目标表格。
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至7中任意一项所述表格识别方法。
10.一种计算机设备,其特征在于,包括:存储器和处理器,
所述存储器存储有计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行权利要求1至7中任意一项所述表格识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310196382.9A CN116071769A (zh) | 2023-03-02 | 2023-03-02 | 表格识别方法、装置、非易失性存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310196382.9A CN116071769A (zh) | 2023-03-02 | 2023-03-02 | 表格识别方法、装置、非易失性存储介质和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116071769A true CN116071769A (zh) | 2023-05-05 |
Family
ID=86178569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310196382.9A Pending CN116071769A (zh) | 2023-03-02 | 2023-03-02 | 表格识别方法、装置、非易失性存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071769A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173725A (zh) * | 2023-11-03 | 2023-12-05 | 之江实验室 | 表格信息处理方法、装置、计算机设备和存储介质 |
-
2023
- 2023-03-02 CN CN202310196382.9A patent/CN116071769A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173725A (zh) * | 2023-11-03 | 2023-12-05 | 之江实验室 | 表格信息处理方法、装置、计算机设备和存储介质 |
CN117173725B (zh) * | 2023-11-03 | 2024-04-09 | 之江实验室 | 表格信息处理方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11792257B2 (en) | Form engine | |
CN109376351B (zh) | 一种在平板设备上对教学内容自适应排版的方法 | |
US20130191728A1 (en) | Systems, methods, and media for generating electronic books | |
CN102436547A (zh) | 一种教学用错题统计方法及系统 | |
CN114424257A (zh) | 使用机器学习对表格数据进行自动描绘和提取 | |
CN111144079B (zh) | 一种智能获取学习资源的方法、装置、打印机和存储介质 | |
CN104199871A (zh) | 一种用于智慧教学的高速化试题导入方法 | |
CN116071769A (zh) | 表格识别方法、装置、非易失性存储介质和计算机设备 | |
CN111880813B (zh) | 实现安卓卡片ui的方法、存储介质 | |
CN110990010B (zh) | 一种软件界面代码的生成方法及装置 | |
CN114821613A (zh) | 一种pdf中表格信息的抽取方法和系统 | |
CN114170468A (zh) | 文本识别方法、存储介质及计算机终端 | |
CN113094287A (zh) | 页面兼容性检测方法、装置、设备及存储介质 | |
CN116562247A (zh) | 电子表格内容生成方法、装置和计算机设备 | |
CN116306506A (zh) | 一种基于内容识别的智能邮件模板方法 | |
CN115063784A (zh) | 票据图像的信息提取方法和装置、存储介质及电子设备 | |
CN115130437A (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN114861614A (zh) | 用于填充数据的方法及装置、电子设备、介质 | |
CN114489621A (zh) | 一种实验展示方法、装置、电子设备及存储介质 | |
CN114090630A (zh) | 基于分布式微服务集群商品数据整合方法 | |
KR20180095414A (ko) | 문제 생성 서비스 제공 방법 | |
CN113221506A (zh) | 一种讲义排版的方法、装置、电子设备及存储介质 | |
CN111798190B (zh) | 译文文案的处理方法和系统 | |
Li | Document Layout Analysis for Historical Documents | |
CN111046863B (zh) | 数据处理方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240311 Address after: 102425 Building 60, No. 69 Yanfu Road, Fangshan District, Beijing Applicant after: Beijing Qianyan Intelligent Biotechnology Co.,Ltd. Country or region after: China Address before: Room 321, 3rd Floor, F7 Building, No. 9 Weidi Road, Qixia District, Nanjing City, Jiangsu Province, 210033 Applicant before: Nanjing Suikun Intelligent Technology Co.,Ltd. Country or region before: China |
|
TA01 | Transfer of patent application right |