CN117475458A - 表格结构还原方法、装置、设备及存储介质 - Google Patents
表格结构还原方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117475458A CN117475458A CN202311826481.7A CN202311826481A CN117475458A CN 117475458 A CN117475458 A CN 117475458A CN 202311826481 A CN202311826481 A CN 202311826481A CN 117475458 A CN117475458 A CN 117475458A
- Authority
- CN
- China
- Prior art keywords
- text
- picture
- cell
- table structure
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 22
- 230000009467 reduction Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 108091026890 Coding region Proteins 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明涉及数据处理领域,公开了一种表格结构还原方法、装置、设备及存储介质,该方法通过获得原始表格图片,通过预设表格结构识别模型识别原始表格图片的表格结构,获得表格结构序列以及表格单元格位置;对原始表格图片进行文本识别,获得原始表格图片中文本框的文本行信息;基于表格结构序列、表格单元格位置和文本行信息进行规则匹配,获得表格代码;表格代码用于将原始表格还原。由于是通过对原始表格图片分布进行表格结构识别和文本识别,并将获得的表格结构序列、表格单元格位置、文本行信息进行规则匹配,从而获得了可以用于原始表格还原的表格代码,简化了表格识别的流程的同时提高了表格还原的准确率和泛用性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种表格结构还原方法、装置、设备及存储介质。
背景技术
随着人工智能AI领域技术的不断突破,文档解析以及信息提取工作也在飞速进步。表格存在于各种文档之中,与自然语言相比,表格不仅能够以一种更加紧凑和结构化更强的格式汇总大量数据,而且有着更为优秀的数据比较能力以及数据展示能力。
表格结构的多样性和复杂的单元格跨越关系,使得表结构还原是一项复杂且相当具有挑战性的任务。现有的方案依赖于文字检测的结果以及需要设置不同的阈值,忽略了表格整体结构特征,并不能覆盖大多数场景,往往需要根据不同的场景针对性地进行二次设计,工作效率低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种表格结构还原方法、装置、设备及存储介质,旨在解决现有技术中现有的表格识别方法工作效率低的技术问题。
为实现上述目的,本发明提供了一种表格结构还原方法,所述方法包括以下步骤:
获得原始表格图片,通过预设表格结构识别模型识别所述原始表格图片的表格结构,获得表格结构序列以及表格单元格位置;
对所述原始表格图片进行文本识别,获得所述原始表格图片中文本框的文本行信息;
基于所述表格结构序列、表格单元格位置和所述文本行信息进行规则匹配,获得表格代码;所述表格代码用于将原始表格还原。
可选地,所述基于所述表格结构序列、表格单元格位置和所述文本行信息进行规则匹配,获得表格代码的步骤,包括:
基于所述文本行信息确定文本框中点;
基于所述表格单元格位置和所述文本框中点判断所述文本框的目标表格单元格;
根据所述表格结构序列确定所述目标表格单元格对应的表格标签位置;
将所述文本框对应的文本内容添加至所述表格标签位置,获得表格代码。
可选地,所述基于所述表格单元格位置和所述文本框中点判断所述文本框的目标表格单元格的步骤之后,还包括:
若无法确定所述文本框的目标单元格,根据所述表格单元位置确定所述文本框与所有表格单元格的交并比;
将交并比最大的所述表格单元格作为所述目标单元格,根据所述表格结构序列确定所述目标单元格对应的表格标签位置;
将所述文本框对应的文本内容添加至所述表格标签位置。
可选地,所述根据所述表格单元位置确定所述文本框与所有表格单元格的交并比的步骤之后,还包括:
若仍无法确定所述文本框中点的目标单元格,确定所述文本框与所有表格单元格的距离;
将所述距离最短的表格单元格作为所述文本框中点的目标单元格,根据所述表格结构序列确定所述目标单元格对应的表格标签位置;
将所述文本框对应的文本内容添加至所述表格标签位置。
可选地,所述预设表格结构识别模型包括:结构特征提取模块、结构位置编码模块以及结构注意力模块;
所述通过预设表格结构识别模型识别所述原始表格图片的表格结构,获得表格结构序列以及表格单元格位置的步骤,包括:
通过所述结构特征提取模块对所述原始表格图片进行特征提取,获得表格结构特征;
通过所述结构位置编码模块对所述原始表格图片进行位置编码,获得单元格位置特征;
通过所述结构注意力模块对所述原始表格图片特征和所述单元格位置特征进行特征处理,获得表格结构序列以及表格单元格位置。
可选地,所述对所述原始表格图片进行文本识别,获得所述原始表格图片中文本框的文本行信息的步骤,包括:
通过预设文本检测模型对所述原始表格图片进行文本检测,确定所述原始表格图片中的文本框位置;
基于所述文本框位置进行文本截取,获得所述文本框位置对应的文本行图片;
通过预设文本识别模型对所述文本行图片进行文本识别,确定所述文本框位置对应的文本信息;所述文本行信息包括所述文本框位置和所述文本信息。
可选地,所述预设文本识别模型包括:文本特征提取模块、文本位置编码模块以及文本注意力模块;
所述通过预设文本识别模型对所述文本行图片进行文本识别,确定所述文本框位置对应的文本信息的步骤,包括:
通过所述文本特征提取模块对所述文本行图片进行特征提取,获得文本特征;
通过所述文本位置编码模块对所述文本特征进行位置编码,获得文本位置特征;
通过所述文本注意力模块对所述文本特征和所述文本位置特征进行特征处理,获得所述文本框位置对应的文本信息。
此外,为实现上述目的,本发明还提出一种表格结构还原装置,所述表格结构还原装置包括:
结构识别模块,用于获得原始表格图片,通过预设表格结构识别模型识别所述原始表格图片的表格结构,获得表格结构序列以及表格单元格位置;
文本识别模块,用于对所述原始表格图片进行文本识别,获得所述原始表格图片中文本框的文本行信息;
规则匹配模块,用于基于所述表格结构序列、表格单元格位置和所述文本行信息进行规则匹配,获得表格代码;所述表格代码用于将原始表格还原。
此外,为实现上述目的,本发明还提出一种表格结构还原设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的表格结构还原程序,所述表格结构还原程序配置为实现如上文所述的表格结构还原方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有表格结构还原程序,所述表格结构还原程序被处理器执行时实现如上文所述的表格结构还原方法的步骤。
本发明通过获得原始表格图片,通过预设表格结构识别模型识别原始表格图片的表格结构,获得表格结构序列以及表格单元格位置;对原始表格图片进行文本识别,获得原始表格图片中文本框的文本行信息;基于表格结构序列、表格单元格位置和文本行信息进行规则匹配,获得表格代码;表格代码用于将原始表格还原。由于是通过对原始表格图片分布进行表格结构识别和文本识别,并将获得的表格结构序列、表格单元格位置、文本行信息进行规则匹配,从而获得了可以用于原始表格还原的表格代码,简化了表格识别的流程的同时提高了表格还原的准确率和泛用性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的表格结构还原设备的结构示意图;
图2为本发明表格结构还原方法第一实施例的流程示意图;
图3为本发明表格结构还原方法的一种实施方式中输入的原始表格图片示意图;
图4为本发明表格结构还原方法的一种实施方式中根据原始表格图片的位置识别示意图;
图5为本发明表格结构还原方法的一种实施方式中根据原始表格图片输出的待还原HTML序列示意图;
图6为本发明表格结构还原方法的一种实施例中文本框与单元格框的匹配示意图;
图7为本发明表格结构还原方法的一种实施方式中的待还原表格代码示意图;
图8为本发明表格结构还原方法的总体流程图;
图9为本发明表格结构还原方法第二实施例的流程示意图;
图10为本发明表格结构还原方法第三实施例的文本识别模型示意图;
图11为本发明表格结构还原方法第三实施例的文本表格结构识别模型示意图;
图12为本发明表格结构还原方法第三实施例的预设文本检测模型示意图;
图13为本发明表格结构还原装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的表格结构还原设备结构示意图。
如图1所示,该表格结构还原设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对表格结构还原设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及表格结构还原程序。
在图1所示的表格结构还原设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明表格结构还原设备中的处理器1001、存储器1005可以设置在表格结构还原设备中,所述表格结构还原设备通过处理器1001调用存储器1005中存储的表格结构还原程序,并执行本发明实施例提供的表格结构还原方法。
本发明实施例提供了一种表格结构还原方法,参照图2,图2为本发明表格结构还原方法第一实施例的流程示意图。
本实施例中,所述表格结构还原方法包括以下步骤:
步骤S10:获得原始表格图片,通过预设表格结构识别模型识别所述原始表格图片的表格结构,获得表格结构序列以及表格单元格位置。
需要说明的是,本实施例方法的执行主体可以是具有数据处理、图像识别以及程序运行功能的终端设备,例如计算机、服务器等,也可以是具有相同或相似功能的电子设备,例如上述表格结构还原设备。以下以表格结构还原设备(以下简称还原设备)为例对本实施例及下述各实施例进行说明。
需要说明的是,表格图片也即将表格内容以图片形式呈现的一种方式。通过将表格进行图片化处理,获得表格图片。可以使得对表格的识别范围更为广泛,通过屏蔽了表格中复杂结构和格式,在一定程度上进行了简化处理,提升了表格结构还原的效率。此外,表格图片可以通过常见的图像格式(如JPEG、PNG等)进行存储和传输,无需依赖特定的表格文件格式,提升了表格处理的兼容性。
可以理解的是,原始表格图片也即还未进行表格结构还原的表格图片,通过对原始表格图片进行处理,可以实现表格结构还原。
应当理解的是,原始表格图片的获取方式可以多种多样,本发明实施例对此不加以限制;示例性的,用户需要将纸质表格或照片等实体表格加载至电脑中,可以使用拍照或者纸质扫描的方式,获得原始表格图片;示例性的,用户在浏览网站时,发现符合需求的表格图片,可以对该图片进行截图或者下载处理,从而获得原始表格图片。
可以理解的是,预设表格结构识别模型是一种预先训练好的一种模型,该模型可以用于对表格图片进行识别,从而确定表格中的表格结构。本实施例不对本发明所使用的表格结构识别模型加以限制,可以是基于CNN卷积神经网络的表格识别模型,也可以是基于循环神经网络的表格识别模型、基于注意力机制的表格识别模型等,本发明实施例对此不加以限制。
需要说明的是,上述表格序列可以表征表格中包括的可视化内容特征。例如,表格的行、列、单元格、框线等。表格序列的表现形式可以是HTML序列,也可以是JSON序列或者其他序列,本发明实施例对此不加以限制。
如图3和图4所示,图3为本发明表格结构还原方法的一种实施方式中输入的原始表格图片示意图,图4为本发明表格结构还原方法的一种实施方式中根据原始表格图片输出的HTML序列示意图。
由图3可见,该原始表格图片中包括多种行结构、列结构以及单元格跨越关系等。对于不同的结构,其对应的表格标签不同,通过对原始表格图片进行识别,从而生成不同的表格标签,并基于该表格标签形成表格结构序列,再结合表格单元格位置即可确定各表格标签所在的位置,从而生成待还原表格结构序列。
需要说明的是,表格单元格所在位置可以根据表格中内容(如图中示例1、示例2、示例3及示例4)所在位置进行确定。
如图4所示,图4为本发明表格结构还原方法的一种实施方式中根据原始表格图片的位置识别示意图。
由图4可知,根据各表格单元格中的内容以及内容所在的位置、所占的大小即可确定各表格单元格对应的单元格矩形(也即单元格框)所在的位置。
以HTML序列为例,表格中行结构对应的表格标签为rowspan(图中示例为rsp),列结构对应的表格标签为colspan,表头结构对应的表格标签为<thead>;具体地,表格标签可以与HTML中的标签进行对应,本发明实施例在此不加以赘述。
需要说明的是,在部分表格中,可能存在内容为空的表格单元格。对于内容为空的表格单元格,也会为其分配相应的表格标签。例如以HTML序列为例,对于存在实际内容的表格单元格,其对应的表格标签可以是<td>x</td>,其中x为空格;对于不存在实际内容的表格单元格,其对应的表格标签可以是<td></td>。
应当理解的是,上述表格单元格位置可以是像素位置,也可以是坐标位置或者根据表格所建表格矩阵的位置等,本发明实施例对此不加以限制。
如图4所示,通过对该原始表格图片进行识别,可以确定表格所包括的行、列、表格单元格以及各行各列各表格单元格所在的位置。
可以理解的是,通过输出的表格结构序列,可以确定表格中包括的行、列、单元格等表格结构;通过输出的表格单元格位置,可以确定表格结构序列中各结构序列对应的位置。通过结合表格结构序列和表格单元格位置,即可确定待还原表格结构序列示意图。
如图5所示,图5为本发明表格结构还原方法的一种实施方式中根据原始表格图片输出的待还原HTML序列示意图。
由图5可知,本发明通过获得原始表格图片,并基于预设表格结构识别模型对原始表格图片的表格结构进行识别,从而获得了输出的待还原表格结构序列(图5示例为待还原HTML序列)。通过对表格图片进行可视化特征识别,避免了表格中复杂结构造成的干扰,提高了表格结构的还原效率。同时,将原始表格图片的表格结构以表格结构序列以及表格单元格位置(也即待还原表格结构序列)的形式表示,可以更直观地确定原始表格图片的表格结构,方便后续的内容填充。
步骤S20:对所述原始表格图片进行文本识别,获得所述原始表格图片中文本框的文本行信息。
需要说明的是,上述对原始表格图片进行文本识别的步骤,可以是在对原始表格图片进行表格结构识别的步骤之前或之后,也可以是同时执行,本发明实施例对此不加以限制。
可以理解的是,上述文本识别的方式可以使用常见的文本识别模型,本发明对此不加以限制。通过对表格图片进行文本识别,可以提取出表格图片中的文本行位置、文本行内容等文本行信息。
应当理解的是,文本行也即一个区域内连续文本字符序列,通过对文本行进行分析,可以确定各表格单元格中所包括的文本内容。从而实现表格内容的还原。
具体地,通过对原始表格图片进行文本识别,可以确定原始表格图片中文本行对应的文本框、文本框所在位置,以及文本行的文本信息。
应当理解的是,上述文本框也即由文本行所占区域对应的矩形,根据该矩形的大小和位置,即可确定文本行内容所在的位置,也即文本行位置(文本框位置)。
在具体实现中,还原设备对原始表格图片进行文本识别,获得原始表格图片中文本框的文本行信息。由于是通过获取原始表格图片中文本行信息,确定了原始表格图片中文本内容以及文本内容所在的位置,为表格结构还原提供了内容基础。通过文本识别,提高了表格结构还原的准确性。
步骤S30:基于所述表格结构序列、表格单元格位置和所述文本行信息进行规则匹配,获得表格代码;所述表格代码用于将原始表格还原。
需要说明的是,上述规则匹配也即根据预设的结构文本匹配规则对文本行和表格结构进行匹配。具体地,在确定表格结构序列、表格单元格位置、文本行内容以及文本行位置时,即可根据文本行位置和表格单元格位置确定文本行内容对应的表格单元格,并将该文本行内容填充至该表格单元格所在位置。
如图6所示,图6为本发明表格结构还原方法的一种实施例中文本框(上)与单元格框(下)的匹配示意图。
在一种实现方式中,所述基于所述表格结构序列、表格单元格位置和所述文本行信息进行规则匹配,获得表格代码的步骤,包括:
基于所述文本行信息确定文本框中点;
基于所述表格单元格位置和所述文本框中点判断所述文本框的目标表格单元格;
根据所述表格结构序列确定所述目标表格单元格对应的表格标签位置;
将所述文本框对应的文本内容添加至所述表格标签位置,获得表格代码。
可以理解的是,目标表格单元格也即根据文本行位置和表格单元格位置确定的文本内容所在的表格单元格。根据文本行信息中的文本行位置(也即文本框位置)可以确定文本框中点。根据文本框中点和表格单元格位置进行判断,即可确定文本框中点所处的目标表格单元格。
应当理解的是,在确定目标表格单元格时,即可在表格结构序列查找目标表格单元格对应的目标表格标签,并将文本内容添加至目标表格标签所在的位置,也即表格标签位置。
可以理解的是,通过将基于原始表格图片识别所获得的所有文本行信息进行匹配,从而可以将所有文本内容插入至对应的表格标签,获得了完整的待还原表格代码。如图7所示,图7为本发明表格结构还原方法的一种实施方式中的待还原表格代码示意图。根据该待还原表格代码和各表格标签所在位置(也即表格单元格位置)即可获得还原完成的表格。
如图8所示,图8为本发明表格结构还原方法的总体流程图。
可以理解的是,本发明通过对原始的表格图片进行表格结构识别和文本检测、文本识别,并将表格结构识别结果和文本检测结果、文本识别结果进行规则匹配,从而获得了表格代码,提高了表格的还原效率与准确性。
本发明实施例通过获得原始表格图片,通过预设表格结构识别模型识别原始表格图片的表格结构,获得表格结构序列以及表格单元格位置;对原始表格图片进行文本识别,获得原始表格图片中文本框的文本行信息;基于表格结构序列、表格单元格位置和文本行信息进行规则匹配,获得表格代码;表格代码用于将原始表格还原。由于是通过对原始表格图片分布进行表格结构识别和文本识别,并将获得的表格结构序列、表格单元格位置、文本行信息进行规则匹配,从而获得了可以用于原始表格还原的表格代码,简化了表格识别的流程的同时提高了表格还原的准确率和泛用性。
参考图9,图9为本发明表格结构还原方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,为了进一步地提高表格还原的准确性,可以通过交并比机制进行进一步地匹配。具体地,所述基于所述表格单元格位置和所述文本框中点判断所述文本框的目标表格单元格的步骤之后,还包括:
步骤S310:若无法确定所述文本框中点的目标单元格,根据所述表格单元位置确定所述文本框与所有表格单元格的交并比;
步骤S320:将交并比最大的所述表格单元格作为所述目标单元格,根据所述表格结构序列确定所述目标单元格对应的表格标签位置;
步骤S330:将所述文本框对应的文本内容添加至所述表格标签位置。
需要说明的是,交并比(Intersection over Union,IoU)是一种可以用于衡量单元格框和文本框之间的重合程度的指标。在无法通过文本框中点确定文本框对应的目标单元格(也即目标单元格框)时,通过计算各单元格框与文本框的交集面积和并集面积,并基于交集面积和并集面积计算文本框与各单元格框的交并比。
应当理解的是,与文本框交并比最大的单元格框也即所有单元格框中与文本框重合部分最多的单元格框,可以将交并比最大的单元格框作为文本框对应的单元格框(也即目标单元格)。
可以理解的是,在确定文本框对应的单元格框时,即可将该文本框对应的文本内容添加至单元格框对应的表格标签位置。
进一步地,若通过交并比无法确定目标单元格位置时,即可通过举例匹配机制进行结构文本匹配。具体地,所述根据所述表格单元位置确定所述文本框与所有表格单元格的交并比的步骤之后,还包括:若仍无法确定所述文本框中点的目标单元格,确定所述文本框与所有表格单元格的距离;将所述距离最短的表格单元格作为所述文本框中点的目标单元格,根据所述表格结构序列确定所述目标单元格对应的表格标签位置;将所述文本框对应的文本内容添加至所述表格标签位置。
需要说明的是,上述距离的计算方式可以是欧几里得距离、布雷柯蒂斯距离等,本发明实施例对此不加以限制。
本发明实施例中若无法确定文本框中点的目标单元格,根据表格单元位置确定文本框与所有表格单元格的交并比;将交并比最大的表格单元格作为目标单元格,根据表格结构序列确定目标单元格对应的表格标签位置;将文本框对应的文本内容添加至表格标签位置。若通过交并比也无法确定文本框的目标单元格,确定文本框与所有表格单元格的距离;将距离最短的表格单元格作为文本框中点的目标单元格,根据表格结构序列确定目标单元格对应的表格标签位置;将文本框对应的文本内容添加至表格标签位置。本发明通过中心点匹配机制、交并比匹配机制以及距离匹配机制按序进行一次匹配,确保了对应的文本内容将被准确地填充至对应的表格标签中,提高了表格结构还原的准确性。
基于上述各实施例,为了进一步地提高表格还原准确性,提出本发明方法的第三实施例。
在本实施例中,本发明表格结构还原方法的预设表格结构识别模型是一种基于注意力机制并结合了卷积神经网络的模型。通过该模型,可以预测图中表格结构,最终输出的是一串仅代表表格结构的表格序列(无文字内容)以及相对应的表格单元格位置。
在一种实现方式中,该表格单元格位置可以是坐标位置。具体地,可以是(x,y,w,h)。其中,x用于表示单元格中点的x坐标,y表示单元格中点的y坐标,w表示单元格框的宽度,h表示单元格框的高度。
在一种实现方式中,本发明的用于进行表格结构识别的预设表格结构识别模型和用于对表格文本内容识别的预设文本识别模型为基于MATER结构的模型。
如图10和图11所示,图10为本发明表格结构还原方法第三实施例的文本识别模型(Vanilla MASTER)示意图;图11为本发明表格结构还原方法第三实施例的表格结构识别模型(Table Structure MASTER)示意图。
需要说明的是,上述MATER结构是一种强大的Image-to-sequence模型,它旨在将输入的图像数据进行编码,然后生成相应的序列输出。在表格图片输入后,先通过CNN卷积神经网络提取图片特征,再进行位置编码,之后经过变换层(transformer layer),将原先的一条分支更改成了两条,新增的分支结构与之前的一致,此设计能进一步提高模型预测的准确性。
需要解释的是,在本发明的MASTER结构中,包括特征提取模块(FeatureExtractor)、位置编码模块(Positional Enconding)以及注意力模块。
需要说明的是,特征提取模块可以由CNN卷积神经网络构成。通过CNN卷积神经网络可以实现对输入的原始表格图片(Input Image)进行特征提取,从而获得原始表格图片的特征。具体地,对于表格结构识别模型可以获得原始表格图片中的表格结构特征,对于文本识别模型可以获得文本行图片中的文本特征。
进一步地,可以通过位置编码模块对特征提取模块的输出或者原始表格图片进行位置编码,从而确定图片的位置特征。具体地,对于表格结构识别模型,可以基于结构位置编码模块进一步地对原始表格图片(或携带表格结构特征的原始表格图片)进行位置编码,从而获得单元格位置特征;对于文本识别模型,可以对文本行图片(或者携带文本特征的文本行图片)进行位置编码,从而获得文本位置特征。
进一步地,可以通过注意力模块中的三层Transformer Layer提高模型的计算效率,提高了建模能力。对于表格结构识别模型,可以在其中设置两个分支,两个分支对应的学习任务分别为表格结构序列的预测(Output Probabilities)以及单元格框的回归(BoxRegression)。对于文本识别模型,仅需设置一个注意力模块的分支,即可输出文本信息的预测。
具体地,所述预设表格结构识别模型包括:结构特征提取模块、结构位置编码模块以及结构注意力模块;所述通过预设表格结构识别模型识别所述原始表格图片的表格结构,获得表格结构序列以及表格单元格位置的步骤,包括:通过所述结构特征提取模块对所述原始表格图片进行特征提取,获得表格结构特征;通过所述结构位置编码模块对所述原始表格图片进行位置编码,获得单元格位置特征;通过所述结构注意力模块对所述原始表格图片特征和所述单元格位置特征进行特征处理,获得表格结构序列以及表格单元格位置。
以及,所述预设文本识别模型包括:文本特征提取模块、文本位置编码模块以及文本注意力模块;所述通过预设文本识别模型对所述文本行图片进行文本识别,确定所述文本框位置对应的文本信息的步骤,包括:通过所述文本特征提取模块对所述文本行图片进行特征提取,获得文本特征;通过所述文本位置编码模块对所述文本特征进行位置编码,获得文本位置特征;通过所述文本注意力模块对所述文本特征和所述文本位置特征进行特征处理,获得所述文本框位置对应的文本信息。
进一步地,在MATER结构中还可以包括嵌入层(Embedding)。具体地,可以将输出的表格序列进行右移(shifted right)并作为嵌入层的输入,再经过位置编码输入作为注意力模块的额外输入特征,进一步地提高了模型预测的准确性。
需要解释的是,在一种实现方式中,本实施例所述对所述原始表格图片进行文本识别,获得所述原始表格图片中文本框的文本行信息的步骤,包括:通过预设文本检测模型对所述原始表格图片进行文本检测,确定所述原始表格图片中的文本框位置;基于所述文本框位置进行文本截取,获得所述文本框位置对应的文本行图片;通过预设文本识别模型对所述文本行图片进行文本识别,确定所述文本框位置对应的文本信息;所述文本行信息包括所述文本框位置和所述文本信息。
需要说明的是,在进行文本识别时,需要先通过预设的文本检测模型对原始表格图片进行文本检测,从而确定原始表格图片中的文本框位置(也即文本行位置)。具体的,本发明实施例采用的文本检测模型可以是dbnet模型,所获得的文本行位置可以是(x,y,w,h)形式的坐标位置。
具体地,文本检测模型(dbnet模型)可以包括预处理模块(Prep Moudle)、临时模块(Temp Moudle)以及后处理模块(PostP Module)。通过对输入的合成视频或图片数据集Dd(Synthetic video dataset)和静态突发数据集Ds(Static burst dataset),并通过预处理模块、临时模块以及后处理模分别对Dd和Ds进行处理,从而获得文本行图片。
在一种实现方式中,本发明还通过对表格序列进行编码,虽然同样是image-to-sequence,但任务类型却从生成式变为了分类,不仅如此,还极大地缩减了序列长度,提高了模型的训练及推理速度。考虑到实际情况中的空白单元格以及各种跨行或跨列的单元格合并,本发明还针对性地对不同标签进行了编码,例如<td></td>和<td>x</td>,其中本方案设置的单元格跨行或跨列的最大值为9,最终本方案共列举了26个分类形成字母表,具体可以如下表所示:
如表所示,其中各标签每一列的数据对应的编号分别为1-26,例如<thead>对应编号1,</thead>对应编号2,<tbody>对应编号3,</tbody>对应编号4,<tr>对应编号5,</tr>对应编号6,<td></td>对应编号7,<rowspan=“2”>对应编号为11,colspan=“2”对应编号19等。
可以理解的是,通过表格序列编码方案,可以实现表格结构的HTML序列和编码序列的相互转换,显著提高了模型训练和推理过程。
如图12所示,图12为本发明表格结构还原系统第三实施例的表格结构编码序列示意图。其中,SOS也即 Start of Sentence,可以表征表格结构编码序列的开始,EOS也即Endof Sentence,可以表征表格结构编码序列的结束。通过表格结构识别模型对原始表格图片进行结构识别,获得表格结构编码序列,再将表格结构编码序列转换为表格序列,提高了模型的推理效率。
本发明实施例通过预设表格结构识别模型对原始表格图片进行识别获得表格结构编码序列,再将表格结构编码序列进行转换获得表格序列,将任务类型从生成式变成了分类式,提高了模型的训练以及推理效率。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有表格结构还原程序,所述表格结构还原程序被处理器执行时实现如上文所述的表格结构还原方法的步骤。
基于本发明表格结构还原方法的第一实施例,提出本发明表格结构还原装置的第一实施例,参照图13,图13为本发明表格结构还原装置第一实施例的结构框图。
如图13所示,本发明实施例提出的表格结构还原装置包括:
结构识别模块1310,用于获得原始表格图片,通过预设表格结构识别模型识别所述原始表格图片的表格结构,获得表格结构序列以及表格单元格位置;
文本识别模块1320,用于对所述原始表格图片进行文本识别,获得所述原始表格图片中文本框的文本行信息;
规则匹配模块1330,用于基于所述表格结构序列、表格单元格位置和所述文本行信息进行规则匹配,获得表格代码;所述表格代码用于将原始表格还原。
本发明实施例通过获得原始表格图片,通过预设表格结构识别模型识别原始表格图片的表格结构,获得表格结构序列以及表格单元格位置;对原始表格图片进行文本识别,获得原始表格图片中文本框的文本行信息;基于表格结构序列、表格单元格位置和文本行信息进行规则匹配,获得表格代码;表格代码用于将原始表格还原。由于是通过对原始表格图片分布进行表格结构识别和文本识别,并将获得的表格结构序列、表格单元格位置、文本行信息进行规则匹配,从而获得了可以用于原始表格还原的表格代码,简化了表格识别的流程的同时提高了表格还原的准确率和泛用性。
进一步地,所述规则匹配模块1330,还用于基于所述文本行信息确定文本框中点;基于所述表格单元格位置和所述文本框中点判断所述文本框的目标表格单元格;根据所述表格结构序列确定所述目标表格单元格对应的表格标签位置;将所述文本框对应的文本内容添加至所述表格标签位置,获得表格代码。
进一步地,所述规则匹配模块1330,还用于若无法确定所述文本框的目标单元格,根据所述表格单元位置确定所述文本框与所有表格单元格的交并比;将交并比最大的所述表格单元格作为所述目标单元格,根据所述表格结构序列确定所述目标单元格对应的表格标签位置;将所述文本框对应的文本内容添加至所述表格标签位置。
进一步地,所述规则匹配模块1330,还用于若仍无法确定所述文本框中点的目标单元格,确定所述文本框与所有表格单元格的距离;将所述距离最短的表格单元格作为所述文本框中点的目标单元格,根据所述表格结构序列确定所述目标单元格对应的表格标签位置;将所述文本框对应的文本内容添加至所述表格标签位置。
进一步地,所述预设表格结构识别模型包括:结构特征提取模块、结构位置编码模块以及结构注意力模块;所述结构识别模块1310,还用于通过所述结构特征提取模块对所述原始表格图片进行特征提取,获得表格结构特征;通过所述结构位置编码模块对所述原始表格图片进行位置编码,获得单元格位置特征;通过所述结构注意力模块对所述原始表格图片特征和所述单元格位置特征进行特征处理,获得表格结构序列以及表格单元格位置。
进一步地,所述文本识别模块1320,还用于通过预设文本检测模型对所述原始表格图片进行文本检测,确定所述原始表格图片中的文本框位置;基于所述文本框位置进行文本截取,获得所述文本框位置对应的文本行图片;通过预设文本识别模型对所述文本行图片进行文本识别,确定所述文本框位置对应的文本信息;所述文本行信息包括所述文本框位置和所述文本信息。
进一步地,所述预设文本识别模型包括:文本特征提取模块、文本位置编码模块以及文本注意力模块;所述文本识别模块1320,还用于通过所述文本特征提取模块对所述文本行图片进行特征提取,获得文本特征;通过所述文本位置编码模块对所述文本特征进行位置编码,获得文本位置特征;通过所述文本注意力模块对所述文本特征和所述文本位置特征进行特征处理,获得所述文本框位置对应的文本信息。
本发明表格结构还原装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种表格结构还原方法,其特征在于,所述方法包括:
获得原始表格图片,通过预设表格结构识别模型识别所述原始表格图片的表格结构,获得表格结构序列以及表格单元格位置;
对所述原始表格图片进行文本识别,获得所述原始表格图片中文本框的文本行信息;
基于所述表格结构序列、表格单元格位置和所述文本行信息进行规则匹配,获得表格代码;所述表格代码用于将原始表格还原。
2.如权利要求1所述的表格结构还原方法,其特征在于,所述基于所述表格结构序列、表格单元格位置和所述文本行信息进行规则匹配,获得表格代码的步骤,包括:
基于所述文本行信息确定文本框中点;
基于所述表格单元格位置和所述文本框中点判断所述文本框的目标表格单元格;
根据所述表格结构序列确定所述目标表格单元格对应的表格标签位置;
将所述文本框对应的文本内容添加至所述表格标签位置,获得表格代码。
3.如权利要求2所述的表格结构还原方法,其特征在于,所述基于所述表格单元格位置和所述文本框中点判断所述文本框的目标表格单元格的步骤之后,还包括:
若无法确定所述文本框的目标单元格,根据所述表格单元位置确定所述文本框与所有表格单元格的交并比;
将交并比最大的所述表格单元格作为所述目标单元格,根据所述表格结构序列确定所述目标单元格对应的表格标签位置;
将所述文本框对应的文本内容添加至所述表格标签位置。
4.如权利要求3所述的表格结构还原方法,其特征在于,所述根据所述表格单元位置确定所述文本框与所有表格单元格的交并比的步骤之后,还包括:
若仍无法确定所述文本框中点的目标单元格,确定所述文本框与所有表格单元格的距离;
将所述距离最短的表格单元格作为所述文本框中点的目标单元格,根据所述表格结构序列确定所述目标单元格对应的表格标签位置;
将所述文本框对应的文本内容添加至所述表格标签位置。
5.如权利要求1所述的表格结构还原方法,其特征在于,所述预设表格结构识别模型包括:结构特征提取模块、结构位置编码模块以及结构注意力模块;
所述通过预设表格结构识别模型识别所述原始表格图片的表格结构,获得表格结构序列以及表格单元格位置的步骤,包括:
通过所述结构特征提取模块对所述原始表格图片进行特征提取,获得表格结构特征;
通过所述结构位置编码模块对所述原始表格图片进行位置编码,获得单元格位置特征;
通过所述结构注意力模块对所述原始表格图片特征和所述单元格位置特征进行特征处理,获得表格结构序列以及表格单元格位置。
6.如权利要求1所述的表格结构还原方法,其特征在于,所述对所述原始表格图片进行文本识别,获得所述原始表格图片中文本框的文本行信息的步骤,包括:
通过预设文本检测模型对所述原始表格图片进行文本检测,确定所述原始表格图片中的文本框位置;
基于所述文本框位置进行文本截取,获得所述文本框位置对应的文本行图片;
通过预设文本识别模型对所述文本行图片进行文本识别,确定所述文本框位置对应的文本信息;所述文本行信息包括所述文本框位置和所述文本信息。
7.如权利要求6所述的表格结构还原方法,其特征在于,所述预设文本识别模型包括:文本特征提取模块、文本位置编码模块以及文本注意力模块;
所述通过预设文本识别模型对所述文本行图片进行文本识别,确定所述文本框位置对应的文本信息的步骤,包括:
通过所述文本特征提取模块对所述文本行图片进行特征提取,获得文本特征;
通过所述文本位置编码模块对所述文本特征进行位置编码,获得文本位置特征;
通过所述文本注意力模块对所述文本特征和所述文本位置特征进行特征处理,获得所述文本框位置对应的文本信息。
8.一种表格结构还原装置,其特征在于,所述表格结构还原装置包括:
结构识别模块,用于获得原始表格图片,通过预设表格结构识别模型识别所述原始表格图片的表格结构,获得表格结构序列以及表格单元格位置;
文本识别模块,用于对所述原始表格图片进行文本识别,获得所述原始表格图片中文本框的文本行信息;
规则匹配模块,用于基于所述表格结构序列、表格单元格位置和所述文本行信息进行规则匹配,获得表格代码;所述表格代码用于将原始表格还原。
9.一种表格结构还原设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的表格结构还原程序,所述表格结构还原程序配置为实现如权利要求1至7中任一项所述的表格结构还原方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有表格结构还原程序,所述表格结构还原程序被处理器执行时实现如权利要求1至7任一项所述的表格结构还原方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311826481.7A CN117475458A (zh) | 2023-12-28 | 2023-12-28 | 表格结构还原方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311826481.7A CN117475458A (zh) | 2023-12-28 | 2023-12-28 | 表格结构还原方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117475458A true CN117475458A (zh) | 2024-01-30 |
Family
ID=89633396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311826481.7A Pending CN117475458A (zh) | 2023-12-28 | 2023-12-28 | 表格结构还原方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117475458A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424282A (zh) * | 2022-09-28 | 2022-12-02 | 山东省计算中心(国家超级计算济南中心) | 一种非结构化文本表格识别方法和系统 |
CN116152833A (zh) * | 2022-12-30 | 2023-05-23 | 北京百度网讯科技有限公司 | 基于图像的表格还原模型的训练方法及表格还原方法 |
CN116311310A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 一种结合语义分割和序列预测的通用表格识别方法和装置 |
-
2023
- 2023-12-28 CN CN202311826481.7A patent/CN117475458A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424282A (zh) * | 2022-09-28 | 2022-12-02 | 山东省计算中心(国家超级计算济南中心) | 一种非结构化文本表格识别方法和系统 |
CN116152833A (zh) * | 2022-12-30 | 2023-05-23 | 北京百度网讯科技有限公司 | 基于图像的表格还原模型的训练方法及表格还原方法 |
CN116311310A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 一种结合语义分割和序列预测的通用表格识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
JIAQUAN YE ET AL.: "PingAn-VCGroup\'s Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML", 《COMPUTER VISION AND PATTERN RECOGNITION》, 5 May 2021 (2021-05-05), pages 1 - 8 * |
NING LU ET AL.: "MASTER: Multi-aspect non-local network for scene text recognition", 《PATTERN RECOGNITION》, 15 April 2021 (2021-04-15), pages 1 - 10 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232149B (zh) | 一种文档多模信息和关系提取方法及系统 | |
CN110033018B (zh) | 图形相似度判断方法、装置及计算机可读存储介质 | |
US20210224332A1 (en) | Chart question answering | |
CN111898411B (zh) | 文本图像标注系统、方法、计算机设备和存储介质 | |
CN110738203B (zh) | 字段结构化输出方法、装置及计算机可读存储介质 | |
CN111695439A (zh) | 图像结构化数据提取方法、电子装置及存储介质 | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN111553363B (zh) | 一种端到端的图章识别方法及系统 | |
CN114241499A (zh) | 表格图片识别方法、装置、设备和可读存储介质 | |
CN112215236B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN113869017A (zh) | 基于人工智能的表格图像重构方法、装置、设备及介质 | |
CN111767889A (zh) | 公式识别方法、电子设备及计算机可读介质 | |
CN115393872A (zh) | 一种训练文本分类模型的方法、装置、设备及存储介质 | |
CN113283231B (zh) | 获取签章位的方法、设置系统、签章系统及存储介质 | |
CN111539435A (zh) | 语义分割模型构建方法及图像分割方法、设备、存储介质 | |
CN117475458A (zh) | 表格结构还原方法、装置、设备及存储介质 | |
CN116052195A (zh) | 文档解析方法、装置、终端设备和计算机可读存储介质 | |
CN115984886A (zh) | 表格信息抽取方法、装置、设备及存储介质 | |
CN115690795A (zh) | 简历信息提取方法、装置、电子设备和存储介质 | |
CN113011132B (zh) | 竖排文字识别方法、装置、计算机设备和存储介质 | |
CN114743204A (zh) | 针对表格的自动问答方法、系统、设备及存储介质 | |
CN112084979A (zh) | 食品成分识别方法、装置、设备及存储介质 | |
CN113283241A (zh) | 文本识别方法、装置、电子设备及计算机可读存储介质 | |
CN111027325A (zh) | 一种模型生成方法、实体识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |