CN117173725A - 表格信息处理方法、装置、计算机设备和存储介质 - Google Patents
表格信息处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117173725A CN117173725A CN202311456584.9A CN202311456584A CN117173725A CN 117173725 A CN117173725 A CN 117173725A CN 202311456584 A CN202311456584 A CN 202311456584A CN 117173725 A CN117173725 A CN 117173725A
- Authority
- CN
- China
- Prior art keywords
- text
- table information
- information
- block position
- position marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 59
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 238000002372 labelling Methods 0.000 claims description 43
- 238000004590 computer program Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241000287219 Serinus canaria Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本申请涉及一种表格信息处理方法、装置、计算机设备和存储介质。所述方法包括:获取包含待识别表格的待识别图片;基于文本检测识别模型,从待识别图片提取第一表格信息;根据表格信息处理规则,对第一表格信息进行处理,得到第二表格信息;从第二表格信息中提取各基础数据行对应的数据对,并将各数据行对应的数据对存储至数据库。本申请的方法,能够提高从待识别表格中获取的数据的准确性。
Description
技术领域
本申请涉及信息提取领域,特别是涉及一种表格信息处理方法、装置、计算机设备和存储介质。
背景技术
随着信息化技术的发展,信息无纸化办公的普及,人们对数据处理的便捷性要求越来越高。在一些办公场景中,通常需要通过表格识别技术对表格图像进行检测和识别,以获得表格中蕴含的数据。
表格识别包括表格检测、表格结构识别、表格文本识别三部分。现有技术下,通常是采用二值化以及膨胀腐蚀等图像处理操作,确定表格图像中的线条,并根据各线条以及各线条的交点坐标重建表格,以提取表格中的信息,得到表格中的数据。
然而,对于某些特殊形式的表格,例如PDF(Portable Document Format,可移植文档格式)文档中的三线表或其他特殊形式,则采用这种方式,重建的表格存在一定的偏差,因此存在获取的表格数据不准确的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高获取表格数据准确性的表格信息处理方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种表格信息处理方法,所述方法包括:
获取包含待识别表格的待识别图片;
基于文本检测识别模型,从所述待识别图片提取第一表格信息;所述第一表格信息包括待识别表格中不同数据行类型的单元格位置标注框、文本块位置标注框、文本内容以及文本块位置标注框和文本内容的对应关系,所述数据行类型包括表头行和文本数据行;
根据表格信息处理规则,对所述第一表格信息进行处理,得到第二表格信息;所述表格信息处理规则包括表头判断规则、文本长度识别规则和文本内容聚合规则;
从所述第二表格信息中提取各基础数据行对应的数据对,并将所述各数据行对应的数据对存储至数据库。
在其中一个实施例中,所述根据表格信息处理规则,对所述第一表格信息进行处理包括:
基于所述第一表格信息中的单元格位置标注框和文本块位置标注框的交并比、单元格位置标注框和文本块位置标注框的中心点距离以及文本块位置标注框和文本内容的对应关系,将所述文本内容填充至单元格,得到多行基础数据行;
对多行所述基础数据行中第二行后的各所述基础数据行对应的文本内容进行语义分析,确定多行所述基础数据行中每一行的语义类型信息;
根据多行所述基础数据行中每一行的语义类型信息,对所述第一表格信息进行更新,得到第二表格信息。
在其中一个实施例中,所述根据多行所述基础数据行中每一行的语义类型信息,对所述第一表格信息进行更新,得到第二表格信息包括:
将多行所述基础数据行中前两个基础数据行对应的文本内容进行语义提取,得到语义信息;
将每个所述语义信息与所述语义类型信息进行对比;
若所述语义信息与所述语义类型信息之间的相似度小于预设阈值,则将语义信息对应的基础数据行的数据行类型,更新为表头行,得到第二表格信息。
在其中一个实施例中,所述根据表格信息处理规则,对所述第一表格信息进行处理还包括:
基于所述第二表格信息,计算多行所述基础数据行中表头行的列数以及文本数据行的列数;
根据所述表头行的列数与文本数据行的列数,确定存在缺失列的缺失基础数据行;
将所述缺失基础数据行中的缺失列进行补全;
对所述缺失基础数据行中的每个文本内容与对应列的所述语义类型信息确定相似度,并提取每个文本内容的长度;
若文本内容的相似度小于第一阈值,且文本内容的长度大于第二阈值,则对相应的文本内容进行拆分,并填充所述缺失基础数据行,对所述第二表格信息进行更新。
在其中一个实施例中,所述根据表格信息处理规则,对所述第一表格信息进行处理还包括:
确定所述单元格位置标注框和对应位置的所述文本块位置标注框的宽度;
若所述文本块位置标注框的宽度大于对应位置的所述单元格位置标注框的宽度,则根据文本内容的对齐方式,调整文本数据行的文本块位置标注框,以及表头行的文本块位置标注框,对所述第二表格信息进行更新。
在其中一个实施例中,所述根据文本内容的对齐方式,调整文本数据行的文本块位置标注框,以及表头行的文本块位置标注框包括:
若所述待识别表格中文本内容的对齐方式为左对齐,则右扩各文本数据行的文本块位置标注框,并对所述表头行的文本块位置标注框进行拆分;
若所述待识别表格中文本内容的对齐方式为居中对齐,则左右同时扩展各文本数据行的文本块位置标注框,并对所述表头行的文本块位置标注框进行拆分。
在其中一个实施例中,所述从所述第二表格信息中提取各基础数据行对应的数据对包括:
确定各基础数据行的文本块位置标注框和文本内容的对应关系;
对各基础数据行对应的文本内容进行单词纠错;
基于所述第二表格信息中的单元格位置标注框和文本块位置标注框的交并比,以及中心点距离,对所述单元格位置标注框和所述文本块位置标注框进行合并处理,得到待提取的表格信息;
基于所述待提取的表格信息,提取各基础数据行对应的数据对。
第二方面,本申请还提供了一种表格信息处理装置,所述装置包括:
待识别图片获取模块,用于获取包含待识别表格的待识别图片;
表格信息提取模块,用于基于文本检测识别模型,从所述待识别图片提取第一表格信息;所述第一表格信息包括待识别表格中不同数据行类型的单元格位置标注框、文本块位置标注框、文本内容以及文本块位置标注框和文本内容的对应关系,所述数据行类型包括表头行和文本数据行;
表格信息处理模块,用于根据表格信息处理规则,对所述第一表格信息进行处理,得到第二表格信息;所述表格信息处理规则包括表头判断规则、文本长度识别规则和文本内容聚合规则;
数据对存储模块,用于从所述第二表格信息中提取各基础数据行对应的数据对,并将所述各数据行对应的数据对存储至数据库。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取包含待识别表格的待识别图片;
基于文本检测识别模型,从所述待识别图片提取第一表格信息;所述第一表格信息包括待识别表格中不同数据行类型的单元格位置标注框、文本块位置标注框、文本内容以及文本块位置标注框和文本内容的对应关系,所述数据行类型包括表头行和文本数据行;
根据表格信息处理规则,对所述第一表格信息进行处理,得到第二表格信息;所述表格信息处理规则包括表头判断规则、文本长度识别规则和文本内容聚合规则;
从所述第二表格信息中提取各基础数据行对应的数据对,并将所述各数据行对应的数据对存储至数据库。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取包含待识别表格的待识别图片;
基于文本检测识别模型,从所述待识别图片提取第一表格信息;所述第一表格信息包括待识别表格中不同数据行类型的单元格位置标注框、文本块位置标注框、文本内容以及文本块位置标注框和文本内容的对应关系,所述数据行类型包括表头行和文本数据行;
根据表格信息处理规则,对所述第一表格信息进行处理,得到第二表格信息;所述表格信息处理规则包括表头判断规则、文本长度识别规则和文本内容聚合规则;
从所述第二表格信息中提取各基础数据行对应的数据对,并将所述各数据行对应的数据对存储至数据库。
上述表格信息处理方法、装置、计算机设备和存储介质,获取包含待识别表格的待识别图片;基于文本检测识别模型,从待识别图片提取第一表格信息;根据表格信息处理规则,对第一表格信息进行处理,得到第二表格信息;从第二表格信息中提取各基础数据行对应的数据对,并将各数据行对应的数据对存储至数据库。本申请的方法中,基于多种表格信息处理规则对从待识别表格中提取的第一表格信息进行处理,相比于现有技术直接从提取的表格信息中确定表格数据,能够提高从待识别表格中获取的数据的准确性。
附图说明
图1为一个实施例中表格信息处理方法的流程示意图;
图2为一个实施例中对第一表格信息进行处理的流程示意图;
图3为一个实施例中对各基础数据行进行处理的示意图;
图4为另一个实施例中对第一表格信息进行处理的流程示意图;
图5为另一个实施例中对各基础数据行进行处理的示意图;
图6为又一个实施例中对第一表格信息进行处理的流程示意图;
图7为又一个实施例中对各基础数据行进行处理的示意图;
图8为一个实施例中提取各基础数据行对应的数据对的流程示意图;
图9为一个实施例中表格信息处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种表格信息处理方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,获取包含待识别表格的待识别图片。
其中,所述包含待识别表格的待识别图片,可以为对PDF文档进行转化以及预处理得到的图片。通过应用图像处理和分析技术将PDF文档转换为多张图片,并对多张图片进行预处理以优化后续表格检测和识别的效果。
具体地,使用python中的PyMuPDF库将PDF文档分页,将每一页转化为图片。PyMuPDF是一个Python绑定库,用于与MuPDF库进行交互。MuPDF是一个轻量级的开源PDF阅读器和渲染器,具有高性能和低内存占用的特点,PyMuPDF允许开发人员在Python中使用MuPDF的功能,包括打开、解析、渲染和操作PDF文件。在获取到PDF文档转换的图片后,采用二值化等方法对PDF文档转换的图片进行预处理。
步骤104,基于文本检测识别模型,从待识别图片提取第一表格信息。
其中,第一表格信息包括待识别表格中不同数据行类型的单元格位置标注框、文本块位置标注框、文本内容以及文本块位置标注框和文本内容的对应关系,数据行类型包括表头行和文本数据行。文本检测识别模型,可以将提取的表格信息输出为html格式,在html中可通过标签对的方式表示表格结构,<table></table>代表表格的开始与结束,<thead></thead>表示表头行,<tbody></tbody>表示文本数据行内容,<tr></tr>表示一行,<td></td>表示一个单元格,在<td></td>中可以通过设置colspan/rowspan表示该单元格跨列还是跨行,文本内容位于标签对之间,例如<td colspan=”2”>abc</td>表示该单元格跨2列,同时内部文本内容为“abc”。
具体地,使用文本检测识别模型,识别表格的结构序列输出,同时获取每个单元格在图片中的最小外接矩形位置,即表头的单元格位置标注框thead-structure-bbox与文本数据行的单元格位置标注框data-structure-bbox。使用文本检测识别模型对表格图片中存在文本内容的位置进行检测,并输出每个文本块在图片中最小外接矩形位置,即表头的文本块位置标注框thead-text-bbox与文本数据行的文本块位置标注框data-text-bbox。使用文本检测识别模型对检测到的文本内容进行识别,得到文本块位置标注框和文本内容的对应关系。
步骤106,根据表格信息处理规则,对第一表格信息进行处理,得到第二表格信息。
其中,表格信息处理规则包括表头判断规则、文本长度识别规则和文本内容聚合规则。表头判断规则,用于对表格信息中表头行被误识别为文本数据行的情况进行纠正。文本长度识别规则,用于对部分单元格未识别导致的表格信息中,部分文本块位置标注框对应的文本内容过长的情况进行纠正。文本内容聚合规则,用于对表格信息中表头行的文本块位置标注框检测错误,导致的对应文本内容间距较近难以区分的情况进行纠正。
步骤108,从第二表格信息中提取各基础数据行对应的数据对,并将各数据行对应的数据对存储至数据库。
具体地,将第二表格信息转化为标准表格形式,对其中跨行、跨列的单元格对应的数据行进行拆解,从拆解后的数据行中提取数据对<S,D>,即<表头行,文本内容>,并根据表格对应表头行的不同类型采用不同的存储方式将数据对存储至数据库。若待识别表格为一级表头,直接将提取到的数据对进行存储;若待识别表格为多级表头,通过构建多个数据库表存储多级表头的文本内容,以及多级表头之间的关系。例如一方面构建参数表存储多级表头之间的关系,另一方面构建数据表存储获取到的数据对。
本实施例的方法中,首先获取包含待识别表格的待识别图片;然后基于文本检测识别模型,从待识别图片提取第一表格信息;之后根据表格信息处理规则,对第一表格信息进行处理,得到第二表格信息;最后从第二表格信息中提取各基础数据行对应的数据对,并将各数据行对应的数据对存储至数据库。采用本实施例的方法,基于多种表格信息处理规则,对从待识别表格中提取的第一表格信息进行处理,相比于现有技术直接从提取的表格信息中确定表格数据,能够提高获取的数据的准确性。
在一个实施例中,如图2所示,根据表格信息处理规则,对第一表格信息进行处理包括:
步骤202,基于第一表格信息中的单元格位置标注框和文本块位置标注框的交并比、单元格位置标注框和文本块位置标注框的中心点距离以及文本块位置标注框和文本内容的对应关系,将文本内容填充至单元格,得到多行基础数据行。
将文本内容与单元格位置标注框和文本块位置标注框,根据交并比、中心点距离进行合并,得到待填充的基础数据行内容。根据文本块位置标注框data-text-bbox和单元格位置标注框data-structure-bbox将文本内容填入到html的<tbody></tbody>中的每个单元格之中,得到多行基础数据行。
步骤204,对多行基础数据行中第二行后的各基础数据行对应的文本内容进行语义分析,确定多行基础数据行中每一行的语义类型信息。
其中,语义类型信息,用于表示文本内容的语义类型。
示例性地,如图3所示,自下而上对<Ragdoll,Arf,canary>,<Birman,Corgi,lark>两行进行语义分析,提取其中的语义信息,确定多行基础数据行中第二行以后每一行的语义类型信息。得到的每一行的语义类型信息为“猫的品种、狗的品种和鸟的品种”。
步骤206,根据多行基础数据行中每一行的语义类型信息,对第一表格信息进行更新,得到第二表格信息。
具体地,将多行基础数据行中前两个基础数据行对应的文本内容进行语义提取,得到语义信息;将每个语义信息与语义类型信息进行对比;若语义信息与语义类型信息之间的相似度小于预设阈值,则将语义信息对应的基础数据行的数据行类型,更新为表头行,得到第二表格信息。
示例性地,如图3所示,将<cat,dog,bird>提取的语义信息与第二行后的各基础数据行对应的语义信息进行比对,相似度小于预设阈值,因此将该行的语义类型信息更新为表头行。
本实施例的方法中,基于第一表格信息中的单元格位置标注框和文本块位置标注框的交并比、单元格位置标注框和文本块位置标注框的中心点距离以及文本块位置标注框和文本内容的对应关系,将文本内容填充至单元格,得到多行基础数据行;对多行基础数据行中第二行后的各基础数据行对应的文本内容进行语义分析,确定多行基础数据行中每一行的语义类型信息;根据多行基础数据行中每一行的语义类型信息,对第一表格信息进行更新,得到第二表格信息。由于通过语义分析对多行基础数据行中每一行进行了纠正,因此能够使得到的第二表格信息更加准确,从第二表格信息中获取的表格数据更加准确。
在一个实施例中,如图4所示,根据表格信息处理规则,对第一表格信息进行处理还包括:
步骤402,基于第二表格信息,计算多行基础数据行中表头行的列数以及文本数据行的列数。
步骤404,根据表头行的列数与文本数据行的列数,确定存在缺失列的缺失基础数据行。
如图5所示,比对表头行的列数与文本数据行的列数,将较多的列数作为基准,即3列作为基准。将拥有较少列数的行确定为存在缺失列的基础数据行,如图5中的第二行基础数据行的列数为2,将该行确定为存在缺失列的缺失基础数据行。
步骤406,将缺失基础数据行中的缺失列进行补全。
示例性地,图5中的第二行基础数据行的缺失列为第三列,则将第三列进行补全。
步骤408,对缺失基础数据行中的每个文本内容与对应列的语义类型信息确定相似度,并提取每个文本内容的长度。
步骤410,若文本内容的相似度小于第一阈值,且文本内容的长度大于第二阈值,则对相应的文本内容进行拆分,并填充缺失基础数据行,对第二表格信息进行更新。
例如,对图5中的第二行基础数据行,通过对其中的每个文本内容与对应的列的语义类型信息确定相似度,可以确定“dogbird”与其他文本内容的相似度小于第一阈值,并且该文本内容的长度大于第二阈值。则将该文本内容拆分为“dog”和“bird”,将文本内容“bird”填充至缺失基础数据行中缺失的第3列。根据拆分和填充的结果对第二表格信息进行更新。
本实施例中,基于第二表格信息,计算多行基础数据行中表头行的列数以及文本数据行的列数;根据表头行的列数与文本数据行的列数,确定存在缺失列的缺失基础数据行;将缺失基础数据行中的缺失列进行补全;对缺失基础数据行中的每个文本内容与对应列的语义信息确定相似度,并提取每个文本内容的长度;若文本内容的相似度小于第一阈值,且文本内容的长度大于第二阈值,则对相应的文本内容进行拆分,并填充缺失基础数据行,对第二表格信息进行更新。通过对比文本内容的语义信息相似度以及文本内容的长度,对缺失基础数据行的缺失列进行补全,能够使得到的第二表格信息更加准确,从而从第二表格信息中获取的表格数据更加准确。
在一个实施例中,如图6所示,根据表格信息处理规则,对第一表格信息进行处理还包括:
步骤602,确定单元格位置标注框和对应位置的文本块位置标注框的宽度。
步骤604,若文本块位置标注框的宽度大于对应位置的单元格位置标注框的宽度,则根据文本内容的对齐方式,调整文本数据行的文本块位置标注框,以及表头行的文本块位置标注框,对第二表格信息进行更新。
具体地,若待识别表格中文本内容的对齐方式为左对齐,则右扩各文本数据行的文本块位置标注框,并对表头行的文本块位置标注框进行拆分。若待识别表格中文本内容的对齐方式为居中对齐,则左右同时扩展各文本数据行的文本块位置标注框,并对表头行的文本块位置标注框进行拆分。
如图7所示。首先对表头行的单元格位置标注框thead- structure -bbox和文本块位置标注框thead-text-bbox的宽度进行确定。对于图7中的第一行基础数据行,文本块位置标注框thead-text-bbox的宽度大于对应位置的单元格位置标注框thead-structure-bbox的宽度,因此需要根据对齐方式,调整文本块位置标注框。将表头行的文本块位置标注框进行拆分,得到对应于“Animal_cat”和“Animal_dog”这两个文本内容的两个文本块位置标注框。对于其中的第二行,将<Meow>的右边界向右延伸直至与<Woof>的左边界相邻,同理将<Woof>的右边界向右延伸直至与图片边界相邻,最后将调整后的矩形框尺寸作为表头行的文本块位置标注框thead-text-bbox的尺寸,使得<Animal_cat>与<Animal_dog>分离。并根据对应关系对第二表格信息进行更新。
本实施例中,确定单元格位置标注框和对应位置的文本块位置标注框的宽度;若文本块位置标注框的宽度大于对应位置的单元格位置标注框的宽度,则根据文本内容的对齐方式,调整文本数据行的文本块位置标注框,以及表头行的文本块位置标注框,对第二表格信息进行更新。通过对比单元格位置标注框和对应位置的文本块位置标注框的宽度,并且根据对齐方式,对文本块位置标注框进行调整,可以确保文本块位置标注框和文本内容准确匹配,提高从表格信息中提取的数据的准确性。
在一个实施例中,如图8所示,从第二表格信息中提取各基础数据行对应的数据对包括:
步骤802,确定各基础数据行的文本块位置标注框和文本内容的对应关系。
步骤804,对各基础数据行对应的文本内容进行单词纠错。
具体地,使用基于词典构建的朴素贝叶斯模型,对各基础数据行对应的文本内容进行检测,将出现的错误单词进行纠正。
步骤806,基于第二表格信息中的单元格位置标注框和文本块位置标注框的交并比,以及中心点距离,对单元格位置标注框和文本块位置标注框进行合并处理,得到待提取的表格信息。
步骤808,基于待提取的表格信息,提取各基础数据行对应的数据对。
具体地,从待提取的表格信息中提取数据对<S,D>,即<表头行,文本内容>。
为了衡量最终表格信息提取的效果,采用AOI(Amount of information,信息量)来进行判断,AOI的具体计算方式如下公式(1)所示:
(1)
其中,pred_information_pair为识别正确的数据对集合,true_information_pair为真实数据对集合,通过计算提取正确的数据对与待识别表格真实数据对数量的比值来衡量表格信息提取的优劣。最后将获取到的各基础数据行对应的数据对直接端对端存储到数据库。
本实施例中,确定各基础数据行的文本块位置标注框和文本内容的对应关系;对各基础数据行对应的文本内容进行单词纠错;基于第二表格信息中的单元格位置标注框和文本块位置标注框的交并比,以及中心点距离,对单元格位置标注框和文本块位置标注框进行合并处理,得到待提取的表格信息;基于待提取的表格信息,提取各数据行对应的数据对。由于在提取数据对之前对各基础数据行对应的文本内容进行了单词纠错,最终可以提取出更加准确的表格数据,并且采用数据对的形式进行存储,便于根据表头行对不同的文本内容进行不同存储方式的存储。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的表格信息处理方法的表格信息处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个表格信息处理装置实施例中的具体限定可以参见上文中对于表格信息处理方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种表格信息处理装置900,包括:
待识别图片获取模块901,用于获取包含待识别表格的待识别图片。
表格信息提取模块902,用于基于文本检测识别模型,从待识别图片提取第一表格信息;第一表格信息包括待识别表格中不同数据行类型的单元格位置标注框、文本块位置标注框、文本内容以及文本块位置标注框和文本内容的对应关系,数据行类型包括表头行和文本数据行。
表格信息处理模块903,用于根据表格信息处理规则,对第一表格信息进行处理,得到第二表格信息;表格信息处理规则包括表头判断规则、文本长度识别规则和文本内容聚合规则。
数据对存储模块904,用于从第二表格信息中提取各数据行对应的数据对,并将各数据行对应的数据对存储至数据库。
在一个实施例中,表格信息处理模块903还用于基于第一表格信息中的单元格位置标注框和文本块位置标注框的交并比、单元格位置标注框和文本块位置标注框的中心点距离以及文本块位置标注框和文本内容的对应关系,将文本内容填充至单元格,得到多行基础数据行;
对多行基础数据行中第二行后的各基础数据行对应的文本内容进行语义分析,确定多行基础数据行中每一行的语义类型信息;
根据多行基础数据行中每一行的语义类型信息,对第一表格信息进行更新,得到第二表格信息。
在一个实施例中,表格信息处理模块903还用于将多行基础数据行中前两个基础数据行对应的文本内容进行语义提取,得到语义信息;
将每个语义信息与语义类型信息进行对比;
若语义信息与语义类型信息之间的相似度小于预设阈值,则将语义信息对应的基础数据行的数据行类型,更新为表头行,得到第二表格信息。
在一个实施例中,表格信息处理模块903还用于基于第二表格信息,计算多行基础数据行中表头行的列数以及文本数据行的列数;
根据表头行的列数与文本数据行的列数,确定存在缺失列的缺失基础数据行;
将缺失基础数据行中的缺失列进行补全;
对缺失基础数据行中的每个文本内容与对应列的语义信息确定相似度,并提取每个文本内容的长度;
若文本内容的相似度小于第一阈值,且文本内容的长度大于第二阈值,则对相应的文本内容进行拆分,并填充缺失基础数据行,对第二表格信息进行更新。
在一个实施例中,表格信息处理模块903还用于确定单元格位置标注框和对应位置的文本块位置标注框的宽度;
若文本块位置标注框的宽度大于对应位置的单元格位置标注框的宽度,则根据文本内容的对齐方式,调整文本数据行的文本块位置标注框,以及表头行的文本块位置标注框,对第二表格信息进行更新。
在一个实施例中,表格信息处理模块903还用于若待识别表格中文本内容的对齐方式为左对齐,则右扩各文本数据行的文本块位置标注框,并对表头行的文本块位置标注框进行拆分;
若待识别表格中文本内容的对齐方式为居中对齐,则左右同时扩展各文本数据行的文本块位置标注框,并对表头行的文本块位置标注框进行拆分。
在一个实施例中,数据对存储模块904模块还用于确定各基础数据行的文本块位置标注框和文本内容的对应关系;
对各基础数据行对应的文本内容进行单词纠错;
基于第二表格信息中的单元格位置标注框和文本块位置标注框的交并比,以及中心点距离,对单元格位置标注框和文本块位置标注框进行合并处理,得到待提取的表格信息;
基于待提取的表格信息,提取各数据行对应的数据对。
上述表格信息处理装置900中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种表格信息处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(MagnetoresistiveRandom Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(PhaseChange Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(StaticRandom Access Memory,SRAM)或动态随机存取存储器(Dynamic Random AccessMemory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种表格信息处理方法,其特征在于,所述方法包括:
获取包含待识别表格的待识别图片;
基于文本检测识别模型,从所述待识别图片提取第一表格信息;所述第一表格信息包括待识别表格中不同数据行类型的单元格位置标注框、文本块位置标注框、文本内容以及文本块位置标注框和文本内容的对应关系,所述数据行类型包括表头行和文本数据行;
根据表格信息处理规则,对所述第一表格信息进行处理,得到第二表格信息;所述表格信息处理规则包括表头判断规则、文本长度识别规则和文本内容聚合规则;
从所述第二表格信息中提取各基础数据行对应的数据对,并将所述各数据行对应的数据对存储至数据库。
2.根据权利要求1所述的方法,其特征在于,所述根据表格信息处理规则,对所述第一表格信息进行处理包括:
基于所述第一表格信息中的单元格位置标注框和文本块位置标注框的交并比、单元格位置标注框和文本块位置标注框的中心点距离以及文本块位置标注框和文本内容的对应关系,将所述文本内容填充至单元格,得到多行基础数据行;
对多行所述基础数据行中第二行后的各所述基础数据行对应的文本内容进行语义分析,确定多行所述基础数据行中每一行的语义类型信息;
根据多行所述基础数据行中每一行的语义类型信息,对所述第一表格信息进行更新,得到第二表格信息。
3.根据权利要求2所述的方法,其特征在于,所述根据多行所述基础数据行中每一行的语义类型信息,对所述第一表格信息进行更新,得到第二表格信息包括:
将多行所述基础数据行中前两个基础数据行对应的文本内容进行语义提取,得到语义信息;
将每个所述语义信息与所述语义类型信息进行对比;
若所述语义信息与所述语义类型信息之间的相似度小于预设阈值,则将语义信息对应的基础数据行的数据行类型,更新为表头行,得到第二表格信息。
4.根据权利要求3所述的方法,其特征在于,所述根据表格信息处理规则,对所述第一表格信息进行处理还包括:
基于所述第二表格信息,计算多行所述基础数据行中表头行的列数以及文本数据行的列数;
根据所述表头行的列数与文本数据行的列数,确定存在缺失列的缺失基础数据行;
将所述缺失基础数据行中的缺失列进行补全;
对所述缺失基础数据行中的每个文本内容与对应列的所述语义类型信息确定相似度,并提取每个文本内容的长度;
若文本内容的相似度小于第一阈值,且文本内容的长度大于第二阈值,则对相应的文本内容进行拆分,并填充所述缺失基础数据行,对所述第二表格信息进行更新。
5.根据权利要求4所述的方法,其特征在于,所述根据表格信息处理规则,对所述第一表格信息进行处理还包括:
确定所述单元格位置标注框和对应位置的所述文本块位置标注框的宽度;
若所述文本块位置标注框的宽度大于对应位置的所述单元格位置标注框的宽度,则根据文本内容的对齐方式,调整文本数据行的文本块位置标注框,以及表头行的文本块位置标注框,对所述第二表格信息进行更新。
6.根据权利要求5所述的方法,其特征在于,所述根据文本内容的对齐方式,调整文本数据行的文本块位置标注框,以及表头行的文本块位置标注框包括:
若所述待识别表格中文本内容的对齐方式为左对齐,则右扩各文本数据行的文本块位置标注框,并对所述表头行的文本块位置标注框进行拆分;
若所述待识别表格中文本内容的对齐方式为居中对齐,则左右同时扩展各文本数据行的文本块位置标注框,并对所述表头行的文本块位置标注框进行拆分。
7.根据权利要求1所述的方法,其特征在于,所述从所述第二表格信息中提取各基础数据行对应的数据对包括:
确定各基础数据行的文本块位置标注框和文本内容的对应关系;
对各基础数据行对应的文本内容进行单词纠错;
基于所述第二表格信息中的单元格位置标注框和文本块位置标注框的交并比,以及中心点距离,对所述单元格位置标注框和所述文本块位置标注框进行合并处理,得到待提取的表格信息;
基于所述待提取的表格信息,提取各基础数据行对应的数据对。
8.一种表格信息处理装置,其特征在于,所述装置包括:
待识别图片获取模块,用于获取包含待识别表格的待识别图片;
表格信息提取模块,用于基于文本检测识别模型,从所述待识别图片提取第一表格信息;所述第一表格信息包括待识别表格中不同数据行类型的单元格位置标注框、文本块位置标注框、文本内容以及文本块位置标注框和文本内容的对应关系,所述数据行类型包括表头行和文本数据行;
表格信息处理模块,用于根据表格信息处理规则,对所述第一表格信息进行处理,得到第二表格信息;所述表格信息处理规则包括表头判断规则、文本长度识别规则和文本内容聚合规则;
数据对存储模块,用于从所述第二表格信息中提取各基础数据行对应的数据对,并将所述各数据行对应的数据对存储至数据库。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311456584.9A CN117173725B (zh) | 2023-11-03 | 2023-11-03 | 表格信息处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311456584.9A CN117173725B (zh) | 2023-11-03 | 2023-11-03 | 表格信息处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117173725A true CN117173725A (zh) | 2023-12-05 |
CN117173725B CN117173725B (zh) | 2024-04-09 |
Family
ID=88947345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311456584.9A Active CN117173725B (zh) | 2023-11-03 | 2023-11-03 | 表格信息处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117173725B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021147252A1 (zh) * | 2020-01-22 | 2021-07-29 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置、电子设备及存储介质 |
CN114511863A (zh) * | 2021-12-20 | 2022-05-17 | 北京百度网讯科技有限公司 | 表格结构提取方法、装置、电子设备及存储介质 |
CN116071769A (zh) * | 2023-03-02 | 2023-05-05 | 南京燧坤智能科技有限公司 | 表格识别方法、装置、非易失性存储介质和计算机设备 |
CN116311310A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 一种结合语义分割和序列预测的通用表格识别方法和装置 |
CN116644729A (zh) * | 2023-05-16 | 2023-08-25 | 见知数据科技(上海)有限公司 | 表格文件处理方法、装置、计算机设备和存储介质 |
CN116844177A (zh) * | 2023-06-05 | 2023-10-03 | 合肥联宝信息技术有限公司 | 一种表格识别方法、装置、设备及存储介质 |
CN116860747A (zh) * | 2023-06-21 | 2023-10-10 | 杭州数梦工场科技有限公司 | 训练样本的生成方法、装置、电子设备及存储介质 |
CN116912865A (zh) * | 2022-11-30 | 2023-10-20 | 中国移动通信集团广东有限公司 | 表格图像识别方法、装置、设备及介质 |
-
2023
- 2023-11-03 CN CN202311456584.9A patent/CN117173725B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021147252A1 (zh) * | 2020-01-22 | 2021-07-29 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置、电子设备及存储介质 |
CN114511863A (zh) * | 2021-12-20 | 2022-05-17 | 北京百度网讯科技有限公司 | 表格结构提取方法、装置、电子设备及存储介质 |
CN116912865A (zh) * | 2022-11-30 | 2023-10-20 | 中国移动通信集团广东有限公司 | 表格图像识别方法、装置、设备及介质 |
CN116071769A (zh) * | 2023-03-02 | 2023-05-05 | 南京燧坤智能科技有限公司 | 表格识别方法、装置、非易失性存储介质和计算机设备 |
CN116644729A (zh) * | 2023-05-16 | 2023-08-25 | 见知数据科技(上海)有限公司 | 表格文件处理方法、装置、计算机设备和存储介质 |
CN116311310A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 一种结合语义分割和序列预测的通用表格识别方法和装置 |
CN116844177A (zh) * | 2023-06-05 | 2023-10-03 | 合肥联宝信息技术有限公司 | 一种表格识别方法、装置、设备及存储介质 |
CN116860747A (zh) * | 2023-06-21 | 2023-10-10 | 杭州数梦工场科技有限公司 | 训练样本的生成方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
NATALJA MAKARÕTŠEVA等: "Analysis of the degradation products of chemical warfare agents using a portable capillary electrophoresis instrument with various sample injection devices", 《PROCEDIA CHEMISTRY》 * |
徐飞等: "面向结构的Web表格数据抽取系统", 《西安工业大学学报》, no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN117173725B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378710B (zh) | 图像文件的版面分析方法、装置、计算机设备和存储介质 | |
US20220027740A1 (en) | Auto-formatting of a data table | |
CN112597773B (zh) | 文档结构化方法、系统、终端及介质 | |
CN113837151B (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN110569489B (zh) | 基于pdf文件的表格数据解析方法及装置 | |
CN114677695A (zh) | 表格解析方法、装置、计算机设备和存储介质 | |
CN114241499A (zh) | 表格图片识别方法、装置、设备和可读存储介质 | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN116644729A (zh) | 表格文件处理方法、装置、计算机设备和存储介质 | |
CN113255369B (zh) | 文本相似度分析的方法、装置及存储介质 | |
CN118172785A (zh) | 文档信息抽取方法、装置、设备、存储介质和程序产品 | |
US9672438B2 (en) | Text parsing in complex graphical images | |
CN117173725B (zh) | 表格信息处理方法、装置、计算机设备和存储介质 | |
CN117115823A (zh) | 一种篡改识别方法、装置、计算机设备和存储介质 | |
CN116795995A (zh) | 知识图谱构建方法、装置、计算机设备和存储介质 | |
CN113779218B (zh) | 问答对构建方法、装置、计算机设备和存储介质 | |
CN112766269B (zh) | 一种图片文本检索方法、智能终端及存储介质 | |
CN113515920B (zh) | 从表格中提取公式的方法、电子设备和计算机可读介质 | |
CN113868411A (zh) | 合同比对方法、装置、存储介质及计算机设备 | |
CN117095422B (zh) | 文档信息解析方法、装置、计算机设备、存储介质 | |
CN117079084B (zh) | 样本图像的生成方法、装置、计算机设备和存储介质 | |
CN117217172B (zh) | 表格信息获取方法、装置、计算机设备、存储介质 | |
CN117851605B (zh) | 一种行业知识图谱构建方法、计算机设备及存储介质 | |
CN117115839B (zh) | 一种基于自循环神经网络的发票字段识别方法和装置 | |
CN117687968A (zh) | 一种表格解析方法、装置、设备和文档搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |