CN114495144A - 文本图像中表格key-value信息的提取方法及装置 - Google Patents
文本图像中表格key-value信息的提取方法及装置 Download PDFInfo
- Publication number
- CN114495144A CN114495144A CN202111599279.6A CN202111599279A CN114495144A CN 114495144 A CN114495144 A CN 114495144A CN 202111599279 A CN202111599279 A CN 202111599279A CN 114495144 A CN114495144 A CN 114495144A
- Authority
- CN
- China
- Prior art keywords
- key
- value
- information
- image
- text image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Character Input (AREA)
Abstract
本申请涉及图像处理技术领域,特别涉及一种文本图像中表格key‑value信息的提取方法及装置,其中,方法包括:识别文本图像中的表格单元格位置信息;根据表格单元格位置信息和单元格内容信息构造单元格特征,并利用机器学习分类算法得到key‑value的MAP图;利用key‑value的MAP图将每个表格单元展开为一维链路,并构建动态规划,获取最优的key‑value从属关系路径,基于最优的key‑value从属关系路径获取表格key‑value信息。由此,解决了相关技术中基于模板和规则提取key‑value信息,通常需要设置繁琐规则或阈值,操作复杂、鲁棒性较差,且适用性较差及提取的准确性较低等问题。
Description
技术领域
本申请涉及图像处理技术领域,特别涉及一种文本图像中表格key-value信息的提取方法及装置。
背景技术
表格作为文档的一部分,简单易用,是日常工作中常用的有效信息表现方式。表格中蕴含丰富的key-value键值对信息,对表格key-value信息的抽取本质上拓宽了获取非结构信息的维度,对自然语言处理、数据挖掘、语义分析等均具有巨大的促进作用,因此如何对图像文本中的表格信息抽取成为了人们关注的焦点。
相关技术中,通常是基于模板和规则对文本图像中表格信息进行抽取;具体地:预先制作表格模板,再上传待识别文本图像,并借助OCR(optical character recognition,文字识别),进行硬编码获取文本图像表格key-value信息。
然而,相关技术中基于模板和规则提取key-value信息需要依赖规则硬编码,通常需要设置繁琐规则或阈值,导致操作复杂、鲁棒性较差,且模板通用性差,导致提取适用性较差,同时信息提取的准确性较低。
发明内容
本申请提供一种文本图像中表格key-value信息的提取方法、装置、电子设备及存储介质,以解决相关技术中基于模板和规则提取key-value信息,通常需要设置繁琐规则或阈值,操作复杂、鲁棒性较差,且适用性较差及提取的准确性较低等问题。
本申请第一方面实施例提供一种文本图像中表格key-value信息的提取方法,包括以下步骤:识别文本图像中的表格单元格位置信息;根据所述表格单元格位置信息和单元格内容信息构造单元格特征,并利用机器学习分类算法得到key-value的MAP图;利用所述key-value的MAP图将每个表格单元展开为一维链路,并构建动态规划,获取最优的key-value从属关系路径,基于所述最优的key-value从属关系路径获取表格key-value信息。
进一步地,在识别所述文本图像中的表格单元格位置信息之前,包括:利用二位图像的快速傅里叶变换将所述文本图像转化到傅里叶频谱空间,得到频谱图像;对所述频谱图进行霍夫直线提取,得到直线在频谱中的角度信息,并利用所述角度信息对图片进行倾斜校正。
进一步地,所述识别文本图像中的表格单元格位置信息,包括:对所述文本图像进行灰度处理,且基于横向和纵向的卷积算子,对二值化图像进行膨胀腐蚀,得到二值化图像;通过所述二值化图像的图像连通域获取表格外框信息,确定所述表格中的横线和竖线;基于所述表格中的横线和竖线的交点获取表格角点坐标,并将所述角点坐标按照预设规则排列,得到排序后的角点坐标,获取得到所述表格单元格位置信息。
进一步地,所述基于所述最优的key-value从属关系路径获取表格key-value信息,包括:解码所述最优的key-value从属关系路径,得到所述表格key-value信息。
本申请第二方面实施例提供一种文本图像中表格key-value信息的提取装置,包括:识别模块,用于识别文本图像中的表格单元格位置信息;构造模块,用于根据所述表格单元格位置信息和单元格内容信息构造单元格特征,并利用机器学习分类算法得到key-value的MAP图;获取模块,用于利用所述key-value的MAP图将每个表格单元展开为一维链路,并构建动态规划,获取最优的key-value从属关系路径,基于所述最优的key-value从属关系路径获取表格key-value信息。
进一步地,还包括:校正模块,用于在识别所述文本图像中的表格单元格位置信息之前,利用二位图像的快速傅里叶变换将所述文本图像转化到傅里叶频谱空间,得到频谱图像,对所述频谱图进行霍夫直线提取,得到直线在频谱中的角度信息,并利用所述角度信息对图片进行倾斜校正。
进一步地,所述识别模块用于对所述文本图像进行灰度处理,且基于横向和纵向的卷积算子,对二值化图像进行膨胀腐蚀,得到二值化图像;通过所述二值化图像的图像连通域获取表格外框信息,确定所述表格中的横线和竖线;基于所述表格中的横线和竖线的交点获取表格角点坐标,并将所述角点坐标按照预设规则排列,得到排序后的角点坐标,获取得到所述表格单元格位置信息。
进一步地,所述获取模块用于解码所述最优的key-value从属关系路径,得到所述表格key-value信息。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的文本图像中表格key-value信息的提取方法。
本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述实施例所述的文本图像中表格key-value信息的提取方法。
由此,本申请至少具有如下有益效果:
基于统计机器学习生成表格key-value的MAP图,且基于动态优化确定最优key-value从属关系,从而可以结合图像处理技术和统计机器学习方法自动提取文本图像表格key-value信息,不依赖模板且无需规则硬编码,操作简单、鲁棒性较强,有效提高提取的适用性及准确率。解决了相关技术中基于模板和规则提取key-value信息,通常需要设置繁琐规则或阈值,操作复杂、鲁棒性较差,且适用性较差及提取的准确性较低等问题。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的文本图像中表格key-value信息的提取方法的流程示意图;
图2为根据本申请一个实施例提供的文本图像中表格key-value信息的提取方法的流程示意图;
图3为根据本申请实施例提供key-value从属关系路径示例图;
图4为根据本申请实施例提供的文本图像中表格key-value信息的提取装置的示例图;
图5为根据本申请实施例提供的电子设备的方框示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
目前,文档扫描件或者文本图像在政务行政审批、企业办公以及个人工作学习中高频出现,很多场景下需要获取文本图像中表格的key-value键值对信息,例如政务中材料的智能审核等、RPA(Robotic process automation,办公自动化)工具以及文档差异比对等,随着社会数字化进程加快,对文本图像中表格信息的提取显得尤为重要。
相关技术中,通常是采用“图像处理+规则硬编码”、“图像处理+深度学习+规则硬编码”以及“深度学习+规则硬编码”等方式进行key-value信息的提取。然而,上述方式通常需要依赖规则硬编码,在程序处理的各个环节往往需要设置不同的阈值,导致方法鲁棒性和普适性差;上述方式虽然可以提取表格单元格字符信息或者表格拓扑结构信息,用于其它业务场景的表格重建,但是均未涉及到对表格key-value语义键值对的直接提取。为此,本申请实施例提供一种全自动文本图像表格key-value提取方法,以解决上述问题。
下面将参考附图描述本申请实施例的文本图像中表格key-value信息的提取方法、装置、电子设备及存储介质。针对上述背景技术中提到的相关技术中基于模板和规则提取key-value信息,通常需要设置繁琐规则或阈值,操作复杂、鲁棒性较差,且适用性较差及提取的准确性较低的问题,本申请提供了一种文本图像中表格key-value信息的提取方法,在该方法中,基于统计机器学习生成表格key-value的MAP图,且基于动态优化确定最优key-value从属关系,从而可以结合图像处理技术和统计机器学习方法自动提取文本图像表格key-value信息,不依赖模板且无需规则硬编码,操作简单、鲁棒性较强,有效提高提取的适用性及准确率。解决了相关技术中基于模板和规则提取key-value信息,通常需要设置繁琐规则或阈值,操作复杂、鲁棒性较差,且适用性较差及提取的准确性较低等问题。
具体而言,图1为本申请实施例所提供的一种文本图像中表格key-value信息的提取方法的流程示意图。
如图1所示,该文本图像中表格key-value信息的提取方法包括以下步骤:
在步骤S101中,识别文本图像中的表格单元格位置信息。
需要说明的是,文本图像即图像格式的文本,将纸质文本等转化为图像格式的文本,以供用户电子阅读;其中,文本图像可以以电子形式存储于各种介质,网络等,用户可以方便快捷的获取、携带和阅读。
在本实施例中,识别文本图像中的表格单元格位置信息,包括:对文本图像进行灰度处理,且基于横向和纵向的卷积算子,对二值化图像进行膨胀腐蚀,得到二值化图像;通过二值化图像的图像连通域获取表格外框信息,确定表格中的横线和竖线;基于表格中的横线和竖线的交点获取表格角点坐标,并将角点坐标按照预设规则排列,得到排序后的角点坐标,获取得到表格单元格位置信息。
其中,预设规则可以根据实际排列需求具体设置,对此不作具体限定。
可以理解的是,如图2所示,本申请实施例可以对文本图像进行表格检测和切分处理,并在处理之后可以得到表格单元格位置信息。
具体而言,(1)表格检测包括:对文本图像进行灰度处理,设计横向和纵向的卷积算子,对二值化图像进行膨胀腐蚀,得到二值化图像,通过图像连通域获取表格外框信息,从而实现表格定位。
(2)表格切分包括:识别已检测得到的表格中的横线和竖线,通过得到的水平直线图和竖直直线图的交点获取表格角点坐标,将角点坐标按照预设规则排列,得到排序后的角点坐标;结合角点并建立规则最终获取得到表格单元格位置信息。
在本实施例中,在识别文本图像中的表格单元格位置信息之前,包括:利用二位图像的快速傅里叶变换将文本图像转化到傅里叶频谱空间,得到频谱图像;对频谱图进行霍夫直线提取,得到直线在频谱中的角度信息,并利用角度信息对图片进行倾斜校正。
可以理解的是,如图2所示,在识别文本图像中的表格单元格位置信息之前,本申请实施例可以首先对文本图像进行倾斜校正。
在步骤S102中,根据表格单元格位置信息和单元格内容信息构造单元格特征,并利用机器学习分类算法得到key-value的MAP图。
其中,key-value的MAP图即为key-value的映射图。
其中,机器学习分类算法可以为SVM、RF、Adaboost、LR等具有分类功能的算法;且对于单元格特征构造,可以增加其它列信息维度,例如单元格的跨行信息等。
可以理解的是,如图2所示,本申请实施例可以在对表格切分之后,进一步获取表格单元特征信息,并基于统计机器学习生成表格key-value的MAP图。
具体而言,(1)获取表格单元的特征信息
首先,本申请实施例可以对获取的每个表格单元格进行编号,如表1所示:
表1
1 | 2 | 3 | 4 |
5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 |
其次,本申请实施例可以通过表格单元格的位置信息和单元格内容信息,结合领域知识,构造单元格特征,如表2所示:
表2
Cell No | semantic_sim | up_cell | down_cell | left_cell | right_cell | label |
1 | 0.98 | 0 | 3 | 0 | 3 | key |
2 | 0.72 | 0 | 3 | 1 | 2 | key |
3 | 0.99 | 0 | 3 | 2 | 1 | value |
4 | 0.87 | 0 | 3 | 3 | 0 | key |
...... |
(2)获取key-value的MAP图
本申请实施例可以采用机器学习分类算法(例如SVM),得到如表3所示的key-value的MAP。
表3
key | key | key | key |
value | value | value | value |
value | value | value | value |
value | value | value | value |
在步骤S103中,利用key-value的MAP图将每个表格单元展开为一维链路,并构建动态规划,获取最优的key-value从属关系路径,基于最优的key-value从属关系路径获取表格key-value信息。
可以理解的是,如图2所示,本申请实施例可以在获取key-value的MAP图之后,可以基于动态优化确定最优key-value从属关系。其中,本申请实施例可以采用其他优化算法计算key-value从属关系,对此不作具体限定。
在本实施例中,基于最优的key-value从属关系路径获取表格key-value信息,包括:解码最优的key-value从属关系路径,得到表格key-value信息。
具体而言,如图3所示,利用key-value的MAP图获取key和value从属关系包括:将每个表格单元展开为一维链路,构建动态规划,获取最优的key-value从属关系路径,并通过解码最优的key-value关系路径可得到表格key-value信息。
综上,相比较相关技术中基于模板的表格key-value提取、或者半自动表格key-value提取的方式,本申请实施例的方法直接侧重于对于文本图像表格全自动的key-value提取,具体地:通过融合表格单元格语义信息、空间位置信息以及所属领域的知识信息,得到表格key-value语义键值对信,其中,融合过程中包括两个提取阶段:第一、提取表格key-value的MAP图;第二、从key-value的MAP图中获取key和value所属关系;且两个提取阶段均利用统计算法或者动态规划,从而无需设置繁琐规则或阈值,具有较强的普适性、鲁棒性以及较高的准确性。
根据本申请实施例提出的文本图像中表格key-value信息的提取方法,基于统计机器学习生成表格key-value的MAP图,且基于动态优化确定最优key-value从属关系,从而可以结合图像处理技术和统计机器学习方法自动提取文本图像表格key-value信息,不依赖模板且无需规则硬编码,操作简单、鲁棒性较强,有效提高提取的适用性及准确率。
其次参照附图描述根据本申请实施例提出的文本图像中表格key-value信息的提取装置。
图4是本申请实施例的文本图像中表格key-value信息的提取装置的方框示意图。
如图4所示,该文本图像中表格key-value信息的提取装置10包括:识别模块100、构造模块200和获取模块300。
其中,识别模块100用于识别文本图像中的表格单元格位置信息;构造模块200用于根据表格单元格位置信息和单元格内容信息构造单元格特征,并利用机器学习分类算法得到key-value的MAP图;获取模块300用于利用key-value的MAP图将每个表格单元展开为一维链路,并构建动态规划,获取最优的key-value从属关系路径,基于最优的key-value从属关系路径获取表格key-value信息。
进一步地,本申请实施例的装置10还包括:校正模块。其中,校正模块用于在识别文本图像中的表格单元格位置信息之前,利用二位图像的快速傅里叶变换将文本图像转化到傅里叶频谱空间,得到频谱图像,对频谱图进行霍夫直线提取,得到直线在频谱中的角度信息,并利用角度信息对图片进行倾斜校正。
进一步地,识别模块100用于对文本图像进行灰度处理,且基于横向和纵向的卷积算子,对二值化图像进行膨胀腐蚀,得到二值化图像;通过二值化图像的图像连通域获取表格外框信息,确定表格中的横线和竖线;基于表格中的横线和竖线的交点获取表格角点坐标,并将角点坐标按照预设规则排列,得到排序后的角点坐标,获取得到表格单元格位置信息。
进一步地,获取模块300用于解码最优的key-value从属关系路径,得到表格key-value信息。
需要说明的是,前述对文本图像中表格key-value信息的提取方法实施例的解释说明也适用于该实施例的文本图像中表格key-value信息的提取装置,此处不再赘述。
根据本申请实施例提出的文本图像中表格key-value信息的提取装置,基于统计机器学习生成表格key-value的MAP图,且基于动态优化确定最优key-value从属关系,从而可以结合图像处理技术和统计机器学习方法自动提取文本图像表格key-value信息,不依赖模板且无需规则硬编码,操作简单、鲁棒性较强,有效提高提取的适用性及准确率。
图5为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。
处理器502执行程序时实现上述实施例中提供的文本图像中表格key-value信息的提取方法。
进一步地,电子设备还包括:
通信接口503,用于存储器501和处理器502之间的通信。
存储器501,用于存放可在处理器502上运行的计算机程序。
存储器501可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器501、处理器502和通信接口503独立实现,则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器501、处理器502及通信接口503,集成在一块芯片上实现,则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。
处理器502可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的文本图像中表格key-value信息的提取方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种文本图像中表格key-value信息的提取方法,其特征在于,包括以下步骤:
识别文本图像中的表格单元格位置信息;
根据所述表格单元格位置信息和单元格内容信息构造单元格特征,并利用机器学习分类算法得到key-value的MAP图;以及
利用所述key-value的MAP图将每个表格单元展开为一维链路,并构建动态规划,获取最优的key-value从属关系路径,基于所述最优的key-value从属关系路径获取表格key-value信息。
2.根据权利要求1所述的方法,其特征在于,在识别所述文本图像中的表格单元格位置信息之前,包括:
利用二位图像的快速傅里叶变换将所述文本图像转化到傅里叶频谱空间,得到频谱图像;
对所述频谱图进行霍夫直线提取,得到直线在频谱中的角度信息,并利用所述角度信息对图片进行倾斜校正。
3.根据权利要求1所述的方法,其特征在于,所述识别文本图像中的表格单元格位置信息,包括:
对所述文本图像进行灰度处理,且基于横向和纵向的卷积算子,对二值化图像进行膨胀腐蚀,得到二值化图像;
通过所述二值化图像的图像连通域获取表格外框信息,确定所述表格中的横线和竖线;
基于所述表格中的横线和竖线的交点获取表格角点坐标,并将所述角点坐标按照预设规则排列,得到排序后的角点坐标,获取得到所述表格单元格位置信息。
4.根据权利要求1所述的方法,其特征在于,所述基于所述最优的key-value从属关系路径获取表格key-value信息,包括:
解码所述最优的key-value从属关系路径,得到所述表格key-value信息。
5.一种文本图像中表格key-value信息的提取装置,其特征在于,包括:
识别模块,用于识别文本图像中的表格单元格位置信息;
构造模块,用于根据所述表格单元格位置信息和单元格内容信息构造单元格特征,并利用机器学习分类算法得到key-value的MAP图;以及
获取模块,用于利用所述key-value的MAP图将每个表格单元展开为一维链路,并构建动态规划,获取最优的key-value从属关系路径,基于所述最优的key-value从属关系路径获取表格key-value信息。
6.根据权利要求5所述的装置,其特征在于,还包括:
校正模块,用于在识别所述文本图像中的表格单元格位置信息之前,利用二位图像的快速傅里叶变换将所述文本图像转化到傅里叶频谱空间,得到频谱图像,对所述频谱图进行霍夫直线提取,得到直线在频谱中的角度信息,并利用所述角度信息对图片进行倾斜校正。
7.根据权利要求5所述的装置,其特征在于,所述识别模块用于对所述文本图像进行灰度处理,且基于横向和纵向的卷积算子,对二值化图像进行膨胀腐蚀,得到二值化图像;通过所述二值化图像的图像连通域获取表格外框信息,确定所述表格中的横线和竖线;基于所述表格中的横线和竖线的交点获取表格角点坐标,并将所述角点坐标按照预设规则排列,得到排序后的角点坐标,获取得到所述表格单元格位置信息。
8.根据权利要求1所述的方法,其特征在于,所述获取模块用于解码所述最优的key-value从属关系路径,得到所述表格key-value信息。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-4任一项所述的文本图像中表格key-value信息的提取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111599279.6A CN114495144A (zh) | 2021-12-24 | 2021-12-24 | 文本图像中表格key-value信息的提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111599279.6A CN114495144A (zh) | 2021-12-24 | 2021-12-24 | 文本图像中表格key-value信息的提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114495144A true CN114495144A (zh) | 2022-05-13 |
Family
ID=81495479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111599279.6A Pending CN114495144A (zh) | 2021-12-24 | 2021-12-24 | 文本图像中表格key-value信息的提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114495144A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593752A (zh) * | 2024-01-18 | 2024-02-23 | 星云海数字科技股份有限公司 | 一种pdf文档录入方法、系统、存储介质及电子设备 |
-
2021
- 2021-12-24 CN CN202111599279.6A patent/CN114495144A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593752A (zh) * | 2024-01-18 | 2024-02-23 | 星云海数字科技股份有限公司 | 一种pdf文档录入方法、系统、存储介质及电子设备 |
CN117593752B (zh) * | 2024-01-18 | 2024-04-09 | 星云海数字科技股份有限公司 | 一种pdf文档录入方法、系统、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860502B (zh) | 图片表格的识别方法、装置、电子设备及存储介质 | |
CN111626146B (zh) | 一种基于模板匹配的合并单元格表格分割识别方法 | |
CN112016551B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN107273883B (zh) | 决策树模型训练方法、确定ocr结果中数据属性方法及装置 | |
CN113032580B (zh) | 关联档案推荐方法、系统及电子设备 | |
CN110503682B (zh) | 矩形控件识别方法、装置、终端及存储介质 | |
CN112183511A (zh) | 一种图像导出表格的方法、系统、存储介质及设备 | |
CN111652266A (zh) | 用户界面组件的识别方法、装置、电子设备和存储介质 | |
CN102779276B (zh) | 文本图像识别方法和装置 | |
JP2003030672A (ja) | 帳票認識装置、方法、プログラムおよび記憶媒体 | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN111652208A (zh) | 用户界面组件的识别方法、装置、电子设备及存储介质 | |
CN115546809A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
CN113705286A (zh) | 一种表格检测与识别方法和介质 | |
CN116612280A (zh) | 车辆分割方法、装置、计算机设备和计算机可读存储介质 | |
CN113269153B (zh) | 一种表格识别方法以及装置 | |
CN114495144A (zh) | 文本图像中表格key-value信息的提取方法及装置 | |
CN114758340A (zh) | 物流地址智能识别方法、装置、设备及存储介质 | |
CN110826488B (zh) | 一种针对电子文档的图像识别方法、装置及存储设备 | |
CN112418199A (zh) | 多模态信息提取方法、装置、电子设备及存储介质 | |
CN110807286A (zh) | 一种结构网格识别方法 | |
CN114282559B (zh) | 一种光学代码定位方法、装置、图像传感器芯片 | |
CN111488870A (zh) | 文字识别方法和文字识别装置 | |
CN116229497A (zh) | 版面文本的识别方法、装置及电子设备 | |
CN115082944A (zh) | 表格的智能识别切分方法、系统和终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |