CN111104871B - 表格区域识别模型生成方法、装置及表格定位方法、装置 - Google Patents
表格区域识别模型生成方法、装置及表格定位方法、装置 Download PDFInfo
- Publication number
- CN111104871B CN111104871B CN201911188782.5A CN201911188782A CN111104871B CN 111104871 B CN111104871 B CN 111104871B CN 201911188782 A CN201911188782 A CN 201911188782A CN 111104871 B CN111104871 B CN 111104871B
- Authority
- CN
- China
- Prior art keywords
- unit area
- area
- image
- processed
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000013135 deep learning Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 22
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
一种表格区域识别模型生成方法、装置及表格定位方法、装置,包括:获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像;获取样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识;将样本图像、获得的距离以及获得的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型。由于采用了大量训练样本训练深度学习网络模型,因此生成的表格区域识别模型是一个稳定的模型,从而提高了表格识别的成功率,保证了后续表格定位过程的顺利进行。
Description
技术领域
本文涉及图像处理技术,尤指一种表格区域识别模型生成方法、装置及表格定位方法、装置。
背景技术
信息分析往往需要从文档,例如便携式文档格式(Portable Document Format,PDF)中进行文本、表格和图片等信息的抽取,而实现信息的抽取首先要实现识别、定位,由于PDF中数据的存储采用的是非结构化数据存储方式,因此其中信息的识别较为复杂,尤其是表格的识别。
相关技术中,表格的识别往往是基于表格与其非表格字体不相同的特点或者表格的字符流按列对齐的特点进行的。
然而,这种方法是基于特殊情况才能进行,当表格不具备上述特点时仍然无法进行识别,因此表格识别成功率十分低下,从而进一步影响表格的定位。
发明内容
本申请提供了一种表格区域识别模型生成方法、装置及表格定位方法、装置,能够提供一个稳定的表格区域识别模型,从而提高表格识别的成功率,保证后续表格定位过程的顺利进行。
本申请提供了一种表格区域识别模型生成方法,包括:
获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像;
获取所述样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识;
将所述样本图像、所述样本图像中每个第一单位区域与每个表格标题之间的距离以及每张样本图像中每个第一单位区域是否是任意一个表格区域的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型。
所述获取样本图像中每个第一单位区域与每个表格标题之间的距离,包括:
对每个所述样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作:
分别获取所述第一单位区域的中心与所述表格标题的上边界的纵向距离、与所述表格标题的左边界的横向距离、与所述表格标题的下边界的纵向距离以及与所述表格标题的右边界的横向距离,并将获得的四个距离作为该第一单位区域与该表格标题之间的距离。
当所述样本图像中的表格数量少于S个,其中,S为不小于任一样本图像中表格个数的预设表格个数,所述对样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作之后,还包括:
用0填充不足S个表格的样本图像中每个第一单位区域与缺失的S-T个表格标题的距离;其中,T为所述不足S个表格的样本图像中表格的个数。
当所述第一单位区域与任意一个表格的重叠面积大于所述第一单位区域的预设比例,所述第一单位区域是否属于任意一个表格区域的标识为所述第一单位区域属于任意一个表格区域的标识;当所述第一单位区域与任意一个表格的重叠面积不大于所述第一单位区域的预设比例,所述第一单位区域是否属于任意一个表格区域的标识为所述第一单位区域不属于任意一个表格区域的标识。
所述第一单位区域包括边长为M个像素的正方形,且每两个同属一行或同属一列的相邻的第一单位区域在该行或该列的方向上相差N个像素;其中,N小于M。
本申请还提供了一种表格定位方法,包括:
获取包含至少一个待定位表格的待处理文档页面,并将所述待处理文档页面转为成图像,作为待处理图像;
获取所述待处理图像中每个第二单位区域与每个表格标题之间的距离;其中,所述第二单位区域与第一单位区域的面积相同,且每两个同属一行或同属一列的相邻的第二单位区域在该行或该列方向上相差一个像素;
将所述待处理图像以及所述待处理图像中每个第二单位区域与每个表格标题之间的距离输入至如上述任一项所述的表格区域识别模型生成方法生成的表格区域识别模型,得到所述待处理图像中每个第二单位区域是否是表格区域的识别结果;
将获得的每个第二单位区域是否是表格区域的识别结果作为该第二单位区域中心的像素是否是表格区域的识别结果;
根据所述识别结果进行表格定位。
所述获取所述待处理图像中每个第二单位区域与每个表格标题之间的距离,包括:
对所述待处理图像中的每个第二单位区域与每个表格标题都进行距离获取操作:
分别获取所述第二单位区域的中心与所述表格标题的上边界的纵向距离、与所述表格标题的左边界的横向距离、与所述表格标题的下边界的纵向距离以及与所述表格标题的右边界的横向距离,并将获得的四个距离作为该第二单位区域与该表格标题之间的距离。
当所述待处理图像中的表格数量少于S个,其中,S为所述表格区域识别模型生成过程中不小于任一样本图像中表格个数的预设表格个数,所述对待处理图像中的每个第二单位区域与每个表格标题都进行距离获取操作之后,还包括:
用0填充所述待处理图像中每个第二单位区域与缺失的S-K个表格的标题的距离;其中,K为所述待处理图像中表格的个数。
所述根据识别结果进行表格定位,包括:
在所述表格区域的识别结果是表格区域的对是表格区域的像素进行连通区域分析,得到至少一个表格区域,并获取每个表格区域在待处理图像中的坐标;
根据所述待处理文档页面的规格信息、所述待处理图像的规格信息以及获得的每个表格区域在待处理图像中的坐标获取每个表格区域在所述待处理文档页面中的坐标;
根据获得的表格区域在所述待处理文档页面中的坐标进行表格定位。
本申请还提供了一种表格区域识别模型生成装置,包括:
第一获取模块,用于获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像;
所述第一获取模块,还用于获取所述样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识;
第一处理模块,用于将所述样本图像、所述样本图像中每个第一单位区域与每个表格标题之间的距离以及每张样本图像中每个第一单位区域是否是任意一个表格区域的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型。
本申请还提供了一种表格定位装置,包括:
第二获取模块,用于获取包含至少一个待定位表格的待处理文档页面,并将所述待处理文档页面转为成图像,作为待处理图像;
所述第二获取模块,还用于获取所述待处理图像中每个第二单位区域与每个表格标题之间的距离;其中,所述第二单位区域与第一单位区域的面积相同,且每两个同属一行或同属一列的相邻的第二单位区域在该行或该列方向上相差一个像素;
第二处理模块,用于将所述待处理图像以及所述待处理图像中每个第二单位区域与每个表格标题之间的距离输入至如上述所述的表格区域识别模型生成装置生成的表格区域识别模型,得到所述待处理图像中每个第二单位区域是否是表格区域的识别结果;
所述处理模块,还用于将获得的每个第二单位区域是否是表格区域的识别结果作为该第二单位区域中心的像素是否是表格区域的识别结果;
所述第二处理模块,还用于根据所述识别结果进行表格定位。
与相关技术相比,本申请包括:获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像;获取样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识;将样本图像、样本图像中每个第一单位区域与每个表格标题之间的距离以及每张样本图像中每个第一单位区域是否是任意一个表格区域的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型。由于采用了大量训练样本训练深度学习网络模型,因此生成的表格区域识别模型是一个稳定的模型,从而提高了表格识别的成功率,保证了后续表格定位过程的顺利进行。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例提供的一种表格区域识别模型生成方法的流程示意图;
图2为本申请实施例提供的一种单位区域与表格标题的距离示意图;
图3为本申请实施例提供的一种单位区域的划分示意图;
图4为本申请实施例提供的一种表格定位方法的流程示意图;
图5为本申请实施例提供的一种表格区域识别模型生成装置的结构示意图;
图6为本申请实施例提供的一种表格定位装置的结构示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
本申请实施例提供一种表格区域识别模型生成方法,如图1所示,包括:
步骤101、获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像。
在一种示例性实例中,多张包含至少一个表格的文档页面指的是:多张文档页面中每张文档页面包含至少一个表格。
在一种示例性实例中,文档页面可以是PDF文档页面;将文档页面转换为的图像可以是JPEG格式的图像,
步骤102、获取样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识。
在一种示例性实例中,表格标题位于表格的上方或下方,且与表格一一对应,即一个表格有且仅有一个标题。
在一种示例性实例中,获取样本图像中每个第一单位区域与每个表格标题之间的距离,包括:
对每个样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作:
分别获取第一单位区域的中心与表格标题的上边界的纵向距离、与表格标题的左边界的横向距离、与表格标题的下边界的纵向距离以及与表格标题的右边界的横向距离,并将获得的四个距离作为该第一单位区域与该表格标题之间的距离。
在一种示例性实例中,假设有三张样本图像,每张样本图像包括十个第一单位区域,第一张样本图像包含三个表格(则表格标题也是三个),第二张样本图像包含一个表格(则表格标题也是一个),第三张样本图像包含两个表格(则表格标题也是两个),那么对每个样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作指的是:对第一张样本图像中的十个第一单位区域中每个第一单位区域与三个表格标题中每个表格标题都进行距离获取操作,对第二张样本图像中的十个第一单位区域中每个第一单位区域与表格标题进行距离获取操作,对第三张样本图像中的十个第一单位区域中每个第一单位区域与两个表格标题中每个表格标题都进行距离获取操作。
在一种示例性实例中,第一单位区域的中心与表格标题的上边界的纵向距离、与表格标题的左边界的横向距离、与表格标题的下边界的纵向距离以及与表格标题的右边界的横向距离可以组成一组坐标:[t,l,b,r],示意图如图2所示,t表示第一单位区域的中心与表格标题的上边界的纵向距离,l表示第一单位区域的中心与表格标题的左边界的横向距离,b表示第一单位区域的中心与表格标题的下边界的纵向距离,r表示第一单位区域的中心与表格标题的右边界的横向距离。
在一种示例性实例中,分别获取第一单位区域的中心与表格标题的上边界的纵向距离、与表格标题的左边界的横向距离、与表格标题的下边界的纵向距离以及与表格标题的右边界的横向距离前,还包括:
获取表格标题的坐标。
在一种示例性实例中,表格标题的坐标可以通过以下方式获取:
首先、将PDF转为包含文本块坐标、格式和图片坐标、格式的可扩展标记语言(eXtensible Markup Language,XML)文件,该过程可通过工具PDF to XML实现。
其次、重构XML文件,根据不同文本块的上下边界的差小于第一预设阈值,且左右边界的差小于第二预设阈值的原则将XML文件中坐标连续的文本块拼接到一起。
最后、通过正则表达式获取表格标题的坐标,正则表达式的构建示例如下:“\A图[1-9].{2,10}\Z”,表示获取图1到图9中字数在2到10之间的标题的坐标。
在一种示例性实例中,当样本图像中的表格数量少于S个,其中,S为不小于任意一个样本图像中表格个数的预设表格个数,对样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作之后,还包括:
用0填充不足S个表格的样本图像中每个第一单位区域与缺失的S-T个表格标题的距离;其中,T为不足S个表格的样本图像中表格的个数。
在一种示例性实例中,用0填充不足S个表格的样本图像中每个第一单位区域与缺失的S-T个表格标题的距离是为了使得作为输入的样本图像中每个第一单位区域与所有表格标题之间的距离的个数相同,即保证输入信息的对齐。
在一种示例性实例中,S的取值只要不小于任意一个样本图像中表格个数即可,可以等于包含最多表格的样本图像的表格个数。
在一种示例性实例中,假设S为5,当样本图像中表格数量少于5时,例如表格数量为3,那么用0填充每个第一单位区域与缺失的2个表格标题的距离。
在一种示例性实例中,当第一单位区域与任意一个表格的重叠面积大于第一单位区域的预设比例,第一单位区域是否属于任意一个表格区域的标识为第一单位区域属于任意一个表格区域的标识;当第一单位区域与任意一个表格的重叠面积不大于第一单位区域的预设比例,第一单位区域是否属于任意一个表格区域的标识为第一单位区域不属于任意一个表格区域的标识。
在一种示例性实例中,预设比例可以是0.5,第一单位区域属于任意一个表格区域的标识可以是1,第一单位区域不属于任意一个表格区域的标识可以是0,因此当第一单位区域与任意一个表格的重叠面积大于第一单位区域的0.5,该第一单位区域否属于任意一个表格区域的标识为1,当第一单位区域与任意一个表格的重叠面积不大于第一单位区域的0.5,该第一单位区域否属于任意一个表格区域的标识为0。
步骤103、将样本图像、样本图像中每个第一单位区域与每个表格标题之间的距离以及每张样本图像中每个第一单位区域是否是任意一个表格区域的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型。
在一种示例性实例中,第一单位区域包括:边长为M个像素,且每两个同属一行或同属一列的相邻的第一单位区域在该行或该列的方向上相差N个像素;其中,N小于M。
在一种示例性实例中,假设样本图像为64*64的JPEG图片,M=7,N=4,则样本图像可分为400个第一单位区域,如图3所示。
本申请实施例提供的表格区域识别模型生成方法,由于采用了大量训练样本训练深度学习网络模型,因此生成的表格区域识别模型是一个稳定的模型,从而提高了表格识别的成功率,保证了后续表格定位过程的顺利进行。
本申请实施例还提供一种表格定位方法,如图4所示,包括:
步骤201、获取包含至少一个待定位表格的待处理文档页面,并将待处理文档页面转为成图像,作为待处理图像。
步骤202、获取待处理图像中每个第二单位区域与每个表格标题之间的距离;其中,第二单位区域与第一单位区域的面积相同,且每两个同属一行或同属一列的相邻的第二单位区域在该行或该列方向上相差一个像素。
步骤203、将待处理图像以及待处理图像中每个第二单位区域与每个表格标题之间的距离输入至上述任意一种实施例描述的表格区域识别模型生成方法生成的表格区域识别模型,得到待处理图像中每个第二单位区域是否是表格区域的识别结果。
步骤204、将获得的每个第二单位区域是否是表格区域的识别结果作为该第二单位区域中心的像素是否是表格区域的识别结果。
步骤205、根据识别结果进行表格定位。
在一种示例性实例中,获取待处理图像中每个第二单位区域与每个表格标题之间的距离,包括:
首先、对待处理图像中的每个第二单位区域与每个表格标题都进行距离获取操作。
其次、分别获取第二单位区域的中心与表格标题的上边界的纵向距离、与表格标题的左边界的横向距离、与表格标题的下边界的纵向距离以及与表格标题的右边界的横向距离,并将获得的四个距离作为该第二单位区域与该表格标题之间的距离。
在一种示例性实例中,当待处理图像中的表格数量少于S个,其中,S为表格区域识别模型生成过程中不小于任一样本图像中表格个数的预设表格个数,对待处理图像中的每个第二单位区域与每个表格标题都进行距离获取操作之后,还包括:
用0填充待处理图像中每个第二单位区域与缺失的S-K个表格的标题的距离;其中,K为待处理图像中表格的个数。
在一种示例性实例中,根据识别结果进行表格定位,包括:
首先、在表格区域的识别结果中对是表格区域的像素进行连通区域分析,得到至少一个表格区域,并获取每个表格区域在待处理图像中的坐标。
在一种示例性实例中,得到至少一个表格区域之后,且获取每个表格区域在待处理图像中的坐标之前,还包括:
判断是否获得的表格区域之间重叠区域;如果存储重叠区域且重叠区域大于一方面积预设比例时,将两个表格区域进行合并;其中,预设比例可以是50%。
其次、根据待处理文档页面的规格信息、待处理图像的规格信息以及获得的每个表格区域在待处理图像中的坐标获取每个表格区域在待处理文档页面中的坐标。
在一种示例性实例中,假设待处理文档页面为PDF,待处理图像为JPEG,PDF页面的规格信息为:长a、宽b,JPEG图像的规格信息:长c、宽d,某个表格区域在待JPEG图像中的坐标为loc=[l,t,r,b],则PDF坐标为:loc’=loc*(a/c+b/d)/2。
最后、获得的表格区域在待处理文档页面中的坐标进行表格定位。
本申请实施例提供的表格定位方法,由于采用了大量训练样本训练深度学习网络模型,因此使得生产的表格区域识别模型能够在任何情况下进行表格的识别,从而实现了表格地定位,保证了后续表格抽取过程的顺利进行。
本申请实施例还提供一种表格区域识别模型生成装置,如图5所示,该表格区域识别模型生成装置3包括:
第一获取模块31,用于获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像。
第一获取模块31,还用于获取样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识。
第一处理模块32,用于将样本图像、样本图像中每个第一单位区域与每个表格标题之间的距离以及每张样本图像中每个第一单位区域是否是任意一个表格区域的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型。
在一种示例性实例中,第一获取模块31具体用于:
对每个样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作:
分别获取第一单位区域的中心与表格标题的上边界的纵向距离、与表格标题的左边界的横向距离、与表格标题的下边界的纵向距离以及与表格标题的右边界的横向距离,并将获得的四个距离作为该第一单位区域与该表格标题之间的距离。
在一种示例性实例中,当样本图像中的表格数量少于S个,其中,S为不小于任一样本图像中表格个数的预设表格个数,第一处理模块22,还用于用0填充不足S个表格的样本图像中每个第一单位区域与缺失的S-T个表格标题的距离;其中,T为不足S个表格的样本图像中表格的个数。
在一种示例性实例中,当第一单位区域与任意一个表格的重叠面积大于第一单位区域的预设比例,第一单位区域是否属于任意一个表格区域的标识为第一单位区域属于任意一个表格区域的标识;当第一单位区域与任意一个表格的重叠面积不大于第一单位区域的预设比例,第一单位区域是否属于任意一个表格区域的标识为第一单位区域不属于任意一个表格区域的标识。
在一种示例性实例中,第一单位区域包括:边长为M个像素的正方形,且每两个同属一行或同属一列的相邻的第一单位区域在该行或该列的方向上相差N个像素;其中,N小于M。
本申请实施例提供的表格区域识别模型生成装置,由于采用了大量训练样本训练深度学习网络模型,因此生成的表格区域识别模型是一个稳定的模型,从而提高了表格识别的成功率,保证了后续表格定位过程的顺利进行。
在实际应用中,所述第一获取模块31和第一处理模块32由位于表格区域识别模型生成装置中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro ProcessorUnit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等实现。
本申请实施例还提供一种表格定位装置,如图6所示,该表格定位装置4包括:
第二获取模块41,用于获取包含至少一个待定位表格的待处理文档页面,并将待处理文档页面转为成图像,作为待处理图像。
第二获取模块41,还用于获取待处理图像中每个第二单位区域与每个表格标题之间的距离;其中,第二单位区域与第一单位区域的面积相同,且每两个同属一行或同属一列的相邻的第二单位区域在该行或该列方向上相差一个像素。
第二处理模块42,用于将待处理图像以及待处理图像中每个第二单位区域与每个表格标题之间的距离输入至上述任意一种实施例描述的表格区域识别模型生成装置生成的表格区域识别模型,得到待处理图像中每个第二单位区域是否是表格区域的识别结果。
第二处理模块42,还用于将获得的每个第二单位区域是否是表格区域的识别结果作为该第二单位区域中心的像素是否是表格区域的识别结果。
第二处理模块42,还用于根据识别结果进行表格定位。
在一种示例性实例中,第二获取模块41具体用于:
对待处理图像中的每个第二单位区域与每个表格标题都进行距离获取操作。
分别获取第二单位区域的中心与表格标题的上边界的纵向距离、与表格标题的左边界的横向距离、与表格标题的下边界的纵向距离以及与表格标题的右边界的横向距离,并将获得的四个距离作为该第二单位区域与该表格标题之间的距离。
在一种示例性实例中,当待处理图像中的表格数量少于S个,其中,S为表格区域识别模型生成过程中不小于任一样本图像中表格个数的预设表格个数。第二处理模块32,还用于用0填充待处理图像中每个第二单位区域与缺失的S-K个表格的标题的距离;其中,K为待处理图像中表格的个数。
在一种示例性实例中,第二处理模块42具体用于:
在表格区域的识别结果中对是表格区域的像素进行连通区域分析,得到至少一个表格区域,并获取每个表格区域在待处理图像中的坐标。
根据待处理文档页面的规格信息、待处理图像的规格信息以及获得的每个表格区域在待处理图像中的坐标获取每个表格区域在待处理文档页面中的坐标。
根据获得的表格区域在待处理文档页面中的坐标进行表格定位。
本申请实施例提供的表格定位装置,由于采用了大量训练样本训练深度学习网络模型,因此使得生产的表格区域识别模型能够在任何情况下进行表格的识别,从而实现了表格的定位,保证了后续表格抽取过程的顺利进行。
在实际应用中,第二获取模块41和第二获取模块42位于表格定位装置中的CPU、MPU、DSP或FPGA等实现。
本申请实施例还提供一种表格处理装置,包括:处理器和存储器,其中,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一种所述的方法的处理。
本申请实施例还提供一种存储介质,存储介质上存储有计算机可执行命令,计算机可执行命令用于执行如上述任意一种所述的方法的处理。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (9)
1.一种表格区域识别模型生成方法,其特征在于,包括:
获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像;
获取所述样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识;
将所述样本图像、所述样本图像中每个第一单位区域与每个表格标题之间的距离以及每张样本图像中每个第一单位区域是否是任意一个表格区域的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型;
所述获取所述样本图像中每个第一单位区域与每个表格标题之间的距离,包括:
对每个所述样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作:
分别获取所述第一单位区域的中心与所述表格标题的上边界的纵向距离、与所述表格标题的左边界的横向距离、与所述表格标题的下边界的纵向距离以及与所述表格标题的右边界的横向距离,并将获得的四个距离作为该第一单位区域与该表格标题之间的距离;
当所述样本图像中的表格数量少于S个,其中,S为不小于任一样本图像中表格个数的预设表格个数,所述对每个所述样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作之后,还包括:
用0填充不足S个表格的样本图像中每个第一单位区域与缺失的S-T个表格标题的距离;其中,T为所述不足S个表格的样本图像中表格的个数;
当所述第一单位区域与任意一个表格的重叠面积大于所述第一单位区域的预设比例,所述第一单位区域是否属于任意一个表格区域的标识为所述第一单位区域属于任意一个表格区域的标识。
2.根据权利要求1所述的方法,其特征在于,当所述第一单位区域与任意一个表格的重叠面积不大于所述第一单位区域的预设比例,所述第一单位区域是否属于任意一个表格区域的标识为所述第一单位区域不属于任意一个表格区域的标识。
3.根据权利要求1或2所述的方法,其特征在于,所述第一单位区域包括:边长为M个像素的正方形,且每两个同属一行或同属一列的相邻的第一单位区域在该行或该列的方向上相差N个像素;其中,N小于M。
4.一种表格定位方法,其特征在于,包括:
获取包含至少一个待定位表格的待处理文档页面,并将所述待处理文档页面转为成图像,作为待处理图像;
获取所述待处理图像中每个第二单位区域与每个表格标题之间的距离;其中,所述第二单位区域与第一单位区域的面积相同,且每两个同属一行或同属一列的相邻的第二单位区域在该行或该列方向上相差一个像素;
将所述待处理图像以及所述待处理图像中每个第二单位区域与每个表格标题之间的距离输入至如权利要求1-3任一项所述的表格区域识别模型生成方法生成的表格区域识别模型,得到所述待处理图像中每个第二单位区域是否是表格区域的识别结果;
将获得的每个第二单位区域是否是表格区域的识别结果作为该第二单位区域中心的像素是否是表格区域的识别结果;
根据所述识别结果进行表格定位。
5.根据权利要求4所述的方法,其特征在于,所述获取所述待处理图像中每个第二单位区域与每个表格标题之间的距离,包括:
对所述待处理图像中的每个第二单位区域与每个表格标题都进行距离获取操作:
分别获取所述第二单位区域的中心与所述表格标题的上边界的纵向距离、与所述表格标题的左边界的横向距离、与所述表格标题的下边界的纵向距离以及与所述表格标题的右边界的横向距离,并将获得的四个距离作为该第二单位区域与该表格标题之间的距离。
6.根据权利要求5所述的方法,其特征在于,当所述待处理图像中的表格数量少于S个,其中,S为所述表格区域识别模型生成过程中不小于任一样本图像中表格个数的预设表格个数,所述对所述待处理图像中的每个第二单位区域与每个表格标题都进行距离获取操作之后,还包括:
用0填充所述待处理图像中每个第二单位区域与缺失的S-K个表格的标题的距离;其中,K为所述待处理图像中表格的个数。
7.根据权利要求4所述的方法,其特征在于,所述根据所述识别结果进行表格定位,包括:
在所述表格区域的识别结果中对是表格区域的像素进行连通区域分析,得到至少一个表格区域,并获取每个表格区域在待处理图像中的坐标;
根据所述待处理文档页面的规格信息、所述待处理图像的规格信息以及获得的每个表格区域在待处理图像中的坐标获取每个表格区域在所述待处理文档页面中的坐标;
根据获得的表格区域在所述待处理文档页面中的坐标进行表格定位。
8.一种表格区域识别模型生成装置,其特征在于,包括:
第一获取模块,用于获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像;
所述第一获取模块,还用于获取所述样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识;
第一处理模块,用于将所述样本图像、所述样本图像中每个第一单位区域与每个表格标题之间的距离以及每张样本图像中每个第一单位区域是否是任意一个表格区域的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型;
第一获取模块具体用于:对每个所述样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作:
分别获取所述第一单位区域的中心与所述表格标题的上边界的纵向距离、与所述表格标题的左边界的横向距离、与所述表格标题的下边界的纵向距离以及与所述表格标题的右边界的横向距离,并将获得的四个距离作为该第一单位区域与该表格标题之间的距离;
当所述样本图像中的表格数量少于S个,其中,S为不小于任一样本图像中表格个数的预设表格个数,第一处理模块还用于用0填充不足S个表格的样本图像中每个第一单位区域与缺失的S-T个表格标题的距离;其中,T为所述不足S个表格的样本图像中表格的个数;
当所述第一单位区域与任意一个表格的重叠面积大于所述第一单位区域的预设比例,所述第一单位区域是否属于任意一个表格区域的标识为所述第一单位区域属于任意一个表格区域的标识。
9.一种表格定位装置,其特征在于,包括:
第二获取模块,用于获取包含至少一个待定位表格的待处理文档页面,并将所述待处理文档页面转为成图像,作为待处理图像;
所述第二获取模块,还用于获取所述待处理图像中每个第二单位区域与每个表格标题之间的距离;其中,所述第二单位区域与第一单位区域的面积相同,且每两个同属一行或同属一列的相邻的第二单位区域在该行或该列方向上相差一个像素;
第二处理模块,用于将所述待处理图像以及所述待处理图像中每个第二单位区域与每个表格标题之间的距离输入至如权利要求8所述的表格区域识别模型生成装置生成的表格区域识别模型,得到所述待处理图像中每个第二单位区域是否是表格区域的识别结果;
所述处理模块,还用于将获得的每个第二单位区域是否是表格区域的识别结果作为该第二单位区域中心的像素是否是表格区域的识别结果;
所述第二处理模块,还用于根据所述识别结果进行表格定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911188782.5A CN111104871B (zh) | 2019-11-28 | 2019-11-28 | 表格区域识别模型生成方法、装置及表格定位方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911188782.5A CN111104871B (zh) | 2019-11-28 | 2019-11-28 | 表格区域识别模型生成方法、装置及表格定位方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111104871A CN111104871A (zh) | 2020-05-05 |
CN111104871B true CN111104871B (zh) | 2023-11-07 |
Family
ID=70421097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911188782.5A Active CN111104871B (zh) | 2019-11-28 | 2019-11-28 | 表格区域识别模型生成方法、装置及表格定位方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104871B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434496B (zh) * | 2020-12-11 | 2021-06-22 | 深圳司南数据服务有限公司 | 一种公告文档表格数据识别方法及终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517112A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 一种表格识别方法与系统 |
CN110348294A (zh) * | 2019-05-30 | 2019-10-18 | 平安科技(深圳)有限公司 | Pdf文档中图表的定位方法、装置及计算机设备 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416279B (zh) * | 2018-02-26 | 2022-04-19 | 北京阿博茨科技有限公司 | 文档图像中的表格解析方法及装置 |
-
2019
- 2019-11-28 CN CN201911188782.5A patent/CN111104871B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517112A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 一种表格识别方法与系统 |
CN110348294A (zh) * | 2019-05-30 | 2019-10-18 | 平安科技(深圳)有限公司 | Pdf文档中图表的定位方法、装置及计算机设备 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111104871A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020192391A1 (zh) | 基于ocr的图像转档方法、装置、设备及可读存储介质 | |
US11113816B2 (en) | Image segmentation apparatus, method and relevant computing device | |
Saha et al. | A Hough transform based technique for text segmentation | |
US10318641B2 (en) | Language generation from flow diagrams | |
CN105678293A (zh) | 一种基于cnn-rnn的复杂图像字序列识别方法 | |
CN105608454A (zh) | 基于文字结构部件检测神经网络的文字检测方法及系统 | |
CN105678292A (zh) | 基于卷积及递归神经网络的复杂光学文字序列识别系统 | |
WO2023134088A1 (zh) | 视频摘要生成方法、装置、电子设备及存储介质 | |
WO2019041442A1 (zh) | 图表数据结构化提取方法、系统、电子设备及计算机可读存储介质 | |
KR102480235B1 (ko) | 딥러닝 기반 광학문자인식 장치 및 그 시스템 | |
CN115659917A (zh) | 一种文档版式还原方法、装置、电子设备及存储设备 | |
CN111104871B (zh) | 表格区域识别模型生成方法、装置及表格定位方法、装置 | |
CN110825874A (zh) | 一种中文文本分类方法和装置及计算机可读存储介质 | |
CN118155231B (zh) | 文档的识别方法、装置、设备、介质及产品 | |
CN111178154B (zh) | 表格边框预测模型生成方法、装置及表格定位方法、装置 | |
CN102467664B (zh) | 辅助光学字符识别的方法和装置 | |
US8384917B2 (en) | Font reproduction in electronic documents | |
CN113313720A (zh) | 对象分割方法和装置 | |
CN112287660B (zh) | Pdf文件中的表格解析方法及装置、计算设备、存储介质 | |
CN115909449A (zh) | 文件处理方法、装置、电子设备、存储介质及程序产品 | |
US9135517B1 (en) | Image based document identification based on obtained and stored document characteristics | |
Baloun et al. | ChronSeg: Novel Dataset for Segmentation of Handwritten Historical Chronicles. | |
Berriche et al. | Seam carving-based Arabic handwritten sub-word segmentation | |
CN111401005B (zh) | 文本转换方法、装置及可读存储介质 | |
KR101911613B1 (ko) | 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |