CN113221743A - 表格解析方法、装置、电子设备和存储介质 - Google Patents
表格解析方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113221743A CN113221743A CN202110518219.0A CN202110518219A CN113221743A CN 113221743 A CN113221743 A CN 113221743A CN 202110518219 A CN202110518219 A CN 202110518219A CN 113221743 A CN113221743 A CN 113221743A
- Authority
- CN
- China
- Prior art keywords
- block
- character
- area
- determining
- document image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 91
- 238000001514 detection method Methods 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 39
- 230000011218 segmentation Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013135 deep learning Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 23
- 239000000463 material Substances 0.000 description 20
- 238000010586 diagram Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003628 erosive effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241000219109 Citrullus Species 0.000 description 1
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Character Input (AREA)
Abstract
本公开提供了表格解析方法、装置、电子设备和存储介质,涉及深度学习、计算机视觉等领域。具体实现方案为:确定待处理文档图像中的表格区域及表格区域的线条类型,以根据线条类型对表格区域进行结构分析,确定表格区域中表格的表格结构及表格结构中各个单元格对应的文字块,从而可根据表格结构及各个单元格对应的文字块的文字内容,生成表格解析结果。由此,通过自动解析文档图像中的表格内容,可以解析得到可编辑的结构化数据,满足用户对表格内容进行编辑、比较、统计、计算等需求。
Description
技术领域
本公开涉及人工智能领域,进一步涉及深度学习、计算机视觉领域,尤其涉及表格解析方法、装置、电子设备和存储介质。
背景技术
随着移动互联网的发展,越来越多的用户拥有移动设备,并且,移动设备在人们日常生活中占据的地位也越来越重要。其中,相对于传统的台式设备,移动设备具有使用简单、快捷的优点。在进行某些事项决策时,决策者可能希望从移动设备的文档材料中得到一些参考信息,此时,决策者可能具有自动识别文档材料中的表格内容的需求,以通过移动设备进行表格内容的编辑、比较和计算。
发明内容
本公开提供了一种用于表格解析方法、装置、电子设备以及存储介质。
根据本公开的一方面,提供了一种表格解析方法,包括:
确定待处理文档图像中的表格区域,以及所述表格区域的线条类型;
根据所述线条类型对所述表格区域进行结构分析,确定所述表格区域中表格的表格结构,以及所述表格结构中各个单元格对应的文字块;
根据所述表格结构以及所述各个单元格对应的文字块的文字内容,生成表格解析结果。
根据本公开的另一方面,提供了一种表格解析装置,包括:
第一确定模块,用于确定待处理文档图像中的表格区域,以及所述表格区域的线条类型;
第二确定模块,用于根据所述线条类型对所述表格区域进行结构分析,确定所述表格区域中表格的表格结构,以及所述表格结构中各个单元格对应的文字块;
生成模块,用于根据所述表格结构以及所述各个单元格对应的文字块的文字内容,生成表格解析结果。
根据本公开的又一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述实施例提出的表格解析方法。
根据本公开的再一方面,提供了一种计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开上述实施例提出的表格解析方法。
根据本公开的还一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述实施例提出的表格解析方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例一所提供的表格解析方法的流程示意图;
图2为本公开实施例二所提供的表格解析方法的流程示意图;
图3为本公开实施例三所提供的表格解析方法的流程示意图;
图4为本公开实施例四所提供的表格解析方法的流程示意图;
图5为本公开实施例五所提供的表格解析方法的流程示意图;
图6为本公开实施例中的文档图像示意图一;
图7为本公开实施例中重构得到的有线表格示意图;
图8为本公开实施例六所提供的表格解析方法的流程示意图;
图9为本公开实施例七所提供的表格解析方法的流程示意图;
图10为本公开实施例中的文档图像示意图二;
图11为本公开实施例中的无线表格对应的表格区域示意图;
图12为本公开实施例中建立的无向图示意图;
图13为本公开实施例中基于图10重构得到的无线表格示意图;
图14为本公开实施例中的表格解析系统的结构示意图;
图15为本公开实施例中的文档图像示意图三;
图16为本公开实施例的应用场景示意图;
图17为本公开实施例八所提供的表格解析装置的结构示意图;
图18示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
相关技术中,针对文档图像,在移动设备中只支持查看,而无法对文档图像中的表格内容进行编辑或计算,从而无法充分掌握文档图像中的表格信息,并且,由于无法对表格内容进行比较,从而导致无法完成“掌上决策”和“掌上统计”。
因此,本公开主要针对上述存在的问题,提出一种表格解析方法。
本公开实施例的表格解析方法,通过确定待处理文档图像中的表格区域及表格区域的线条类型,以根据线条类型对表格区域进行结构分析,确定表格区域中表格的表格结构及表格结构中各个单元格对应的文字块,从而根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果。由此,通过自动解析文档图像中的表格内容,可以解析得到可编辑的结构化数据,满足用户对表格内容进行编辑、比较、统计、计算等需求。
下面参考附图描述本公开实施例的表格解析方法、装置、电子设备和存储介质。
图1为本公开实施例一所提供的表格解析方法的流程示意图。
本公开实施例以该表格解析方法被配置于表格解析装置中来举例说明,该表格解析装置可以应用于任一电子设备中,以使该电子设备可以执行表格解析功能。
其中,电子设备可以为任一具有计算能力的设备,例如可以为PC(PersonalComputer,个人电脑)、移动终端、服务器等,移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该表格解析方法可以包括以下步骤:
步骤101,确定待处理文档图像中的表格区域,以及表格区域的线条类型。
在本公开实施例中,待处理文档图像为需要进行图像处理的文档图像,该待处理文档图像可以为电子设备本地存储的文档图像,或者,也可以为在线获取的文档图像,或者,也可以为处理后得到的文档图像,本公开对此并不作限制。
作为一种示例,电子设备可以响应于用户操作,确定待处理文档图像,比如用户可以选择PDF、word、图片、扫描件等文档材料,电子设备可以将用户选择的文档材料转化为图片格式的文档图像。
在本公开实施例中,在确定待处理文档图像后,可以识别待处理文档图像中的表格区域,以及表格区域的线条类型。其中,线条类型可以包括有线类型和/或无线类型。
步骤102,根据线条类型对表格区域进行结构分析,确定表格区域中表格的表格结构,以及表格结构中各个单元格对应的文字块。
在本公开实施例中,单元格为组成表格的最小单位,单元格是指表格结构中行与列的交叉区域。
在本公开实施例中,为了提升表格内容解析结果的准确性,在确定表格区域的线条类型后,可以根据该线条类型,对表格区域进行结构分析,确定表格区域中表格的表格结构,以及表格结构中各个单元格对应的文字块。
步骤103,根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果。
在本公开实施例中,可以根据表格结构,以及各个单元格对应的文字块的文字内容,生成表格解析结果,该表格解析结果中包括可编辑的结构化数据。
在本公开实施例的一种可能的实现方式中,针对每个单元格,可以将该单元格对应的文字块中的文字内容进行检测并识别,并将识别得到的文字内容,填入表格结构中对应的单元格,以得到可编辑的结构化数据。
本公开实施例的表格解析方法,通过确定待处理文档图像中的表格区域及表格区域的线条类型,以根据线条类型对表格区域进行结构分析,确定表格区域中表格的表格结构及表格结构中各个单元格对应的文字块,从而根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果。由此,通过自动解析文档图像中的表格内容,可以解析得到可编辑的结构化数据,满足用户对表格内容进行编辑、比较、统计、计算等需求。
通常,文档图像中的表格有两种,一种为包含有直线框架的表格,称为有线表格,另一种为未包含直线框架的表格,称为无线表格。因此,在本公开实施例的一种可能的实现方式中,为了提升表格区域检测结果的准确性,针对不同线条类型的表格,可以采用不同的方式确定对应的表格区域。例如,针对有线表格,可以识别文档图像中的线条,根据检测得到的线条,确定有线表格对应的表格区域,本公开中记为第一子表格区域。下面结合实施例二,对上述过程进行相似说明。
图2为本公开实施例二所提供的表格解析方法的流程示意图。
如图2所示,该表格解析方法可以包括以下步骤:
步骤201,获取待处理文档图像。
需要说明的是,前述实施例中步骤101中对待处理文档图像的解释说明,也适用于该实施例,在此不做赘述。
步骤202,对待处理文档图像进行线条检测。
在本公开实施例中,可以对待处理文档图像进行线条检测,比如,可以利用Hough(霍夫变换)直线检测,对待处理文档图像进行线条检测,以确定待处理文档图像中的线条或表格线。
在本公开实施例的一种可能的实现方式中,为了提升线条检测结果的准确性,还可以利用Hough直线检测,对待处理文档图像进行线条检测,以及对待处理文档图像进行腐蚀膨胀,以确定待处理文档图像中的线条或表格线。
步骤203,根据检测到的线条,确定待处理文档图像中的第一子表格区域,以及第一子表格区域的线条类型为有线类型。
在本公开实施例中,在检测得到线条或表格线后,即可定位到有线表格对应的表格区域,本公开中将有线表格对应的表格区域记为第一子表格区域,并且,可以确定该第一子表格区域对应线条类型为有线类型。
可以理解的是,文档图像中可能同时存在有线表格和无线表格,因此,在检测得到有线表格对应的第一子表格区域后,还可以进一步对待处理文档图像进行识别,确定无线表格的表格区域,本公开中将无线表格的表格区域记为第二子表格区域。
步骤204,将待处理文档图像输入预设的无线表格分割模型,以获取无线表格分割模型输出的区域信息。
在本公开实施例中,无线表格分割模型可以为语义分割模型。其中,语义分割模型的网络结构可以为“编码-解码”结构,编码模块可以使用DCNN(Deep ConvolutionalNeural Networks,深度卷积神经网络)进行特征提取,DCNN后可以连接空洞卷积的空间金字塔池化模块,该模块用于提取并融合图像的多尺度特征;解码模块可以利用上采样得到分割结果。
在本公开实施例中,可以将待处理文档图像输入预设的无线表格分割模型,由无线表格分割模型输出得到无线表格对应的区域信息。
作为一种示例,无线表格分割模型比如可以为Deeplab v3+(一种图像语义分割模型)。由于Deeplab v3+模型引入多尺度信息,相比其他图像分割模型,Deeplab v3+模型将底层特征与高层特征进一步融合,极大地提升了边界分割的准确度。由此,通过Deeplab v3+能够准确地检测出无线表格对应的表格区域。
步骤205,确定区域信息对应的区域为第二子表格区域,以及第二子表格区域的线条类型为无线类型。
在本公开实施例中,可以将无线表格分割模型输出的区域信息所对应的区域,作为无线表格对应的表格区域,本公开中记为第二子表格区域,并确定该第二子表格区域对应的线条类型为无线类型。
需要说明的是,本公开中仅以步骤204和205在步骤203之后执行进行示例,但是本公开并不限于此,实际应用时,步骤204和205还可以在步骤202之前执行,或者,步骤204和205还可以与步骤202至203并列执行,或者,实际应用时,文档图像中可能仅存在有线表格,或者仅存在无线表格,因此,步骤202至203或步骤204至205可择一执行,对此不作限制。
步骤206,根据线条类型,对该线条类型对应的表格区域进行结构分析,确定表格区域中表格的表格结构,以及表格结构中各个单元格对应的文字块。
步骤207,根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果。
需要说明的是,步骤206至207的执行过程可以参见上述实施例中步骤102至103的执行过程,在此不做赘述。
本公开实施例的表格解析方法,通过获取待处理文档图像,并对待处理文档图像进行线条检测,以根据检测到的线条,确定第一子表格区域以及第一子表格区域对应的线条类型为有线类型。由此,根据检测得到的线条,确定有线表格对应的表格区域以及表格区域的线条类型,可以提升确定结果的准确性。
通过将待处理文档图像输入预设的无线表格分割模型,以获取无线表格分割模型输出的区域信息;将待处理文档图像中区域信息对应的区域,确定为第二子表格区域,以及确定第二子表格区域的线条类型为无线类型。由此,基于深度学习的无线表格分割模型,来识别无线表格对应的表格区域,以及表格区域的线条类型,可以提升识别结果的准确性。
需要说明的是,实际应用时,文档图像中的一些图表或插图可能很像表格,比如图表或插图中存在表格线、直线、竖线等情况,因此,为了提升表格区域识别结果的准确性,在本公开实施例的一种可能的实现方式中,在获取到待处理文档图像后,可以对待处理图像进行插图检测,以去除待处理文档图像中的插图区域。下面结合实施例三,对上述过程进行详细说明。
图3为本公开实施例三所提供的表格解析方法的流程示意图。
如图3所示,该表格解析方法可以包括以下步骤:
步骤301,获取待处理文档图像。
需要说明的是,步骤301的执行过程可以参见上述实施例的执行过程,在此不做赘述。
步骤302,对待处理文档图像进行插图检测,获取待处理文档图像中的插图区域。
在本公开实施例中,可以对待处理文档图像进行插图检测,以获取待处理文档图像中的插图区域。
在本公开实施例的一种可能的实现方式中,为了提升检测结果的准确性,可以基于目标检测模型,对待处理文档图像进行插图检测,获取待处理文档图像中的插图区域。
作为一种示例,目标检测模型可以为M2Det(一种将MLFPN(Multi-Level FeaturePyramid Network,多层次特征金字塔网络)嵌入到SSD(Single Shot MultiBox Detector,一种单阶段检测模型)框架中得到的模型)。该M2Det模型能够非常准确地获取到文档图像上的插图信息,以及插图信息在文档图像中的相关区域,本公开中记为插图区域。
其中,M2Det模型使用主干网络来提取图像特征,然后通过nms(对于目标检测模型预测出的IOU(候选检测框的交集与并集的比)阈值大于设定阈值的候选框进行非极大值抑制操作)得到最后的检测结果。M2Det模型在检测速度和检测精度上优于同类的其他目标检测算法,可以适合用于移动设备。
步骤303,去除待处理文档图像中的插图区域。
在本公开实施例中,在检测得到插图区域后,可以去除该待处理图像中的插图区域。
步骤304,对去除插图区域后的待处理文档图像进行线条检测。
步骤305,根据检测到的线条,确定第一子表格区域以及第一子表格区域的线条类型为有线类型。
可以理解的是,文档图像中可能同时存在有线表格和无线表格,因此,在检测得到有线表格对应的表格区域后,还可以进一步对去除插图区域后的待处理文档图像进行识别,确定无线表格的表格区域。
在本公开实施例的一种可能的实现方式中,在步骤305之后,还可以将去除插图区域后的待处理文档图像输入预设的无线表格分割模型,以获取无线表格分割模型输出的区域信息;确定区域信息对应的区域为第二子表格区域,以及该第二子表格区域的线条类型为无线类型。
应当理解的是,实际应用时,文档图像中可能只存在无线表格,因此,在本公开实施例的一种可能的实现方式中,步骤304至305可以无需执行,即在步骤303后可以直接执行将去除插图区域后的待处理文档图像输入预设的无线表格分割模型,以获取无线表格分割模型输出的区域信息;确定区域信息对应的区域为第二子表格区域,以及第二子表格区域的线条类型为无线类型的步骤。
步骤306,根据线条类型对表格区域进行结构分析,确定表格区域中表格的表格结构,以及表格结构中各个单元格对应的文字块。
其中,上述表格区域可以包括第一子表格区域和/或第二子表格区域。
步骤307,根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果。
需要说明的是,步骤304至307的执行过程可以参见上述实施例的执行过程,在此不做赘述。
本公开实施例的表格解析方法,通过对待处理文档图像进行插图检测,获取待处理文档图像中的插图区域,并去除待处理文档图像中的插图区域。由此,可以避免后续误将插图区域检测为表格区域的情况,提升表格区域确定结果的准确性。
可以理解的是,对于PDF和word等文档材料,转化后的文档图像中表格、文本内容等均比较清晰规范,而对于图片和扫描件等文档材料,转化后的文档图像可能存在一定的倾斜、变形或者翻转的情况,而上述情况均会影响后续识别结果的可靠性。因此,在本公开实施例的一种可能的实现方式中,为了提升后续识别结果的准确性,在获取待处理文档图像后,可以对待处理文档图像进行倾斜角度的矫正。下面结合实施例四,对上述过程进行详细说明。
图4为本公开实施例四所提供的表格解析方法的流程示意图。
如图4所示,该表格解析方法可以包括以下步骤:
步骤401,获取待处理文档图像。
需要说明的是,步骤401的执行过程可以参见上述实施例的执行过程,在此不做赘述。
步骤402,对待处理文档图像进行角度预测,确定待处理文档图像的倾斜角度。
在本公开实施例中,可以对待处理文档图像进行角度预测,确定该待处理文档图像的倾斜角度。
在本公开实施例的一种可能的实现方式中,在待处理文档图像的倾斜角度较大的情况下,可以采用图像分类模型,对待处理文档图像进行角度预测,确定待处理文档图像的倾斜角度。
作为一种示例,图像分类模型可以为InceptionNet-v3(一种分类模型),其中,InceptionNet-v3模型通过一系列较小的卷积核更高效地表示较大的卷积核,除了小卷积之外,InceptionNet-v3模型还包含了非对称卷积(例如n×1和1×n),因此该InceptionNet-v3模型整体效果要优于同类的分类模型。例如,InceptionNet-v3模型可以对四个方向的角度进行分类,比如0度、90度、180度、270度。
举例而言,以待处理文档图像横着放进行示例,InceptionNet-v3输出的倾斜角度可以为90度。
在本公开实施例的另一种可能的实现方式中,在待处理文档图像的倾斜角度较小的情况下,可以基于角点检测算法,对待处理文档图像进行角度预测,确定待处理文档图像的倾斜角度。
应当理解的是,当待处理文档图像存在倾斜的情况下,需要检测的是不规则四边形,因此常规的目标检测算法是失效的,可以采用关键点检测算法,比如MobileNetv2(一种轻量级的关键点检测框架)模型,检测不规则四边形的四个角点,而后基于四个角点进行四边形提取,从而可以基于提取的四边形确定待处理文档图像的倾斜角度。
其中,MobileNetv2架构是基于倒置残差结构(inverted residual structure)。一般情况下,正常的残差结构中间只有三个卷积,两边的卷积通道数较多,而倒置的残差结构刚好相反,中间的卷积通道数较多,两边的卷积通道数较少。倒置的残差结构可以保持模型表现力,又能够去除主分支中的非线性变换,因此,MobileNetv2特别适用于移动设备,其在预测过程中不进行大张量的交互计算,对计算资源的依赖较少。由此,充分考虑到移动设备的资源有限,在保证准确率的前提下,可以降低系统的资源开销。
需要说明的是,实际应用时,待处理文档图像的倾斜角度可能并非为90度的倍数,比如为95度,127度,此时,可以结合上述两种实现方式,来对待处理文档图像的倾斜角度进行预测。
步骤403,按照倾斜角度对待处理文档图像进行旋转处理。
在本公开实施例中,在预测得到待处理文档图像的倾斜角度后,可以根据该倾斜角度对待处理文档图像进行旋转处理。由此,考虑到文档图像可能存在倾斜、翻转等情况,而上述情况均会影响后续图像识别结果的可靠性,因此本公开中,根据倾斜角度对待处理文档图像进行旋转处理,可以实现将存在倾斜或翻转情况的待处理文档图像进行角度矫正,以得到不存在倾斜角度的待处理文档图像,从而达到提升后续图像识别结果的可靠性的目的。
举例而言,以待处理文档图像横着放进行示例,InceptionNet-v3输出的倾斜角度可以为90度,可以将待处理文档图像旋转90度,得到竖着放的待处理文档图像。
步骤404,对旋转处理后的待处理文档图像进行线条检测。
步骤405,根据检测到的线条,确定第一子表格区域以及第一子表格区域的线条类型为有线类型。
可以理解的是,文档图像中可能同时存在有线表格和无线表格,因此,在检测得到有线表格对应的表格区域后,还可以进一步对旋转处理后的待处理文档图像进行识别,确定无线表格的表格区域。
在本公开实施例的一种可能的实现方式中,在步骤405之后,还可以将旋转处理后的待处理文档图像输入预设的无线表格分割模型,以获取无线表格分割模型输出的区域信息;确定区域信息对应的区域为第二子表格区域,以及该第二子表格区域的线条类型为无线类型。
应当理解的是,实际应用时,文档图像中可能只存在无线表格,因此,在本公开实施例的一种可能的实现方式中,步骤404至405可以无需执行,即在步骤403后可以直接执行将旋转处理后的待处理文档图像输入预设的无线表格分割模型,以获取无线表格分割模型输出的区域信息;确定区域信息对应的区域为第二子表格区域,以及该第二子表格区域的线条类型为无线类型的步骤。
步骤406,根据线条类型对表格区域进行结构分析,确定表格区域中表格的表格结构,以及表格结构中各个单元格对应的文字块。
步骤407,根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果。
需要说明的是,步骤404至407的执行过程可以参见上述实施例的执行过程,在此不做赘述。
本公开实施例的表格解析方法,通过对待处理文档图像进行角度预测,确定待处理文档图像的倾斜角度,并按照倾斜角度对待处理文档图像进行旋转处理。由此,通过对待处理文档图像进行倾斜角度的矫正,可以提升后续识别结果的可靠性。
在本公开实施例的一种可能的实现方式中,针对有线表格,可以提取表格区域(即第一子表格区域)中的表格线,根据提取的表格线进行表格重构,得到表格区域(即第一子表格区域)中表格的表格结构,从而将表格结构中各个单元格所限定的区域块,作为各个单元格对应的文字块。下面结合实施例五,对上述过程进行详细说明。
图5为本公开实施例五所提供的表格解析方法的流程示意图。
如图5所示,该表格解析方法可以包括以下步骤:
步骤501,确定待处理文档图像中的表格区域,以及表格区域的线条类型。
在本公开实施例中,步骤501可以采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
步骤502,在表格区域的线条类型为有线类型时,提取表格区域中的表格线。
在本公开实施例中,在确定表格区域的线条类型为有线类型时,可以提取表格区域(即第一子表格区域)中的表格线。
在本公开实施例的一种可能的实现方式中,为了提升表格线提取结果的可靠性,可以基于深度学习的表格线检测模型,来检测表格区域(即第一子表格区域)中的表格线。
作为一种示例,以表格线检测模型为Unet(一种深度学习分割网络)进行示例,可以基于Unet模型对表格区域(即第一子表格区域)进行表格线的检测,能够非常准确地将表格线检测出来。
其中,Unet与FCN(Full Convolutional Network,全卷积网络)均是Encoder-Decoder(编码器-解码器)结构,结构简单有效。Encoder负责特征提取,Decoder负责特征解码。其中,Unet的网络结构是对称的,首先通过3x3卷积进行特征提取,之后利用skip-connection(跳跃连接)层完成特征融合,之后利用pooling(池化)层降低维度,之后采用上采样upsample的方式恢复维度,最后全连接输出结果。
步骤503,根据提取的表格线,确定表格区域中表格的表格结构。
在本公开实施例中,在提取得到表格线后,可以根据提取得到的表格线确定表格区域(即第一子表格区域)中表格的表格结构。也就是说,可以利用提取得到的表格线进行表格重构,生成空白的表格。
步骤504,将表格结构中各个单元格所限定的区域块,确定为各个单元格对应的文字块。
在本公开实施例中,可以将表格区域(即第一子表格区域)中的表格结构中各单元格所限定的区域块,作为对应单元格所对应的文字块。
步骤505,根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果。
在本公开实施例中,针对每个单元格,可以将该单元格对应的文字块中的文字内容进行检测并识别,并将识别得到的文字内容,填入表格结构中对应的单元格,得到可编辑的结构化数据。也就是说,可以将各单元格对应的文字块中的文字内容填入到重构的表格中对应的单元格内,以得到可编辑的结构化数据。
在本公开实施例的一种可能的实现方式中,对文字块中的文字内容进行检测时,为了提升检测结果的准确性,可以基于深度学习的文字检测识别模型,对文字块中的文字内容进行检测。
一种示例,以文字检测识别模型为FOTS(Fast Oriented Text Spotting withaUnified Network,一种快速的端到端的集成检测与识别的框架)进行示例。其中,FOTS的整体结构可以分别由卷积共享分支、文本检测分支、RoI(Region of Interest,感兴趣区域)_Rotate操作分支、文本识别分支这四部分组成,其中,卷积共享网络的主干可以是ResNet-50(残差神经网络),卷积共享分支的作用是连接低级特征映射和高级语义特征映射;RoI_Rotate操作分支的主要作用是将存在角度倾斜的文本块,经过仿射变换后,转化为水平状态的文本块。相较于其他文字检测识别算法,FOTS具有模型小、速度快、精度高、支持多角度的特点,适用于移动设备。
作为一种示例,识别得到的表格区域(即第一子表格区域)可以如图6中的区域61所示,对表格区域(即第一子表格区域)中的表格线进行提取,利用提取到的表格线,进行表格重构,生成空白的表格,识别表格区域(即第一子表格区域)中的文字信息,并将识别的文字信息重新填入到重构的表格中,输出的可编辑的表格可以如图7所示。
本公开实施例的表格解析方法,通过在表格区域的线条类型为有线类型时,提取表格区域中的表格线;根据提取的表格线,确定表格区域中表格的表格结构;将表格结构中各个单元格所限定的区域块,确定为各个单元格对应的文字块。由此,根据检测得到的表格线,进行表格重构,得到表格区域中表格的表格结构,可以提升表格结构确定结果的准确性,从而将表格结构中各个单元格所限定的区域块,作为各个单元格对应的文字块,以根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果,可以提升表格解析结果的可靠性。
在本公开实施例的一种可能的实现方式中,针对无线表格,可以根据表格区域(即第二子表格区域)中的各个文字块的属性信息,确定各个文字块之间的块关系,从而可以根据各个文字块之间的块关系,确定表格区域(即第二子表格区域)中表格的表格结构,以及各个单元格对应的文字块。下面结合实施例六,对上述过程进行详细说明。
图8为本公开实施例六所提供的表格解析方法的流程示意图。
如图8所示,该表格解析方法可以包括以下步骤:
步骤801,确定待处理文档图像中的表格区域,以及表格区域的线条类型。
在本公开实施例中,步骤801可以采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
步骤802,在表格区域的线条类型为无线类型时,对表格区域进行文字检测,确定表格区域中各个文字块的属性信息。
在本公开实施例中,文字块的属性信息可以包括文字块的坐标信息、文字块的文字内容、文字块的尺寸信息中的至少一项。
在本公开实施例中,在确定表格区域的线条类型为无线类型时,可以对表格区域(即第二子表格区域)进行文字检测,文字检测的方法与步骤505类似,此处不做赘述。对表格区域(即第二子表格区域)进行文字检测后,可以得到各个文字块的文字内容,根据识别得到的各文字块的文字内容,可以得到对应文字块的属性信息。
步骤803,根据各个文字块的属性信息,确定各个文字块之间的块关系。
其中,块关系可以包括行列关系,比如同一行、同一列,该块关系还可以包括上下级关系、无关。
在本公开实施例中,可以根据各个文字块的属性信息,确定各个文字块之间的块关系。
在本公开实施例的一种可能的实现方式中,为了提升块关系确定结果的可靠性,可以基于深度学习技术,确定任意两个文字块之间的块关系。具体地,可以以各个文字块为节点,建立任意两个节点之间的连接边,生成无向图,针对无向图中具有连接边的任意两个文字块,可以将上述两个文字块的属性信息输入预设的块关系模型,确定上述两个文字块之间的块关系。
其中,上述块关系模型,已学习得到具有连接边的任意两个文字块的属性信息与块关系之间的对应关系,其中,属性信息包括以下至少一项:文字块的坐标信息、文字块的文字内容、文字块的尺寸信息;其中,文字块的坐标信息例如为文字块的中心点坐标。
举例而言,当根据两个文字块的坐标信息,确定这两个文字块的横坐标差距较小时,可以确定这两个文字块的块关系为同一列,当根据两个文字块的坐标信息,确定这两个文字块的纵坐标差距较小时,可以确定这两个文字块的块关系为同一行。再例如,可以对两个文字块的文字内容进行语义识别,若确定这两个文字块的文字内容具有概括关系、细化关系、从属关系等,比如,西瓜是水果这一类别的,则认为这两个文字块的块关系为上下级关系。再例如,当根据两个文字块的尺寸信息,确定尺寸信息差距较小时,可以确定这两个文字块的块关系为上下级关系。
作为一种示例,以块关系模型为BP(Back Propagation,反向传播)神经网络进行示例,针对各个文字块中的任意两个文字块,可以将上述两个文字块的属性信息输入BP神经网络,由BP神经网络输出得到上述两个文字块之间的块关系。
步骤804,根据各个文字块之间的块关系,确定表格区域中表格的表格结构。
步骤805,将表格结构中各个单元格所限定的区域块,确定为各个单元格对应的文字块。
在本公开实施例中,在确定各个文字块之间的块关系后,可以根据上述块关系确定表格区域(即第二子表格区域)中表格的表格结构,从而可以将表格区域(即第二子表格区域)中各个单元格所限定的区域内的文字块,确定为各个单元格对应的文字块。
步骤806,根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果。
在本公开实施例中,步骤806可以采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
本公开实施例的表格解析方法,通过根据各个文字块的属性关系,确定不同文字块之间的块关系,从而根据不同文字块之间的块关系,确定表格区域中表格的表格结构,可以提升表格结构确定结果的准确性,从而将表格结构中各个单元格所限定的区域块,作为各个单元格对应的文字块,以根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果,可以提升表格解析结果的可靠性。
在本公开实施例的一种可能的实现方式中,可以根据块关系中的上下级关系,确定各表头文字块,以及各表头文字块对应的下级文字块,从而根据各表头文字块与对应的下级文字块之间的行列关系,可以确定行表头和列表头,从而可以根据各行表头和各列表头,以及分别对应的下级文字块,可以重建得到表格结构。下面结合实施例七,对上述过程进行详细说明。
图9为本公开实施例七所提供的表格解析方法的流程示意图。
如图9所示,该表格解析方法可以包括以下步骤:
步骤901,确定待处理文档图像中的表格区域,以及表格区域的线条类型。
步骤902,在表格区域的线条类型为无线类型时,对表格区域进行文字检测,确定表格区域中各个文字块的属性信息。
步骤903,根据各个文字块的属性信息,确定各个文字块之间的块关系,其中,块关系包括以下关系中的至少一种:行列关系、上下级关系。
在本公开实施例中,步骤901至903可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
步骤904,根据上下级关系,确定各个文字块中的表头文字块。
在本公开实施例中,块关系中的“上下级关系”中的上级文字块属于表头文字块,例如标记表头文字块为table_key,在确定表头文字块后,可以确定表头文字块对应的下级文字块,例如标记下级文字块为table_value。即,本公开中,可以根据上下级关系,确定各个文字块中的上级文字块,将上述上级文字块作为表头文字块。
需要说明的是,表头文字块是无线表格的重要节点,为了提升表头文字块确定结果的准确性,还可以对表头文字块进行二次校验。
在本公开实施例的一种可能的实现方式中,可以对表头文字块进行文字检测,将检测到的表头文字块对应的文字内容与表头信息库中的表头进行匹配,如果表头文字块对应的文字内容与表头信息库中的表头匹配成功,即表头文字块对应的文字内容存在于表头信息库中,则表明该表头文字块确定准确,可以将该表头文字块作为最终确定的表头文字块;而如果表头文字块对应的文字内容与表头信息库中的表头不匹配,即表头文字块对应的文字内容未存在于表头信息库中,则表明该表头文字块确定错误,可以从最终确定的表头文字块中取消该表头文字块。
其中,表头信息库中可以包含一般报表常用的表头,为了提升无线表格的表头确定结果的准确性,表头信息库中的表头可以动态更新,比如可以通过交互界面进行人工添加。
步骤905,根据表头文字块与各个文字块中其他文字块之间的上下级关系以及行列关系,对表头文字块以及其他文字块进行行列对齐处理。
在本公开实施例中,行列关系可以包括同一行或者同一列。
在本公开实施例中,在确定表头文字块后,可以将各表头文字块与各个文字块中其他文字块之间的上下级关系以及行列关系,对表头文字块以及其他文字块进行行列对齐处理。
在本公开实施例的一种可能的实现方式中,为了提升对齐结果的准确性性,从而提升表格结构重构结果的可靠性,本公开中,针对每个表头文字块,将表头文字块以及与表头文字块具有上下级关系且位于同一行的文字块进行行对齐处理,和/或,可以将表头文字块以及与表头文字块具有上下级关系且位于同一列的文字块进行列对齐处理。
也就是说,本公开中,可以根据表头文字块与对应的下级文字块之间的行列关系,确定表头文字块的表头类型,其中,表头类型可以包括行表头、列表头。
举例而言,表头文字块与对应的下级文字块之间的“行列关系”为“同一列”,则可以确定该表头文字块的表头类型为列表头;再例如,表头文字块与对应的下级文字块之间的“行列关系”为“同一行”,则可以确定该表头文字块的表头类型为行表头。从而,本公开中,可以将表头类型为行表头的表头文字块,与该表头文字块具有上下级关系且位于同一行的文字块进行行对齐处理;将表头类型为列表头的表头文字块,与该表头文字块具有上下级关系且位于同一列的文字块进行列对齐处理。
步骤906,根据行列对齐结果,确定表格区域中表格的表格结构。
在本公开实施例中,在对表头文字块和其他文字块进行行列对齐处理,得到行列对齐结果后,可以根据行列对齐结果,确定表格区域(即第二子表格区域)中表格的表格结构。也就是说,本公开中,可以根据表头类型为行表头的表头文字块和表头类型为列表头的表头文字块,以及各表头文字块分别对应的下级文字块分别进行行列对齐,根据行列对齐结果进行表格重构,得到无线表格对应的表格结构。
步骤907,将表格结构中各个单元格所限定的区域内的文字块,确定为各个单元格对应的文字块。
在本公开实施例中,在确定表格区域(即第二子表格区域)中表格的表格结构后,可以将表格区域(即第二子表格区域)中表格结构中各个单元格所限定的区域内的文字块,确定为各个单元格对应的文字块。
步骤908,根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果。
在本公开实施例中,步骤908可以采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
一种示例,针对表头类型为列表头的表头文字块(table_key),可以将该table_key的坐标(比如该table_key的中心点的坐标)向下延伸,获取到对应的各个table_value。若table_value的中心点坐标位于表头文字块table_key的左边界横坐标和右边界横坐标之间(x_min,x_max),并且存在“上下级关系”的table_value与table_key,则table_value与table_key属于同一列,由此,可以完成表格中的列对齐。同理,可以完成表格中的行对齐。
作为一种示例,识别得到的表格区域可以如图10中的区域1001所示,由于无线表格没有表格线作为参考,而且结构往往较为复杂,因此可以通过无向图来辅助完成行列对齐。其中,无向图包括节点和节点之间的连线,可以将表格区域中的文字块作为无向图中的节点,每个节点间的连线为节点关系(本公开中记为块关系)。
举例说明,识别得到的表格区域(即第二子表格区域)中的各文字块可以如图11所示,将各文字块作为节点,建立得到的无向图可以如图12所示。
本公开实施例中,可以结合无向图和各文字块的坐标完成表格中的行列对齐。即,获取表格区域(即第二子表格区域)中的各文字块和无向图后,如果需要对无线表格内容的结构进行结构化提取,则可以进行行列对齐。
具体地,可以首先利用无向图,进行每个节点(即文字块)的关系判断,节点关系或块关系包括同一行,同一列,无关,上下级关系,其中,节点关系或块关系可以通过BP神经网络确定,BP神经网络的输入为每个节点的属性信息,输出为节点关系或块关系。
其中,节点关系或块关系中的“上下级关系”中的“上级节点”或“上级文字块”都属于表头,无线表格中的表头可以记为table_key。由于表头是无线表格的重要节点,为了确保其准确性,可以将获取到的表头与表头信息库中的表头进行匹配。
针对列表头,可以将列表头的坐标向下延伸,获取到对应的各个table_value,文本检测框(即文字块)的中心坐标在列表头检测框(即表头文字块)左边界横坐标和右边界横坐标之间(x_min,x_max),并且存在“上下级关系”的文字块都属于同一列,由此可以完成列对齐。相同的方式,可以完成行对齐,由此,可以准确地复现无线表格的结构关系。最后,按照行列对齐来输出最后的可编辑的表格可以如图13所示。
本公开实施例的表格解析方法,通过根据上下级关系,确定各个文字块中的表头文字块,可以提升无线表格中表头确定结果的准确性,通过根据表头文字块与各个文字块中其他文字块之间的上下级关系以及行列关系,对表头文字块以及其他文字块进行行列对齐处理,以根据行列对齐结果,确定表格区域中表格的表格结构,可以提升表格结构确定结果的准确性,从而将表格结构中各个单元格所限定的区域块,作为各个单元格对应的文字块,以根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果,可以提升表格解析结果的可靠性。
在本公开实施例的一种可能的实现方式中,针对上述任一实施例,在根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果后,还可以显示表格解析结果,从而可以由用户根据自身需求,对表格解析结果进行编辑、计算(比如加总、计算平均值等)、比较等,相应的,在接收到用户触发的表格修改请求时,可以根据表格修改请求对表格解析结果进行修改,以满足用户的实际需求。
作为一种示例,本公开的表格解析系统的结构可以如图14所示,该系统包括文档材料预处理模块、版面分析模块、有线表格处理模块、无线表格处理模块、显示模块、表头信息库、文字检测识别模块和结果存储模块,其中,各模块相互连通,能够极大地提升文档图像识别的效率。
文档材料预处理模块,用于将用户上传的文档材料转化为文档图像,其中文档材料可以为PDF、word文档、图片、扫描件等文档材料。文档材料预处理模块,还用于对文档图像进行图像预处理,其中,图像预处理包括:利用图像分类模型进行方向矫正,应用的模型是InceptionNet-v3模型;和/或,利用四角点进行倾斜矫正,应用的是角点检测算法,应用的模型为MobileNetv2模型。
其中,上述模型输出的可以为倾斜角度和旋转后的文档图像。
需要说明的是,由于用户上传的文档材料包含有文字、表格、图表,而本公开的目的为获取表格信息,为了获取到表格信息,需要对文档图像进行整体的版面分析。
版面分析模块,用于识别和分类文档图像中的不同区域,将文本正文、插图、嵌入文档中的表格等不同区域进行检测和标记。在版面分析后,可以将不同版块切分开,并将整个版面划分成文本区域、有线表格区域、无线表格区域和其他一些特殊区域。具体说来,步骤如下:
1)插图检测。图像检测主要应用的是目标检测模型,此目标检测模型可以为M2Det模型。
2)有线表格检测。在文档材料中,可能存在大量的表格线,利用Hough(霍夫变换)直线检测,以及对文档图像的腐蚀膨胀,能够将文档图像中的表格线检测出来。通过表格线,就能够定位到有线表格的表格区域(即第一子表格区域)。
3)无线表格检测。应用的模型是语义分割模型Deeplab v3+,其网络为“编码-解码”结构。
4)余下其他区域是正文内容的区域。
版面分析模块主要用于将版面进行分区,将文档图像划分成不同的区域。将表格区域(包括有线表格的第一子表格区域和/或无线表格的第二子表格区域)过滤出来,单独进行识别。
作为一种示例,文档图像可以如图15所示,利用版面分析模块对该文档图像的版面进行分区,得到的表格(Table)区域可以为区域1501所示,插图(Figure)区域可以如区域1502所示,正文内容(Text)的区域可以如区域1503所示。
有线表格处理模块,用于将有线表格的表格内容进行识别。步骤如下:
1)表格线检测。应用Unet模型,进行表格线的检测。
2)利用提取到的表格线,进行表格重构,生成空白的表格。
3)利用文字识别模块识别表格区域中的文字信息。
4)将识别的文字信息重新填入到重构的表格中。
5)输出最后的可编辑的表格。
无线表格处理模块,用于将无线表格的表格内容进行识别。步骤如下:
1)利用文字检测识别模块完成文字识别,得到各个文字块。文字识别后,同时可获取到文字块的坐标。
2)构建无向图。
由于无线表格没有表格线作为参考,而且结构往往较为复杂,因此还需要通过无向图来辅助完成行列对齐。其中,无向图包含有节点和连线,可以将检测识别到的文字块作为节点,不同节点间的连线为节点关系。
3)结合无向图和文字块的坐标完成行列对齐。
获得相应的文字块和无向图后,如果需要对无线表格内容进行结构化提取,还需要进行行列对齐。要实现行列对齐,具体步骤如下:
首先,利用无向图,进行每个节点(文字块)的关系判断,关系判断应用的模型可以是BP神经网络,输入为每个节点的属性信息,输出为节点关系。
然后,节点关系中的“上下级关系”中的“上级节点”都属于表头。这些无线表格的表头为table_key。
最后,利用这个表头(table_key)的坐标向下延伸,获取到对应的各个table_value。凡是文本检测框(即文字块)的中心坐标在表头检测框(即表头文字块)左边界横坐标和右边界横坐标之间(x_min,x_max),并且存在“上下级关系”的文字块都属于同一列,由此可以完成列对齐。相同的方式,可以完成行对齐,由此,可以准确地复现无线表格的结构关系。
4)按照行列对齐来输出最后的可编辑的表格。
文字检测识别模块,用于对文档图像的文字内容进行检测识别。应用的为FOTS算法。
显示模块,用于将重构的表格内容进行显示,以使用户可以对表格内容进行编辑或计算。
上述利用图像预处理模块、分区模块、无线表格处理模块、文字检测识别模块等模块自动生成了表格内容,由于表格内容已经识别提取,成为可编辑的格式,移动用户可以对识别提取后的表格内容进行各个类型的操作,包括修改、计算、统计、加合以及比较,以满足用户“掌上分析报表”的需求。如果版式分析效果较差,用户还可以调整版式分析的结果,用手指对文档材料中的表格区域进行涂抹或者划定等,以满足用户的实际需求。
表头信息库,包含了一般报表常用的表头。无线表格的表头可以与信息库中的表头进行匹配,确定行表头和/或列表头。表头信息库中的表头,可以通过交互界面进行人工添加。
结果存储模块,用于保存通过本系统处理的表格图片,这些表格图片经过标注后,可以成为本系统的训练数据,用于提高本系统的结构化和识别的准确性。
发明人利用本系统对上传的文档材料进行测试,从上传时刻到识别完表格内容,速度在1s内完成,能够极大地提高“掌上办公”、“掌上决策”的效率。
作为一种应用场景,如图16所示,用户可以通过移动设备拍摄、扫描、或通过其他方式上传文档材料,系统可以对文档材料进行版面分析,分成图表、无线表格、有线表格等。系统对有线表格进行处理,可以包括检测表格线、表格重构、文字内容识别、识别内容填充表格等;系统对无线表格进行处理,可以包括文字内容识别、无向图构建、行列对齐等。系统可以将识别的结果显示在移动设备,用户可以通过移动设备对表格内容进行分析、修改和比较。系统保存用户上传的文档材料,后续进行标注后,成为训练数据,对本公开涉及的各个模型进行训练。
与上述图1至图9施例提供的表格解析方法相对应,本公开还提供一种表格解析装置,由于本公开实施例提供的表格解析装置与上述图1至图9施例提供的表格解析方法相对应,因此在表格解析方法的实施方式也适用于本公开实施例提供的表格解析装置,在本公开实施例中不再详细描述。
图17为本公开实施例八所提供的表格解析装置的结构示意图。
如图17所示,该表格解析装置1700可以包括:第一确定模块1701、第二确定模块1702以及生成模块1703。
其中,第一确定模块1701,用于确定待处理文档图像中的表格区域,以及表格区域的线条类型。
第二确定模块1702,用于根据线条类型对表格区域进行结构分析,确定表格区域中表格的表格结构,以及表格结构中各个单元格对应的文字块。
生成模块1703,用于根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果。
进一步地,在本公开实施例的一种可能的实现方式中,第一确定模块1701,具体用于:获取待处理文档图像;对待处理文档图像进行线条检测;根据检测到的线条,确定第一子表格区域以及第一子表格区域的线条类型为有线类型。
进一步地,在本公开实施例的一种可能的实现方式中,第一确定模块1701,具体用于:将待处理文档图像输入预设的无线表格分割模型,以获取无线表格分割模型输出的区域信息;确定区域信息对应的区域为第二子表格区域,以及第二子表格区域的线条类型为无线类型。
进一步地,在本公开实施例的一种可能的实现方式中,第一确定模块1701,还用于:对待处理文档图像进行插图检测,获取待处理文档图像中的插图区域;去除待处理文档图像中的插图区域。
进一步地,在本公开实施例的一种可能的实现方式中,第一确定模块1701,还用于:对待处理文档图像进行角度预测,确定待处理文档图像的倾斜角度;按照倾斜角度对待处理文档图像进行旋转处理。
进一步地,在本公开实施例的一种可能的实现方式中,第二确定模块1702,具体用于:在表格区域的线条类型为有线类型时,提取表格区域中的表格线;根据提取的表格线,确定表格区域中表格的表格结构;将表格结构中各个单元格所限定的区域块,确定为各个单元格对应的文字块。
进一步地,在本公开实施例的一种可能的实现方式中,第二确定模块1702,具体用于:在表格区域的线条类型为无线类型时,对表格区域进行文字检测,确定表格区域中各个文字块的属性信息;根据各个文字块的属性信息,确定各个文字块之间的块关系;根据各个文字块之间的块关系,确定表格区域中表格的表格结构;将表格结构中各个单元格所限定的区域块,确定为各个单元格对应的文字块。
进一步地,在本公开实施例的一种可能的实现方式中,第二确定模块1702,具体用于:以各个文字块为节点,建立任意两个节点之间的连接边,生成无向图;针对无向图中具有连接边的任意两个文字块,将两个文字块的属性信息输入预设的块关系模型,确定两个文字块之间的块关系;其中,属性信息包括以下参数中的至少一种:文字块的坐标信息、文字块的文字内容、文字块的尺寸信息。
进一步地,在本公开实施例的一种可能的实现方式中,块关系包括以下关系中的至少一种:行列关系、上下级关系;第二确定模块1702,具体用于:根据上下级关系,确定各个文字块中的表头文字块;根据表头文字块与各个文字块中其他文字块之间的上下级关系以及行列关系,对表头文字块以及其他文字块进行行列对齐处理;根据行列对齐结果,确定表格区域中表格的表格结构。
进一步地,在本公开实施例的一种可能的实现方式中,行列关系包括:同一行或者同一列;第二确定模块1702,具体用于:针对每个表头文字块,将表头文字块以及与表头文字块具有上下级关系且位于同一行的文字块进行行对齐处理;或者,将表头文字块以及与表头文字块具有上下级关系且位于同一列的文字块进行列对齐处理。
进一步地,在本公开实施例的一种可能的实现方式中,第二确定模块1702,具体用于:根据上下级关系,确定各个文字块中的上级文字块;将对应的文字内容存在于表头信息库中的上级文字块,确定为表头文字块。
本公开实施例的表格解析装置,通过确定待处理文档图像中的表格区域及表格区域的线条类型,以根据线条类型对表格区域进行结构分析,确定表格区域中表格的表格结构及表格结构中各个单元格对应的文字块,从而根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果。由此,通过自动解析文档图像中的表格内容,可以解析得到可编辑的结构化数据,满足用户对表格内容进行编辑、比较、统计、计算等需求。
为了实现上述实施例,本公开还提供一种电子设备,该电子设备可以包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开上述任一实施例提出的表格解析方法。
为了实现上述实施例,本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开上述任一实施例提出的表格解析方法。
为了实现上述实施例,本公开还提供一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现本公开上述任一实施例提出的表格解析方法。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图18示出了可以用来实施本公开的实施例的示例电子设备1800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图18所示,设备1800包括计算单元1801,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)1802中的计算机程序或者从存储单元1807加载到RAM(Random AccessMemory,随机访问/存取存储器)1803中的计算机程序,来执行各种适当的动作和处理。在RAM 1803中,还可存储设备1800操作所需的各种程序和数据。计算单元1801、ROM 1802以及RAM 1803通过总线1804彼此相连。I/O(Input/Output,输入/输出)接口1805也连接至总线1804。
设备1800中的多个部件连接至I/O接口1805,包括:输入单元1806,例如键盘、鼠标等;输出单元1807,例如各种类型的显示器、扬声器等;存储单元1808,例如磁盘、光盘等;以及通信单元1809,例如网卡、调制解调器、无线通信收发机等。通信单元1809允许设备1800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1801的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1801执行上文所描述的各个方法和处理,例如上述表格解析方法。例如,在一些实施例中,上述表格解析方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1802和/或通信单元1809而被载入和/或安装到设备1800上。当计算机程序加载到RAM 1803并由计算单元1801执行时,可以执行上文描述的表格解析方法的一个或多个步骤。备选地,在其他实施例中,计算单元1801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述表格解析方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(VirtualPrivate Server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
根据本公开实施例的技术方案,通过确定待处理文档图像中的表格区域及表格区域的线条类型,以根据线条类型对表格区域进行结构分析,确定表格区域中表格的表格结构及表格结构中各个单元格对应的文字块,从而根据表格结构以及各个单元格对应的文字块的文字内容,生成表格解析结果。由此,通过自动解析文档图像中的表格内容,可以解析得到可编辑的结构化数据,满足用户对表格内容进行编辑、比较、统计、计算等需求。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (25)
1.一种表格解析方法,包括:
确定待处理文档图像中的表格区域,以及所述表格区域的线条类型;
根据所述线条类型对所述表格区域进行结构分析,确定所述表格区域中表格的表格结构,以及所述表格结构中各个单元格对应的文字块;
根据所述表格结构以及所述各个单元格对应的文字块的文字内容,生成表格解析结果。
2.根据权利要求1所述的方法,其中,所述确定待处理文档图像中的表格区域,以及所述表格区域的线条类型,包括:
获取待处理文档图像;
对所述待处理文档图像进行线条检测;
根据检测到的线条,确定第一子表格区域以及所述第一子表格区域的线条类型为有线类型。
3.根据权利要求1或2所述的方法,其中,所述确定待处理文档图像中的表格区域,以及所述表格区域的线条类型,包括:
将所述待处理文档图像输入预设的无线表格分割模型,以获取所述无线表格分割模型输出的区域信息;
确定所述区域信息对应的区域为第二子表格区域,以及所述第二子表格区域的线条类型为无线类型。
4.根据权利要求3所述的方法,其中,在获取待处理文档图像之后,还包括:
对所述待处理文档图像进行插图检测,获取所述待处理文档图像中的插图区域;
去除所述待处理文档图像中的所述插图区域。
5.根据权利要求3所述的方法,其中,在获取待处理文档图像之后,还包括:
对所述待处理文档图像进行角度预测,确定所述待处理文档图像的倾斜角度;
按照所述倾斜角度对所述待处理文档图像进行旋转处理。
6.根据权利要求1所述的方法,其中,所述根据所述线条类型对所述表格区域进行结构分析,确定所述表格区域中表格的表格结构,以及所述表格结构中各个单元格对应的文字块,包括:
在所述表格区域的线条类型为有线类型时,提取所述表格区域中的表格线;
根据提取的所述表格线,确定所述表格区域中表格的表格结构;
将所述表格结构中各个单元格所限定的区域块,确定为所述各个单元格对应的文字块。
7.根据权利要求1所述的方法,其中,所述根据所述线条类型对所述表格区域进行结构分析,确定所述表格区域中表格的表格结构,以及所述表格结构中各个单元格对应的文字块,包括:
在所述表格区域的线条类型为无线类型时,对所述表格区域进行文字检测,确定所述表格区域中各个文字块的属性信息;
根据所述各个文字块的属性信息,确定所述各个文字块之间的块关系;
根据所述各个文字块之间的块关系,确定所述表格区域中表格的表格结构;
将所述表格结构中所述各个单元格所限定的区域块,确定为所述各个单元格对应的文字块。
8.根据权利要求7所述的方法,其中,所述根据所述各个文字块的属性信息,确定所述各个文字块之间的块关系,包括:
以所述各个文字块为节点,建立任意两个所述节点之间的连接边,生成无向图;
针对所述无向图中具有连接边的任意两个文字块,将所述两个文字块的属性信息输入预设的块关系模型,确定所述两个文字块之间的块关系;
其中,所述属性信息包括以下参数中的至少一种:文字块的坐标信息、文字块的文字内容、文字块的尺寸信息。
9.根据权利要求7所述的方法,其中,所述块关系包括以下关系中的至少一种:行列关系、上下级关系;
所述根据所述各个文字块之间的块关系,确定所述表格区域中表格的表格结构,包括:
根据所述上下级关系,确定所述各个文字块中的表头文字块;
根据所述表头文字块与所述各个文字块中其他文字块之间的上下级关系以及行列关系,对所述表头文字块以及所述其他文字块进行行列对齐处理;
根据行列对齐结果,确定所述表格区域中表格的表格结构。
10.根据权利要求9所述的方法,其中,所述行列关系包括:同一行或者同一列;
所述根据所述表头文字块与所述各个文字块中其他文字块之间的上下级关系以及行列关系,对所述表头文字块以及所述其他文字块进行行列对齐处理,包括:
针对每个表头文字块,将所述表头文字块以及与所述表头文字块具有上下级关系且位于同一行的文字块进行行对齐处理;或者,
将所述表头文字块以及与所述表头文字块具有上下级关系且位于同一列的文字块进行列对齐处理。
11.根据权利要求9所述的方法,其中,所述根据所述上下级关系,确定所述各个文字块中的表头文字块,包括:
根据所述上下级关系,确定所述各个文字块中的上级文字块;
将对应的文字内容存在于表头信息库中的上级文字块,确定为所述表头文字块。
12.一种表格解析装置,包括:
第一确定模块,用于确定待处理文档图像中的表格区域,以及所述表格区域的线条类型;
第二确定模块,用于根据所述线条类型对所述表格区域进行结构分析,确定所述表格区域中表格的表格结构,以及所述表格结构中各个单元格对应的文字块;
生成模块,用于根据所述表格结构以及所述各个单元格对应的文字块的文字内容,生成表格解析结果。
13.根据权利要求12所述的装置,其中,所述第一确定模块,具体用于:
获取待处理文档图像;
对所述待处理文档图像进行线条检测;
根据检测到的线条,确定第一子表格区域以及所述第一子表格区域的线条类型为有线类型。
14.根据权利要求12或13所述的装置,其中,所述第一确定模块,具体用于:
将所述待处理文档图像输入预设的无线表格分割模型,以获取所述无线表格分割模型输出的区域信息;
确定所述区域信息对应的区域为第二子表格区域,以及所述第二子表格区域的线条类型为无线类型。
15.根据权利要求14所述的装置,其中,所述第一确定模块,还用于:
对所述待处理文档图像进行插图检测,获取所述待处理文档图像中的插图区域;
去除所述待处理文档图像中的所述插图区域。
16.根据权利要求14所述的装置,其中,所述第一确定模块,还用于:
对所述待处理文档图像进行角度预测,确定所述待处理文档图像的倾斜角度;
按照所述倾斜角度对所述待处理文档图像进行旋转处理。
17.根据权利要求12所述的装置,其中,所述第二确定模块,具体用于:
在所述表格区域的线条类型为有线类型时,提取所述表格区域中的表格线;
根据提取的所述表格线,确定所述表格区域中表格的表格结构;
将所述表格结构中各个单元格所限定的区域块,确定为所述各个单元格对应的文字块。
18.根据权利要求12所述的装置,其中,所述第二确定模块,具体用于:
在所述表格区域的线条类型为无线类型时,对所述表格区域进行文字检测,确定所述表格区域中各个文字块的属性信息;
根据所述各个文字块的属性信息,确定所述各个文字块之间的块关系;
根据所述各个文字块之间的块关系,确定所述表格区域中表格的表格结构;
将所述表格结构中所述各个单元格所限定的区域块,确定为所述各个单元格对应的文字块。
19.根据权利要求18所述的装置,其中,所述第二确定模块,具体用于:
以所述各个文字块为节点,建立任意两个所述节点之间的连接边,生成无向图;
针对所述无向图中具有连接边的任意两个文字块,将所述两个文字块的属性信息输入预设的块关系模型,确定所述两个文字块之间的块关系;
其中,所述属性信息包括以下参数中的至少一种:文字块的坐标信息、文字块的文字内容、文字块的尺寸信息。
20.根据权利要求18所述的装置,其中,所述块关系包括以下关系中的至少一种:行列关系、上下级关系;
所述第二确定模块,具体用于:
根据所述上下级关系,确定所述各个文字块中的表头文字块;
根据所述表头文字块与所述各个文字块中其他文字块之间的上下级关系以及行列关系,对所述表头文字块以及所述其他文字块进行行列对齐处理;
根据行列对齐结果,确定所述表格区域中表格的表格结构。
21.根据权利要求20所述的装置,其中,所述行列关系包括:同一行或者同一列;
所述第二确定模块,具体用于:
针对每个表头文字块,将所述表头文字块以及与所述表头文字块具有上下级关系且位于同一行的文字块进行行对齐处理;或者,
将所述表头文字块以及与所述表头文字块具有上下级关系且位于同一列的文字块进行列对齐处理。
22.根据权利要求20所述的装置,其中,所述第二确定模块,具体用于:
根据所述上下级关系,确定所述各个文字块中的上级文字块;
将对应的文字内容存在于表头信息库中的上级文字块,确定为所述表头文字块。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的表格解析方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的表格解析方法。
25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的表格解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110518219.0A CN113221743B (zh) | 2021-05-12 | 2021-05-12 | 表格解析方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110518219.0A CN113221743B (zh) | 2021-05-12 | 2021-05-12 | 表格解析方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221743A true CN113221743A (zh) | 2021-08-06 |
CN113221743B CN113221743B (zh) | 2024-01-12 |
Family
ID=77095067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110518219.0A Active CN113221743B (zh) | 2021-05-12 | 2021-05-12 | 表格解析方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221743B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610068A (zh) * | 2021-10-11 | 2021-11-05 | 江西风向标教育科技有限公司 | 基于试卷图像的试题拆解方法、系统、存储介质及设备 |
CN113643408A (zh) * | 2021-08-20 | 2021-11-12 | Oppo广东移动通信有限公司 | 图像生成方法及装置、计算机可读存储介质和电子设备 |
CN113723362A (zh) * | 2021-09-27 | 2021-11-30 | 上海合合信息科技股份有限公司 | 一种在图像中检测表格线的方法及装置 |
CN113850249A (zh) * | 2021-12-01 | 2021-12-28 | 深圳市迪博企业风险管理技术有限公司 | 一种图表信息格式化提取方法 |
CN114419643A (zh) * | 2021-12-20 | 2022-04-29 | 华南理工大学 | 一种表格结构识别的方法、系统、设备及存储介质 |
CN114445841A (zh) * | 2021-12-15 | 2022-05-06 | 阿里巴巴(中国)有限公司 | 纳税申报表识别方法和装置 |
CN115579127A (zh) * | 2022-10-08 | 2023-01-06 | 中南大学 | 一种构建慢阻肺预测模型的方法、系统、设备及存储介质 |
CN115713775A (zh) * | 2023-01-05 | 2023-02-24 | 达而观信息科技(上海)有限公司 | 一种从文档中提取表格的方法、系统和计算机设备 |
CN116563872A (zh) * | 2023-05-26 | 2023-08-08 | 珠海盈米基金销售有限公司 | 一种基于深度学习的图表提取方法及系统 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5848186A (en) * | 1995-08-11 | 1998-12-08 | Canon Kabushiki Kaisha | Feature extraction system for identifying text within a table image |
CN1604075A (zh) * | 2004-11-22 | 2005-04-06 | 北京北大方正技术研究院有限公司 | 一种对报纸版面进行文字阅读顺序恢复的方法 |
CN102722475A (zh) * | 2012-05-09 | 2012-10-10 | 深圳市万兴软件有限公司 | 一种PDF文档中的表格转换成Excel表格的方法 |
CN105512611A (zh) * | 2015-11-25 | 2016-04-20 | 成都数联铭品科技有限公司 | 一种表格图像检测识别方法 |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
KR101811581B1 (ko) * | 2016-11-15 | 2017-12-26 | 주식회사 셀바스에이아이 | 문서 이미지에서 표 인식을 위한 장치 및 방법 |
US20180129944A1 (en) * | 2016-11-07 | 2018-05-10 | Xerox Corporation | Document understanding using conditional random fields |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN108446264A (zh) * | 2018-03-26 | 2018-08-24 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
CN110688825A (zh) * | 2019-08-13 | 2020-01-14 | 北京众信博雅科技有限公司 | 一种版式文档中的含线表格信息提取方法 |
CN110795919A (zh) * | 2019-11-07 | 2020-02-14 | 达而观信息科技(上海)有限公司 | 一种pdf文档中的表格抽取方法、装置、设备及介质 |
CN111753727A (zh) * | 2020-06-24 | 2020-10-09 | 北京百度网讯科技有限公司 | 用于提取结构化信息的方法、装置、设备及可读存储介质 |
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
WO2020232872A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN112232149A (zh) * | 2020-09-28 | 2021-01-15 | 北京易道博识科技有限公司 | 一种文档多模信息和关系提取方法及系统 |
KR20210011606A (ko) * | 2019-07-23 | 2021-02-02 | 한국과학기술원 | 문서 내 테이블 분석방법 및 장치 |
CN112434496A (zh) * | 2020-12-11 | 2021-03-02 | 深圳司南数据服务有限公司 | 一种公告文档表格数据识别方法及终端 |
-
2021
- 2021-05-12 CN CN202110518219.0A patent/CN113221743B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5848186A (en) * | 1995-08-11 | 1998-12-08 | Canon Kabushiki Kaisha | Feature extraction system for identifying text within a table image |
CN1604075A (zh) * | 2004-11-22 | 2005-04-06 | 北京北大方正技术研究院有限公司 | 一种对报纸版面进行文字阅读顺序恢复的方法 |
CN102722475A (zh) * | 2012-05-09 | 2012-10-10 | 深圳市万兴软件有限公司 | 一种PDF文档中的表格转换成Excel表格的方法 |
CN105512611A (zh) * | 2015-11-25 | 2016-04-20 | 成都数联铭品科技有限公司 | 一种表格图像检测识别方法 |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
US20180129944A1 (en) * | 2016-11-07 | 2018-05-10 | Xerox Corporation | Document understanding using conditional random fields |
KR101811581B1 (ko) * | 2016-11-15 | 2017-12-26 | 주식회사 셀바스에이아이 | 문서 이미지에서 표 인식을 위한 장치 및 방법 |
US20190266394A1 (en) * | 2018-02-26 | 2019-08-29 | Abc Fintech Co., Ltd. | Method and device for parsing table in document image |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN108446264A (zh) * | 2018-03-26 | 2018-08-24 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
WO2020232872A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
KR20210011606A (ko) * | 2019-07-23 | 2021-02-02 | 한국과학기술원 | 문서 내 테이블 분석방법 및 장치 |
CN110688825A (zh) * | 2019-08-13 | 2020-01-14 | 北京众信博雅科技有限公司 | 一种版式文档中的含线表格信息提取方法 |
CN110795919A (zh) * | 2019-11-07 | 2020-02-14 | 达而观信息科技(上海)有限公司 | 一种pdf文档中的表格抽取方法、装置、设备及介质 |
CN111753727A (zh) * | 2020-06-24 | 2020-10-09 | 北京百度网讯科技有限公司 | 用于提取结构化信息的方法、装置、设备及可读存储介质 |
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
CN112232149A (zh) * | 2020-09-28 | 2021-01-15 | 北京易道博识科技有限公司 | 一种文档多模信息和关系提取方法及系统 |
CN112434496A (zh) * | 2020-12-11 | 2021-03-02 | 深圳司南数据服务有限公司 | 一种公告文档表格数据识别方法及终端 |
Non-Patent Citations (2)
Title |
---|
宋晓宁;刘梓;於东军;杨静宇;陈天雨;: "表格型票据图像手写体特殊符号的混合检测算法", 南京理工大学学报, no. 06, pages 5 - 10 * |
钟辉;孙士兰;刘倩;: "中文版面分析和重构", 沈阳建筑大学学报(自然科学版), no. 02, pages 163 - 166 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643408A (zh) * | 2021-08-20 | 2021-11-12 | Oppo广东移动通信有限公司 | 图像生成方法及装置、计算机可读存储介质和电子设备 |
CN113723362A (zh) * | 2021-09-27 | 2021-11-30 | 上海合合信息科技股份有限公司 | 一种在图像中检测表格线的方法及装置 |
CN113610068A (zh) * | 2021-10-11 | 2021-11-05 | 江西风向标教育科技有限公司 | 基于试卷图像的试题拆解方法、系统、存储介质及设备 |
CN113850249A (zh) * | 2021-12-01 | 2021-12-28 | 深圳市迪博企业风险管理技术有限公司 | 一种图表信息格式化提取方法 |
CN114445841A (zh) * | 2021-12-15 | 2022-05-06 | 阿里巴巴(中国)有限公司 | 纳税申报表识别方法和装置 |
CN114419643A (zh) * | 2021-12-20 | 2022-04-29 | 华南理工大学 | 一种表格结构识别的方法、系统、设备及存储介质 |
CN115579127A (zh) * | 2022-10-08 | 2023-01-06 | 中南大学 | 一种构建慢阻肺预测模型的方法、系统、设备及存储介质 |
CN115579127B (zh) * | 2022-10-08 | 2023-11-21 | 中南大学 | 一种构建慢阻肺预测模型的方法、系统、设备及存储介质 |
CN115713775A (zh) * | 2023-01-05 | 2023-02-24 | 达而观信息科技(上海)有限公司 | 一种从文档中提取表格的方法、系统和计算机设备 |
CN116563872A (zh) * | 2023-05-26 | 2023-08-08 | 珠海盈米基金销售有限公司 | 一种基于深度学习的图表提取方法及系统 |
CN116563872B (zh) * | 2023-05-26 | 2024-01-30 | 珠海盈米基金销售有限公司 | 一种基于深度学习的图表提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113221743B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113221743B (zh) | 表格解析方法、装置、电子设备和存储介质 | |
WO2019192397A1 (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN114155543B (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
JP7425147B2 (ja) | 画像処理方法、テキスト認識方法及び装置 | |
CN111488826A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
CN115035538A (zh) | 文本识别模型的训练方法、文本识别方法及装置 | |
KR20160132842A (ko) | 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법 | |
US20210357710A1 (en) | Text recognition method and device, and electronic device | |
US20220004928A1 (en) | Method and apparatus for incrementally training model | |
CN113657274B (zh) | 表格生成方法、装置、电子设备及存储介质 | |
CN113627439A (zh) | 文本结构化处理方法、处理装置、电子设备以及存储介质 | |
CN114429637B (zh) | 一种文档分类方法、装置、设备及存储介质 | |
CN113177472A (zh) | 动态手势识别方法、装置、设备以及存储介质 | |
CN115578735B (zh) | 文本检测方法和文本检测模型的训练方法、装置 | |
CN113239818A (zh) | 基于分割和图卷积神经网络的表格图像跨模态信息提取方法 | |
CN114359932B (zh) | 文本检测方法、文本识别方法及装置 | |
CN114266860B (zh) | 三维人脸模型建立方法、装置、电子设备及存储介质 | |
CN114066790A (zh) | 图像生成模型的训练方法、图像生成方法、装置和设备 | |
CN116259064B (zh) | 表格结构识别方法、表格结构识别模型的训练方法及装置 | |
CN115187995B (zh) | 文档矫正方法、装置、电子设备和存储介质 | |
CN115116080A (zh) | 表格解析方法、装置、电子设备和存储介质 | |
CN113610856B (zh) | 训练图像分割模型和图像分割的方法和装置 | |
CN115984838A (zh) | Poi名称的生成方法、装置、电子设备和存储介质 | |
CN113887394A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN114120305A (zh) | 文本分类模型的训练方法、文本内容的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |