CN111310682A - 一种文本文件表格的通用检测分析及识别方法 - Google Patents

一种文本文件表格的通用检测分析及识别方法 Download PDF

Info

Publication number
CN111310682A
CN111310682A CN202010113320.3A CN202010113320A CN111310682A CN 111310682 A CN111310682 A CN 111310682A CN 202010113320 A CN202010113320 A CN 202010113320A CN 111310682 A CN111310682 A CN 111310682A
Authority
CN
China
Prior art keywords
line
text file
horizontal
lines
vertical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010113320.3A
Other languages
English (en)
Other versions
CN111310682B (zh
Inventor
李振
鲁宾宾
刘挺
孟天祥
陈远琴
陈伟强
翟昶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minsheng Science And Technology Co ltd
Original Assignee
Minsheng Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minsheng Science And Technology Co ltd filed Critical Minsheng Science And Technology Co ltd
Priority to CN202010113320.3A priority Critical patent/CN111310682B/zh
Publication of CN111310682A publication Critical patent/CN111310682A/zh
Application granted granted Critical
Publication of CN111310682B publication Critical patent/CN111310682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明属于数据处理技术领域,具体涉及一种文本文件表格的通用检测分析及识别方法。方法的步骤为:采集待检测文本文件表格的数据信息,并进行预处理;对经处理后数据信息分析处理,获得表格横线集合rows;再进行分析判断,获得表格图像所有矩形区域块中的元素Tables;根据获得表格图像所有矩形区域块,实现文本文件表格的通用检测分析及识别。本发明的有益效果是:该方法通过表格线交点的分析、匹配,构建出原表格中所有的矩形区域。这种表格切分技术对于无论表格线是否完整以及其它干扰因素的情景下都具备很好的检测效果。

Description

一种文本文件表格的通用检测分析及识别方法
技术领域
本发明属于数据处理技术领域,具体涉及一种文本文件表格的通用检测分析及识别方法。
背景技术
人们在日常的生活和工作中,通常存在很多类型的表格需要填写。在大数据技术广泛应用的今天,各种表格信息都需要输入到计算机整理,归类和分析。为了减轻人力的成本和减少劳动人员千篇一律的重复性工作,代替人工的表格自动识别系统的研究具有很重要的意义。同时,准确性是表格识别系统的基本要求,只有准确的识别表格中各类有效信息,才能产生真正的社会效益,实现其研究的价值。
表格文档在快递单、银行金融票据、材料预算清单、企业招聘登记、财务核算等众多业务场景中都具有某种特殊格式。其复杂多样的格式对表格特征的提取造成了一定的影响,加大了识别难度。如果不能准确应对表格复杂多样的格式问题,会导致表格特征提取不完整,进而会给后续的字符识别过程造成很大的影响,如乱码,逻辑混乱等。
因此,包含复杂表格文本文件识别的关键在于文档检测方法是否能够完整提取复杂表格的特征。目前,传统的表格文档检测方法主要通过图像卷积、形态学等数字图像处理技术提取表格特征。其弊端显而易见,对于表格线不完整、文档背景复杂的文档图像没有很好的检测效果。而我们提供的这种方法很受直线断裂的影响,对于表格线不清晰、涂改、部分缺失等异常下,往往存在区域漏检或者错检,破环了表格的完整性。
发明内容
本发明公开了一种文本文件表格的通用检测分析及识别方法,以解决现有技术的上述以及其他潜在问题中任一问题。
为了达到上述目的,一种文本文件表格的通用检测分析及识别方法,具体包括以下步骤:
S1)采集待检测文本文件表格的数据信息,并进行预处理;
S2)对经S1)处理后数据信息分析处理,获得表格横线集合rows;
S3)对S2)得到表格横线集合rows进行分析处理,可获得表格图像所有矩形区域块Tables;
S4)根据获得表格图像所有矩形区域块,实现文本文件表格的通用检测分析及识别。
进一步,所述S1)中的预处理的具体步骤为:
S1.1)将待检测文本文件表格的图像信息输入,采集文本文件表格图像中横线和竖线的信息;
S1.2)根据采集图像中横线和竖线的信息,获得待检测文本文件表格的横线图和竖线图,备用;
进一步,所述S1.1)中采集文本文件表格图像中横线和竖线的信息的方式为:二值化、图像卷积或形态学。
进一步,所述S2)的具体步骤为:
S2.1)对S1.2)得到的待检测文本文件表格的横线图进行Hough直线检测,获得线段集Lines,公式如下:
Lines=[S1,S2,…,Sm]
其中,m为检测到线段个数,Si=(xi0,yi0,xi1,yi1),i∈[1,m]为第i个线段,xi0为线段左端点横坐标,yi0为左端点纵坐标,xi1为右端点横坐标,yi1为右端点纵坐标;
S2.2)对线段集Lines中所有线段以左端点纵坐标取值分为K个组,K≤m,纵坐标临近的归为一组,所述纵坐标临近的归为一组即纵坐标相差p个像素点之内的归为一组。(图像坐标一般以像素点为单位,K≤m,p为允许坐标最大偏差距离,通常p≤10;);
S2.3)先以同组线段左右端点纵坐标取值设置相同为yk,k∈[1,K];
再以横坐标升序方式进行排序,统计同组线段一维并集长度L,如果L>α*w(α∈(0,1),1-α为允许表格横线缺失比例的最大程度,w为输入表格文档图像的宽度),则记录yk
如果L≤α*w,则不记录,执行计算下一组线段一维并集长度,最终可获得表格横线集合rows,
rows=[(0,y1,w,y1),(0,y2,w,y2),…,(0,yn,w,yn)]
其中,n为表格横线个数,n≤K。
进一步,所述S3)的具体步骤为:
S3.1)根据S2.3)得到的表格横线集合rows进行分析,得到横线之间表格竖线横坐标集合cols,
cols[j]=[0,xj1,xj2,…xjr,w],r≥0;
S3.2)将表格横线集合rows和横线之间表格竖线横坐标集合cols组合,即获得表格图像所有矩形区域块Tables,
Tables=[(0,y1,x11,y2),(x11,y1,x12,y2),…,(x(n-1)r,yn-1,w,yn)],
其中,r为竖线横坐标临近取值设置相同可获得不同的横坐标值的个数,0≤r≤R,xi0=0,
Figure BDA0002390747300000041
R为检测到的竖线个数。
进一步,所述S3.1)中的分析方法为:对表格横线集合rows中的vertical竖线图rows[j]和rows[j+1]之间部分进行直线检测,
若检测结果不为空,即竖线存在,横坐标临近取值设置相同,得到第j个和第j+1个表格横线之间表格竖线横坐标集合,包含输入图像边界0和w,表示如下:
cols[j]=[0,xj1,xj2,…xjr,w],r≥0;
若检测结果为空,即竖线不存在,则令
cols[j]=[0,w]。
进一步,所述矩形区域块中的每个元素均由两个点的横纵坐标构成,这两个点对应矩形区域的左上角点和右下角点。
一种实现上述的文本文件表格的通用检测分析及识别方法的计算机程序。
一种实现上述的文本文件表格的通用检测分析及识别方法的信息处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的文本文件表格的通用检测分析及识别方法。
本发明的有益效果是:由于采用上述技术方案,该方法利用表格线交点分析法通过对表格线交点的分析、匹配,构建出原表格中所有的矩形区域。其弊端显而易见,对于表格线不完整、文档背景复杂的文档图像没有很好的检测效果。而我们提供的这种表格切分技术对于无论表格线是否完整以及其它干扰因素的情景下都具备很好的检测效果。
附图说明
图1为本发明一种文本文件表格的通用检测分析及识别方法的流程框图。
图2为表格线完整的文档图像。
图3为表格线缺失的文档图像。
图4为采用表格线交点分析法检测效果的图像。
图5为采用本发明方法检测分析及识别后的表格效果的图像。
图6为采用表格线交点分析法检测效果的图像。
图7为采用本发明方法检测分析及识别后的表格效果的图像。
图8为采用本发明方法采集的horizontal(横线图)的图像。
图9为采用本发明方法采集的vertical竖线图的图像。
图10为实施例的表格横线图(n个)。
图11为实施例的第3个横线与第4个横线之间的竖线图。
图12为实施例的第3个横线与第4个横线之间的表格矩形区域的元素示意图。
具体实施方式
下文将结合具体附图详细描述本发明具体实施例。应当注意的是,下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中,各附图所出现的相同标号代表相同的特征或者部件,可应用于不同实施例中。
如图1所示,本发明一种文本文件表格的通用检测分析及识别方法,具体包括以下步骤:
S1)采集待检测文本文件表格的数据信息,并进行预处理;
S2)对经S1)处理后数据信息分析处理,获得表格横线集合rows;
S3)对S2)得到表格横线集合rows进行分析处理,可获得表格图像所有矩形区域块Tables;
S4)根据获得表格图像所有矩形区域块,实现文本文件表格的通用检测分析及识别。
所述S1)中的预处理的具体工艺为:
S1.1)将待检测文本文件表格的图像信息输入,采集文本文件表格图像中横线和竖线的信息;
S1.2)根据采集横线和竖线的信息,获得待检测文本文件表格的横线图和竖线图,备用;
所述S1.1)中采集文本文件表格图像中横线和竖线的信息的方式为:二值化、图像卷积或形态学。
所述S2)的具体步骤为:
S2.1)对S1.2)得到的待检测文本文件表格的横线图进行直线检测(Hough),获得线段集Lines,公式如下:
Lines=[S1,S2,…,Sm]
其中,m为检测到线段个数,Si=(xi0,yi0,xi1,yi1),i∈[1,m]为第i个线段,xi0为线段左端点横坐标,yi0为左端点纵坐标,xi1为右端点横坐标,yi1为右端点纵坐标;
S2.2)对线段集Lines中所有线段以左端点纵坐标取值分为K个组,K≤m,纵坐标临近的归为一组,
S2.3)先以同组线段左右端点纵坐标取值设置相同为yk,k∈[1,K];
再以横坐标升序方式进行排序,统计同组线段一维并集长度L,如果L>α*w(α∈(0,1),1-α为允许表格横线缺失比例的最大程度,w为输入表格文档图像的宽度),则记录yk
如果L≤α*w,则不记录,执行计算下一组线段一维并集长度,最终可获得表格横线集合rows,
rows=[(0,y1,w,y1),(0,y2,w,y2),…,(0,yn,w,yn)]
其中,n为表格横线个数,n≤K。
所述S3)的具体步骤为:
S3.1)根据S2.3)得到的表格横线集合rows进行分析,得到横线之间表格竖线横坐标集合cols,
cols[j]=[0,xj1,xj2,…xjr,w],r≥0;
S3.2)将表格横线集合rows和横线之间表格竖线横坐标集合cols组合,即获得表格图像所有矩形区域块Tables,
Tables=[(0,y1,x11,y2),(x11,y1,x12,y2),…,(x(n-1)r,yn-1,w,yn)],
其中,r≥0,xi0=0,
Figure BDA0002390747300000071
所述S3.1)中的分析方法为:对表格横线集合rows中的vertical竖线图rows[j]和rows[j+1]之间部分进行直线检测(LSD),
若检测结果不为空,即竖线存在,横坐标临近取值设置相同,得到第j个和第j+1个表格横线之间表格竖线横坐标集合,包含输入图像边界0和w,表示如下:
cols[j]=[0,xj1,xj2,…xjr,w],r≥0;
若检测结果为空,即竖线不存在,则令:
cols[j]=[0,w]。
所述矩形区域块中的每个元素均由两个点的横纵坐标构成,这两个点对应矩形区域的左上角点和右下角点。
一种实现上述的文本文件表格的通用检测分析及识别方法的计算机程序。
一种实现上述的文本文件表格的通用检测分析及识别方法的信息处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的文本文件表格的通用检测分析及识别方法。
实施例:
利用表格线交点分析法和我们的表格切分技术分别对图1进行检测,检测结果如图3和图4所示,可以看到,两种方法都很好的检测出表格全部矩形区域。说明,对于表格线完整的文档图像,两种方法都有很好的检测效果。
然而对于图2所示的表格线缺失的文档图像,表格线交点分析法的检测效果如图5所示,可以看到,部分矩形区域并没有被检测出来,但我们的表格切分技术还是能够完整地提取表格矩形区域(如图6所示)。说明在表格线不完整地文档图像中,本方法的表格切分技术具有较大地优越性。
运用二值化、图像卷积、形态学等方法检测对图2中的横线和竖线进行处理,获得图8horizontal(横线图)和图9vertical(竖线图);
对图8进行Hough直线检测,获得线段集Lines,共19条线段,
lines=[(247,524,664,524),(164,418,263,418),…,(308,351,364,351)]
对Lines所有线段以左端点纵坐标取值大小进行分组,纵坐标相差6个像素点之内的归为一组(图像坐标以像素点为单位),可分为9组。同组线段一方面左右端点纵坐标取值设置相同为yk,另一方面以横坐标升序方式进行排序;统计同组线段一维并集长度L,如果L>0.4*w(w为输入表格文档图像的宽度,此例中w=738),则记录yk,最终可获得包含8个(n=8)表格横线的集合,如图10所示,
Figure BDA0002390747300000091
判断rows横线之间是否存在竖线,例如,对vertical竖线图rows[3]和rows[4]之间部分进行LSD直线检测,横坐标临近取值设置相同,可得
cols[3]=[0,84,387,559,662,738],如图11所示。
根据rows[3]、rows[4]、cols[3]信息即可获得表格图像表格线第三行和第四行所有矩形区域块的元素Tables,如图12所示。
Figure BDA0002390747300000092
其每个元素由两个点的横纵坐标构成,这两个点对应矩形区域的左上角点和右下角。
根据所有Tables元素坐标分别提取表格矩形区域,如图6所示。
以上对本申请实施例所提供的一种文本文件表格的通用检测分析及识别方法,进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语,故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求书的保护范围内。

Claims (10)

1.一种文本文件表格的通用检测分析及识别方法,其特征在于,具体包括以下步骤:
S1)采集待检测文本文件表格的数据信息,并进行预处理;
S2)对经S1)处理后数据信息分析处理,获得表格横线集合rows;
S3)对S2)得到表格横线集合rows进行分析处理,获得表格图像所有矩形区域块Tables;
S4)根据获得表格图像所有矩形区域块,实现文本文件表格的通用检测分析及识别。
2.根据权利要求1所述的方法,其特征在于,所述S1)中的预处理的具体步骤为:
S1.1)将待检测文本文件表格的图像信息输入,采集文本文件表格图像中横线和竖线的信息;
S1.2)根据采集到的横线和竖线的信息,获得待检测文本文件表格的横线图和竖线图,备用。
3.根据权利要求2所述的方法,其特征在于,所述S1.1)中采集文本文件表格图像中横线和竖线的信息的方式为:二值化、图像卷积或形态学。
4.根据权利要求2所述的方法,其特征在于,所述S2)的具体步骤为:
S2.1)对S1.2)得到的待检测文本文件表格的横线图进行直线检测,获得线段集Lines,表示如下:
Lines=[S1,S2,…,Sm]
其中,m为检测到线段个数,Si=(xi0,yi0,xi1,yi1),i∈[1,m]为第i个线段,xi0为线段左端点横坐标,yi0为左端点纵坐标,xi1为右端点横坐标,yi1为右端点纵坐标;
S2.2)对线段集Lines中所有线段以左端点纵坐标取值分为K个组,K≤m,纵坐标临近的归为一组,
S2.3)先以同组线段左右端点纵坐标取值设置相同为yk,k∈[1,K];
再以横坐标升序方式进行排序,统计同组线段一维并集长度L,如果L>α*w(α∈(0,1),1-α为允许表格横线缺失比例的最大程度,w为输入表格文档图像的宽度),则记录yk
如果L≤α*w,则不记录,执行计算下一组线段一维并集长度,最终可获得表格横线集合rows,
rows=[(0,y1,w,y1),(0,y2,w,y2),…,(0,yn,w,yn)]
其中,n为表格横线个数,n≤K。
5.根据权利要求4所述的方法,其特征在于,所述S3)的具体步骤为:
S3.1)根据S2.3)得到的表格横线集合rows进行分析,得到横线之间表格竖线横坐标集合cols,
cols[j]=[0,xj1,xj2,…xjr,w],r≥0;
S3.2)将表格横线集合rows和横线之间表格竖线横坐标集合cols组合,即获得表格图像所有矩形区域块Tables,
Tables=[(0,y1,x11,y2),(x11,y1,x12,y2),…,(x(n-1)r,yn-1,w,yn)],
其中,r为竖线横坐标临近取值设置相同可获得不同的横坐标值的个数,0≤r≤R,xi0=0,
Figure FDA0002390747290000021
R为检测到的竖线个数。
6.根据权利要求5所述的方法,其特征在于,所述S3.1)中的分析方法为:对表格横线集合rows中的竖线图rows[j]和rows[j+1]之间部分进行直线检测,
若检测结果不为空,即竖线存在,则横坐标临近取值设置相同,得到第j个和第j+1个表格横线之间表格竖线横坐标集合cols,包含输入图像边界0和w,表示如下:
cols[j]=[0,xj1,xj2,…xjr,w],r≥0;
若检测结果为空,即竖线不存在,则令
cols[j]=[0,w]。
7.根据权利要求5所述的方法,其特征在于,所述矩形区域块中均由两个点的横纵坐标构成,这两个点对应矩形区域的左上角点和右下角点。
8.一种实现根据权利要求1-7任意一项所述的文本文件表格的通用检测分析及识别方法的计算机程序。
9.一种实现根据权利要求1-7任意一项所述的文本文件表格的通用检测分析及识别方法的信息处理终端。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行根据权利要求1-7任意一项所述的文本文件表格的通用检测分析及识别方法。
CN202010113320.3A 2020-02-24 2020-02-24 一种文本文件表格的通用检测分析及识别方法 Active CN111310682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010113320.3A CN111310682B (zh) 2020-02-24 2020-02-24 一种文本文件表格的通用检测分析及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010113320.3A CN111310682B (zh) 2020-02-24 2020-02-24 一种文本文件表格的通用检测分析及识别方法

Publications (2)

Publication Number Publication Date
CN111310682A true CN111310682A (zh) 2020-06-19
CN111310682B CN111310682B (zh) 2023-05-12

Family

ID=71148453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010113320.3A Active CN111310682B (zh) 2020-02-24 2020-02-24 一种文本文件表格的通用检测分析及识别方法

Country Status (1)

Country Link
CN (1) CN111310682B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898528A (zh) * 2020-07-29 2020-11-06 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN112016481A (zh) * 2020-08-31 2020-12-01 民生科技有限责任公司 基于ocr的财务报表信息检测和识别方法
CN116580415A (zh) * 2023-05-17 2023-08-11 深圳市四方智源科技有限公司 电子表格识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909064A (zh) * 2017-12-27 2018-04-13 掌阅科技股份有限公司 三线表识别方法、电子设备及存储介质
CN109635268A (zh) * 2018-12-29 2019-04-16 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN110033471A (zh) * 2019-04-19 2019-07-19 福州大学 一种基于连通域分析和形态学操作的框线检测方法
CN110363095A (zh) * 2019-06-20 2019-10-22 华南农业大学 一种针对表格字体的识别方法
CN110826400A (zh) * 2019-09-25 2020-02-21 杭州美创科技有限公司 图片表格用户交互增强识别的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909064A (zh) * 2017-12-27 2018-04-13 掌阅科技股份有限公司 三线表识别方法、电子设备及存储介质
CN109635268A (zh) * 2018-12-29 2019-04-16 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN110033471A (zh) * 2019-04-19 2019-07-19 福州大学 一种基于连通域分析和形态学操作的框线检测方法
CN110363095A (zh) * 2019-06-20 2019-10-22 华南农业大学 一种针对表格字体的识别方法
CN110826400A (zh) * 2019-09-25 2020-02-21 杭州美创科技有限公司 图片表格用户交互增强识别的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898528A (zh) * 2020-07-29 2020-11-06 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN111898528B (zh) * 2020-07-29 2023-11-10 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN112016481A (zh) * 2020-08-31 2020-12-01 民生科技有限责任公司 基于ocr的财务报表信息检测和识别方法
CN112016481B (zh) * 2020-08-31 2024-05-10 民生科技有限责任公司 基于ocr的财务报表信息检测和识别方法
CN116580415A (zh) * 2023-05-17 2023-08-11 深圳市四方智源科技有限公司 电子表格识别方法、装置、电子设备及存储介质
CN116580415B (zh) * 2023-05-17 2023-11-28 深圳市四方智源科技有限公司 电子表格识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111310682B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
US8467614B2 (en) Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images
JP3088019B2 (ja) 媒体処理装置及び媒体処理方法
CN111310682A (zh) 一种文本文件表格的通用检测分析及识别方法
CN111476109A (zh) 票据处理方法、票据处理装置和计算机可读存储介质
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
US7715633B2 (en) Medium processing apparatus, medium processing method, medium processing system and computer readable recording medium with medium processing program recorded thereon
CN102750541A (zh) 一种文档图像分类识别方法及装置
Akram et al. Document Image Processing- A Review
CN113569863B (zh) 一种单据稽查的方法、系统、电子设备及存储介质
CN108830275B (zh) 点阵字符、点阵数字的识别方法及装置
Barlas et al. A typed and handwritten text block segmentation system for heterogeneous and complex documents
CN113191348B (zh) 一种基于模板的文本结构化提取方法及工具
CN111144445B (zh) 印刷书刊书写格式的检错方法及系统、电子设备
CN111340032A (zh) 一种基于金融领域应用场景的字符识别方法
CN111091090A (zh) 一种银行报表ocr识别方法、装置、平台和终端
CN103886319A (zh) 一种基于机器视觉的举牌智能识别方法
WO2017069741A1 (en) Digitized document classification
CN112200789A (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN111414917A (zh) 一种低像素密度文本的识别方法
Hidayatullah et al. License plate detection and recognition for Indonesian cars
Ahmed et al. Enhancing the character segmentation accuracy of bangla ocr using bpnn
CN113033562A (zh) 一种图像处理方法、装置、设备及存储介质
CN111445433B (zh) 一种电子卷宗的空白页和模糊页的检测方法及装置
CN115759964A (zh) 一种投标文件通用资格验证的方法、系统及设备
CN111583156B (zh) 文档图像底纹去除方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant