CN111144282A - 表格识别方法和装置、计算机可读存储介质 - Google Patents
表格识别方法和装置、计算机可读存储介质 Download PDFInfo
- Publication number
- CN111144282A CN111144282A CN201911357969.3A CN201911357969A CN111144282A CN 111144282 A CN111144282 A CN 111144282A CN 201911357969 A CN201911357969 A CN 201911357969A CN 111144282 A CN111144282 A CN 111144282A
- Authority
- CN
- China
- Prior art keywords
- text
- identified
- row
- recognized
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 230000000875 corresponding effect Effects 0.000 claims description 20
- 230000002596 correlated effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及表格识别方法和装置、计算机可读存储介质。表格识别方法,包括:识别待识别表格的第一轮廓线;根据第一轮廓线,确定待识别表格的多个第一文字区域;对多个第一文字区域分别按行和列进行聚类,以计算待识别表格的行列分割点;根据行列分割点,识别待识别表格的第二轮廓线;根据第二轮廓线,确定待识别表格的多个第二文字区域,每个第二文字区域对应一个单元格;使用文本识别模型,识别每个第二文字区域中的文字;将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。
Description
技术领域
本公开涉及计算机领域,特别涉及一种表格识别方法和装置、计算机可读存储介质。
背景技术
在各行各业都存在大量图像表格文件,随着目前信息化、智能化技术的快速发展,对图像表格文件的自动数字化处理,有着越来越广泛的应用场景。
图像表格文件的识别一般包括如下步骤如下:1)图像预处理(例如,灰度化、二值化、各种变换);2)表格的轮廓线识别;3)文字区域识别;4)对文字进行切割或比对;5)使用训练好的识别模型识别具体文字。
在实际的表格图像中,存在各种各样的噪音或者水印等干扰信息,或者行列之间过于靠近,无法区分,导致识别出来文字分裂,或者缺失,不能很好地识别出整体表格。
发明内容
本公开提出了一种表格识别方案,能够进一步提高表格识别的准确性。
根据本公开的一些实施例,提供了一种表格识别方法,包括:识别待识别表格的第一轮廓线;
根据第一轮廓线,确定待识别表格的多个第一文字区域;
对多个第一文字区域分别按行和列进行聚类,以计算待识别表格的行列分割点;
根据行列分割点,识别待识别表格的第二轮廓线;
根据第二轮廓线,确定待识别表格的多个第二文字区域,每个第二文字区域对应一个单元格;
使用文本识别模型,识别每个第二文字区域中的文字;
将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。
在一些实施例中,对多个第一文字区域分别按照行和列进行聚类,以计算待识别表格的行列分割点包括:
提取多个第一文字区域的行坐标区间段和列坐标区间段;
分别根据行坐标区间段、列坐标区间段的交叠程度,判断是否合并相应的第一文字区域;
基于合并的结果,计算待识别表格的行列分割点。
在一些实施例中,判断是否合并相应的第一文字区域包括:
分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分;
在合并后的聚类评分大于合并前的聚类评分的情况下,判断为合并相应的第一文字区域。
在一些实施例中,分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分包括:
将提取出的行坐标区间段或列坐标区间段视为样本,样本数记为N,N为大于1的自然数;
根据聚类内有交集的样本对的数目和不同聚类间无交集的样本对的数目,对第一文字区域的行坐标区间段或列坐标区间段有交叠的情况确定聚类评分。
在一些实施例中,聚类评分与聚类内有交集的样本对的数目正相关,与不同聚类间无交集的样本对的数目负相关。
在一些实施例中,聚类评分表示为meric=score(Ci,Ci)/score(Ci,Cj)×(N-k)/(k–1),其中,k为聚类数目,Ci和Cj分别表示聚类i和聚类j,score(Ci,Ci)表示聚类内同质性且与聚类内有交集的样本对数目正相关,score(Ci,Cj)表示聚类间区分性且与不同聚类间无交集的样本对数目负相关。
在一些实施例中,score(Ci,Ci)=∑is_inter(Sl,Sm)/n1,Sl和Sm分别表示属于同一聚类的样本l和m,n1为属于同一聚类的样本对数目,is_inter(Sl,Sm)表示样本l和m是否有交叠,有交叠的情况is_inter(Sl,Sm)=1,无交叠的情况is_inter(Sl,Sm)=0。
在一些实施例中,score(Ci,Cj)=1-∑is_inter(Sl,Sm)/n2,Sl和Sm分别表示属于不同聚类的样本l和m,n2为属于不同聚类的样本对数目,is_inter(Sl,Sm)表示样本l和m是否有交叠,有交叠的情况is_inter(Sl,Sm)=1,无交叠的情况is_inter(Sl,Sm)=0。
在一些实施例中,所述表格识别方法还包括:对待识别表格进行图像预处理。
在一些实施例中,识别待识别表格的第一轮廓线包括:使用findContours函数,识别待识别表格的第一轮廓线。
在一些实施例中,根据第一轮廓线,确定待识别表格的多个第一文字区域包括:根据第一轮廓线,利用正负向偏置对比,确定待识别表格的多个第一文字区域。
根据本公开的另一些实施例,提供一种表格识别装置,包括:第一识别单元,被配置为识别待识别表格的第一轮廓线;
第一确定单元,被配置为根据第一轮廓线,确定待识别表格的多个第一文字区域;
聚类单元,被配置为对多个第一文字区域分别按行和列进行聚类,以计算待识别表格的行列分割点;
第二识别单元,被配置为确定待识别表格的第二轮廓线;
第二确定单元,被配置为根据第二轮廓线,确定待识别表格的多个第二文字区域,每个第二文字区域对应一个单元格;
第三识别单元,被配置为使用文本识别模型,识别每个第二文字区域中的文字;
填充单元,被配置为将识别出的各个第二文字区域中的文字内容,分别填入相应的单元格中。
根据本公开的又一些实施例,提供一种表格识别装置,包括:存储器以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例所述的表格识别方法。
根据本公开的另一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例所述的表格识别方法。
在上述实施例中,通过采用两阶段聚类策略,对所有识别出的文字区域信息分别进行行、列聚类,最终定位出整个表格的行列分割点;然后基于定位出的行列分割点重新划分表格,能够更准确地识别表格的轮廓线;最后基于准确识别的轮廓线重新识别文字区域,保证整体识别的准确性,有效解决了相关技术中识别不准确的问题。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出根据本公开的表格识别方法的一些实施例的流程图;
图2示出根据本公开的计算待识别表格的行列分割点的一些实施例的流程图;
图3示出根据本公开的表格识别装置的一些实施例的框图;
图4示出根据本公开的表格识别装置的另一些实施例的框图;
图5示出用于实现本公开一些实施例的计算机系统的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出根据本公开的表格识别方法的一些实施例的流程图。如图1所示,表格识别方法包括步骤S1-S7。
在步骤S1中,识别待识别表格的第一轮廓线。
在一些实施例中,使用findContours函数,识别待识别表格的第一轮廓线。第一轮廓线例如为表格的框线。使用findContours函数获取表格(table)列表和忽略列表,以分割待识别表格的单元格。例如,对图片中的待识别表格的轮廓进行粗定位,然后按单元格裁剪成多个小图片,以便后续分析及操作。
在另一些实施例中,为了提高识别的准确性,可以对待识别表格的图片进行图像预处理。图像预处理包括:灰度化、二值化、各种变换、等等。
在步骤S2中,根据第一轮廓线,确定待识别表格的多个第一文字区域。
在一些实施例中,根据第一轮廓线,利用正负向偏置对比,确定待识别表格的多个第一文字区域。例如,可以基于图片中背景和文字的灰度差异,确定待识别表格的多个第一文字区域。
在步骤S3中,对多个第一文字区域分别按行和列进行聚类,以计算待识别表格的行列分割点。
图2示出根据本公开的计算待识别表格的行列分割点的一些实施例的流程图。如图2所示,计算待识别表格的行列分割点包括步骤S31-S33。
在步骤S31中,提取多个第一文字区域的行坐标区间段和列坐标区间段。
在一些实施例中,可以将提取出的行坐标区间段或列坐标区间段视为样本,样本数记为N,N为大于1的自然数。
在步骤S32中,分别根据行坐标区间段、列坐标区间段的交叠程度,判断是否合并相应的第一文字区域。
在一些实施例中,分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分。例如,将提取出的行坐标区间段或列坐标区间段视为样本,样本数记为N,N为大于1的自然数;然后,根据聚类内有交集的样本对的数目和不同聚类间无交集的样本对的数目,对第一文字区域的行坐标区间段或列坐标区间段有交叠的情况确定聚类评分。
在一些实施例中,聚类评分与聚类内有交集的样本对的数目正相关,与不同聚类间无交集的样本对的数目负相关。
例如,聚类评分表示为meric=score(Ci,Ci)/score(Ci,Cj)×(N-k)/(k–1),其中,k为聚类数目,Ci和Cj分别表示聚类i和聚类j,score(Ci,Ci)表示聚类内同质性且与聚类内有交集的样本对的数目正相关,score(Ci,Cj)表示聚类间区分性且与不同聚类间无交集的样本对的数目负相关。
在一些实施例中,score(Ci,Ci)=∑is_inter(Sl,Sm)/n1,Sl和Sm分别表示属于同一聚类的样本l和m,n1为属于同一聚类的样本对的数目,is_inter(Sl,Sm)表示样本l和m是否有交叠,有交叠的情况is_inter(Sl,Sm)=1,无交叠的情况is_inter(Sl,Sm)=0。∑表示对属于同一聚类的样本对的is_inter(Sl,Sm)值求和。
在另一些实施例中,score(Ci,Cj)=1-∑is_inter(Sl,Sm)/n2,Sl和Sm分别表示属于不同聚类的样本l和m,n2为属于不同聚类的样本对的数目,is_inter(Sl,Sm)表示样本l和m是否有交叠,有交叠的情况is_inter(Sl,Sm)=1,无交叠的情况is_inter(Sl,Sm)=0。∑表示对属于不同聚类的样本对的is_inter(Sl,Sm)值求和。
在合并后的聚类评分大于合并前的聚类评分的情况下,判断为合并相应的第一文字区域。而在合并后的聚类评分小于合并前的聚类评分的情况下,判断为不合并相应的第一文字区域。在合并前后聚类评分不变的情况下,即合并后的聚类评分等于合并前的聚类评分的情况,可以判断为合并相应的第一文字区域,也可以判断为不合并相应的第一文字区域。
在步骤S33中,基于合并的结果,计算待识别表格的行列分割点。
在一些实施例中,对于合并的样本,合并出起始点坐标,对行列做交叉,可算出最终的表格行列分割点。
下面返回图1继续描述后面的步骤S4-S7。
在步骤S4中,根据行列分割点,识别待识别表格的第二轮廓线。例如,综合行列分割点,即可以得到表格的行列划分。
在步骤S5中,根据第二轮廓线,确定待识别表格的多个第二文字区域,每个第二文字区域对应一个单元格。在一些实施例中,可以采用与步骤S2类似的方式执行步骤S5。
在步骤S6中,使用文本识别模型,识别每个第二文字区域中的文字。在一些实施例中,可以采用光学字符识别(OCR)等文本识别模型,识别每个第二文字区域中的文字。
在步骤S7中,将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。由此,可以得到整体识别准确性高的表格。
图3示出根据本公开的表格识别装置的一些实施例的框图。
如图3所示,表格识别装置3包括:
第一识别单元31,被配置为识别待识别表格的第一轮廓线,例如执行步骤S1;
第一确定单元32,被配置为根据第一轮廓线,确定待识别表格的多个第一文字区域,例如执行步骤S2;
聚类单元33,被配置为对多个第一文字区域分别按行和列进行聚类,以计算待识别表格的行列分割点,例如执行步骤S3;
第二识别单元34,被配置为确定待识别表格的第二轮廓线,例如执行步骤S4;
第二确定单元35,被配置为根据第二轮廓线,确定待识别表格的多个第二文字区域,每个第二文字区域对应一个单元格,例如执行步骤S5;
第三识别单元36,被配置为使用文本识别模型,识别每个第二文字区域中的文字,例如执行步骤S6;
填充单元37,被配置为将识别出的各个第二文字区域中的文字内容,分别填入相应的单元格中,例如执行步骤S7。
图4示出根据本公开的表格识别装置的另一些实施例的框图。
如图4所示,该实施例的装置4包括:存储器41以及耦接至该存储器41的处理器42。存储器41用于存储执行表格识别方法对应实施例的指令。处理器42被配置为基于存储在存储器41中的指令,执行本公开中任意一些实施例中的表格识别方法。
除了表格识别方法、装置之外,本公开实施例还可采用在一个或多个包含有计算机程序指令的非易失性存储介质上实施的计算机程序产品的形式。因此,本公开实施例还包括一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现前述任意实施例中的表格识别方法。
图5是示出用于实现本公开一些实施例的计算机系统的框图。
如图5所示,计算机系统50可以通用计算设备的形式表现。计算机系统50包括存储器510、处理器520和连接不同系统组件的总线500。
存储器510例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质,例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行表格识别方法的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。
处理器520可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地,诸如判断模块和确定模块的每个模块,可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现,也可以通过执行相应步骤的专用电路来实现。
总线500可以使用多种总线结构中的任意总线结构。例如,总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。
计算机系统50还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530、540、550以及存储器510和处理器520之间可以通过总线500连接。输入输出接口530可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口。存储接口540为软盘、U盘、SD卡等外部存储设备提供连接接口。
这里,参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个框以及各框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程表格识别装置的处理器,以产生一个机器,使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。
这些计算机可读程序指令也可存储在计算机可读存储器中,这些指令使得计算机以特定方式工作,从而产生一个制造品,包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。
本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
至此,已经通过示例对本公开的一些实施例进行了详细说明。应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员可以对以上实施例进行变化、修改、替换、变型、组合,而不脱离本公开的范围。
Claims (9)
1.一种表格识别方法,包括:
识别待识别表格的第一轮廓线;
根据第一轮廓线,确定待识别表格的多个第一文字区域;
对多个第一文字区域分别按行和列进行聚类,以计算待识别表格的行列分割点;
根据行列分割点,识别待识别表格的第二轮廓线;
根据第二轮廓线,确定待识别表格的多个第二文字区域,每个第二文字区域对应一个单元格;
使用文本识别模型,识别每个第二文字区域中的文字;
将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。
2.根据权利要求1所述的表格识别方法,其中,对多个第一文字区域分别按照行和列进行聚类,以计算待识别表格的行列分割点包括:
提取多个第一文字区域的行坐标区间段和列坐标区间段;
分别根据行坐标区间段、列坐标区间段的交叠程度,判断是否合并相应的第一文字区域;
基于合并的结果,计算待识别表格的行列分割点。
3.根据权利要求2所述的表格识别方法,其中,判断是否合并相应的第一文字区域包括:
分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分;
在合并后的聚类评分大于合并前的聚类评分的情况下,判断为合并相应的第一文字区域。
4.根据权利要求3所述的表格识别方法,其中,分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分包括:
将提取出的行坐标区间段或列坐标区间段视为样本,样本数记为N,N为大于1的自然数;
根据聚类内有交集的样本对的数目和不同聚类间无交集的样本对的数目,对第一文字区域的行坐标区间段或列坐标区间段有交叠的情况确定聚类评分。
5.根据权利要求4所述的表格识别方法,其中:
聚类评分与聚类内有交集的样本对的数目正相关,与不同聚类间无交集的样本对的数目负相关。
6.根据权利要求1至5中任一项所述的表格识别方法,其中,根据第一轮廓线,确定待识别表格的多个第一文字区域包括:
根据第一轮廓线,利用正负向偏置对比,确定待识别表格的多个第一文字区域。
7.一种表格识别装置,包括:
第一识别单元,被配置为识别待识别表格的第一轮廓线;
第一确定单元,被配置为根据第一轮廓线,确定待识别表格的多个第一文字区域;
聚类单元,被配置为对多个第一文字区域分别按行和列进行聚类,以计算待识别表格的行列分割点;
第二识别单元,被配置为确定待识别表格的第二轮廓线;
第二确定单元,被配置为根据第二轮廓线,确定待识别表格的多个第二文字区域,每个第二文字区域对应一个单元格;
第三识别单元,被配置为使用文本识别模型,识别每个第二文字区域中的文字;
填充单元,被配置为将识别出的各个第二文字区域中的文字内容,分别填入相应的单元格中。
8.一种表格识别装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-6中任一项所述的表格识别方法。
9.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-6中任一项所述的表格识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911357969.3A CN111144282B (zh) | 2019-12-25 | 2019-12-25 | 表格识别方法和装置、计算机可读存储介质 |
PCT/CN2020/124426 WO2021129121A1 (zh) | 2019-12-25 | 2020-10-28 | 表格识别方法和装置、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911357969.3A CN111144282B (zh) | 2019-12-25 | 2019-12-25 | 表格识别方法和装置、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144282A true CN111144282A (zh) | 2020-05-12 |
CN111144282B CN111144282B (zh) | 2023-12-05 |
Family
ID=70520071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911357969.3A Active CN111144282B (zh) | 2019-12-25 | 2019-12-25 | 表格识别方法和装置、计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111144282B (zh) |
WO (1) | WO2021129121A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860502A (zh) * | 2020-07-15 | 2020-10-30 | 北京思图场景数据科技服务有限公司 | 图片表格的识别方法、装置、电子设备及存储介质 |
CN111931229A (zh) * | 2020-07-10 | 2020-11-13 | 深信服科技股份有限公司 | 一种数据识别方法、装置和存储介质 |
WO2021129121A1 (zh) * | 2019-12-25 | 2021-07-01 | 北京同邦卓益科技有限公司 | 表格识别方法和装置、计算机可读存储介质 |
CN117195846A (zh) * | 2023-11-07 | 2023-12-08 | 江西五十铃汽车有限公司 | 一种专家表管理方法、系统、存储介质及设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842489A (zh) * | 2022-05-13 | 2022-08-02 | 北京百度网讯科技有限公司 | 表格解析方法及装置 |
CN116168404B (zh) * | 2023-01-31 | 2023-12-22 | 苏州爱语认知智能科技有限公司 | 基于空间变换的智能文档处理方法和系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07334614A (ja) * | 1994-06-14 | 1995-12-22 | Ricoh Co Ltd | 領域分割方法 |
US6006240A (en) * | 1997-03-31 | 1999-12-21 | Xerox Corporation | Cell identification in table analysis |
US20040093355A1 (en) * | 2000-03-22 | 2004-05-13 | Stinger James R. | Automatic table detection method and system |
US20070248269A1 (en) * | 2006-04-24 | 2007-10-25 | Lars Beikirch | Method and apparatus for image processing |
CN103377177A (zh) * | 2012-04-27 | 2013-10-30 | 北大方正集团有限公司 | 一种数字版式文件中识别表格的方法及装置 |
CN106897690A (zh) * | 2017-02-22 | 2017-06-27 | 南京述酷信息技术有限公司 | Pdf表格提取方法 |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
US20180336404A1 (en) * | 2017-05-18 | 2018-11-22 | Wipro Limited | Methods and devices for extracting text from documents |
WO2019104879A1 (zh) * | 2017-11-30 | 2019-06-06 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN109993112A (zh) * | 2019-03-29 | 2019-07-09 | 杭州睿琪软件有限公司 | 一种图片中表格的识别方法及装置 |
US20190294399A1 (en) * | 2018-03-26 | 2019-09-26 | Abc Fintech Co., Ltd. | Method and device for parsing tables in pdf document |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5830338B2 (ja) * | 2011-10-07 | 2015-12-09 | 株式会社日立情報通信エンジニアリング | 帳票認識方法および帳票認識装置 |
CN110334585B (zh) * | 2019-05-22 | 2023-10-24 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN111144282B (zh) * | 2019-12-25 | 2023-12-05 | 北京同邦卓益科技有限公司 | 表格识别方法和装置、计算机可读存储介质 |
-
2019
- 2019-12-25 CN CN201911357969.3A patent/CN111144282B/zh active Active
-
2020
- 2020-10-28 WO PCT/CN2020/124426 patent/WO2021129121A1/zh active Application Filing
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07334614A (ja) * | 1994-06-14 | 1995-12-22 | Ricoh Co Ltd | 領域分割方法 |
US6006240A (en) * | 1997-03-31 | 1999-12-21 | Xerox Corporation | Cell identification in table analysis |
US20040093355A1 (en) * | 2000-03-22 | 2004-05-13 | Stinger James R. | Automatic table detection method and system |
US20070248269A1 (en) * | 2006-04-24 | 2007-10-25 | Lars Beikirch | Method and apparatus for image processing |
CN103377177A (zh) * | 2012-04-27 | 2013-10-30 | 北大方正集团有限公司 | 一种数字版式文件中识别表格的方法及装置 |
CN106897690A (zh) * | 2017-02-22 | 2017-06-27 | 南京述酷信息技术有限公司 | Pdf表格提取方法 |
US20180336404A1 (en) * | 2017-05-18 | 2018-11-22 | Wipro Limited | Methods and devices for extracting text from documents |
WO2019104879A1 (zh) * | 2017-11-30 | 2019-06-06 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
US20190294399A1 (en) * | 2018-03-26 | 2019-09-26 | Abc Fintech Co., Ltd. | Method and device for parsing tables in pdf document |
CN109993112A (zh) * | 2019-03-29 | 2019-07-09 | 杭州睿琪软件有限公司 | 一种图片中表格的识别方法及装置 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
S. MANDAL; S.P. CHOWDHURY; A.K. DAS;: "A hierarchical method for automated identification and segmentation of forms", IEEE, pages 1 - 5 * |
王诗臻;王书楠;: "一种由程控阀门开关时序图识别出阀门变量表的方法", no. 1, pages 146 - 149 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021129121A1 (zh) * | 2019-12-25 | 2021-07-01 | 北京同邦卓益科技有限公司 | 表格识别方法和装置、计算机可读存储介质 |
CN111931229A (zh) * | 2020-07-10 | 2020-11-13 | 深信服科技股份有限公司 | 一种数据识别方法、装置和存储介质 |
CN111931229B (zh) * | 2020-07-10 | 2023-07-11 | 深信服科技股份有限公司 | 一种数据识别方法、装置和存储介质 |
CN111860502A (zh) * | 2020-07-15 | 2020-10-30 | 北京思图场景数据科技服务有限公司 | 图片表格的识别方法、装置、电子设备及存储介质 |
CN111860502B (zh) * | 2020-07-15 | 2024-07-16 | 北京思图场景数据科技服务有限公司 | 图片表格的识别方法、装置、电子设备及存储介质 |
CN117195846A (zh) * | 2023-11-07 | 2023-12-08 | 江西五十铃汽车有限公司 | 一种专家表管理方法、系统、存储介质及设备 |
CN117195846B (zh) * | 2023-11-07 | 2024-03-01 | 江西五十铃汽车有限公司 | 一种专家表管理方法、系统、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111144282B (zh) | 2023-12-05 |
WO2021129121A1 (zh) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144282B (zh) | 表格识别方法和装置、计算机可读存储介质 | |
US10565703B2 (en) | Image inspection device, image inspection method, and image inspection program | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN110503682B (zh) | 矩形控件识别方法、装置、终端及存储介质 | |
CN109829371B (zh) | 一种人脸检测方法及装置 | |
CN110598194B (zh) | 一种非满格表格内容提取方法、装置及终端设备 | |
CN111783867A (zh) | 机器学习算法选择方法及装置 | |
CN114187602A (zh) | 一种房产证明材料内容识别方法、系统、设备及存储介质 | |
CN110263345B (zh) | 关键词提取方法、装置及存储介质 | |
CN112560545A (zh) | 一种识别表格方向的方法、装置及电子设备 | |
CN112101024B (zh) | 基于app信息的目标对象识别系统 | |
CN110598196A (zh) | 一种缺失外边框的表格数据提取方法、装置和存储介质 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN113283513A (zh) | 基于目标互换和度量学习的小样本目标检测方法及系统 | |
US20220222800A1 (en) | Method for detecting image abnormities, electronic device, and storage medium | |
Candrasari et al. | Hand gesture recognition using discrete wavelet transform and hidden Markov models | |
CN115223170A (zh) | 单据生成方法、装置、电子设备及存储介质 | |
CN116229497A (zh) | 版面文本的识别方法、装置及电子设备 | |
CN111310442B (zh) | 形近字纠错语料挖掘方法、纠错方法、设备及存储介质 | |
CN114495144A (zh) | 文本图像中表格key-value信息的提取方法及装置 | |
CN112668583A (zh) | 图像识别方法、装置以及电子设备 | |
CN112597776A (zh) | 关键词提取方法及系统 | |
CN110490226A (zh) | 一种识别方法及设备 | |
CN115909372B (zh) | 行为检测方法、系统、终端及存储介质 | |
CN114048524A (zh) | 一种多方向文本比对方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |