CN112906695B - 适配多类ocr识别接口的表格识别方法及相关设备 - Google Patents
适配多类ocr识别接口的表格识别方法及相关设备 Download PDFInfo
- Publication number
- CN112906695B CN112906695B CN202110399260.0A CN202110399260A CN112906695B CN 112906695 B CN112906695 B CN 112906695B CN 202110399260 A CN202110399260 A CN 202110399260A CN 112906695 B CN112906695 B CN 112906695B
- Authority
- CN
- China
- Prior art keywords
- text block
- recognition
- information
- ocr
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Input (AREA)
Abstract
本发明属于图片识别技术领域,具体涉及一种适配多类OCR识别接口的表格识别方法及相关设备。其中方法包括接收提取请求,提取请求中包含有文档及识别模式;根据识别模式,调用预设的外部OCR接口,通过外部OCR接口将文档进行识别处理,接收外部OCR接口返回的识别数据;将识别数据生成表格数据,返回表格数据。本发明通过多种识别模式适配后,基本上披露债券公告中大部分遇见的OCR表格都能识别,覆盖范围更广识别率更高。
Description
技术领域
本发明属于图片识别技术领域,具体涉及一种适配多类OCR识别接口的表格识别方法及相关设备。
背景技术
在债券披露的公告中,很多财务及附注数据表格都是以图片的方式进行披露展示,要将这些数据表信息提取出来就需要用到OCR技术。适配多类OCR接口识别图片表格主要是根据不同的OCR识别模式应对复杂多样的表格样式并对识别的结果做相应处理,最终生成统一表格结构数据的一种技术。通常情况下,如果要识别出图像中的表格内容,大部分处理过程都是先识别出所有线条和文本块,利用线条信息计算出表格区域和单元格区域,然后根据文本的坐标位置对应到相应的格子中,最终返回完整的表格数据。
在目前的市场上,对于固定样式如票据、车牌、快递单等OCR识别的技术相对较多,对于公司公告披露的各类图片表格的OCR处理还没有很成熟且效果很好的相关技术。
在通过OCR识别公司公告中披露的海量图片的过程中,图片内容复杂多样的特性就会体现出来。根据传统的识别线条解析表格方式只能解决其中一部分情况。其中还有大量图片表格无线条、缺线条、存在旋转、有噪点(印章和水印)等影响时,普通OCR算法都无法准确有效的识别出图像内容。
发明内容
本发明针对采用传统的OCR识别算法来对公司公告中披露的海量图片进行表格识别时,无法准确有效识别内容的技术问题,目的在于提供一种适配多类OCR识别接口的表格识别方法及相关设备。
适配多类OCR识别接口的表格识别方法,包括:
接收提取请求,所述提取请求中包含有文档及识别模式;
根据所述识别模式,调用预设的外部OCR接口,通过所述外部OCR接口将所述文档进行识别处理,接收所述外部OCR接口返回的识别数据;
将所述识别数据生成表格数据,返回所述表格数据。
可选的,所述文档包括通用表格文档和图片。
可选的,所述识别模式包括通用表格提取模式、图片正常表格提取模式和图片无线框表格提取模式中的一种;
所述外部OCR接口包括与所述通用表格提取模式对应的通用表格提取接口、与所述图片正常表格提取模式对应的表格OCR提取接口和与所述图片无线框表格提取模式对应的文档OCR提取接口。
可选的,所述根据所述识别模式,调用预设的外部OCR接口之前,包括:
所述提取请求中还包括图片处理参数,接收提取请求后,根据所述图片处理参数对所述文档进行预处理;
将处理好的所述文档转换为预设的编码格式。
可选的,所述图片处理参数包括框选位置信息、图像DPI增强参数、旋转角度检测和修正、图片边缘噪音裁剪、去印章或补充画线中的至少一种。
可选的,通过所述框选位置信息将所述文档生成待识别图片。
可选的,对所述文档进行所述图像DPI增强时,所述文档默认为是图片,将所述图片像素按照预设倍率进行调整,让所述图片更加清晰。
可选的,对所述文档进行所述旋转角度检测和修正时,所述文档默认为是图片并采用如下步骤:
将所述图片进行灰度和二值化处理;
通过霍夫变换检测所有直线作为待识别直线;
虚拟一条直线作为参考直线,计算所有所述待识别直线与所述参考直线间的夹角,对所述夹角进行统计并确定倾斜角度,以所述倾斜角度对所述图片左旋或右旋。
可选的,所述将所述识别数据生成表格数据,返回所述表格数据前,包括:
若所述识别模式是图片无线框表格提取模式时,接收所述外部OCR接口返回的识别数据为包含坐标位置的文本块信息;
通过预设的无线框表格生成算法对含坐标位置的文本块信息进行后处理,生成处理后的所述识别数据。
可选的,所述无线框表格生成算法,包括:
将含坐标位置的文本块信息经过预设的计算规则推出待构建表格结构;
对所述待构建表格结构进行表格预处理,所述表格预处理包括去除干扰线、拼接横线或竖线、组装表格行和合并单元格中的至少一种或多种组合;
判断经表格预处理后的所述待构建表格结构是否完整,若完整则所述待构建表格结构即为所述识别数据,若不完整,则对所述待构建表格结构补齐线条后构建完整的表格,形成所述识别数据。
可选的,所述对所述待构建表格结构补齐线条后构建完整的表格,形成所述识别数据,包括:
根据组装好的单元格,合并所述单元格内的文本块信息;
判断所述待构建表格结构的缺失类型,所述缺失类型包括完全没有线类型、只有竖线或横线的类型;
若缺失类型为完全没有线类型,所述含坐标位置的文本块信息按Y坐标进行分组,并对每一组中的所述文本块信息按X坐标进行排序,则每组中的所述文本块信息对应的是一行中的单元格,对每组单元格数量进行统计,以出现频次最多的单元格数为基准列数,同时将第一行中的所述文本块信息的数量作为参考,确定出表格的列数,再通过计算第一行中每个所述文本块信息的起始X坐标和结束X坐标得出每一列的宽度范围,根据每组的Y坐标分布特征计算出行间距,根据每一列的宽度范围和行间距生成空表格,最终将含有标位置的文本块信息填充到空表格中相应的单元格中构建完整的表格;
若缺失类型为只有竖线的类型,则列是一个已知数,通过对于所述含坐标位置的文本块信息中Y坐标值的分布进行统计,预定义出可能是行的多个Y点,将这些Y点水平延长成直线,找到所有不与所述文本块信息相交的直线作为行边界线,根据行边界线和已有的竖线生成空表格,最终将含有标位置的文本块信息填充到空表格中相应的单元格中构建完整的表格;
若缺失类型为只有横线的类型,则行是一个已知数,竖线的添加方式与上一步方式相同。
可选的,所述缺失类型还包括缺失关键信息类型,所述缺失关键信息类型包括缺失行或列中的至少一种;
若任一文本块缺失了关键信息为行信息,则遍历已知表格的所有行,根据所述文本块的Y坐标以及所述文本块的高度,与每一行所在的Y坐标信息以及行高比较重合度,如果重合度大于预设重合度阈值,则认为所述文本块的行信息与当前行相同,否则认为所述文本块不在表格中,找到行信息的同时如果所述文本块在已知表格的左边,则更新整个表格的左边界为所述文本块的左边界,同样如果所述文本块在已知表格的右边则更新表格的右边界为所述文本块的右边界;
若任一文本块缺失了关键信息为列信息,则遍历已知表格的所有列,根据所述文本块的X坐标以及文本块的宽度,与每一列所在的X坐标信息以及列宽比较重合度,如果重合度大于预设重合度阈值,则认为所述文本块的列信息与当前列相同,否则认为所述文本块不在表格中,找到列信息的同时如果所述文本块在已知表格的上边,则更新整个表格的上边界为所述文本块的上边界,同样如果所述文本块在已知表格的下边,则更新表格的下边界为所述文本块的下边界。
可选的,所述对所述待构建表格结构补齐线条后构建完整的表格,形成所述识别数据,还包括:
在构建完整的表格后,还根据预设的表格合并规则合并表格,形成所述识别数据;
所述表格合并规则为找到所有与线条有交叉的所述文本块信息,确定出与所述文本块信息有关联的单元格,计算所述文本块信息与有关联的单元格之间的重叠率,若所述重叠率大于预设的阈值时,将所述文本块信息所在的单元格和有关联的单元格进行合并。
可选的,所述将所述识别数据生成表格数据,返回所述表格数据之前,包括:
若所述提取请求中包含对所述文档进行所述旋转角度检测和修正时,根据左旋或右旋时的倾斜角度对生成的识别数据进行旋转和位移来修正坐标位置,确定最终的识别数据。
可选的,所述将所述识别数据生成表格数据,返回所述表格数据,包括:
将识别数据通过预设的格式统一规则进行格式统一后形成表格数据,返回所述表格数据。
一种适配多类OCR识别接口的表格识别装置,包括:
接收请求模块,用于接收提取请求,所述提取请求中包含有文档及识别模式;
调用和接收数据模块,用于根据所述识别模式,调用预设的外部OCR接口,通过所述外部OCR接口将所述文档进行识别处理,接收所述外部OCR接口返回的识别数据;
生成和返回数据模块,用于将所述识别数据生成表格数据,返回所述表格数据。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述适配多类OCR识别接口的表格识别方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述适配多类OCR识别接口的表格识别方法的步骤。
本发明的积极进步效果在于:本发明采用适配多类OCR识别接口的表格识别方法及及相关设备,具有如下显著优点:
1、通过多种识别模式适配后,基本上披露债券公告中大部分遇见的OCR表格都能识别,覆盖范围更广识别率更高;
2、针对不同OCR图片可动态调参让识别准确率更高;
3、扩展的无线框表格生成算法解决了之前无线表格无法识别问题,同时在部分有线表格通过常规识别不准确的情况下无线框表格算法依然适用。
附图说明
图1为本发明的一种表格识别方法流程示意图;
图2为本发明无线框表格生成算法的一种流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示进一步阐述本发明。
适配多类OCR识别接口的表格识别方法,包括如下步骤:
S1,接收请求:接收提取请求,提取请求中包含有文档及识别模式。
在债券披露的公告中,很多财务及附注数据表格通常包括两大类,一种是表格文档形式,而更多的是图片形式。因此本步骤中接收的文档包括对应的通用表格文档和图片。对应的识别模式则包括通用表格提取模式、图片正常表格提取模式和图片无线框表格提取模式中的一种。
在进行提取请求之前,可以根据文档属性,在前端预先确定好识别模式,且当文档为图片时,在前端可预先选框选文档中需要提取的OCR表格数据区域,且支持跨多页提取,提取完成后触发提取请求,则该提取请求中也有框选信息,该框选信息即为预先框选的OCR表格数据区域的位置信息。
S2,调用和接收数据:根据识别模式,调用预设的外部OCR接口,通过外部OCR接口将文档进行识别处理,接收外部OCR接口返回的识别数据。
本步骤中的外部OCR接口包括与通用表格提取模式对应的通用表格提取接口、与图片正常表格提取模式对应的表格OCR提取接口和与图片无线框表格提取模式对应的文档OCR提取接口。
本步骤可以通过ocr_gateway服务进行处理。在ocr_gateway服务中根据选择的识别模式调用相应的预设的外部OCR接口。
在一个实施例中,在步骤S2之前,还包括预处理过程:
在步骤S1的提取请求中还包括图片处理参数,接收提取请求后,根据图片处理参数对文档进行预处理;将处理好的文档转换为预设的编码格式。
若文档是通用表格文档则无需本实施例的预处理过程,本实施例针对于文档是图片类型的情况下,进行预处理过程。
本实施例中的编码格式可以是base64编码格式。本实施例中的图片处理参数包括框选位置信息、图像DPI增强参数、旋转角度检测和修正、图片边缘噪音裁剪、去印章或补充画线中的至少一种。
在一个实施例中,通过框选位置信息将文档生成待识别图片。通过框选位置信息可以预先将需要识别的表格截取出来生成待识别图片。
在一个实施例中,对文档进行图像DPI增强时,文档默认为是图片,将图片像素按照预设倍率进行调整,让图片更加清晰。
在一个实施例中,对文档进行旋转角度检测和修正时,文档默认为是图片并采用如下步骤:将图片进行灰度和二值化处理;通过霍夫变换检测所有直线作为待识别直线;虚拟一条直线作为参考直线,计算所有待识别直线与参考直线间的夹角,对夹角进行统计并确定倾斜角度,以倾斜角度对图片左旋或右旋。
S3,生成和返回数据:将识别数据生成表格数据,返回表格数据。
对于通用表格提取模式,可以直接将识别数据生成表格数据即可。
在一个实施例中,将识别数据生成表格数据,返回表格数据,包括:
将识别数据通过预设的格式统一规则进行格式统一后形成表格数据,返回表格数据。
对于图片正常表格提取模式和图片无线框表格提取模式,在上述将识别数据通过预设的格式统一规则进行格式统一之前,还需要进行进一步的判断和处理。
在一个实施例中,将识别数据生成表格数据,返回表格数据之前,包括:
若提取请求中包含对文档进行旋转角度检测和修正时,根据左旋或右旋时的倾斜角度对生成的识别数据进行旋转和位移来修正坐标位置,确定最终的识别数据。
参照图1,在一个实施例中,本发明的一种识别方法如下步骤:
S1,接收请求方发起提取请求,确定提取请求中的识别模式,该识别模式分别为通用表格提取模式、图片正常表格提取模式和图片无线框表格提取模式中的一种。
S2,对于通用表格提取模式,其是非OCR识别模式,因此直接调用对应的通用表格提取接口,通过绝对位置匹配常规文件解析得到匹配结果,将匹配结果作为识别数据。
对于图片正常表格提取模式和图片无线框表格提取模式,首选需要进行一些预处理过程,包括根据框选位置信息生成待识别图片,补充画线、旋转角度检测和修正、图片边缘噪音裁剪等。然后根据模式调用对应的接口并接收接口返回的识别数据,对于图片正常表格提取模式调用常规的表格OCR提取接口,对于图片无线框表格提取模式调用文档OCR提取接口。
S3,对于通用表格提取接口返回的识别数据无需进行后处理,直接可以作为表格数据反馈给请求方。对于文档OCR提取接口返回的识别数据,由于其无线框或有部分线框的情况,因此还需要通过无线框表格生成算法进行后处理。最终在进行坐标计算及格式统一后,反馈给请求方。对于表格OCR提取接口返回是识别数据,也经过坐标计算及格式统一后,反馈给请求方。
上述实施例中,对于通用表格提取模式和图片正常表格提取模式调用的分别是通用表格提取接口、与图片正常表格提取模式对应的表格OCR提取接口,因此接口返回的识别数据是可以直接提取的表格数据,其直接可以生成表格数据,无需进行进一步的算法处理。而图片无线框表格提取模式对应采用的是文档OCR提取接口,其返回的是图片中含坐标位置的文本块信息,此时需要通过无线框表格生成算法进行后处理,把文本块信息输入算法中,通过算法生成最终的识别数据,在根据识别数据生成表格数据。
在一个实施例中,将识别数据生成表格数据,返回表格数据前,包括:
若识别模式是图片无线框表格提取模式时,接收外部OCR接口返回的识别数据为包含坐标位置的文本块信息;通过预设的无线框表格生成算法对含坐标位置的文本块信息进行后处理,生成处理后的识别数据。
具体的,无线框表格生成算法,包括:
将含坐标位置的文本块信息经过预设的计算规则推出待构建表格结构;对待构建表格结构进行表格预处理,表格预处理包括去除干扰线、拼接横线或竖线、组装表格行和合并单元格中的至少一种或多种组合;判断经表格预处理后的待构建表格结构是否完整,若完整则待构建表格结构即为识别数据,若不完整,则对待构建表格结构补齐线条后构建完整的表格,形成识别数据。
本实施例中的去除干扰线采用的方式为根据线之间的距离,去除距离小于预设距离阈值的线。拼接横线或竖线的方式为把短的首尾相接的线拼成一条长线。组装表格行的方式为根据横线和竖线组装每一行的表格。合并单元格的方式为根据组装好的表格进行合并。判断经表格预处理后的待构建表格结构是否完整的方式为根据表格是否完全能覆盖区域文字判断,若能完全覆盖则认为表格完整。
由于无线框表格有多种情况,可能是具有部分线框的部分有线表格,也可能是完全无任何线的无线表格,因此首先通过上述方式进行表格预处理后判断是否可以直接生成具有完整线框的表格,若还是不完整,则进行进行下一步补线步骤。
在一个实施例中,对待构建表格结构补齐线条后构建完整的表格,形成识别数据,包括:
根据组装好的单元格,合并单元格内的文本块信息;判断待构建表格结构的缺失类型,缺失类型包括完全没有线类型、只有竖线或横线的类型;
若缺失类型为完全没有线类型,含坐标位置的文本块信息按Y坐标进行分组,并对每一组中的文本块信息按X坐标进行排序,则每组中的文本块信息对应的是一行中的单元格,对每组单元格数量进行统计,以出现频次最多的单元格数为基准列数,同时将第一行中的文本块信息的数量作为参考,确定出表格的列数,再通过计算第一行中每个文本块信息的起始X坐标和结束X坐标得出每一列的宽度范围,根据每组的Y坐标分布特征计算出行间距,根据每一列的宽度范围和行间距生成空表格,最终将含有标位置的文本块信息填充到空表格中相应的单元格中构建完整的表格;
若缺失类型为只有竖线的类型,则列是一个已知数,通过对于含坐标位置的文本块信息中Y坐标值的分布进行统计,预定义出可能是行的多个Y点,将这些Y点水平延长成直线,找到所有不与文本块信息相交的直线作为行边界线,根据行边界线和已有的竖线生成空表格,最终将含有标位置的文本块信息填充到空表格中相应的单元格中构建完整的表格;
若缺失类型为只有横线的类型,则行是一个已知数,竖线的添加方式与上一步方式相同。
缺失类型还包括缺失关键信息类型,缺失关键信息类型包括缺失行或列中的至少一种;若缺失类型为缺失关键信息类型,则根据含坐标位置的文本块信息进行补齐构建完整的表格。具体的补齐过程如下:
若任一文本块缺失了关键信息为行信息,则遍历已知表格的所有行,根据文本块的Y坐标以及文本块的高度,与每一行所在的Y坐标信息以及行高比较重合度,如果重合度大于预设重合度阈值,则认为文本块的行信息与当前行相同,否则认为文本块不在表格中,找到行信息的同时如果文本块在已知表格的左边,则更新整个表格的左边界为文本块的左边界,同样如果文本块在已知表格的右边则更新表格的右边界为文本块的右边界;
若任一文本块缺失了关键信息为列信息,则遍历已知表格的所有列,根据文本块的X坐标以及文本块的宽度,与每一列所在的X坐标信息以及列宽比较重合度,如果重合度大于预设重合度阈值,则认为文本块的列信息与当前列相同,否则认为文本块不在表格中,找到列信息的同时如果文本块在已知表格的上边,则更新整个表格的上边界为文本块的上边界,同样如果文本块在已知表格的下边,则更新表格的下边界为文本块的下边界。
本实施例中预设重合度阈值优选为80%,即在重合度大于80%情况下,认为文本块的行信息或列信息与当前列相同。
在构建完整的表格后,还根据预设的表格合并规则合并表格,形成识别数据;表格合并规则为找到所有与线条有交叉的文本块信息,确定出与文本块信息有关联的单元格,计算文本块信息与有关联的单元格之间的重叠率,若重叠率大于预设的阈值时,将文本块信息所在的单元格和有关联的单元格进行合并。
参照图2,在一个实施例中,本发明的一种无线框表格生成算法采用如下步骤:
对待构建表格结构进行去除干扰线、拼接横线、拼接竖线、组装表格行和合并单元格。
判断待构建表格结构是否完整,若完整,则无需补线,待构建表格结构即为识别数据。若不完整,则进行以下补线过程:
对待构建表格结构中的已组装的单元格合并文本块信息。
判断缺失类型,根据不同的缺失类型进行处理,构建完整的表格。缺失类型包括完全没有线类型、只有竖线或横线的类型、缺失关键信息类型。
在表格构建完成后,根据表格合并规则合并表格,得到识别数据。
在一个实施例中,提出了一种适配多类OCR识别接口的表格识别装置,包括:
接收请求模块,用于接收提取请求,提取请求中包含有文档及识别模式;
调用和接收数据模块,用于根据识别模式,调用预设的外部OCR接口,通过外部OCR接口将文档进行识别处理,接收外部OCR接口返回的识别数据;
生成和返回数据模块,用于将识别数据生成表格数据,返回表格数据。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例适配多类OCR识别接口的表格识别方法中的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例适配多类OCR识别接口的表格识别方法中的步骤。其中,存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上各实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (13)
1.一种适配多类OCR识别接口的表格识别方法,其特征在于,包括:
接收提取请求,所述提取请求中包含有文档及识别模式;
根据所述识别模式,调用预设的外部OCR接口,通过所述外部OCR接口将所述文档进行识别处理,接收所述外部OCR接口返回的识别数据;
将所述识别数据生成表格数据,返回所述表格数据;
所述将所述识别数据生成表格数据,返回所述表格数据前,包括:
若所述识别模式是图片无线框表格提取模式时,接收所述外部OCR接口返回的识别数据为包含坐标位置的文本块信息;
通过预设的无线框表格生成算法对含坐标位置的文本块信息进行后处理,生成处理后的所述识别数据;
所述无线框表格生成算法,包括:
将含坐标位置的文本块信息经过预设的计算规则推出待构建表格结构;
对所述待构建表格结构进行表格预处理,所述表格预处理包括去除干扰线、拼接横线或竖线、组装表格行和合并单元格中的至少一种或多种组合;
判断经表格预处理后的所述待构建表格结构是否完整,若完整则所述待构建表格结构即为所述识别数据,若不完整,则对所述待构建表格结构补齐线条后构建完整的表格,形成所述识别数据;
所述对所述待构建表格结构补齐线条后构建完整的表格,形成所述识别数据,包括:
根据组装好的单元格,合并所述单元格内的文本块信息;
判断所述待构建表格结构的缺失类型,所述缺失类型包括缺失关键信息类型,所述缺失关键信息类型包括缺失行或列中的至少一种;
若任一文本块缺失了关键信息为行信息,则遍历已知表格的所有行,根据所述文本块的Y坐标以及所述文本块的高度,与每一行所在的Y坐标信息以及行高比较重合度,如果重合度大于预设重合度阈值,则认为所述文本块的行信息与当前行相同,否则认为所述文本块不在表格中,找到行信息的同时如果所述文本块在已知表格的左边,则更新整个表格的左边界为所述文本块的左边界,同样如果所述文本块在已知表格的右边则更新表格的右边界为所述文本块的右边界;
若任一文本块缺失了关键信息为列信息,则遍历已知表格的所有列,根据所述文本块的X坐标以及文本块的宽度,与每一列所在的X坐标信息以及列宽比较重合度,如果重合度大于预设重合度阈值,则认为所述文本块的列信息与当前列相同,否则认为所述文本块不在表格中,找到列信息的同时如果所述文本块在已知表格的上边,则更新整个表格的上边界为所述文本块的上边界,同样如果所述文本块在已知表格的下边,则更新表格的下边界为所述文本块的下边界。
2.如权利要求1所述的适配多类OCR识别接口的表格识别方法,其特征在于,所述文档包括通用表格文档和图片。
3.如权利要求1所述的适配多类OCR识别接口的表格识别方法,其特征在于,所述识别模式包括通用表格提取模式、图片正常表格提取模式和图片无线框表格提取模式中的一种;
所述外部OCR接口包括与所述通用表格提取模式对应的通用表格提取接口、与所述图片正常表格提取模式对应的表格OCR提取接口和与所述图片无线框表格提取模式对应的文档OCR提取接口。
4.如权利要求1所述的适配多类OCR识别接口的表格识别方法,其特征在于,所述根据所述识别模式,调用预设的外部OCR接口之前,包括:
所述提取请求中还包括图片处理参数,接收提取请求后,根据所述图片处理参数对所述文档进行预处理;
将处理好的所述文档转换为预设的编码格式。
5.如权利要求4所述的适配多类OCR识别接口的表格识别方法,其特征在于,所述图片处理参数包括框选位置信息、图像DPI增强参数、旋转角度检测和修正、图片边缘噪音裁剪、去印章或补充画线中的至少一种。
6.如权利要求5所述的适配多类OCR识别接口的表格识别方法,其特征在于,通过所述框选位置信息将所述文档生成待识别图片;
对所述文档进行所述图像DPI增强时,所述文档默认为是图片,将所述图片像素按照预设倍率进行调整,让所述图片更加清晰;
对所述文档进行所述旋转角度检测和修正时,所述文档默认为是图片并采用如下步骤:
将所述图片进行灰度和二值化处理;
通过霍夫变换检测所有直线作为待识别直线;
虚拟一条直线作为参考直线,计算所有所述待识别直线与所述参考直线间的夹角,对所述夹角进行统计并确定倾斜角度,以所述倾斜角度对所述图片左旋或右旋。
7.如权利要求1所述的适配多类OCR识别接口的表格识别方法,其特征在于,所述缺失类型包括完全没有线类型、只有竖线或横线的类型;
若缺失类型为完全没有线类型,所述含坐标位置的文本块信息按Y坐标进行分组,并对每一组中的所述文本块信息按X坐标进行排序,则每组中的所述文本块信息对应的是一行中的单元格,对每组单元格数量进行统计,以出现频次最多的单元格数为基准列数,同时将第一行中的所述文本块信息的数量作为参考,确定出表格的列数,再通过计算第一行中每个所述文本块信息的起始X坐标和结束X坐标得出每一列的宽度范围,根据每组的Y坐标分布特征计算出行间距,根据每一列的宽度范围和行间距生成空表格,最终将含有标位置的文本块信息填充到空表格中相应的单元格中构建完整的表格;
若缺失类型为只有竖线的类型,则列是一个已知数,通过对于所述含坐标位置的文本块信息中Y坐标值的分布进行统计,预定义出可能是行的多个Y点,将这些Y点水平延长成直线,找到所有不与所述文本块信息相交的直线作为行边界线,根据行边界线和已有的竖线生成空表格,最终将含有标位置的文本块信息填充到空表格中相应的单元格中构建完整的表格;
若缺失类型为只有横线的类型,则行是一个已知数,竖线的添加方式与上一步方式相同。
8.如权利要求1所述的适配多类OCR识别接口的表格识别方法,其特征在于,所述对所述待构建表格结构补齐线条后构建完整的表格,形成所述识别数据,还包括:
在构建完整的表格后,还根据预设的表格合并规则合并表格,形成所述识别数据;
所述表格合并规则为找到所有与线条有交叉的所述文本块信息,确定出与所述文本块信息有关联的单元格,计算所述文本块信息与有关联的单元格之间的重叠率,若所述重叠率大于预设的阈值时,将所述文本块信息所在的单元格和有关联的单元格进行合并。
9.如权利要求1所述的适配多类OCR识别接口的表格识别方法,其特征在于,所述将所述识别数据生成表格数据,返回所述表格数据之前,包括:
若所述提取请求中包含对所述文档进行旋转角度检测和修正时,根据左旋或右旋时的倾斜角度对生成的识别数据进行旋转和位移来修正坐标位置,确定最终的识别数据。
10.如权利要求1所述的适配多类OCR识别接口的表格识别方法,其特征在于,所述将所述识别数据生成表格数据,返回所述表格数据,包括:
将识别数据通过预设的格式统一规则进行格式统一后形成表格数据,返回所述表格数据。
11.一种适配多类OCR识别接口的表格识别装置,其特征在于,包括:
接收请求模块,用于接收提取请求,所述提取请求中包含有文档及识别模式;
调用和接收数据模块,用于根据所述识别模式,调用预设的外部OCR接口,通过所述外部OCR接口将所述文档进行识别处理,接收所述外部OCR接口返回的识别数据;
生成和返回数据模块,用于若所述识别模式是图片无线框表格提取模式时,接收所述外部OCR接口返回的识别数据为包含坐标位置的文本块信息;通过预设的无线框表格生成算法对含坐标位置的文本块信息进行后处理,生成处理后的所述识别数据;将所述识别数据生成表格数据,返回所述表格数据;
所述无线框表格生成算法,包括:
将含坐标位置的文本块信息经过预设的计算规则推出待构建表格结构;
对所述待构建表格结构进行表格预处理,所述表格预处理包括去除干扰线、拼接横线或竖线、组装表格行和合并单元格中的至少一种或多种组合;
判断经表格预处理后的所述待构建表格结构是否完整,若完整则所述待构建表格结构即为所述识别数据,若不完整,则,
根据组装好的单元格,合并所述单元格内的文本块信息;
判断所述待构建表格结构的缺失类型,所述缺失类型包括缺失关键信息类型,所述缺失关键信息类型包括缺失行或列中的至少一种;
若任一文本块缺失了关键信息为行信息,则遍历已知表格的所有行,根据所述文本块的Y坐标以及所述文本块的高度,与每一行所在的Y坐标信息以及行高比较重合度,如果重合度大于预设重合度阈值,则认为所述文本块的行信息与当前行相同,否则认为所述文本块不在表格中,找到行信息的同时如果所述文本块在已知表格的左边,则更新整个表格的左边界为所述文本块的左边界,同样如果所述文本块在已知表格的右边则更新表格的右边界为所述文本块的右边界;
若任一文本块缺失了关键信息为列信息,则遍历已知表格的所有列,根据所述文本块的X坐标以及文本块的宽度,与每一列所在的X坐标信息以及列宽比较重合度,如果重合度大于预设重合度阈值,则认为所述文本块的列信息与当前列相同,否则认为所述文本块不在表格中,找到列信息的同时如果所述文本块在已知表格的上边,则更新整个表格的上边界为所述文本块的上边界,同样如果所述文本块在已知表格的下边,则更新表格的下边界为所述文本块的下边界。
12.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至10中任一项权利要求所述的适配多类OCR识别接口的表格识别方法的步骤。
13.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至10中任一项权利要求所述的适配多类OCR识别接口的表格识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110399260.0A CN112906695B (zh) | 2021-04-14 | 2021-04-14 | 适配多类ocr识别接口的表格识别方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110399260.0A CN112906695B (zh) | 2021-04-14 | 2021-04-14 | 适配多类ocr识别接口的表格识别方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906695A CN112906695A (zh) | 2021-06-04 |
CN112906695B true CN112906695B (zh) | 2022-03-08 |
Family
ID=76110451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110399260.0A Active CN112906695B (zh) | 2021-04-14 | 2021-04-14 | 适配多类ocr识别接口的表格识别方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906695B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688688A (zh) * | 2021-07-28 | 2021-11-23 | 达观数据(苏州)有限公司 | 图片中表格线条的补全方法与图片中表格的识别方法 |
CN113887401A (zh) * | 2021-09-29 | 2022-01-04 | 北京搜狗科技发展有限公司 | 一种表格识别方法及装置 |
CN114581933A (zh) * | 2022-02-18 | 2022-06-03 | 江苏四海商舟电子商务有限公司 | 基于ocr的多类型快递单识别转换方法 |
US11829701B1 (en) * | 2022-06-30 | 2023-11-28 | Accenture Global Solutions Limited | Heuristics-based processing of electronic document contents |
CN116052193B (zh) * | 2023-04-03 | 2023-06-30 | 杭州实在智能科技有限公司 | Rpa界面动态表格的拾取和匹配方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104094282A (zh) * | 2012-01-23 | 2014-10-08 | 微软公司 | 无边框表格检测引擎 |
CN109635268A (zh) * | 2018-12-29 | 2019-04-16 | 南京吾道知信信息技术有限公司 | Pdf文件中表格信息的提取方法 |
CN109961008A (zh) * | 2019-02-13 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于文字定位识别的表格解析方法、介质及计算机设备 |
CN110008944A (zh) * | 2019-02-20 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于模板匹配的ocr识别方法及装置、存储介质 |
CN110147537A (zh) * | 2018-02-11 | 2019-08-20 | 鼎复数据科技(北京)有限公司 | 一种基于位置关系的pdf表格抽取方法 |
CN110347994A (zh) * | 2019-07-12 | 2019-10-18 | 北京香侬慧语科技有限责任公司 | 一种表格处理方法和装置 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889310B (zh) * | 2018-09-07 | 2023-05-09 | 深圳市赢时胜信息技术股份有限公司 | 金融文档信息智能提取系统及方法 |
CN110598196B (zh) * | 2019-09-16 | 2024-10-15 | 腾讯科技(深圳)有限公司 | 一种缺失外边框的表格数据提取方法、装置和存储介质 |
CN112380812B (zh) * | 2020-10-09 | 2022-02-22 | 北京中科凡语科技有限公司 | Pdf不完整框线表格提取方法、装置、设备及存储介质 |
-
2021
- 2021-04-14 CN CN202110399260.0A patent/CN112906695B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104094282A (zh) * | 2012-01-23 | 2014-10-08 | 微软公司 | 无边框表格检测引擎 |
CN110147537A (zh) * | 2018-02-11 | 2019-08-20 | 鼎复数据科技(北京)有限公司 | 一种基于位置关系的pdf表格抽取方法 |
CN109635268A (zh) * | 2018-12-29 | 2019-04-16 | 南京吾道知信信息技术有限公司 | Pdf文件中表格信息的提取方法 |
CN109961008A (zh) * | 2019-02-13 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于文字定位识别的表格解析方法、介质及计算机设备 |
CN110008944A (zh) * | 2019-02-20 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于模板匹配的ocr识别方法及装置、存储介质 |
CN110347994A (zh) * | 2019-07-12 | 2019-10-18 | 北京香侬慧语科技有限责任公司 | 一种表格处理方法和装置 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112906695A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112906695B (zh) | 适配多类ocr识别接口的表格识别方法及相关设备 | |
CN110516208B (zh) | 一种针对pdf文档表格提取的系统及方法 | |
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
CN110008809B (zh) | 表格数据的获取方法、装置和服务器 | |
CN111737478B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN112183511A (zh) | 一种图像导出表格的方法、系统、存储介质及设备 | |
CN110674811B (zh) | 图像识别的方法及装置 | |
WO2021190155A1 (zh) | 文本行中的空格识别方法、装置、电子设备及存储介质 | |
CN110738030A (zh) | 表格重建方法、装置、电子设备及存储介质 | |
CN112507782A (zh) | 文本图像的识别方法及装置 | |
CN111914805A (zh) | 表格结构化方法、装置、电子设备及存储介质 | |
CN111881659B (zh) | 表格图片的处理方法、系统、可读存储介质及计算机设备 | |
CN114187602B (zh) | 一种房产证明材料内容识别方法、系统、设备及存储介质 | |
CN112016481A (zh) | 基于ocr的财务报表信息检测和识别方法 | |
CN112329641A (zh) | 一种表格识别方法、装置、设备及可读存储介质 | |
CN111814673A (zh) | 一种修正文本检测边界框的方法、装置、设备及存储介质 | |
CN114529773A (zh) | 基于结构单元的表格识别方法、系统、终端及介质 | |
CN115661848A (zh) | 一种基于深度学习的表格提取和识别方法及系统 | |
CN115082941A (zh) | 表格文档影像的表格信息获取方法及装置 | |
CN109635729B (zh) | 一种表格识别方法及终端 | |
CN117496521A (zh) | 一种表格关键信息抽取方法、系统、装置及可读存储介质 | |
CN115457581A (zh) | 表格提取方法、装置及计算机设备 | |
CN113837119A (zh) | 一种基于灰度图像识别易混淆字符的方法及设备 | |
CN110276353B (zh) | 冠字号字符切分方法、装置、可读存储介质及终端设备 | |
CN104715248B (zh) | 一种对邮件广告图片的识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |