CN116524527A - 一种表格图像文本识别方法及系统 - Google Patents
一种表格图像文本识别方法及系统 Download PDFInfo
- Publication number
- CN116524527A CN116524527A CN202310289145.7A CN202310289145A CN116524527A CN 116524527 A CN116524527 A CN 116524527A CN 202310289145 A CN202310289145 A CN 202310289145A CN 116524527 A CN116524527 A CN 116524527A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- template
- information
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000012937 correction Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 210000004027 cell Anatomy 0.000 claims description 39
- 238000001514 detection method Methods 0.000 claims description 16
- 210000004460 N cell Anatomy 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 6
- 230000001788 irregular Effects 0.000 claims description 6
- 238000005286 illumination Methods 0.000 claims description 5
- 238000011084 recovery Methods 0.000 claims description 4
- 230000007797 corrosion Effects 0.000 claims description 3
- 238000005260 corrosion Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本发明涉及图像处理和OCR领域,具体提供了一种表格图像文本识别方法及系统,包括以下步骤:S1、构建标准化表格模板;S2、获取待识别图像并进行预处理;S3、模板匹配校准,区域文本识别;S4、识别文本智能纠正和规范;S5、结果输出,数据存储。与现有技术相比,本发明针对一些版式相对固定的表格图像,通过制作标准化模板,分析表格相邻单元格的文本语义约束关系,实现对不同版式表格图片的自动分类和特定区域的信息提取,提高对表格识别的效率和识别结果的准确度。
Description
技术领域
本发明涉及图像处理和OCR领域,具体提供一种表格图像文本识别方法及装置。
背景技术
人们在日常工作、学习和生活中经常需要填写各种各样的表格:如信息登记表,财务报表、调查问卷、银行的存/汇款单等,成为了记录信息的一种重要方式。随着无纸化办公的普及,大量纸质文档需要录入到计算机中,依靠人工进行信息提取及核查准确性,既耗费时间,又耗费人力资源。随着数字化建设的快速发展,如何高效准确提取纸质单据中的关键信息就显得尤为重要。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的表格图像文本识别方法。
本发明进一步的技术任务是提供一种设计合理,安全适用的表格图像文本识别系统。
本发明解决其技术问题所采用的技术方案是:
一种表格图像文本识别方法,包括以下步骤:
S1、构建标准化表格模板;
S2、获取待识别图像并进行预处理;
S3、模板匹配校准,区域文本识别;
S4、识别文本智能纠正和规范;
S5、结果输出,数据存储。
进一步的,在步骤S1中,进一步包括:
S1-1、样表结构提取及识别;
S1-2、获取表格模板信息;
S1-3、确定标准表单的参照锚点。
进一步的,在步骤S1-1中,制作模板所需的样本表格图像,为未填入任何信息的表格,标准的word和pdf形式文件转换为的图像;
对所述样表图像进行行和列表的区域检测,从页面中检测出水平方向和竖直方向可能用于构成表格的直线;
具体地对图像进行灰度处理,对二值化图像进行膨胀腐蚀,通过图像连通域确定表格外框及表中的横线和竖线;基于表中的横线和竖线的交点获取表格中的角点坐标,角点坐标按规则排序;
根据水平、竖直方向的表格线及各交点坐标解析表格结构,得到组成表格的N个单元格位置信息;位置信息格式为[[x1,y1],[x2,y2],[x3,y3],[x4,y4]],表示单元格区域的四个角点;
对所述样表图像的N个单元格进行文本内容检测,表格单元格分为两类:原有项和用户输入项;
所述原有项信息进行所在单元格的文本内容检测,用户输入项单元格为空白单元格,文本内容检测统一值为空。
进一步的,在步骤S1-2中,最终得到M个原有项单元格的位置信息及文本信息;及N-M个空白单元格的位置信息及文本信息;
将N个单元格的坐标及位置信息按横向顺序进行排序保存,将原有项与用户输入项进行逻辑关联,即为用户输入项单元格增加标签属性,标签属性可选左邻或上邻的原有项单元格的文本检测内容。
进一步的,在步骤S1-3中,框选n个,所述n大于等于8,标准图像中位置和内容固定不变的字段区域,用做对后续输入图像进行模板匹配和矫正的参照锚点。
进一步的,在步骤S2中,获取待识别图像并进行预处理,具体步骤如下,
依据步骤S1-3中选取的参照锚点,将新输入的图像与样表图像进行位置匹配,锚点匹配合格视为规则图像,不合格视为不规则图像;
首先将文档图像切分成图像块,使用卷积模块对每一个图像块进行特征提取,通过自注意力机制捕获文档图像的全局上下文,将提取的特征图展平后,输入基于Transformer块构建的一个分层的编解码网络,进行编码、解码,输出几何、光照恢复的图像块;
最后,我们将每一个恢复的图像块进行空间上的拼接,完成文档图像的矫正。
进一步的,在步骤S3中,将待识别的表格图像和模板库中的每一个模板进行关键点对齐,根据S1-3步骤中提取的每一个锚点区域,将待识别的图像与每一个模板中的进行匹配,获取匹配度阈值最高的模板,所述匹配阈值依据每个锚点区域内的文本识别准确度而定;
依据步骤S1中构建的模板信息,依据标签信息指示的表示输入项区域的坐标点组,截取待识别图像中输入项单元格的检测框位置的图像,并进行文本识别,得到输入项单元格中的文本内容;
依据标签信息指示的区域坐标组,对输入项区域进行定位及文本识别。
进一步的,在步骤S4中,针对识别结果存在误差的情况,基于构建的表格信息库,对识别出的表格文本信息进行检验并纠正,然后替换原文本内容中的错误字符。
进一步的,在步骤S5中,最终输出的表格信息以键值对表示;
某一类表格模板信息直接输入到数据库中进行存储,建立表格知识库;不同类型的表格模板存入数据库,用于表格类型的自动分类;
存储的信息为将数据表示为<Key,Value>键值对的形式,存入数据库。
一种表格图像文本识别系统,包括模板构建单元、模板匹配单元、文本提取单元、文本规范单元和数据存储单元;
所述模板构建单元用于构建标准化表格模板;
所述模板匹配单元用于为待识别的表格图像匹配到最合适的模板;
所述文本提取单元用于依据模板信息,用来对校准后的待识别图像进行区域文本识别;
所述文本规范单元用于对识别出的表格文本信息进行检验并纠正,得到最终输出结果;
所述数据存储单元用于将不同类型的表格模板信息存入表格数据库。
本发明的一种表格图像文本识别方法及系统和现有技术相比,具有以下突出的有益效果:
本发明针对一些版式相对固定的表格图像,通过制作标准化模板,分析表格相邻单元格的文本语义约束关系,实现对不同版式表格图片的自动分类和特定区域的信息提取,提高对表格识别的效率和识别结果的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种表格图像文本识别方法的流程示意图;
附图2是一种表格图像文本识别方法中基于Transformer的图像校正方法流程图;
附图3是一种表格图像文本识别方法中表格实例部分截图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种表格图像文本识别方法,包括以下步骤:
S1、构建标准化表格模板;
进一步包括:
S1-1、样表结构提取及识别;
制作模板所需的样本表格图像,为未填入任何信息的表格,标准的word,pdf等形式的文件转换为的图像;
对所述样表图像进行行和列表的区域检测,从页面中检测出水平方向和竖直方向可能用于构成表格的直线,包括全线框、非全线框、无线框等格式。
具体地对图像进行灰度处理,对二值化图像进行膨胀腐蚀,通过图像连通域确定表格外框及表中的横线和竖线;基于表中的横线和竖线的交点获取表格中的角点坐标,角点坐标按规则排序。
根据水平、竖直方向的表格线及各交点坐标解析表格结构,得到组成表格的N个单元格位置信息;位置信息格式为[[x1,y1],[x2,y2],[x3,y3],[x4,y4]],表示单元格区域的四个角点。
对样表图像的N个单元格的进行文本内容检测,表格单元格分为两类:原有项和用户输入项;
其中,原有项信息所在单元格的文本内容检测,如图3应聘登记表中的:姓名、性别、出生日期、婚姻状况、家庭住址等;用户输入项单元格为空白单元格,文本内容检测统一值为空。
S1-2、获取表格模板信息;
最终得到M个原有项单元格的位置信息及文本信息,及N-M个空白单元格的位置信息及文本信息;
将N个单元格的坐标及大小等位置信息按横向顺序进行排序保存。将原有项与用户输入项的进行逻辑关联;即为用户输入项单元格增加标签属性,标签属性可选其左邻或上邻的原有项单元格的文本检测内容;
如图3,N个单元格的排序信息:1、基本情况,[[x1,y1],[x2,y2],[x3,y3],[x4,y4]];2、姓名,[[x1,y1],[x2,y2],[x3,y3],[x4,y4]];3、空,[[x1,y1],[x2,y2],[x3,y3],[x4,y4]];4、性别,[[x1,y1],[x2,y2],[x3,y3],[x4,y4]];5、空,[[x1,y1],[x2,y2],[x3,y3],[x4,y4]];……。
序号3的空白单元格填入信息为序号2中姓名的指示;为3号空白单元格增加标签属性为2号单元格的文本检测内容,即“姓名”。
提取返回N-M个空白单元格的位置信息及标签信息;以图1为例:1、“姓名”,[[x1,y1],[x2,y2],[x3,y3],[x4,y4]];2、“性别”,[[x1,y1],[x2,y2],[x3,y3],[x4,y4]];3、“民族”,[[x1,y1],[x2,y2],[x3,y3],[x4,y4]];……。
依次将不同类型的表格模板信息存入表格数据库中;输入的新图像进行信息提取时,需要与数据库中的模板进行间分类匹配。
S1-3、确定标准表单的参照锚点;
框选n个(n>=8,分布图片四周、不重复、无换行)标准图像中位置和内容固定不变的字段区域,用做对后续输入图像进行模板匹配和矫正的参照锚点。
S2、获取待识别图像并进行预处理;
如图2,依据步骤S1-3中选取的参照锚点,将新输入的图像(已填入信息)与样表图像进行位置匹配,锚点匹配合格视为规则图像,不合格视为不规则图像;
首先将文档图像切分成图像块,使用卷积模块对每一个图像块进行特征提取,通过自注意力机制捕获文档图像的全局上下文,将提取的特征图展平后,输入基于Transformer块构建的一个分层的编解码网络,进行编码、解码,输出几何、光照恢复的图像块。最后,我们将每一个恢复的图像块进行空间上的拼接,完成文档图像的矫正。
其中,具体地匹配标准:新输入图像与样表图像的n个锚点区域,进行区域文本内容比对,文本内容相同则为合格。
若待识别图像为不规则图像,则将其通过神经网络进行矫正,具体地做几何矫正和光照恢复处理;矫正的标准为:直到新输入图像与样表图像的n个锚点区域内文本内容相同;
此处的不规则图像,指由形变(弯曲、折叠、褶皱),不同方位或角度拍摄、不均匀光照等造成的。
S3、模板匹配校准,区域文本识别;
将待识别的表格图像和模板库中的每一个模板进行关键点对齐,这是根据S1-3步骤中提取的每一个锚点区域,将待识别的图像与每一个模板中的进行匹配,获取匹配度阈值最高的模板,此处的匹配阈值依据每个锚点区域内的文本识别准确度而定。
依据步骤S1中构建的模板信息,依据标签信息指示的表示输入项区域的坐标点组,截取待识别图像中输入项单元格的检测框位置的图像,并进行文本识别,得到输入项单元格中的文本内容。依据标签信息指示的区域坐标组,对输入项区域进行定位及文本识别;
文本检测和文本识别部分使用百度的PP-OCRv3提供的通用检测和识别算法,适用于打印、手写和场景文本识别等多个任务。
S4、识别文本智能纠正和规范;
针对识别结果存在误差的情况,基于构建的表格信息库(此信息库涵盖姓名、地址等广泛信息);对识别出的表格文本信息进行检验并纠正,然后替换原文本内容中的错误字符。
S5、结果输出,数据存储;
最终输出的表格信息以键值对表示,模板中的原始项文本:待识别图像的输入项文本;比如:姓名:张三;
某一类表格模板信息直接输入到数据库中进行存储;建立表格知识库,不同类型的表格模板存入数据库,用于表格类型的自动分类;
存储的信息为将数据表示为<Key,Value>键值对的形式,存入数据库。例如:<姓名:[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]>。
基于上述方法,本实施例中的一种表格图像文本识别系统,包括模板构建单元、模板匹配单元、文本提取单元、文本规范单元和数据存储单元;
模板构建单元用于构建标准化表格模板;
模板匹配单元用于为待识别的表格图像匹配到最合适的模板;
文本提取单元用于依据模板信息,用来对校准后的待识别图像进行区域文本识别;
文本规范单元用于对识别出的表格文本信息进行检验并纠正,得到最终输出结果;
数据存储单元用于将不同类型的表格模板信息存入表格数据库。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种表格图像文本识别方法及系统权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种表格图像文本识别方法,其特征在于,包括以下步骤:
S1、构建标准化表格模板;
S2、获取待识别图像并进行预处理;
S3、模板匹配校准,区域文本识别;
S4、识别文本智能纠正和规范;
S5、结果输出,数据存储。
2.根据权利要求1所述的一种表格图像文本识别方法,其特征在于,在步骤S1中,进一步包括:
S1-1、样表结构提取及识别;
S1-2、获取表格模板信息;
S1-3、确定标准表单的参照锚点。
3.根据权利要求2所述的一种表格图像文本识别方法,其特征在于,在步骤S1-1中,制作模板所需的样本表格图像,为未填入任何信息的表格,标准的word和pdf形式文件转换为的图像;
对所述样表图像进行行和列表的区域检测,从页面中检测出水平方向和竖直方向可能用于构成表格的直线;
具体地对图像进行灰度处理,对二值化图像进行膨胀腐蚀,通过图像连通域确定表格外框及表中的横线和竖线;基于表中的横线和竖线的交点获取表格中的角点坐标,角点坐标按规则排序;
根据水平、竖直方向的表格线及各交点坐标解析表格结构,得到组成表格的N个单元格位置信息;位置信息格式为[[x1,y1],[x2,y2],[x3,y3],[x4,y4]],表示单元格区域的四个角点;
对所述样表图像的N个单元格进行文本内容检测,表格单元格分为两类:原有项和用户输入项;
所述原有项信息进行所在单元格的文本内容检测,用户输入项单元格为空白单元格,文本内容检测统一值为空。
4.根据权利要求3所述的一种表格图像文本识别方法,其特征在于,在步骤S1-2中,最终得到M个原有项单元格的位置信息及文本信息;及N-M个空白单元格的位置信息及文本信息;
将N个单元格的坐标及位置信息按横向顺序进行排序保存,将原有项与用户输入项进行逻辑关联,即为用户输入项单元格增加标签属性,标签属性可选左邻或上邻的原有项单元格的文本检测内容。
5.根据权利要求4所述的一种表格图像文本识别方法,其特征在于,在步骤S1-3中,框选n个,所述n大于等于8,标准图像中位置和内容固定不变的字段区域,用做对后续输入图像进行模板匹配和矫正的参照锚点。
6.根据权利要求5所述的一种表格图像文本识别方法,其特征在于,在步骤S2中,获取待识别图像并进行预处理,具体步骤如下,
依据步骤S1-3中选取的参照锚点,将新输入的图像与样表图像进行位置匹配,锚点匹配合格视为规则图像,不合格视为不规则图像;
首先将文档图像切分成图像块,使用卷积模块对每一个图像块进行特征提取,通过自注意力机制捕获文档图像的全局上下文,将提取的特征图展平后,输入基于Transformer块构建的一个分层的编解码网络,进行编码、解码,输出几何、光照恢复的图像块;
最后,我们将每一个恢复的图像块进行空间上的拼接,完成文档图像的矫正。
7.根据权利要求6所述的一种表格图像文本识别方法,其特征在于,在步骤S3中,将待识别的表格图像和模板库中的每一个模板进行关键点对齐,根据S1-3步骤中提取的每一个锚点区域,将待识别的图像与每一个模板中的进行匹配,获取匹配度阈值最高的模板,所述匹配阈值依据每个锚点区域内的文本识别准确度而定;
依据步骤S1中构建的模板信息,依据标签信息指示的表示输入项区域的坐标点组,截取待识别图像中输入项单元格的检测框位置的图像,并进行文本识别,得到输入项单元格中的文本内容;
依据标签信息指示的区域坐标组,对输入项区域进行定位及文本识别。
8.根据权利要求7所述的一种表格图像文本识别方法,其特征在于,在步骤S4中,针对识别结果存在误差的情况,基于构建的表格信息库,对识别出的表格文本信息进行检验并纠正,然后替换原文本内容中的错误字符。
9.根据权利要求7所述的一种表格图像文本识别方法,其特征在于,在步骤S5中,最终输出的表格信息以键值对表示;
某一类表格模板信息直接输入到数据库中进行存储,建立表格知识库;不同类型的表格模板存入数据库,用于表格类型的自动分类;
存储的信息为将数据表示为<Key,Value>键值对的形式,存入数据库。
10.一种表格图像文本识别系统,其特征在于,包括模板构建单元、模板匹配单元、文本提取单元、文本规范单元和数据存储单元;
所述模板构建单元用于构建标准化表格模板;
所述模板匹配单元用于为待识别的表格图像匹配到最合适的模板;
所述文本提取单元用于依据模板信息,用来对校准后的待识别图像进行区域文本识别;
所述文本规范单元用于对识别出的表格文本信息进行检验并纠正,得到最终输出结果;
所述数据存储单元用于将不同类型的表格模板信息存入表格数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310289145.7A CN116524527A (zh) | 2023-03-21 | 2023-03-21 | 一种表格图像文本识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310289145.7A CN116524527A (zh) | 2023-03-21 | 2023-03-21 | 一种表格图像文本识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524527A true CN116524527A (zh) | 2023-08-01 |
Family
ID=87401928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310289145.7A Pending CN116524527A (zh) | 2023-03-21 | 2023-03-21 | 一种表格图像文本识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524527A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131196A (zh) * | 2023-09-21 | 2023-11-28 | 上海诚狐信息科技有限公司 | 一种文本处理方法及系统 |
CN117454859A (zh) * | 2023-12-19 | 2024-01-26 | 四川弘和数智集团有限公司 | 油气站数据自动录入方法、装置、电子设备及存储介质 |
CN117593752A (zh) * | 2024-01-18 | 2024-02-23 | 星云海数字科技股份有限公司 | 一种pdf文档录入方法、系统、存储介质及电子设备 |
-
2023
- 2023-03-21 CN CN202310289145.7A patent/CN116524527A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131196A (zh) * | 2023-09-21 | 2023-11-28 | 上海诚狐信息科技有限公司 | 一种文本处理方法及系统 |
CN117131196B (zh) * | 2023-09-21 | 2024-05-10 | 联通沃音乐文化有限公司 | 一种文本处理方法及系统 |
CN117454859A (zh) * | 2023-12-19 | 2024-01-26 | 四川弘和数智集团有限公司 | 油气站数据自动录入方法、装置、电子设备及存储介质 |
CN117454859B (zh) * | 2023-12-19 | 2024-04-02 | 四川弘和数智集团有限公司 | 油气站数据自动录入方法、装置、电子设备及存储介质 |
CN117593752A (zh) * | 2024-01-18 | 2024-02-23 | 星云海数字科技股份有限公司 | 一种pdf文档录入方法、系统、存储介质及电子设备 |
CN117593752B (zh) * | 2024-01-18 | 2024-04-09 | 星云海数字科技股份有限公司 | 一种pdf文档录入方法、系统、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569832B (zh) | 基于深度学习注意力机制的文本实时定位识别方法 | |
CN116524527A (zh) | 一种表格图像文本识别方法及系统 | |
US9058516B2 (en) | Automatic identification of fields and labels in forms | |
CN110751143A (zh) | 一种电子发票信息的提取方法及电子设备 | |
US10489644B2 (en) | System and method for automatic detection and verification of optical character recognition data | |
CN108597565B (zh) | 一种基于ocr与命名实体提取技术的临床队列数据协同校验方法 | |
CN112185520A (zh) | 一种医疗病理报告图片的文本结构化处理系统和方法 | |
US8792730B2 (en) | Classification and standardization of field images associated with a field in a form | |
CN113837151B (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
US20140268250A1 (en) | Systems and methods for receipt-based mobile image capture | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN112418812A (zh) | 分布式全链路自动化智能通关系统、方法及存储介质 | |
CN111914597A (zh) | 一种文档对照识别方法、装置、电子设备和可读存储介质 | |
CN113255642A (zh) | 一种用于人伤理赔的医疗票据信息整合方法 | |
CN111783710A (zh) | 医药影印件的信息提取方法和系统 | |
CN110889341A (zh) | 基于ai的表单图像识别方法、装置、计算机设备和存储介质 | |
CN114783584A (zh) | 一种药品随货同行单的录单方法及装置 | |
CN114023414A (zh) | 一种体检报告多层次结构录入方法、系统以及存储介质 | |
CN113642562A (zh) | 基于图像识别的数据解读方法、装置、设备及存储介质 | |
CN112418813A (zh) | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 | |
CN111914706A (zh) | 一种文字检测输出结果质量检测和控制的方法与装置 | |
JP3463008B2 (ja) | 媒体処理方法及び媒体処理装置 | |
JP3463009B2 (ja) | 媒体処理方法及び媒体処理装置 | |
WO2019071476A1 (zh) | 一种基于智能终端的快递信息录入方法及录入系统 | |
JP2009181225A (ja) | Ocr装置、証跡管理装置及び証跡管理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |