CN113936286A - 图像文本识别方法、装置、计算机设备及存储介质 - Google Patents
图像文本识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113936286A CN113936286A CN202111432713.1A CN202111432713A CN113936286A CN 113936286 A CN113936286 A CN 113936286A CN 202111432713 A CN202111432713 A CN 202111432713A CN 113936286 A CN113936286 A CN 113936286A
- Authority
- CN
- China
- Prior art keywords
- picture
- target
- text
- recognition
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 240
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000007797 corrosion Effects 0.000 claims description 15
- 238000005260 corrosion Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012015 optical character recognition Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012216 screening Methods 0.000 description 6
- 239000002699 waste material Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例属于人工智能领域,涉及一种图像文本识别方法,包括采集多组训练数据,根据训练数据训练基础表格线检测模型,得到目标表格线检测模型;获取待识别图片,根据目标检测网络对待识别图片进行表格线粗提取,得到粗表格线,输入粗表格线至目标残差网络进行检测操作,得到待识别图片中的表格线信息;基于表格线信息匹配待识别图片和预设标准图片,得到待识别图片的匹配信息;根据匹配信息将待识别图片转换为标准识别图片,对标准识别图片进行图像文字识别,得到目标识别文本。本申请还提供一种图像文本识别装置、计算机设备及存储介质。此外,目标识别文本可存储于区块链中。本申请实现了对图像文本的精确识别。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种图像文本识别方法、装置、计算机设备及存储介质。
背景技术
随着信息技术的高速发展,越来越多行业需要对图像进行处理以提取其中的文本内容。而如何对具有表格线的图像高效精准地文本提取是当前丞待解决的重要问题。传统的图像文本识别往往是通过简单的模板或者OCR文字识别得到,该类图片文本提取的方式则通常会导致提取文本准确率低下的问题。
发明内容
本申请实施例的目的在于提出一种图像文本识别方法、装置、计算机设备及存储介质,以解决图片识别准确率低下的技术问题。
为了解决上述技术问题,本申请实施例提供一种图像文本识别方法,采用了如下所述的技术方案:
采集多组包括表格线的图片和不包括表格线的图片作为训练数据,根据所述训练数据训练基础表格线检测模型,得到目标表格线检测模型,其中,所述目标表格线检测模型包括目标检测网络和目标残差网络;
获取待识别图片,根据所述目标检测网络对所述待识别图片进行表格线粗提取,得到粗表格线,输入所述粗表格线至所述目标残差网络进行检测操作,得到所述待识别图片中的表格线信息;
基于所述表格线信息匹配所述待识别图片和预设标准图片,得到所述待识别图片的匹配信息;
根据所述匹配信息将所述待识别图片转换为标准识别图片,对所述标准识别图片进行图像文字识别,得到目标识别文本。
进一步的,所述根据所述训练数据训练基础表格线检测模型的步骤包括:
所述基础表格线检测模型包括基础检测网络和基础残差网络,将所述训练数据输入至所述基础检测网络,经过所述基础残差网络预测,得到所述训练数据对应的表格线检测结果;
获取所述训练数据对应的真实表格线结果,根据所述表格线检测结果和所述真实表格线结果计算得到所述基础表格线检测模型的损失函数;
基于所述损失函数对所述基础表格线检测模型的网络参数进行调整,得到调整后的基础表格线检测模型,在根据所述调整后的基础表格线检测模型计算得到的损失函数收敛时,确定所述调整后的基础表格线检测模型为所述目标表格线检测模型。
进一步的,所述将所述训练数据输入至所述基础检测网络,经过所述基础残差网络预测,得到所述训练数据对应的表格线检测结果的步骤包括:
基于所述基础检测网络对所述训练数据中的表格线的候选区域进行检测,得到优选候选框;
输入所述优选候选框至所述基础残差网络进行特征计算,得到所述基础残差网络中每个卷积层的特征值,基于所述特征值构建特征金字塔;
通过所述特征金字塔和所述优选候选框进行回归检测,得到所述表格线检测结果。
进一步的,在所述输入所述粗表格线至所述目标残差网络进行检测操作,得到所述待识别图片中的表格线信息的步骤之后,还包括:
获取预设的边缘线检测算法,根据所述边缘线检测算法对所述表格线信息进行拟合,得到所述待识别图片的目标表格线信息。
进一步的,所述根据所述边缘线检测算法对所述表格线信息进行拟合,得到所述待识别图片的目标表格线信息的步骤包括:
对所述待识别图片进行形态腐蚀,得到所述待识别图片的目标腐蚀形态;
根据所述边缘线检测算法对所述目标腐蚀形态进行变化直线检测,得到多个离散检测线段;
对所述离散检测线段和所述表格线信息进行拟合,得到所述待识别图片的目标表格线信息。
进一步的,在所述对所述标准识别图片进行图像文字识别,得到目标识别文本的步骤之后,还包括:
获取存储的文本字典,基于所述文本字典对所述目标识别文本进行结构化,得到所述待识别图片的结构化数据。
进一步的,所述基于所述文本字典对所述目标识别文本进行结构化,得到所述待识别图片的结构化数据的步骤包括:
获取预设的正则匹配式,根据所述正则匹配式对所述目标识别文本进行字段纠错,得到纠错后的目标识别文本;
基于所述文本字典对所述纠错后的目标识别文本进行结构化,得到所述待识别图片的结构化数据。
为了解决上述技术问题,本申请实施例还提供一种图像文本识别装置,采用了如下所述的技术方案:
采集模块,用于采集多组包括表格线的图片和不包括表格线的图片作为训练数据,根据所述训练数据训练基础表格线检测模型,得到目标表格线检测模型,其中,所述目标表格线检测模型包括目标检测网络和目标残差网络;
检测模块,用于获取待识别图片,根据所述目标检测网络对所述待识别图片进行表格线粗提取,得到粗表格线,输入所述粗表格线至所述目标残差网络进行检测操作,得到所述待识别图片中的表格线信息;
匹配模块,用于基于所述表格线信息匹配所述待识别图片和预设标准图片,得到所述待识别图片的匹配信息;
识别模块,用于根据所述匹配信息将所述待识别图片转换为标准识别图片,对所述标准识别图片进行图像文字识别,得到目标识别文本。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
采集多组包括表格线的图片和不包括表格线的图片作为训练数据,根据所述训练数据训练基础表格线检测模型,得到目标表格线检测模型,其中,所述目标表格线检测模型包括目标检测网络和目标残差网络;
获取待识别图片,根据所述目标检测网络对所述待识别图片进行表格线粗提取,得到粗表格线,输入所述粗表格线至所述目标残差网络进行检测操作,得到所述待识别图片中的表格线信息;
基于所述表格线信息匹配所述待识别图片和预设标准图片,得到所述待识别图片的匹配信息;
根据所述匹配信息将所述待识别图片转换为标准识别图片,对所述标准识别图片进行图像文字识别,得到目标识别文本。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
采集多组包括表格线的图片和不包括表格线的图片作为训练数据,根据所述训练数据训练基础表格线检测模型,得到目标表格线检测模型,其中,所述目标表格线检测模型包括目标检测网络和目标残差网络;
获取待识别图片,根据所述目标检测网络对所述待识别图片进行表格线粗提取,得到粗表格线,输入所述粗表格线至所述目标残差网络进行检测操作,得到所述待识别图片中的表格线信息;
基于所述表格线信息匹配所述待识别图片和预设标准图片,得到所述待识别图片的匹配信息;
根据所述匹配信息将所述待识别图片转换为标准识别图片,对所述标准识别图片进行图像文字识别,得到目标识别文本。
本申请提出的图像文本识别方法,通过采集多组包括表格线的图片和不包括表格线的图片作为训练数据,根据训练数据训练基础表格线检测模型,得到目标表格线检测模型,其中,目标表格线检测模型包括目标检测网络和目标残差网络,根据目标表格线检测模型可以对图片中的表格线进行精确检测;之后,获取待识别图片,根据目标检测网络对待识别图片进行表格线粗提取,得到粗表格线,输入粗表格线至目标残差网络进行检测操作,得到待识别图片中的表格线信息,由此可以提高待识别图片中表格线检测的精确度;而后,基于表格线信息匹配待识别图片和预设标准图片,得到待识别图片的匹配信息;根据匹配信息将待识别图片转换为标准识别图片,对标准识别图片进行图像文字识别,得到目标识别文本,实现了对图像文本的高效识别,提高了图像文本信息的识别效率和识别准确率,进一步节省了图像处理资源的浪费。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2根据本申请的图像文本识别方法的一个实施例的流程图;
图3是根据本申请的图像文本识别装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
附图标记:图像文本识别装置300、采集模块301、检测模块302、匹配模块303以及识别模块304。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的图像文本识别方法一般由服务器/终端设备执行,相应地,图像文本识别装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的图像文本识别的方法的一个实施例的流程图。所述的图像文本识别方法,包括以下步骤:
步骤S201,采集多组包括表格线的图片和不包括表格线的图片作为训练数据,根据所述训练数据训练基础表格线检测模型,得到目标表格线检测模型,其中,所述目标表格线检测模型包括目标检测网络和目标残差网络。
在本实施例中,基础表格线检测模型为预先构建的表格线检测模型,该基础表格线检测模型与目标表格线检测模型均包括同样的网络结构和不同的网络参数,将基础表格线检测模型中的网络作为基础检测网络和基础残差网络,目标表格线检测模型中的网络作为目标检测网络和目标残差网络;其中残差网络主要包括恒等映射块和卷积块。预先采集多组包括表格线的图片和不包括表格线的图片作为训练数据,将该训练数据输入至该基础表格线检测模型中,根据该训练数据对该基础表格线检测模型进行训练,得到训练完成的基础表格线检测模型,即为目标表格线检测模型。
步骤S202,获取待识别图片,根据所述目标检测网络对所述待识别图片进行表格线粗提取,得到粗表格线,输入所述粗表格线至所述目标残差网络进行检测操作,得到所述待识别图片中的表格线信息。
在本实施例中,待识别图片为包括表格线的图片。在得到待识别图片时,将该待识别图片输入至该目标表格线检测模型中,根据该目标表格线检测模型对该待识别图片中的表格线进行检测,识别得到该待识别图片中的表格线。具体地,目标检测网络中包括目标检测网络和目标残差网络,根据该目标检测网络对该待识别图片中的表格线进行粗提取,筛选得到该待识别图片中的粗表格线;该粗表格线即为第一次对待识别图片中表格线筛选得到的表格线。之后,基于目标表格线检测模型中的残差网络对该粗表格线进行进一步地精确筛选,得到该待识别图片中最终的表格线信息。
步骤S203,基于所述表格线信息匹配所述待识别图片和预设标准图片,得到所述待识别图片的匹配信息。
在本实施例中,预设标准图片为与该待识别图片关联的同类型图片,如待识别图片与预设标准图片同为户口本图片。在得到表格线信息时,基于该表格线信息将待识别图片与预设标准图片进行匹配,确定匹配的像素点信息,该像素点信息即为匹配信息。例如,基于该表格线信息将待识别图片与预设标准图片进行块匹配,其中,块匹配是通过将查询块与相邻的图像块进行匹配,从相邻块中查找到距离查询块最近的k个块,而其中相邻并不是绝对位置的相邻,通过局部搜索或全局搜索可以找到对应的k个块。通过块匹配和对应的邻域算法(如8邻域算法)得到该待识别图片与预设标准图片匹配的像素点信息,即匹配信息。
步骤S204,根据所述匹配信息将所述待识别图片转换为标准识别图片,对所述标准识别图片进行图像文字识别,得到目标识别文本。
在本实施例中,在得到匹配信息时,根据该匹配信息将待识别图片转换为标准识别图片。之后,对该标准识别图片进行图像文字识别,即OCR文字识别,得到该标准识别图片中的目标识别文本。其中,OCR文字识别(optical character recognition)为对图像文件进行分析,得到文字及版面信息的过程,在得到标准识别图片时,通过OCR文字识别,即得到该标准识别图片中的目标识别文本。
需要强调的是,为进一步保证上述目标识别文本的私密和安全性,上述目标识别文本还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本实施例实现了对图像文本的高效识别,提高了图像文本信息的识别效率和识别准确率,进一步节省了图像处理资源的浪费。
在本实施例的一些可选的实现方式中,上述根据所述训练数据训练基础表格线检测模型的步骤包括:
所述基础表格线检测模型包括基础检测网络和基础残差网络,将所述训练数据输入至所述基础检测网络,经过所述基础残差网络预测,得到所述训练数据对应的表格线检测结果;
获取所述训练数据对应的真实表格线结果,根据所述表格线检测结果和所述真实表格线结果计算得到所述基础表格线检测模型的损失函数;
基于所述损失函数对所述基础表格线检测模型的网络参数进行调整,得到调整后的基础表格线检测模型,在根据所述调整后的基础表格线检测模型计算得到的损失函数收敛时,确定所述调整后的基础表格线检测模型为所述目标表格线检测模型。
在本实施例中,训练数据中包括包含表格线的图片和不包含表格线的图片,其中,包含表格线的图片则可以采用常见的户口本表格线图片或一般证件表格图片,将该包含表格线的图片作为正样本,将该不包含表格线的图片作为负样本。基础表格线检测模型包括基础检测网络和基础残差网络,通过基础检测网络对输入训练数据中的表格框进行粗筛选,之后通过基础残差网络对粗筛选得到的表格框进行精确计算,得到训练数据对应的最终的表格线检测结果。在得到该表格线检测结果时,获取当前输入的训练数据对应的真实表格线结果,基于该表格线检测结果和真实表格线结果,计算得到损失函数;通过该损失函数对基础表格线检测模型的网络参数进行调整,直至通过调整后的基础表格线检测模型的网络参数计算得到的损失函数收敛,确定该调整后的基础表格线检测模型为目标表格线检测模型。
本实施例通过训练数据对基础表格线检测模型进行训练,使得训练得到的目标表格线检测模型能够对待识别图片中的表格线进行精确检测,提高了对包括表格线图片的中表格线检测的效率和准确率,进一步提高了图片文本识别的准确率。
在本实施例的一些可选的实现方式中,上述将所述训练数据输入至所述基础检测网络,经过所述基础残差网络预测,得到所述训练数据对应的表格线检测结果的步骤包括:
基于所述基础检测网络对所述训练数据中的表格线的候选区域进行检测,得到优选候选框;
输入所述优选候选框至所述基础残差网络进行特征计算,得到所述基础残差网络中每个卷积层的特征值,基于所述特征值构建特征金字塔;
通过所述特征金字塔和所述优选候选框进行回归检测,得到所述表格线检测结果。
在本实施例中,输入该训练数据至基础检测网络(如faster-rcnn的主干网络)中,检测得到训练数据中的表格线的候选区域,该候选区域包括多个不同大小和不同面积的候选框;而后,通过该基础检测网络的归一化层(即softmax-nms层)对该候选框进行非极大值计算(NMS,Non-Maximum Suppression),得到每个候选框对应的评分,如<xi,yi,w,h,socre>。之后,对每个候选框对应的评分进行高斯加权,得到加权值,基于该加权值对每个候选框进行排序,筛除其中加权值小于预设阈值的候选框作为优选候选框。在得到优选候选框时,将该优选候选框输入至基础残差网络(如resnet50),根据该基础残差网络计算该优选候选框对应的每个卷积网络层的特征值,之后对每一层对应的特征值进行特征融合,得到特征金字塔。输入该优选候选框和该特征金字塔至框分类和回归检测网络,计算得到回归检测结果,对该回归检测结果进行池化,如通过ROIAlign(区域特征聚集)对该回归检测结果进行池化计算,得到表格线检测结果。
本实施例通过基础检测网络和基础残差网络对训练数据中的表格线检测结果进行计算,实现了对表格线的精确检测,提高了表格线的检测准确率。
在本实施例的一些可选的实现方式中,在上述输入所述粗表格线至所述目标残差网络进行检测操作,得到所述待识别图片中的表格线信息的步骤之后,还包括:
获取预设的边缘线检测算法,根据所述边缘线检测算法对所述表格线信息进行拟合,得到所述待识别图片的目标表格线信息。
在本实施例中,为了得到更准确的表格线信息,在通过目标表格线检测模型得到待识别图片中的表格线信息时,获取预设的边缘线检测算法,根据该边缘线检测算法对表格线信息进行拟合,得到目标表格线信息。该目标表格线信息即为更精确的表格线信息。具体地,边缘线检测算法为hough(霍夫)算法,在得到待识别图片中的表格线信息时,确定待识别图片是否为灰度图像,若该待识别图片不为灰度图像,将该待识别图片转换为灰度图像;对该灰度图像进行去噪,得到去噪图像;通过梯度算子或者拉普拉斯算子对该去噪图像进行边缘提取,得到边缘点;将该边缘点映射至霍夫空间,计算边缘点的局部极大值,通过预设过滤阈值对该局部极大值进行过滤,得到目标坐标;根据该目标坐标绘制直线,并标定角点,得到多个离散检测线段;而后,根据该离散检测线段对表格线信息进行拟合,即得到目标表格线信息。
本实施例通过边缘线检测算法对表格线信息进行拟合,得到目标表格线信息,提高了目标表格线信息的准确度。
在本实施例的一些可选的实现方式中,上述根据所述边缘线检测算法对所述表格线信息进行拟合,得到所述待识别图片的目标表格线信息的步骤包括:
对所述待识别图片进行形态腐蚀,得到所述待识别图片的目标腐蚀形态;
根据所述边缘线检测算法对所述目标腐蚀形态进行变化直线检测,得到多个离散检测线段;
对所述离散检测线段和所述表格线信息进行拟合,得到所述待识别图片的目标表格线信息。
在本实施例中,在根据边缘线检测算法对表格线进行拟合,还可以预先对待识别图片进行形态腐蚀,得到该待识别图片的目标腐蚀形态,之后,根据边缘线检测算法对该目标腐蚀形态进行变化直线检测,得到多个离散检测线段。在得到该离散检测线段时,对该离散检测线段和表格线信息进行拟合,即得到待识别图片的目标表格线信息。
本实施例通过拟合表格线信息,得到目标表格线信息,提高了目标表格线信息的准确率和提取效率。
在本实施例的一些可选的实现方式中,在上述对所述标准识别图片进行图像文字识别,得到目标识别文本的步骤之后,还包括:
获取存储的文本字典,基于所述文本字典对所述目标识别文本进行结构化,得到所述待识别图片的结构化数据。
在本实施例中,文本字典为预先存储有各类标准字段信息的字典。在得到目标识别文本之后,获取存储的文本字典,将该字典中的标准字段信息与目标识别文本进行匹配,得到匹配字段;获取在该目标识别文本中匹配字段的文本信息,根据该匹配字段对文本信息进行结构化,即得到待识别图片的结构化数据。
本实施例通过文本字典对目标识别文本进行结构化,实现了对待识别图片中的目标识别文本的高效结构化,进一步使得通过该结构化数据能够对提取得到目标识别文本进行统一化地管理。
在本实施例的一些可选的实现方式中,上述基于所述文本字典对所述目标识别文本进行结构化,得到所述待识别图片的结构化数据的步骤包括:
获取预设的正则匹配式,根据所述正则匹配式对所述目标识别文本进行字段纠错,得到纠错后的目标识别文本;
基于所述文本字典对所述纠错后的目标识别文本进行结构化,得到所述待识别图片的结构化数据。
在本实施例中,为了使得得到结构化数据更加精确,在对目标识别文本进行结构化前,对该目标识别文本进行预先纠错,之后对纠错后的目标识别文本进行结构化,得到结构化数据。具体地,获取预设的正则匹配式,其中,该正则匹配式中包括了多种不同的参考字段。匹配该正则匹配式和目标识别文本,在该正则匹配式和目标识别文本的匹配度大于预设阈值时,确定该正则匹配式和目标识别文本匹配成功;在该正则匹配式和目标识别文本的匹配度小于等于预设阈值时,确定该正则匹配式和目标识别文本匹配失败。获取匹配失败的纠错文本,根据文本字典对该纠错文本进行纠错,查找到该纠错文本对应的正确文本;将目标识别文本中的纠错文本替换为该正确文本,即得到纠错后的目标识别文本。而后,根据文本字典对该纠错后的目标识别文本进行结构化,则得到待处理图片的更精确的结构化数据。
本实施例通过对目标识别文本进行纠错,使得通过纠错后的文本得到的结构化数据更加精确,进一步提高了结构化数据的精确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种图像文本识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的图像文本识别装置300包括:采集模块301、检测模块302、匹配模块303以及识别模块304。其中:
采集模块301,用于采集多组包括表格线的图片和不包括表格线的图片作为训练数据,根据所述训练数据训练基础表格线检测模型,得到目标表格线检测模型,其中,所述目标表格线检测模型包括目标检测网络和目标残差网络;
在本实施例的一些可选的实现方式中,上述采集模块301还包括:
第一检测单元,用于所述基础表格线检测模型包括基础检测网络和基础残差网络,将所述训练数据输入至所述基础检测网络,经过所述基础残差网络预测,得到所述训练数据对应的表格线检测结果;
获取单元,用于获取所述训练数据对应的真实表格线结果,根据所述表格线检测结果和所述真实表格线结果计算得到所述基础表格线检测模型的损失函数;
调整单元,用于基于所述损失函数对所述基础表格线检测模型的网络参数进行调整,得到调整后的基础表格线检测模型,在根据所述调整后的基础表格线检测模型计算得到的损失函数收敛时,确定所述调整后的基础表格线检测模型为所述目标表格线检测模型。
在本实施例的一些可选的实现方式中,上述第一检测单元还包括:
第一检测子单元,用于基于所述基础检测网络对所述训练数据中的表格线的候选区域进行检测,得到优选候选框;
计算子单元,用于输入所述优选候选框至所述基础残差网络进行特征计算,得到所述基础残差网络中每个卷积层的特征值,基于所述特征值构建特征金字塔;
第二检测子单元,用于通过所述特征金字塔和所述优选候选框进行回归检测,得到所述表格线检测结果。
在本实施例中,基础表格线检测模型为预先构建的表格线检测模型,该基础表格线检测模型与目标表格线检测模型均包括同样的网络结构和不同的网络参数,将基础表格线检测模型中的网络作为基础检测网络和基础残差网络,目标表格线检测模型中的网络作为目标检测网络和目标残差网络;其中残差网络主要包括恒等映射块和卷积块。预先采集多组包括表格线的图片和不包括表格线的图片作为训练数据,将该训练数据输入至该基础表格线检测模型中,根据该训练数据对该基础表格线检测模型进行训练,得到训练完成的基础表格线检测模型,即为目标表格线检测模型。
检测模块302,用于获取待识别图片,根据所述目标检测网络对所述待识别图片进行表格线粗提取,得到粗表格线,输入所述粗表格线至所述目标残差网络进行检测操作,得到所述待识别图片中的表格线信息;
在本实施例中,待识别图片为包括表格线的图片。在得到待识别图片时,将该待识别图片输入至该目标表格线检测模型中,根据该目标表格线检测模型对该待识别图片中的表格线进行检测,识别得到该待识别图片中的表格线。具体地,目标检测网络中包括目标检测网络和目标残差网络,根据该目标检测网络对该待识别图片中的表格线进行粗提取,筛选得到该待识别图片中的粗表格线;该粗表格线即为第一次对待识别图片中表格线筛选得到的表格线。之后,基于目标表格线检测模型中的残差网络对该粗表格线进行进一步地精确筛选,得到该待识别图片中最终的表格线信息。
匹配模块303,用于基于所述表格线信息匹配所述待识别图片和预设标准图片,得到所述待识别图片的匹配信息;
在本实施例中,预设标准图片为与该待识别图片关联的同类型图片,如待识别图片与预设标准图片同为户口本图片。在得到表格线信息时,基于该表格线信息将待识别图片与预设标准图片进行匹配,确定匹配的像素点信息,该像素点信息即为匹配信息。例如,基于该表格线信息将待识别图片与预设标准图片进行块匹配,其中,块匹配是通过将查询块与相邻的图像块进行匹配,从相邻块中查找到距离查询块最近的k个块,而其中相邻并不是绝对位置的相邻,通过局部搜索或全局搜索可以找到对应的k个块。通过块匹配和对应的邻域算法(如8邻域算法)得到该待识别图片与预设标准图片匹配的像素点信息,即匹配信息。
识别模块304,用于根据所述匹配信息将所述待识别图片转换为标准识别图片,对所述标准识别图片进行图像文字识别,得到目标识别文本。
在本实施例中,在得到匹配信息时,根据该匹配信息将待识别图片转换为标准识别图片。之后,对该标准识别图片进行图像文字识别,即OCR文字识别,得到该标准识别图片中的目标识别文本。其中,OCR文字识别(optical character recognition)为对图像文件进行分析,得到文字及版面信息的过程,在得到标准识别图片时,通过OCR文字识别,即得到该标准识别图片中的目标识别文本。
需要强调的是,为进一步保证上述目标识别文本的私密和安全性,上述目标识别文本还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本实施例的一些可选的实现方式中,上述图像文本识别装置300还包括:
拟合模块,用于获取预设的边缘线检测算法,根据所述边缘线检测算法对所述表格线信息进行拟合,得到所述待识别图片的目标表格线信息。
在本实施例的一些可选的实现方式中,上述拟合模块还包括:
提取单元,用于对所述待识别图片进行形态腐蚀,得到所述待识别图片的目标腐蚀形态;
第二检测单元,用于根据所述边缘线检测算法对所述目标腐蚀形态进行变化直线检测,得到多个离散检测线段;
拟合单元,用于对所述离散检测线段和所述表格线信息进行拟合,得到所述待识别图片的目标表格线信息。
在本实施例中,为了得到更准确的表格线信息,在通过目标表格线检测模型得到待识别图片中的表格线信息时,获取预设的边缘线检测算法,根据该边缘线检测算法对表格线信息进行拟合,得到目标表格线信息。该目标表格线信息即为更精确的表格线信息。具体地,边缘线检测算法为hough(霍夫)算法,在得到待识别图片中的表格线信息时,确定待识别图片是否为灰度图像,若该待识别图片不为灰度图像,将该待识别图片转换为灰度图像;对该灰度图像进行去噪,得到去噪图像;通过梯度算子或者拉普拉斯算子对该去噪图像进行边缘提取,得到边缘点;将该边缘点映射至霍夫空间,计算边缘点的局部极大值,通过预设过滤阈值对该局部极大值进行过滤,得到目标坐标;根据该目标坐标绘制直线,并标定角点,得到多个离散检测线段;而后,根据该离散检测线段对表格线信息进行拟合,即得到目标表格线信息。
在本实施例的一些可选的实现方式中,上述图像文本识别装置300还包括:
结构化模块,用于获取存储的文本字典,基于所述文本字典对所述目标识别文本进行结构化,得到所述待识别图片的结构化数据。
在本实施例的一些可选的实现方式中,上述结构化模块还包括:
纠错单元,用于获取预设的正则匹配式,根据所述正则匹配式对所述目标识别文本进行字段纠错,得到纠错后的目标识别文本;
结构化单元,用于基于所述文本字典对所述纠错后的目标识别文本进行结构化,得到所述待识别图片的结构化数据。
在本实施例中,文本字典为预先存储有各类标准字段信息的字典。在得到目标识别文本之后,获取存储的文本字典,将该字典中的标准字段信息与目标识别文本进行匹配,得到匹配字段;获取在该目标识别文本中匹配字段的文本信息,根据该匹配字段对文本信息进行结构化,即得到待识别图片的结构化数据。
本实施例提出的图像文本识别装置,实现了对图像文本的高效识别,提高了图像文本信息的识别效率和识别准确率,进一步节省了图像处理资源的浪费。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如图像文本识别方法的计算机可读指令等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据,例如运行所述图像文本识别方法的计算机可读指令。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本实施例提出的计算机设备,实现了对图像文本的高效识别,提高了图像文本信息的识别效率和识别准确率,进一步节省了图像处理资源的浪费。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的图像文本识别方法的步骤。
本实施例提出的计算机可读存储介质,实现了对图像文本的高效识别,提高了图像文本信息的识别效率和识别准确率,进一步节省了图像处理资源的浪费。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种图像文本识别方法,其特征在于,包括下述步骤:
采集多组包括表格线的图片和不包括表格线的图片作为训练数据,根据所述训练数据训练基础表格线检测模型,得到目标表格线检测模型,其中,所述目标表格线检测模型包括目标检测网络和目标残差网络;
获取待识别图片,根据所述目标检测网络对所述待识别图片进行表格线粗提取,得到粗表格线,输入所述粗表格线至所述目标残差网络进行检测操作,得到所述待识别图片中的表格线信息;
基于所述表格线信息匹配所述待识别图片和预设标准图片,得到所述待识别图片的匹配信息;
根据所述匹配信息将所述待识别图片转换为标准识别图片,对所述标准识别图片进行图像文字识别,得到目标识别文本。
2.根据权利要求1所述的图像文本识别方法,其特征在于,所述根据所述训练数据训练基础表格线检测模型的步骤包括:
所述基础表格线检测模型包括基础检测网络和基础残差网络,将所述训练数据输入至所述基础检测网络,经过所述基础残差网络预测,得到所述训练数据对应的表格线检测结果;
获取所述训练数据对应的真实表格线结果,根据所述表格线检测结果和所述真实表格线结果计算得到所述基础表格线检测模型的损失函数;
基于所述损失函数对所述基础表格线检测模型的网络参数进行调整,得到调整后的基础表格线检测模型,在根据所述调整后的基础表格线检测模型计算得到的损失函数收敛时,确定所述调整后的基础表格线检测模型为所述目标表格线检测模型。
3.根据权利要求2所述的图像文本识别方法,其特征在于,所述将所述训练数据输入至所述基础检测网络,经过所述基础残差网络预测,得到所述训练数据对应的表格线检测结果的步骤包括:
基于所述基础检测网络对所述训练数据中的表格线的候选区域进行检测,得到优选候选框;
输入所述优选候选框至所述基础残差网络进行特征计算,得到所述基础残差网络中每个卷积层的特征值,基于所述特征值构建特征金字塔;
通过所述特征金字塔和所述优选候选框进行回归检测,得到所述表格线检测结果。
4.根据权利要求1所述的图像文本识别方法,其特征在于,在所述输入所述粗表格线至所述目标残差网络进行检测操作,得到所述待识别图片中的表格线信息的步骤之后,还包括:
获取预设的边缘线检测算法,根据所述边缘线检测算法对所述表格线信息进行拟合,得到所述待识别图片的目标表格线信息。
5.根据权利要求4所述的图像文本识别方法,其特征在于,所述根据所述边缘线检测算法对所述表格线信息进行拟合,得到所述待识别图片的目标表格线信息的步骤包括:
对所述待识别图片进行形态腐蚀,得到所述待识别图片的目标腐蚀形态;
根据所述边缘线检测算法对所述目标腐蚀形态进行变化直线检测,得到多个离散检测线段;
对所述离散检测线段和所述表格线信息进行拟合,得到所述待识别图片的目标表格线信息。
6.根据权利要求1所述的图像文本识别方法,其特征在于,在所述对所述标准识别图片进行图像文字识别,得到目标识别文本的步骤之后,还包括:
获取存储的文本字典,基于所述文本字典对所述目标识别文本进行结构化,得到所述待识别图片的结构化数据。
7.根据权利要求6所述的图像文本识别方法,其特征在于,所述基于所述文本字典对所述目标识别文本进行结构化,得到所述待识别图片的结构化数据的步骤包括:
获取预设的正则匹配式,根据所述正则匹配式对所述目标识别文本进行字段纠错,得到纠错后的目标识别文本;
基于所述文本字典对所述纠错后的目标识别文本进行结构化,得到所述待识别图片的结构化数据。
8.一种图像文本识别装置,其特征在于,所述计算模块包括:
采集模块,用于采集多组包括表格线的图片和不包括表格线的图片作为训练数据,根据所述训练数据训练基础表格线检测模型,得到目标表格线检测模型,其中,所述目标表格线检测模型包括目标检测网络和目标残差网络;
检测模块,用于获取待识别图片,根据所述目标检测网络对所述待识别图片进行表格线粗提取,得到粗表格线,输入所述粗表格线至所述目标残差网络进行检测操作,得到所述待识别图片中的表格线信息;
匹配模块,用于基于所述表格线信息匹配所述待识别图片和预设标准图片,得到所述待识别图片的匹配信息;
识别模块,用于根据所述匹配信息将所述待识别图片转换为标准识别图片,对所述标准识别图片进行图像文字识别,得到目标识别文本。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的图像文本识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的图像文本识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111432713.1A CN113936286B (zh) | 2021-11-29 | 2021-11-29 | 图像文本识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111432713.1A CN113936286B (zh) | 2021-11-29 | 2021-11-29 | 图像文本识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113936286A true CN113936286A (zh) | 2022-01-14 |
CN113936286B CN113936286B (zh) | 2024-06-14 |
Family
ID=79288576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111432713.1A Active CN113936286B (zh) | 2021-11-29 | 2021-11-29 | 图像文本识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113936286B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114694149A (zh) * | 2022-04-06 | 2022-07-01 | 北京智慧荣升科技有限公司 | 表格图片校正方法、装置、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN108537219A (zh) * | 2018-03-20 | 2018-09-14 | 上海眼控科技股份有限公司 | 一种用于财务报表外框的智能检测方法及装置 |
CN109934181A (zh) * | 2019-03-18 | 2019-06-25 | 北京海益同展信息科技有限公司 | 文本识别方法、装置、设备和计算机可读介质 |
CN110415183A (zh) * | 2019-06-18 | 2019-11-05 | 平安科技(深圳)有限公司 | 图片校正方法、装置、计算机设备及计算机可读存储介质 |
CN110442870A (zh) * | 2019-08-02 | 2019-11-12 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN111353492A (zh) * | 2020-03-12 | 2020-06-30 | 上海合合信息科技发展有限公司 | 一种标准化文档的图像识别和信息提取方法及装置 |
CN111695553A (zh) * | 2020-06-05 | 2020-09-22 | 北京百度网讯科技有限公司 | 表格识别方法、装置、设备和介质 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
CN112836650A (zh) * | 2021-02-05 | 2021-05-25 | 广东电网有限责任公司广州供电局 | 一种质量检验报告扫描图像表格语义解析方法与系统 |
CN113269153A (zh) * | 2021-06-26 | 2021-08-17 | 中国电子系统技术有限公司 | 一种表格识别方法以及装置 |
CN113283355A (zh) * | 2021-05-31 | 2021-08-20 | 平安国际智慧城市科技股份有限公司 | 一种表格图像的识别方法、装置、计算机设备及存储介质 |
CN113343740A (zh) * | 2020-03-02 | 2021-09-03 | 阿里巴巴集团控股有限公司 | 表格检测方法、装置、设备和存储介质 |
-
2021
- 2021-11-29 CN CN202111432713.1A patent/CN113936286B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN108537219A (zh) * | 2018-03-20 | 2018-09-14 | 上海眼控科技股份有限公司 | 一种用于财务报表外框的智能检测方法及装置 |
CN109934181A (zh) * | 2019-03-18 | 2019-06-25 | 北京海益同展信息科技有限公司 | 文本识别方法、装置、设备和计算机可读介质 |
CN110415183A (zh) * | 2019-06-18 | 2019-11-05 | 平安科技(深圳)有限公司 | 图片校正方法、装置、计算机设备及计算机可读存储介质 |
CN110442870A (zh) * | 2019-08-02 | 2019-11-12 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN113343740A (zh) * | 2020-03-02 | 2021-09-03 | 阿里巴巴集团控股有限公司 | 表格检测方法、装置、设备和存储介质 |
CN111353492A (zh) * | 2020-03-12 | 2020-06-30 | 上海合合信息科技发展有限公司 | 一种标准化文档的图像识别和信息提取方法及装置 |
CN111695553A (zh) * | 2020-06-05 | 2020-09-22 | 北京百度网讯科技有限公司 | 表格识别方法、装置、设备和介质 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
CN112836650A (zh) * | 2021-02-05 | 2021-05-25 | 广东电网有限责任公司广州供电局 | 一种质量检验报告扫描图像表格语义解析方法与系统 |
CN113283355A (zh) * | 2021-05-31 | 2021-08-20 | 平安国际智慧城市科技股份有限公司 | 一种表格图像的识别方法、装置、计算机设备及存储介质 |
CN113269153A (zh) * | 2021-06-26 | 2021-08-17 | 中国电子系统技术有限公司 | 一种表格识别方法以及装置 |
Non-Patent Citations (3)
Title |
---|
ERTUGRUL KARA ET.: "《Deep Learning for Recognizing the Anatomy of Tables on Datasheets》", 《2019 IEEE SYMPOSIUM ON COMPUTERS AND COMMUNICATIONS》, 3 July 2019 (2019-07-03), pages 1 - 6 * |
KHURRAM AZEEM HASHMI ET AL.: "《Current Status and Performance Analysis of Table Recognition in Document Images With Deep Neural Networks》", 《IEEE ACCESS》, vol. 9, 9 June 2021 (2021-06-09), pages 87663 - 87685 * |
XIANGBEN HU ET.: "《DeshengNet : An Information Extraction Model for Table in Digital Documents》", 《2021 IEEE INTL CONF ON DEPENDABLE, AUTONOMIC AND SECURE COMPUTING, INTL CONF ON PERVASIVE INTELLIGENCE AND COMPUTING, INTL CONF ON CLOUD AND BIG DATA COMPUTING, INTL CONF ON CYBER SCIENCE AND TECHNOLOGY CONGRESS》, 28 October 2021 (2021-10-28), pages 567 - 573 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114694149A (zh) * | 2022-04-06 | 2022-07-01 | 北京智慧荣升科技有限公司 | 表格图片校正方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113936286B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112699775B (zh) | 基于深度学习的证件识别方法、装置、设备及存储介质 | |
CN110555372A (zh) | 数据录入方法、装置、设备及存储介质 | |
CN112561684A (zh) | 金融欺诈风险识别方法、装置、计算机设备及存储介质 | |
CN112101437A (zh) | 基于图像检测的细粒度分类模型处理方法、及其相关设备 | |
CN112632278A (zh) | 一种基于多标签分类的标注方法、装置、设备及存储介质 | |
CN112330331A (zh) | 基于人脸识别的身份验证方法、装置、设备及存储介质 | |
CN113657274B (zh) | 表格生成方法、装置、电子设备及存储介质 | |
CN112686243A (zh) | 智能识别图片文字的方法、装置、计算机设备及存储介质 | |
CN110795714A (zh) | 一种身份验证方法、装置、计算机设备及存储介质 | |
CN111639648A (zh) | 证件识别方法、装置、计算设备和存储介质 | |
CN113673519A (zh) | 基于文字检测模型的文字识别方法及其相关设备 | |
CN114386013A (zh) | 学籍自动认证方法、装置、计算机设备及存储介质 | |
CN113988223B (zh) | 证件图像识别方法、装置、计算机设备及存储介质 | |
CN112418206A (zh) | 基于位置检测模型的图片分类方法及其相关设备 | |
CN114049646B (zh) | 一种银行卡识别方法、装置、计算机设备及存储介质 | |
CN112396048B (zh) | 图片信息提取方法、装置、计算机设备及存储介质 | |
CN113936286B (zh) | 图像文本识别方法、装置、计算机设备及存储介质 | |
CN112417886B (zh) | 意图实体信息抽取方法、装置、计算机设备及存储介质 | |
CN112651399A (zh) | 检测倾斜图像中同行文字的方法及其相关设备 | |
CN112669850A (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN112381458A (zh) | 项目评审方法、项目评审装置、设备及存储介质 | |
CN116704528A (zh) | 票据识别核验方法、装置、计算机设备及存储介质 | |
CN111695441B (zh) | 图像文档处理方法、装置及计算机可读存储介质 | |
CN112395450B (zh) | 图片文字检测方法、装置、计算机设备及存储介质 | |
CN115063826A (zh) | 一种基于深度学习的移动端驾驶证识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |