CN113947778A - 一种基于档案文件数字化处理方法 - Google Patents

一种基于档案文件数字化处理方法 Download PDF

Info

Publication number
CN113947778A
CN113947778A CN202111184582.XA CN202111184582A CN113947778A CN 113947778 A CN113947778 A CN 113947778A CN 202111184582 A CN202111184582 A CN 202111184582A CN 113947778 A CN113947778 A CN 113947778A
Authority
CN
China
Prior art keywords
image
archive
processing method
electronic form
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111184582.XA
Other languages
English (en)
Other versions
CN113947778B (zh
Inventor
刘颖
李帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Junhong Technology Beijing Co ltd
Original Assignee
Junhong Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Junhong Technology Beijing Co ltd filed Critical Junhong Technology Beijing Co ltd
Priority to CN202111184582.XA priority Critical patent/CN113947778B/zh
Publication of CN113947778A publication Critical patent/CN113947778A/zh
Application granted granted Critical
Publication of CN113947778B publication Critical patent/CN113947778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于档案文件数字化的处理方法,该方法按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,并对电子化表格进行ETL处理,建立数据仓库,提升了纸质档案信息的利用率和管理效率。

Description

一种基于档案文件数字化处理方法
技术领域:
本发明属于档案文件电子化,尤其涉及一种基于档案文件数字化处理方法。
背景技术:
目前,纸质档案数字化的主要任务可以分为文本定位与字符识别两部分。正确定位文本位置是识别任务的前提,但纸质档案资料中数据的位置不固定,分布也不均匀,无法根据固定位置进行提取。且文本目标较小,字符间存在空隙,边缘也不明显,很容易出现漏提、误提的情况。同时,字符识别任务可分为手写字识别和印刷字识别,手写字符识别又可分为联机识别与脱机识别。手写字符受每个人的用笔方式,书写习惯,文化背景等因素的影响,书写的字符差异较大,较难识别。脱机识别是指将纸质文字信息通过扫描仪等扫描仪器转换为图片信息进行快速识别,大多用于工整清晰的印刷体字符识别。纸质档案数字化属于脱机识别,但手写字符的复杂性加大了识别的难度。如何提高纸质档案的识别效率,实现档案的数字化管理成为了亟待解决的问题。
发明内容
针对目前现有的纸质档案利用率低,手写字符的复杂性加大了识别的难度的问题。本发明提出了,按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,并对电子化表格进行ETL处理,建立数据仓库,提升了纸质档案信息的利用率和管理效率。
本发明为解决以上技术问题所采取的技术方案是:该方法包括:
S1、使用第一设备采集纸质档案图像,对所述档案图像进行预处理得到待提取图像,
S2、对待提取图像分别进行N*1,1*N的腐蚀膨胀操作,融合后获得所述待提取图像中的表格,
S3、按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,
S4、将所述电子化表格与纸质档案图像关联保存,
S5、将所述电子化表格发送到ETL作业执行请求作业调度节点,
S6、作业调度节点获取所述电子化表格ETL作业的元数据信息,
S7、判断所述电子化的表格ETL作业是否需要进行数据划分,如果不需要,则直接分配所述电子化的表格ETL作业到计算能力最强的节点上运行,否则作业调度节点收集所有可用计算节点的信息,按照负载信息计算所述电子化表格ETL作业的划分方案;
S8、根据所述划分方案,向所选中的N个计算节点发送执行消息;等待所述N个计算节点执行所分配到的任务,并返回执行完毕消息;
S9、合并所述划分方案计算结果;
S10、将所述计算结果以及纸质档案图像关联保存至目标数据库。
可选地,所述使用第一设备采集纸质档案图像,对所述档案图像进行预处理得到待提取图像,包括:第一设备为扫描仪或照相机,所述预处理包括降噪滤波,角度矫正,二值化。
可选地,所述降噪滤波为双边滤波模型:原始纸质档案图像为F,滤波后图像为
Figure BDA0003298973670000021
Figure BDA0003298973670000022
其中
F(i,j)为领域像素点(i,j)的灰度值,Z为滤波器尺寸,滤波领域大小为(Z+1)*(Z+1),W(a,b,i,j)为滤波器权重系数;U(a,b,i,j)为空域核函数,R(a,b,i,j)为灰度核函数;
Figure BDA0003298973670000031
其中εu,εR分别为空间邻近度因子和灰度相似度因子,F(a,b)为中心像素点(a,b)的灰度值。
可选地,所述角度矫正包括:获取扫描退图像中表格的4各顶点,设置旋转中心,旋转角度和旋转方向,连接顶点和旋转中心后,按照旋转角度和旋转方向移动顶点,获得矫正后的表格图像。
可选地,所述采用根据CTPN网络模型进行文本定位中,所述CTPN网络依次包括VGG-16特征提取网络,BLSTM网络,全连接层。
可选地,所述采用CRNN神经网络模型提取所述局部图像中的字符中,所述CRNN神经网络执行中,先用CNN自动提取图像特征,再将提取的特征送入RNN提取序列特征。
可选地,所述按照负载信息计算所述电子化表格ETL作业的划分方案中,负责信息模型为:
Figure BDA0003298973670000032
其中Load(N)表示节点N的负载率,cpu,ram,task依次表示CPU利用率,内存利用率以及就绪队列长度的负载指标值,wcpu,wram,wtask依次表示CPU利用率,内存利用率以及就绪队列长度的负载指标值的权重。
可选地,所述将所述计算结果以及纸质档案图像关联保存至目标数据库中,将所述纸质档案图像保存至目标数据库中以便于后续核对。
可选地,所述计算节点为计算机或者FPGA。
本发明的有益效果如下:
按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,并对电子化表格进行ETL处理,建立数据仓库,提升了纸质档案信息的利用率和管理效率;同时,在ETL过程中,在算力和任务可拆分的条件下,并行执行ETL任务,也提高了ETL任务执行效率。
上述说明,仅是本发明技术方案的概述,为了能够更清楚了解本发明技术手段,可依照说明书的内容予以实施,并且为了让本发明的上述说明和其它目的、特征及优点能够更明显易懂,特举较佳实施例,详细说明如下。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为基于档案文件数字化处理方法的流程图
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
实施例1
方法包括:
S1、使用第一设备采集纸质档案图像,对所述档案图像进行预处理得到待提取图像,
S2、对待提取图像分别进行N*1,1*N的腐蚀膨胀操作,融合后获得所述待提取图像中的表格,
S3、按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,
S4、将所述电子化表格与纸质档案图像关联保存,
S5、将所述电子化表格发送到ETL作业执行请求作业调度节点,
S6、作业调度节点获取所述电子化表格ETL作业的元数据信息,
S7、判断所述电子化的表格ETL作业是否需要进行数据划分,如果不需要,则直接分配所述电子化的表格ETL作业到计算能力最强的节点上运行,否则作业调度节点收集所有可用计算节点的信息,按照负载信息计算所述电子化表格ETL作业的划分方案;
S8、根据所述划分方案,向所选中的N个计算节点发送执行消息;等待所述N个计算节点执行所分配到的任务,并返回执行完毕消息;
S9、合并所述划分方案计算结果;
S10、将所述计算结果以及纸质档案图像关联保存至目标数据库。
可选地,所述使用第一设备采集纸质档案图像,对所述档案图像进行预处理得到待提取图像,包括:第一设备为扫描仪或照相机,所述预处理包括降噪滤波,角度矫正,二值化。
可选地,所述降噪滤波为双边滤波模型:原始纸质档案图像为F,滤波后图像为
Figure BDA0003298973670000051
Figure BDA0003298973670000052
其中
F(i,j)为领域像素点(i,j)的灰度值,Z为滤波器尺寸,滤波领域大小为(Z+1)*(Z+1),W(a,b,i,j)为滤波器权重系数;U(a,b,i,j)为空域核函数,R(a,b,i,j)为灰度核函数;
Figure BDA0003298973670000053
其中εu,εR分别为空间邻近度因子和灰度相似度因子,F(a,b)为中心像素点(a,b)的灰度值。
可选地,所述角度矫正包括:获取扫描退图像中表格的4各顶点,设置旋转中心,旋转角度和旋转方向,连接顶点和旋转中心后,按照旋转角度和旋转方向移动顶点,获得矫正后的表格图像。
可选地,所述采用根据CTPN网络模型进行文本定位中,所述CTPN网络依次包括VGG-16特征提取网络,BLSTM网络,全连接层。
可选地,所述采用CRNN神经网络模型提取所述局部图像中的字符中,所述CRNN神经网络执行中,先用CNN自动提取图像特征,再将提取的特征送入RNN提取序列特征。
可选地,所述按照负载信息计算所述电子化表格ETL作业的划分方案中,负责信息模型为:
Figure BDA0003298973670000061
其中Load(N)表示节点N的负载率,cpu,ram,task依次表示CPU利用率,内存利用率以及就绪队列长度的负载指标值,wcpu,wram,wtask依次表示CPU利用率,内存利用率以及就绪队列长度的负载指标值的权重。
可选地,所述将所述计算结果以及纸质档案图像关联保存至目标数据库中,将所述纸质档案图像保存至目标数据库中以便于后续核对。
可选地,所述计算节点为计算机或者FPGA。
实施例2
该方法还可以为:
S1、采集纸质档案图像;
S2、获得电子化表格;
S3、电子化表格ETL作业;
S4、将电子化表格ETL结果保存至目标数据仓库。
本发明的优点在于:
按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,并对电子化表格进行ETL处理,建立数据仓库,提升了纸质档案信息的利用率和管理效率;同时,在ETL过程中,在算力和任务可拆分的条件下,并行执行ETL任务,也提高了ETL任务执行效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种基于档案文件数字化处理方法,其特征在于,包括以下步骤:
S1、使用第一设备采集纸质档案图像,对所述档案图像进行预处理得到待提取图像,
S2、对待提取图像分别进行N*1,1*N的腐蚀膨胀操作,融合后获得所述待提取图像中的表格,
S3、按照表格轮廓截取所述待提取图像的局部图像,采用根据CTPN网络模型进行文本定位,采用CRNN神经网络模型提取所述局部图像中的字符,将所述字符填充至表格中,获得电子化表格,
S4、将所述电子化表格与纸质档案图像关联保存,
S5、将所述电子化表格发送到ETL作业执行请求作业调度节点,
S6、作业调度节点获取所述电子化表格ETL作业的元数据信息,
S7、判断所述电子化的表格ETL作业是否需要进行数据划分,如果不需要,则直接分配所述电子化的表格ETL作业到计算能力最强的节点上运行,否则作业调度节点收集所有可用计算节点的信息,按照负载信息计算所述电子化表格ETL作业的划分方案;
S8、根据所述划分方案,向所选中的N个计算节点发送执行消息;等待所述N个计算节点执行所分配到的任务,并返回执行完毕消息;
S9、合并所述划分方案计算结果;
S10、将所述计算结果以及纸质档案图像关联保存至目标数据库。
2.根据权利要求1所述基于档案文件数字化处理方法,其特征在于:所述使用第一设备采集纸质档案图像,对所述档案图像进行预处理得到待提取图像,包括:第一设备为扫描仪或照相机,所述预处理包括降噪滤波,角度矫正,二值化。
3.根据权利要求2所述的基于档案文件数字化处理方法,其特征在于:所述降噪滤波为双边滤波模型:原始纸质档案图像为F,滤波后图像为
Figure FDA0003298973660000011
Figure FDA0003298973660000012
其中F(i,j)为领域像素点(i,j)的灰度值,Z为滤波器尺寸,滤波领域大小为(Z+1)*(Z+1),W(a,b,i,j)为滤波器权重系数;U(a,b,i,j)为空域核函数,R(a,b,i,j)为灰度核函数;
Figure FDA0003298973660000021
其中εu,εR分别为空间邻近度因子和灰度相似度因子,F(a,b)为中心像素点(a,b)的灰度值。
4.根据权利要求2所述的基于档案文件数字化处理方法,其特征在于:所述角度矫正包括:获取扫描退图像中表格的4各顶点,设置旋转中心,旋转角度和旋转方向,连接顶点和旋转中心后,按照旋转角度和旋转方向移动顶点,获得矫正后的表格图像。
5.根据权利要求1所述的基于档案文件数字化处理方法,其特征在于:所述采用根据CTPN网络模型进行文本定位中,所述CTPN网络依次包括VGG-16特征提取网络,BLSTM网络,全连接层。
6.根据权利要求1所述的基于基于档案文件数字化处理方法,其特征在于:所述采用CRNN神经网络模型提取所述局部图像中的字符中,所述CRNN神经网络执行中,先用CNN自动提取图像特征,再将提取的特征送入RNN提取序列特征。
7.根据权利要求1所述的基于档案文件数字化处理方法,其特征在于:所述按照负载信息计算所述电子化表格ETL作业的划分方案中,负责信息模型为:
Figure FDA0003298973660000022
其中Load(N)表示节点N的负载率,cpu,ram,task依次表示CPU利用率,内存利用率以及就绪队列长度的负载指标值,wcpu,wram,wtask依次表示CPU利用率,内存利用率以及就绪队列长度的负载指标值的权重。
8.根据权利要求1所述的基于档案文件数字化处理方法,其特征在于:所述将所述计算结果以及纸质档案图像关联保存至目标数据库中,将所述纸质档案图像保存至目标数据库中以便于后续核对。
9.根据权利要求1所述的基于档案文件数字化处理方法,其特征在于:所述计算节点为计算机或者FPGA。
CN202111184582.XA 2021-10-12 2021-10-12 一种基于档案文件数字化处理方法 Active CN113947778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111184582.XA CN113947778B (zh) 2021-10-12 2021-10-12 一种基于档案文件数字化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111184582.XA CN113947778B (zh) 2021-10-12 2021-10-12 一种基于档案文件数字化处理方法

Publications (2)

Publication Number Publication Date
CN113947778A true CN113947778A (zh) 2022-01-18
CN113947778B CN113947778B (zh) 2024-10-15

Family

ID=79329671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111184582.XA Active CN113947778B (zh) 2021-10-12 2021-10-12 一种基于档案文件数字化处理方法

Country Status (1)

Country Link
CN (1) CN113947778B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392845A (zh) * 2022-06-13 2022-11-25 杭州京胜航星科技有限公司 基于档案智能化的档案挂接管理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101969475A (zh) * 2010-11-15 2011-02-09 张军 基于云计算的商业数据可控分发与融合应用系统
CN103324534A (zh) * 2012-03-22 2013-09-25 阿里巴巴集团控股有限公司 作业调度方法及其调度器
KR101445171B1 (ko) * 2014-03-28 2014-10-02 주식회사 한글과컴퓨터 종이 문서에 대한 전자 문서 변환 장치 및 방법
CN106547914A (zh) * 2016-11-25 2017-03-29 国信优易数据有限公司 一种数据采集管理系统及其方法
CN109783235A (zh) * 2018-12-29 2019-05-21 西安交通大学 一种基于最大熵原理的负载均衡调度方法
CN112052853A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112052852A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的字符识别方法
CN113408256A (zh) * 2021-06-30 2021-09-17 平安科技(深圳)有限公司 一种表格图片的表格重构方法、装置及相关设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101969475A (zh) * 2010-11-15 2011-02-09 张军 基于云计算的商业数据可控分发与融合应用系统
CN103324534A (zh) * 2012-03-22 2013-09-25 阿里巴巴集团控股有限公司 作业调度方法及其调度器
KR101445171B1 (ko) * 2014-03-28 2014-10-02 주식회사 한글과컴퓨터 종이 문서에 대한 전자 문서 변환 장치 및 방법
CN106547914A (zh) * 2016-11-25 2017-03-29 国信优易数据有限公司 一种数据采集管理系统及其方法
CN109783235A (zh) * 2018-12-29 2019-05-21 西安交通大学 一种基于最大熵原理的负载均衡调度方法
CN112052853A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112052852A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的字符识别方法
CN113408256A (zh) * 2021-06-30 2021-09-17 平安科技(深圳)有限公司 一种表格图片的表格重构方法、装置及相关设备

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ROMME426: "双边滤波原理之Matlab实现", HTTPS://BLOG.CSDN.NET/FZR_EN/ARTICLE/DETAILS/93384108, 23 June 2019 (2019-06-23), pages 1 - 4 *
ROMME426: "双边滤波原理之Matlab实现", pages 1 - 4, Retrieved from the Internet <URL:https://blog.csdn.net/fzr_en/article/details/93384108> *
刘建胜, 汪同庆, 王贵新, 居琰, 彭健: "接触式图像传感器应用于表格文档信息处理", 传感器技术, no. 05, 30 May 2002 (2002-05-30) *
宋杰等: "基于MapReduce的分布式ETL调度优化方法", 指挥信息系统与技术, vol. 4, no. 4, 31 August 2013 (2013-08-31), pages 17 - 20 *
李宁;张迟;王雷;罗玉娥;唐险峰;刘克浩;肖飞龙;李楠;李璞;蔡碧;: "湖北省构建免疫规划信息管理系统大数据分布式云计算平台初探", 中国疫苗和免疫, no. 04, 26 August 2017 (2017-08-26) *
李强: "云计算及其应用", 30 April 2018, 武汉大学出版社, pages: 90 *
王家林: "现代智能信息处理及应用", 30 November 2020, 吉林出版集团股份有限公司, pages: 318 *
胡凯等: "网络机群计算的负载指标研究与实现", 计算机工程与设计, no. 4, 28 February 2007 (2007-02-28), pages 829 - 831 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392845A (zh) * 2022-06-13 2022-11-25 杭州京胜航星科技有限公司 基于档案智能化的档案挂接管理方法及系统
CN115392845B (zh) * 2022-06-13 2024-04-26 杭州京胜航星科技有限公司 基于档案智能化的档案挂接管理方法及系统

Also Published As

Publication number Publication date
CN113947778B (zh) 2024-10-15

Similar Documents

Publication Publication Date Title
WO2020232872A1 (zh) 表格识别方法、装置、计算机设备和存储介质
WO2019119966A1 (zh) 文字图像处理方法、装置、设备及存储介质
US8634644B2 (en) System and method for identifying pictures in documents
US8868555B2 (en) Computation of a recongnizability score (quality predictor) for image retrieval
US8510283B2 (en) Automatic adaption of an image recognition system to image capture devices
CN108805076B (zh) 环境影响评估报告书表格文字的提取方法及系统
CN111914835A (zh) 票据要素提取方法、装置、电子设备及可读存储介质
CN110942061A (zh) 文字识别方法、装置、设备和计算机可读介质
CN110807454B (zh) 基于图像分割的文字定位方法、装置、设备及存储介质
CN103577818A (zh) 一种图像文字识别的方法和装置
CN114155546B (zh) 一种图像矫正方法、装置、电子设备和存储介质
CN113011144A (zh) 表单信息的获取方法、装置和服务器
CN113723270A (zh) 基于rpa及ai的文件处理方法及装置
CN110599478B (zh) 一种图像区域复制粘贴篡改检测方法
WO2022127384A1 (zh) 文字识别方法、电子设备和计算机可读存储介质
US20210174119A1 (en) Systems and methods for digitized document image data spillage recovery
Zhang et al. Marior: Margin removal and iterative content rectification for document dewarping in the wild
CN110889341A (zh) 基于ai的表单图像识别方法、装置、计算机设备和存储介质
CN113947778A (zh) 一种基于档案文件数字化处理方法
WO2019071476A1 (zh) 一种基于智能终端的快递信息录入方法及录入系统
CN111445386A (zh) 基于文本内容四点检测的图像校正方法
JP2018042067A (ja) 画像処理システム、画像処理方法、情報処理装置
CN109741426B (zh) 一种漫画形式转化方法和装置
CN115620315A (zh) 手写文本检测方法、装置、服务器和存储介质
CN114332866B (zh) 一种基于图像处理的文献曲线分离与坐标信息提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant