CN103995904A - 一种影像档案电子资料的识别系统 - Google Patents

一种影像档案电子资料的识别系统 Download PDF

Info

Publication number
CN103995904A
CN103995904A CN201410262810.4A CN201410262810A CN103995904A CN 103995904 A CN103995904 A CN 103995904A CN 201410262810 A CN201410262810 A CN 201410262810A CN 103995904 A CN103995904 A CN 103995904A
Authority
CN
China
Prior art keywords
information
image
recognition system
module
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410262810.4A
Other languages
English (en)
Other versions
CN103995904B (zh
Inventor
林珉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Min Zhi Information Technology Co Ltd
Original Assignee
Shanghai Min Zhi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Min Zhi Information Technology Co Ltd filed Critical Shanghai Min Zhi Information Technology Co Ltd
Priority to CN201410262810.4A priority Critical patent/CN103995904B/zh
Publication of CN103995904A publication Critical patent/CN103995904A/zh
Application granted granted Critical
Publication of CN103995904B publication Critical patent/CN103995904B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种影像档案电子资料的识别系统,包含:预处理模块、版面分析模块、信息识别模块、信息分类模块、信息校正模块、信息补录模块。本发明能够自动识别扫描图像,从中提取有用信息,并按照一定的分类规则保存到数据库中,供用户检索、查询,最大程度减少用户的工作量。本发明的识别系统,基于连通体的区域聚类方法来解决版面印刷字符区域的准确提取问题,还基于自然语言理解的错误纠正方法和信息分类算法来解决字符识别率低和信息分类困难的问题,抗干扰性强,提升了识别的效率和准确性。

Description

一种影像档案电子资料的识别系统
技术领域
本发明涉及数据管理系统领域,特别涉及一种影像档案电子资料的识别系统。
背景技术
现代社会中,纸质文档(例如银行票据凭证、个人信息表等等)仍然被广泛使用,对纸质文档的存储、管理及文件上的信息归类、查找都十分困难。计算机和智能手机的普及,使得通过电子方法对纸质文档进行管理成为可能,但是将纸质文档上的信息通过人工输入电子系统需要耗费大量的时间和人力;而通过智能系统自动识别票据内容还存在很多局限。
诸如银行业务中,票据上的大量信息都是打印上去的印刷体的数字及中英文字符,准确提取并识别这些信息对自动票据处理有着重要作用。然而,由于票据版面的复杂性和识别要求的特殊性,在实际系统中可能会遇到各种困难:票据版面上存在印章、油墨、手写信息、背景图案等等干扰信息;另外票据上还会出现字符粘连、字体字号变化频繁、识别信息不全等问题。针对于银行系统中的兑付业务而言,其过程是将每个柜员办理的业务票据与电脑中存储的流水信息进行比对,以检查操作员是否进行了误操作;如果票据内容识别错误会导致账目不平的后果。
发明内容
为了解决上述现有问题,本发明提供了一种影像档案电子资料的识别系统,实现印刷字符信息和干扰信息的分离;多字体印刷字符的自动识别;基于自然语言理解方法进行错误校正、识别结果分类与信息提取,从而提高识别效率和准确性。
本发明的技术方案是提供一种影像档案电子资料的识别系统,其包含:
信息识别模块,对图像中的信息进行识别;
信息分类模块,将识别出的信息中具有固定格式及内容的信息进行分类得到不同的信息项,为每个信息项构建相应的查找表,并对信息项的关联信息进行记录;
信息校正模块,基于信息分类结果及其查找表和信息项关联信息,对识别出的信息进行校正;
所述识别系统将图像上经过识别、校正后得到的信息及信息项的查找表和信息项关联信息,构成与该图像对应的电子档案存入至数据库中,供接入的用户终端或外部系统进行查询或分析处理。
可选地,所述识别系统进一步设置有索引生成器,将图像与其电子档案的匹配关系记录在索引信息中;用户终端或外部系统通过检索所述索引信息或其组合,从图像存储器中查询相应的图像。
可选地,所述索引信息是文字、图形或语音格式;所述索引信息也存入与图像对应的电子档案中。
可选地,所述识别系统进一步设置有图像存储器至信息校正模块的传输接口,以便从图像存储器中调取保存的图像,供信息校正时与识别出的信息进行比对。
可选地,所述识别系统进一步设置有与信息校正模块信号连接的信息补录模块,提供对遗漏或错误识别的信息进行手动输入及编辑的操作支持。
可选地,所述识别系统进一步设置有预处理模块,对图像进行包含二值化的预处理后,输送至识别系统中的后续模块。
可选地,所述识别系统进一步设置有版面分析模块,从图像中提取出识别区域,切分出文字行,并去除干扰信息。
可选地,所述版面分析模块,将图像中相邻的同颜色像素点连接形成连通体,设置阈值来排除不符合规则的连通体;再将位置相邻的若干个连通体组成连通体行后进行聚类,确定需要的识别区域。 
本发明的另一个技术方案是提供一种影像档案电子资料的识别系统,其包含:
预处理模块,对图像进行包含二值化的预处理;
版面分析模块,从预处理过的图像中提取出识别区域;
信息识别模块,对图像的识别区域进行信息识别;
信息分类模块,将识别出的信息中具有固定格式及内容的信息进行分类得到不同的信息项,为每个信息项构建相应的查找表,并对信息项的关联信息进行记录;
信息校正模块,基于信息分类结果及其查找表和信息项关联信息,对识别出的信息进行校正;
信息补录模块,提供对遗漏或错误识别的信息进行手动输入及编辑的操作支持;
所述识别系统将图像上经过识别、校正、补录后得到的信息及信息项的查找表和信息项关联信息,构成与该图像对应的电子档案存入至数据库中,供接入的用户终端或外部系统进行查询或分析处理。
与现有技术相比,本发明提供的影像档案电子资料的识别系统,其优点在于:本发明能够自动识别扫描图像,从中提取有用信息,并按照一定的分类规则保存到数据库中,供用户检索、查询,最大程度减少用户的工作量。本发明的识别系统,基于连通体的区域聚类方法来解决版面印刷字符区域的准确提取问题,还基于自然语言理解的错误纠正方法和信息分类算法来解决字符识别率低和信息分类困难的问题,抗干扰性强、识别准确性高、识别效率高。
附图说明
图1是本发明所述影像档案电子资料的识别系统的示意图。
具体实施方式
本发明提供的影像档案电子资料的识别系统,对扫描纸质文档得到的图像进行信息识别,形成与该信息相匹配的电子档案存入数据库,供用户后续查询使用。
如图1所示,本发明中通过预处理模块,对扫描获得的图像,先进行诸如旋转倾斜图像、二值化、光度对比度调节等预处理。在实际应用中,可以是将扫描仪或摄录头获取的图像直接输入本发明的识别系统,也可以是将获取的图像先进行缓存,识别系统再从缓存中读入图像进行预处理。
本发明中通过版面分析模块,从图像中提取出需要进行识别的区域,切分出文字行,并去除干扰信息(例如印章、手写体、背景图案、底纹、噪音等)。一种从图像中提取识别区域的示例方式,是以图像版面内的连通体分析为基础,采用区域生长算法对连通体行进行聚类,从而确定所需的识别区域。
具体地,所述连通体由版面中同颜色像素点(白像素或黑像素)连通构成:从一个像素点出发,若其相邻的4个或8个方向上有相邻的同颜色像素点,则将两者连接起来,直到找不到相邻的同颜色像素点,则将已经找到的同颜色像素点作为一个连通体。这里可以通过BAG(block adjacency graph)来寻找图像中的连通体。
图像中不同特征的连通体往往混杂在一起。其中,背景纹理产生的连通体通常表现为小的点或者窄长的线,手写字产生的连通体往往形状不规则;而本发明中需要识别的由连续的印刷字产生的连通体,一般是比较规则的方块或者较宽的条带。因而,对连通体的长度、宽度、倾斜角度等参数设置阈值,来去掉那些明显不符合规则的连通体。之后,根据位置关系,将位置相邻的连通体组成连通体行。再对这些连通体进行聚类,确定需要的信息域。
即,对于每一个连通体行Li,为它定义一个属性Pi (x,y,z,…,count),其中x、y、z表示连通体行Li本身具有的特征,比如高、宽、密度等,count用来计算与其相似并且相邻的连通体行个数。counti定义如下:
                                                                                                                —— 式1
然后通过式2计算得到一组连通体,由这组连通体组成一个集合Q,另外的连通体组成集合W。
                      NUM=MAX(counti),L i ∈Q,当 counti =NUM       ——  式2
                                 FunB(L i L j )< K2L i ∈Q,L j ∈W     ——  式3
最后以集合Q为基础,采取区域生长的方法,寻找得到所需要的信息域。即如果W中的连通体行Lj符合式3,那就把它加入到Q,并从W中把它移去,不断做循环直到最后W中找不到符合式3条件的连通体行为止。其中函数FunA()、FunB(),定义为距离、高度、密度的加权和,而阈值K1、K2则通过对大量图像测试分析后得到。
本发明中通过信息识别模块,对图像中识别区域的字符进行识别。一般将印刷体的字符库中的字符,与图像中识别区域的字符进行匹配。对于中文、英文字符的识别,已经有很多成熟的软件产品和工具包可供使用。
本发明中通过信息分类模块,对识别出的信息进行分类。某个领域内使用的纸质文档往往具有相对固定的格式与内容,信息分类模块利用这种特点,预先将一些常见的信息项分别构造在不同的查找表中,然后把识别的信息到查找表中比对,找到最符合的项目。如果没有找到,可以在查找表中增加新的项目,以备以后查找之用,有效提高识别效率。
例如,有的纸质文档中包含个人基本信息:姓名、出生年月、身份证号、毕业学校、专业、籍贯、住址等。又例如,银行票据上往往包含账户名、地址、银行账号、金额等信息。
信息分类器中的分类规则,主要基于上下文或其他自然语言理解方法实现。举例来说,
(1) 姓氏、地址中的省市名称等是某些固定的文字;
(2) 邮编、电话号、身份证号等都是数字格式;
(3) 由于表达上的习惯,地址、日期等信息的书写有固定的格式及次序;
(4) 由于表达上的习惯,姓氏一般在名字前面。
另外,可以对不同查找表中的信息进行关联,将不同信息项之间的对应关系进行记录,供冗余校验使用。例如,地址与邮编之间,金额的大小写之间,年龄与出生年月之间,往往都存在对应关系,因此可以通过一个查找表中的信息项内容来核对另一个查找表中的信息项内容,来判断识别出的内容是否正确。
本发明中的信息校正模块,基于信息分类的结果,查找表信息,信息项关联情况等等,对识别出的信息进行校正。对于可以确定唯一匹配内容的信息项的,可以自动进行校正(例如在提示填写“国家”的信息行中识别为“中囯”时可以直接校正为“中国”)。对于不能确定唯一匹配内容的信息项,则可以提交工作人员判断或进行手动校正。工作人员可以通过本发明提供的信息补录模块,对遗漏或错误识别的信息进行手动输入及编辑操作。本发明中提供图像存储器至信息校正模块的传输接口,以便从图像存储器中调取保存的原始扫描图像,供工作人员在信息校正时与识别出的信息进行比对。 
某个图像上通过本发明识别系统中各模块处理后的数据,即识别、校正、补录后得到的信息及其相关的分类信息项、查找表内容等等,一起构成了与该图像对应的电子档案,被存入数据库中,供接入的用户终端或外部系统对其进行查询、分析等处理。
本发明中还可以进一步生成索引信息,为扫描的图像与其识别出的信息及电子档案等进行匹配。该索引信息可以是文字、图形或语音等各种格式,例如,是复制于图像上某一部分的图形,或者是识别信息中的一部分文字,或者是分类后的某个信息项内容,又或者是用以表示该图像特征的一些语音,由扫描人员或补录人员等人工添加,或由系统根据识别出的文字转化成语音数据后自动添加成为索引。因而,当图像保存在图像存储器之后,可以根据各种格式的索引信息或其组合作为搜索条件进行智能查询,来调取原始图像。该索引信息也可以存入到图像对应的电子档案中,方便统一管理。
综上所述,本发明提供的影像档案电子资料的识别系统,能够自动识别扫描图像,从中提取有用信息,并按照一定的分类规则保存到数据库中,供用户检索、查询,最大程度减少用户的工作量。本发明的识别系统,基于连通体的区域聚类方法来解决版面印刷字符区域的准确提取问题,还基于自然语言理解的错误纠正方法和信息分类算法来解决字符识别率低和信息分类困难的问题,抗干扰性强、识别准确性高、识别效率高。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (9)

1.一种影像档案电子资料的识别系统,其特征在于,包含:
信息识别模块,对图像中的信息进行识别;
信息分类模块,将识别出的信息中具有固定格式及内容的信息进行分类得到不同的信息项,为每个信息项构建相应的查找表,并对信息项的关联信息进行记录;
信息校正模块,基于信息分类结果及其查找表和信息项关联信息,对识别出的信息进行校正;
所述识别系统将图像上经过识别、校正后得到的信息及信息项的查找表和信息项关联信息,构成与该图像对应的电子档案存入至数据库中,供接入的用户终端或外部系统进行查询或分析处理。
2. 如权利要求1所述的识别系统,其特征在于,
所述识别系统进一步设置有索引生成器,将图像与其电子档案的匹配关系记录在索引信息中;用户终端或外部系统通过检索所述索引信息或其组合,从图像存储器中查询相应的图像。
3. 如权利要求2所述的识别系统,其特征在于,
所述索引信息是文字、图形或语音格式;所述索引信息也存入与图像对应的电子档案中。
4.如权利要求3所述的识别系统,其特征在于,
所述识别系统进一步设置有图像存储器至信息校正模块的传输接口,以便从图像存储器中调取保存的图像,供信息校正时与识别出的信息进行比对。
5. 如权利要求1所述的识别系统,其特征在于,
所述识别系统进一步设置有与信息校正模块信号连接的信息补录模块,提供对遗漏或错误识别的信息进行手动输入及编辑的操作支持。
6. 如权利要求1所述的识别系统,其特征在于,
所述识别系统进一步设置有预处理模块,对图像进行包含二值化的预处理后,输送至识别系统中的后续模块。
7. 如权利要求1或6所述的识别系统,其特征在于,
所述识别系统进一步设置有版面分析模块,从图像中提取出识别区域,切分出文字行,并去除干扰信息。
8. 如权利要求7所述的识别系统,其特征在于,
所述版面分析模块,将图像中相邻的同颜色像素点连接形成连通体,设置阈值来排除不符合规则的连通体;再将位置相邻的若干个连通体组成连通体行后进行聚类,确定需要的识别区域。
9. 一种影像档案电子资料的识别系统,其特征在于,包含:
预处理模块,对图像进行包含二值化的预处理;
版面分析模块,从预处理过的图像中提取出识别区域;
信息识别模块,对图像的识别区域进行信息识别;
信息分类模块,将识别出的信息中具有固定格式及内容的信息进行分类得到不同的信息项,为每个信息项构建相应的查找表,并对信息项的关联信息进行记录;
信息校正模块,基于信息分类结果及其查找表和信息项关联信息,对识别出的信息进行校正;
信息补录模块,提供对遗漏或错误识别的信息进行手动输入及编辑的操作支持;
所述识别系统将图像上经过识别、校正、补录后得到的信息及信息项的查找表和信息项关联信息,构成与该图像对应的电子档案存入至数据库中,供接入的用户终端或外部系统进行查询或分析处理。
CN201410262810.4A 2014-06-13 2014-06-13 一种影像档案电子资料的识别系统 Expired - Fee Related CN103995904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410262810.4A CN103995904B (zh) 2014-06-13 2014-06-13 一种影像档案电子资料的识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410262810.4A CN103995904B (zh) 2014-06-13 2014-06-13 一种影像档案电子资料的识别系统

Publications (2)

Publication Number Publication Date
CN103995904A true CN103995904A (zh) 2014-08-20
CN103995904B CN103995904B (zh) 2017-09-12

Family

ID=51310069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410262810.4A Expired - Fee Related CN103995904B (zh) 2014-06-13 2014-06-13 一种影像档案电子资料的识别系统

Country Status (1)

Country Link
CN (1) CN103995904B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268814A (zh) * 2014-10-11 2015-01-07 北京网秦天下科技有限公司 生成电子病历的方法和装置
CN105631393A (zh) * 2014-11-06 2016-06-01 阿里巴巴集团控股有限公司 信息识别方法及装置
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法
CN105808742A (zh) * 2016-03-11 2016-07-27 北京天创征腾信息科技有限公司 一种影像池系统及使用影像池的方法
CN106104518A (zh) * 2014-03-08 2016-11-09 微软技术许可有限责任公司 用于按照示例的数据提取的框架
CN107122498A (zh) * 2017-06-01 2017-09-01 黑龙江省科学技术情报研究院 基于云计算的信息检索分类系统及方法
CN107341487A (zh) * 2016-04-28 2017-11-10 科大讯飞股份有限公司 一种涂抹字符的检测方法及系统
CN107851121A (zh) * 2015-07-23 2018-03-27 国际商业机器公司 识别医疗数据中的错误
CN108334725A (zh) * 2017-04-24 2018-07-27 广东健凯医疗有限公司 健康数据电子化处理系统和方法
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达系统工程股份有限公司 一种基于深度学习的ocr方法
CN110059204A (zh) * 2019-05-28 2019-07-26 江苏影速光电技术有限公司 一种电子图形资料自动检索和应用的装置及方法
CN110674336A (zh) * 2019-09-26 2020-01-10 湖北奕展光电有限公司 一种识别、检索影像文件的系统
CN111860523A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种声像档案的智能著录系统与方法
CN117909440A (zh) * 2024-03-12 2024-04-19 厦门蓝极档案技术有限公司 智能档案索引与检索系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1153358A (zh) * 1995-06-13 1997-07-02 财团法人工业技术研究院 中英文表单的识别系统及识别方法
CN202584267U (zh) * 2012-06-12 2012-12-05 丰豪盈彩(北京)科技有限公司 应用于移动终端的票据自动识别系统
CN103500332A (zh) * 2013-09-06 2014-01-08 优视科技有限公司 图片内文字显示方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5936225A (en) * 1996-04-02 1999-08-10 Strategic Quantitative Solutions, Inc. Method and apparatus for tabulating data from a plurality of response forms
CN102929843B (zh) * 2012-09-14 2015-10-14 《中国学术期刊(光盘版)》电子杂志社有限公司 一种文字编改系统及编改的方法
CN103617415A (zh) * 2013-11-19 2014-03-05 北京京东尚科信息技术有限公司 一种自动识别发票的装置和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1153358A (zh) * 1995-06-13 1997-07-02 财团法人工业技术研究院 中英文表单的识别系统及识别方法
CN202584267U (zh) * 2012-06-12 2012-12-05 丰豪盈彩(北京)科技有限公司 应用于移动终端的票据自动识别系统
CN103500332A (zh) * 2013-09-06 2014-01-08 优视科技有限公司 图片内文字显示方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104518A (zh) * 2014-03-08 2016-11-09 微软技术许可有限责任公司 用于按照示例的数据提取的框架
CN104268814A (zh) * 2014-10-11 2015-01-07 北京网秦天下科技有限公司 生成电子病历的方法和装置
US10346703B2 (en) 2014-11-06 2019-07-09 Alibaba Group Holding Limited Method and apparatus for information recognition
CN105631393A (zh) * 2014-11-06 2016-06-01 阿里巴巴集团控股有限公司 信息识别方法及装置
TWI685795B (zh) * 2014-11-06 2020-02-21 香港商阿里巴巴集團服務有限公司 資訊識別方法及裝置
CN107851121A (zh) * 2015-07-23 2018-03-27 国际商业机器公司 识别医疗数据中的错误
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法
CN105808742A (zh) * 2016-03-11 2016-07-27 北京天创征腾信息科技有限公司 一种影像池系统及使用影像池的方法
CN107341487A (zh) * 2016-04-28 2017-11-10 科大讯飞股份有限公司 一种涂抹字符的检测方法及系统
CN108334725A (zh) * 2017-04-24 2018-07-27 广东健凯医疗有限公司 健康数据电子化处理系统和方法
CN107122498A (zh) * 2017-06-01 2017-09-01 黑龙江省科学技术情报研究院 基于云计算的信息检索分类系统及方法
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达系统工程股份有限公司 一种基于深度学习的ocr方法
CN109376658B (zh) * 2018-10-26 2022-03-08 信雅达科技股份有限公司 一种基于深度学习的ocr方法
CN110059204A (zh) * 2019-05-28 2019-07-26 江苏影速光电技术有限公司 一种电子图形资料自动检索和应用的装置及方法
CN110674336A (zh) * 2019-09-26 2020-01-10 湖北奕展光电有限公司 一种识别、检索影像文件的系统
CN111860523A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种声像档案的智能著录系统与方法
CN111860523B (zh) * 2020-07-28 2024-04-30 上海兑观信息科技技术有限公司 一种声像档案的智能著录系统与方法
CN117909440A (zh) * 2024-03-12 2024-04-19 厦门蓝极档案技术有限公司 智能档案索引与检索系统
CN117909440B (zh) * 2024-03-12 2024-06-04 厦门蓝极档案技术有限公司 智能档案索引与检索系统

Also Published As

Publication number Publication date
CN103995904B (zh) 2017-09-12

Similar Documents

Publication Publication Date Title
CN103995904A (zh) 一种影像档案电子资料的识别系统
US8538184B2 (en) Systems and methods for handling and distinguishing binarized, background artifacts in the vicinity of document text and image features indicative of a document category
Singh Optical character recognition techniques: a survey
US8897563B1 (en) Systems and methods for automatically processing electronic documents
Singh et al. Offline script identification from multilingual indic-script documents: a state-of-the-art
CN103996055A (zh) 基于影像档案电子资料识别系统中分类器的识别方法
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
Le Bourgeois et al. Document images analysis solutions for digital libraries
US11379690B2 (en) System to extract information from documents
US10572528B2 (en) System and method for automatic detection and clustering of articles using multimedia information
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
Akram et al. Document Image Processing- A Review
Konidaris et al. A segmentation-free word spotting method for historical printed documents
US9323726B1 (en) Optimizing a glyph-based file
CN111539417A (zh) 一种基于深度神经网络的文本识别训练优化方法
Ghosh et al. R-phoc: segmentation-free word spotting using cnn
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
Ghosh et al. Text box proposals for handwritten word spotting from documents
CN111178409B (zh) 基于大数据矩阵稳定性分析的图像匹配与识别系统
Guru et al. A review on offline handwritten script identification
Scius-Bertrand et al. Annotation-free character detection in historical Vietnamese stele images
JP5531493B2 (ja) 文字認識装置、文字認識方法、プログラム及び記録媒体
Srinivasan et al. Signature-based retrieval of scanned documents using conditional random fields
Kesidis et al. Providing Access to Old Greek Documents Using Keyword Spotting Techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170912

Termination date: 20190613