CN112507973A - 一种基于ocr技术的文本和图片识别系统 - Google Patents

一种基于ocr技术的文本和图片识别系统 Download PDF

Info

Publication number
CN112507973A
CN112507973A CN202011588284.2A CN202011588284A CN112507973A CN 112507973 A CN112507973 A CN 112507973A CN 202011588284 A CN202011588284 A CN 202011588284A CN 112507973 A CN112507973 A CN 112507973A
Authority
CN
China
Prior art keywords
template
model
recognition
training
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011588284.2A
Other languages
English (en)
Other versions
CN112507973B (zh
Inventor
金鑫
邹阳
周新
章倩
王煜杰
田丹
沈古松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202011588284.2A priority Critical patent/CN112507973B/zh
Publication of CN112507973A publication Critical patent/CN112507973A/zh
Application granted granted Critical
Publication of CN112507973B publication Critical patent/CN112507973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种基于OCR技术的文本和图片识别系统,所述系统实现了通过自定义模板完成对制式或自由版式类别图片进行识别返回结构化识别结果、支持识别模型的训练、升级以及可根据部署硬件的性能差异选择部署不同模型版本的功能,极大地减少了对新增版式样式票据识别时的工作量,节省了时间、人力和物力成本,提高了工作效率。同时也为人工智能技术在现实业务中的具体应用积累了经验。

Description

一种基于OCR技术的文本和图片识别系统
技术领域
本发明属于人工智能信息化领域,尤其涉及一种基于OCR技术的文本和图片识别系统。
背景技术
OCR技术是“光学字符识别”(Optical Character Recognition)的缩写,简称“文字识别”,意思是用光学技术识别文字。其原理是用户通过获取照片、书籍、报刊、文稿、表格、票据等印刷品等图片中的文字信息,利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,并按通用格式存储为计算机的文本文件。其核心作用为图片转文字,方便信息编辑及再加工,以满足不同行业的应用需求。
随着科技的发展,“信息资料电子化”的潮流引领,特别是深度学习技术的运用,使得OCR技术在识别速度、识别准确率方面得到大幅提高,越来越多的行业和企业加入到OCR应用行列。
与传统的手工录入模式相比较,OCR的智能信息录入具备强大的优势,速度方面OCR识别也远快于手工录入模式,不仅使大批人力资源得到节省,资源配置得到优化,还使人员从繁琐的机械式工作中解脱出来,而去专注于其他有需要的工作。鉴于OCR技术在数据收集计划方面的优势,基于OCR技术的大量图片自动识别系统及APP软件应运而生。这些OCR软件从技术上一般可区分为两类,一类是通用识别OCR,即并不区分输入图片的种类,根据通用的算法进行文字识别,准确率一般不是很高;一类是专用识别OCR,针对固定版式的输入图片,如身份证、制式票据、车牌等,分别开发相应的识别软件。考虑到基于深度学习和神经网络的OCR技术目前在图像预处理、版式分析、文字特征提取、文字比对、识别后处理等方面已达到了很高的水平,各主流厂家均发布了通用OCR识别引擎,一般情况下,印刷体汉字的识别率已优于95%。但是针对结构化的数据识别,现阶段无法满足OCR应用系统根据图片识别类型的同时能够自动提取出结构化数据并返回给用户,方便用户对数据进行深层次应用。因目前OCR软件在实际生产应用过程中仍然缺乏灵活性,尤其是在处理样式繁多的格式化数据时尤为突出,无法满足用户在生产实际中的需要。
因此,亟需一款在保证相应识别准确率的同时能够灵活配置、简化应用人员操作、适用于多种版式的支持格式化数据识别反馈的OCR系统。
发明内容
发明目的:针对目前主流的文字识别软件OCR应用模式存在着人工干预过多、结构化数据识别困难等不足,容易导致应用系统自动化程度低、无法满足用户定制化需求等问题。本发明提供一种基于OCR技术的文本和图片识别系统,该系统在提供常见票据类(身份证、火车票、营业执照和增值税等)内容的识别同时,也提供了对任意票据模板人工一次性标注从而实现结构化内容识别的能力,从而解决特定任务中的OCR识别功能。本发明具有良好的扩展性和通用性、部署简单、操作容易、升级方便等显著特点,极大地减少了使用OCR应用系统中人为参与的复杂度,节省了时间、人力和物力成本,提高了工作效率,同时也为人工智能技术在现实业务场景中的落地提供了实现参考。
本发明系统包括文本识别模块、训练平台模块和模板管理平台模块;
所述文本识别模块用于指定类别识别、自判断识别和提供API接口说明;
所述训练平台模块用于模型管理、数据集管理、训练发布;
所述模板管理平台模块用于模板管理和字段类型管理。
所述文本识别模块用于指定类别识别,包括:在用户知晓待识别图片类别并选中指定的模板情况下,系统从内置模型库中调用指定的OCR识别模型和版本进行识别分析,得到分析结果后,在有锚点的情况下根据锚点内容进行实际输入票据(实物样式)和模板票据(电子样式)之间的像素坐标转换,提取出待识别区域的内容并根据模板票据中对应位置处的数据类型进行格式转换,最后得到结构化的识别内容并展示在票据模板上。
所述文本识别模块用于自判断识别,包括:在用户无法清楚判断票据所属具体分类和模板时,选择关联自判断识别,系统从内置模型库中调用模板分类模型对输入票据进行分类,判定其类别和所属模板,根据判定结果阀值决定是调用特定OCR识别模型或者调用两个以上相关OCR识别模型进行结构化识别分析(判定结果阀值可人工配置,目前系统默认设置为0.75,当判定结果中最大值超过阀值时调用特定OCR识别模型,否则调用结果中前3个最大值对应模板的相关OCR识别模型),在经过模板分类模型判定后,前者的行为等价于指定类别识别,后者的行为等价于两次以上调用指定类别识别,返回综合处理的结构化结果并在票据模板上进行叠加展示。
所述文本识别模块提供了Restful API接口说明,对外暴露了服务,其他三方系统或用户程序中能够直接调用所述Restful API接口获取文本和图片识别服务,取得识别后的结构化识别结果。
所述训练平台模块用于模型管理,包括:对底层OCR识别模型和模板分类模型的管理,基于系统内置模型库的模型基础数据,通过导入开源OCR识别模型和业务应用中产生的现有的OCR识别模型作为系统中的底层OCR识别模型,同时基于图像识别深度学习模型框架,加载OCR识别模型,经过分类器输出的模型实现作为系统中模板分类模型。
所述训练平台模块用于数据集管理,其中,所述数据集包括用于底层OCR识别模型训练的数据集和用于模板分类模型的数据集,前者可通过公开资源的方式进行下载或者由专业的机构进行人工标注,后者则可以由用户通过简单的文件命名进行标注(文件名即为对应的模板类型)。
所述训练平台集成了深度学习开发框架(Caffe、Tensorflow、Pytorch等),用于对内置模型库中的模型进行训练,当选中模型进行训练时,系统依据模型的实现框架(Caffe、Tensorflow、Pytorch等)调用对应的方法获取数据集,开始模型的训练;为了训练时能产生较好的效果,模型训练的触发由系统配置决定,支持的配置包括:如果新增数据集大于等于2GB,开始增量训练;如果新增数据集大于等于1.5GB,从已有的历史数据集中随机挑选约0.5GB大小的数据集联合新增数据集共同增量训练。训练平台同时提供了模型的对外发布、取消对外发布功能,当对指定模型开启对外发布时,该模型作为底层OCR识别模型在文本识别模块中出现;当对指定模型取消对外发布时,该模型从文本识别模块中移除。
所述模板管理平台用于待识别模板的人工一次性标注从而支撑与待识别模板同类型的结构化识别,模板管理平台用于模板标注,即为了识别同类型模板票据中特定文本域而选中的待识别区域,通过对待识别区域命名,选择符合模板票据内各个数据项的数据类型,从而为识别内容建立起了结构化关联信息;适当的数据类型便于识别完成后识别结果的格式转化,尤其是针对时间,系统中预定义了多种时间格式,可将xxxx.xx.xx、xxxx/xx/xx等格式转换成标准的xxxx-xx-xx格式。为了解决实际输入票据位置不居中、四周空白区域较多导致与该类模板票据样式误差较大、无法将识别内容在模板票据上进行标准叠加的问题,模板标注提供了锚点标注选项,通过标注指定内容、位置固定的区域作为参考点(系统目前建议标注4个锚点)实现输入票据图像与模板图像之间的像素位置转化,从而解决识别内容标准叠加、展示不异位等问题。
所述模板管理平台支持字段类型管理,用来定义模板票据中待识别区域的数据类型,根据被定义的数据类型,识别后的结果能够进行对应转化,将相同含义内容的表现形式转换成统一风格,便于识别结果的归一化以及后续的分析处理。
当选中模型进行训练时,对模型训练过程中所需的样本数据进行集中管理,包括提供数据上传、检索、下载和删除功能;数据上传功能用于为现有模型提供更多的样本数据,同时也为新加入的识别模型提供原始样本数据,实现为自定义模板提供识别引擎的功能;数据检索功能用于在现有的数据集中快速查找发现想要的数据,满足特定场景下的需要;数据下载功能用于批量导出部分或全部数据,用于对以前数据的纠正和进一步清洗;数据删除功能用于删除指定的数据集;
随着系统的不断使用,将识别过程中处理的图片制作成数据集;通过将图片名称命名为特定的模板名从而为模板分类模型产生可用的数据集;通过对图片进行文本标注,得到的结果及命名过的图片构成了指定OCR模型可用的数据集;
系统加载Tensorflow框架,OCRBig采用Tensorflow作为实现框架,调用Tensorflow的数据集加载接口,对OCRBig模型进行增量训练并更新该模型状态信息,可用变为训练中,当模型状态信息从训练中变回可用时表明模型训练结束,此时能够直接选择对外发布,或者上传测试数据检验模型训练后的效果,根据训练效果决定是对外发布还是取消发布,模型的发布状态相应地显示为已发布或未发布;
所述模板管理平台用于对模板的生命周期进行管理,包括提供模板创建、模板标注、模板编辑、模板删除和模板入库功能;模板创建功能用于新建模板,在上传模板的标准照片时按照提示要求填入模板的基本属性信息,同时生成包括创建时间、分辨率大小的属性内容;模板标注是为选中的模板进行结构化标注,在模板标准照片上通过选择待识别区域位置,同时赋予该位置特定的名称并设置相应的字段类型,此时针对该区域识别后的结果便跟名称进行了关联,识别内容具有了结构化信息,通过不断重复上述操作,模板标注功能为所述选中的模板建立了全部待识别内容的结构化信息;模板编辑功能能够在现有的模板基础上更新待识别区数量、位置以及字段类型和属性名信息;模板入库功能用于将选中模板的信息保存至数据库并为之建立相应目录和文件;模板删除功能用于将选中的模板以及相关内容全部删除。
本发明的有益效果是:本发明设计了一套基于OCR技术的文本和图片识别系统,该系统实现了对任意票据模板人工一次性标注从而实现对该类票据结构化识别、支持模型的训练、升级以及可根据部署硬件的性能差异及业务需求选择部署不同模型版本的功能,极大地减少了对新增版式样式票据识别时的工作量,节省了时间、人力和物力成本,提高了工作效率。同时也为人工智能技术在现实业务中的具体应用积累了经验。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和其他方面的优点将会变得更加清楚。
图1是本发明系统的文本识别模块操作流程示意图。
图2是本发明系统的训练平台模块操作流程示意图。
图3是系统架构结构图。
图4是系统组成图。
图5是文本识别模块功能组成图。
图6是训练平台模块功能组成图。
图7是模板管理平台模块功能组成图。
图8是基于自定义模板的OCR识别系统操作流程图。
具体实施方式
目前的OCR系统都是事先置入了固定版式的识别引擎,在遇到新的样式版式时则识别效果较差甚至显得无能为力,同时在处理格式化数据时显得能力不足,无法将识别结果同指定关键字进行绑定,不能对后续的识别结果深层次处理起到辅助作用。本系统通过研究格式化数据识别的相关技术,依托软件中提供的模板标注功能,成功实现了不固定版式的结构化数据识别功能,打破了传统OCR应用软件的识别模型需要专业技术人员进行专门定制开发的模式。
如图3、图4、图5、图6、图7、图8所示,本发明系统主要用于图片文本的快速识别,部署方便、操作简单,可实现常见票据识别的同时也能够支持不固定版式票据的结构化数据识别,包括身份证、增值税发票、营业执照、高铁票和常见地区汽车票以及自定义的票据表格等。本系统可以运行在服务器、客户端机器两部分,系统包含文本识别模块、训练平台模块和模板管理平台模块共计三个模块。
(一)文本识别
文本识别模块主要将图片识别成文本内容,主要包括指定类别识别、自判断识别和API接口说明三部分。
1)指定类别识别
在用户知晓待识别图片类别和模板并选中的情况下,系统直接从内置模型库中调用指定的OCR识别模型及版本进行结构化识别分析,并将返回的结构化内容叠加在模板上进行标准展示。以待识别图片为增值税发票为例,此时可直接选择模板类别为“增值税”并点击识别,识别完成后的结果则在增值税发票模板图上对应位置处进行叠加显示,形成统一格式的展示结果。
2)自判断识别
在用户无法清楚判断该票据所属具体分类和模板时可选择自判断识别,系统此时从内置模型库中调用模板分类模型对输入票据进行分类,判定其类别和所属模板,根据判定结果值决定是调用特定OCR识别模型还是多个相关OCR识别模型进行结构化识别分析,返回处理后的结构化结果。以待识别图片为增值税发票为例,如果选择自判断识别,系统经模板分类模型判定后得到的判定结果值增值税发票大于0.95,超过阀值,此时直接调用增值税发票模板对应的模型进行识别,后续过程等同于指定类别识别。
3)API接口说明
除了提供网页方式的操作之外,文本识别模块还提供了可用于脚本编程的API接口说明,用户可以在脚本中直接调用相应的API接口实现图片识别的全自动化过程。这种方式适用于大批量图片及识别结果需深层次处理的情况系统通过API接口对外暴露了服务,使得其他三方系统或用户程序中可直接调用该API获取文本和图片识别服务,取得识别后的结构化识别结果。在对票据进行批处理识别时API接口尤为有用,在用户自编的Python、JAVA、C++等程序中,指定要批处理识别的图片路径,然后发起HTTP请求对每一张待识别图片调用该API接口,将得到的结构化结果保存成JSON文件或是存入MYSQL、SQLSERVER等关系型数据库方便后续数据分析使用。
文本识别模块整个操作流程如图1所示。
(二)训练平台模块
训练平台模块管理文本识别模块中用于图文识别和模板分类判断相关的OCR识别模型和模板分类模型以及对应模型训练相关的数据集,为整个应用系统提供多种OCR识别模型、模板分类模型。训练平台模块用于模型管理、数据集管理、训练发布。
1)模型管理
模型管理主要用于管理和维护各类OCR识别模型和模板分类模型,支撑查看模型的历史版本情况以及修改时间、参数大小、当前选用情况等;既可以删除整个模型及其相关信息也可以删除指定模型的部分版本,实现模型的去冗余化功能;向模型库中增加新的模型以满足新的识别需要;向现有模型中增加新的版本信息;用于在不同的模型及其版本中进行来回切换,结合实际业务的需求(实时性、准确性、稳定性等)在不同的模型和各版本中选择满足现实需求的模型作为后台底层实现。
模型切换功能极大地丰富了整个OCR应用系统的灵活性。当实际业务对准确性敏感时(如票据类的业务识别),这时需要选择复合型模型从而提高准确率;当实际业务对时间敏感时(如图文转换等文字摘抄业务识别),这时需要优先选择实时性好的模型作为后端引擎;当单张待识别图片中版式、样式杂乱无规律时,这时对模型的稳定性要求较高,需要选取整体误差最小的模型而非那些在单一版式、样式上取得较好的模型作为实现。同时可借助于Docker、K8s等工具将OCR应用系统部署到边缘设备上,依据边缘设备的硬件能力部署合适的模型及服务,使得智能化水平向边缘侧延伸,提高识别效率。
系统参考了当前互联网公开的一些OCR识别模型和图片分类模型框架并对其进行了复现,在内部数据集上进行了训练和测试,同时使用公开成熟的模型压缩技术和手段对模型进行了压缩处理,目前针对增值税票据类系统内部支持OCRBig、OCRMedium和OCRSmall三种OCR识别模型以及Template、FastTamplate两者模板分类模型。上述模型的对比情况如表1所示。
表1
Figure BDA0002867953220000081
上述模型镜像均部署在系统镜像仓库中,取决于业务特点和硬件能力选择部署不同的模型版本。目前系统可在专用GPU服务器、边缘轻量级服务器、笔记本、台式工作站上部署上述模型,对于专用GPU服务器可以选择部署OCRBig和Template模型,识别精度高;对于笔记本和台式工作站可以选择部署OCRSmall和FastTemplate模型,识别速度快。
2)数据集管理
数据集,又称为数据集合或样本集合,在本系统中指相同类别和版式的样本图片数据。为了满足提高模型的精度、裁剪模型的大小需求从而达到模型再训练/更新的目的,对模型训练过程中所需的样本数据进行集中管理,主要包括数据上传、检索、下载和删除功能。数据上传功能主要用于为现有模型提供更多的样本数据,从而能够在后期在训练过程中进一步提高模型的精度;同时也可为新加入的识别模型提供原始样本数据,实现为自定义模板提供识别引擎的功能。数据检索功能用于在现有的数据集中快速查找发现想要的数据,满足特定场景下的需要(如选取特定类型的数据实现某些极端/边缘场景下的识别增强等)。数据下载功能则用于批量导出部分/全部数据,可用于对以前数据的纠正和进一步清洗等。数据删除功能用于删除指定的数据集。随着系统的不断使用,可以将识别过程中处理的图片制作成数据集。通过将图片名称命名为特定的模板名从而为模板分类模型产生了可用的数据集;通过请专业机构对上述图片进行文本标注,得到的结果及命名过的图片构成了指定OCR模型可用的数据集。
3)训练发布
训练发布主要用于训练新的模型或对现有的模型进行性能提升,主要包括模型的训练、测试和对外发布/取消发布功能。模型的训练功能主要基于已有的数据集进行增量训练用于提高模型的精度,提供了人工训练和基于策略配置进行训练的两种方式,后者可以根据新增模板的数据集大小进行灵活性配置。模型的测试主要用于对训练完的模型进行初步测试,通过指定测试集或上传测试样本的方式查看模型训练后的精度是否达到预期结果。对外发布则是将训练好的模型包装成为服务正式对外提供,使得模板管理平台模块中创建模板时可将模板与这些模型进行绑定关联,从而可在文本识别模块中可用,取消发布则是取消模板与这些模型的绑定关联,从文本识别模块中移除该模型,使得该类模板的识别不再可用这些模型作为底层实现。以系统的增值税票据识别为例,当系统中新增数据集(比如增值税票据)的数据集超过2GB时,可对OCRBig模型进行训练提高精度。系统加载Tensorflow框架(OCRBig采用Tensorflow作为实现框架),调用Tensorflow的数据集加载接口,对OCRBig模型进行增量训练并更新该模型状态信息(“可用”变为“训练中”),当模型状态信息从“训练中”变回“可用”时表明模型训练结束,此时可直接选择对外发布,或者上传测试数据检验模型训练后的效果,根据训练效果决定是对外发布还是取消发布,模型的发布状态相应地显示为“已发布”或“未发布”。
训练平台模块整个操作流程如图2所示。
(三)模板管理平台
模板管理平台主要用于处理任意版式的结构化信息识别,借助人工模板一次性标注(通过鼠标操作)能够辅助用户快速地对指定区域进行识别,结构化识别内容为后续数据处理提供数据来源。模板管理平台主要包括模板管理和字段类型管理两个部分。
1)模板管理
模板管理主要用于对模板的生命周期进行管理,包括模板创建、模板标注、模板编辑、模板删除和模板入库功能。模板创建功能用于新建模板,在上传模板的标准照片时按照提示要求填入模板的一些基本属性信息(如模板名称、模板归属类别等),同时生成如创建时间、分辨率大小等自动获取的属性内容;模板标注则是为选中的模板进行结构化标注,在模板标准照片上通过鼠标选择待识别区域位置,同时赋予该位置特定的名称并设置相应的字段类型,此时针对该区域识别后的结果便跟该名字进行了关联,识别内容具有了结构化信息,通过不断重复上述操作,模板标注为该模板建立了全部待识别内容的结构化信息;模板编辑能够在现有的模板基础上更新待识别区数量、位置以及字段类型和属性名等信息;模板入库功能则将选中模板的信息保存至数据库并为之建立相应目录和文件;模板删除将选中的模板以及相关内容全部删除。
通过建立相应的模板,后续针对相同版式的图片识别得到的结果便可以结构化形式进行返回,将这些结构化信息叠加到模板的标准照片上可以给出清晰的展示结果,同时这些结构化信息可按业务需要进一步保存,可用于后续数据分析和挖掘。以系统中现有的增值税票据模板创建为例,当创建模板时,选定模板类别为“票据”,指定模板名称为“增值税模板”,输入最小分辨率参数,点击确定进入模板标注页面;上传增值税模板,选择“标注锚点”,当前系统用鼠标选中了票据模板中四个位置作为锚点(“开票日期”、“收款”、“复核”和“开票人”);选择“标注识别区”,当前系统为增值税票据类选择了十四个待识别区(购买方的“名称”、“纳税人识别号”、“地址、电话”、“开户行及账号”、“货物或应税劳务、服务名称”、“单价”、“金额”、“税率”和“税额”以及销售方的“名称”、“纳税人识别号”、“地址、电话”和“开户行及账号”);选择“配置后台OCR识别模型”,从现有列表中选择OCRBig、OCRMedium和OCRSmall作为增值税票据类的可能底层实现;点击“模板入库”保存增值税票据模板的上述信息。
2)字段类型管理
字段类型管理主要用于定义待识别区域的数据类型,通过预置常见类型(数值、日期、文本等)以及提供自定义数据类型的方式更好地定义了待识别区域的内容信息,提高了后续模型训练及识别过程中的准确率。字段类型管理主要包括新增、编辑、删除和查看字段类型功能,实现对常见类型及自定义类型的常规维护操作。以系统中增值税票据模板为例,标注识别区中除“单价”、“金额”和“税额”为浮点数类型、“税率”为百分数类型外,其余数据类型均为文本,通过对增值税票据识别区的数据类型定义,识别后的结果便可进行相应转换、对于“税率”识别后的结果则可以去掉末尾的百分号,直接以小数形式进行显示,便于结果的保存。
与其它方法的对比
如表2所示,与传统的OCR应用软件相比,本发明在定制化和结构化识别方面取得了重大的突破。传统的OCR应用软件通过预置已训练好的深度学习模型用来对固定版式样式的图片进行识别,且识别后的内容多为普通文本,没有形成结构化的信息被后续业务处理程序分析和挖掘,动态扩展性和灵活性较差,而本发明通过定义、制作模板的方式实现了对任意版式样式图片识别的处理,且识别结果以格式化数据返回,通过将识别后的格式化数据与模板的标准模板图片进行叠加,可在前端页面上直接展示,给人清晰、统一的视觉感。另一方面,与传统的OCR应用软件相比,本发明还支持对模型进行维护和训练升级,同时可根据硬件的性能差异部署相对应的模型,提升了整个系统的适用性和通用性。
表2
Figure BDA0002867953220000111
基于OCR技术的文本和图片识别系统使用模式包括网页访问模式和API访问模式两种。具体实施包括以下步骤:
(一)网页访问模式
(1)安装部署:将系统所需的软件包拷贝至服务器上,运行软件包中的安装脚本进行系统软件安装。
(2)网页访问:打开局域网中任意主机,在浏览器中输入系统URL地址,登陆系统,成功后分别访问和使用系统中所有的功能。
(二)API访问模式
(1)安装部署:将系统所需的软件包拷贝至服务器上,运行软件包中的安装脚本进行系统软件安装。
(2)API访问:通过模拟终端或是在应用程序中访问系统对外暴露的接口使用系统中的功能。
本发明提供了一种基于OCR技术的文本和图片识别系统,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种基于OCR技术的文本和图片识别系统,其特征在于,所述系统包括文本识别模块、训练平台模块和模板管理平台模块;
所述文本识别模块用于指定类别识别、自判断识别和提供API接口说明;
所述训练平台模块用于模型管理、数据集管理、训练发布;
所述模板管理平台模块用于模板管理和字段类型管理。
2.根据权利要求1所述的系统,其特征在于,所述文本识别模块用于指定类别识别,包括:在用户知晓待识别图片类别并选中指定的模板情况下,系统从内置模型库中调用指定的OCR识别模型和版本进行识别分析,得到分析结果后,在有锚点的情况下根据锚点内容进行实际输入票据和模板票据之间的像素坐标转换,提取出待识别区域的内容并根据模板票据中对应位置处的数据类型进行格式转换,最后得到结构化的识别内容并展示在票据模板上。
3.根据权利要求2所述的系统,其特征在于,所述文本识别模块用于自判断识别,包括:在用户无法清楚判断票据所属具体分类和模板时,选择关联自判断识别,系统从内置模型库中调用模板分类模型对输入票据进行分类,判定其类别和所属模板,根据判定结果阀值决定是调用特定OCR识别模型或者调用两个以上相关OCR识别模型进行结构化识别分析,在经过模板分类模型判定后,返回综合处理的结构化结果并在票据模板上进行叠加展示。
4.根据权利要求3所述的系统,其特征在于,所述文本识别模块提供了Restful API接口,其他三方系统或用户程序中能够直接调用所述Restful API接口获取文本和图片识别服务,取得识别后的结构化识别结果。
5.根据权利要求4所述的系统,其特征在于,所述训练平台模块用于模型管理,包括:对底层OCR识别模型和模板分类模型的管理,基于系统内置模型库的模型基础数据,通过导入开源OCR识别模型和业务应用中产生的现有的OCR识别模型作为系统中的底层OCR识别模型,同时基于图像识别深度学习模型框架,加载OCR识别模型,经过分类器输出的模型实现作为系统中模板分类模型。
6.根据权利要求5所述的系统,其特征在于,所述训练平台模块用于数据集管理,其中,所述数据集包括用于底层OCR识别模型训练的数据集和用于模板分类模型的数据集。
7.根据权利要求6所述的系统,其特征在于,所述训练平台集成了深度学习开发框架,用于对内置模型库中的模型进行训练,当选中模型进行训练时,系统依据模型的实现框架调用对应的方法获取数据集,开始模型的训练;模型训练的触发由系统配置决定,支持的配置包括:如果新增数据集大于等于2GB,开始增量训练;如果新增数据集大于等于1.5GB,从已有的历史数据集中随机挑选0.5GB大小的数据集联合新增数据集共同增量训练;训练平台同时提供了模型的对外发布、取消对外发布功能,当对指定模型开启对外发布时,该模型作为底层OCR识别模型在文本识别模块中出现;当对指定模型取消对外发布时,该模型从文本识别模块中移除。
8.根据权利要求7所述的系统,其特征在于,所述模板管理平台用于待识别模板的一次性标注从而支撑与待识别模板同类型的结构化识别,模板管理平台用于模板标注,即为了识别同类型模板票据中特定文本域而选中的待识别区域,通过对待识别区域命名,选择符合模板票据内各个数据项的数据类型,从而为识别内容建立起了结构化关联信息;模板标注提供了锚点标注选项,通过标注指定内容、位置固定的区域作为参考点,实现输入票据图像与模板图像之间的像素位置转化。
9.根据权利要求8所述的系统,其特征在于,所述模板管理平台支持字段类型管理,用来定义模板票据中待识别区域的数据类型,根据被定义的数据类型,识别后的结果能够进行对应转化,将相同含义内容的表现形式转换成统一风格。
10.根据权利要求9所述的系统,其特征在于,当选中模型进行训练时,对模型训练过程中所需的样本数据进行集中管理,包括提供数据上传、检索、下载和删除功能;数据上传功能用于为现有模型提供更多的样本数据,同时也为新加入的识别模型提供原始样本数据,实现为自定义模板提供识别引擎的功能;数据检索功能用于在现有的数据集中快速查找发现想要的数据,满足特定场景下的需要;数据下载功能用于批量导出部分或全部数据,用于对以前数据的纠正和进一步清洗;数据删除功能用于删除指定的数据集;
随着系统的不断使用,将识别过程中处理的图片制作成数据集;通过将图片名称命名为特定的模板名从而为模板分类模型产生可用的数据集;通过对图片进行文本标注,得到的结果及命名过的图片构成了指定OCR模型可用的数据集;
系统加载Tensorflow框架,OCRBig采用Tensorflow作为实现框架,调用Tensorflow的数据集加载接口,对OCRBig模型进行增量训练并更新该模型状态信息,可用变为训练中,当模型状态信息从训练中变回可用时表明模型训练结束,此时能够直接选择对外发布,或者上传测试数据检验模型训练后的效果,根据训练效果决定是对外发布还是取消发布,模型的发布状态相应地显示为已发布或未发布;
所述模板管理平台用于对模板的生命周期进行管理,包括提供模板创建、模板标注、模板编辑、模板删除和模板入库功能;模板创建功能用于新建模板,在上传模板的标准照片时按照提示要求填入模板的基本属性信息,同时生成包括创建时间、分辨率大小的属性内容;模板标注是为选中的模板进行结构化标注,在模板标准照片上通过选择待识别区域位置,同时赋予该位置特定的名称并设置相应的字段类型,此时针对该区域识别后的结果便跟名称进行了关联,识别内容具有了结构化信息,通过不断重复上述操作,模板标注功能为所述选中的模板建立了全部待识别内容的结构化信息;模板编辑功能能够在现有的模板基础上更新待识别区数量、位置以及字段类型和属性名信息;模板入库功能用于将选中模板的信息保存至数据库并为之建立相应目录和文件;模板删除功能用于将选中的模板以及相关内容全部删除。
CN202011588284.2A 2020-12-29 2020-12-29 一种基于ocr技术的文本和图片识别系统 Active CN112507973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011588284.2A CN112507973B (zh) 2020-12-29 2020-12-29 一种基于ocr技术的文本和图片识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011588284.2A CN112507973B (zh) 2020-12-29 2020-12-29 一种基于ocr技术的文本和图片识别系统

Publications (2)

Publication Number Publication Date
CN112507973A true CN112507973A (zh) 2021-03-16
CN112507973B CN112507973B (zh) 2022-09-06

Family

ID=74951803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011588284.2A Active CN112507973B (zh) 2020-12-29 2020-12-29 一种基于ocr技术的文本和图片识别系统

Country Status (1)

Country Link
CN (1) CN112507973B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220430A (zh) * 2021-04-28 2021-08-06 上海交大慧谷通用技术有限公司 一种电子卷宗材料上传和识别并行的方法及系统
CN113313170A (zh) * 2021-05-28 2021-08-27 中国人民解放军战略支援部队航天工程大学 基于人工智能的全时全域训练大数据平台
CN113568740A (zh) * 2021-07-16 2021-10-29 开放智能机器(上海)有限公司 基于联邦学习的模型聚合方法、系统、设备及介质
CN114078254A (zh) * 2022-01-07 2022-02-22 华中科技大学同济医学院附属协和医院 一种基于机器人的智能数据采集系统
CN116403096A (zh) * 2023-06-06 2023-07-07 爱拜尔(北京)科技有限公司 一种基于ocr票据识别的智能财务工作方法及系统
CN116958996A (zh) * 2023-07-24 2023-10-27 凯泰铭科技(北京)有限公司 Ocr信息提取方法、系统及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110674815A (zh) * 2019-09-29 2020-01-10 四川长虹电器股份有限公司 基于深度学习关键点检测的发票图像畸变校正方法
CN110751143A (zh) * 2019-09-26 2020-02-04 中电万维信息技术有限责任公司 一种电子发票信息的提取方法及电子设备
WO2020155763A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 Ocr识别方法及其电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
WO2020155763A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN110751143A (zh) * 2019-09-26 2020-02-04 中电万维信息技术有限责任公司 一种电子发票信息的提取方法及电子设备
CN110674815A (zh) * 2019-09-29 2020-01-10 四川长虹电器股份有限公司 基于深度学习关键点检测的发票图像畸变校正方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220430A (zh) * 2021-04-28 2021-08-06 上海交大慧谷通用技术有限公司 一种电子卷宗材料上传和识别并行的方法及系统
CN113313170A (zh) * 2021-05-28 2021-08-27 中国人民解放军战略支援部队航天工程大学 基于人工智能的全时全域训练大数据平台
CN113313170B (zh) * 2021-05-28 2024-02-27 中国人民解放军战略支援部队航天工程大学 基于人工智能的全时全域训练大数据平台
CN113568740A (zh) * 2021-07-16 2021-10-29 开放智能机器(上海)有限公司 基于联邦学习的模型聚合方法、系统、设备及介质
CN114078254A (zh) * 2022-01-07 2022-02-22 华中科技大学同济医学院附属协和医院 一种基于机器人的智能数据采集系统
CN116403096A (zh) * 2023-06-06 2023-07-07 爱拜尔(北京)科技有限公司 一种基于ocr票据识别的智能财务工作方法及系统
CN116403096B (zh) * 2023-06-06 2023-10-24 爱拜尔(北京)科技有限公司 一种基于ocr票据识别的智能财务工作方法及系统
CN116958996A (zh) * 2023-07-24 2023-10-27 凯泰铭科技(北京)有限公司 Ocr信息提取方法、系统及设备

Also Published As

Publication number Publication date
CN112507973B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN112507973B (zh) 一种基于ocr技术的文本和图片识别系统
US11188319B2 (en) Systems and methods for entry point-based code analysis and transformation
CN112364223B (zh) 一种数字档案馆系统
US10970534B2 (en) Document processing system capture flow compiler
US20030204637A1 (en) Method and apparatus for generating compilable application programs
CN107358232A (zh) 基于插件的发票识别方法、及识别与管理系统
CN105608066A (zh) 一种证据报告生成方法及装置
CN112015412A (zh) 基于表单引擎生成业务模型的装置及方法
CN103455896B (zh) 基于物联网的无纸化装配质量控制方法
CN110471892B (zh) Revit文件数据收集方法和相关装置
US11556702B2 (en) Orchestration of crud operations for a hierarchical web service data model in a spreadsheet
US11182439B2 (en) Automatic data capture of desired data fields and generation of metadata based on captured data fields
CN110956029B (zh) 一种技术文档处理方法和系统
JP7055064B2 (ja) データベースマイグレーション支援システム及びプログラム
CN114297312A (zh) 多人协同操作数据库进行专利数据标引的方法及装置
CN117420986A (zh) 一种采用基于React Native的灰度热部署方式的营销中台系统
CN116343210A (zh) 档案数字化的管理方法及装置
CN114023415B (zh) 基于在线可编辑定制化的动态文档模版生成方法及系统
CN105913071A (zh) 信息处理装置、信息处理系统、信息处理方法
US20210248661A1 (en) Image processing apparatus, image processing method, program, and image processing system
CN114895955A (zh) 一种低代码平台元数据版本控制的方法、装置及设备
CN112508535A (zh) 一种基于jbpm的用于审批的工作流的改进方法及装置
CN112612841A (zh) 一种知识抽取构建方法、装置、设备及存储介质
CN113378521B (zh) 基于工作日报的拜访记录自动填写方法、装置及存储介质
CN115205631A (zh) 一种图像辅助标注系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant