CN109190594A - 光学字符识别系统及信息提取方法 - Google Patents

光学字符识别系统及信息提取方法 Download PDF

Info

Publication number
CN109190594A
CN109190594A CN201811113489.8A CN201811113489A CN109190594A CN 109190594 A CN109190594 A CN 109190594A CN 201811113489 A CN201811113489 A CN 201811113489A CN 109190594 A CN109190594 A CN 109190594A
Authority
CN
China
Prior art keywords
information
text information
text
optical character
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811113489.8A
Other languages
English (en)
Inventor
赵淦森
列海权
徐岗
赵淑娴
纪求华
黄伟雄
李振宇
林成创
李胜龙
蔡斯凯
梁昕
曲成
唐境灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Weihai Big Data Technology Co Ltd
Original Assignee
Guangdong Weihai Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Weihai Big Data Technology Co Ltd filed Critical Guangdong Weihai Big Data Technology Co Ltd
Priority to CN201811113489.8A priority Critical patent/CN109190594A/zh
Publication of CN109190594A publication Critical patent/CN109190594A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本公开提供一种光学字符识别系统及信息提取方法,涉及光学字符识别领域。本公开提供的光学字符识别系统及信息提取方法在光学字符识别系统存储不同类别的文本信息的信息排版方式,以及不同信息排版方式对应的提取信息的模板方法,在提取信息时,将获得待提取的信息文件化为文本信息,再对文本信息进行分类,得到文本信息所属类别,并根据所述文本信息所属类别,得到所述文本信息的信息排版方式以及对应的提取信息的模板方法,通过调用得到的模板方法提取文本信息中的信息;本公开提供的光学字符识别系统及信息提取方法简化文本信息的分类及文本信息的信息提取操作,提高了工作效率。

Description

光学字符识别系统及信息提取方法
技术领域
本公开涉及光学字符识别领域,具体而言,涉及一种光学字符识别系统及信息提取方法。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机等)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。主要针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。经研究,现有的光学字符识工作效率有待提升。
发明内容
有鉴于此,本公开提供一种光学字符识别系统及信息提取方法。
本公开提供一种光学字符识别系统,包括信息提取装置,所述信息提取装置包括存储模块、识别模块、分类模块及提取模块。
所述存储模块用于储存不同类别的文本信息的信息排版方式,以及不同信息排版方式对应的提取信息的模板方法。
所述识别模块用于识别待提取的信息文件并将所述信息文件转化为文本信息。
所述分类模块用于对所述文本信息进行分类,得到所述文本信息所属类别。
所述提取模块用于根据所述文本信息所属类别,得到所述文本信息的信息排版方式以及对应的提取信息的模板方法并调用所述模板方法提取所述文本信息中的信息。
进一步的,所述光学字符识别系统还包括信息分类装置,所述信息提取装置还包括训练模块,所述训练模块包括分类器模型。
所述信息分类装置用于对不同的信息文件进行分类,得到不同的信息文件的类别。
所述识别模块用于对不同的信息文件进行识别并转化为相应的文本信息,并根据不同的信息文件的类别对相应的文本信息进行分类标识。
所述训练模块用于调用所述分类器模型并根据分类标识对不同的文本信息进行训练,得到文本分类模型。
所述分类模块用于根据所述文本分类模型对所述文本信息进行分类。
进一步的,所述光学字符识别系统还包括数据库。
所述数据库用于将提取到的所述文本信息中的信息进行保存。
本公开提供一种信息提取方法,应用于上述的光学字符识别系统,所述光学字符识别系统预存有不同类别的文本信息的信息排版方式,以及不同信息排版方式对应的提取信息的模板方法,所述方法包括:
获得待提取的信息文件,将所述信息文件转化为文本信息。
调用文本分类模型,对所述文本信息进行分类,得到所述文本信息所属类别。
根据所述文本信息所属类别,得到所述文本信息的信息排版方式以及对应的提取信息的模板方法。
调用得到的所述模板方法提取所述文本信息中的信息。
进一步的,所述方法还包括:
将提取到的所述文本信息中的信息进行保存。
本公开提供一种光学字符识别系统,包括信息提取装置,所述信息提取装置包括存储模块、识别模块、分类模块及提取模块。
所述存储模块用于存储信息提取模型;其中,所述信息提取模型通过对不同类别的文本信息中的信息进行分类标识并根据分类标识对文本信息中的信息进行训练获得。
所述识别模块用于识别待提取的信息文件并将所述信息文件转化为文本信息。
所述分类模块用于对所述文本信息进行分类;得到所述文本信息所属类别。
所述提取模块用于根据所述文本信息所属类别,调用所述信息提取模型提取所述文本信息中的信息。
进一步的,所述光学字符识别系统还包括信息分类装置,所述信息提取装置还包括训练模块,所述训练模块包括分类器模型。
所述信息分类装置用于对不同的信息文件进行分类,得到不同的信息文件的类别。
所述识别模块用于对不同的信息文件进行识别并转化为相应的文本信息,并根据不同的信息文件的类别对相应的文本信息进行分类标识。
所述训练模块用于调用所述分类器模型并根据分类标识对不同的文本信息进行训练,得到文本分类模型。
所述分类模块用于根据所述文本分类模型对所述文本信息进行分类。
进一步的,所述光学字符识别系统还包括数据库。
所述数据库用于将提取到的所述文本信息中的信息进行保存。
本公开提供一种信息提取方法,应用于上述的光学字符识别系统,所述光学字符识别系统存储有信息提取模型;其中,所述信息提取模型通过对不同类型的文本信息中的信息进行分类标识并根据分类标识对文本信息中的信息进行训练获得;所述方法包括:
获得待提取的信息文件,将所述信息文件转化为文本信息。
调用文本分类模型,对所述文本信息进行分类,得到所述文本信息所属类别。
根据所述文本信息所属类别,调用所述信息提取模型提取所述文本信息中的信息。
进一步的,所述方法还包括:
将提取到的所述文本信息中的信息进行保存。
本公开提供的光学字符识别系统及信息提取方法,在光学字符识别系统存储不同类别的文本信息的信息排版方式,以及不同信息排版方式对应的提取信息的模板方法,在提取信息时,将获得待提取的信息文件化为文本信息,再对文本信息进行分类,得到文本信息所属类别,并根据文本信息所属类别,得到文本信息的信息排版方式以及对应的提取信息的模板方法,通过调用得到的模板方法提取文本信息中的信息。本公开提供的光学字符识别系统及信息提取方法简化文本信息的分类及文本信息的信息提取操作,提高了工作效率,为后续的数据挖掘和数据分析奠定基础。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本公开所提供的光学字符识别系统的方框示意图。
图2为本公开所提供的信息提取装置的方框示意图。
图3为本公开所提供的信息提取方法的一种流程示意图。
图4为本公开所提供的信息提取方法的另一种流程示意图。
图标:10-信息提取装置;11-存储模块;12-识别模块;13-分类模块;14-提取模块;15-训练模块;20-信息分类装置;30-数据库。
具体实施方式
下面将结合本公开中附图,对本公开中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
随着扫描仪、数码相机和日益提高的手机像素的普及,政府机构和企业已经日积月累大量的票据和历史资料等扫描件信息。但是这些非结构化的数据只是单纯的堆积存放在角落里,未能得到很好利用起来,因为如果把这些数据分门别类再统计取出其中需要的信息存放到数据库中,需要耗费大量的人力物力,最终得不偿失。在此背景下,光学字符识别(Optical Character Recognition,OCR)的识别过程就是图像信息还原成文本信息的过程,可以较为效率把大量的扫描件的图像信息转换为文本信息,并利用这些信息进行统计分析挖掘出有用的信息。
但是,目前市场上采用OCR将图片转成文字后大多没有自动分类,仍需人工手动分类,再进一步地制定出规则筛选出其中需要的信息,并没有成熟的信息提取产品,想要结构化数据和进一步分析挖掘其中的信息点,还得人为的抽取其中关键的信息点,并进行整理归类存储,当产生新的图片等扫描件时仍需人工重新整理归类,手动提取关键信息进行储存,步骤繁琐,耗时耗力。
基于上述研究,本公开针对基于某一政府机构和企业较为固定业务场景下的扫描文件图片等,提供一种光学字符识别系统及信息提取方法。
请结合参阅图1和图2,本公开提供的一种光学字符识别系统,包括信息提取装置10,所述信息提取装置10包括存储模块11、识别模块12、分类模块13及提取模块14。
所述存储模块11用于储存不同类别的文本信息的信息排版方式,以及不同信息排版方式对应的提取信息的模板方法。
其中,不同类别的文本信息的信息排版方式不同,针对每个类别的文本信息的信息排版方式都制定信息提取的模板方法,即每个类别的文本信息对应一套提取信息的模板方法。
所述识别模块12用于识别待提取的信息文件并将所述信息文件转化为文本信息。
其中,待提取的信息文件可以为扫描件文件或者图片等,所述识别模块12在获得待提取的信息文件后,对待提取的信息文件进行识别并转化为文本信息。
所述分类模块13用于对所述文本信息进行分类,得到所述文本信息所属类别。
所述提取模块14用于根据所述文本信息所属类别,得到所述文本信息的信息排版方式以及对应的提取信息的模板方法并调用所述模板方法提取所述文本信息中的信息。
其中,所述提取模块14根据所述文本信息所属类别,在所述存储模块11中得到所述文本信息的信息排版方式以及对应的提取信息的模板方法,并通过调用该模板方法提取所述文本信息中的信息。
进一步的,所述光学字符识别系统还包括信息分类装置20,所述信息提取装置10还包括训练模块15,所述训练模块15包括分类器模型。
所述信息分类装置20用于对不同的信息文件进行分类,得到不同的信息文件的类别。
所述识别模块12用于对不同的信息文件进行识别并转化为相应的文本信息,并根据不同的信息文件的类别对相应的文本信息进行分类标识。
其中,所述信息分类装置20对不同的信息文件进行分类后,得到不同的信息文件的类别,所述识别模块12对不同的信息文件进行识别,将不同的信息文件转化为相应的文本信息,并根据不同的信息文件的类别对相应的文本信息进行分类标识,即所述识别模块12将信息文件转化为文本信息后,根据信息文件的类别对文本信息进行分类标识,进而使信息文件与文本信息的类别对应。
所述训练模块15用于调用所述分类器模型并根据分类标识对不同的文本信息进行训练,得到文本分类模型。
其中,分类器模型的种类可以有多种,其中,可选的有文本卷积神经网络(textConvolutional Neural Networks,textCNN)模型、循环卷积神经网络(Recurrent NeuralNetworks,RCNN)模型、长短期记忆网络(Long Short-Term Memory,LSTM)模型以及支持向量机(Support Vector Machine,SVM)模型等,其中,分类器模型的选择可通过尝试多种分类器模型,根据交叉验证的结果来获取性能最好的模型。在选择好分类器模型后,所述训练模块15通过调用该分类器模型根据分类标识对不同的文本信息进行训练,得到文本分类模型。
所述分类模块13用于根据所述文本分类模型对所述文本信息进行分类。
其中,所述训练模块15根据分类标识对不同的文本信息训练得到文本分类模型后,所述分类模块13在后续过程中每次对新的待提取的文件信息进行分类时,调用该文本分类模型,根据所述文本分类模型对待提取的文本信息进行分类,得到文本信息所属类别。
进一步的,所述光学字符识别系统还包括数据库30。
所述数据库30用于将提取到的所述文本信息中的信息进行保存。
其中,在所述提取模块14提取到信息过后,将提取到的信息进行入库保存。可选的,在本公开中,还可以将提取到的信息进行其他操作,例如,进行信息传输或者进行信息汇总等操作。
请结合参阅图3,是本公开提供的应用于光学字符识别系统的信息提取方法的流程示意图。本公开提供的光学字符识别系统存有不同类别的文本信息的信息排版方式,以及不同信息排版方式对应的提取信息的模板方法,下面将对图3所示的具体流程进行详细阐述。
步骤S10:获得待提取的信息文件,将所述信息文件转化为文本信息。
其中,该步骤S10可由所述信息提取装置10的识别模块12执行。关于该步骤S10的描述具体可参对上述对所述信息提取装置10的识别模块12的描述。
步骤S11:调用文本分类模型,对所述文本信息进行分类,得到所述文本信息所属类别。
其中,该步骤S11可由所述信息提取装置10的分类模块13执行。所述文本分类模型通过所述训练模块15通过调用所述分类器模型并根据分类标识对不同的文本信息进行训练而获得的,在所述训练模块15训练得到文本分类模型后,所述分类模块13在后续过程中每次对新的待提取的文件信息进行分类时,调用该文本分类模型,根据所述文本分类模型对待提取的文本信息进行分类,得到文本信息所属类别。
步骤S12:根据所述文本信息所属类别,得到所述文本信息的信息排版方式以及对应的提取信息的模板方法。
步骤S13:调用得到的所述模板方法提取所述文本信息中的信息。
其中,该步骤S12和步骤S14可由所述信息提取装置10的提取模块14执行。关于该步骤S10的描述具体可参对上述对所述信息提取装置10的提取模块14的描述。
步骤S14:将提取到的所述文本信息中的信息进行保存。
其中,将提取到的信息保存在所述光学字符识别系统的数据库30中。可选的,在本公开中,还可以将提取到的信息进行其他操作,例如,进行信息传输或者进行信息汇总等操作。
作为一种可选的具体实施方式,在实际应用中,以政府和大多数企业都会用到的发票据扫描件为实例来详细描述本公开所提供的光学字符识别系统及信息提取方法的实施过程。
常用的报销发票据一般可分为办公费(名片费用、购买日常办公用品)、差旅费(出差花费的车费、餐费、住宿费、出差标明开车出去的油费和过路费)、团队活动经费(团队活动支出的餐费、车费等费用)、会议费(由会议召开单位承担,支付的会议住宿费、伙食费、会议场地租金、交通费、文件印刷费)、交通费(地铁、公交、的士、滴滴的相关费用)、招待费(餐费、水果费、茶点费等)、通讯费(电话费)、邮寄费(快递费)共八大类。需要提取的信息是类型、购方名称、购方纳税人识别号、销方名称、发票号、费用、时间、地点,事件。在实际应用中,以政府和大多数企业会存储有很多这样的历史票据。
通过光学字符识别系统中的信息分类装置20将历史票据进行分类,通过光学字符识别系统中的信息提取装置10中的识别模块12识别历史票据,将历史票据转化为文本信息,并根据历史票据的分类对文本信息进行分类标识。
选用分类器模型,根据分类标识对不同票据的文本信息进行训练,得到文本分类模型。
基于八大类的发票制定了提取信息的八套模板规则方法,需要提取的信息是类型、购方名称、购方纳税人识别号、销方名称、发票号、费用、时间、地点,事件。将提取的信息一一对应赋值给指定的对象,该对象的字段名称和已建好的数据库30中A表的字段也是一一对应,最终把该对象批量插入到数据库30中A表当中。
至此一整套的流程方法预先准备工作就处理好了,即文本分类模型训练好后及提取信息的模板方法制定好后,将文本分类模型和提取信息的模板方法存储在光学字符识别系统。
若有新的发票扫描件,通过识别模块12将新的发票扫描件转化为文本信息,通过文本分类模型对文本信息进行分类,得到文本信息所属类别,提取模块14根据文本信息所属类别得到对应的模板方法,并调用该模板方法提取关键信息,然后插入到数据库30中的A表当中。
本公开提供的光学字符识别系统及信息提取方法,对新的信息文件进行识别并转化为文本信息,对文本信息自动划分好类别,并且通过预先制定的模板方法提取出其中关键信息,自动存入数据库30当中,简化操作,提高了工作效率。
针对排版方式不确定的信息文件,本公开提供另一种光学字符识别系统包括另一种信息提取方式。
本公开提供的另一种光学字符识别系统,包括信息提取装置10,所述信息提取装置10包括存储模块11、识别模块12、分类模块13及提取模块14。
所述存储模块11用于存储信息提取模型;其中,所述信息提取模型通过对不同类别的文本信息中的信息进行分类标识并根据分类标识对文本信息中的信息进行训练获得。
其中,在不同类别的文本信息中,对文本信息中的信息进行分类标识,使用开源的自然语言处理工具汉语言处理包(Han Language Processing,HanLP)对文本信息中的信息进行训练得到所述信息提取模型,通过所述信息提取模型提取文本信息中的关键信息。
通过所述信息提取模型提取信息的步骤可以分为四个步骤:一、中文分词,分词就是每个字在构造成词的时候,都有一个确定的位置,即对于词中的一个字来说,它可能是词首字、词中字、词尾字或单字词一个身份,使用所述信息提取模型里感知机的中文分词进行分词;二、词性标注,在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,其中分词加上词性标注就是把一个字符串(String)的信息转成不同词性的数组;三、命名实体识别(Named Entity Recognition,NER),命名实体识别需要确定命名实体(标注信息)的边界和类别,所述信息提取模型提供了一种基于线性模型的命名实体识别,通过重载命名实体训练器(NERTrainer)的创建命名新标签方法(createTagSet)来支持任意NER类型;四、确定好命名实体的边界和类别,命名实体就能被识别,就可以提取信息,通常是寻找所有(e1,relation,e2)形式的三元组,其中e1和e2是命名实体,relation是表示两者关系的字符串。而relation就是需要提取的关键信息。
本公开提供的另一种光学字符识别系统,与上述描述中本公开提供的光学字符识别系统的不同点在于,信息提取的方式不同,本公开提供的另一种光学字符识别系统针对排版方式不确定的文本信息,通过信息提取模型提取文本信息中的信息;而上述描述中本公开提供的光学字符识别系统针对排版方式确定的文本信息,通过制定信息提取模板方法提取文本信息中的信息。除此之外,本公开提供的另一种光学字符识别系统实现原理与过程与上述描述中本公开提供的光学字符识别系统类似,在此不再赘述。
请参阅图4,是本公开提供的应用于另一种光学字符识别系统的信息提取方法的流程示意图,本公开提供的另一种光学字符识别系统存储有信息提取模型;其中,所述信息提取模型通过对不同类型的文本信息中的信息进行分类标识并根据分类标识对文本信息中的信息进行训练获得。下面将对图4所示的具体流程进行详细阐述。
步骤S20:获得待提取的信息文件,将所述信息文件转化为文本信息;
步骤S21:调用文本分类模型,对所述文本信息进行分类,得到所述文本信息所属类别;
步骤S22:根据所述文本信息所属类别,调用所述信息提取模型提取所述文本信息中的信息。
步骤S23:将提取到的所述文本信息中的信息进行保存
本公开提供的应用于另一种光学字符识别系统的信息提取方法与上述描述中本公开提供的应用于光学字符识别系统的信息提取方法的不同点在于,信息提取的方式不同,本公开提供的应用于另一种光学字符识别系统的信息提取方法针对排版方式不确定的文本信息,通过信息提取模型提取文本信息中的信息,上述描述中本公开提供的应用于光学字符识别系统的信息提取方法针对排版方式确定的文本信息,通过制定信息提取模板方法提取文本信息中的信息。除此之外,本公开提供的应用于另一种光学字符识别系统的信息提取方法与上述描述中本公开提供的应用于光学字符识别系统的信息提取方法的实现原理与过程相似,在此不再赘述。
作为一种可选的具体实施方式,在实际应用中,以政府和大多数企业都会用到的发票据扫描件为实例来详细描述本公开所提供的另一种光学字符识别系统及信息提取方法的实施过程。
在本实施例中,票据信息的排版方式不确定,票据的类别分为办公费、差旅费、团队活动经费、会议费、交通费、通讯费、邮寄费、招待费八种,通过另一种光学字符识别系统中的信息提取装置10中的识别模块12识别历史票据,将历史票据转化为文本信息,并根据历史票据的分类对文本信息进行分类标识。
选用分类器模型,根据分类标识对不同票据的文本信息进行训练,得到文本分类模型。
在文本信息中标注需要提取的命名实体(需要提取的信息),如在票据里命名实体:票据类型、购方名称、购方纳税人识别号、销方名称、发票号、费用、时间、地点,事件。使用开源的自然语言处理工具HanLP里的感知机分词,感知性词性标注,把文本信息分为不同词性的数组。然后使用HanLP工具里的基于线性模型的命名实体识别,添加标注确定好的命名实体。通过词法分析器遍历寻找所有(e1,relation,e2)形式的三元组,其中e1和e2是所有的命名实体,relation是表示两者关系的字符串,而relation就是需要提取的信息,进而,通过HanLP对文本信息中的标注信息进行训练获得信息提取模型。
至此,文本分类模型及信息提取模型的方法流程已经制定好,将文本分类模型和信息提取模型存储在另一种光学字符识别系统,若有新的发票扫描件,通过识别模块12将新的发票扫描件转化为文本信息,通过文本分类模型对文本信息进行分类,得到文本信息所属类别,提取模块14调用信息提取模型提取文本信息中的信息,并存储到数据库30中。
可以理解地,在实际应用中,信息提取模型以及信息提取的模板方法可以同时存储在同一光学字符识别系统中,根据实际情况,选择合适提取方式。
综上,本公开提供的光学字符识别系统及信息提取方法,针对已知信息文件的排版方式,制定了信息提取的模板方法提取信息,针对未知信息文件的排版方式,制定了信息提取模型提取信息,同时针对文本信息的类别制定了文本分类模型,自动识别文本信息的类别。本公开提供的光学字符识别系统及信息提取方法高效解决后续新的信息文件的自动化分类和信息提取,为后续的数据挖掘和数据分析奠定基础,简化文本信息的分类及信息提取的操作,提高工作效率。
在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本公开的可选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种光学字符识别系统,其特征在于,包括信息提取装置,所述信息提取装置包括存储模块、识别模块、分类模块及提取模块;
所述存储模块用于储存不同类别的文本信息的信息排版方式,以及不同信息排版方式对应的提取信息的模板方法;
所述识别模块用于识别待提取的信息文件并将所述信息文件转化为文本信息;
所述分类模块用于对所述文本信息进行分类,得到所述文本信息所属类别;
所述提取模块用于根据所述文本信息所属类别,得到所述文本信息的信息排版方式以及对应的提取信息的模板方法并调用所述模板方法提取所述文本信息中的信息。
2.根据权利要求1所述的光学字符识别系统,其特征在于,所述光学字符识别系统还包括信息分类装置,所述信息提取装置还包括训练模块,所述训练模块包括分类器模型;
所述信息分类装置用于对不同的信息文件进行分类,得到不同的信息文件的类别;
所述识别模块用于对不同的信息文件进行识别并转化为相应的文本信息,并根据不同的信息文件的类别对相应的文本信息进行分类标识;
所述训练模块用于调用所述分类器模型并根据分类标识对不同的文本信息进行训练,得到文本分类模型;
所述分类模块用于根据所述文本分类模型对所述文本信息进行分类。
3.根据权利要求1所述的光学字符识别系统,其特征在于,所述光学字符识别系统还包括数据库;
所述数据库用于将提取到的所述文本信息中的信息进行保存。
4.一种信息提取方法,其特征在于,应用于权利要求1-3任意一项所述的光学字符识别系统,所述光学字符识别系统预存有不同类别的文本信息的信息排版方式,以及不同信息排版方式对应的提取信息的模板方法,所述方法包括:
获得待提取的信息文件,将所述信息文件转化为文本信息;
调用文本分类模型,对所述文本信息进行分类,得到所述文本信息所属类别;
根据所述文本信息所属类别,得到所述文本信息的信息排版方式以及对应的提取信息的模板方法;
调用得到的所述模板方法提取所述文本信息中的信息。
5.根据权利要求4所述的信息提取方法,其特征在于,所述方法还包括:
将提取到的所述文本信息中的信息进行保存。
6.一种光学字符识别系统,其特征在于,包括信息提取装置,所述信息提取装置包括存储模块、识别模块、分类模块及提取模块;
所述存储模块用于存储信息提取模型;其中,所述信息提取模型通过对不同类别的文本信息中的信息进行分类标识并根据分类标识对文本信息中的信息进行训练获得;
所述识别模块用于识别待提取的信息文件并将所述信息文件转化为文本信息;
所述分类模块用于对所述文本信息进行分类;得到所述文本信息所属类别;
所述提取模块用于根据所述文本信息所属类别,调用所述信息提取模型提取所述文本信息中的信息。
7.根据权利要求6所述的光学字符识别系统,其特征在于,所述光学字符识别系统还包括信息分类装置,所述信息提取装置还包括训练模块,所述训练模块包括分类器模型;
所述信息分类装置用于对不同的信息文件进行分类,得到不同的信息文件的类别;
所述识别模块用于对不同的信息文件进行识别并转化为相应的文本信息,并根据不同的信息文件的类别对相应的文本信息进行分类标识;
所述训练模块用于调用所述分类器模型并根据分类标识对不同的文本信息进行训练,得到文本分类模型;
所述分类模块用于根据所述文本分类模型对所述文本信息进行分类。
8.根据权利要求6所述的光学字符识别系统,其特征在于,所述光学字符识别系统还包括数据库;
所述数据库用于将提取到的所述文本信息中的信息进行保存。
9.一种信息提取方法,其特征在于,应用于权利要求6-8任意一项所述的光学字符识别系统,所述光学字符识别系统存储有信息提取模型;其中,所述信息提取模型通过对不同类型的文本信息中的信息进行分类标识并根据分类标识对文本信息中的信息进行训练获得;所述方法包括:
获得待提取的信息文件,将所述信息文件转化为文本信息;
调用文本分类模型,对所述文本信息进行分类,得到所述文本信息所属类别;
根据所述文本信息所属类别,调用所述信息提取模型提取所述文本信息中的信息。
10.根据权利要求9所述的信息提取方法,其特征在于,所述方法还包括:
将提取到的所述文本信息中的信息进行保存。
CN201811113489.8A 2018-09-21 2018-09-21 光学字符识别系统及信息提取方法 Pending CN109190594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811113489.8A CN109190594A (zh) 2018-09-21 2018-09-21 光学字符识别系统及信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811113489.8A CN109190594A (zh) 2018-09-21 2018-09-21 光学字符识别系统及信息提取方法

Publications (1)

Publication Number Publication Date
CN109190594A true CN109190594A (zh) 2019-01-11

Family

ID=64909563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811113489.8A Pending CN109190594A (zh) 2018-09-21 2018-09-21 光学字符识别系统及信息提取方法

Country Status (1)

Country Link
CN (1) CN109190594A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110622A (zh) * 2019-04-23 2019-08-09 武汉工程大学 一种基于图像处理的医疗文本检测方法、系统和存储介质
CN110163257A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 抽取结构化信息的方法、装置、设备和计算机存储介质
CN110442842A (zh) * 2019-06-20 2019-11-12 平安科技(深圳)有限公司 合同内容的提取方法及装置、计算机设备、存储介质
CN110598922A (zh) * 2019-08-30 2019-12-20 深圳市新系区块链技术有限公司 车辆油费报销方法及装置、服务器和电子设备
CN111461100A (zh) * 2020-03-31 2020-07-28 重庆农村商业银行股份有限公司 一种票据识别方法、装置、电子设备和存储介质
CN111861731A (zh) * 2020-07-31 2020-10-30 重庆富民银行股份有限公司 基于ocr的贷后检查系统及方法
WO2021051869A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 文本数据排版方法、装置、计算机设备及存储介质
CN114842474A (zh) * 2022-05-09 2022-08-02 北京百度网讯科技有限公司 文字识别方法、装置、电子设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140270536A1 (en) * 2013-03-13 2014-09-18 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US20160259973A1 (en) * 2013-03-13 2016-09-08 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
CN107220648A (zh) * 2017-04-11 2017-09-29 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器
CN107256485A (zh) * 2017-05-27 2017-10-17 北京小米移动软件有限公司 交易记录信息获取方法、装置及计算机可读存储介质
US20170324874A1 (en) * 2015-11-13 2017-11-09 Kabushiki Kaisha Toshiba Image forming apparatus and method for displaying template in image forming apparatus
CN107679070A (zh) * 2017-08-22 2018-02-09 科大讯飞股份有限公司 一种智能阅读推荐方法与装置、电子设备
CN108182172A (zh) * 2017-12-07 2018-06-19 中仁车汇科技发展(深圳)有限公司 一种信息提取的方法和设备以及计算机存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140270536A1 (en) * 2013-03-13 2014-09-18 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US20160259973A1 (en) * 2013-03-13 2016-09-08 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US20170324874A1 (en) * 2015-11-13 2017-11-09 Kabushiki Kaisha Toshiba Image forming apparatus and method for displaying template in image forming apparatus
CN107220648A (zh) * 2017-04-11 2017-09-29 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器
CN107256485A (zh) * 2017-05-27 2017-10-17 北京小米移动软件有限公司 交易记录信息获取方法、装置及计算机可读存储介质
CN107679070A (zh) * 2017-08-22 2018-02-09 科大讯飞股份有限公司 一种智能阅读推荐方法与装置、电子设备
CN108182172A (zh) * 2017-12-07 2018-06-19 中仁车汇科技发展(深圳)有限公司 一种信息提取的方法和设备以及计算机存储介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
S. UCHIDA等: "OCR Fonts Revisited for Camera-Based Character Recognition", 《18TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR"06)》 *
宋瑞亮: "面向军事领域的命名实体识别及相关信息提取关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *
张昕: "自然场景图像文本信息提取的理论与方法", 《中国优秀博士学位论文全文数据库 信息科技辑(月刊)》 *
张晓娟著: "《查询意图自动分类与分析》", 30 November 2015, 武汉:武汉大学出版社 *
戴国强等著: "《科技大数据》", 31 August 2018 *
胥桂仙: "《文本分类技术研究》", 30 June 2016, 北京:中央民族大学出版社 *
董守斌等编著: "《网络信息检索》", 30 April 2016, 西安:西安电子科技大学出版社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110622A (zh) * 2019-04-23 2019-08-09 武汉工程大学 一种基于图像处理的医疗文本检测方法、系统和存储介质
CN110163257A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 抽取结构化信息的方法、装置、设备和计算机存储介质
CN110110622B (zh) * 2019-04-23 2023-08-22 武汉工程大学 一种基于图像处理的医疗文本检测方法、系统和存储介质
CN110442842A (zh) * 2019-06-20 2019-11-12 平安科技(深圳)有限公司 合同内容的提取方法及装置、计算机设备、存储介质
WO2020253506A1 (zh) * 2019-06-20 2020-12-24 平安科技(深圳)有限公司 合同内容的提取方法及装置、计算机设备、存储介质
CN110598922A (zh) * 2019-08-30 2019-12-20 深圳市新系区块链技术有限公司 车辆油费报销方法及装置、服务器和电子设备
WO2021051869A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 文本数据排版方法、装置、计算机设备及存储介质
CN111461100A (zh) * 2020-03-31 2020-07-28 重庆农村商业银行股份有限公司 一种票据识别方法、装置、电子设备和存储介质
CN111861731A (zh) * 2020-07-31 2020-10-30 重庆富民银行股份有限公司 基于ocr的贷后检查系统及方法
CN114842474A (zh) * 2022-05-09 2022-08-02 北京百度网讯科技有限公司 文字识别方法、装置、电子设备和介质
CN114842474B (zh) * 2022-05-09 2023-08-08 北京百度网讯科技有限公司 文字识别方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN109190594A (zh) 光学字符识别系统及信息提取方法
Mathew et al. Docvqa: A dataset for vqa on document images
CN109948510B (zh) 一种文档图像实例分割方法及装置
US7983468B2 (en) Method and system for extracting information from documents by document segregation
CN107766371B (zh) 一种文本信息分类方法及其装置
US11455784B2 (en) System and method for classifying images of an evidence
CN101253514B (zh) 文档可视结构的语法剖析
US20180012268A1 (en) System and methods of an expense management system based upon business document analysis
US10896357B1 (en) Automatic key/value pair extraction from document images using deep learning
CN112613501A (zh) 信息审核分类模型的构建方法和信息审核方法
CN110046978A (zh) 智能报销方法
CN105045780B (zh) 一种发票字条语义信息的识别方法及装置
CN108427953A (zh) 一种文字识别方法及装置
US20130236111A1 (en) Method and System for Commercial Document Image Classification
CN107908752A (zh) 一种试卷成绩智能采集与分析系统及方法
CN110348346A (zh) 一种票据分类识别方法及系统
CN108364037A (zh) 识别手写汉字的方法、系统及设备
CN109271951A (zh) 一种提升记账审核效率的方法及系统
CN109858420A (zh) 一种票据处理系统和处理方法
CN106650748A (zh) 一种基于卷积神经网络的汉字识别方法
CN112508000B (zh) 一种用于ocr图像识别模型训练数据生成的方法及设备
CN110197140A (zh) 基于文字识别的材料审核方法及设备
CN112668335A (zh) 一种利用命名实体识别提取营业执照结构化信息的方法
CN111462388A (zh) 一种票据检验方法、装置、终端设备及存储介质
Ifhaam et al. Sinhala handwritten postal address recognition for postal sorting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190111