CN109840519A - 一种自适应的智能单据识别录入装置及其使用方法 - Google Patents

一种自适应的智能单据识别录入装置及其使用方法 Download PDF

Info

Publication number
CN109840519A
CN109840519A CN201910072775.2A CN201910072775A CN109840519A CN 109840519 A CN109840519 A CN 109840519A CN 201910072775 A CN201910072775 A CN 201910072775A CN 109840519 A CN109840519 A CN 109840519A
Authority
CN
China
Prior art keywords
text
module
data
extraction
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910072775.2A
Other languages
English (en)
Other versions
CN109840519B (zh
Inventor
王营
李承涛
陈小二
盛杨
周鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Yingzhi Technology Co Ltd
Original Assignee
Qingdao Yingzhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Yingzhi Technology Co Ltd filed Critical Qingdao Yingzhi Technology Co Ltd
Priority to CN201910072775.2A priority Critical patent/CN109840519B/zh
Publication of CN109840519A publication Critical patent/CN109840519A/zh
Application granted granted Critical
Publication of CN109840519B publication Critical patent/CN109840519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Discrimination (AREA)

Abstract

发明属于图像识别处理领域,涉及一种自适应的智能单据识别录入装置及其使用方法,数据采集模块将客户的纸质文本通过扫描或者拍摄,采集成图片文件,预处理模块会利用形态学处理算法,对图像中的文本做分块处理,将每行或者表格中的格子做成不等的小区块,文字识别模块将各个小区块通过二值处理;然后相关性分析模块根据预先配置的关键字及规则,对文本块的关系做分析,并指导数据抽取模块对需要的字段内容做提取,纠偏模块会根据先前的识别及纠偏历史数据,对提取的内容做一些校验和自动纠正,最终保存结果,并返回数据到调用方。其设计构思巧妙,使用安全方便,智能化程度高,同时识别准确度高,应用环境友好,市场前景广阔。

Description

一种自适应的智能单据识别录入装置及其使用方法
技术领域:
发明属于图像识别处理领域,涉及一种物流单据的识别装置,特别是一种自适应的智能单据识别录入装置及其使用方法。
背景技术:
在空运,海运等进出口业务中,业务过程中流转的单据格式及类型(如:客户委托单,船公司订舱回执单等)多样,有可以直接拷贝内容的word,excel,textual PDF等格式,也有相当一部分是图片格式的文件,或者干脆是纸质文件。由于历史的原因,来自全球各地的空运及海运单据的类型非常多,行业内对客户单据没有统一格式标准,甚至单个客户也会提供多种格式的单据。这种情况下,对一些体量大的物流或者是货物代理公司,在面对几百上千个客户的时候,每天产生的单据流转量非常巨大,类型格式也相当多,据统计,一个几十人的中等规模的货代公司每个月流转的单据就几千甚至上万份。如果要把单据里面的内容再逐个录入到自己的ERP或者是其它业务系统,工作程序繁琐,工作量大,需要大量的手工人力工作,同时也容易在操作录入过程中出现差错。
为了解决上述类似的问题,申请号为CN201710800489.4的中国专利公开了一种基于图像识别的物流单据智能分析与自动存储方法,该方法公开了一种基于图像识别的物流单据智能分析与自动存储方法,包括识别装置,所述识别装置包括:扫描拍摄模块,图形分割模块,图片处理模块,智能识别模块,等多个模块,该方法能够自动识别图片中的文字信息,对文字信息做进一步的对比和判断,并且将信息结果保存起来,并可通过人工修改后经过自我学习丰富自己的文字库从而提高以后识别的效率和准确性;,该种图片文字识别方法主要针对手写体做识别优化,识别范围只能对固定格式的国内快递运单做内容识别,对文字的布局,位置版面有格式要求。要求面单尺寸较小,内容不多,无法实现大篇幅的无固定格式的文字识别及提取功能。
申请号为CN201810087635.8的中国专利公开了一种识别纠偏系统及方法,对纸质单据信息进行数据化处理,包括:图像获取单元,用于获取纸质单据图像;识别单元,用于识别所述单据图像中的文字,得到单据的识别结果数据集;信息纠偏单元,用于对所述识别结果数据集进行纠偏,得到纠偏后的单据信息;数据存储单元,用于存储信息数据库、所述单据图像、所述单据的识别结果数据集及所述纠偏后的单据信息。其中,所述信息数据库为所述信息纠偏单元的训练数据。发明涉及的是一种识别纠偏系统和方法,改善了OCR技术识别文字序列精度、准确率较低的弊端。该方法对手写单据的识别率较低的问题提供了一种识别纠偏系统和方法,改善了OCR技术识别文字序列精度准确率较低的弊端。
但是上述专利中OCR技术对识别对象有格式要求,需要通过模板的方式,对需要提取的内容图片用人工的方式做对应的模板,识别系统就根据模板标注的固定位置坐标识别相应区域的文本,以达到文字提取的目的。但这中做法仍存在如下缺陷:
一是需要人工做模板,增加工作量,尤其是要支持大量单据的情况下,需要定制很多模板,在业务员的的实际操作层面非常麻烦,操作员面对大量模板的选择工作将变得非常繁琐。
二是对固定格式的文本做框选有时候不够精准,在填写的信息存在错位并且没有与固定格式完全对应时,做模板的时候就很难定位框选的尺寸大小,特别是错位的内容较多时,那么有些内容在识别中很有可能会被漏掉;
三是对于尺寸较小的单据如果格式非常固定,可能可以做到准确度比较高,但对于A4甚至更大版面的单据,包含更多内容的委托书就更难通过固定模板来达到目的。
因此,本发明寻求设计提供一种自适应的智能单据识别录入方法,抓住单据都有一些固定的关键字的特点(如:发货人,收货人,通知人,目的港,卸货港等),用标注关键字的方式及相对位置定位来进行单据的自动定位识别,无需选择任何模板,使用准确方便,有效提高单据录入效率和解放业务员的繁琐操作。
发明内容:
本发明的目的在于克服现有技术存在的缺点,寻求设计自适应的智能单据识别录入装置及其使用方法,通过标注关键字及相对位置定位的方式来进行单据的自动识别,无需事先定制模板,只需做一些规则配置就可以达到提取识别内容的目的。操作员提供要识别的文件,该方法将根据预先设定的规则,自动智能抓取单据中的内容,并输出格式化的数据,以便无缝对接客户的各种业务系统,节省了业务员需要逐条将内容录入到系统中的工作。
为了实现上述目的,本发明涉及的一种自适应的智能单据识别录入装置及其使用方法通过如下技术方案实现:
本发明包括有单据采集模块:基于图像识别的单据智能分析与自动存储方法,包括识别装置,所述识别装置包括有硬件扫描或者拍摄设备,用以取获取纸质单据图像;
图像预处理模块:用以接收单据采集模块采集的图像,并对图像进行膨胀算法的预处理,便于系统获取结构化的文字,以及文字或者表格的坐标位置,便于后期对文字进行相关性的分析,定位和提取。
文字识别模块:对图像预处理模块中通过膨胀算法以及表格标记的各个小文本块进行文字识别,通过对膨胀获取的提取单元进行二值化处理,有效去除有些单据的背景及底图的干扰,提高图像的识别准确率,经过二值化处理的图片会更清晰,特征更明显,有利于文字识别模块进行文字识别;该识别方式能够避免对整片文档的大面积识别,而是针对预处理模块分析出来的多个小区域进行识别,有效提高了识别率,在文字识别模块识别完成后,将处理后的数据传输至相关性分析模块;
相关性分析模块:相关性分析模块是本发明的核心模块,能够根据文字识别的结果和配置的相关规则,对文字的相关性进行分析,判断各个文字块之间的关系,如判断收货人是在<收货人>这个关键字的下面还是右面,对于人眼很容易正确匹配并判断的信息,对于计算机并不具备人类的认知能力,所以计算机所读取到的就是一些文字,却无法解读其含义,以及文字之间的关系,本方法则会对文本直接的关系做约定和配置,通过相关性分析,下一步将对文本做结构分析获得的各字段进行信息提取;
数据抽取模块:相关性分析明确了文字块之间的相互关系,数据抽取模块根据相关性分析模块中相关性分析的结果,对数据进行抽取工作,以获取结构化的数据,并返回到调用方;抽取的方式为如下,根据预先配置的需要抽取的数据字段,以及对应的关键字信息,进行数据的实际抽取,抽取时以相关性分析为依据;数据抽取模块根据上述的相关性分析,得到字段与文字的对应关系,并组织成第三方系统需要的数据格式JSON、XML等,并将数据返回到第三方系统;
数据存储模块:数据抽取后,系统对抽取结果保存到数据库,以备后续纠错时参考;
智能纠偏模块:包括有设计核对子模块,用以对识别结果做核对,以提高识别的准确率,通过对数据抽取模块的数据抽取结果,以及数据抽取历史和纠正结果的比对,对抽取的数据做自动的智能纠正;包括有对港口信息的纠正,针对单据中对港口信息描述不规范的情形,该模块自动将识别结果与数据库数据做比对,将错误的港口根据比对结果进行自动纠正;还包括有CBM前面的数字被错误的识别为了重量,该模块将根据数据记忆和知识,自动找到KGS的值对重量和体积进行纠正;
人工矫正界面:本发明界面提供识别后的结果与原图片,操作人员能够点击识别结果的内容,智能纠偏模块根据上述获得的识别结果的对应坐标信息,自动框选原图片的区域,便于操作人员进行核对和修改;操作人员通过设计核对界面矫正的结果将被保存到智库,用于自动矫正纠偏,并为机器深度学习提供样本,以便在后期进一步提高准确率。
进一步的,本发明中图像预处理模块对图像进行处理的具体方式按照如下步骤进行:对文本做相应的框选及结构化处理,预处理将文档分为文本格式和表格格式两种;对文本格式,采用形态学图像处理基本算法:膨胀(Dilation),将整个图片在横向进行膨胀,将文字成块分割出独立的图像元素块,以及每块图像元素的坐标值(top,left),(bottom,right);对于表格格式,单个表格的Cell中的内容即为要提取的某个字段的内容,因此需要保持表格内的内容的完整性以及表格结构的完整性,并且不能把单个Cell中的内容与其他内容混淆,给后续文本分割带来更大的困难,基于上述问题,本实施通过图片线形结构元素的形状提取算法,分别提取表格的横向和竖向的线形矩阵,得到表格中所有的交点坐标,再根据每条线形元素的坐标,还原成原图的表格形状,并记录所有表格CELL的坐标信息。
进一步的,本发明中文字识别模块采用现有的OCR方案,能够支持对文本某个固定区域的文字识别,采用OCR技术,对预处理过的图片块做文字识别,得到每个文本块的文本内容和表格Cell内文本内容;因文字信息依据被分割成多个小块,因此能有效提高文字的识别的准确率。
进一步的,本发明中相关性分析的具体操作步骤按照如下方式进行:
A、相关性分析是本实施的核心,要实现对文本的精确提取,需保证相关性分析的准确,本发明采用对关键字分割及相对位置定位的方式,实现文本位置的提取,基于对文本做结构分析,包括上下结构、左右结构、错位、合并表格;
B、基于相关性分析,对文本做结构分析获得的各字段进行信息提取,并格式化成各种与识别系统对接的第三方系统所需要的数据格式;
本发明在使用时,具体操作步骤按照如下方式进行:数据采集模块将客户的纸质文本通过扫描或者拍摄,采集成图片文件,流转到下一步的图像预处理模块,预处理模块会利用形态学处理算法,对图像中的文本做分块处理,将每行或者表格中的格子做成不等的小区块,然后将处理后的图像传输至文字识别模块,由文字识别模块将各个小区块通过二值处理,对小区块做文本的提取,以获取各个小块的文本和各块文本的坐标信息;然后相关性分析模块根据预先配置的关键字及规则,对文本块的关系做分析,并指导数据抽取模块对需要的字段内容做提取,纠偏模块会根据先前的识别及纠偏历史数据,对提取的内容做一些校验和自动纠正,最终保存结果,并返回数据到调用方;相关性分析依赖于关键字及提取规则的配置,所以在相关性分析以前,需要通过界面对系统做相关配置。
由技术常识可知,本发明涉及的是针对图像文本识别的方案,针对包括word,pdf,excel在内的无需OCR文本识别的文件格式的识别,本发明中的方法仍然可行,并且文字内容更精准无误,避免OCR识别准确率的影响,因此,有在本发明范围内或在其它文件格式类型类似方案均被本发明包含。
本发明与现有技术相比,取得的有益效果如下:
本发明通过不采用模板的方式进行自动化数据抽取,填补了业界的技术空白,由于物流单据文件格式的复杂性,格式的多样性,无法做成统一的识别方案,而本发明通过标注关键字的方式可以针对很多的单据做到准确的数据抽取,做到自适应的文本信息提取,智能化程度高,能够将单据的内容根据关键字标注,无需人工模板的定义,直接抽取文档中的信息,并提供了自动及人工纠错功能,系统对纠错的结果存入智能识别智库,以备后期对识别结果做深度学习自动纠正,极大的降低了出错率,同时本发明所述方法扩展性强,支持一种新的单据,只需要对系统做一些配置即可。其主体构造简单,设计构思巧妙,使用安全方便,智能化程度高,同时识别准确度高,能够有效提高识别的效率,应用环境友好,市场前景广阔。
附图说明:
图1为本发明涉及的框架结构原理示意图。
图2为本发明涉及的采用二值化处理前后的图像。
图3为本发明涉及的采用形态学图像处理前后的图像。
图4为本发明涉及的表格格式单据处理前后示意图。
图5为本发明涉及的固定模板局限性的展示图像。
图6为本发明涉及的上下结构纯文本图像。
图7为本发明涉及的左右结构表格图像。
图8为本发明涉及的上下结构纯文本图像。
图9为本发明涉及的识别前后的图像。
具体实施方式:
下面结合附图并通过实施例对本发明作进一步发明详细说明。
实施例1:
本实施例涉及的一种自适应的智能单据识别录入装置及其使用方法,通过如下技术方案实现:
如图1所示,单据采集模块:基于图像识别的单据智能分析与自动存储方法,包括识别装置,所述识别装置包括有硬件扫描或者拍摄设备,用以取获取纸质单据图像;
图像预处理模块:用以接收单据采集模块采集的图像,并对图像进行膨胀算法的预处理,便于系统获取结构化的文字,以及文字或者表格的坐标位置,便于后期对文字进行相关性的分析,定位和提取。
文字识别模块:对图像预处理模块中通过膨胀算法以及表格标记的各个小文本块进行文字识别,通过对膨胀获取的提取单元(单行或者是如图3所示的单个小区域)进行二值化处理,有效去除有些单据的背景及底图的干扰,提高图像的识别准确率,效果如图2所示,经过二值化处理的图片会更清晰,特征更明显,有利于文字识别模块进行文字识别;该识别方式能够避免对整片文档的大面积识别,而是针对预处理模块分析出来的多个小区域进行识别,有效提高了识别率,在文字识别模块识别完成后,将处理后的数据传输至相关性分析模块;
相关性分析模块:相关性分析模块是本实施例的核心模块,能够根据文字识别的结果和配置的相关规则,对文字的相关性进行分析,判断各个文字块之间的关系,如判断收货人是在<收货人>这个关键字的下面还是右面,对于人眼很容易正确匹配并判断的信息,对于计算机并不具备人类的认知能力,所以计算机所读取到的就是一些文字,却无法解读其含义,以及文字之间的关系,本方法则会对文本直接的关系做约定和配置,通过相关性分析,下一步将对文本做结构分析获得的各字段进行信息提取;
数据抽取模块:相关性分析明确了文字块之间的相互关系,数据抽取模块根据相关性分析模块中相关性分析的结果,对数据进行抽取工作,以获取结构化的数据,并返回到调用方;抽取的方式为如下,根据预先配置的需要抽取的数据字段,以及对应的关键字信息,进行数据的实际抽取,抽取时以相关性分析为依据;数据抽取模块根据上述的相关性分析,得到字段与文字的对应关系,并组织成第三方系统需要的数据格式JSON、XML等,并将数据返回到第三方系统;
数据存储模块:数据抽取后,系统对抽取结果保存到数据库,以备后续纠错时参考;
智能纠偏模块:包括有设计核对子模块,用以对识别结果做核对,以提高识别的准确率,通过对数据抽取模块的数据抽取结果,以及数据抽取历史和纠正结果的比对,对抽取的数据做自动的智能纠正;包括有对港口信息的纠正,针对单据中对港口信息描述不规范的情形,该模块自动将识别结果与数据库数据做比对,将错误的港口根据比对结果进行自动纠正;还包括有CBM前面的数字被错误的识别为了重量,该模块将根据数据记忆和知识,自动找到KGS(重量)的值对重量和体积进行纠正;
人工矫正界面:如图9所示,本实施例界面提供识别后的结果(左)与原图片(右),操作人员能够点击识别结果的内容,智能纠偏模块根据上述获得的识别结果的对应坐标信息,自动框选原图片的区域,便于操作人员进行核对和修改;操作人员通过设计核对界面矫正的结果将被保存到智库(数据库),用于自动矫正纠偏,并为机器深度学习提供样本,以便在后期进一步提高准确率;
进一步的,本实施例中图像预处理模块对图像进行处理的具体方式按照如下步骤进行:对文本做相应的框选及结构化处理,预处理将文档分为文本格式和表格格式两种;对文本格式,如图3所示,采用形态学图像处理基本算法:膨胀(Dilation),将整个图片在横向进行膨胀,将文字成块分割出独立的图像元素块,以及每块图像元素的坐标值(top,left),(bottom,right);对于表格格式,如图4所示,单个表格的Cell中的内容即为要提取的某个字段的内容,因此需要保持表格内的内容的完整性以及表格结构的完整性,并且不能把单个Cell中的内容与其他内容混淆,给后续文本分割带来更大的困难,基于上述问题,本实施通过图片线形结构元素的形状提取算法,分别提取表格的横向和竖向的线形矩阵,得到表格中所有的交点坐标,如图4右图所示,再根据每条线形元素的坐标,还原成原图的表格形状,并记录所有表格CELL的坐标信息;
进一步的,本实施例中文字识别模块采用现有的OCR方案,能够支持对文本某个固定区域的文字识别,采用OCR技术,对预处理过的图片块做文字识别,得到每个文本块的文本内容和表格Cell内文本内容;因文字信息依据被分割成多个小块,因此能有效提高文字的识别的准确率。
进一步的,本实施例中相关性分析的具体操作步骤按照如下方式进行:
B、相关性分析是本实施的核心,要实现对文本的精确提取,需保证相关性分析的准确,本实施例采用对关键字分割及相对位置定位的方式,实现文本位置的提取,基于对文本做结构分析,包括上下结构、左右结构、错位、合并表格,如图6所示,以文本中SHIPPER与CONSIGNEE为关键字,SHIPPER的Y小于CONSIGNEE的Y坐标之上,而二者的X坐标相同,能够判定SHIPPER与CONSIGNEE之间为上下结构,SHIPPER与CONSIGNEE之间的内容将被归为SHIPPER字段的内容;
如图7中所示,装货港,运费支付为关键字,而且为上下结构,并判断装货港右侧cell中为有效的港口,则可判定此表格为左右结构,右面表格的内容为左边字段的值;
如图8所示,QUANTITY与G.T/N.T皆为关键字,能够推理此处内容为上下结构,需要根据下面的内容272PKGS应该与QUANTITY的X坐标判断其上下的对应关系,能够进一步判断出272PKGS应该与QUANTITY的X坐标更接近,从而判断272应该归属于QUANTITY字段;
B、基于相关性分析,对文本做结构分析获得的各字段(如上例中的SHIPPER,CONSIGNEE,QUANTITY,GROSS WEIGHT)进行信息提取,并格式化成各种与识别系统对接的第三方系统所需要的数据格式;
本实施例在使用时,具体操作步骤按照如下方式进行:数据采集模块将客户的纸质文本通过扫描或者拍摄,采集成图片文件,流转到下一步的图像预处理模块,预处理模块会利用形态学处理算法,对图像中的文本做分块处理,将每行或者表格中的格子做成不等的小区块,然后将处理后的图像传输至文字识别模块,由文字识别模块将各个小区块通过二值处理,对小区块做文本的提取,以获取各个小块的文本和各块文本的坐标信息;然后相关性分析模块根据预先配置的关键字及规则,对文本块的关系做分析,并指导数据抽取模块对需要的字段内容做提取,纠偏模块会根据先前的识别及纠偏历史数据,对提取的内容做一些校验和自动纠正,最终保存结果,并返回数据到调用方;相关性分析依赖于关键字及提取规则的配置,所以在相关性分析以前,需要通过界面对系统做相关配置。
由技术常识可知,本实施例涉及的是针对图像文本识别的方案,针对包括word,pdf,excel在内的无需OCR文本识别的文件格式的识别,本实施例中的方法仍然可行,并且文字内容更精准无误,避免OCR识别准确率的影响,因此,有在本发明范围内或在其它文件格式类型类似方案均被本发明包含。

Claims (5)

1.一种自适应的智能单据识别录入装置及其使用方法,其特征在于包括有单据采集模块:基于图像识别的单据智能分析与自动存储方法,包括识别装置,所述识别装置包括有硬件扫描或者拍摄设备,用以取获取纸质单据图像;
图像预处理模块:用以接收单据采集模块采集的图像,并对图像进行膨胀算法的预处理,便于系统获取结构化的文字,以及文字或者表格的坐标位置,便于后期对文字进行相关性的分析,定位和提取。
文字识别模块:对图像预处理模块中通过膨胀算法以及表格标记的各个小文本块进行文字识别,通过对膨胀获取的提取单元进行二值化处理,有效去除有些单据的背景及底图的干扰,提高图像的识别准确率,经过二值化处理的图片会更清晰,特征更明显,有利于文字识别模块进行文字识别;该识别方式能够避免对整片文档的大面积识别,而是针对预处理模块分析出来的多个小区域进行识别,有效提高了识别率,在文字识别模块识别完成后,将处理后的数据传输至相关性分析模块;
相关性分析模块:相关性分析模块是本发明的核心模块,能够根据文字识别的结果和配置的相关规则,对文字的相关性进行分析,判断各个文字块之间的关系,如判断收货人是在<收货人>这个关键字的下面还是右面,对于人眼很容易正确匹配并判断的信息,对于计算机并不具备人类的认知能力,所以计算机所读取到的就是一些文字,却无法解读其含义,以及文字之间的关系,本方法则会对文本直接的关系做约定和配置,通过相关性分析,下一步将对文本做结构分析获得的各字段进行信息提取;
数据抽取模块:相关性分析明确了文字块之间的相互关系,数据抽取模块根据相关性分析模块中相关性分析的结果,对数据进行抽取工作,以获取结构化的数据,并返回到调用方;抽取的方式为如下,根据预先配置的需要抽取的数据字段,以及对应的关键字信息,进行数据的实际抽取,抽取时以相关性分析为依据;数据抽取模块根据上述的相关性分析,得到字段与文字的对应关系,并组织成第三方系统需要的数据格式JSON、XML等,并将数据返回到第三方系统;
数据存储模块:数据抽取后,系统对抽取结果保存到数据库,以备后续纠错时参考;
智能纠偏模块:包括有设计核对子模块,用以对识别结果做核对,以提高识别的准确率,通过对数据抽取模块的数据抽取结果,以及数据抽取历史和纠正结果的比对,对抽取的数据做自动的智能纠正;包括有对港口信息的纠正,针对单据中对港口信息描述不规范的情形,该模块自动将识别结果与数据库数据做比对,将错误的港口根据比对结果进行自动纠正;还包括有CBM前面的数字被错误的识别为了重量,该模块将根据数据记忆和知识,自动找到KGS的值对重量和体积进行纠正;
人工矫正界面:本发明界面提供识别后的结果与原图片,操作人员能够点击识别结果的内容,智能纠偏模块根据上述获得的识别结果的对应坐标信息,自动框选原图片的区域,便于操作人员进行核对和修改;操作人员通过设计核对界面矫正的结果将被保存到智库,用于自动矫正纠偏,并为机器深度学习提供样本,以便在后期进一步提高准确率。
2.根据权利要求1所述的一种自适应的智能单据识别录入装置及其使用方法,其特征在于本发明中图像预处理模块对图像进行处理的具体方式按照如下步骤进行:对文本做相应的框选及结构化处理,预处理将文档分为文本格式和表格格式两种;对文本格式,采用形态学图像处理基本算法:膨胀(Dilation),将整个图片在横向进行膨胀,将文字成块分割出独立的图像元素块,以及每块图像元素的坐标值(top,left),(bottom,right);对于表格格式,单个表格的Cell中的内容即为要提取的某个字段的内容,因此需要保持表格内的内容的完整性以及表格结构的完整性,并且不能把单个Cell中的内容与其他内容混淆,给后续文本分割带来更大的困难,基于上述问题,本实施通过图片线形结构元素的形状提取算法,分别提取表格的横向和竖向的线形矩阵,得到表格中所有的交点坐标,再根据每条线形元素的坐标,还原成原图的表格形状,并记录所有表格CELL的坐标信息。
3.根据权利要求1所述的一种自适应的智能单据识别录入装置及其使用方法,其特征在于本发明中文字识别模块采用现有的OCR方案,能够支持对文本某个固定区域的文字识别,采用OCR技术,对预处理过的图片块做文字识别,得到每个文本块的文本内容和表格Cell内文本内容;因文字信息依据被分割成多个小块,因此能有效提高文字的识别的准确率。
4.根据权利要求1所述的一种自适应的智能单据识别录入装置及其使用方法,其特征在于相关性分析的具体操作步骤按照如下方式进行:
A、相关性分析是本实施的核心,要实现对文本的精确提取,需保证相关性分析的准确,本发明采用对关键字分割及相对位置定位的方式,实现文本位置的提取,基于对文本做结构分析,包括上下结构、左右结构、错位、合并表格;
B、基于相关性分析,对文本做结构分析获得的各字段进行信息提取,并格式化成各种与识别系统对接的第三方系统所需要的数据格式。
5.根据权利要求1-4中任一权利要求所述的一种自适应的智能单据识别录入装置及其使用方法,其特征在于本发明在使用时,具体操作步骤按照如下方式进行:数据采集模块将客户的纸质文本通过扫描或者拍摄,采集成图片文件,流转到下一步的图像预处理模块,预处理模块会利用形态学处理算法,对图像中的文本做分块处理,将每行或者表格中的格子做成不等的小区块,然后将处理后的图像传输至文字识别模块,由文字识别模块将各个小区块通过二值处理,对小区块做文本的提取,以获取各个小块的文本和各块文本的坐标信息;然后相关性分析模块根据预先配置的关键字及规则,对文本块的关系做分析,并指导数据抽取模块对需要的字段内容做提取,纠偏模块会根据先前的识别及纠偏历史数据,对提取的内容做一些校验和自动纠正,最终保存结果,并返回数据到调用方;相关性分析依赖于关键字及提取规则的配置,所以在相关性分析以前,需要通过界面对系统做相关配置。
CN201910072775.2A 2019-01-25 2019-01-25 一种自适应的智能单据识别录入装置及其使用方法 Active CN109840519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910072775.2A CN109840519B (zh) 2019-01-25 2019-01-25 一种自适应的智能单据识别录入装置及其使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910072775.2A CN109840519B (zh) 2019-01-25 2019-01-25 一种自适应的智能单据识别录入装置及其使用方法

Publications (2)

Publication Number Publication Date
CN109840519A true CN109840519A (zh) 2019-06-04
CN109840519B CN109840519B (zh) 2023-05-05

Family

ID=66884214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910072775.2A Active CN109840519B (zh) 2019-01-25 2019-01-25 一种自适应的智能单据识别录入装置及其使用方法

Country Status (1)

Country Link
CN (1) CN109840519B (zh)

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287854A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 表格的提取方法、装置、计算机设备和存储介质
CN110309754A (zh) * 2019-06-25 2019-10-08 浙江飙速教育科技有限公司 一种习题采集的方法及系统
CN110334707A (zh) * 2019-06-28 2019-10-15 苏宁云计算有限公司 一种模型修正方法及修正系统
CN110334640A (zh) * 2019-06-28 2019-10-15 苏宁云计算有限公司 一种票据审核方法及系统
CN110414632A (zh) * 2019-06-27 2019-11-05 亳州职业技术学院 一种针对手写物流单据的信息识别存储方法
CN110413979A (zh) * 2019-08-05 2019-11-05 金税桥大数据科技股份有限公司 基于图像识别技术的行业表格数字化处理方法
CN110490072A (zh) * 2019-07-15 2019-11-22 初建刚 一种可配置特征数据提取图像要素的通用图像识别方法
CN110619354A (zh) * 2019-08-27 2019-12-27 广州伊思高科技有限公司 一种无人售货柜图像识别系统及方法
CN110659607A (zh) * 2019-09-23 2020-01-07 天津车之家数据信息技术有限公司 数据核对方法、装置、系统及计算设备
CN110675121A (zh) * 2019-09-23 2020-01-10 珠海市新德汇信息技术有限公司 图片类案卷材料的采集方法
CN110901788A (zh) * 2019-11-27 2020-03-24 佛山科学技术学院 一种具有识字能力的双足移动机器人系统
CN110991411A (zh) * 2019-12-20 2020-04-10 谢骏 适用于物流行业的智能单证结构化提取方法
CN110991279A (zh) * 2019-11-20 2020-04-10 北京灵伴未来科技有限公司 文档图像分析与识别方法及系统
CN111047261A (zh) * 2019-12-11 2020-04-21 青岛盈智科技有限公司 一种仓储物流委托单识别方法及系统
CN111079709A (zh) * 2019-12-31 2020-04-28 广州市昊链信息科技股份有限公司 一种电子单据的生成方法、装置、计算机设备和存储介质
CN111275539A (zh) * 2020-03-03 2020-06-12 天津阿童木科技有限公司 一种将原始账务材料自动转换为会计凭证的计算机引擎
CN111340024A (zh) * 2020-02-27 2020-06-26 深圳市赤狐软件技术有限公司 一种电子单据管理方法、装置、计算机设备及存储介质
CN111401007A (zh) * 2020-03-03 2020-07-10 厦门亿禄信息科技有限公司 一种非结构化数据向结构化数据的转换方法
CN111639566A (zh) * 2020-05-19 2020-09-08 浙江大华技术股份有限公司 一种提取表单信息的方法及装置
CN111985189A (zh) * 2020-08-20 2020-11-24 朵镇山 适用于深度学习及思考的模块化笔记系统及电子转换方法
CN112001819A (zh) * 2020-08-21 2020-11-27 山东商务职业学院 一种小型便携式防错乱国际贸易合同扫描装置及方法
WO2020258500A1 (zh) * 2019-06-26 2020-12-30 平安科技(深圳)有限公司 光学字符识别辅助方法、装置、计算机设备及存储介质
CN112364857A (zh) * 2020-10-23 2021-02-12 中国平安人寿保险股份有限公司 基于数值抽取的图像识别方法、装置及存储介质
CN112380851A (zh) * 2020-12-02 2021-02-19 好活(昆山)网络科技有限公司 一种基于大数据的文字识别系统及方法
CN112445552A (zh) * 2019-08-27 2021-03-05 珠海金山办公软件有限公司 一种终端显示调节方法、装置和终端
CN112541336A (zh) * 2020-12-01 2021-03-23 华迪计算机集团有限公司 数据申报方法及管理系统
CN112598503A (zh) * 2020-12-25 2021-04-02 四川享宇金信金融科技有限公司 一种基于征信识别的ocr识别系统及方法
CN112667767A (zh) * 2020-12-31 2021-04-16 北京百炼智能科技有限公司 一种信息处理的方法及装置
CN112766804A (zh) * 2021-02-02 2021-05-07 华能武汉发电有限责任公司 一种铁路专用线的预确报系统及方法
CN112801079A (zh) * 2020-12-29 2021-05-14 一汽资本控股有限公司 一种文本识别方法、装置、终端及存储介质
CN112818795A (zh) * 2021-01-25 2021-05-18 四川省食品药品检验检测院(四川省药品质量研究所、四川省医疗器械检测中心) 一种自动转录测试报告的方法
CN112861736A (zh) * 2021-02-10 2021-05-28 上海大学 基于图像处理的文献表格内容识别与信息提取方法
CN113011407A (zh) * 2021-02-05 2021-06-22 国网浙江义乌市供电有限公司 一种电费复核单据自动识别、分拣投递的系统和方法
CN113233069A (zh) * 2021-05-27 2021-08-10 海尔卡奥斯物联生态科技有限公司 智能仓储出库控制方法、装置、电子设备、及存储介质
CN113254698A (zh) * 2021-06-23 2021-08-13 江苏盖睿健康科技有限公司 一种具备辅助填写功能的表格设计方法及系统
CN113673370A (zh) * 2021-07-31 2021-11-19 北京乐易建科技有限公司 一种从脱机文档获取bim数据的方法
CN113836864A (zh) * 2021-08-26 2021-12-24 广西电网有限责任公司来宾供电局 开发工单内容比对方法及系统
CN113919327A (zh) * 2020-07-07 2022-01-11 阿里巴巴集团控股有限公司 文本纠错方法、设备以及计算机可读介质
CN114299528A (zh) * 2021-12-27 2022-04-08 万达信息股份有限公司 一种针对扫描文档的信息提取和结构化方法
CN114564912A (zh) * 2021-11-30 2022-05-31 中国电子科技集团公司第十五研究所 一种文档格式智能检查校正方法及系统
CN114580429A (zh) * 2022-01-26 2022-06-03 云捷计算机软件(江苏)有限责任公司 一种基于人工智能的语言和图像理解集成服务系统
CN114973263A (zh) * 2022-05-13 2022-08-30 中国石油大学(华东) 一种大批量关键业务数据的自动快速采集分析系统
CN118015024A (zh) * 2024-02-19 2024-05-10 广州融智共创科技有限公司 一种基于企业财税的pdf动态切割方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122403A (ja) * 2005-10-28 2007-05-17 Fuji Xerox Co Ltd 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
US20090125387A1 (en) * 2004-12-07 2009-05-14 Bcode Pty Limited Electronic Commerce System, Method and Apparatus
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法
CN107545391A (zh) * 2017-09-07 2018-01-05 安徽共生物流科技有限公司 一种基于图像识别的物流单据智能分析与自动存储方法
CN108777021A (zh) * 2018-05-18 2018-11-09 北京大账房网络科技股份有限公司 一种基于扫描仪混扫的票据识别方法及系统
CN109101970A (zh) * 2018-07-18 2018-12-28 北京医联蓝卡在线科技有限公司 一种医学单据智能识别方法与智能识别系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125387A1 (en) * 2004-12-07 2009-05-14 Bcode Pty Limited Electronic Commerce System, Method and Apparatus
JP2007122403A (ja) * 2005-10-28 2007-05-17 Fuji Xerox Co Ltd 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法
CN107545391A (zh) * 2017-09-07 2018-01-05 安徽共生物流科技有限公司 一种基于图像识别的物流单据智能分析与自动存储方法
CN108777021A (zh) * 2018-05-18 2018-11-09 北京大账房网络科技股份有限公司 一种基于扫描仪混扫的票据识别方法及系统
CN109101970A (zh) * 2018-07-18 2018-12-28 北京医联蓝卡在线科技有限公司 一种医学单据智能识别方法与智能识别系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
C.P. PAPAGEORGIOU: ""A general framework for object detection"", 《SIXTH INTERNATIONAL CONFERENCE ON COMPUTER VISION (IEEE CAT. NO.98CH36271)》 *
鲁静等: ""基于图像识别的移动端原始凭证电子化智能填单系统"", 《计算机工程》 *

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287854A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 表格的提取方法、装置、计算机设备和存储介质
CN110309754A (zh) * 2019-06-25 2019-10-08 浙江飙速教育科技有限公司 一种习题采集的方法及系统
CN110309754B (zh) * 2019-06-25 2023-11-24 浙江飙速教育科技有限公司 一种习题采集的方法及系统
WO2020258500A1 (zh) * 2019-06-26 2020-12-30 平安科技(深圳)有限公司 光学字符识别辅助方法、装置、计算机设备及存储介质
CN110414632A (zh) * 2019-06-27 2019-11-05 亳州职业技术学院 一种针对手写物流单据的信息识别存储方法
CN110334707A (zh) * 2019-06-28 2019-10-15 苏宁云计算有限公司 一种模型修正方法及修正系统
CN110334640A (zh) * 2019-06-28 2019-10-15 苏宁云计算有限公司 一种票据审核方法及系统
CN110490072A (zh) * 2019-07-15 2019-11-22 初建刚 一种可配置特征数据提取图像要素的通用图像识别方法
CN110413979A (zh) * 2019-08-05 2019-11-05 金税桥大数据科技股份有限公司 基于图像识别技术的行业表格数字化处理方法
CN110619354A (zh) * 2019-08-27 2019-12-27 广州伊思高科技有限公司 一种无人售货柜图像识别系统及方法
CN112445552B (zh) * 2019-08-27 2023-06-06 珠海金山办公软件有限公司 一种终端显示调节方法、装置和终端
CN112445552A (zh) * 2019-08-27 2021-03-05 珠海金山办公软件有限公司 一种终端显示调节方法、装置和终端
CN110659607A (zh) * 2019-09-23 2020-01-07 天津车之家数据信息技术有限公司 数据核对方法、装置、系统及计算设备
CN110675121A (zh) * 2019-09-23 2020-01-10 珠海市新德汇信息技术有限公司 图片类案卷材料的采集方法
CN110991279B (zh) * 2019-11-20 2023-08-22 北京灵伴未来科技有限公司 文档图像分析与识别方法及系统
CN110991279A (zh) * 2019-11-20 2020-04-10 北京灵伴未来科技有限公司 文档图像分析与识别方法及系统
CN110901788A (zh) * 2019-11-27 2020-03-24 佛山科学技术学院 一种具有识字能力的双足移动机器人系统
CN111047261A (zh) * 2019-12-11 2020-04-21 青岛盈智科技有限公司 一种仓储物流委托单识别方法及系统
CN111047261B (zh) * 2019-12-11 2023-06-16 青岛盈智科技有限公司 一种仓储物流委托单识别方法及系统
CN110991411A (zh) * 2019-12-20 2020-04-10 谢骏 适用于物流行业的智能单证结构化提取方法
CN111079709A (zh) * 2019-12-31 2020-04-28 广州市昊链信息科技股份有限公司 一种电子单据的生成方法、装置、计算机设备和存储介质
CN111079709B (zh) * 2019-12-31 2021-04-20 广州市昊链信息科技股份有限公司 一种电子单据的生成方法、装置、计算机设备和存储介质
CN111340024A (zh) * 2020-02-27 2020-06-26 深圳市赤狐软件技术有限公司 一种电子单据管理方法、装置、计算机设备及存储介质
CN111275539A (zh) * 2020-03-03 2020-06-12 天津阿童木科技有限公司 一种将原始账务材料自动转换为会计凭证的计算机引擎
CN111401007A (zh) * 2020-03-03 2020-07-10 厦门亿禄信息科技有限公司 一种非结构化数据向结构化数据的转换方法
CN111639566A (zh) * 2020-05-19 2020-09-08 浙江大华技术股份有限公司 一种提取表单信息的方法及装置
CN113919327A (zh) * 2020-07-07 2022-01-11 阿里巴巴集团控股有限公司 文本纠错方法、设备以及计算机可读介质
CN111985189B (zh) * 2020-08-20 2024-04-12 朵镇山 适用于深度学习及思考的模块化笔记系统及电子转换方法
CN111985189A (zh) * 2020-08-20 2020-11-24 朵镇山 适用于深度学习及思考的模块化笔记系统及电子转换方法
CN112001819A (zh) * 2020-08-21 2020-11-27 山东商务职业学院 一种小型便携式防错乱国际贸易合同扫描装置及方法
CN112364857B (zh) * 2020-10-23 2024-04-26 中国平安人寿保险股份有限公司 基于数值抽取的图像识别方法、装置及存储介质
CN112364857A (zh) * 2020-10-23 2021-02-12 中国平安人寿保险股份有限公司 基于数值抽取的图像识别方法、装置及存储介质
CN112541336A (zh) * 2020-12-01 2021-03-23 华迪计算机集团有限公司 数据申报方法及管理系统
CN112380851A (zh) * 2020-12-02 2021-02-19 好活(昆山)网络科技有限公司 一种基于大数据的文字识别系统及方法
CN112598503A (zh) * 2020-12-25 2021-04-02 四川享宇金信金融科技有限公司 一种基于征信识别的ocr识别系统及方法
CN112801079A (zh) * 2020-12-29 2021-05-14 一汽资本控股有限公司 一种文本识别方法、装置、终端及存储介质
CN112667767A (zh) * 2020-12-31 2021-04-16 北京百炼智能科技有限公司 一种信息处理的方法及装置
CN112818795A (zh) * 2021-01-25 2021-05-18 四川省食品药品检验检测院(四川省药品质量研究所、四川省医疗器械检测中心) 一种自动转录测试报告的方法
CN112766804B (zh) * 2021-02-02 2022-06-10 华能武汉发电有限责任公司 一种铁路专用线的预确报系统及方法
CN112766804A (zh) * 2021-02-02 2021-05-07 华能武汉发电有限责任公司 一种铁路专用线的预确报系统及方法
CN113011407A (zh) * 2021-02-05 2021-06-22 国网浙江义乌市供电有限公司 一种电费复核单据自动识别、分拣投递的系统和方法
CN112861736A (zh) * 2021-02-10 2021-05-28 上海大学 基于图像处理的文献表格内容识别与信息提取方法
CN113233069A (zh) * 2021-05-27 2021-08-10 海尔卡奥斯物联生态科技有限公司 智能仓储出库控制方法、装置、电子设备、及存储介质
CN113254698A (zh) * 2021-06-23 2021-08-13 江苏盖睿健康科技有限公司 一种具备辅助填写功能的表格设计方法及系统
CN113673370B (zh) * 2021-07-31 2024-07-16 北京乐易建科技有限公司 一种从脱机文档获取bim数据的方法
CN113673370A (zh) * 2021-07-31 2021-11-19 北京乐易建科技有限公司 一种从脱机文档获取bim数据的方法
CN113836864A (zh) * 2021-08-26 2021-12-24 广西电网有限责任公司来宾供电局 开发工单内容比对方法及系统
CN114564912A (zh) * 2021-11-30 2022-05-31 中国电子科技集团公司第十五研究所 一种文档格式智能检查校正方法及系统
CN114299528A (zh) * 2021-12-27 2022-04-08 万达信息股份有限公司 一种针对扫描文档的信息提取和结构化方法
CN114299528B (zh) * 2021-12-27 2024-03-22 万达信息股份有限公司 一种针对扫描文档的信息提取和结构化方法
CN114580429A (zh) * 2022-01-26 2022-06-03 云捷计算机软件(江苏)有限责任公司 一种基于人工智能的语言和图像理解集成服务系统
CN114973263A (zh) * 2022-05-13 2022-08-30 中国石油大学(华东) 一种大批量关键业务数据的自动快速采集分析系统
CN118015024A (zh) * 2024-02-19 2024-05-10 广州融智共创科技有限公司 一种基于企业财税的pdf动态切割方法、系统、设备及介质

Also Published As

Publication number Publication date
CN109840519B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN109840519A (zh) 一种自适应的智能单据识别录入装置及其使用方法
CN107067044B (zh) 一种财务报销全票据智能审核系统
CN107194400B (zh) 一种财务报销全票据图片识别处理方法
US10943105B2 (en) Document field detection and parsing
CN109887153B (zh) 一种财税处理方法和处理系统
CN107133571A (zh) 一种将纸质发票自动生成财务报表的系统及方法
US20220375245A1 (en) System for Information Extraction from Form-Like Documents
CN109034155A (zh) 一种文字检测及识别的方法及系统
CN110334640A (zh) 一种票据审核方法及系统
CN109543614A (zh) 一种全文本差异比对方法及设备
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
CN108363943B (zh) 基于智能化识别技术的通关机器人
CN113780087B (zh) 一种基于深度学习的邮政包裹文本检测方法及设备
CN109858414A (zh) 一种发票分块检测方法
CN109858420A (zh) 一种票据处理系统和处理方法
CN113326797A (zh) 一种pdf文档提取的表格信息转换为结构化知识的方法
CN112464925B (zh) 基于机器学习的移动端开户资料银行信息自动提取方法
CN110516221A (zh) 提取pdf文档中图表数据的方法、设备和存储介质
CN112418812A (zh) 分布式全链路自动化智能通关系统、方法及存储介质
CN110489457A (zh) 基于图像识别的商品信息分析方法、系统及存储介质
Caldeira et al. Industrial optical character recognition system in printing quality control of hot-rolled coils identification
CN108460418A (zh) 一种基于文字识别与语义分析的发票分类方法
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN110197175A (zh) 一种图书书名定位及词性标注的方法及系统
CN116612479A (zh) 一种轻量级的票据ocr识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant