CN111680679A - 一种基于ocr的单据自动识别方法 - Google Patents
一种基于ocr的单据自动识别方法 Download PDFInfo
- Publication number
- CN111680679A CN111680679A CN202010494704.4A CN202010494704A CN111680679A CN 111680679 A CN111680679 A CN 111680679A CN 202010494704 A CN202010494704 A CN 202010494704A CN 111680679 A CN111680679 A CN 111680679A
- Authority
- CN
- China
- Prior art keywords
- ocr
- document
- preset
- text
- identification method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000005303 weighing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000007599 discharging Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001669679 Eleotris Species 0.000 description 1
- 239000004566 building material Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开了一种基于OCR的单据自动识别方法,方法包括依次通过OCR提取文本、单据类型识别、单据模板识别、通用识别规则识别文字含义及识别文字归集,完成对物流运输中单据的文本识别,同时通过对其中车牌ID识别过程中的误差校正提高了识别精度。本申请达到了从一段无序、意义缺失的文字中提取出货物运输的要素的效果,从而了提高文本识别的准确率,以及物流运输检测的工作效率。
Description
技术领域
本申请涉及物流运输检测技术领域,具体而言,涉及一种基于OCR的单据自动识别方法。
背景技术
在建筑物料运输行业中,物流公司负责将建筑需要的原材料从工厂运输到施工工地,在物料的运输和交割过程中会对大量的纸质单据进行处理,该类单据是用于物流公司在后期向托运方收取费用的依据。由于物流公司的发货,收货方较多,每个收发货单位的单据格式、质量、清晰度是不同的,因此就造成了单据样式多样化,单据质量多样化,单据信息多样化等问题。将纸质单据上的涉及发货地、收货地、进厂时间、出厂时间、拉货车牌号、货物重量、收货进厂时间、收货出厂时间等信息转化为文本格式,然后形成对账报表就成为了物流运输企业必然需要去处理之事,目前,各个物流公司均采用人工手工将纸质单据信息录入电脑中的方式来解决该类问题,其解决过程需要耗费大量的人力,人工成本较高;同时其工作过程单调、重复度高,极容易产生人工失误,混乱物流程序。
为解决上述问题,现有技术中出现了光学文本识别(OpticalCharacterRecognition,OCR),OCR针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术,目前被广泛用于手写识别、打印识别及文本图像识别等相关领域。不论是文档识别、银行卡身份证识别等小型识别场景,还是广告、海报等大型识别场景,均可通过OCR技术大展拳脚,该技术极大简化了图像数据处理的流程。
对于OCR技术的应用,例如公开号为CN109241826B的发明专利,一种基于OCR技术的识别医学单据系统和方法,其系统包括单据头进入检测装置、单据尾进入检测装置、单据头排出检测装置、单据尾排出检测装置、恒定磁场发生器、线性光学传感器组、线性初始磁传感器组、线性校验磁传感器组、平行光光源、第一数据封装处理器、状态判断处理器和控制信号生成处理器,该发明利用两种不同类型的物理信号识别同一单据形成两种内容表达正相关的图像,利用物理信号的差异过滤光学图像中的非字符识别内容,定位字符识别内容区域,减轻了OCR识别的难度和数据处理负荷,节约了时间成本和硬件成本。再例如公开号为CN110599317A的发明专利,一种基于规则引擎和OCR的报账及审核自动化方法,该发明主要通过在员工报账扫描时引入OCR识别,识别出员工报账的各类票据信息,并将识别的信息存储至数据库中,再利用预先在规则引擎中配置的校验规则匹配识别的信息,进行自动填写电子单据信息,并在员工保存或提交电子单据信息时提醒员工不规范的填写点,提升了员工报账体验以及降低开发及运维成本。
上述专利技术虽然对OCR识别方法进行了改进,提高了处理效率,但均为对实际的单据识别中的识别率问题进行克服,解决该类问题,借助于光学字符识别只是第一步,更重要的是赋予图像转换而来的文本以含义,否则只是单纯的一堆文字,并不会产生任何含义。例如百度基于光学字符识别技术推出了其iocr(智能OCR)方案,基于文字在图片上出现的位置以及其左右、前后的参照文本来确认指定位置出现内容的现实含义,在上述场景下面临了单据格式多样化、质量不均衡、单据信息多样化等问题,同样内容的文本出现的位置会有偏差,因此导致此种方法对文本含义的识别困难较大,识别率较低,无法实际应用;如图3所示,对于数字、字母和文字所组合的文本识别也时常出现此类错误,图文处理能力低下了;基于机器学习的语义识别技术也仅能识别有自然含义的语句,而对于词组的含义却无法识别。因此为了解决上述问题,本领域亟待一种对纸质单据上文本的含义进行准确识别的方法。
发明内容
本申请的主要目的在于提供一种基于OCR的单据自动识别方法,以提高文本识别的准确率。
为了实现上述目的,本申请提供了如下技术:
一种基于OCR的单据自动识别方法,所述自动识别方法包括以下步骤:
S1,基于OCR对单据图像中的文本信息进行提取,得到文字数据;
S2,根据预设特征值对所述文字数据中的单据类型进行识别,得到第一解析结果;
S3,根据预设逻辑对所述文字数据中的单据模板进行识别,得到第二解析结果;
S4,基于第一预设识别规则对所述文字数据中的文字含义进行识别,得到第三解析结果,其中,对车牌信息包括进行误差校正识别;
S5,将所述第一解析结果、第二解析结果和第三解析结果进行归集;
其中,步骤S5中的归集结果将储存于数据库中,以形成历史数据。
优选地,所述自动识别方法还包括步骤S6,基于第二预设识别规则对所述文字数据中的文字含义进行识别,得到第三解析结果。
优选地,步骤S2中的预设特征值包括限定关键字,即在识别到第一关键字时,不能包含第二关键字,否则识别无效;识别到第二关键字时,不能包含第一关键字,否则识别无效。
优选地,步骤S3中的预设逻辑包括对提取的文字特征进行分解匹配,若匹配对应,则认定该文字特征为单据模板;该预设逻辑还包括对特征值的提取,其特征值的提取依照单据上的预设方位坐标。
优选地,步骤S4中的第一预设识别规则包括根据单据字段的特性将其进行划分,即划分为有限集名词集合、有限集固定规律字母组合集合、无限集数字集合和可穷举固定格式。
优选地,对于所述有限集名词集合的提取过程包括以下步骤:
提取名词并将其分类;
提取匹配关键字;
提取排斥关键字;
名词收录完成。
优选地,对于所述有限集固定规律字母组合集合的提取方法包括根据提取数据与数据库中历史数据的比对,对其进行莱文斯坦距离的计算。
优选地,步骤S4中的误差矫正识别包括以下算法步骤:
根据X中每个车牌对应的车牌ID,获取其历史可靠性更新次数,并按照和X一一对应的顺序构造出向量Q;
根据预设的超参数λ和Error(Q)计算出初始的结果向量M;
对向量M进行MIN-MAX归一化处理;
根据预设超参数θ,更新M,其更新公式为C=θM;
若R(X,Xi)>0.5,更新Ci,Ci=Ci+α,其中α为补偿系数;
G=<V,E>为无向无权同质网络,为X中尚未连接顶点增加一条边,形成完全图;
其中,Error(X)=Sigmoid(-In(λX)),Sigmoid(x)=1/(1+e-x),α=θp,p∈(0,1);根据向量C更新车牌信息的可靠性,输出可靠性较高的数据作为有限集固定规律字母组合集合。
优选地,R(X,Xi)函数的计算公式如下:
R(X,Xi)=ΣEnXn=ETX,
其中,Ei表示X中的第n个节点与第i个节点是否相连,若相连,En=1,否则为0,对ET进行平均归一化处理后再与X相乘。
本申请所采用的技术方案带来了如下技术效果:
1、有效的利用实际的业务关系,以及对具体属性的分类和抽象提取,可以极大的提高ocr识别结果到业务描述语义的转换,更好的满足了用户的使用需求,提升了图文转换精度。
2、充分的利用的平台上积累的历史存量数据,对OCR识别出的杂乱且无实际含义的纯文本进行了有含义的提取,可以直接生成各大物流商需要的统计数据,进而提升了日常的工作效率;
3、通过对识别目标的误差校正,避免了单据中字母数字多样化的干扰,使得识别结果更加精准,提升了文本识别的准确率。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明具一种基于OCR的单据自动识别方法的一个可选的流程示意图;
图2是本发明一种基于OCR的单据自动识别方法的一个可选的提取流程示意图;
图3是本发明一种基于OCR的单据自动识别方法的一个可选的车牌信息校正示例;
图4是本发明一种基于OCR的单据自动识别方法的一个可选的单据样例。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。下面将参考附图并结合实施例来详细说明本申请。
在实施例1中,如图1所示,一种基于OCR的单据自动识别方法,所述自动识别方法包括以下步骤:基于OCR对单据图像中的文本信息进行提取,得到文字数据;根据预设特征值对所述文字数据中的单据类型进行识别,得到第一解析结果;根据预设逻辑对所述文字数据中的单据模板进行识别,得到第二解析结果;基于第一预设识别规则对所述文字数据中的文字含义进行识别,得到第三解析结果,其中,对车牌信息包括进行误差校正识别;将所述第一解析结果、第二解析结果和第三解析结果进行归集;步骤S5中的归集结果将储存于数据库中,以形成历史数据。
其中,如图4所示,对该单据进行图像识别。基于OCR识别技术,可通过百度提供的OCR识别能力,将图片转化为二进制数据,通过http请求送至百度云服务,并获取OCR识别结果。对于物流行业中的单据,其文本信息中的重要内容包括发货地名、收货地名、车牌ID、货物重量及出厂时间,通过OCR识别获取前述文本信息中的具体内容,进而解析出第一解析结果,即匹配上收货地或发货地的企业名称;解析出第二解析结果,即单据类型;解析出第三解析结果,即发货方、收货方、车牌ID、货物重量及出厂时间。实际单据中的类容将预先归为预设特征值,例如将“过磅单”作为预设特征值归为“入库单”类型。
进一步地,步骤S2中的预设特征值包括限定关键字,即在识别到第一关键字时,不能包含第二关键字,否则识别无效;识别到第二关键字时,不能包含第一关键字,否则识别无效。识别图所属类型,通过人工对大量的单据进行观察,提取出单据类型的识别关键字,经过实际历史观察,入库单据的特征为:文本内容包含“入库单”并且不含“出厂单”;出厂单据的特征为:文本内容包含“出厂单”并且不含“入库单”。通过该特征首先将单据所属的分类确定,即可通过实际单据的类型,确定第一关键字为“入库单”,第二关键字为“出厂单”。根据OCR返回的文本内容识别该图像单据的类型,如图4所示,OCR识别的文本内容中包含“过磅单”字样,因此命中了入库单的特征值,所以该单据认定为入库单。
进一步地,步骤S3中的预设逻辑包括对提取的文字特征进行分解匹配,若匹配对应,则认定该文字特征为单据模板;该预设逻辑还包括对特征值的提取,其特征值的提取依照单据上的预设方位坐标。所述预设逻辑根据对单据模板的识别,包括以下匹配逻辑,以图4中OCR返回的文本内容为例,其单据上包含“XX中天”与“XX中天大桥混凝土工程有限责任公司过磅单”的模板识别规则:wordContext.contains("XX中天")||wordContext.contains("XX大桥"))&&wordContext.contains("过磅单")相匹配,并且是唯一匹配,因此该单据的模板被认定为“重庆中天大桥混凝土工程有限责任公司过磅单”。单据所属模板识别;依照二维空间坐标,通过对单据平面中的左上角、右上角、左下角、右下角、中部,五个部位进行定位,选取单据印刷体文字,作为模板的匹配特征值,根据该匹配特征值可以确定单据的所属的模板类型,例如图4中左上角的“XX中天大桥”,右上角的“过磅单”,左下角的“驾驶员”,右下角的“过磅员”,中部的“毛重/吨”。另外,为了降低单据模板之间的冲突,除了选取正向特征外,对模板还可以配置负向特征,负向特征为只要该特征值出现,那么该图像就不再匹配此模板。
模板除了具备正向特征和负向特征以外,还有模板属性,模板属性用来描述该类型的模板具备的有意义的字段有哪些,发货单位、收货单位、出厂时间、车牌号、货物净重等信息并不是所有模板都具备的,因此需要根据具体的模板来选择拥有这些字段的某几个,通过模板的特征值,以确定单据所属的模板。
进一步地,步骤S4中的第一预设识别规则包括根据单据字段的特性将其进行划分,即划分为有限集名词集合、有限集固定规律字母组合集合、无限集数字集合和可穷举固定格式。第一预设识别规则包括通用识别规则,该通用识别规则是基于行业逻辑定义的一般规则,识别单据文本含义,针对单据字段的特性,将每张单据上的字段进行划分,分为以下几大类:有限集名词集合、有限集固定规律字母组合集合、无限集数字集合、可穷举固定格式。有限集名词集合包括发货方和收货方;有限集固定规律字母组合集合包括车牌号;无限集数字集合包括货物重量;可穷举固定格式包括出厂时间。
具体地,如图2所示,有限集名词集合,通过对名词进行提取和抽象,将名词收录进数据库中。例如:“XY华磊商品混凝土有限公司”,“XY”为地名,太过于普遍,不具备唯一性,“华磊”也比较普遍,但是“Y华磊”和“磊商”就不具备常规含义了,就可以用来作为需要提取的匹配关键字,如果OCR识别结果中能命中匹配关键字则说明,该单据内容中包含“XY华磊商品混凝土有限公司”。再结合单据类型和名词类型,“XY华磊商品混凝土有限公司”归属于分类中的“终端”,即收货方,再配合单据类型,就能得到,“XY华磊商品混凝土有限公司”在入库单上的实际含义是“终端”。对于有限集名词集合,采用此种方法可以完成文本含义的识别。再例如根据OCR返回的文本内容,识别单据的各个字段:识别发货方,在文本内容中发现“迈克尔轨公司”,与有限集名字集合中的数据项“迈克尔轨枕公司”匹配,该数据项的匹配关键字为:“迈克尔|克尔轨”,排斥关键字为:“X迈”,因此可以识别出该张单据包含名词“迈克尔轨公司”,该名词的现实角色是贸易商,再加上单据类型为入库单,入库单据上的贸易商就是发货方,因此可以得出:该实施例的发货方是“迈克尔轨公司”;识别收货方,文本内容中存在“XX中天大桥混凝土”字样,与有限集名词集合中的数据项“XX中天大桥混凝土工程有限责任公司”匹配,该数据项的匹配关键字为“中天大桥”,无排斥关键字,因此可以识别出名词“XX中天大桥混凝土工程有限责任公司”,其角色为终端客户,该实例的单据类型又是入库单,入库单据中存在的终端客户就是收货方,因此可以得出该实例的收货方是“XX中天大桥混凝土工程有限责任公司”。
对于单据中的车牌ID类型的字段,车牌ID是按照固定规律组合在一起,由汉字+数字+字母组成的7位字符。由于在实际环境中,时常出现单据质量较差,经过OCR识别以后,车牌号存在缺失的情况,进而需要将缺失的车牌号补充完整。根据数据库中车牌ID的存量数据及业务场景,某一家物流公司的车辆数量是相对有限和固定的,因此可以穷举计算OCR识别结果与存量正确车牌号的“莱文斯坦距离”(A字符串转换为B字符串需要经历的转换次数),最后根据“莱文斯坦距离”的大小来确定正确的车牌号。当“莱文斯坦距离”距离小于3时,结果的正确率达到正常。以图4样例为例:识别车牌号,根据车牌号的通用识别规则,在文本中筛选出以下备选项:
第一项:K24019
第二项:2020
第三项:0810
第四项:61103
以上四个选项与车牌号数据库内的数据进行比对,并计算“莱文斯坦距离”,结果如下:
第一项:K24019 【】 【】
第二项:2020 【】 【】
第三项:0810 【】 【】
第四项:61103 【渝D61103】 【2】
【渝D61003】 【3】
第四项与车牌号数据库中有两项“莱文斯坦距离”较低,取“莱文斯坦距离”最近的一条记录,断定车牌号为:【渝D61103】,所以该入库单对应的车牌号是“渝D61103”。
对于单据中的重量识别,单据上有三个重量数值,“净重”、“皮重”、“毛重”,这三个值存在逻辑关系:即“毛重”=“净重”+“皮重”;利用正则表达式将OCR识别结果中的所有数字类型的数据提取出来,找出其中存在如A+B=C一类逻辑关系的一组数字;然后按照从小到大的顺序进行排列,最小的值就是“皮重”,最大的值就是“毛重”,介于两者中间的值就是“净重”;而后再配合数据库或百度云中大数据分析的结果,毛重、皮重、净重均有其合理区间,将结果不在合理区间内的结果排除掉,最终剩下的数据即为正确的结果。
具体地,如图4所示,货物重量识别,对文本中的数字类型进行提取,得到以下结果:
第一项:24019
第二项:2020
第三项:42.5
第四项:32.5
第五项:16.04
第六项:61103
第七项:7990
第八项:48.54
对这八项数据进行每三个组成一组,一共有56组,然后在对每组数据变化数据,寻找符合逻辑关系a+b=c的一组,利用计算机进行计算,得出32.5+16.04=48.54,然后再根据“毛重”=“净重”+“皮重”的逻辑来判断,得出48.54为“毛重”,再结合规则:“净重”>“皮重”,可以推算出该张单据货物毛重为:48.54,皮重:16.04,净重:32.5。
对于单据上的出厂时间,根据通用的时间格式可分为下列:
“yyyy-MM-ddHH:mm:ss”
“yyyy-MM-ddHHmmss”
“yyyyMMddHHmmss”
“yyyyMMddHH:mm:ss”
“yyyy-MM-ddHH:mm”
“yyyy-MM-ddHHmm”
“yyyyMMddHHmm”
“yyyyMMddHH:mm”
“yyyyMMdd”
“yyyy-MM-dd”
“yyyy/MM/ddHHmmss”
“yyyy/MM/ddHH:mm”
“yyyy/MM/ddHHmm”
“yyyy/MM/ddHH:mm:ss”
“yyyy/MM/dd”
“HHmmss”
“HH:mm:ss”
“HH:mm”
其中y表示年,M表示月,d表示日,H表示24小时制的小时,m表示分钟,s表示秒。
利用正则表达式,对OCR识别结果中的内容进行提取,将格式匹配的数据罗列出来。若单据类型为出厂单,那么一定是先进厂,然后再出厂,此时较早的时间就是进厂时间,较晚的时间就是出厂时间;对于入库单则相反,较早时间为入库时间,较晚时间为出库时间。
进一步地,步骤S4中的误差矫正识别包括以下算法步骤:根据X中每个车牌对应的车牌ID,获取其历史可靠性更新次数,并按照和X一一对应的顺序构造出向量Q;根据预设的超参数λ和Error(Q)计算出初始的结果向量M;
对向量M进行MIN-MAX归一化处理;根据预设超参数θ,更新M,其更新公式为C=θM;若R(X,Xi)>0.5,更新Ci,Ci=Ci+α,其中α为补偿系数;G=<V,E>为无向无权同质网络,为X中尚未连接顶点增加一条边,形成完全图;其中,Error(X)=Sigmoid(-In(λX)),Sigmoid(x)=1/(1+e-x),α=θp,p∈(0,1);根据向量C更新车牌信息的可靠性,输出可靠性较高的数据作为有限集固定规律字母组合集合。R(X,Xi)函数的计算公式如下:R(X,Xi)=ΣEnXn=ETX,其中,Ei表示X中的第n个节点与第i个节点是否相连,若相连,En=1,否则为0,对ET进行平均归一化处理后再与X相乘。MIN-MAX归一化处理方法,其公式为:x'=(x-X_min)/(X_max-X_min)。
具体地,算法输入:n维向量X(n>1)和正确结果y;算法输出:n维向量C(n>1);超参数:λ、θ;其中,向量C的内容为修正数值;在X中一定存在Xi=y,因此Ci>0,C中其余数值小于0。
对于补偿系数α,α可根据数据库中的历史数据进行计算,逻辑回归一般用于解决二分类问题,但其返回值为概率p∈(0,1),因此可用于数值计算,故补偿系数α=θp。逻辑回归的目标函数采用梯度下降法求解,由于凸函数在导数为0处取得极值,因此首先对目标函数的凹凸性进行证明,目标函数如下:
L(W)=-Σyilog(Sigmoid(wTxi))+(1-yi)log(1-Sigmoid(wTxi))
对目标函数求偏导得:
由偏导数可求得Hessian矩阵的元素
hj,k=Σxi,k*xi,j*Sigmoid(wTxi)(1-Sigmoid(wTxi))
其中,Hessian矩阵的计算公式如下:
H=XTVX,其中βi=Sigmoid(WTxi),因此V>0,对于任意D+1维向量A:
ATHA=(XA)TV(XA),因为V>0,Hessian矩阵H为正定矩阵,该函数为凸函数。
对于W,其梯度下降步骤为:
实际仿真例中,输入:[渝D61103的ID,渝D61003的ID]T和正确值[渝D61003]T,输出:可靠性调整矩阵[a,b]T,其中a<0,b>0,a对应渝D61103,b对应渝D61003。
根据历史记录,若渝D61103的更新记录为10,渝D61003的更新记录为5,则可根据Error(Q)计算出向量M=[Sigmoid(-10λ),Sigmoid(-5λ)]T,再进行MIN-MAX归一化处理,再乘θ得到向量C=[θMIN-MAX(Sigmoid(-10λ)),θMIN-MAX(Sigmoid(-5λ))]T
由于b曾经和a进行过可靠性比较,所以R(X,Xi)=0.5,不加上补偿系数。
如遇大于0.5的情况,根据逻辑回归的数值计算计算出补偿系数后与Ci相加,根据向量C更新车牌的可靠性。以上为训练过程,在实际比较中,根据训练的可靠性,得出渝D61003的可靠性较高,因此输出渝D61003。
经过以上流程,完成了对发货方、收货方、出厂时间、运输车牌号、货物重量等单据中重要的核心要素的识别,在最后将其合并在一起,反馈给用户,完成图形单据转换为文本的处理。在本实施例中输出车辆“渝D61103”在“2020年01月08日”从“迈克尔轨公司”运输“32.5”吨货物到“XX中天大桥混凝土工程有限责任公司”。
在另一些实施例中,所述自动识别方法还包括步骤S6,基于第二预设识别规则对所述文字数据中的文字含义进行识别,得到第三解析结果。发明人考虑打牌对于一些在局部范围内存在共性的规则,就需要利用个性化解析规则来实现。通过第二预设识别规则,即模板自定义规则识别语义,同一个生产厂商提供出来的单据均是基于一个模板打印的,因此这样的一组单据均具有共性,不同的生产厂商之间的单据共性不一致,并且随着业务的推进,新的物流商的进入,均会增加单据模板量,因此采用动态配置的方式来做到动态调整与识别。对于系统无法识别出语义的单子,将其收集在一起,然后一并推送给对应的后台人工,人工将通过观察单据特征,对特征进行归纳,最后存储进数据库,当下一张相同模板类型的单据需要识别时,这条新增的规则就是可以生效,最终提高单据中语义的识别率。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种基于OCR的单据自动识别方法,其特征在于,所述自动识别方法包括以下步骤:
S1,基于OCR对单据图像中的文本信息进行提取,得到文字数据;
S2,根据预设特征值对所述文字数据中的单据类型进行识别,得到第一解析结果;
S3,根据预设逻辑对所述文字数据中的单据模板进行识别,得到第二解析结果;
S4,基于第一预设识别规则对所述文字数据中的文字含义进行识别,得到第三解析结果,其中,对车牌信息包括进行误差校正识别;
S5,将所述第一解析结果、第二解析结果和第三解析结果进行归集;
其中,步骤S5中的归集结果将储存于数据库中,以形成历史数据。
2.如权利要求1所述的一种基于OCR的单据自动识别方法,其特征在于,所述自动识别方法还包括步骤S6,基于第二预设识别规则对所述文字数据中的文字含义进行识别,得到第三解析结果。
3.如权利要求1或2所述的一种基于OCR的单据自动识别方法,其特征在于,步骤S2中的预设特征值包括限定关键字,即在识别到第一关键字时,不能包含第二关键字,否则识别无效;识别到第二关键字时,不能包含第一关键字,否则识别无效。
4.如权利要求1或2所述的一种基于OCR的单据自动识别方法,其特征在于,步骤S3中的预设逻辑包括对提取的文字特征进行分解匹配,若匹配对应,则认定该文字特征为单据模板;该预设逻辑还包括对特征值的提取,其特征值的提取依照单据上的预设方位坐标。
5.如权利要求1或2所述的一种基于OCR的单据自动识别方法,其特征在于,步骤S4中的通用识别规则包括根据单据字段的特性将其进行划分,即划分为有限集名词集合、有限集固定规律字母组合集合、无限集数字集合和可穷举固定格式。
6.如权利要求5所述的一种基于OCR的单据自动识别方法,其特征在于,对于所述有限集名词集合的提取过程包括以下步骤:
提取名词并将其分类;
提取匹配关键字;
提取排斥关键字;
名词收录完成。
7.如权利要求5所述的一种基于OCR的单据自动识别方法,其特征在于,对于所述有限集固定规律字母组合集合的提取方法包括根据提取数据与数据库中历史数据的比对,对其进行莱文斯坦距离的计算。
8.如权利要求1或2所述的一种基于OCR的单据自动识别方法,其特征在于,步骤S4中的误差矫正识别包括以下算法步骤:
根据X中每个车牌对应的车牌ID,获取其历史可靠性更新次数,并按照和X一一对应的顺序构造出向量Q;
根据预设的超参数λ和Error(Q)计算出初始的结果向量M;
对向量M进行MIN-MAX归一化处理;
根据预设超参数θ,更新M,其更新公式为C=θM;
若R(X,Xi)>0.5,更新Ci,Ci=Ci+α,其中α为补偿系数;
G=<V,E>为无向无权同质网络,为X中尚未连接顶点增加一条边,形成完全图;
其中,Error(X)=Sigmoid(-In(λX)),Sigmoid(x)=1/(1+e-x),α=θp,p∈(0,1);根据向量C更新车牌信息的可靠性,输出可靠性较高的数据作为有限集固定规律字母组合集合。
9.如权利要求8所述的一种基于OCR的单据自动识别方法,其特征在于,R(X,Xi)函数的计算公式如下:
R(X,Xi)=ΣEnXn=ETX,
其中,Ei表示X中的第n个节点与第i个节点是否相连,若相连,En=1,否则为0,对ET进行平均归一化处理后再与X相乘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010494704.4A CN111680679A (zh) | 2020-06-03 | 2020-06-03 | 一种基于ocr的单据自动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010494704.4A CN111680679A (zh) | 2020-06-03 | 2020-06-03 | 一种基于ocr的单据自动识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111680679A true CN111680679A (zh) | 2020-09-18 |
Family
ID=72453099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010494704.4A Pending CN111680679A (zh) | 2020-06-03 | 2020-06-03 | 一种基于ocr的单据自动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680679A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215159A (zh) * | 2020-10-13 | 2021-01-12 | 苏州工业园区报关有限公司 | 一种基于ocr和人工智能技术的国际贸易单证拆分系统 |
CN112667767A (zh) * | 2020-12-31 | 2021-04-16 | 北京百炼智能科技有限公司 | 一种信息处理的方法及装置 |
CN113233069A (zh) * | 2021-05-27 | 2021-08-10 | 海尔卡奥斯物联生态科技有限公司 | 智能仓储出库控制方法、装置、电子设备、及存储介质 |
CN114495136A (zh) * | 2022-04-14 | 2022-05-13 | 滨州市社会保险事业中心 | 财务数据存储方法、系统、计算机设备和存储介质 |
CN116758564A (zh) * | 2023-08-15 | 2023-09-15 | 山东履信思源防伪技术有限公司 | 一种对比ocr字符识别结果的方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107437085A (zh) * | 2017-08-09 | 2017-12-05 | 厦门商集企业咨询有限责任公司 | 一种提升ocr识别率的方法、装置及可读存储介质 |
CN107622255A (zh) * | 2017-10-12 | 2018-01-23 | 江苏鸿信系统集成有限公司 | 基于位置模板与语义模板的票据图像字段定位方法及系统 |
CN109919014A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN110008944A (zh) * | 2019-02-20 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于模板匹配的ocr识别方法及装置、存储介质 |
CN110263694A (zh) * | 2019-06-13 | 2019-09-20 | 泰康保险集团股份有限公司 | 一种票据识别方法及装置 |
CN111047261A (zh) * | 2019-12-11 | 2020-04-21 | 青岛盈智科技有限公司 | 一种仓储物流委托单识别方法及系统 |
CN111191435A (zh) * | 2019-12-25 | 2020-05-22 | 上海三稻智能科技有限公司 | 一种用于海关报表的动态模板生成报表的方法及其装置 |
-
2020
- 2020-06-03 CN CN202010494704.4A patent/CN111680679A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107437085A (zh) * | 2017-08-09 | 2017-12-05 | 厦门商集企业咨询有限责任公司 | 一种提升ocr识别率的方法、装置及可读存储介质 |
CN107622255A (zh) * | 2017-10-12 | 2018-01-23 | 江苏鸿信系统集成有限公司 | 基于位置模板与语义模板的票据图像字段定位方法及系统 |
CN109919014A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN110008944A (zh) * | 2019-02-20 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于模板匹配的ocr识别方法及装置、存储介质 |
CN110263694A (zh) * | 2019-06-13 | 2019-09-20 | 泰康保险集团股份有限公司 | 一种票据识别方法及装置 |
CN111047261A (zh) * | 2019-12-11 | 2020-04-21 | 青岛盈智科技有限公司 | 一种仓储物流委托单识别方法及系统 |
CN111191435A (zh) * | 2019-12-25 | 2020-05-22 | 上海三稻智能科技有限公司 | 一种用于海关报表的动态模板生成报表的方法及其装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215159A (zh) * | 2020-10-13 | 2021-01-12 | 苏州工业园区报关有限公司 | 一种基于ocr和人工智能技术的国际贸易单证拆分系统 |
CN112215159B (zh) * | 2020-10-13 | 2021-05-07 | 苏州工业园区报关有限公司 | 一种基于ocr和人工智能技术的国际贸易单证拆分系统 |
CN112667767A (zh) * | 2020-12-31 | 2021-04-16 | 北京百炼智能科技有限公司 | 一种信息处理的方法及装置 |
CN113233069A (zh) * | 2021-05-27 | 2021-08-10 | 海尔卡奥斯物联生态科技有限公司 | 智能仓储出库控制方法、装置、电子设备、及存储介质 |
WO2022247925A1 (zh) * | 2021-05-27 | 2022-12-01 | 海尔卡奥斯物联生态科技有限公司 | 智能仓储出库控制方法、装置、电子设备、及存储介质 |
CN114495136A (zh) * | 2022-04-14 | 2022-05-13 | 滨州市社会保险事业中心 | 财务数据存储方法、系统、计算机设备和存储介质 |
CN116758564A (zh) * | 2023-08-15 | 2023-09-15 | 山东履信思源防伪技术有限公司 | 一种对比ocr字符识别结果的方法及系统 |
CN116758564B (zh) * | 2023-08-15 | 2023-11-10 | 山东履信思源防伪技术有限公司 | 一种对比ocr字符识别结果的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680679A (zh) | 一种基于ocr的单据自动识别方法 | |
US11816165B2 (en) | Identification of fields in documents with neural networks without templates | |
US11055327B2 (en) | Unstructured data parsing for structured information | |
JP5710624B2 (ja) | 抽出のための方法及びシステム | |
CN108829681A (zh) | 一种命名实体提取方法及装置 | |
US20170206409A1 (en) | Cognitive document reader | |
US11232299B2 (en) | Identification of blocks of associated words in documents with complex structures | |
CN112232036A (zh) | 报销单生成方法、电子设备和计算机可读存储介质 | |
CN111191435A (zh) | 一种用于海关报表的动态模板生成报表的方法及其装置 | |
CN117112782A (zh) | 一种招标公告信息提取方法 | |
US10095986B2 (en) | System and method of electronically classifying transportation documents | |
CN113537878A (zh) | 包裹派送方法、装置、设备及存储介质 | |
CN113590781A (zh) | 末端快递编码预测方法、系统、电子设备及可读存储介质 | |
US11823477B1 (en) | Method and system for extracting data from tables within regulatory content | |
CN111047261A (zh) | 一种仓储物流委托单识别方法及系统 | |
US9898710B2 (en) | Routing different parts of a mail item to different destinations | |
CN115408995A (zh) | 一种项目电子文档的结构化解析方法及系统 | |
CA3234169A1 (en) | System for transportation and shipping related data extraction | |
Nagy | Document image analysis: Automated performance evaluation | |
CN113902319A (zh) | 基于知识库的政务数据质量评价方法 | |
CA3156204A1 (en) | Domain based text extraction | |
CN112991037A (zh) | 信用证46域解析方法及装置 | |
JP5911701B2 (ja) | ビデオコーディングシステム、画像の表示優先度判定プログラムおよび小包処理装置 | |
CN117494688B (zh) | 表单信息抽取方法、装置、设备及存储介质 | |
Ou et al. | AI Prescription Recognition System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200918 |
|
RJ01 | Rejection of invention patent application after publication |