CN110334640A - 一种票据审核方法及系统 - Google Patents
一种票据审核方法及系统 Download PDFInfo
- Publication number
- CN110334640A CN110334640A CN201910577167.7A CN201910577167A CN110334640A CN 110334640 A CN110334640 A CN 110334640A CN 201910577167 A CN201910577167 A CN 201910577167A CN 110334640 A CN110334640 A CN 110334640A
- Authority
- CN
- China
- Prior art keywords
- model
- bill
- picture
- data information
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种票据审核方法及系统,能够自动审核票据,提高了审核效率和正确率。所述票据审核方法,包括:获取含有票据的图片,对图片中的票据进行识别,构建专项模型;对所述专项模型进行训练;利用训练后的专利模型对票据进行审核。
Description
技术领域
本发明属于电子办公技术领域,尤其涉及一种票据审核方法及系统。
背景技术
目前财务共享办公领域发票报销,扫描,审核大多仍采取人工审核方式,财务人员每天都面临着实物票接受,分拣,扫描,审核,批复的过程。整个流程线枯燥乏味,存在着大量重复手工操作,尤其是票据审核,需要反复对比员工提报的报销流程信息与票面信息是否一致,费时费力。
传统的ocr识别都是基于attention_ocr技术完成通用识别模型。通过打标平台不停的标注训练,识别出从左往右,自上至下的文字识别结果,通过坐标和关键字做专项模型封装。需事先告诉模型要识别哪种类型票据才能进行专属模型研发。如果需要提高识别成功率,需要大量样本进行打标训练,缺少基于业务系统整个流水线的纠错机制来提高整体的识别率。
发明内容
本发明的实施例提供一种票据审核方法及系统,能够自动审核票据,提高了审核效率和正确率。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供一种票据审核方法,包括:
获取含有票据的图片,对图片中的票据进行识别,构建专项模型;
对所述专项模型进行训练;
利用训练后的专利模型对票据进行审核。
结合第一方面,作为第一种可能实现的技术方式,所述获取含有票据的图片,对图片中的票据进行识别,构建专项模型,包括:
获取含有票据的图片,对所述图片中的票据进行识别分类,获得票据识别结果,所述图片包括N张票据,N为大于1的整数,所述票据识别结果包括N张单张票据图片;
对所述N张单张票据图片进行文字识别,获得文字识别结果;
将所述文字识别结果封装成专项模型。
结合第一方面的第一种可能的实现方式,作为第二种可能的实现方式,所述对所述图片中的票据进行识别分类,具体包括:
将所述图片的大小调整设定值;
在所述调整后的图片上运行单个卷积网络;
由OCR识别技术中的目标检测模型的置信度对S102获得的图片运行卷积结果进行阈值处理;
利用神经网络做图像语义分割,获得N张单张票据图片。
结合第一方面的第一种可能的实现方式,作为第三种可能的实现方式,所述将所述文字识别结果封装成专项模型,具体包括:
根据所述文字识别结果,得到所述单张票据图片上的票据所属的类型;
根据所述票据所属的类型,将文字识别结果封装成所述票据的专项模型,所述专项模型包括至少一个业务字段;
将所述一个或多个业务字段约定为所述专项模型的目标字段。
结合第一方面,作为第四种可能的实现方式,所述对所述专项模型进行训练,包括:
从图片中采集数据信息,所述数据信息包括业务数据和模型识别数据一致的正确数据信息,以及业务数据和模型识别数据不一致的错误数据信息;
判断所述错误数据信息是否为模型识别错误,若是,则进入下一步;
根据所述错误数据信息,进行模型反义,并自动打标,训练模型。
结合第一方面第四种可能的实现方式,作为第五种可能的实现方式,所述进行模型反义,包括:
将数据信息生成字段信息;
从所述字段信息查找标记为错误的模型数据信息;
根据所述标记为错误的模型数据信息,还原成带坐标的通用文字识别结果。
结合第一方面第四种可能的实现方式,作为第六种可能的实现方式,所述自动打标,训练模型,包括:
根据所述带坐标的通用文字识别结果,在图片中对应的坐标处,标记出正确数据信息和错误数据信息;
利用所述正确数据信息调整所述错误数据信息所属模型。
结合第一方面,作为第七种可能的实现方式中,所述的方法,还包括构建规则引擎,具体包括:
根据业务规则预设决策树;所述决策树包括业务条件及比对结果;
根据所述决策树中的比对结果,确定流程流转。
结合第一方面第七种可能的实现方式,作为第八种可能的实现方式,所述根据业务规则预设决策树,包括:
解析业务规则,获取业务规则中包含的业务要素;
对所述业务要素配置业务条件,判断业务要素是否满足业务条件,获取比对结果。
结合第一方面第八种可能的实现方式,作为第九种可能的实现方式,所述判断业务要素是否满足业务条件,获取比对结果,包括:
建立第一数据库和第二数据库,所述第一数据库中包含模型识别数据;所述第二数据库中包含人工录入数据;
根据业务要素,分别从第一数据库和第二数据库中提取业务要素对应的数据,判断两者是否一致,若一致,则比对结果正确;若不一致,则比对结果错误。
第二方面,本发明的实施例提供票据审核系统,包括:
构建模块:用于获取含有票据的图片,对图片中的票据进行识别,构建专项模型;
训练模块:用于对所述专项模型进行训练;
审核模块:用于利用训练后的专利模型对票据进行审核。
结合第二方面,作为第一种可能的实现方式,所述构建模块,包括:
票据识别子模块,用于获取含有票据的图片,对所述图片中的票据进行识别分类,获得票据识别结果,所述图片包括N张票据,N为大于1的整数,所述票据识别结果包括N张单张票据图片;
文字识别子模块,用于对所述N张单张票据图片进行文字识别,获得文字识别结果;
封装子模块,用于将所述文字识别结果封装成专项模型。
结合第二方面,作为第二种可能的实现方式,所述训练模块,包括
采集子模块:用于从图片中采集数据信息,所述数据信息包括业务数据和模型识别数据一致的正确数据信息,以及业务数据和模型识别数据不一致的错误数据信息;
判断子模块:用于判断所述错误数据信息是否为模型识别错误,若是,则进入下一步;
训练子模块:用于根据所述错误数据信息,进行模型反义,并自动打标,训练模型。
结合第二方面,作为第三种可能的实现方式,所述的系统,还包括构建规则引擎模块,所述构建规则引擎模块包括:
预设子模块:用于根据业务规则预设决策树;所述决策树包括业务条件及比对结果;
确定子模块:用于根据所述决策树中的比对结果,确定流程流转。
本发明实施例提供的票据审核方法及系统,能够自动审核票据,提高了审核效率和正确率。所述审核方法包括:获取含有票据的图片,对图片中的票据进行识别,构建专项模型;对所述专项模型进行训练;利用训练后的专利模型对票据进行审核。本实施例的方法通过建立专项模型,并对专项模型进行自动训练,提高审核票据的准确性和效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的方法流程示意图;
图2是本发明实施例方法中步骤S10流程示意图;
图3是本发明实施例方法中步骤S20流程示意图;
图4是本发明实施例中的一界面示意图;
图5为本发明实施例提供的系统框图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
在本发明的实施例中,通过获取含有N(N为大于1的整数)张票据的图片,对图片中的票据进行识别分类,获得包括N张单张票据图片的票据识别结果,然后对N张单张票据图片进行文字识别,获得文字识别结果,最后将文字识别结果封装成专项模型,由此可以将贴在同一张报销单上的多张且多种类型的票据自动分类识别,提高了识别效率,简化了财务人员的分拣工作,并分别封装成各票据对应的专项模型,以供其它业务使用。
下面结合图1具体说明本发明一个实施例的方法流程。
如图1所示,本发明实施例的一种票据审核方法,包括:
S10获取含有票据的图片,对图片中的票据进行识别,构建专项模型;
S20对所述专项模型进行训练;
S30利用训练后的专利模型对票据进行审核。
优选的,如图2所示,所述S10,包括:
S101获取含有票据的图片,对所述图片中的票据进行识别分类,获得票据识别结果,所述图片包括N张票据,N为大于1的整数,所述票据识别结果包括N张单张票据图片;
S102对所述N张单张票据图片进行文字识别,获得文字识别结果;
S103将所述文字识别结果封装成专项模型。
在步骤S101中,获取含有票据的图片。例如报销人员将各种类型的票据粘贴在一张报销单上,通过摄像头对报销单进行拍摄或者通过扫描设备对报销单进行扫描,从而获得含有N张票据的图片。对图片中的票据进行识别分类,获得票据识别结果,票据识别结果包括N张单张票据图片。
根据本发明的一个实施例,使用OCR识别技术对所述图片中的票据进行识别分类,具体包括以下具体步骤:首先将图片的大小调整为设定值,设定值可以是448×448分辨率,然后在调整后的图片上运行单个卷积网络,其次由OCR识别技术中的目标检测模型的置信度对获得的图片运行卷积结果进行阈值处理,最后利用神经网络做图像语义分割,获得N张单张票据图片。
在步骤S102中,对所述N张单张票据图片进行文字识别,获得文字识别结果。
根据本发明的一个实施例,使用OCR识别技术对N张单张票据图片进行文字识别,具体包括文本检测和基于CRNN模型的文字识别,获得文字识别结果,所述文字识别结果包括所述单张票据图片上从上到下,从左到右的文字以及对应的坐标。例如,获得的文字识别结果为图片从上到下,从左到右的坐标及坐标的文字对一张火车票图片进行文字识别,获得的文字识别结果为
在步骤S103中,将所述文字识别结果封装成专项模型。
根据本发明的一个实施例,步骤S103可包括以下具体步骤:
S1031根据文字识别结果,获得所述单张票据图片上的票据所属的类型。票据分为火车票、飞机票、增值税专票、增值税普票、增值税电票,增值税卷票、定额票、价格文件等类型,每种票据均有关键字,例如火车票的关键字有几等坐、乘坐人等,若文字识别结果中存在这几个关键字,则可确认该单张票据图片上的票据为火车票。
S1032根据所述票据所属的类型,将文字识别结果封装成所述票据的专项模型,所述专项模型包括至少一个业务字段。例如火车票的专项模型中包含票价、乘车人、起始地、目的地和发车时间等业务字段。在一些实施例中,调用该票据所属的类型的封装脚本,将该票据的文字识别结果转换成专项模型。封装脚本为预先编写好,不同类型的票据有其对应的封装脚本,例如识别的票据类型是火车票,火车票的票面包含票价、乘车人、起始地、目的地和发车时间等业务字段,利用火车票的封装脚本将获得的火车票上的票价、乘车人、起始地、目的地和发车时间等相关文字转换成票价、乘车人、起始地、目的地和发车时间等业务字段,形成该火车票的专项模型。
S1033将所述一个或多个业务字段约定为所述专项模型的目标字段。例如,约定火车票的专项模型的目标字段为票价、乘车人和发车时间。
优选的,如图3所示,所述步骤S20,包括:
S201从图片中采集数据信息,所述数据信息包括业务数据和模型识别数据一致的正确数据信息,以及业务数据和模型识别数据不一致的错误数据信息;
S202判断所述错误数据信息是否为模型识别错误,若是,则进入下一步;
S203根据所述错误数据信息,进行模型反义,并自动打标,训练模型。
以票据识别模型为例,所述图片中含有各种票据影像,例如火车票、汽车票、出租车票、餐饮票等。可以事先将各种纸件票据粘贴在纸张上,然后扫描获取票据图片。利用模型,例如专项票据识别模型,识别图片中的数据信息,获得模型识别数据。同时,从图片中获取业务数据。业务数据为申请人在表单上填写,例如报销火车票时,起草差旅流程,填写火车票票面信息。若业务数据和模型识别数据一致,那么该数据信息为正确数据信息。若业务数据和模型识别数据不一致,那么该数据信息为错误数据信息。对于错误数据信息,可能是模型识别错误,也可能是业务数据本身错误。例如,出差地点为南京,业务数据为楠京,模型识别为南京。这样,业务数据和模型识别数据不一致,为错误数据信息。在该例中,业务数据是错误的,而模型没有识别错误。因此,模型不需要修正。本实施例中,仅对模型识别错误的情况下,对模型进行修正。根据错误数据信息,进行模型反义,并自动打标,训练模型。这提高模型后续识别正确率。本实施例中,利用模型识别过程中,发生的错误识别对模型进行修正。这样,在模型的使用过程中,通过不断的修正,提高后续的识别正确率。同时,模型修正过程是自动实现的,也提高了模型修正的效率。
优选的,所述S203进行模型反义,包括:
S2031将数据信息生成字段信息;
S2032从所述字段信息查找标记为错误的模型数据信息;
S2033根据所述标记为错误的模型数据信息,还原成带坐标的通用文字识别结果。
该优选例中,将数据信息生成字段信息。由于图片中的信息为文字和数据信息,为便于识别,将数据信息生成字段信息。如下面所示的两个实例。
实例1
″ocrName″:″totleMoney″,
″ocrValue″:″198.00″,
″businessFlag″:″1″,
″ocrReusltDet″:false,
″businessValue″:″300.00″
实例1中,金额识别错误,业务数据为300,模型识别为198。因此,标记模型识别错误。
实例2
″ocrName″:″ticketsMoney″,
″ocrValue″:″192.23″,
″businessFlag″:″1″,
″ocrReusltDet″:true,
″businessValue″:″192.23″
实例2中,识别金额,业务数据为192.23,模型识别为192.23。因此,标记模型识别正确。
在将数据信息生成字段信息后,系统容易从所述字段信息中查找标记为错误的模型数据信息。例如,在上述的两个实例中,直接查找“ocrReusltDet”:false的字段信息。当查找到标记为错误的模型数据信息时,获取相应的错误数据信息。最后,根据所述标记为错误的模型数据信息,还原成带坐标的通用文字识别结果。如图4所示,将图中右侧的错误模型数据信息,还原为图中左侧的带坐标的通用文字识别结果。在通用文字识别结果中,每个信息都对应相应的坐标信息。如图4所示,“湖北送用定额发票”对应的坐标信息为“210.83.721.136”。
优选的,所述自动打标,训练模型,包括:
根据所述带坐标的通用文字识别结果,在图片中对应的坐标处,标记出正确数据信息和错误数据信息;
利用所述正确数据信息调整所述错误数据信息所属模型。
根据带坐标的通用文字识别结果,在图片中对应的坐标处,标记出正确数据信息和错误数据信息,并用正确数据信息替换错误数据信息。通用文字识别结果中的坐标信息和图片中文字的坐标信息一致。因此,根据错误数据信息在通用文字识别结果中的坐标信息,从图片中查找到对应坐标处的数据信息,并用正确数据信息替换错误数据信息。利用所述正确数据信息调整所述错误数据信息所属模型。通过调整修正,提高模型后续的识别正确率。
优选的,利用所述正确数据信息调整所述错误数据信息所属模型,包括:
记录坐标信息;
根据所述错误数据信息对应的坐标信息,用正确的数据信息原框还原错误数据信息,并且保持坐标信息不变。
所述记录坐标信息包括正确的数据信息对应的坐标信息,以及错误的数据信息对应的坐标信息。当判断出有模型识别错误的信息时,对模型进行修正。利用正确的数据信息原框还原错误数据信息。这样,在不断的修正中,模型识别的正确率越来越高。同时,该调整修正过程也是系统自动完成的。通过不断的使用训练模型,模型精度越来越高。
上述实施例的方法应用到票据审核中时,当模型识别数据与员工提报数据(业务数据)完全匹配一致,则自动完成审核,无需财务人员审核岗做任何工作。当模型识别与员工提报数据(业务数据)匹配部分一致时,则将识别错误数据带回财务人员审核页面,可让财务人员在低感知的情况下,通过平时的审核工作完成错误回写。当然也可以自动进行错误识别。
本实施例的方法通过财务人员回写的数据反写专项模型,还原通用识别模型的坐标位置与识别内容,并附上应该正确识别的结果。回馈打标平台,完成自动打标训练。对比传统的基于大量样本的打标模型训练,本发明可以让整个财务流水线通过日常的常规工作不停的自动提高模型识别率,从而达到自动化,无人化越来越高的目标。
在不影响财务审核人员日常工作的前提下,将他们日常的工作进行数据采集,反写模型,自动下发打标平台完成模型训练升级。通过整个业务流水线工作,完成模型的纠错修正升级闭环。在各类票据审核的日常工作中,不停的训练模型从而达到票据审核智能化、自动化、无人化。
优选的,所述方法,还包括构建规则引擎,具体包括:
S501根据业务规则预设决策树。所述决策树包括业务条件及比对结果。
S502根据所述决策树中的比对结果,确定流程流转。
上述实施例中,决策树是以树状展示数据信息。决策树包括业务条件及比对结果。决策树是依赖业务规则构建。当业务场景变化,相应的业务规则也发生变化。此时,对决策树中展示的业务条件直接进行修改,即可完成对规则引擎的修改。该修改过程无需编写代码。这大大增加规则引擎修改的便利性和效率。在上述实施例的方法中,根据决策树中的比对结果,自动确定流程流转。
下面例举一实例。核实车票出发时间是否正确。人工填写的计划出发日期数据是2000年8月3日。票面识别的出发日期是2000年8月4日。
如果业务条件是识别出发日期早于计划出发日期,那么不匹配,信息错误。依据该业务条件,本次比对结果是错误。
如果业务条件是识别出发日期晚于或等于计划出发日期,那么匹配,信息正确。依据该业务条件,本次比对结果是正确。
作为优选例,所述S501根据业务规则预设决策树,包括:
S5011解析业务规则,获取业务规则中包含的业务要素;
S5012对所述业务要素配置业务条件,判断业务要素是否满足业务条件,获取比对结果。
业务规则中包含的业务要素。通过解析业务规则,获取业务要素。例如,业务规则是核实车票出发时间。该业务规则中包含的业务要素是出发时间。根据所述业务要素配置业务条件。例如,业务条件为:识别出发日期早于计划出发日期;或者,业务条件为:识别出发日期晚于计划出发日期;或者,业务条件为:识别出发日期等于计划出发日期。不同的业务条件,对应不同的比对结果。根据业务规则,将业务条件和相应的结果适配。
该实施例中,通过解析业务规则,配置业务条件,并通过比对,判断业务要素是否满足业务条件,获取比对结果。
作为优选例,所述步骤S5012判断业务要素是否满足业务条件,获取比对结果,包括:
S50121建立第一数据库和第二数据库。所述第一数据库中包含模型识别数据;所述第二数据库中包含人工录入数据。
S50122根据业务要素,分别从第一数据库和第二数据库中提取业务要素对应的数据,判断两者是否一致,若一致,则比对结果正确;若不一致,则比对结果错误。
第一数据库存储的数据是模型识别数据。所谓模型识别数据是利用票据模型识别票据图片获得的数据信息。第二数据库存储人工录入数据,例如报销金额、出发地、目的地等。第一数据库中存储的数据和第二数据库中存储的数据是对应的,但两者不一定相同。因此,需要判断两者是否一致。从第一数据库和第二数据库中提取业务要素相同的数据,判断两个数据是否一致,若一致,则比对结果正确;若不一致,则比对结果错误。该比对过程自动完成。比对结果在决策树中显示。
作为优选例,所述的方法还包括:将所述决策树向用户显示;接受用户对所述决策树中的业务条件修改。
该优选例中,将决策树向用户显示。这样,用户可以直接修改决策树中的业务规则和业务条件。当应用场景发生变化时,用于可以直接修改决策树。用户修改之后,业务条件和业务规则立刻生效。这极大的方便了用户对规则引擎的修改。与现有技术中,修改规则引擎需要专业人员编写代码,然后发布新的规则引擎版本相比,本优选例的方法,使得用户可以根据应用场景的不同,随时修改规则引擎。
优选的,所述根据所述决策树中的比对结果,确定流程流转,包括:当比对结果正确时,结束流程;当比对结果错误时,向用户显示错误信息,并获取用户标记数据。当比对结果正确时,结束流程。当比对结果错误时,向用户显示错误信息,并获取用户标记数据。用户的标记数据可以为正确和错误两种数据或者其中一种。
传统的系统对比一般都集成在代码里,无论是用api还是硬规则匹配,当规则发生改变时,都需要系统发布修改,费时费力。本发明的规则引擎的构建方法中,进行决策树预制,规则流设定,通过配置的方式完成一个复杂的规则约定。当业务场景发生改变时,只需要登录配置平台修改配置,即可让新规则立刻生效。无需系统定制修改发布。
根据业务规则预设决策树,解析规则流,规则引擎支持各种复杂规则条件预设,比如范围区间、大小判断、等值比对、多条件组合。根据业务场景定制无数组规则库,无改造,纯配置,修改无需发布,根据不同业务类型预制规则库生成解析流,可以自定义封装各种解析结果,做条件判断,确定流转流程走向。
在数据比对上,使用本实施例的规则引擎代替传统的代码匹配,做到无发布的情况下实时修改比对规则,同时支持大量复杂、并行的决策树预设,规则流解析。本实施例的规则引擎构建方法,无需写代码,可随时通过可视化的方式修改规则实时生效。
本发明实施例提供的票据审核方法及系统,可以将同一张报销单上的多张且不同类型的票据进行自动分类识别,提高了审核效率,简化了财务人员的票据分拣工作。
如图5所示,本发明实施例还提供一种票据审核系统,包括:
构建模块:用于获取含有票据的图片,对图片中的票据进行识别,构建专项模型;
训练模块:用于对所述专项模型进行训练;
审核模块:用于利用训练后的专利模型对票据进行审核。
优选的,所述构建模块,包括:
票据识别子模块,用于获取含有票据的图片,对所述图片中的票据进行识别分类,获得票据识别结果,所述图片包括N张票据,N为大于1的整数,所述票据识别结果包括N张单张票据图片;
文字识别子模块,用于对所述N张单张票据图片进行文字识别,获得文字识别结果;
封装子模块,用于将所述文字识别结果封装成专项模型。
优选的,所述训练模块,包括
采集子模块:用于从图片中采集数据信息,所述数据信息包括业务数据和模型识别数据一致的正确数据信息,以及业务数据和模型识别数据不一致的错误数据信息;
判断子模块:用于判断所述错误数据信息是否为模型识别错误,若是,则进入下一步;
训练子模块:用于根据所述错误数据信息,进行模型反义,并自动打标,训练模型。
优选的,所述的系统,还包括构建规则引擎模块,所述构建规则引擎模块包括:
预设子模块:用于根据业务规则预设决策树;所述决策树包括业务条件及比对结果;
确定子模块:用于根据所述决策树中的比对结果,确定流程流转。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (14)
1.一种票据审核方法,其特征在于,包括:
获取含有票据的图片,对图片中的票据进行识别,构建专项模型;
对所述专项模型进行训练;
利用训练后的专利模型对票据进行审核。
2.按照权利要求1所述的方法,其特征在于,所述获取含有票据的图片,对图片中的票据进行识别,构建专项模型,包括:
获取含有票据的图片,对所述图片中的票据进行识别分类,获得票据识别结果,所述图片包括N张票据,N为大于1的整数,所述票据识别结果包括N张单张票据图片;
对所述N张单张票据图片进行文字识别,获得文字识别结果;
将所述文字识别结果封装成专项模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述图片中的票据进行识别分类,具体包括:
将所述图片的大小调整设定值;
在所述调整后的图片上运行单个卷积网络;
由OCR识别技术中的目标检测模型的置信度对获得的图片运行卷积结果进行阈值处理;
利用神经网络做图像语义分割,获得N张单张票据图片。
4.根据权利要求2所述的方法,其特征在于,所述将所述文字识别结果封装成专项模型,具体包括:
根据所述文字识别结果,得到所述单张票据图片上的票据所属的类型;
根据所述票据所属的类型,将文字识别结果封装成所述票据的专项模型,所述专项模型包括至少一个业务字段;
将所述一个或多个业务字段约定为所述专项模型的目标字段。
5.根据权利要求1所述的方法,其特征在于,所述对所述专项模型进行训练,包括:
从图片中采集数据信息,所述数据信息包括业务数据和模型识别数据一致的正确数据信息,以及业务数据和模型识别数据不一致的错误数据信息;
判断所述错误数据信息是否为模型识别错误,若是,则进入下一步;
根据所述错误数据信息,进行模型反义,并自动打标,训练模型。
6.按照权利要求5所述的方法,其特征在于,所述进行模型反义,包括:
将数据信息生成字段信息;
从所述字段信息查找标记为错误的模型数据信息;
根据所述标记为错误的模型数据信息,还原成带坐标的通用文字识别结果。
7.按照权利要求5所述的方法,其特征在于,所述自动打标,训练模型,包括:
根据所述带坐标的通用文字识别结果,在图片中对应的坐标处,标记出正确数据信息和错误数据信息;
利用所述正确数据信息调整所述错误数据信息所属模型。
8.按照权利要求1所述的方法,其特征在于,还包括构建规则引擎,具体包括:
根据业务规则预设决策树;所述决策树包括业务条件及比对结果;
根据所述决策树中的比对结果,确定流程流转。
9.按照权利要求8所述的方法,其特征在于,所述根据业务规则预设决策树,包括:
解析业务规则,获取业务规则中包含的业务要素;
对所述业务要素配置业务条件,判断业务要素是否满足业务条件,获取比对结果。
10.按照权利要求9所述的方法,其特征在于,所述判断业务要素是否满足业务条件,获取比对结果,包括:
建立第一数据库和第二数据库,所述第一数据库中包含模型识别数据;所述第二数据库中包含人工录入数据;
根据业务要素,分别从第一数据库和第二数据库中提取业务要素对应的数据,判断两者是否一致,若一致,则比对结果正确;若不一致,则比对结果错误。
11.一种票据审核系统,其特征在于,包括:
构建模块:用于获取含有票据的图片,对图片中的票据进行识别,构建专项模型;
训练模块:用于对所述专项模型进行训练;
审核模块:用于利用训练后的专利模型对票据进行审核。
12.按照权利要求11所述的系统,其特征在于,所述构建模块,包括:
票据识别子模块,用于获取含有票据的图片,对所述图片中的票据进行识别分类,获得票据识别结果,所述图片包括N张票据,N为大于1的整数,所述票据识别结果包括N张单张票据图片;
文字识别子模块,用于对所述N张单张票据图片进行文字识别,获得文字识别结果;
封装子模块,用于将所述文字识别结果封装成专项模型。
13.按照权利要求11所述的系统,其特征在于,所述训练模块,包括
采集子模块:用于从图片中采集数据信息,所述数据信息包括业务数据和模型识别数据一致的正确数据信息,以及业务数据和模型识别数据不一致的错误数据信息;
判断子模块:用于判断所述错误数据信息是否为模型识别错误,若是,则进入下一步;
训练子模块:用于根据所述错误数据信息,进行模型反义,并自动打标,训练模型。
14.按照权利要求11所述的系统,其特征在于,还包括构建规则引擎模块,所述构建规则引擎模块包括:
预设子模块:用于根据业务规则预设决策树;所述决策树包括业务条件及比对结果;
确定子模块:用于根据所述决策树中的比对结果,确定流程流转。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910577167.7A CN110334640A (zh) | 2019-06-28 | 2019-06-28 | 一种票据审核方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910577167.7A CN110334640A (zh) | 2019-06-28 | 2019-06-28 | 一种票据审核方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110334640A true CN110334640A (zh) | 2019-10-15 |
Family
ID=68144622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910577167.7A Pending CN110334640A (zh) | 2019-06-28 | 2019-06-28 | 一种票据审核方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334640A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781877A (zh) * | 2019-10-28 | 2020-02-11 | 京东方科技集团股份有限公司 | 一种图像识别方法、设备及存储介质 |
CN110827068A (zh) * | 2019-10-28 | 2020-02-21 | 广州凯风科技有限公司 | 基于支付系统的票据数据处理方法、系统、设备及介质 |
CN111126029A (zh) * | 2019-12-31 | 2020-05-08 | 广州市昊链信息科技股份有限公司 | 一种电子单据的生成方法、装置、计算机设备和存储介质 |
CN111144409A (zh) * | 2019-12-25 | 2020-05-12 | 中国建设银行股份有限公司 | 一种跟单托收审单处理方法及系统 |
CN111209856A (zh) * | 2020-01-06 | 2020-05-29 | 泰康保险集团股份有限公司 | 发票信息的识别方法、装置、电子设备及存储介质 |
CN111325247A (zh) * | 2020-02-10 | 2020-06-23 | 山东浪潮通软信息科技有限公司 | 一种基于最小二乘支持向量机的智能稽核的实现方法 |
CN111428103A (zh) * | 2020-03-19 | 2020-07-17 | 竹间智能科技(上海)有限公司 | 一种构建票据审核模型的方法 |
CN112115934A (zh) * | 2020-09-16 | 2020-12-22 | 四川长虹电器股份有限公司 | 基于深度学习实例分割的票据图像文本检测方法 |
CN112541461A (zh) * | 2020-12-21 | 2021-03-23 | 四川新网银行股份有限公司 | 一种针对无固定格式模板消费凭据的自动审核方法及装置 |
CN115019327A (zh) * | 2022-06-28 | 2022-09-06 | 珠海金智维信息科技有限公司 | 基于碎片票据分词和Transformer网络的碎片票据识别方法及系统 |
CN115222498A (zh) * | 2022-07-20 | 2022-10-21 | 北京令才科技有限公司 | 多元数组的比对打包配置的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08274921A (ja) * | 1995-03-31 | 1996-10-18 | Nippon Digital Kenkyusho:Kk | ファクシミリocrデ−タ誤り表示方式およびファクシミリocr装置 |
CN107680090A (zh) * | 2017-10-11 | 2018-02-09 | 电子科技大学 | 基于改进全卷积神经网络的输电线路绝缘子状态识别方法 |
CN108717545A (zh) * | 2018-05-18 | 2018-10-30 | 北京大账房网络科技股份有限公司 | 一种基于手机拍照的票据识别方法及系统 |
CN109064304A (zh) * | 2018-08-03 | 2018-12-21 | 四川长虹电器股份有限公司 | 财务报销票据自动处理系统及方法 |
CN109800761A (zh) * | 2019-01-25 | 2019-05-24 | 厦门商集网络科技有限责任公司 | 基于深度学习模型创建纸质文档结构化数据的方法和终端 |
CN109840519A (zh) * | 2019-01-25 | 2019-06-04 | 青岛盈智科技有限公司 | 一种自适应的智能单据识别录入装置及其使用方法 |
-
2019
- 2019-06-28 CN CN201910577167.7A patent/CN110334640A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08274921A (ja) * | 1995-03-31 | 1996-10-18 | Nippon Digital Kenkyusho:Kk | ファクシミリocrデ−タ誤り表示方式およびファクシミリocr装置 |
CN107680090A (zh) * | 2017-10-11 | 2018-02-09 | 电子科技大学 | 基于改进全卷积神经网络的输电线路绝缘子状态识别方法 |
CN108717545A (zh) * | 2018-05-18 | 2018-10-30 | 北京大账房网络科技股份有限公司 | 一种基于手机拍照的票据识别方法及系统 |
CN109064304A (zh) * | 2018-08-03 | 2018-12-21 | 四川长虹电器股份有限公司 | 财务报销票据自动处理系统及方法 |
CN109800761A (zh) * | 2019-01-25 | 2019-05-24 | 厦门商集网络科技有限责任公司 | 基于深度学习模型创建纸质文档结构化数据的方法和终端 |
CN109840519A (zh) * | 2019-01-25 | 2019-06-04 | 青岛盈智科技有限公司 | 一种自适应的智能单据识别录入装置及其使用方法 |
Non-Patent Citations (1)
Title |
---|
GEOFFREY.YIP: "Urule介绍开源可视化规则引擎", 《HTTPS://JUEJIN.CN/POST/6844903588725178376》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827068A (zh) * | 2019-10-28 | 2020-02-21 | 广州凯风科技有限公司 | 基于支付系统的票据数据处理方法、系统、设备及介质 |
CN110781877A (zh) * | 2019-10-28 | 2020-02-11 | 京东方科技集团股份有限公司 | 一种图像识别方法、设备及存储介质 |
CN110781877B (zh) * | 2019-10-28 | 2024-01-23 | 京东方科技集团股份有限公司 | 一种图像识别方法、设备及存储介质 |
CN111144409A (zh) * | 2019-12-25 | 2020-05-12 | 中国建设银行股份有限公司 | 一种跟单托收审单处理方法及系统 |
CN111126029A (zh) * | 2019-12-31 | 2020-05-08 | 广州市昊链信息科技股份有限公司 | 一种电子单据的生成方法、装置、计算机设备和存储介质 |
CN111126029B (zh) * | 2019-12-31 | 2020-12-04 | 广州市昊链信息科技股份有限公司 | 一种电子单据的生成方法、装置、计算机设备和存储介质 |
CN111209856B (zh) * | 2020-01-06 | 2023-10-17 | 泰康保险集团股份有限公司 | 发票信息的识别方法、装置、电子设备及存储介质 |
CN111209856A (zh) * | 2020-01-06 | 2020-05-29 | 泰康保险集团股份有限公司 | 发票信息的识别方法、装置、电子设备及存储介质 |
CN111325247A (zh) * | 2020-02-10 | 2020-06-23 | 山东浪潮通软信息科技有限公司 | 一种基于最小二乘支持向量机的智能稽核的实现方法 |
CN111325247B (zh) * | 2020-02-10 | 2022-08-02 | 浪潮通用软件有限公司 | 一种基于最小二乘支持向量机的智能稽核的实现方法 |
CN111428103A (zh) * | 2020-03-19 | 2020-07-17 | 竹间智能科技(上海)有限公司 | 一种构建票据审核模型的方法 |
CN112115934A (zh) * | 2020-09-16 | 2020-12-22 | 四川长虹电器股份有限公司 | 基于深度学习实例分割的票据图像文本检测方法 |
CN112541461A (zh) * | 2020-12-21 | 2021-03-23 | 四川新网银行股份有限公司 | 一种针对无固定格式模板消费凭据的自动审核方法及装置 |
CN115019327A (zh) * | 2022-06-28 | 2022-09-06 | 珠海金智维信息科技有限公司 | 基于碎片票据分词和Transformer网络的碎片票据识别方法及系统 |
CN115019327B (zh) * | 2022-06-28 | 2024-03-08 | 珠海金智维信息科技有限公司 | 基于碎片票据分词和Transformer网络的碎片票据识别方法及系统 |
CN115222498A (zh) * | 2022-07-20 | 2022-10-21 | 北京令才科技有限公司 | 多元数组的比对打包配置的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334640A (zh) | 一种票据审核方法及系统 | |
US11816165B2 (en) | Identification of fields in documents with neural networks without templates | |
CN108960223B (zh) | 基于票据智能识别自动生成凭证的方法 | |
CN109840519B (zh) | 一种自适应的智能单据识别录入装置及其使用方法 | |
CN106485243B (zh) | 一种票据识别纠错方法及装置 | |
US8233751B2 (en) | Method and system for simplified recordkeeping including transcription and voting based verification | |
US10963692B1 (en) | Deep learning based document image embeddings for layout classification and retrieval | |
CN101297319B (zh) | 在电子文档中嵌入热点 | |
CN109858453A (zh) | 一种通用的多引擎票据识别系统及方法 | |
CN109002768A (zh) | 基于神经网络文本检测识别的医疗票据类文字提取方法 | |
US20240046684A1 (en) | System for Information Extraction from Form-Like Documents | |
CN110348346A (zh) | 一种票据分类识别方法及系统 | |
CN108959349A (zh) | 一种财务审计询证系统 | |
US20200184267A1 (en) | System to extract information from documents | |
CN109508458A (zh) | 法律实体的识别方法及装置 | |
AU2019419891B2 (en) | System and method for spatial encoding and feature generators for enhancing information extraction | |
US20220335073A1 (en) | Fuzzy searching using word shapes for big data applications | |
CN113220768A (zh) | 基于深度学习的简历信息结构化方法及系统 | |
TWI716761B (zh) | 智能會計帳務系統與會計憑證的辨識入帳方法 | |
CN112232036A (zh) | 报销单生成方法、电子设备和计算机可读存储介质 | |
TWM575887U (zh) | 智能會計帳務系統 | |
Wang | Document analysis: table structure understanding and zone content classification | |
CN114625872A (zh) | 基于全局指针的风险审核方法、系统、设备及存储介质 | |
CN114549177A (zh) | 保函审查方法、装置、系统与计算机可读存储介质 | |
EP4165564A1 (en) | Methods and systems for matching and optimizing technology solutions to requested enterprise products |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191015 |