CN111428599B - 票据识别方法、装置和设备 - Google Patents

票据识别方法、装置和设备 Download PDF

Info

Publication number
CN111428599B
CN111428599B CN202010187416.4A CN202010187416A CN111428599B CN 111428599 B CN111428599 B CN 111428599B CN 202010187416 A CN202010187416 A CN 202010187416A CN 111428599 B CN111428599 B CN 111428599B
Authority
CN
China
Prior art keywords
bill
identified
keywords
type
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010187416.4A
Other languages
English (en)
Other versions
CN111428599A (zh
Inventor
张述刚
黄经海
林云婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zijing Technology Co ltd
Original Assignee
Beijing Zijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zijing Technology Co ltd filed Critical Beijing Zijing Technology Co ltd
Priority to CN202010187416.4A priority Critical patent/CN111428599B/zh
Publication of CN111428599A publication Critical patent/CN111428599A/zh
Application granted granted Critical
Publication of CN111428599B publication Critical patent/CN111428599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Abstract

本申请公开了一种票据识别方法、装置和设备,本方案中的方法包括:获取待识别票据的图像;将待识别票据的图像,输入到预先训练好的票据分类模型中,得到待识别票据的类型;获取预先存储的至少一种票据的类型与对应的票据模型的对应关系;从对应关系中,查找到待识别票据的类型对应的票据模型;基于查找到的票据模型,对待识别票据的图像进行识别,得到待识别票据的票据信息。如此,避免了手动记账可能引起的记账错误,节省了录入时间,提高了准确率和工作效率。

Description

票据识别方法、装置和设备
技术领域
本申请涉及票据识别技术领域,具体涉及一种票据识别方法、装置和设备。
背景技术
会计业务处理中,需要先对原始票据进行整理,具体的,人工判断票据的票据类型,并进行分类,再根据票据的票据类型手动录入金额等票据信息,完成记账的基础工作,如此,需要消耗大量的时间进行票据的分类、录入等,工作量大,且人工手动录入的过程中也不可避免地会产生错误,导致工作效率和准确率低下。
发明内容
有鉴于此,本申请的目的在于克服现有技术的不足,提供一种票据识别方法、装置和设备。
为实现以上目的,本申请采用如下技术方案:
本申请的第一方面提供一种票据识别方法,包括:
获取待识别票据的图像;
将所述待识别票据的图像,输入到预先训练好的票据分类模型中,得到所述待识别票据的类型;
获取预先存储的至少一种票据的类型与对应的票据模型的对应关系;
从所述对应关系中,查找到所述待识别票据的类型对应的所述票据模型;
基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息。
可选的,所述至少一种票据的类型包括发票、回单、对账单和发票汇总表。
可选的,若所述待识别票据的类型为所述发票,所述基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息,包括:
按照预先设置的片段划分规则确定所述待识别票据的全票面中各个片段的位置坐标;
根据每个所述片段的位置坐标,识别每个所述片段的内容;识别的每个所述片段的内容至少包括关键字和对应的属性值;
确定所需提取的关键字和对应的位置坐标;
根据所述所需提取的关键字和对应的位置坐标,以及识别的各所述片段的内容和位置坐标,提取与所述所需提取的关键字对应的属性值;
将所述所需提取的关键字及对应的属性值作为所述待识别票据的票据信息。
可选的,若所述待识别票据的类型为所述回单,所述基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息,包括:
按照预先设置的片段划分规则确定所述待识别票据的全票面中各个片段的位置坐标;
根据每个所述片段的所述位置坐标,识别每个所述片段中的内容;每个所述片段的所述内容至少包括关键字和对应的属性值;
确定所需提取的关键字;
按照所述所需提取的关键字,从识别的所述片段的所述内容中提取与所述所需提取的关键字对应的属性值;
将所述所需提取的关键字及对应的属性值作为所述待识别票据的票据信息。
可选的,若所述待识别票据的类型为所述对账单,所述基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息,包括:
按照预先设置的片段划分规则确定所述待识别票据的全票面中各个片段的位置;
根据每个片段的位置,对每个所述片段中的内容进行识别,得到识别结果;所述识别结果包括:关键字;所述关键字包括第一类关键字、第二类关键字和第三类关键字;所述识别结果还包括所述第二类关键字对应的属性值,所述第三类关键字对应的属性值;
根据所述第一类关键字,从预先存储的表格模板中确定与所述第一类关键字对应的表格模板;所述表格模板包括表头和表体;所述表头包括所述第一类关键字,所需提取的所述第二类关键字和所述第三类关键字;
基于确定的所述表格模板,从所述识别结果中确定与所需提取的所述第二类关键字对应的属性值和与所需提取的所述第三类关键字对应的属性值,得到所述表头的信息;
从与所需提取的所述第三类关键字对应的属性值中获取日期属性,基于每两个所述日期属性确定所述表体中每一行的信息,得到所述表体的信息;
将所述表头的信息和所述表体的信息作为所述待识别票据的票据信息。
可选的,若所述待识别票据的类型为所述发票汇总表,所述基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息,包括:
按照预先设置的片段划分规则确定所述待识别票据的全票面中各个片段的位置坐标;
根据每个所述片段的所述位置坐标,识别每个所述片段中的内容;每个所述片段的所述内容至少包括关键字和对应的属性值;
确定所需提取的关键字;
按照所述所需提取的关键字,从识别的所述片段的所述内容中提取与所述所需提取的关键字对应的属性值;
将所述所需提取的关键字及对应的属性值作为所述待识别票据的票据信息。
可选的,还包括:
获取预设数量的票据样本作为训练样本;
将所述训练样本输入预先构建的深度学习模型进行训练,得到所述票据分类模型。
可选的,还包括:
通过用户的输入操作得到所述票据信息的部分信息或者全部信息。
本申请的第二方面提供一种票据识别装置,包括:
第一获取模块,用于获取待识别票据的图像;
第一识别模块,用于将所述待识别票据的图像,输入到预先训练好的票据分类模型中,得到所述待识别票据的类型;
第二获取模块,用于获取预先存储的至少一种票据的类型与对应的票据模型的对应关系;
确定模块,用于从所述对应关系中,查找到所述待识别票据的类型对应的所述票据模型;
第二识别模块,用于基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息。
本申请的第三方面提供一种票据识别设备,包括:
处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序;
所述处理器用于调用并执行所述存储器中的所述计算机程序,以执行如本申请的第一方面所述的方法。
本申请提供的技术方案可以包括以下有益效果:
本申请的方案中,预先训练好票据分类模型并预设一些与票据的类型对应的票据模型,在实际应用时,在获取到待识别票据的图像后,将待识别票据的图像输入到预先训练好的票据分类模型中,从而获取到待识别票据的类型,再根据预设的票据的类型与票据模型的对应关系,确定与待识别票据对应的票据模型,基于该票据模型,对待识别票据的图像进行识别,从而得到待识别票据的票据信息,如此,实现了待识别票据的票据类型、票据信息的智能、自动识别存储,无需再依靠人工判断票据的票据类型,也无需手动录入票据信息,大大节省了人力和时间的消耗,避免了人工手动录入的过程中可能引起的错误,有效提高了准确率和工作效率,同时,极大地降低了对从业人员业务知识的要求,对于不同企业的相同业务可复用相关设备资源,提高了资源利用率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的一种票据识别方法的流程图。
图2所示是本申请一个实施例提供的发票的片段划分示意图。
图3所示是本申请一个实施例提供的回单的片段划分示意图。
图4所示是本申请一个实施例提供的对账单的片段划分示意图。
图5所示是本申请一个实施例提供的发票汇总表的片段划分示意图。
图6是本申请另一个实施例提供的一种票据识别装置的结构示意图。
图7是本申请另一个实施例提供的一种票据识别设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将对本申请的技术方案进行详细的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。
参见图1,图1是本申请一个实施例提供的一种票据识别方法的流程图。
如图1所示,本实施例提供一种票据识别方法,具体方案包括如下步骤:
步骤11、获取待识别票据的图像。
步骤12、将待识别票据的图像,输入到预先训练好的票据分类模型中,得到待识别票据的类型。
步骤13、获取预先存储的至少一种票据的类型与对应的票据模型的对应关系。
步骤14、从对应关系中,查找到待识别票据的类型对应的票据模型。
步骤15、基于查找到的票据模型,对待识别票据的图像进行识别,得到待识别票据的票据信息。
本申请的方案中,预先训练好票据分类模型并预设一些与票据的类型对应的票据模型,在实际应用时,在获取到待识别票据的图像后,将待识别票据的图像输入到预先训练好的票据分类模型中,从而获取到待识别票据的类型,再根据预设的票据的类型与票据模型的对应关系,确定与待识别票据对应的票据模型,基于该票据模型,对待识别票据的图像进行识别,从而得到待识别票据的票据信息,如此,实现了待识别票据的票据类型、票据信息的智能、自动识别存储,无需再依靠人工判断票据的票据类型,也无需手动录入票据信息,大大节省了人力和时间的消耗,避免了人工手动录入的过程中可能引起的错误,有效提高了准确率和工作效率,同时,极大地降低了对从业人员业务知识的要求,对于不同企业的相同业务可复用相关设备资源,提高了资源利用率。
实际应用的场景中,本申请的方案可以基于服务器和至少一个用户终端构成的网络架构来实现,本申请的方案的执行主体可以是用户终端或其中基于软件和/或硬件的功能模块,也可以是服务器或其中基于软件和/或硬件的功能模块。若执行主体为用户终端,相应的,步骤12中,将待识别票据的图像发送给服务器侧,由服务器侧根据预先训练好的票据分类模型得到待识别票据的类型。若执行主体是服务器,相应的,可以由用户终端侧采集待识别票据的图像并发送到服务器,步骤11中,服务器接收用户终端侧采集的待识别票据的图像,然后执行后续流程。
其中,用户终端可以但不限于包括电脑、手机等。
实际应用中,票据的类型包括多种,对于上述至少一种票据的类型,可以包括发票、回单、对账单和发票汇总表。每一种票据的类型都对应有一种票据模型,而每一种票据模型都有其特有的识别方法,使其票据信息的提取更加准确,下面分别进行详细说明。
若待识别票据的类型为发票,为了根据发票的特点去更准确地获取到所需要的票据信息,上述基于查找到的票据模型,对待识别票据的图像进行识别,得到待识别票据的票据信息,具体实施方式可以包括:按照预先设置的片段划分规则确定待识别票据的全票面中各个片段的位置坐标;根据每个片段的位置坐标,识别每个片段的内容;识别的每个片段的内容至少包括关键字和对应的属性值;确定所需提取的关键字和对应的位置坐标;根据所需提取的关键字和对应的位置坐标,以及识别的各片段的内容和位置坐标,提取与所需提取的关键字对应的属性值;将所需提取的关键字及对应的属性值作为待识别票据的票据信息。
其中,发票可以但不限于包括增值税票、火车票、飞机票、机打票、定额票。
对于发票来说,关键字可以包括:“名称”、“纳税人识别号”、“金额”、“税率”等;相应的,关键字“名称”对应的属性值就是“XX公司”,关键字“纳税人识别号”对应的属性值就是“XXXX”,关键字“金额”对应的属性值就是“XX元”,关键字“税率”对应的属性值就是“X%”。
参见图2,图2所示是本申请一个实施例提供的发票的片段划分示意图。
图2中仅以关键字“名称”和“金额”为例进行展示,当然还包括其它的关键字,此处不再一一展示。基于图2所示的发票,预先设置的片段划分规则是将发票划分为图中片段201、片段202这2个片段,基于此,识别的过程可以是:确定待识别票据的全票面中各个片段的位置坐标,根据每个片段的位置坐标,识别片段201和片段202的内容,其中片段201的关键字是“名称”,对应的属性值是“A公司”,片段202的关键字是“金额”,对应的属性值是“10000元”,确定所需提取的关键字是“金额”,进而确定关键字“金额”的位置坐标,那么,根据关键字“金额”和“金额”所处的位置坐标,以及识别到的片段201和片段202中的信息,即可以提取到关键字“金额”对应的属性值,最终提取到的“金额”和“10000元”即为待识别票据的票据信息。
若待识别票据的类型为回单,上述基于查找到的票据模型,对待识别票据的图像进行识别,得到待识别票据的票据信息,具体实施方式可以包括:按照预先设置的片段划分规则确定待识别票据的全票面中各个片段的位置坐标;根据每个片段的位置坐标,识别每个片段中的内容;每个片段的内容至少包括关键字和对应的属性值;确定所需提取的关键字;按照所需提取的关键字,从识别的片段的内容中提取与所需提取的关键字对应的属性值;将所需提取的关键字及对应的属性值作为待识别票据的票据信息。
回单是银行出具给单位表示收到或支出此款项并存入相应账户的凭据。以银行回单为例,一般,关键字包括:“付款户名”、“收款户名”、“金额”、“付款账号”、“收款账号”、“摘要”、“日期”等。关键字“户名”对应的属性值就是“王XX”,关键字“金额”对应的属性值就是“XX元”,关键字“账号”对应的属性值就是户名对应的账号数字,关键字“摘要”对应的属性值就是该交易的交易方式或交易内容,比如转账。
参见图3,图3所示是本申请一个实施例提供的回单的片段划分示意图。
图3中仅以关键字“户名”和“账号”为例进行展示,当然还包括其它的关键字,此处不再一一展示。基于图3所示的回单,预先设置的片段划分规则是将发票划分为图中片段301、片段302这2个片段,基于此,识别的过程可以是:确定待识别票据的全票面中各个片段的位置坐标,根据每个片段的位置坐标,识别片段301和片段302的内容,其中片段301的关键字是“户名”,对应的属性值是“王三”,片段302的关键字是“账号”,对应的属性值是“123123”,确定所需提取的关键字为“账号”,那么按照所需提取的关键字“账号”,从识别的片段的内容中提取与“账号”对应的属性值;关键字“账号”和对应的属性值“123123”即为待识别票据的票据信息。
若待识别票据的类型为对账单,上述基于查找到的票据模型,对待识别票据的图像进行识别,得到待识别票据的票据信息,具体实施方式可以包括:按照预先设置的片段划分规则确定待识别票据的全票面中各个片段的位置;根据每个片段的位置,对每个片段中的内容进行识别,得到识别结果;识别结果包括:关键字;关键字包括第一类关键字、第二类关键字和第三类关键字;识别结果还包括第二类关键字对应的属性值,第三类关键字对应的属性值;根据第一类关键字,从预先存储的表格模板中确定与第一类关键字对应的表格模板;表格模板包括表头和表体;表头包括第一类关键字,所需提取的第二类关键字和第三类关键字;基于确定的表格模板,从识别结果中确定与所需提取的第二类关键字对应的属性值和与所需提取的第三类关键字对应的属性值,得到表头的信息;从与所需提取的第三类关键字对应的属性值中获取日期属性,基于每两个日期属性确定表体中每一行的信息,得到表体的信息;将表头的信息和表体的信息作为待识别票据的票据信息。
对于对账单来说,关键字可以包括:“XX银行对账单”、“户名”、“金额”、“日期”等。
参见图4,图4所示是本申请一个实施例提供的对账单的片段划分示意图。
图4中仅以关键字“工商银行对账单”、“户名”、“日期”、“金额”为例进行展示,当然还包括其它的关键字,此处不再一一展示。基于图4所示的发票,预先设置的片段划分规则是将对账单划分为图中片段401、片段402和片段403这3个片段,其中,第一类关键字为“工商银行对账单”,第二类关键字为“户名”,第三类关键字包括“日期”和“金额”,基于此,识别的过程可以是:根据第一类关键字“工商银行对账单”,从预先存储的表格模板中确定工商银行客户回单的表格模板;表格模板包括表头和表体;表头包括“工商银行客户回单”,所需提取的第二类关键字“户名”和第三类关键字“日期”、“金额”;基于确定的表格模板,从识别结果中确定与所需提取的第二类关键字“户名”对应的属性值“B公司”和与所需提取的第三类关键字“日期”、“金额”对应的属性值“2007年1月2日、1000元、2007年1月10日、1005元、2007年1月15日、1007元”,得到表头的信息;从与所需提取的第三类关键字对应的属性值“2007年1月2日、1000元、2007年1月10日、1005元、2007年1月15日、1007元”中获取日期属性,基于每两个日期属性确定表体中每一行的信息,得到表体的信息,即表体信息中第一行信息为“2007年1月2日、1000元”第二行信息为“2007年1月10日、1005元”第三行信息为“2007年1月15日、1007元”;将表头的信息和表体的信息作为待识别票据的票据信息。
若待识别票据的类型为发票汇总表,上述基于查找到的票据模型,对待识别票据的图像进行识别,得到待识别票据的票据信息,具体实施方式可以包括:按照预先设置的片段划分规则确定待识别票据的全票面中各个片段的位置坐标;根据每个片段的位置坐标,识别每个片段中的内容;每个片段的内容至少包括关键字和对应的属性值;确定所需提取的关键字;按照所需提取的关键字,从识别的片段的内容中提取与所需提取的关键字对应的属性值;将所需提取的关键字及对应的属性值作为待识别票据的票据信息。
一般,发票汇总表的关键字包括:“销项正废金额”、“销项正数金额”、“销项负废金额”等。
参见图5,图5所示是本申请一个实施例提供的发票汇总表的片段划分示意图。
图5中仅以关键字“销项正废金额”、“销项正数金额”、“销项负废金额”为例进行展示,当然还包括其它的关键字,此处不再一一展示。基于图5所示的发票汇总表,预先设置的片段划分规则是将发票划分为图中片段501、片段502和503这3个片段,基于此,识别的过程可以是:确定待识别票据的全票面中各个片段的位置坐标,根据每个片段的位置坐标,识别片段501、片段502和片段503的内容,其中片段501的关键字是“销项正废金额”,对应的属性值是“0.00”,片段502的关键字是“销项正数金额”,对应的属性值是“66037.74”,片段503的关键字是“销项负废金额”,对应的属性值是“0.00”,确定所需提取的关键字为“销项正数金额”,那么按照所需提取的关键字“销项正数金额”,从识别的片段的内容中提取与“销项正数金额”对应的属性值;关键字“销项正数金额”和对应的属性值“66037.74”即为待识别票据的票据信息。
为了能够在识别票据信息的过程中准确识别出待识别票据的类型,一些实施例中,票据识别方法还包括:
获取预设数量的票据样本作为训练样本;
将训练样本输入预先构建的深度学习模型进行训练,得到票据分类模型。
对于上述得到票据分类模型的方法,具体的训练方案为已有的成熟技术,比如可以基于tensorflow进行训练等等。
票据的类型多种多样,在实际应用时,难免发生待识别票据的图像无法识别的情况,为此,票据识别方法还包括:通过用户的输入操作得到票据信息的部分信息或者全部信息。
实际应用中,如果出现票据无法识别的情况,用户可以人为选择待识别票据的类型,并对待识别票据的票据信息进行人为录入。
此外,可以在用户终端上显示待识别票据的类型和票据信息,供用户查看,一旦发现有识别错误时,用户可以通过查看识别结果及时发现问题,并通过操作设备进行输入操作,以对识别到的票据信息中的错误信息进行修改。
参见图6,图6是本申请另一个实施例提供的一种票据识别装置的结构示意图。
如图6所示,本申请的实施例提供一种票据识别装置,具体可以包括:
第一获取模块601,用于获取待识别票据的图像;
第一识别模块602,用于将待识别票据的图像,输入到预先训练好的票据分类模型中,得到待识别票据的类型;
第二获取模块603,用于获取预先存储的至少一种票据的类型与对应的票据模型的对应关系;
确定模块604,用于从对应关系中,查找到待识别票据的类型对应的票据模型;
第二识别模块605,用于基于查找到的票据模型,对待识别票据的图像进行识别,得到待识别票据的票据信息。
可选的,至少一种票据的类型包括发票、回单、对账单和发票汇总表。
可选的,若待识别票据的类型为发票,在基于查找到的票据模型,对待识别票据的图像进行识别,得到待识别票据的票据信息时,第二识别模块,具体用于:
按照预先设置的片段划分规则确定待识别票据的全票面中各个片段的位置坐标;
根据每个片段的位置坐标,识别每个片段的内容;识别的每个片段的内容至少包括关键字和对应的属性值;
确定所需提取的关键字和对应的位置坐标;
根据所需提取的关键字和对应的位置坐标,以及识别的各片段的内容和位置坐标,提取与所需提取的关键字对应的属性值;
将所需提取的关键字及对应的属性值作为待识别票据的票据信息。
可选的,若待识别票据的类型为回单,在基于查找到的票据模型,对待识别票据的图像进行识别,得到待识别票据的票据信息时,第二识别模块,具体用于:
按照预先设置的片段划分规则确定待识别票据的全票面中各个片段的位置坐标;
根据每个片段的位置坐标,识别每个片段中的内容;每个片段的内容至少包括关键字和对应的属性值;
确定所需提取的关键字;
按照所需提取的关键字,从识别的片段的内容中提取与所需提取的关键字对应的属性值;
将所需提取的关键字及对应的属性值作为待识别票据的票据信息。
可选的,若待识别票据的类型为对账单,在基于查找到的票据模型,对待识别票据的图像进行识别,得到待识别票据的票据信息时,第二识别模块,具体用于:
按照预先设置的片段划分规则确定待识别票据的全票面中各个片段的位置;
根据每个片段的位置,对每个片段中的内容进行识别,得到识别结果;识别结果包括:关键字;关键字包括第一类关键字、第二类关键字和第三类关键字;识别结果还包括第二类关键字对应的属性值,第三类关键字对应的属性值;
根据第一类关键字,从预先存储的表格模板中确定与第一类关键字对应的表格模板;表格模板包括表头和表体;表头包括第一类关键字,所需提取的第二类关键字和第三类关键字;
基于确定的表格模板,从识别结果中确定与所需提取的第二类关键字对应的属性值和与所需提取的第三类关键字对应的属性值,得到表头的信息;
从与所需提取的第三类关键字对应的属性值中获取日期属性,基于每两个日期属性确定表体中每一行的信息,得到表体的信息;
将表头的信息和表体的信息作为待识别票据的票据信息。
可选的,若待识别票据的类型为发票汇总表,在基于查找到的票据模型,对待识别票据的图像进行识别,得到待识别票据的票据信息时,第二识别模块,具体用于:
按照预先设置的片段划分规则确定待识别票据的全票面中各个片段的位置坐标;
根据每个片段的位置坐标,识别每个片段中的内容;每个片段的内容至少包括关键字和对应的属性值;
确定所需提取的关键字;
按照所需提取的关键字,从识别的片段的内容中提取与所需提取的关键字对应的属性值;
将所需提取的关键字及对应的属性值作为待识别票据的票据信息。
可选的,上述装置还包括训练模块,训练模块具体用于:
获取预设数量的票据样本作为训练样本;
将训练样本输入预先构建的深度学习模型进行训练,得到票据分类模型。
可选的,上述装置还包括编辑模块,编辑模块具体用于:
通过用户的输入操作得到票据信息的部分信息或者全部信息。
参见图7,图7是本申请另一个实施例提供的一种票据识别设备的结构示意图。
如图7所示,本申请的实施例提供一种票据识别设备,该设备具体包括:
处理器701,以及与处理器701相连接的存储器702;
存储器702用于存储计算机程序;
处理器701用于调用并执行存储器302中的计算机程序,以执行如以上任意实施例所述的票据识别方法。
本申请实施例提供的票据识别设备的具体实施方案可以参考以上任意例所述的票据识别方法的实施方式,此处不再赘述。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (5)

1.一种票据识别方法,其特征在于,包括:
获取待识别票据的图像;
将所述待识别票据的图像,输入到预先训练好的票据分类模型中,得到所述待识别票据的类型;
获取预先存储的至少一种票据的类型与对应的票据模型的对应关系;
从所述对应关系中,查找到所述待识别票据的类型对应的所述票据模型;
基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息;所述至少一种票据的类型包括发票、回单、对账单和发票汇总表;
若所述待识别票据的类型为所述发票,所述基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息,包括:
按照预先设置的片段划分规则确定所述待识别票据的全票面中各个片段的位置坐标;
根据每个所述片段的位置坐标,识别每个所述片段的内容;识别的每个所述片段的内容至少包括关键字和对应的属性值;
确定所需提取的关键字和对应的位置坐标;
根据所述所需提取的关键字和对应的位置坐标,以及识别的各所述片段的内容和位置坐标,提取与所述所需提取的关键字对应的属性值;
将所述所需提取的关键字及对应的属性值作为所述待识别票据的票据信息;
若所述待识别票据的类型为所述回单,所述基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息,包括:
按照预先设置的片段划分规则确定所述待识别票据的全票面中各个片段的位置坐标;
根据每个所述片段的所述位置坐标,识别每个所述片段中的内容;每个所述片段的所述内容至少包括关键字和对应的属性值;
确定所需提取的关键字;
按照所述所需提取的关键字,从识别的所述片段的所述内容中提取与所述所需提取的关键字对应的属性值;
将所述所需提取的关键字及对应的属性值作为所述待识别票据的票据信息;
若所述待识别票据的类型为所述对账单,所述基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息,包括:
按照预先设置的片段划分规则确定所述待识别票据的全票面中各个片段的位置;
根据每个片段的位置,对每个所述片段中的内容进行识别,得到识别结果;所述识别结果包括:关键字;所述关键字包括第一类关键字、第二类关键字和第三类关键字;所述识别结果还包括所述第二类关键字对应的属性值,所述第三类关键字对应的属性值;
根据所述第一类关键字,从预先存储的表格模板中确定与所述第一类关键字对应的表格模板;所述表格模板包括表头和表体;所述表头包括所述第一类关键字,所需提取的所述第二类关键字和所述第三类关键字;
基于确定的所述表格模板,从所述识别结果中确定与所需提取的所述第二类关键字对应的属性值和与所需提取的所述第三类关键字对应的属性值,得到所述表头的信息;
从与所需提取的所述第三类关键字对应的属性值中获取日期属性,基于每两个所述日期属性确定所述表体中每一行的信息,得到所述表体的信息;
将所述表头的信息和所述表体的信息作为所述待识别票据的票据信息;
若所述待识别票据的类型为所述发票汇总表,所述基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息,包括:
按照预先设置的片段划分规则确定所述待识别票据的全票面中各个片段的位置坐标;
根据每个所述片段的所述位置坐标,识别每个所述片段中的内容;每个所述片段的所述内容至少包括关键字和对应的属性值;
确定所需提取的关键字;
按照所述所需提取的关键字,从识别的所述片段的所述内容中提取与所述所需提取的关键字对应的属性值;
将所述所需提取的关键字及对应的属性值作为所述待识别票据的票据信息。
2.根据权利要求1所述的票据识别方法,其特征在于,还包括:
获取预设数量的票据样本作为训练样本;
将所述训练样本输入预先构建的深度学习模型进行训练,得到所述票据分类模型。
3.根据权利要求1所述的票据识别方法,其特征在于,还包括:
通过用户的输入操作得到所述票据信息的部分信息或者全部信息。
4.一种票据识别装置,其特征在于,包括:
第一获取模块,用于获取待识别票据的图像;
第一识别模块,用于将所述待识别票据的图像,输入到预先训练好的票据分类模型中,得到所述待识别票据的类型;
第二获取模块,用于获取预先存储的至少一种票据的类型与对应的票据模型的对应关系;
其中,所述至少一种票据的类型包括发票、回单、对账单和发票汇总表;
确定模块,用于从所述对应关系中,查找到所述待识别票据的类型对应的所述票据模型;
第二识别模块,用于基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息;
若所述待识别票据的类型为所述发票,所述基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息,包括:
按照预先设置的片段划分规则确定所述待识别票据的全票面中各个片段的位置坐标;
根据每个所述片段的位置坐标,识别每个所述片段的内容;识别的每个所述片段的内容至少包括关键字和对应的属性值;
确定所需提取的关键字和对应的位置坐标;
根据所述所需提取的关键字和对应的位置坐标,以及识别的各所述片段的内容和位置坐标,提取与所述所需提取的关键字对应的属性值;
将所述所需提取的关键字及对应的属性值作为所述待识别票据的票据信息;
若所述待识别票据的类型为所述回单,所述基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息,包括:
按照预先设置的片段划分规则确定所述待识别票据的全票面中各个片段的位置坐标;
根据每个所述片段的所述位置坐标,识别每个所述片段中的内容;每个所述片段的所述内容至少包括关键字和对应的属性值;
确定所需提取的关键字;
按照所述所需提取的关键字,从识别的所述片段的所述内容中提取与所述所需提取的关键字对应的属性值;
将所述所需提取的关键字及对应的属性值作为所述待识别票据的票据信息;
若所述待识别票据的类型为所述对账单,所述基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息,包括:
按照预先设置的片段划分规则确定所述待识别票据的全票面中各个片段的位置;
根据每个片段的位置,对每个所述片段中的内容进行识别,得到识别结果;所述识别结果包括:关键字;所述关键字包括第一类关键字、第二类关键字和第三类关键字;所述识别结果还包括所述第二类关键字对应的属性值,所述第三类关键字对应的属性值;
根据所述第一类关键字,从预先存储的表格模板中确定与所述第一类关键字对应的表格模板;所述表格模板包括表头和表体;所述表头包括所述第一类关键字,所需提取的所述第二类关键字和所述第三类关键字;
基于确定的所述表格模板,从所述识别结果中确定与所需提取的所述第二类关键字对应的属性值和与所需提取的所述第三类关键字对应的属性值,得到所述表头的信息;
从与所需提取的所述第三类关键字对应的属性值中获取日期属性,基于每两个所述日期属性确定所述表体中每一行的信息,得到所述表体的信息;
将所述表头的信息和所述表体的信息作为所述待识别票据的票据信息;
若所述待识别票据的类型为所述发票汇总表,所述基于查找到的所述票据模型,对所述待识别票据的图像进行识别,得到所述待识别票据的票据信息,包括:
按照预先设置的片段划分规则确定所述待识别票据的全票面中各个片段的位置坐标;
根据每个所述片段的所述位置坐标,识别每个所述片段中的内容;每个所述片段的所述内容至少包括关键字和对应的属性值;
确定所需提取的关键字;
按照所述所需提取的关键字,从识别的所述片段的所述内容中提取与所述所需提取的关键字对应的属性值;
将所述所需提取的关键字及对应的属性值作为所述待识别票据的票据信息。
5.一种票据识别设备,其特征在于,包括:
处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序;
所述处理器用于调用并执行所述存储器中的所述计算机程序,以执行如权利要求1-3任一项所述的方法。
CN202010187416.4A 2020-03-17 2020-03-17 票据识别方法、装置和设备 Active CN111428599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010187416.4A CN111428599B (zh) 2020-03-17 2020-03-17 票据识别方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010187416.4A CN111428599B (zh) 2020-03-17 2020-03-17 票据识别方法、装置和设备

Publications (2)

Publication Number Publication Date
CN111428599A CN111428599A (zh) 2020-07-17
CN111428599B true CN111428599B (zh) 2023-10-20

Family

ID=71553530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010187416.4A Active CN111428599B (zh) 2020-03-17 2020-03-17 票据识别方法、装置和设备

Country Status (1)

Country Link
CN (1) CN111428599B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986379A (zh) * 2020-09-02 2020-11-24 中国银行股份有限公司 获取纸币防伪点信息的方法、客户端及服务器
CN112052857A (zh) * 2020-09-02 2020-12-08 中国银行股份有限公司 一种票据图像中目标字段的检测方法及相关装置
CN112465618A (zh) * 2020-12-22 2021-03-09 航天信息股份有限公司企业服务分公司 一种针对银行对账单的通用导入方法及系统
CN112733518A (zh) * 2021-01-14 2021-04-30 卫宁健康科技集团股份有限公司 表格模板生成方法、装置、设备及存储介质
CN112819003B (zh) * 2021-04-19 2021-08-27 北京妙医佳健康科技集团有限公司 一种提升体检报告ocr识别准确率的方法及装置
CN113239818B (zh) * 2021-05-18 2023-05-30 上海交通大学 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN114092948B (zh) * 2021-11-24 2023-09-22 北京百度网讯科技有限公司 一种票据识别方法、装置、设备以及存储介质
CN117540721B (zh) * 2024-01-09 2024-04-12 北京大数元科技发展有限公司 一种银行回单信息提取方法和系统
CN117743627A (zh) * 2024-02-19 2024-03-22 畅捷通信息技术股份有限公司 一种银行对账单数据自动提取、导入方法、系统及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226402A (ja) * 2011-04-15 2012-11-15 Fujitsu Marketing Ltd レシートデータ認識装置およびそのプログラム
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108664897A (zh) * 2018-04-18 2018-10-16 平安科技(深圳)有限公司 票据识别方法、装置及存储介质
CN109636557A (zh) * 2018-12-11 2019-04-16 厦门商集网络科技有限责任公司 一种基于票据识别的智能分类记账方法及设备
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226402A (ja) * 2011-04-15 2012-11-15 Fujitsu Marketing Ltd レシートデータ認識装置およびそのプログラム
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108664897A (zh) * 2018-04-18 2018-10-16 平安科技(深圳)有限公司 票据识别方法、装置及存储介质
CN109636557A (zh) * 2018-12-11 2019-04-16 厦门商集网络科技有限责任公司 一种基于票据识别的智能分类记账方法及设备
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置

Also Published As

Publication number Publication date
CN111428599A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111428599B (zh) 票据识别方法、装置和设备
CN109887153B (zh) 一种财税处理方法和处理系统
EP3082051A1 (en) Data mining method
CN103678109B (zh) 一种转储文件分析方法、装置和系统
CN110648211B (zh) 数据验证
CN110390320A (zh) 一种包含有多张单据的影像信息的识别方法及系统
CN104702492A (zh) 垃圾消息模型训练方法、垃圾消息识别方法及其装置
CN108509458B (zh) 一种业务对象识别方法及装置
CN114202755A (zh) 基于ocr和nlp技术的交易背景真实性审核方法和系统
CN115017272B (zh) 基于登记数据的智能核验方法及装置
CN111914729A (zh) 凭证关联方法、装置、计算机设备及存储介质
CN111062834A (zh) 纠纷案件实体识别方法、装置、计算机设备及存储介质
CN107944866B (zh) 交易记录排重方法及计算机可读存储介质
CN114549241A (zh) 合同审查方法、装置、系统与计算机可读存储介质
CN102521713B (zh) 数据处理装置和数据处理方法
CN113221918A (zh) 目标检测方法、目标检测模型的训练方法及装置
CN112214557B (zh) 数据匹配分类方法及装置
CN112949601A (zh) 一种电子账本关联凭证分析方法、装置及系统
CN110008772B (zh) 一种用于税务管理的发票快速识别与录入的方法和系统
CN109544134B (zh) 便捷支付服务方法和系统
CN113111829B (zh) 识别文档的方法和装置
CN116798061A (zh) 一种票据审核识别方法、装置、终端和存储介质
CN115952186A (zh) 一种问题数据及其链路追溯方法及装置
CN115311651A (zh) 一种房地产凭证资料采集与整理方法
KR102234130B1 (ko) 매출 채권과 입출금 정보간 자동화된 매칭 서비스를 제공하는 거래 정보 관리 방법 및 그 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220617

Address after: Room 805, floor 8, No. 6, Zhongguancun South Street, Haidian District, Beijing 100086

Applicant after: Beijing Zijing Technology Co.,Ltd.

Address before: 801-1, 8th floor, No. 6, Zhongguancun South Street, Haidian District, Beijing 100089

Applicant before: BEIJING GONGJIN TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant