CN116092231A - 票证识别方法、装置、终端设备以及存储介质 - Google Patents
票证识别方法、装置、终端设备以及存储介质 Download PDFInfo
- Publication number
- CN116092231A CN116092231A CN202310144725.7A CN202310144725A CN116092231A CN 116092231 A CN116092231 A CN 116092231A CN 202310144725 A CN202310144725 A CN 202310144725A CN 116092231 A CN116092231 A CN 116092231A
- Authority
- CN
- China
- Prior art keywords
- template
- ticket
- user
- image
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07D—HANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
- G07D7/00—Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
- G07D7/20—Testing patterns thereon
- G07D7/202—Testing patterns thereon using pattern matching
- G07D7/206—Matching template patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本申请公开了一种票证识别方法、装置、终端设备以及存储介质,其票证识别方法包括:获取用户票证影像;识别用户票证影像,获取对应的用户要素;根据用户要素,在预设模板接口库中调用对应的模板,模板基于预设模板参考区、模板识别区配置得到;基于模板,识别用户要素,获得用户票证影像的识别结果,快速识别不同类型的用户票证影像以获得对应的票证信息,也即,基于参考区和识别区配置对应的模板,根据用户票证影像调用对应的模板并识别要素,进而得到识别后的票证信息,可以有效识别不同类型的票证,降低票证信息处理的难度和票证模板开发的成本,提高票证识别的效率。
Description
技术领域
本申请涉及信息识别技术领域,尤其涉及一种票证识别方法、装置、终端设备以及存储介质。
背景技术
企业机构中,存在很多对发票、证件、证明、文书等票证中的信息进行统计管理的工作,例如,针对员工的日常报销,财务人员要先录入各种发票中的金额至计算机中,才能方便后续进行报销统计。
为了便于票证信息的录入,现有一些软件采用了光学字符识别技术(OCR),能够将图像中全部的文字识别为文本格式,使得用户可以方便地在计算机中编辑文本并完成票证信息的整理。
但是,传统光学字符识别技术的识别结果统一采用按行返回,对于票证而言,由于其不具备普通文书的整齐格式,且不同类型票证的板式不一,因此返回结果容易产生位移、漏检以及格式错误等情况,导致识别后的文本增加了业务人员票证信息处理的难度;而固定格式的识别工具只能应对某一类型的识别,导致技术人员重复开发票证模板,使得票证识别效率低。
发明内容
本申请的主要目的在于提供一种票证识别方法、装置、终端设备以及存储介质,旨在有效识别不同类型的票证,降低票证信息处理的难度和票证模板开发的成本,提高票证识别的效率。
为实现上述目的,本申请提供一种票证识别方法,所述票证识别方法包括:
获取用户票证影像;
识别所述用户票证影像,获取对应的用户要素;
根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到;
基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果。
可选地,所述根据所述用户要素,在预设模板接口库中调用对应的模板的步骤之前,还包括:
获取模板票证影像;
基于所述模板票证影像,获得所述模板参考区和所述模板识别区,所述模板参考区和所述模板识别区分别包括至少一个;
根据所述模板参考区和所述模板识别区,分别获得所述模板票证影像的关键字段及模板内容,并作为模板要素;
根据所述模板要素,确定所述模板并存储于所述模板接口库中。
可选地,所述基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果的步骤包括:
根据所述用户要素、所述模板要素,得到所述用户票证影像的文字块缩放比例;
根据所述文字块缩放比例及所述用户要素,定位所述用户票证影像的识别区;
过滤所述关键字段,得到所述用户票证影像中的内容。
可选地,所述过滤所述关键字段,得到所述用户票证影像中的内容的步骤之后,还包括:
当检测到任一所述文字块包括预设行文字时,获取所述用户票证影像的影像原点;
基于所述影像原点,依次检测所述文字块中的每一行文字与其他行文字的距离,得到对应的距离关系;
根据所述距离关系,排序每一行文字,得到排序后的所述内容。
可选地,所述基于所述模板票证影像,获得所述模板参考区和所述模板识别区的步骤之后,还包括:
根据所述模板参考区、所述模板识别区,生成对应的后处理规则并封装;
所述基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果的步骤包括:
基于所述模板,通过所述后处理规则对所述文字块的用户要素进行结构化提取,获得所述用户票证影像的识别结果。
可选地,所述获取用户票证影像的步骤包括:
将所述用户票证影像进行灰度化并检测边缘,得到边缘图像;
检测所述边缘图像中的若干条直线,得到所述直线的众数;
根据所述众数,旋转纠正所述用户票证影像,生成对应的黑边;
填补所述黑边,得到倾斜矫正后的所述用户票证影像。
可选地,所述识别所述用户票证影像,获取对应的用户要素的步骤之后,还包括:
依次检测所述关键字段与所述用户要素是否匹配,所述关键字段对应预设影像类型,所述关键字段包括至少一个;
若所述关键字段与所述用户要素匹配,则对所述关键字段进行标记;
在遍历所述关键字段之后,统计所述关键字段的标记次数,得到所述用户票证影像与所述关键字段对应的匹配度;
根据所述匹配度,得到所述用户票证影像的影像类型。
本申请实施例还提出一种票证识别装置,所述票证识别装置包括:
影像获取模块,用于获取用户票证影像;
影像识别模块,用于识别所述用户票证影像,获取对应的用户要素;
模板调用模块,用于根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到;
要素识别模块,用于基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果。
本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的票证识别程序,所述票证识别程序被所述处理器执行时实现如上所述的票证识别方法的步骤。
本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有票证识别程序,所述票证识别程序被处理器执行时实现如上所述的票证识别方法的步骤。
本申请实施例提出的票证识别方法、装置、终端设备以及存储介质,通过获取用户票证影像;识别所述用户票证影像,获取对应的用户要素;根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到;基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果,快速识别不同类型的用户票证影像以获得对应的票证信息,也即,基于参考区和识别区配置对应的模板,根据用户票证影像调用对应的模板并识别要素,进而得到识别后的票证信息,可以有效识别不同类型的票证,降低票证信息处理的难度和票证模板开发的成本,提高票证识别的效率。
附图说明
图1为本申请票证识别装置所属终端设备的功能模块示意图;
图2为本申请票证识别方法第一示例性实施例的流程示意图;
图3为本申请票证识别方法第二示例性实施例的流程示意图;
图4为本申请票证识别方法的流程示意图;
图5为本申请票证识别方法第三示例性实施例的流程示意图;
图6为本申请票证识别方法第四示例性实施例的流程示意图;
图7为本申请票证识别方法涉及的排序算法流程图;
图8为本申请票证识别方法第五示例性实施例的流程示意图;
图9为本申请票证识别方法的泳道图;
图10为本申请票证识别方法第六示例性实施例的流程示意图;
图11为本申请票证识别方法第七示例性实施例的流程示意图;
图12为本申请票证识别方法的票证类型识别的流程图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例的主要解决方案是:获取用户票证影像;识别所述用户票证影像,获取对应的用户要素;根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到;基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果,快速识别不同类型的用户票证影像以获得对应的票证信息,也即,基于参考区和识别区配置对应的模板,根据用户票证影像调用对应的模板并识别要素,进而得到识别后的票证信息,可以有效识别不同类型的票证,降低票证信息处理的难度和票证模板开发的成本,提高票证识别的效率。
本申请实施例考虑到,百度于2018年推出了自定义模板文字识别工具(简称iOCR),使用户能够通过图形化操作定制特定样式的票据和卡证的识别模板,实现自动化的数据录入。其适用面较为广泛,如医疗单据识别、金融票据识别、证件识别等,总体来看,可以对版式较为统一的票证单据进行结构化识别,实现各类卡证和文件的电子化。
目前,旷世(Face++)人工智能开放平台上线自定义模板文字识别功能,通过自助的模板制作,生成识别规则,配合自动分类功能,实现自动化、便捷化的数据获取与录入,支持各类票据、文书、卡证等识别。用户通过简单的标注创建模板后,调用其API接口批量识别同类图片内容信息,获得定义好的输出结果;华为开发了定制模板OCR(Custom OCR),支持用户自定义识别模板,指定需要识别的关键字段,实现用户特定格式图片的自动识别和结构化提取。其支持格式范围广,可对每类证件定制独立模板,指定需要识别的关键区域,从而支持不同格式证件、票据图片的自动识别和结构化提取。同样通过可视化界面操作,指定识别区域,完成模板设计并调用服务接口。
但是,由于银行系统内涉及的业务种类较多,各类证件、票据、文书等的版式不一,不同数据间无固定特征。且银行内部各类票据为涉及用户隐私的敏感数据,而外部非银行的公司在提供模型前需要经过大量的训练,训练数据若不能满足真实使用场景则准确率在实际使用中会大打折扣;并且,以上公司都只是对用户提供API接口,在通讯过程中,图片需要上传到其接口部署的服务器上,因此,对于银行业来说使用外部API接口识别服务具有数据泄露的风险。
因此,本申请实施例方案,从有效识别不同类型票证的实际问题出发,结合光学字符识别技术(OCR)对文字的检测与识别能力,设计一种基于OCR的自定义票证识别方法,实现通用票证识别功能,可以实现全场景适配,即支持业务场景涉及到的任意固定版式卡证、票据等票证的模板制作,可在传统卡证审核、信息录入等业务中广泛应用,大幅度降低了人力和时间成本,带来更高效和优质的服务。
具体地,参照图1,图1为本申请票证识别装置所属终端设备的功能模块示意图。该票证识别装置可以为独立于终端设备的、能够进行票证识别、模板配置的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
在本实施例中,该票证识别装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及票证识别程序,票证识别装置可以将获取用户票证影像;识别用户票证影像,获取对应的用户要素;根据用户要素,在预设模板接口库中调用对应的模板,模板基于预设模板参考区、模板识别区配置得到;基于模板,识别用户要素,获得用户票证影像的识别结果等信息存储于该存储器130中;输出模块110可为显示屏等。通信模块140可以包括WI F I模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的票证识别程序被处理器执行时实现以下步骤:
获取用户票证影像;
识别所述用户票证影像,获取对应的用户要素;
根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到;
基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果。
进一步地,存储器130中的票证识别程序被处理器执行时还实现以下步骤:
获取模板票证影像;
基于所述模板票证影像,获得所述模板参考区和所述模板识别区,所述模板参考区和所述模板识别区分别包括至少一个;
根据所述模板参考区和所述模板识别区,分别获得所述模板票证影像的关键字段及模板内容,并作为模板要素;
根据所述模板要素,确定所述模板并存储于所述模板接口库中。
进一步地,存储器130中的票证识别程序被处理器执行时还实现以下步骤:
根据所述用户要素、所述模板要素,得到所述用户票证影像的文字块缩放比例;
根据所述文字块缩放比例及所述用户要素,定位所述用户票证影像的识别区;
过滤所述关键字段,得到所述用户票证影像中的内容。
进一步地,存储器130中的票证识别程序被处理器执行时还实现以下步骤:
当检测到任一所述文字块包括预设行文字时,获取所述用户票证影像的影像原点;
基于所述影像原点,依次检测所述文字块中的每一行文字与其他行文字的距离,得到对应的距离关系;
根据所述距离关系,排序每一行文字,得到排序后的所述内容。
进一步地,存储器130中的票证识别程序被处理器执行时还实现以下步骤:
根据所述模板参考区、所述模板识别区,生成对应的后处理规则并封装;
进一步地,存储器130中的票证识别程序被处理器执行时还实现以下步骤:
基于所述模板,通过所述后处理规则对所述文字块的用户要素进行结构化提取,获得所述用户票证影像的识别结果。
进一步地,存储器130中的票证识别程序被处理器执行时还实现以下步骤:
将所述用户票证影像进行灰度化并检测边缘,得到边缘图像;
检测所述边缘图像中的若干条直线,得到所述直线的众数;
根据所述众数,旋转纠正所述用户票证影像,生成对应的黑边;
填补所述黑边,得到倾斜矫正后的所述用户票证影像。
进一步地,存储器130中的票证识别程序被处理器执行时还实现以下步骤:
依次检测所述关键字段与所述用户要素是否匹配,所述关键字段对应预设影像类型,所述关键字段包括至少一个;
若所述关键字段与所述用户要素匹配,则对所述关键字段进行标记;
在遍历所述关键字段之后,统计所述关键字段的标记次数,得到所述用户票证影像与所述关键字段对应的匹配度;
根据所述匹配度,得到所述用户票证影像的影像类型。
本实施例通过上述方案,具体通过获取用户票证影像;识别所述用户票证影像,获取对应的用户要素;根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到;基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果,快速识别不同类型的用户票证影像以获得对应的票证信息,也即,基于参考区和识别区配置对应的模板,根据用户票证影像调用对应的模板并识别要素,进而得到识别后的票证信息,可以有效识别不同类型的票证,降低票证信息处理的难度和票证模板开发的成本,提高票证识别的效率。
基于上述终端设备架构但不限于上述架构,提出本申请方法实施例。
参照图2,图2为本申请票证识别方法第一示例性实施例的流程示意图。所述票证识别方法包括:
步骤S210,获取用户票证影像;
本实施例方法的执行主体可以是一种票证识别装置,也可以是一种票证识别终端设备或服务器,本实施例以票证识别装置进行举例,该票证识别装置可以集成在具有数据处理功能的智能手机、平板电脑等终端设备上。
本实施例方案主要实现对票证尤其是不同类型的票证识别,降低票证识别的人力和时间成本,从而提高票证识别的效率。
由于银行系统内涉及的业务种类较多,各类证件、票据、文书等票证的版式不一,不同数据间无固定特征。因此,本申请实施例从有效识别不同类型票证的实际问题出发,结合光学字符识别技术(OCR)对文字的检测与识别能力,设计一种基于OCR的自定义票证识别方法,实现通用票证识别功能,可以实现全场景适配,即支持业务场景涉及到的任意固定版式卡证、票据等票证的模板制作,可在传统卡证审核、信息录入等业务中广泛应用,大幅度降低了人力和时间成本,带来更高效和优质的服务。其中,自定义票证识别是指,用户在平台上定义自己所需要的票证模板应用,通过配置模板参考区域和标记所需要的识别区域,使用平台提供的OCR模型检测和识别能力,得到自定义票证的识别结果。
步骤S220,识别所述用户票证影像,获取对应的用户要素;
具体地,用户要素包括用户票证影像中的可变元素及固定元素,例如票证关键字,票证的具体信息。为了可以快速识别票证,可以通过配置OCR模型识别用户票证影像,也即,通过平台提供OCR底层图像预处理、检测模型和底层识别模型,用户可以选择使用具有相应功能的检测模型和识别模型。支持多种检测和识别模型的组合,如数字检测识别、英文检测识别、中英数检测识别等多种组合。图像预处理用于对用户上传影像的矫正,检测模型用于全文检测,返回文字块到后台等待处理,识别模型用于识别文字,将检测模型检测出的文字块识别后返回后台等待处理。
步骤S230,根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到;
具体地,模板参考区对应模板影像中的关键字段,属于固定不变的元素;模板识别区对应模板影像中的内容,也即票证的具体信息,属于可变的元素。配置后的OCR模型可实现两个功能,功能1:自动调用检测和识别模型返回文本区域和文本内容,用于在用户配置参考区和识别区进行点选时,自动展示文本区域和返回点选文字,无需用户再动框选和手动录入,加快配置流程;功能2:模型配置完成后,可自动关联发布后识别图像需要用到的检测和识别模型。若明确待识别影像都为规范图片,水平不倾斜,可以选择不进行图片预处理,可加快处理流程。模板接口库用于存储不同类型票证模板的接口,通过调用对应类型的模板接口,得到模板,可以实现多类型票据、卡证、查冻扣文书等识别,其中对银行内部使用较多的支票、印鉴卡、委托书等识别效果尤为突出。满足用户的个性化OCR需求,实现结构化识别及业务场景的自动化,可以有效降低企业人力成本,控制业务风险。
步骤S240,基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果。
具体地,识别结果包括票证的内容和/或关键字段。自定义票证技术可以提供用户进行自定义个性化模板识别的能力,使得用户能够方便、快速地对具有相同要素的影像材料进行识别,提取出影像包含的文字信息,进而完成后续的业务工作。并有效地替代了业务人员所面对的大量简单、机械性的工作,通过OCR识别和个性化模板配置,实现自动化处理,从而减轻运营人员成本;同时可以有效提高代码复用,让技术人员更加专注于新技术的开发应用。
本实施例通过上述方案,具体通过获取用户票证影像;识别所述用户票证影像,获取对应的用户要素;根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到;基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果,快速识别不同类型的用户票证影像以获得对应的票证信息,也即,基于参考区和识别区配置对应的模板,根据用户票证影像调用对应的模板并识别要素,进而得到识别后的票证信息,可以有效识别不同类型的票证,降低票证信息处理的难度和票证模板开发的成本,提高票证识别的效率。
参照图3,图3为本申请票证识别方法第二示例性实施例的流程示意图。基于上述图2所示的实施例,步骤S230,根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到之前,还包括:
步骤S310,获取模板票证影像;
由于银行内部各类票据为涉及用户隐私的敏感数据,而外部非银行的公司在提供模型前需要经过大量的训练,训练数据若不能满足真实使用场景则准确率在实际使用中会大打折扣;并且,外部公司都是对用户提供AP I接口,在通讯过程中,图片需要上传到其接口部署的服务器上,因此,对于银行内部而言,使用外部AP I接口识别服务,具有数据泄露的风险。
因此,本申请实施例中,通过用户选择新建自定义票证识别,进行模板配置,在配置模板需要用户上传自己选取的票证影像作为模板票证影像。OCR模型读取一张模板票证影像,通过用户在模板票证影像中设置模板参考区与模板识别区即可完成模板定制。
需要说明的是,模板定制可以是若干种不同类型的模板定制。同类型的模板影像可以是一张或以上,并且模板票证影像和后续作业中的用户票证影像版式等保持一致,具备在后续作业数据中固定不变的要素,也即关键字段。
另外,在配置模板参考区和模板识别区之前,可以进行OCR模型配置,包括图像预处理、检测模型和底层识别模型。本实施例实现OCR模型配置的原理及实施过程,请参照上述第一实施例,在此不再赘述。
步骤S320,基于所述模板票证影像,获得所述模板参考区和所述模板识别区,所述模板参考区和所述模板识别区分别包括至少一个;
具体地,在配置模板阶段,设置多个配置参考区和配置识别区,可以保存配置参考区和配置识别区的相对距离比例关系。用户配置参考区时,会先自动调用通用OCR接口,提前返回全文的文本内容和文本坐标,随后可直接智能点选文字区域,快速高亮框选连续文字块,并自动将识别内容填充到字段名,无需用户在配置时进行人工框选文字块和录入框选的文字内容。在模板制作过程中可以随时返回上一步,模板制作完成后支持逐步修改调整,无需用户完全重新制作,可以加快模板的开发速度。
在配置参考区时,系统会产生默认的文字框及全文信息,用户可以选择系统返回的文字框及文本内容,另外也支持用户进行智能点选(系统自动返回用户点击到的文字块),这一步可以加快用户的参考区域配置。或者用户自行用鼠标框选参考区以及手动录入参考区的内容;参考区用于对模板票证影像中待识别要素定位。
在配置识别区时,实现用户自定义所要识别的要素区域,用户同样可以进行上述智能点选操作,以加快人工框选和人工录入的速度,进而确定发布接口返回的字段内容。如此,可以提升配置体验,也可以自行框选识别区域,完成个性化识别区配置。
需要说明的是,本申请实施例以选择四个以上模板参考区为优选,在其他实施例中,也可以是四个以下。
步骤S330,根据所述模板参考区和所述模板识别区,分别获得所述模板票证影像的关键字段及模板内容,并作为模板要素;
具体地,在模板参考区和模板识别区配置之后,进入后处理规则封装,针对全文识别结果以及用户配置的参考区和识别区,自动生成后处理规则代码。此设计了模板配置算法、要素识别算法以及排序算法,将几类算法封装为后处理规则后,可实现自定义票证识别的全流程自动化。
步骤S340,根据所述模板要素,确定所述模板并存储于所述模板接口库中。
具体地,系统识别结果展示。系统调用后处理规则,以键值对格式(key-vaule)返回配置要素识别结果。作为一种实现方案,通过系统检测识别结果与模板影像中的模板要素是否匹配,如果均匹配成功,则确定该模板可用;作为另一种实现方案,用户可根据该识别结果判断该模板是否可用,若可用则保存并发布模板,若需要修改则返回重新配置。另外也支持用户选择保存不发布模板,待后续维护后再进行操作。
参考图4,图4为本申请票证识别方法的流程示意图。系统发布自定义票证识别接口。在用户完成新建自定义票证识别模板后,可直接使用该接口,通过用户上传与模板票证影像具有相同要素(内容)的票证影像,系统自动调用后处理规则,进行要素(关键字段)的识别并返回结果给用户。
本实施例通过上述方案,具体通过获取模板票证影像;基于所述模板票证影像,获得所述模板参考区和所述模板识别区,所述模板参考区和所述模板识别区分别包括至少一个;根据所述模板参考区和所述模板识别区,分别获得所述模板票证影像的关键字段及模板内容,并作为模板要素;根据所述模板要素,确定所述模板并存储于所述模板接口库中。通过读取模板票证影像,获得模板参考区和模板识别区,配置对应的模板,可以避免商业OCR应用可能存在的票证数据泄露问题,提高票证信息的安全性。
参照图5,图5为本申请票证识别方法第三示例性实施例的流程示意图。基于上述图3所示的实施例,步骤S240,基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果,包括:
步骤S510,根据所述用户要素、所述模板要素,得到所述用户票证影像的文字块缩放比例;
具体地,在待识别影像阶段,利用OCR的文字检测和文字识别技术,得到多个参考区的相对位置,并计算当前待识别影像多个参考区相对位置的距离比例,将比例关系映射到模板配制时得到的模板参考区和模板识别区的距离比例,实现对待识别影像识别区的准确定位,快速得到识别区的内容字段。
其中,模板要素包括:首先列出参照区(记为ref)及识别区(记为rec)文字块的要素,并通过文字块坐标值进行计算(横纵坐标分别记为X、Y;左下角坐标值记为LD;左上角坐标值记为LU;右下角坐标值记为RD;右上角坐标值记为RU)。
各文本块之间的高度差(记为δh);
各文本块之间的宽度差(记为δw);
步骤S520,根据所述文字块缩放比例及所述用户要素,定位所述用户票证影像的识别区;
具体地,对用户使用模板进行识别时筛选识别区的要素计算进行详细描述。首先对用户票证影像的缩放比例进行计算,用户票证影像的用户要素有:
单字高度(记为USERh);
文字框宽度(记为USERw);
计算用户票证影像的文字块缩放比例:
高度缩放(记为RATIOH)RATIOH=USERh÷Href;
宽度缩放(记为RAATIOW)RATIOW=USERw÷Wrec;
定位用户票证影像的识别区中的文字:
高度定位(记为Hrec)Hrec=USERh+δh×RATIOH;
宽度定位(记为Wrec)Wrec=USERw+δw×RATIOW;
步骤S530,过滤所述关键字段,得到所述用户票证影像中的内容。
具体地,然后根据重合度(交并比(I oU)或非最大抑制(NMS))筛选识别区,通过正则表达过滤关键字段,并输出识别结果。
本实施例通过上述方案,具体通过根据所述用户要素、所述模板要素,得到所述用户票证影像的文字块缩放比例;根据所述文字块缩放比例及所述用户要素,定位所述用户票证影像的识别区;过滤所述关键字段,得到所述用户票证影像中的内容。通过识别用户要素、模板要素,得到文字块缩放比例,根据文字块比例定位用户票证影像的识别区,可以提高票证识别的准确度。
参照图6,图6为本申请票证识别方法第四示例性实施例的流程示意图。基于上述图5所示的实施例,步骤S530,过滤所述关键字段,得到所述用户票证影像中的内容,包括:
步骤S610,当检测到任一所述文字块包括预设行文字时,获取所述用户票证影像的影像原点;
步骤S620,基于所述影像原点,依次检测所述文字块中的每一行文字与其他行文字的距离,得到对应的距离关系;
步骤S630,根据所述距离关系,排序每一行文字,得到排序后的所述内容。
具体地,其中在涉及到多行识别后需对文字块进行排序,本方案设计的算法如下图所示。
参考图7,图7为本申请票证识别方法涉及的排序算法流程图。排序算法用于对识别得到的多行文字块进行正确匹配,该步骤的详细算法为:
步骤一,查找用户票证影像原点,查找多行文字块的起点文字块,并将该文字块定义为处于第一行的第一个文字块;例如,选择用户票证影像左上角坐标值作为原点;
步骤二,新建三个行列表,其中一个列表Li st1作为全局变量存储列表,另外两个作为临时变量存储列表Li st2、Li st3,分别存储当前行与其他行文字块;
步骤三,计算第一个文字块下方到原点的最大垂直距离(该距离使用纵坐标进行计算),记为Y1;将其他文字块左上角的纵坐标与Y1比较,得到距离关系,记为Y2;若Y2小于Y1,则判断与第一个文字块处于同一行,并存于当前行列表中。若Y2大于Y1,则判断不属于同一行,将该文字块存储于其他行列表中,并对下一个文字块进行处理;
步骤四,循环查找处于同一行文字块直到无文字块左上角纵坐标小于Y1,将当前行列表内容存储于全局变量列表中,并清空当前行列表、其他行列表内容;
步骤五,递归运行上述步骤三、步骤四,对后N行文字块进行排序,直到遍历每一多行文字块,结束递归运行;
步骤六,在递归运行结束后,即完成文字块分行,此时通过对全局变量列表中每行文字块的横坐标值进行每行文字块的左右排序,完成最终的多行文字匹配。
本实施例通过上述方案,具体通过当检测到任一所述文字块包括预设行文字时,获取所述用户票证影像的影像原点;基于所述影像原点,依次检测所述文字块中的每一行文字与其他行文字的距离,得到对应的距离关系;根据所述距离关系,排序每一行文字,得到排序后的所述内容。通过对多行文字块进行排序,可以解决识别结果出现的位移、漏检及格式错误等情况的技术问题,提高票证识别的准确率,进而提高票证识别的效率。
参照图8,图8为本申请票证识别方法第五示例性实施例的流程示意图。基于上述图3所示的实施例,步骤S320,基于所述模板票证影像,获得所述模板参考区和所述模板识别区之后,还包括:
步骤S810,根据所述模板参考区、所述模板识别区,生成对应的后处理规则并封装;
具体地,为了可以让技术人员减少开发不同类型的票证模板,本申请实施例通过向业务方用户提供OCR接口,由业务方用户自定义OCR后处理规则并自动封装为后处理规则。后处理规则用于自动调用对应的模板以识别出用户票证影像中的要素,进而获得识别结果。
所述步骤S240,基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果的步骤包括:
步骤S820,基于所述模板,通过所述后处理规则对所述文字块的用户要素进行结构化提取,获得所述用户票证影像的识别结果。
具体地,参考图9,图9为本申请票证识别方法的泳道图。在用户完成新建自定义票证识别模板后,在进行识别票证时,可直接使用该接口,通过用户上传与模板票证影像具有相同要素(内容)的票证影像,系统自动调用后处理规则,进行要素(关键字段)的识别并返回结果给用户。使得双方均可减少工作量与不必要沟通时间,提升工作效率。
本实施例通过上述方案,具体通过根据所述模板参考区、所述模板识别区,生成对应的后处理规则并封装;基于所述模板,通过所述后处理规则对所述文字块的用户要素进行结构化提取,获得所述用户票证影像的识别结果。基于模板参考区、模板识别区,生成对应的后处理规则并封装,使得业务方用户在后续识别票证影像时,通过系统调用该后处理规则对票证影像,自动完成票证影像的要素识别,得到对应的识别结果,可以解决技术人员重复开发不同类型的票证模板的技术问题,降低开发和人力成本,进而提高票证识别的效率。
参照图10,图10为本申请票证识别方法第六示例性实施例的流程示意图。基于上述图2所示的实施例,步骤S210,获取用户票证影像,包括:
步骤S1010,将所述用户票证影像进行灰度化并检测边缘,得到边缘图像;
由于拍摄用户票证的角度不同,使得OCR模型读取的用户票证影像存在一定的形变和/或倾斜,导致参考区和识别区之间的相对位置会发生偏移的情况。因此,本申请实施例采用文本图像倾斜校正法,对存在形变和/或倾斜的票证影像进行校正。
需要说明的是,上述步骤S310,获取模板票证影像,在检测到模板票证影像存在形变和/或倾斜时,也可以执行本申请实施例的步骤以对图像倾斜进行校正。
首先,读取用户票证影像,将图像灰度化,得到灰度图像;然后,对灰度图像利用Canny算子检测出边缘,得到边缘图像。
步骤S1020,检测所述边缘图像中的若干条直线,得到所述直线的众数;
然后,对边缘图像进行霍夫变换直线检测,得到图像中所有的直线;然后,按直线的长度对检测出的直线降序排序,保留长度前20的直线,统计出这20条直线的方向的众数;其中,本申请实施例以保留长度前20的直线为优选,在其他实施例中,也可以是20以上或以下。
步骤S1030,根据所述众数,旋转纠正所述用户票证影像,生成对应的黑边;
然后,将初始的用户票证影像按照直线方向的众数进行旋转纠正,使得初始的用户票证影像中出现对应的黑边。
步骤S1040,填补所述黑边,得到倾斜矫正后的所述用户票证影像。
最后,对旋转纠正后的用户票影像中出现的黑边进行填补,得到校正后的用户票证影像。
本实施例通过上述方案,具体通过将所述用户票证影像进行灰度化并检测边缘,得到边缘图像;检测所述边缘图像中的若干条直线,得到所述直线的众数;根据所述众数,旋转纠正所述用户票证影像,生成对应的黑边;填补所述黑边,得到倾斜矫正后的所述用户票证影像。通过对初始的用户票证影像进行倾斜校正,可以解决OCR模型读取用户票证影像出现的形变和/或倾斜的技术问题,提高票证识别的准确率。
参照图11,图11为本申请票证识别方法第七示例性实施例的流程示意图。基于上述图3所示的实施例,步骤S210,获取用户票证影像之后,还包括:
步骤S1110,依次检测所述关键字段与所述用户要素是否匹配,所述关键字段对应预设影像类型,所述关键字段包括至少一个;
具体地,为了用户可以在平台上定义自己所需要识别的样本类型,通过使用平台提供的自定义分类实现在全部样本中仅提取自定义类型的样本进行识别,可以获得对应的分类识别结果。
在检测用户票证影像的类型之前,用户可以自定义票证的类型,并且在每一种单据中自行扩展单据会出现的关键词。另外,对于非标准单据,需要结合业务和知识库进行定义。
在检测用户票证影像的类型时,通过调用OCR识别,返回图中所有文字,使用绝对匹配策略对每一类票证的关键字段进行匹配,对命中的关键字段进行打分,最终输出得分比较高的关键字段对应的类型。
步骤S1120,若所述关键字段与所述用户要素匹配,则对所述关键字段进行标记;
步骤S1130,在遍历所述关键字段之后,统计所述关键字段的标记次数,得到所述用户票证影像与所述关键字段对应的匹配度;
步骤S1140,根据所述匹配度,得到所述用户票证影像的影像类型。
具体地,匹配用于对关键字段进行判断,计算命中关键字段的比率作为匹配度,最终输出匹配的类型。该步骤的详细算法为:
首先,对关键字段进行遍历,计算通用识别文本中命中关键字段的数量并计数,将命中的关键字段进行标记;
然后,计算匹配度,计算方法为:如命中该关键字段则进行标记,计数为1,不进行累加,最终统计所有命中关键字段数量/关键字段总数;
最后,判断用户票证影像的所属类型,对匹配度进行排序比较,确定匹配度最高的类型为用户票证影像的类型。
具体地,参考图12,图12为本申请票证识别方法的票证类型识别的流程图。如此,可以快速准确地对用户自定义样本类型进行筛选,自动分类符合用户配置的样本,从而减轻人工从海量样本中筛选目标样本的工作量。
本实施例通过上述方案,具体通过依次检测所述关键字段与所述用户要素是否匹配,所述关键字段对应预设影像类型,所述关键字段包括至少一个;若所述关键字段与所述用户要素匹配,则对所述关键字段进行标记;在遍历所述关键字段之后,统计所述关键字段的标记次数,得到所述用户票证影像与所述关键字段对应的匹配度;根据所述匹配度,得到所述用户票证影像的影像类型。通过配置关键字段、击中关键字段,对用户票证影像进行分类识别,实现票证自动化分类、票证信息的精准化获取与录入。
此外,本申请实施例还提出一种票证识别装置,所述票证识别装置包括:
影像获取模块,用于获取用户票证影像;
影像识别模块,用于识别所述用户票证影像,获取对应的用户要素;
模板调用模块,用于根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到;
要素识别模块,用于基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果。
本实施例实现票证识别的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的票证识别程序,所述票证识别程序被所述处理器执行时实现如上所述的票证识别方法的步骤。
由于本票证识别程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有票证识别程序,所述票证识别程序被处理器执行时实现如上所述的票证识别方法的步骤。
由于本票证识别程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本申请实施例提出的票证识别方法、装置、终端设备以及存储介质,通过获取用户票证影像;识别所述用户票证影像,获取对应的用户要素;根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到;基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果,快速识别不同类型的用户票证影像以获得对应的票证信息,也即,基于参考区和识别区配置对应的模板,根据用户票证影像调用对应的模板并识别要素,进而得到识别后的票证信息,可以有效识别不同类型的票证,降低票证信息处理的难度和票证模板开发的成本,提高票证识别的效率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种票证识别方法,其特征在于,所述票证识别方法包括以下步骤:
获取用户票证影像;
识别所述用户票证影像,获取对应的用户要素;
根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到;
基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果。
2.如权利要求1所述的票证识别方法,其特征在于,所述根据所述用户要素,在预设模板接口库中调用对应的模板的步骤之前,还包括:
获取模板票证影像;
基于所述模板票证影像,获得所述模板参考区和所述模板识别区,所述模板参考区和所述模板识别区分别包括至少一个;
根据所述模板参考区和所述模板识别区,分别获得所述模板票证影像的关键字段及模板内容,并作为模板要素;
根据所述模板要素,确定所述模板并存储于所述模板接口库中。
3.如权利要求2所述的票证识别方法,其特征在于,所述基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果的步骤包括:
根据所述用户要素、所述模板要素,得到所述用户票证影像的文字块缩放比例;
根据所述文字块缩放比例及所述用户要素,定位所述用户票证影像的识别区;
过滤所述关键字段,得到所述用户票证影像中的内容。
4.如权利要求3所述的票证识别方法,其特征在于,所述过滤所述关键字段,得到所述用户票证影像中的内容的步骤之后,还包括:
当检测到任一所述文字块包括预设行文字时,获取所述用户票证影像的影像原点;
基于所述影像原点,依次检测所述文字块中的每一行文字与其他行文字的距离,得到对应的距离关系;
根据所述距离关系,排序每一行文字,得到排序后的所述内容。
5.如权利要求2所述的票证识别方法,其特征在于,所述基于所述模板票证影像,获得所述模板参考区和所述模板识别区的步骤之后,还包括:
根据所述模板参考区、所述模板识别区,生成对应的后处理规则并封装;
所述基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果的步骤包括:
基于所述模板,通过所述后处理规则对所述文字块的用户要素进行结构化提取,获得所述用户票证影像的识别结果。
6.如权利要求1所述的票证识别方法,其特征在于,所述获取用户票证影像的步骤包括:
将所述用户票证影像进行灰度化并检测边缘,得到边缘图像;
检测所述边缘图像中的若干条直线,得到所述直线的众数;
根据所述众数,旋转纠正所述用户票证影像,生成对应的黑边;
填补所述黑边,得到倾斜矫正后的所述用户票证影像。
7.如权利要求2所述的票证识别方法,其特征在于,所述识别所述用户票证影像,获取对应的用户要素的步骤之后,还包括:
依次检测所述关键字段与所述用户要素是否匹配,所述关键字段对应预设影像类型,所述关键字段包括至少一个;
若所述关键字段与所述用户要素匹配,则对所述关键字段进行标记;
在遍历所述关键字段之后,统计所述关键字段的标记次数,得到所述用户票证影像与所述关键字段对应的匹配度;
根据所述匹配度,得到所述用户票证影像的影像类型。
8.一种票证识别装置,其特征在于,所述票证识别装置包括:
影像获取模块,用于获取用户票证影像;
影像识别模块,用于识别所述用户票证影像,获取对应的用户要素;
模板调用模块,用于根据所述用户要素,在预设模板接口库中调用对应的模板,所述模板基于预设模板参考区、模板识别区配置得到;
要素识别模块,用于基于所述模板,识别所述用户要素,获得所述用户票证影像的识别结果。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的票证识别程序,所述票证识别程序被所述处理器执行时实现如权利要求1-7中任一项所述的票证识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有票证识别程序,所述票证识别程序被处理器执行时实现如权利要求1-7中任一项所述的票证识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310144725.7A CN116092231A (zh) | 2023-01-28 | 2023-01-28 | 票证识别方法、装置、终端设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310144725.7A CN116092231A (zh) | 2023-01-28 | 2023-01-28 | 票证识别方法、装置、终端设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116092231A true CN116092231A (zh) | 2023-05-09 |
Family
ID=86186888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310144725.7A Pending CN116092231A (zh) | 2023-01-28 | 2023-01-28 | 票证识别方法、装置、终端设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116092231A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116434265A (zh) * | 2023-06-12 | 2023-07-14 | 中国航空结算有限责任公司 | 一种民航客运票证管理方法、装置、设备及存储介质 |
CN117315705A (zh) * | 2023-10-10 | 2023-12-29 | 河北神玥软件科技股份有限公司 | 通用的卡证识别方法、装置、系统、电子设备及存储介质 |
-
2023
- 2023-01-28 CN CN202310144725.7A patent/CN116092231A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116434265A (zh) * | 2023-06-12 | 2023-07-14 | 中国航空结算有限责任公司 | 一种民航客运票证管理方法、装置、设备及存储介质 |
CN117315705A (zh) * | 2023-10-10 | 2023-12-29 | 河北神玥软件科技股份有限公司 | 通用的卡证识别方法、装置、系统、电子设备及存储介质 |
CN117315705B (zh) * | 2023-10-10 | 2024-04-30 | 河北神玥软件科技股份有限公司 | 通用的卡证识别方法、装置、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657665B (zh) | 一种基于深度学习的发票批量自动识别系统 | |
EP3437019B1 (en) | Optical character recognition in structured documents | |
US9116924B2 (en) | System and method for image selection using multivariate time series analysis | |
US9639751B2 (en) | Property record document data verification systems and methods | |
CN110008944A (zh) | 基于模板匹配的ocr识别方法及装置、存储介质 | |
US20140067631A1 (en) | Systems and Methods for Processing Structured Data from a Document Image | |
CN103975342B (zh) | 用于移动图像捕获和处理的系统和方法 | |
US7801358B2 (en) | Methods and systems for analyzing data in media material having layout | |
CN101908136B (zh) | 一种表格识别处理方法及系统 | |
Shahab et al. | An open approach towards the benchmarking of table structure recognition systems | |
US8064703B2 (en) | Property record document data validation systems and methods | |
CN110874618B (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
CN113255642B (zh) | 一种用于人伤理赔的医疗票据信息整合方法 | |
CN116092231A (zh) | 票证识别方法、装置、终端设备以及存储介质 | |
US10740638B1 (en) | Data element profiles and overrides for dynamic optical character recognition based data extraction | |
CN112464925B (zh) | 基于机器学习的移动端开户资料银行信息自动提取方法 | |
CN111444795A (zh) | 票据数据识别方法、电子设备、存储介质及装置 | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
CN110427853B (zh) | 一种智能票据信息提取处理的方法 | |
JP6435934B2 (ja) | 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置 | |
CN113066223A (zh) | 发票自动验证方法及装置 | |
CN111860450A (zh) | 票证识别装置以及票证信息管理系统 | |
CN114998905A (zh) | 一种复杂结构化文档内容的校验方法、装置与设备 | |
CN113469005B (zh) | 一种银行回单的识别方法、相关装置及存储介质 | |
US20070217691A1 (en) | Property record document title determination systems and methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |