CN117133006A - 一种单证验证方法、装置、计算机设备及存储介质 - Google Patents

一种单证验证方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN117133006A
CN117133006A CN202311085008.8A CN202311085008A CN117133006A CN 117133006 A CN117133006 A CN 117133006A CN 202311085008 A CN202311085008 A CN 202311085008A CN 117133006 A CN117133006 A CN 117133006A
Authority
CN
China
Prior art keywords
document
field
verified
content
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311085008.8A
Other languages
English (en)
Inventor
黄龙灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202311085008.8A priority Critical patent/CN117133006A/zh
Publication of CN117133006A publication Critical patent/CN117133006A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/95Pattern authentication; Markers therefor; Forgery detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例属于图像检测以及金融科技领域,涉及一种单证验证方法,包括接收对目标单证的验证请求,解析验证请求获取目标单证,确定目标单证对应的单证模板;根据单证模板获得对应的待验证字段和处理类,处理类包括所述待验证字段的提取方式;读取目标单证的单证内容及对应的位置信息,将待验证字段与单证内容进行关联匹配,得到待验证字段的坐标信息;根据坐标信息,按照提取方式从单证内容中提取待验证字段匹配的字段内容;将字段内容进行验证。本申请还提供一种单证验证装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,目标单证可存储于区块链中本申请提高目标单证内容提取的准确度,保证单证打印的正确性。

Description

一种单证验证方法、装置、计算机设备及存储介质
技术领域
本申请涉及图像检测以及金融科技技术领域,尤其涉及一种单证验证方法、装置、计算机设备及存储介质。
背景技术
单证为根据业务的文本信息所生成的合同、确认书、协议、凭证、单据等,在日常的业务工作中,机构经常需要对单证进行打印,单证上记载了众多信息,这些信息的正确性和准确性极为重要。然而,打印出来的单证容易出现信息不完整或者内容取值错误的情况,一旦出现错误,将会造成很大的经济损失。例如,保险单证(保单、批单、运输申报等)是具体法律效力的严肃的合同文件,客户在保险公司出单或者批改之后,打印出来的单证如果有信息不完整或者内容取值错误等打印错误,不能及时发现处理,就会引发客户投诉甚至严重的纠纷。
发明内容
本申请实施例的目的在于提出一种单证验证方法、装置、计算机设备及存储介质,以解决现有技术中单证打印过程中容易出现打印错误不能及时发现的技术问题。
为了解决上述技术问题,本申请实施例提供一种单证验证方法,采用了如下所述的技术方案:
接收对目标单证的验证请求,解析所述验证请求获取目标单证,确定所述目标单证对应的单证模板;
根据所述单证模板获得对应的待验证字段和处理类,所述处理类包括所述待验证字段的提取方式;
读取所述目标单证的单证内容及对应的位置信息,将所述待验证字段与所述单证内容进行关联匹配,得到所述待验证字段的坐标信息;
根据所述坐标信息,按照所述提取方式从所述单证内容中提取所述待验证字段匹配的字段内容;
将所述字段内容进行验证。
进一步的,在所述接收对目标单证的验证请求的步骤之前还包括:
获取全部历史业务单证,根据单证类型将所述历史业务单证进行分类,得到每个所述单证类型的单证集合;
抽取每个所述单证集合的特征字段,构成每个所述单证类型的待验证字段;
接收用户输入的配置信息,根据所述配置信息和所述待验证字段生成对应的单证模板,并将所述单证模板存储于预设的模板数据库内。
进一步的,在所述根据所述配置信息和所述待验证字段生成对应的单证模板的步骤之后还包括:
获取所述待验证字段在每个所述历史业务单证中的文字内容和对应的坐标位置;
根据所述坐标位置得到所述文字内容的位置属性;
基于所述位置属性为所述单证模板配置对应的处理类,所述处理类中包括所述待验证字段的初始提取方式;
根据所述坐标位置,按照所述初始提取方式从所述历史业务单证中提取所述待验证字段对应的单证内容,得到识别结果;
根据所述识别结果调整所述初始提取方式,直到提取到正确的所述单证内容,得到所述待验证字段最终的提取方式。
进一步的,所述根据所述识别结果调整所述初始提取方式,直到提取到正确的所述单证内容的步骤包括:
根据所述识别结果与所述待验证字段对应的实际单证内容,计算损失值;
根据所述损失值调整所述初始提取方式,得到调整后的提取方式;
基于所述调整后的提取方式对所述历史业务单证中所述待验证字段对应的单证内容进行提取,直到提取到正确的所述单证内容。
进一步的,所述将所述字段内容进行验证的步骤包括:
获取所述目标单证的单证标识对应的业务单证,获取所述业务单证中与所述待验证字段对应的匹配字段的匹配字段值;
将所述字段内容与所述匹配字段值进行比对,得到比对结果;
根据所述比对结果判断所述字段内容与所述匹配字段值是否一致;
若一致,则所述目标单证验证通过;
若不一致,将不一致的字段组装成告警信息发送给用户。
进一步的,所述将所述字段内容与所述匹配字段值进行比对,得到比对结果的步骤包括:
分别构建所述字段内容与所述匹配字段值对应的第一字符串和第二字符串;
根据所述第一字符串和所述第二字符串构建比对矩阵;
根据所述比对矩阵计算得到比对结果。
进一步的,所述根据所述比对矩阵计算得到比对结果的步骤包括:
根据所述第一字符串的第一长度和所述第二字符串的第二长度,计算匹配窗口值;
基于所述比对矩阵和所述匹配窗口值,计算匹配字符数和匹配字符换位数;
根据所述第一长度、所述第二长度、所述匹配字符数以及所述匹配字符换位数,计算字符串相似度;
确定所述第一字符串和所述第二字符串的公共前缀长度,并根据所述公共前缀长度和所述字符串相似度计算匹配度,将所述匹配度作为所述比对结果。
为了解决上述技术问题,本申请实施例还提供一种单证验证装置,采用了如下所述的技术方案:
解析模块,用于接收对目标单证的验证请求,解析所述验证请求获取目标单证,确定所述目标单证对应的单证模板;
获取模块,用于根据所述单证模板获得对应的待验证字段和处理类,所述处理类包括所述待验证字段的提取方式;
匹配模块,用于读取所述目标单证的单证内容及对应的位置信息,将所述待验证字段与所述单证内容进行关联匹配,得到所述待验证字段的坐标信息;
提取模块,用于根据所述坐标信息,按照所述提取方式从所述单证内容中提取所述待验证字段匹配的字段内容;
验证模块,用于将所述字段内容进行验证。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
该计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的单证验证方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的单证验证方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请通过接收对目标单证的验证请求,解析验证请求获取目标单证,确定目标单证对应的单证模板;根据单证模板获得对应的待验证字段和处理类,处理类包括所述待验证字段的提取方式;读取目标单证的单证内容及对应的位置信息,将待验证字段与单证内容进行关联匹配,得到待验证字段的坐标信息;根据坐标信息,按照提取方式从单证内容中提取待验证字段匹配的字段内容;将字段内容进行验证;通过目标单证的单证模板得到目标单证的待验证字段,进而获得待验证字段的提取方式,能够实现不同待验证字段通过不同的提取方式进行内容提取,提高单证内容的识别准确度;通过目标单证的单证内容及对应的位置信息,进而得到待验证字段的坐标信息,根据坐标信息使用提取方式进行字段内容提取,进一步提高目标单证内容提取的准确度;对提取到的字段内容进行验证,能够及时发现单证打印过程中出现的问题,并迅速进行处理,提高问题处理效率,保证单证打印的正确性,最大限度的减少投诉或纠纷,提升用户体验度。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的单证验证方法的一个实施例的流程图;
图3是根据本申请的单证验证方法的另一个实施例的流程图;
图4是根据本申请的单证验证装置的一个实施例的结构示意图;
图5是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请提供了一种单证验证方法,可以应用于如图1所示的系统架构100中,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的单证验证方法一般由服务器/终端设备执行,相应地,单证验证装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的单证验证方法的一个实施例的流程图,包括以下步骤:
步骤S201,接收对目标单证的验证请求,解析验证请求获取目标单证,确定目标单证对应的单证模板。
其中,目标单证是待验证的单证打印文件,单证打印文件可以是业务系统调用打印系统打印出来的PDF格式的电子单证文件,包括但不限于保险单证、银行有价单证等,保险单证包括保单、批单、运输申报等。具体的,通过业务系统发起打印请求,并接收打印系统根据打印请求返回的单证打印文件,将单证打印文件发送给打印验证系统,并将单证打印文件组装成验证请求进行验证。
在本实施例中,目标单证的验证请求可以通过有线连接方式或者无线连接方式进行接收。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
在本实施例中,验证请求中携带待验证的目标单证,对接收到的验证请求进行解析,获得目标单证,根据目标单证与单证模板的预设的映射关系,从模板数据库中获取到目标单证对应的单证模板,单证模板包括待验证字段,待验证字段包括但不限于险种、保单号、保险期限、批单号、被保人、证件号等,每个单证模板包含的待验证字段不完全相同。
在一些可选的实现方式中,单证模板是预先配置的,配置的步骤包括:
获取全部历史业务单证,根据单证类型将历史业务单证进行分类,得到每个单证类型的单证集合;
抽取每个单证集合的特征字段,构成每个单证类型的待验证字段;
接收用户输入的配置信息,根据配置信息和待验证字段生成对应的单证模板,并将单证模板存储于预设的模板数据库内。
具体的,从业务系统中获取到全部的历史业务单证,根据获取到的每个历史业务单证的类型标识确定每个历史业务单证的单证类型,并按照单证类型进行分类,单证类型包括但不限于不同产品类型的保险单、保险凭证、联合保险凭证、预约保险单、保险声明、批单等,产品类型包括但不限于企财险、货运险等。
抽取每个单证类型对应的单证集合中每个历史业务单证的特征字段,特征字段即为待验证字段,根据接收到的配置信息和特征字段生成每个单证类型对应的单证模板,其中,配置信息包括单证模板名称、单证模板的生效时间、单证模板的时效时间、单证模板的版本号以及单证模板类型,并基于模板编号将单证模板存储于预设的模板数据库内,模板编号具有唯一性,模板编号可作为单证模板在模板数据库中的索引信息。
在一种具体示例中,将目标单证和对应的模板编号进行组装,生成验证请求,解析验证请求获取到目标单证和模板编号,根据模板编号从模板数据库中获取对应的单证模板。
其中,目标单证和模板编号组装成二进制内容。
本实施例通过接收的配置信息配置单证模板,可以提高单证模板的生成效率。
需要强调的是,为进一步保证目标单证的私密和安全性,上述目标单证还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
步骤S202,根据单证模板获得对应的待验证字段和处理类,处理类包括待验证字段的提取方式。
在本实施例中,根据单证模板即可获得目标单证的待验证字段,不同的待验证字段对应不同的提取方式,提取方式用于提取字段的字段内容。
在一些可选的实现方式中,提取方式的配置步骤如下:
获取待验证字段在每个历史业务单证中的文字内容和对应的坐标位置;
根据坐标位置得到文字内容的位置属性;
基于位置属性为单证模板配置对应的处理类,处理类中包括待验证字段的初始提取方式;
根据坐标位置,按照初始提取方式从历史业务单证中提取待验证字段对应的单证内容,得到识别结果;
根据识别结果调整初始提取方式,直到提取到正确的单证内容,得到待验证字段最终的提取方式。
在本实施例中,可以将获取到的全部历史业务单证分成训练集和验证集,训练集用于配置初始提取方式,验证集用于调整初始提取方式。
历史业务单证为PDF格式的电子单证文件,可以使用PDFPlumber库提获取每个历史业务单证的文字内容及其对应的坐标位置,例如,提取的文字内容为“险种”,其对应的坐标位置为{"x0":100.1,"x1":140.2,"top":100.2,"bottom":120.2},x0、x1、top和bottom是“险种”在单证上对应的坐标数据,即坐标位置。
根据坐标位置可以确定文字内容的位置属性,位置属性为单行文本或多行文本,位置属性采用如下公式进行计算:
Pd=(bottom-top)×k;
其中,Pd表示文字内容的上坐标与下坐标之间的间距;k表示系数。当Pd小于等于预设阈值时,为单行文本;Pd大于预设阈值时,为多行文本。
根据位置属性为单证模板配置对应的识别抽取字段的处理类matrix类,matrix类中包括单证模板中每个待验证字段对应的初始提取方式,初始提取方式包括正则表达式匹配提取、文字切片和坐标分割提取等,若待验证字段对应的文字内容为单行文本,则为其配置正则表达式进行匹配提取;若待验证字段对应的文字内容为多行文本,则为其配置文字切片和坐标分割结合的方式进行提取。例如,对于保单号:13201753900178368336,长度固定,同一行左右的文字也是固定的,就可以使用正则表达式来提取保单号,“保单号:”和“类批单号”之间的内容就是保单号;对于占据3行的险种内容,正则表达式无法使用,则可以配置文字切片和坐标分割的方式进行提取,读取险种四周固定字符的坐标,取到4个点的坐标,然后进行文字切片,提取文字切片的内容即为险种内容。
按照初始提取方式对应验证集中的历史业务单证进行待验证字段对应单证内容的提取,得到识别结果,根据识别结果调整正则表达式以及文字切片和坐标分割参数,直到提取到的字段值准确无误,得到最终的提取方式。
在本实施例中,预先设置单证模板与处理类之间的对应关系,根据单证模板获取对应的处理类。
本实施例通过对不同的待验证字段配置相应的提取方式,能够提高字段内容的提取效率和准确率。
步骤S203,读取目标单证的单证内容及对应的位置信息,将待验证字段与单证内容进行关联匹配,得到待验证字段的坐标信息。
在本实施例中,可以使用PDFPlumber库读取目标单证的全部单证内容及其对应的位置信息,单证内容包括文本内容、表格,位置信息为各个字符对应的坐标数据。
将待验证字段与识别出来的单证内容匹配,可以获取到待验证字段及其对应字段内容的坐标信息。
步骤S204,根据坐标信息,按照提取方式从单证内容中提取待验证字段匹配的字段内容。
将待验证字段的坐标信息作为提取参数,调用对应的提取方式将单证内容中与待验证字段匹配的字段内容提取出来。
示例的,待验证字段包括险种、保险期限、批单号、保单号、被保人,根据处理类获取到每个待验证字段对应的提取方式,按照提取方式将字段内容进行提取。
步骤S205,将字段内容进行验证。
具体的,获取目标单证的单证标识对应的业务单证,获取业务单证中与待验证字段对应的匹配字段的匹配字段值;将字段内容与匹配字段值进行比对,得到比对结果;根据比对结果判断字段内容与匹配字段值是否一致;若一致,则目标单证验证通过;若不一致,将不一致的字段组装成告警信息发送给用户。
业务系统的业务数据库中存储有目标单证对应的业务单证,业务单证中含有待验证字段对应的字段值,从业务数据库中获取到与目标单证待验证字段匹配的字段的匹配字段值,将其与字段内容进行比对,比对一致时,则说明打印准确无误;比对不一致时,说明打印存在错误,将不一致的字段组装成告警信息发送给对应的业务人员进行跟进处理,以便能够及时发现并解决出现的问题,最大限度的减少投诉或纠纷。
本申请通过目标单证的单证内容及对应的位置信息,进而得到待验证字段的坐标信息,根据坐标信息使用提取方式进行字段内容提取,进一步提高目标单证内容提取的准确度;对提取到的字段内容进行验证,能够及时发现单证打印过程中出现的问题,并迅速进行处理,提高问题处理效率,保证单证打印的正确性,最大限度的减少投诉或纠纷,提升用户体验度。
在本实施例的一些可选的实现方式中,上述根据识别结果调整初始提取方式,直到提取到正确的单证内容的步骤包括:
根据识别结果与待验证字段对应的实际单证内容,计算损失值;
根据损失值调整初始提取方式,得到调整后的提取方式;
基于调整后的提取方式对历史业务单证中待验证字段对应的单证内容进行提取,直到提取到正确的单证内容。
将每个识别结果与实际单证内容进行比对,比对一致,说明识别正确,比对不一致,则说明识别不正确,进而得到识别正确数量和识别错误数量,根据识别正确数量和识别错误数量计算得到损失值,根据损失值调整初始提取方式,例如调整正则表达式的匹配表达式、坐标参照字词等,对调整后的提取方式再进行验证,直到提取的字段内容准确无误。
本申请通过对提取方式进行调整,能够避免出现识别提取错误的问题,进而提高识别准确率。
在一些可选的实现方式中,上述将字段内容与匹配字段值进行比对,得到比对结果的步骤包括:
步骤S301,分别构建字段内容与匹配字段值对应的第一字符串和第二字符串。
假设字段内容为X,构建字段内容对应的第一字符串strx,匹配字段值为Y,构建匹配字段值对应的第二字符串stry。示例的,字段内容X为保单号{13201753900178368336},则第一字符串strx=“13201753900178368336”。
步骤S302,根据第一字符串和第二字符串构建比对矩阵。
假设第一字符串的第一长度为m,第二字符串的第二长度为n,构建的比对矩阵为M(X,Y)m×n
步骤S303,根据比对矩阵计算得到比对结果。
具体的,根据第一字符串的第一长度len1和第二字符串的第二长度len2,计算匹配窗口值,匹配窗口值的计算公式如下:
基于比对矩阵和匹配窗口值,计算匹配字符数和匹配字符换位数。其中,匹配字符数s的计算:若第一字符串为strx和第二字符串为stry中相同字符相差距离小于匹配窗口值MW,则表示该字符匹配;在匹配过程中,需排除被匹配过的字符,若找到匹配字符,则需跳出此次匹配,进行下一字符的匹配,得到匹配字符集;
对于匹配字符换位数t的计算:确定第一字符串为strx和第二字符串为stry中对于匹配字符集的顺序是否一致,若不一致,则换位数目的一半即为匹配字符换位数t。
在本实施例中,匹配字符数s和匹配字符换位数t满足下述公式:
根据第一长度、第二长度、匹配字符数以及匹配字符换位数,计算字符串相似度,字符串相似度即为Jaro Distanc,计算公式如下:
确定第一字符串和第二字符串的公共前缀长度,并根据公共前缀长度和字符串相似度计算匹配度,将匹配度作为比对结果,匹配度的计算公式如下:
Sim(X,Y)=Dw=Dj+(l×p×(1-Dj))
其中,l表示第一字符串为和第二字符串的字符串公共前缀长度,但是规定最大为4;p是调整分数的常数,规定不能超过0.25,不然可能出现Dw大于1的情况,Winkler将这个常数定义为0.1。
在本实施例中,Sim(X,Y)的数值反映两个字段之间的相似程度,且数值越大表示相似程度越高,两个字段越一致。若Sim(X,Y)的值为1,则说明字段内容与匹配字段值一致,否则,字段内容与匹配字段值不一致。
本实施例通过对目标单证提取的字段内容与业务数据库中的字段值进行比较验证,能够及时发现打印错误的字段内容以进行处理,提高比对的效率,避免资源浪费。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图4,作为对上述图2所示方法的实现,本申请提供了一种单证验证装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述的单证验证装置400包括:解析模块401、获取模块402、匹配模块403、提取模块404以及验证模块405。其中:
解析模块401用于接收对目标单证的验证请求,解析所述验证请求获取目标单证,确定所述目标单证对应的单证模板;
获取模块402用于根据所述单证模板获得对应的待验证字段和处理类,所述处理类包括所述待验证字段的提取方式;
匹配模块403用于读取所述目标单证的单证内容及对应的位置信息,将所述待验证字段与所述单证内容进行关联匹配,得到所述待验证字段的坐标信息;
提取模块404用于根据所述坐标信息,按照所述提取方式从所述单证内容中提取所述待验证字段匹配的字段内容;
验证模块405用于将所述字段内容进行验证。
需要强调的是,为进一步保证目标单证的私密和安全性,上述目标单证还可以存储于一区块链的节点中。
基于上述单证验证装置,通过目标单证的单证模板得到目标单证的待验证字段,进而获得待验证字段的提取方式,能够实现不同待验证字段通过不同的提取方式进行内容提取,提高单证内容的识别准确度;通过目标单证的单证内容及对应的位置信息,进而得到待验证字段的坐标信息,根据坐标信息使用提取方式进行字段内容提取,进一步提高目标单证内容提取的准确度;对提取到的字段内容进行验证,能够及时发现单证打印过程中出现的问题,并迅速进行处理,提高问题处理效率,保证单证打印的正确性,最大限度的减少投诉或纠纷,提升用户体验度。
在本实施例的一些可选的实现方式中,单证验证装置400还包括模板配置模块,包括:
分类子模块,用于获取全部历史业务单证,根据单证类型将所述历史业务单证进行分类,得到每个所述单证类型的单证集合;
抽取子模块,用于抽取每个所述单证集合的特征字段,构成每个所述单证类型的待验证字段;
模板生成子模块,用于接收用户输入的配置信息,根据所述配置信息和所述待验证字段生成对应的单证模板,并将所述单证模板存储于预设的模板数据库内。
通过接收的配置信息配置单证模板,可以提高单证模板的生成效率。
在本实施例的一些可选的实现方式中,单证验证装置400还包括提取方式配置模块,包括:
坐标获取子模块,用于获取所述待验证字段在每个所述历史业务单证中的文字内容和对应的坐标位置;
获得子模块,用于根据所述坐标位置得到所述文字内容的位置属性;
配置子模块,用于基于所述位置属性为所述单证模板配置对应的处理类,所述处理类中包括所述待验证字段的初始提取方式;
提取子模块,用于根据所述坐标位置,按照所述初始提取方式从所述历史业务单证中提取所述待验证字段对应的单证内容,得到识别结果;
调整子模块,用于根据所述识别结果调整所述初始提取方式,直到提取到正确的所述单证内容,得到所述待验证字段最终的提取方式。
通过对不同的待验证字段配置相应的提取方式,能够提高字段内容的提取效率和准确率。
在一些可选的实现方式中,调整子模块进一步用于:
根据所述识别结果与所述待验证字段对应的实际单证内容,计算损失值;
根据所述损失值调整所述初始提取方式,得到调整后的提取方式;
基于所述调整后的提取方式对所述历史业务单证中所述待验证字段对应的单证内容进行提取,直到提取到正确的所述单证内容。
通过对提取方式进行调整,能够避免出现识别提取错误的问题,进而提高识别准确率。
在一些可选的实现方式中,验证模块405包括:
获取子模块,用于获取所述目标单证的单证标识对应的业务单证,获取所述业务单证中与所述待验证字段对应的匹配字段的匹配字段值;
比对子模块,用于将所述字段内容与所述匹配字段值进行比对,得到比对结果;
判断子模块,用于根据所述比对结果判断所述字段内容与所述匹配字段值是否一致;若一致,则所述目标单证验证通过;若不一致,将不一致的字段组装成告警信息发送给用户。
本实施例能够及时发现并解决出现的问题,最大限度的减少投诉或纠纷。
在本实施例的一些可选的实现方式中,比对子模块包括:
构建单元,用于分别构建所述字段内容与所述匹配字段值对应的第一字符串和第二字符串;
矩阵单元,用于根据所述第一字符串和所述第二字符串构建比对矩阵;
比对计算单元,用于根据所述比对矩阵计算得到比对结果。
在本实施例中,比对计算单元进一步用于:
根据所述第一字符串的第一长度和所述第二字符串的第二长度,计算匹配窗口值;
基于所述比对矩阵和所述匹配窗口值,计算匹配字符数和匹配字符换位数;
根据所述第一长度、所述第二长度、所述匹配字符数以及所述匹配字符换位数,计算字符串相似度;
确定所述第一字符串和所述第二字符串的公共前缀长度,并根据所述公共前缀长度和所述字符串相似度计算匹配度,将所述匹配度作为所述比对结果。
通过对目标单证提取的字段内容与业务数据库中的字段值进行比较验证,能够及时发现打印错误的字段内容以进行处理,提高比对的效率,避免资源浪费。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
所述计算机设备5包括通过系统总线相互通信连接存储器51、处理器52、网络接口53。需要指出的是,图中仅示出了具有组件51-53的计算机设备5,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器51至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器51可以是所述计算机设备5的内部存储单元,例如该计算机设备5的硬盘或内存。在另一些实施例中,所述存储器51也可以是所述计算机设备5的外部存储设备,例如该计算机设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中,所述存储器51通常用于存储安装于所述计算机设备5的操作系统和各类应用软件,例如单证验证方法的计算机可读指令等。此外,所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中,所述处理器52用于运行所述存储器51中存储的计算机可读指令或者处理数据,例如运行所述单证验证方法的计算机可读指令。
所述网络接口53可包括无线网络接口或有线网络接口,该网络接口53通常用于在所述计算机设备5与其他电子设备之间建立通信连接。
本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例单证验证方法的步骤,通过目标单证的单证模板得到目标单证的待验证字段,进而获得待验证字段的提取方式,能够实现不同待验证字段通过不同的提取方式进行内容提取,提高单证内容的识别准确度;通过目标单证的单证内容及对应的位置信息,进而得到待验证字段的坐标信息,根据坐标信息使用提取方式进行字段内容提取,进一步提高目标单证内容提取的准确度;对提取到的字段内容进行验证,能够及时发现单证打印过程中出现的问题,并迅速进行处理,提高问题处理效率,保证单证打印的正确性,最大限度的减少投诉或纠纷,提升用户体验度。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的单证验证方法的步骤,通过目标单证的单证模板得到目标单证的待验证字段,进而获得待验证字段的提取方式,能够实现不同待验证字段通过不同的提取方式进行内容提取,提高单证内容的识别准确度;通过目标单证的单证内容及对应的位置信息,进而得到待验证字段的坐标信息,根据坐标信息使用提取方式进行字段内容提取,进一步提高目标单证内容提取的准确度;对提取到的字段内容进行验证,能够及时发现单证打印过程中出现的问题,并迅速进行处理,提高问题处理效率,保证单证打印的正确性,最大限度的减少投诉或纠纷,提升用户体验度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种单证验证方法,其特征在于,包括下述步骤:
接收对目标单证的验证请求,解析所述验证请求获取目标单证,确定所述目标单证对应的单证模板;
根据所述单证模板获得对应的待验证字段和处理类,所述处理类包括所述待验证字段的提取方式;
读取所述目标单证的单证内容及对应的位置信息,将所述待验证字段与所述单证内容进行关联匹配,得到所述待验证字段的坐标信息;
根据所述坐标信息,按照所述提取方式从所述单证内容中提取所述待验证字段匹配的字段内容;
将所述字段内容进行验证。
2.根据权利要求1所述的单证验证方法,其特征在于,在所述接收对目标单证的验证请求的步骤之前还包括:
获取全部历史业务单证,根据单证类型将所述历史业务单证进行分类,得到每个所述单证类型的单证集合;
抽取每个所述单证集合的特征字段,构成每个所述单证类型的待验证字段;
接收用户输入的配置信息,根据所述配置信息和所述待验证字段生成对应的单证模板,并将所述单证模板存储于预设的模板数据库内。
3.根据权利要求2所述的单证验证方法,其特征在于,在所述根据所述配置信息和所述待验证字段生成对应的单证模板的步骤之后还包括:
获取所述待验证字段在每个所述历史业务单证中的文字内容和对应的坐标位置;
根据所述坐标位置得到所述文字内容的位置属性;
基于所述位置属性为所述单证模板配置对应的处理类,所述处理类中包括所述待验证字段的初始提取方式;
根据所述坐标位置,按照所述初始提取方式从所述历史业务单证中提取所述待验证字段对应的单证内容,得到识别结果;
根据所述识别结果调整所述初始提取方式,直到提取到正确的所述单证内容,得到所述待验证字段最终的提取方式。
4.根据权利要求3所述的单证验证方法,其特征在于,所述根据所述识别结果调整所述初始提取方式,直到提取到正确的所述单证内容的步骤包括:
根据所述识别结果与所述待验证字段对应的实际单证内容,计算损失值;
根据所述损失值调整所述初始提取方式,得到调整后的提取方式;
基于所述调整后的提取方式对所述历史业务单证中所述待验证字段对应的单证内容进行提取,直到提取到正确的所述单证内容。
5.根据权利要求1所述的单证验证方法,其特征在于,所述将所述字段内容进行验证的步骤包括:
获取所述目标单证的单证标识对应的业务单证,获取所述业务单证中与所述待验证字段对应的匹配字段的匹配字段值;
将所述字段内容与所述匹配字段值进行比对,得到比对结果;
根据所述比对结果判断所述字段内容与所述匹配字段值是否一致;
若一致,则所述目标单证验证通过;
若不一致,将不一致的字段组装成告警信息发送给用户。
6.根据权利要求5所述的单证验证方法,其特征在于,所述将所述字段内容与所述匹配字段值进行比对,得到比对结果的步骤包括:
分别构建所述字段内容与所述匹配字段值对应的第一字符串和第二字符串;
根据所述第一字符串和所述第二字符串构建比对矩阵;
根据所述比对矩阵计算得到比对结果。
7.根据权利要求6所述的单证验证方法,其特征在于,所述根据所述比对矩阵计算得到比对结果的步骤包括:
根据所述第一字符串的第一长度和所述第二字符串的第二长度,计算匹配窗口值;
基于所述比对矩阵和所述匹配窗口值,计算匹配字符数和匹配字符换位数;
根据所述第一长度、所述第二长度、所述匹配字符数以及所述匹配字符换位数,计算字符串相似度;
确定所述第一字符串和所述第二字符串的公共前缀长度,并根据所述公共前缀长度和所述字符串相似度计算匹配度,将所述匹配度作为所述比对结果。
8.一种单证验证装置,其特征在于,包括:
解析模块,用于接收对目标单证的验证请求,解析所述验证请求获取目标单证,确定所述目标单证对应的单证模板;
获取模块,用于根据所述单证模板获得对应的待验证字段和处理类,所述处理类包括所述待验证字段的提取方式;
匹配模块,用于读取所述目标单证的单证内容及对应的位置信息,将所述待验证字段与所述单证内容进行关联匹配,得到所述待验证字段的坐标信息;
提取模块,用于根据所述坐标信息,按照所述提取方式从所述单证内容中提取所述待验证字段匹配的字段内容;
验证模块,用于将所述字段内容进行验证。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的单证验证方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的单证验证方法的步骤。
CN202311085008.8A 2023-08-25 2023-08-25 一种单证验证方法、装置、计算机设备及存储介质 Pending CN117133006A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311085008.8A CN117133006A (zh) 2023-08-25 2023-08-25 一种单证验证方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311085008.8A CN117133006A (zh) 2023-08-25 2023-08-25 一种单证验证方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN117133006A true CN117133006A (zh) 2023-11-28

Family

ID=88854048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311085008.8A Pending CN117133006A (zh) 2023-08-25 2023-08-25 一种单证验证方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN117133006A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117542067A (zh) * 2023-12-18 2024-02-09 北京长河数智科技有限责任公司 一种基于视觉识别的区域标注表单识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117542067A (zh) * 2023-12-18 2024-02-09 北京长河数智科技有限责任公司 一种基于视觉识别的区域标注表单识别方法

Similar Documents

Publication Publication Date Title
CN113326991B (zh) 自动授权方法、装置、计算机设备及存储介质
CN113127633B (zh) 智能会议管理方法、装置、计算机设备及存储介质
CN112330331A (zh) 基于人脸识别的身份验证方法、装置、设备及存储介质
CN112966304A (zh) 流程文档的防篡改方法、装置、计算机设备及介质
CN117133006A (zh) 一种单证验证方法、装置、计算机设备及存储介质
CN114493255A (zh) 基于知识图谱的企业异常监控方法及其相关设备
CN116453125A (zh) 基于人工智能的数据录入方法、装置、设备及存储介质
CN115758451A (zh) 基于人工智能的数据标注方法、装置、设备及存储介质
CN113988223B (zh) 证件图像识别方法、装置、计算机设备及存储介质
CN116860856A (zh) 一种财务数据处理方法、装置、计算机设备及存储介质
CN111639360A (zh) 智能数据脱敏方法、装置、计算机设备及存储介质
CN114330240A (zh) Pdf文档解析方法、装置、计算机设备及存储介质
CN116956326A (zh) 权限数据的处理方法、装置、计算机设备及存储介质
CN117217684A (zh) 指标数据的处理方法、装置、计算机设备及存储介质
CN117195886A (zh) 基于人工智能的文本数据处理方法、装置、设备及介质
CN116704528A (zh) 票据识别核验方法、装置、计算机设备及存储介质
CN116860805A (zh) 数据处理方法、装置、计算机设备及存储介质
CN115545753A (zh) 一种基于贝叶斯算法的合作伙伴预测方法及相关设备
CN114912003A (zh) 文档搜索方法、装置、计算机设备及存储介质
CN112085469B (zh) 基于向量机模型的数据审批方法、装置、设备及存储介质
CN115378806A (zh) 流量分配方法、装置、计算机设备及存储介质
CN112395450A (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN112396111A (zh) 文本意图分类方法、装置、计算机设备及存储介质
CN114359928B (zh) 一种电子发票识别方法、装置、计算机设备及存储介质
CN114820211B (zh) 理赔资料质检核验方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination