CN114708600A - 单证审核方法、装置、计算机设备和存储介质 - Google Patents

单证审核方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114708600A
CN114708600A CN202210377751.XA CN202210377751A CN114708600A CN 114708600 A CN114708600 A CN 114708600A CN 202210377751 A CN202210377751 A CN 202210377751A CN 114708600 A CN114708600 A CN 114708600A
Authority
CN
China
Prior art keywords
document
auditing
text content
elements
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210377751.XA
Other languages
English (en)
Inventor
曾杰
齐蓉
王虹
谭均昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210377751.XA priority Critical patent/CN114708600A/zh
Publication of CN114708600A publication Critical patent/CN114708600A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种单证审核方法、装置、计算机设备、存储介质和计算机程序产品,可用于人工智能技术领域。所述方法包括:获取待审核单证的单证影像和单证类型;提取所述单证影像的文本内容;在所述文本内容满足预设置信度的情况下,根据与所述单证类型对应的单证要素识别模型,提取所述文本内容中的单证要素;根据与所述单证要素对应的单证要素审核模型,对所述单证要素进行审核,得到对所述待审核单证的审核结果。采用本方法,能够提高单证审核效率。

Description

单证审核方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种单证审核方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
单证审核是指依据“单证一致”、“单单一致”的原则,对客户提交的单证(比如国际单证)中的单证要素进行审核,以判断单证的真实性。
传统技术中,在对单证进行审核时,一般是通过人工提取单证中的关键字段,然后对关键字段进行审核,以判断单证的真实性;但是,通过人工审核单证,过程比较繁琐,导致单证审核效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高单证审核效率的单证审核方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种单证审核方法。所述方法包括:
获取待审核单证的单证影像和单证类型;
提取所述单证影像的文本内容;
在所述文本内容满足预设置信度的情况下,根据与所述单证类型对应的单证要素识别模型,提取所述文本内容中的单证要素;
根据与所述单证要素对应的单证要素审核模型,对所述单证要素进行审核,得到对所述待审核单证的审核结果。
在其中一个实施例中,所述在所述文本内容满足预设置信度的情况下,根据与所述单证类型对应的单证要素识别模型,提取所述文本内容中的单证要素,包括:
在所述文本内容满足预设置信度的情况下,对所述单证类型进行验证;
在所述单证类型验证通过的情况下,获取与所述单证类型对应的单证要素识别模型;
通过所述单证要素识别模型,从所述文本内容中,提取出与所述单证类型对应的单证要素。
在其中一个实施例中,所述对所述单证类型进行验证,包括:
通过与所述单证类型对应的单证类型识别模型,对所述文本内容中的单证类型要素进行识别;
在所述文本内容中的单证类型要素为所述单证类型的情况下,确认所述单证类型验证通过。
在其中一个实施例中,所述单证要素识别模型通过下述方式训练得到:
获取样本数据;所述样本数据包括样本单证要素和所述样本单证要素在样本单证影像中的位置信息;
根据所述样本数据,对待训练的单证要素识别模型进行训练,直达达到训练结束条件;
将达到所述训练结束条件的训练后的单证要素识别模型,确定为训练完成的单证要素识别模型。
在其中一个实施例中,所述根据与所述单证要素对应的单证要素审核模型,对所述单证要素进行审核,得到对所述待审核单证的审核结果,包括:
根据与所述单证要素对应的单证要素审核模型,对所述单证要素进行审核,得到各所述单证要素对应的审核结果;
根据各所述单证要素对应的审核结果,确定对所述待审核单证的审核结果。
在其中一个实施例中,在所述文本内容满足预设置信度的情况下,根据与所述单证类型对应的单证要素识别模型,提取所述文本内容中的单证要素之前,还包括:
获取所述文本内容中各行内容对应的置信度;
确定所述各行内容对应的置信度的平均值,作为所述文本内容对应的置信度;
在所述文本内容对应的置信度大于预设置信度的情况下,确定所述文本内容满足所述预设置信度。
第二方面,本申请还提供了一种单证审核装置。所述装置包括:
类型获取模快,用于获取待审核单证的单证影像和单证类型;
内容提取模块,用于提取所述单证影像的文本内容;
要素提取模块,用于在所述文本内容满足预设置信度的情况下,根据与所述单证类型对应的单证要素识别模型,提取所述文本内容中的单证要素;
单证审核模块,用于根据与所述单证要素对应的单证要素审核模型,对所述单证要素进行审核,得到对所述待审核单证的审核结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待审核单证的单证影像和单证类型;
提取所述单证影像的文本内容;
在所述文本内容满足预设置信度的情况下,根据与所述单证类型对应的单证要素识别模型,提取所述文本内容中的单证要素;
根据与所述单证要素对应的单证要素审核模型,对所述单证要素进行审核,得到对所述待审核单证的审核结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待审核单证的单证影像和单证类型;
提取所述单证影像的文本内容;
在所述文本内容满足预设置信度的情况下,根据与所述单证类型对应的单证要素识别模型,提取所述文本内容中的单证要素;
根据与所述单证要素对应的单证要素审核模型,对所述单证要素进行审核,得到对所述待审核单证的审核结果。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待审核单证的单证影像和单证类型;
提取所述单证影像的文本内容;
在所述文本内容满足预设置信度的情况下,根据与所述单证类型对应的单证要素识别模型,提取所述文本内容中的单证要素;
根据与所述单证要素对应的单证要素审核模型,对所述单证要素进行审核,得到对所述待审核单证的审核结果。
上述单证审核方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待审核单证的单证影像和单证类型;然后提取单证影像的文本内容;并在文本内容满足预设置信度的情况下,根据与单证类型对应的单证要素识别模型,提取文本内容中的单证要素;最后根据与单证要素对应的单证要素审核模型,对单证要素进行审核,得到对待审核单证的审核结果;这样,实现了自动提取文本内容中的单证要素,并对文本内容中的单证要素进行审核的目的,整个过程无需人工参与,从而简化了单证审核过程,节约了大量时间,从而提高了单证审核效率。
附图说明
图1为一个实施例中单证审核方法的流程示意图;
图2为一个实施例中提取文本内容中的单证要素的步骤的流程示意图;
图3为另一个实施例中单证审核方法的流程示意图;
图4为一个实施例中基于规则模型的智能审单装置的结构框图;
图5为一个实施例中智能审单装置中各功能模块的处理流程图;
图6为一个实施例中单证审核装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种单证审核方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S101,获取待审核单证的单证影像和单证类型。
其中,待审核单证是指需要经过审核的纸质单证,比如国际单证。国际单证是指国际结算中使用的单据、证书与文件,可以划分为合同协议、申请书、委托书、单据、证书等;单据可以划分为海运提单、空运提单、装箱单、商业发票、保险单等。
其中,单证影像是指待审核单证所对应的电子影像,是通过对纸质形式的待审核单证进行扫描得到。
其中,单证类型是指待审核单证所属的类型,比如合同协议、申请书、委托书、单据、证书。一般情况下,合同协议、申请书、委托书、单据、证书是指单证大类,合同协议、申请书、委托书、单据、证书进一步划分得到的类型是指单证小类,比如针对单据,单证小类为海运提单、空运提单、装箱单、商业发票、保险单。
具体地,终端响应于对待审核单证的操作请求,获取待审核单证的单证影像和单证类型,根据待审核单证的单证影像和单证类型,生成单证审核请求,并将单证审核请求发送至对应的服务器;服务器对接收到的单证审核请求进行解析,得到待审核单证的单证影像和单证类型。
举例说明,业务人员将客户提交的需要审核的纸质单证扫描成电子形式的单证影像,并分别将不同单证类型的单证影像进行单独打包,然后在单证审核系统中提交审核请求,以上传不同单证类型的单证影像;单证审核系统按照不同单证类型的单证影像,自动生成不同的影像批次号,并分别存储在关系型数据库的审核请求信息表中;关系型数据库的审核请求信息表中记录了审核请求编号、影像批次号、单证大类、单证小类等属性信息。主控节点实时扫描关系型数据库中的审核请求信息表,获取状态为“待审核”的审核任务;根据任务节点上报的闲忙情况,将审核任务分配给最闲的任务节点,由审核节点根据审核任务获取待审核单证的单证影像和单证类型,并将该笔审核任务的状态调整为“审核中”。
需要说明的是,各任务节点独立并行运行,可有效提升单证的审核效率;同时可根据业务需求量变化进行横向扩展或者缩容,提高设备的利用率。
步骤S102,提取单证影像的文本内容。
其中,文本内容是指单证影像上所呈现出的文本内容。
具体地,服务器通过OCR(Optical Character Recognition,光学字符识别)技术,对单证影像进行逐行提取,得到单证影像对应的文本内容。
进一步地,服务器还可以对单证影像进行降噪去干扰处理,得到处理后的单证影像;比如,服务器去除原始单证影像中的底纹、背景等噪音信息,仅将原始单证影像中的文字区域进行保留,得到降噪后的单证图像;再将降噪后的单证图像进行二值化处理,得到二值化图像;最后将二值化图像进行去噪点和干扰线处理,排除其对文字区域的干扰,得到去干扰后的单证图像,作为处理后的单证影像。接着,服务器通过光学字符识别技术,对处理后的单证影像进行逐行提取,得到单证影像对应的文本内容。
举例说明,服务器通过光学字符识别技术,逐行提取单证影像的文本内容;识别结果中包含文本内容在单证影像中的坐标信息和文本内容的置信度,坐标信息是以单证影像的左上角为原点。由于光学字符识别技术识别出的文本内容的准确度对后续的智能核验起着关键作用,而某些单证影像由于水印、底纹、扫描质量又会影响光学字符识别技术的识别准确度。因此需要判断是否需要对单证影像进行降噪去干扰或者重新扫描上传处理。服务器会计算出识别结果的平均置信度,该值的计算方法为先求取文本内容所有行数的置信度的总和,再除以总行数;若平均置信度大于规定阈值,则对文本内容进行智能核验;反之,判断是否已做过降噪去干扰处理,若是,则直接停止该笔审核请求,同时将该请求的状态调整为“审核失败”,失败原因为影像质量不满足要求,并发送邮件提醒业务人员重新扫描影像上传;若否,则对单证影像进行降噪去干扰处理,并利用光学字符识别技术,对处理后的单证影像进行逐行提取,得到单证影像对应的文本内容。
步骤S103,在文本内容满足预设置信度的情况下,根据与单证类型对应的单证要素识别模型,提取文本内容中的单证要素。
其中,文本内容满足预设置信度,是指对文本内容的识别准确度满足要求,可以进行后续的单证审核过程。
其中,不同单证类型所需要提取的单证要素不一样,比如针对海运单,所需要提取的单证要素为类型、提单号、装货港、卸货港、船名、集装箱号、承运人、船公司、装船日期等。不同单证要素,对应不同的单证要素识别模型,比如提单号对应提单号识别模型,装货港对应装货港识别模型等。
其中,单证要素识别模型是一种用于从单证影像的文本内容中识别并提取出对应的单证要素的模型,主要采用自然语言处理技术。
需要说明的是,以往是针对不同类型的单证,定制对应OCR识别的版式类型,审单人员将单证影像分配至对应的版式通道,系统根据事先定义好的版式识别对应位置文本信息,并提取要素,获取对应影像的字段,并展示至系统中,累积到一定笔数或一定时间后系统自动通知审单员进行审核;但是,由于单证类型众多,即使是相同类型单证,不同国家、不同公司的版式也不尽相同;因此现有的智能审单技术还经常需要根据单证版式变化修改对应的版式定义,可扩展性和自适应性较差,无法完全解放审单人员。
具体地,服务器判断文本内容对应的置信度是否满足预设置信度,在文本内容对应的置信度满足预设置信度的情况下,从单证类型与待提取单证要素的对应关系中,确定该单证类型对应的待提取单证要素;从单证要素与单证要素识别模型的对应关系中,确定待提取单证要素对应的单证要素识别模型,作为与单证类型对应的单证要素识别模型;通过与单证类型对应的单证要素识别模型,从单证影像的文本内容中,提取出对应的单证要素。
步骤S104,根据与单证要素对应的单证要素审核模型,对单证要素进行审核,得到对待审核单证的审核结果。
其中,单证要素审核模型是指用于审核单证要素对应的真实性的模型,不同单证要素,对应不同的单证要素审核模型。比如提单号对应提单号审核模型,装货港对应装货港审核模型等。
具体地,服务器根据单证要素,查询单证要素与单证要素审核模型的对应关系,确定与单证要素对应的单证要素审核模型;根据与单证要素对应的单证要素审核模型,对提取出的单证要素进行审核,以判断单证要素的真实性,得到对单证要素的审核结果;根据对单证要素的审核结果,确定对待审核单证的审核结果。
进一步地,针对审核不通过的单证,可通过人工进行复核,以进一步判断单证的真实性。
上述单证验证方法中,通过获取待审核单证的单证影像和单证类型;然后提取单证影像的文本内容;并在文本内容满足预设置信度的情况下,根据与单证类型对应的单证要素识别模型,提取文本内容中的单证要素;最后根据与单证要素对应的单证要素审核模型,对单证要素进行审核,得到对待审核单证的审核结果;这样,实现了自动提取文本内容中的单证要素,并对文本内容中的单证要素进行审核的目的,整个过程无需人工参与,从而简化了单证审核过程,节约了大量时间,从而提高了单证审核效率。
在一个实施例中,如图3所示,上述步骤S103,在文本内容满足预设置信度的情况下,根据与单证类型对应的单证要素识别模型,提取文本内容中的单证要素,具体包括如下步骤:
步骤S201,在文本内容满足预设置信度的情况下,对单证类型进行验证。
步骤S202,在单证类型验证通过的情况下,获取与单证类型对应的单证要素识别模型。
步骤S203,通过单证要素识别模型,从文本内容中,提取出与单证类型对应的单证要素。
具体地,服务器对文本内容的置信度进行识别,在文本内容的置信度满足预设置信度的情况下,根据单证类型验证指令,对单证类型进行验证,得到验证结果;根据验证结果,确定单证类型验证通过,则确定单证类型对应的待提取单证要素,并确定待提取单证要素对应的单证要素识别模型,作为与单证类型对应的单证要素识别模型;通过单证要素识别模型,从文本内容中提取出对应的单证要素,作为与单证类型对应的单证要素。
举例说明,假设待审核单证的单证类型为海运单,且经过验证之后,该待审核单证确实为海运单,则确认待审核单证的单证类型验证通过;接着,服务器从规则库中获取海运单对应的判断规则,再根据该判断规则从待审核单证的单证影像对应的文本内容中,提取出海运单所需的单证要素。
本实施例中,在文本内容满足预设置信度,且单证类型验证通过的情况下,通过与单证类型对应的单证要素识别模型,从单证影像对应的文本内容中,提取出与单证类型对应的单证要素;这样,通过对文本内容和单证类型进行验证,有利于提高单证要素的提取准确度;同时,只需对预先确定的单证类型进行验证,而无需通过遍历各种单证类型,来确定待审核单证对应的类型,有利于提高后续的单证审核效率。
在一个实施例中,上述步骤S201,对单证类型进行验证,具体包括:通过与单证类型对应的单证类型识别模型,对文本内容中的单证类型要素进行识别;在文本内容中的单证类型要素为单证类型的情况下,确认单证类型验证通过。
其中,单证类型识别模型是一种用于验证单证类型的模型。
其中,单证类型要素是指文本内容中能够表征单证类型的单证要素,比如海运单类型要素。需要说明的是,单证要素有多个,单证类型要素只是其中的一个。
具体地,服务器对文本内容进行识别,得到文本内容中的单证类型要素;调用与单证类型对应的单证类型识别模型,对文本内容中的单证类型要素进行识别,以判断文本内容中的单证类型要素是否为待审核单证对应的单证类型;在文本内容中的单证类型要素为待审核单证对应的单证类型的情况下,确认单证类型验证通过。比如,假设待审核单证的单证类型为海运单,且文本内容中的单证类型要素也为海运单类型要素,则确认单证类型验证通过。
举例说明,步骤1):服务器根据预分拣的结果,获取对应类型的规则,以海运单为例,则是先获取单据+海运单类型的规则。步骤2):服务器遍历所提取出的影像字段,根据规则筛选处所需的单证要素;该规则存储在关系型数据库中,业务人员可通过系统灵活调整。以海运单为例,先查看类型要素,调用海运单类型识别API(Application ProgrammingInterface,应用程序接口),标签字段(包括文本内容和坐标值)为该API的上送参数,API会自动调用海运单类型识别模型,该模型是基于NLP(Natural Language Processing,自然语言处理)自学习实现,API的返回结果中会返回真或假,若返回真,则进行步骤3),若标签字段值都返回假,则说明该影像不是海运提单,系统会先按单据的其他类型规则逐个判断,若是对应类型的影像,则按照该规则进行核验,若找不到匹配的,则使用“合同协议”等其他类型的规则进行识别,若所有规则都无法匹配上,则将该笔审核任务的状态调整为识别失败,同时通过邮件通知对应的业务人员,需要其通过“审核结果反馈模块”反馈。步骤3):服务器根据规则提取完所需的要素,并按照该要素所需核验的规则进行比对,如海运单的“提单号”要素,需根据“提单号”调用对应的质检API,判断提单的真实性,返回真假。步骤4):服务器遍历各要素的核验结果,只要有一个为假,则核验不通过,反之核验通过。
本实施例中,通过与单证类型对应的单证类型识别模型,对文本内容中的单证类型要素进行识别,有利于对单证类型进行有效验证,避免了初始确定的单证类型出现错误的缺陷;同时,通过对单证类型进行验证,可以保证后续提取出的单证要素的准确度,进一步提高了单证要素的提取准确度。
在一个实施例中,单证要素识别模型通过下述方式训练得到:获取样本数据;样本数据包括样本单证要素和样本单证要素在样本单证影像中的位置信息;根据样本数据,对待训练的单证要素识别模型进行训练,直达达到训练结束条件;将达到训练结束条件的训练后的单证要素识别模型,确定为训练完成的单证要素识别模型。
其中,样本单证影像是指标注有样本单证要素和样本单证要素的位置信息的单证影像。
其中,训练结束条件是指单证要素识别模型达到收敛、单证要素识别模型的训练次数达到预设训练次数等。
具体地,服务器获取样本单证影像中的样本单证要素和样本单证要素在样本单证影像中的位置信息,作为样本数据;根据样本数据,对待训练的单证要素识别模型进行迭代训练,直到训练后的单证要素识别模型达到收敛,则停止训练,并将该训练后的单证要素识别模型,作为训练完成的单证要素识别模型。进一步地,服务器使用验证集的样本数据,在训练完成的单证要素识别模型上进行预测,验证单证要素识别模型的预测准确率是否满足要求,若不满足要求,则再进行迭代调优。
举例说明,针对提运单提单号的识别模型,其具体训练步骤如下:步骤1):第一个版本的识别模型的样本数据来自于存量数据,从历史提运单影像中提取出提单号字段数据,包括文本内容和文本内容在影像中的坐标位置这两个特征。后续优化的样本数据则通过审核人员反馈自动加入至训练集中。步骤2):处理样本数据,对样本数据的特征值做特征降维、特征空值处理、目标值转换处理。对特征值做打标签处理,如“B/L No(0,0,150,150)”、“B/L No(600,0,780,130)”标记为提单号;坐标中的位置为以影像左上角为坐标原点,前两位代表左上角位置,后两位代表右下角位置。步骤3):模型训练,需要使用NLP做语义分析。FastText是当前业界主流的NLP训练模型,因此选择FastText模型。将一个词输入FastText模型,根据训练的结果,输出这个词所属不同标签的结果,结果只为真或假。步骤4):模型评估:使用验证集的样本在训练好的模型上进行预测,验证模型的预测准确率是否满足要求,若不满足要求,则再进行迭代调优。
本实施例中,根据样本数据,对待训练的单证要素识别模型进行迭代训练,得到训练完成的单证要素识别模型,使得通过单证要素识别模型识别出的单证要素更加准确,进一步提高了单证要素的提取准确度,从而提高了后续的单证要素验证准确度。
在一个实施例中,上述步骤S104,根据与单证要素对应的单证要素审核模型,对单证要素进行审核,得到对待审核单证的审核结果,具体包括:根据与单证要素对应的单证要素审核模型,对单证要素进行审核,得到各单证要素对应的审核结果;根据各单证要素对应的审核结果,确定对待审核单证的审核结果。
具体地,服务器根据与单证要素对应的单证要素审核模型,对单证要素进行审核,得到每个单证要素对应的审核结果;审核结果为真或者假;若所有单证要素对应的审核结果中,有一个单证要素对应的审核结果为假,则确认待审核单证审核不通过;若所有单证要素对应的审核结果均为真,则确认待审核单证审核通过。
举例说明,针对海运单,若类型、提单号、装货港、卸货港、船名、集装箱号、承运人、船公司、装船日期等这些单证要素对应的审核结果均为真,则确认该海运单审核通过;反之,则确认该海运单审核不通过。
本实施例中,根据与单证要素对应的单证要素审核模型,对单证要素进行审核,得到各单证要素对应的审核结果,并根据各单证要素对应的审核结果,确定对待审核单证的审核结果;这样,通过利用各单证要素对应的单证要素审核模型,并综合考虑各单证要素对应的审核结果,有利于提高对待审核单证的审核结果的确定准确率,进而提高了单证审核准确率。
在一个实施例中,上述步骤S103,在文本内容满足预设置信度的情况下,根据与单证类型对应的单证要素识别模型,提取文本内容中的单证要素之前,还包括:获取文本内容中各行内容对应的置信度;确定各行内容对应的置信度的平均值,作为文本内容对应的置信度;在文本内容对应的置信度大于预设置信度的情况下,确定文本内容满足预设置信度。
其中,各行内容对应的置信度,用于表征各行内容对应的识别准确度。
其中,文本内容对应的置信度,用于表征文本内容对应的识别准确度。
具体地,服务器通过光学字符识别技术,获取文本内容中各行内容对应的置信度;将文本内容中各行内容对应的置信度进行相加,得到文本内容对应的置信度总和;将文本内容对应的置信度总和与文本内容的行数进行相除,得到文本内容中各行内容对应的置信度的平均值,作为文本内容对应的置信度;将文本内容对应的置信度与预设置信度进行比较,若文本内容对应的置信度大于预设置信度,则确定文本内容满足预设置信度。
进一步地,若文本内容对应的置信度小于或者等于预设置信度,则确定文本内容不满足预设置信度,需要对单证影像进行降噪去干扰或者重新扫描上传处理。
本实施例中,通过将文本内容中各行内容对应的置信度的平均值与预设置信度进行比较,可以有效判断文本内容是否满足预设置信度,有利于准确判断识别出的文本内容是否符合要求,避免了识别出的文本内容不符合要求,导致单证审核准确度较低的缺陷。
在一个实施例中,如图3所示,提供了另一种单证审核方法,以该方法应用于服务器为例进行说明,包括以下步骤:
步骤S301,获取待审核单证的单证影像和单证类型。
步骤S302,提取单证影像的文本内容。
步骤S303,获取文本内容中各行内容对应的置信度;确定各行内容对应的置信度的平均值,作为文本内容对应的置信度。
步骤S304,在文本内容对应的置信度大于预设置信度的情况下,确定文本内容满足预设置信度。
步骤S305,通过与单证类型对应的单证类型识别模型,对文本内容中的单证类型要素进行识别;在文本内容中的单证类型要素为单证类型的情况下,确认单证类型验证通过。
步骤S306,获取与单证类型对应的单证要素识别模型;通过单证要素识别模型,从文本内容中,提取出与单证类型对应的单证要素。
步骤S307,根据与单证要素对应的单证要素审核模型,对单证要素进行审核,得到各单证要素对应的审核结果;根据各单证要素对应的审核结果,确定对待审核单证的审核结果。
上述单证验证方法中,这样,实现了自动提取文本内容中的单证要素,并对文本内容中的单证要素进行审核的目的,整个过程无需人工参与,从而简化了单证审核过程,节约了大量时间,从而提高了单证审核效率。同时,通过对文本内容和单证类型进行验证,并利用单证要素识别模型和单证要素审核模型,有利于提高单证审核准确度。
在一个实施例中,为了更清晰阐明本申请实施例提供的单证验证方法,以下以一个具体的实施例对该单证验证方法进行具体说明。在一个实施例中,本申请还提供了一种基于规则模型的智能审单方法,借助自然语言处理技术,构建一个可自学习的规则库,实现对不同单证版式的自适应学习,在通过光学字符识别技术提取单证要素时,无需事先人工定义对应单证版式的识别模型,解决了半自动化审单技术的可扩展性、自适应能力弱的问题,有效扩展了可识别的单证范围,同时大大提升了审单效率,有效减轻人力成本。具体包括以下内容:
图4提供了一种基于规则模型的智能审单装置。根据图4,基于规则模型的智能审单装置包括审核请求提交模块、审核结果反馈模块、审核任务分配模块、影像文本提取模块、智能核验模块、规则库自学习模块。其中,审核请求提交模块、审核结果反馈模块为前台操作模块,即业务人员操作时使用的模块,对于最后审核状态为“未知”的请求,系统会提醒业务人员进行核对反馈,针对OCR识别出来的内容与实际单证的内容进行比对,业务人员重新标注该影像的特征值,反馈至样本数据中。规则库自学习模块定时获取最新样本数据进行迭代学习,优化规则模型。后台主从处理模块为主从架构,主节点进行任务分配,从节点进行单据审核,审核的规则通过规则库自学习模块获取。
举例说明,客户将所需的单证提交给对应的金融机构,机构前台业务人员将纸质单据扫描成电子影像,业务人员根据这些单证的类型分别打包成电子影像上传至系统中,一个业务类型的影像产生一个影像批次号,这些不同的影像下挂在同一笔单证审核请求下,该审核请求添加至待待审核队列中。系统主控节点会实时扫描待审核队列,获取需要审核的业务请求,同时根据任务节点上报的闲忙情况,将审核任务分配给最闲的任务节点,并将该笔请求状态调整为审核中。任务节点根据请求编号获取对应的影像列表,先通过OCR识别出对应影像的文本内容,OCR识别是按行识别,识别的内容除包含文本内容外还包括该内容在影像中的坐标,即该行在影像中的左上角和右下角位置。在识别出文本内容之后,再根据业务提交的单证类型从规则库中选取对应规则,通过该规则对识别出的文本进行审核处理。
图5提供了一种智能审单装置中各功能模块的处理流程图。参考图5,各功能模块的具体处理过程如下:
审核请求提交模块:主要是业务人员将客户提交需审核的单证单证转换成电子影像,并形成一笔审核请求,在系统中流转。
审核任务分配模块:主控节点实时扫描关系型数据库中的审核请求信息表,获取状态为“待审核”的业务请求;根据任务节点上报的忙闲情况将审核任务分配给最闲的任务节点,并将该笔请求的状态调整为“审核中”。
影像文本提取模块:影像文本提取是通过OCR实现,采用的模式是OCR逐行提取,提取结果会按一定的空格间距做分词处理,转换成对应的字段标签,字段中包含文本在影像中的坐标和内容的置信度。
智能核验模块:主要是从规则库中获取对应的判断规则,再根据规则从获取的影像文本中提取对应单证所需的要素,并核验。
审核结果反馈模块:对于审核失败的申请,业务人员需要根据提取的影像内向进行标注,作为“规则库自学习模块”的学习样本,以优化规则库的识别模型。对于审核不通过的,业务人员也可进行人工复核,若发现是系统识别问题,则也可将该笔申请中系统识别有误的要素重新标注,补充至规则库的识别模型样本集中。
规则库模块:规则库包含业务自定义规则和要素识别模型自学习两部分,业务自定义规则主要是定义对应类型单证所需提取的要素字段和对应要素核验的规则,存储在关系型数据库中。要素识别模型为判断对应内容是否为对应的要素,模型训练通过NLP方法进行,包含两个特征值,一个是文本内容,一个是文本在影像中的坐标位置。针对业务自定义规则,业务人员在系统中维护,可灵活调整,最终存储在关系型数据库中,规则根据类型进行索引,对应的属性字段可扩展。如“海运单”需提取“类型”、“提单号”、“装货港”、“卸货港”、“船名”、“集装箱号”、“承运人”、“船公司”、“装船日期”等。各要素的核验规则也存储在关系型数据库中,如“提单号”核验规则,则会在对应规则表中存储对应核对的API路径,通过调用API获取对应的核验结果。针对要素识别模型,该模型通过NLP方法进行,模型所需的特征值为文本内容、文本所在影像中的坐标位置。前期的训练样本为通过人工标注导入,后期的补充样本为业务人员对审核失败的申请单重新标注或对审核不通过的人工复核后发现为识别模型有误的进行纠正标注后补充至训练样本集中。要素识别模型会通过定时任务从训练样本中获取最新的数据重新学习,以不断优化识别模型。目前系统配置的为每日凌晨进行模型训练。
在实施例中,借助NLP技术实现了单证要素模型的自学习,可自适应不同版式的单证类型,解决了现有自动审单仅适用在某些单证类型,有效扩展了自动审核的单证范围。同时通过预分拣的方法,有效提升识别效率。主从模式的系统架构,极易扩展系统,保证系统高效稳定运行。通过系统自动审核单证,极大提升审单效率和准确性,有效降低人力成本。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的单证审核方法的单证审核装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个单证审核装置实施例中的具体限定可以参见上文中对于单证审核方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种单证审核装置,包括:类型获取模快610、内容提取模块620、要素提取模块630和单证验证模块640,其中:
类型获取模快610,用于获取待审核单证的单证影像和单证类型。
内容提取模块620,用于提取单证影像的文本内容。
要素提取模块630,用于在文本内容满足预设置信度的情况下,根据与单证类型对应的单证要素识别模型,提取文本内容中的单证要素。
单证审核模块640,用于根据与单证要素对应的单证要素审核模型,对单证要素进行审核,得到对待审核单证的审核结果。
在一个实施例中,要素提取模块630,还用于在文本内容满足预设置信度的情况下,对单证类型进行验证;在单证类型验证通过的情况下,获取与单证类型对应的单证要素识别模型;通过单证要素识别模型,从文本内容中,提取出与单证类型对应的单证要素。
在一个实施例中,要素提取模块630,还用于通过与单证类型对应的单证类型识别模型,对文本内容中的单证类型要素进行识别;在文本内容中的单证类型要素为单证类型的情况下,确认单证类型验证通过。
在一个实施例中,单证审核装置还包括模型训练模块,用于获取样本数据;样本数据包括样本单证要素和样本单证要素在样本单证影像中的位置信息;根据样本数据,对待训练的单证要素识别模型进行训练,直达达到训练结束条件;将达到训练结束条件的训练后的单证要素识别模型,确定为训练完成的单证要素识别模型。
在一个实施例中,单证审核模块640,还用于根据与单证要素对应的单证要素审核模型,对单证要素进行审核,得到各单证要素对应的审核结果;根据各单证要素对应的审核结果,确定对待审核单证的审核结果。
在一个实施例中,单证审核装置还包括内容判断模块,用于获取文本内容中各行内容对应的置信度;确定各行内容对应的置信度的平均值,作为文本内容对应的置信度;在文本内容对应的置信度大于预设置信度的情况下,确定文本内容满足预设置信度。
上述单证审核装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储单证影像、单证类型、单证要素等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种单证审核方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种单证审核方法,其特征在于,所述方法包括:
获取待审核单证的单证影像和单证类型;
提取所述单证影像的文本内容;
在所述文本内容满足预设置信度的情况下,根据与所述单证类型对应的单证要素识别模型,提取所述文本内容中的单证要素;
根据与所述单证要素对应的单证要素审核模型,对所述单证要素进行审核,得到对所述待审核单证的审核结果。
2.根据权利要求1所述的方法,其特征在于,所述在所述文本内容满足预设置信度的情况下,根据与所述单证类型对应的单证要素识别模型,提取所述文本内容中的单证要素,包括:
在所述文本内容满足预设置信度的情况下,对所述单证类型进行验证;
在所述单证类型验证通过的情况下,获取与所述单证类型对应的单证要素识别模型;
通过所述单证要素识别模型,从所述文本内容中,提取出与所述单证类型对应的单证要素。
3.根据权利要求2所述的方法,其特征在于,所述对所述单证类型进行验证,包括:
通过与所述单证类型对应的单证类型识别模型,对所述文本内容中的单证类型要素进行识别;
在所述文本内容中的单证类型要素为所述单证类型的情况下,确认所述单证类型验证通过。
4.根据权利要求2所述的方法,其特征在于,所述单证要素识别模型通过下述方式训练得到:
获取样本数据;所述样本数据包括样本单证要素和所述样本单证要素在样本单证影像中的位置信息;
根据所述样本数据,对待训练的单证要素识别模型进行训练,直达达到训练结束条件;
将达到所述训练结束条件的训练后的单证要素识别模型,确定为训练完成的单证要素识别模型。
5.根据权利要求1所述的方法,其特征在于,所述根据与所述单证要素对应的单证要素审核模型,对所述单证要素进行审核,得到对所述待审核单证的审核结果,包括:
根据与所述单证要素对应的单证要素审核模型,对所述单证要素进行审核,得到各所述单证要素对应的审核结果;
根据各所述单证要素对应的审核结果,确定对所述待审核单证的审核结果。
6.根据权利要求1所述的方法,其特征在于,在所述文本内容满足预设置信度的情况下,根据与所述单证类型对应的单证要素识别模型,提取所述文本内容中的单证要素之前,还包括:
获取所述文本内容中各行内容对应的置信度;
确定所述各行内容对应的置信度的平均值,作为所述文本内容对应的置信度;
在所述文本内容对应的置信度大于预设置信度的情况下,确定所述文本内容满足所述预设置信度。
7.一种单证审核装置,其特征在于,所述装置包括:
类型获取模块,用于获取待审核单证的单证影像和单证类型;
内容提取模块,用于提取所述单证影像的文本内容;
要素提取模块,用于在所述文本内容满足预设置信度的情况下,根据与所述单证类型对应的单证要素识别模型,提取所述文本内容中的单证要素;
单证审核模块,用于根据与所述单证要素对应的单证要素审核模型,对所述单证要素进行审核,得到对所述待审核单证的审核结果。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202210377751.XA 2022-04-12 2022-04-12 单证审核方法、装置、计算机设备和存储介质 Pending CN114708600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210377751.XA CN114708600A (zh) 2022-04-12 2022-04-12 单证审核方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210377751.XA CN114708600A (zh) 2022-04-12 2022-04-12 单证审核方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114708600A true CN114708600A (zh) 2022-07-05

Family

ID=82172280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210377751.XA Pending CN114708600A (zh) 2022-04-12 2022-04-12 单证审核方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114708600A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117314659A (zh) * 2023-11-29 2023-12-29 中国人寿保险股份有限公司上海数据中心 一种非保险单证的管理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117314659A (zh) * 2023-11-29 2023-12-29 中国人寿保险股份有限公司上海数据中心 一种非保险单证的管理方法

Similar Documents

Publication Publication Date Title
US11816165B2 (en) Identification of fields in documents with neural networks without templates
WO2021004132A1 (zh) 异常数据检测方法、装置、计算机设备和存储介质
WO2020000688A1 (zh) 财务风险验证处理方法、装置、计算机设备及存储介质
CN109978573B (zh) 一种基于区块链的信息溯源系统
WO2022179138A1 (zh) 图像处理方法、装置、计算机设备和存储介质
CN110413569A (zh) 纸质档案电子化归档方法、装置及终端设备
CN113011144A (zh) 表单信息的获取方法、装置和服务器
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN115017272A (zh) 基于登记数据的智能核验方法及装置
CN114708600A (zh) 单证审核方法、装置、计算机设备和存储介质
CN111260214A (zh) 核电站预留工单领料方法、装置、设备及存储介质
CN110751490A (zh) 欺诈识别方法、装置、电子设备及计算机可读存储介质
CN112579986B (zh) 图像侵权检测方法、设备和系统
CN113496115B (zh) 文件内容比对方法和装置
CN112270313A (zh) 线上理赔方法、装置、设备及存储介质
CN115759758A (zh) 风险评估方法、装置、设备及存储介质
CN110489416B (zh) 一种基于数据处理的信息存储方法及相关设备
CN113239126A (zh) 一种基于bor方法的业务活动信息标准化方案
CN110457332B (zh) 一种信息处理方法及相关设备
CN112862409A (zh) 提运单核验方法及装置
CN111858499A (zh) 基于黑白名单的档案鉴定方法、系统及装置
CN111027296A (zh) 基于知识库的报表生成方法及系统
CN115994194B (zh) 政务大数据的数据质量检查方法、系统、设备及介质
CN114638543A (zh) 单证审核方法、装置、计算机设备和存储介质
CN113010491B (zh) 一种基于云的数据管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination