CN114511866A - 数据稽核方法、装置、系统、处理器及机器可读存储介质 - Google Patents

数据稽核方法、装置、系统、处理器及机器可读存储介质 Download PDF

Info

Publication number
CN114511866A
CN114511866A CN202210147497.4A CN202210147497A CN114511866A CN 114511866 A CN114511866 A CN 114511866A CN 202210147497 A CN202210147497 A CN 202210147497A CN 114511866 A CN114511866 A CN 114511866A
Authority
CN
China
Prior art keywords
image
certificate
data
identifier
slice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210147497.4A
Other languages
English (en)
Inventor
陈冠宇
汪维
肖翔
熊兰君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202210147497.4A priority Critical patent/CN114511866A/zh
Publication of CN114511866A publication Critical patent/CN114511866A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Character Input (AREA)

Abstract

本申请实施例提供一种数据稽核方法、装置、系统、处理器及机器可读存储介质,属于计算机技术领域。方法包括:获取待稽核票据的凭证图像,将凭证图像与至少一个预设的凭证切片模板进行匹配,将能够与凭证图像匹配的凭证切片模板确定为凭证图像对应的凭证切片模板,依据凭证图像对应的凭证切片模板提取凭证图像的要素切片;以及在凭证图像不能够与预设的凭证切片模板匹配的情况下,依据语义分割模型提取凭证图像的要素切片;基于图像识别提取要素切片中的要素信息,对要素切片中的要素信息进行稽核。本申请能够有效提高票据稽核的效率及准确率,降低了人力成本。

Description

数据稽核方法、装置、系统、处理器及机器可读存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种数据稽核方法、一种数据稽核装置、一种数据稽核系统、一种处理器及一种机器可读存储介质。
背景技术
数据稽核是各金融机构的重要工作内容,通过交易后产生的业务票据进行全面核查,能够及时发现业务办理过程中是否存在违规操作,防范财务风险。目前针对业务票据的稽核方式通常是由人工对业务办理流程中留存的单据和报表进行大量的资料整理和数据核对工作,不仅效率低,而且容易出错。
发明内容
本申请实施例的目的是提供一种数据稽核方法、一种数据稽核装置、一种数据稽核系统、一种处理器及一种机器可读存储介质,以解决上述问题。
为了实现上述目的,本申请第一方面提供一种数据稽核方法,包括:
获取包括待稽核数据的凭证图像;
将所述凭证图像与至少一个预设的凭证切片模板进行匹配,将能够与所述凭证图像匹配的凭证切片模板确定为所述凭证图像对应的凭证切片模板,依据所述凭证图像对应的凭证切片模板提取所述凭证图像的要素切片;以及在所述凭证图像不能够与预设的凭证切片模板匹配的情况下,依据语义分割模型提取所述凭证图像的要素切片;
基于图像识别提取所述要素切片中的要素信息,对所述要素切片中的要素信息进行稽核。
可选地,所述凭证图像包括用于表征所述待稽核数据的第一类别的第一标识及用于表征所述待稽核数据的第二类别的第二标识,所述凭证切片模板包括用于识别所述待稽核数据的第一类别的第三标识以及用于识别所述待稽核数据的第二类别的第四标识;将能够与所述凭证图像匹配的凭证切片模板确定为所述凭证图像对应的凭证切片模板,包括:
将所述第一标识与所述第三标识匹配且所述第二标识与所述第四标识匹配的凭证切片模板确定为所述凭证图像对应的凭证切片模板。
可选地,依据语义分割模型提取所述凭证图像的要素切片,包括:
以所述凭证图像为输入,经所述语义分割模型输出所述凭证图像的要素切片,其中,所述语义分割模型由包括不同要素信息的标注数据的历史凭证图像对卷积神经网络训练后得到,所述标注数据包括要素信息的位置信息及要素信息的描述信息。
可选地,所述要素切片中的要素信息包括交易字段及交易数据,所述图像识别包括OCR识别及ICR识别;所述基于图像识别提取所述要素切片中的要素信息,对所述要素切片中的要素信息进行稽核,包括:
通过OCR识别所述要素切片中的交易字段,通过ICR识别所述要素切片中的交易数据,所述交易字段包括票据名称及票据代码,所述交易数据包括交易账号、交易流水号、交易金额及交易日期;
依据所述要素切片中的交易字段或交易数据获取对应的业务流水数据,并基于所述业务流水数据对所述要素切片中的交易字段及交易数据进行稽核。
可选地,依据所述凭证图像对应的凭证切片模板提取所述凭证图像的要素切片,包括:
依据所述凭证图像对应的凭证切片模板确定所述凭证图像中要素信息的位置,依据所述凭证图像中要素信息的位置提取所述凭证图像的要素切片;
所述凭证切片模板还包括:不同要素信息的位置信息;
所述依据所述凭证图像中要素信息的位置提取所述凭证图像的要素切片,包括:以所述凭证图像对应的凭证切片模板中各要素信息的位置信息作为所述凭证图像中要素信息的位置信息;
基于所述凭证图像中要素信息的位置信息确定所述凭证图像中要素信息的切片区域;
依据所述凭证图像中要素信息的切片区域提取所述凭证图像的要素切片。
可选地,所述第一标识与所述第三标识匹配,包括:
获取所述第一标识与所述第三标识重合的像素点数量;
在所述第一标识与所述第三标识重合的像素点数量与所述第一标识或所述第三标识的像素点数量各自的百分比达到阈值的情况下,确定所述第一标识与所述第三标识匹配。
可选地,所述第二标识与所述第四标识匹配,包括:
获取所述第四标识的位置信息;
基于所述第四标识的位置信息确定所述凭证图像的第二类别识别区域;
在基于图像识别确定所述第二类别识别区域中存在与所述第四标识匹配的第二标识的情况下,确定所述第二标识与所述第四标识匹配。
本申请第二方面提供一种数据稽核装置,包括:
图像获取模块,被配置为获取待稽核数据的凭证图像;
要素切片模块,被配置为将所述凭证图像与至少一个预设的凭证切片模板进行匹配,将能够与所述凭证图像匹配的凭证切片模板确定为所述凭证图像对应的凭证切片模板,依据所述凭证图像对应的凭证切片模板提取所述凭证图像的要素切片;以及在所述凭证图像不能够与预设的凭证切片模板匹配的情况下,依据语义分割模型提取所述凭证图像的要素切片;
稽核模块,被配置为基于图像识别提取所述要素切片中的要素信息,对所述要素切片中的要素信息进行稽核。
本申请第三方面提供一种数据稽核系统,包括:
图像扫描装置,被配置为扫描待稽核数据并生成所述待稽核数据的凭证图像;以及上述的数据稽核装置。
本申请第四方面提供一种处理器,被配置成执行上述的数据稽核方法。
本申请第五方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得所述处理器被配置成执行上述的数据稽核方法。
本申请第六方面提供一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现上述的数据稽核方法。
本申请通过获取待稽核数据的凭证图像,基于确定凭证图像中要素信息的位置,提取凭证图像中要素信息的要素切片,并对得到的要素切片进行图像识别,识别要素切片中的要素信息,基于识别到的要素信息对其进行稽核,能够有效提高票据稽核的效率及准确率,降低了人力成本。
本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本申请实施例,但并不构成对本申请实施例的限制。在附图中:
图1示意性示出了一种数据稽核方法的方法流程图;
图2示意性示出了要素信息比对流程图;
图3示意性示出了切片模板示意图;
图4示意性示出了一种数据稽核装置的示意框图;
图5示意性示出了一种数据稽核系统的示意框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请实施例,并不用于限制本申请实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
为了解决上述问题,如图1所示,在本申请一实施例中,提供一种数据稽核方法,包括:
S100、获取包括待稽核数据的凭证图像;
S200、将所述凭证图像与至少一个预设的凭证切片模板进行匹配,将能够与所述凭证图像匹配的凭证切片模板确定为所述凭证图像对应的凭证切片模板,依据所述凭证图像对应的凭证切片模板提取所述凭证图像的要素切片;以及在所述凭证图像不能够与预设的凭证切片模板匹配的情况下,依据语义分割模型提取所述凭证图像的要素切片;
S300、基于图像识别提取要素切片中的要素信息,对要素切片中的要素信息进行稽核。
如此,本实施例通过获取待稽核数据的凭证图像,基于确定凭证图像中要素信息的位置,提取凭证图像中要素信息的要素切片,并对得到的要素切片进行图像识别,识别要素切片中的要素信息,基于识别到的要素信息对其进行稽核,能够有效提高票据稽核的效率及准确率,降低了人力成本。
本实施例中,数据稽核包括但不限于为票据稽核,其中,待稽核数据包括但不限于交易产生的具有固定模板的待稽核票据及不具有固定模板的待稽核票据,例如,手写票据等;凭证图像包括但不限于为票据图像,凭证切片模板包括但不限于为票据切片模板。以下以本实施例的方法应用于金融系统的票据稽核为例进行说明,可以理解的,在对金融系统的票据稽核中,待稽核数据为待稽核票据,凭证图像为票据图像,凭证切片模板为票据切片模板。
具体的,通过在业务前台设置扫描点,对产生的金融票据进行扫描,以得到待稽核票据的票据图像,业务前台在每次扫描后将得到的票据图像上传至稽核部门系统,或者业务前台可以在每天设定时间批量将扫描得到的票据图像上传至稽核部门的稽核系统。稽核系统通过预设的稽核模型,实时或者在设定时间对接收到的票据图像进行批量处理。由于同一类别、性质的金融票据/凭证中的各要素通常具有固定的排版,因此可以预先定义其对应的要素切片模板,具有固定模板的金融票据/凭证被称为预设票据/凭证;但是在业务办理过程中,为了解决业务问题,可能产生一些类别、性质与预设票据相同,但是排版不同的同类金融票据/凭证,这一类金融票据/凭证称为非预设票据/凭证,由于该类票据没有对应的预定义的模板,因此,无法通过模板匹配来提取非预设票据/凭证的要素信息。为了解决该问题,本实施例中,对于预设票据,通过预设的票据切片模板匹配来提取要素切片,而对于非预设票据则通过基于R-CNN构建的语义分割模型来提取要素切片。因此,针对每一票据图像,首先需要确定预设的票据切片模板中是否存在可以与获取到的票据图像匹配的要素切片模板,若存在能够与票据图像相匹配的要素切片模板,表明该票据为预设票据,则确定该要素切片模板为票据图像对应的要素切片模板,再根据票据切片模板确定票据图像中待稽核的要素信息在票据图像中的位置,并基于识别到的各要素信息的位置将包括各要素信息的区域分别切割出来得到每一要素信息的要素切片;若不存在能够与票据图像相匹配的要素切片模板,则表明该票据为非预设票据,无法通过模板匹配来提取要素切片,在此情况下,则通过语义分割模型提取票据图像的要素切片。最终,基于图像识别来提取要素切片中的要素信息,从而对要素信息进行稽核。可以理解的,要素切片中包括至少一项要素信息,例如,某金融票据包括票据名称、交易金额、票据代码和交易日期等要素信息,则最终提取到的每一要素切片包括票据名称、交易金额、票据代码和交易日期中的其中一个要素信息。
其中,在创建不同类别、性质的金融票据对应的要素切片模板时,可以通过熟悉本领域凭证的业务专家,手动在不同类别、性质的金融票据的票据图像上对每一要素信息的切片区域进行标记、画框,以此确定该票据中需要稽核的要素信息的区域,在通过要素切片匹配时,可以根据模板上预先标记的方框如红色方框与票据图像上原本的方框如黑色方框的重合度来识别票据图像与要素切片模板是否匹配,当重合度高于阈值时,认为票据图像与当前的票据要素切片模板匹配,进而可以根据当前票据要素切片模板上标注的各要素信息的像素坐标值对票据图像上的要素信息进行剪裁处理,得到包括每一要素信息的要素切片。可以理解的,本实施例中,手动标记、画框也可以是通过画图工具、软件来对要素信息的所在区域进行标记。
本实施例中,票据图像包括用于表征待稽核票据的第一类别的第一标识及用于表征待稽核票据的第二类别的第二标识,票据切片模板包括用于识别待稽核票据的第一类别的第三标识以及用于识别待稽核票据的第二类别的第四标识;将能够与票据图像匹配的票据切片模板确定为票据图像对应的票据切片模板,包括:将第一标识与第三标识匹配且第二标识与第四标识匹配的票据切片模板确定为票据图像对应的票据切片模板。
在一个具体实施例中,通过将票据图像与模板库中的要素切片模板依次匹配来确定待稽核票据是否为预设票据,当模板库中的某一要素切片模板存在能够与票据图像的第一标识和第二标识分别匹配的第三标识和第四标识时,以该要素切片模板作为票据图像对应的票据切片模板。
在另一个具体实施例中,待稽核票据对应的票据切片模板可以根据票据上的第一标识及第二标识进行识别,例如,可以通过识别票据图上的第一标识和第二标识,查询模板库中存在与第一标识和第二标识匹配的票据切片模板,而要素信息的位置可以通过预设的切片模板确定,切片模板上包括各要素信息的区域标识。例如,在前台上传票据图像时,同时关联该待稽核票据的票据类别,如该待稽核票据的票据类别为储蓄存单,稽核部门接收到该票据图像后,首先识别该待稽核票据的票据类别为储蓄存单,然后从模板库中获取储蓄存单对应的储蓄存单切片模板,通过将票据图像与储蓄存单切片模板中预先设定的要素信息区域标识进行匹配,从而确定票据图像中各要素信息的位置,依据储蓄存单切片模板中的要素信息区域标识,将票据图像中各要素信息区域分别切割为要素切片,基于图像识别例如通过ICR或OCR识别提取各要素切片中的要素信息的文字、字符内容。稽核部门在需要对接收到的票据进行稽核时,首先根据规则获取交易信息,例如获取指定时间段内的交易流水数据,根据交易流水数据调阅接收到的票据图像,将识别到的各要素信息与对应的交易流水数据进行一一比对,从而实现对票据的自动稽核。可以理解的,为了准确对要素信息进行比对,在业务前台上传票据图像时,还可同时关联该票据图像对应的交易流水号。
本实施例中,依据语义分割模型提取票据图像的要素切片,包括:以票据图像为输入,经语义分割模型输出票据图像的要素切片,其中,语义分割模型由包括不同要素信息的标注数据的历史票据图像对卷积神经网络训练后得到,标注数据包括要素信息的位置信息及要素信息的描述信息。本实施例中,对于非预设票据可以通过预先训练的语义分割模型进行要素切片的提取。其中,语义分割模型基于对R-CNN神经网络训练得到,在构建语义分割模型之前,先以带有标注数据的历史票据图像作为训练样本对R-CNN神经网络进行训练,其中,标注数据包括对票据上各要素信息的位置标注,例如表示要素信息所在区域的方框,以及对该要素信息的描述,例如该要素信息的要素名为“交易金额”或“票据名称”等描述,以训练样本为输入,经R-CNN神经网络预测各要素信息的区域及要素名,并根据预测结果对R-CNN神经网络的参数进行调整,最终,在R-CNN神经网络满足收敛条件的情况下,得到训练好的语义分割模型。在依据语义分割模型提取票据图像的要素切片时,以获取到的票据图像为输入,通过训练好的语义分割模型对票据图像进行要素信息区域的检测并分类,根据要素信息区域的检测结果进行语义分割,最终输出预测的包括要素信息的要素切片及对该要素信息的描述,从而实现对非预设票据的要素切片的提取。基于R-CNN神经网络的语义分割模型的训练及预测过程为现有技术,此处不再赘述。
如图2所示,为了进一步确保要素信息比对的准确性,在本实施例中,当自动比对确认票据图像中的要素信息与交易流水数据的要素信息一致时,标记比对结果为“一致”并将比对结果发送至下一节点如稽核系统的稽核监测模块,以便于管理员进行后续核对类稽核作业;若自动比对结果为不一致,则将该比对任务分配至第一采集人员处,由第一采集人员根据票据图像进行人工核对,若人工核对结果为一致,则向稽核部门管理员处提交比对结果,若人工核对结果为不一致,则将该比对任务分配至第二采集人员,由第二采集人员根据票据图像进行人工核对,若人工核对结果为一致,则向稽核监测模块提交比对结果,若人工核对结果为不一致,则向稽核监测模块提交比对不一致的结果。
可以理解的,对于非预设票据即模板识别失败时,使用基于区域的语义分割模型进行要素切片的提取,然后对切片要素进行OCR识别,以识别出待稽核票据的凭证名称、要素名,再通过ICR识别出要素信息的要素值等提示信息,再与交易流水的要素信息进行比对,如一致,则反馈稽核一致,如不一致,则将该比对任务分配至第一采集人员处,由第一采集人员根据票据图像进行人工核对,若人工核对结果为一致,则向稽核部门管理员处提交比对结果,若人工核对结果为不一致,则将该比对任务分配至第二采集人员,由第二采集人员根据票据图像进行人工核对,若人工核对结果为一致,则向稽核监测模块提交比对结果,若人工核对结果为不一致,则向稽核监测模块提交比对不一致的结果;或者,若自动比对结果不一致时,则将该比对任务分配给第一采集人员,由第一采集人员逐项进行待稽核票据的要素信息的检查和录入,得到第一采集结果,将第一采集结果与交易流水信息中的要素信息进行比对,若二者比对一致,则向稽核监测模块提交比对结果为一致,若比对结果为不一致,则向稽核监测模块提交比对不一致的结果,再将该任务分配至第二采集人员进行待稽核票据的要素信息的录入,得到第二采集结果,并将第二采集结果与第一采集结果进行比对,若第一采集结果与第二采集结果一致,则向稽核监测模块提交比对结果为一致,若第一采集结果与第二采集结果不一致,则向稽核监测模块提交比对不一致的结果。通过本实施方式的比对流程,不仅扩展了稽核未预设扫描凭证的稽核范围,而且能够有效防范智能识别模型的误差,使反馈给稽核业务部门的业务数据更具有稽核价值,提升了稽核的效果。
其中,要素切片中的要素信息包括交易字段及交易数据,图像识别包括OCR识别及ICR识别;基于图像识别提取要素切片中的要素信息,对要素切片中的要素信息进行稽核,包括:通过OCR识别要素切片中的交易字段,通过ICR识别要素切片中的交易数据,交易字段包括票据名称及票据代码,交易数据包括交易账号、交易流水号、交易金额及交易日期;依据要素切片中的交易字段或交易数据获取对应的业务流水数据,并基于业务流水数据对要素切片中的交易字段及交易数据进行稽核。
ICR识别是通过大量的历史凭证影像训练的分类模型,主要用于通过对采集到的图像特征识别来识别手写体文字,可以准确识别预设的凭证手写体;OCR是基于对图像进行光学字符识别的文字光学识别方法,主要用于识别票面上的印刷文字,包括凭证标题、要素名、要素值。特别的,若待稽核票据的文字印刷被遮挡,例如,“活期存款凭证”由于遮挡住了上方部分,被ICR识别成了“沽期仔款凭证”的情况,还可以结合OCR模型计算文字识别与预设凭证名称的相似度,如果大于预设阈值,可认为其是“活期存款凭证”。因此,对于预设票据,可以通过ICR识别要素信息的值,即手写体信息的识别,对于非预设票据,可以通过OCR识别要素名信息,通过ICR识别要素名后的手写体信息。本实施例中,由于交易字段即票据名称、票据代码、要素名等信息通常为印刷字体,因此,在获取到待稽核票据的要素切片后,通过OCR识别来对要素信息的交易字段进行识别;而交易数据多为交易字段的值,通常为手写,例如,交易金额和日期等,因此,通过ICR识别来对交易数据进行识别,这样,分别对各要素信息的文字或字符内容进行识别、提取,以用于与业务流水数据中对应的要素信息进行比对。例如,在一个具体实例中,通过识别票据图像中的交易流水号来获取匹配对应的业务流水数据。
步骤S200中,依据票据图像对应的票据切片模板提取票据图像的要素切片,包括:依据票据图像对应的票据切片模板确定票据图像中要素信息的位置,依据票据图像中要素信息的位置提取票据图像的要素切片;票据切片模板还包括:不同要素信息的位置信息;依据票据图像中要素信息的位置提取票据图像的要素切片,包括:以票据图像对应的票据切片模板中各要素信息的位置信息作为票据图像中要素信息的位置信息;基于票据图像中要素信息的位置信息确定票据图像中要素信息的切片区域;依据票据图像中要素信息的切片区域提取票据图像的要素切片。
通常情况下,不同类别的金融票据具有要素信息固定排布的模板,对应的要素信息也不相同,例如,储蓄存单票据中,要素信息通常包括:凭证号码、账号、户名、金额(大写)、金额(小写)、本金支取金额、支取日及存入日;转账支票及现金支票中,要素信息通常包括:凭证号码、付款账号、大写金额、小写金额、出票日期及收款人名称;电汇凭证及特种转账凭证中,要素信息通常包括:交易日期、付款账号、付款人名称、付款人开户行、收款人名称、收款人开户行、大写金额、小写金额、出票日期及收款人名称。而对于不同类别的金融票据,票据中各要素信息的排布位置也具有较大区别。
如图3所示,本实施例中,第一标识为能够识别待稽核票据属于储蓄存单、转账支票或电汇凭证中某一类的图像标识,例如,待稽核票据为转账支票,则第一标识可以为转账支票中人民币(大写)栏的黑色边框。由于不同类别的金融票据中,要素信息的位置不同,例如转账支票与储蓄存单中金额数据在票据中的位置不同,因而其边框位置也是不同的,通过识别该边框位置即可确定该待稽核票据的初步类别。第二标识为可以明确表征待稽核票据的特征,例如,票据名称,可以理解的,第二标识可以是单独的识别标识,也可以是要素信息中的一者。例如,对于转账支票,当某一切片模板的金额数据边框与待稽核票据的金额数据边框匹配成功时,还需通过匹配第二标识来进一步确认待稽核票据的类别,以保证识别的准确性,例如,可以通过将切片模板的票据名称与待稽核票据的名称进行匹配,判断其是否重合来识别第二标识与第四标识是否匹配,当金额数据边框及票据名称均能匹配成功时,确定当前的票据切片模板的类别与待稽核票据的类别一致,进而能够通过当前的票据切片模板上预设的要素信息位置来确定票据图像中待稽核票据的要素位置。可以理解的,票据切片模板上预设的要素信息可以预先通过方框的形式进行标注。
具体的,第一标识与第三标识匹配,包括:获取第一标识与第三标识重合的像素点数量;在第一标识与第三标识重合的像素点数量与第一标识或第三标识的像素点数量各自的百分比达到阈值的情况下,确定第一标识与第三标识匹配。以待稽核票据为转账支票为例,在将票据切片模板与进行票据图像进行匹配时,通过计算待稽核票据的票据图像上的金额数据边框与切片模板上的金额数据边框的像素点的重合度,来判断二者是否匹配,当重合度达到阈值时,认为待稽核票据与切片模板均属于转账支票类票据。
其中,第二标识与第四标识匹配,包括:获取第四标识的位置信息;基于第四标识的位置信息确定票据图像的第二类别识别区域;在基于图像识别确定第二类别识别区域中存在与第四标识匹配的第二标识的情况下,确定第二标识与第四标识匹配。同样以待稽核票据为转账支票为例,在确认金额数据边框匹配的情况下,根据切片模板上的票据名称“转账支票”的区域位置对待稽核票据的票据图像上的对应位置进行ICR或OCR识别,若经ICR或OCR识别得到待稽核票据的票据图像上该区域的文字内容为“转账支票”,则确定第二标识与第四标识匹配,从而确定待稽核票据为转账支票类票据。
如图4所示,本申请第二方面提供一种数据稽核装置,包括:
图像获取模块,被配置为获取待稽核数据的凭证图像;
要素切片模块,被配置为将凭证图像与至少一个预设的凭证切片模板进行匹配,将能够与凭证图像匹配的凭证切片模板确定为凭证图像对应的凭证切片模板,依据凭证图像对应的凭证切片模板提取凭证图像的要素切片;以及在凭证图像不能够与预设的凭证切片模板匹配的情况下,依据语义分割模型提取凭证图像的要素切片;
稽核模块,被配置为基于图像识别提取要素切片中的要素信息,对要素切片中的要素信息进行稽核。
如图5所示,本申请第三方面提供一种数据稽核系统,包括:
图像扫描装置,被配置为扫描待稽核数据并生成待稽核数据的凭证图像;以及上述的数据稽核装置。
本申请第四方面提供一种处理器,被配置成执行上述的数据稽核方法。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现基于多模态特征融合的信息推送方法。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请第五方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得处理器被配置成执行上述的数据稽核方法。
机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请第六方面提供一种计算机程序产品,包括计算机程序,其特征在于,计算机程序在被处理器执行时实现上述的数据稽核方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种数据稽核方法,其特征在于,包括:
获取包括待稽核数据的凭证图像;
将所述凭证图像与至少一个预设的凭证切片模板进行匹配,将能够与所述凭证图像匹配的凭证切片模板确定为所述凭证图像对应的凭证切片模板,依据所述凭证图像对应的凭证切片模板提取所述凭证图像的要素切片;以及在所述凭证图像不能够与预设的凭证切片模板匹配的情况下,依据语义分割模型提取所述凭证图像的要素切片;
基于图像识别提取所述要素切片中的要素信息,对所述要素切片中的要素信息进行稽核。
2.根据权利要求1所述的数据稽核方法,其特征在于,所述凭证图像包括用于表征所述待稽核数据的第一类别的第一标识及用于表征所述待稽核数据的第二类别的第二标识,所述凭证切片模板包括用于识别所述待稽核数据的第一类别的第三标识以及用于识别所述待稽核数据的第二类别的第四标识;将能够与所述凭证图像匹配的凭证切片模板确定为所述凭证图像对应的凭证切片模板,包括:
将所述第一标识与所述第三标识匹配且所述第二标识与所述第四标识匹配的凭证切片模板确定为所述凭证图像对应的凭证切片模板。
3.根据权利要求1所述的数据稽核方法,其特征在于,依据语义分割模型提取所述凭证图像的要素切片,包括:
以所述凭证图像为输入,经所述语义分割模型输出所述凭证图像的要素切片,其中,所述语义分割模型由包括不同要素信息的标注数据的历史凭证图像对卷积神经网络训练后得到,所述标注数据包括要素信息的位置信息及要素信息的描述信息。
4.根据权利要求1所述的数据稽核方法,其特征在于,所述要素切片中的要素信息包括交易字段及交易数据,所述图像识别包括OCR识别及ICR识别;所述基于图像识别提取所述要素切片中的要素信息,对所述要素切片中的要素信息进行稽核,包括:
通过OCR识别所述要素切片中的交易字段,通过ICR识别所述要素切片中的交易数据,所述交易字段包括票据名称及票据代码,所述交易数据包括交易账号、交易流水号、交易金额及交易日期;
依据所述要素切片中的交易字段或交易数据获取对应的业务流水数据,并基于所述业务流水数据对所述要素切片中的交易字段及交易数据进行稽核。
5.根据权利要求2所述的数据稽核方法,其特征在于,依据所述凭证图像对应的凭证切片模板提取所述凭证图像的要素切片,包括:
依据所述凭证图像对应的凭证切片模板确定所述凭证图像中要素信息的位置,依据所述凭证图像中要素信息的位置提取所述凭证图像的要素切片;
所述凭证切片模板还包括:不同要素信息的位置信息;
所述依据所述凭证图像中要素信息的位置提取所述凭证图像的要素切片,包括:
以所述凭证图像对应的凭证切片模板中各要素信息的位置信息作为所述凭证图像中要素信息的位置信息;
基于所述凭证图像中要素信息的位置信息确定所述凭证图像中要素信息的切片区域;
依据所述凭证图像中要素信息的切片区域提取所述凭证图像的要素切片。
6.根据权利要求2所述的数据稽核方法,其特征在于,所述第一标识与所述第三标识匹配,包括:
获取所述第一标识与所述第三标识重合的像素点数量;
在所述第一标识与所述第三标识重合的像素点数量与所述第一标识或所述第三标识的像素点数量各自的百分比达到阈值的情况下,确定所述第一标识与所述第三标识匹配。
7.根据权利要求2所述的数据稽核方法,其特征在于,所述第二标识与所述第四标识匹配,包括:
获取所述第四标识的位置信息;
基于所述第四标识的位置信息确定所述凭证图像的第二类别识别区域;
在基于图像识别确定所述第二类别识别区域中存在与所述第四标识匹配的第二标识的情况下,确定所述第二标识与所述第四标识匹配。
8.一种数据稽核装置,其特征在于,包括:
图像获取模块,被配置为获取包括待稽核数据的凭证图像;
要素切片模块,被配置为将所述凭证图像与至少一个预设的凭证切片模板进行匹配,将能够与所述凭证图像匹配的凭证切片模板确定为所述凭证图像对应的凭证切片模板,依据所述凭证图像对应的凭证切片模板提取所述凭证图像的要素切片;以及在所述凭证图像不能够与预设的凭证切片模板匹配的情况下,依据语义分割模型提取所述凭证图像的要素切片;
稽核模块,被配置为基于图像识别提取所述要素切片中的要素信息,对所述要素切片中的要素信息进行稽核。
9.一种数据稽核系统,其特征在于,包括:
图像扫描装置,被配置为扫描待稽核数据并生成所述待稽核数据的凭证图像;以及权利要求8所述的数据稽核装置。
10.一种处理器,其特征在于,被配置成执行权利要求1-7中任一项权利要求所述的数据稽核方法。
11.一种机器可读存储介质,该机器可读存储介质上存储有指令,其特征在于,该指令在被处理器执行时使得所述处理器被配置成执行权利要求1-7中任一项权利要求所述的数据稽核方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现权利要求1-7中任一项权利要求所述的数据稽核方法。
CN202210147497.4A 2022-02-17 2022-02-17 数据稽核方法、装置、系统、处理器及机器可读存储介质 Pending CN114511866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210147497.4A CN114511866A (zh) 2022-02-17 2022-02-17 数据稽核方法、装置、系统、处理器及机器可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210147497.4A CN114511866A (zh) 2022-02-17 2022-02-17 数据稽核方法、装置、系统、处理器及机器可读存储介质

Publications (1)

Publication Number Publication Date
CN114511866A true CN114511866A (zh) 2022-05-17

Family

ID=81552118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210147497.4A Pending CN114511866A (zh) 2022-02-17 2022-02-17 数据稽核方法、装置、系统、处理器及机器可读存储介质

Country Status (1)

Country Link
CN (1) CN114511866A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115564544A (zh) * 2022-10-10 2023-01-03 杭州申能信息科技有限公司 一种智能会计业务处理方法、装置、计算机设备和存储介质
TWI818550B (zh) * 2022-05-24 2023-10-11 兆豐國際商業銀行股份有限公司 基於人工智慧查詢交易的單據的伺服器

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI818550B (zh) * 2022-05-24 2023-10-11 兆豐國際商業銀行股份有限公司 基於人工智慧查詢交易的單據的伺服器
CN115564544A (zh) * 2022-10-10 2023-01-03 杭州申能信息科技有限公司 一种智能会计业务处理方法、装置、计算机设备和存储介质
CN115564544B (zh) * 2022-10-10 2023-05-19 杭州申能信息科技有限公司 一种智能会计业务处理方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN109887153B (zh) 一种财税处理方法和处理系统
CN108717545B (zh) 一种基于手机拍照的票据识别方法及系统
US11455784B2 (en) System and method for classifying images of an evidence
CN108777021B (zh) 一种基于扫描仪混扫的票据识别方法及系统
WO2017214073A1 (en) Document field detection and parsing
US20170287252A1 (en) Counterfeit Document Detection System and Method
US10229395B2 (en) Predictive determination and resolution of a value of indicia located in a negotiable instrument electronic image
CN114511866A (zh) 数据稽核方法、装置、系统、处理器及机器可读存储介质
US20150120563A1 (en) Check data lift for ach transactions
US9378416B2 (en) Check data lift for check date listing
US11132576B2 (en) Text recognition method and apparatus, electronic device, and storage medium
CN114358798A (zh) 一种基于图片识别的企业信息认证的方法、装置及系统
US20140268250A1 (en) Systems and methods for receipt-based mobile image capture
CN115471858A (zh) 一种用于票据管理的数据处理方法及装置
Sirajudeen et al. Forgery document detection in information management system using cognitive techniques
CN112785404A (zh) 发票开具管理系统
Yindumathi et al. Analysis of image classification for text extraction from bills and invoices
CN112487982A (zh) 商户信息的审核方法、系统和存储介质
US11030450B2 (en) System and method for determining originality of computer-generated images
CN111598099B (zh) 图像文本识别性能的测试方法、装置、测试设备及介质
US20010047331A1 (en) Method for processing remittance payment documents
CN111104853A (zh) 图像信息录入方法、装置、电子设备及存储介质
CN116798061A (zh) 一种票据审核识别方法、装置、终端和存储介质
CN113077355B (zh) 保险理赔方法、装置、电子设备及存储介质
CN112308141B (zh) 一种扫描票据分类方法、系统及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination