CN115840833A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN115840833A CN115840833A CN202211292786.XA CN202211292786A CN115840833A CN 115840833 A CN115840833 A CN 115840833A CN 202211292786 A CN202211292786 A CN 202211292786A CN 115840833 A CN115840833 A CN 115840833A
- Authority
- CN
- China
- Prior art keywords
- page
- information
- word
- pages
- span
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种数据处理方法及装置,该方法涉及数据处理技术领域,包括:接收影像包,所述影像包中包含至少一个第一页面,所述第一页面为信用证页面和/或单据页面;针对任一第一页面,识别所述第一页面中的各第一词语;根据词频库和所述第一页面的各第一词语,获得所述第一页面的第一特征向量,直至得到所述影像包中各第一页面的第一特征向量,所述词频库中包含词语的词频信息;将所述各第一页面的第一特征向量输入页面分类模型,获取页面分类结果,所述页面分类结果中包括第一页面为信用证页面或单据页面的分类信息。上述方法用于实现对影像包中包含的信用证页面和单据页面的准确分类。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着国际金融业务发展,我国对外贸易量大大增加,在银行的出口审单业务中,通知信用证交单业务也逐步增加。通知信用证的一般形式为信用证通知书,用于保证卖方发货后即能得到货款,由银行作为付款中间方。如,一种卖方银行发给买方的用于付款保证的信用证通知书中一般包括:通知书号、申请日期、开证行名称(买方银行)、开证行金融编码、转递行名称(中间方银行)、转递行金融编码、通知行名称(卖方银行)、通知行金融编码,以及相关的地址、传真、银行担保金额、货币类型等相关信息。在银行接收到信用证通知书和相关单据后,会将信用证通知书和单据扫描为页面文件录入业务系统,完成后续的审核业务。在此流程中,工作人员需要对接收到的单据页面和信用证页面分类,而在大量的通知信用证交单业务下,工作人员接收到的文件量非常大,对页面文件中单据页面和信用证页面进行分类的工作时间长,且容易出错。
因此,现在亟需一种数据处理方法及装置,用于实现对影像包中包含的信用证页面和单据页面的准确分类。
发明内容
本申请实施例提供一种数据处理方法及装置,用于实现对影像包中包含的信用证页面和单据页面的准确分类。
第一方面,本申请实施例提供一种数据处理方法,该方法包括:
接收影像包,所述影像包中包含至少一个第一页面,所述第一页面为信用证页面和/或单据页面;
针对任一第一页面,识别所述第一页面中的各第一词语;
根据词频库和所述第一页面的各第一词语,获得所述第一页面的第一特征向量,直至得到所述影像包中各第一页面的第一特征向量,所述词频库中包含词语的词频信息;
将所述各第一页面的第一特征向量输入页面分类模型,获取页面分类结果,所述页面分类结果中包括第一页面为信用证页面或单据页面的分类信息。
上述方法中,信用证文本中包含的数据与单据文本中包含的数据相差较大,根据词频库和第一页面的各第一词语,获得第一页面的第一特征向量。如此,使得第一特征向量中包含页面中数据的词频信息,相应的,信用证页面的第一特征向量的词频信息与单据页面的第一特征向量的词频信息存在较大差距。基于此,可以通过页面分类模型将影像包中的信用证页面和单据页面做准确分类。相比于现有技术中的人工分类来说,本申请可以将影像包中的信用证页面和单据页面做准确快速分类。
可选的,获取页面分类结果之后,还包括:针对任一信用证页面,以栏位SPAN为识别单元,获取所述信用证页面中的SPAN文本信息;根据栏位分类模型对所述SPAN文本信息进行分类,得到所述信用证页面的SPAN分类信息,直至得到所述影像包中各信用证页面的SPAN分类信息;针对任一信用证页面的SPAN分类信息与设定页面规则,得到信用证页面的页面编号,直至得到各信用证页面的页面编号,所述设定页面规则中包括栏位规则和关键字规则,所述栏位规则用于匹配SPAN分类信息中栏位信息的页面编号,所述关键字规则用于匹配SPAN分类信息中关键字信息的页面编号;根据所述各信用证页面的页面编号确定页面顺序。
上述方法中,在信用证通知书中,国际标准规定其包含的栏位信息对应的页面编号或者顺序。对信用证页面进行以栏位SPAN为识别单元的SPAN文本信息识别,栏位分类模型对信用证页面的SPAN文本信息分类获得SPAN分类信息。如此,则可以根据SPAN分类信息中栏位信息确定该信用证页面的页面编号,若SPAN分类信息中没有栏位信息或栏位信息不完整等,可以根据SPAN分类信息中的关键字信息获取该SPAN分类信息的信用证页面的页面编号。如此,可以简单快速完成对各信用证页面的排序。相比于现有技术中人工分类信用证通知书中的各信用证页面,还要对各信用证页面手动排序,本申请可以节约处理时间,提高处理准确性。
可选的,识别所述第一页面中的各第一词语,包括:根据智能字符识别方法,获取所述第一页面的第一文本信息;对所述第一文本信息进行数据清洗,得到所述各第一词语。
上述方法中,通过数据清洗,可以清洗掉第一页面中干扰字符,提高后续分类的准确性。且降低耗费的计算资源。
可选的,对所述第一文本信息进行数据清洗,得到所述各第一词语,包括:剔除所述第一文本信息中的干扰字符,并按照设定转换规则将所述第一文本信息中的字符转换为统一格式,得到所述各第一词语,所述干扰字符包括中文字符、噪音符号和连接词。
上述方法中,将第一文本信息中的字符转换为统一格式,保证后续获取的各第一词语不会以为格式不统一而重复,保证后续分类的准确性。
可选的,所述词频库通过如下方式构建,包括:获取第一历史页面集,所述第一历史页面集中包含历史信用证页面和历史单据页面;根据智能字符识别方法,针对所述第一历史页面集中的任一第二页面,获取所述第二页面的第二文本信息;基于所述第二文本信息,得到所述第二页面的各第二词语,直至得到所述第一历史页面集中各第二页面的各第二词语;获取任一第二词语对于所述第一历史页面集的词频,将小于设定词频阈值的第二词语删除,得到各第三词语和对应的词频形成的词频库。
上述方法中,根据历史的第一历史页面集中包含历史信用证页面和历史单据页面得到词频库,使得词频库中的各第三词语,能够更好的表达历史信用证页面和历史单据页面中包含词语的词频信息。
可选的,所述页面分类模型通过如下方式得到,包括:获取第二历史页面集,所述第二历史页面集中包含历史信用证页面和历史单据页面,所述第一历史页面集和所述第二历史页面集中的页面存在交集或不存在交集;针对所述第二历史页面集中的任一第三页面,获取所述第三页面的第三文本信息;根据所述词频库,获取所述第三页面的各第四词语的词频;根据所述第三页面的各第四词语的词频,得到所述第三页面的第二特征向量,直至得到所述第二历史页面集中各第三页面的第二特征向量;根据所述各第三页面的第二特征向量和所述各第三页面的标签,对初始页面分类模型训练,得到训练后的所述页面分类模型。
上述方法中,针对包含历史信用证页面和历史单据页面的第二历史页面集,将该第二历史页面集中的任一第三页面作为训练初始页面分类模型的数据,根据词频库确认该第三页面的各第四词语的词频,进一步得到第二特征向量。如此,词频库中的词语的词频都是大于设定词频阈值的,能够更好的表征历史信用证页面和历史单据页面中的词语,进一步的,使得第二特征向量包含的词语信息能够更好的表现历史信用证页面和历史单据页面的信息,使得初始页面分类模型学习到历史信用证页面的词语关键信息和历史单据页面的词语关键信息,进一步的,训练完成的页面分类模型的页面分类结果准确性高。
可选的,所述栏位分类模型通过如下方式得到,包括:获取第三历史页面集,所述第三历史页面集中包含历史信用证页面,所述第三历史页面集与所述第一历史页面集、所述第二历史页面集中的页面存在交集或不存在交集;针对所述第三历史页面集中的任一第四页面,获取所述第四页面的SPAN文本信息,直至获取所述第三历史页面集中各第四页面的SPAN文本信息,所述SPAN文本信息中包括栏位信息;根据所述各第四页面的SPAN文本信息对初始栏位分类模型进行训练,得到训练后的所述栏位分类模型。
上述方法中,通过第三历史页面集中各历史信用证页面的包含栏位信息的SPAN文本信息对初始栏位分类模型训练。如此,使得训练得到的栏位分类模型学习到SPAN文本信息和栏位信息的关系。即使待分类的SPAN文本信息中的栏位信息不准确或不完整,也可以为该SPAN文本信息准确分类,提高SPAN文本信息的SPAN分类信息的准确性。
第二方面,本申请实施例提供一种数据处理装置,该装置包括:
获取模块,用于接收影像包,所述影像包中包含至少一个第一页面,所述第一页面为信用证页面和/或单据页面;
处理模块,用于针对任一第一页面,识别所述第一页面中的各第一词语;根据词频库和所述第一页面的各第一词语,获得所述第一页面的第一特征向量,直至得到所述影像包中各第一页面的第一特征向量,所述词频库中包含词语的词频信息;
所述处理模块还用于,将所述各第一页面的第一特征向量输入页面分类模型,获取页面分类结果,所述页面分类结果中包括第一页面为信用证页面或单据页面的分类信息。
第三方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有程序,当该程序在计算机上运行时,使得计算机执行第一方面任一种可能的设计中的数据处理的方法。
第四方面,本申请实施例提供一种计算机设备,包括:存储器和处理器;存储器用于存储计算机程序;处理器用于调用存储器中存储的计算机程序,使得计算机设备执行第一方面任一种可能的设计中的数据处理的方法。
第五方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行第一方面任一种可能的设计中的数据处理的方法。
本申请的这些实现方式或其他实现方式在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理系统的架构示意图;
图2为本申请实施例提供的一种数据处理系统的架构示意图;
图3为本申请实施例提供的一种数据处理方法的流程示意图;
图4为本申请实施例提供的一种数据处理方法的流程示意图;
图5为本申请实施例提供的一种数据处理装置的装置示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
可以理解的是,在本申请的下述具体实施方式中,涉及到页面文件等相关的数据,当本申请的各实施例运用到具体产品或技术中时,需要获得相关许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,在需要获得相关的数据时,可以通过招募相关志愿者并签署志愿者授权数据的相关协议,进而可以使用这些志愿者的历史页面文件相关的数据进行实施;或者,具体实施时所采用的相关数据均为模拟数据,例如可以是虚拟场景中产生的模拟数据。即,本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
在现有通知信用证交单业务中,存在大量包含信用证页面和单据页面的页面文件,对于信用证中关键信息的审核,需要工作人员将页面文件中的信用证页面和单据页面区分开来,大量的手动操作给工作人员带来不便,且拉长信用证审核周期,降低业务处理效率。基于此,本申请实施例提供了一种数据处理系统,如图1所示,为本申请实施例中该数据处理系统的架构示意图,包括:接收模块101、信息提取模块102、分类模块103和词频库104;
接收模块101,用于接收影像包,该影像包中包含至少一个第一页面,该第一页面为信用证页面和/或单据页面;
其中,影像包可以是业务系统中的子系统传输至该接收模块101中的,也可以是接收模块101与扫描系统等相关系统获取的,这里对如何获取到的影像包具体不做限制。另外,影像包中包含的各页面可以是图片、照片或文档等形式,这里对影像包中页面的具体形式也不做限制。
信息提取模块102,用于对影像包中的任一第一页面,根据智能字符识别方法,获取该第一页面的第一文本信息。剔除第一文本信息中的中文字符、噪音符号和连接词等干扰字符,并按照设定转换规则将该第一文本信息中的字符转换为统一格式,得到各第一词语。根据词频库104中词语的词频信息和该第一页面的各第一词语,获得第一页面的第一特征向量,直至得到影像包中各第一页面的第一特征向量,将各第一页面的第一特征向量发送至分类模块103。
分类模块103,用于将各第一页面的第一特征向量输入页面分类模型,页面分类模型根据第一页面的第一特征向量确定该第一页面为信用证页面或单据页面,输出页面分类结果。在上述系统架构中,通过接收模块101、信息提取模块102、分类模块103和词频库104实现接收影像包并自动对影像包中各第一页面的第一文本信息提取,进一步基于提取的文本信息进行分类,实现影像包中信用证页面和单据页面的自动化分类。
在一种或多种实施例中,词频库104可以通过如下方式构建,包括:获取包含历史信用证页面和历史单据页面的第一历史页面集,根据智能字符识别方法,针对该第一历史页面集中的任一第二页面,获取第二页面的第二文本信息。可以对第二文本信息进行相应的数据清洗处理。如,剔除第二文本信息中的中文字符、噪音符号和连接词等干扰字符,并按照设定转换规则将该第二文本信息中的字符转换为统一格式,得到第二页面的各第二词语。进一步得到第一历史页面集中各第二页面的各第二词语,确定任一第二词语对于该第一历史页面集的词频,将小于设定词频阈值的第二词语删除,得到各第三词语和对应的词频形成的词频库104。通过该种词频库的构建方法得到的词频库,使得词频库104中包含的词语的词频信息,是历史信用证页面和/或历史单据页面中出现比较关键的词语,该关键的词语更好的表达历史信用证页面和历史单据页面的特征,相应的,基于该词频库104得到的历史信用证页面、历史单据页面的特征向量能分别更好的表达历史信用证页面的特征和历史单据页面的特征,提高页面分类结果的准确性。
在一种或多种实施例中,分类模块103中的页面分类模型可以通过如下方式得到,包括:获取第二历史页面集,该第二历史页面集中包含历史信用证页面和历史单据页面,这里的第二历史页面集和用于获取词频库104的第一历史页面集中的页面可以存在交集或不存在交集,第一历史页面集和第二历史页面集也可以是相同的历史页面集,这里对历史页面及具体不做限制。针对该第二历史页面集中的任一第三页面,获取该第三页面的第三文本信息,根据词频库104,获取该第三页面的各第四词语的词频,进一步,根据该第三页面的各第四词语的词频,得到该第三页面的第二特征向量,直至得到该第二历史页面集中各第三页面的第二特征向量。根据各第三页面的第二特征向量和各第三页面的标签(这里的标签可以为分类标签,如,标签表达为信用证页面或单据页面),对初始页面分类模型训练,得到训练后的页面分类模型。基于词频库104中能更好的表达历史信用证页面的特征和历史单据页面的特征的词语的词频信息,得到第三页面的各第四词语的词频,进一步得到该第三页面的第二特征向量,使得该第二特征向量对于页面特征的表达更清楚准确,基于该第二特征向量训练得到的页面分类模型的页面分类结果的准确性高。
基于上述系统架构,本申请实施例提供了又一种数据处理系统,如图2所示,为本申请实施例中该数据处理系统的架构示意图,包括:接收模块201、信息提取模块202、分类模块203、排序模块204、词频库205;
接收模块201将影像包传输至信息提取模块202。信息提取模块202基于词频库205中词语的词频信息,获取影像包中各第一页面的第一特征向量,将各第一页面的第一特征向量发送至分类模块203。分类模块203将各第一页面的第一特征向量输入页面分类模型,得到各第一页面对应的页面分类结果。分类模块203将页面分类结果为信用证页面的信用证页面发送至排序模块204。
排序模块204,用于接收各信用证页面,针对任一信用证页面,以栏位SPAN为识别单元,获取该信用证页面中的SPAN文本信息,根据栏位分类模型对SPAN文本信息进行分类,得到该信用证页面的SPAN分类信息,直至得到影像包中各信用证页面的SPAN分类信息。针对任一信用证页面的SPAN分类信息与设定页面规则,得到信用证页面的页面编号,直至得到各信用证页面的页面编号,根据各信用证页面的页面编号确定页面顺序。在该数据处理系统中,对影像包中的信用证页面和单据页面分类后,还可以针对信用证页面进行页面排序,进一步降低人工进行页面排序的工作量,大大缩短通知信用证交单业务中信用证审核周期,提高业务处理效率。其中,设定页面规则中包括栏位规则和关键字规则。若SPAN分类信息中包含栏位信息,该栏位信息则可以与栏位规则匹配确定栏位信息对应的页面编号。若SPAN分类信息中不包含栏位信息或者栏位信息与栏位规则无法匹配,则还可以基于SPAN分类信息中的关键字信息匹配关键字规则,确定关键字信息对应的页面编号。如此,保证页面排序的可靠性。
在一种或多种实施例中,排序模块204中的栏位分类模型通过如下方式得到,包括:获取第三历史页面集,该第三历史页面集中包含历史信用证页面。该第三历史页面集中的历史信用证页面可以与上述第一历史页面集、第二历史页面集中的历史信用证页面存在交集或不存在交集,这里对第三历史页面集中的历史信用证页面具体不做限制。针对该第三历史页面集中的任一第四页面,获取该第四页面的SPAN文本信息,直至获取该第三历史页面集中各第四页面的包括栏位信息的SPAN文本信息。根据各第四页面的SPAN文本信息对初始栏位分类模型进行训练,得到训练后的栏位分类模型。在该排序模块204中的栏位分类模型,可以学习不同类型的栏位对应的相关SPAN文本信息,则训练得到的栏位分类模型在后续应用中,即使在提取页面的SPAN文本信息出现信息提取错误、信息提取不完整等失误,也可以为该SPAN文本信息确定对应的正确的栏位类型,保证后续准确获取各信用证页面的页面编号进行页面排序。
基于上述数据处理系统架构,本申请实施例提供了一种数据处理方法流程,如图3所示,包括:
步骤301、接收影像包,所述影像包中包含至少一个第一页面,所述第一页面为信用证页面和/或单据页面;
此处,接收的影像包可以是图片、照片、文档等形式,可以是基于纸质文件的扫描件,也可以是通过邮件、外部系统上传等方式传输的包含文档、图片、照片等的文件包等,这里对影像包的具体形式,以及影像包的具体获取方式不做限制。
步骤302、针对任一第一页面,识别所述第一页面中的各第一词语;
此处,识别第一页面中的第一词语,可以是根据文字识别技术或图像识别技术等,具体可以根据需要设置。
步骤303、根据词频库和所述第一页面的各第一词语,获得所述第一页面的第一特征向量,直至得到所述影像包中各第一页面的第一特征向量,所述词频库中包含词语的词频信息;
此处,词频库中包含各词语的词频信息,相应的可以获得第一页面中的各第一词语的词频信息,形成第一特征向量。另外,需要说明的是,这里针对第一页面的第一特征向量可以是多个,多个第一特征向量可以是分别根据不完全相同的多个第一词语的词频信息得到的,也可以是根据多个第一词语的不同拼接方式得到的词语的词频信息得到,这里对第一页面的第一特征向量的数量和形成方式,具体不做限制,可以根据需要设置。
在一种示例中,第一页面包含第一词语:地址、信用证号、开证日期、有效期、开证行。则根据地址、信用证号、开证日期可以得到一个第一特征向量。根据信用证号、开证日期、有效期得到一个第一特征向量。根据地址、信用证号、开证日期、有效期、开证行得到一个第一特征向量。即,第一页面的多个第一特征向量可以是分别根据不完全相同的多个第一词语的词频信息得到的。需要说明的是,这里的示例仅用于理解性的清晰阐述本方案,并不对本方案的具体相关信息和处理方式做限制。
在一种示例中,第一页面包含第一词语:开证行、金融编码、地址、信用证号、名称、费用、未付、承担人。则可以将“开证行”和“金融编码”拼接,根据开证行金融编码、地址、信用证号、名称得到一个第一特征向量。将“开证行”和“名称”拼接,根据开证行名称、地址、信用证号、名称得到一个第一特征向量。将“未付”和“费用”拼接、“费用”和“承担人”拼接,根据未付费用、“费用承担人”、地址、信用证号、名称得到一个第一特征向量。即,多个第一特征向量也可以是根据多个第一词语的不同拼接方式得到的词语的词频信息得到,这里对第一页面的第一特征向量的数量和形成方式,具体不做限制,可以根据需要设置。需要说明的是,这里的示例仅用于理解性的清晰阐述本方案,并不对本方案的具体相关信息和处理方式做限制。
步骤304、将所述各第一页面的第一特征向量输入页面分类模型,获取页面分类结果,所述页面分类结果中包括第一页面为信用证页面或单据页面的分类信息。
此处,页面分类模型可以是SVM(支持向量机)模型、随机森林等用于分类的模型,这里对页面分类模型的类型不做限制,可以根据需要具体设置。
上述方法中,信用证文本中包含的数据与单据文本中包含的数据相差较大,根据词频库和第一页面的各第一词语,获得第一页面的第一特征向量。如此,使得第一特征向量中包含页面中数据的词频信息,相应的,信用证页面的第一特征向量的词频信息与单据页面的第一特征向量的词频信息存在较大差距。基于此,可以通过页面分类模型将影像包中的信用证页面和单据页面做准确分类。相比于现有技术中的人工分类来说,本申请可以将影像包中的信用证页面和单据页面做准确快速分类。
基于上述方法流程,本申请实施例提供了一种数据处理方法,如图4所示,包括:
步骤401、接收影像包,所述影像包中包含至少一个第一页面,所述第一页面为信用证页面和/或单据页面;
步骤402、针对任一第一页面,识别所述第一页面中的各第一词语;
在一种示例中,此处可以利用OCR(Optical Character Recognition,光学字符识别)、ICR(Intelligent Character Recognition,智能字符识别)和基于人工智能技术的机器学习文字检测识别系统等,对第一页面中的信息进行识别,得到各第一词语。需要说明的是,这里对识别所应用的方法具体不做限制,可以根据需要设置。
在一种示例中,基于ICR对第一页面进行识别,获取第一页面中的各第一词语信息。
步骤403、根据词频库和所述第一页面的各第一词语,获得所述第一页面的第一特征向量,直至得到所述影像包中各第一页面的第一特征向量,所述词频库中包含词语的词频信息;
在一种示例中,词频库中包含各词语的词频,还可以包含二元词组、三元词组等,二元词组、三元词组等多元词组可以是根据专业经验或数据处理确定的。如,“DocumentaryCredit”为一个二元词组,常见于信用证页面,该二元词组的词频能更好的表达页面类型。对应的,词频库中可以将“Documentary”、“Credit”作为一个二元词组,获取该二元词组的词频信息。另外,数据处理过程中,还可以对应上下文信息,确定词语之间的关系,若两个或多个词语以较为固定的排列关系频繁出现,则也可以将该两个或多个词语作为二元词组或多元词组,获取该二元词组或多元词组的词频信息,将二元词组或多元词组和对应的词频信息存在词频库中。
此处,在获取第一页面的第一特征向量时,可以获取一个或多个第一特征向量。该多个第一特征向量可以是分别根据不完全相同的多个第一词语的词频信息得到的,该一个或多个第一特征向量也可以是根据多个第一词语的不同拼接方式得到的词语的词频信息得到,这里对第一页面的第一特征向量的数量和形成方式,具体不做限制,可以根据需要设置。
在一种示例中,根据各第一词语拼接得到的二元词组或多元词组,根据各第一词语和得到的二元词组或多元词组,从词频库中获取各第一词语对应的词频信息、二元词组或多元词组对应的词频信息。根据该各第一词语对应的词频信息、二元词组或多元词组对应的词频信息得到一个或多个第一特征向量。
步骤404、将所述各第一页面的第一特征向量输入页面分类模型,获取页面分类结果,所述页面分类结果中包括第一页面为信用证页面或单据页面的分类信息。
步骤405、针对任一信用证页面,以栏位SPAN为识别单元,获取所述信用证页面中的SPAN文本信息;
在一种示例中,此处可以利用OCR、ICR、NLP(自然语言处理)和基于人工智能技术的机器学习文字检测识别系统等,对信用证页面中的栏位SPAN进行识别,得到信用证页面中的SPAN文本信息。需要说明的是,这里对识别所应用的方法具体不做限制,可以根据需要设置。
在一种示例中,基于NLP的NER(命名实体识别),针对信用证页面,以栏位SPAN为识别单元对信用证页面进行识别,获取信用证页面中的SPAN文本信息。
步骤406、根据栏位分类模型对所述SPAN文本信息进行分类,得到所述信用证页面的SPAN分类信息,直至得到所述影像包中各信用证页面的SPAN分类信息;
此处,栏位分类模型可以为神经网络模型、随机森林等分类模型。这里对栏位分类模型的具体模型类型的应用不做限制,可以根据需要设置。
在一种示例中。栏位分类模型可以为LSTM(长短期记忆网络LSTM(long short-term memory)是RNN(循环神经网络)的一种变体)-CRF(条件随机场)模型。可以将SPAN文本信息输入LSTM层得到该SPAN文本信息对应的栏位类型的程度,将该SPAN文本信息对应的栏位类型的程度输入CRF层得到该SPAN文本信息对应的准确的栏位类型。或者,栏位分类模型可以为双层LSTM-CRF(条件随机场)模型。又或者,还可以在上述栏位分类模型中加入CNN(卷积神经网络),为CNN双层LSTM-CRF(条件随机场)模型。可以提高该SPAN文本信息中单词形态信息。如,单词的前后缀信息。需要说明的是,这里对栏位分类模型的具体设置不做限制,可以根据需要设置。
此处,SPAN分类信息中包含的栏位信息是基于栏位分类模型获取的,则即使在SPAN文本信息中的栏位的相关信息存在错误,也可以准确获取该SPAN文本信息的栏位分类。如,部分信用证内容为:
:27:[Sequence of Total]————一个栏位SPAN。
1/1————一个栏位SPAN。
则正确识别的SPAN文本信息中应包含“:27:[Sequence of Total]”,但实际在是被过程中可能出现漏识别、或识别错误等,得到包含“27:[Sequence of Total]”、“:27[Sequence of Total]”、“:5[Sequence of Total]”的SPAN文本信息,本方案基于栏位分类模型可以准确得到SPAN文本信息对应的“:27:[Sequence of Total]”,如此,提高后续信用证页面排序的准确性。
步骤407、针对任一信用证页面的SPAN分类信息与设定页面规则,得到信用证页面的页面编号,直至得到各信用证页面的页面编号,所述设定页面规则中包括栏位规则和关键字规则,所述栏位规则用于匹配SPAN分类信息中栏位信息的页面编号,所述关键字规则用于匹配SPAN分类信息中关键字信息的页面编号;
在一种示例中,基于栏位规则,SPAN分类信息中的“:27:[Sequence of Total]”对应的页面编号为5。
又一种示例中,还可能存在一种栏位SPAN内容较多,至使内容延续到下一信用证页面,则相应的,下一信用证页面中可能没有栏位SPAN,则通过栏位分类模型获取的SPAN分类信息中没有对应的栏位信息,或栏位信息在栏位规则中未匹配到,则可以基于关键字规则和该SPAN分类信息中的关键字确定页面编号。如此,保证各信用证页面中的任一信用证页面均可以获得准确的页面编号,实现各信用证页面的准确页面顺序。
步骤408、根据所述各信用证页面的页面编号确定页面顺序。
上述方法对信用证页面进行以栏位SPAN为识别单元的SPAN文本信息识别,栏位分类模型对信用证页面的SPAN文本信息分类获得SPAN分类信息。如此,则可以根据SPAN分类信息中栏位信息确定该信用证页面的页面编号,若SPAN分类信息中没有栏位信息或栏位信息不完整等,也可以根据SPAN分类信息中的关键字信息获取该SPAN分类信息的信用证页面的页面编号。如此,可以简单快速完成对各信用证页面的排序。相比于现有技术中人工分类信用证通知书中的各信用证页面,还要对各信用证页面手动排序,本申请可以节约处理时间,提高处理准确性。
基于上述各方法流程,本申请实施例还提供了一种数据处理方法,步骤302、针对任一第一页面,识别所述第一页面中的各第一词语,包括:根据智能字符识别方法,获取所述第一页面的第一文本信息;对所述第一文本信息进行数据清洗,得到所述各第一词语。如此,可以将第一文本信息中的干扰数据清洗,即可以提高后续页面分类结果的准确性,还可以节约处理资源。
基于上述各方法流程,本申请实施例还提供了一种数据处理方法,对所述第一文本信息进行数据清洗,得到所述各第一词语,包括:剔除所述第一文本信息中的干扰字符,并按照设定转换规则将所述第一文本信息中的字符转换为统一格式,得到所述各第一词语,所述干扰字符包括中文字符、噪音符号和连接词。在一种示例中,对第一文本信息进行处理,丢弃该第一文本信息中的中文文本,将第一文本信息中的小写英文文本转换成纯大写(如此,防止针对同一单词/词语的大小写两种形式,作为两个单词/词语识别),去除英文文本中噪音符号:[“\”“,”=”,”\”,”/”,”:”,”-“,”(“,”)”,”,”,”.”,”\n”]等,去除连接词:of or for and等,得到纯英文文本的各第一词语。
基于上述各方法流程,本申请实施例提供了一种词频库的构建方法,所述词频库通过如下方式构建,包括:获取第一历史页面集,所述第一历史页面集中包含历史信用证页面和历史单据页面;根据智能字符识别方法,针对所述第一历史页面集中的任一第二页面,获取所述第二页面的第二文本信息;基于所述第二文本信息,得到所述第二页面的各第二词语,直至得到所述第一历史页面集中各第二页面的各第二词语;获取任一第二词语对于所述第一历史页面集的词频,将小于设定词频阈值的第二词语删除,得到各第三词语和对应的词频形成的词频库。
在一种示例中,可以利用ICR对第一历史页面集中的任一第二页面进行识别,获取第二页面的第二文本信息。对第二页面的第二文本信息进行数据清洗(如,丢弃第二文本信息中的中文文本,将小写字母转换成纯大写,按空格把文本分成独立的单词(第二词语),去除噪音符号;去除连接词。还可以通过提取词干,把相近的词转换为标准形式(如,把各单词中的go,going,went,goes统一成go))。直至获取该第一历史页面集中各第二页面的第二词语,针对任一第二词语对于第一历史页面集的词频,将小于设定词频阈值的第二词语删除,得到各第三词语和对应的词频形成的词频库。一种示例中,针对任一第二词语对于第一历史页面集的词频,将小于设定词频阈值的第二词语删除,得到各第三词语,根据专业经验和数据处理根据各第三词语获取二元词组和/或多元词组,并获取二元词组和/或多元词组对于第一历史页面集的词频。得到各第三词语和对应的词频,以及各第三词语组成的二元词组和/或多元词组和对应的词频形成的词频库。在一种示例中,该词频库可以是基于词袋模型得到的,则字典的大小可以为固定字节数。
基于上述各方法流程,本申请实施例提供了一种页面分类模型获取方法,所述页面分类模型通过如下方式得到,包括:获取第二历史页面集,所述第二历史页面集中包含历史信用证页面和历史单据页面,所述第一历史页面集和所述第二历史页面集中的页面存在交集或不存在交集;针对所述第二历史页面集中的任一第三页面,获取所述第三页面的第三文本信息;根据所述词频库,获取所述第三页面的各第四词语的词频;根据所述第三页面的各第四词语的词频,得到所述第三页面的第二特征向量,直至得到所述第二历史页面集中各第三页面的第二特征向量;根据所述各第三页面的第二特征向量和所述各第三页面的标签,对初始页面分类模型训练,得到训练后的所述页面分类模型。
在一种示例中,针对第二历史页面集中的任一第三页面,获取该第三页面的第三文本信息,根据词频库和TF-IDF(term frequency–inverse document frequency,是一种用于信息检索与数据挖掘的常用加权技术)模型,得到第二特征向量,根据各第三页面的第二特征向量和各第三页面的标签,训练页面分类模型。
此处,在一种示例中,还可以得到训练后的页面分类模型后,根据历史测试页面集,对该页面分类模型测试,根据测试结果对该页面分类模型进行相应优化,提高页面分类结果的准确性。
基于上述各方法流程,本申请实施例提供了一种栏位分类模型的获取方法,所述栏位分类模型通过如下方式得到,包括:获取第三历史页面集,所述第三历史页面集中包含历史信用证页面,所述第三历史页面集与所述第一历史页面集、所述第二历史页面集中的页面存在交集或不存在交集;针对所述第三历史页面集中的任一第四页面,获取所述第四页面的SPAN文本信息,直至获取所述第三历史页面集中各第四页面的SPAN文本信息,所述SPAN文本信息中包括栏位信息;根据所述各第四页面的SPAN文本信息对初始栏位分类模型进行训练,得到训练后的所述栏位分类模型。
在一种示例中,可以根据第三历史页面集中的各历史信用证页面,以栏位SPAN为识别单元(可以将识别的结果以SPAN作为单位进行标注,对栏位的值进行标注。如,栏位的值“1/1”标注为“27A”,栏位的key“:27:[Sequence of Total]”不做标注。如此,可以根据值的标注对栏位分类模型中相关参数调整),获取各历史信用证页面的包括栏位信息的SPAN文本信息,通过包括栏位信息的各SPAN文本信息,对初始栏位分类模型进行训练,使得初始栏位分类模型学习到栏位信息对应的栏位类型(即使栏位信息中存在错误或缺失的字符,仍然可以准确得到该栏位信息的栏位类型(正确的栏位信息)),得到训练后的栏位分类模型,使得栏位分类模型可以对信用证页面准确获取对应的SPAN分类信息。
基于相同的思想,本申请实施例提供了一种数据处理装置,如图5所示,所述装置包括:
获取模块501,用于接收影像包,所述影像包中包含至少一个第一页面,所述第一页面为信用证页面和/或单据页面;
处理模块502,用于针对任一第一页面,识别所述第一页面中的各第一词语;根据词频库和所述第一页面的各第一词语,获得所述第一页面的第一特征向量,直至得到所述影像包中各第一页面的第一特征向量,所述词频库中包含词语的词频信息;
所述处理模块502还用于,将所述各第一页面的第一特征向量输入页面分类模型,获取页面分类结果,所述页面分类结果中包括第一页面为信用证页面或单据页面的分类信息。
可选的,所述处理模块502还用于,针对任一信用证页面,以栏位SPAN为识别单元,获取所述信用证页面中的SPAN文本信息;根据栏位分类模型对所述SPAN文本信息进行分类,得到所述信用证页面的SPAN分类信息,直至得到所述影像包中各信用证页面的SPAN分类信息;针对任一信用证页面的SPAN分类信息与设定页面规则,得到信用证页面的页面编号,直至得到各信用证页面的页面编号,所述设定页面规则中包括栏位规则和关键字规则,所述栏位规则用于匹配SPAN分类信息中栏位信息的页面编号,所述关键字规则用于匹配SPAN分类信息中关键字信息的页面编号;根据所述各信用证页面的页面编号确定页面顺序。
可选的,所述处理模块502具体用于,根据智能字符识别方法,获取所述第一页面的第一文本信息;对所述第一文本信息进行数据清洗,得到所述各第一词语。
可选的,所述处理模块502具体用于,对所述第一文本信息进行数据清洗,得到所述各第一词语,包括:
剔除所述第一文本信息中的干扰字符,并按照设定转换规则将所述第一文本信息中的字符转换为统一格式,得到所述各第一词语,所述干扰字符包括中文字符、噪音符号和连接词。
可选的,所述处理模块502具体用于,获取第一历史页面集,所述第一历史页面集中包含历史信用证页面和历史单据页面;根据智能字符识别方法,针对所述第一历史页面集中的任一第二页面,获取所述第二页面的第二文本信息;基于所述第二文本信息,得到所述第二页面的各第二词语,直至得到所述第一历史页面集中各第二页面的各第二词语;获取任一第二词语对于所述第一历史页面集的词频,将小于设定词频阈值的第二词语删除,得到各第三词语和对应的词频形成的词频库。
可选的,所述处理模块502具体用于,获取第二历史页面集,所述第二历史页面集中包含历史信用证页面和历史单据页面,所述第一历史页面集和所述第二历史页面集中的页面存在交集或不存在交集;针对所述第二历史页面集中的任一第三页面,获取所述第三页面的第三文本信息;根据所述词频库,获取所述第三页面的各第四词语的词频;根据所述第三页面的各第四词语的词频,得到所述第三页面的第二特征向量,直至得到所述第二历史页面集中各第三页面的第二特征向量;根据所述各第三页面的第二特征向量和所述各第三页面的标签,对初始页面分类模型训练,得到训练后的所述页面分类模型。
可选的,所述处理模块502具体用于,获取第三历史页面集,所述第三历史页面集中包含历史信用证页面,所述第三历史页面集与所述第一历史页面集、所述第二历史页面集中的页面存在交集或不存在交集;
针对所述第三历史页面集中的任一第四页面,获取所述第四页面的SPAN文本信息,直至获取所述第三历史页面集中各第四页面的SPAN文本信息,所述SPAN文本信息中包括栏位信息;
根据所述各第四页面的SPAN文本信息对初始栏位分类模型进行训练,得到训练后的所述栏位分类模型。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (11)
1.一种数据处理方法,其特征在于,所述方法包括:
接收影像包,所述影像包中包含至少一个第一页面,所述第一页面为信用证页面和/或单据页面;
针对任一第一页面,识别所述第一页面中的各第一词语;
根据词频库和所述第一页面的各第一词语,获得所述第一页面的第一特征向量,直至得到所述影像包中各第一页面的第一特征向量,所述词频库中包含词语的词频信息;
将所述各第一页面的第一特征向量输入页面分类模型,获取页面分类结果,所述页面分类结果中包括第一页面为信用证页面或单据页面的分类信息。
2.如权利要求1所述的方法,其特征在于,获取页面分类结果之后,还包括:
针对任一信用证页面,以栏位SPAN为识别单元,获取所述信用证页面中的SPAN文本信息;
根据栏位分类模型对所述SPAN文本信息进行分类,得到所述信用证页面的SPAN分类信息,直至得到所述影像包中各信用证页面的SPAN分类信息;
针对任一信用证页面的SPAN分类信息与设定页面规则,得到信用证页面的页面编号,直至得到各信用证页面的页面编号,所述设定页面规则中包括栏位规则和关键字规则,所述栏位规则用于匹配SPAN分类信息中栏位信息的页面编号,所述关键字规则用于匹配SPAN分类信息中关键字信息的页面编号;
根据所述各信用证页面的页面编号确定页面顺序。
3.如权利要求1所述的方法,其特征在于,识别所述第一页面中的各第一词语,包括:
根据智能字符识别方法,获取所述第一页面的第一文本信息;
对所述第一文本信息进行数据清洗,得到所述各第一词语。
4.如权利要求3所述的方法,其特征在于,对所述第一文本信息进行数据清洗,得到所述各第一词语,包括:
剔除所述第一文本信息中的干扰字符,并按照设定转换规则将所述第一文本信息中的字符转换为统一格式,得到所述各第一词语,所述干扰字符包括中文字符、噪音符号和连接词。
5.如权利要求1所述的方法,其特征在于,所述词频库通过如下方式构建,包括:
获取第一历史页面集,所述第一历史页面集中包含历史信用证页面和历史单据页面;
根据智能字符识别方法,针对所述第一历史页面集中的任一第二页面,获取所述第二页面的第二文本信息;
基于所述第二文本信息,得到所述第二页面的各第二词语,直至得到所述第一历史页面集中各第二页面的各第二词语;
获取任一第二词语对于所述第一历史页面集的词频,将小于设定词频阈值的第二词语删除,得到各第三词语和对应的词频形成的词频库。
6.如权利要求5所述的方法,其特征在于,所述页面分类模型通过如下方式得到,包括:
获取第二历史页面集,所述第二历史页面集中包含历史信用证页面和历史单据页面,所述第一历史页面集和所述第二历史页面集中的页面存在交集或不存在交集;
针对所述第二历史页面集中的任一第三页面,获取所述第三页面的第三文本信息;
根据所述词频库,获取所述第三页面的各第四词语的词频;
根据所述第三页面的各第四词语的词频,得到所述第三页面的第二特征向量,直至得到所述第二历史页面集中各第三页面的第二特征向量;
根据所述各第三页面的第二特征向量和所述各第三页面的标签,对初始页面分类模型训练,得到训练后的所述页面分类模型。
7.如权利要求2所述的方法,其特征在于,所述栏位分类模型通过如下方式得到,包括:
获取第三历史页面集,所述第三历史页面集中包含历史信用证页面,所述第三历史页面集与所述第一历史页面集、所述第二历史页面集中的页面存在交集或不存在交集;
针对所述第三历史页面集中的任一第四页面,获取所述第四页面的SPAN文本信息,直至获取所述第三历史页面集中各第四页面的SPAN文本信息,所述SPAN文本信息中包括栏位信息;
根据所述各第四页面的SPAN文本信息对初始栏位分类模型进行训练,得到训练后的所述栏位分类模型。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于接收影像包,所述影像包中包含至少一个第一页面,所述第一页面为信用证页面和/或单据页面;
处理模块,用于针对任一第一页面,识别所述第一页面中的各第一词语;根据词频库和所述第一页面的各第一词语,获得所述第一页面的第一特征向量,直至得到所述影像包中各第一页面的第一特征向量,所述词频库中包含词语的词频信息;
所述处理模块还用于,将所述各第一页面的第一特征向量输入页面分类模型,获取页面分类结果,所述页面分类结果中包括第一页面为信用证页面或单据页面的分类信息。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,当所述程序在计算机上运行时,使得计算机实现执行权利要求1至7中任一项所述的方法。
10.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行如权利要求1至7任一权利要求所述的方法。
11.一种计算机程序产品,其特征在于,当计算机读取并执行所述计算机程序产品时,使得计算机执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211292786.XA CN115840833A (zh) | 2022-10-21 | 2022-10-21 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211292786.XA CN115840833A (zh) | 2022-10-21 | 2022-10-21 | 一种数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115840833A true CN115840833A (zh) | 2023-03-24 |
Family
ID=85576446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211292786.XA Pending CN115840833A (zh) | 2022-10-21 | 2022-10-21 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115840833A (zh) |
-
2022
- 2022-10-21 CN CN202211292786.XA patent/CN115840833A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5090369B2 (ja) | 遠隔に記憶されたテンプレートを使用する自動化された処理(書式を処理する方法、該書式を処理する装置) | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
US20200184210A1 (en) | Multi-modal document feature extraction | |
EP2671190B1 (en) | System for data extraction and processing | |
WO2019157025A1 (en) | System and method for generating an electronic template corresponding to an image of an evidence | |
CN112418812A (zh) | 分布式全链路自动化智能通关系统、方法及存储介质 | |
CN113963147A (zh) | 一种基于语义分割的关键信息提取方法及系统 | |
CN112464845A (zh) | 票据识别方法、设备及计算机存储介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN115599885A (zh) | 文档全文检索方法、装置、计算机设备、存储介质及产品 | |
CN112364837A (zh) | 一种基于目标检测和文本识别的票据信息识别方法 | |
CN114998920A (zh) | 基于nlp语义识别的供应链金融文件管理方法及系统 | |
CN113469005B (zh) | 一种银行回单的识别方法、相关装置及存储介质 | |
CN118333776A (zh) | 基于ai的报销单据处理方法、装置以及电子设备 | |
CN114511866A (zh) | 数据稽核方法、装置、系统、处理器及机器可读存储介质 | |
CN114743012A (zh) | 一种文本识别方法及装置 | |
CN115840833A (zh) | 一种数据处理方法及装置 | |
CN114625872A (zh) | 基于全局指针的风险审核方法、系统、设备及存储介质 | |
CN114936927A (zh) | 跨境汇款单据验证方法及装置 | |
CN114443834A (zh) | 一种证照信息提取的方法、装置及存储介质 | |
US20200257737A1 (en) | Document handling | |
CN113934833A (zh) | 训练数据的获取方法、装置、系统及存储介质 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN113947510A (zh) | 一种基于文件格式自适应的不动产电子证照管理系统 | |
US11875109B1 (en) | Machine learning (ML)-based system and method for facilitating correction of data in documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |