CN116522157A - 文件比对方法、装置、设备、介质及产品 - Google Patents
文件比对方法、装置、设备、介质及产品 Download PDFInfo
- Publication number
- CN116522157A CN116522157A CN202310318632.1A CN202310318632A CN116522157A CN 116522157 A CN116522157 A CN 116522157A CN 202310318632 A CN202310318632 A CN 202310318632A CN 116522157 A CN116522157 A CN 116522157A
- Authority
- CN
- China
- Prior art keywords
- data
- element data
- transaction
- file
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012795 verification Methods 0.000 claims abstract description 121
- 238000000605 extraction Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000004140 cleaning Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于人工智能技术领域,具体提供一种文件比对方法、装置、设备、介质及产品,该方法包括:获取待处理的交易证实文件和交易单文件;采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据;第一结构化要素数据包括第一关键要素数据;第二结构化要素数据包括第二关键要素数据;根据第一关键要素数据和第二关键要素数据确定匹配的第一结构化要素数据和第二结构化要素数据;比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果。本申请的文件比对方法,相比人工方式耗时更短,处理效率更高。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文件比对方法、装置、设备、介质及产品。
背景技术
在金融领域中,如银行,业务人员在确定一笔交易是否正确和一致时,需要拿交易方线下提供的交易证实文件,根据交易证实文件中的某些关键要素,通过肉眼在系统中找到匹配当前证实的交易单文件,并比对交易证实文件和交易单文件的其它信息,以确保交易数据的正确性和一致性。
目前通过人工方式进行交易证实文件和交易单文件之间比对的方式,平均每次耗时约7分钟,耗时较长,处理效率较低。
发明内容
本申请提供一种文件比对方法、装置、设备、介质及产品,用以解决目前通过人工方式进行交易证实文件和交易单文件之间比对的方式,耗时较长,处理效率较低的问题。
本申请第一方面提供一种文件比对方法,包括:
获取待处理的交易证实文件和交易单文件;
采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据;所述第一结构化要素数据包括第一关键要素数据;所述第二结构化要素数据包括第二关键要素数据;
根据所述第一关键要素数据和所述第二关键要素数据确定匹配的第一结构化要素数据和第二结构化要素数据;
比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果。
进一步地,如上所述的方法,所述获取待处理的交易证实文件和交易单文件,包括:
接收机器人流程自动化应用上传的待处理的交易证实文件;
从前台交易服务器获取待处理的交易单文件。
进一步地,如上所述的方法,所述预设语义识别提取模型包括:NLP语义识别模型和要素解析提取模型;
所述采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据,包括:
采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别和要素提取,生成交易证实文件对应的第一要素文本数据和交易单文件对应的第二要素文本数据;
采用要素解析提取模型对所述第一要素文本数据和所述第二要素文本数据进行数据清洗和要素解析处理,生成所述第一结构化要素数据和所述第二结构化要素数据。
进一步地,如上所述的方法,所述采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别和要素提取,生成交易证实文件对应的第一要素文本数据和交易单文件对应的第二要素文本数据,包括:
采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别,生成交易证实文件对应的第一总文本数据和交易单文件对应的第二总文本数据;
采用NLP语义识别模型对所述第一总文本数据和所述第二总文本数据中各要素进行要素提取,生成所述第一要素文本数据和所述第二要素文本数据。
进一步地,如上所述的方法,所述采用要素解析提取模型对所述第一要素文本数据和所述第二要素文本数据进行数据清洗和要素解析处理,生成所述第一结构化要素数据和所述第二结构化要素数据,包括:
采用要素解析提取模型对所述第一要素文本数据和所述第二要素文本数据进行数据清洗,生成清洗后的第一要素文本数据和清洗后的第二要素文本数据;
采用要素解析提取模型对清洗后的第一要素文本数据和清洗后的第二要素文本数据进行要素解析,生成所述第一结构化要素数据和所述第二结构化要素数据。
进一步地,如上所述的方法,所述第一结构化要素数据还包括:第一普通要素数据;所述第二结构化要素数据还包括:第二普通要素数据;
所述采用要素解析提取模型对清洗后的第一要素文本数据和清洗后的第二要素文本数据进行要素解析,生成所述第一结构化要素数据和所述第二结构化要素数据,包括:
采用要素解析提取模型基于第一业务类别确定清洗后的第一要素文本数据中的第一关键要素数据和第一普通要素数据;所述第一业务类别为与第一要素文本数据对应的交易证实文件的业务类别;
采用要素解析提取模型基于第二业务类别确定清洗后的第二要素文本数据中的第二关键要素数据和第二普通要素数据;所述第二业务类别为与第二要素文本数据对应的交易单文件的业务类别。
进一步地,如上所述的方法,所述比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果,包括:
比对匹配的第一普通要素数据和第二普通要素数据;
若确定匹配的第一普通要素数据和第二普通要素数据不一致,则根据所述第一业务类别和所述第二业务类别确定预设数据库中是否存在对应模糊匹配策略;
若确定存在模糊匹配策略,则按照所述模糊匹配策略对匹配的第一普通要素数据和第二普通要素数据进行模糊匹配,生成模糊匹配的比对结果;
若确定匹配的第一普通要素数据和第二普通要素数据一致,则生成比对一致的比对结果。
进一步地,如上所述的方法,若模糊匹配的比对结果为模糊匹配不一致,则所述方法还包括:
输出模糊匹配不一致的第一普通要素数据和第二普通要素数据。
本申请第二方面提供一种文件比对装置,包括:
获取模块,用于获取待处理的交易证实文件和交易单文件;
生成模块,用于采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据;所述第一结构化要素数据包括第一关键要素数据;所述第二结构化要素数据包括第二关键要素数据;
确定模块,用于根据所述第一关键要素数据和所述第二关键要素数据确定匹配的第一结构化要素数据和第二结构化要素数据;
比对模块,用于比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果。
进一步地,如上所述的装置,所述获取模块具体用于:
接收机器人流程自动化应用上传的待处理的交易证实文件;从前台交易服务器获取待处理的交易单文件。
进一步地,如上所述的装置,所述预设语义识别提取模型包括:NLP语义识别模型和要素解析提取模型;
所述生成模块具体用于:
采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别和要素提取,生成交易证实文件对应的第一要素文本数据和交易单文件对应的第二要素文本数据;采用要素解析提取模型对所述第一要素文本数据和所述第二要素文本数据进行数据清洗和要素解析处理,生成所述第一结构化要素数据和所述第二结构化要素数据。
进一步地,如上所述的装置,所述生成模块在采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别和要素提取,生成交易证实文件对应的第一要素文本数据和交易单文件对应的第二要素文本数据时,具体用于:
采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别,生成交易证实文件对应的第一总文本数据和交易单文件对应的第二总文本数据;采用NLP语义识别模型对所述第一总文本数据和所述第二总文本数据中各要素进行要素提取,生成所述第一要素文本数据和所述第二要素文本数据。
进一步地,如上所述的装置,所述生成模块在采用要素解析提取模型对所述第一要素文本数据和所述第二要素文本数据进行数据清洗和要素解析处理,生成所述第一结构化要素数据和所述第二结构化要素数据时,具体用于:
采用要素解析提取模型对所述第一要素文本数据和所述第二要素文本数据进行数据清洗,生成清洗后的第一要素文本数据和清洗后的第二要素文本数据;采用要素解析提取模型对清洗后的第一要素文本数据和清洗后的第二要素文本数据进行要素解析,生成所述第一结构化要素数据和所述第二结构化要素数据。
进一步地,如上所述的装置,所述第一结构化要素数据还包括:第一普通要素数据;所述第二结构化要素数据还包括:第二普通要素数据;
所述生成模块在采用要素解析提取模型对清洗后的第一要素文本数据和清洗后的第二要素文本数据进行要素解析,生成所述第一结构化要素数据和所述第二结构化要素数据时,具体用于:
采用要素解析提取模型基于第一业务类别确定清洗后的第一要素文本数据中的第一关键要素数据和第一普通要素数据;所述第一业务类别为与第一要素文本数据对应的交易证实文件的业务类别;采用要素解析提取模型基于第二业务类别确定清洗后的第二要素文本数据中的第二关键要素数据和第二普通要素数据;所述第二业务类别为与第二要素文本数据对应的交易单文件的业务类别。
进一步地,如上所述的装置,所述比对模块具体用于:
比对匹配的第一普通要素数据和第二普通要素数据;若确定匹配的第一普通要素数据和第二普通要素数据不一致,则根据所述第一业务类别和所述第二业务类别确定预设数据库中是否存在对应模糊匹配策略;若确定存在模糊匹配策略,则按照所述模糊匹配策略对匹配的第一普通要素数据和第二普通要素数据进行模糊匹配,生成模糊匹配的比对结果;若确定匹配的第一普通要素数据和第二普通要素数据一致,则生成比对一致的比对结果。
进一步地,如上所述的装置,若模糊匹配的比对结果为模糊匹配不一致,则所述比对模块还用于:
输出模糊匹配不一致的第一普通要素数据和第二普通要素数据。
本申请第三方面提供一种电子设备,包括:存储器和处理器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面任一项所述的文件比对方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面任一项所述的文件比对方法。
本申请第五方面提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面任一项所述的文件比对方法。
本申请提供的一种文件比对方法、装置、设备、介质及产品,该方法包括:获取待处理的交易证实文件和交易单文件;采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据;所述第一结构化要素数据包括第一关键要素数据;所述第二结构化要素数据包括第二关键要素数据;根据所述第一关键要素数据和所述第二关键要素数据确定匹配的第一结构化要素数据和第二结构化要素数据;比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果。本申请的文件比对方法,采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据。从而基于第一结构化要素数据和第二结构化要素数据进行比对,生成对应的比对结果。相比人工方式耗时更短,处理效率更高。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为可以实现本申请实施例的文件比对方法的场景图;
图2为本申请提供的文件比对方法的流程示意图一;
图3为本申请提供的文件比对方法的流程示意图二;
图4为本申请提供的文件比对方法的整体流程示意图;
图5为本申请提供的文件比对装置的结构示意图;
图6为本申请提供的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请实施例的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
需要说明的是,本公开文件比对方法、装置、设备、介质及产品可用于人工智能技术领域。也可用于除人工智能技术领域以外的任意领域。本公开文件比对方法、装置、设备、介质及产品应用领域不作限定。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
为了清楚理解本申请的技术方案,首先对现有技术的方案进行详细介绍。目前通过人工方式进行交易证实文件和交易单文件之间比对的方式,不仅需要业务人员通过肉眼确定与交易证实文件匹配的交易单文件,还需进一步比对交易证实文件匹配的交易单文件之间的一致性。由于交易证实文件和交易单文件中的要素较多,业务人员通常需要耗时较长时间,比如平均每笔交易的比对耗时约7分钟,平均每天交易约20笔,每天需多耗费140分钟,耗时较长,处理效率较低。
所以针对现有技术中通过人工方式进行交易证实文件和交易单文件之间比对的方式,耗时较长,处理效率较低的问题,发明人在研究中发现,为了解决该问题,可以采用自动化处理的方式,通过自动获取待处理的交易证实文件和交易单文件,自动比对交易证实文件和交易单文件降低耗时,提高处理效率。
具体的,获取待处理的交易证实文件和交易单文件。采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据。第一结构化要素数据包括第一关键要素数据。第二结构化要素数据包括第二关键要素数据。根据第一关键要素数据和第二关键要素数据确定匹配的第一结构化要素数据和第二结构化要素数据。比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果。
本申请的文件比对方法,采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据。从而基于第一结构化要素数据和第二结构化要素数据进行比对,生成对应的比对结果。相比人工方式耗时更短,处理效率更高。
发明人基于上述的创造性发现,提出了本申请的技术方案。
下面对本申请实施例提供的文件比对方法的应用场景进行介绍。如图1所示,其中,1为第一电子设备,2为第二电子设备。本申请实施例提供的文件比对方法对应的应用场景的网络架构中包括:第一电子设备1和第二电子设备2。第二电子设备2中存储有待处理的交易证实文件和交易单文件,第二电子设备2中的待处理的交易证实文件和交易单文件可以从前台交易服务器处获取。
示例性的,第二电子设备2发送待处理的交易证实文件和交易单文件至第一电子设备1。第一电子设备1采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据。其中,第一结构化要素数据包括第一关键要素数据。第二结构化要素数据包括第二关键要素数据。同时,第一电子设备1根据第一关键要素数据和第二关键要素数据确定匹配的第一结构化要素数据和第二结构化要素数据。第一电子设备1比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果。比对结果可以为第一结构化要素数据和第二结构化要素数据一致或不一致,该比对结果代表第一结构化要素数据对应的交易证实文件和第二结构化要素数据对应的交易单文件一致或不一致。在确定比对结果后,可以显示比对结果给业务人员,或者输出比对结果至业务人员终端设备以使业务人员知晓本次比对结果,并进行后续处理。
下面结合说明书附图对本申请实施例进行介绍。
图2为本申请提供的文件比对方法的流程示意图一,如图2所示,本实施例中,本申请实施例的执行主体为文件比对装置,该文件比对装置可以集成在电子设备中。则本实施例提供的文件比对方法包括以下几个步骤:
步骤S101,获取待处理的交易证实文件和交易单文件。
本实施例中,获取待处理的交易证实文件的方式可以是通过机器人流程自动化应用上传获取,也可以是直接接收交易方设备发送的交易证实文件,本实施例对此不作限定。
交易单文件可以从前台交易服务器处获取。
交易证实文件和交易单文件可以为一个或多个。
步骤S102,采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据。第一结构化要素数据包括第一关键要素数据。第二结构化要素数据包括第二关键要素数据。
本实施例中,预设语义识别提取模型可以包括语义识别模型和要素解析提取模型,语义识别模型用于对交易证实文件和交易单文件进行语义识别,要素解析提取模型用于提取要素以及实现要素结构化。
预设语义识别提取模型可以根据历史的交易证实文件和历史的交易单文件进行训练,从而提高识别以及要素提取的准确性。
交易证实文件和交易单文件中具有多种要素,其中,某些要素较为关键,为关键要素数据,即上述中的第一关键要素数据和第二关键要素数据。第一关键要素数据比如交易证实文件中时间、交易双方身份证明等。第二关键要素数据比如交易金额,交易时间,交易双方标识等。根据不同的业务类别,关键要素数据可能发生改变,可以根据实际应用进行具体设置。
步骤S103,根据第一关键要素数据和第二关键要素数据确定匹配的第一结构化要素数据和第二结构化要素数据。
本实施例中,将第一关键要素数据与对应的第二关键要素数据相匹配,从而确定匹配的第一关键要素数据和第二关键要素数据。根据匹配的第一关键要素数据和第二关键要素数据可以进一步确定匹配的第一结构化要素数据和第二结构化要素数据。
步骤S104,比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果。
比对匹配的第一结构化要素数据和第二结构化要素数据,比对结果可以为一致或不一致。其代表对应的交易证实文件和对应的交易单文件一致或不一致。
本申请实施例提供的一种文件比对方法,该方法包括:获取待处理的交易证实文件和交易单文件。采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据。第一结构化要素数据包括第一关键要素数据。第二结构化要素数据包括第二关键要素数据。根据第一关键要素数据和第二关键要素数据确定匹配的第一结构化要素数据和第二结构化要素数据。比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果。
本申请的文件比对方法,采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据。从而基于第一结构化要素数据和第二结构化要素数据进行比对,生成对应的比对结果。相比人工方式耗时更短,处理效率更高。
图3为本申请提供的文件比对方法的流程示意图二,如图3所示,本实施例提供的文件比对方法,是在本申请上一实施例提供的文件比对方法的基础上,进行了进一步的细化。则本实施例提供的文件比对方法包括以下步骤。
步骤S201,接收机器人流程自动化应用上传的待处理的交易证实文件。
本实施例中,不需要发送获取交易证实文件的请求,通过机器人流程自动化应用上传对应交易证实文件即可,从而可以进一步提高交易证实文件的获取效率。
步骤S202,从前台交易服务器获取待处理的交易单文件。
本实施例中,前台交易服务器接收各种交易单文件,可以在每次接收交易单文件时,都从前台交易服务器直接获取待处理的交易单文件,从而提高获取交易单文件的效率。
需要说明的是预设语义识别提取模型包括:NLP语义识别模型和要素解析提取模型。
步骤S203,采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别和要素提取,生成交易证实文件对应的第一要素文本数据和交易单文件对应的第二要素文本数据。
本实施例中,NLP(英文全称为:Natural Language Processing,中文为:自然语言处理),NLP语义识别模型在预训练后,可以对交易证实文件和交易单文件进行语义识别以及要素提取处理。语义识别以及要素提取处理的准确性较高。
交易证实文件对应的第一要素文本数据是交易证实文件的完整要素数据,交易单文件对应的第二要素文本数据是交易单文件的完整要素数据,由于交易证实文件和交易单文件中不仅包括要素还包括框架、布局文字等,通过NLP语义识别模型可以提取出完整要素数据,方便后续的要素比对。
可选的,本实施例中,步骤S203可以具体为:
采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别,生成交易证实文件对应的第一总文本数据和交易单文件对应的第二总文本数据。
采用NLP语义识别模型对第一总文本数据和第二总文本数据中各要素进行要素提取,生成第一要素文本数据和第二要素文本数据。
根据实际应用场景,预先对交易证实文件和交易单文件中的要素数据进行标注,包括具体要素名称和要素的表述样式。建立NLP语义识别模型,自定义要素抽取规则并通过标注的交易证实文件和交易单文件进行训练。同时,根据要素的性质选择匹配的类型和模型,对相关要素进行抽取,生成结构化数据,并同时根据标注的交易证实文件和交易单文件优化规则和模型,调整抽取的具体内容。
步骤S204,采用要素解析提取模型对第一要素文本数据和第二要素文本数据进行数据清洗和要素解析处理,生成第一结构化要素数据和第二结构化要素数据。
本实施例中,数据清洗是指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。通过数据清洗处理可以去除第一要素文本数据和第二要素文本数据中的错误数据,为后续比对提供基础,避免错误数据对比对造成干扰,从而提高后续比对的准确性。要素解析处理主要是对要素进行分类和结构化处理,方便后续的比对处理,提高比对效率。
可选的,本实施例中,步骤S204可以具体为:
采用要素解析提取模型对第一要素文本数据和第二要素文本数据进行数据清洗,生成清洗后的第一要素文本数据和清洗后的第二要素文本数据。
采用要素解析提取模型对清洗后的第一要素文本数据和清洗后的第二要素文本数据进行要素解析,生成第一结构化要素数据和第二结构化要素数据。
清洗后的第一要素文本数据和清洗后的第二要素文本数据清除了错误数据,在基于清洗后的第一要素文本数据和清洗后的第二要素文本数据进行的要素解析,可以确定出更准确的第一结构化要素数据和第二结构化要素数据。
可选的,本实施例中,第一结构化要素数据还包括:第一普通要素数据。第二结构化要素数据还包括:第二普通要素数据。
同时,采用要素解析提取模型对清洗后的第一要素文本数据和清洗后的第二要素文本数据进行要素解析,生成第一结构化要素数据和第二结构化要素数据的流程可以具体为:
采用要素解析提取模型基于第一业务类别确定清洗后的第一要素文本数据中的第一关键要素数据和第一普通要素数据。第一业务类别为与第一要素文本数据对应的交易证实文件的业务类别。
采用要素解析提取模型基于第二业务类别确定清洗后的第二要素文本数据中的第二关键要素数据和第二普通要素数据。第二业务类别为与第二要素文本数据对应的交易单文件的业务类别。
第一普通要素数据是第一结构化要素数据中除去第一关键要素数据之外的要素数据,相比第一关键要素数据,重要性较弱。同理,第二普通要素数据是第二结构化要素数据中除去第二关键要素数据之外的要素数据。
本实施例中,关键要素数据与业务类别相关,不同的业务类别可以设置不同的关键要素。比如转账类交易,关键要素数据可以为转账双方的账户、转账行号等,比如金融交易,可以为交易项目、投入金额等。
在进行要素解析时,可以通过预设的字段配置函数对解析的要素数据进行结构化处理,形成统一的结构化数据,供后续要素比对使用。
步骤S205,根据第一关键要素数据和第二关键要素数据确定匹配的第一结构化要素数据和第二结构化要素数据。
本实施例中,步骤205的实现方式与上一实施例的步骤103的实现方式类似,在此不再一一赘述。
步骤S206,比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果。
本实施例中,步骤206的实现方式与上一实施例的步骤104的实现方式类似,在此不再一一赘述。
可选的,本实施例中,步骤S206可以具体为:
比对匹配的第一普通要素数据和第二普通要素数据。
若确定匹配的第一普通要素数据和第二普通要素数据不一致,则根据第一业务类别和第二业务类别确定预设数据库中是否存在对应模糊匹配策略。
若确定存在模糊匹配策略,则按照模糊匹配策略对匹配的第一普通要素数据和第二普通要素数据进行模糊匹配,生成模糊匹配的比对结果。
若确定匹配的第一普通要素数据和第二普通要素数据一致,则生成比对一致的比对结果。
可选的,本实施例中,若模糊匹配的比对结果为模糊匹配不一致,则输出模糊匹配不一致的第一普通要素数据和第二普通要素数据。
某些业务类别精细度要求较高,不能使用模糊匹配的方式,某些业务类别精细度要求相对较低,可以采用模糊匹配的方式。在比对第一普通要素数据和第二普通要素数据时,如果比对结果为不一致,查看是否存在模糊匹配策略,如果有,则继续模糊匹配。如果没有则置为人工比对。如果模糊匹配不一致,则输出模糊匹配不一致的第一普通要素数据和第二普通要素数据,从而进行人工比对,如果都一致,则确定自动匹配成功。同时,还可以在显示页面上展示比对双方的要素结果,标黄不一致的结果,提示业务人员。
本实施例的文件比对方法的整体流程如图4所示,本实施例的整体流程如下:
获取交易证实文件和交易单文件,对交易证实文件和交易单文件进行NLP语义识别,生成交易证实文件识别结果和交易单文件识别结果。同时,对交易证实文件识别结果和交易单文件识别结果进行要素解析提取,并对提取后的结果进行比对处理。若比对结果为一致,则确定完成自动比对处理,若比对结果为不一致,则转为人工处理,从而提高比对的准确性。
本实施例的方法,通过对交易证实文件和交易单文件的自动比对,完成线上交易证实的比对,降低了业务的人工成本,提高了系统的可维护性,且同时减少了人工肉眼核对错误的概率,提高处理效率。
图5为本申请提供的文件比对装置的结构示意图,如图5所示,本实施例中,该文件比对装置300可以设置在电子设备中,文件比对装置300包括:
获取模块301,用于获取待处理的交易证实文件和交易单文件。
生成模块302,用于采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据。第一结构化要素数据包括第一关键要素数据。第二结构化要素数据包括第二关键要素数据。
确定模块303,用于根据第一关键要素数据和第二关键要素数据确定匹配的第一结构化要素数据和第二结构化要素数据。
比对模块304,用于比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果。
本实施例提供的文件比对装置可以执行图2所示方法实施例的技术方案,其实现原理和技术效果与图2所示方法实施例类似,在此不再一一赘述。
本申请提供的文件比对装置在上一实施例提供的文件比对装置的基础上,对文件比对装置进行了进一步的细化,则文件比对装置300包括:
可选的,本实施例中,获取模块301具体用于:
接收机器人流程自动化应用上传的待处理的交易证实文件。从前台交易服务器获取待处理的交易单文件。
可选的,本实施例中,预设语义识别提取模型包括:NLP语义识别模型和要素解析提取模型。
生成模块302具体用于:
采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别和要素提取,生成交易证实文件对应的第一要素文本数据和交易单文件对应的第二要素文本数据。采用要素解析提取模型对第一要素文本数据和第二要素文本数据进行数据清洗和要素解析处理,生成第一结构化要素数据和第二结构化要素数据。
可选的,本实施例中,生成模块302在采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别和要素提取,生成交易证实文件对应的第一要素文本数据和交易单文件对应的第二要素文本数据时,具体用于:
采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别,生成交易证实文件对应的第一总文本数据和交易单文件对应的第二总文本数据。采用NLP语义识别模型对第一总文本数据和第二总文本数据中各要素进行要素提取,生成第一要素文本数据和第二要素文本数据。
可选的,本实施例中,生成模块302在采用要素解析提取模型对第一要素文本数据和第二要素文本数据进行数据清洗和要素解析处理,生成第一结构化要素数据和第二结构化要素数据时,具体用于:
采用要素解析提取模型对第一要素文本数据和第二要素文本数据进行数据清洗,生成清洗后的第一要素文本数据和清洗后的第二要素文本数据。采用要素解析提取模型对清洗后的第一要素文本数据和清洗后的第二要素文本数据进行要素解析,生成第一结构化要素数据和第二结构化要素数据。
可选的,本实施例中,第一结构化要素数据还包括:第一普通要素数据。第二结构化要素数据还包括:第二普通要素数据。
生成模块302在采用要素解析提取模型对清洗后的第一要素文本数据和清洗后的第二要素文本数据进行要素解析,生成第一结构化要素数据和第二结构化要素数据时,具体用于:
采用要素解析提取模型基于第一业务类别确定清洗后的第一要素文本数据中的第一关键要素数据和第一普通要素数据。第一业务类别为与第一要素文本数据对应的交易证实文件的业务类别。采用要素解析提取模型基于第二业务类别确定清洗后的第二要素文本数据中的第二关键要素数据和第二普通要素数据。第二业务类别为与第二要素文本数据对应的交易单文件的业务类别。
可选的,本实施例中,比对模块304具体用于:
比对匹配的第一普通要素数据和第二普通要素数据。若确定匹配的第一普通要素数据和第二普通要素数据不一致,则根据第一业务类别和第二业务类别确定预设数据库中是否存在对应模糊匹配策略。若确定存在模糊匹配策略,则按照模糊匹配策略对匹配的第一普通要素数据和第二普通要素数据进行模糊匹配,生成模糊匹配的比对结果。若确定匹配的第一普通要素数据和第二普通要素数据一致,则生成比对一致的比对结果。
可选的,本实施例中,若模糊匹配的比对结果为模糊匹配不一致,则比对模块304还用于:
输出模糊匹配不一致的第一普通要素数据和第二普通要素数据。
本实施例提供的文件比对装置可以执行图2-图4所示方法实施例的技术方案,其实现原理和技术效果与图2-图4所示方法实施例类似,在此不再一一赘述。
根据本申请的实施例,本申请还提供了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。
如图6所示,图6是本申请提供的电子设备的结构示意图。电子设备旨在各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、刀片式服务器、大型计算机、和其它适合的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:处理器401和存储器402。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理。
存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的文件比对方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文件比对方法。
存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文件比对方法对应的程序指令/模块(例如,附图5所示的获取模块301、生成模块302、确定模块303和比对模块304)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例中的文件比对方法。
同时,本实施例还提供一种计算机产品,当该计算机产品中的指令由电子设备的处理器执行时,使得电子设备能够执行上述实施例的文件比对方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请实施例的其它实施方案。本申请旨在涵盖本申请实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请实施例的一般性原理并包括本申请实施例未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请实施例的范围仅由所附的权利要求书来限制。
Claims (12)
1.一种文件比对方法,其特征在于,包括:
获取待处理的交易证实文件和交易单文件;
采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据;所述第一结构化要素数据包括第一关键要素数据;所述第二结构化要素数据包括第二关键要素数据;
根据所述第一关键要素数据和所述第二关键要素数据确定匹配的第一结构化要素数据和第二结构化要素数据;
比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理的交易证实文件和交易单文件,包括:
接收机器人流程自动化应用上传的待处理的交易证实文件;
从前台交易服务器获取待处理的交易单文件。
3.根据权利要求1或2所述的方法,其特征在于,所述预设语义识别提取模型包括:NLP语义识别模型和要素解析提取模型;
所述采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据,包括:
采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别和要素提取,生成交易证实文件对应的第一要素文本数据和交易单文件对应的第二要素文本数据;
采用要素解析提取模型对所述第一要素文本数据和所述第二要素文本数据进行数据清洗和要素解析处理,生成所述第一结构化要素数据和所述第二结构化要素数据。
4.根据权利要求3所述的方法,其特征在于,所述采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别和要素提取,生成交易证实文件对应的第一要素文本数据和交易单文件对应的第二要素文本数据,包括:
采用NLP语义识别模型对交易证实文件和交易单文件进行语义识别,生成交易证实文件对应的第一总文本数据和交易单文件对应的第二总文本数据;
采用NLP语义识别模型对所述第一总文本数据和所述第二总文本数据中各要素进行要素提取,生成所述第一要素文本数据和所述第二要素文本数据。
5.根据权利要求3所述的方法,其特征在于,所述采用要素解析提取模型对所述第一要素文本数据和所述第二要素文本数据进行数据清洗和要素解析处理,生成所述第一结构化要素数据和所述第二结构化要素数据,包括:
采用要素解析提取模型对所述第一要素文本数据和所述第二要素文本数据进行数据清洗,生成清洗后的第一要素文本数据和清洗后的第二要素文本数据;
采用要素解析提取模型对清洗后的第一要素文本数据和清洗后的第二要素文本数据进行要素解析,生成所述第一结构化要素数据和所述第二结构化要素数据。
6.根据权利要求5所述的方法,其特征在于,所述第一结构化要素数据还包括:第一普通要素数据;所述第二结构化要素数据还包括:第二普通要素数据;
所述采用要素解析提取模型对清洗后的第一要素文本数据和清洗后的第二要素文本数据进行要素解析,生成所述第一结构化要素数据和所述第二结构化要素数据,包括:
采用要素解析提取模型基于第一业务类别确定清洗后的第一要素文本数据中的第一关键要素数据和第一普通要素数据;所述第一业务类别为与第一要素文本数据对应的交易证实文件的业务类别;
采用要素解析提取模型基于第二业务类别确定清洗后的第二要素文本数据中的第二关键要素数据和第二普通要素数据;所述第二业务类别为与第二要素文本数据对应的交易单文件的业务类别。
7.根据权利要求6所述的方法,其特征在于,所述比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果,包括:
比对匹配的第一普通要素数据和第二普通要素数据;
若确定匹配的第一普通要素数据和第二普通要素数据不一致,则根据所述第一业务类别和所述第二业务类别确定预设数据库中是否存在对应模糊匹配策略;
若确定存在模糊匹配策略,则按照所述模糊匹配策略对匹配的第一普通要素数据和第二普通要素数据进行模糊匹配,生成模糊匹配的比对结果;
若确定匹配的第一普通要素数据和第二普通要素数据一致,则生成比对一致的比对结果。
8.根据权利要求7所述的方法,其特征在于,若模糊匹配的比对结果为模糊匹配不一致,则所述方法还包括:
输出模糊匹配不一致的第一普通要素数据和第二普通要素数据。
9.一种文件比对装置,其特征在于,包括:
获取模块,用于获取待处理的交易证实文件和交易单文件;
生成模块,用于采用预设语义识别提取模型对交易证实文件和交易单文件进行语义识别和要素结构化处理,生成交易证实文件对应的第一结构化要素数据和交易单文件对应的第二结构化要素数据;所述第一结构化要素数据包括第一关键要素数据;所述第二结构化要素数据包括第二关键要素数据;
确定模块,用于根据所述第一关键要素数据和所述第二关键要素数据确定匹配的第一结构化要素数据和第二结构化要素数据;
比对模块,用于比对匹配的第一结构化要素数据和第二结构化要素数据,生成对应的比对结果。
10.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至8任一项所述的文件比对方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的文件比对方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8任一项所述的文件比对方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310318632.1A CN116522157A (zh) | 2023-03-28 | 2023-03-28 | 文件比对方法、装置、设备、介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310318632.1A CN116522157A (zh) | 2023-03-28 | 2023-03-28 | 文件比对方法、装置、设备、介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116522157A true CN116522157A (zh) | 2023-08-01 |
Family
ID=87400192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310318632.1A Pending CN116522157A (zh) | 2023-03-28 | 2023-03-28 | 文件比对方法、装置、设备、介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116522157A (zh) |
-
2023
- 2023-03-28 CN CN202310318632.1A patent/CN116522157A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10402163B2 (en) | Intelligent data extraction | |
CN107679997A (zh) | 医疗理赔拒付方法、装置、终端设备及存储介质 | |
CN111783636B (zh) | 基于ocr的国际收支网申数据处理方法和装置 | |
CN111723870B (zh) | 基于人工智能的数据集获取方法、装置、设备和介质 | |
CN112712429A (zh) | 汇款业务审核方法、装置、计算机设备和存储介质 | |
CN110766275A (zh) | 数据验证方法、装置、计算机设备及存储介质 | |
CN111782809A (zh) | 国际收支网申数据处理方法、装置、电子设备及存储介质 | |
CN111367904A (zh) | 业务处理方法、装置及服务器 | |
CN111898611A (zh) | 一种结合rpa和ai的收款凭证生成方法、装置、设备及介质 | |
CN110569237A (zh) | 实现实时数据清洗处理的系统及其方法 | |
CN111091408A (zh) | 用户识别模型创建方法、装置与识别方法、装置 | |
CN114298845A (zh) | 一种理赔票据处理方法和装置 | |
CN110363667A (zh) | 基于ai的订单融资处理方法、装置、计算机设备及存储介质 | |
CN107871213B (zh) | 一种交易行为评价方法、装置、服务器以及存储介质 | |
CN113032440A (zh) | 训练风险模型的数据处理方法和装置 | |
CN109324963B (zh) | 自动测试收益结果的方法及终端设备 | |
CN116071150A (zh) | 数据处理方法、银行产品推广、风控系统、服务器及介质 | |
CN116522157A (zh) | 文件比对方法、装置、设备、介质及产品 | |
CN108125686B (zh) | 一种反欺诈方法及系统 | |
CN114723568A (zh) | 理财产品的推荐方法、装置、服务器、介质及产品 | |
CN113297846A (zh) | 对账处理方法及装置 | |
CN113158988A (zh) | 财务报表处理方法、装置以及计算机可读存储介质 | |
CN112132693A (zh) | 交易验证方法、装置、计算机设备与计算机可读存储介质 | |
CN111797590A (zh) | 数据核对方法、装置和设备 | |
CN108829888A (zh) | 一种非关系型数据库文档管理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |