CN115345132A - 文件处理方法、装置以及设备 - Google Patents

文件处理方法、装置以及设备 Download PDF

Info

Publication number
CN115345132A
CN115345132A CN202210983510.XA CN202210983510A CN115345132A CN 115345132 A CN115345132 A CN 115345132A CN 202210983510 A CN202210983510 A CN 202210983510A CN 115345132 A CN115345132 A CN 115345132A
Authority
CN
China
Prior art keywords
file
processed
preset
target
processing rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210983510.XA
Other languages
English (en)
Inventor
陈江涛
张宇阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202210983510.XA priority Critical patent/CN115345132A/zh
Publication of CN115345132A publication Critical patent/CN115345132A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文件处理方法、装置以及设备,应用于信息处理技术领域,该方法包括:加载基于可扩展标记语言XML的预设处理规则,并将预设处理规则缓存在内存中;接收待处理文件,并从预设处理规则中确定待处理文件对应的目标处理规则;基于目标处理规则解析待处理文件,得到目标数据对象。这样,根据待处理文件的不同,选择相应的XML目标处理规则对待处理文件进行解析,实现了对文件的自动解析处理,提高了文件处理的效率,节省了人力,同时也提高了信息录入的准确度。

Description

文件处理方法、装置以及设备
技术领域
本申请涉及信息处理技术领域,尤其涉及一种文件处理方法、装置以及设备。
背景技术
目前,资管行业很多时候需要委托外部专业投资机构进行投资。这些外部专业投资机构作为被委托方,往往需要将交易过程中产生的开户通知单、交易确认单、分红确认单等交易确认文件回传委托方,由委托方进行录入和存档。
在相关技术中,由于目前大部分的外部专业投资机构计算机信息系统建设尚不完善,交易确认文件通常是以文件形式交互。委托方收到交易确认文件后,往往需要由运营人员手工录入文件中的信息,造成运营人员工作量较大,效率较低、耗费人力较多,并且手工录入的错误率也较高。
发明内容
本申请提供一种文件处理方法、装置以及设备,提高了文件处理的效率,节省了人力,同时也提高了信息录入的准确度。
第一方面,本申请实施例提供一种文件处理方法,包括:
加载基于可扩展标记语言XML的预设处理规则,并将所述预设处理规则缓存在内存中;
接收待处理文件,并从所述预设处理规则中确定所述待处理文件对应的目标处理规则;
基于所述目标处理规则解析所述待处理文件,得到目标数据对象。
在一种可能的实施方式中,所述从所述预设处理规则中确定所述待处理文件对应的目标处理规则,包括:
确定所述待处理文件中包括的模板编号;
根据所述模板编号以及第一对应关系,确定所述目标处理规则;所述第一对应关系中包括不同模板编号与不同预设处理规则之间的对应关系。
在一种可能的实施方式中,所述预设处理规则与预设模板文件对应;所述预设模板文件的格式为便携式文档格式PDF;所述预设模板文件中包括PDF表格。
在一种可能的实施方式中,所述根据所述目标处理规则解析所述待处理文件,得到目标数据对象,包括:
获取所述待处理文件中的PDF表格;
根据所述目标处理规则中的单元格信息,提取所述PDF表格中在目标单元格中的待处理数据;所述单元格信息中包括待提取的目标单元格的坐标;
基于所述待处理数据,生成所述目标数据对象。
在一种可能的实施方式中,所述基于所述待处理数据,生成所述目标数据对象,包括:
根据所述目标单元格对应的数据类型,对所述待处理数据进行数据类型转换,得到第一数据;所述数据类型包括于所述单元格信息中;
将所述第一数据进行组装,得到所述目标数据对象。
在一种可能的实施方式中,所述方法还包括:
根据所述目标单元格对应的校验规则,对所述待处理数据进行校验;所述校验规则包括于所述单元格信息中;
若所述待处理数据不符合所述校验规则,按照预设方式输出预设提示信息。
在一种可能的实施方式中,所述预设处理规则存储在本地数据库或者远程字典服务Redis数据库中。
第二方面,本申请实施例提供一种文件处理装置,包括:
加载模块,用于加载基于可扩展标记语言XML的预设处理规则,并将所述预设处理规则缓存在内存中;
接收模块,用于接收待处理文件,并从所述预设处理规则中确定所述待处理文件对应的目标处理规则;
解析模块,用于基于所述目标处理规则解析所述待处理文件,得到目标数据对象。
在一种可能的实施方式中,所述接收模块,具体用于:
确定所述待处理文件中包括的模板编号;
根据所述模板编号以及第一对应关系,确定所述目标处理规则;所述第一对应关系中包括不同模板编号与不同预设处理规则之间的对应关系。
在一种可能的实施方式中,所述预设处理规则与预设模板文件对应;所述预设模板文件的格式为便携式文档格式PDF;所述预设模板文件中包括PDF表格。
在一种可能的实施方式中,所述解析模块,具体用于:
获取所述待处理文件中的PDF表格;
根据所述目标处理规则中的单元格信息,提取所述PDF表格中在目标单元格中的待处理数据;所述单元格信息中包括待提取的目标单元格的坐标;
基于所述待处理数据,生成所述目标数据对象。
在一种可能的实施方式中,所述解析模块,具体用于:
根据所述目标单元格对应的数据类型,对所述待处理数据进行数据类型转换,得到第一数据;所述数据类型包括于所述单元格信息中;
将所述第一数据进行组装,得到所述目标数据对象。
在一种可能的实施方式中,所述装置还包括:
校验模块,用于根据所述目标单元格对应的校验规则,对所述待处理数据进行校验;所述校验规则包括于所述单元格信息中;
输出模块,用于若所述待处理数据不符合所述校验规则,按照预设方式输出预设提示信息。
在一种可能的实施方式中,所述预设处理规则存储在本地数据库或者远程字典服务Redis数据库中。
第三方面,本申请实施例提供一种设备,包括:处理器、存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,实现如第一方面任一项所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被执行时用于实现第一方面任一项所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被执行时实现第一方面任一项所述的方法。
本申请实施例提供的文件处理方法、装置以及设备,加载基于可扩展标记语言XML的预设处理规则,并将预设处理规则缓存在内存中;接收待处理文件,并从预设处理规则中确定待处理文件对应的目标处理规则;基于目标处理规则解析待处理文件,得到目标数据对象。这样,根据待处理文件的不同,选择相应的XML目标处理规则对待处理文件进行解析,实现了对文件的自动解析处理,提高了文件处理的效率,节省了人力,同时也提高了信息录入的准确度。
附图说明
图1为本申请实施例提供的应用场景示意图;
图2为本申请实施例提供的一种文件处理方法的流程示意图;
图3为本申请实施例提供的另一种文件处理方法的流程示意图;
图4为本申请实施例提供的一种文件处理方法的执行逻辑示意图;
图5为本申请实施例提供的一种文件处理方法的技术框架示意图;
图6为本申请实施例提供的一种文件处理装置的结构示意图;
图7为本申请实施例提供的一种文件处理设备的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本申请的技术方案,下面结合附图和实施例对本申请作进一步详细描述。应当理解的是,此处描述的具体实施例和附图仅仅用于解释本申请,而并非对本申请的限定。需要强调的是,本申请的技术方案中,所涉及的金融数据或用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图1为本申请实施例提供的应用场景示意图。请参见图1,包括待处理文件101、用户102和终端设备103。待处理文件可以包括各种形式、各种内容的文件,例如交易确认文件等。终端设备103可以是指手机、电脑或者可穿戴设备等,本申请实施例对于终端设备103的具体类型不作限定。
资管行业机构作为委托方(或者委托机构),外部专业投资机构作为被委托方(或者委外机构),二者进行文件交互时,通常是由用户102接收到待处理文件101之后,手工将待处理文件101中的信息录入到终端设备103中。由于被委托方机构众多,并且每日都有大量交易确认单,运营人员手工处理的工作量巨大,且容易出错。
以被委托方和委托方交互的文件类型为便携式文档格式(Portable DocumentFormat,PDF)文件为例,在相关技术中,为提高录入效率,通常有以下四种方式来实现对PDF文件的自动处理:
方式一、直接以文本形式读取交易确认文件的内容,进行全文本内容匹配解析。方式二、针对PDF文件指定区域进行解析。方式三、直接以程序接口方式进行交互,不解析文件内容。方式四、人工智能训练方式解析PDF内容。
但是,由于PDF这种非结构化文件具有内容格式不固定的特点,以上四个方式均存在相应的缺陷:
在方式一中,PDF文件以文本方式解析成字符串,对于不同内容长度不一样,正则匹配时是否需要换行很难确定,从而无法正确匹配出想要提取的内容。在方式二中,解析PDF文件特定区域时,由于文件内容不确定,坐标区域大小很难固定,导致目标提取内容不完整,或者目前区域选定错误。
在方式三中,由于被委托方互联网技术(Internet Technology,IT)系统建设落后,没有能力开发出直连交互程序,另外直连交互接口也需要和委托方统一约定。并且,由于委托方不确定,各家委托机构的PDF确认文件格式多种多样,被委托方的直连交互程序难以通用处理各种情况。在新增加委托机构时,被委托方需要在原有的直连交互程序上进行大量开发工作,以实现解析新委托机构的交易确认文件的功能,开发过程较为繁琐,耗费大量人力。
在方式四中,人工智能需要训练大量PDF交易确认模型,现有业务无法提供海量的训练数据,同时人工智能识别率也不能达到百分之百,另外新增委托机构时,新的交易确认文件需要重新训练改进模型,模型通用性不高,耗费资源较多。
在相关技术中,委托机构运营人员手工录入的方式效率较低,准确率不高,耗费了人力;并且,相关技术中的自动解析方式,也存在准确率不高并且通用性差的问题。
在本申请实施例中,加载基于可扩展标记语言XML的预设处理规则,并将预设处理规则缓存在内存中;接收待处理文件,并从预设处理规则中确定待处理文件对应的目标处理规则;基于目标处理规则解析待处理文件,得到目标数据对象。这样,根据待处理文件的不同,选择相应的XML目标处理规则对待处理文件进行解析,实现了对文件的自动解析处理,提高了文件处理的效率,节省了人力,同时也提高了信息录入的准确度。
下面,通过具体实施例对本申请所示的方案进行详细说明。需要说明的是,下面几个实施例可以独立存在,也可以相互结合,对于相同或相似的内容,在不同的实施例中不再重复说明。
下面,结合图2所示的实施例,对文件处理的过程进行说明。
图2为本申请实施例提供的一种文件处理方法的流程示意图。请参见图2,该方法可以包括:
S201、加载基于可扩展标记语言XML的预设处理规则,并将预设处理规则缓存在内存中。
本申请实施例中,预设处理规则可以是指预先配置的、用于处理特定类型文件的处理规则。特定类型文件可以是指与预设处理规则相对应的预设模板文件,针对每个预设模板文件,可以预配置相应的预设处理规则。这样,根据预设模板文件的数量,预设处理规则的数量可以为一个或者多个。
预设处理规则可以基于可扩展标记语言(Extensible Markup Language,XML)实现,具体可以通过XML配置文件的形式来实现。基于XML的预设处理规则便于定义和维护,程序开发语言友好,并且支持跨平台编辑。当然,除了XML之外,预设处理规则还可以基于其他类型的开发语言实现,本申请实施例对此不作限定。
本步骤中,终端设备在启动文件自动处理程序之后,可以首先加载预配置的XML预设处理规则,之后可以将预设处理规则缓存在内存中,后续在处理待处理文件时可以随时调用,提高文件处理的效率。
S202、接收待处理文件,并从预设处理规则中确定待处理文件对应的目标处理规则。
本申请实施例中,待处理文件可以是指需要处理的文件。目标处理规则可以是指与待处理文件相对应的处理规则。待处理文件可以是根据预设模板文件生成的,而每个预设模板文件对应有一个预设处理规则。在此基础上,终端设备在接收到待处理文件之后,可以首先确定待处理文件对应的预设模板文件,之后再基于预设模板文件和预设处理规则之间的对应关系,确定出待处理文件对应的目标处理规则,实现目标处理规则的快速确定。
S203、基于目标处理规则解析待处理文件,得到目标数据对象。
本申请实施例中,目标数据对象可以是从待处理文件中提取出的数据对象。该目标数据对象可以是文件形式的,也可以是具体的数据。
具体的,终端设备按照目标处理规则对待处理文件进行解析,提取出待处理数据。终端设备可以直接将提取出的待处理数据作为目标数据对象;也可以根据待处理数据生成特定文件,将该特定文件作为目标数据对象。之后,终端设备可以将该目标数据对象缓存到内存中,后续用户可以基于实际需求对该目标数据对象进行处理。例如,用户可以将目标数据对象复制至其他位置,也可以将其转化为表格文件等,本申请实施例对于目标数据对象的具体形式以及具体操作方式不作限定。
本申请实施例提供的文件处理方法,加载基于可扩展标记语言XML的预设处理规则,并将预设处理规则缓存在内存中;接收待处理文件,并从预设处理规则中确定待处理文件对应的目标处理规则;基于目标处理规则解析待处理文件,得到目标数据对象。这样,根据待处理文件的不同,选择相应的XML目标处理规则对待处理文件进行解析,实现了对文件的自动解析处理,提高了文件处理的效率,节省了人力,同时也提高了信息录入的准确度。
在上述实施例的基础上,下面,结合图3所示的实施例,对文件处理的过程进行详细说明。
图3为本申请实施例提供的又一种文件处理方法的流程示意图。请参见图3,该方法可以包括:
S301、加载基于可扩展标记语言XML的预设处理规则,并将预设处理规则缓存在内存中;预设处理规则与预设模板文件对应;预设模板文件的格式为便携式文档格式PDF;预设模板文件中包括PDF表格。
本申请实施例中,预设模板文件可以是指预先配置的、与预设处理规则相对应的模板文件。针对不同的交互文件,可以预先配置一套预设模板文件,以满足不同场景的实际需求。例如,针对不同的交易确认文件,委托方可以对应定义不同的预设模板文件,后续被委托方在回传交易确定文件时,可以直接使用委托方定义的模板,确保了文件的标准化和规范化,方便终端设备对文件的自动解析处理。
由于目前资管行业都是以PDF文件作为交易确认文件的标准文档格式,委托机构可以预先定义一套PDF格式的预设模板文件作为各外部专业投资机构交易确认文件的模板规范,同时针对每个预设模板文件,可以预配置相应的基于XML的预设处理规则。预设模板文件中可以包括PDF表格,这样可以进一步规范PDF文件的内容,避免各个被委托方提交的PDF文件内容格式不固定的情况。PDF表格的各个单元格中可以预先定义有字段名称、字段类型、数据类型以及校验规则等,以保证数据的规范化,确保信息录入的准确度。以下表1示出了本申请实施例的一种PDF表格:
Figure BDA0003801142970000071
表1
如表1所示出的,在该预设模板文件的PDF表格中,包括模板编号、交易日期、成交金额以及交易时间四个字段,同时在每个字段中定义有相应的数据类型以及校验规则等,这样能够保证文件的规范化,保证信息提取的准确度。
本申请实施例中,采用包括PDF表格的预设模板文件,能够最大限度保证现有的交互模式不受影响,同时也兼容了以前的人工处理方式;PDF表格方便使用开源的PDF组件读取和解析,支持多种语言和平台;PDF表格具备标准化和规范化,提高了信息提取的准确度。
需要说明的是,本申请实施例的应用场景并不仅限于资管行业的交易确认场景,也可以是其他用户之间互传文件并进行自动处理的场景。相应的,根据场景的不同,预设模板文件的格式也可以为其他形式,例如表格文件或者文本文件等,能够使得预设模板文件与预设处理规则相对应即可,本申请实施例对于具体场景以及预设模板文件的具体格式不作限定。
S302、确定待处理文件中包括的模板编号;根据模板编号以及第一对应关系,确定目标处理规则;第一对应关系中包括不同模板编号与不同预设处理规则之间的对应关系。
本申请实施例中,模板编号可以是指预设模板文件的编号,可以作为预设模板文件的唯一标识。在第一对应关系中,可以包括模板编号与预设处理规则的一一对应关系,也可以是模板编号、预设模板文件、预设处理规则的三元组对应关系,本申请实施例对此不作限定。
在针对不同的交易确认文件类型定义不同的预设模板文件之后,可以根据定义的PDF预设模板文件,定义基于XML的预设处理规则。具体的,可以将预设模板文件PDF表格解析成基于行和列的坐标体系,每个“行”、“列”组合对应一个单元格,每个单元格包含预设模板文件PDF表格中的一块数据,具体例如一串数字或一串文本。根据预设模板文件中的单元格定义,用户可以确定所需读取数据的单元格的坐标、单元格的字段名称、单元格数据类型以及单元格内容的校验规则等,并将这些单元格信息作为PDF处理规则定义在XML文件中,得到预设模板文件对应的预设处理规则。
在需要进行文件处理中,终端设备可以启动文件自动处理程序,加载预定义的预设处理规则,并将该预设处理规则缓存在内存中,方便调用;之后,终端设备接收待处理文件,根据待处理文件的模板编号以及第一对应关系,确定出待处理文件对应的目标处理规则,后续可以执行数据提取流程。
S303、获取待处理文件中的PDF表格。
S304、根据目标处理规则中的单元格信息,提取PDF表格中在目标单元格中的待处理数据;单元格信息中包括待提取的目标单元格的坐标。
本申请实施例中,单元格信息可以是指预设处理规则中包括的待提取的目标单元格的相关信息。该目标单元格可以是指需要提取数据的单元格。待处理数据可以是指终端设备从待处理文件的目标单元格中提取出的数据。
在定义预设处理规则时,针对预设模板文件中的各个单元格,用户可以基于实际需求,确定需要提取的目标单元格。相应的,终端设备可以根据预设处理规则中的单元格信息,确定出目标单元格的坐标,然后提取出目标单元格中的待处理数据,之后可以根据待处理数据生成目标数据对象。
本申请实施例中,终端设备获取待处理文件中的PDF表格,根据目标处理规则中的单元格信息,提取PDF表格中在目标单元格中的待处理数据,之后再基于待处理数据,生成目标数据对象。这样,基于PDF表格,能够完整提取出目标单元格的内容,无需对整个表格内容进行全部读取,提高了文件处理的灵活性和准确度,也提高了文件处理的效率。
S305、根据目标单元格对应的校验规则,对待处理数据进行校验;校验规则包括于单元格信息中;若待处理数据不符合校验规则,按照预设方式输出预设提示信息。
本申请实施例中,校验规则可以是指预先设置的单元格的校验条件。例如,针对交易日期这一字段对应的单元格,校验规则可以是单元格非空且为数字。预设方式可以是指弹窗等报错方式。预设提示信息可以是指预先设置的、用于提示用户当前目标单元格存在错误的信息,例如,预设提示信息可以为“内容错误”等提示文本。
具体的,在提取出目标单元格的待处理数据之后,终端设备可以根据单元格信息中的校验规则,对待处理数据进行校验,如果待处理数据不符合校验规则,例如针对内容为数字的目标单元格,但待处理数据为文本等情况,终端设备可以通过预设方式输出预设提示信息,提醒用户当前目标单元格存在错误。示例性地,终端设备在确定出待处理数据不符合校验规则时,可以用弹窗的方式显示“当前目标单元格内容错误”的提示文本,提示用户待处理文件中存在内容错误。
本申请实施例中,终端设备根据目标单元格对应的校验规则,对待处理数据进行校验;若待处理数据不符合校验规则,按照预设方式输出预设提示信息。这样,能够进一步提高数据提取的准确度。
S306、根据目标单元格对应的数据类型,对待处理数据进行数据类型转换,得到第一数据;数据类型包括于单元格信息中。
S307、将第一数据进行组装,得到目标数据对象。
本申请实施例中,数据类型可以是指目标单元格对应的数据的具体类型,例如日期格式、、时间格式或者小数点后保留位数等。第一数据可以是指根据待处理数据进行调整后得到的中间数据。
具体的,在定义预设处理规则时,单元格信息中还可以包括有目标单元格的数据类型。终端设备在提取出待处理数据之后,可以根据该数据类型对待处理数据进行数据类型的转换,得到第一数据,保证了数据提取的规范性,能够提高文件处理的准确度。之后终端设备可以将第一数据进行组装,得到目标数据对象,该目标数据对象可以供后续流程处理。
在一种可能的实施方式中,预设处理规则存储在本地数据库或者远程字典服务Redis数据库中。
本申请实施例中,本地数据库可以是指终端设备本地的数据库,远程字典服务(Redis)数据库可以是指能够远程访问的数据库。预设处理规则可以直接存储在本地数据库或Redis中,方便终端设备进行加载调用,一定程度上加快文件处理效率。
示例性地,图4为本申请实施例的一种文件处理方法的执行逻辑示意图,如图4所示出的,用户预定义预设模板文件以及预设处理规则,之后可以获取预设模板文件并生成待处理文件。终端设备启动文件自动处理程序,加载XML预设处理规则,并将预设处理规则对象缓存在内存中。之后,终端设备接收待处理文件,从预设处理规则中确定出待处理文件对应的目标处理规则,之后根据目标处理规则对待处理文件进行解析,得到目标数据对象。这样,终端设备实现了对文件的自动处理,提高了文件处理的效率,节省了人力,同时也提高了数据提取的准确度。
示例性地,图5为本申请实施例的一种文件处理方法的技术框架示意图。如图5所示出的,在交易确认场景中,以预设模板文件为PDF文件为例,在模型定义层,委托机构可以为委外机构定义交易确认文件的PDF预设模板文件,同时也为PDF预设模板文件定义对应的XML预设处理规则。
在模型处理层,委外机构收到PDF预设模板文件后,根据预设模板文件生成待处理文件;终端设备启动文件自动处理程序,加载XML预设处理规则并缓存在内存中。具体在缓存时,终端设备可以基于预设处理规则XML生成预设处理规则对象。该预设处理规则对象可以是指预设处理规则在内存中的缓存方式,后续可以在该预设规则处理对象中确定目标处理规则对象,本申请实施例对该预设处理规则对象的具体类型不作限定。
在数据处理层,终端设备收到委外发送的待处理文件后,根据待处理文件中模板编号从内存中找到对应的目标处理规则,调用目标处理规则对收到的待处理文件进行内容解析,并进行数据类型转换和内容校验,最终生成需要的目标数据对象。
本申请实施例使用PDF表格作为存放交易确认内容的格式,将非结构化的文本内容转换为结构化的表格内容,每个单元格内部长度和行数不受限制,确保可以完整解析单元格的内容。另外,采用PDF表格可以按需提前所需要的单元格内容,不需要将整个表格内容全部读取解析,灵活性和效率相比全文本正则匹配都有很大提升。
本申请实施例以解析PDF表格代替坐标区域解析,PDF表格单元格大小不固定,根据内容需要扩展,现有的PDF开源组件对PDF表格识别支持较为友好,可以完整提取出指定单元格的内容。
本申请实施例继续沿用目前各委托机构的PDF确认文件形式,在不改变文件交互形式的前提下,只需要遵循固定的PDF格式,就可以实现程序自动解析处理。
本申请实施例针对委外机构各种交易确认文件类型,设计不同的预设模板文件,委托机构在生成确认文件的时候需遵循预设模板文件规定的格式;与此同时,为预设模板文件设计对应的基于XML的预设处理规则,实现预设处理规则和预设模板文件一一对应。
本申请实施例直接确定预设模板文件,不需要进行人工智能模型训练,且由于模板相对固定,PDF预设模板文件识别率高。新增委托机构或者交易确认文件类型时,只需要同步更新预设模板文件及其对应的XML预设处理规则即可,通用性较高,开发维护较为方便。
本申请实施例提供的一种文件处理方法,可以将各种委外投资机构的交易确认单自动解析成需要的数据对象,以供资管机构保存和检索。传统的手工录入PDF文件方式工作量大,且容易出错,本申请实施例采用程序自动化解析PDF表格单元格内容可以大大提高解析效率,同时在接入更多委外机构的时候也可以方便复用。本申请实施例采用PDF表格作为委外机构交易确认文件模板,强制约定委外机构使用PDF表格方式提供交易确认要素,方便程序准确提取目标单元格的内容,同时也可以对单元格内容做数据类型和内容的校验。
本申请实施例采用特有的XML文件方式定义PDF模板预设处理规则,可以以统一方便的配置模式,满足海量不同PDF模板的表格内容读取。当新增模板或者模板更新时,模板对应的XML预设处理规则同步新增或更新,仅需少量配置改动就可以支持模板的更新变化,通信性强,维护简单。
本申请实施例所采用的资管行业委外模式PDF预设模板文件,最大限度保证了现有的交互模式不受影响,同时也兼容了以前的人工处理方式。并且,本申请实施例采用PDF表格作为预设模板文件,方便使用开源的PDF组件例如tabula、pdf plumber等进行读取和解析,可以支持java、python等多种语言和平台。此外,本申请实施例采用XML来配置PDF预设模板文件,方便定义和维护,程序开发语言和跨平台支持较为友好。
图6为本申请实施例提供的一种文件处理装置的结构示意图。请参见图6,该文件处理装置10可以包括:
加载模块11,用于加载基于可扩展标记语言XML的预设处理规则,并将预设处理规则缓存在内存中;
接收模块12,用于接收待处理文件,并从预设处理规则中确定待处理文件对应的目标处理规则;
解析模块13,用于基于目标处理规则解析待处理文件,得到目标数据对象。
本申请实施例提供的文件处理装置10可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,接收模块12,具体用于:
确定待处理文件中包括的模板编号;
根据模板编号以及第一对应关系,确定目标处理规则;第一对应关系中包括不同模板编号与不同预设处理规则之间的对应关系。
在一种可能的实施方式中,预设处理规则与预设模板文件对应;预设模板文件的格式为便携式文档格式PDF;预设模板文件中包括PDF表格。
在一种可能的实施方式中,解析模块13,具体用于:
获取待处理文件中的PDF表格;
根据目标处理规则中的单元格信息,提取PDF表格中在目标单元格中的待处理数据;单元格信息中包括待提取的目标单元格的坐标;
基于待处理数据,生成目标数据对象。
在一种可能的实施方式中,解析模块13,具体用于:
根据目标单元格对应的数据类型,对待处理数据进行数据类型转换,得到第一数据;数据类型包括于单元格信息中;
将第一数据进行组装,得到目标数据对象。
在一种可能的实施方式中,装置10还包括:
校验模块,用于根据目标单元格对应的校验规则,对待处理数据进行校验;校验规则包括于单元格信息中;
输出模块,用于若待处理数据不符合校验规则,按照预设方式输出预设提示信息。
在一种可能的实施方式中,预设处理规则存储在本地数据库或者远程字典服务Redis数据库中。
本申请实施例提供的文件处理装置10可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。文件处理装置10具体可以为芯片、芯片模组等,本申请实施例对此不作限定。
图7为本申请实施例提供的一种文件处理设备的结构示意图。请参见图7,文件处理设备20可以包括:存储器21、处理器22。示例性地,存储器21、处理器22,各部分之间通过总线23相互连接。
存储器21用于存储程序指令;
处理器22用于执行该存储器所存储的程序指令,实现上述实施例所示的文件处理方法。
图7实施例所示的文件处理设备可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当计算机执行指令被处理器执行时用于实现上述文件处理方法。
本申请实施例还可提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,可实现上述文件处理方法。
本申请实施例提供一种芯片,该芯片上存储有计算机程序,当计算机程序被该芯片执行时,实现上述文件处理方法。
本申请实施例提供一种芯片模组,该芯片模组上存储有计算机程序,当计算机程序被该芯片模组执行时,实现上述文件处理方法。
需要说明的是,本申请实施例中提及的处理器可以是中央处理器(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
应理解,本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(directram bus RAM,DR RAM)。需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
关于上述实施例中描述的各个装置、产品包含的各个模块/单元,其可以是软件模块/单元,也可以是硬件模块/单元,或者也可以部分是软件模块/单元,部分是硬件模块/单元。各个装置、产品可以应用于或者集成于芯片、芯片模组或终端设备中。示例性地,对于应用于或者集成于芯片的各个装置、产品,其包含的各个模块/芯片可以是都采用电路等硬件的方式实现,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片内部集成的处理器,剩余的部分模块/单元可以采用电路等硬件方式实现。
在本申请中,术语“包括”及其变形可以指非限制性的包括;术语“或”及其变形可以指“和/或”。本本申请中术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。本申请中,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上仅是本申请的部分实施例,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应当视为本申请的保护范围。

Claims (11)

1.一种文件处理方法,其特征在于,包括:
加载基于可扩展标记语言XML的预设处理规则,并将所述预设处理规则缓存在内存中;
接收待处理文件,并从所述预设处理规则中确定所述待处理文件对应的目标处理规则;
基于所述目标处理规则解析所述待处理文件,得到目标数据对象。
2.根据权利要求1所述的方法,其特征在于,所述从所述预设处理规则中确定所述待处理文件对应的目标处理规则,包括:
确定所述待处理文件中包括的模板编号;
根据所述模板编号以及第一对应关系,确定所述目标处理规则;所述第一对应关系中包括不同模板编号与不同预设处理规则之间的对应关系。
3.根据权利要求1或2所述的方法,其特征在于,所述预设处理规则与预设模板文件对应;所述预设模板文件的格式为便携式文档格式PDF;所述预设模板文件中包括PDF表格。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标处理规则解析所述待处理文件,得到目标数据对象,包括:
获取所述待处理文件中的PDF表格;
根据所述目标处理规则中的单元格信息,提取所述PDF表格中在目标单元格中的待处理数据;所述单元格信息中包括待提取的目标单元格的坐标;
基于所述待处理数据,生成所述目标数据对象。
5.根据权利要求4所述的方法,其特征在于,所述基于所述待处理数据,生成所述目标数据对象,包括:
根据所述目标单元格对应的数据类型,对所述待处理数据进行数据类型转换,得到第一数据;所述数据类型包括于所述单元格信息中;
将所述第一数据进行组装,得到所述目标数据对象。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
根据所述目标单元格对应的校验规则,对所述待处理数据进行校验;所述校验规则包括于所述单元格信息中;
若所述待处理数据不符合所述校验规则,按照预设方式输出预设提示信息。
7.根据权利要求1所述的方法,其特征在于,所述预设处理规则存储在本地数据库或者远程字典服务Redis数据库中。
8.一种文件处理装置,其特征在于,包括:
加载模块,用于加载基于可扩展标记语言XML的预设处理规则,并将所述预设处理规则缓存在内存中;
接收模块,用于接收待处理文件,并从所述预设处理规则中确定所述待处理文件对应的目标处理规则;
解析模块,用于基于所述目标处理规则解析所述待处理文件,得到目标数据对象。
9.一种文件处理设备,其特征在于,包括:处理器、存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被执行时用于实现权利要求1至7任一项所述的方法。
11.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被执行时实现权利要求1至7任一项所述的方法。
CN202210983510.XA 2022-08-16 2022-08-16 文件处理方法、装置以及设备 Pending CN115345132A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210983510.XA CN115345132A (zh) 2022-08-16 2022-08-16 文件处理方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210983510.XA CN115345132A (zh) 2022-08-16 2022-08-16 文件处理方法、装置以及设备

Publications (1)

Publication Number Publication Date
CN115345132A true CN115345132A (zh) 2022-11-15

Family

ID=83951946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210983510.XA Pending CN115345132A (zh) 2022-08-16 2022-08-16 文件处理方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN115345132A (zh)

Similar Documents

Publication Publication Date Title
CN110852065B (zh) 一种文档审核方法、装置、系统、设备及存储介质
CN110347953B (zh) 页面生成方法、装置、计算机设备及存储介质
CN111061833B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN104391934A (zh) 数据校验方法和装置
AU2019204444B2 (en) System and method for enrichment of ocr-extracted data
CN112330214A (zh) 合同审阅方法、装置及可读存储介质
CN110765101B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN107862425B (zh) 风控数据采集方法、设备、系统及可读存储介质
CN110851576A (zh) 问答处理方法、装置、设备及可读介质
US20220391598A1 (en) Text checking method based on knowledge graph, electronic device, and medium
CN113158988B (zh) 财务报表处理方法、装置以及计算机可读存储介质
CN111325031A (zh) 简历解析方法及装置
CN112418813B (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
KR100762712B1 (ko) 규칙기반의 전자문서 변환방법 및 그 시스템
WO2020057023A1 (zh) 自然语言的语义解析方法、装置、计算机设备和存储介质
CN115345132A (zh) 文件处理方法、装置以及设备
US10699329B2 (en) Systems and methods for document to order conversion
CN115577703A (zh) 一种证监报送数据校验方法、装置、系统及存储介质
CN115482075A (zh) 财务数据的异常分析方法、装置、电子设备及存储介质
CN113868210A (zh) 一种导入数据的有效性验证方法、系统、设备及存储介质
Maiti Capturing, Eliciting, and Prioritizing (CEP) Non-Functional Requirements Metadata during the Early Stages of Agile Software Development
CN113901075A (zh) 生成sql语句的方法、装置、计算机设备及存储介质
CN113239670A (zh) 一种业务模板上传的方法、装置、计算机设备及存储介质
CN111552779A (zh) 人机对话方法、装置、介质及电子设备
US20040025114A1 (en) Preserving content or attribute information during conversion from a structured document to a computer program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination