CN116415563A - 报表解析方法、装置、电子设备及存储介质 - Google Patents

报表解析方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116415563A
CN116415563A CN202310405431.5A CN202310405431A CN116415563A CN 116415563 A CN116415563 A CN 116415563A CN 202310405431 A CN202310405431 A CN 202310405431A CN 116415563 A CN116415563 A CN 116415563A
Authority
CN
China
Prior art keywords
report
analysis
field
supervision
field mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310405431.5A
Other languages
English (en)
Inventor
周展博
邱玉华
郭聪颖
吴琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202310405431.5A priority Critical patent/CN116415563A/zh
Publication of CN116415563A publication Critical patent/CN116415563A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种报表解析方法、装置、电子设备及存储介质,可以应用于大数据技术领域。该方法包括:将监管报表输入分词级的预训练语言模型中,对监管报表进行字段解析,输出解析信息和多个分类字段;基于解析信息确定监管报表的解析状态;在解析状态为正常状态的情况下,基于多个分类字段和报表字段映射表,确定监管报表中每个分类字段对应的字段映射方案;将多个字段映射方案写入监管报表中,生成解析报表。

Description

报表解析方法、装置、电子设备及存储介质
技术领域
本公开涉及大数据技术领域,尤其涉及一种报表解析方法、装置、电子设备、存储介质和程序产品。
背景技术
近年来,监管报送项目呈精细化、具体化的趋势。监管报送具体涉及多家分支机构的统计人员对报表进行填报和审核,每期报表均需消耗较大的人力和时间。相关技术中,通过引入RPA(Robotic Process Automation,机器人流程自动化)技术来模拟人工操作业务软件的流程,实现对报表进行复核、解析以及上报等工作。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题,在对报表解析过程中,对报表字段的识别精准率较低,且不便于基于报表的实时解析状态对其进行针对性处理,使得报表解析效率较低。
发明内容
鉴于上述问题,本公开提供了一种报表解析方法、装置、电子设备、存储介质和程序产品。
根据本公开的第一个方面,提供了一种报表解析方法,包括:将监管报表输入分词级的预训练语言模型中,对上述监管报表进行字段解析,输出解析信息和多个分类字段;基于上述解析信息确定上述监管报表的解析状态;在上述解析状态为正常状态的情况下,基于多个上述分类字段和报表字段映射表,确定上述监管报表中每个上述分类字段对应的字段映射方案;将多个上述字段映射方案写入上述监管报表中,生成解析报表。
根据本公开的实施例,上述方法还包括:在上述解析状态为异常状态的情况下,基于上述解析信息确定上述监管报文的解析次数;在上述解析次数小于或等于预设次数的情况下,利用上述预训练语言模型对上述监管报文迭代进行字段解析,输出新的解析信息和多个新的分类字段;在上述新的解析信息中上述监管报表的解析状态为正常状态的情况下,基于上述新的分类字段确定上述监管报表的字段映射方案。
根据本公开的实施例,上述方法还包括:在上述解析次数大于预设次数的情况下,对上述解析信息进行可视化展示;获取用户基于上述解析信息输入的上述监管报表对应的异常字段映射方案;将上述异常字段映射方案存储至上述报表字段映射表中。
根据本公开的实施例,上述基于多个上述分类字段和报表字段映射表,确定上述监管报表中每个上述分类字段对应的字段映射方案,包括:利用协同过滤算法确定上述报表字段映射表中与上述分类字段相似度最高的报表字段;确定上述报表字段对应的字段映射方案。
根据本公开的实施例,上述将多个上述字段映射方案写入上述监管报表中,生成解析报表,包括:将上述字段映射方案转化为字段逻辑关系;将上述字段逻辑关系写入上述监管报表对应的上述分类字段中,生成解析报表。
根据本公开的实施例,上述方法还包括:将上述解析信息存储至报表解析状态明细表中;对上述报表解析状态明细表和上述报表字段映射表进行可视化展示。
根据本公开的实施例,上述解析信息包括以下至少一种:上述监管报表的监管报表名、解析开始时间、解析结束时间、报表解析时长、报表解析状态、报表解析次数、处理数据量级别、数据处理的服务器网络地址。
根据本公开的实施例,在上述将监管报表输入分词级的预训练语言模型中之前,还包括:在上述监管报表中文本的文本长度大于预设长度的情况下,对大于上述预设长度的长文本进行预处理,得到文本长度小于或等于上述预设长度的多个短文本。
本公开的第二方面提供了一种报表解析装置,包括:字段解析模块,用于将监管报表输入分词级的预训练语言模型中,对上述监管报表进行字段解析,输出解析信息和多个分类字段;状态确定模块,用于基于上述解析信息确定上述监管报表的解析状态;方案确定模块,用于在上述解析状态为正常状态的情况下,基于多个上述分类字段和报表字段映射表,确定上述监管报表中每个上述分类字段对应的字段映射方案;报表生成模块,用于将多个上述字段映射方案写入上述监管报表中,生成解析报表。
本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。
根据本公开提供的报表解析方法、装置、设备、介质和程序产品,通过采用分词级的预训练语言模型对监管报表进行字段分析,有效提高了字段识别的准确率,且能够对字段进行精准地分类。在解析状态为正常状态的情况下,基于多个分类字段和报表字段映射表确定监管报表中每个分类字段对应的字段映射方案。基于监管报表的解析状态对字段映射方案进行匹配,使得字段映射方案匹配的更准确,且只针对正常状态的报表进行匹配,减少了不必要的资源浪费,提高了报表的解析效率。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的报表解析方法、装置、设备、介质和程序产品的应用场景图;
图2示意性示出了根据本公开实施例的报表解析方法的流程图;
图3示意性示出了根据本公开实施例的报表字段映射逻辑流程图;
图4示意性示出了根据本公开另一实施例的报表解析方法的流程图;
图5示意性示出了根据本公开实施例的基于分词的预训练优化的语言模型思想原理图;
图6示意性示出了根据本公开实施例的报表解析装置的结构框图;
图7示意性示出了根据本公开实施例的适于实现报表解析方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本公开的技术方案中,所涉及的数据(如包括但不限于用户个人信息)的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
近年来监管报送项目愈发呈精细化、具体化的趋势,监管报送体系一般为“总-分-支”三级,以保证报送数据的准确性。数据源是监管报送工作的生命线,对监管报表的数据质量起到了决定性的作用。填报数据来源于各个业务系统,且各系统间缺乏统一的数据标准,产生的数据质量参差不齐。
监管统计报送需涉及多家分支机构的统计人员共同填报、审核,每期报表均需消耗较大的人力和时间。监管统计报表逻辑缜密,勾稽关系较强,手工填报花费精力大,且极易出现差错。人工复核工作需报表人员每月付出大量时间来验证报表的数据质量。此外,由于部分指标取数规则复杂、步骤繁多,给手工复核带来了相当大的难度,甚至会出现计算错误将正确数据修改为错误数据的现象。
相关技术中,为统一数据报送口径,避免因口径不一致造成监管数据错报,进行了数据仓库的建设。各业务系统通过数据接口向数据仓库提供原始业务数据,并在数仓中进行过滤、加工和整理。此外,还成立了专门的报表开发团队,分批次、按顺序地解决监管报表自动化问题。针对监管报表中常用指标、共用指标较多的现象,通过建设指标库和驾驶舱方式,实现指标共享、提升指标获取速度。
通过引入RPA技术来模拟人工操作业务软件的流程,能够实现复杂、繁琐工作的重复运行。既可以多、快、好、省地提高业务流程的智能化程度,又可以弥补原有烟囱式系统建设造成的数据孤岛和系统鸿沟,大大降低了手工搬运数据的工作量,能够有效的控制人员操作风险。
但在报表解析的过程中,相关技术对报表字段的识别精准率较低,且不便于基于报表的实时解析状态对其进行针对性处理,使得报表解析效率较低。
有鉴于此,本公开的实施例提供了一种报表解析方法、一种报表解析装置、一种电子设备、一种可读存储介质和一种计算机程序产品。其中,该报表解析方法,包括:将监管报表输入分词级的预训练语言模型中,对监管报表进行字段解析,输出解析信息和多个分类字段;基于解析信息确定监管报表的解析状态;在解析状态为正常状态的情况下,基于多个分类字段和报表字段映射表,确定监管报表中每个分类字段对应的字段映射方案;将多个字段映射方案写入监管报表中,生成解析报表。
图1示意性示出了根据本公开实施例的报表解析方法、装置、设备、介质和程序产品的应用场景图
如图1所示,根据该实施例的应用场景100可以包括包括第一终端设备101、第二终端设备102、第三终端设备103,网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的报表解析方法一般可以由服务器105执行。相应地,本公开实施例所提供的报表解析装置一般可以设置于服务器105中。本公开实施例所提供的报表解析方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的报表解析装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图4对公开实施例的报表解析方法进行详细描述。
图2示意性示出了根据本公开实施例的报表解析方法的流程图。
如图2所示,报表解析方法包括操作S201~操作S204。
在操作S201,将监管报表输入分词级的预训练语言模型中,对监管报表进行字段解析,输出解析信息和多个分类字段。
在操作S202,基于解析信息确定监管报表的解析状态。
在操作S203,在解析状态为正常状态的情况下,基于多个分类字段和报表字段映射表,确定监管报表中每个分类字段对应的字段映射方案。
在操作S204,将多个字段映射方案写入监管报表中,生成解析报表。
根据本公开的实施例,获取监管机构发布的监管报表,将其输入分词级的预训练语言模型中。其中,分词级的预训练语言模型可以是基于分词的预训练优化的SpanBERT(分词标签)思想的BERT(Bidirectional Encoder Representations from Transformer,双向编码器)模型。利用预训练语言模型对监管报表进行字段解析,进而对字段进行分类。例如:对监管报表中的文本进行字段分类,分类账户类字段和客户信息类字段。
根据本公开的实施例,预训练语言模型对监管报表解析后生成解析信息。其中,解析信息包括监管报表的监管报表名、解析开始时间、解析结束时间、报表解析时长、报表解析状态、报表解析次数、处理数据量级别、数据处理的服务器网络地址。基于解析信息确定监管报表的解析状态,解析状态包括正常状态和异常状态。其中,异常状态包括两种不同的异常状态,分别为异常解析状态和中断解析状态。异常解析状态表征监管报表完成字段解析,但解析结果异常出现乱码的现象。中断解析状态表征监管报表未完成字段解析,在解析过程中由于环境原因导致解析中断。
根据本公开的实施例,在解析状态为正常状态的情况下,可以利用协同过滤算法和数据库当中的报表字段映射表作为主体,基于预训练语言模型输出的多个分类字段对监管报表提供自行字段映射方案选择。协同过滤算法对预训练语言模型输出的多个分类字段以及数据库中的报表字段映射表进行聚类操作,从而获取与每个分类字段对应的相似度最高的字段映射方案。
根据本公开的实施例,将字段映射方案分别写入对应的分类字段中,每一类字段对应有字段映射方案,从而生成解析报表。解析报表可以基于字段映射方案进行后续的报表数据处理。
根据本公开的实施例,通过采用分词级的预训练语言模型对监管报表进行字段分析,有效提高了字段识别的准确率,且能够对字段进行精准地分类。在解析状态为正常状态的情况下,基于多个分类字段和报表字段映射表确定监管报表中每个分类字段对应的字段映射方案。基于监管报表的解析状态对字段映射方案进行匹配,使得字段映射方案匹配的更准确,且只针对正常状态的报表进行匹配,减少了不必要的资源浪费,提高了报表的解析效率。
根据本公开的实施例,报表解析方法还可以包括如下操作:
在解析状态为异常状态的情况下,基于解析信息确定监管报文的解析次数;在解析次数小于或等于预设次数的情况下,利用预训练语言模型对监管报文迭代进行字段解析,输出新的解析信息和多个新的分类字段;在新的解析信息中监管报表的解析状态为正常状态的情况下,基于新的分类字段确定监管报表的字段映射方案。
根据本公开的实施例,在解析状态为异常状态的情况下,可能由于解析过程中产生的环境因素导致监管报表解析失败,例如:网速较慢或者出现干扰因素。为确定异常状态的监管报表是由于环境因素导致的异常还是报表本身存在问题,需要对监管报表进行多次解析,从而提高报表解析精准度。
根据本公开的实施例,基于解析信息确定监管报文的解析次数,在解析次数小于或等于预设次数的情况下,说明还需对监管报文进行再次解析。其中预设次数可以设为3次,若解析次数小于或等于3次,则继续利用预训练语言模型对监管报表进行解析,生成新的解析信息和新的多个分类字段,直至解析信息中的解析状态为正常状态,或解析次数大于3次。若解析次数小于或等于3次,且解析状态为正常状态,则不再对监管报文进行解析,基于新的分类字段确定监管报表的字段映射方案。
根据本公开的实施例,报表解析方法还可以包括如下操作:
在解析次数大于预设次数的情况下,对解析信息进行可视化展示;获取用户基于解析信息输入的监管报表对应的异常字段映射方案;将异常字段映射方案存储至报表字段映射表中。
根据本公开的实施例,在解析次数大于预设次数的情况下,则说明该监管报表无法通过预训练语言模型进行解析,需要人工进行处理。因此,对监管报表的解析信息进行可视化展示,提示相关业务人员对其进行处理,业务人员将监管报表对应的异常字段映射方案上传并存储至报表字段映射表中。
根据本公开的实施例,报表字段映射表(REPORT_FIELD_MAP)记录不同分类字段及分类字段对应的字段映射方案,用于可供监管报表录入新增分类字段的字段映射方案,也可以作为可视化展示存量报表字段映射方案的数据源。
如表1所示,报表字段映射表的主键索引为映射关系ID,基于报表字段的BERT模型输出值,也就是分类字段,以及报表字段类别确定该分类字段对应的字段映射方案。在监管报表的解析状态为异常状态的情况下,需要业务人员将对应的异常字段映射方案录入报表字段映射表中,业务人员的映射逻辑维护人ID需要与报表字段映射表中的字段匹配。
表1报表字段映射表
Figure BDA0004181180270000101
图3示意性示出了根据本公开实施例的报表字段映射逻辑流程图。
根据本公开的实施例,基于多个分类字段和报表字段映射表,确定监管报表中每个分类字段对应的字段映射方案,可以包括如下操作:
利用协同过滤算法确定报表字段映射表中与分类字段相似度最高的报表字段;确定报表字段对应的字段映射方案。
根据本公开的实施例,如图3所示,协同过滤算法对预训练语言模型输出的多个分类字段以及数据库中的报表字段映射表进行聚类操作,从而获取与每个分类字段对应的相似度最高的字段映射方案,并对映射方案进行解析。例如:监管报表中的字段为账户利率余额,报表字段映射表中的报表字段包括账户信息、账户分层余额和账户利率余额,则确定与监管报表中字段相似度最高的报表字段为账户利率余额,进而确定账户利率余额对应的字段映射方案。对账户利率余额的字段映射方案进行解析,写入监管报表中对应的余额信息表中。基于分类字段确定对应的字段映射方案,使得对字段映射方案匹配的更准确。
根据本公开的实施例,将多个字段映射方案写入监管报表中,生成解析报表,可以包括如下操作:
将字段映射方案转化为字段逻辑关系;将字段逻辑关系写入监管报表对应的分类字段中,生成解析报表。
根据本公开的实施例,对字段映射方案进行解析,将其转化为字段逻辑关系。其中,字段逻辑关系中可以包括报表的处理流程。将字段逻辑关系写入对应的分类字段中,每一类字段对应有字段映射方案,从而生成解析报表。解析报表可以基于字段映射方案进行后续的报表数据处理。
根据本公开的实施例,报表解析方法还可以包括如下操作:
将解析信息存储至报表解析状态明细表中;对报表解析状态明细表和报表字段映射表进行可视化展示。
根据本公开的实施例,报表解析状态明细表(REPORT_STATUS_DTL)记录每个报表的解析状态,监管报表名(REPORT_ID)字段由实际报表名+8位批量日期+6位报表提交次数组成,如:REPORT1_20230101_000000。如果监管报表重新提交,则其6位报表提交次数会变更为000001。通过该表可以查询某个报表的历史解析情况、某个历史时间点的报表解析情况等。
如表2所示,报表解析状态明细表对解析信息以字段的格式进行存储,包括监管报表名、解析开始时间、解析结束时间、报表解析时长、报表解析状态、报表解析次数、处理数据量级别、数据处理的服务器IP,以及对应的监管报表解析得到的BERT模型输出值,即分类字段。
表2报表解析状态明细表
Figure BDA0004181180270000111
IB231640
Figure BDA0004181180270000121
根据本公开的实施例,将数据库当中的报表解析状态明细表和报表字段映射表以图形界面的形式进行可视化展示,且针对不同的业务人员可根据实际需求进行个性化的展示,便于业务人员的查看。
根据本公开的实施例,在将监管报表输入分词级的预训练语言模型中之前,还可以包括如下操作:
在监管报表中文本的文本长度大于预设长度的情况下,对大于预设长度的长文本进行预处理,得到文本长度小于或等于预设长度的多个短文本。
根据本公开的实施例,针对报表当中可能存在的长文本问题,使用分词级别的预训练方法SpanBERT的优化方案对长文本的报表进行预处理,得到多个预设长度的短文本后,再通过BERT模型进行分类分析。其中预设长度可以基于用户对BERT模型分类需求自行设置。
图4示意性示出了根据本公开另一实施例的报表解析方法的流程图。
如图4所示,对监管报表解析包括解析报表模块、报表字段映射模块和可视化模块。具体对报表解析包括如下步骤:
步骤1,将监管报表输入解析报表模块中。
步骤2,解析报表模块利用基于分词的预训练优化的SpanBERT思想的BERT模型对监管报表进行字段解析。
步骤3,基于对监管报表解析生成的解析信息中的解析状态和解析次数,判断监管报表的解析状态是否为正常状态,并将解析信息存储至关系数据库中的报表解析状态明细表中。
步骤4,在解析状态为正常状态的情况下,将BERT模型输出的多个分类字段,和关系数据库中的报表字段映射表输入报表字段映射模块中,确定监管报表对应的字段映射方案。
步骤5,在解析状态为异常状态的情况下,将监管报表的解析信息输入可视化模块中,对其进行可视化展示。
步骤6,利用可视化模块中的可视化组件对报表字段映射表进行更新,并通过可视化模块对关系数据库进行可视化展示。
图5示意性示出了根据本公开实施例的基于分词的预训练优化的语言模型思想原理图。
根据本公开的实施例,如图5所示,基于分词的预训练优化的SpanBERT思想的BERT模型是专门设计来更好地表示和预测文本的区间的,是BERT模型的一种扩展。SpanBERT是一个新的分词级别的预训练方法,其在现有任务中的表现优于BERT,并在问答、指代消解等分词选择任务中取得了较大的进展。对BERT模型进行了如下改进:
(1)Span Masking(分词掩膜)
Span Masking需要随机地Mask(掩码)连续的多个token(文本),直到所mask的token达到句子总token的15%。具体来讲,首先SpanBERT根据几何分布Geo(p)采样一个Span的长度l,采样的l裁剪为最大为10(长度10以上应当丢弃),几何分布的p为0.2,所以平均的span长度为3.8;然后通过均匀分布在文本中随机选择起始点,位置必须为完整token。即从起始点开始的l长度token将会被Mask。如图5所示,对文本编码(token embeddings)“Super Bowl 50was an American football game to determine the champion”中的“anAmerican football game”进行掩码。
(2)SBO(Span Boundary Object,分词边界目标)
SpanBERT期望Span边界的token能够尽可能多地汇总Span内部的信息,所以引入了SBO预训练目标。具体来讲,给定一串序列文本编码X={x1,x2,...,xn},假设Mask的连续token为(xs,...,xe),xs和xe代表起始token和末端token。SpanBERT通过编码器编码基于位置编码(position embeddings)对文本编码变换(transformer encoder),使用边界tokenxs-1和xe+1来计算Span内部的每个token。计算公式如下:
Figure BDA0004181180270000141
其中,
Figure BDA0004181180270000142
表示Span内部的tokenxi相对于边界tokenxs-1的相对位置编码,/>
Figure BDA0004181180270000143
表示tokenxs-1的编码器的输出向量,/>
Figure BDA0004181180270000144
表示tokenxe+1的编码器的输出向量。
如图5所示,SBO任务期望使用Span的边界tokenx4和x9来预测Span内容。在预测单词football的时候,football位于P7,上述公式具体计算流程如下:
h0=[xs-1;xe+1;Pi-s+1] (2)
h1=LayerNorm(GeLU(W1h0)) (3)
yi=LayerNorm(GeLU(W2h1)) (4)
其中,LayerNorm()表示层标准化函数,GeLU()表示高斯误差线性单元激活函数。
(3)MLM与SBO融合计算
如图5所示,在预测单词football的时候,既使用了MLM任务去预测单词football,同时又使用了SBO任务去预测football,最终将二者进行相加。相应公式为:
Figure BDA0004181180270000145
其中,LMLM()表示MLM损失,LSBO()表示SBO损失。
(4)去掉NSP任务(Next Sentence Prediction,单句预测)
SpanBERT没采用NSP任务,仅采样一个单独的邻接片段,该片段长度最多为512个单词,其长度与BERT使用的两片段的最大长度总和相同,然后MLM加上SBO任务来进行预训练。
基于上述报表解析方法,本公开还提供了一种报表解析装置。以下将结合图5对该装置进行详细描述。
图6示意性示出了根据本公开实施例的报表解析装置的结构框图。
如图6所示,该实施例的报表解析装置600包括字段解析模块610、状态确定模块620、方案确定模块630和报表生成模块640。
字段解析模块610,用于将监管报表输入分词级的预训练语言模型中,对监管报表进行字段解析,输出解析信息和多个分类字段。在一实施例中,字段解析模块610可以用于执行前文描述的操作S201,在此不再赘述。
状态确定模块620,用于基于解析信息确定监管报表的解析状态。在一实施例中,状态确定模块620可以用于执行前文描述的操作S202,在此不再赘述。
方案确定模块630,用于在解析状态为正常状态的情况下,基于多个分类字段和报表字段映射表,确定监管报表中每个分类字段对应的字段映射方案。在一实施例中,方案确定模块630可以用于执行前文描述的操作S203,在此不再赘述。
报表生成模块640,用于将多个字段映射方案写入监管报表中,生成解析报表。在一实施例中,报表生成模块640可以用于执行前文描述的操作S204,在此不再赘述。
根据本公开的实施例,通过采用分词级的预训练语言模型对监管报表进行字段分析,有效提高了字段识别的准确率,且能够对字段进行精准地分类。在解析状态为正常状态的情况下,基于多个分类字段和报表字段映射表确定监管报表中每个分类字段对应的字段映射方案。基于监管报表的解析状态对字段映射方案进行匹配,使得字段映射方案匹配的更准确,且只针对正常状态的报表进行匹配,减少了不必要的资源浪费,提高了报表的解析效率。
根据本公开的实施例,报表解析装置600还包括次数确定模块、迭代模块以及新的方案确定模块。
次数确定模块,用于在解析状态为异常状态的情况下,基于解析信息确定监管报文的解析次数。
迭代模块,用于在解析次数小于或等于预设次数的情况下,利用预训练语言模型对监管报文迭代进行字段解析,输出新的解析信息和多个新的分类字段。
新的方案确定模块,用于在新的解析信息中监管报表的解析状态为正常状态的情况下,基于新的分类字段确定监管报表的字段映射方案。
根据本公开的实施例,报表解析装置600还包括第一展示模块、获取模块以及方案存储模块。
第一展示模块,用于在解析次数大于预设次数的情况下,对解析信息进行可视化展示。
获取模块,用于获取用户基于解析信息输入的监管报表对应的异常字段映射方案。
方案存储模块,用于将异常字段映射方案存储至报表字段映射表中。
根据本公开的实施例,方案确定模块630包括字段确定子模块和方案确定子模块。
字段确定子模块,用于利用协同过滤算法确定报表字段映射表中与分类字段相似度最高的报表字段。
方案确定子模块,用于确定报表字段对应的字段映射方案。
根据本公开的实施例,报表生成模块640包括转化子模块和生成子模块。
转化子模块,用于将字段映射方案转化为字段逻辑关系。
生成子模块,用于将字段逻辑关系写入监管报表对应的分类字段中,生成解析报表。
根据本公开的实施例,报表解析装置600还包括信息存储模块和第二展示模块。
信息存储模块,用于将解析信息存储至报表解析状态明细表中。
第二展示模块,用于对报表解析状态明细表和报表字段映射表进行可视化展示。
根据本公开的实施例,报表解析装置600还包括预处理模块。
预处理模块,用于在监管报表中文本的文本长度大于预设长度的情况下,对大于预设长度的长文本进行预处理,得到文本长度小于或等于预设长度的多个短文本。
根据本公开的实施例,字段解析模块610、状态确定模块620、方案确定模块630和报表生成模块640中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,字段解析模块610、状态确定模块620、方案确定模块630和报表生成模块640中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,字段解析模块610、状态确定模块620、方案确定模块630和报表生成模块640中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图7示意性示出了根据本公开实施例的适于实现报表解析方法的电子设备的方框图。
如图7所示,根据本公开实施例的电子设备700包括处理器701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 703中,存储有电子设备700操作所需的各种程序和数据。处理器701、ROM702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备700还可以包括输入/输出(I/O)接口705,输入/输出(I/O)接口705也连接至总线704。电子设备700还可以包括连接至输入/输出(I/O)接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至输入/输出(I/O)接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的报表解析方法。
在该计算机程序被处理器701执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分709被下载和安装,和/或从可拆卸介质711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (12)

1.一种报表解析方法,包括:
将监管报表输入分词级的预训练语言模型中,对所述监管报表进行字段解析,输出解析信息和多个分类字段;
基于所述解析信息确定所述监管报表的解析状态;
在所述解析状态为正常状态的情况下,基于多个所述分类字段和报表字段映射表,确定所述监管报表中每个所述分类字段对应的字段映射方案;
将多个所述字段映射方案写入所述监管报表中,生成解析报表。
2.根据权利要求1所述的方法,还包括:
在所述解析状态为异常状态的情况下,基于所述解析信息确定所述监管报文的解析次数;
在所述解析次数小于或等于预设次数的情况下,利用所述预训练语言模型对所述监管报文迭代进行字段解析,输出新的解析信息和多个新的分类字段;
在所述新的解析信息中所述监管报表的解析状态为正常状态的情况下,基于所述新的分类字段确定所述监管报表的字段映射方案。
3.根据权利要求2所述的方法,还包括:
在所述解析次数大于预设次数的情况下,对所述解析信息进行可视化展示;
获取用户基于所述解析信息输入的所述监管报表对应的异常字段映射方案;
将所述异常字段映射方案存储至所述报表字段映射表中。
4.根据权利要求1所述的方法,其中,所述基于多个所述分类字段和报表字段映射表,确定所述监管报表中每个所述分类字段对应的字段映射方案,包括:
利用协同过滤算法确定所述报表字段映射表中与所述分类字段相似度最高的报表字段;
确定所述报表字段对应的字段映射方案。
5.根据权利要求1~4中任一项所述的方法,其中,所述将多个所述字段映射方案写入所述监管报表中,生成解析报表,包括:
将所述字段映射方案转化为字段逻辑关系;
将所述字段逻辑关系写入所述监管报表对应的所述分类字段中,生成解析报表。
6.根据权利要求4所述的方法,还包括:
将所述解析信息存储至报表解析状态明细表中;
对所述报表解析状态明细表和所述报表字段映射表进行可视化展示。
7.根据权利要求1所述的方法,所述解析信息包括以下至少一种:所述监管报表的监管报表名、解析开始时间、解析结束时间、报表解析时长、报表解析状态、报表解析次数、处理数据量级别、数据处理的服务器网络地址。
8.根据权利要求1所述的方法,在所述将监管报表输入分词级的预训练语言模型中之前,还包括:
在所述监管报表中文本的文本长度大于预设长度的情况下,对大于所述预设长度的长文本进行预处理,得到文本长度小于或等于所述预设长度的多个短文本。
9.一种报表解析装置,包括:
字段解析模块,用于将监管报表输入分词级的预训练语言模型中,对所述监管报表进行字段解析,输出解析信息和多个分类字段;
状态确定模块,用于基于所述解析信息确定所述监管报表的解析状态;
方案确定模块,用于在所述解析状态为正常状态的情况下,基于多个所述分类字段和报表字段映射表,确定所述监管报表中每个所述分类字段对应的字段映射方案;
报表生成模块,用于将多个所述字段映射方案写入所述监管报表中,生成解析报表。
10.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~8中任一项所述的方法。
12.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~8中任一项所述的方法。
CN202310405431.5A 2023-04-17 2023-04-17 报表解析方法、装置、电子设备及存储介质 Pending CN116415563A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310405431.5A CN116415563A (zh) 2023-04-17 2023-04-17 报表解析方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310405431.5A CN116415563A (zh) 2023-04-17 2023-04-17 报表解析方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116415563A true CN116415563A (zh) 2023-07-11

Family

ID=87056086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310405431.5A Pending CN116415563A (zh) 2023-04-17 2023-04-17 报表解析方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116415563A (zh)

Similar Documents

Publication Publication Date Title
US11487539B2 (en) Systems and methods for automating and monitoring software development operations
CN111061833B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN109359277B (zh) 数据监控方法、设备及计算机存储介质
CN112445875B (zh) 数据关联及检验方法、装置、电子设备及存储介质
EP3916584A1 (en) Information processing method and apparatus, electronic device and storage medium
CN110647523B (zh) 数据质量的分析方法及装置、存储介质、电子设备
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
US20220391598A1 (en) Text checking method based on knowledge graph, electronic device, and medium
CN114036921A (zh) 一种政策信息匹配方法和装置
CN116501846A (zh) 开放式对话方法、装置、电子设备及介质
CN113792138B (zh) 报表生成方法、装置、电子设备及存储介质
CN114706856A (zh) 故障处理方法及装置、电子设备和计算机可读存储介质
CN116415563A (zh) 报表解析方法、装置、电子设备及存储介质
CN115795345A (zh) 信息处理方法、装置、设备及存储介质
CN114020774A (zh) 多轮问答语句的处理方法、装置、设备及存储介质
CN115422202A (zh) 业务模型的生成方法、业务数据查询方法、装置及设备
CN115186738A (zh) 模型训练方法、装置和存储介质
CN114238641A (zh) 运维知识的挖掘方法、装置、设备、存储介质和程序产品
CN114358024A (zh) 日志分析方法、装置、设备、介质和程序产品
CN113487224A (zh) 内容处理方法、装置、设备、介质以及程序产品
CN115600578A (zh) 数据血缘关系解析方法、装置、设备、介质和程序产品
CN114841707A (zh) 核账规则提取方法、装置、设备、存储介质和程序产品
CN116401176A (zh) 数据库语句的检测方法、装置、电子设备及存储介质
CN115686895A (zh) 数据库异常诊断方法、装置、设备、介质和程序产品
CN116661857A (zh) 数据提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination