CN114896955A - 数据报表加工方法、装置、计算机设备及存储介质 - Google Patents

数据报表加工方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114896955A
CN114896955A CN202210581604.4A CN202210581604A CN114896955A CN 114896955 A CN114896955 A CN 114896955A CN 202210581604 A CN202210581604 A CN 202210581604A CN 114896955 A CN114896955 A CN 114896955A
Authority
CN
China
Prior art keywords
report
data
result
label
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210581604.4A
Other languages
English (en)
Inventor
董萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202210581604.4A priority Critical patent/CN114896955A/zh
Publication of CN114896955A publication Critical patent/CN114896955A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种数据报表加工方法、装置、计算机设备及存储介质,该方法通过接收数据报表加工指令;所述数据报表加工指令包括待加工报表以及与待加工报表对应的预设标签口径;所述待加工报表关联一个报表类型;根据预设标签口径对待加工报表进行标签计算,得到与待加工数据对应的报表标签值,并对报表标签值进行基础校验得到第一校验结果;获取具有报表类型的除待加工报表之外的其它数据报表,并确定与其它数据报表对应的第二校验结果;根据第一校验结果以及第二校验结果对报表标签值进行稳定性校验,得到稳定校验结果;在稳定校验结果表征校验成功时,根据报表标签值以及待加工报表生成数据报表。本发明提高了数据报表生成的准确性以及效率。

Description

数据报表加工方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据报表领域,尤其涉及一种数据报表加工方法、装置、计算机设备及存储介质。
背景技术
在许多不同的领域中,均会通过设定的指标对数据进行加工之后生成报表,以供相关人员进行数据分析。由于涉及到不同的决策方向,因此数据报表的准确性是非常重要的。
现有技术中,针对于数据报表的开发往往是基于人工填写的方式实现的,然而如遇到设定的指标存在错误等情况时,需要反复对数据报表进行修改,如此导致数据报表开发时间周期较长,且错误率较高。
发明内容
本发明实施例提供一种数据报表加工方法、装置、计算机设备及存储介质,以解决现有技术中数据报表开发时间周期较长且错误率较高的问题。
一种数据报表加工方法,包括:
接收数据报表加工指令;所述数据报表加工指令包括待加工报表以及与所述待加工报表对应的预设标签口径;所述待加工报表关联一个报表类型;
根据所述预设标签口径对所述待加工报表进行标签计算,得到与所述待加工数据对应的报表标签值,并对所述报表标签值进行基础校验,得到第一校验结果;
获取具有所述报表类型的除所述待加工报表之外的其它数据报表,并确定与所述其它数据报表对应的第二校验结果;
根据所述第一校验结果以及所述第二校验结果对所述报表标签值进行稳定性校验,得到稳定校验结果;
在所述稳定校验结果表征校验成功时,根据所述报表标签值以及所述待加工报表生成数据报表。
一种数据报表加工装置,包括:
指令接收模块,用于接收数据报表加工指令;所述数据报表加工指令包括待加工报表以及与所述待加工报表对应的预设标签口径;所述待加工报表关联一个报表类型;
标签计算模块,用于根据所述预设标签口径对所述待加工报表进行标签计算,得到与所述待加工数据对应的报表标签值,并对所述报表标签值进行基础校验,得到第一校验结果;;
数据获取模块,用于获取具有所述报表类型的除所述待加工报表之外的其它数据报表,并确定与所述其它数据报表对应的第二校验结果;
稳定校验模块,用于根据所述第一校验结果以及所述第二校验结果对所述报表标签值进行稳定性校验,得到稳定校验结果;
报表生成模块,用于在所述稳定校验结果表征校验成功时,根据所述报表标签值以及所述待加工报表生成数据报表。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据报表加工方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据报表加工方法。
上述数据报表加工方法、装置、计算机设备及存储介质,该数据报表加工方法首先通过预设标签口径进行标签的计算,如此即可统一标签计算的逻辑规则,提高了报表标签值生成的效率以及准确性;再对报表标签值进行基础校验,以及通过不同时间点下的其它数据表进行稳定性校验,从而实现对报表标签值的双重校验,提高了报表标签值生成的准确性,进而提高了数据报表生成的准确性,减少了业务方与开发人员之间的时间成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中数据报表加工方法的一应用环境示意图;
图2是本发明一实施例中数据报表加工方法的一流程图;
图3是本发明一实施例中数据报表加工装置的一原理框图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的数据报表加工方法,该数据报表加工方法可应用如图1所示的应用环境中。具体地,该数据报表加工方法应用在数据报表加工系统中,该数据报表加工系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术中数据报表开发时间周期较长且错误率较高的问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一实施例中,如图2所示,提供一种数据报表加工方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:接收数据报表加工指令;所述数据报表加工指令包括待加工报表以及与所述待加工报表对应的预设标签口径;所述待加工报表关联一个报表类型。
可以理解地,数据报表加工指令可以由业务人员等通过移动终端发送,亦或者由业务人员发送待加工报表以及预设标签口径之后由服务器自动生成。待加工报表即为等待进行标签计算和标签校验的报表。预设标签口径即为规定了对待加工报表中的数据进行计算的逻辑(如求和计算或者去重计算等)。报表类型指的是待加工报表的报表类型,该报表类型可以根据待加工报表的数据来源生成,也即该报表类型可以表征待加工报表的数据来源,从而在步骤S30中即可获取具有该报表类型的其它数据报表,也即从相同的数据来源处获取到不同时间点的其它数据报表。
S20:根据所述预设标签口径对所述待加工报表进行标签计算,得到与所述待加工数据对应的报表标签值,并对所述报表标签值进行基础校验,得到第一校验结果。
具体地,在接收数据报表加工指令之后,首先确定待加工报表中是否存在与其它报表进行关联的报表数据,在待加工报表中存在与其它报表进行关联的报表数据时,需要从其它报表中获取关联报表数据,再根据预设标签口径对待加工报表中的报表数据以及与其对应的关联报表数据进行标签计算,也即对报表数据和与其对应的关联报表数据进行如求和计算或者去重计算,进而得到报表标签值;若待加工报表中不存在与其它报表进行关联的报表数据,则直接根据预设标签口径对待加工报表中的报表数据进行标签计算,也即对报表数据进行如求和计算或者去重计算,进而得到报表标签值。进一步地,在得到报表标签值之后,可能预设标签口径或者待加工报表中的数据存在错误,从而使得报表标签值存在误差,因此需要对报表标签值进行基础校验,得到第一校验结果。其中,基础校验是指根据待加工报表的如业务背景,或者数据类型等进行初次校验。
S30:获取具有所述报表类型的除所述待加工报表之外的其它数据报表,并确定与所述其它数据报表对应的第二校验结果。
可以理解地,针对于一个企业或者系统而言,其在每一个不同的时间点或者时间段所生成的数据报表可能是不同的,因此可以根据待加工报表的报表类型,获取到具有该报表类型的除待加工报表之外的其它数据报表,该其它数据报表可以为一个也可以为多个,且每一个其它数据报表所对应的报表生成时间均是不同的,每一个其它数据报表与待加工报表的报表生成时间也是不同的,如此即可根据不同时间点或者时间段所生成的其它数据报表对待加工报表的报表标签值进行校验,提高报表标签值生成的准确性。进一步地,其它数据报表的第二校验结果可以根据步骤S20中的方法,也即可以获取其它数据报表对应的其它标签口径(其它标签口径与预设标签口径对应,该其它标签口径规定了对其它报表数据中的报表数据进行标签计算的逻辑),进而根据其它标签口径对其它数据报表进行标签计算,得到其它标签值,进而对其它标签值进行基础校验,得到第二校验结果。
S40:根据所述第一校验结果以及所述第二校验结果对所述报表标签值进行稳定性校验,得到稳定校验结果。
可以理解地,在上述说明中指出待加工报表和其它数据报表为不同时间点或者不同时间段下相同报表类型的数据报表,进而可以通过待加工报表的标签值以及其它数据报表的标签值确定该待加工报表的报表标签值是否稳定,从而提高报表标签值确定的准确性。具体地,在确定与待加工报表对应的第一校验结果,以及与各其它数据报表一一对应的第二校验结果之后,确认第一校验结果和第二校验结果是否均为表征校验成功的结果,若第一校验结果和第二校验结果均为表征校验成功的结果,即表征待加工报表的报表标签值初步校验准确,以及其它数据报表对应的其它标签值初步校验准确,进而可以通过对待加工报表的报表标签值,以及其它数据报表对应的其它标签值进行稳定性校验,如可以通过确定报表标签值和其它标签值之间的差值,并将该差值与预设差值阈值(该预设差值阈值可以根据应用场景进行选取,在报表标签值表征如兑换率等数值型标签时,该预设差值阈值可以设为0.1等)进行比较,得到稳定校验结果。其中,稳定校验结果包括表征校验成功的结果,以及表征校验失败的结果。示例性地,假设报表标签值和所有其他标签值之间的差值均小于或等于预设差值阈值,则该稳定校验结果为表征校验成功的结果;假设报表标签值和任意一个其他标签值之间的差值大于预设差值阈值,则该稳定校验结果为表征校验失败的结果。
S50:在所述稳定校验结果表征校验成功时,根据所述报表标签值以及所述待加工报表生成数据报表。
可以理解地,在稳定校验结果表征校验成功时,即表征待加工报表和其它数据报表之间的标签值(如待加工报表的报表标签值)较为相近,进而可以将该报表标签值作为待加工报表的指标标签,从而得到与待加工报表对应的数据报表。
在本实施例中,首先通过预设标签口径进行标签的计算,如此即可统一标签计算的逻辑规则,提高了报表标签值生成的效率以及准确性;再对报表标签值进行基础校验,以及通过不同时间点下的其它数据表进行稳定性校验,从而实现对报表标签值的双重校验,提高了报表标签值生成的准确性,进而提高了数据报表生成的准确性,减少了业务方与开发人员之间的时间成本。
在一实施例中,步骤S10之前,也即所述接收数据报表加工指令之前,还包括:
接收数据报表预处理指令;所述数据报表预处理指令中包括与初始加工报表对应的报表名称以及数据源名称。
可以理解地,初始加工报表可以为一个企业或者系统的数据库中所存储的若干报表,一个初始加工报表对应具有一个报表名称以及数据源名称,报表名称也即desc表名,数据源名称也即指示初始加工报表的数据库源头。
根据所述报表名称以及所述数据源名称执行执行基于hive的报表查询指令,以确定所述初始加工报表是否为空。
具体地,在接收数据报表预处理指令之后,即可根据报表名称以及数据源名称执行基于hive(hive是一个数据仓库基础设施工具,其用于汇总企业或者系统的数据库中所存储的所有报表,从而通过生成脚本的方式提供查询的功能,也即此处所生成的报表查询指令)的报表查询指令,以先获取到数据源名称下对应的数据存储源头下是否存在该初始数据报表(初始数据报表可能被工作人员删除亦或者更新后,导致初始数据报表不存在),在确定存在初始数据报表之后,即可对初始数据报表进行空值检测,从而确定初始数据报表中是否存在具体地数据值。因此,初始加工报表为空主要分为两种情况:第一种情况为:根据数据源名称无法查询到初始加工报表;第二种情况为:根据数据源名称查询到初始加工报表,但初始加工报表中的报表数据为空。
将不为空的所述初始加工报表记录为基础加工报表,并对所述初始加工报表中的所有初始报表数据进行数据一致性校验,得到数据校验结果。
具体地,在根据所述报表名称以及所述数据源名称执行基于hive的报表查询指令,以确定所述初始加工报表是否为空之后,在初始加工报表不为空时,将不为空的初始加工报表记录为基础加工报表,并对所述初始加工报表中的所有初始报表数据进行数据一致性校验,得到数据校验结果。其中,数据一致性校验包括两种情况:其中一种情况为:由于同一数据源下的基础加工报表可能是不同时间点所采集到的数据生成的,因此可以从不同的时间点(如天/周/月等周期性)查询同一类型的基础加工报表对应报表数据的数据量是否一致,由于采集数据源头是相同的,因此数据采集的数值可能不同,但是采集的数据总量基本相同;另一种情况为:若基础加工报表之间存在数据同步的情况,则需要校验数据同步前后的两个报表中的报表数据是否相同。
在所述数据校验结果表征校验成功时,将所述基础加工报表记录为所述待加工报表。
具体地,在对所述初始加工报表中的所有初始报表数据进行数据一致性校验,得到数据校验结果之后,若数据校验结果表征校验成功,也即表征该基础加工报表中的报表数据没有错误,将基础加工报表记录为待加工报表。如此,首先对数据库中的报表进行筛选,从而使得筛选出的待加工报表中的报表数据是准确的,提高了数据报表加工的效率以及准确性。
在一实施例中,步骤S20中,也即所述对所述报表标签值进行基础校验,得到第一校验结果,包括:
获取与所述待加工报表对应的标签背景规则,并根据所述标签背景规则对所述报表标签值进行初始校验,得到初始校验结果。
可以理解地,标签背景规则即为与待加工报表所对应的业务计算规则,示例性地,假设一个活动奖品兑换数据下需要计算兑换率,该兑换率为兑换数量/领取数量,因此可以确定该待加工报表对应的报表标签值的数值范围在0至1之间,因此首先通过标签背景规则对报表标签值进行初始校验,即可预先对报表标签值的计算结果进行初始审核,得到初始校验结果。
确定与所述报表标签值对应的标签类型,并获取与所述标签类型对应的预设校验规则。
根据所述预设校验规则对所述待加工报表进行分类校验,得到分类校验结果。
可以理解地,标签类型可以包括分类型标签、数值型标签或者报表统计值标签。预设校验规则即为针对不同的标签类型所设定的不同的校验规则,示例性地,假设标签类型为分类型标签时,预设校验规则可以为统计每一个分类的分布值,进而根据该分布值进行校验;假设标签类型为数值型标签,对所有数值进行区间划分,从而统计每一个区间的分布情况,再根据该分布情况进行校验;假设标签类型为报表统计值标签,则可以统计多个不同时间的报表值并形成报表分析曲线,从而根据该报表分析曲线确定是否存在突变的情况进行校验。
根据所述初始校验结果和所述分类校验结果,确定所述第一校验结果。
具体地,在确定与报表标签值对应的初始校验结果以及分类校验结果之后,假设初始校验结果和分类校验结果均为表征校验成功的结果时,即可确定第一校验结果为表征校验成功的结果;假设初始校验结果和分类校验结果中任意一个结果为表征校验失败的结果,即可确定第一校验结果为表征校验失败的结果。
在一实施例中,步骤S40中,也即所述根据所述第一校验结果以及所述第二校验结果对所述报表标签值进行稳定性校验,得到稳定校验结果,包括:
确定所述第一校验结果以及所述第二校验结果是否均为校验成功结果;所述校验成功结果是指所述第一校验结果表征校验成功,或所述第二校验结果表征校验成功。
可以理解地,第一校验结果和第二校验结果包括校验成功的结果或者校验失败的结果,因此将表征校验成功的第一校验结果和第二校验结果均视为校验成功结果。在对报表标签值进行稳定性校验之前,需要确定待加工报表和其它数据报表的基础校验对应的第一校验结果和第二校验结果均为表征校验成功的结果,才能进行稳定性校验
在所述第一校验结果以及所述第二校验结果均为校验成功结果时,获取与所述第二校验结果对应的其它标签值。
可以理解地,其它标签值与报表标签值相对应,也即通过根据步骤S20中的方法,也即可以获取其它数据报表对应的其它标签口径(其它标签口径与预设标签口径对应,该其它标签口径规定了对其它报表数据中的报表数据进行标签计算的逻辑),进而根据其它标签口径对其它数据报表进行标签计算,得到其它标签值。
将所述报表标签值与所述其它标签值之差记录为报表标签差值。
获取预设差值阈值,并根据所述报表标签差值以及所述预设差值阈值对所述报表标签值进行稳定性校验,得到所述稳定校验结果。
可以理解地,预设差值阈值可以根据应用场景进行选取,在报表标签值表征如兑换率等数值型标签时,该预设差值阈值可以设为0.1等。报表标签差值即为报表标签值和其它标签值之差,也即每一个其它标签值均会对应一个报表标签差值,进而可以将报表标签值与预设差值阈值进行比较,若报表标签值和所有其他标签值之间的差值均小于或等于预设差值阈值,则该稳定校验结果为表征校验成功的结果;若报表标签值和任意一个其他标签值之间的差值大于预设差值阈值,则该稳定校验结果为表征校验失败的结果。
在一实施例中,所述根据所述第一校验结果以及所述第二校验结果对所述待加工报表进行稳定性校验,得到稳定校验结果之后,还包括:
在所述稳定校验结果表征校验失败时,获取关键活动信息。
可以理解地,在稳定校验结果表征校验失败时,即表征待加工报表和其它数据报表之间的标签值(如待加工报表的报表标签值)差距较大,造成其标签值差距较大的原因可能是:周末、节假日或者活动节点导致不同时间点的待加工报表和其它数据报表之间的标签值存在较大的波动,进而导致稳定校验结果为表征校验失败的结果。关键活动信息是指在一定范围时间内获取到与待加工报表相关(即为行业相关)的活动信息。
在一实施例中,所述获取关键活动信息,包括:
获取与所述待加工报表对应的报表行业标签。
可以理解地,报表行业标签是指该待加工报表关联的行业,示例性地,报表行业标签可以为教育行业、金融行业等,亦或者在待加工报表和其它数据报表均属于同一企业的报表时,该报表行业标签也可以为该企业下的专属活动名词,例如xx黄金周,或者xx促销日等活动。进一步地,该报表行业标签可以通过人工标记的方式预先对待加工报表进行标定。
通过爬虫技术爬取在预设时间范围内的至少一个基础活动信息;一个所述基础活动信息关联一个活动行业标签。
可以理解地,爬虫技术即为通过程序或者脚本从如网页中获取信息的技术。预设时间范围可以根据待加工报表的生成的时间,亦或者接收到数据报表加工指令的时间确定,例如接收到数据报表加工指令的时间为2022年3月21日,进而可确定预设时间范围为该接收到数据报表加工指令的时间之后的七天时间(如2022年3月22日至3月29日)。基础活动信息指的是如企业发布的活动信息或者不同媒体平台发布的活动信息等。活动行业标签用于表征基础活动信息的行业信息,示例性地,活动行业标签可以为教育行业、金融行业等。进一步地,活动行业标签可以通过对基础活动信息进行实体识别确定,如识别出基础活动信息中的行业实体,进而将提取该行业实体对应的文字信息,从而根据该文字信息确定出与该基础活动信息对应的活动行业标签;示例性地,假设一个基础活动信息为“金融市场迎来超级周,黄金周初趋于平稳”,如此可以识别到的实体为“金融”,进而确定活动行业标签为金融行业标签;亦或者基础活动信息为“双十一即将来临,电商大战即将开始”,如此可以识别到的实体为“电商”,进而确定活动行业标签为电商行业标签。
将所述报表行业标签与所述活动行业标签进行匹配。
具体地,在通过爬虫技术爬取在预设时间范围内的至少一个基础活动信息之后,即可将报表行业标签与每一个活动行业标签一一进行匹配。
将与所述报表行业标签匹配的活动行业标签记录为关键行业标签,并将与所述关键行业标签关联的基础活动信息记录为所述关键活动信息。
具体地,在将报表行业标签与活动行业标签进行匹配之后,即可将与报表行业标签匹配的活动行业标签确定为关键行业标签,进而将与关键行业标签关联的基础活动信息确定为关键活动信息。
根据所述关键活动信息对所述报表标签值进行标签预测,得到与所述报表标签值对应的标签预测结果。
具体地,在获取关键活动信息之后,即可确定关键活动信息是否对报表标签值存在影响,如正面影响,负面影响或者无影响,例如当存在如促销日、活动日等节日时,报表标签值可能会在某一时间点或者时间范围存在一个突增;亦或者存在如削减活动力度,商品价格抬高等信息时,报表标签值可能会在某一时间点或者时间范围存在一个骤减;亦或者存在如保持当前行业稳定前进等信息时,报表标签值在一段时间范围内趋于平稳的状态。进而可以根据关键活动信息对报表标签值的变化趋势进行预测,得到标签预测结果。其中,该标签预测结果即为对报表标签值的标签值趋势的预测结果,如表征报表标签值可能会发生突增、骤减等现象。
在一实施例中,所述根据所述关键活动信息对所述报表标签值进行标签预测,得到与所述报表标签值对应的标签预测结果,包括:
对所述关键活动信息进行实体识别以及意图特征提取,得到实体识别结果以及意图提取结果。
可以理解地,实体识别即为提取关键活动信息中的实体的过程,以根据实体识别结果确定关键活动信息所属的行业。意图特征提取即为提取关键活动信息中的动作意图的过程,以根据意图提取结果以及实体识别结果进行情感分析。
具体地,在获取关键活动信息之后,可以对关键活动信息进行分词处理,得到与关键活动信息对应的多个关键活动字词;进而可以根据预设词向量词典对各关键活动字词进行实体识别,得到实体识别结果;再根据预设意图定义树、各关键活动字词以及实体识别结果,对关键活动信息进行意图识别,得到与实体识别结果对应的意图提取结果。其中,分词处理即将关键活动信息中划分为字词的方法,如可以通过如结巴分词、自然语言模型分词等方法进行分词处理。
进一步地,预设词向量词典是预先对各种字词进行词向量转换之后,将字词以及与其对应的词向量进行存储的词典,也即在预设词向量词典中存储至少一个字词,以及与字词一一对应的词向量,从而可以在预设词向量词典查询到关键活动字词对应的词向量,进而根据对应的词向量通过如基于BERT的识别模型,亦或者基于ALBERT的识别模型进行实体识别,得到实体识别结果。
进一步地,预设意图定义树是预先采集若干意图特征并对采集的意图进行分类(如根据意图的类别,意图的情感等)之后构建的。在确定各关键活动字词对应的实体识别结果之后,即可根据各关键活动字词对应的实体识别结果确定出如行业实体,执行主体实体,进而根据行业实体,执行主体实体对各关键活动字词进行标注,得到标注活动信息,将该标注活动信息输入至预设意图定义树中,以通过预设意图定义树对标注活动信息进行意图识别,得到意图提取结果。示例性地,假设关键活动信息为“XX部门宣扬大力发展电竞平台”时,对应的执行主体实体为“XX部门”,则在对“XX部门”标注上执行主体实体之后,预设意图定义树即可识别出标注活动信息中的意图特征为“宣扬”以及“大力发展”,如此即可得到对应的意图提取结果。
根据所述实体识别结果以及所述意图提取结果对所述关键活动信息进行情感分析,得到与所述关键活动信息对应的活动感情结果。
具体地,在对关键活动信息进行实体识别以及意图特征提取,得到实体识别结果以及意图提取结果之后,根据实体识别结果以及意图提取结果对关键活动信息进行情感分析,也即确定意图提取结果对实体识别结果的影响,得到活动感情结果。在本实施例中,活动感情结果主要包括正向情感以及反向情感,除此之外还可以为中性情感。
根据所述活动感情结果对所述报表标签值进行标签预测,得到所述标签预测结果。
具体地,在根据实体识别结果以及意图提取结果对关键活动信息进行情感分析,得到与关键活动信息对应的活动感情结果之后,即可根据活动感情结果对报表标签值进行标签预测,得到标签预测结果。示例性地,假设活动感情结果为正向情感,则可以预测报表标签值在一个时间点或者一定时间范围内存在一个突增的状态;假设活动感情结果为反向情感,则可以预测报表标签值在一个时间点或者一定时间范围内存在一个骤减的状态;假设活动感情结果为中性情感,则可以预测报表标签值在一个时间点或者一定时间范围内变化较小。
根据所述标签预测结果对所述稳定校验结果进行调整,得到调整校验结果。
具体地,在根据关键活动信息对报表标签值进行标签预测,得到与报表标签值对应的标签预测结果之后,即可根据该标签预测结果确定在一定时间范围内的关键活动信息对报表标签值的影响,而其它数据报表也是在一定时间范围内不同时间点下与待加工报表对应的报表,如在一周中将第一天采集的报表视为待加工报表,剩余六天采集得到的报表视为其它数据报表,如此即可根据标签预测结果对稳定校验结果进行调整,得到调整校验结果。例如,稳定校验结果中发现在某一时刻其它数据报表的标签值突然骤增,而标签预测结果表征报表标签值受到关键活动信息的正向情感影响在某一时间点可能会发生骤增现象,则此时即可确定调整校验结果为表征报表标签值校验成功。
在所述调整校验结果表征校验成功时,根据所述报表标签值以及所述待加工报表生成数据报表。
具体地,在调整校验结果表征校验成功时,即表征待加工报表和其它数据报表之间的标签值(如待加工报表的报表标签值)仍是相近的,只是由于部分活动信息对标签值在某一时间点上产生了影响,进而可以将该报表标签值作为待加工报表的指标标签,从而得到与待加工报表对应的数据报表。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种数据报表加工装置,该数据报表加工装置与上述实施例中数据报表加工方法一一对应。如图3所示,该数据报表加工装置包括指令接收模块10、标签计算模块20、数据获取模块30、稳定校验模块40和报表生成模块50。各功能模块详细说明如下:
指令接收模块10,用于接收数据报表加工指令;所述数据报表加工指令包括待加工报表以及与所述待加工报表对应的预设标签口径;所述待加工报表关联一个报表类型;
标签计算模块20,用于根据所述预设标签口径对所述待加工报表进行标签计算,得到与所述待加工数据对应的报表标签值,并对所述报表标签值进行基础校验,得到第一校验结果;
数据获取模块30,用于获取具有所述报表类型的除所述待加工报表之外的其它数据报表,并确定与所述其它数据报表对应的第二校验结果;
稳定校验模块40,用于根据所述第一校验结果以及所述第二校验结果对所述报表标签值进行稳定性校验,得到稳定校验结果;
报表生成模块50,用于在所述稳定校验结果表征校验成功时,根据所述报表标签值以及所述待加工报表生成数据报表。
优选地,数据报表加工装置还包括:
报表数据获取模块,用于接收数据报表预处理指令;所述数据报表预处理指令中包括与初始加工报表对应的报表名称以及数据源名称;
查询指令执行模块,用于根据所述报表名称以及所述数据源名称执行基于hive的报表查询指令,以确定所述初始加工报表是否为空;
数据一致性校验模块,用于将不为空的所述初始加工报表记录为基础加工报表,并对所述基础加工报表中的所有报表数据进行数据一致性校验,得到数据校验结果;
报表记录模块,用于在所述数据校验结果表征校验成功时,将所述基础加工报表记录为所述待加工报表。
优选地,标签计算模块20包括:
初始校验单元,用于获取与所述待加工报表对应的标签背景规则,并根据所述标签背景规则对所述待加工报表进行初始校验,得到初始校验结果;
标签类型确定单元,用于确定与所述报表标签值对应的标签类型,并获取与所述标签类型对应的预设校验规则;
分类校验单元,用于根据所述预设校验规则对所述待加工报表进行分类校验,得到分类校验结果;
校验结果确定单元,用于根据所述初始校验结果和所述分类校验结果,确定所述第一校验结果。
优选地,稳定校验模块40包括:
结果确定单元,用于确定所述第一校验结果以及所述第二校验结果是否均为校验成功结果;所述校验成功结果是指所述第一校验结果表征校验成功,或所述第二校验结果表征校验成功;
标签值获取单元,用于在所述第一校验结果以及所述第二校验结果均为校验成功结果时,获取与所述第二校验结果对应的其它标签值;
差值计算单元,用于将所述报表标签值与所述其它标签值之差记录为报表标签差值;
稳定校验单元,用于获取预设差值阈值,并根据所述报表标签差值以及所述预设差值阈值对所述报表标签值进行稳定性校验,得到所述稳定校验结果。
优选地,数据报表加工装置还包括:
信息获取模块,用于在所述稳定校验结果表征校验失败时,获取关键活动信息;
标签预测模块,用于根据所述关键活动信息对所述报表标签值进行标签预测,得到与所述报表标签值对应的标签预测结果;
结果调整模块,用于根据所述标签预测结果对所述稳定校验结果进行调整,得到调整校验结果;
报表调整模块,用于在所述调整校验结果表征校验成功时,根据所述报表标签值以及所述待加工报表生成数据报表。
优选地,信息获取模块包括:
标签获取单元,用于获取与所述待加工报表对应的报表行业标签;
信息爬取单元,用于通过爬虫技术爬取在预设时间范围内的至少一个基础活动信息;一个所述基础活动信息关联一个活动行业标签;
标签匹配单元,用于将所述报表行业标签与所述活动行业标签进行匹配;
标签记录单元,用于将与所述报表行业标签匹配的活动行业标签记录为关键行业标签,并将与所述关键行业标签关联的基础活动信息记录为所述关键活动信息。
优选地,标签预测模块包括:
识别提取单元,用于对所述关键活动信息进行实体识别以及意图特征提取,得到实体识别结果以及意图提取结果;
情感分析单元,用于根据所述实体识别结果以及所述意图提取结果对所述关键活动信息进行情感分析,得到与所述关键活动信息对应的活动感情结果;
标签预测单元,用于根据所述活动感情结果对所述报表标签值进行标签预测,得到所述标签预测结果。
关于数据报表加工装置的具体限定可以参见上文中对于数据报表加工方法的限定,在此不再赘述。上述数据报表加工装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于上述实施例中数据报表加工方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据报表加工方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的数据报表加工方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的数据报表加工方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据报表加工方法,其特征在于,包括:
接收数据报表加工指令;所述数据报表加工指令包括待加工报表以及与所述待加工报表对应的预设标签口径;所述待加工报表关联一个报表类型;
根据所述预设标签口径对所述待加工报表进行标签计算,得到与所述待加工数据对应的报表标签值,并对所述报表标签值进行基础校验,得到第一校验结果;
获取具有所述报表类型的除所述待加工报表之外的其它数据报表,并确定与所述其它数据报表对应的第二校验结果;
根据所述第一校验结果以及所述第二校验结果对所述报表标签值进行稳定性校验,得到稳定校验结果;
在所述稳定校验结果表征校验成功时,根据所述报表标签值以及所述待加工报表生成数据报表。
2.如权利要求1所述的数据报表加工方法,其特征在于,所述接收数据报表加工指令之前,还包括:
接收数据报表预处理指令;所述数据报表预处理指令中包括与初始加工报表对应的报表名称以及数据源名称;
根据所述报表名称以及所述数据源名称执行基于hive的报表查询指令,以确定所述初始加工报表是否为空;
将不为空的所述初始加工报表记录为基础加工报表,并对所述基础加工报表中的所有报表数据进行数据一致性校验,得到数据校验结果;
在所述数据校验结果表征校验成功时,将所述基础加工报表记录为所述待加工报表。
3.如权利要求1所述的数据报表加工方法,其特征在于,所述对所述报表标签值进行基础校验,得到第一校验结果,包括:
获取与所述待加工报表对应的标签背景规则,并根据所述标签背景规则对所述报表标签值进行初始校验,得到初始校验结果;
确定与所述报表标签值对应的标签类型,并获取与所述标签类型对应的预设校验规则;
根据所述预设校验规则对所述待加工报表进行分类校验,得到分类校验结果;
根据所述初始校验结果和所述分类校验结果,确定所述第一校验结果。
4.如权利要求1所述的数据报表加工方法,其特征在于,所述根据所述第一校验结果以及所述第二校验结果对所述报表标签值进行稳定性校验,得到稳定校验结果,包括:
确定所述第一校验结果以及所述第二校验结果是否均为校验成功结果;所述校验成功结果是指所述第一校验结果表征校验成功,或所述第二校验结果表征校验成功;
在所述第一校验结果以及所述第二校验结果均为校验成功结果时,获取与所述第二校验结果对应的其它标签值;
将所述报表标签值与所述其它标签值之差记录为报表标签差值;
获取预设差值阈值,并根据所述报表标签差值以及所述预设差值阈值对所述报表标签值进行稳定性校验,得到所述稳定校验结果。
5.如权利要求1所述的数据报表加工方法,其特征在于,所述根据所述第一校验结果以及所述第二校验结果对所述待加工报表进行稳定性校验,得到稳定校验结果之后,还包括:
在所述稳定校验结果表征校验失败时,获取关键活动信息;
根据所述关键活动信息对所述报表标签值进行标签预测,得到与所述报表标签值对应的标签预测结果;
根据所述标签预测结果对所述稳定校验结果进行调整,得到调整校验结果;
在所述调整校验结果表征校验成功时,根据所述报表标签值以及所述待加工报表生成数据报表。
6.如权利要求5所述的数据报表加工方法,其特征在于,所述获取关键活动信息,包括:
获取与所述待加工报表对应的报表行业标签;
通过爬虫技术爬取在预设时间范围内的至少一个基础活动信息;一个所述基础活动信息关联一个活动行业标签;
将所述报表行业标签与所述活动行业标签进行匹配;
将与所述报表行业标签匹配的活动行业标签记录为关键行业标签,并将与所述关键行业标签关联的基础活动信息记录为所述关键活动信息。
7.如权利要求5所述的数据报表加工方法,其特征在于,所述根据所述关键活动信息对所述报表标签值进行标签预测,得到与所述报表标签值对应的标签预测结果,包括:
对所述关键活动信息进行实体识别以及意图特征提取,得到实体识别结果以及意图提取结果;
根据所述实体识别结果以及所述意图提取结果对所述关键活动信息进行情感分析,得到与所述关键活动信息对应的活动感情结果;
根据所述活动感情结果对所述报表标签值进行标签预测,得到所述标签预测结果。
8.一种数据报表加工装置,其特征在于,包括:
指令接收模块,用于接收数据报表加工指令;所述数据报表加工指令包括待加工报表以及与所述待加工报表对应的预设标签口径;所述待加工报表关联一个报表类型;
标签计算模块,用于根据所述预设标签口径对所述待加工报表进行标签计算,得到与所述待加工数据对应的报表标签值,并对所述报表标签值进行基础校验,得到第一校验结果;
数据获取模块,用于获取具有所述报表类型的除所述待加工报表之外的其它数据报表,并确定与所述其它数据报表对应的第二校验结果
稳定校验模块,用于根据所述第一校验结果以及所述第二校验结果对所述报表标签值进行稳定性校验,得到稳定校验结果;
报表生成模块,用于在所述稳定校验结果表征校验成功时,根据所述报表标签值以及所述待加工报表生成数据报表。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述数据报表加工方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数据报表加工方法。
CN202210581604.4A 2022-05-26 2022-05-26 数据报表加工方法、装置、计算机设备及存储介质 Pending CN114896955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210581604.4A CN114896955A (zh) 2022-05-26 2022-05-26 数据报表加工方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210581604.4A CN114896955A (zh) 2022-05-26 2022-05-26 数据报表加工方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114896955A true CN114896955A (zh) 2022-08-12

Family

ID=82726477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210581604.4A Pending CN114896955A (zh) 2022-05-26 2022-05-26 数据报表加工方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114896955A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115576958A (zh) * 2022-12-08 2023-01-06 杭银消费金融股份有限公司 一种生产设备监管报表的数据校验方法、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115576958A (zh) * 2022-12-08 2023-01-06 杭银消费金融股份有限公司 一种生产设备监管报表的数据校验方法、设备及介质
CN115576958B (zh) * 2022-12-08 2023-03-07 杭银消费金融股份有限公司 一种生产设备监管报表的数据校验方法、设备及介质

Similar Documents

Publication Publication Date Title
CN110489520B (zh) 基于知识图谱的事件处理方法、装置、设备和存储介质
CN108876133B (zh) 基于业务信息的风险评估处理方法、装置、服务器和介质
US20220075670A1 (en) Systems and methods for replacing sensitive data
CN109636607B (zh) 基于模型部署的业务数据处理方法、装置和计算机设备
CN111241161A (zh) 发票信息挖掘方法、装置、计算机设备及存储介质
CN112990281A (zh) 异常投标识别模型训练方法、异常投标识别方法及装置
CN113837584B (zh) 业务处理系统和基于业务处理系统的异常数据处理方法
CN114896955A (zh) 数据报表加工方法、装置、计算机设备及存储介质
CN116739605A (zh) 交易数据检测方法、装置、设备及存储介质
CN116957828A (zh) 报账审核方法、设备、存储介质及装置
CN111831817A (zh) 问卷生成分析方法、装置、计算机设备及可读存储介质
CN111277465A (zh) 一种异常数据报文检测方法、装置及电子设备
US20220091818A1 (en) Data feature processing method and data feature processing apparatus
CN112990937B (zh) 资源数据采集方法、装置、计算机设备和存储介质
CN115168509A (zh) 风控数据的处理方法及装置、存储介质、计算机设备
CN113535449B (zh) 异常事件修复处理方法、装置、计算机设备及存储介质
US20220284045A1 (en) Matching machine generated data entries to pattern clusters
CN115495587A (zh) 一种基于知识图谱的告警分析方法及装置
CN111460268B (zh) 数据库查询请求的确定方法、装置和计算机设备
CN115203339A (zh) 多数据源整合方法、装置、计算机设备及存储介质
CN113902415A (zh) 财务数据核对方法、装置、计算机设备和存储介质
CN113760864A (zh) 数据模型的生成方法和装置
CN111932131A (zh) 业务数据处理方法及装置
CN112734352A (zh) 一种基于数据维度的单据审核方法和装置
CN117076546B (zh) 数据处理方法、终端设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination