CN112612938A

CN112612938A - 一种数据处理方法、装置、存储介质和设备

Info

Publication number: CN112612938A
Application number: CN202011499055.3A
Authority: CN
Inventors: 王越越; 郭阳; 付鑫; 朱静; 赵振东; 孙盼; 张凌恺
Original assignee: Beijing China Power Information Technology Co Ltd
Current assignee: Beijing China Power Information Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-04-06

Abstract

本申请公开了一种数据处理方法、装置、存储介质和设备，获取各个数据文件，数据文件包括第一表格文件和压缩文件，第一表格文件具有业务编号，对压缩文件进行解压，得到第二表格文件，第二表格文件具有业务编号，基于业务编号与主题文件夹之间的预设对应关系，将第一表格文件和第二表格文件存放在对应的主题文件夹中，将主题文件夹导入kettle工具中，触发kettle工具执行数据抽取任务。其中，数据抽取任务用于依据预设的文件路径从目标表格文件中抽取预设的输入字段，并对输入字段进行预处理，将预处理后的输入字段导入到预设的数据表中。可见，相较于现有技术，本申请能够避免人工参与数据的归集和核查，效率明显提高不少。

Description

一种数据处理方法、装置、存储介质和设备

技术领域

本申请涉及数据处理领域，尤其涉及一种数据处理方法、装置、存储介质和设备。

背景技术

对于大型企业而言，常态业务监测工作主要包括数据获取与下发、数据归集与核查、数据处理与校验、以及监测报告编制四个环节。在数据获取与下发环节、以及数据处理与校验环节中，大型企业名下的各个子公司会从业务后台获取业务监测数据，并将业务监测数据与大型企业总部下发的系统数据进行整合，生成数据文件，再将数据文件发送至预设的运营监测工作台(具体为服务器)，由运营监测工作台将数据文件上传至大型企业总部。最后，再由大型企业总部负责数据归集与核查环节、以及监测报告编制环节。

如何提高数据归集与核查环节的处理效率，成为大型企业目前亟待解决的问题。

发明内容

申请人发现：在数据归集过程中，由于各个子公司上传的数据文件的格式，主要以表格文件(例如excel文件)和压缩文件(例如压缩包)为主，需要人为进行大量的干预操作(例如对压缩文件进行解压、对表格文件进行分类等)，致使效率低下。此外，在数据核查过程中，部分数据文件存在着数据格式不规范、数据维度不统一、以及数据冗余等问题，需要消耗大量时间解决这些问题，从而降低效率。

本申请提供了一种数据处理方法、装置、存储介质和设备，目的在于提高数据归集与核查的效率。

为了实现上述目的，本申请提供了以下技术方案：

一种数据处理方法，包括：

获取各个数据文件；所述数据文件包括第一表格文件和压缩文件；所述第一表格文件具有业务编号；

对所述压缩文件进行解压，得到第二表格文件；所述第二表格文件具有业务编号；

基于所述业务编号与主题文件夹之间的预设对应关系，将所述第一表格文件和所述第二表格文件存放在对应的所述主题文件夹中；

将所述主题文件夹导入kettle工具中，并触发所述kettle工具执行数据抽取任务；其中，所述数据抽取任务用于依据预设的文件路径从目标表格文件中抽取预设的输入字段，并对所述输入字段进行预处理，将预处理后的所述输入字段导入到预设的数据表中；所述目标表格文件包括所述第一表格文件和所述第二表格文件。

可选的，还包括：

在所述kettle工具中预先配置所述文件路径、所述输入字段、以及所述数据表。

可选的，所述数据抽取任务包括第一预处理作业，所述第一预处理作业用于按照预设第一规则对所述输入字段进行预处理；

所述按照预设第一规则对所述输入字段进行预处理包括：

以预设的参考字段为基准要求，对所述输入字段进行字符串修正，得到符合所述基准要求的字段；其中，所述字符串修正的手段包括字符替换、空格删除、以及字符删除中的至少一项；

将符合所述基准要求的所述字段作为预处理后的所述输入字段。

可选的，所述数据抽取任务包括第二预处理作业，所述第二预处理作业用于按照预设第二规则对所述输入字段进行预处理；

所述按照预设第二规则对所述输入字段进行预处理包括：

对所述输入字段进行识别，确定所述输入字段所描述的对象；

基于所述对象和预设的表述方式之间的对应关系，利用对应的所述表述方式，对所述输入字段进行转换，得到新字段；

将所述新字段作为预处理后的所述输入字段。

可选的，所述数据抽取任务包括第三预处理作业，所述第三预处理作业用于按照预设第三规则对所述输入字段进行预处理；

所述按照预设第三规则对所述输入字段进行预处理包括：

针对相同的多个所述输入字段，从多个所述输入字段中选取生成时间最晚的所述输入字段，作为目标输入字段；

所述将预处理后的所述输入字段导入到预设的数据表中，包括：

将所述目标输入字段导入到预设的数据表中。

可选的，所述将各个表格文件存放在与自身预设的所述业务编号对应的所述主题文件夹中，包括：

按照所述目标表格文件的获取时间由早到晚的顺序，对每个所述主题文件夹下的各个所述目标表格文件进行排序。

一种数据处理装置，包括：

获取单元，用于获取各个数据文件；所述数据文件包括第一表格文件和压缩文件；所述第一表格文件具有业务编号；

解压单元，用于对所述压缩文件进行解压，得到第二表格文件；所述第二表格文件具有业务编号；

存放单元，用于基于所述业务编号与主题文件夹之间的预设对应关系，将所述第一表格文件和所述第二表格文件存放在对应的所述主题文件夹中；

抽取单元，用于将所述主题文件夹导入kettle工具中，并触发所述kettle工具执行数据抽取任务；其中，所述数据抽取任务用于依据预设的文件路径从目标表格文件中抽取预设的输入字段，并对所述输入字段进行预处理，将预处理后的所述输入字段导入到预设的数据表中；所述目标表格文件包括所述第一表格文件和所述第二表格文件。

可选的，还包括：

配置单元，用于在所述kettle工具中预先配置所述文件路径、所述输入字段、以及所述数据表。

一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行所述的数据处理方法。

一种数据处理设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的数据处理方法。

本申请提供的技术方案，获取各个数据文件，数据文件包括第一表格文件和压缩文件，第一表格文件具有业务编号，对压缩文件进行解压，得到第二表格文件，第二表格文件具有业务编号，基于业务编号与主题文件夹之间的预设对应关系，将第一表格文件和第二表格文件存放在对应的主题文件夹中，将主题文件夹导入kettle工具中，触发kettle工具执行数据抽取任务。其中，数据抽取任务用于依据预设的文件路径从目标表格文件中抽取预设的输入字段，并对输入字段进行预处理，将预处理后的输入字段导入到预设的数据表中，目标表格文件包括第一表格文件和第二表格文件。可见，相较于现有技术，本申请能够避免人工参与数据的归集和核查，效率明显提高不少。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理方法的示意图；

图2为本申请实施例提供的另一种数据处理方法的示意图；

图3为本申请实施例提供的一种数据处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例以电网企业为例，提供一种数据处理方法，应用于电网企业的后台系统，具体的，可由系统主机执行，用于提高数据归集与核查环节的处理效率。

如图1所示，为本申请实施例提供的一种数据处理方法的示意图，包括如下步骤：

S101：调用网络爬虫进程，从运营监测工作台中，获取各个数据文件。

其中，所谓的网络爬虫，又称为网页蜘蛛、网络机器人、以及网页追逐者，是一种按照预设规则，自动抓取网络信息的进程。

需要强调的是，数据文件包括第一表格文件和压缩文件，并且，第一表格文件具有预设的业务编号。

S102：对压缩文件进行解压，得到第二表格文件。

其中，对压缩文件进行解压的具体实现过程为本领域技术人员所熟悉的公知常识，这里不再赘述。

需要说明的是，第一表格文件和第二表格文件仅仅用于区别于表格文件的来源，两者之间并无具体的关联关系。当然，第二表格文件也具有预设的业务编号。

S103：基于业务编号与主题文件夹之间的预设对应关系，将第一表格文件和第二表格文件存放在对应的主题文件夹中。

其中，业务类型包括但不限于为：电网基建项目管理、电网基建流程、小型基建项目管理、日常变电运检、日常输电运检、日常配电运检、配网故障抢修流程、业扩报装流程、基本电费管理、力率电费管理、电度电费管理、电量电费退补、用电客户管理、预收电费管理、固定资产处置管理及固定资产折旧及已提足折旧资产等共计16种类型。

需要说明的是，将各个表格文件存放在与自身预设的业务编号对应的主题文件夹中，能够实现将同一业务类型的表格文件，存放在相同的主题文件夹中，实现对各个表格文件的分类。

此外，在本申请实施例中，还可以按照各个表格文件的获取时间由早到晚的顺序，对每个主题文件夹下的各个表格文件进行排序，从而能够实现对各个表格文件的分拣。

S104：在kettle工具中预先配置文件路径、输入字段、以及数据表。

其中，所谓的kettle工具，是一款开源的数据迁移(Extract Transform Load，ETL)工具，kettle中文俗称为水壶，利用kettle工具可以将各种格式的数据整合成一种指定的格式。

需要说明的是，S104还可以先于S101、S102、或者S103之前执行，或者，与S101、S102、或者S103并行执行。

S105：将主题文件夹导入kettle工具中，并触发kettle工具执行数据抽取任务。

其中，数据抽取任务用于依据文件路径从目标表格文件中抽取输入字段，并对输入字段进行预处理，将预处理后的输入字段导入到数据表中。目标表格文件包括第一表格文件和第二表格文件。

需要说明的是，在执行数据抽取任务的过程中，kettle工具会依据预先配置的文件路径和输入字段，预先创建生成3种信息(可以理解为脚本文件)，分别为作业信息、任务信息、以及运行需求信息。在获取数据文件过程中，后台系统同时还会创建2种信息，分别为表格文件信息和下载文件信息(用于标识数据文件的脚本文件)。在将第一表格文件和第二表格文件存放在对应的主题文件夹的过程中，后台系统同时还会创建2种信息，分别为主题信息和主题单位信息(用于定位第一表格文件和第二表格文件的脚本文件)。具体的，kettle工具执行数据抽取任务的过程中，会调用上述7种脚本文件以便实现数据抽取任务。当然，kettle工具调用上述7种脚本文件的具体实现方式，为本领域技术人员所熟悉的公知常识，这里不再赘述。

在本申请实施例中，上述提及的7种信息都遵循预先配置的规则表(即数据结构)。

以二维表(一种现有数据结构的表现方法)为例，具体的规则表可以参见下述表1所示。

表1

在上述表1中，作业信息(即预处理作业的脚本文件，即job文件)包括作业编码(即job文件的编码)、作业名称(即job文件的具体名称)、作业文件路径(即job文件的磁盘路径)、作业描述(即预处理的具体操作方式，例如字符串替换、字符串去空格、字符删除等操作方式)、以及是否允许运行(即job文件是否正在被执行)；

主题信息(即主题文件夹的脚本文件)包括主题编号(即业务类型的编号)、主题名称(即业务类型的具体名称)、以及文件类型(即主题文件夹的类型)；

表格文件信息(即表格文件的脚本文件)包括文件路径(即表格文件的磁盘路径)、以及最后更新时间(即表格文件最后一次发生变更的时间点)；

下载文件信息(即获取数据文件时所配置的通信协议的脚本文件，即ftp文件)包括文件路径(即ftp文件的磁盘路径)、最后更新时间(即ftp文件最后一次发生变更的时间点)、以及是否已处理(即ftp文件是否正在被调用)；

任务信息(即数据抽取任务的脚本文件，即task文件)包括主题编号(即业务类型的编号)、任务类型(即task文件所进行的数据操作类型，例如删除数据、写入数据等)、任务文件路径(即task文件的磁盘路径)、是否正在允许(即task文件是否正在被运行)、任务名称(即task文件的具体名称)、任务编码(即task文件的编码)、以及编码(即task文件的身份标识)；

运行需求信息(即用于运行task文件的脚本文件，即run文件)包括主题编号(即业务类型的编号)、省份(即run文件的延伸档名)、是否需要运行(即run文件是否运行)、以及需求时间(即运行run文件的时间点)；

主题单位信息(即用于记录数据文件发送方的脚本文件)包括主题编号(即业务类型的编号)、省份名称(发送方的具体名称)、以及序号(发送方的预设序号)。

需要强调的是，数据抽取任务包括第一预处理作业、第二预处理作业、以及第三预处理作业。第一预处理作业用于按照预设第一规则对输入字段进行预处理，第二预处理作业用于按照预设第二规则对输入字段进行预处理，第三预处理作业用于按照预设第三规则对输入字段进行预处理。

具体的，

按照预设第一规则对输入字段进行预处理的具体实现过程为：以预设的参考字段为基准要求，对输入字段进行字符串修正，得到符合基准要求的字段，将符合基准要求的字段作为预处理后的输入字段。其中，字符串修正的手段包括但不限于字符替换、空格删除、以及字符删除等手段。在本申请实施例中，可以采用电网基建项目管理表中的字段作为参考字段。以输入字段为“11/10/2020”为例，输入字段所表示的含义为日期，以参考字段“YYYY/MM/DD”作为日期的基准要求，则对“11/10/2020”进行字符替换，得到“2020/10/11”，并将“2020/10/11”作为预处理后的输入字段。

在实际应用中，按照预设第一规则对输入字段进行预处理，能够解决数据核查过程中所存在的数据格式不规范的问题。

按照预设第二规则对输入字段进行预处理的具体实现过程为：对输入字段进行识别，确定输入字段所描述的对象，基于对象和预设的表述方式之间的对应关系，利用对应的表述方式，对输入字段进行转换，得到新字段，将新字段作为预处理后的输入字段。假设对象包括“省公司简称”和“其它交流方式”，“省公司简称”与地名(即以地名作为表述方式)对应，“其它交流方式”与“其它”(即以“其它”作为表述方式)对应，现有的第一输入字段为“国网安徽电力”，第二输入字段为“交流A0606”，对第一输入字段进行识别，确定第一输入字段所描述的对象为“省公司简称”，则利用地名对第一输入字段进行转换，得到“安徽”字段，对第二输入字段进行识别，确定第二输入字段所描述的对象为“其它交流方式”，则利用“其它”对第二输入字段进行转换，得到“其它”字段，并将“安徽”字段和“其它”字段作为预处理后的输入字段。

在实际应用中，按照预设第二规则对输入字段进行预处理，能够解决数据核查过程中所存在的数据维度不统一的问题。

按照预设第三规则对输入字段进行预处理的具体实现过程为：针对相同的多个输入字段，从多个输入字段中选取生成时间最晚的输入字段，作为目标输入字段。此外，也可以从多个输入字段中选取任意一个输入字段，作为目标输入字段。在此情况下，将预处理后的所述输入字段导入到预设的数据表中的具体实现方式为：将所述目标输入字段导入到预设的数据表中。

在实际应用中，按照预设第三规则对输入字段进行预处理，能够解决数据核查过程中所存在的数据冗余的问题。

在本申请实施例中，可以利用java语言编写上述S101-S105的具体实现逻辑，具体的，可以调用现有的JNA(JavaNative Access)工具类，实时感知主题文件夹中目标表格文件的变更详情，以便触发kettle工具执行数据抽取任务。

综上所述，相较于现有技术，本实施例能够避免人工参与数据的归集和核查，效率明显提高不少。

需要说明的是，上述实施例提及的S104，在kettle工具中预先配置文件路径、输入字段、以及数据表，为本申请提供的数据处理方法中一种可选的具体实现方式。此外，上述实施例中提及的第一预处理作业、第二预处理作业、以及第三预处理作业，也均为本申请所述数据抽取任务中的一种可选的预处理作业，当然，数据抽取任务中还包含其它的预处理作业。为此，上述实施例示出的步骤，可以概括图2所示的流程。

如图2所示，为本申请实施例提供的另一种数据处理方法的示意图，包括如下步骤：

S201：获取各个数据文件。

其中，数据文件包括第一表格文件和压缩文件，第一表格文件具有业务编号。

S202：对压缩文件进行解压，得到第二表格文件。

其中，第二表格文件具有业务编号。

S203：基于业务编号与主题文件夹之间的预设对应关系，将第一表格文件和第二表格文件存放在对应的主题文件夹中。

S204：将主题文件夹导入kettle工具中，并触发kettle工具执行数据抽取任务。

其中，数据抽取任务用于依据预设的文件路径从目标表格文件中抽取预设的输入字段，并对输入字段进行预处理，将预处理后的输入字段导入到预设的数据表中，目标表格文件包括第一表格文件和第二表格文件。

与上述实施例提供的数据处理方法相对应，本申请实施例还提供了一种数据处理装置。

如图3所示，为本申请实施例提供的一种数据处理装置的结构示意图，包括：

获取单元100，用于获取各个数据文件。数据文件包括第一表格文件和压缩文件，第一表格文件具有业务编号。

解压单元200，用于对压缩文件进行解压，得到第二表格文件。第二表格文件具有业务编号。

存放单元300，用于基于业务编号与主题文件夹之间的预设对应关系，将第一表格文件和第二表格文件存放在对应的主题文件夹中。

其中，存放单元300还用于按照目标表格文件的获取时间由早到晚的顺序，对每个主题文件夹下的各个目标表格文件进行排序。

抽取单元400，用于将主题文件夹导入kettle工具中，并触发kettle工具执行数据抽取任务。其中，数据抽取任务用于依据预设的文件路径从目标表格文件中抽取预设的输入字段，并对输入字段进行预处理，将预处理后的输入字段导入到预设的数据表中。目标表格文件包括第一表格文件和第二表格文件。

其中，数据抽取任务包括第一预处理作业，第一预处理作业用于按照预设第一规则对输入字段进行预处理。抽取单元400用于按照预设第一规则对输入字段进行预处理的具体过程包括：以预设的参考字段为基准要求，对输入字段进行字符串修正，得到符合基准要求的字段，将符合基准要求的字段作为预处理后的输入字段，字符串修正的手段包括字符替换、空格删除、以及字符删除中的至少一项。

数据抽取任务包括第二预处理作业，第二预处理作业用于按照预设第二规则对输入字段进行预处理。抽取单元400用于按照预设第二规则对输入字段进行预处理的具体过程包括：对输入字段进行识别，确定输入字段所描述的对象，基于对象和预设的表述方式之间的对应关系，利用对应的表述方式，对输入字段进行转换，得到新字段，将新字段作为预处理后的输入字段。

数据抽取任务包括第三预处理作业，第三预处理作业用于按照预设第三规则对输入字段进行预处理。抽取单元400用于按照预设第三规则对输入字段进行预处理的具体过程包括：针对相同的多个输入字段，从多个输入字段中选取生成时间最晚的输入字段，作为目标输入字段。在此情况下，将预处理后的所述输入字段导入到预设的数据表中，包括：将所述目标输入字段导入到预设的数据表中。

配置单元500，用于在kettle工具中预先配置文件路径、输入字段、以及数据表。

综上所述，获取各个数据文件，数据文件包括第一表格文件和压缩文件，第一表格文件具有业务编号，对压缩文件进行解压，得到第二表格文件，第二表格文件具有业务编号，基于业务编号与主题文件夹之间的预设对应关系，将第一表格文件和第二表格文件存放在对应的主题文件夹中，将主题文件夹导入kettle工具中，触发kettle工具执行数据抽取任务。其中，数据抽取任务用于依据预设的文件路径从目标表格文件中抽取预设的输入字段，并对输入字段进行预处理，将预处理后的输入字段导入到预设的数据表中，目标表格文件包括第一表格文件和第二表格文件。可见，相较于现有技术，本申请能够避免人工参与数据的归集和核查，效率明显提高不少。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行上述本申请提供的数据处理方法。

本申请还提供了一种数据处理设备，包括：处理器、存储器和总线。处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述本申请提供的数据处理方法，包括如下步骤：

可选的，还包括：

所述按照预设第一规则对所述输入字段进行预处理包括：

所述按照预设第二规则对所述输入字段进行预处理包括：

将所述新字段作为预处理后的所述输入字段。

所述按照预设第三规则对所述输入字段进行预处理包括：

针对相同的多个所述输入字段，从多个所述输入字段中选取生成时间最晚的所述输入字段，作为目标输入字段。

将所述目标输入字段导入到预设的数据表中。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述数据抽取任务包括第一预处理作业，所述第一预处理作业用于按照预设第一规则对所述输入字段进行预处理；

所述按照预设第一规则对所述输入字段进行预处理包括：

4.根据权利要求1所述的方法，其特征在于，所述数据抽取任务包括第二预处理作业，所述第二预处理作业用于按照预设第二规则对所述输入字段进行预处理；

所述按照预设第二规则对所述输入字段进行预处理包括：

将所述新字段作为预处理后的所述输入字段。

5.根据权利要求1所述的方法，其特征在于，所述数据抽取任务包括第三预处理作业，所述第三预处理作业用于按照预设第三规则对所述输入字段进行预处理；

所述按照预设第三规则对所述输入字段进行预处理包括：

将所述目标输入字段导入到预设的数据表中。

6.根据权利要求1所述的方法，其特征在于，所述将各个表格文件存放在与自身预设的所述业务编号对应的所述主题文件夹中，包括：

7.一种数据处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1-6任一所述的数据处理方法。

10.一种数据处理设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-6任一所述的数据处理方法。