CN112328542A

CN112328542A - 一种把异构数据文件中的数据导入到数据库的方法

Info

Publication number: CN112328542A
Application number: CN202011337828.8A
Authority: CN
Inventors: 张振华; 陈欢; 崔金旭; 陈晨
Original assignee: Tianjin Keyvia Electric Co ltd
Current assignee: Tianjin Keyvia Electric Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-02-05

Abstract

本发明提供了一种把异构数据文件中的数据导入到数据库的方法，包括获取配置信息，根据配置信息初始化文件搜索器、文件分配器、N个文件队列和N个文件入库任务；文件搜索器在指定路径下搜索数据文件，搜索到数据文件后进行有效性检查，然后把有效的数据文件交给文件分配器；文件分配器依据负载均衡算法把数据文件路径放入相应文件队列中；文件入库任务读取对应文件队列中数据文件并导入到数据库中。本发明通过负载均衡算法实现数据文件的并行导入，充分利用了硬件资源，大大提高存储效率。

Description

一种把异构数据文件中的数据导入到数据库的方法

技术领域

本发明属于计算机数据存储技术领域，尤其是涉及一种把异构数据文件中的数据导入到数据库的方法。

背景技术

在城市轨道交通能源管理系统领域，数据采集和存储作为基础性工作，其准确度和处理效率对于保证系统运行具有重要的作用。随着能源管理系统自身技术的发展，数据采集存储的数据种类多样化，并且数据量庞大，不仅要采集能源的相关数据(如电表、水表、燃气表等设备的能源数据)，还要采集周围环境信息等，包括各种传感器、重点用能设备或系统等。

能源管理系统的采集服务采用分布式架构，在每个车站设有采集服务，采集服务将采集的各种数据以源数据的形式传至中心平台；中心平台首先源数据进行各种统计分析，然后把各种源数据及统计分析的结果都缓存为异构数据文件(把数据内容和结构不同的文件称为异构数据文件)，最后对异构数据文件进行统一数据入库操作。

虽然现有存储技术中关于异构数据文件导入数据库的方案较多，但在城市轨道交通能源管理系统领域的匹配度不高，并且效率较低，因此，有必要提供一种把异构数据文件中的数据导入到数据库的方法，充分利用了硬件资源，大大提高存储效率。

发明内容

有鉴于此，本发明旨在提出一种把异构数据文件中的数据导入到数据库的方法，快速的把大量数据文件导入到数据库，充分利用硬件资源，提升数据库的性能。

为达到上述目的，本发明的技术方案是这样实现的：

一种把异构数据文件中的数据导入到数据库的方法，包括以下步骤：

A.获取配置信息，根据配置信息初始化文件搜索器、文件分配器、N个文件队列和N个文件入库任务；

B.文件搜索器在指定路径下搜索数据文件，搜索到数据文件后进行数据文件的有效性检查，然后把有效的数据文件交给文件分配器；

C.文件分配器依据负载均衡算法把数据文件路径分配到相应的文件队列中；

D.将数据均衡文件入库任务定时查询对应文件队列的数据，如果文件队列存在数据，则根据数据文件路径读取数据文件中的数据，并导入到数据库中；

E.如果数据文件入库成功，则压缩文件并移动到的文件备份路径中；如果失败则给出告警信息，并把文件移动到文件失败路径中。

进一步的，所述步骤A的配置信息包括：搜索数据文件的路径、需要入库文件的文件类型描述以及对应文件队列的最大深度、文件备份的路径、文件失败路径。

进一步的，每种所述文件类型创建一个文件队列和一个文件入库任务，为步骤C和步骤D根据文件类型归类入库做准备。

进一步的，所述的文件类型是根据数据文件名称的来划分的。

进一步的，所述步骤B中文件分配器用于对文件队列做周期性的健康检查，当发现故障文件队列时便动态的将它从文件队列群中剔除，以此来保证高可用性。

进一步的，所述步骤B中的数据文件采用SQlite数据库文件格式，其中包括一张管理表和多张源数据表。

进一步的，所述步骤C中负载均衡算法具体运算步骤包括：

C1.为N文件队列{Y₁,Y₂,...,Y_N}都分配一个权重{w₁,w₂,...,w_N}；同时为文件队列的最大负荷率{F₁,F₂,...,F_N},文件队列的最大负荷率(F_i)等于权重w_i*文件队列最大深度T_i；

C2.当数据文件M_k到来后，首先计算M_k对应的文件队列Y_k的负荷率f_k，如f_k小于该文件队列的最大负荷率F_k时，则把M_k放到该文件队列Y_k中，结束。否则进入步骤C3；

C3.更新文件队列的负荷率{f₁,f₂,...,f_N}，计算方法为：

其中t_i为第i个文件队列中的深度；

C4.选取{f₁,f₂,...,f_N}中数值最小的f_t对应的文件队列Y_t，把数据文件M_k放到文件队列Y_t中。

进一步的，所述步骤D具体运行步骤包括：

D1.文件入库任务从对应的文件队列中获取数据文件的路径；

D2.文件入库任务读取该数据文件中的管理表数据到管理队列中；

D3.文件入库任务从管理队列中获取一条管理信息；

D4.文件入库任务根据管理信息中的源数据表名称，获取该数据文件中的源数据表中的数据到数据缓存队列中；

D5.文件入库任务根据管理信息中的源数据表操作类型，把数据缓存队列的数据导入到数据库的目标数据表；

D6.文件入库任务从管理队列中删除该条管理信息，如果管理队列中还有数据，则执行步骤D3，否则返回。

进一步的，所述步骤D2的管理表数据包括：源数据表名称、目标数据表名称、操作类型，所述操作类型包括插入、更新、删除。

进一步的，所述步骤D的文件入库任务每次读取源数据表的数据最多10000条，如果源数据表中的数据大于10000则分多次进行操作。

相对于现有技术，本发明所述的一种把异构数据文件中的数据导入到数据库的方法具有以下优势：

(1)本发明所述的一种把异构数据文件中的数据导入到数据库的方法通过负载均衡算法以及文件的筛选分配能够把短时间内产生的种类多、数量庞大的能耗相关数据文件快速的导入到数据库中。

(2)本发明所述的一种把异构数据文件中的数据导入到数据库的方法以文件形式把能耗数据导入到数据库的方式能够减轻数据库因频繁操作所带来的压力，使数据库在写入能耗相关数据的同时也能够快速的相应其它读操作，从而提升数据库的性能。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的异构数据文件导入数据库的方法流程图；

图2为本发明实施例所述的数据文件导入数据库的方法流程图

图3为本发明实施例所述的数据文件结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

如图1，步骤1：首先读取配置信息，并根据配置信息初始化文件搜索器、文件分配器、N个文件队列和N个文件入库任务。一个具体的实施例中，配置信息中定义文件搜索路径为D:/PqssFiles，文件备份路径为D:/Backup，文件失败路径为D:/Failure，需要处理的入库文件类型7种：源电量文件、源负荷文件和统计电量文件、统计负荷文件、告警文件、传感器数据文件以及默认文件，三种文件对应的三种文件类别分别为：DR_E、DR_LD、DA_E、DA_LD、ALARM、DR_SENSOR、DEFATLU。对应的七种文件类型的权重w以及文件队列的最大深度t分为为:DR_E{5，50}；DR_LD{4，50}、DA_E{5，50}、DA_LD{4，50}、ALARM{1，100}、DR_SENSOR{2，80}、DEFATLU{3，100}。

每个文件队列的深度是可以有用户定义的，在一个优选的实施例中，每个文件队列的深度是根据该类型数据采集的密度、数量以及文件存储数据的长度来决定。

在创建文件队列和文件入库任务时，一种文件类型对应的创建一个文件队列和一个文件入库任务，文件入库任务只具有读取相应的文件队列的数据权限。

如图2，步骤2：文件搜索器定时轮训数据文件目录，如果不存在数据文件，则休眠100毫秒然后继续轮训；如果存在一个数据文件，检查数据文件无异常后，提交给文件分配器，然后继续搜索数据文件。如数据文件异常，则把异常文件移动到文件失败路径为D:/Failure中并提示告警信息。

步骤3：文件分配器首先根据数据文件M_k名称判断该数据文件对应的数据队列Y_k的负载率f_k，如果该队列的负载率f_k小于该文件队列最大负载率F_k，则把M_k放入到对应的文件队列Y_k中,结束文件分配。否则更新全部的文件队列的负荷率{f₁,f₂,...,f_N}，更新方法为：

其中t_i为第i个文件队列中的深度。然后选取{f₁,f₂,...,f_N}中数值最小的f_t对应的文件队列Y_t，把数据文件M_k放到文件队列Y_t中。

步骤4：每个文件入库任务定时轮询对应的文件队列，如文件队列中不存在数据，则休眠100毫秒然后继续轮训；如存在数据，则根据文件路径读取数据文件。

如图3，数据文件采用SQlite数据库文件格式，所有的数据文件的结构包括一张管理表、一张或多张源数据表。

数据文件中的管理表内容包括：源数据表名称、目标数据表名称、操作类型(插入、更新、删除)、优先级。

N个文件入库任务的功能是相同的。文件入库任务的步骤包括：

a.文件入库任务从对应的文件队列中获取数据文件的全路径；

b.文件入库任务读取该数据文件中的管理表数据到管理队列中；管理队列的深度为固定值20，说明源数据表的最大个数为20。

c.文件入库任务从管理队列中获取一条管理信息；

d.文件入库任务根据管理信息中的源数据表名称，读取该数据文件中的源数据表中的数据到数据缓存队列中。数据缓存队列的深度为固定值10000。

e.文件入库任务根据管理信息的操作类型，把数据缓存队列的数据导入到数据库的目标数据表；

f.文件入库任务从管理队列中删除该条管理信息，如果管理队列还有数据，则执行步骤c，否则返回。

步骤5：当文件入任务程把一个数据文件中的数据全部导入到数据库后，如果入库全部成功，则把数据文件压缩后移动到文件备份路径下；而如果数据文件入库过程中出现错误，则把数据文件移动到入库失败路径下，等待对文件的后续操作处理；

文件压缩采用zip格式进行压缩。

特别的,可根据系统数据量以及速度等要求进行多服务的分布式部署，以减轻系统负担，提高入库速度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种把异构数据文件中的数据导入到数据库的方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种把异构数据文件中的数据导入到数据库的方法，其特征在于：所述步骤A的配置信息包括：搜索数据文件的路径、需要入库文件的文件类型描述以及对应文件队列的最大深度、文件备份的路径、文件失败路径。

3.根据权利要求2所述的一种把异构数据文件中的数据导入到数据库的方法，其特征在于：每种所述文件类型创建一个文件队列和一个文件入库任务，为步骤C和步骤D根据文件类型归类入库做准备。

4.根据权利要求3所述的一种把异构数据文件中的数据导入到数据库的方法，其特征在于：所述的文件类型是根据数据文件名称的来划分的。

5.根据权利要求1所述的一种把异构数据文件中的数据导入到数据库的方法，其特征在于：所述步骤B中文件分配器用于对文件队列做周期性的健康检查，当发现故障文件队列时便动态的将它从文件队列群中剔除，以此来保证高可用性。

6.根据权利要求1所述的一种把异构数据文件中的数据导入到数据库的方法，其特征在于：所述步骤B中的数据文件采用SQlite数据库文件格式，其中包括一张管理表和多张源数据表。

7.根据权利要求1所述的一种把异构数据文件中的数据导入到数据库的方法，其特征在于：所述步骤C中负载均衡算法具体运算步骤包括：

C3.更新文件队列的负荷率{f₁,f₂,...,f_N}，计算方法为：

其中t_i为第i个文件队列中的深度；

8.根据权利要求1所述的一种把异构数据文件中的数据导入到数据库的方法，其特征在于：所述步骤D具体运行步骤包括：

D1.文件入库任务从对应的文件队列中获取数据文件的路径；

D3.文件入库任务从管理队列中获取一条管理信息；

9.根据权利要求8所述的一种把异构数据文件中的数据导入到数据库的方法，其特征在于：所述步骤D2的管理表数据包括：源数据表名称、目标数据表名称、操作类型，所述操作类型包括插入、更新、删除。

10.根据权利要求8所述的一种把异构数据文件中的数据导入到数据库的方法，其特征在于：所述步骤D的文件入库任务每次读取源数据表的数据最多10000条，如果源数据表中的数据大于10000则分多次进行操作。