CN117194546A - 基于超算平台的并行化电力数据库集成提取方法及系统 - Google Patents

基于超算平台的并行化电力数据库集成提取方法及系统 Download PDF

Info

Publication number
CN117194546A
CN117194546A CN202311255541.4A CN202311255541A CN117194546A CN 117194546 A CN117194546 A CN 117194546A CN 202311255541 A CN202311255541 A CN 202311255541A CN 117194546 A CN117194546 A CN 117194546A
Authority
CN
China
Prior art keywords
data
extraction
tasks
task
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311255541.4A
Other languages
English (en)
Inventor
粟海斌
刘珺
詹柱
刘斌
徐毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fangxin Technology Co ltd
Original Assignee
Fangxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fangxin Technology Co ltd filed Critical Fangxin Technology Co ltd
Priority to CN202311255541.4A priority Critical patent/CN117194546A/zh
Publication of CN117194546A publication Critical patent/CN117194546A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于超算平台的并行化电力数据库集成提取方法及系统,通过收集用户任务需求,对用户任务需求中的任务进行等量划分,并将等量划分后的任务均衡分配给相应的进程进行同步处理;基于分配好的任务,获取单进程所分配到的任务;根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;按照预设的定时序列来对检索出的数据进行集成;与客户端建立socket连接,对集成的数据进行双向交互;轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果;将处理结果通过网络连接迅速发送给客户端。本发明实现对大规模、复杂的电力数据的快速、高效的处理。

Description

基于超算平台的并行化电力数据库集成提取方法及系统
技术领域
本发明涉及电力控制技术领域,尤其公开了一种基于超算平台的并行化电力数据库集成提取方法及系统。
背景技术
随着电力数据量的飞速增长,处理、集成和分析这些数据成为一项巨大的挑战。在电力系统中,各种数据(包括电力生产、输电、分布和消费等方面的数据)在时间和空间上都非常分散。这些数据包括但不限于,发电量数据、负载数据、网损数据、电价数据、气象数据等。所有这些数据都包含有价值的信息,可以用于系统运营和优化决策。然而,由于数据量大、种类多、来源分散,以及数据的质量、完整性和一致性问题,使得电力数据的集成和提取变得困难。另外,随着电力系统的复杂性和动态性不断增强,对实时、准确的数据获取和处理的需求也在不断增加。
传统的电力数据处理方法无法解决这些问题,尤其是在处理大规模、多源数据时,无法满足高效、快速的数据集成和提取需求。在传统方法中,数据处理通常在个人计算机上完成,这在面对大数据时会出现计算资源不足、效率低下等问题。
例如公开号为CN101141370A(专利名为“基于网格服务的电力企业实时数据处理方法”)的专利文献中并没有使用针对性的并行数据处理方法。因此尽管使用了高性能的计算设备,但是在处理大量数据时依然会耗时巨大。此外该类方法也没有对收集的数据进行时序化的整合,导致最终的结果可能在时间维度出现对不齐的情况。
此外,由于缺乏专门设计的、可利用超级计算机资源的电力数据集成和提取工具,非专业研究人员在利用超级计算机进行电力数据处理时往往面临重大挑战。
因此,现有电力数据处理方法中存在的上述缺陷,是目前亟待解决的技术问题。
发明内容
本发明提供了一种基于超算平台的并行化电力数据库集成提取方法及系统,旨在解决现有电力数据处理方法中存在的上述缺陷。
本发明的一方面涉及一种基于超算平台的并行化电力数据库集成提取方法,包括以下步骤:
任务收集与分配:收集用户任务需求,对用户任务需求中的任务进行等量划分,并将等量划分后的任务均衡分配给相应的进程进行同步处理。
数据提取:基于分配好的任务,获取单进程所分配到的任务;根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;按照预设的定时序列来对检索出的数据进行集成。
数据中转:与客户端建立socket连接,对集成的数据进行双向交互;轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果;将处理结果通过网络连接迅速发送给客户端。
网页界面:在网页界面上对处理结果进行展示。
数据转发:将网页后端服务器与超算集群上的提取程序进行通讯,待提取完成后将打包提取结果发送给客户端。
进一步地,任务收集与分配的步骤包括:
收集任务需求:获取操作界面录入的用户任务需求,在原始数据库中提取与用户任务需求相匹配的特征;
设备资源评估:根据进程的数量,将用户任务需求按照超算平台可用的节点数进行等量划分,分配任务信息;
分配进程:将分配好的任务信息发送给相应的进程,实现任务的负载均衡;
进程同步:为每个进程均配置同步机制,确保所有进程同步完成任务。
进一步地,数据提取步骤包括:
基于分配好的任务,获取单进程所分配到的任务;
根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;
按照预设的定时序列来对检索出的数据进行集成,将数据中每个数值都按产生的时间存入对应的地方。
进一步地,数据中转的步骤包括:
进度传输:与客户端建立socket连接,对集成的数据进行双向交互;
完成任务收集:轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果;
数据传输:将处理结果通过网络连接迅速发送给客户端;
进度优化:采用基于信息传递接口的非阻塞通信模式,在集成的数据未准备就绪时,执行其他任务。
进一步地,进度传输的步骤包括:
利用socket与客户端建立连接,当客户端发出提取需求时,则将所有的配置参数打包为一个数据包,再通过socket连接发送至提取管线;
一旦识别到管线接收到数据包时,使用预设的解码规则对数据包进行解码;
通过JSON解析库对数据包进行解析以得到JSON对象,并进一步查询JSON对象以提取对应的配置参数;
将解析得到的任务参数广播给所有的数据提取模块,将提取得到的处理结果通过已建立的socket连接返回给客户端。
本发明的另一方面涉及一种基于超算平台的并行化电力数据库集成提取系统,包括:
任务收集与分配模块,用于收集用户任务需求,对用户任务需求中的任务进行等量划分,并将等量划分后的任务均衡分配给相应的进程进行同步处理;
数据提取模块,用于基于分配好的任务,获取单进程所分配到的任务;根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;按照预设的定时序列来对检索出的数据进行集成;
数据中转模块,用于与客户端建立socket连接,对集成的数据进行双向交互;轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果;将处理结果通过网络连接迅速发送给客户端;
网页界面模块,用于在网页界面上对处理结果进行展示;
数据转发模块,用于将网页后端服务器与超算集群上的提取程序进行通讯,待提取完成后将打包提取结果发送给客户端。
进一步地,任务收集与分配模块包括:
收集任务需求单元,用于获取操作界面录入的用户任务需求,在原始数据库中提取与用户任务需求相匹配的特征;
设备资源评估单元,用于根据进程的数量,将用户任务需求按照超算平台可用的节点数进行等量划分,分配任务信息;
分配进程单元,用于将分配好的任务信息发送给相应的进程,实现任务的负载均衡;
进程同步单元,用于为每个进程均配置同步机制,确保所有进程同步完成任务。
进一步地,数据提取模块包括:
任务获取单元,用于基于分配好的任务,获取单进程所分配到的任务;
数据提取单元,用于根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;
数据集成单元,用于按照预设的定时序列来对检索出的数据进行集成,将数据中每个数值都按产生的时间存入对应的地方。
进一步地,数据中转模块包括:
进度传输单元,用于与客户端建立socket连接,对集成的数据进行双向交互;
完成任务收集单元,用于轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果;
数据传输单元,用于将处理结果通过网络连接迅速发送给客户端;
进度优化单元,用于采用基于信息传递接口的非阻塞通信模式,在集成的数据未准备就绪时,执行其他任务。
进一步地,进度传输单元包括:
连接子单元,用于利用socket与客户端建立连接,当客户端发出提取需求时,则将所有的配置参数打包为一个数据包,再通过socket连接发送至提取管线;
解码子单元,用于一旦识别到管线接收到数据包时,使用预设的解码规则对数据包进行解码;
解析提取子单元,用于通过JSON解析库对数据包进行解析以得到JSON对象,并进一步查询JSON对象以提取对应的配置参数;
通信子单元,用于将解析得到的任务参数广播给所有的数据提取模块,将提取得到的处理结果通过已建立的socket连接返回给客户端。
本发明所取得的有益效果为:
本发明提供一种基于超算平台的并行化电力数据库集成提取方法及系统,通过任务收集与分配:收集用户任务需求,对用户任务需求中的任务进行等量划分,并将等量划分后的任务均衡分配给相应的进程进行同步处理;数据提取:基于分配好的任务,获取单进程所分配到的任务;根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;按照预设的定时序列来对检索出的数据进行集成;数据中转:与客户端建立socket连接,对集成的数据进行双向交互;轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果;将处理结果通过网络连接迅速发送给客户端;网页界面:在网页界面上对处理结果进行展示;数据转发:将网页后端服务器与超算集群上的提取程序进行通讯,待提取完成后将打包提取结果发送给客户端。本发明提供的基于超算平台的并行化电力数据库集成提取方法及系统,将利用超级计算机的高并行计算能力,针对电力数据的特性,设计并实现一种有效的、并行化的电力数据库集成提取策略,以实现对大规模、复杂的电力数据的快速、高效的处理。同时,为了降低使用难度,本发明还将提供对应的用户友好的操作界面,使非专业研究人员也能方便地利用超级计算机进行电力数据的集成和提取。
附图说明
图1为本发明提供的一种基于超算平台的并行化电力数据库集成提取方法的流程示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
如图1所示,本发明第一实施例提出一种基于超算平台的并行化电力数据库集成提取方法,包括以下步骤:
步骤S100、任务收集与分配:收集用户任务需求,对用户任务需求中的任务进行等量划分,并将等量划分后的任务均衡分配给相应的进程进行同步处理。
收集用户从网页界面录入的用户任务需求,获取用户任务需求。对获取的户任务需求中的任务进行等量划分,并将等量划分后的任务均衡分配给相应的进程进行同步处理。网页界面可以为用户操作界面。
步骤S200、数据提取:基于分配好的任务,获取单进程所分配到的任务;根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;按照预设的定时序列来对检索出的数据进行集成。
基于分配好的任务,获取单进程所分配到的任务(例如:任务1,要求获取某个编号的电量数据、负载数据、当地天气等等)。根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据(例如:用户想要提取气温>38度时候的地区1的电价,则在气象数据库中找到所有气温>38度的索引号。根据索引号再在电价数据库中找到地区1对应的特征)。按照预设的定时序列(例如一小时)来对检索出的数据(根据索引号在电价数据库中找到地区1对应的特征)进行集成。
步骤S300、数据中转:与客户端建立socket连接,对集成的数据进行双向交互;轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果;将处理结果通过网络连接迅速发送给客户端。
通过建立的socket连接进行双向交互;在实际操作过程中,利用socket与客户端建立连接。轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果。并将读取的处理结果通过已建立的socket连接迅速发送给客户端。
步骤S400、网页界面:在网页界面上对处理结果进行展示。
提供一个用户友好的网页提取页面,用户可以通过简单的操作发送提取任务和下载提取结果。
步骤S500、数据转发:将网页后端服务器与超算集群上的提取程序进行通讯,待提取完成后将打包提取结果发送给客户端。
通过超算通信,网页后端服务器与超算集群上的提取程序进行通讯,提取完成后打包提取结果发送给客户端。
本实施例提供的基于超算平台的并行化电力数据库集成提取方法,同现有技术相比,通过任务收集与分配:收集用户任务需求,对用户任务需求中的任务进行等量划分,并将等量划分后的任务均衡分配给相应的进程进行同步处理;数据提取:基于分配好的任务,获取单进程所分配到的任务;根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;按照预设的定时序列来对检索出的数据进行集成;数据中转:与客户端建立socket连接,对集成的数据进行双向交互;轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果;将处理结果通过网络连接迅速发送给客户端;网页界面:在网页界面上对处理结果进行展示;数据转发:将网页后端服务器与超算集群上的提取程序进行通讯,待提取完成后将打包提取结果发送给客户端。本实施例提供的基于超算平台的并行化电力数据库集成提取方法,将利用超级计算机的高并行计算能力,针对电力数据的特性,设计并实现一种有效的、并行化的电力数据库集成提取策略,以实现对大规模、复杂的电力数据的快速、高效的处理。同时,为了降低使用难度,本发明还将提供对应的用户友好的操作界面,使非专业研究人员也能方便地利用超级计算机进行电力数据的集成和提取。
进一步地,本实施例提出的基于超算平台的并行化电力数据库集成提取方法,步骤S100包括:
步骤S110、收集任务需求:获取操作界面录入的用户任务需求,在原始数据库中提取与用户任务需求相匹配的特征。
获取操作界面录入的用户任务需求,在原始数据库中提取与用户任务需求相匹配的特征。例如:用户想要提取气温>38度时候的地区1的电价,则在原始气象数据库中找到所有气温>38度的索引号。根据索引号再在电价数据库中找到地区1对应的特征。
步骤S120、设备资源评估:根据进程的数量,将用户任务需求按照超算平台可用的节点数进行等量划分,分配任务信息。
完成信息提取后,根据进程的数量,将任务按照超算平台可用的节点数等量划分(附言:这里将分配的任务的编号)。
步骤S130、分配进程:将分配好的任务信息发送给相应的进程,实现任务的负载均衡。
将分配好的任务信息(任务的编号)发送给各个进程。每个进程收到的数据量大致相同,实现了任务的负载均衡。
步骤S140、进程同步:为每个进程均配置同步机制,确保所有进程同步完成任务。
为每个进程设置了一套基于Message Passing Interface(MPI,消息传递接口)的同步机制,确保所有进程能够同步工作。这套机制遵循“执行-等待-同步”的原则,保证了所有进程在开始新一轮的数据处理前,能保持状态一致。
MPI是一种用于解决并行计算问题的通信协议。MPI提供了一种方法,使得在多个独立的进程之间进行消息传递成为可能,从而在不同的进程之间实现数据共享和同步。下面是MPI同步机制在“执行-等待-同步”原则下的具体操作方式:
一、执行:
在这个阶段,每个进程独立地执行其任务。这可能包括读取数据、进行计算、修改内存中的状态等。这个阶段结束时,每个进程都会生成一些要传递给其他进程的数据。
二、等待:
在等待阶段,每个进程都会将其要传递的数据发送给其他进程,并等待从其他进程接收数据。这是通过MPI的MPI_Send和MPI_Recv函数实现的。例如,进程A可能会执行一个MPI_Send函数,将数据发送给进程B,然后进程A会执行一个MPI_Recv函数,等待从进程B接收数据。
三、同步:
在同步阶段,所有进程将等待直到所有其他进程都完成工作,这是通过MPI的MPI_Barrier函数实现的。这保证了在开始新的执行阶段之前,所有进程都已经接收到了所有其他进程发送的数据,而且所有进程的状态都是一致的。
这样,所有进程都能正确、同步地进行数据处理和通信,从而保持系统的整体一致性。
本实施例提供的基于超算平台的并行化电力数据库集成提取方法,同现有技术相比,通过收集任务需求:获取操作界面录入的用户任务需求,在原始数据库中提取与用户任务需求相匹配的特征;设备资源评估:根据进程的数量,将用户任务需求按照超算平台可用的节点数进行等量划分,分配任务信息;分配进程:将分配好的任务信息发送给相应的进程,实现任务的负载均衡;进程同步:为每个进程均配置同步机制,确保所有进程同步完成任务。本实施例提供的基于超算平台的并行化电力数据库集成提取方法,通过设计高效的并行任务分配模块,可以在计算资源允许的情况下,处理大规模数据,极大地提高了数据处理速度和系统的工作效率;使得数据处理过程可以实时被监控和管理,从而保证了数据处理的准确性和及时性。以根据实际需求进行任务的合理分配,避免资源的浪费,进一步提升了整体计算效率;提供易于使用的网页界面,使得研究人员和开发者可以轻松地使用系统,方便地进行数据提取任务的管理,极大地简化了用户的工作流程。
优选地,本实施例提出的基于超算平台的并行化电力数据库集成提取方法,步骤S200包括:
步骤S210、任务获取:基于分配好的任务,获取单进程所分配到的任务。
基于分配进程中分配好的任务,获取单进程所分配到的任务(例如:任务1,要求获取某个编号的电量数据、负载数据、当地天气等等)。
步骤S220、数据提取:根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据。
根据单进程任务的详情在对应的子数据库中检索对应的数据。例如:用户想要提取气温>38度时候的地区1的电价,则在原始气象数据库中找到所有气温>38度的索引号。根据索引号再在电价数据库中找到地区1对应的特征。这里单个进行就是一个索引号(编号:1001),根据编号:1001在其他数据库中检索索引号通样为编号:1001的数据。
步骤S230、数据集成:按照预设的定时序列来对检索出的数据进行集成,将数据中每个数值都按产生的时间存入对应的地方。
检索到的信息即收集了一个编号在所有子数据库中的信息,随后按照时间序列(小时),进行集成,每个数值都按产生的时间存入对应的地方。
本实施例提供的基于超算平台的并行化电力数据库集成提取方法,同现有技术相比,通过任务获取:基于分配好的任务,获取单进程所分配到的任务;数据提取:根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;数据集成:按照预设的定时序列来对检索出的数据进行集成,将数据中每个数值都按产生的时间存入对应的地方。本实施例提供的基于超算平台的并行化电力数据库集成提取方法,通过设计高效的并行任务分配模块,可以在计算资源允许的情况下,处理大规模数据,极大地提高了数据处理速度和系统的工作效率;使得数据处理过程可以实时被监控和管理,从而保证了数据处理的准确性和及时性。以根据实际需求进行任务的合理分配,避免资源的浪费,进一步提升了整体计算效率;提供易于使用的网页界面,使得研究人员和开发者可以轻松地使用系统,方便地进行数据提取任务的管理,极大地简化了用户的工作流程。
进一步地,本实施例提出的基于超算平台的并行化电力数据库集成提取方法,步骤S300包括:
步骤S310、进度传输:与客户端建立socket连接,对集成的数据进行双向交互。
通过建立的socket连接进行双向交互,为整个数据提取过程提供了良好的协调和有序执行的基础。在实际操作过程中,利用socket与客户端建立连接。
步骤S320、完成任务收集:轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果。
数据中转组件轮询所有运行中的数据提取模块,一旦某个模块完成任务,数据中转组件就读取该模块的处理结果。
步骤S330、数据传输:将处理结果通过网络连接迅速发送给客户端。
数据中转组件将处理结果通过网络连接迅速发送给客户端,保证了数据可以实时、有效地传输。
步骤S340、进度优化:采用基于信息传递接口的非阻塞通信模式,在集成的数据未准备就绪时,执行其他任务。
为了优化系统效率并避免阻塞,采用了一种基于MPI(Message PassingInterface,消息传递接口))的非阻塞通信模式。即使数据未准备就绪,数据中转组件也能继续执行其他任务,而不被迫等待。
本实施例提供的基于超算平台的并行化电力数据库集成提取方法,同现有技术相比,通过任务获取:基于分配好的任务,获取单进程所分配到的任务;数据提取:根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;数据集成:按照预设的定时序列来对检索出的数据进行集成,将数据中每个数值都按产生的时间存入对应的地方。本实施例提供的基于超算平台的并行化电力数据库集成提取方法,通过设计高效的并行任务分配模块,可以在计算资源允许的情况下,处理大规模数据,极大地提高了数据处理速度和系统的工作效率;使得数据处理过程可以实时被监控和管理,从而保证了数据处理的准确性和及时性。以根据实际需求进行任务的合理分配,避免资源的浪费,进一步提升了整体计算效率;提供易于使用的网页界面,使得研究人员和开发者可以轻松地使用系统,方便地进行数据提取任务的管理,极大地简化了用户的工作流程。
优选地,本实施例提出的基于超算平台的并行化电力数据库集成提取方法,步骤S310包括:
步骤S311、利用socket与客户端建立连接,当客户端发出提取需求时,则将所有的配置参数打包为一个数据包,再通过socket连接发送至提取管线。
通过建立的socket连接进行双向交互,为整个数据提取过程提供良好的协调和有序执行的基础。利用socket与客户端建立连接。当客户端发出提取需求,将所有的配置参数打包为一个数据包,再通过socket连接发送至提取管线。
步骤S312、一旦识别到管线接收到数据包时,使用预设的解码规则对数据包进行解码。
一旦接收到数据包,首先使用预定的解码规则对其进行解码。数据包采用JSON格式编码,其中的键-值对代表不同的配置参数,如{“temperature”:“38”,“region”:“1”,“data_type”:“price”}意味着用户想要提取气温>38度时的地区1的电价。
步骤S313、通过JSON解析库对数据包进行解析以得到JSON对象,并进一步查询JSON对象以提取对应的配置参数。
通过JSON解析库,解析这一数据包以得到JSON对象,并进一步查询该对象以提取对应的配置参数。例如,提取temperature键以获取温度阈值、region键以确定目标区域、以及data_type键以确定数据类型。
步骤S314、将解析得到的任务参数广播给所有的数据提取模块,将提取得到的处理结果通过已建立的socket连接返回给客户端。
得到这些解析后的任务参数,将其广播给所有的数据提取模块。完成数据提取后,处理结果将通过已建立的socket连接返回给客户端。
本实施例提供的基于超算平台的并行化电力数据库集成提取方法,同现有技术相比,通过利用socket与客户端建立连接,当客户端发出提取需求时,则将所有的配置参数打包为一个数据包,再通过socket连接发送至提取管线;一旦识别到管线接收到数据包时,使用预设的解码规则对数据包进行解码;通过JSON解析库对数据包进行解析以得到JSON对象,并进一步查询JSON对象以提取对应的配置参数;将解析得到的任务参数广播给所有的数据提取模块,将提取得到的处理结果通过已建立的socket连接返回给客户端。本实施例提供的基于超算平台的并行化电力数据库集成提取方法,通过设计高效的并行任务分配模块,可以在计算资源允许的情况下,处理大规模数据,极大地提高了数据处理速度和系统的工作效率;使得数据处理过程可以实时被监控和管理,从而保证了数据处理的准确性和及时性。以根据实际需求进行任务的合理分配,避免资源的浪费,进一步提升了整体计算效率;提供易于使用的网页界面,使得研究人员和开发者可以轻松地使用系统,方便地进行数据提取任务的管理,极大地简化了用户的工作流程。
本发明提供一种基于超算平台的并行化电力数据库集成提取系统,包括任务收集与分配模块、数据提取模块、数据中转模块、网页界面模块和数据转发模块,其中,任务收集与分配模块,用于收集用户任务需求,对用户任务需求中的任务进行等量划分,并将等量划分后的任务均衡分配给相应的进程进行同步处理;数据提取模块,用于基于分配好的任务,获取单进程所分配到的任务;根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;按照预设的定时序列来对检索出的数据进行集成;数据中转模块,用于与客户端建立socket连接,对集成的数据进行双向交互;轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果;将处理结果通过网络连接迅速发送给客户端;网页界面模块,用于在网页界面上对处理结果进行展示;数据转发模块,用于将网页后端服务器与超算集群上的提取程序进行通讯,待提取完成后将打包提取结果发送给客户端。
任务收集与分配模块收集用户从网页界面录入的用户任务需求,获取用户任务需求。对获取的户任务需求中的任务进行等量划分,并将等量划分后的任务均衡分配给相应的进程进行同步处理。网页界面可以为用户操作界面。
数据提取模块基于分配好的任务,获取单进程所分配到的任务(例如:任务1,要求获取某个编号的电量数据、负载数据、当地天气等等)。根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据(例如:用户想要提取气温>38度时候的地区1的电价,则在气象数据库中找到所有气温>38度的索引号。根据索引号再在电价数据库中找到地区1对应的特征)。按照预设的定时序列(例如一小时)来对检索出的数据(根据索引号在电价数据库中找到地区1对应的特征)进行集成。
数据中转模块通过建立的socket连接进行双向交互;在实际操作过程中,利用socket与客户端建立连接。轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果。并将读取的处理结果通过已建立的socket连接迅速发送给客户端。
网页界面模块提供一个用户友好的网页提取页面,用户可以通过简单的操作发送提取任务和下载提取结果。
数据转发模块通过超算通信,网页后端服务器与超算集群上的提取程序进行通讯,提取完成后打包提取结果发送给客户端。
本实施例提供的基于超算平台的并行化电力数据库集成提取系统,同现有技术相比,采用任务收集与分配模块、数据提取模块、数据中转模块、网页界面模块和数据转发模块,通过任务收集与分配:收集用户任务需求,对用户任务需求中的任务进行等量划分,并将等量划分后的任务均衡分配给相应的进程进行同步处理;数据提取:基于分配好的任务,获取单进程所分配到的任务;根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;按照预设的定时序列来对检索出的数据进行集成;数据中转:与客户端建立socket连接,对集成的数据进行双向交互;轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果;将处理结果通过网络连接迅速发送给客户端;网页界面:在网页界面上对处理结果进行展示;数据转发:将网页后端服务器与超算集群上的提取程序进行通讯,待提取完成后将打包提取结果发送给客户端。本实施例提供的基于超算平台的并行化电力数据库集成提取系统,将利用超级计算机的高并行计算能力,针对电力数据的特性,设计并实现一种有效的、并行化的电力数据库集成提取策略,以实现对大规模、复杂的电力数据的快速、高效的处理。同时,为了降低使用难度,本发明还将提供对应的用户友好的操作界面,使非专业研究人员也能方便地利用超级计算机进行电力数据的集成和提取。
进一步地,本实施例提供的基于超算平台的并行化电力数据库集成提取系统,任务收集与分配模块包括收集任务需求单元、设备资源评估单元、分配进程单元和进程同步单元,其中,收集任务需求单元,用于获取操作界面录入的用户任务需求,在原始数据库中提取与用户任务需求相匹配的特征;设备资源评估单元,用于根据进程的数量,将用户任务需求按照超算平台可用的节点数进行等量划分,分配任务信息;分配进程单元,用于将分配好的任务信息发送给相应的进程,实现任务的负载均衡;进程同步单元,用于为每个进程均配置同步机制,确保所有进程同步完成任务。
收集任务需求单元获取操作界面录入的用户任务需求,在原始数据库中提取与用户任务需求相匹配的特征。例如:用户想要提取气温>38度时候的地区1的电价,则在原始气象数据库中找到所有气温>38度的索引号。根据索引号再在电价数据库中找到地区1对应的特征。
设备资源评估单元完成信息提取后,根据进程的数量,将任务按照超算平台可用的节点数等量划分(附言:这里将分配的任务的编号)。
分配进程单元将分配好的任务信息(任务的编号)发送给各个进程。每个进程收到的数据量大致相同,实现了任务的负载均衡。
进程同步单元为每个进程设置了一套基于Message Passing Interface(MPI,消息传递接口)的同步机制,确保所有进程能够同步工作。这套机制遵循“执行-等待-同步”的原则,保证了所有进程在开始新一轮的数据处理前,能保持状态一致。
MPI是一种用于解决并行计算问题的通信协议。MPI提供了一种方法,使得在多个独立的进程之间进行消息传递成为可能,从而在不同的进程之间实现数据共享和同步。下面是MPI同步机制在“执行-等待-同步”原则下的具体操作方式:
一、执行:
在这个阶段,每个进程独立地执行其任务。这可能包括读取数据、进行计算、修改内存中的状态等。这个阶段结束时,每个进程都会生成一些要传递给其他进程的数据。
二、等待:
在等待阶段,每个进程都会将其要传递的数据发送给其他进程,并等待从其他进程接收数据。这是通过MPI的MPI_Send和MPI_Recv函数实现的。例如,进程A可能会执行一个MPI_Send函数,将数据发送给进程B,然后进程A会执行一个MPI_Recv函数,等待从进程B接收数据。
三、同步:
在同步阶段,所有进程将等待直到所有其他进程都完成工作,这是通过MPI的MPI_Barrier函数实现的。这保证了在开始新的执行阶段之前,所有进程都已经接收到了所有其他进程发送的数据,而且所有进程的状态都是一致的。
这样,所有进程都能正确、同步地进行数据处理和通信,从而保持系统的整体一致性。
本实施例提供的基于超算平台的并行化电力数据库集成提取系统,同现有技术相比,任务收集与分配模块采用收集任务需求单元、设备资源评估单元、分配进程单元和进程同步单元,通过收集任务需求:获取操作界面录入的用户任务需求,在原始数据库中提取与用户任务需求相匹配的特征;设备资源评估:根据进程的数量,将用户任务需求按照超算平台可用的节点数进行等量划分,分配任务信息;分配进程:将分配好的任务信息发送给相应的进程,实现任务的负载均衡;进程同步:为每个进程均配置同步机制,确保所有进程同步完成任务。本实施例提供的基于超算平台的并行化电力数据库集成提取系统,通过设计高效的并行任务分配模块,可以在计算资源允许的情况下,处理大规模数据,极大地提高了数据处理速度和系统的工作效率;使得数据处理过程可以实时被监控和管理,从而保证了数据处理的准确性和及时性。以根据实际需求进行任务的合理分配,避免资源的浪费,进一步提升了整体计算效率;提供易于使用的网页界面,使得研究人员和开发者可以轻松地使用系统,方便地进行数据提取任务的管理,极大地简化了用户的工作流程。
进一步地,本实施例提供的基于超算平台的并行化电力数据库集成提取系统,数据提取模块包括获取单元、数据提取单元和数据集成单元,其中,任务获取单元,用于基于分配好的任务,获取单进程所分配到的任务;数据提取单元,用于根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;数据集成单元,用于按照预设的定时序列来对检索出的数据进行集成,将数据中每个数值都按产生的时间存入对应的地方。
任务获取单元基于分配进程中分配好的任务,获取单进程所分配到的任务(例如:任务1,要求获取某个编号的电量数据、负载数据、当地天气等等)。
数据提取单元根据单进程任务的详情在对应的子数据库中检索对应的数据。例如:用户想要提取气温>38度时候的地区1的电价,则在原始气象数据库中找到所有气温>38度的索引号。根据索引号再在电价数据库中找到地区1对应的特征。这里单个进行就是一个索引号(编号:1001),根据编号:1001在其他数据库中检索索引号通样为编号:1001的数据。
数据集成单元中,检索到的信息即收集了一个编号在所有子数据库中的信息,随后按照时间序列(小时),进行集成,每个数值都按产生的时间存入对应的地方。
本实施例提供的基于超算平台的并行化电力数据库集成提取系统,同现有技术相比,数据提取模块采用获取单元、数据提取单元和数据集成单元,通过任务获取:基于分配好的任务,获取单进程所分配到的任务;数据提取:根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;数据集成:按照预设的定时序列来对检索出的数据进行集成,将数据中每个数值都按产生的时间存入对应的地方。本实施例提供的基于超算平台的并行化电力数据库集成提取系统,通过设计高效的并行任务分配模块,可以在计算资源允许的情况下,处理大规模数据,极大地提高了数据处理速度和系统的工作效率;使得数据处理过程可以实时被监控和管理,从而保证了数据处理的准确性和及时性。以根据实际需求进行任务的合理分配,避免资源的浪费,进一步提升了整体计算效率;提供易于使用的网页界面,使得研究人员和开发者可以轻松地使用系统,方便地进行数据提取任务的管理,极大地简化了用户的工作流程。
进一步地,本实施例提供的基于超算平台的并行化电力数据库集成提取系统,数据中转模块包括进度传输单元、完成任务收集单元、数据传输单元和进度优化单元,其中,进度传输单元,用于与客户端建立socket连接,对集成的数据进行双向交互;完成任务收集单元,用于轮询所有运行中的数据提取模块,一旦识别到数据提取模块完成任务时,则读取数据提取模块的处理结果;数据传输单元,用于将处理结果通过网络连接迅速发送给客户端;进度优化单元,用于采用基于信息传递接口的非阻塞通信模式,在集成的数据未准备就绪时,执行其他任务。
进度传输单元通过建立的socket连接进行双向交互,为整个数据提取过程提供了良好的协调和有序执行的基础。在实际操作过程中,利用socket与客户端建立连接。
完成任务收集单元轮询所有运行中的数据提取模块,一旦某个模块完成任务,数据中转组件就读取该模块的处理结果。
数据传输单元将处理结果通过网络连接迅速发送给客户端,保证了数据可以实时、有效地传输。
进度优化单元为了优化系统效率并避免阻塞,采用了一种基于MPI(MessagePassing Interface,消息传递接口))的非阻塞通信模式。即使数据未准备就绪,数据中转组件也能继续执行其他任务,而不被迫等待。
本实施例提供的基于超算平台的并行化电力数据库集成提取系统,同现有技术相比,数据中转模块采用括进度传输单元、完成任务收集单元、数据传输单元和进度优化单元,通过任务获取:基于分配好的任务,获取单进程所分配到的任务;数据提取:根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;数据集成:按照预设的定时序列来对检索出的数据进行集成,将数据中每个数值都按产生的时间存入对应的地方。本实施例提供的基于超算平台的并行化电力数据库集成提取系统,通过设计高效的并行任务分配模块,可以在计算资源允许的情况下,处理大规模数据,极大地提高了数据处理速度和系统的工作效率;使得数据处理过程可以实时被监控和管理,从而保证了数据处理的准确性和及时性。以根据实际需求进行任务的合理分配,避免资源的浪费,进一步提升了整体计算效率;提供易于使用的网页界面,使得研究人员和开发者可以轻松地使用系统,方便地进行数据提取任务的管理,极大地简化了用户的工作流程。
进一步地,本实施例提供的基于超算平台的并行化电力数据库集成提取系统,进度传输单元包括连接子单元、解码子单元、解析提取子单元和通信子单元,其中,连接子单元,用于利用socket与客户端建立连接,当客户端发出提取需求时,则将所有的配置参数打包为一个数据包,再通过socket连接发送至提取管线;解码子单元,用于一旦识别到管线接收到数据包时,使用预设的解码规则对数据包进行解码;解析提取子单元,用于通过JSON解析库对数据包进行解析以得到JSON对象,并进一步查询JSON对象以提取对应的配置参数;通信子单元,用于将解析得到的任务参数广播给所有的数据提取模块,将提取得到的处理结果通过已建立的socket连接返回给客户端。
连接子单元通过建立的socket连接进行双向交互,为整个数据提取过程提供良好的协调和有序执行的基础。利用socket与客户端建立连接。当客户端发出提取需求,将所有的配置参数打包为一个数据包,再通过socket连接发送至提取管线。
解码子单元一旦接收到数据包,首先使用预定的解码规则对其进行解码。数据包采用JSON格式编码,其中的键-值对代表不同的配置参数,如{“temperature”:“38”,“region”:“1”,“data_type”:“price”}意味着用户想要提取气温>38度时的地区1的电价。
解析提取子单元通过JSON解析库,解析这一数据包以得到JSON对象,并进一步查询该对象以提取对应的配置参数。例如,提取temperature键以获取温度阈值、region键以确定目标区域、以及data_type键以确定数据类型。
通信子单元得到这些解析后的任务参数,将其广播给所有的数据提取模块。完成数据提取后,处理结果将通过已建立的socket连接返回给客户端。
本实施例提供的基于超算平台的并行化电力数据库集成提取系统,同现有技术相比,进度传输单元采用连接子单元、解码子单元、解析提取子单元和通信子单元,通过利用socket与客户端建立连接,当客户端发出提取需求时,则将所有的配置参数打包为一个数据包,再通过socket连接发送至提取管线;一旦识别到管线接收到数据包时,使用预设的解码规则对数据包进行解码;通过JSON解析库对数据包进行解析以得到JSON对象,并进一步查询JSON对象以提取对应的配置参数;将解析得到的任务参数广播给所有的数据提取模块,将提取得到的处理结果通过已建立的socket连接返回给客户端。本实施例提供的基于超算平台的并行化电力数据库集成提取系统,通过设计高效的并行任务分配模块,可以在计算资源允许的情况下,处理大规模数据,极大地提高了数据处理速度和系统的工作效率;使得数据处理过程可以实时被监控和管理,从而保证了数据处理的准确性和及时性。以根据实际需求进行任务的合理分配,避免资源的浪费,进一步提升了整体计算效率;提供易于使用的网页界面,使得研究人员和开发者可以轻松地使用系统,方便地进行数据提取任务的管理,极大地简化了用户的工作流程。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于超算平台的并行化电力数据库集成提取方法,其特征在于,包括以下步骤:
任务收集与分配:收集用户任务需求,对所述用户任务需求中的任务进行等量划分,并将等量划分后的任务均衡分配给相应的进程进行同步处理;
数据提取:基于分配好的任务,获取单进程所分配到的任务;根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;按照预设的定时序列来对检索出的数据进行集成;
数据中转:与客户端建立socket连接,对集成的数据进行双向交互;轮询所有运行中的数据提取模块,一旦识别到所述数据提取模块完成任务时,则读取所述数据提取模块的处理结果;将所述处理结果通过网络连接迅速发送给客户端;
网页界面:在网页界面上对所述处理结果进行展示;
数据转发:将网页后端服务器与超算集群上的提取程序进行通讯,待提取完成后将打包提取结果发送给客户端。
2.如权利要求1所述的基于超算平台的并行化电力数据库集成提取方法,其特征在于,所述任务收集与分配的步骤包括:
收集任务需求:获取操作界面录入的用户任务需求,在原始数据库中提取与所述用户任务需求相匹配的特征;
设备资源评估:根据进程的数量,将所述用户任务需求按照超算平台可用的节点数进行等量划分,分配任务信息;
分配进程:将分配好的所述任务信息发送给相应的进程,实现任务的负载均衡;
进程同步:为每个进程均配置同步机制,确保所有进程同步完成任务。
3.如权利要求1所述的基于超算平台的并行化电力数据库集成提取方法,其特征在于,所述数据提取步骤包括:
任务获取:基于分配好的任务,获取单进程所分配到的任务;
数据提取:根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;
数据集成:按照预设的定时序列来对检索出的数据进行集成,将数据中每个数值都按产生的时间存入对应的地方。
4.如权利要求1所述的基于超算平台的并行化电力数据库集成提取方法,其特征在于,所述数据中转的步骤包括:
进度传输:与客户端建立socket连接,对集成的数据进行双向交互;
完成任务收集:轮询所有运行中的数据提取模块,一旦识别到所述数据提取模块完成任务时,则读取所述数据提取模块的处理结果;
数据传输:将所述处理结果通过网络连接迅速发送给客户端;
进度优化:采用基于信息传递接口的非阻塞通信模式,在集成的数据未准备就绪时,执行其他任务。
5.如权利要求4所述的基于超算平台的并行化电力数据库集成提取方法,其特征在于,所述进度传输的步骤包括:
利用socket与客户端建立连接,当客户端发出提取需求时,则将所有的配置参数打包为一个数据包,再通过socket连接发送至提取管线;
一旦识别到管线接收到所述数据包时,使用预设的解码规则对所述数据包进行解码;
通过JSON解析库对所述数据包进行解析以得到JSON对象,并进一步查询所述JSON对象以提取对应的配置参数;
将解析得到的任务参数广播给所有的数据提取模块,将提取得到的处理结果通过已建立的socket连接返回给客户端。
6.一种基于超算平台的并行化电力数据库集成提取系统,其特征在于,包括:
任务收集与分配模块,用于收集用户任务需求,对所述用户任务需求中的任务进行等量划分,并将等量划分后的任务均衡分配给相应的进程进行同步处理;
数据提取模块,用于基于分配好的任务,获取单进程所分配到的任务;根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;按照预设的定时序列来对检索出的数据进行集成;
数据中转模块,用于与客户端建立socket连接,对集成的数据进行双向交互;轮询所有运行中的数据提取模块,一旦识别到所述数据提取模块完成任务时,则读取所述数据提取模块的处理结果;将所述处理结果通过网络连接迅速发送给客户端;
网页界面模块,用于在网页界面上对所述处理结果进行展示;
数据转发模块,用于将网页后端服务器与超算集群上的提取程序进行通讯,待提取完成后将打包提取结果发送给客户端。
7.如权利要求6所述的基于超算平台的并行化电力数据库集成提取系统,其特征在于,所述任务收集与分配模块包括:
收集任务需求单元,用于获取操作界面录入的用户任务需求,在原始数据库中提取与所述用户任务需求相匹配的特征;
设备资源评估单元,用于根据进程的数量,将所述用户任务需求按照超算平台可用的节点数进行等量划分,分配任务信息;
分配进程单元,用于将分配好的所述任务信息发送给相应的进程,实现任务的负载均衡;
进程同步单元,用于为每个进程均配置同步机制,确保所有进程同步完成任务。
8.如权利要求6所述的基于超算平台的并行化电力数据库集成提取系统,其特征在于,所述数据提取模块包括:
任务获取单元,用于基于分配好的任务,获取单进程所分配到的任务;
数据提取单元,用于根据单进程分配到的任务的详情,在对应的子数据库中检索出对应的数据;
数据集成单元,用于按照预设的定时序列来对检索出的数据进行集成,将数据中每个数值都按产生的时间存入对应的地方。
9.如权利要求6所述的基于超算平台的并行化电力数据库集成提取系统,其特征在于,所述数据中转模块包括:
进度传输单元,用于与客户端建立socket连接,对集成的数据进行双向交互;
完成任务收集单元,用于轮询所有运行中的数据提取模块,一旦识别到所述数据提取模块完成任务时,则读取所述数据提取模块的处理结果;
数据传输单元,用于将所述处理结果通过网络连接迅速发送给客户端;
进度优化单元,用于采用基于信息传递接口的非阻塞通信模式,在集成的数据未准备就绪时,执行其他任务。
10.如权利要求9所述的基于超算平台的并行化电力数据库集成提取系统,其特征在于,所述进度传输单元包括:
连接子单元,用于利用socket与客户端建立连接,当客户端发出提取需求时,则将所有的配置参数打包为一个数据包,再通过socket连接发送至提取管线;
解码子单元,用于一旦识别到管线接收到所述数据包时,使用预设的解码规则对所述数据包进行解码;
解析提取子单元,用于通过JSON解析库对所述数据包进行解析以得到JSON对象,并进一步查询所述JSON对象以提取对应的配置参数;
通信子单元,用于将解析得到的任务参数广播给所有的数据提取模块,将提取得到的处理结果通过已建立的socket连接返回给客户端。
CN202311255541.4A 2023-09-26 2023-09-26 基于超算平台的并行化电力数据库集成提取方法及系统 Pending CN117194546A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311255541.4A CN117194546A (zh) 2023-09-26 2023-09-26 基于超算平台的并行化电力数据库集成提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311255541.4A CN117194546A (zh) 2023-09-26 2023-09-26 基于超算平台的并行化电力数据库集成提取方法及系统

Publications (1)

Publication Number Publication Date
CN117194546A true CN117194546A (zh) 2023-12-08

Family

ID=88984959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311255541.4A Pending CN117194546A (zh) 2023-09-26 2023-09-26 基于超算平台的并行化电力数据库集成提取方法及系统

Country Status (1)

Country Link
CN (1) CN117194546A (zh)

Similar Documents

Publication Publication Date Title
WO2022088804A1 (zh) 消息推送方法、装置、电子设备及存储介质
CN102236581B (zh) 用于数据中心的映射化简方法和系统
CN107018042B (zh) 用于在线服务系统的追踪方法及追踪系统
CN107515878B (zh) 一种数据索引的管理方法及装置
US11188443B2 (en) Method, apparatus and system for processing log data
CN110119307B (zh) 数据处理请求的处理方法、装置、存储介质及电子装置
CN110147470B (zh) 一种跨机房数据比对系统及方法
CN113360554A (zh) 一种数据抽取、转换和加载etl的方法和设备
CN104333573A (zh) 一种大并发量请求的处理方法及处理系统
CN102521706A (zh) Kpi 数据的分析方法及装置
CN110928681A (zh) 数据的处理方法和装置、存储介质及电子装置
JP5024453B2 (ja) 業務フロー分散処理システム及び方法
CN114253798A (zh) 指标数据采集方法和装置、电子设备、存储介质
CN102882960A (zh) 一种资源文件的发送方法及装置
CN117194546A (zh) 基于超算平台的并行化电力数据库集成提取方法及系统
CN111738721A (zh) 一种区块链交易监听方法以及相关装置
JP5809743B2 (ja) 分散システムにおける異種システムデータ提供方法
CN111881086B (zh) 大数据的存储方法、查询方法、电子装置及存储介质
CN112883110A (zh) 一种基于nifi的终端大数据分发方法、存储介质及系统
CN114443410A (zh) 一种业务日志处理方法、系统及物联网系统
CN112667465A (zh) 一种多集群运行监控方法、装置、系统及可读存储介质
CN111400608A (zh) 数据处理方法及装置、存储介质及电子设备
CN107766442B (zh) 一种海量数据关联规则挖掘方法及系统
CN112988829A (zh) 一种大数据分析处理系统
CN111179048B (zh) 基于spark的用户资讯个性化分析方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination