CN117194020B

CN117194020B - 一种云计算的原始大数据处理方法、系统和存储介质

Info

Publication number: CN117194020B
Application number: CN202311128851.XA
Authority: CN
Inventors: 席利宝
Original assignee: Beijing Baolian Star Technology Co ltd
Current assignee: Beijing Baolian Star Technology Co ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2024-04-05
Anticipated expiration: 2043-09-04
Also published as: CN117194020A

Abstract

本发明公开的一种基于云计算的原始大数据处理方法、系统和存储介质，其中方法包括：获取原始大数据信息；将所述原始大数据信息进行预处理，得到标准数据信息；将标准数据发送至预设云计算平台以进行计算处理，得到预设云计算处理之后的结果；将所述预设云计算处理之后的结果发送至预设管理端以进行显示。本发明将原始大数据进行预处理并划分为多个单体数据，再将单体数据分别和云计算的物理主机集群中物理主机分别匹配，实现了最大化资源利用，并节省了原始大数据处理的时间。

Description

一种云计算的原始大数据处理方法、系统和存储介质

技术领域

本发明涉及数据处理技术领域，更具体的，涉及一种云计算的原始大数据处理方法、系统和存储介质。

背景技术

随着互联网技术的发展，原始大数据已成为当代信息技术的不可缺少的一个重要环节，目前，原始大数据的数据量越来越多、越来越繁琐，增加了原始大数据的复杂性，给原始大数据处理增加了难度。

因此，现有技术存在缺陷，亟待改进。

发明内容

鉴于上述问题，本发明的目的是提供一种云计算的原始大数据处理方法、系统和存储介质，能够实现最大化资源利用，并节省了原始大数据处理的时间。

本发明第一方面提供了一种云计算的原始大数据处理方法，包括：

获取原始大数据信息；

将所述原始大数据信息进行预处理，得到标准数据信息；

将标准数据发送至预设云计算平台以进行计算处理，得到预设云计算处理之后的结果；

将所述预设云计算处理之后的结果发送至预设管理端以进行显示。

本方案中，所述将标准数据发送至预设云计算平台以进行计算处理的步骤，具体包括：

提取标准数据的特征，并将所述标准数据按照特征进行划分，得到不同特征的标准子数据；

将同一特征的标准子数据按照单体进行划分，得到多个单体数据；

根据标准数据的特征在预设物理主机集群编号表中查询，得到对应单体数据的物理主机集群编号；

将所述单体数据发送至对应编号的物理主机集群以进行计算处理。

本方案中，将所述单体数据发送至对应编号的物理主机集群以进行计算处理的步骤，具体包括：

获取物理主机能提供的计算量和单体数据需要的计算量；

将物理主机根据能提供的计算量从小到大进行编号，得到物理主机的编号；

将单体数据根据需要的计算量从小到大进行编号，得到单体数据额编号；

基于单体数据的编号顺序，将单体数据需要的计算量依次除以物理主机集群中物理主机能提供的计算量，得到物理主机的负载率；

判断所述物理主机的负载率是否在预设负载率范围，若是，提取对应编号的单体数据以及对应编号的物理主机；若否，将所述编号的单体数据进行相似聚类以再次配比物理主机；

将对应编号的单体数据发送至对应编号的物理主机以进行计算处理。

本方案中，所述若否，将所述编号的单体数据进行相似聚类以再次配比物理主机的步骤，具体包括：

当物理主机的负载率小于预设负载率范围时；

提取物理主机的负载率小于预设负载率范围时对应的单体数据，并按照对应单体数据的编号从小到大进行排列组成再次配比单体数据库；

以再次配比单体数据库的第一个单体数据为基准，将再次配比单体数据库中的第一个单体数据和其他单体数据进行对比分析，得到相似值；

提取第一大相似值；

将第一大相似值对应的第一个单体数据和其他单体数据需要的计算量进行累加，得到第一计算量；

将所述第一计算量依次除以物理主机能提供的计算量，得到物理主机的第一负载率；

若物理主机的第一负载率在预设负载率范围，则将第一计算量对应单体数据发送至对应物理主机以进行计算处理；

若物理主机的第一负载率小于预设负载率范围，则继续添加第二大相似值对应的其他单体数据以再次判定；

若物理主机的第一负载率大于预设负载率范围，则将再次配比单体数据库中的第一个单体数据需要的计算量除以物理主机能提供的计算量，得到物理主机的第二负载率；

提取物理主机的第二负载率中最高的数值；

将再次配比单体数据库中的第一个单体数据发送至所述第二负载率中最高的数值对应的物理主机以进行计算处理。

当物理主机的负载率大于预设负载率范围时；

将单体数据需要的计算量除以物理主机能提供的计算量，得到第三负载率；

提取所述第三负载率中最小的数值；

将所述单体数据发送至第三负载率中最小的数值对应的物理主机以进行计算处理。

本方案中，还包括：

将物理主机的负载率进行均值计算，得到物理主机的平均负载率；

判断物理主机的平均负载率是否大于预设负载率阈值，若是，对应物理主机集群的工作效率为正常；若否，触发平均负载率不达标提示信息；

将所述平均负载率不达标提示信息发送至预设管理端以进行显示。

本发明第二方面提供了一种云计算的原始大数据处理系统，包括存储器和处理器，所述存储器中存储有一种云计算的原始大数据处理方法程序，所述一种云计算的原始大数据处理方法程序被所述处理器执行时实现如下步骤：

获取原始大数据信息；

将所述原始大数据信息进行预处理，得到标准数据信息；

获取物理主机能提供的计算量和单体数据需要的计算量；

当物理主机的负载率小于预设负载率范围时；

提取第一大相似值；

提取物理主机的第二负载率中最高的数值；

当物理主机的负载率大于预设负载率范围时；

提取所述第三负载率中最小的数值；

本方案中，还包括：

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有一种云计算的原始大数据处理方法程序，所述一种云计算的原始大数据处理方法程序被处理器执行时，实现如上述任一项所述的一种云计算的原始大数据处理方法的步骤。

本发明公开的一种基于云计算的原始大数据处理方法、系统和存储介质，将原始大数据进行预处理并划分为多个单体数据，再将单体数据分别和云计算的物理主机集群中物理主机分别匹配，实现了最大化资源利用，并节省了原始大数据处理的时间。

附图说明

图1示出了本发明一种基于云计算的原始大数据处理方法的流程图；

图2示出了本发明一种基于云计算的原始大数据处理系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于云计算的原始大数据处理方法的流程图。

如图1所示，本发明公开了一种基于云计算的原始大数据处理方法，包括：

S101，获取原始大数据信息；

S102，将所述原始大数据信息进行预处理，得到标准数据信息；

S103，将标准数据发送至预设云计算平台以进行计算处理，得到预设云计算处理之后的结果；

S104，将所述预设云计算处理之后的结果发送至预设管理端以进行显示。

根据本发明实施例，所述云计算平台中存储有大量的预设物理主机集群，一个预设物理主机集群由大量的具备同一特征的物理主机构成，所述预设处理包括清除原始大数据中错误数据、重复数据等，所述原始大数据经过预处理，得到符合云计算平台的标准数据。

根据本发明实施例，所述将标准数据发送至预设云计算平台以进行计算处理的步骤，具体包括：

需要说明的是，将标准子数据中的单体数据发送至同一特征的预设物理主机集群，以提高计算处理的准确性以及效率，所述预设物理主机集群编号表中存储有不同编号的预设物理主机集群，且每种编号的预设物理主机集群对应一种标准数据，每一种标准数据具有同一特征。

根据本发明实施例，将所述单体数据发送至对应编号的物理主机集群以进行计算处理的步骤，具体包括：

获取物理主机能提供的计算量和单体数据需要的计算量；

需要说明的是，所述物理主机能提供的计算量和对应物理主机的剩余CPU资源、剩余内存资源等有关，所述单体数据需要的计算量和对应单体数据的计算量、计算难度等有关，已经有匹配单体数据的物理主机不参与再次配比；所述预设负载率范围由本领域技术人员进行设置。

根据本发明实施例，所述若否，将所述编号的单体数据进行相似聚类以再次配比物理主机的步骤，具体包括：

当物理主机的负载率小于预设负载率范围时；

提取第一大相似值；

提取物理主机的第二负载率中最高的数值；

需要说明的是，当物理主机的负载率小于预设负载率范围时，将多个单体数据根据相似值进行合并，组成一个数据组发送至同一物理主机以进行计算处理，减少占用其他物理主机。若物理主机的第一负载率小于预设负载率范围，则将第一计算量加上第二大相似值对应的其他单体数据需要的计算量，得到第二计算量，再将第二计算量除以物理主机能提供的计算量，得到物理主机的第一负载率修订值；再对物理主机的第一负载率修订值按照第一负载率的判断方法进行再次判定，若物理主机的第一负载率修订值小于预设负载率范围，则继续添加第三大相似值，直至将全部相似值对应的其他单体数据进行累加。当单体数据发送到物理主机后，再次配比单体数据库将对应单体数据进行删除，并重新设定第一单体数据以再次匹配物理主机，所述第一大相似值为相似值中的最大值，所述第二大相似值仅小于相似值中的最大值，若存在相似值相同，则以编号靠前的单体数据的相似值为大。

当物理主机的负载率大于预设负载率范围时；

提取所述第三负载率中最小的数值；

需要说明的是，当物理主机的负载率大于预设负载率范围时，说明单体数据需要的计算量大于所有单个物理主机能提供的计算量，因此，提取第三负载率中最小的数值对应的物理主机作为该单体数据的计算处理主体。

根据本发明实施例，还包括：

需要说明的是，物理主机的平均负载率越高，说明对应初始大数据在计算过程中占用的资源越少，若平均负载率不达标，则说明对应初始大数据暂用的物理主机资源太多，因此触发提示信息。

根据本发明实施例，还包括：

当物理主机的负载率大于预设负载率范围时，记录对应物理主机的工作时长；

判断所述物理主机的工作时长是否大于预设时间阈值，若是，触发调整信息；

根据所述调整信息对该物理主机进行调整。

需要说明的是，当物理主机的负载率大于预设负载率范围时，说明对应物理主机在超负载进行计算处理，因此需要对该物理主机进行相应的休眠调整，以防止对应物理主机因负载过重且超时造成损伤，所述预设时间阈值由本领域技术人员进行设置。

根据本发明实施例，还包括：

当物理主机计算处理出错时，记录对应物理主机计算处理出错的次数值；

判断所述物理主机计算处理出错的次数值是否大于预设次数阈值，若是，触发警示信息；

将所述警示信息发送至预设管理端以进行显示。

需要说明的是，若物理主机计算处理出错的次数值大于预设次数阈值，说明对应物理主机存在问题或对应物体主机不适宜当前计算处理的单体数据，因此触发警示信息，预设管理管理端根据警示信息对当前单体数据进行更换物理主机以进行重新计算处理。

如图2所示，本发明第二方面提供了一种云计算的原始大数据处理系统2，包括存储器21和处理器22，所述存储器中存储有一种云计算的原始大数据处理方法程序，所述一种云计算的原始大数据处理方法程序被所述处理器执行时实现如下步骤：

获取原始大数据信息；

将所述原始大数据信息进行预处理，得到标准数据信息；

获取物理主机能提供的计算量和单体数据需要的计算量；

当物理主机的负载率小于预设负载率范围时；

提取第一大相似值；

提取物理主机的第二负载率中最高的数值；

当物理主机的负载率大于预设负载率范围时；

提取所述第三负载率中最小的数值；

根据本发明实施例，还包括：

根据所述调整信息对该物理主机进行调整。

根据本发明实施例，还包括：

将所述警示信息发送至预设管理端以进行显示。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-On ly Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种云计算的原始大数据处理方法，其特征在于，包括：

获取原始大数据信息；

将所述原始大数据信息进行预处理，得到标准数据信息；

将所述预设云计算处理之后的结果发送至预设管理端以进行显示；

所述将标准数据发送至预设云计算平台以进行计算处理的步骤，具体包括：

将所述单体数据发送至对应编号的物理主机集群以进行计算处理；

将所述单体数据发送至对应编号的物理主机集群以进行计算处理的步骤，具体包括：获取物理主机能提供的计算量和单体数据需要的计算量；

将对应编号的单体数据发送至对应编号的物理主机以进行计算处理；

所述若否，将所述编号的单体数据进行相似聚类以再次配比物理主机的步骤，具体包括：

当物理主机的负载率小于预设负载率范围时；

提取第一大相似值；

将所述第一计算量依次除以物理主机能提供的计算量，得到物理主机的第一负载率；若物理主机的第一负载率在预设负载率范围，则将第一计算量对应单体数据发送至对应物理主机以进行计算处理；

提取物理主机的第二负载率中最高的数值；

将再次配比单体数据库中的第一个单体数据发送至所述第二负载率中最高的数值对应的物理主机以进行计算处理；

还包括：

根据所述调整信息对该物理主机进行调整。

2.根据权利要求1所述的一种云计算的原始大数据处理方法，其特征在于，所述若否，将所述编号的单体数据进行相似聚类以再次配比物理主机的步骤，具体包括：当物理主机的负载率大于预设负载率范围时；

提取所述第三负载率中最小的数值；

3.根据权利要求1所述的一种云计算的原始大数据处理方法，其特征在于，还包括：将物理主机的负载率进行均值计算，得到物理主机的平均负载率；

4.一种云计算的原始大数据处理系统，其特征在于，包括存储器和处理器，所述存储器中存储有一种云计算的原始大数据处理方法程序，所述一种云计算的原始大数据处理方法程序被所述处理器执行时实现如下步骤：

获取原始大数据信息；

将所述原始大数据信息进行预处理，得到标准数据信息；

当物理主机的负载率小于预设负载率范围时；

提取第一大相似值；

提取物理主机的第二负载率中最高的数值；

还包括：

根据所述调整信息对该物理主机进行调整。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有一种云计算的原始大数据处理方法程序，所述一种云计算的原始大数据处理方法程序被处理器执行时，实现如权利要求1至3中任一项所述的一种云计算的原始大数据处理方法的步骤。