CN104731975A - 一种大数据处理方法 - Google Patents
一种大数据处理方法 Download PDFInfo
- Publication number
- CN104731975A CN104731975A CN201510171957.7A CN201510171957A CN104731975A CN 104731975 A CN104731975 A CN 104731975A CN 201510171957 A CN201510171957 A CN 201510171957A CN 104731975 A CN104731975 A CN 104731975A
- Authority
- CN
- China
- Prior art keywords
- scheduling
- optimal
- time
- mrow
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 239000002245 particle Substances 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 6
- 238000005259 measurement Methods 0.000 abstract 1
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002028 premature Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种大数据处理方法,包括:在调度寻优计算中定义负载适应度度量值,选择数据库文件的调度时间序列,以获取最优数据调度顺序。本发明使得调度寻优过程考虑数据库服务器负载等因素,保持方法的多样性,防止数据库负载过大出现,提高了大型数据库数据文件调度的效率,增加了系统的吞吐量。
Description
技术领域
本发明涉及一种大数据处理,特别涉及一种大数据文件的调度方法。
背景技术
随着智慧医疗的迅速发展和海量医学数据的出现,需要相应的大型数据库作为载体来保存这些数据,但大数据的调度成了一个大问题。由于数据量巨大,要找到自己想要的数据,除了网络传播时的安全性需要考虑外,数据的调度延时也被医务人员关注。大型数据库数据文件对网络带宽要求高,持续时间长,传统C/S模式的服务消耗的带宽资源过多,且系统可扩展差;内容分发网络数据库调度CDN费用太贵而难以推广;IP组播数据调度技术可靠性差、拥塞严重。上述传统技术均在处理医疗海量数据中展现出局限性。
因此,针对相关技术中所存在的上述问题,目前尚未提出有效的解决方案。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种大数据处理方法,包括:
在调度寻优计算中定义负载适应度度量值,选择数据库文件的调度时间序列,以获取最优数据调度顺序。
优选地,所述调度顺序由数字串组成,所述数字串分为两部分,第一部分是一个由大型数据库数据文件数据块序号组成的排列,描述数据块的调度顺序;第二部分为节点子串,描述为每个数据块分配的处理节点。
优选地,所述定义负载适应度度量值进一步包括:
将从所有系统节点中,选择部分节点,使数据库服务器的开销最小数据调度时间最短的调度顺序作为最优调度顺序,节点i的数据块调度时间nodei(time)定义为:nodei(time)=数据块大小/节点上行带宽;并且一个调度顺序的节点总调度时间total(time)为
优选地,所述获取最优数据调度顺序进一步包括:
(1)初始化寻优方法的速度,并采用均匀设计产生初始群;
(2)计算数据库服务器负载适应度值:
从中选择最优粒子作为个体最优解(pbest)和群体最优解(gbest);
(3)对于每个粒子来说,若其f(xi)优于自身历史最优值f(Pbest,i),则用该粒子位置替代个体历史最优位置;
f(xi)与群体最优适应度值f(gbest,i)进行比较,若f(xi)更优,则用该粒子位置替代群体历史最优位置;
(4)利用适应度值的方差和序列表达式更新粒子的速度和位置,并产生新一代群x(t+1);
(5)计算群的适应度方差(σ2),若相邻两次的σ2差异小于阈值C时,则表示出现早熟现象,并转步骤(6),否则转步骤(7);
(6)对群的最优位置向量pg=[pg1,pg2,…,pgd]进行扰动;
(7)若达到最大迭代次数,则返回全局最优的大型数据库数据文件调度顺序,若未达到最大迭代次数,则跳转至步骤3以继续优化。
本发明相比现有技术,具有以下优点:
本发明使得调度寻优过程考虑数据库服务器负载等因素,保持方法的多样性,防止数据库负载过大出现,提高了大型数据库数据文件调度的效率,增加了系统的吞吐量。
附图说明
图1是根据本发明实施例的一种大数据处理方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
大型数据库数据文件调度方法是数据库调度系统构建的核心技术之一,提出一个合理的数据库数据文件调度方法,为大规模用户提供高质量的数据调度服务,成为大型数据库数据文件研究领域的热点问题之一。
本发明的一方面提供了一种大数据处理方法,一种考虑大型数据库数据文件特性的数据文件调度方法。对大型数据库数据文件进行寻优计算中,使得调度寻优过程考虑数据库服务器负载等因素,以保持方法的多样性。图1是根据本发明实施例的一种大数据处理方法流程图。
大型数据库数据文件的调度时间序列带有明显的均匀遍历特征,利用这种均匀遍历特性和差分进化方法的高效全局搜索能力,以调度时间序列为基础,完成高精度的调度负载控制,数据文件负载调度控制方法的具体过程为:
(1)以采集的大型数据库数据文件调度时间序列为基础,组成可调节稳定控制集合区。
(2)为了反映出调度时序控制场的多样性特征,定义调度时间序列适应度值的方差mf,得
其中,NP为大型数据库数据文件调度时间序列规模大小,f(xi)为第i个调度时间序列的适应度值,为平均适应度的值。
(3)在迭代过程中,为了避免方法过早地进入在于局部的极值部分的点,大型数据库数据文件序列的Logistic表达式表示为:
xn+1=μxn(1-xn)(2)
其中n=1,2,3,…x∈[0,1]μ∈[0,4]。
经过迭代发现:
当0≤μ≤1时,迭代系统只有x=0这样一个稳定的周期点;
当1≤μ≤3时,迭代系统有一个不稳定的1周期点x=0,以及一个稳定的1周期点x=1-1/μ;
当3≤μ≤3.449时,数据库文件调度系统有两个不稳定的1周期点x=0和x=1-1/μ。
由于一个大数据文件被均匀分成N个数据块,且每个数据块只需运行一次,所以,采用数字串表示大型数据库数据文件可能的调度顺序。数字串分为两部分,第一部分是一个由大型数据库数据文件数据块序号组成的排列,描述数据块的调度顺序;第二部分为节点子串,描述为每个数据块分配的处理节点。对于一个拥有15个调度数据块在3个节点上调度的问题,其编码方式可为:
[123456789101112131415|113213321333222]
1.设定数据文件负载适应度函数
大型数据库数据文件调度方法的目标就是从所有系统节点中,选择部分节点,组成一个最优调度顺序,使数据库服务器的开销最小,即数据调度时间最短。节点i的数据块调度时间node(time)定义如下:
nodei(time)=数据块大小/节点上行带宽
那么一个调度顺序的节点总调度时间total(time)为
2.加入数据文件负载适应度函数的调度模型工作步骤
本发明以加入负载适应度进行数据文件调度。过程如下:
(1)初始化寻优方法的速度,并采用均匀设计产生初始群。
(2)根据上述总调度时间total(time)公式来计算数据库服务器负载适应度值,并从中选择最优粒子作为个体最优解(pbest)和群体最优解(gbest)。
(3)对于每个粒子来说,若其f(xi)优于自身历史最优值f(Pbest,i),则用该粒子位置替代个体历史最优位置。同样,f(xi)与群体最优适应度值f(gbest,i)进行比较,若更优,则用该粒子位置替代群体历史最优位置。
(4)利用适应度值的方差和序列表达式更新粒子的速度和位置,并产生新一代群x(t+1)。
(5)计算群的适应度方差(σ2),若相邻两次的σ2差异小于阈值C时,则表示出现早熟现象,并转步骤(6),否则转步骤(7)。
(6)对群的最优位置向量pg=[pg1,pg2,…,pgd]进行扰动。具体为:
①通过下列方程将pg映射到Logistic的定义域上:
其中ai和bi分别为粒子位置在Logistic定义域上的最小值和最大值;
②对通过Logistic方程zi+1=μzi(1-zi)进行多次迭代,得到序列:
③把产生的zi逆映射回原解空间,从而产生一个变量可解序列:
其中,
④计算经历混沌处理可行解的适应值,然后保留最优解对应的解向量p*。
⑤用p*的位置向量代表随机选择粒子的位置向量。
(7)若达到最大迭代次数,那么就返回全局最优的大型数据库数据文件调度顺序,若不满足跳转至步骤3以继续优化。
综上所述,本发明提出的大数据处理方法使得调度寻优过程考虑数据库服务器负载等因素,保持方法的多样性,防止数据库负载过大出现,提高了大型数据库数据文件调度的效率,增加了系统的吞吐量。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (4)
1.一种大数据处理方法,其特征在于,包括:
在调度寻优计算中定义负载适应度度量值;
选择数据库文件的调度时间序列,以获取最优数据调度顺序。
2.根据权利要求1所述的方法,其特征在于,所述数据调度顺序由数字串组成,所述数字串分为两部分,第一部分是一个由大型数据库数据文件数据块序号组成的排列,描述数据块的调度顺序;第二部分为节点子串,描述为每个数据块分配的处理节点。
3.根据权利要求1所述的方法,其特征在于,所述定义负载适应度度量值进一步包括:
将节点i的数据块调度时间nodei(time)定义为:
nodei(time)=节点i的数据块大小/节点i的上行带宽;
调度顺序的节点总调度时间为
其中n为节点总数,
从所有系统节点中,选择部分节点,使数据库服务器的开销最小并且数据调度时间total(time)最短的调度顺序作为最优调度顺序。
4.根据权利要求3所述的方法,其特征在于,所述获取最优数据调度顺序进一步包括:
(1)初始化寻优速度,并采用均匀设计产生初始群;
(2)计算数据库服务器负载调度顺序的节点总调度时间total(time);
从调度时间中选择最优粒子作为个体最优解pbest和群体最优解gbest;
(3)对于每个粒子来说,f(xi)为第i个调度时间序列的适应度值,若其f(xi)优于自身历史最优值f(Pbest,i),则用该粒子位置替代个体历史最优位置;
f(xi)与群体最优适应度值f(gbest,i)进行比较,若f(xi)更优,则用该粒子位置替代群体历史最优位置,作为当前最优数据调度顺序;
(4)利用适应度值的方差和序列表达式更新粒子的速度和位置,并产生新一代群;
(5)计算群的适应度方差(σ2),若相邻两次的σ2差异小于阈值C,则转步骤(6),否则转步骤(7);
(6)对群的最优位置向量pg=[pg1,pg2,…,pgd]进行扰动;
(7)若达到最大迭代次数,则返回全局最优的数据库数据文件调度顺序,若未达到最大迭代次数,则跳转至步骤(3)以继续优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510171957.7A CN104731975A (zh) | 2015-04-13 | 2015-04-13 | 一种大数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510171957.7A CN104731975A (zh) | 2015-04-13 | 2015-04-13 | 一种大数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104731975A true CN104731975A (zh) | 2015-06-24 |
Family
ID=53455862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510171957.7A Pending CN104731975A (zh) | 2015-04-13 | 2015-04-13 | 一种大数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104731975A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324854A (zh) * | 2008-07-21 | 2008-12-17 | 武汉理工大学 | 一种基于并行遗传算法的网格资源分配方法 |
CN101800704A (zh) * | 2010-03-17 | 2010-08-11 | 苏州大学 | 一种基于混合动态优先队列的p2p流媒体系统数据请求调度方法 |
CN101944157A (zh) * | 2010-08-19 | 2011-01-12 | 中国船舶重工集团公司第七○九研究所 | 一种应用与仿真网格系统的生物智能调度方法 |
US20110282836A1 (en) * | 2010-05-17 | 2011-11-17 | Invensys Systems, Inc. | Replicating time-series data values for retrieved supervisory control and manufacturing parameter values in a multi-tiered historian server environment |
-
2015
- 2015-04-13 CN CN201510171957.7A patent/CN104731975A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324854A (zh) * | 2008-07-21 | 2008-12-17 | 武汉理工大学 | 一种基于并行遗传算法的网格资源分配方法 |
CN101800704A (zh) * | 2010-03-17 | 2010-08-11 | 苏州大学 | 一种基于混合动态优先队列的p2p流媒体系统数据请求调度方法 |
US20110282836A1 (en) * | 2010-05-17 | 2011-11-17 | Invensys Systems, Inc. | Replicating time-series data values for retrieved supervisory control and manufacturing parameter values in a multi-tiered historian server environment |
CN101944157A (zh) * | 2010-08-19 | 2011-01-12 | 中国船舶重工集团公司第七○九研究所 | 一种应用与仿真网格系统的生物智能调度方法 |
Non-Patent Citations (1)
Title |
---|
刘春: ""大型数据库数据文件混沌特性调度优化算法"", 《科技通报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107172166A (zh) | 面向工业智能化服务的云雾计算系统 | |
CN109299781A (zh) | 基于动量和剪枝的分布式深度学习系统 | |
CN102662743A (zh) | 一种启发式粗粒度并行网格任务调度方法 | |
CN108647771A (zh) | 一种混合云环境下科学工作流数据的布局方法 | |
CN103116693B (zh) | 基于人工蜂群的软硬件划分方法 | |
CN103701900A (zh) | 基于异构集群的数据分布方法 | |
He et al. | Short-term cascaded hydroelectric system scheduling based on chaotic particle swarm optimization using improved logistic map | |
Liu et al. | A data placement strategy for scientific workflow in hybrid cloud | |
Xiao et al. | Minimization of Energy Consumption for Routing in High‐Density Wireless Sensor Networks Based on Adaptive Elite Ant Colony Optimization | |
Buyukates et al. | Gradient coding with dynamic clustering for straggler-tolerant distributed learning | |
Li et al. | Data analytics for fog computing by distributed online learning with asynchronous update | |
Sahana | An automated parameter tuning method for ant colony optimization for scheduling jobs in grid environment | |
CN104242993B (zh) | 中低压电力通信接入网带宽预测方法 | |
CN107180286B (zh) | 基于改进型花粉算法的制造服务供应链优化方法及系统 | |
KR101565694B1 (ko) | 무선 센서 네트워크에서 인공벌군집 클러스터링 설계 방법 및 시스템 | |
CN111487873B (zh) | 一种能源互联网能量分散协同控制方法 | |
CN104731973A (zh) | 一种查询数据的方法 | |
CN117354330A (zh) | 一种改进的边缘计算IoT大数据分析架构 | |
CN104731975A (zh) | 一种大数据处理方法 | |
Czachórski et al. | Analytical and numerical means to model transient states in computer networks | |
Horng et al. | Integrating ant colony system and ordinal optimization for solving stochastic job shop scheduling problem | |
Wu et al. | Brain Storm Optimization Algorithm based on adaptive inertial selection strategy for the RCPSP | |
Lee et al. | Straggler-Aware In-Network Aggregation for Accelerating Distributed Deep Learning | |
Ceran | Dynamic allocation of renewable energy through a stochastic knapsack problem formulation for an access point on the move | |
Ma et al. | Replica creation strategy based on quantum evolutionary algorithm in data gird |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150624 |
|
RJ01 | Rejection of invention patent application after publication |