CN113535510B - 一种大规模数据中心数据采集的自适应抽样模型优化方法 - Google Patents
一种大规模数据中心数据采集的自适应抽样模型优化方法 Download PDFInfo
- Publication number
- CN113535510B CN113535510B CN202110701667.4A CN202110701667A CN113535510B CN 113535510 B CN113535510 B CN 113535510B CN 202110701667 A CN202110701667 A CN 202110701667A CN 113535510 B CN113535510 B CN 113535510B
- Authority
- CN
- China
- Prior art keywords
- sampling
- data
- model
- acquisition
- reconstruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 151
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000005457 optimization Methods 0.000 title claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 59
- 239000013598 vector Substances 0.000 claims description 38
- 238000004088 simulation Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
- G06F11/3093—Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
- G06F11/3096—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents wherein the means or processing minimize the use of computing system or of computing system component resources, e.g. non-intrusive monitoring which minimizes the probe effect: sniffing, intercepting, indirectly deriving the monitored data from other directly available data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种大规模数据中心数据采集的自适应抽样模型优化方法。包括以下步骤:步骤1,采集数据集中的全部的有限的单个个体的数据用来计算重建误差Ett以准确评估重建结果;步骤2,建立抽样模型、重建模型、估计代价函数、误差评估函数、损失函数:步骤3,将全采集数据划分为独立同分布的训练集Dtrain和测试集Dtest:步骤4,抽样和重建模型联合训练、测试和选择:步骤5,在真实应用场景部署抽样重建模型:本发明能够降低采集延迟同时针对运行数据的多个潜在应用提出了统一的采集优化目标,在综合考虑采集代价和重建精度并在采集前未观测全部数据的情况下,通过建立并优化抽样模型,根据残缺的历史记录自适应地进行数据中心运行数据的抽样采集。
Description
技术领域
本发明属于数据采集技术领域,尤其涉及一种大规模数据中心数据采集的自适应抽样模型优化方法。
背景技术
目前,数据中心运行数据用来进行能耗分析和管理、工作流调度、任务调度的多项数据中心智能管理任务,随着云数据中心的规模越来越大,数据驱动的数据中心运行数据采集成为一个重要的研究问题。现有的大规模云数据中心采集方法分为两类:一类方法通过动态调整采集策略或采集频率来减少采集的开销,另一类方法主要是利用分布式处理机制来进行运行数据采集。例如,专利号为CN201310028813.7所公开的一种云数据中心信息差量采集方法。又例如,专利号为CN201611128567.2所公开的用于数据中心监控系统的数据采集和处理方法及系统。但是以上方法都不能实现数据驱动的自适应实时采集,提高了采集数据的价值密度,在运行数据波动较小时降低了采集任务的代价,但是并没有改变大规模数据中心数十万节点采集的难度,因为当数据波动较大时,采集任务依旧是难以达到实时性的;没有利用运行数据的内在特征,容易在上级节点产生响应瓶颈或者需要大量的数据采集中心和处理中心,从而在响应时间方面不能达到实时性要求或者在计算资源耗费太大,监控系统难以承受。
发明内容
本发明的目的在于提供一种能够克服上述技术问题的大规模数据中心数据采集的自适应抽样模型优化方法,本发明所述方法包括以下步骤:
步骤1,本发明应用场景的形式化表述是:待采集同构个体总数量N,采集指标数量K,采集持续时间0~T,每个时刻t时,针对全部个体,以固定抽样率r抽样采集的当前时刻数据,采集的个体i的数据表示为其中,x0,...,xK均为实数,在时刻t采集到的全体数据表示为/>未采集的个体j的数据表示为/>在时刻t的抽样决策向量表示为/>其中,对于决定采集的个体i,/>对于决定不采集的个体j,/>在时刻t的采集代价表示为ct=cost(bt),其中ct为实数,cost为未知的代价函数,在采集时由环境反馈给出,在时刻t的重建数据表示为/>在时刻t,重建误差表示为/>error为误差评估函数,优化目标为最小化l=f(ct,et),f为损失函数,均衡考虑采集代价、重建误差、正则项,获得与待采集运行数据独立同分布的全采集数据用以离线训练和测试,所用的全采集数据Dtt=<d>与部署后应用时场景中的真实数据集Dreal独立同分布;采集数据集中的全部的有限的单个个体的数据用来计算重建误差Ett以准确评估重建结果;
步骤2,建立抽样模型、重建模型、估计代价函数、误差评估函数、损失函数:
抽样模型sampling、重建模型reconstruct、估计代价函数cost、误差评估函数error、损失函数loss、梯度更新优化算法optimize的具体输入输出是:抽样模型sampling在时刻t,输入记忆张量Mt,维度为H*N*K,抽样率r,其中H为记忆的时间序列长度,输出抽样决策向量,重建模型reconstruct在时刻t输入记忆张量Mt,在时刻t采集的数据dt,抽样决策向量bt,输出重建数据估计代价函数cost在时刻t输入抽样决策向量bt,大数据采集模拟环境St=simulate(Dtt;p,t),输出抽样代价ct,simulate是大数据采集环境模拟器,p是模拟配置参数,simulate输出采集数据dt和真实数据/>
误差函数error在时刻t输入重建数据真实数据/>输出重建误差et,
损失函数loss在时刻t输入抽样采集代价ct,重建误差et,正则参数zt,输出损失值l,
梯度更新算法optimize在时刻t参数为pot,输入模型参数的梯度值g,原模型参数值pmt,输出更新后的参数值pmt+1,模型和函数依据不同场景采用不同计算公式;
步骤3,将全采集数据划分为独立同分布的训练集Dtrain和测试集Dtest:
将数据划分为训练集和测试集的具体步骤是:设定训练比例α,将数据集从时间维度前后划分为dα,d1-α,也能够采用其他数据划分方法,但要保证dα和d1-α满足独立同分布假设;
步骤4,抽样和重建模型联合训练、测试和选择:
步骤401,初始化迭代次数epoch=1,最大迭代次数Epoch,数据集D=Dtrain,总时长T=Ttrain;
步骤402,初始化采集时刻t=H,Mt=MH in D;
步骤403,将记忆张量MH、抽样率r输入抽样模型sampling,输出抽样决策二值向量bt,记录抽样模型各参数值pst,各参数对应的局部梯度为简化表达,gst指的是模型下的各个操作的局部梯度并列所组成的长向量且并非单独一个实值,以下所述局部梯度同理;
步骤404,将抽样决策二值向量bt输入采集模拟环境St和采集代价函数cost,输出采集数据dt、真实数据采集代价ct;
步骤405,将采集数据dt、记忆矩阵Mt、抽样决策向量bt输入重建模型reconstruct,输出重建数据记录重建模型各参数值prt,各参数对应的局部梯度/>
步骤406,将重建数据和真实数据/>输入误差函数error,输出重建误差et,记录误差函数各参数pet,各参数的局部梯度/>
步骤407,将抽样采集代价ct、重建误差et、正则参数zt输入损失函数loss,输出损失值l,记录损失函数各参数plt,各参数的局部梯度
步骤408,按照梯度更新算法optimize进行损失回传,计算损失值关于各参数的梯度,并进行损失函数loss、误差函数error、重建模型reconstruct、抽样模型sampling的参数更新,重建模型梯度回传至抽样模型时按照如下公式(1)计算损失值l关于二值向量bt的梯度值:
步骤409,按照如下公式(2)更新记忆矩阵,
Mt+1=Mt<<1 in dim=0
……(2),
其中,<<为循环左移操作;
步骤410,当t<T,则t=t+1,保存抽样模型和重建模型参数psepoch和prepoch,保存损失值lt,转至步骤402,否则转至步骤411;
步骤411,当epoch<Epoch,令D=Dtest,T=Ttrain,执行步骤402,否则转至步骤412;
步骤412,选择当D=Dtest时,使得lt最小的抽样模型sampling和重建模型reconstruct作为输出的模型;
步骤5,在真实应用场景部署抽样重建模型:
步骤501,以抽样率r随机抽样H个时刻,获得初始化记忆张量MH,MH=(d1,...dH);
步骤502,初始化采集时刻t=H,记忆张量Mt=MH;
步骤503,将记忆张量MH、抽样率r输入抽样模型sampling,输出抽样决策二值向量bt;
步骤504,依抽样决策二值向量bt在真实部署环境中进行大数据抽样采集,输出采集数据dt、采集代价ct;
步骤505,将采集数据dt、记忆矩阵Mt、抽样决策向量bt输入重建模型reconstruct,输出重建数据
步骤506,按照如下公式(3)、公式(4)更新记忆矩阵,
Mt+1=Mt<<1indim=0……(4),
其中,<<为循环左移操作;
步骤507,当未达到采集次数要求,即t<Tmax,则t=t+1,返回步骤503,否则结束大数据抽样采集。
本发明所述方法具有如下的有益效果:
1、与现有的大规模数据中心运行数据采集技术方法相比,本发明所述方法能够建立抽样模型并实现基于梯度的抽样模型的优化,在大规模数据中心的场景下和现有数据集中,通过优化完成的抽样模型降低了所需采集目标的数量,同时降低了采集代价并保持了重建精度;
2、本发明所述方法抽样模型根据残缺历史数据自适应学习参数,输出抽样决策向量,在个体数量规模大的大数据采集场景中,能够动态地根据场景数据特征自适应的给出抽样决策;
3、本发明所述方法从残缺的历史数据中学习数据特征,优化目标综合考虑采集代价和重建误差,端到端地优化抽样模型和重建模型,实现了数据驱动的抽样模型优化,在抽样降低采集数据量并进而降低采集延迟的基础上,进一步实现了抽样模型和重建模型的端到端优化,提供了一种抽样模型优化策略;
4、本发明所述方法针对大规模数据中心的数据采集场景,通过显式建模抽样、重建过程,结合真实的数据采集结果,在抽样决策的最后一步添加可导的二值化层,得到抽样决策向量,从而降低了采集延迟的采集代价,通过综合评估重建结果和采集代价,使得能够通过梯度下降法同时优化抽样模型和重建模型,提供了一种抽样模型优化方法,从而解决了大规模数据中心运行数据采集场景中抽样方法评价难问题和抽样模型优化无目标的问题,解决了大规模运行数据中心的实时采集问题,提供了一种根据历史采集数据进行自适应抽样的方法;
5、本发明所述方法能够降低采集延迟,同时针对运行数据的多个潜在应用提出了统一的采集优化目标,充分利用数据内存在特征,在综合考虑采集代价和重建精度并在采集前未观测全部数据的情况下,通过建立并优化抽样模型,根据残缺的历史记录自适应地进行数据中心运行数据的抽样采集。
附图说明
图1是本发明所述方法的大规模数据中心运行数据的抽样模型优化步骤示意图;
图2是本发明所述方法的抽样和重建模型联合训练、测试和选择步骤示意图;
图3是本发明所述方法的抽样采集模型在真实应用场景部署步骤示意图;
图4是本发明所述方法的大规模云数据中心抽样采集实例示意图。
具体实施方式
下面结合附图对本发明的实施方式进行详细描述。
如图1-4所示,本发明所述方法包括以下步骤:
步骤1,本发明应用场景的形式化表述是:待采集同构个体总数量N,采集指标数量K,采集持续时间0~T,每个时刻t时,针对全部个体,以固定抽样率r抽样采集的当前时刻数据,采集的个体i的数据表示为其中,x0,…,xK均为实数,在时刻t采集到的全体数据表示为/>未采集的个体j的数据表示为/>在时刻t的抽样决策向量表示为/>其中,对于决定采集的个体i,/>对于决定不采集的个体j,/>在时刻t的采集代价表示为ct=cost(bt),其中ct为实数,cost为未知的代价函数,在采集时由环境反馈给出,在时刻t的重建数据表示为/>在时刻t,重建误差表示为/>error为误差评估函数,优化目标为最小化l=f(ct,et),f为损失函数,均衡考虑采集代价、重建误差、正则项,获得与待采集运行数据独立同分布的全采集数据用以离线训练和测试,所用的全采集数据Dtt=<d>与部署后应用时场景中的真实数据集Dreal独立同分布;采集数据集中的全部的有限的单个个体的数据用来计算重建误差Ett以准确评估重建结果;
步骤2,建立抽样模型、重建模型、估计代价函数、误差评估函数、损失函数:
抽样模型sampling、重建模型reconstruct、估计代价函数cost、误差评估函数error、损失函数loss、梯度更新优化算法optimize的具体输入输出是:抽样模型sampling在时刻t,输入记忆张量Mt,维度为H*N*K,抽样率r,其中H为记忆的时间序列长度,输出抽样决策向量,重建模型reconstruct在时刻t输入记忆张量Mt,在时刻t采集的数据dt,抽样决策向量bt,输出重建数据估计代价函数cost在时刻t输入抽样决策向量bt,大数据采集模拟环境St=simulate(Dtt;p,t),输出抽样代价ct,simulate是大数据采集环境模拟器,p是模拟配置参数,simulate输出采集数据dt和真实数据/>
误差函数error在时刻t输入重建数据真实数据/>输出重建误差et,
损失函数loss在时刻t输入抽样采集代价ct,重建误差et,正则参数zt,输出损失值l,
梯度更新算法optimize在时刻t参数为pot,输入模型参数的梯度值g,原模型参数值pmt,输出更新后的参数值pmt+1,模型和函数依据不同场景采用不同计算公式;
步骤3,将全采集数据划分为独立同分布的训练集Dtrain和测试集Dtest:
将数据划分为训练集和测试集的具体步骤是:设定训练比例α,将数据集从时间维度前后划分为dα,d1-α,也能够采用其他数据划分方法,但要保证dα和d1-α满足独立同分布假设;
步骤4,抽样和重建模型联合训练、测试和选择:
步骤401,初始化迭代次数epoch=1,最大迭代次数Epoch,数据集D=Dtrain,总时长T=Ttrain;
步骤402,初始化采集时刻t=H,Mt=MHinD;
步骤403,将记忆张量MH、抽样率r输入抽样模型sampling,输出抽样决策二值向量bt,记录抽样模型各参数值pst,各参数对应的局部梯度为简化表达,gst指的是模型下的各个操作的局部梯度并列所组成的长向量且并非单独一个实值,以下所述局部梯度同理;
步骤404,将抽样决策二值向量bt输入采集模拟环境St和采集代价函数cost,输出采集数据dt、真实数据采集代价ct;
步骤405,将采集数据dt、记忆矩阵Mt、抽样决策向量bt输入重建模型reconstruct,输出重建数据记录重建模型各参数值prt,各参数对应的局部梯度/>
步骤406,将重建数据和真实数据/>输入误差函数error,输出重建误差et,记录误差函数各参数pet,各参数的局部梯度/>
步骤407,将抽样采集代价ct、重建误差et、正则参数zt输入损失函数loss,输出损失值l,记录损失函数各参数plt,各参数的局部梯度
步骤408,按照梯度更新算法optimize进行损失回传,计算损失值关于各参数的梯度,并进行损失函数loss、误差函数error、重建模型reconstruct、抽样模型sampling的参数更新,重建模型梯度回传至抽样模型时按照如下公式(1)计算损失值l关于二值向量bt的梯度值:
步骤409,按照如下公式(2)更新记忆矩阵,
Mt+1=Mt<<1 in dim=0……(2),
其中,<<为循环左移操作;
步骤410,当t<T,则t=t+1,保存抽样模型和重建模型参数psepocl和prepocl,保存损失值lt,转至步骤402,否则转至步骤411;
步骤411,当epoch<Epoch,令D=Dtest,T=Ttrain,执行步骤402,否则转至步骤412;
步骤412,选择当D=Dtest时,使得lt最小的抽样模型sampling和重建模型reconstruct作为输出的模型;
步骤5,在真实应用场景部署抽样重建模型:
步骤501,以抽样率r随机抽样H个时刻,获得初始化记忆张量MH,MH=(d1,...dH);
步骤502,初始化采集时刻t=H,记忆张量Mt=MH;
步骤503,将记忆张量MH、抽样率r输入抽样模型sampling,输出抽样决策二值向量bt;
步骤504,依抽样决策二值向量bt在真实部署环境中进行大数据抽样采集,输出采集数据dt、采集代价ct;
步骤505,将采集数据dt、记忆矩阵Mt、抽样决策向量bt输入重建模型reconstruct,输出重建数据
步骤506,按照如下公式(3)、公式(4)更新记忆矩阵,
Mt+1=Mt<<1 in dim=0……(4),
其中,<<为循环左移操作;
步骤507,当未达到采集次数要求,即t<Tmax,则t=t+1,返回步骤503,否则结束大数据抽样采集。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的范围内,能够轻易想到的变化或替换,都应涵盖在本发明权利要求的保护范围内。
Claims (2)
1.一种大规模数据中心数据采集的自适应抽样模型优化方法,其特征在于,包括以下步骤:
步骤1,应用场景的形式化表述是:待采集同构个体总数量N,采集指标数量K,采集持续时间0~T,每个时刻t时,针对全部个体,以固定抽样率r抽样采集的当前时刻数据,采集的个体i的数据表示为其中,x0,…,xK均为实数,在时刻t采集到的全体数据表示为/>未采集的个体j的数据表示为/>在时刻t的抽样决策向量表示为/>其中,对于决定采集的个体i,/>对于决定不采集的个体j,在时刻t的采集代价表示为ct=cost(bt),其中ct为实数,cost为未知的代价函数,在采集时由环境反馈给出,在时刻t的重建数据表示为/>在时刻t,重建误差表示为/>error为误差函数,优化目标为最小化l=f(ct,et),f为损失函数,均衡考虑采集代价、重建误差、正则项,获得与待采集运行数据独立同分布的全采集数据用以离线训练和测试,所用的全采集数据Dtt=<d>与部署后应用时场景中的真实数据集Dreal独立同分布;采集数据集中的全部的有限的单个个体的数据用来计算重建误差Ett以准确评估重建结果;
步骤2,建立抽样模型、重建模型、估计代价函数、误差函数、损失函数:
抽样模型sampling、重建模型reconstruct、估计代价函数cost、误差函数error、损失函数loss、梯度更新算法optimize的具体输入输出是:抽样模型sampling在时刻t,输入记忆张量Mt,维度为H*N*K,抽样率r,其中H为记忆的时间序列长度,输出抽样决策向量,重建模型reconstruct在时刻t输入记忆张量Mt,在时刻t采集的数据dt,抽样决策向量bt,输出重建数据估计代价函数cost在时刻t输入抽样决策向量bt,大数据采集模拟环境St=simulate(Dtt;p,t),输出抽样代价ct,simulate是大数据采集环境模拟器,p是模拟配置参数,simulate输出采集数据dt和真实数据/>
误差函数error在时刻t输入重建数据真实数据/>输出重建误差et,
损失函数loss在时刻t输入抽样采集代价ct,重建误差et,正则参数zt,输出损失值l,
梯度更新算法optimize在时刻t参数为pot,输入模型参数的梯度值g,原模型参数值pmt,输出更新后的参数值pmt+1,模型和函数依据不同场景采用不同计算公式;
步骤3,将全采集数据划分为独立同分布的训练集Dtrain和测试集Dtest:
将数据划分为训练集和测试集的具体步骤是:设定训练比例α,将数据集从时间维度前后划分为dα,d1-α,也能够采用其他数据划分方法,但要保证dα和d1-α满足独立同分布假设;
步骤4,抽样和重建模型联合训练、测试和选择:
步骤401,初始化迭代次数epoch=1,最大迭代次数Epoch,数据集D=Dtrain,总时长T=Ttrain;
步骤402,初始化采集时刻t=H,Mt=MHin D;
步骤403,将记忆张量MH、抽样率r输入抽样模型sampling,输出抽样决策二值向量bt,记录抽样模型各参数值pst,各参数对应的局部梯度为简化表达,gst指的是模型下的各个操作的局部梯度并列所组成的长向量且并非单独一个实值,以下所述局部梯度同理;
步骤404,将抽样决策二值向量bt输入采集模拟环境St和采集代价函数cost,输出采集数据dt、真实数据采集代价ct;
步骤405,将采集数据dt、记忆矩阵Mt、抽样决策向量bt输入重建模型reconstruct,输出重建数据记录重建模型各参数值prt,各参数对应的局部梯度/>
步骤406,将重建数据和真实数据/>输入误差函数error,输出重建误差et,记录误差函数各参数pet,各参数的局部梯度/>
步骤407,将抽样采集代价ct、重建误差et、正则参数zt输入损失函数loss,输出损失值l,记录损失函数各参数plt,各参数的局部梯度
步骤408,按照梯度更新算法optimize进行损失回传,计算损失值关于各参数的梯度,并进行损失函数loss、误差函数error、重建模型reconstruct、抽样模型sampling的参数更新,重建模型梯度回传至抽样模型时按照如下公式(1)计算损失值l关于二值向量bt的梯度值:
步骤409,按照如下公式(2)更新记忆矩阵,
Mt+1=Mt<<1in dim=0
……(2),
其中,<<为循环左移操作;
步骤410,当t<T,则t=t+1,保存抽样模型和重建模型参数psepoch和prepoch,保存损失值lt,转至步骤402,否则转至步骤411;
步骤411,当epoch<Epoch,令D=Dtest,T=Ttrain,执行步骤402,否则转至步骤412;
步骤412,选择当D=Dtest时,使得lt最小的抽样模型sampling和重建模型reconstruct作为输出的模型;
步骤5,在真实应用场景部署抽样重建模型。
2.根据权利要求1所述的一种大规模数据中心数据采集的自适应抽样模型优化方法,其特征在于,所述步骤5包括以下步骤:
步骤501,以抽样率r随机抽样H个时刻,获得初始化记忆张量MH,MH=(d1,…dH);
步骤502,初始化采集时刻t=H,记忆张量Mt=MH;
步骤503,将记忆张量MH、抽样率r输入抽样模型sampling,输出抽样决策二值向量bt;
步骤504,依抽样决策二值向量bt在真实部署环境中进行大数据抽样采集,输出采集数据dt、采集代价ct;
步骤505,将采集数据dt、记忆矩阵Mt、抽样决策向量bt输入重建模型reconstruct,输出重建数据
步骤506,按照如下公式(3)、公式(4)更新记忆矩阵,
Mt+1=Mt<<1in dim=0
……(4),
其中,<<为循环左移操作;
步骤507,当未达到采集次数要求,即t<Tmax,则t=t+1,返回步骤503,否则结束大数据抽样采集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110701667.4A CN113535510B (zh) | 2021-06-24 | 2021-06-24 | 一种大规模数据中心数据采集的自适应抽样模型优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110701667.4A CN113535510B (zh) | 2021-06-24 | 2021-06-24 | 一种大规模数据中心数据采集的自适应抽样模型优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535510A CN113535510A (zh) | 2021-10-22 |
CN113535510B true CN113535510B (zh) | 2024-01-26 |
Family
ID=78125745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110701667.4A Active CN113535510B (zh) | 2021-06-24 | 2021-06-24 | 一种大规模数据中心数据采集的自适应抽样模型优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535510B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107408384A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 部署的端对端语音识别 |
CN108831443A (zh) * | 2018-06-25 | 2018-11-16 | 华中师范大学 | 一种基于堆叠自编码网络的移动录音设备源识别方法 |
WO2018222204A1 (en) * | 2017-06-02 | 2018-12-06 | Google Llc | Systems and methods for black-box optimization |
CN110168520A (zh) * | 2016-12-30 | 2019-08-23 | 同济大学 | 一种智能化道路交通异常检测方法 |
CN112905560A (zh) * | 2021-02-02 | 2021-06-04 | 中国科学院地理科学与资源研究所 | 一种多源时空大数据深度融合的空气污染预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11568236B2 (en) * | 2018-01-25 | 2023-01-31 | The Research Foundation For The State University Of New York | Framework and methods of diverse exploration for fast and safe policy improvement |
-
2021
- 2021-06-24 CN CN202110701667.4A patent/CN113535510B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107408384A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 部署的端对端语音识别 |
CN110168520A (zh) * | 2016-12-30 | 2019-08-23 | 同济大学 | 一种智能化道路交通异常检测方法 |
WO2018222204A1 (en) * | 2017-06-02 | 2018-12-06 | Google Llc | Systems and methods for black-box optimization |
CN108831443A (zh) * | 2018-06-25 | 2018-11-16 | 华中师范大学 | 一种基于堆叠自编码网络的移动录音设备源识别方法 |
CN112905560A (zh) * | 2021-02-02 | 2021-06-04 | 中国科学院地理科学与资源研究所 | 一种多源时空大数据深度融合的空气污染预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113535510A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113191484B (zh) | 基于深度强化学习的联邦学习客户端智能选取方法及系统 | |
CN111860982B (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
Lin et al. | An efficient deep reinforcement learning model for urban traffic control | |
CN110909926A (zh) | 基于tcn-lstm的太阳能光伏发电预测方法 | |
CN110110862A (zh) | 一种基于适应性模型的超参数优化方法 | |
CN113554466A (zh) | 一种短期用电量预测模型构建方法、预测方法和装置 | |
Xue et al. | Self-adaptive particle swarm optimization-based echo state network for time series prediction | |
CN116599857B (zh) | 一种适用于物联网多场景的数字孪生应用系统 | |
CN109934422A (zh) | 一种基于时间序列数据分析的神经网络风速预测方法 | |
CN104050505A (zh) | 一种基于带学习因子蜂群算法的多层感知器训练方法 | |
CN114169645A (zh) | 一种智能电网短期负荷预测方法 | |
CN117277279A (zh) | 一种基于粒子群优化的深度学习短期负荷预测方法 | |
CN118283552A (zh) | 基于物联网分析的计划调度优化方法 | |
CN117768377A (zh) | 一种基于图神经网络的电网骨干光通信系统路由计算方法 | |
CN113535510B (zh) | 一种大规模数据中心数据采集的自适应抽样模型优化方法 | |
CN116204849A (zh) | 一种面向数字孪生应用的数据与模型融合方法 | |
CN116565876A (zh) | 一种鲁棒强化学习的配网潮流优化方法及计算机可读介质 | |
CN113642632B (zh) | 基于自适应竞争和均衡优化的电力系统客户分类方法及装置 | |
CN117669655A (zh) | 网络入侵检测深度学习模型压缩方法 | |
CN115081323A (zh) | 求解多目标约束优化问题的方法及其存储介质 | |
Misra et al. | Simplified polynomial neural network for classification task in data mining | |
Cai et al. | Calculation Method of Available Transfer Capacity Based on Graph Convolutional Network | |
CN118520360B (zh) | 一种频谱博弈决策的智能迭代方法和装置 | |
CN118484666B (zh) | 面向源网荷多元应用的储能电站评估方法及系统 | |
Shu et al. | Link prediction based on 3D convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |