CN113535510B - 一种大规模数据中心数据采集的自适应抽样模型优化方法 - Google Patents

一种大规模数据中心数据采集的自适应抽样模型优化方法 Download PDF

Info

Publication number
CN113535510B
CN113535510B CN202110701667.4A CN202110701667A CN113535510B CN 113535510 B CN113535510 B CN 113535510B CN 202110701667 A CN202110701667 A CN 202110701667A CN 113535510 B CN113535510 B CN 113535510B
Authority
CN
China
Prior art keywords
sampling
data
model
acquisition
reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110701667.4A
Other languages
English (en)
Other versions
CN113535510A (zh
Inventor
韩锐
刘驰
闫和东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110701667.4A priority Critical patent/CN113535510B/zh
Publication of CN113535510A publication Critical patent/CN113535510A/zh
Application granted granted Critical
Publication of CN113535510B publication Critical patent/CN113535510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3096Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents wherein the means or processing minimize the use of computing system or of computing system component resources, e.g. non-intrusive monitoring which minimizes the probe effect: sniffing, intercepting, indirectly deriving the monitored data from other directly available data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种大规模数据中心数据采集的自适应抽样模型优化方法。包括以下步骤:步骤1,采集数据集中的全部的有限的单个个体的数据用来计算重建误差Ett以准确评估重建结果;步骤2,建立抽样模型、重建模型、估计代价函数、误差评估函数、损失函数:步骤3,将全采集数据划分为独立同分布的训练集Dtrain和测试集Dtest:步骤4,抽样和重建模型联合训练、测试和选择:步骤5,在真实应用场景部署抽样重建模型:本发明能够降低采集延迟同时针对运行数据的多个潜在应用提出了统一的采集优化目标,在综合考虑采集代价和重建精度并在采集前未观测全部数据的情况下,通过建立并优化抽样模型,根据残缺的历史记录自适应地进行数据中心运行数据的抽样采集。

Description

一种大规模数据中心数据采集的自适应抽样模型优化方法
技术领域
本发明属于数据采集技术领域,尤其涉及一种大规模数据中心数据采集的自适应抽样模型优化方法。
背景技术
目前,数据中心运行数据用来进行能耗分析和管理、工作流调度、任务调度的多项数据中心智能管理任务,随着云数据中心的规模越来越大,数据驱动的数据中心运行数据采集成为一个重要的研究问题。现有的大规模云数据中心采集方法分为两类:一类方法通过动态调整采集策略或采集频率来减少采集的开销,另一类方法主要是利用分布式处理机制来进行运行数据采集。例如,专利号为CN201310028813.7所公开的一种云数据中心信息差量采集方法。又例如,专利号为CN201611128567.2所公开的用于数据中心监控系统的数据采集和处理方法及系统。但是以上方法都不能实现数据驱动的自适应实时采集,提高了采集数据的价值密度,在运行数据波动较小时降低了采集任务的代价,但是并没有改变大规模数据中心数十万节点采集的难度,因为当数据波动较大时,采集任务依旧是难以达到实时性的;没有利用运行数据的内在特征,容易在上级节点产生响应瓶颈或者需要大量的数据采集中心和处理中心,从而在响应时间方面不能达到实时性要求或者在计算资源耗费太大,监控系统难以承受。
发明内容
本发明的目的在于提供一种能够克服上述技术问题的大规模数据中心数据采集的自适应抽样模型优化方法,本发明所述方法包括以下步骤:
步骤1,本发明应用场景的形式化表述是:待采集同构个体总数量N,采集指标数量K,采集持续时间0~T,每个时刻t时,针对全部个体,以固定抽样率r抽样采集的当前时刻数据,采集的个体i的数据表示为其中,x0,...,xK均为实数,在时刻t采集到的全体数据表示为/>未采集的个体j的数据表示为/>在时刻t的抽样决策向量表示为/>其中,对于决定采集的个体i,/>对于决定不采集的个体j,/>在时刻t的采集代价表示为ct=cost(bt),其中ct为实数,cost为未知的代价函数,在采集时由环境反馈给出,在时刻t的重建数据表示为/>在时刻t,重建误差表示为/>error为误差评估函数,优化目标为最小化l=f(ct,et),f为损失函数,均衡考虑采集代价、重建误差、正则项,获得与待采集运行数据独立同分布的全采集数据用以离线训练和测试,所用的全采集数据Dtt=<d>与部署后应用时场景中的真实数据集Dreal独立同分布;采集数据集中的全部的有限的单个个体的数据用来计算重建误差Ett以准确评估重建结果;
步骤2,建立抽样模型、重建模型、估计代价函数、误差评估函数、损失函数:
抽样模型sampling、重建模型reconstruct、估计代价函数cost、误差评估函数error、损失函数loss、梯度更新优化算法optimize的具体输入输出是:抽样模型sampling在时刻t,输入记忆张量Mt,维度为H*N*K,抽样率r,其中H为记忆的时间序列长度,输出抽样决策向量,重建模型reconstruct在时刻t输入记忆张量Mt,在时刻t采集的数据dt,抽样决策向量bt,输出重建数据估计代价函数cost在时刻t输入抽样决策向量bt,大数据采集模拟环境St=simulate(Dtt;p,t),输出抽样代价ct,simulate是大数据采集环境模拟器,p是模拟配置参数,simulate输出采集数据dt和真实数据/>
误差函数error在时刻t输入重建数据真实数据/>输出重建误差et
损失函数loss在时刻t输入抽样采集代价ct,重建误差et,正则参数zt,输出损失值l,
梯度更新算法optimize在时刻t参数为pot,输入模型参数的梯度值g,原模型参数值pmt,输出更新后的参数值pmt+1,模型和函数依据不同场景采用不同计算公式;
步骤3,将全采集数据划分为独立同分布的训练集Dtrain和测试集Dtest
将数据划分为训练集和测试集的具体步骤是:设定训练比例α,将数据集从时间维度前后划分为dα,d1-α,也能够采用其他数据划分方法,但要保证dα和d1-α满足独立同分布假设;
步骤4,抽样和重建模型联合训练、测试和选择:
步骤401,初始化迭代次数epoch=1,最大迭代次数Epoch,数据集D=Dtrain,总时长T=Ttrain
步骤402,初始化采集时刻t=H,Mt=MH in D;
步骤403,将记忆张量MH、抽样率r输入抽样模型sampling,输出抽样决策二值向量bt,记录抽样模型各参数值pst,各参数对应的局部梯度为简化表达,gst指的是模型下的各个操作的局部梯度并列所组成的长向量且并非单独一个实值,以下所述局部梯度同理;
步骤404,将抽样决策二值向量bt输入采集模拟环境St和采集代价函数cost,输出采集数据dt、真实数据采集代价ct
步骤405,将采集数据dt、记忆矩阵Mt、抽样决策向量bt输入重建模型reconstruct,输出重建数据记录重建模型各参数值prt,各参数对应的局部梯度/>
步骤406,将重建数据和真实数据/>输入误差函数error,输出重建误差et,记录误差函数各参数pet,各参数的局部梯度/>
步骤407,将抽样采集代价ct、重建误差et、正则参数zt输入损失函数loss,输出损失值l,记录损失函数各参数plt,各参数的局部梯度
步骤408,按照梯度更新算法optimize进行损失回传,计算损失值关于各参数的梯度,并进行损失函数loss、误差函数error、重建模型reconstruct、抽样模型sampling的参数更新,重建模型梯度回传至抽样模型时按照如下公式(1)计算损失值l关于二值向量bt的梯度值:
步骤409,按照如下公式(2)更新记忆矩阵,
Mt+1=Mt<<1 in dim=0
……(2),
其中,<<为循环左移操作;
步骤410,当t<T,则t=t+1,保存抽样模型和重建模型参数psepoch和prepoch,保存损失值lt,转至步骤402,否则转至步骤411;
步骤411,当epoch<Epoch,令D=Dtest,T=Ttrain,执行步骤402,否则转至步骤412;
步骤412,选择当D=Dtest时,使得lt最小的抽样模型sampling和重建模型reconstruct作为输出的模型;
步骤5,在真实应用场景部署抽样重建模型:
步骤501,以抽样率r随机抽样H个时刻,获得初始化记忆张量MH,MH=(d1,...dH);
步骤502,初始化采集时刻t=H,记忆张量Mt=MH
步骤503,将记忆张量MH、抽样率r输入抽样模型sampling,输出抽样决策二值向量bt
步骤504,依抽样决策二值向量bt在真实部署环境中进行大数据抽样采集,输出采集数据dt、采集代价ct
步骤505,将采集数据dt、记忆矩阵Mt、抽样决策向量bt输入重建模型reconstruct,输出重建数据
步骤506,按照如下公式(3)、公式(4)更新记忆矩阵,
Mt+1=Mt<<1indim=0……(4),
其中,<<为循环左移操作;
步骤507,当未达到采集次数要求,即t<Tmax,则t=t+1,返回步骤503,否则结束大数据抽样采集。
本发明所述方法具有如下的有益效果:
1、与现有的大规模数据中心运行数据采集技术方法相比,本发明所述方法能够建立抽样模型并实现基于梯度的抽样模型的优化,在大规模数据中心的场景下和现有数据集中,通过优化完成的抽样模型降低了所需采集目标的数量,同时降低了采集代价并保持了重建精度;
2、本发明所述方法抽样模型根据残缺历史数据自适应学习参数,输出抽样决策向量,在个体数量规模大的大数据采集场景中,能够动态地根据场景数据特征自适应的给出抽样决策;
3、本发明所述方法从残缺的历史数据中学习数据特征,优化目标综合考虑采集代价和重建误差,端到端地优化抽样模型和重建模型,实现了数据驱动的抽样模型优化,在抽样降低采集数据量并进而降低采集延迟的基础上,进一步实现了抽样模型和重建模型的端到端优化,提供了一种抽样模型优化策略;
4、本发明所述方法针对大规模数据中心的数据采集场景,通过显式建模抽样、重建过程,结合真实的数据采集结果,在抽样决策的最后一步添加可导的二值化层,得到抽样决策向量,从而降低了采集延迟的采集代价,通过综合评估重建结果和采集代价,使得能够通过梯度下降法同时优化抽样模型和重建模型,提供了一种抽样模型优化方法,从而解决了大规模数据中心运行数据采集场景中抽样方法评价难问题和抽样模型优化无目标的问题,解决了大规模运行数据中心的实时采集问题,提供了一种根据历史采集数据进行自适应抽样的方法;
5、本发明所述方法能够降低采集延迟,同时针对运行数据的多个潜在应用提出了统一的采集优化目标,充分利用数据内存在特征,在综合考虑采集代价和重建精度并在采集前未观测全部数据的情况下,通过建立并优化抽样模型,根据残缺的历史记录自适应地进行数据中心运行数据的抽样采集。
附图说明
图1是本发明所述方法的大规模数据中心运行数据的抽样模型优化步骤示意图;
图2是本发明所述方法的抽样和重建模型联合训练、测试和选择步骤示意图;
图3是本发明所述方法的抽样采集模型在真实应用场景部署步骤示意图;
图4是本发明所述方法的大规模云数据中心抽样采集实例示意图。
具体实施方式
下面结合附图对本发明的实施方式进行详细描述。
如图1-4所示,本发明所述方法包括以下步骤:
步骤1,本发明应用场景的形式化表述是:待采集同构个体总数量N,采集指标数量K,采集持续时间0~T,每个时刻t时,针对全部个体,以固定抽样率r抽样采集的当前时刻数据,采集的个体i的数据表示为其中,x0,…,xK均为实数,在时刻t采集到的全体数据表示为/>未采集的个体j的数据表示为/>在时刻t的抽样决策向量表示为/>其中,对于决定采集的个体i,/>对于决定不采集的个体j,/>在时刻t的采集代价表示为ct=cost(bt),其中ct为实数,cost为未知的代价函数,在采集时由环境反馈给出,在时刻t的重建数据表示为/>在时刻t,重建误差表示为/>error为误差评估函数,优化目标为最小化l=f(ct,et),f为损失函数,均衡考虑采集代价、重建误差、正则项,获得与待采集运行数据独立同分布的全采集数据用以离线训练和测试,所用的全采集数据Dtt=<d>与部署后应用时场景中的真实数据集Dreal独立同分布;采集数据集中的全部的有限的单个个体的数据用来计算重建误差Ett以准确评估重建结果;
步骤2,建立抽样模型、重建模型、估计代价函数、误差评估函数、损失函数:
抽样模型sampling、重建模型reconstruct、估计代价函数cost、误差评估函数error、损失函数loss、梯度更新优化算法optimize的具体输入输出是:抽样模型sampling在时刻t,输入记忆张量Mt,维度为H*N*K,抽样率r,其中H为记忆的时间序列长度,输出抽样决策向量,重建模型reconstruct在时刻t输入记忆张量Mt,在时刻t采集的数据dt,抽样决策向量bt,输出重建数据估计代价函数cost在时刻t输入抽样决策向量bt,大数据采集模拟环境St=simulate(Dtt;p,t),输出抽样代价ct,simulate是大数据采集环境模拟器,p是模拟配置参数,simulate输出采集数据dt和真实数据/>
误差函数error在时刻t输入重建数据真实数据/>输出重建误差et
损失函数loss在时刻t输入抽样采集代价ct,重建误差et,正则参数zt,输出损失值l,
梯度更新算法optimize在时刻t参数为pot,输入模型参数的梯度值g,原模型参数值pmt,输出更新后的参数值pmt+1,模型和函数依据不同场景采用不同计算公式;
步骤3,将全采集数据划分为独立同分布的训练集Dtrain和测试集Dtest
将数据划分为训练集和测试集的具体步骤是:设定训练比例α,将数据集从时间维度前后划分为dα,d1-α,也能够采用其他数据划分方法,但要保证dα和d1-α满足独立同分布假设;
步骤4,抽样和重建模型联合训练、测试和选择:
步骤401,初始化迭代次数epoch=1,最大迭代次数Epoch,数据集D=Dtrain,总时长T=Ttrain
步骤402,初始化采集时刻t=H,Mt=MHinD;
步骤403,将记忆张量MH、抽样率r输入抽样模型sampling,输出抽样决策二值向量bt,记录抽样模型各参数值pst,各参数对应的局部梯度为简化表达,gst指的是模型下的各个操作的局部梯度并列所组成的长向量且并非单独一个实值,以下所述局部梯度同理;
步骤404,将抽样决策二值向量bt输入采集模拟环境St和采集代价函数cost,输出采集数据dt、真实数据采集代价ct
步骤405,将采集数据dt、记忆矩阵Mt、抽样决策向量bt输入重建模型reconstruct,输出重建数据记录重建模型各参数值prt,各参数对应的局部梯度/>
步骤406,将重建数据和真实数据/>输入误差函数error,输出重建误差et,记录误差函数各参数pet,各参数的局部梯度/>
步骤407,将抽样采集代价ct、重建误差et、正则参数zt输入损失函数loss,输出损失值l,记录损失函数各参数plt,各参数的局部梯度
步骤408,按照梯度更新算法optimize进行损失回传,计算损失值关于各参数的梯度,并进行损失函数loss、误差函数error、重建模型reconstruct、抽样模型sampling的参数更新,重建模型梯度回传至抽样模型时按照如下公式(1)计算损失值l关于二值向量bt的梯度值:
步骤409,按照如下公式(2)更新记忆矩阵,
Mt+1=Mt<<1 in dim=0……(2),
其中,<<为循环左移操作;
步骤410,当t<T,则t=t+1,保存抽样模型和重建模型参数psepocl和prepocl,保存损失值lt,转至步骤402,否则转至步骤411;
步骤411,当epoch<Epoch,令D=Dtest,T=Ttrain,执行步骤402,否则转至步骤412;
步骤412,选择当D=Dtest时,使得lt最小的抽样模型sampling和重建模型reconstruct作为输出的模型;
步骤5,在真实应用场景部署抽样重建模型:
步骤501,以抽样率r随机抽样H个时刻,获得初始化记忆张量MH,MH=(d1,...dH);
步骤502,初始化采集时刻t=H,记忆张量Mt=MH
步骤503,将记忆张量MH、抽样率r输入抽样模型sampling,输出抽样决策二值向量bt
步骤504,依抽样决策二值向量bt在真实部署环境中进行大数据抽样采集,输出采集数据dt、采集代价ct
步骤505,将采集数据dt、记忆矩阵Mt、抽样决策向量bt输入重建模型reconstruct,输出重建数据
步骤506,按照如下公式(3)、公式(4)更新记忆矩阵,
Mt+1=Mt<<1 in dim=0……(4),
其中,<<为循环左移操作;
步骤507,当未达到采集次数要求,即t<Tmax,则t=t+1,返回步骤503,否则结束大数据抽样采集。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的范围内,能够轻易想到的变化或替换,都应涵盖在本发明权利要求的保护范围内。

Claims (2)

1.一种大规模数据中心数据采集的自适应抽样模型优化方法,其特征在于,包括以下步骤:
步骤1,应用场景的形式化表述是:待采集同构个体总数量N,采集指标数量K,采集持续时间0~T,每个时刻t时,针对全部个体,以固定抽样率r抽样采集的当前时刻数据,采集的个体i的数据表示为其中,x0,…,xK均为实数,在时刻t采集到的全体数据表示为/>未采集的个体j的数据表示为/>在时刻t的抽样决策向量表示为/>其中,对于决定采集的个体i,/>对于决定不采集的个体j,在时刻t的采集代价表示为ct=cost(bt),其中ct为实数,cost为未知的代价函数,在采集时由环境反馈给出,在时刻t的重建数据表示为/>在时刻t,重建误差表示为/>error为误差函数,优化目标为最小化l=f(ct,et),f为损失函数,均衡考虑采集代价、重建误差、正则项,获得与待采集运行数据独立同分布的全采集数据用以离线训练和测试,所用的全采集数据Dtt=<d>与部署后应用时场景中的真实数据集Dreal独立同分布;采集数据集中的全部的有限的单个个体的数据用来计算重建误差Ett以准确评估重建结果;
步骤2,建立抽样模型、重建模型、估计代价函数、误差函数、损失函数:
抽样模型sampling、重建模型reconstruct、估计代价函数cost、误差函数error、损失函数loss、梯度更新算法optimize的具体输入输出是:抽样模型sampling在时刻t,输入记忆张量Mt,维度为H*N*K,抽样率r,其中H为记忆的时间序列长度,输出抽样决策向量,重建模型reconstruct在时刻t输入记忆张量Mt,在时刻t采集的数据dt,抽样决策向量bt,输出重建数据估计代价函数cost在时刻t输入抽样决策向量bt,大数据采集模拟环境St=simulate(Dtt;p,t),输出抽样代价ct,simulate是大数据采集环境模拟器,p是模拟配置参数,simulate输出采集数据dt和真实数据/>
误差函数error在时刻t输入重建数据真实数据/>输出重建误差et
损失函数loss在时刻t输入抽样采集代价ct,重建误差et,正则参数zt,输出损失值l,
梯度更新算法optimize在时刻t参数为pot,输入模型参数的梯度值g,原模型参数值pmt,输出更新后的参数值pmt+1,模型和函数依据不同场景采用不同计算公式;
步骤3,将全采集数据划分为独立同分布的训练集Dtrain和测试集Dtest
将数据划分为训练集和测试集的具体步骤是:设定训练比例α,将数据集从时间维度前后划分为dα,d1-α,也能够采用其他数据划分方法,但要保证dα和d1-α满足独立同分布假设;
步骤4,抽样和重建模型联合训练、测试和选择:
步骤401,初始化迭代次数epoch=1,最大迭代次数Epoch,数据集D=Dtrain,总时长T=Ttrain
步骤402,初始化采集时刻t=H,Mt=MHin D;
步骤403,将记忆张量MH、抽样率r输入抽样模型sampling,输出抽样决策二值向量bt,记录抽样模型各参数值pst,各参数对应的局部梯度为简化表达,gst指的是模型下的各个操作的局部梯度并列所组成的长向量且并非单独一个实值,以下所述局部梯度同理;
步骤404,将抽样决策二值向量bt输入采集模拟环境St和采集代价函数cost,输出采集数据dt、真实数据采集代价ct
步骤405,将采集数据dt、记忆矩阵Mt、抽样决策向量bt输入重建模型reconstruct,输出重建数据记录重建模型各参数值prt,各参数对应的局部梯度/>
步骤406,将重建数据和真实数据/>输入误差函数error,输出重建误差et,记录误差函数各参数pet,各参数的局部梯度/>
步骤407,将抽样采集代价ct、重建误差et、正则参数zt输入损失函数loss,输出损失值l,记录损失函数各参数plt,各参数的局部梯度
步骤408,按照梯度更新算法optimize进行损失回传,计算损失值关于各参数的梯度,并进行损失函数loss、误差函数error、重建模型reconstruct、抽样模型sampling的参数更新,重建模型梯度回传至抽样模型时按照如下公式(1)计算损失值l关于二值向量bt的梯度值:
步骤409,按照如下公式(2)更新记忆矩阵,
Mt+1=Mt<<1in dim=0
……(2),
其中,<<为循环左移操作;
步骤410,当t<T,则t=t+1,保存抽样模型和重建模型参数psepoch和prepoch,保存损失值lt,转至步骤402,否则转至步骤411;
步骤411,当epoch<Epoch,令D=Dtest,T=Ttrain,执行步骤402,否则转至步骤412;
步骤412,选择当D=Dtest时,使得lt最小的抽样模型sampling和重建模型reconstruct作为输出的模型;
步骤5,在真实应用场景部署抽样重建模型。
2.根据权利要求1所述的一种大规模数据中心数据采集的自适应抽样模型优化方法,其特征在于,所述步骤5包括以下步骤:
步骤501,以抽样率r随机抽样H个时刻,获得初始化记忆张量MH,MH=(d1,…dH);
步骤502,初始化采集时刻t=H,记忆张量Mt=MH
步骤503,将记忆张量MH、抽样率r输入抽样模型sampling,输出抽样决策二值向量bt
步骤504,依抽样决策二值向量bt在真实部署环境中进行大数据抽样采集,输出采集数据dt、采集代价ct
步骤505,将采集数据dt、记忆矩阵Mt、抽样决策向量bt输入重建模型reconstruct,输出重建数据
步骤506,按照如下公式(3)、公式(4)更新记忆矩阵,
Mt+1=Mt<<1in dim=0
……(4),
其中,<<为循环左移操作;
步骤507,当未达到采集次数要求,即t<Tmax,则t=t+1,返回步骤503,否则结束大数据抽样采集。
CN202110701667.4A 2021-06-24 2021-06-24 一种大规模数据中心数据采集的自适应抽样模型优化方法 Active CN113535510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110701667.4A CN113535510B (zh) 2021-06-24 2021-06-24 一种大规模数据中心数据采集的自适应抽样模型优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110701667.4A CN113535510B (zh) 2021-06-24 2021-06-24 一种大规模数据中心数据采集的自适应抽样模型优化方法

Publications (2)

Publication Number Publication Date
CN113535510A CN113535510A (zh) 2021-10-22
CN113535510B true CN113535510B (zh) 2024-01-26

Family

ID=78125745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110701667.4A Active CN113535510B (zh) 2021-06-24 2021-06-24 一种大规模数据中心数据采集的自适应抽样模型优化方法

Country Status (1)

Country Link
CN (1) CN113535510B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408384A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 部署的端对端语音识别
CN108831443A (zh) * 2018-06-25 2018-11-16 华中师范大学 一种基于堆叠自编码网络的移动录音设备源识别方法
WO2018222204A1 (en) * 2017-06-02 2018-12-06 Google Llc Systems and methods for black-box optimization
CN110168520A (zh) * 2016-12-30 2019-08-23 同济大学 一种智能化道路交通异常检测方法
CN112905560A (zh) * 2021-02-02 2021-06-04 中国科学院地理科学与资源研究所 一种多源时空大数据深度融合的空气污染预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11568236B2 (en) * 2018-01-25 2023-01-31 The Research Foundation For The State University Of New York Framework and methods of diverse exploration for fast and safe policy improvement

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408384A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 部署的端对端语音识别
CN110168520A (zh) * 2016-12-30 2019-08-23 同济大学 一种智能化道路交通异常检测方法
WO2018222204A1 (en) * 2017-06-02 2018-12-06 Google Llc Systems and methods for black-box optimization
CN108831443A (zh) * 2018-06-25 2018-11-16 华中师范大学 一种基于堆叠自编码网络的移动录音设备源识别方法
CN112905560A (zh) * 2021-02-02 2021-06-04 中国科学院地理科学与资源研究所 一种多源时空大数据深度融合的空气污染预测方法

Also Published As

Publication number Publication date
CN113535510A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN113191484B (zh) 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN111860982B (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
Lin et al. An efficient deep reinforcement learning model for urban traffic control
CN110909926A (zh) 基于tcn-lstm的太阳能光伏发电预测方法
CN110110862A (zh) 一种基于适应性模型的超参数优化方法
CN113554466A (zh) 一种短期用电量预测模型构建方法、预测方法和装置
Xue et al. Self-adaptive particle swarm optimization-based echo state network for time series prediction
CN116599857B (zh) 一种适用于物联网多场景的数字孪生应用系统
CN109934422A (zh) 一种基于时间序列数据分析的神经网络风速预测方法
CN104050505A (zh) 一种基于带学习因子蜂群算法的多层感知器训练方法
CN114169645A (zh) 一种智能电网短期负荷预测方法
CN117277279A (zh) 一种基于粒子群优化的深度学习短期负荷预测方法
CN118283552A (zh) 基于物联网分析的计划调度优化方法
CN117768377A (zh) 一种基于图神经网络的电网骨干光通信系统路由计算方法
CN113535510B (zh) 一种大规模数据中心数据采集的自适应抽样模型优化方法
CN116204849A (zh) 一种面向数字孪生应用的数据与模型融合方法
CN116565876A (zh) 一种鲁棒强化学习的配网潮流优化方法及计算机可读介质
CN113642632B (zh) 基于自适应竞争和均衡优化的电力系统客户分类方法及装置
CN117669655A (zh) 网络入侵检测深度学习模型压缩方法
CN115081323A (zh) 求解多目标约束优化问题的方法及其存储介质
Misra et al. Simplified polynomial neural network for classification task in data mining
Cai et al. Calculation Method of Available Transfer Capacity Based on Graph Convolutional Network
CN118520360B (zh) 一种频谱博弈决策的智能迭代方法和装置
CN118484666B (zh) 面向源网荷多元应用的储能电站评估方法及系统
Shu et al. Link prediction based on 3D convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant