CN115238775A - 模型构建方法 - Google Patents

模型构建方法 Download PDF

Info

Publication number
CN115238775A
CN115238775A CN202210789545.XA CN202210789545A CN115238775A CN 115238775 A CN115238775 A CN 115238775A CN 202210789545 A CN202210789545 A CN 202210789545A CN 115238775 A CN115238775 A CN 115238775A
Authority
CN
China
Prior art keywords
target
network structure
determining
loss function
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210789545.XA
Other languages
English (en)
Inventor
任震宇
林佳乐
冯书志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210789545.XA priority Critical patent/CN115238775A/zh
Publication of CN115238775A publication Critical patent/CN115238775A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供模型构建方法,其中所述模型构建方法包括:确定初始预测模型以及所述初始预测模型对应的训练样本和样本标签,其中,所述训练样本为历史事件序列,所述样本标签为所述历史事件序列的事件类型;确定所述初始预测模型中的至少两个网络结构单元,以及每个网络结构单元与其他网络结构单元之间相连接的第一类型连接边;基于所述训练样本和所述样本标签,确定所述每个网络结构单元的初始损失函数;基于所述初始损失函数确定所述初始预测模型的目标损失函数,基于所述目标损失函数确定所述第一类型连接边的权重信息;基于所述权重信息对所述初始预测模型进行调整,获得目标预测模型,从而节省大量人力资源与计算资源。

Description

模型构建方法
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种模型构建方法。
背景技术
随着云计算和大数据的发展和普及,越来越多的计算设备与服务都托管在云服务器上,云端接收到的计算和服务请求数量大大增加,这同时也给云端服务器的调度及维护带来了更大困难和挑战。基于此,现有技术中,考虑到服务器请求在时间上存在规律性,因此可以通过时序建模分析方法构建的时序神经网络进行预测,提前分析出云端将要接收到的请求,进而提前做出预警。但是,人工手动设计神经网络结构,需要耗费大量人力资源与计算资源,因此,如何降低神经网络结构构建所耗费大量人力资源与计算资源成为亟需解决的问题。
发明内容
有鉴于此,本说明书实施例提供了一种模型构建方法。本说明书一个或者多个实施例同时涉及一种模型训练方法,一种资源处理方法,一种模型构建装置,一种模型训练装置,一种资源处理装置,一种计算设备,一种计算机可读存储介质,一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种模型构建方法,包括:
确定初始预测模型以及所述初始预测模型对应的训练样本和样本标签,其中,所述训练样本为历史事件序列,所述样本标签为所述历史事件序列的事件类型;
确定所述初始预测模型中的至少两个网络结构单元,以及每个网络结构单元与其他网络结构单元之间相连接的第一类型连接边;
基于所述训练样本和所述样本标签,确定所述每个网络结构单元的初始损失函数;
基于所述初始损失函数确定所述初始预测模型的目标损失函数,基于所述目标损失函数确定所述第一类型连接边的权重信息;
基于所述权重信息对所述初始预测模型进行调整,获得目标预测模型。
根据本说明书实施例的第二方面,提供了一种模型构建装置,包括:
第一确定模块,被配置为确定初始预测模型以及所述初始预测模型对应的训练样本和样本标签,其中,所述训练样本为历史事件序列,所述样本标签为所述历史事件序列的事件类型;
第二确定模块,被配置为确定所述初始预测模型中的至少两个网络结构单元,以及每个网络结构单元与其他网络结构单元之间相连接的第一类型连接边;
函数确定模块,被配置为基于所述训练样本和所述样本标签,确定所述每个网络结构单元的初始损失函数;
权重确定模块,被配置为基于所述初始损失函数确定所述初始预测模型的目标损失函数,基于所述目标损失函数确定所述第一类型连接边的权重信息;
模型调整模块,被配置为基于所述权重信息对所述初始预测模型进行调整,获得目标预测模型。
根据本说明书实施例的第三方面,提供了一种模型训练方法,包括:
确定目标预测模型的训练样本以及样本标签,其中,所述目标预测模型为上述一种模型构建方法确定的目标预测模型;
基于所述训练样本以及所述样本标签,对所述目标预测模型进行训练,直至达到训练停止条件,获得训练完成的目标预测模型。
根据本说明书实施例的第四方面,提供了一种模型训练装置,包括:
确定模块,被配置为确定目标预测模型的训练样本以及样本标签,其中,所述目标预测模型为上述一种模型构建方法确定的目标预测模型;
训练模块,被配置为基于所述训练样本以及所述样本标签,对所述目标预测模型进行训练,直至达到训练停止条件,获得训练完成的目标预测模型。
根据本说明书实施例的第五方面,提供了一种资源处理方法,应用于服务器,包括:
确定服务器的事件序列,其中,所述事件序列基于所述服务器接收到的待处理请求确定;
从所述事件序列中选择目标时间范围内的局部事件序列,其中,所述目标时间范围基于当前时间确定;
利用训练完成的目标预测模型对所述局部时间序列进行预测,获得预测结果,其中,所述训练完成的目标预测模型为上述模型训练方法中训练完成的目标预测模型;
确定所述预测结果对应的事件处理资源参数,并基于所述事件处理资源参数,对所述服务器的当前事件处理资源进行调整,获得所述预测结果对应的事件处理资源。
根据本说明书实施例的第六方面,提供了一种资源处理装置,应用于服务器,包括:
确定模块,被配置为确定服务器的事件序列,其中,所述事件序列基于所述服务器接收到的待处理请求确定;
选择模块,被配置为从所述事件序列中选择目标时间范围内的局部事件序列,其中,所述目标时间范围基于当前时间确定;
预测模块,被配置为利用训练完成的目标预测模型对所述局部时间序列进行预测,获得预测结果,其中,所述训练完成的目标预测模型为上述模型训练方法中训练完成的目标预测模型;
资源调整模块,被配置为确定所述预测结果对应的事件处理资源参数,并基于所述事件处理资源参数,对所述服务器的当前事件处理资源进行调整,获得所述预测结果对应的事件处理资源。
根据本说明书实施例的第七方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现所述模型构建方法、所述模型训练方法或所述资源处理方法的步骤。
根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现所述模型构建方法、所述模型训练方法或所述资源处理方法的步骤。
根据本说明书实施例的第九方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行所述模型构建方法、所述模型训练方法或所述资源处理方法的步骤。
本说明书提供的模型构建方法包括:确定初始预测模型以及所述初始预测模型对应的训练样本和样本标签,其中,所述训练样本为历史事件序列,所述样本标签为所述历史事件序列的事件类型;确定所述初始预测模型中的至少两个网络结构单元,以及每个网络结构单元与其他网络结构单元之间相连接的第一类型连接边;基于所述训练样本和所述样本标签,确定所述每个网络结构单元的初始损失函数;基于所述初始损失函数确定所述初始预测模型的目标损失函数,基于所述目标损失函数确定所述第一类型连接边的权重信息;基于所述权重信息对所述初始预测模型进行调整,获得目标预测模型。
具体的,该方法通过训练样本和样本标签,确定包含至少两个网络结构单元,以及每个网络结构单元之间相连接的第一类型连接边的初始预测模型,以及该初始预测模型对应的目标损失函数,然后基于该目标损失函数确定该第一类型连接边的权重信息,并基于该权重信息自动的对该初始预测模型进行调整,从而完成目标预测模型的构建,从而避免了人工手动设计神经网络结构的过程中,需要耗费大量人力资源与计算资源的问题,从而达到节省人力资源与计算资源的目的。
附图说明
图1是本说明书一个实施例提供的一种模型构建方法的应用示意图;
图2是本说明书一个实施例提供的一种模型构建方法中细胞单元的结构示意图;
图3是本说明书一个实施例提供的一种模型构建方法的流程图;
图4是本说明书一个实施例提供的一种模型训练方法的流程图;
图5是本说明书一个实施例提供的一种资源处理方法的流程图;
图6是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
神经网络:一种模仿生物神经元连接方式的数学模型。结构最简单的多层神经网络结构由线性变换和非线性激活函数构成。针对不同数据特点,研究者们设计出卷积神经网络、循环神经网络等网络结构,其中循环神经网络多用于处理时间序列和事件序列等时序上存在依赖关系的结构化数据。
网络结构搜索:通过自动化方式设计神经网络结构,从而减少手动设计网络结构带来的人力负担与计算资源消耗。神经网络结构搜索通常包括搜索空间和搜索算法两大部分,搜索空间定义了候选网络结构的集合,搜索算法定义了如何从搜索空间中得到目标网络。
服务器请求:云服务器接收到来自用户或中转的操作请求,包括读请求、写请求等。
事件序列预测:事件序列是将发生的事件按照时间先后顺序排列形成的序列,事件序列预测方法根据过去发生的事件预测未来事件发生的类型、时间点等信息。
近年来,由于云计算和大数据的发展和普及,越来越多的计算设备与服务都托管在云服务器上,云端接收到的计算和服务请求数量大大增加,这同时也给云端服务器的调度及维护带来了更大困难和挑战。其中,该云端服务器又称为云服务器,既可以是运行在主机(host)服务器上的虚拟机、容器等,也可以是主机服务器(服务器);为了避免赘述,下述可以将云端服务器简称为服务器。该计算和服务请求可以理解为数据写请求、数据读请求、数据查询请求等等,本说明书对此不作具体限制。
基于上述问题,会导致云端(即云端服务器)的故障很难检测到,而且云端故障一旦发生,代价可能非常高昂。服务器发生故障会带来数据丢失、服务宕机等问题,直接导致巨大财物损失。因此,能够分析服务器发生故障的原因并在故障发生前预测故障的发生并提前做出预警具有重要意义。
同时,上述问题还会导致服务器事故的发生;比如,任何调用云端计算或存储服务的行为都会首先向云端服务器发送服务器请求,如读数据请求、写请求、计算请求等等。而云端服务器会根据这些请求采取相应的操作以调用底层的相应逻辑运算功能。当需要利用其他服务器(其他云服务器)的资源时,云端服务器的智能调度系统,会将请求分发给合理的服务器进行处理。其中,该智能调度系统可以理解为该服务器中用于将待处理请求,分配或调度给云服务器进行处理的系统;该智能调度系统具体可以理解为运行在服务器上的程序、进程、逻辑模型等等,本说明书对此不作具体限制。该合理的服务器可以理解为当前云服务器中能够良好运行该待处理请求的云服务器,也即是性能较优的云服务器。例如,在待处理请求为读请求的情况下,该合理的服务器可以理解为当前负责处理读请求的所有云服务器中,被分配的待处理请求数量较低的云服务器。需要说明的是,系统中运行有多种类型的云服务器,例如,负责对读请求进行处理的云服务器、负责对写请求进行处理的云服务器、负责进行数据搜索的云服务器、负责进行模型训练的云服务器等等。
而服务器请求的类型和频率与云端安全存在着密不可分的联系,例如当一小段时间内出现大量读写数据请求时,会给分布式存储系统带来很大负担;当出现大量耗费资源的计算请求时,可能会出现资源池不足等问题。因此,如果能够预测未来的服务器请求类型及发生的时间,就可以提前分析出云端哪些单元的压力可能会增大,进而提前做出预警,以减少事故的发生,其中,该单元可以理解为该云端服务器中对该请求进行处理的单元,该单元包括但不限于磁盘、CPU、云服务器、网络传输单元等等。
基于此,考虑到服务器请求在时间上存在规律性,请求数据能够在时间维度上构成事件序列,因此,预测服务器请求事件本质上可以归类为事件序列预测任务。传统的事件序列预测方法通过时序建模分析方法,通过分析数学统计量做回归预测。但随着机器学习和深度学习的兴起,循环神经网络开始在时间序列预测和事件序列预测中发挥着越来越重要的作用。
其中,利用深度学习进行事件序列预测任务的方法,首先将离散的事件序列通过特征工程的方法转变为连续的特征变量,之后将多维特征变量输入到RNN、LSTM等时序神经网络中刻画事件序列的隐特征变量,最后将网络的隐变量接入到额外的分类层或回归预测层中预测下一事件的发生。
对此本说明书提供了一种事件预测方法,该方法针对事件序列预测任务,直接使用时序神经网络如RNN、GRU、LSTM作为神经网络结构,对输入的多维序列进行编码获得隐层表示,再将隐层表示通过注意力机制等聚合操作对信息进行加权,最后通过分类层输出预测的表示。但是上述使用时序神经网络完成事件序列预测任务的事件预测方法中,该神经网络均为人工设计的,难以保证在拓扑连接和激活函数等结构方面是优解。并且,上述事件预测方法是一种基于梯度优化的网络结构搜索方法,该方法具有稳定性较差的问题,当搜索时长延长时,会出现跳跃连接的比重越来越大模型表征能力越来越差的缺点。
并且,目前很多事件序列预测系统中包含不同的时序神经网络,用来刻画不同类型的数据特征,同时已经出现很多时序神经网络变体。具体的,针对这类网络,通过调整门结构的位置或激活函数的类型及位置对网络结构进行更改的方式,能够得到不同的时序神经网络变体以获得不同的性能效果。然而,上述更改网络结构的方式也需要人工手动进行更改,而手动设计神经网络结构难以遍历所有可能的候选网络结构,同时需要大量测试性实验来验证设计出的网络的性能,需要耗费大量人力资源与计算资源。
同时,需要说明的是,目前一些方法也是通过网络结构搜索方法自动设计神经网络结构,但这类方法目前多应用在设计计算机视觉领域的卷积神经网络上,鲜有将网络结构搜索应用到时间或事件序列预测任务中的方式。并且,目前的网络结构搜索方法,一般为基于梯度优化的网络结构搜索方法,该方法存在着稳定性差的问题;当搜索轮数延长时,搜索得到的网络结构的性能表现反而越来越差,使得无法安全地投入到实际工业环境中。
针对上述问题,在本说明书中,提供了一种模型构建方法,本说明书一个或者多个实施例同时涉及一种模型训练方法,一种资源处理方法,一种模型构建装置,一种模型训练装置,一种资源处理装置,一种计算设备,一种计算机可读存储介质,一种计算机程序,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一个实施例提供的一种模型构建方法的应用示意图,在实际应用中,为了减少人工设计时序神经网络的人力资源消耗以及获得更优异的服务器请求事件序列预测任务效果,本说明书提供了一种模型构建方法,该模型构建方法是利用网络结构搜索方法自动搜索时序神经网络结构,搜索的目标为神经网络结构单元,以下称之为细胞单元。具体的,在搜索阶段,本说明书提供的模型构建方法构造了一个包含了全部候选激活函数和连接方式的超网,通过将搜索获得的细胞单元堆叠起来即可形成整个神经网络。该网络由若干个标准细胞单元和一个降维细胞单元的组合堆叠而成,细胞单元之间通过边相互连接,并且在两个细胞单元之间可以连接一个激活函数,整个网络可以理解为一个训练完成的、且复杂的时序神经网络。其中,该标准细胞单元是一种不包含下采样操作的细胞单元,该降维细胞单元是一种包含了一个下采样操作的细胞单元,通过该降维细胞单元,能够在降低特征维度,降低计算量的同时提取更全局的特征。并且,该降维细胞单元在时序神经网络中的位置可以根据实际应用的需要进行设置,本说明书对此不作具体限制。需要说明的是,该搜索的过程可以理解为从超网(即上述时序神经网络)中选择符合特定条件的神经网络结构单元以及神经网络结构单元之间的连接边;通过这种方式调整超网中激活函数的类型、激活函数的位置、神经网络结构单元的数量、神经网络结构单元的位置等,从而得到一个所需要的时序神经网络变体。
具体的参见图1可知,本说明书提供的模型构建方法在进行网络结构搜索的过程中,会将样本数据和样本标签输入到超网中,该超网中的每个细胞单元可以理解为一个网络层;之后,从而该细胞单元中选择符合特定条件的目标细胞单元,以及目标细胞单元之间的边(其中,每个细胞单元之间的边可以对应一个激活函数),之后基于目标细胞单元以及对应的边,构建所需要的目标时序神经网络变体。
其中,该超网中还包括有辅助分类器,在网络结构搜索的过程中,对于超网中的每一中间网络层,通过辅助分类器获取来自真实数据标签的监督。通过该辅助分类器实现一种鲁棒可微网络结构搜索法。采用该鲁棒可微网络结构搜索法的背景在于:一些基于梯度优化的网络结构搜索方法,存在着稳定性差的问题。具体的对于本案例,在现有的一些网络结构搜索方法中,虽然可以通过加权等连续化操作将离散的搜索空间变成连续空间,使得网络参数ω(如时序神经网络中的所有线性权重参数)和结构参数α(见下)均可导,然后对网络参数和结构参数做双目标优化,具体通过下述公式(1)训练超网。
Figure BDA0003733309330000071
Figure BDA0003733309330000072
其中,上述公式1中的min是指最小数、
Figure BDA0003733309330000073
是损失函数,train是指训练集,val是指是训练过程中的测试集。该argminω是指当
Figure BDA0003733309330000074
取最小值时,该ω的取值。s.t.是subject to(such that)的缩写,是指约束条件。
然而,此目标下损失函数对结构参数α是不可微的,同时每次计算ω*(α)均需要在训练集上训练当前的网络至优秀,这在时间上是不可实现的。为了解决此问题,一些网络结构搜索方法,使用两种近似方法进行近似计算。第一种近似估计方法,直接将当前的网络参数ω作为ω*(α)的近似,第二种近似估计方法,则采用梯度优化的方式,通过将较优的网络参数近似为梯度下降一步后的网络参数
Figure BDA0003733309330000075
其中,
Figure BDA0003733309330000076
为微分算符。经过近似估计后,损失函数对网络参数ω和结构参数α均可微,接下来采用训练一步结构参数再训练一步网络参数的交替训练模式,对超网进行训练。
但是,上述直接使用基于梯度优化的可微网络结构搜索方法,会使得搜索过程不稳定,当搜索轮数变长时搜索得到的网络性能反而会下降。其根本原因在于超网的层间梯度不均衡,而跳跃连接等无参操作可以为梯度传导提供额外通路,因此随着搜索的进行,网络更倾向于选择无意义的跳跃连接。
因此,本说明书提供的模型构建方法,提出一种鲁棒可微网络结构搜索法。具体来说,该鲁棒可微网络结构搜索法采用了一种新的自蒸馏技术,参见图1,图1可以理解为基于自蒸馏的鲁棒网络结构搜索算法的结构图,该网络结构搜索算法能够通过相邻层的输出监督网络每一层细胞单元;也即是,在自蒸馏机制中将相邻层的输出作为监督信息,用于监督网络每一层细胞单元。同时对每一中间层都通过辅助分类器获取来自真实数据标签的监督,这种新的自蒸馏技术可以有效缓解梯度分布差异和训练过程的不平衡,能显著提高可微分架构搜索的稳定性和鲁棒性,该采用自蒸馏机制的鲁棒网络结构搜索算法(下述称为算法)的具体步骤,如下步骤1至步骤6所示。
步骤1:确定训练样本和样本标签。
具体的,在搜索过程中,首先需要确定训练样本和样本标签,后续能够基于该训练样本和样本标签,从超网中搜索出目标细胞单元和对应的边。因此,本说明书提供的基于自蒸馏机制的鲁棒网络结构搜索算法,能够确定N组输入数据
Figure BDA0003733309330000077
其中
Figure BDA0003733309330000078
是对应的共有M类别的独热(one-hot)真实标签,代表服务器请求事件的类型,该M类别可以理解为M种数量的事件类型。xk可以理解为训练样本,该训练样本可以为事件序列,该事件序列中包含多个按照时间排序的服务器请求事件。
其中,需要说明的是,本说明书提供的算法能够令第i层超网的输出隐变量为hi,其中i∈{1,2,..,L},L是超网的层数。
步骤2:基于训练样本和样本标签,确定该超网的初始损失函数。
需要说明的是,本说明书提供的算法,能够为超网中的每一层都分配了一个辅助分类器,用如下公式(2)表示:
Figure BDA0003733309330000081
其中
Figure BDA0003733309330000082
是当输入为xk时网络的输出分布,Wi是θi的权重参数,需要说明的是,Wi是网络的权重参数,这个参数是要根据样本标签数据通过一些算法,比如BP算法(反向传播算法)等训练出来的。该pooling(hi)为对该hi进行池化操作。并且,在后续推理阶段,辅助分类器将被移除。
基于此,本说明书提供的算法能够基于该辅助分类器,针对任何一层的输出与数据标签间的差异,用交叉熵损失函数,通过如下公式(3)计算确定总的初始损失函数:
Figure BDA0003733309330000083
步骤3:确定该超网中不同网络层间梯度分布差异的两个损失函数。
具体的,为了减少不同网络层间的梯度分布差异,针对每一层网络,都会由它的相邻层进行监督。而这种学习机制包含了两个目标损失函数
Figure BDA0003733309330000084
Figure BDA0003733309330000085
分别代表模仿相邻层的概率分布和特征图。
目标损失函数
Figure BDA0003733309330000086
代表了相邻层之间的概率分布的差异,可以用KL散度差,也即是下述公式(4)来计算:
Figure BDA0003733309330000087
Figure BDA0003733309330000088
其中
Figure BDA0003733309330000089
Figure BDA00037333093300000810
的概率分布,τ是蒸馏温度。
目标损失函数
Figure BDA00037333093300000811
可以理解为特征图损失函数。在实际应用中,该
Figure BDA00037333093300000812
直接用浅层的隐变量特征图来指导深层相邻层的隐变量特征图,但是,这样会出现维度失配问题,即特征图
Figure BDA00037333093300000813
和Fi+1满足关系Ci≤Ci+1,Hi≥Hi+1,相邻两层特征图的维度并非完全相等。基于此,本说明书提供的算法,为了统一相邻两层特征图的维度,首先用平均池化操作将特征图Fi的高度(宽度)降至与第i+1层相同,再将特征图通过如下公式(5)转变为加权特征图:
Figure BDA0003733309330000091
在将原始的特征图压缩为二维的矩阵
Figure BDA0003733309330000092
后,相邻层之间的差异将用如下公式(6)来计算:
Figure BDA0003733309330000093
步骤4:基于初始损失函数以及两个损失函数,确定超网总的损失函数。
其中,总的损失函数是三个子损失函数的加权求和:
Figure BDA0003733309330000094
其中,上述加权求和公式中的α和β是调节重要性的超参数,可以根据实际应用场景进行设置。
步骤5:基于总的损失函数对超网进行训练,获得最终的目标时序神经网络。
具体的,基于该总的损失函数对超网进行训练,在超网被训练至收敛后,确定已经对该超网完成了网络结构搜索,也即是完成了从超网中选择目标细胞单元以及对应的边,通过离散化过程即可得到最终的目标网络。
需要说明的是,在搜索过程中,本说明书提供的算法,能够通过反向传播的方式,确定每个细胞单元之间边的权重值,基于该权重值从该超网中选择对输出结果贡献最大的目标细胞单元以及相连接的边。也即是,针对每条边只保留那个权重值
Figure BDA0003733309330000095
最大的候选操作;每个细胞单元中的每个节点只保留两条与之相连的边。
其中,针对上述“每个细胞单元中的每个节点只保留两条与之相连的边”,需要说明的是,每个细胞单元中包含多个节点,且每个节点之间具有相连接的一条或多条边。参见图2,图2是本说明书一个实施例提供的一种模型构建方法中细胞单元的结构示意图;基于图2可知,一个搜索得到的细胞单元结构示例图如图2所示,该细胞单元遵循时序神经网络的特点,一个细胞单元的输出ht,与当前时刻的输入x-t和上一时刻细胞的隐状态ht-1有关。需要说明的是,常用的时序网络如RNN、GRU、LSTM等都可以抽象为这种形式。
参见图2,一个细胞单元的输入为其前两个细胞的输出。每个细胞单元结构可以被抽象为包含了N个节点{x(0),x(1),…,x(N-1)}的有向无环图,该节点即是图2中的“节点0、节点1…节点8”,其中每个节点x(i)表示网络中的一个中间特征图,该特征图可以理解为矩阵。
两个节点之间可以连接一个激活函数(包括但不限于ReLU、tanh、sigmoid、identity等激活函数),网络结构搜索的目的即从若干候选激活函数中选择一个最适合此边的操作(即激活函数),这些候选激活函数构成的空间称为搜索空间,用符号
Figure BDA0003733309330000101
也即是说,在网络结构搜索的过程中,还需要针对每个细胞单元中的节点以及对应的边进行选择。并且,在选择节点以及对应的边时,同样是基于每条边的权重。也即是说,需要从细胞单元中,选择出对该细胞单元的输出结果贡献最大的节点和边。其中,每条边的权重是基于整个细胞单元的输出进行反向传播确定的。
而在确定细胞单元的输出的过程中,为了使网络输出(整个细胞单元的输出)对结构参数可导,本算法将离散的搜索空间转变为了连续空间。具体来说,超网中由节点x(i)连向节点x(j)的边(i<j)以一个稠密权重向量
Figure BDA0003733309330000104
加权综合了所有候选操作,也即是说两个节点之间的操作可以通过下述公式(7)表示:
Figure BDA0003733309330000102
其中,该公式(7)中的O为操作、x为节点,该i和j为不同节点的序号。上述公式表示两个节点之间的操作是它们之间所有操作的softmax之和。
每个中间节点被其所有前序节点相连:
Figure BDA0003733309330000103
所有中间节点的输出拼接起来构成了整个细胞单元的输出。
基于上述内容可知,本算法使用网络结构搜索的目标,即为从网络中选取的激活函数与连接方式。
步骤6:通过训练样本以及训练标签对最终的目标时序神经网络进行训练,获得能够进行事件预测的时序神经网络模型。
基于此,本说明书一实施例提供的模型构建方法,为了减少人工设计时序神经网络的资源消耗,以及获得更优异的服务器请求事件序列预测任务效果,提出使用神经网络结构搜索自动设计时序神经网络,用以预测下一服务器请求的类型和时间点等信息,同时针对现有网络结构搜索方法稳定性差的缺点,提出鲁棒可微网络结构搜索法,来提高网络结构搜索过程的稳定性,确保搜索过程始终得到稳定网络结构。
从而实现了利用网络结构搜索方法自动设计出事件序列预测任务中的时序神经网络,避免了人工设计神经网络的开销,同时利用自蒸馏算法稳定网络搜索过程。
并且,考虑到目前使用时序网络做事件序列预测任务的方法,所使用的时序神经网络是手动设计的,难以保证结构上是优秀的。若想要改进网络结构则需要手动调整,耗费人力资源的同时难以保证遍历尽可能多的情况。
本说明书提供的模型构建方法,使用网络结构搜索方法自动设计时序神经网络,可以在事件序列预测任务上取得更优的结果,同时不需要人工调整神经网络结构。同时,能够达到稳定搜索过程的技术效果,弥补传统基于梯度优化的网络结构搜索方法中随着搜索过程的延长,跳跃连接的数量越来越多从而导致网络性能越来越差的缺点和不足。
图3示出了根据本说明书一个实施例提供的一种模型构建方法的流程图,具体包括以下步骤。
步骤302:确定初始预测模型以及所述初始预测模型对应的训练样本和样本标签。
其中,所述训练样本为历史事件序列,所述样本标签为所述历史事件序列的事件类型。该历史事件序列可以理解为由多个历史事件按照时间排序的方式构成的序列,该历史事件可以理解为服务器历史接收到服务器请求对应的事件。该事件类型为该历史事件序列中每个历史事件对应的事件类型的集合,该事件类型包括但不限于读类型、写类型等等。需要说明的是,图3中的训练样本以及样本标签可以为上述基于自蒸馏的鲁棒网络结构搜索算法中的训练样本和样本标签。该初始预测模型可以理解为需要进行网络结构搜索的一种神经网络,例如,上述实施例中的超网。
具体的,在实际应用中,该模型构建方法可以理解为上述采用自蒸馏机制的鲁棒网络结构搜索算法,基于此,该模型构建的过程可以理解为对该超网进行模型结构搜索的过程。基于此,在进行模型构建的过程中,首先需要确定初始预测模型以及针对该初始预测模型的训练样本以及样本标签。
步骤304:确定所述初始预测模型中的至少两个网络结构单元,以及每个网络结构单元与其他网络结构单元之间相连接的第一类型连接边。
其中,该网络结构单元可以理解为该初始预测模型中的网络层;例如,在初始预测模型为超网的情况下,该网络结构单元可以理解为该超网中的神经网络结构单元,也即是细胞单元。第一类型连接边可以理解为初始预测模型中每个网络结构单元与其他网络结构单元之间相互连接的边。需要说明的是,网络结构单元与网络结构单元之间可以连接有激活函数,该激活函数包括但不限于ReLU、tanh、sigmoid、identity等激活函数。
具体的,该模型构建方法在确定训练样本和样本标签之后,能够确定该初始预测模型中的至少两个网络结构单元,以及每个网络结构单元与除自身之外的其他网络单元之间的边。
步骤306:基于所述训练样本和所述样本标签,确定所述每个网络结构单元的初始损失函数。
具体的,所述基于所述训练样本和所述样本标签,确定所述每个网络结构单元的初始损失函数,包括:
利用所述至少两个网络结构单元对所述训练样本进行处理,获得所述每个网络结构单元输出的预测结果;
基于所述预测结果以及所述样本标签,确定所述每个网络结构单元的初始损失函数。
其中,预测结果可以理解为表征该服务器接下来会接收到的请求以及对应类型的信息。
具体的,将该训练样本输入至初始预测模型中,通过该初始预测模型中的至少两个网络结构单元对该训练样本进行预测处理,从而获得事件预测结果,例如,将历史事件序列输入至超网中,利用该超网中的每个细胞单元基于该历史事件序列进行事件序列预测,从而获得事件预测结果。
之后,基于该预测结果以及该样本标签,确定每个网络结构单元的初始损失函数,从而后续能够基于该初始损失函数进行目标预测模型的构建,节省人工成本以及计算资源。
进一步的,在本说明书提供的实施例中,所述基于所述预测结果以及所述样本标签,确定所述每个网络结构单元的初始损失函数,包括:
基于所述每个网络结构单元输出的预测结果以及所述样本标签,确定所述每个网络结构单元的第一损失函数;
确定所述每个网络结构单元对应的相邻网络结构单元,并根据所述每个网络结构单元的预测结果,以及所述相邻网络结构单元的预测结果,确定所述每个网络结构单元的第二损失函数;
根据所述每个网络结构单元中的第一节点,以及所述相邻网络结构单元的第二节点,确定所述每个网络结构单元的第三损失函数;
将所述第一损失函数、所述第二损失函数和/或所述第三损失函数确定为初始损失函数。
具体的,本说明书提供的模型构建方法,考虑到基于梯度优化的可微网络结构搜索方法,在搜索过程中存在不稳定的问题,因此,可以为每个网络结构单元确定多种损失函数,从而避免在搜索过程中存在不稳定的问题。
其中,该第一损失函数可以理解为表征任何一网络层的输出结果与数据标签间的差异的损失函数,例如,交叉熵损失函数,具体参见上述公式(3)。
该第二损失函数可以理解为表征相邻网络层之间的逻辑分布(即概率分别)之间的差异的损失函数,例如上述公式(4)。
第三损失函数可以理解为通过特征图确定相邻网络层之间的差异的损失函数,例如,上述公式(6)。
其中,该节点可以理解为上述细胞单元内的节点,该节点可以理解为特征图,对应的,该第一节点可以理解为任意细胞单元内的隐变量特征图;该第二节点可以理解为任意细胞单元的相邻细胞单元内的隐变量特征图。
具体的,本说明书提供的模型构建方法,首先能够基于每个网络结构单元输出的预测结果以及样本标签,确定每个网络结构单元的第一损失函数。
其次,通过每个网络结构单元对应的相邻网络结构单元,并根据每个网络结构单元的预测结果,以及相邻网络结构单元的预测结果,确定每个网络结构单元的第二损失函数;
最后,能够根据每个网络结构单元中的第一节点,以及相邻网络结构单元的第二节点,确定每个网络结构单元的第三损失函数。
在确定每个网络结构单元的第一损失函数、第二损失函数以及第三损失函数之后,能够将三个损失函数中任意一个或者多个的损失函数,作为每个网络结构单元的初始损失函数。
在本说明书提供的实施例中,所述根据所述每个网络结构单元的预测结果,以及所述相邻网络结构单元的预测结果,确定所述每个网络结构单元的第二损失函数,包括:
基于所述每个网络结构单元的预测结果以及预设计算参数,确定所述预测结果的概率分布;
根据所述每个网络结构单元的预测结果的概率分布,以及所述相邻网络结构单元的预测结果的概率分布,确定所述每个网络结构单元的第二损失函数。
其中,该预设计算参数可以理解为蒸馏温度。
具体的,本说明书提供的模型构建方法中,可以确定每个网络结构单元的预测结果,并基于该预测结果以及预设计算参数,确定该预测结果的概率分布。例如该概率分布可以为上述公式(4)中的
Figure BDA0003733309330000131
其中,该概率分布的计算方式可以基于上述公式(4)中的
Figure BDA0003733309330000132
确定。
之后可以根据每个网络结构单元的预测结果的概率分布,以及相邻网络结构单元的预测结果的概率分布,确定每个网络结构单元的第二损失函数,例如,该第二损失函数可以为上述公式(4)中的
Figure BDA0003733309330000133
例如,本说明书提供的模型构建方法,能够在确定每个细胞单元的输出结果之后,基于该输出结果以及蒸馏温度,计算出该输出结果的概率分布。之后通过KL散度差、每个细胞单元的概率分布,以及每个细胞单元的相邻细胞单元的概率分布,构建该每个细胞单元的损失函数,该损失函数用于表征相邻层之间的逻辑分布(即概率分布)之间的差异,从而进一步避免在搜索过程中存在不稳定的问题。
在本说明书提供的一实施例中,所述根据所述每个网络结构单元中的第一节点,以及所述相邻网络结构单元的第二节点,确定所述每个网络结构单元的第三损失函数,包括:
确定所述每个网络结构单元中的第一节点的节点结构,并基于所述节点结构对所述相邻网络结构单元的第二节点进行调整,获得第三节点;
对所述第一节点进行加权处理,获得更新第一节点,以及对所述第三节点进行加权处理,获得更新第三节点;
基于所述更新第一节点以及所述更新第三节点,确定所述每个网络结构单元的第三损失函数。
其中,该节点结构可以理解为该特征图的长宽高。也即是矩阵的维度、高度等。第三节点可以理解为基于第一节点的高度,通过平均池化操作对该第二节点的维度进行调整后获得的节点。
其中,更新第一节点可以理解为对该隐变量特征图进行加权处理所获得的加权特征图。该更新第三节点可以理解为对该隐变量特征图进行加权处理所获得的加权特征图。
沿用上例,本说明书提供的模型构建算法,为了统一相邻两层特征图的维度,首先用平均池化操作将每个细胞单元的特征图的高度(宽度),降至与相邻细胞单元的特征图的高度相同,再将特征图进行加权处理,转变为加权特征图,具体加权处理可以通过上述公式(5)实现,在将原始的特征图压缩为二维的矩阵后,基于压缩后的矩阵构建损失函数,即上述公式(6),从而通过第三损失函数进一步避免在搜索过程中存在不稳定的问题。
步骤308:基于所述初始损失函数确定所述初始预测模型的目标损失函数,基于所述目标损失函数确定所述第一类型连接边的权重信息。
具体的,本说明书提供的模型构建方法,基于该初始损失函数确定初始预测模型的目标损失函数,并基于该目标损失函数以及该初始预测模型的预测结果,确定该初始预测模型中第一类型连接边的权重信息。
在本说明书提供的一实施例中,所述基于所述初始损失函数确定所述初始预测模型的目标损失函数,包括:
基于所述第一损失函数、所述第二损失函数以及所述第三损失函数,确定所述初始预测模型的目标损失函数。
具体的,将第一损失函数、第二损失函数以及第三损失函数进行加权求和,即可获取初始预测模型的目标损失函数,从而通过多种损失函数,避免在搜索过程中存在不稳定的问题。例如,将三个子损失函数进行加权求和:
Figure BDA0003733309330000141
即可获得最终的损失函数,其中α和β是调节重要性的超参数,
基于此,在确定该初始预测模型的目标损失函数之后,能够基于该目标损失函数对该预测结果进行反向传播,即可确定初始预测模型中第一类型连接边的权重信息。
步骤310:基于所述权重信息对所述初始预测模型进行调整,获得目标预测模型。
具体的,所述基于所述权重信息对所述初始预测模型进行调整,获得目标预测模型,包括:
基于所述权重信息从所述第一类型连接边中选择目标第一类型连接边,并将所述目标第一类型连接边所连接的所述网络结构单元确定为目标网络结构单元;
基于所述目标第一类型连接边以及所述目标网络结构单元,构建目标预测模型。
沿用上例,在确定权重信息之后,能够将该权重信息最大的边确定为对预测结果贡献最大的边,并确定该贡献最大的边所对应的细胞单元,之后,从超网中选择该贡献最大的边所对应的细胞单元,构建最终的时序神经网络模型,从而避免了人工手动设计神经网络结构的过程中,需要耗费大量人力资源与计算资源的问题。
进一步的,在本说明书提供的实施例中,所述基于所述目标第一类型连接边以及所述目标网络结构单元,构建目标预测模型,包括:
确定所述目标网络结构单元中的至少两个节点,以及每个节点与其他节点之间相连接的第二类型连接边;
基于所述目标网络结构单元的初始损失函数,确定所述第二类型连接边的权重信息;
基于所述第二类型连接边的权重信息,对所述目标网络结构单元进行调整,获得调整后的目标网络结构单元;
基于所述目标第一类型连接边以及所述调整后的目标网络结构单元,构建目标预测模型。
沿用上例,在网络结构搜索的过程中,还需要针对每个细胞单元中的节点以及对应的边进行选择。在选择节点以及对应的边时,同样是基于每条边的权重。最后基于选择后的边以及对应的节点构成目标节点。
再进一步的,所述基于所述第二类型连接边的权重信息,对所述目标网络结构单元进行调整,获得调整后的目标网络结构单元,包括:
基于所述第二类型连接边的权重信息,从所述第二类型连接边中选择目标第二类型连接边;
将所述目标第二类型连接边所连接的节点确定为目标节点;
基于所述目标第二类型连接边以及所述目标节点对所述目标网络结构单元进行调整,获得调整后的目标网络结构单元。
沿用上例,在选择节点以及对应的边时,同样是基于每条边的权重。也即是说,需要从细胞单元中,选择出对该细胞单元的输出结果贡献最大的边,也即是权重最大的边,并选择该边以及对应的节点构成目标节点,后续能够基于该目标节点构建目标预测模型,从而避免了人工手动设计神经网络结构的过程中,需要耗费大量人力资源与计算资源的问题。
在本说明书提供的实施例中,在构建目标预测模型之后,还需要基于样本以及标签对该模型进行训练,从而获得能够进行事件序列预测的时序神经网络模型。具体的,所述基于所述权重信息对所述初始预测模型进行调整,获得目标预测模型之后,还包括:
基于所述训练样本以及所述样本标签对所述目标预测模型进行训练,获得训练完成的目标预测模型。
沿用上例,在构建完成时序神经网络模型之后,能够基于该训练样本以及训练标签,对该模型进行训练,直到该时序神经网络模型达到训练停止条件,获得能够准确进行事件序列预测的时序神经网络模型,其中,该训练停止条件可以根据实际应用场景进行设置,本说明书对此不作具体限定,例如,时序神经网络模型的损失函数达到收敛、针对时序神经网络模型执行完成预设轮数(比如500次)的训练。并且,需要注意的是,针对构建完成时序神经网络模型的训练方法,可以采用任意一种能够对时序神经网络模型进行训练的方法,本说明书对此不作具体限定,需要说明书的是,该针对该构建完成的时序神经网络模型的训练过程,可以参照上述图1对应的内容,本说明书对此不做具体限制。
本说明书提供的模型构建方法,通过训练样本和样本标签,确定包含至少两个网络结构单元,以及每个网络结构单元之间相连接的第一类型连接边的初始预测网络对应的目标损失函数,然后基于该目标损失函数确定该第一类型连接边的权重信息,并基于该权重信息自动的对该初始预测网络进行调整,从而完成目标预测模型的构建,从而避免了人工手动设计神经网络结构的过程中,需要耗费大量人力资源与计算资源的问题,从而达到节省人力资源与计算资源的目的。
图4示出了根据本说明书一个实施例提供的一种模型训练方法的流程图,具体包括以下步骤。
步骤402:确定目标预测模型的训练样本以及样本标签。
其中,所述目标预测模型为基于上述模型构建确定的目标预测模型。
步骤404:基于所述训练样本以及所述样本标签,对所述目标预测模型进行训练,直至达到训练停止条件,获得训练完成的目标预测模型。
其中,针对该步骤的解释,可以参见上述模型构建方法中对应的描述,本说明书对此不作具体限定。
例如,在构建完成时序神经网络模型之后,能够基于该训练样本以及训练标签,对该模型进行训练,直到该时序神经网络模型达到训练停止条件,获得能够准确进行事件序列预测的时序神经网络模型。
本说明书提供的模型训练方法中,通过训练样本以及样本标签对目标预测模型进行训练,从而获得训练完成的目标预测模型,从而后续能够通过该目标预测模型对事件序列进行处理所获得的预测结果,准确的对当前事件处理资源进行调整,避免了计算和服务请求数量大大增加,给服务器的调度及维护带来的困难和挑战,减少服务器事故的发生。
图5示出了根据本说明书一个实施例提供的一种资源处理方法的流程图,该资源处理方法应用于服务器,具体包括以下步骤。
步骤502:确定服务器的事件序列。
其中,所述事件序列基于所述服务器接收到的待处理请求确定。
步骤504:从所述事件序列中选择目标时间范围内的局部事件序列。
其中,所述目标时间范围基于当前时间确定。
步骤506:利用训练完成的目标预测模型对所述局部时间序列进行预测,获得预测结果,其中,所述训练完成的目标预测模型为上述模型训练方法中训练完成的目标预测模型。
步骤508:确定所述预测结果对应的事件处理资源参数,并基于所述事件处理资源参数,对所述服务器的当前事件处理资源进行调整,获得所述预测结果对应的事件处理资源。
其中,目标时间范围可以理解为当前时间之前预设时间范围区间。例如,当前时间的前一分钟、当前时间的前一小时等等。该局部事件序列为目标时间范围内接收到的服务器请求对应的事件。事件处理资源可以理解为服务器用于处理接收到的服务器请求的资源,包括但不限于存储资源、计算资源、各种类型的云服务器等等。事件处理资源参数可以理解为表征事件处理资源的数量、类型等信息的参数。
在实际应用中,为了避免服务器出现故障、事故等问题,可以通过训练完成的目标预测模型,预测未来的服务器请求类型及发生的时间,从而提前分析出云端哪些单元的压力可能会增大,进而提前做出预警,以减少事故的发生。
具体的,服务器首先确定服务器自身存储的事件序列,并从该事件序列中选择目标时间范围内的局部事件序列,之后利用训练完成的目标预测模型对局部时间序列进行预测,获得预测结果,最后确定预测结果对应的事件处理资源参数,并基于事件处理资源参数,对服务器的当前事件处理资源进行调整,获得预测结果对应的事件处理资源。
例如,该服务器确定自身存储的、通过历史接收到的服务器请求确定的事件序列,并从该事件序列中选择一小时前接收到的服务器请求对应的事件,并将该事件输入至训练后的时序神经网络模型进行事件序列预测,获得预测结果。通过该预测结果能够确定接下来服务器会接收到的请求类型以及接收时间等请求信息,基于此,该服务器计算出处理该请求信息对应的服务器请求所需的资源,并基于该资源对当前服务器的存储资源、计算资源、云服务器数量、云服务类型进行调整,获得能够稳定的、对接下来接收到的服务器请求进行处理的处理资源,从而减少事故的发生。
本说明书提供的资源处理方法,利用目标预测模型对事件序列进行处理,获得预测结果,并基于该预测结果对应的事件处理资源参数,对服务器的当前事件处理资源进行调整,获得预测结果对应的事件处理资源,使得服务器后续能够基于调整后的事件处理资源对后续请求进行处理,避免了计算和服务请求数量大大增加,给服务器的调度及维护带来的困难和挑战,减少服务器事故的发生。
与上述方法实施例相对应,本说明书还提供了模型构建装置实施例,该装置包括:
第一确定模块,被配置为确定初始预测模型以及所述初始预测模型对应的训练样本和样本标签,其中,所述训练样本为历史事件序列,所述样本标签为所述历史事件序列的事件类型;
第二确定模块,被配置为确定所述初始预测模型中的至少两个网络结构单元,以及每个网络结构单元与其他网络结构单元之间相连接的第一类型连接边;
函数确定模块,被配置为基于所述训练样本和所述样本标签,确定所述每个网络结构单元的初始损失函数;
权重确定模块,被配置为基于所述初始损失函数确定所述初始预测模型的目标损失函数,基于所述目标损失函数确定所述第一类型连接边的权重信息;
模型调整模块,被配置为基于所述权重信息对所述初始预测模型进行调整,获得目标预测模型。
可选地,所述模型构建装置还包括模型训练模块,被配置为:
基于所述训练样本以及所述样本标签对所述目标预测模型进行训练,获得训练完成的目标预测模型。
可选地,所述模型调整模块,还被配置为:
基于所述权重信息从所述第一类型连接边中选择目标第一类型连接边,并将所述目标第一类型连接边所连接的所述网络结构单元确定为目标网络结构单元;
基于所述目标第一类型连接边以及所述目标网络结构单元,构建目标预测模型。
可选地,所述模型调整模块,还被配置为:
确定所述目标网络结构单元中的至少两个节点,以及每个节点与其他节点之间相连接的第二类型连接边;
基于所述目标网络结构单元的初始损失函数,确定所述第二类型连接边的权重信息;
基于所述第二类型连接边的权重信息,对所述目标网络结构单元进行调整,获得调整后的目标网络结构单元;
基于所述目标第一类型连接边以及所述调整后的目标网络结构单元,构建目标预测模型。
可选地,所述模型调整模块,还被配置为:
基于所述第二类型连接边的权重信息,从所述第二类型连接边中选择目标第二类型连接边;
将所述目标第二类型连接边所连接的节点确定为目标节点;
基于所述目标第二类型连接边以及所述目标节点对所述目标网络结构单元进行调整,获得调整后的目标网络结构单元。
可选地,所述函数确定模块,还被配置为:
利用所述至少两个网络结构单元对所述训练样本进行处理,获得所述每个网络结构单元输出的预测结果;
基于所述预测结果以及所述样本标签,确定所述每个网络结构单元的初始损失函数。
可选地,所述函数确定模块,还被配置为:
基于所述每个网络结构单元输出的预测结果以及所述样本标签,确定所述每个网络结构单元的第一损失函数;
确定所述每个网络结构单元对应的相邻网络结构单元,并根据所述每个网络结构单元的预测结果,以及所述相邻网络结构单元的预测结果,确定所述每个网络结构单元的第二损失函数;
根据所述每个网络结构单元中的第一节点,以及所述相邻网络结构单元的第二节点,确定所述每个网络结构单元的第三损失函数;
将所述第一损失函数、所述第二损失函数和/或所述第三损失函数确定为初始损失函数。
可选地,所述权重确定模块,还被配置为:
基于所述第一损失函数、所述第二损失函数以及所述第三损失函数,确定所述初始预测模型的目标损失函数。
可选地,所述函数确定模块,还被配置为:
基于所述每个网络结构单元的预测结果以及预设计算参数,确定所述预测结果的概率分布;
根据所述每个网络结构单元的预测结果的概率分布,以及所述相邻网络结构单元的预测结果的概率分布,确定所述每个网络结构单元的第二损失函数。
可选地,所述函数确定模块,还被配置为:
确定所述每个网络结构单元中的第一节点的节点结构,并基于所述节点结构对所述相邻网络结构单元的第二节点进行调整,获得第三节点;
对所述第一节点进行加权处理,获得更新第一节点,以及对所述第三节点进行加权处理,获得更新第三节点;
基于所述更新第一节点以及所述更新第三节点,确定所述每个网络结构单元的第三损失函数。
本说明书一实施例提供的模型构建装置,通过训练样本和样本标签,确定包含至少两个网络结构单元,以及每个网络结构单元之间相连接的第一类型连接边的初始预测网络对应的目标损失函数,然后基于该目标损失函数确定该第一类型连接边的权重信息,并基于该权重信息自动的对该初始预测网络进行调整,从而完成目标预测模型的构建,从而避免了人工手动设计神经网络结构的过程中,需要耗费大量人力资源与计算资源的问题,从而达到节省人力资源与计算资源的目的。
上述为本实施例的一种模型构建装置的示意性方案。需要说明的是,该模型构建装置的技术方案与上述的模型构建方法的技术方案属于同一构思,模型构建装置的技术方案未详细描述的细节内容,均可以参见上述模型构建方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了模型训练装置实施例,该装置包括:
确定模块,被配置为确定目标预测模型的训练样本以及样本标签,其中,所述目标预测模型为上述一种模型构建方法确定的目标预测模型;
训练模块,被配置为基于所述训练样本以及所述样本标签,对所述目标预测模型进行训练,直至达到训练停止条件,获得训练完成的目标预测模型。
本说明书一实施例提供的模型构建装置,通过训练样本以及样本标签对所述目标预测模型进行训练,从而获得训练完成的目标预测模型,从而后续能够通过该目标预测模型对事件序列进行处理所获得的预测结果,准确的对当前事件处理资源进行调整,避免了计算和服务请求数量大大增加,给服务器的调度及维护带来的困难和挑战,减少服务器事故的发生。
上述为本实施例的一种模型训练装置的示意性方案。需要说明的是,该模型训练装置的技术方案与上述的模型训练方法的技术方案属于同一构思,模型训练装置的技术方案未详细描述的细节内容,均可以参见上述模型训练方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了一种资源处理装置,应用于服务器,包括:
确定模块,被配置为确定服务器的事件序列,其中,所述事件序列基于所述服务器接收到的待处理请求确定;
选择模块,被配置为从所述事件序列中选择目标时间范围内的局部事件序列,其中,所述目标时间范围基于当前时间确定;
预测模块,被配置为利用训练完成的目标预测模型对所述局部时间序列进行预测,获得预测结果,其中,所述训练完成的目标预测模型为上述模型训练方法中训练完成的目标预测模型;
资源调整模块,被配置为确定所述预测结果对应的事件处理资源参数,并基于所述事件处理资源参数,对所述服务器的当前事件处理资源进行调整,获得所述预测结果对应的事件处理资源。
本说明书一实施例提供的资源处理装置,利用目标预测模型对事件序列进行处理,获得预测结果,并基于该预测结果对应的事件处理资源参数,对服务器的当前事件处理资源进行调整,获得预测结果对应的事件处理资源,使得服务器后续能够基于调整后的事件处理资源对后续请求进行处理,避免了计算和服务请求数量大大增加,给服务器的调度及维护带来的困难和挑战,减少服务器事故的发生。
上述为本实施例的一种资源处理装置的示意性方案。需要说明的是,该资源处理装置的技术方案与上述的资源处理方法的技术方案属于同一构思,资源处理装置的技术方案未详细描述的细节内容,均可以参见上述资源处理方法的技术方案的描述。
图6示出了根据本说明书一个实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
其中,处理器620用于执行如下计算机可执行指令,该计算机可执行指令被处理器620执行时实现上述模型构建方法、所述模型训练方法或所述资源处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的模型构建方法、所述模型训练方法或所述资源处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述模型构建方法、所述模型训练方法或所述资源处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述模型构建方法、所述模型训练方法或所述资源处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的模型构建方法、所述模型训练方法或所述资源处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述模型构建方法、所述模型训练方法或所述资源处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述模型构建方法、所述模型训练方法或所述资源处理方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的模型构建方法、所述模型训练方法或所述资源处理方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述模型构建方法、所述模型训练方法或所述资源处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种模型构建方法,包括:
确定初始预测模型以及所述初始预测模型对应的训练样本和样本标签,其中,所述训练样本为历史事件序列,所述样本标签为所述历史事件序列的事件类型;
确定所述初始预测模型中的至少两个网络结构单元,以及每个网络结构单元与其他网络结构单元之间相连接的第一类型连接边;
基于所述训练样本和所述样本标签,确定所述每个网络结构单元的初始损失函数;
基于所述初始损失函数确定所述初始预测模型的目标损失函数,基于所述目标损失函数确定所述第一类型连接边的权重信息;
基于所述权重信息对所述初始预测模型进行调整,获得目标预测模型。
2.根据权利要求1所述的模型构建方法,所述基于所述权重信息对所述初始预测模型进行调整,获得目标预测模型之后,还包括:
基于所述训练样本以及所述样本标签对所述目标预测模型进行训练,获得训练完成的目标预测模型。
3.根据权利要求1所述的模型构建方法,所述基于所述权重信息对所述初始预测模型进行调整,获得目标预测模型,包括:
基于所述权重信息从所述第一类型连接边中选择目标第一类型连接边,并将所述目标第一类型连接边所连接的所述网络结构单元确定为目标网络结构单元;
基于所述目标第一类型连接边以及所述目标网络结构单元,构建目标预测模型。
4.根据权利要求3所述的模型构建方法,所述基于所述目标第一类型连接边以及所述目标网络结构单元,构建目标预测模型,包括:
确定所述目标网络结构单元中的至少两个节点,以及每个节点与其他节点之间相连接的第二类型连接边;
基于所述目标网络结构单元的初始损失函数,确定所述第二类型连接边的权重信息;
基于所述第二类型连接边的权重信息,对所述目标网络结构单元进行调整,获得调整后的目标网络结构单元;
基于所述目标第一类型连接边以及所述调整后的目标网络结构单元,构建目标预测模型。
5.根据权利要求4所述的模型构建方法,所述基于所述第二类型连接边的权重信息,对所述目标网络结构单元进行调整,获得调整后的目标网络结构单元,包括:
基于所述第二类型连接边的权重信息,从所述第二类型连接边中选择目标第二类型连接边;
将所述目标第二类型连接边所连接的节点确定为目标节点;
基于所述目标第二类型连接边以及所述目标节点对所述目标网络结构单元进行调整,获得调整后的目标网络结构单元。
6.根据权利要求1所述的模型构建方法,所述基于所述训练样本和所述样本标签,确定所述每个网络结构单元的初始损失函数,包括:
利用所述至少两个网络结构单元对所述训练样本进行处理,获得所述每个网络结构单元输出的预测结果;
基于所述预测结果以及所述样本标签,确定所述每个网络结构单元的初始损失函数。
7.根据权利要求6所述的模型构建方法,所述基于所述预测结果以及所述样本标签,确定所述每个网络结构单元的初始损失函数,包括:
基于所述每个网络结构单元输出的预测结果以及所述样本标签,确定所述每个网络结构单元的第一损失函数;
确定所述每个网络结构单元对应的相邻网络结构单元,并根据所述每个网络结构单元的预测结果,以及所述相邻网络结构单元的预测结果,确定所述每个网络结构单元的第二损失函数;
根据所述每个网络结构单元中的第一节点,以及所述相邻网络结构单元的第二节点,确定所述每个网络结构单元的第三损失函数;
将所述第一损失函数、所述第二损失函数和/或所述第三损失函数确定为初始损失函数。
8.根据权利要求7所述的模型构建方法,所述基于所述初始损失函数确定所述初始预测模型的目标损失函数,包括:
基于所述第一损失函数、所述第二损失函数以及所述第三损失函数,确定所述初始预测模型的目标损失函数。
9.根据权利要求7所述的模型构建方法,所述根据所述每个网络结构单元的预测结果,以及所述相邻网络结构单元的预测结果,确定所述每个网络结构单元的第二损失函数,包括:
基于所述每个网络结构单元的预测结果以及预设计算参数,确定所述预测结果的概率分布;
根据所述每个网络结构单元的预测结果的概率分布,以及所述相邻网络结构单元的预测结果的概率分布,确定所述每个网络结构单元的第二损失函数。
10.根据权利要求7所述的模型构建方法,所述根据所述每个网络结构单元中的第一节点,以及所述相邻网络结构单元的第二节点,确定所述每个网络结构单元的第三损失函数,包括:
确定所述每个网络结构单元中的第一节点的节点结构,并基于所述节点结构对所述相邻网络结构单元的第二节点进行调整,获得第三节点;
对所述第一节点进行加权处理,获得更新第一节点,以及对所述第三节点进行加权处理,获得更新第三节点;
基于所述更新第一节点以及所述更新第三节点,确定所述每个网络结构单元的第三损失函数。
11.一种模型训练方法,包括:
确定目标预测模型的训练样本以及样本标签,其中,所述目标预测模型为基于上述权利要求1至10确定的目标预测模型;
基于所述训练样本以及所述样本标签,对所述目标预测模型进行训练,直至达到训练停止条件,获得训练完成的目标预测模型。
12.一种资源处理方法,应用于服务器,包括:
确定服务器的事件序列,其中,所述事件序列基于所述服务器接收到的待处理请求确定;
从所述事件序列中选择目标时间范围内的局部事件序列,其中,所述目标时间范围基于当前时间确定;
利用训练完成的目标预测模型对所述局部时间序列进行预测,获得预测结果,其中,所述训练完成的目标预测模型为上述权利要求11中训练完成的目标预测模型;
确定所述预测结果对应的事件处理资源参数,并基于所述事件处理资源参数,对所述服务器的当前事件处理资源进行调整,获得所述预测结果对应的事件处理资源。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述模型构建方法、权利要求11所述的模型训练方法、或权利要求12所述的资源处理方法的步骤。
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述模型构建方法、权利要求11所述的模型训练方法、或权利要求12所述的资源处理方法的步骤。
CN202210789545.XA 2022-07-06 2022-07-06 模型构建方法 Pending CN115238775A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210789545.XA CN115238775A (zh) 2022-07-06 2022-07-06 模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210789545.XA CN115238775A (zh) 2022-07-06 2022-07-06 模型构建方法

Publications (1)

Publication Number Publication Date
CN115238775A true CN115238775A (zh) 2022-10-25

Family

ID=83671340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210789545.XA Pending CN115238775A (zh) 2022-07-06 2022-07-06 模型构建方法

Country Status (1)

Country Link
CN (1) CN115238775A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684480A (zh) * 2023-07-28 2023-09-01 支付宝(杭州)信息技术有限公司 信息推送模型的确定及信息推送的方法及装置
CN117743859A (zh) * 2024-02-21 2024-03-22 北京航空航天大学 工业分析模型的训练方法、使用方法及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684480A (zh) * 2023-07-28 2023-09-01 支付宝(杭州)信息技术有限公司 信息推送模型的确定及信息推送的方法及装置
CN116684480B (zh) * 2023-07-28 2023-10-31 支付宝(杭州)信息技术有限公司 信息推送模型的确定及信息推送的方法及装置
CN117743859A (zh) * 2024-02-21 2024-03-22 北京航空航天大学 工业分析模型的训练方法、使用方法及介质

Similar Documents

Publication Publication Date Title
EP3805999A1 (en) Resource-aware automatic machine learning system
CN113361680B (zh) 一种神经网络架构搜索方法、装置、设备及介质
CN115238775A (zh) 模型构建方法
Ludwig Jr et al. Applications of information theory, genetic algorithms, and neural models to predict oil flow
Nguyen et al. Multivariate LSTM-based location-aware workload prediction for edge data centers
Xu et al. A mixture of HMM, GA, and Elman network for load prediction in cloud-oriented data centers
WO2022252694A1 (zh) 神经网络优化方法及其装置
Bi et al. Large-scale network traffic prediction with LSTM and temporal convolutional networks
CN116109004A (zh) 一种绝缘子泄漏电流的预测方法、装置、设备及介质
Guo et al. Applying gated recurrent units pproaches for workload prediction
CN115080795A (zh) 一种多充电站协同负荷预测方法及装置
Song et al. Personalized federated learning with server-side information
Xu et al. Multi‐Dimensional Attention Based Spatial‐Temporal Networks for Traffic Forecasting
CN116341634B (zh) 神经结构搜索模型的训练方法、装置及电子设备
CN115499511B (zh) 一种基于时空图神经网络负载预测的微服务主动伸缩方法
CN116976461A (zh) 联邦学习方法、装置、设备及介质
He A Survey on Time Series Forecasting
CN114916013B (zh) 基于车辆轨迹预测的边缘任务卸载时延优化方法、系统及介质
Emami et al. Rc-tl: Reinforcement convolutional transfer learning for large-scale trajectory prediction
Feng et al. AGCN‐T: A Traffic Flow Prediction Model for Spatial‐Temporal Network Dynamics
CN114124554B (zh) 一种虚拟网络服务链吞吐量预测方法
CN115081609A (zh) 一种智能决策中的加速方法、终端设备及存储介质
CN115907000A (zh) 一种用于电力系统最优潮流预测的小样本学习方法
CN115034507A (zh) 一种充电桩的电力负荷预测方法及相关组件
Yaqub et al. Predicting Traffic Flow with Federated Learning and Graph Neural with Asynchronous Computations Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination