CN106570597B - 一种sdn架构下基于深度学习的内容流行度预测方法 - Google Patents

一种sdn架构下基于深度学习的内容流行度预测方法 Download PDF

Info

Publication number
CN106570597B
CN106570597B CN201611000381.9A CN201611000381A CN106570597B CN 106570597 B CN106570597 B CN 106570597B CN 201611000381 A CN201611000381 A CN 201611000381A CN 106570597 B CN106570597 B CN 106570597B
Authority
CN
China
Prior art keywords
sdn
content
layer
time
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611000381.9A
Other languages
English (en)
Other versions
CN106570597A (zh
Inventor
刘外喜
彭凌西
蔡君
唐润华
刘贵云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN201611000381.9A priority Critical patent/CN106570597B/zh
Publication of CN106570597A publication Critical patent/CN106570597A/zh
Application granted granted Critical
Publication of CN106570597B publication Critical patent/CN106570597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Neurology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种SDN架构下基于深度学习的内容流行度预测方法,包括:利用SDN网络中各节点计算资源以及链路构建可重构、分布式深度学习网络,SDN网络具有SDN控制器和多个SDN交换机节点,每个SDN交换机实现若干神经元的计算功能,神经元之间通过SDN交换机的链路彼此连接;SDN网络中的各个节点实时地采集内容被请求的时空联合分布的数据并作为深度学习网络的输入,利用栈式自编码器对时空联合分布的数据进行特征学习,利用Softmax分类器对内容流行度进行预测。本发明基于SDN的可编程、全局视野集中控制的特性,实现深度学习网络的可重构,包括能够调整隐含层和每层神经元节点的数量等;所述方法对ICN的解析系统非常关键,也可帮助其中的动态路由和缓存的决策。

Description

一种SDN架构下基于深度学习的内容流行度预测方法
技术领域
本发明涉及一种内容流行度预测方法,尤其是一种SDN架构下基于深度学习的内容流行度预测方法。属于软件定义网络和深度学习技术领域。
背景技术
目前,对于内容流行度的研究,主要集中在对微博/Twitter等社交网络中的主题(topic)的流行度预测。内容流行度可以从空间的角度(传播范围)衡量,也可以从时间的角度(传播周期)衡量。从模型角度看,目前,微博信息流行度预测的研究方法以基于传染病模型和分类或回归模型的预测方法为主。对于传染病模型,源于早期信息扩散理论,其主要包括羊群效应、信息级联、创新扩散理论以及传染病模型(Zafarani R,Abbasi M A,LiuH.Social media mining:an introduction[M].Cambridge University Press,2014.),其中以传染病模型和信息级联模型最为典型。而对于分类或回归模型,将待预测的微博信息表示成一组基于影响因素的特征,把微博信息流行度预测问题转化为分类(Hong L,Dan O,Davison B D.Predicting popular messages in twitter[C]//Proceedings of the20th international conference companion on World wide web.ACM,2011:57-58)或者回归问题(Bakshy E,Hofman J M,Mason W A,et al.Everyone's an influencer:quantifying influence on twitter[C]//Proceedings of the fourth ACMinternational conference on Web search and data mining.ACM,2011:65-74),通过大量的已知数据训练出机器学习模型对未知信息进行预测。
然而,当前方法所依赖的数据不是全局视野的,也无法捕获到预测目标对象的时空联合分布特征,所以,预测的准确度不理想。
发明内容
本发明的目的是为了克服上述现有技术的缺陷,提供了一种SDN架构下基于深度学习的内容流行度预测方法,该方法预测内容流行度的准确率高,所预测的内容流行度不仅对ICN(Information-centric networking,信息中心网络)的解析系统非常关键,也可以帮助动态路由决策、动态路由决策、ICN进行缓存决策。
本发明的目的可以通过采取如下技术方案达到:
一种SDN架构下基于深度学习的内容流行度预测方法,所述方法包括:
S1、利用SDN网络中各节点计算资源以及链路构建可重构、分布式深度学习网络;其中,所述SDN网络具有SDN控制器和多个SDN交换机,每个SDN交换机构成SDN网络中的一个节点,每个SDN交换机贡献小部分资源实现若干神经元的计算功能,神经元之间通过SDN交换机的链路彼此连接;
S2、SDN网络中的各个节点实时地采集内容被请求的时空联合分布的数据并作为深度学习网络的输入,在底层利用栈式自编码器对时空联合分布的数据进行特征学习,在顶层利用Softmax分类器对内容流行度进行预测;其中,所述栈式自编码器由若干个自编码器堆叠在一起形成,每个自编码器具有一个输入层、一个隐藏层和一个输出层。
进一步的,所述利用Softmax分类器对内容流行度进行预测是指将内容流行度离散化为c类,将内容流行度的预测转化为c类的分类问题,利用Softmax分类器输出c个结果实现对内容流行度的预测。
进一步的,步骤S2中,所述在底层利用栈式自编码器对时空联合分布的数据进行特征学习,在顶层利用Softmax分类器对内容流行度进行预测,采用分布式协同内容流行度预测算法实现;
对于给定的训练集X,假设隐藏层神经元数量为l,所述分布式协同内容流行度预测算法如下:
S201、栈式自编码器的预训练
S2011、设定稀疏权重γ以及稀疏参数ρ,同时,随机地初始化权重矩阵w1和偏移向量b1
S2012、通过贪心逐层算法自底向上训练隐藏层参数;
S2013、在隐藏层,用第k层的输出作为第(k+1)层的输入;其中,原始的训练集X是第l层的输入;
S2014、重复进行步骤S2011~S2013,通过实现目标函数的最小化,为第(k+1)层找到参数
Figure BDA0001152366460000021
其中,w1是神经元之间连接的权重矩阵,b1是编码的偏移向量,
Figure BDA0001152366460000022
分别表示第(k+1)层的w1和b1
S202、栈式自编码器网络的精调
S2021、经过预训练后,获得初始化参数
Figure BDA0001152366460000023
S2022、使用基于梯度下降的BP算法自顶向下修正整个网络的初始化参数
Figure BDA0001152366460000024
S203、内容流行度预测
S2031、初始化输入层神经元的数量inputSize和输出分类的数量c,以及权重衰减因子λ;
S2032、计算带有权重衰减因子λ的Softmax代价函数J(θ);
S2033、在训练Softmax预测模型之前进行梯度检验;
S2034、从带标签的训练数据集中提取通过栈式自编码器学习到的特征,基于这些提取特征的L-BFGS算法,通过带标签数据集训练Softmax预测模型;
S2035、训练好的Softmax回归层即为测试数据集输出分类预测结果,从而实现对内容流行度的预测。
进一步的,以v分钟为一个时间片,1年被划分为(365*24*60)/v个时间片;在步骤S2的预测过程中,以时隙为基本单位,一个时隙由k个时间片组成,1<k<12;采集数据时,各个神经元一个时隙统计一次SDN网络中的参数;根据时隙的值计算出本次时隙统计时所在的当地时间;
采用一个时空联合分布的过程来描述内容的请求过程,具体为:在第t个时隙中,SDN网络中某个节点i的内容请求到达的数量,用r(t,i)表示;然后计算持续传播时间,持续传播时间是指内容自发布时开始到一个时隙内请求数量小于ε*num_max为止的时间间隔;其中,num_max是一个时隙内请求数量的最大值,ε取0.1~0.2。
进一步的,所述自编码器可将一个多维度的数据集{x(1),x(2),…}映射到另一个数据集{z(1),z(2),…};其中,x(i)∈Rd,z的维度低于x的维度,并且能够从z重构出x;
自编码器将前一次的输出作为本次的输入,如此不断重复:根据下式(1)对x(i)进行编码,用隐藏层z(x(i))表示编码结果,再根据下式(2)对z(x(i))进行解码获得
Figure BDA0001152366460000031
z(i)=f(w1x(i)+b1) (1)
Figure BDA0001152366460000032
其中,w1是神经元之间连接的权重矩阵,b1是编码的偏移向量;w2是解码矩阵,b2是解码的偏移向量;函数f(x)和g(x)为1/(1+exp(-x));
Figure BDA0001152366460000033
和x(i)之间的差值平方和J(w1,b1,w2,b2)作为优化的目标函数:
Figure BDA0001152366460000041
通过最小化J(w1,b1,w2,b2)获得栈式自编码器模型的参数θ,即w1,b1,w2,b2
进一步的,将稀疏的约束条件加到J(w1,b1,w2,b2)中,在自编码器的基础上实现稀疏自编码器,在隐含层实现对上一级输入的稀疏表示,那么优化目标函数就变为如下形式,然后通过反向传播算法解出其最优解:
Figure BDA0001152366460000042
其中,γ是权重,HD是隐藏层神经元的数量,ρ是一个约等于0的稀疏调节参数,
Figure BDA0001152366460000043
是k个隐藏层神经元在训练集中的平均值,
Figure BDA0001152366460000044
是KL散度,当
Figure BDA0001152366460000045
时,
Figure BDA0001152366460000046
的定义为:
Figure BDA0001152366460000047
进一步的,所述SDN交换机采集的数据作为栈式自编码器模型的输入,设SDN网络中有q个节点,其中n个节点用于构建深度学习网络,每个节点上虚拟出m个神经元,分别用于采集以下m种参数的数据:
1)第t个时隙中所有内容被请求的数量(request_total(t));
2)第t个时隙中内容o被请求的数量(request_num(o,t));
3)第t个时隙中内容类别的熵(request_entropy(t));
内容o的发布者(publisher(o))、内容o的类型(type(o))对于SDN网络中所有节点都是一样的;
假设节点采集了当前时隙之前的r个时隙的历史数据,系统的输入维度是n*r*m+2,即在输入层需要n*r*m+2个神经元;当n>1时,n个节点是实际网络中相连的节点,节点采集的数据蕴含了内容流行度的空间相关性;当r>1时,节点采集的数据蕴含了内容流行度的时间相关性;系统的输出维度为c,若预测当前时隙后s个时隙的流行度,则输出维度是c*s。
进一步的,步骤S1中,所述神经元之间通过SDN交换机的链路彼此连接,具体为:
SDN交换机利用Openflow流表中的Proactive模式实现神经元之间的连接,即,SDN控制器制定好Openflow的流表,然后下发到SDN交换机中。
进一步的,所述深度学习模型的重构,具体为:
SDN控制器修改Openflow流表,并重新下发到SDN交换机,完成神经元之间的连接关系的调整,实现调整隐含层和每层神经元节点的数量。
进一步的,所述SDN网络中,一个SDN控制器负责管理一个区域内SDN交换机的Openflow流表,一个SDN控制器部署一个Softmax分类器,即,一个区域内的SDN控制器负责输出该区域内的内容流行度的预测结果;当要预测多个区域内甚至是全网内的内容流行度时,则需要多个SDN控制器之间的协同,多个SDN控制器组成了一个扁平或层次式的分布式控制器结构。
本发明相对于现有技术具有如下的有益效果:
1、本发明方法将深度学习网络的计算功能分散到SDN网络节点中,每个交换机贡献小部分资源实现若干神经元的计算功能,神经元之间通过交换机的链路彼此连接,从而构建深度学习网络,基于SDN网络的可编程特性,利用SDN控制器在全局视野上对网络的控制能力,实现深度学习网络的可重构,包括隐含层数量、每层神经元节点数量的调整,预测机制基本架构是SAE+Softmax分类器,在底层利用栈式自编码器SAE对时空联合分布的数据进行特征学习,在顶层将内容流行度离散化为c类,将内容流行度的预测转化为c类的分类问题,利用Softmax分类器输出c个结果实现对内容流行度的预测,所预测的内容流行度不仅对ICN的解析系统非常关键,也可以帮助动态路由决策、ICN进行缓存决策,由于通过对全局视野的、时空联合分布的数据进行特征学习,可以更准确地预测内容流行度。
2、本发明方法采用分布式协同内容流行度预测算法实现,与已有的单点或多点协同监测的预测算法相比,一方面,多个SDN交换机分布式地采集目标内容被请求的数据,这些数据具有时空联合分布的特征,基于此可以发现内容的流行度规律,也不会漏掉内容流行规律的微小变化;另一方面,具有全局视野的SDN控制器能够控制所属节点采集到数据的特征也是全局视野的。
3、本发明方法与BP神经网络及其他方法相比,一方面,内容流行度变化是一个连续的过程,在一个内容流行度的时间序列中,样本点之间存在很强的相关性;同时,多个内容的序列之间也存在着很强的相关性。而深度学习利用多隐层的神经网络可以从无标签的数据中学习到能刻画数据本质的特征,能够学习到序列之间内在的函数关系,包括复杂的非线性映射关系;另一方面,SDN网络节点众多,具有全局视野的SDN控制器可以根据需要构建出隐含层数量任意多、每层神经元节点数量任意多的深度学习网络,实现重构。
附图说明
图1为本发明实施例的SDN架构示意图。
图2为本发明实施例的预测机制基本架构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种内容流行度预测方法,该方法以SDN为基础架构,包括以下步骤:
步骤一、在SDN网络中部署深度学习网络
SDN是一种新型网络创新架构,其将网络设备控制面与数据面分离开来,通过OpenFlow协议实现控制面对数据面的集中控制,从而实现了网络流量的灵活控制。
如图1所示,SDN网络具有SDN控制器和多个SDN交换机,每个SDN交换机是SDN网络中的一个节点,将深度学习网络的计算功能分散到SDN网络节点中,每个SDN交换机贡献小部分资源实现若干神经元的计算功能,神经元之间通过SDN交换机的链路彼此连接,从而构建可重构、分布式深度学习网络。
步骤二、内容流行度预测
本实施例的内容流行度是指:SDN架构下ICN中内容块的流行度,即用户在网络层对内容块请求的持续传播时间,所以实际上,本实施例预测的是内容的被请求次数.内容流行度预测不仅对ICN的解析系统非常关键,也可以帮助动态路由决策、ICN进行缓存决策。
ICN是另外一种新型网络创新架构,其是各种以信息为中心的网络架构的统称,具有“基于全网缓存的信息分发模式”、“内在地支持移动性”、“内在的安全机制”等特点。
SDN网络中的各个节点实时地采集内容被请求的时空联合分布的数据并作为深度学习网络的输入,如图2所示,本实施例的预测机制基本架构是SAE+Softmax分类器,在底层利用栈式自编码器(SAE,Stacked Auto-Encoder)对时空联合分布的数据进行特征学习,在顶层利用Softmax分类器对内容流行度进行预测,利用Softmax分类器对内容流行度进行预测是指将内容流行度离散化为c类,将内容流行度的预测转化为c类的分类问题,利用Softmax分类器输出c个结果实现对内容流行度的预测;其中,所述栈式自编码器由若干个自编码器堆叠在一起形成,每个自编码器具有一个输入层、一个隐藏层和一个输出层。
深度学习模型中的自编码器(Auto-Encoder)采用了“自下而上的无监督学习”和“自顶向下的监督学习”策略来实现对网络的“预训练”和“微调”,可使学习算法收敛到较为理想的解上;深度学习最具吸引力的地方还在于能凭借无标签的数据来进行学习,而不需要依赖于监督信息的支撑;深度学习系统由包括输入层、隐层(多层)、输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接(参见文献《焦李成,神经网络七十年:回顾与展望,计算机学报,2016》)。
所述在底层利用栈式自编码器对时空联合分布的数据进行特征学习,在顶层利用Softmax分类器对内容流行度进行预测,采用分布式协同内容流行度预测(Deep-Learning-based Content Popularity Prediction,DLCPP)算法实现;
对于给定的训练集X,假设隐藏层神经元数量为l,分布式协同内容流行度预测算法如下:
1)栈式自编码器的预训练
1-1)设定稀疏权重γ以及稀疏参数ρ,同时,随机地初始化权重矩阵w1和偏移向量b1
1-2)通过贪心逐层(Greedy layerwise)算法自底向上训练隐藏层参数;
1-3)在隐藏层,用第k层的输出作为第(k+1)层的输入;其中,原始的训练集X是第l层的输入;
1-4)重复进行步骤1-1)~1-3),通过实现目标函数的最小化,为第(k+1)层找到参数
Figure BDA0001152366460000071
其中,w1是神经元之间连接的权重矩阵,b1是编码的偏移向量,
Figure BDA0001152366460000072
分别表示第(k+1)层的w1和b1
Figure BDA0001152366460000073
表示从k=0到k=l-1;
2)栈式自编码器网络的精调
2-1)经过预训练后,获得初始化参数
Figure BDA0001152366460000074
2-2)使用基于梯度下降的BP(Error Back Propagation)算法自顶向下修正整个网络的初始化参数
Figure BDA0001152366460000075
3)内容流行度预测
3-1)初始化输入层神经元的数量inputSize和输出分类的数量c,以及权重衰减(weight decay)因子λ;
3-2)计算带有权重衰减因子λ的Softmax代价函数J(θ);
3-3)在训练Softmax预测模型之前进行梯度检验;
3-4)从带标签的训练数据集中提取通过栈式自编码器学习到的特征,基于这些提取特征的L-BFGS(Limited-Memory BFGS)算法,通过带标签数据集训练Softmax预测模型;
3-5)训练好的Softmax回归层即为测试数据集输出分类预测结果,从而实现对内容流行度的预测。
A、相关约定
研究表明,内容的流行度与其发布的时间是相关的,也与被请求的时间有关。本实施例以10分钟为一个时间片,把1年的时间切分为52560个时间片;在上述的预测过程中,以时隙为基本单位,一个时隙由k个时间片组成,1<k<12,即,每个时隙为10分钟-2小时;采集数据时,各个神经元一个时隙统计一次SDN网络中的参数;根据时隙的值计算出本次时隙统计时所在的当地时间,那么,季节、白天/夜间、节假日/工作日等影响内容流行度的时间维度的因素都可被涵盖。
采用一个时空联合分布的过程来描述内容的请求过程,具体为:预测在第t个时隙中,SDN网络中节点i的内容请求到达的数量,用r(t,i)表示;然后计算持续传播时间,持续传播时间是指内容自发布时开始到一个时隙内请求数量小于ε*num_max为止的时间间隔;其中,num_max是一个时隙内请求数量的最大值,ε一般取0.1~0.2。
B、自编码器
自编码器可将一个多维度的数据集{x(1),x(2),…}映射到另一个数据集{z(1),z(2),…};其中,x(i)∈Rd,Rd是指x(i)的取值空间,z的维度低于x的维度,并且能够从z重构出x;
自编码器将前一次的输出作为本次的输入,如此不断重复:根据下式(1)对x(i)进行编码,用隐藏层z(x(i))表示编码结果,再根据下式(2)对z(x(i))进行解码获得
Figure BDA0001152366460000081
z(i)=f(w1x(i)+b1) (1)
Figure BDA0001152366460000082
其中,w1是神经元之间连接的权重矩阵,b1是编码的偏移向量;w2是解码矩阵,b2是解码的偏移向量;logistic sigmoid(逻辑S型)函数f(x)和g(x)为1/(1+exp(-x));
Figure BDA0001152366460000083
和x(i)之间的差值平方和J(w1,b1,w2,b2)作为优化的目标函数:
Figure BDA0001152366460000091
通过最小化J(w1,b1,w2,b2)获得栈式自编码器模型的参数θ,即w1,b1,w2,b2
进一步地,本实施例可以在自编码器的基础上实现稀疏自编码器,即,将稀疏的约束条件加到J(w1,b1,w2,b2)中,在隐含层实现对上一级输入的稀疏表示,那么优化目标函数就变为如下形式,然后通过反向传播算法解出其最优解:
Figure BDA0001152366460000092
其中,γ是权重,HD是隐藏层神经元的数量,ρ是一个约等于0的稀疏调节参数,
Figure BDA0001152366460000093
是k个隐藏层神经元在训练集中的平均值,
Figure BDA0001152366460000094
是KL散度,当
Figure BDA0001152366460000095
时,
Figure BDA0001152366460000096
的定义为:
Figure BDA0001152366460000097
C、栈式自编码器模型的设计
在本实施例中,将SDN交换机采集的数据作为栈式自编码器模型的输入,设SDN网络中有q个节点,其中n(n≤q)个节点用于构建深度学习网络,每个节点上虚拟出m个神经元,分别用于采集以下m种参数的数据:
1)第t个时隙中所有内容被请求的数量(request_total(t));
2)第t个时隙中内容o被请求的数量(request_num(o,t));
3)第t个时隙中内容类别的熵(request_entropy(t));
内容o的发布者(publisher(o))、内容o的类型(type(o))对于SDN网络中所有节点都是一样的;
假设节点采集了当前时隙之前的r个时隙的历史数据,所以系统的输入维度是n*r*m+2,即在输入层需要n*r*m+2个神经元。特别地,当n>1时,n个节点是实际网络中相连的节点,节点采集的数据蕴含了内容流行度的空间相关性;当r>1时,节点采集的数据蕴含了内容流行度的时间相关性。那么,输入层的数据就蕴含了时空联合分布特征,深度学习网络学习到这些特征后,就可以更准确地预测内容流行度。
本实施例将内容流行度离散化为c类,将内容流行度的预测转化为c类的分类问题,Softmax分类器输出c个分类结果就可实现对内容流行度的预测;所以,系统的输出维度为c,若预测当前时隙后s个时隙的流行度,则输出维度是c*s。
D、基于分布式深度学习的内容流行度预测方法在基于OpenFlow的SDN中的部署
经过栈式自编码器模型训练后,可以获得最优的深度学习网络模型参数,包括隐含层的数量,每一层的神经元数量等,那么,深度学习网络中节点之间的连接关系是固定的;所以,利用Openflow中的Proactive模式实现神经元之间的固定连接,SDN控制器制定好如下表1所示的Openflow的流表,然后下发到SDN交换机中。如果需要重构深度学习网络,也是修改表1,然后重新下发。
表1 OpenFlow流表
Switch Port MAC src MAC dst Src IP Dst IP Src port Dst port Action
port 1 * * * 1.2.3.4 4.5.6.7 * * port2,port 3,port 4,port 5
注:*表示任意值。
在SDN网络中,一个SDN控制器负责管理一个区域内SDN交换机的Openflow流表,一个SDN控制器部署一个Softmax分类器,即,一个区域内的SDN控制器负责输出该区域内的内容流行度的预测结果;当要预测多个区域内甚至是全网内的内容流行度时,则需要多个SDN控制器之间的协同,多个SDN控制器组成了一个扁平或层次式的分布式控制器结构。
E、实验结果
使用均方误差MSE(Mean Squared Error)来衡量预测结果,观察以下参数对实验结果的影响:1≤历史数据步长r≤15;10≤输入层节点数量n≤100;1≤隐藏层数量≤6;每一层隐藏层神经元的数量范围是{100,200,300,400,500,600,700,800,900,1000},经过比较后获得最优结果如下表2所示;其中,s=1,k=1。
表2预测结果
历史数据步长r 输入层节点数量n 隐藏层数量 隐藏层神经元数量(自底向上) MSE
5 10 3 [100 100 100] 1.03
10 50 3 [400 400 400] 0.88
15 100 4 [200 200 200 200] 0.65
综上所述,本发明方法将深度学习网络的计算功能分散到SDN网络节点中,每个交换机贡献小部分资源实现若干神经元的计算功能,神经元之间通过交换机的链路彼此连接,从而构建深度学习网络,基于SDN网络的可编程特性,利用SDN控制器在全局视野上对网络的控制能力,实现深度学习网络的可重构,包括隐含层数量、每层神经元节点数量的调整,预测机制基本架构是SAE+Softmax分类器,在底层利用栈式自编码器SAE对时空联合分布的数据进行特征学习,在顶层将内容流行度离散化为c类,将内容流行度的预测转化为c类的分类问题,利用Softmax分类器输出c个结果实现对内容流行度的预测,所预测的内容流行度不仅对ICN的解析系统非常关键,也可以帮助动态路由决策、ICN进行缓存决策,由于通过对全局视野的、时空联合分布的数据进行特征学习,可以更准确地预测内容流行度。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (6)

1.一种SDN架构下基于深度学习的内容流行度预测方法,其特征在于:所述方法包括:
S1、利用SDN网络中各节点计算资源以及链路构建可重构、分布式深度学习网络;其中,所述SDN网络具有SDN控制器和多个SDN交换机,每个SDN交换机是SDN网络中的一个节点,每个SDN交换机贡献小部分资源实现若干神经元的计算功能,神经元之间通过SDN交换机的链路彼此连接;
S2、SDN网络中的各个节点实时地采集内容被请求的时空联合分布的数据并作为深度学习网络的输入,在底层利用栈式自编码器对时空联合分布的数据进行特征学习,在顶层利用Softmax分类器对内容流行度进行预测;其中,所述栈式自编码器由若干个自编码器堆叠在一起形成,每个自编码器具有一个输入层、一个隐藏层和一个输出层,所述利用Softmax分类器对内容流行度进行预测是指将内容流行度离散化为c类,将内容流行度的预测转化为c类的分类问题,利用Softmax分类器输出c个结果实现对内容流行度的预测;
步骤S2中,所述在底层利用栈式自编码器对时空联合分布的数据进行特征学习,在顶层利用Softmax分类器对内容流行度进行预测,采用分布式协同内容流行度预测算法实现;
对于给定的训练集X,假设隐藏层神经元数量为l,所述分布式协同内容流行度预测算法,如下:
S201、栈式自编码器的预训练
S2011、设定稀疏权重γ以及稀疏参数ρ,同时,随机地初始化权重矩阵w1和偏移向量b1
S2012、通过贪心逐层算法自底向上训练隐藏层参数;
S2013、在隐藏层,用第k层的输出作为第(k+1)层的输入;其中,原始的训练集X是第l层的输入;
S2014、重复进行步骤S2011~S2013,通过实现目标函数的最小化,为第(k+1)层找到参数
Figure FDA0002380102060000011
其中,w1是神经元之间连接的权重矩阵,b1是编码的偏移向量,
Figure FDA0002380102060000012
分别表示第(k+1)层的w1和b1
S202、栈式自编码器网络的精调
S2021、经过预训练后,获得初始化参数
Figure FDA0002380102060000021
S2022、使用基于梯度下降的BP算法自顶向下修正整个网络的初始化参数
Figure FDA0002380102060000022
S203、内容流行度预测
S2031、初始化输入层神经元的数量inputSize和输出分类的数量c,以及权重衰减因子λ;
S2032、计算带有权重衰减因子λ的Softmax代价函数J(θ);
S2033、在训练Softmax预测模型之前进行梯度检验;
S2034、从带标签的训练数据集中提取通过栈式自编码器学习到的特征,基于这些提取特征的L-BFGS算法,通过带标签数据集训练Softmax预测模型;
S2035、训练好的Softmax回归层即为测试数据集输出分类预测结果,从而实现对内容流行度的预测;
以v分钟为一个时间片,1年被划分为(365*24*60)/v个时间片;在步骤S2的预测过程中,以时隙为基本单位,一个时隙由k个时间片组成,1<k<12;采集数据时,各个神经元一个时隙统计一次SDN网络中的参数;根据时隙的值计算出本次时隙统计时所在的当地时间,那么,影响内容流行度的时间维度的因素都被涵盖;其中,影响内容流行度的时间维度的因素包括季节、白天/夜间、节假日/工作日;
采用一个时空联合分布的过程来描述内容的请求过程,具体为:在第t个时隙中,SDN网络中节点i的内容请求到达的数量,用r(t,i)表示;然后计算持续传播时间,持续传播时间是指内容自发布时开始到一个时隙内请求数量小于ε*num_max为止的时间间隔;其中,num_max是一个时隙内请求数量的最大值,ε取0.1~0.2;
所述SDN交换机采集的数据作为栈式自编码器模型的输入,设SDN网络中有q个节点,其中n个节点用于构建深度学习网络,每个节点上虚拟出m个神经元,分别用于采集以下m种参数的数据:
1)第t个时隙中所有内容被请求的数量;
2)第t个时隙中内容o被请求的数量;
3)第t个时隙中内容类别的熵;
内容o的发布者、内容o的类型对于SDN网络中所有节点都是一样的;
假设节点采集了当前时隙之前的r个时隙的历史数据,系统的输入维度是n*r*m+2,即在输入层需要n*r*m+2个神经元;当n>1时,n个节点是实际网络中相连的节点,节点采集的数据蕴含了内容流行度的空间相关性;当r>1时,节点采集的数据蕴含了内容流行度的时间相关性,那么,输入层的数据就蕴含了时空联合分布特征;系统的输出维度为c,若预测当前时隙后s个时隙的流行度,则输出维度是c*s。
2.根据权利要求1所述的一种SDN架构下基于深度学习的内容流行度预测方法,其特征在于:所述自编码器可将一个多维度的数据集{x(1),x(2),…}映射到另一个数据集{z(1),z(2),…};其中,x(i)∈Rd,z的维度低于x的维度,并且能够从z重构出x;
自编码器将前一次的输出作为本次的输入,如此不断重复:根据下式(1)对x(i)进行编码,用隐藏层z(x(i))表示编码结果,再根据下式(2)对z(x(i))进行解码获得
Figure FDA0002380102060000031
z(i)=f(w1x(i)+b1) (1)
Figure FDA0002380102060000032
其中,w1是神经元之间连接的权重矩阵,b1是编码的偏移向量;w2是解码矩阵,b2是解码的偏移向量;函数f(x)和g(x)为1/(1+exp(-x));
Figure FDA0002380102060000033
和x(i)之间的差值平方和J(w1,b1,w2,b2)作为优化的目标函数:
Figure FDA0002380102060000034
通过最小化J(w1,b1,w2,b2)获得栈式自编码器模型的参数θ,即w1,b1,w2,b2
3.根据权利要求2所述的一种SDN架构下基于深度学习的内容流行度预测方法,其特征在于:将稀疏的约束条件加到J(w1,b1,w2,b2)中,在自编码器的基础上实现稀疏自编码器,在隐含层实现对上一级输入的稀疏表示,那么优化目标函数就变为如下形式,然后通过反向传播算法解出其最优解:
Figure FDA0002380102060000035
其中,γ是权重,HD是隐藏层神经元的数量,ρ是一个约等于0的稀疏调节参数,
Figure FDA0002380102060000036
是k个隐藏层神经元在训练集中的平均值,
Figure FDA0002380102060000037
是KL散度,当
Figure FDA0002380102060000038
时,
Figure FDA0002380102060000039
Figure FDA00023801020600000310
的定义为:
Figure FDA00023801020600000311
4.根据权利要求1所述的一种SDN架构下基于深度学习的内容流行度预测方法,其特征在于:步骤S1中,所述神经元之间通过SDN交换机的链路彼此连接,具体为:
SDN交换机利用Openflow流表中的Proactive模式实现神经元之间的连接,即,SDN控制器制定好Openflow流表,然后下发到SDN交换机中。
5.根据权利要求1所述的一种SDN架构下基于深度学习的内容流行度预测方法,其特征在于:步骤S1中,所述深度学习网络的重构,具体为:
SDN控制器修改Openflow流表,并重新下发到SDN交换机,完成神经元之间的连接关系的调整,实现调整隐含层和每层神经元节点的数量。
6.根据权利要求5所述的一种SDN架构下基于深度学习的内容流行度预测方法,其特征在于:所述SDN网络中,一个SDN控制器负责管理一个区域内SDN交换机的Openflow流表,一个SDN控制器部署一个Softmax分类器,即,一个区域内的SDN控制器负责输出该区域内的内容流行度的预测结果;当要预测多个区域内甚至是全网内的内容流行度时,则需要多个SDN控制器之间的协同,多个SDN控制器组成了一个扁平或层次式的分布式控制器结构。
CN201611000381.9A 2016-11-14 2016-11-14 一种sdn架构下基于深度学习的内容流行度预测方法 Active CN106570597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611000381.9A CN106570597B (zh) 2016-11-14 2016-11-14 一种sdn架构下基于深度学习的内容流行度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611000381.9A CN106570597B (zh) 2016-11-14 2016-11-14 一种sdn架构下基于深度学习的内容流行度预测方法

Publications (2)

Publication Number Publication Date
CN106570597A CN106570597A (zh) 2017-04-19
CN106570597B true CN106570597B (zh) 2020-06-05

Family

ID=58542589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611000381.9A Active CN106570597B (zh) 2016-11-14 2016-11-14 一种sdn架构下基于深度学习的内容流行度预测方法

Country Status (1)

Country Link
CN (1) CN106570597B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
CN107222787A (zh) * 2017-06-02 2017-09-29 中国科学技术大学 视频资源流行度预测方法
CN107911299B (zh) * 2017-10-24 2020-12-29 浙江工商大学 一种基于深度q学习的路由规划方法
CN107864405B (zh) * 2017-11-14 2020-12-01 国家新闻出版广电总局广播科学研究院 一种收视行为类型的预测方法、装置及计算机可读介质
CN108230170B (zh) * 2017-12-20 2022-02-11 重庆邮电大学 面向社交网络的多信息和多维网络信息传播模型及方法
CN108259367B (zh) * 2018-01-11 2022-02-22 重庆邮电大学 一种基于软件定义网络的服务感知的流策略定制方法
CN108712292B (zh) * 2018-05-29 2021-04-02 广州大学 一种基于深度学习的网络流类型预测方法
CN109257204B (zh) * 2018-08-06 2021-06-04 浙江工商大学 一种软件定义网络中基于深度学习的网络节能装置及方法
CN109800767A (zh) * 2018-12-12 2019-05-24 天津津航技术物理研究所 基于hog特征和自编码器的目标检测方法
CN109787958B (zh) * 2018-12-15 2021-05-25 深圳先进技术研究院 网络流量实时检测方法及检测终端、计算机可读存储介质
CN109768981B (zh) * 2019-01-20 2021-02-02 北京工业大学 一种在sdn架构下基于机器学习的网络攻击防御方法和系统
CN109819459B (zh) * 2019-02-20 2020-09-18 北京邮电大学 一种内容的缓存部署方法及装置
CN109951875A (zh) * 2019-02-22 2019-06-28 广州大学 基于内容流行度预测的缓存方法、装置、设备和介质
CN109995851B (zh) * 2019-03-05 2021-11-26 东南大学 基于深度学习的内容流行度预测及边缘缓存方法
CN110083699B (zh) * 2019-03-18 2021-01-12 中国科学院自动化研究所 基于深度神经网络的新闻流行度预测模型训练方法
CN110336754B (zh) * 2019-05-09 2020-04-21 北京邮电大学 一种网络流量配置方法及装置
CN110213175B (zh) * 2019-06-08 2022-06-28 西安电子科技大学 一种面向知识定义网络的智能管控系统及管控方法
CN110381540B (zh) * 2019-07-22 2021-05-28 天津大学 基于dnn的实时响应时变文件流行度的动态缓存更新方法
CN110974213A (zh) * 2019-12-20 2020-04-10 哈尔滨理工大学 基于深度堆栈网络的心电信号识别方法
CN111476281B (zh) * 2020-03-27 2020-12-22 北京微播易科技股份有限公司 一种信息流行度预测方法和装置
CN111565157B (zh) * 2020-04-29 2022-07-01 南京苍穹浩瀚信息科技有限公司 支持多维度协作和无限优先级个数的交换机调度方法
CN112528165A (zh) * 2020-12-16 2021-03-19 中国计量大学 一种基于动态路由图网络的会话社交推荐方法
CN113329055B (zh) * 2021-04-30 2023-04-07 网络通信与安全紫金山实验室 一种分布式sdn控制器系统及其控制方法与装置
CN118485157A (zh) * 2023-02-10 2024-08-13 中国移动通信有限公司研究院 联合学习方法、装置、相关设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8577815B2 (en) * 2009-10-23 2013-11-05 GM Global Technology Operations LLC Method and system for concurrent event forecasting
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统

Also Published As

Publication number Publication date
CN106570597A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN106570597B (zh) 一种sdn架构下基于深度学习的内容流行度预测方法
Yu et al. Evolving artificial neural networks using an improved PSO and DPSO
Donate et al. Time series forecasting by evolving artificial neural networks with genetic algorithms, differential evolution and estimation of distribution algorithm
Wei Network traffic prediction based on RBF neural network optimized by improved gravitation search algorithm
Jiang et al. Research and application of an innovative combined model based on a modified optimization algorithm for wind speed forecasting
CN110163410A (zh) 一种基于神经网络-时间序列的线损电量预测方法
CN108776820A (zh) 一种利用宽度神经网络改进的随机森林集成方法
Zhang et al. Prediction for network traffic of radial basis function neural network model based on improved particle swarm optimization algorithm
Liu et al. Resource-constrained federated edge learning with heterogeneous data: Formulation and analysis
CN109543838A (zh) 一种基于变分自编码器的图像增量学习方法
Mageshkumar et al. Hybrid metaheuristic algorithm for improving the efficiency of data clustering
CN109886758A (zh) 一种基于组合分类器的客户流失预测模型
CN112446489A (zh) 基于变分自编码器的动态网络嵌入链接预测方法
Guo et al. A combined model based on sparrow search optimized BP neural network and Markov chain for precipitation prediction in Zhengzhou City, China
Wang et al. Personalized federated learning via heterogeneous modular networks
Tang et al. The research on BP neural network model based on guaranteed convergence particle swarm optimization
CN114513816A (zh) 一种sdn网络资源分配方法、系统及存储介质
CN112183721B (zh) 一种基于自适应差分进化的组合水文预测模型的构建方法
Cheng et al. Unsupervised deep embedded fusion representation of single-cell transcriptomics
Luan et al. Evaluation for sortie generation capacity of the carrier aircraft based on the variable structure RBF neural network with the fast learning rate
Schreiber Transfer learning in the field of renewable energies--a transfer learning framework providing power forecasts throughout the lifecycle of wind farms after initial connection to the electrical grid
Qiu et al. Air traffic flow of genetic algorithm to optimize wavelet neural network prediction
Boonkiatpong et al. Applying multiple neural networks on large scale data
Peng et al. Fuzzy neural network based prediction model applied in primary component analysis
Saxena et al. Neuro-genetic hybrid approach for rainfall forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant