CN113259158B - 网络流量预测方法和设备、模型构建及训练方法和装置 - Google Patents

网络流量预测方法和设备、模型构建及训练方法和装置 Download PDF

Info

Publication number
CN113259158B
CN113259158B CN202110509575.6A CN202110509575A CN113259158B CN 113259158 B CN113259158 B CN 113259158B CN 202110509575 A CN202110509575 A CN 202110509575A CN 113259158 B CN113259158 B CN 113259158B
Authority
CN
China
Prior art keywords
data
submodel
network traffic
model
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110509575.6A
Other languages
English (en)
Other versions
CN113259158A (zh
Inventor
刘亚娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110509575.6A priority Critical patent/CN113259158B/zh
Publication of CN113259158A publication Critical patent/CN113259158A/zh
Application granted granted Critical
Publication of CN113259158B publication Critical patent/CN113259158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开涉及一种网络流量预测方法和设备、模型构建及训练方法和装置。该网络流量预测模型训练方法包括:将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时;采用第一时段数据和第二时段数据对网络流量预测模型进行训练,使得训练完成的网络流量预测模型用于实现平台网络流量预测。本公开通过多模型融合的预测模型,可以提升网络流量预测的精度以及稳定性。

Description

网络流量预测方法和设备、模型构建及训练方法和装置
技术领域
本公开涉及流量预测领域,特别涉及一种网络流量预测方法和设备、模型构建及训练方法和装置。
背景技术
对于电商平台而言,流量是一大核心指标。及时掌握甚至预判流量趋势,对于电商平台的运营起着至关重要的作用。流量预测是流控的重要环节,也是流控迈向智能化的关键一步。电商平台业务系统流量趋势的预测、异常流量的及时预警显得尤为重要,它可以及时感知是否有危害企业网络正常经营活动的行为或者预判当前基础设施是否有能力承担未来流量。
发明内容
本公开提供了一种网络流量预测方法和设备、模型构建及训练方法和装置,通过多模型融合的预测模型,可以提升网络流量预测的精度以及稳定性。
根据本公开的一个方面,提供一种网络流量预测模型构建方法,包括:
构建数据分类子模型,其中,所述数据分类子模型用于将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时;
构建第一流量预测子模型,其中,所述第一流量预测子模型用于采用第一时段数据进行第一流量预测模型训练,得到第一流量预测数据;
构建第二流量预测子模型,其中,所述第二流量预测子模型用于采用第二时段数据进行第二流量预测模型训练,得到第二流量预测数据;
构建数据融合子模型,其中,所述数据融合子模型对第一流量预测数据和第二流量预测数据进行融合,输出流量预测结果。
在本公开的一些实施例中,所述网络流量预测模型包括数据分类子模型、第一流量预测子模型、第二流量预测子模型和数据融合子模型,训练完成的网络流量预测模型用于实现平台网络流量预测。
在本公开的一些实施例中,第一时段数据为活动时段数据,第二时段数据为非活动时段数据。
在本公开的一些实施例中,第一流量预测子模型和第二流量预测子模型为不同类型的机器学习模型。
在本公开的一些实施例中,所述网络流量预测模型构建方法还包括:
构建时序数据分类子模型,其中,所述时序数据分类子模型用于采用第一时段数据进行分类训练,将第一时段数据划分为第一类型数据和第二类型数据,第一类型数据为平稳型第一时段数据,第二类型数据为无规律型第一时段数据,第一类型数据用于作为第二时段数据的样点填充依据,以使得第二流量预测子模型的输入为连续型时序数据序列。
在本公开的一些实施例中,所述网络流量预测模型还包括时序数据分类子模型。
在本公开的一些实施例中,所述网络流量预测模型构建方法还包括:
构建影响特征确定子模型,其中,所述影响特征确定子模型用于根据第二类型数据和活动参数进行模型训练,得到活动影响特征,活动影响特征和第一时段数据作为输入对第一流量预测子模型进行训练。
在本公开的一些实施例中,所述网络流量预测模型还包括影响特征确定子模型。
在本公开的一些实施例中,所述构建影响特征确定子模型包括:
构建初始类中心确定子模型,其中,初始类中心确定子模型用于根据第二类型数据和活动参数进行模型训练,通过自适应算法确定初始类中心;
构建聚类分析子模型,其中,所述聚类分析子模型用于对初始类中心进行聚类预测训练,确定活动影响特征。
在本公开的一些实施例中,所述影响特征确定子模型包括初始类中心确定子模型和聚类分析子模型。
根据本公开的另一方面,提供一种网络流量预测模型训练方法,包括:
将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时;
采用第一时段数据和第二时段数据对网络流量预测模型进行训练,使得训练完成的网络流量预测模型用于实现平台网络流量预测。
在本公开的一些实施例中,第一时段数据为活动时段数据,第二时段数据为非活动时段数据。
在本公开的一些实施例中,所述网络流量预测模型包括第一流量预测子模型和第二流量预测子模型,其中,第一流量预测子模型和第二流量预测子模型为不同类型的机器学习模型;
所述采用第一时段数据和第二时段数据对网络流量预测模型进行训练包括:
采用第一时段数据进行第一流量预测模型训练,得到第一流量预测数据;
采用第二时段数据进行第二流量预测模型训练,得到第二流量预测数据;
对第一流量预测数据和第二流量预测数据进行融合,输出流量预测结果。
在本公开的一些实施例中,所述网络流量预测模型还包括时序数据分类子模型。
在本公开的一些实施例中,所述采用第一时段数据和第二时段数据对网络流量预测模型进行训练还包括:
采用第一时段数据对时序数据分类子模型进行分类训练,其中,所述时序数据分类子模型用于将第一时段数据划分为第一类型数据和第二类型数据,第一类型数据为平稳型第一时段数据,第二类型数据为无规律型第一时段数据;
将第一类型数据作为第二时段数据的样点填充依据,使得第二流量预测子模型的输入为连续型时序数据序列。
在本公开的一些实施例中,所述网络流量预测模型还包括影响特征确定子模型。
在本公开的一些实施例中,所述采用第一时段数据和第二时段数据对网络流量预测模型进行训练还包括:
采用第二类型数据和活动参数对影响特征确定子模型进行模型训练,得到活动影响特征;
采用活动影响特征和第一时段数据作为输入对第一流量预测子模型进行训练。
在本公开的一些实施例中,所述影响特征确定子模型包括初始类中心确定子模型和聚类分析子模型。
在本公开的一些实施例中,所述采用第二类型数据和活动参数对影响特征确定子模型进行模型训练包括:
根据第二类型数据和活动参数对初始类中心确定子模型进行模型训练,通过自适应算法确定初始类中心;
采用初始类中心对聚类分析子模型进行聚类预测训练,确定活动影响特征。
在本公开的一些实施例中,所述根据第二类型数据和活动参数对初始类中心确定子模型进行模型训练,通过自适应算法确定初始类中心包括:
在输入的数据样本中,随机选择一个样本点为中心点;
将离中心点距离在预定距离内的所有样本点作为集合M;
计算从中心点开始到集合M中每个元素的向量,将所述向量相加作为偏移向量;
在集合M中计算每个点作为中心点时的偏移量,并选取偏移量最小的点作为集合M的中心点;
选择中心点后,沿着偏移量的方向移动到集合M中的下一个样本点,移动距离是偏移向量的模。
在本公开的一些实施例中,所述根据第二类型数据和活动参数对初始类中心确定子模型进行模型训练,通过自适应算法确定初始类中心还包括:
将下一个样本点作为中心点,重复执行将离中心点距离在预定距离内的所有点作为集合M,计算从中心点开始到集合M中每个元素的向量,将所述向量相加作为偏移向量,在集合M中计算每个点作为中心点时的偏移量,并选取偏移量最小的点作为集合M的中心点,选择中心点后,沿着偏移量的方向移动到集合M中的下一个样本点,移动距离是偏移向量的模的步骤,直到所有样本点均被归类。
根据本公开的另一方面,提供一种网络流量预测方法,包括:
将平台线上数据输入网络流量预测模型,其中,所述网络流量预测模型为根据如上述任一实施例所述的网络流量预测模型训练方法训练得到的;
采用网络流量预测模型对平台线上数据进行网络流量预测。
在本公开的一些实施例中,所述将平台线上数据输入网络流量预测模型包括:
将平台线上数据和活动参数输入网络流量预测模型。
在本公开的一些实施例中,所述网络流量预测方法还包括:采用如上述任一实施例所述的网络流量预测模型训练方法对网络流量预测模型进行训练。
根据本公开的另一方面,提供一种网络流量预测模型构建装置,包括:
第一构建模块,用于构建数据分类子模型,其中,所述数据分类子模型用于将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时;
第二构建模块,用于构建第一流量预测子模型,其中,所述第一流量预测子模型用于采用第一时段数据进行第一流量预测模型训练,得到第一流量预测数据;
第三构建模块,用于构建第二流量预测子模型,其中,所述第二流量预测子模型用于采用第二时段数据进行第二流量预测模型训练,得到第二流量预测数据;
第四构建模块,用于构建数据融合子模型,其中,所述数据融合子模型对第一流量预测数据和第二流量预测数据进行融合,输出流量预测结果。
在本公开的一些实施例中,所述网络流量预测模型包括数据分类子模型、第一流量预测子模型、第二流量预测子模型和数据融合子模型,训练完成的网络流量预测模型用于实现平台网络流量预测。
根据本公开的另一方面,提供一种网络流量预测模型训练装置,包括:
数据分类模块,用于将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时;
模型训练模块,用于采用第一时段数据和第二时段数据对网络流量预测模型进行训练,使得训练完成的网络流量预测模型用于实现平台网络流量预测。
根据本公开的另一方面,提供一种网络流量预测设备,包括:
数据输入模块,用于将平台线上数据输入网络流量预测模型,其中,所述网络流量预测模型为根据如上述任一实施例所述的网络流量预测模型训练方法训练得到的;
流量预测模块,用于采用网络流量预测模型对平台线上数据进行网络流量预测。
在本公开的一些实施例中,网络流量预测设备还包括如上述任一实施例所述的网络流量预测模型训练装置。
根据本公开的另一方面,提供一种计算机装置,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述计算机装置执行实现如上述任一实施例所述的网络流量模型构建方法、如上述任一实施例所述的网络流量模型训练方法、或如上述任一实施例所述的网络流量预测方法的操作。
根据本公开的另一方面,提供一种非瞬时性计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上述任一实施例所述的网络流量模型构建方法、如上述任一实施例所述的网络流量模型训练方法、或如上述任一实施例所述的网络流量预测方法。
本公开通过多模型融合的预测模型,可以提升网络流量预测的精度以及稳定性。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开网络流量预测模型构建方法一些实施例的示意图。
图2为本公开一些实施例中网络流量预测模型的示意图。
图3为本公开网络流量预测模型训练方法一些实施例的示意图。
图4为本公开网络流量预测方法一些实施例的示意图。
图5为本公开网络流量预测方法另一些实施例的示意图。
图6为本公开一些实施例中活动影响特征确定方法的示意图。
图7为本公开网络流量预测模型构建装置一些实施例的示意图。
图8为本公开网络流量预测模型训练装置一些实施例的示意图。
图9为本公开网络流量预测设备一些实施例的示意图。
图10为本公开计算机装置一些实施例的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
相关技术在预测流量指标时,主要包括两类方案,第一类是基于单一机器学习模型进行的流量预测。另一类是将数据分为节假日数据和非节假日数据,针对不同的数据类型采用多种算法模型组合进行的流量预测。相关技术的技术方案具体内容如下:
第一种技术方案:在对数据样本经过异常点筛除以及分段截取后,采用指数平滑法进行预测目标日期数据的预测。
第二种技术方案:根据数据特征,对非节假日使用LSTM(Long Short-TermMemory,长短期记忆网络)预测方法进行预测,且对于节假日过后的非节假日数据要去除节假日数据进行预测;对节假日使用改进指数平滑方法进行预测。
相关技术分别存在相应的技术问题。
第一种技术方案的技术问题:
一方面该方案仅使用单一的预测方法进行预测,具有其局限性。在数据量不庞大的条件下,由于业务量的随机性、季节性等特点,以及受节假日等因素的影响,预测的稳定性以及精度都会明显下降。另一方面该方案采用固定的平滑系数,没有考虑到数据的时变性。平滑系数是指数平滑法计算预测趋势值能够符合实际的关键。一旦数据出现波动,固定的平滑系数将使预测数据出现明显滞后性。
第二种技术方案的技术问题:
一方面该方案仅按日期特征进行数据独立预测,并不适用于电商平台促销活动多样的场景。对于电商平台,每年特定日期的活动方式及内容差异都十分明显,单纯通过去年特定日期数据预测今年特定日期,精确度会大幅降低。另一方面,该方案区分节假日及非节假日数据后,使用LSTM算法训练非节假日模型时,其输入样本并非连续型数据,会大幅降低LSTM算法的精确度。
鉴于相关技术的以上技术问题中的至少一项,本公开提供了一种适合电商平台场景的预测模型,可以提升流量预测的精度以及稳定性。下面通过具体实施例对本公开进行说明。
图1为本公开网络流量预测模型构建方法一些实施例的示意图。优选的,本实施例可由本公开网络流量预测模型构建装置执行。该方法可以包括以下步骤中的至少一项,其中:
步骤11,构建数据分类子模型,其中,所述数据分类子模型用于将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时。
在本公开的一些实施例中,第一时段数据可以为活动时段数据,第二时段数据可以为非活动时段数据,平台数据可以为电商平台数据。
在本公开的一些实施例中,第一时段数据可以为促销活动时段数据,第二时段数据可以为非促销活动时段数据。
步骤12,构建第一流量预测子模型,其中,所述第一流量预测子模型用于采用第一时段数据进行第一流量预测模型训练,得到第一流量预测数据。
步骤13,构建第二流量预测子模型,其中,所述第二流量预测子模型用于采用第二时段数据进行第二流量预测模型训练,得到第二流量预测数据。
步骤14,构建数据融合子模型,其中,所述数据融合子模型对第一流量预测数据和第二流量预测数据进行融合,输出流量预测结果。
基于本公开上述实施例提供的网络流量预测模型构建方法,构建的网络流量预测模型根据促销活动时间特征将数据分为促销时段数据、非促销时段数据,其中促销活动时间单位为小时。下面将促销时段数据简称为促销数据,非促销时段数据简称为非促销数据。除正常国定节假日以及数据特征明显的特殊节日,例如电商互联网平台将包含将双11、618等特殊日期的数据,还包括日常的整点促销活动。通过精细化时间特征,进一步提升输入数据的准确性。相较于仅区分节假日,本公开上述实施例按照实际的促销活动时间进行数据分类,更符合电商平台的运营场景,然后对促销数据和非促销数据采用不同的预测策略,提升预测的稳定性和精确度。
图2为本公开一些实施例中网络流量预测模型的示意图。所述网络流量预测模型可以包括数据分类子模型21、第一流量预测子模型22、第二流量预测子模型23和数据融合子模型24,训练完成的网络流量预测模型用于实现平台网络流量预测。
在本公开的一些实施例中,第一流量预测子模型22和第二流量预测子模型23可以为不同类型的机器学习模型。
在本公开的一些实施例中,第一流量预测子模型22可以为LightGBM(LightGradient Boosting Machine,轻量级梯度提升机)模型。GBDT(Gradient BoostingDecision Tree,梯度提升决策数)是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。而LightGBM是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。
在本公开的一些实施例中,第二流量预测子模型23可以为LSTM算法模型。LSTM是一种改进之后的循环神经网络,可以解决RNN(Recurrent Neural Networks,循环神经网络)无法处理长距离的依赖的问题。
本公开上述实施例不同数据类型采用不同的预测模型,促销时段数据采用LightGBM模型,非促销时段数据采用LSTM算法模型。本公开上述实施例整体方案通过多模型融合的预测方式,可以有效克服单模型算法的弊端,提升预测的稳定性以及精度。
在本公开的一些实施例中,如图2所示,所述网络流量预测模型还包括时序数据分类子模型25。
在本公开的一些实施例中,时序数据分类子模型25可以为CNN(卷积神经网络)分类器。
在本公开的一些实施例中,图1实施例的网络流量预测模型构建方法还可以包括:构建时序数据分类子模型,其中,所述时序数据分类子模型用于采用第一时段数据进行分类训练,将第一时段数据划分为第一类型数据和第二类型数据,第一类型数据为平稳型第一时段数据,第二类型数据为无规律型第一时段数据,第一类型数据用于作为第二时段数据的样点填充依据,以使得第二流量预测子模型的输入为连续型时序数据序列。
为提高上述两种模型的预测精准度,本公开上述实施例在模型输入处分别做相关特殊处理。特殊处理的方式是:针对上述促销数据,采用CNN分类器进行时序数据分类,得到平稳型数据和无规律型数据;将平稳型数据,作为LSTM算法数据样本的样点填充,保证该算法的输入是连续性时序数据,从而提升LSTM预测的准确性。
在本公开的一些实施例中,如图2所示,所述网络流量预测模型还可以包括影响特征确定子模型26。
在本公开的一些实施例中,图1实施例的网络流量预测模型构建方法还可以包括:构建影响特征确定子模型,其中,所述影响特征确定子模型用于根据第二类型数据和活动参数进行模型训练,得到活动影响特征,活动影响特征和第一时段数据作为输入对第一流量预测子模型进行训练,其中,第二类型数据为无规律型第一时段数据。
在本公开的一些实施例中,所述活动参数可以为促销活动参数。
在本公开的一些实施例中,促销活动参数包括但不仅限于,促销起始时间、促销时长、促销等级、促销范围等可量化促销活动参数。
在本公开的一些实施例中,活动影响特征可以为促销活动影响特征。
在本公开的一些实施例中,计算得出的促销活动影响特征是一个影响因子,取值范围为0到1,表明促销活动对流量的影响程度。
本公开上述实施例将无规律型数据,利用改进后的K-means(k-means clusteringalgorithm,k均值聚类算法)获取促销特征数据,该特征数据将作为LightGBM算法的输入,从而大幅提高促销数据预测模型的准确度。K-means算法是一种得到最广泛使用的聚类算法。K-means是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得平均误差准则函数E达到最优,从而使生成的每个聚类内紧凑,类间独立。
在本公开的一些实施例中,如图2所示,所述影响特征确定子模型可以包括初始类中心确定子模型261和聚类分析子模型262。
在本公开的一些实施例中,所述构建影响特征确定子模型的步骤可以包括:构建初始类中心确定子模型,其中,初始类中心确定子模型用于根据第二类型数据和活动参数进行模型训练,通过自适应算法确定初始类中心;构建聚类分析子模型,其中,所述聚类分析子模型用于对初始类中心进行聚类预测训练,确定活动影响特征。
本公开上述实施例采用改进后的K-means算法是通过自适应算法确定初始类中心,然后将上述初始类中心作为K-means算法的输入,最后对每一个簇进行数据分析,以簇中心的时间序列曲线作为促销特征。
本公开上述实施例改进后的K-means算法简单,算法速度很快。对实时性要求较高的场景下,该算法是相对可伸缩并且高效的。
本公开上述实施例采用自适应算法计算初始类中心的方式可以避免人工指定k值参数带来的预测误差。
图3为本公开网络流量预测模型训练方法一些实施例的示意图。优选的,本实施例可由本公开网络流量预测模型训练装置执行。该方法可以包括以下步骤中的至少一项,其中:
步骤31,将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时。
在本公开可以的一些实施例中,第一时段数据可以为活动时段数据,第二时段数据为非活动时段数据。
步骤32,采用第一时段数据和第二时段数据对网络流量预测模型进行训练,使得训练完成的网络流量预测模型用于实现平台网络流量预测。
在本公开的一些实施例中,所述网络流量预测模型为如上述任一实施例(例如图1实施例)所述的动作网络流量预测模型构建方法所构建的。
在本公开的一些实施例中,所述网络流量预测模型为可以为如上述任一实施例(例如图2实施例)所述的动作网络流量预测模型。
在本公开的一些实施例中,所述网络流量预测模型可以包括第一流量预测子模型和第二流量预测子模型,其中,第一流量预测子模型和第二流量预测子模型为不同类型的机器学习模型。
在本公开的一些实施例中,步骤32可以包括步骤321-步骤323中的至少一项,其中:
步骤321,采用第一时段数据进行第一流量预测模型训练,得到第一流量预测数据。
步骤322,采用第二时段数据进行第二流量预测模型训练,得到第二流量预测数据。
步骤323,对第一流量预测数据和第二流量预测数据进行融合,输出流量预测结果。
在本公开的一些实施例中,步骤32还可以包括步骤324-步骤325中的至少一项,其中:
步骤324,采用第一时段数据对时序数据分类子模型进行分类训练,其中,所述时序数据分类子模型用于将第一时段数据划分为第一类型数据和第二类型数据,第一类型数据为平稳型第一时段数据,第二类型数据为无规律型第一时段数据。
步骤325,将第一类型数据作为第二时段数据的样点填充依据,使得第二流量预测子模型的输入为连续型时序数据序列。
在本公开的一些实施例中,步骤32还可以包括步骤324-步骤325中的至少一项,其中:
步骤326,采用第二类型数据和活动参数对影响特征确定子模型进行模型训练,得到活动影响特征。
在本公开的一些实施例中,所述活动参数可以为促销活动参数。
在本公开的一些实施例中,促销活动参数包括但不仅限于,促销起始时间、促销时长、促销等级、促销范围等可量化促销活动参数。
在本公开的一些实施例中,活动影响特征可以为促销活动影响特征。
在本公开的一些实施例中,计算得出的促销活动影响特征是一个影响因子,取值范围为0到1,表明促销活动对流量的影响程度。
在本公开的一些实施例中,步骤326可以包括:根据第二类型数据和活动参数对初始类中心确定子模型进行模型训练,通过自适应算法确定初始类中心;采用初始类中心对聚类分析子模型进行聚类预测训练,确定活动影响特征。
在本公开的一些实施例中,所述根据第二类型数据和活动参数对初始类中心确定子模型进行模型训练,通过自适应算法确定初始类中心的步骤可以包括:在输入的数据样本中,随机选择一个样本点为中心点;将离中心点距离在预定距离内的所有样本点作为集合M;计算从中心点开始到集合M中每个元素的向量,将所述向量相加作为偏移向量;在集合M中计算每个点作为中心点时的偏移量,并选取偏移量最小的点作为集合M的中心点;选择中心点后,沿着偏移量的方向移动到集合M中的下一个样本点,移动距离是偏移向量的模。
在本公开的一些实施例中,所述根据第二类型数据和活动参数对初始类中心确定子模型进行模型训练,通过自适应算法确定初始类中心步骤还可以包括:将下一个样本点作为中心点,重复执行将离中心点距离在预定距离内的所有点作为集合M,计算从中心点开始到集合M中每个元素的向量,将所述向量相加作为偏移向量,在集合M中计算每个点作为中心点时的偏移量,并选取偏移量最小的点作为集合M的中心点,选择中心点后,沿着偏移量的方向移动到集合M中的下一个样本点,移动距离是偏移向量的模的步骤,直到所有样本点均被归类。
步骤327,采用活动影响特征和第一时段数据作为输入对第一流量预测子模型进行训练。
基于本公开上述实施例提供的预测模型训练方法,将样本数据划分为促销时段数据和非促销时段数据,对促销数据采用LightGBM算法进行模型训练,对非促销数据采用LSTM算法进行模型训练。
本公开上述实施例针对促销数据采用CNN分类器进行时序数据分类,得到平稳型数据和无规律型数据。将平稳型数据,作为LSTM算法数据样本的样点填充,保证该算法的输入是连续型时序数据,从而提升LSTM预测的准确性。将无规律型数据,利用改进后的K-means算法获取促销特征数据,该特征将作为LightGBM算法的输入,从而大幅提高促销数据预测模型的准确度。
本公开上述实施例采用改进后的K-means算法基于自适应算法获取初始类中心,可以避免人工指定k值参数带来的预测误差。
图4为本公开网络流量预测方法一些实施例的示意图。优选的,本实施例可由本公开网络流量预测装置执行。该方法可以包括以下步骤中的至少一项,其中:
步骤41,将平台线上数据输入网络流量预测模型,其中,所述网络流量预测模型为根据如上述任一实施例(例如图3实施例)所述的网络流量预测模型训练方法训练得到的。
在本公开的一些实施例中,步骤41可以包括:将平台线上数据和活动参数输入网络流量预测模型。
在本公开的一些实施例中,所述活动参数可以为促销活动参数。
在本公开的一些实施例中,促销活动参数包括但不仅限于,促销起始时间、促销时长、促销等级、促销范围等可量化促销活动参数。
在本公开的一些实施例中,步骤41之前,本公开网络流量预测方法还可以包括:采用如上述任一实施例(例如图3实施例)所述的网络流量预测模型训练方法对本公开上述任一实施例(例如图2实施例)网络流量预测模型进行训练。
步骤42,采用网络流量预测模型对平台线上数据进行网络流量预测。
图5为本公开网络流量预测方法另一些实施例的示意图。优选的,本实施例可由本公开网络流量预测装置执行。该方法可以包括以下步骤中的至少一项,其中:
步骤50,异常点筛除。
在本公开的一些实施例中,步骤50可以包括:首先对输入的样本数据进行异常点筛除,保证数据的有效性。筛除异常点可采用的方法包括标准差、标准方差或者高斯分布等,这里不限制样本筛选的方法。例如,可选用高斯分布函数去掉函数值小于0.1%的数据样本。
步骤51,样点填充。
在本公开的一些实施例中,步骤51可以包括:在缺失样点处,采用连线法进行样点填充,保证样本数据的完整性。
步骤52,数据归一化/标准化处理。
在本公开的一些实施例中,步骤52可以包括:将数据按比例缩放,统一映射到[0,1]区间上。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
步骤53,根据促销活动时间特征进行样本分类。
在本公开的一些实施例中,步骤53可以包括:输入往期促销活动时间段范围,将样本数据分为促销时段数据、非促销时段数据。
步骤54,使用CNN分类器完成分类流程。
在本公开的一些实施例中,步骤54可以包括:对于促销数据,采用CNN分类器,进行数据分类,分类得到无规律型数据以及平稳型数据。这里不限制CNN分类器的训练方式。例如,可使用成熟的TensorFlow训练CNN模型。
步骤55,将无规律型数据以及促销活动参数作为输入,利用改进后的K-means算法计算得出促销影响特征。
在本公开的一些实施例中,促销活动参数包括但不仅限于,促销起始时间、促销时长、促销等级、促销范围等可量化促销活动参数。
在本公开的一些实施例中,活动影响特征可以为促销活动影响特征。
在本公开的一些实施例中,计算得出的促销活动影响特征是一个影响因子,取值范围为0到1,表明促销活动对流量的影响程度。
步骤56,将平稳型数据作为非促销数据在促销时段内的样点填充依据,保证LSTM算法的输入是连续型时序数据序列。
步骤57,LightGBM算法根据促销数据以及促销影响特征,训练得出促销数据模型。LSTM算法根据连续数据,训练得出非促销数据模型。
步骤58,最终将数据按照时间序列组合成最终的预测数据模型。
在本公开的一些实施例中,本公开网络流量预测模型构建方法可以包括步骤50-步骤58。即,图5实施例的步骤50-步骤58为本公开网络流量预测模型构建方法一些实施例的具体步骤。
步骤59,将线上数据输入预测模型进行数据预测。
在本公开的一些实施例中,步骤59可以包括:将将线上数据输入预测模型执行步骤50-步骤58,进行数据预测。
本公开上述实施例首先根据促销活动时间特征将数据分为促销时段数据、非促销时段数据,其中促销活动时间单位为小时。下面将促销时段数据简称为促销数据,非促销时段数据简称为非促销数据。除正常国定节假日以及数据特征明显的特殊节日,例如电商互联网将包含将双11、618等特殊日期的数据,还包括日常的整点促销活动。通过精细化时间特征,进一步提升输入数据的准确性。相较于仅区分节假日,按照实际的促销活动时间进行数据分类,更符合电商平台的运营场景。然后对促销数据和非促销数据采用不同的预测策略,提升预测的稳定性和精确度。
本公开上述实施例对不同数据类型采用不同的预测模型,促销时段数据采用LightGBM模型,非促销时段数据采用LSTM算法模型。整体方案通过多模型融合的预测方式,有效克服单模型算法的弊端,提升预测的稳定性以及精度。
本公开上述实施例为提高上述两种模型的预测精准度,在模型输入处分别做相关特殊处理。特殊处理的方式是:针对上述促销数据,采用CNN分类器进行时序数据分类,得到平稳型数据和无规律型数据。将平稳型数据,作为LSTM算法数据样本的样点填充,保证该算法的输入是连续性时序数据,从而提升LSTM预测的准确性。
本公开上述实施例将无规律型数据,利用改进后的K-means算法获取促销特征数据,该特征数据将作为LightGBM算法的输入,从而大幅提高促销数据预测模型的准确度。
图6为本公开一些实施例中活动影响特征确定方法的示意图。如图6所示,本公开活动影响特征确定方法(例如图5实施例的步骤55或图3实施例的步骤326)可以包括以下步骤中的至少一项。
步骤61,将经过筛选后的样本数据作为改进后的K-means算法的输入。
步骤62,使用自适应算法计算初始类中心。
在本公开的一些实施例中,步骤62可以包括步骤621-步骤626中的至少一项,其中:
步骤621,在输入的数据样本中,随机选择某个样本点为中心。
步骤622,找出离中心点距离在带宽h之内的所有点,记做集合M。
步骤623,计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量M(x)。如公式(1)所示。Sh表示以x为中心点,半径为h的圆形区域;k表示包含在Sh范围内点的个数;xi表示包含在Sh范围内的点。
Figure BDA0003059780320000191
公式(1)中,M(x),为以x为中心点时计算得到的集合M的偏移向量。M(xi)是以xi为中心点时,计算得到的集合M的偏移向量。
步骤624,在集合M中,计算每个点作为中心点时的偏移量,并选取偏移量最小的点,作为集合M的中心点,如公式(2)所示。当Mmin(xi)时,
XM=xi (2)
公式(2)中,XM的含义是集合M的中心点,K-means聚类算法需要使用该中心点。
步骤625,选择中心点后,沿着偏移量的方向移动到集合中的下一个点,移动距离是偏移向量的模。如公式(3)所示,为第k个中心下求得的偏移均值;xk为第k个集合下的中心点。
xk+1=Mk+xk (3)
公式(3)中,Mk的含义是偏移向量的模;xk+1是第k+1个集合的中心点。
步骤626,重复步骤622-步骤625直到所有的点都被归类,得到K个初始类中心的集合O,如公式(4)。
O=(x1,x2,x3,……xk) (4)
本公开上述实施例步骤624是在计算集合M中所有点的偏移量之后,并取最小值进行移动的。
步骤63,采用K-means聚类算法对上述得到的初始类中心集合O进行聚类预测。
在本公开的一些实施例中,步骤63可以包括步骤631-步骤636中的至少一项,其中:
步骤631,以初始类中心集合O中的点为中心,把每个数据点分配到离它最近的中心点,分成K个类C1(中心点为x1),C2(中心点为x2)……。
步骤632,根据公式(5)计算上述各类的误差平方和准则函数E,其中xi表示类Ck中的点,k∈(1,2,3,……K)。
Figure BDA0003059780320000201
步骤633,重新计算各类的中心点。如公式所示,其中N为类Ck中的样本点的总个数,x′i为该类的新中心点。
Figure BDA0003059780320000202
步骤634,重复步骤631-步骤633,直到误差平方和准则函数E开始收敛为止。K个聚类具有以下特点:各聚类本身尽可能紧凑,而各聚类之间尽可能的分开。
步骤633,将每一个簇的簇中心作为该簇的代表,以簇中心的时间序列曲线作为促销特征,提高LightGBM算法的精确度。
本公开步骤63中使用的初始类中心不是随意指定而是通过步骤62中的自适应算法得到的,由此可以有效避免人工指定k值参数带来的预测误差。
本公开上述实施例将无规律型数据,利用改进后的K-means算法获取促销特征数据,该特征数据将作为LightGBM算法的输入,从而大幅提高促销数据预测模型的准确度。
本公开上述实施例采用改进后的K-means算法是通过自适应算法确定初始类中心,然后将上述初始类中心作为K-means算法的输入,最后对每一个簇进行数据分析,以簇中心的时间序列曲线作为促销特征。
本公开上述实施例改进后的K-means算法简单,算法速度很快。对实时性要求较高的场景下,该算法是相对可伸缩并且高效的。
本公开上述实施例采用自适应算法计算初始类中心的方式可以避免人工指定k值参数带来的预测误差。
图7为本公开网络流量预测模型构建装置一些实施例的示意图。如图7所示,本公开网络流量预测模型构建装置可以包括第一构建模块71、第二构建模块72、第三构建模块73和第四构建模块74,其中:
第一构建模块71,用于构建数据分类子模型,其中,所述数据分类子模型用于将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时。
在本公开的一些实施例中,第一时段数据为活动时段数据,第二时段数据为非活动时段数据。
在本公开的一些实施例中,第一流量预测子模型和第二流量预测子模型为不同类型的机器学习模型。
第二构建模块72,用于构建第一流量预测子模型,其中,所述第一流量预测子模型用于采用第一时段数据进行第一流量预测模型训练,得到第一流量预测数据。
第三构建模块73,用于构建第二流量预测子模型,其中,所述第二流量预测子模型用于采用第二时段数据进行第二流量预测模型训练,得到第二流量预测数据。
第四构建模块74,用于构建数据融合子模型,其中,所述数据融合子模型对第一流量预测数据和第二流量预测数据进行融合,输出流量预测结果。
在本公开的一些实施例中,所述网络流量预测模型可以包括数据分类子模型、第一流量预测子模型、第二流量预测子模型和数据融合子模型,训练完成的网络流量预测模型用于实现平台网络流量预测。
在本公开的一些实施例中,如图7所示,本公开网络流量预测模型构建装置还可以包括第五构建模块75,其中:
第五构建模块75,用于构建时序数据分类子模型,其中,所述时序数据分类子模型用于采用第一时段数据进行分类训练,将第一时段数据划分为第一类型数据和第二类型数据,第一类型数据为平稳型第一时段数据,第二类型数据为无规律型第一时段数据,第一类型数据用于作为第二时段数据的样点填充依据,以使得第二流量预测子模型的输入为连续型时序数据序列。
在本公开的一些实施例中,所述网络流量预测模型还可以包括时序数据分类子模型。
在本公开的一些实施例中,所述网络流量预测模型还包括影响特征确定子模型。
在本公开的一些实施例中,如图7所示,本公开网络流量预测模型构建装置还可以包括第六构建模块76,其中:
第六构建模块76,用于构建影响特征确定子模型,其中,所述影响特征确定子模型用于根据第二类型数据和活动参数进行模型训练,得到活动影响特征,活动影响特征和第一时段数据作为输入对第一流量预测子模型进行训练。
在本公开的一些实施例中,第六构建模块76可以用于构建初始类中心确定子模型,其中,初始类中心确定子模型用于根据第二类型数据和活动参数进行模型训练,通过自适应算法确定初始类中心;构建聚类分析子模型,其中,所述聚类分析子模型用于对初始类中心进行聚类预测训练,确定活动影响特征。
在本公开的一些实施例中,所述影响特征确定子模型包括初始类中心确定子模型和聚类分析子模型。
在本公开的一些实施例中,本公开网络流量预测模型构建装置可以用于执行实现本公开上述任一实施例(例如图1实施例)网络流量预测模型构建方法的操作。
基于本公开上述实施例提供的网络流量预测模型构建装置,构建的网络流量预测模型将样本数据划分为促销时段数据和非促销时段数据,对促销数据采用LightGBM算法进行模型训练,对非促销数据采用LSTM算法进行模型训练。
本公开上述实施例网络流量预测模型构建装置,构建的网络流量预测模型针对促销数据采用CNN分类器进行时序数据分类,得到平稳型数据和无规律型数据。将平稳型数据,作为LSTM算法数据样本的样点填充,保证该算法的输入是连续型时序数据,从而提升LSTM预测的准确性。将无规律型数据,利用改进后的K-means算法获取促销特征数据,该特征将作为LightGBM算法的输入,从而大幅提高促销数据预测模型的准确度。
本公开上述实施例网络流量预测模型构建装置,构建的网络流量预测模型采用改进后的K-means算法基于自适应算法获取初始类中心,可以避免人工指定k值参数带来的预测误差。
图8为本公开网络流量预测模型训练装置一些实施例的示意图。如图8所示,本公开网络流量预测模型训练装置可以包括数据分类模块81和模型训练模块82,其中
数据分类模块81,用于将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时。
在本公开的一些实施例中,第一时段数据为活动时段数据,第二时段数据为非活动时段数据。
模型训练模块82,用于采用第一时段数据和第二时段数据对网络流量预测模型进行训练,使得训练完成的网络流量预测模型用于实现平台网络流量预测。
在本公开的一些实施例中,所述网络流量预测模型为如上述任一实施例(例如图1实施例)所述的动作网络流量预测模型构建方法所构建的。
在本公开的一些实施例中,所述网络流量预测模型包括第一流量预测子模型和第二流量预测子模型,其中,第一流量预测子模型和第二流量预测子模型为不同类型的机器学习模型。
在本公开的一些实施例中,模型训练模块82可以用于采用第一时段数据进行第一流量预测模型训练,得到第一流量预测数据;采用第二时段数据进行第二流量预测模型训练,得到第二流量预测数据;对第一流量预测数据和第二流量预测数据进行融合,输出流量预测结果。
在本公开的一些实施例中,所述网络流量预测模型还可以包括时序数据分类子模型。
在本公开的一些实施例中,在本公开的一些实施例中,模型训练模块82还可以用于采用第一时段数据对时序数据分类子模型进行分类训练,其中,所述时序数据分类子模型用于将第一时段数据划分为第一类型数据和第二类型数据,第一类型数据为平稳型第一时段数据,第二类型数据为无规律型第一时段数据;将第一类型数据作为第二时段数据的样点填充依据,使得第二流量预测子模型的输入为连续型时序数据序列。
在本公开的一些实施例中,所述网络流量预测模型还可以包括影响特征确定子模型。
在本公开的一些实施例中,在本公开的一些实施例中,模型训练模块82还可以用于采用第二类型数据和活动参数对影响特征确定子模型进行模型训练,得到活动影响特征;采用活动影响特征和第一时段数据作为输入对第一流量预测子模型进行训练。
在本公开的一些实施例中,所述影响特征确定子模型包括初始类中心确定子模型和聚类分析子模型。
在本公开的一些实施例中,模型训练模块82可以用于根据第二类型数据和活动参数对初始类中心确定子模型进行模型训练,通过自适应算法确定初始类中心;采用初始类中心对聚类分析子模型进行聚类预测训练,确定活动影响特征。
在本公开的一些实施例中,模型训练模块82在根据第二类型数据和活动参数对初始类中心确定子模型进行模型训练,通过自适应算法确定初始类中心的情况下,可以用于在输入的数据样本中,随机选择一个样本点为中心点;将离中心点距离在预定距离内的所有样本点作为集合M;计算从中心点开始到集合M中每个元素的向量,将所述向量相加作为偏移向量;在集合M中计算每个点作为中心点时的偏移量,并选取偏移量最小的点作为集合M的中心点;选择中心点后,沿着偏移量的方向移动到集合M中的下一个样本点,移动距离是偏移向量的模;将下一个样本点作为中心点,重复执行将离中心点距离在预定距离内的所有点作为集合M,计算从中心点开始到集合M中每个元素的向量,将所述向量相加作为偏移向量,在集合M中计算每个点作为中心点时的偏移量,并选取偏移量最小的点作为集合M的中心点,选择中心点后,沿着偏移量的方向移动到集合M中的下一个样本点,移动距离是偏移向量的模的步骤,直到所有样本点均被归类。
在本公开的一些实施例中,本公开网络流量预测模型训练装置可以用于执行实现本公开上述任一实施例(例如图3实施例)网络流量预测模型训练方法的操作。
基于本公开上述实施例提供的网络流量预测模型训练装置,训练的网络流量预测模型将样本数据划分为促销时段数据和非促销时段数据,对促销数据采用LightGBM算法进行模型训练,对非促销数据采用LSTM算法进行模型训练。
本公开上述实施例网络流量预测模型训练装置,训练的网络流量预测模型针对促销数据采用CNN分类器进行时序数据分类,得到平稳型数据和无规律型数据。将平稳型数据,作为LSTM算法数据样本的样点填充,保证该算法的输入是连续型时序数据,从而提升LSTM预测的准确性。将无规律型数据,利用改进后的K-means算法获取促销特征数据,该特征将作为LightGBM算法的输入,从而大幅提高促销数据预测模型的准确度。
本公开上述实施例网络流量预测模型训练装置,训练的网络流量预测模型采用改进后的K-means算法基于自适应算法获取初始类中心,可以避免人工指定k值参数带来的预测误差。
图9为本公开网络流量预测设备一些实施例的示意图。如图9所示,本公开网络流量预测设备可以包括数据输入模块91和流量预测模块92,其中:
数据输入模块91,用于将平台线上数据输入网络流量预测模型,其中,所述网络流量预测模型为根据如上述任一实施例所述的网络流量预测模型训练方法训练得到的。
在本公开的一些实施例中,数据输入模块91可以用于将平台线上数据和活动参数输入网络流量预测模型。
流量预测模块92,用于采用网络流量预测模型对平台线上数据进行网络流量预测。
在本公开的一些实施例中,如图9所示,网络流量预测设备还可以包括网络流量预测模型训练装置90,其中:
网络流量预测模型训练装置90可以为如上述任一实施例(例如图8实施例)所述的网络流量预测模型训练装置。
基于本公开上述实施例提供的网络流量预测设备,可以将样本数据划分为促销时段数据和非促销时段数据,对促销数据采用LightGBM算法进行模型训练,对非促销数据采用LSTM算法进行模型训练。
本公开上述实施例的网络流量预测设备,可以针对促销数据采用CNN分类器进行时序数据分类,得到平稳型数据和无规律型数据。将平稳型数据,作为LSTM算法数据样本的样点填充,保证该算法的输入是连续型时序数据,从而提升LSTM预测的准确性。将无规律型数据,利用改进后的K-means算法获取促销特征数据,该特征将作为LightGBM算法的输入,从而大幅提高促销数据预测模型的准确度。
本公开上述实施例的网络流量预测设备采用改进后的K-means算法基于自适应算法获取初始类中心,可以避免人工指定k值参数带来的预测误差。
图10为本公开计算机装置一些实施例的结构示意图。如图10所示,计算机装置包括存储器101和处理器102。
存储器101用于存储指令,处理器102耦合到存储器101,处理器102被配置为基于存储器存储的指令执行实现如上述任一实施例(例如图1实施例)所述的网络流量模型构建方法、如上述任一实施例(例如图3实施例)所述的网络流量模型训练方法、或如上述任一实施例例如图4-图6任一实施例)所述的网络流量预测方法的操作。
在本公开的一些实施例中,处理器在执行实现如上述任一实施例(例如图1实施例)所述的网络流量模型构建方法的情况下,本公开计算机装置可以实现为本公开网络流量模型构建装置。
在本公开的一些实施例中,处理器在执行实现如上述任一实施例(例如图3实施例)所述的网络流量模型训练方法的情况下,本公开计算机装置可以实现为本公开网络流量模型训练装置。
在本公开的一些实施例中,处理器在执行实现如上述任一实施例例如图4-图6任一实施例)所述的网络流量预测方法的情况下,本公开计算机装置可以实现为本公开网络流量预测设备。
如图10所示,该计算机装置还包括通信接口103,用于与其它设备进行信息交互。同时,该计算机装置还包括总线104,处理器102、通信接口103、以及存储器101通过总线104完成相互间的通信。
存储器101可以包含高速RAM存储器,也可还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。存储器101也可以是存储器阵列。存储器101还可能被分块,并且块可按一定的规则组合成虚拟卷。
此外,处理器102可以是一个中央处理器CPU,或者可以是专用集成电路ASIC,或是被配置成实施本公开实施例的一个或多个集成电路。
基于本公开上述实施例提供的计算机装置,可以将样本数据划分为促销时段数据和非促销时段数据,对促销数据采用LightGBM算法进行模型训练,对非促销数据采用LSTM算法进行模型训练。
本公开上述实施例的计算机装置可以针对促销数据采用CNN分类器进行时序数据分类,得到平稳型数据和无规律型数据。将平稳型数据,作为LSTM算法数据样本的样点填充,保证该算法的输入是连续型时序数据,从而提升LSTM预测的准确性。将无规律型数据,利用改进后的K-means算法获取促销特征数据,该特征将作为LightGBM算法的输入,从而大幅提高促销数据预测模型的准确度。
本公开上述实施例的计算机装置采用改进后的K-means算法基于自适应算法获取初始类中心,可以避免人工指定k值参数带来的预测误差。
根据本公开的另一方面,提供一种非瞬时性计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上述任一实施例(例如图1实施例)所述的网络流量模型构建方法、如上述任一实施例(例如图3实施例)所述的网络流量模型训练方法、或如上述任一实施例例如图4-图6任一实施例)所述的网络流量预测方法。
基于本公开上述实施例提供的非瞬时性计算机可读存储介质,可以将样本数据划分为促销时段数据和非促销时段数据,对促销数据采用LightGBM算法进行模型训练,对非促销数据采用LSTM算法进行模型训练。
本公开上述实施例可以针对促销数据采用CNN分类器进行时序数据分类,得到平稳型数据和无规律型数据。将平稳型数据,作为LSTM算法数据样本的样点填充,保证该算法的输入是连续型时序数据,从而提升LSTM预测的准确性。将无规律型数据,利用改进后的K-means算法获取促销特征数据,该特征将作为LightGBM算法的输入,从而大幅提高促销数据预测模型的准确度。
本公开上述实施例采用改进后的K-means算法基于自适应算法获取初始类中心,可以避免人工指定k值参数带来的预测误差。
本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在上面所描述的网络流量预测模型构建装置、网络流量预测模型训练装置和网络流量预测设备可以实现为用于执行本申请所描述功能的通用处理器、可编程逻辑控制器(PLC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,所述的程序可以存储于一种非瞬时性计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims (16)

1.一种网络流量预测模型构建方法,其特征在于,包括:
构建数据分类子模型,其中,所述数据分类子模型用于将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时;
构建第一流量预测子模型,其中,所述第一流量预测子模型用于采用第一时段数据进行第一流量预测模型训练,得到第一流量预测数据;
构建第二流量预测子模型,其中,所述第二流量预测子模型用于采用第二时段数据进行第二流量预测模型训练,得到第二流量预测数据;
构建数据融合子模型,其中,所述数据融合子模型对第一流量预测数据和第二流量预测数据进行融合,输出流量预测结果;
构建时序数据分类子模型,其中,所述时序数据分类子模型用于采用第一时段数据进行分类训练,将第一时段数据划分为第一类型数据和第二类型数据,第一类型数据为平稳型第一时段数据,第二类型数据为无规律型第一时段数据,第一类型数据用于作为第二时段数据的样点填充依据,以使得第二流量预测子模型的输入为连续型时序数据序列;
其中,所述网络流量预测模型包括数据分类子模型、第一流量预测子模型、第二流量预测子模型、数据融合子模型和时序数据分类子模型,训练完成的网络流量预测模型用于实现平台网络流量预测。
2.根据权利要求1所述的网络流量预测模型构建方法,其特征在于,第一时段数据为活动时段数据,第二时段数据为非活动时段数据;
第一流量预测子模型和第二流量预测子模型为不同类型的机器学习模型。
3.根据权利要求1或2所述的网络流量预测模型构建方法,其特征在于,还包括:
构建影响特征确定子模型,其中,所述影响特征确定子模型用于根据第二类型数据和活动参数进行模型训练,得到活动影响特征,活动影响特征和第一时段数据作为输入对第一流量预测子模型进行训练;
其中,所述网络流量预测模型还包括影响特征确定子模型。
4.根据权利要求3所述的网络流量预测模型构建方法,其特征在于,所述构建影响特征确定子模型包括:
构建初始类中心确定子模型,其中,初始类中心确定子模型用于根据第二类型数据和活动参数进行模型训练,通过自适应算法确定初始类中心;
构建聚类分析子模型,其中,所述聚类分析子模型用于对初始类中心进行聚类预测训练,确定活动影响特征;
其中,所述影响特征确定子模型包括初始类中心确定子模型和聚类分析子模型。
5.一种网络流量预测模型训练方法,其特征在于,包括:
将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时,其中,第一时段数据为活动时段数据,第二时段数据为非活动时段数据;
采用第一时段数据和第二时段数据对网络流量预测模型进行训练,使得训练完成的网络流量预测模型用于实现平台网络流量预测,其中,所述网络流量预测模型包括第一流量预测子模型、第二流量预测子模型和时序数据分类子模型,第一流量预测子模型和第二流量预测子模型为不同类型的机器学习模型;
其中,所述采用第一时段数据和第二时段数据对网络流量预测模型进行训练包括:
采用第一时段数据进行第一流量预测模型训练,得到第一流量预测数据;
采用第二时段数据进行第二流量预测模型训练,得到第二流量预测数据;
对第一流量预测数据和第二流量预测数据进行融合,输出流量预测结果;
其中,所述采用第一时段数据和第二时段数据对网络流量预测模型进行训练还包括:
采用第一时段数据对时序数据分类子模型进行分类训练,其中,所述时序数据分类子模型用于将第一时段数据划分为第一类型数据和第二类型数据,第一类型数据为平稳型第一时段数据,第二类型数据为无规律型第一时段数据;
将第一类型数据作为第二时段数据的样点填充依据,使得第二流量预测子模型的输入为连续型时序数据序列。
6.根据权利要求5所述的网络流量预测模型训练方法,其特征在于,所述网络流量预测模型还包括影响特征确定子模型;
所述采用第一时段数据和第二时段数据对网络流量预测模型进行训练还包括:
采用第二类型数据和活动参数对影响特征确定子模型进行模型训练,得到活动影响特征;
采用活动影响特征和第一时段数据作为输入对第一流量预测子模型进行训练。
7.根据权利要求6所述的网络流量预测模型训练方法,其特征在于,所述影响特征确定子模型包括初始类中心确定子模型和聚类分析子模型;
所述采用第二类型数据和活动参数对影响特征确定子模型进行模型训练包括:
根据第二类型数据和活动参数对初始类中心确定子模型进行模型训练,通过自适应算法确定初始类中心;
采用初始类中心对聚类分析子模型进行聚类预测训练,确定活动影响特征。
8.根据权利要求7所述的网络流量预测模型训练方法,其特征在于,所述根据第二类型数据和活动参数对初始类中心确定子模型进行模型训练,通过自适应算法确定初始类中心包括:
在输入的数据样本中,随机选择一个样本点为中心点;
将离中心点距离在预定距离内的所有样本点作为集合M;
计算从中心点开始到集合M中每个元素的向量,将所述向量相加作为偏移向量;
在集合M中计算每个点作为中心点时的偏移量,并选取偏移量最小的点作为集合M的中心点;
选择中心点后,沿着偏移量的方向移动到集合M中的下一个样本点,移动距离是偏移向量的模;
将下一个样本点作为中心点,重复执行将离中心点距离在预定距离内的所有点作为集合M,计算从中心点开始到集合M中每个元素的向量,将所述向量相加作为偏移向量,在集合M中计算每个点作为中心点时的偏移量,并选取偏移量最小的点作为集合M的中心点,选择中心点后,沿着偏移量的方向移动到集合M中的下一个样本点,移动距离是偏移向量的模的步骤,直到所有样本点均被归类。
9.一种网络流量预测方法,其特征在于,包括:
将平台线上数据输入网络流量预测模型,其中,所述网络流量预测模型为根据如权利要求5-8中任一项所述的网络流量预测模型训练方法训练得到的;
采用网络流量预测模型对平台线上数据进行网络流量预测。
10.根据权利要求9所述的网络流量预测方法,其特征在于,
所述将平台线上数据输入网络流量预测模型包括:将平台线上数据和活动参数输入网络流量预测模型;
所述网络流量预测方法还包括:采用如权利要求5-8中任一项所述的网络流量预测模型训练方法对网络流量预测模型进行训练。
11.一种网络流量预测模型构建装置,其特征在于,包括:
第一构建模块,用于构建数据分类子模型,其中,所述数据分类子模型用于将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时;
第二构建模块,用于构建第一流量预测子模型,其中,所述第一流量预测子模型用于采用第一时段数据进行第一流量预测模型训练,得到第一流量预测数据;
第三构建模块,用于构建第二流量预测子模型,其中,所述第二流量预测子模型用于采用第二时段数据进行第二流量预测模型训练,得到第二流量预测数据;
第四构建模块,用于构建数据融合子模型,其中,所述数据融合子模型对第一流量预测数据和第二流量预测数据进行融合,输出流量预测结果;
第五构建模块,用于构建时序数据分类子模型,其中,所述时序数据分类子模型用于采用第一时段数据进行分类训练,将第一时段数据划分为第一类型数据和第二类型数据,第一类型数据为平稳型第一时段数据,第二类型数据为无规律型第一时段数据,第一类型数据用于作为第二时段数据的样点填充依据,以使得第二流量预测子模型的输入为连续型时序数据序列;
其中,所述网络流量预测模型包括数据分类子模型、第一流量预测子模型、第二流量预测子模型、数据融合子模型和时序数据分类子模型,训练完成的网络流量预测模型用于实现平台网络流量预测。
12.一种网络流量预测模型训练装置,其特征在于,包括:
数据分类模块,用于将平台数据按照活动时间分为第一时段数据和第二时段数据,活动时间的单位为小时,其中,第一时段数据为活动时段数据,第二时段数据为非活动时段数据;
模型训练模块,用于采用第一时段数据和第二时段数据对网络流量预测模型进行训练,使得训练完成的网络流量预测模型用于实现平台网络流量预测,其中,所述网络流量预测模型包括第一流量预测子模型、第二流量预测子模型和时序数据分类子模型,第一流量预测子模型和第二流量预测子模型为不同类型的机器学习模型;
其中,模型训练模块,用于采用第一时段数据进行第一流量预测模型训练,得到第一流量预测数据;采用第二时段数据进行第二流量预测模型训练,得到第二流量预测数据;对第一流量预测数据和第二流量预测数据进行融合,输出流量预测结果;采用第一时段数据对时序数据分类子模型进行分类训练,其中,所述时序数据分类子模型用于将第一时段数据划分为第一类型数据和第二类型数据,第一类型数据为平稳型第一时段数据,第二类型数据为无规律型第一时段数据;将第一类型数据作为第二时段数据的样点填充依据,使得第二流量预测子模型的输入为连续型时序数据序列。
13.一种网络流量预测设备,其特征在于,包括:
数据输入模块,用于将平台线上数据输入网络流量预测模型,其中,所述网络流量预测模型为根据如权利要求5-8中任一项所述的网络流量预测模型训练方法训练得到的;
流量预测模块,用于采用网络流量预测模型对平台线上数据进行网络流量预测。
14.根据权利要求13所述的网络流量预测设备,其特征在于,还包括如权利要求12所述的网络流量预测模型训练装置。
15.一种计算机装置,其特征在于,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述计算机装置执行实现如权利要求1-4中任一项所述的网络流量预测模型构建方法、如权利要求5-8中任一项所述的网络流量预测模型训练方法、或如权利要求9或10所述的网络流量预测方法的操作。
16.一种非瞬时性计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1-4中任一项所述的网络流量预测模型构建方法、如权利要求5-8中任一项所述的网络流量预测模型训练方法、或如权利要求9或10所述的网络流量预测方法。
CN202110509575.6A 2021-05-11 2021-05-11 网络流量预测方法和设备、模型构建及训练方法和装置 Active CN113259158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110509575.6A CN113259158B (zh) 2021-05-11 2021-05-11 网络流量预测方法和设备、模型构建及训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110509575.6A CN113259158B (zh) 2021-05-11 2021-05-11 网络流量预测方法和设备、模型构建及训练方法和装置

Publications (2)

Publication Number Publication Date
CN113259158A CN113259158A (zh) 2021-08-13
CN113259158B true CN113259158B (zh) 2022-12-27

Family

ID=77222574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110509575.6A Active CN113259158B (zh) 2021-05-11 2021-05-11 网络流量预测方法和设备、模型构建及训练方法和装置

Country Status (1)

Country Link
CN (1) CN113259158B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115208775A (zh) * 2022-06-23 2022-10-18 中国银行股份有限公司 手机银行流量预测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109495318A (zh) * 2018-12-17 2019-03-19 广东宜通世纪科技股份有限公司 一种移动通信网络流量预测方法、装置及可读存储介质
CN111030869A (zh) * 2019-12-20 2020-04-17 锐捷网络股份有限公司 一种网络流量的预测方法及预测装置
CN112396466A (zh) * 2020-11-30 2021-02-23 上海明略人工智能(集团)有限公司 电商平台流量预测方法、系统、存储介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10671931B2 (en) * 2016-01-29 2020-06-02 Microsoft Technology Licensing, Llc Predictive modeling across multiple horizons combining time series and external data
US11134016B2 (en) * 2018-10-26 2021-09-28 Hughes Network Systems, Llc Monitoring a communication network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109495318A (zh) * 2018-12-17 2019-03-19 广东宜通世纪科技股份有限公司 一种移动通信网络流量预测方法、装置及可读存储介质
CN111030869A (zh) * 2019-12-20 2020-04-17 锐捷网络股份有限公司 一种网络流量的预测方法及预测装置
CN112396466A (zh) * 2020-11-30 2021-02-23 上海明略人工智能(集团)有限公司 电商平台流量预测方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN113259158A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN109271374B (zh) 一种基于机器学习的数据库健康度打分方法和打分系统
WO2023279696A1 (zh) 业务风险客群的识别方法、装置、设备及存储介质
JP6459968B2 (ja) 商品推薦装置、商品推薦方法、及び、プログラム
CN107291672A (zh) 数据表的处理方法和装置
JPWO2015040790A1 (ja) 払出量予測装置、払出量予測方法、プログラム、及び、払出量予測システム
CN111967971B (zh) 银行客户数据处理方法及装置
CN111178639A (zh) 一种基于多模型融合实现预测的方法及装置
CN111815432B (zh) 金融服务风险预测方法及装置
CN111582538A (zh) 一种基于图神经网络的社群价值预测方法及系统
CN108846695A (zh) 终端更换周期的预测方法及装置
CN110704616A (zh) 设备告警工单识别方法及装置
Prasanna et al. An analysis on stock market prediction using data mining techniques
CN114187120A (zh) 一种车险理赔欺诈风险识别方法及装置
CN113256409A (zh) 基于机器学习的银行零售客户流失预测方法
CN113259158B (zh) 网络流量预测方法和设备、模型构建及训练方法和装置
CN116340726A (zh) 一种能源经济大数据清洗方法、系统、设备及存储介质
CN114971009A (zh) 一种车险出险预测方法及计算机设备
CN112308623A (zh) 基于监督学习的优质客户流失预测方法、装置及存储介质
CN115201394B (zh) 一种多组分变压器油色谱在线监测方法及相关装置
CN111292188A (zh) 配对交易智能一体化回测系统
CN113837266B (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN115936184A (zh) 一种适应多用户类型的负荷预测匹配方法
CN113326976B (zh) 一种基于时空关联的港口货运量在线预测方法及系统
CN112348318B (zh) 一种供应链风险预测模型的训练和应用方法及装置
CN115271826A (zh) 一种物流线路的价格区间预测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant