CN113055476B - 一种集群式服务系统、方法、介质和计算设备 - Google Patents
一种集群式服务系统、方法、介质和计算设备 Download PDFInfo
- Publication number
- CN113055476B CN113055476B CN202110272370.0A CN202110272370A CN113055476B CN 113055476 B CN113055476 B CN 113055476B CN 202110272370 A CN202110272370 A CN 202110272370A CN 113055476 B CN113055476 B CN 113055476B
- Authority
- CN
- China
- Prior art keywords
- data
- service
- sales
- service nodes
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000003860 storage Methods 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005538 encapsulation Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims 2
- 238000004364 calculation method Methods 0.000 description 50
- 230000008569 process Effects 0.000 description 14
- 239000000047 product Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003862 health status Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 235000021110 pickles Nutrition 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000003679 aging effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Signal Processing (AREA)
- Development Economics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种集群式服务系统、方法、介质和计算设备,该集群式服务系统包括入口节点、N个服务节点、缓存层和数据层,N为大于1的整数;其中,所述入口节点,用于将销量预测任务分成M个子任务,并将所述M个子任务分发至所述N个服务节点中的M个服务节点;根据所述M个服务节点返回的任务执行结果,确定所述销量预测任务的销量预测结果;M为大于1的整数,M小于或等于N;所述M个服务节点,用于执行所述入口节点为其分配的子任务,并向所述入口节点返回所述任务执行结果;所述缓存层,用于缓存所述M个服务节点之间实现信息协同的元数据;所述数据层,用于存储所述M个服务节点预测时所需的基础数据。
Description
技术领域
本公开涉及计算机技术领域,更具体地,本公开涉及一种集群式服务系统、方法、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
商品的销量预测对于生产排期、采购补货、仓间调拨、活动运营等众多场景都起到了非常重要的作用,做好销量预测带来的是全链路的优化。并且基于电商自身特点,相较于传统实体零售业,电商场景下的用户数量更加庞大,积累的数据也更为丰富。而海量数据一方面给销量预测准确率提升提供了更多的机会,另一方面也对预测系统的性能带来了更大的挑战。因此,如何提升预测性能成为亟待解决的技术问题。
发明内容
本公开提供了一种集群式服务系统、方法、介质和计算设备,至少能提高销量预测效率。
本公开实施例的第一方面提供一种集群式服务系统,包括入口节点、N个服务节点、缓存层和数据层,N为大于1的整数;其中,
所述入口节点,用于将销量预测任务分成M个子任务,并将所述M个子任务分发至所述N个服务节点中的M个服务节点;根据所述M个服务节点返回的任务执行结果,确定所述销量预测任务的销量预测结果;M为大于1的整数,M小于或等于N;
所述M个服务节点,用于执行所述入口节点为其分配的子任务,并向所述入口节点返回所述任务执行结果;
所述缓存层,用于缓存所述M个服务节点之间实现信息协同的元数据;
所述数据层,用于存储所述M个服务节点预测时所需的基础数据。
在本公开的一个实施例中,所述销量预测任务包括对K件商品销量的预测任务;K为大于1的整数;其中,所述入口节点,还用于:
按照所述K件商品分别对应的商品标识,将所述销量预测任务分成M个子任务,不同子任务中包括的商品标识不同;或者
根据所述K件商品分别对应的商品类目,将所述K件商品分成M个任务组;其中,每个任务组对应一个子任务。
在本公开的一个实施例中,所述元数据包括:表征服务节点是否处于空闲状态的第一状态数据;其中,所述入口节点,还用于:从所述缓存层获取所述N个服务节点中每个服务节点的第一状态数据;基于所述第一状态数据选择当前处于空闲状态的M个服务节点。
在本公开的一个实施例中,所述入口节点,还用于:将所述M个子任务按顺序分发至所述M个服务节点中的每个服务节点;或者
根据所述M个服务节点中每个服务节点支持的预测类型,为所述M个服务节点中的每个服务节点分发与其预测类型相适应的子任务。
在本公开的一个实施例中,所述元数据包括表征服务节点是否占用全局锁的第二状态数据,其中,占用所述全局锁的服务节点能对所述缓存层的当前数据进行更改操作;
所述M个服务节点中的各个服务节点,还用于:在占用所述全局锁的情况下,基于所述第二状态数据对所述缓存层存储的第一状态数据进行更改;或者
在占用所述全局锁的情况下,基于所述第二状态数据对所述缓存层存储的销量数据进行更新。
在本公开的一个实施例中,所述缓存层还用于存储多个预设数据索引;所述M个服务节点,还用于:基于接收到的子任务确定待拉取的数据清单,其中,所述数据清单包括商品标识以及所述商品标识对应的字段范围和时间范围;基于所述多个预设数据索引从所述缓存层查询所述数据清单中能完成预测的第一类商品的标识,以及所述第一类商品的标识所对应的字段范围值和时间范围值;基于所述第一类商品的标识所对应的所述字段范围值和所述时间范围值,从所述数据层拉取所述第一类商品对应的预测所需商品销量数据。
在本公开的一个实施例中,所述缓存层还用于存储商品标识与类目标识的对应关系;所述M个服务节点,还用于:统计预测时需要用到类目的P个第二类商品;P为大于等于1的整数;从所述缓存层拉取所述P个第二类商品的类目标识;对所述P个第二类商品的类目标识进行聚合,得到Q个目标类目标识;Q为大于等于1的整数,Q小于或等于P;从所述缓存层拉取所述Q个目标类目标识对应的类目数据;基于所述Q个目标类目标识对应的类目数据,从所述数据层拉取所述Q个目标类目标识对应的预测所需类目销量数据。
在本公开的一个实施例中,服务节点包括服务层和模型层,所述模型层包括多个预测模型;其中,所述服务层,用于接收所述入口节点发送的子任务,并向所述模型层中的目标预测模型发送所述子任务;接收所述目标预测模型返回的任务执行结果;向所述入口节点返回经封装处理后的所述任务执行结果;所述模型层,能与所述数据层和所述缓存层通信,所述模型层中的所述目标预测模型用于:获取执行所述子任务所需的目标数据;基于所述目标数据执行预测,得到任务执行结果。
在本公开的一个实施例中,所述入口节点,还用于:接收基于超文本传输协议(Hyper Text Transfer Protocol,HTTP)发送的所述销量预测任务;基于所述HTTP返回所述销量预测任务的所述销量预测结果。
在本公开的一个实施例中,所述入口节点的基础架构与所述N个服务节点的基础架构相同;所述缓存层的基础架构与所述数据层的基础架构不同。
在本公开的一个实施例中,所述缓存层以键值对的形式存储数据。
本公开实施例的第二方面提供一种销量预测方法,应用于集群式服务系统,所述方法包括:
将销量预测任务分成M个子任务,并将所述M个子任务分发至M个服务节点;M为大于1的整数;
根据所述M个服务节点返回的任务执行结果,确定所述销量预测任务的销量预测结果;其中,所述集群式服务系统,包括入口节点、N个服务节点、缓存层和数据层,N为大于1的整数,M小于或等于N;所述缓存层,用于缓存所述M个服务节点之间实现信息协同的元数据;所述数据层,用于存储所述M个服务节点预测时所需的基础数据。
在本公开的一个实施例中,其中,所述销量预测任务包括对K件商品销量的预测任务;K为大于1的整数;
其中,所述将销量预测任务分成M个子任务,包括:
按照所述K件商品分别对应的商品标识,将所述销量预测任务分成M个子任务,不同子任务中包括的商品标识不同;
或者
根据所述K件商品分别对应的商品类目,将所述K件商品分成M个任务组;其中,每个任务组对应一个子任务。
在本公开的一个实施例中,所述元数据包括:
表征服务节点是否处于空闲状态的第一状态数据;
其中,所述方法还包括:
从所述缓存层获取所述N个服务节点中每个服务节点的第一状态数据;
基于所述第一状态数据选择当前处于空闲状态的M个服务节点。
在本公开的一个实施例中,所述将所述M个子任务分发至M个服务节点,包括:
将所述M个子任务按顺序分发至所述M个服务节点中的每个服务节点;
或者
根据所述M个服务节点中每个服务节点支持的预测类型,为所述M个服务节点中的每个服务节点分发与其预测类型相适应的子任务。
在本公开的一个实施例中,所述元数据包括表征服务节点是否占用全局锁的第二状态数据,其中,占用所述全局锁的服务节点能对所述缓存层的当前数据进行更改操作;其中,所述方法还包括:
所述M个服务节点中占用所述全局锁的服务节点,基于所述第二状态数据对所述缓存层存储的第一状态数据进行更改;
或者
所述M个服务节点中占用所述全局锁的服务节点,基于所述第二状态数据对所述缓存层存储的销量数据进行更新。
在本公开的一个实施例中,所述缓存层还用于存储多个预设数据索引;所述方法还包括:
基于接收到的子任务确定待拉取的数据清单,其中,所述数据清单包括商品标识以及所述商品标识对应的字段范围和时间范围;
基于所述多个预设数据索引从所述缓存层查询所述数据清单中能完成预测的第一类商品的标识,以及所述第一类商品的标识所对应的字段范围值和时间范围值;
基于所述第一类商品的标识所对应的所述字段范围值和所述时间范围值,从所述数据层拉取所述第一类商品对应的预测所需商品销量数据。
在本公开的一个实施例中,所述缓存层还用于存储商品标识与类目标识的对应关系;所述方法还包括:
统计预测时需要用到类目的P个第二类商品;P为大于等于1的整数;
从所述缓存层拉取所述P个第二类商品的类目标识;
对所述P个第二类商品的类目标识进行聚合,得到Q个目标类目标识;Q为大于等于1的整数,Q小于或等于P;
从所述缓存层拉取所述Q个目标类目标识对应的类目数据;
基于所述Q个目标类目标识对应的类目数据,从所述数据层拉取所述Q个目标类目标识对应的预测所需类目销量数据。
在本公开的一个实施例中,所述方法还包括:
接收基于超文本传输协议(HTTP)发送的所述销量预测任务;
基于所述HTTP返回所述销量预测任务的所述销量预测结果。
本公开实施例的第三方面提供一种介质,其存储有计算机程序,该程序被处理器执行时实现如前述实施例的方法。
本公开实施例的第四方面提供一种计算设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前述实施例的方法。
根据本公开实施方式的集群式服务系统、方法、介质和计算设备,将销量预测任务分成M个子任务,并将M个子任务分发至M个服务节点;根据M个服务节点返回的任务执行结果,确定所述销量预测任务的销量预测结果。如此,充分利用多机或多个服务节点的计算资源,将单机/单节点任务迁移到多机系统或多个服务节点上,可用计算资源成倍增加,计算耗时成倍减少,不仅可以在更短时间内完成更多更庞大的计算任务,还能提升销量的预测效率。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1为根据本公开一实施方式的集群式服务系统的架构图;
图2为根据本公开一实施方式的基于python的Elasticsearch库的整体实现链路示意图;
图3为根据本公开一实施方式的单个服务节点与缓存层和数据层之间的关系示意图;
图4为根据本公开一实施方式的销量预测方法流程图;
图5为根据本公开一实施方式的介质示意图;
图6为根据本公开一实施方式的计算设备结构示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种集群式服务系统、方法、介质和计算设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
本申请人发现,销量预测业务场景普遍采用单机离线计算,即所有数据汇总到单台计算机节点上,并由这台节点完成全部的模型计算工作,经过一段时间的计算之后,输出总体的计算结果。这种计算方式至少具有以下缺点:
1、计算时间长:由于只用到单台计算机的计算资源,当计算量大(如商品数量较多或时间跨度较大等情况)时,往往需要数小时的计算时间才能得到结果,时效性很差。
2、数据量有限:受限于单机的计算资源,单机能处理的数据量是非常有限的,特别是在电商场景中,数据量往往非常巨大,单机往往难以处理。
3、资源瓶颈影响准确率:计算资源的缺少还会导致模型的复杂度难以提升,特别是以各种机器学习算法为代表的复杂模型,提升预测准确率的同时计算量也指数级上升,在大数据量时单机更加难以胜任,因此单节点下的预测准确率瓶颈也是十分明显的。
4、可用性差:相关技术中,预测是以“离线计算流程”的形式存在的,没有一套框架来实现预测的服务化,不同模型之间也缺少统一的标准,内外部使用的可用性较差。
有鉴于此,本公开提供一种集群式服务系统、方法、介质和计算设备。该集群式服务系统,包括入口节点、N个服务节点、缓存层和数据层,N为大于1的整数;其中,
所述入口节点,用于将销量预测任务分成M个子任务,并将所述M个子任务分发至所述N个服务节点中的M个服务节点;根据所述M个服务节点返回的任务执行结果,确定所述销量预测任务的销量预测结果;M为大于1的整数,M小于或等于N;
所述M个服务节点,用于执行所述入口节点为其分配的子任务,并向所述入口节点返回所述任务执行结果;
所述缓存层,用于缓存所述M个服务节点之间实现信息协同的元数据;
所述数据层,用于存储所述M个服务节点预测时所需的基础数据。
如此,本公开给出了一套用于销量预测的集群式服务系统,将单机/单节点的计算迁移到多机系统或多个服务节点上,能获取更多的计算资源,从根本上解决相关技术方案存在的各种问题。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
示例性系统
本公开提供了一种集群式服务系统,该集群式服务系统可以应用于服务器,使其至少可以对接收到的销量预测请求进行处理。参考图1所示,示出了集群式服务系统的架构示意图,如图1所示,集群式服务系统100可以包括入口节点110、N个服务节点120、缓存层130和数据层140,其中,N为大于1的整数;
所述入口节点110,用于将销量预测任务分成M个子任务,并将所述M个子任务分发至所述N个服务节点120中的M个服务节点120;根据M个服务节点120返回的任务执行结果,确定所述销量预测任务的销量预测结果;M为大于1的整数,M小于或等于N;
所述M个服务节点120,用于执行所述入口节点110为其分配的子任务,并向所述入口节点110返回所述任务执行结果;
所述缓存层130,用于缓存M个服务节点120之间实现信息协同的元数据;
所述数据层140,用于存储M个服务节点120预测时所需的基础数据。
本实施例中,入口节点110可以是服务器或服务器侧的设备。服务节点120可以是服务器或服务器侧的设备。服务器包括但不限于云服务器、普通服务器等服务器。缓存层130可以是用于存储数据的集群。数据层140可以是用于存储数据的集群。
本实施例中,入口节点110的基础架构与服务节点120的基础架构可以相同。示例性地,将入口节点110的基础架构与服务节点120的基础架构均记为第一架构,该第一架构可以是Tornado。当然,第一架构可根据实际情况进行设定或调整。
本实施例中,缓存层130的基础架构与数据层140的基础架构可以不同。示例性地,将缓存层130的基础架构记为第二架构,将数据层140的基础架构记为第三架构,该第二架构可以是Redis集群,该第三架构可以是Elasticsearch集群。当然,第二架构和第三架构均可根据实际情况进行设定或调整。
根据本实施例所述集群式服务系统,充分利用多机或多个服务节点的计算资源,将单机/单节点任务迁移到多机系统或多个服务节点上,使得可用的计算资源成倍增加,计算耗时成倍减少,不仅可以在更短时间内完成更多、更庞大的计算任务,还能提升销量的预测效率,大大提升预测性能。
在一些实施例中,所述销量预测任务包括对K件商品销量的预测任务;K为大于1的整数。
其中,本实施例不对商品的种类进行限定。示例性地,K件商品可以是同类但不同型号的商品;比如,K件商品均属于电子产品类,但是电子产品型号不同。又示例性地,K件商品是不同类的商品;比如,K件商品中包括服装、电子产品、书籍、健身器材、床上用品等商品。
其中,所述销量预测任务还可包括K件商品分别对应的预测时间范围、采用的模型参数等信息。示例性地,预测时间范围可根据实际需求进行设定。如预测时间范围具体到某一个月、或某一周、或某一天、或某一小于24小时的时间段、或是某一个时间点。这里,模型参数是指期望采用的服务节点中的预测模型的模型参数,单个服务节点可包括多个预测模型,每个预测模型的模型参数可以不同。当然,单个服务节点也可包括一个预测模型,不同服务节点包括的预测模型的模型参数可以不同。实际应用中,销量预测任务还可根据用户需求包含更多的控制信息,本实施例不做穷举。
基于图1所示集群式服务系统,在一些实施例中,所述入口节点110,还用于:
按照所述K件商品分别对应的商品标识,将所述销量预测任务分成M个子任务,不同子任务中包括的商品标识不同。
其中,M小于或等于K。
示例性地,K件商品对应的商品标识各不相同,将销量预测任务分成K个子任务。
又示例性地,K件商品中有2件商品的商品标识相同,将销量预测任务分成M=K-1个子任务。
如此,将包括K件商品的销量预测任务按照商品标识分成M个子任务,进而将M个子任务分配给M个服务节点,相对于单个服务节点执行销量预测任务而言,能充分利用多机或多个服务节点的计算资源,把单机/单节点任务迁移到多机系统或多个服务节点上,可用计算资源成倍增加,计算耗时成倍减少,可以在更短时间内完成更多、更庞大的计算任务。
基于图1所示集群式服务系统,在一些实施例中,所述入口节点110,还用于:
根据所述K件商品分别对应的商品类目,将所述K件商品分成M个任务组;其中,每个任务组对应一个子任务。
其中,类目可以理解为分类,分类是为了更好的管理商品。示例性地,类目包括但不限于手机、电脑、家居、母婴、视频、图书等类目。类目的具体划分标准可根据用户需求进行设定或调整。
进一步地,类目可分为一级类目、二级类目、三级类目、…、X级类目等多级类目,X为大于3的整数。示例性地,手机为一级类目,手机配件为二级类目,充电器为三级类目。又示例性地,图书为一级类目,文学为二级类目,小说为三级类目。
如此,按类目级别划分任务组,使得每个任务组中的子任务都属于同一类目级别,进而有助于为单个服务节点分配同一类目级别的子任务,提高子任务的计算效率。
在一些实施例中,所述元数据包括:表征服务节点是否处于空闲状态的第一状态数据;
其中,所述入口节点110,还用于:
从所述缓存层130获取N个服务节点120中每个服务节点120的第一状态数据;
基于所述第一状态数据选择当前处于空闲状态的M个服务节点120。
其中,第一状态数据用于表征服务节点120是否处于空闲状态。
其中,第一状态数据还可用于表征服务节点120的任务执行状态。这里,任务执行状态包括执行进度、预计完成时间等信息。
如此,能够在多个服务节点之间实现信息的协同,从而有助于快速完成销量预测任务。
在一些实施例中,所述入口节点110,还用于:
将M个子任务按顺序分发至M个服务节点120中的每个服务节点120。
示例性地,将第1个子任务分发至M个服务节点中的第1个服务节点,将第2个子任务分发至M个服务节点中的第2个服务节点,将第3个子任务分发至M个服务节点中的第3个服务节点,…,将第M个子任务分发至M个服务节点中的第M个服务节点。
如此,能够实现对各个子任务的快速分配,从而有助于提高销量预测效率。
在一些实施例中,所述入口节点110,还用于:
根据M个服务节点120中每个服务节点120支持的预测类型,为M个服务节点120中的每个服务节点120分发与其预测类型相适应的子任务。
示例性地,若第1个子任务属于第1预测类型的任务,第2个子任务属于第2预测类型的任务,第3个子任务属于第3预测类型的任务;M个服务节点中第1个服务节点支持第2预测类型,M个服务节点中第2个服务节点支持第3预测类型,M个服务节点中第3个服务节点支持第1预测类型,那么,将第1个子任务分配给M个服务节点中第3个服务节点,将第2个子任务分配给M个服务节点中第1个服务节点,将第3个子任务分配给M个服务节点中第2个服务节点。
如此,通过为每个服务节点分配其支持的预测类型的相关子任务,能够充分发挥每个服务节点的计算性能,从而有助于销量预测任务的快速完成,节省预测时间,提高预测效率。
在一些实施例中,所述元数据包括表征服务节点是否占用全局锁的第二状态数据,其中,占用所述全局锁的服务节点能对所述缓存层的当前数据进行更改操作。
示例性地,为M个服务节点分配一个全局锁,在同一时间点只允许一个服务节点占用该全局锁,而占用该全局锁的服务节点能对缓存层的当前数据进行更改操作。
在一些实施例中,M个服务节点120中的各个服务节点120,还用于:
在占用所述全局锁的情况下,基于所述第二状态数据对所述缓存层130存储的所述第一状态数据进行更改。
其中,该更改操作包括但不限于增加操作、删除操作、修改操作、查询操作。
示例性地,M个服务节点中的第3个服务节点占用全局锁,那么,该第3个服务节点能对缓存层的当前数据进行更改操作,其他未占用全局锁的服务节点不能对缓存层的当前数据进行更改操作。
如此,通过全局锁可以防止因各个服务节点同时向缓存层更改数据而导致数据异常的情况发生,保证集群式服务系统中各服务节点的数据一致性,从而使缓存层能够为实现系统中多服务节点之间的协同与数据同步提供技术支撑。
在一些实施例中,M个服务节点120中的各个服务节点120,还用于:
在占用所述全局锁的情况下,基于所述第二状态数据对所述缓存层130存储的销量数据进行更新。
示例性地,M个服务节点中的第2个服务节点占用全局锁,那么,该第2个服务节点能基于所述第二状态数据对所述缓存层存储的销量数据进行更新。
如此,通过全局锁可以防止因各个服务节点同时向缓存层写入数据而导致数据异常的情况发生,保证集群式服务系统中各服务节点的数据一致性,从而使缓存层能够为实现系统中多服务节点之间的协同与数据同步提供技术支撑。
缓存层130负责一些小规模热数据的缓存,主要实现两种功能:
1)存储一些基本的数据索引,一方面可以优化数据的查询性能,同时能保证多节点间的数据一致性。
2)用于在多个服务节点之间实现信息的协同,存储一些节点状态、任务状态等元数据信息;
基于缓存层的功能需求,需要支持小规模数据的增删改查,并且有较高的性能要求,可选择Redis集群作为缓存层的基础框架。
下面,对缓存层进行详细说明。
缓存层基于Redis框架实现,所有的缓存数据都是以key-value的形式存储在内存中,具有非常优秀的读写性能。缓存层主要存储两部分数据:预设数据索引与元数据。
预设数据索引如下表1所示:
索引名 | 功能 |
field-unit索引 | 根据字段名查询包含该字段下可用的unit列表 |
field-time索引 | 根据字段名查询包含该字段下可用的日期范围索引 |
unit-field索引 | 根据unit列表,查询可用字段名的索引 |
time-field索引 | 根据时间范围,查询可用字段名的索引 |
表1
需要说明的是,预设数据索引可以根据设计需求或用户需求进行设定或调整。
基于上述预设数据索引,服务节点每次执行查询动作时,先与缓存层进行交互,以减少不必要的全表搜索。
例如,当需要批量查询100件商品的历史销量时,可以先从缓存层确认存在有历史销量的商品,以及每件商品历史销量数据可用的时间范围(这一步查询因为是在缓存层中执行的,速度会很快),然后再根据这些可用范围,来生成"可以精确匹配"的Elasticsearch查询语句,可以减少不必要的全表搜索,大大提高在Elasticsearch中检索数据的效率。同时,缓存层保存了唯一的一份索引,可以保障不同节点之间的数据一致性。
元数据主要包括表征各服务节点是否处于空闲状态的第一状态数据以及表征服务节点是否占用全局锁的第二状态数据。
第一状态数据:每个服务节点需要定时写入当前的健康状态,其中,健康状态是指节点当前是否可用,可包括:节点IP、节点端口、上报时间戳三个字段。入口节点等外部调用方可以通过各个节点的健康状态来获取系统当前可用的节点情况。示例性地,入口节点根据各个服务节点的健康状态统计系统中当前可用的节点。
第二状态数据:基于Redis分布式锁算法,可以跨节点实现类似线程锁的功能。凭借全局Redis锁,可以保证多服务节点的数据一致性。
基于销量预测业务的特点,服务节点的输入数据具有以下特点:
1)时序性
销量预测业务需要解决的问题是“预测未来一段时间或某个时间点的销量”,具有明确的时间属性,因此相关预测模型的输入数据往往也都是各种时序数据,例如历史数据中每天的销量、流量等。其中,流量是指在一定时间内打开网站地址的人气访问量。
2)时效性
不同于传统零售场景,电商网站的商品迭代更快,促销活动更多,网站策略调整频繁,自身发展也更快,种种原因导致电商场景下的商品销量波动很大。因此要预测好电商销量,历史数据是具有时效性的——近期数据具有更高价值,越是久远的数据,参考性越弱。
3)单元性
预测销量除了时间以外,另一个核心维度就是商品。虽然商品数量众多,但是每件商品可用的历史数据字段是一致的,同一个预测模型对K件商品的计算过程,可以抽象为对K份“结构相同,数值不同”数据分别做了K次重复的计算,最终产生了K份结果。可以把每一次“输入-计算-输出”过程视为一个完整的计算单元,计算单元之间往往互不干扰、互不依赖,可以独立的进行。
综上所述,使用预测数据时,会具有以下特点:
1)基于数据的时序性和时效性,用到的数据往往会有明确的时间范围。
2)基于单元性,计算时只会用到需要的商品范围内的数据。
因此,数据层至少需要支持按时间、按商品ID的数据拉取。
数据层主要用于存储销量预测用到的各种基础数据,根据销量预测业务特点,一条数据的描述可以抽象成以下几个维度中的一种或几种:
1)单元:电商数据很多都是围绕商品的,每个商品都会具有相同的一批数据字段,因此可以抽象出“单元”的概念来描述数据的归属。
2)时间:很多数据都是时间序列(如每天的销量),因此数据需要有时间属性来标识对应时间点。
3)版本:同一份数据,还可能存在多种不同版本(例如商品的活动计划,不同时期会有不同的版本,实际使用时可能多个版本都会用到)
4)字段名:数据的唯一标识,用来描述不同的数据(如区分数据是销量、流量、折扣等)
5)数据值:具体的数据的值,只要可以序列化与反序列化的数据类型都可以作为数据的值。
下面举例说明:
表2
其中,表中“sales”表示销量,“act_level”表示活动等级,“holiday”表示节日,“SKU_1001”表示单元编码,“GLOBAL”表示全局配置。
可以理解,上述表格中内容仅仅是示意性的,实际应用中,可根据设计需求或用户需求进行设定或调整。
数据层140用于存储预测时需要用到的各种基础输入数据(如各商品的历史销量、折扣、流量等信息),支持较大规模数据的增删改查,并且考虑到电商销量预测场景特点,会尤其侧重“查”操作,因此可选择Elasticsearch集群作为数据层的基础框架。基于上述数据模型抽象,考虑到实际使用过程中的查询性能,建立的索引如
表3所示:
表3
可以理解,上述索引名和功能都是示意性的,这里不做穷举。实际应用中,索引可根据用户需求或设计需求增加或减少。
在Elasticsearch集群建立好索引之后,需要在python中封装ES(Elasticsearch的简称)操作类,可以基于python的Elasticsearch库实现,基于python的Elasticsearch库的整体实现链路如图2所示,实现以下核心功能:
1)数据序列化:python内置的pickle可以实现大部分对象的序列化与反序列化,但是原生的pickle序列化结果中可能包含特殊字符串(如"\t"、","等)。这些特殊字符串在用于ES数据上传时,会产生兼容性的问题。因此在pickle序列化的基础上,需要再进行一次base64编码(即编码到只包含A-Z、a-z、0-9、+、/共64个字符),这样序列化的结果就具有了较好的传输兼容性。基于这一方法,可以实现大部分python对象在ES的跨平台跨语言读写。
2)数据读写模块:基于数据类型的定义,把python内的数据对象翻译成ES所支持的文档形式,再进行相应的读写操作(如更新、插入等)。
应理解,图2所示的实现链路图为一种可选的具体实现方式,本领域技术人员可以基于图2的例子进行各种显而易见的变化和/或替换,得到的技术方案仍属于本公开实施例的公开范围。
在一些实施例中,M个服务节点120,还用于:
基于接收到的子任务确定待拉取的数据清单,其中,所述数据清单包括商品标识以及所述商品标识对应的字段范围和时间范围;
基于所述多个预设数据索引从所述缓存层查询所述数据清单中能完成预测的第一类商品的标识,以及所述第一类商品的标识所对应的字段范围值和时间范围值;
基于所述第一类商品的标识所对应的所述字段范围值和所述时间范围值,从所述数据层拉取所述第一类商品对应的预测所需商品销量数据。
如此,各服务节点根据缓存索引中查到的数据可用情况,向数据层拉取需要的数据。因为已经经过了缓存层过滤,一方面减少了无效的查询,另一方面缓存层提供了索引信息,可以更快速的定位到需要的数据。
在一些实施例中,所述缓存层130还用于存储商品标识与类目标识的对应关系;
M个服务节点120,还用于:
统计预测时需要用到类目的P个第二类商品;P为大于等于1的整数;
从所述缓存层拉取所述P个第二类商品的类目标识;
对所述P个第二类商品的类目标识进行聚合,得到Q个目标类目标识;Q为大于等于1的整数,Q小于或等于P;
从所述缓存层拉取所述Q个目标类目标识对应的类目数据;
基于所述Q个目标类目标识对应的类目数据,从所述数据层拉取所述Q个目标类目标识对应的预测所需类目销量数据。
如此,各服务节点根据缓存索引中查到的数据可用情况,向数据层拉取需要的数据,能够减少拉取类目销量数据的次数,节省单独拉取类目销量数据所耗费时间,从而有助于提升预测效率。
在一些实施例中,服务节点120包括服务层1201和模型层1202,所述模型层1202包括多个预测模型;其中,
所述服务层1201,用于接收所述入口节点110发送的子任务,并向所述模型层1202中的目标预测模型发送所述子任务;接收所述目标预测模型返回的任务执行结果;向所述入口节点110返回经封装处理后的所述任务执行结果;
所述模型层1202,能与所述数据层140和所述缓存层130通信,所述模型层1202中的所述目标预测模型用于:获取执行所述子任务所需的目标数据;基于所述目标数据执行预测,得到任务执行结果。
图3示出了单个服务节点与缓存层和数据层之间的关系示意图,如图3所示,作为完成销量预测计算的承载实体的服务节点,包括服务层1201和模型层1202两部分,服务层1201实现了HTTP服务的各种基本功能,如请求的接收、计算结果的输出、健康状态上报等,基于Tornado实现。服务层1201会监听节点上指定的端口,来接受各种请求。接收到请求后,将请求参数透传给模型层1202。模型层1202负责完成各种解析、计算工作,得到相应的计算结果上报到服务层1201,再由服务层1201封装并进行返回。模型层1202实现了各种具体的销量预测计算逻辑。对于不同的计算模型,模型层1202定义了统一的输入输出格式,只要能对输入输出格式进行兼容即可。在实现上,不同模型是"可插拔"的,模型可以任意增减而不影响系统的运行。模型层1202可以直接与数据层140、缓存层130进行通信,在执行预测计算之前,需要获取计算需要用到的数据。而基于前面数据层的定义以及销量预测服务的特点,模型层1202拉取数据时需要提供以下信息:商品ID列表、字段列表、时间范围。
如此,上述服务节点的结构设计使得更多复杂模型的使用成为了可能,进而支持的特征数量更多,从而能大大提升预测性能。
在一些实施例中,所述入口节点110,还用于:
接收基于HTTP发送的销量预测任务;
基于所述HTTP返回所述销量预测任务的销量预测结果。
实际应用中,入口节点110对外提供统一的服务接口,接收预测任务的输入,并对其拆解和分发,可以视为是一个简单的节点,这个节点的模型层可以只包含一个模型,该模型负责基于用户终端的输入,拆解成具体的子任务,然后分发到各个服务节点上完成计算,收集各个服务节点的计算结果,最后封装到一起返回给用户终端。入口节点同样可以基于Tornado进行实现。
如此,销量预测结果由入口节点根据接收到的各个服务节点返回的任务执行结果确定出后返回用户终端,即不做落地,将销量预测结果直接返回用户终端而不在入口节点做存储,既能减少对入口节点内存资源的占用,又能提高数据的安全性。
在一些实施例中,所述缓存层130以键值对(key-value)的形式存储数据。其中,key表示索引,value表示该索引对应的值。
如此,所有的数据都拉平到同一个key-value层级上进行存储,能够提升缓存层的读取性能,进而有助于提升预测速率。
综上,本公开提出的集群式的销量预测服务系统,至少具有以下优势:
1、充分利用多机或多个服务节点的计算资源,把由单机或单个服务节点负责的计算任务迁移到多机系统或多个服务节点上,可用的计算资源成倍增加,计算耗时成倍减少,可以在更短时间内完成更多更庞大的计算任务;
2、提升预测效率,使得更多复杂模型的使用成为了可能,由于每个模型支持的特征可能不同,使系统支持的模型特征数量更多,进而提升预测准确率;
3、电商网站、APP后台,往往都存在众多复杂的、实时性的线上系统,而销量预测的效率提升与服务化,能让预测数据更好的与其他线上系统联动,接入更多的线上决策流程,创造更多价值。
示例性方法
在介绍了本公开示例性实施方式的系统之后,接下来,对本公开示例性实施方式的方法进行说明。
本公开提供了应用于上文所述的集群式服务系统的销量预测方法,如图4所示,包括:
S401:将销量预测任务分成M个子任务,并将所述M个子任务分发至M个服务节点;M为大于1的整数;
S402:根据所述M个服务节点返回的任务执行结果,确定所述销量预测任务的销量预测结果。
在S401中,所述销量预测任务可以是对多件商品的销量预测任务。
在S402中,所述销量预测结果可以包括各个商品在预设时间段内的销量预测值。
根据本实施例所述方法,充分利用多个服务节点的计算资源,将由单机或单个服务节点负责的计算任务迁移到多机系统或多个服务节点上,可用的计算资源成倍增加,计算耗时成倍减少,不仅可以在更短时间内完成更多更庞大的计算任务,还能提升销量的预测效率。
在一些实施例中,所述销量预测任务包括对K件商品销量的预测任务;K为大于1的整数。
其中,K的值可根据用户需求进行设定或调整。
基于图4所示销量预测方法,在一些实施例中,将销量预测任务分成M个子任务,包括:
按照所述K件商品分别对应的商品标识,将所述销量预测任务分成M个子任务,不同子任务中包括的商品标识不同。
其中,M小于或等于K。
示例性地,K件商品对应的商品标识各不相同,将销量预测任务分成K个子任务。
又示例性地,K件商品中有2件商品的商品标识相同,将销量预测任务分成M=K-1个子任务。
如此,将包括K件商品的销量预测任务按照商品标识分成M个子任务,进而将M个子任务分配给M个服务节点,相对于单个服务节点执行销量预测任务而言,能充分利用多机或多个服务节点的计算资源,把单机/单节点任务迁移到多机系统或多个服务节点上,可用计算资源成倍增加,计算耗时成倍减少,可以在更短时间内完成更多、更庞大的计算任务。
基于图4所示销量预测方法,在一些实施例中,所述将销量预测任务分成M个子任务,包括:
根据所述K件商品分别对应的商品类目,将所述K件商品分成M个任务组;每个任务组对应一个子任务。
其中,类目可以理解为分类,分类是为了更好的管理商品。示例性地,类目包括但不限于手机、电脑、家居、母婴、视频、图书等类目。类目的具体划分标准可根据用户需求进行设定或调整。
进一步地,类目可分为一级类目、二级类目、三级类目、…、X级类目等多级类目,X为大于3的整数。示例性地,手机为一级类目,手机配件为二级类目,充电器为三级类目。又示例性地,图书为一级类目,文学为二级类目,小说为三级类目。
如此,按照类目划分任务组,使得每个任务组中的子任务都属于同一类目,进而有助于为单个服务节点分配同一类目的子任务,提高子任务的计算效率。
在一些实施例中,所述元数据包括:
表征服务节点是否处于空闲状态的第一状态数据;
其中,所述方法还可包括:
步骤S403:从所述缓存层获取所述N个服务节点中每个服务节点的第一状态数据;基于所述第一状态数据选择当前处于空闲状态的M个服务节点。
在一些实施例中,所述将所述M个子任务分发至M个服务节点,包括:
将所述M个子任务按顺序分发至所述M个服务节点中的每个服务节点。
如此,能够实现对各个子任务的快速分配,从而有助于提高销量预测效率。
在一些实施例中,所述将所述M个子任务分发至M个服务节点,包括:
根据所述M个服务节点中每个服务节点支持的预测类型,为所述M个服务节点中的每个服务节点分发与其预测类型相适应的子任务。
如此,通过为每个服务节点分配其支持的预测类型的相关子任务,能够充分发挥每个服务节点的计算性能,从而有助于销量预测任务的快速完成,节省预测时间,提高预测效率。
在一些实施例中,所述元数据包括表征服务节点是否占用全局锁的第二状态数据,其中,占用所述全局锁的服务节点能对所述缓存层的当前数据进行更改操作。
在一些实施例中,所述方法还可包括:
所述M个服务节点中占用所述全局锁的服务节点,基于所述第二状态数据对所述缓存层存储的所述第一状态数据进行更改。其中,该更改操作包括但不限于增加操作、删除操作、修改操作、查询操作。
示例性地,M个服务节点中的第3个服务节点占用全局锁,那么,该第3个服务节点能对缓存层的当前数据进行更改操作,其他未占用全局锁的服务节点不能对缓存层的当前数据进行更改操作。
如此,通过全局锁可以防止因各个服务节点同时向缓存层更改数据而导致数据异常的情况发生,保证集群式服务系统中各服务节点的数据一致性,从而使缓存层能够为实现系统中多服务节点之间的协同与数据同步提供技术支撑。
在一些实施例中,所述方法还可包括:
所述M个服务节点中占用所述全局锁的服务节点,基于所述第二状态数据对所述缓存层存储的销量数据进行更新。
如此,通过全局锁可以防止因各个服务节点同时向缓存层写入数据而导致数据异常的情况发生,保证集群式服务系统中各服务节点的数据一致性,从而使缓存层能够为实现系统中多服务节点之间的协同与数据同步提供技术支撑。
在一些实施例中,所述缓存层还用于存储多个预设数据索引;所述方法还可包括:
基于接收到的子任务确定待拉取的数据清单,其中,所述数据清单包括商品标识以及所述商品标识对应的字段范围和时间范围;
基于所述多个预设数据索引从所述缓存层查询所述数据清单中能完成预测的第一类商品的标识,以及所述第一类商品的标识所对应的字段范围值和时间范围值;
基于所述第一类商品的标识所对应的所述字段范围值和所述时间范围值,从所述数据层拉取所述第一类商品对应的预测所需商品销量数据。
如此,各服务节点根据缓存索引中查到的数据可用情况,向数据层拉取需要的数据。因为已经经过了缓存层过滤,一方面减少了无效的查询,另一方面缓存层提供了索引信息,可以更快速的定位到需要的数据。
在一些实施例中,所述缓存层还用于存储商品标识与类目标识的对应关系;所述方法还可包括:
统计预测时需要用到类目的P个第二类商品;P为大于等于1的整数;
从所述缓存层拉取所述P个第二类商品的类目标识;
对所述P个第二类商品的类目标识进行聚合,得到Q个目标类目标识;Q为大于等于1的整数,Q小于或等于P;
从所述缓存层拉取所述Q个目标类目标识对应的类目数据;
基于所述Q个目标类目标识对应的类目数据,从所述数据层拉取所述Q个目标类目标识对应的预测所需类目销量数据。
如此,各服务节点根据缓存索引中查到的数据可用情况,向数据层拉取需要的数据,能够减少拉取类目销量数据的次数,节省单独拉取类目销量数据所耗费时间,从而有助于提升预测效率。
在一些实施例中,所述方法还可包括:接收基于HTTP发送的所述销量预测任务;基于所述HTTP返回所述销量预测任务的所述销量预测结果。
如此,销量预测结果由入口节点根据接收到的各个服务节点返回的任务执行结果确定出后返回用户终端,即不做落地,将销量预测结果直接返回用户终端而不在入口节点做存储,即能减少对入口节点内存资源的占用,又能提高数据的安全性。
本公开销量预测方法所涉及的集群式服务系统中各模块参见上述集群式服务系统中的对应描述,在此不再赘述。
基于图1所示销量预测系统,在一些实施例中,销量预测流程如下:
1、用户终端发送预测请求到入口节点,包括需要进行预测的商品列表、日期范围、模型参数等必要信息;
2、入口节点与缓存层交互,查询当前可用的服务节点数量M;
3、入口节点收到预测请求后,按照商品ID,把整个预测任务拆解为M个子任务。并且,在拆解的过程中,由于不同商品可能属于不同类目、具有不同销售特性,可以使用不同的模型进行计算。因此,除了均匀拆分,还可以按照需要对商品进行分组,同一组内的商品使用相同的模型和参数,然后将整组任务分发到同一个服务节点上。
4、M个子任务分发到M个可用服务节点上,M个服务节点并行的开始计算过程;
5、各服务节点根据任务输入,以及相应的模型、参数,拉取计算所需的数据清单,其中,数据清单包括需要哪些字段、哪段时间、哪些商品等数据。
6、各服务节点向缓存层的索引进行查询,快速确认(字段、时间、商品)数据需求哪些能被满足(即哪些商品能具备有需要的字段、并且字段满足时间范围,商品由于售卖时间不同,上架时间不同,未必能满足模型计算需要的历史数据长度),确认能完成计算的商品ID列表,以及对应数据的具体字段范围、时间范围、存放索引。
7、对于不同粒度的单元,保证同一个计算节点对同一个单元只保有一份数据,例如:预测时要用到商品自身销量,同时也会用到商品的类目销量。对于多件商品,可能共享同一份类目数据。因此,在拉取数据的时候,不需要对每个商品ID都拉一份类目数据,而是根据类目关系映射,汇总好本节点计算时总共需要哪些类目ID对应的数据,然后一次性把需要的类目ID数据拉取回来,后续计算过程中引用同一份数据进行计算。
8、各服务节点根据缓存索引中查到的数据可用情况,向数据层拉取需要的数据。因为已经经过了缓存层过滤,一方面减少了无效的查询,另一方面缓存层提供了索引信息,可以更快速的定位到需要的数据。
9、各服务节点拿到需要的数据时,开始执行销量预测的计算过程。
10、服务节点完成子任务的计算后,将结果返回给入口节点;
11、入口节点将各服务节点对不同商品进行预测得到的结果,汇总封装成一份数据,返回给用户终端。
举例说明,假设当前需要预测1000件商品在2021年1月1日~2021年1月30日每一天的销量(求1000件*30天的销量数值),用户将相关参数发送给入口节点;入口节点查询到当前可用10个服务节点,因此,可以将计算任务拆分成至少10份。在拆分的过程中,考虑到1000件商品的属于不同类目,具有不同的数据特点,可以采用不同的模型进行计算(具体的映射关系可以进行人工配置)。因此,按照商品特性,适用同一种模型的商品放入同一个任务组当中。假设1000件商品中包括5个类目,每个类目200件商品,最终被拆分成以下10组任务:
任务1(商品1~100,类目1,模型1)
任务2(商品101~200,类目1,模型1)
任务3(商品201~300,类目2,模型2)
任务4(商品301~400,类目2,模型2)
任务5(商品401~500,类目3,模型3)
…………
每组任务由入口节点分别分发到10个服务节点上,每个服务节点对应一个计算任务。
每个服务节点接收到计算任务后,服务节点开始调用模型并行预测计算,计算过程中先从缓存层拉取每件商品可用的字段以及字段对应的时间范围,然后根据模型的需求(例如模型1需要近30天的历史销量数据,那么上架不足30天的商品就无法在模型1的计算中得到计算结果),确认满足计算条件的商品列表,以及所有商品计算需要用到的特征数据清单和索引(例如商品1~商品100中,仅有商品1~商品90具有足够长的历史数据,那么需要用到的特征数据就是商品1~商品90近30天的历史销量等),如果要用到其他粒度的数据,需要模型层对数据需求进行汇总,再执行拉取动作(例如还需要类目的销量数据,经汇总发现商品1~商品90都属于类目1,那就只要执行一次类目粒度数据的拉取,拉取目标为类目1的销量)。
服务节点获取到需要的特征输入数据后开始执行计算,得到结果后,返回给入口节点。入口节点将所有结果拼装在一起,得到最终的计算结果,返回给用户终端。
显然,在上述10个节点的例子中,因为利用到了10倍于单机的计算资源,显然最终计算的耗时也将是单机计算的1/10,并且每个节点上所需要用到的数据量也将缩减为原本的1/10。这样,很多在单机计算无法完成(时间或空间超出限制)的庞大预测任务,都可以在这个集群式系统很好的完成。同时所有的数据按照实际模型的计算需要(按商品ID范围、按时间范围、类目数据复用)进行拉取,保证不会占用多余的存储空间和传输时间。
示例性介质
在介绍了本公开示例性实施方式的方法之后,接下来,参考图5对本公开示例性实施方式的介质进行说明。
在一些可能的实施方式中,本公开的各个方面还可以实现为一种计算机可读介质,其上存储有程序,当程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的销量预测方法中的步骤。
具体地,上述处理器执行上述程序时用于实现如下步骤:
将销量预测任务分成M个子任务,并将所述M个子任务分发至M个服务节点;M为大于1的整数;
根据所述M个服务节点返回的任务执行结果,确定所述销量预测任务的销量预测结果。
需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)或闪存、光纤、便携式紧凑盘只读存储器(Compact Disc Read-OnlyMemory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图5所示,描述了根据本公开的实施方式的介质500,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序,并可以在设备上运行。然而,本公开不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络—包括局域网(Local Area Network,LAN)或广域网(Wide Area Network,WAN)—连接到用户计算设备。
示例性计算设备
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,参考图6对本公开示例性实施方式的计算设备进行说明。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本公开实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中,存储单元存储有程序代码,当程序代码被处理单元执行时,使得处理单元执行本说明书上述“示例性方法”部分中描述的根据本公开的各种示例性实施方式的销量预测方法中的步骤。
下面参照图6来描述根据本公开的这种实施方式的计算设备600。图6显示的计算设备600仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,计算设备600以通用计算设备的形式表现。计算设备600的组件可以包括但不限于:上述至少一个处理单元601、上述至少一个存储单元602,连接不同系统组件(包括处理单元601和存储单元602)的总线603。
总线603包括数据总线、控制总线和地址总线。
存储单元602可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)6021和/或高速缓存存储器6022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)6023。
存储单元602还可以包括具有一组(至少一个)程序模块6024的程序/实用工具6025,这样的程序模块6024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备600也可以与一个或多个外部设备604(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口605进行。并且,计算设备600还可以通过网络适配器606与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器606通过总线603与计算设备600的其它模块通信。应当理解,尽管图6中未示出,可以结合计算设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、独立磁盘冗余阵列(Redundant Array ofIndependent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了文本分类装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (21)
1.一种集群式服务系统,其特征在于,包括入口节点、N个服务节点、缓存层和数据层,N为大于1的整数;其中,
所述入口节点,用于将销量预测任务分成M个子任务,并将所述M个子任务分发至所述N个服务节点中的M个服务节点;根据所述M个服务节点返回的任务执行结果,确定所述销量预测任务的销量预测结果;M为大于1的整数,M小于或等于N;
所述M个服务节点,用于执行所述入口节点为其分配的子任务,并向所述入口节点返回所述任务执行结果;
所述缓存层,用于缓存所述M个服务节点之间实现信息协同的元数据;所述元数据包括表征服务节点是否占用全局锁的第二状态数据,其中,占用所述全局锁的服务节点能对所述缓存层的当前数据进行更改操作,所述更改操作包括:在占用所述全局锁的情况下,基于所述第二状态数据对所述缓存层存储的第一状态数据进行更改;所述第一状态数据用于表征服务节点是否处于空闲状态;
所述数据层,用于存储所述M个服务节点预测时所需的基础数据。
2.根据权利要求1所述的系统,其中,所述销量预测任务包括对K件商品销量的预测任务;K为大于1的整数;
其中,所述入口节点,还用于:
按照所述K件商品分别对应的商品标识,将所述销量预测任务分成M个子任务,不同子任务中包括的商品标识不同;
或者
根据所述K件商品分别对应的商品类目,将所述K件商品分成M个任务组;其中,每个任务组对应一个子任务。
3.根据权利要求1所述的系统,其中,所述入口节点,还用于:
从所述缓存层获取所述N个服务节点中每个服务节点的第一状态数据;
基于所述第一状态数据选择当前处于空闲状态的M个服务节点。
4.根据权利要求1所述的系统,其中,所述入口节点,还用于:
将所述M个子任务按顺序分发至所述M个服务节点中的每个服务节点;
或者
根据所述M个服务节点中每个服务节点支持的预测类型,为所述M个服务节点中的每个服务节点分发与其预测类型相适应的子任务。
5.根据权利要求1所述的系统,其中,所述M个服务节点中的各个服务节点还用于:
在占用所述全局锁的情况下,基于所述第二状态数据对所述缓存层存储的销量数据进行更新。
6.根据权利要求1所述的系统,其中,所述缓存层还用于存储多个预设数据索引;
所述M个服务节点,还用于:
基于接收到的子任务确定待拉取的数据清单,其中,所述数据清单包括商品标识以及所述商品标识对应的字段范围和时间范围;
基于所述多个预设数据索引从所述缓存层查询所述数据清单中能完成预测的第一类商品的标识,以及所述第一类商品的标识所对应的字段范围值和时间范围值;
基于所述第一类商品的标识所对应的所述字段范围值和所述时间范围值,从所述数据层拉取所述第一类商品对应的预测所需商品销量数据。
7.根据权利要求1所述的系统,其中,所述缓存层还用于存储商品标识与类目标识的对应关系;
所述M个服务节点,还用于:
统计预测时需要用到类目的P个第二类商品;P为大于等于1的整数;
从所述缓存层拉取所述P个第二类商品的类目标识;
对所述P个第二类商品的类目标识进行聚合,得到Q个目标类目标识;Q为大于等于1的整数,Q小于或等于P;
从所述缓存层拉取所述Q个目标类目标识对应的类目数据;
基于所述Q个目标类目标识对应的类目数据,从所述数据层拉取所述Q个目标类目标识对应的预测所需类目销量数据。
8.根据权利要求1所述的系统,其中,服务节点包括服务层和模型层,所述模型层包括多个预测模型;其中,
所述服务层,用于接收所述入口节点发送的子任务,并向所述模型层中的目标预测模型发送所述子任务;接收所述目标预测模型返回的任务执行结果;向所述入口节点返回经封装处理后的所述任务执行结果;
所述模型层,能与所述数据层和所述缓存层通信,所述模型层中的所述目标预测模型用于:获取执行所述子任务所需的目标数据;基于所述目标数据执行预测,得到任务执行结果。
9.根据权利要求1所述的系统,其中,所述入口节点,还用于:
接收基于超文本传输协议HTTP发送的所述销量预测任务;
基于所述HTTP返回所述销量预测任务的所述销量预测结果。
10.根据权利要求1所述的系统,其中,所述入口节点的基础架构与所述N个服务节点的基础架构相同;所述缓存层的基础架构与所述数据层的基础架构不同。
11.根据权利要求1所述的系统,其中,所述缓存层以键值对的形式存储数据。
12.一种销量预测方法,应用于集群式服务系统,其特征在于,所述方法包括:
将销量预测任务分成M个子任务,并将所述M个子任务分发至M个服务节点;M为大于1的整数;
根据所述M个服务节点返回的任务执行结果,确定所述销量预测任务的销量预测结果;其中,所述集群式服务系统,包括入口节点、N个服务节点、缓存层和数据层,N为大于1的整数,M小于或等于N;所述缓存层,用于缓存所述M个服务节点之间实现信息协同的元数据;所述元数据包括表征服务节点是否占用全局锁的第二状态数据,其中,占用所述全局锁的服务节点能对所述缓存层的当前数据进行更改操作,所述更改操作包括:在占用所述全局锁的情况下,基于所述第二状态数据对所述缓存层存储的第一状态数据进行更改;所述第一状态数据用于表征服务节点是否处于空闲状态;所述数据层,用于存储所述M个服务节点预测时所需的基础数据。
13.根据权利要求12所述的方法,其中,所述销量预测任务包括对K件商品销量的预测任务;K为大于1的整数;
其中,所述将销量预测任务分成M个子任务,包括:
按照所述K件商品分别对应的商品标识,将所述销量预测任务分成M个子任务,不同子任务中包括的商品标识不同;
或者
根据所述K件商品分别对应的商品类目,将所述K件商品分成M个任务组;其中,每个任务组对应一个子任务。
14.根据权利要求12所述的方法,其中,所述方法还包括:
从所述缓存层获取所述N个服务节点中每个服务节点的第一状态数据;
基于所述第一状态数据选择当前处于空闲状态的M个服务节点。
15.根据权利要求12所述的方法,其中,所述将所述M个子任务分发至M个服务节点,包括:
将所述M个子任务按顺序分发至所述M个服务节点中的每个服务节点;
或者
根据所述M个服务节点中每个服务节点支持的预测类型,为所述M个服务节点中的每个服务节点分发与其预测类型相适应的子任务。
16.根据权利要求12所述的方法,其中,所述方法还包括:
所述M个服务节点中占用所述全局锁的服务节点,基于所述第二状态数据对所述缓存层存储的销量数据进行更新。
17.根据权利要求12所述的方法,其中,所述缓存层还用于存储多个预设数据索引;
所述方法还包括:
基于接收到的子任务确定待拉取的数据清单,其中,所述数据清单包括商品标识以及所述商品标识对应的字段范围和时间范围;
基于所述多个预设数据索引从所述缓存层查询所述数据清单中能完成预测的第一类商品的标识,以及所述第一类商品的标识所对应的字段范围值和时间范围值;
基于所述第一类商品的标识所对应的所述字段范围值和所述时间范围值,从所述数据层拉取所述第一类商品对应的预测所需商品销量数据。
18.根据权利要求12所述的方法,其中,所述缓存层还用于存储商品标识与类目标识的对应关系;
所述方法还包括:
统计预测时需要用到类目的P个第二类商品;P为大于等于1的整数;
从所述缓存层拉取所述P个第二类商品的类目标识;
对所述P个第二类商品的类目标识进行聚合,得到Q个目标类目标识;Q为大于等于1的整数,Q小于或等于P;
从所述缓存层拉取所述Q个目标类目标识对应的类目数据;
基于所述Q个目标类目标识对应的类目数据,从所述数据层拉取所述Q个目标类目标识对应的预测所需类目销量数据。
19.根据权利要求12所述的方法,其中,所述方法还包括:
接收基于超文本传输协议HTTP发送的所述销量预测任务;
基于所述HTTP返回所述销量预测任务的所述销量预测结果。
20.一种介质,其存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求12-19中任一所述的方法。
21.一种计算设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求12-19中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110272370.0A CN113055476B (zh) | 2021-03-12 | 2021-03-12 | 一种集群式服务系统、方法、介质和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110272370.0A CN113055476B (zh) | 2021-03-12 | 2021-03-12 | 一种集群式服务系统、方法、介质和计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113055476A CN113055476A (zh) | 2021-06-29 |
CN113055476B true CN113055476B (zh) | 2022-07-26 |
Family
ID=76513331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110272370.0A Active CN113055476B (zh) | 2021-03-12 | 2021-03-12 | 一种集群式服务系统、方法、介质和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113055476B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6014669A (en) * | 1997-10-01 | 2000-01-11 | Sun Microsystems, Inc. | Highly-available distributed cluster configuration database |
CN103678537A (zh) * | 2013-12-02 | 2014-03-26 | 华为技术有限公司 | 基于集群的元数据修改方法、装置及节点设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7624118B2 (en) * | 2006-07-26 | 2009-11-24 | Microsoft Corporation | Data processing over very large databases |
CN106406987B (zh) * | 2015-07-29 | 2020-01-03 | 阿里巴巴集团控股有限公司 | 一种集群中的任务执行方法及装置 |
CN108319623B (zh) * | 2017-01-18 | 2021-10-22 | 华为技术有限公司 | 一种数据重分布方法、装置及数据库集群 |
CN107239342A (zh) * | 2017-05-31 | 2017-10-10 | 郑州云海信息技术有限公司 | 一种存储集群任务管理方法及装置 |
CN110018896A (zh) * | 2018-01-08 | 2019-07-16 | 武汉斗鱼网络科技有限公司 | 一种任务处理方法、装置、执行端集群及介质 |
CN109327509B (zh) * | 2018-09-11 | 2022-01-18 | 武汉魅瞳科技有限公司 | 一种主/从架构的低耦合的分布式流式计算系统 |
CN109558674A (zh) * | 2018-11-28 | 2019-04-02 | 北京超萌国际文化有限公司 | 销量预测及其模型训练方法、装置 |
-
2021
- 2021-03-12 CN CN202110272370.0A patent/CN113055476B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6014669A (en) * | 1997-10-01 | 2000-01-11 | Sun Microsystems, Inc. | Highly-available distributed cluster configuration database |
CN103678537A (zh) * | 2013-12-02 | 2014-03-26 | 华为技术有限公司 | 基于集群的元数据修改方法、装置及节点设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113055476A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11615087B2 (en) | Search time estimate in a data intake and query system | |
US11580107B2 (en) | Bucket data distribution for exporting data to worker nodes | |
US10447772B2 (en) | Managed function execution for processing data streams in real time | |
US11586627B2 (en) | Partitioning and reducing records at ingest of a worker node | |
US20220327125A1 (en) | Query scheduling based on a query-resource allocation and resource availability | |
US11321321B2 (en) | Record expansion and reduction based on a processing task in a data intake and query system | |
US11599541B2 (en) | Determining records generated by a processing task of a query | |
US11593377B2 (en) | Assigning processing tasks in a data intake and query system | |
US20190258632A1 (en) | Determining a Record Generation Estimate of a Processing Task | |
US20210117425A1 (en) | Management of distributed computing framework components in a data fabric service system | |
CN106980669B (zh) | 一种数据的存储、获取方法及装置 | |
US20190095493A1 (en) | Multi-partition operation in combination operations | |
US20190095494A1 (en) | Multi-partitioning determination for combination operations | |
US10135703B1 (en) | Generating creation performance metrics for a secondary index of a table | |
US11762860B1 (en) | Dynamic concurrency level management for database queries | |
CN114297173A (zh) | 一种面向大规模海量数据的知识图谱构建方法和系统 | |
CN114443680A (zh) | 数据库管理系统、相关装置、方法和介质 | |
CN110266555A (zh) | 用于分析网站服务请求的方法 | |
CN113760966A (zh) | 基于异构数据库系统的数据处理方法和装置 | |
CN113055476B (zh) | 一种集群式服务系统、方法、介质和计算设备 | |
CN116975052A (zh) | 数据处理方法及相关设备 | |
CN105096096A (zh) | 任务性能评价方法及系统 | |
Sultan et al. | Dynamic cloud resources allocation | |
Chen et al. | Research on Data Storage and Processing Optimization Based on Federation HDFS and Spark | |
CN118838719A (zh) | 一种分布式计算负载均衡方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |